2014 NIPS 후기

by d_ijk_stra

기계학습에 대한 사회 전반의 관심이 높아지면서 이 분야에서 가장 권위있는 학회인 NIPS의 규모가 기하급수적으로 커지고 있고, 이곳에 논문을 출판하기 위한 경쟁도 심화되고 있다. 그러다 보니 아무래도 현재 유행을 타고 있는 분야의 논문들이 상대적으로 그렇지 못한 분야의 논문들보다 이 치열한 경쟁을 뚫고 올라올 확률이 높아, 이번 NIPS에 출판된 논문들도 특정 주제에 심하게 쏠리는 경향을 보였다. 내 부족한 식견 안에 들어오는 논문들 내에서 판단하기로는 다음과 같은 주제들이 특별히 인기가 있었던 것 같다.

– 당연하지만, Deep learning! 정식으로 학회에 포함되지 않는 deep learning workshop의 규모(참석한 인원 수, 제출된 논문 등)만도 웬만한 학회에 필적해 deep learning에 대한 엄청난 관심을 실감하게 했다. Deep learning의 이론적/철학적인 측면에서부터 이미지, 자연어 처리와 같은 잘 알려진 응용 분야 뿐만 아니라 새로운 분야에 대한 응용까지, 아주 다양한 주제의 deep learning 논문들이 올해의 NIPS에 쏟아졌다. 여담이지만 일부 경험이 많은 연구자들은 마치 10년 전에 kernel method가 유행하기 시작하던 때와 비슷하다며 그 때를 회상하시곤 했다. 지금 deep learning이 ImageNet에서의 성과를 바탕으로 유명세를 얻고 있는 것처럼, 당시에는 kernel method가 MNIST 데이터셋에서 주목할 만한 성공을 보이며 유행을 타기 시작했고 NIPS를 kernel method가 점령하다시피 했다는 것. 과연 deep learning은 어떻게 성장해 나갈지 그 귀추에 관심이 간다. 또다른 여담이지만 deep learning과 kernel method의 조합에 대한 논문들도 이번 학회에서 찾아볼 수 있었다.

– Spectral method 역시 굉장한 숫자의 논문들이 쏟아져 나왔다. 이 주제의 기본적인 아이디어는 통계적인 모델의 파라미터 추정에 있어 MLE/MAP/Fully Bayesian 방법론을 사용하는 것이 아니라 데이터를 PCA와 같은 spectral method로 전처리 한 후 통계적인 모델의 spectral property와 moment matching을 하자는 것인데, 아이디어 자체는 오래된 것이지만 최근 LDA처럼 제법 복잡한 모델에도 적용할 수 있다는 성과가 나오면서 이것이 더 복잡한 모델들에도 확장 가능하다는 성과가 쏟아지고 있다. 특히 이번 NIPS에서는 Indian Buffet Process (IBP)에 기반한 모델들까지 spectral method를 적용해 개인적으로는 기대 이상이라 많이 놀랐다. 오늘날까지도 여전히 PCA/SVD는 데이터 분석의 중요한 축인 것 같다.

– 위 두 주제만큼은 아니지만 SVRG/SAG/SAGA와 같은 variance-reduced stochastic gradient 알고리즘에 대한 논문들도 굉장히 많이 나왔다. Stochastic Gradient Descent (SGD) 알고리즘을 통계적 모델들의 파라미터 추정에 사용하면 Gradient Descent 계열의 알고리즘들과는 달리 한 번의 업데이트를 할 때 전체 데이터를 읽을 필요가 없고 한 개의 데이터 포인트만을 참조하면 되기 때문에, 아주 큰 규모의 데이터나 deep learning과 같이 복잡한 모델을 다룰 때 유용한 알고리즘으로 주목받아왔다. 그러나 stochasticity 때문에 수렴 속도가 굉장히 느려 빨리 적당한 해를 찾는데는 유용하지만 정확한 해를 구하려 한다면 적절치 못한 것이 SGD의 대표적인 한계였다 (물론 empirical risk minimization의 관점에서는 굳이 정확한 해를 구할 필요는 없다고 주장하기도 한다). 또한 SGD는 Stochastic Dual Coordinate Ascent (SDCA)와 닮은 꼴인데 SDCA의 time complexity는 데이터의 크기에 dependent하지만 linear convergence를 갖는 반면 SGD는 데이터의 크기에 independent한 sublinear convergence만을 갖고 있어서 이 간극 역시 연구자들에게 큰 미스테리였다. 그러다가 최근 stochastic gradient에 batch gradient를 조합해서 variance reduction을 하면 SDCA와 같이 linear convergence를 가질 수 있다는 놀라운 성과가 드디어 나오게 된다. 워낙 중요한 성과이기 때문에 올해의 NIPS에는 이 방법론에 acceleration을 취하는 등 간단한 변종들이 많이 발표되었다.

그 외에 특별히 관심 있었던 논문 두개만 인용해 보면:
– Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS) by Shrivastava and Li: sublinear time nearest-neighbor search에 사용되는 LSH 알고리즘은 euclidean distance나 cosine similarity와 같은 similarity metric에는 적용 가능하지만 maximum inner product search (MIPS)에는 사용할 수 없다는 것이 알려져왔다. 이번 논문은 기존 LSH에 간단한 trick을 통해 asymmetric하게 만들기만 해도 MIPS에 적용 가능하다는 내용으로 best paper award까지 수상하게 되었다. 개인적으로는 무척 놀랍고 흥미롭지만 trick이 너무 간단한지라 정말 이걸로 충분한건지 의심이 들 정도이다;
– A* Sampling by Maddison et al: discrete distribution에서의 sampling을 max-Gumbel trick을 이용해 perturbed distribution에서의 최대값을 찾는 문제로 치환할 수 있는데, 이 방법을 continuous space로 확장하기 위해 이 논문은 Gumbel Process로 distribution을 확장한 후 (마치 Dirichlet Process처럼) top-down으로 샘플링하는 알고리즘을 제안한다 (마치 stick-breaking process 처럼). 이 Gumbel Process를 proposal distribution으로 사용할 때는 target distribution과의 gap을 모니터링하면서 A* Search를 하게 되기 때문에 A* Sampling이라는 이름이 붙게 되었다. 아주 독창적인 아이디어의 논문이어서 인상적이었다.

여담: 그 밖에 제 논문 Ranking via Robust Classification도 조금은 관심을 받았습니다. 논문 링크 헤헤 블로그를 방문한 여러분도 관심 부탁드려요! 그리고 매일 아침 8시 반부터 일정이 시작하는데도 저녁 7시부터 밤 12시까지의 다섯시간의 포스터 세션이 굉장히 활발해, 12시가 넘어도 남아있는 사람들을 강제로 쫓아내는 것을 보면서 기계학습 연구자들의 열정과 체력;에 정말 놀랐습니다. 이렇게 늘 최선을 다하는 사람들의 커뮤니티에 속해 있어서 자랑스럽고, 좀 더 열심히 해야겠다는 생각도 듭니다.

Advertisements