구조의 탐색

by d_ijk_stra

오늘 통계학과 콜로퀴움은 프린스턴 대학의 Han Liu 교수가 와서 강연을 했다. 이 분은 젊은 학자이지만 벌써 좋은 연구 결과를 많이 내셔서 나처럼 견문이 좁은 사람도 2007년 NIPS 논문인 Sparse Additive Model (PDF) 정도는 기억하고 있었다. 기대를 많이 하고 행여나 강연 시간에 늦을까 조바심을 내며 잰걸음으로 찾아갔는데, 과연 명불허전이라고 많은 것을 배우고 왔다. 내가 잘 모르던 semiparametric 모델링에 대해서도 많이 배웠지만, 무엇보다 이 분이 연구 문제를 바라보고 다가가는 자세에 대해서 많은 것을 느껴 여기에 대해 간단히 적고자 한다.

Liu 교수는 정규분포 모형이라는 통계학의 가장 기초적인 모형에 대한 이야기로 강연을 시작한다. 정규분포가 워낙 좋은 성질들을 많이 갖고 있다 보니 정규분포를 통해 모델링했을 때의 장점에 대해서는 수십년에 걸쳐 아주 많은 결과들이 쌓여 있는데, Liu 교수는 단 다섯개의 수식이 쓰여 있는 슬라이드를 보여주며 “여기에 있는 이 다섯개의 수렴 성질만 이용하면 대부분의 결과들을 유도할 수 있다. 즉, 이후의 증명 단계들은 단지 기계적인 계산 과정일 뿐이다” 라고 말했다. 따라서, 이 다섯개의 성질만 만족시킨다면 다른 모형 역시 우리가 잘 알고 있는 정규분포 모형의 좋은 성질들을 갖게 된다는 것이다. Liu 교수는 자신이 제안하는 Transelliptical model이 정규분포 모델보다 훨씬 다양한 현상을 설명할 수 있으면서도 여전히 상기의 다섯가지 조건을 만족시킨다는 점을 얘기함으로써 자신의 접근방법의 우수성을 설득했다.

그런데 이 강연에서 내가 가장 큰 인상을 받은 지점은 “어떻게 저렇게 간결하게 핵심적인 다섯개의 성질을 추렸지?” 라는 것이었다. 내가 수리통계적인 결과에 대한 논문을 읽을 때에는 늘 수많은 단계를 거쳐야 하는 증명의 복잡성에 압도되어 한 줄 한 줄을 붙잡고 늘어지다가, 비로소 각 단계와 단계의 연결을 이해할 수 있는 정도가 되면 “그래, 이 논문은 이해했어!”라며 논문을 덮고 스타크래프트를 켜는 것이 보통이다. 그런데 정규분포 모형이라는 엄청나게 많은 결과들이 쌓여 있는 분야에서, 그 복잡한 증명들 하나하나에서 핵심적인 아이디어가 무엇인지 파악하고 정리해 단 다섯개의 수식으로 정리해내는 것, 이것은 보통의 인내심이 필요한 일이 아니거니와, 구조적인 사고에 대한 강박적인 추구가 없으면 불가능한 일인 것이다.

어쩌면 21세기에 연구를 하고 있는 것은 행운이다. 수십, 수백, 수천년에 걸쳐 수많은 당대의 지성들이 자신의 일생에 걸친 생각을 글귀로 남겨 놓았고, 컴퓨터 한 대만 있으면 방구석에 앉아서 이 모든 것을 열람할 수 있다. 그렇지만 그 안에서 Han Liu 교수처럼 연구결과와 결과 사이의 구조를 찾아내지 못한다면 그저 방대한 양의 정보에 압도될 뿐이다. 그러기 위해서는 각 논문에 온통 엉겨붙어있는 디테일, 복잡한 테크닉들을 조심스럽게 하나 하나 떼어내야 한다. 이러한 고통 속에서 찾아낸 보석같은 ‘학문의 구조’에 아름다움을 느끼는 사람만이 연구에서 즐거움을 찾는 것 같다.

Advertisements