통계학의 태도, 기계학습의 태도

by d_ijk_stra

통계학자들은 대단히 조심스러운 태도로 문제에 접근하는 사람들이다. 통계학의 대표적인 도구인 ‘가설 검정’[1]에서 이러한 모습이 잘 드러난다. 우리가 데이터로부터 ‘A는 a이다.’라는 결론을 내고자 할 때, 통계학적 가설 검정은 “과연 그런가? 혹시, 우리가 갖고 있는 증거는 그저 우연히 발견될 수도 있는 것에 불과하지 않은가?”라는 질문을 던지고 (귀무가설), 이러한 의구심을 불식시킬 수 있는 충분한 증거가 확보되었을 때에만 귀무가설을 기각하며 조심스럽게 대립가설의 손을 들어준다. 통계학적 도구들은 이렇게 ‘불필요한 호들갑’을 떨지 않고자 만들어진 것들이 많다. 더 예를 들어보자면, “변수의 수가 데이터에 비해 너무 많으면 어떻게 하지? 그런 경우에도 제대로 추정하는 것이 가능할까? 우리는 좋은 결론을 낼 수 있을까?” “우리가 데이터에 대해 너무 강한 통계적 가정을 하고 있기 때문에, 실제로는 발생하지 않는 것을 유의하다고 결론짓게 되는 것은 아닐까?” 등등등…

그런데 통계학과 대부분의 도구들을 공유하고 있지만 전산학의 한 분야로 분류되고 있는 기계학습은 통계학자들과 조금 문제에 다가가는 각도가 다르다는 생각이 들었다. 기계학습의 근간이 되는 것은 ‘학습 이론'(learning theory)로, 이 학습 이론이 우리에게 알려주는 것은 “내가 데이터를 통해 하고자 하는 일이 있는데 (예: 사용자가 과연 이 광고를 클릭할지 예측할 수 있을까?), 주어지는 데이터의 양에 따라 얼마나 좋은 성과를 낼 수 이겠는가? (예: 얼마나 많은 경우 예측이 성공할까?)”라는 것이다. 여기서 보여지는 통계학과의 큰 차이점은 두 가지이다. 첫째로, 달성하고자 하는 목적이 ‘긍정적인 성과’로서 정의되어 있다. 둘째로, 이 목적을 얼마나 ‘잘’ 달성할 수 있는지에 관심을 갖고 분석한다.

다시 말해서 통계학은 ‘실패의 가능성’에, 기계학습은 ‘성공의 가능성’에 각기 관심을 두고 이론을 쌓아올리는 것 같다. 물론 얼마나 데이터 분석이 실패할 수 있는지 탐구하는 것과 성공할 수 있는지 탐구하는 것은 넓게 보면 일맥상통하는 이야기이다. 통계학의 경우에는 “이렇게 조심스럽게 분석했는데도 불구하고 통계적으로 유의미하다는 결과를 얻었다면 어느 정도 결론에 자신감을 가져도 좋다”고 그 이론을 해석할 수 있고, 기계학습의 경우에도 “데이터가 부족하면 원하는 성과를 달성할 수 없을 것이다”라고 뒤집어 이론을 해석하는 것이 가능하다. 다만 두 이론의 출발점이 각기 다르기 때문에, 한 쪽에는 통계학의 결과가, 다른 쪽에는 기계학습의 결과가 더 많이 쌓여있는 것이 아닌가 한다. 또한, 비약일지는 모르겠으나 이러한 태도 차이가 최근의 ‘빅데이터’ 열풍에 기계학습자들은 적극적으로 올라타는 한편 통계학자들은 상대적으로 신중한 모습을 보이는 것을 설명하는지도 모른다. 적어도 기계학습자들이 자신의 이론이 응용 분야에서 사용될 수 있는 가능성들에 통계학자들보다 더 많은 관심을 보이는 것 만큼은 부정하기 힘든 사실이다.

(참고로 본 글은 트위터 @bayescog님의 다음 트윗을 읽고 아이디어를 얻어 쓰게 되었습니다.)

1. 정확히 말하면 Neyman-Pearson framework를 통한 가설 검정이지만, 대부분 이 가설 검정 방법을 유일한 가설 검정 방법으로 알고 계실 것이다.

Advertisements