비투엔 기술기고

빅데이터 분석의 가치 _ BIS본부 1팀 서동재 수석

알 수 없는 사용자 2015. 5. 29. 16:08




인간의 열망 '운명 예측'

인간은 오래전부터 미래를 알고 싶어 하는 열망이 있었습니다. 복권 당첨번호를 미리 알아내어 부자가 되는 상상, 상대방 마음을 읽어내는 독심술사가 되는 상상을 해 본적 있지 않으신가요?


머릿속에 상상했던 것들을 현실로 가능하게 하려는 시도는 항상 있었습니다. '사주 관상학'도 미래를 예측하려는 노력의 산물이라고 할 수 있겠는데요. 사주는 비과학적이고 옛날 사람들이나 믿는 것으로 낮게 여기는 사람도 많지만 유명 정치인들이 국회의원 출마를 점쟁이의 말을 듣고 결정하는 사실을 안다면 그렇게 무시할 것도 아닙니다.


그렇다면 사주같이 운명을 점쳐주는 행위가 믿을 만한 구석이 있다고 해석할 수도 있겠습니다. 과연 이유가 무엇일까요? 사주를 자세히 들여다보면 그 뿌리는 통계에 의한 예측이라는 사실을 찾을 수 있습니다. 그리고 이 점이 요즘 화두가 되는 빅데이터 분석의 예측과 동일한 맥락을 갖는다는 것이죠.

 


빅데이터 분석이 사주와 다른 점

사주가 통계학적인 접근이긴 하지만 기업에서 하는 통계분석과 다른 점은 체계적인 시스템이 마련되어 있지 않다는 것입니다. 점을 보는 곳이 얼마만큼의 방문한 사람들의 이력을 잘 보관하고 있고 점쟁이가 얼마나 사람을 보는 안목이 있는지에 따라 예측의 정확도가 달라질 수 밖에 없다라는 사실이죠. 결국 사람의 역량에 따라 느끼는 신뢰도가 천차만별 일수 밖에 없는 한계를 드러냈고 그만큼 외면하는 사람도 많아진 이유겠죠.


그렇다면 시스템에 기반을 둔 빅데이터 분석은 어떤 방식으로 한계를 극복할 수 있을까요? 예측 정확도를 높인 좋은 예로 구글 번역기 사례를 들어보겠습니다.


초기의 자동 번역은 제시된 문장에 쓰인 명사, 형용사, 동사 등의 단어와 어문의 문법적 구조를 분석해 번역하는 방식이었습니다. 하지만 이런 번역 방식은 오역이 많았기 때문에 원본 문서와 번역 문서를 통계적으로 비교하여 비슷한 문장과 어구를 대응시켜 번역 결과를 제시하는 통계적 방식을 적용함으로써 오류를 개선할 수 있었다고 합니다. 그런데 따지고 보면 이러한 방식은 IBM에서 먼저 시도했었고 실패로 끝났는데요. 그 이유는 비교 대상이 되는 번역 문서의 수가 적어 기존 방식보다 더 오번역이 많았기 때문이었습니다.


이 사례를 통해 우리가 주목할만한 것은 빅데이터 처리 방식을 적용하여 오류율을 현저하게 낮출 수 있다는 사실입니다.


 

스스로 학습하는 똑똑한 알고리즘

그렇다고 단순히 대량의 데이터, Big Data를 처리한다고 오류가 줄어들고 예측의 정확도가 높아질까요? 정답을 말하지 않아도 아니라는 것을 알아차렸겠죠? 단순히 데이터가 많은 것은 오류를 유발하는 데이터도 그만큼 많을 수 있다는 이야기도 될 수 있습니다.


빅데이터 처리의 Key Point는 정상적인 통계에 악영향을 주는 불순물(예외 데이터)을 제거하는 알고리즘에 있습니다. 흔히 빅데이터는 아주 어마 어마한 데이터라고 합니다. 이 많은 데이터들을 하나하나 옳고 그름을 판단할 수는 없기 때문에 우리는 빅데이터를 처리하는 알고리즘에 하나의 중요한 장치를 해놓아야 합니다.


그 장치가 바로 기계학습(machine learning)입니다. 시간의 경과에 따라 또는 데이터의 양이 늘어남에 따라 기계학습 알고리즘은 학습을 통해 비정상 데이터를 제외하고 정상 데이터를 선택하여 현재 상황에 가장 적합한 결과를 도출해 줍니다. 마치 사람이 머릿속에서 판단하는 것처럼 말입니다.





그룹 아닌 개인화의 시대

기계학습 알고리즘은 데이터에 대해 자동으로 학습이 이루어지기 때문에 그룹이 아닌 개인에 적용했을 때 더 효과적입니다. 인간은 일정 부분 비슷한 행동, 비슷한 생활패턴을 보이지만 개개인을 떼어놓고 보면 동일한 사람은 하나도 없습니다. 또 데이터의 양의 늘어나면서 개인 한 명의 데이터도 의미 있는 해석이 필요할 정도로 많이 발생하고 있습니다.


기존 정통적인 데이터 분석 방식에서는 지역, 성별, 나이, 취미 등으로 Grouping해서 해당 그룹에 대해 예측하고 마케팅을 하는 방식이었습니다. 하지만 빅데이터 분석은 기본적인 세그먼테이션(Segmentation) 이후 개인에 패턴을 해석하고 개인화된 기준을 정의함으로써 그룹인 아닌 개인의 행동을 예측하는 단계까지 와있습니다. , 마케팅 대상이 40대 남성 소비자가 아니라 바로 나 자신이 되었다는 것이지요.


결론적으로 빅데이터 분석의 가장 큰 가치는 개인을 본인보다 더 잘 알고 예측하는 것이라고 할 수 있겠습니다.


마지막으로 글로벌 기업들이 개인에 대한 예측(Personalization)를 어떻게 바라보고 있는지 그 해답을 엿볼 수 있는 아마존 창업자인 제프 베조스(Jeff Bezos)의 인터뷰를 첨부합니다.


 

  질문: 지금까지 사업하면서 변하지 않는 원칙이 있다면 무엇입니까?

  답변: 우리 사업에서 가장 중요한 것은 고객 인사이트 입니다.

  중략(...)

  만약 당신에게 450만명의 고객이 있다면 상점도 450만개가 있어야 합니다. 즉 방문하는 한 사람 한 사람을 

  위한 상점이 필요합니다.