DATOR


데이터 과학의 분석 방법론...(주)엔코아 김옥기 데이터 사이언티스트 커버 스토리


cover story.jpg



데이터과학의 분석 방법론


지난 7월 22일 열린 “데이터 과학과 데이터 경제” 세미나 참석자 100여명의 설문 조사 결과, 데이터 활용 과정에서의 문제점으로 ①전문조직의 부재 ②의사결정자의 무관심 ③부서간 이해관계(Silo effect) ④현업설득 ⑤시스템 부재 등이 꼽혔다. 


전문조직의 부재, 의사결정자들의 무관심, 시스템 부재의 응답률을 모두 합치면 61%, 즉 절반 이상이 아예 분석을 하지 않는다고 답했다. 세미나 참석자만을 대상으로 한 제한된 설문이기는 하나, 데이터에 관심 있는 경영기획자, 데이터 분석가들이 대부분이 참석을 했기에 설득력이 떨어지지 않는다.


콩 심은 데 콩 나고 팥 심은 데 팥 나는 것이 세상의 진리다. 심지도 않은 것이 자생하여 열매 맺기를 기대하는 것은 기업이나 국가나 너무 큰 욕심 아닐까?


cs01.jpg

[2015년 7월, 엔코아 “데이터 과학과 데이터 경제” 세미나 설문 조사 결과]



기업의 신 성장 동력: 데이터 과학


기업의 목적은 지속적으로 성장하며 이익을 내는 것이다. 성장과 이익은 공존하기 쉽지가 않다. 이익 우선 전략을 지속적으로 세우게 되면 회사는 변화에 뒤지게 되고, 너무 성장을 앞세우는 전략을 짜다 보면 회사는 극단적으로 투자만 하는 회사가 되고 만다.


실제로 R&D만 하는 회사가 존재하는데 많은 초기 벤처 기업들이 그러하다. 벤처가 아닌 대부분의 기업들은 성장과 이익의 균형을 적당히 유지하며 운영 해야 오랜 기간 동안 살아 남을 수 있다. 여기에서 이 “적당히 균형”을 잡는다는 말이 참 쉽지 않은 말이다. 어느 선이 “적당히”라는 것일까? 우리는 수많은 설문 결과를 통해 의사결정자들이 그들의 감이나 경험으로 이 “적당히”라는 균형을 조절해 왔다는 것을 알 수 있다. 그러나 이제는 더 이상 몇몇 사람의 판단만으로 성공이라는 열매를 딸 수 있는 시대가 아니다.


기업은 너무나 많은 불확실성에 노출되어 있고, 이 불확실성을 줄이는 것이 경영자들의 최고 전략이 되고 있다. 이러한 불확실성을 줄이기 위한 방법으로 기업은 다양하고 방대한 데이터와 정보를 기록하고 수집하고 있으며, 정보와 데이터는 시간이 지남에 따라 가치가 떨어지는 생물적 존재의 속성을 가지고 있어서 이들의 가치를 재생하기 위해서는 반드시 가공이 필요하다.

가공한 정보, 즉 데이터로부터 인사이트를 찾기 위해 분석을 하고, 찾아진 인사이트를 현업에 적용하기 위해 현업을 설득한다. 다수가 수용하여 의사결정이 이루어지면 현업의 프로세스에 적용한다. 보석 같은 인사이트라면 기업의 수익 모델을 바꿀 정도로 그 파급효과는 엄청난 결과를 가져다 준다.


이렇듯 데이터를 가공하고 분석하여 얻어진 인사이트를 현업에 적용시키는 일련의 과정을 데이터 과학이라고 한다. 물론 기업이 성장과 이익을 목표로 하는 과정에서 직면하는 많은 문제들을 모두 데이터로만 해결할 순 없다. 그러나 기존의 감이나 경험으로 하던 의사결정 방법에 사실 근거의 데이터와 정보를 기준으로 하는 데이터과학적 방법론을 더하는 것이 현재로서는 불확실성을 줄이는 최선이라 할 수 있다. 


그러나 이 데이터과학을 활용한 기업의 경쟁력은 어느 한 순간 결정하여 조직을 만들고 인력을 배치한다고 생기는 것이 아니다. 개인적으로 단기간에 조직과 인력 배치만으로 기업 경쟁력이 안 되는 것이 얼마나 다행인지 모른다. 세상에 가치 있고 귀한 것이 쉽게 한 순간의 결정으로 이루어진다면 그 길을 오랫동안 고생해서 찾아 낸 사람들은 얼마나 억울하겠는가?



cs02.jpg




미국은 1980년대 초부터 IBM과 Oracle을 선두로 지속적으로 발전한 SQL 형태의 데이터베이스 시스템을 활용하여 데이터를 쌓기 시작하였고, 1980년대 말 부터는 쌓여진 데이터에 대해 초기 단계의 분석을 시작하였다. 이후 지속적으로 분석 방법론을 발전시키며 30여년을 거쳐 현재의 빅데이터 시대를 열어 온것이다. 이렇게 긴 시간 동안 시행착오를 거치며 발전시켜온 기술들을 단기간에 따라 잡는다는 것은 불가능한 일이다.


지금 우리 기업이 해야 할 가장 시급한 당면 과제는 우리의 기술과 현실을 파악하는 것이다. 기초없이 주변에서 겉돌기만하는 빅데이터나 사물인터넷의 성공사례만 나열해가며 현상만을 봐서는 안된다. 그들이 겪어온 과정을 상세히 살펴보고 지금 우리의 기술과 활용은 어느 단계에 있는지, 할 수 있는 것이 무엇이며 어느 정도 실현가능한지를 파악해야 한다.


기업의 분석 경쟁력을 갖추기 위해서는, 단순한 조직의 구성만 필요한게 아니라 오랫동안 익숙해져온 비효율적 기업 문화의 체질을 개선하는 작업이 필요하다.




cs03.jpg



데이터 과학은?


데이터과학은 Art와 Science의 응용 집합체이다. Art에서 경제, 경영, 심리, 사회 등 다양한 인문학을 활용하는 동시에, Science에서 수학, 통계, 물리, 의료, 공학 등 이공계열의 학문을 응용하여 사용하기도 하기 때문이다. 이러한 지식들을 활용하여 분석의 복잡성, 적합한 프로세스와 적용 속도, 데이터의 복잡성, 데이터의 사이즈, 지식의 정확성과 적합성의 균형 등을 합리적으로 조절하여 기업이 원하는 목적을 달성하도록 돕는 역할을 하는 것이 데이터과학이다.


데이터 과학은 인체에서 뇌의 역할을 하고있다고 볼수있다. 사람의 뇌가 연수, 간뇌, 대뇌, 중뇌, 소뇌, 척수등 여러곳에서 각각의 기능을 담당하듯이 각각의 데이터과학자들은 서로가 다른 배경의 경험으로 기업의 경영활동을 돕는다.


설문에 의하면 데이터과학의 가장 큰 도전은 데이터에서 찾은 인사이트를 설득하는 것이고 다음이 설득된 인사이트를 현업에 적용하는 것이다. 즉, 해당 기업의 비즈니스를 잘 이해하고 있을 때 설득이 가능하다.




cs04.jpg




지금까지 해오던 그 이상의 가치 있는 것을 찾아 기업 활동에 적용해야만 새로운 가치가 창출된다. 그러므로 데이터과학은 기업에서 문제 해결을 위한 특공대 역할을 주로 담당한다. 각각의 부서들이 처한 문제를 해결하는 촉매역할을 담당하기도 하고 전사적으로 필요한 문제를 해결하기 위한 프로젝트도 수행하기도 한다. 또 때로는 현업에 상주하면서 현업의 문제에 지속적으로 관여하며 지원하기도 한다.



cs05.jpg





데이터과학의 핵심은 데이터 분석


데이터과학의 핵심, 즉 주춧돌은 분석이다. 주춧돌만 있다고 훌륭한 집을 지을 수 있는 것은 아니지만, 주춧돌이 튼튼해야만 나머지 기둥들을 잘 받치고 모진 풍파에도 잘 견디는 기초가 되주는 것이다. 그래서 다들 데이터과학하면 분석 방법론을 먼저 생각하고 그것을 배우고 가르치려하는 것이다.


그러나 다시 한번 명심해야 할 것은 주춧돌 만으로 쓸만한 집을 만들 수 없듯이 데이터 분석을 통해 인사이트을 찾았다고해서 성공적인 데이터 활용의 결과를 얻는 것은 아니다. 집을 짓기 위해서는 기둥도 필요하고 지붕도 필요하고 살림살이도 필요하듯, 성공적 데이터 활용도 데이터 플랫폼, 프로세스, IT 거버넌스등 다양한 영역이 기술과 경험이 필요한 것이다. 그리고 이 모든 재료들을 잘 활용하고 연결하는 대목장, 즉 데이터과학자가 필요한 것이다.


아무리 좋은 재료라도 누가 짓느냐에 따라서 그 집의 견고함과 모양 그리고 쓰임새는 달라 질수 있기 때문이다.  집을 짓는데는 대목장만 있는 것은 아니듯, 분석하는 작업에도 데이터 과학자만 있는 것은 아니다. 현업에 관여하는 영업, 고객관리, 마케팅등에 비즈니스 분석가, 데이터 분석가, 전문분야에 종사는 전문 분석가, 예를 들면 보험, 의료, 금융공학, 제조관련 산업공학 분석가들등 다양한 각 분야 전문 분석가들이 존재한다. 데이터 과학자들은 이들과도 협업하며 기업의 전사적 문제해결과목표를 달성하는데 그 역할의 목적이 있다.




데이터과학의 분석 프로세스

데이터 분석을 한다는 의미는 인사이트를 찾는다는 의미이다. 인사이트를 찾는 방법은 두가지가 있다. 첫째는 문제를 설정해 놓고 그답을 찾는 방법과, 둘째는 시행착오을 반복하며 미지의 가치을 찾아가는 방법이 있다. 대부분은 현업의 문제을 먼저 설정하고 그 해답을 찾아 나서는 경우 많다. 성공적 데이터 활용의 5가지 요소 중에 첫번째에 해당 되는 분석의 가치를 설정하는 것이다. 분석의 가치를 설정했다면 두번째로 해야 할 일은 내,외부의 활용 가능한 데이터을 취합하는 일이다. 그 후에 하는 일이 데이터 분석 즉 인사이트를 찾는 일이다. 나머지 네번째의 현업 프로세스 구현과 다섯번째 적용 후의 변화관리는 또 다른 중요한 영역이나 우선은 데이터 분석까지만 살펴보도록 하겠다.



cs06.jpg






분석의 가치 즉 주제가 선정되었다면 그것에 관한 논문이나 자료 , 심지어는 그 주변의 자료까지 철저히 조사하여 기존에 이미 존재하는 지식을 최대한 습득하는게 가장 우선 순위이며 전체 프로젝트의 30% 이상을 할애해도 무리가 없을 만큼 중요한 작업이다.


아래 그림에서 보듯이 분석 모델 개발 전까지 거의 70~80%을 데이터 준비와 가공 및 사전 작업에 시간을 할애한다. 사전에 충분한 자료분석과 데이터 가공이 이뤄졌다면 분석 알고리즘을 활용하여 실질적으로 분석 모델을 개발하는 것은 경험상 그리 많은 시간이 필요한 작업은 아니다.





[데이터 분석 프로세스]


cs07.jpg


※ 데이터 과학의 분석 방법론 2편은 다음 달에 연재 됩니다

Tag :

Leave Comments