• 미디어 >
  • 엔코아 리포트
Weekly Brief
[조회수 : 2049]  다운로드
나는 이렇게 데이터 과학자가 되었습니다-3 내가 그린 데이터 과학 도화지

[나는 이렇게 데이터 과학자가 되었습니다-3
내가 그린 데이터 과학 도화지]


“비즈니스 현장에서의 데이터 과학자는 세간에서 말하던 섹시한 직업은 아니었다.”

엔코아 데이터 서비스 센터 장준규 신입 컨설턴트는 데이터 과학자라는 직업에 대해 섹시하지 않다고 말한다. 현장에서 경험한 데이터 과학자는 백조처럼 우아하게 보이기 위해 끊임없이 뭍밑에서 발길질하는 “노력가”에 가깝다며 언론이나 홍보물에 현혹되지 말라고 조언한다.

 

1.png



국내 기업 데이터 과학자 중, 그들의 직업에 대해 섹시하다고 말할 수 있는 사람이 얼마나 될까?

모두가 알다시피 우리나라 데이터 산업은 아직 초기 단계다. 이에 반해 데이터 선진국의 데이터 활용 역사는 수십 년에 이른다. 그들이 데이터 과학자가 섹시하다(Data Scientist : The Sexiest Job of the 21st Century [Harvard Business Review])고 하여 국내 데이터 관련 직무의 섹시함에 대해 논할 단계는 아닌 듯싶다. 다만, 우리나라의 데이터 관련 규제와 법규가 완화되고 비즈니스 환경이 성숙되어 실제로 4차 산업혁명이 주장하는 데이터의 연결이 자유로워질 때가 되면 그래서, 데이터 기반 비즈니스의 혁신이 일어나기 시작하면 데이터 과학의 효용 가치가 높아질 것이고 데이터 과학자는 자연스럽게 섹시한 직업이 되지 않을까? 우리나라는 아직 쌓여 있는 데이터도 부족할 뿐 아니라 많은 기업들이 경영자의 직관으로 주요 의사결정을 하기 때문에 데이터 과학의 가치를 피부로 느끼지 못하고 있는 것이 현실이다. 

이번 엔코아 리포트는 경영학과 출신 신입 컨설턴트의 섹시하지 않은 데이터 컨설팅 현장 경험을 통해 느꼈던 데이터 과학자를 꿈꾸는 자들에게 필요한 자질과 데이터 과학자가 되기 위해 알아야 할 국내외 데이터 산업의 현주소에 대해 윤현집 엔코아 테이터 리서치팀 팀장의 강의 자료를 통해 살펴보고자 한다.

*이번 엔코아 리포트는 2월 24일에 있었던 공감토크 11탄의 강연내용을 요약한 것입니다.




장준규 신입 컨설턴트는 경영학과 출신이다. 요즘 취업 준비생들 사이에서 유행한다는 “문송(문과라서 죄송하다)하다” 라는 표현에 대해 그도 동감하였다고 한다. 졸업을 앞두고 본인이 가진 “기술”과 “제작물”들에 대해 이야기하던 공대 친구들에게 비해 해본 적도 없는 “경영”을 잘한다고 말할 수 없다는 것이 답답했다고 한다. 그는 학부 졸업 후 기술과 학문을 겸비한 직업에 대해 고민하던 중 빅데이터학과로 진학하게 되었고 경영학 기반의 데이터 전문가가 되기로 결심하였다.


1. 데이터 과학자는 모든 것에 능통해야 한다.


- 그가 처음 데이터 과학자에 대해 궁금증을 해결하기 위해 ‘데이터 과학자의 자질과 소양’ 등에 대해 탐색할 때에도 데이터 과학자는 분석력과 소프트웨어 활용 기술, 그리고 산업별 지식과 경험이 필수적이라고 판단하고 데이터 관련 직무에 도전하였다. 데이터 과학자는 이 모든 부분을 능통해야만 한다고 생각했던 것 같다. 하지만 직접 일을 시작해 보니 크게 오해했던 부분이었다고 한다. 데이터 과학자는 팀원 한 사람, 한 사람이 부분의 역할을 하고 서로 협업을 통해 이루어지는 팀플레이였다는 것이다. 최근 한 블로그를 통해 ‘데이터 과학자의 소양’이라는 글을 본 적이 있었는데 블로그의 필자는 처음 내가 생각했던 모든 것에 능통한 데이터 과학자를 전설의 동물 ‘유니콘’ 이라고 표현했다고 한다.

그렇다. 장 컨설턴트는 전설의 동물이 되고자 했던 것이다.


2.png
3.png 


[일을 시작하기 전과 후의 생각변화]


최고의 공격수 메시가 골키퍼의 능력을 부러워 할까? 절대 그렇지 않을 것이다. 오히려 자신의 공격능력을 더 성장시킬 수 있는 투자에 힘을 쏟고 싶지 않을까? 데이터 과학자 역시 같은 맥락에서 자신의 강점을 살릴 수 있어야 할 것이다. 팀원과 원활한 커뮤니케이션이 가능하다면 당신은 능력 있는 데이터 과학자의 아주 중요한 소양을 갖췄다고 할 수 있다.


2. 입맛에 맞게 가공된 데이터는 없다!


- 데이터 과학자의 꿈을 꾸며 기술에 몰두하며 그는 0.001%의 예측력이라도 올릴 수 있는 모델을 찾는 데 집중했다. 그러나 본격적으로 프로젝트를 진행해보니 데이터 기반의 통찰력을 발휘하기 위해 가장 중요한 부분은 데이터의 수집과 정제라는 것을 다시금 실감했다. 너무나 당연한 이야기지만 정제된 데이터가 없이 올바른 결과를 찾아낼 수 없다는 사실을 몸소 깨닫게 된 것이다.


3. 21세기 가장 섹시한 직업 ‘데이터 과학자’?!


- 2012년 하버드 비즈니스 리뷰는 데이터 과학자를 ‘21세기 가장 섹시한 직업’이라고 표현했다. 데이터 과학을 적용한 프로젝트를 시작한 이후, 장 컨설턴트가 규정하는 데이터 과학자에 대한 새로운 정의는 ‘백조’였다. 물 위에서는 우아하지만 물밑에서는 앞으로 나아가기 위해 쉼 없이 발길질하는 백조. 데이터 과학자는 끊임없는 노력이 필요한 직업이라고 생각한다고 그는 말한다. 따라서 언론이나 교육에서 표현하는 섹시함에 현혹되지 말았으면 한다는 것이 취업 준비생들을 향한 그의 조언이다. 섹시한 노력가가 될 자신이 없다면 진정 자신이 이 길을 원하는가에 대해 곰곰이 고민해 보는 것이 더욱 중요하다고 말한다.


4. 어느 길로 가야 데이터 과학자가 되나요?


- 아마 가장 궁금한 질문일 것이다. 장 컨설턴트가 데이터 과학을 본격적으로 공부하기 시작할 즈음 무언가를 공부해야 하겠다는 의지만 있었을 뿐 그 방대한 양에 압박당하며 무엇을 어떻게 공부해야 할 지 몰랐다. 사실은 아직도 모든 것을 전부 파악하지는 못하고 있다. 당연한 것일지도 모른다. 따라서 지금도 경험을 통해서 하나하나 배워가고 있다. 따라서 데이터 과학자를 준비할 때는 이론에 의지하기보다는 경험으로부터 배워야 한다고 말한다. 데이터 과학자가 되는 길은 아직 비포장도로다. 앞으로 어떤 아스팔트를 조합해서 어디로 뻗어 나가는 길을 만들어야 할지 이제 계획하는 단계의 신생 분야다. 아직 이 분야는 아무도 정도(正道)의 길을 그려놓지 않았다. 그렇기에 더욱 본인만의 길을 개척하는 것이 중요하다. 정답이 있을 것이라 정해두지 말고 데이터를 향한 마음 하나를 통해 지금 시작할 수 있는 것을 경험해 자신만의 길을 만들어 나갔으면 한다고 조언한다.



데이터 과학자가 갖춰야 하는 소양으로 프로그래밍 언어, 통계, 기계학습, 데이터 수집, SQL, 예측분석 등 수많은 요소가 거론된다. 하지만, 장 컨설턴트가 이 중에서 가장 중요하다고 꼽는 두 가지 키워드는 “데이터의 퓨전(Fusion)과 “심슨 패러독스(Simpson’s Paradox)를 주의하라” 이다.

이번 장에서는 데이터 과학자가 꼭 가져야 하는 소양에 대해 장 컨설턴트의 현장 경험을 통해 살펴보자.


첫째, 데이터 과학자는 데이터를 퓨전(Fusion) 해야 한다.
- 데이터 과학자는 기존에 있는 내부 데이터와 공공 및 소셜 등 다양한 외부 데이터를 결합하여 새로운 경쟁력을 만들 수 있어야 한다. 데이터의 퓨전을 통해 데이터 기반의 혁신을 만들어 내게 되는 것이다.


사례1: OO 카드 - 1인 가구 대상 마케팅 전략 수립


 4.png
[기존 1인 가구 정의 방법은 신규고객과 결제가 없는 고객에 대해서는 추정이 힘든 한계가 있었다]


OO 카드사는 1인 가구를 대상으로 마케팅을 위해 먼저 1인 가구를 정의하기 위해 고객 주소를 통해 1인 가구를 찾는다. 더불어 편의점과 같은 1인 가구의 이용이 많은 상점의 결제 빈도를 활용해 1인 가구를 정의했다. 하지만 여기에는 한계가 존재했다. 신규 고객이나 카드 결제를 하지 않는 고객에 대해서는 정보가 없어 가구 형태를 추정하기 힘들다는 것이다. 카드사는 데이터 과학자의 힘을 빌리기로 한다. 데이터 과학자는 어떻게 1인 가구를 추정할 수 있었을까?


그림2.png
 
[고객주소에 어떤 데이터를 퓨전 해야 기존의 한계를 극복할 수 있을까?]


다음은 가지고 있는 데이터에 어떤 데이터를 퓨전 할 것인지의 문제다. 카드사의 내부데이터인 고객 주소에 어떤 데이터를 융합하면 1인 가구 추정에 대한 기존의 한계를 넘을 수 있을까?


그림3.png 


[카드사 내부데이터 용도별 건축물 종류 외부데이터를 융합해 1인가구를 추정했다]


이 분야에 정답은 없다. 많은 의견이 있겠지만 그중에 선택한 나의 답은 ‘건축법 시행령’이라는 법안에서 찾았다. 건축법 시행령은 건축물에 대한 용도가 적힌 데이터를 제공한다. 여기에 부동산114, 피터팬 원룸 구하기 카페 등의 SNS 소셜 데이터에서 주소별 건축물 종류를 찾아내 결합했다. 이렇게 모은 데이터와 고객주소가 정리된 카드사 내부 데이터를 융합시켜 기존의 한계를 극복한 1인 가구를 추정할 수 있었다.


사례2 : 무역 관련 기관 – 중소기업 해외 진출 시장 선정



 7.png
[기존 공사의 추천 프로세스는 객관적 신뢰도가 떨어지는 한계가 있음]


- 다음 사례는 중소기업의 수출을 지원해주는 무역 관련 공사의 의뢰 내용이다. 먼저 이곳의 프로세스를 살펴보자. 중소기업들은 어느 시장으로 먼저 진출해야 할지에 대해 각 국가에 파견된 무역관들로부터 조언을 듣게 된다. 하지만 여기에는 한계점이 있다. 중소기업에게 전달하는 조언은 각 무역관의 경험적 판단에 의한 추천이므로 객관적 신뢰도가 떨어진다. 이런 상황에서 중소기업이 질문한다. ‘우리 제품을 어느 나라에 팔아야 잘 팔릴까요?’ 데이터 과학자라면 어떻게 한계점을 극복하고 해결할 수 있을까?


 그림4.png
[공사 내부데이터에 어떤 데이터를 넣어야 기존의 한계가 극복 가능할까?]


공사 내부데이터에 어떤 데이터를 넣으면 이러한 문제를 해결할 수 있을까? 다시 한번 말하지만, 정답은 없다. 


그림5.png 
[공사 내부 데이터와 수출입데이터를 융합해 객관성 높은 추천이 가능해졌다]


나의 답은 관세청과 국제 무역 센터에서의 데이터를 융합시켜 수출입 데이터를 만들었다. 이러한 외부데이터를 공사 내부에 있는 고객의 상품코드와 매칭시키면 각 상품별 수출입 데이터를 기반으로 한 수출 시장성이 높은 국가를 추정할 수 있어졌다. 기존의 객관성이 떨어지던 문제를 데이터 융합을 통해 극복한 것이다.

이처럼 데이터 과학자는 데이터 융합을 통해 새로운 힘을 가지게 된다.


둘째, 데이터 과학자는 ‘심슨 패러독스(Simpson’s Paradox)’를 주의해야 한다.


- 영국의 통계학자 에드워드 심슨(Edward Simpson)이 1951년 발표한 논문 ‘심슨의 역설’은 평균이 일으키는 착각에 대한 내용으로 ‘전체가 부분을 대표하지 않는다’는 것을 의미한다. 전체에 대한 분석 결과와 부분에 대한 결과가 서로 일치하지 않는 것이다. 부분적으로 나누어 보면 전체를 봤을 때는 모르던 숨은 진실을 발견할 수 있다는 것이다. 즉, 데이터를 새롭게 분류하고 다양한 시야로 나누어봄으로써 숨은 진실을 발견할 수 있었다는 이야기다.

 

10.jpg


[전체로 볼 때와 나누어 보았을 때 상관관계가 달라지는 것을 볼 수 있다]


오른쪽 그래프는 두 변수의 관계에 대해 보여주는 산포도이다. 아래로 내려가는 경향을 보이는 가운데 줄은 통계에서 말하기를 음의 상관관계라고 한다. 상관관계란 한 변수가 변할 때 다른 변수는 어떻게 변하는가를 보여주는 것을 말한다. 이 그래프의 경우는 음의 상관관계를 가지고 있는데 예를 들어 한 변수가 증가할 때 나머지 다른 한 변수는 감소하고 반대로 한 변수가 감소할 때 나머지 한 변수가 증가하는 것을 뜻한다.


그러나,이 데이터를 두 그룹으로 나누어 보면 다른 양상을 띠게 된다. 오른쪽 그래프는 앞서 음의 상관관계를 가졌던 데이터 간의 관계를 두 그룹으로 나눴을 때 양의 상관관계가 나타난다는 것을 보여주고 있다. 이렇듯 데이터를 나누어봄으로써 숨은 진실을 발견할 수 있었다.


사례3 : OO카드 – 잠재 고객 발굴


이렇게 데이터 과학자는 안팎을 모두 분석하는 것으로 심슨 패러독스를 주의해야 한다. 실제로 어떤 식으로 심슨 패러독스에 빠지게 되는지 카드사를 다시 한번 찾아가 보도록 하자.


 그림6.png
[카드사의 이익 창출 구조]


먼저 카드사는 어떻게 돈을 벌까? 고객이 카드를 들고 카드 가맹점에 가서 결제를 한다. 그때 수수료가 발생한다. 가맹점은 그 수수료를 정해진 날짜에 카드사에 전달하고 카드사는 이익을 낸다. 그렇다면 돈을 많이 쓰는 사람은 수수료를 많이 내는 사람을 뜻하는 것이고, 수수료 부담이 큰 사람은 카드사에 이익을 주는 고객임을 말하는 것이다. 즉 돈을 많이 쓰면 카드사에 이익을 준다고 생각하면 된다.


앞서 이야기 한 1인 가구의 유행을 다시 한번 상기해 보자. 카드사는 1인 가구 중 마케팅이 가능한 대상을 찾고자 했다. 다시 말하면 돈 되는 사람을 찾고 싶어 한 것이다. 따라서 1인 가구 중 ‘오피스텔 군’과 ‘고시원 군’으로 나누어 나눠서 1월부터 5월까지의 1인당 결제 금액을 비교해 보았다.

 

그림7.png


[1인 가구 주거 별 1인당 결제금액 비교표. 전체 금액은 오피스텔 군이 높다]


오피스텔 군이 1월에서 5월까지 결제 금액이 훨씬 많음을 볼 수 있다. 이것만 본다면 카드사 입장에서는 당연히 오피스텔에 사는 1인 가구를 대상으로 마케팅을 할 것이다.

하지만 여기서 끝내야 할까? 데이터 과학자를 꿈꾸고 있다면 여기서 끝내서는 안 된다. 한 단계 더 들어가 보자. 오피스텔 군에 남, 여와 고시원의 남, 여를 비교해 보도록 하겠다.

 

13.png


[1인당 결제액을 남, 녀로 세분화해 살펴보자 다른 결과를 알아볼 수 있다]


어라? 앞서 본 그래프와 똑같은 데이터임에도 다른 결과가 도출됐다. 오피스텔 군이 훨씬 많이 돈을 쓰는 것으로 나타난 앞선 분석과 다르게 고시원 여자의 결제 금액이 더 높은 것으로 나타났다. 이런 결과가 발생하는 이유는 무엇일까? 고시원에 거주하는 남녀의 결제 금액 차이가 극명했기 때문에 고시원군 평균 금액이 낮아진 것이다. 데이터를 나누어 보지 않았으면 알지 못했을 사실이다.


 그림1.png
[1인당 결제 금액을 업종별로 세분화한 표, 현업에서는 더욱 세분화된 분석이 진행된다]


여기서 보다 세분화된 분석을 위해 한 단계 더 들어가 업종별 결제 금액 비율을 비교해 보았다. 앞서 가장 돈을 많이 쓰는 고시원 여성의 업종별 결제 금액 비율은 ‘온라인 쇼핑’에 큰 비중을 두고 있었다. 이러한 결과를 통해 온라인 쇼핑 관련 마케팅의 경우 고시원 거주 여성을 타겟으로 하면 더욱 효율적인 결과를 낼 수 있다고 어필이 가능하다. 데이터를 더욱 세분화함으로써 더 적절한 마케팅 대상을 찾아내는 것, 바로 전체를 봤을 때는 모르던 숨은 진실을 밝혀내는 과정이 바로 데이터 과학자의 영역이다.



 여기 US New & World Report가 선정한 20대 미래 유망직종이 있다. 전문직 종사자를 제외하면 데이터 기반 고객관리, 데이터 기반 온라인 판매관리, 데이터 기반 네트웍 등이 기업이 원하는 유망 직종이 되겠다. 


 16.png
[US New & World Report 선정 20대 미래 유망 직종]


잠깐, 여기서 다시 살펴보자. 데이터 기반이라는 단어를 지우면 너무나 익숙한 직종들뿐이다. 그렇다. 사실 위의 유망 직종은 20년전 리포트이다. 최근 국내외 수많은 기업들이 데이터 기반 경영에 눈을 뜨면서 데이터 전문가를 찾아 동분서주하고 있다.

 17.png
[1998년 기준, US New & World Report 선정 20대 미래 유망 직종]


기회가 넘쳐나고 있다.


최근 지방의 한 정보통신고등학교에 전화를 했었다. 혹시 데이터를 전공하는 친구들이 있는지 궁금했다. 물론 데이터를 전공하는 학생들이 있었고 우리는 그 친구들을 트레이닝시키고 싶다고 제안했다. 이후 실제 채용에까지 이어지는 우리 딴에는 꽤나 파격적인 제안이었다. 그러나 이미 그 친구들은 대기업에서 채용을 예정하고 있었다. 세상에 고졸이라고 무시하던 시대가 아니다. 시장은 이미 전문가를 원하고 있고, 본격적으로 시장이 열리면 그 기회는 무궁무진할 것이라는 것을 보여주는 대표적인 사례라고 말할 수 있을 것이다. 데이터 과학 역량은 각 기업의 필수 요소이며 기업의 혁신에 데이터 과학자는 필수 도구가 될 것이다.


또 하나의 사례로 국내 수많은 공공기관이 데이터 전문가 수급을 위해 엔코아를 찾고 있다는 것이다. 공공기관의 인사팀에서 데이터 과학자 채용을 위한 문의뿐 아니라 육성방안, 나아가 산학협력을 통한 학부생 육성까지 논의 중이다.

엔코아 데이터 리서치팀 윤현집 팀장은 이러한 시기일수록 본질에 집중하라고 조언한다. 90년 이후 정보화 시대로 넘어오면서 컴퓨팅 환경에 적응하지 못한 인재가 취업하지 못했었나? 결코 그렇지 않다. 다만, 전산 관련 자격증이 있으면 가산점을 받았을 뿐이다. 물론 현시점에서 데이터 전문가는 탁월한 기술력과 통찰력이 필요하다. 출발점이기 때문이다. 하지만, 언젠가 대부분의 직장인이 데이터를 기반으로 본인의 업무를 처리하지 않으면 안 될 시기가 올 것이다. 컴퓨터 없는 사무직을 생각하기 어려운 것처럼 말이다.


데이터 기반 경영의 경험이 없는 기업들의 경우, 데이터 관련 고급 인재를 찾으려고 노력할 수밖에 없다. 하지만, 전문가가 많아지고 기업 내부에도 데이터 기반 경영 프로세스가 확립된다면 내부 인력을 데이터 활용 환경에 익숙하도록 교육하게 될 것이다. 실제로 많은 대기업들이 내부 인력의 데이터 전문 교육을 위해 노력하고 있다.

그렇다면, 데이터 과학을 공부하고자 하는 학생들은 어떻게 준비해야 할 것인가?


첫 번째, 너 자신을 알라.


단순히 연봉이 높다는 이유로 데이터 과학의 길에 뛰어들었다가는 큰코다친다. 데이터를 저장하고 가공하고 활용하는 최신 기술들이 하루가 멀다하고 쏟아지고 있기 때문이다. 특정 언어의 전문가라고, 특정 제품의 전문가라고, 알고리즘과 모델 개발의 전문가라고 명함을 내밀 수 있는 시대가 빠르게 지나가고 있다. 그렇다면 이 끊임없는 기술 및 트렌드의 학습과 현업 적용의 문제를 풀어가기 위해 가장 필요한 것이 무엇일까? 그것은 바로 자신이 좋아하는 것을 위해 데이터 과학을 활용하는 것이다. 세상 어디에도 없었던 답을 찾아서 스스로 만족해하거나 누군가가 간절히 원하던 답을 기쁘게 선물할 수 있다는 것에 대해 만족감을 느껴야 한다. 당신이 무엇을 좋아하는지를 먼저 파악하고 그동안 활용하지 못했던 데이터를 통해 그 문제를 풀어가며 즐겨야 한다. 그것이 데이터 과학자로 가는 길에 당신이 흔들리지 않을 가장 중요한 키다.


두 번째, 업의 본질을 알아야 한다.


내가 가고 싶은 회사가 어떻게 영리 활동을 하는 회사인지 명확하게 알아야 한다. 즉, 그 업의 본질을 알아야 한다. 데이터를 기반으로 내가 가고 싶은 회사를 어떻게 혁신시킬지 구체적인 계획을 세울 수 있어야 한다. 예를 들어 당신이 은행에 데이터 과학자로 입사하기 원한다고 하자. 은행이라는 업종에서 회사에 여러 가지 방법의 데이터 기반 혁신안을 갖고 있다고 하자. 하지만, 그 계획이 실행되기 위해 얼마나 많은 은행업의 전문가들과 싸워야 할지 상상만 해도 끔찍하지 않은가? 데이터 과학자는 누구보다 업의 본질을 잘 파악하고 있어야 한다. 그 후에 파격적인 데이터 기반의 혁신안으로 그들을 설득해야 한다. 누군가를 설득하기 어렵다면 지금부터 당신이 잘할 수 있는 업종의 창업을 고민하는 것이 올바른 선택일지도 모른다.


마지막으로 가두리 그물을 쳐라.


아직도 우리나라에서는 데이터 과학이라는 단어가 생소하다. 하지만, 시대의 흐름은 데이터 기반의 혁명을 선택했다. 4차 산업혁명은 데이터의 연결이 키워드다. 그 시대의 흐름을 읽고 지금부터 준비한다면 결코 당신의 선택은 틀리지 않을 것이다. 수십 년 후, 데이터를 보지 않고 의사 결정하지 않는 시대가 오게 되면 모든 직장인들은 데이터 기반의 업무 패턴을 갖게 될 것이다. 하지만, 지금 준비한다면 누구보다 빠르게 시대를 준비한 선구자가 될 수 있지 않을까?

데이터 혁명의 시대, 당신은 무엇을 준비하고 있는가?

오늘 당장 한 가지 언어라도 시작한다면 그물의 한 코를 끼운 것이다. 지금 당장 한 가지 분석 도구라도 다운받는다면 또 다른 한 코를 끼우게 되는 것이다.  



EN-CORE_Report_2017.05_나는이렇게데이터과학자가되었습니다03.pdf


※ 다음 리포트에서는 “데이터 산업과 블록체인”에 대해 다룰 예정입니다.

EN-CORE Data Research Center ⓒ 2017 All Rights Reserved

목록