• 미디어 >
  • 엔코아 리포트
Weekly Brief
[조회수 : 1374]  다운로드
나는 이렇게 데이터 과학자가 되었습니다-2 내 삶속 R코드 연대기


나는 이렇게 데이터 과학자가 되었습니다-2


내 삶속 R코드 연대기


이번 엔코아 리포트에서는 데이터 과학자가 되기까지의 경험담을 공유했던 공감토크 콘서트 “나는 이렇게 데이터 과학자가 되었습니다.”에서 소개된 엔코아 데이터 서비스 센터 류진걸 컨설턴트의 데이터 분석 도구 R 학습법과 데이터 관련 공모전 도전기에 대한 경험담을 소개한다.

 

1-1.png


[류진걸 컨설턴트의 이력-많은 공모전 수상 경력이 눈에 띈다]


산업공학과 석사 출신의 류진걸 컨설턴트는 R독학으로 국내 유수의 데이터 공모전에서 수상한 경력을 갖고 있는 컨설턴트다. 류 컨설턴트가 겪었던 여러 고충과 그 속에서 얻었던 경험을 본인의 R코드와 함께 연대기로 구성했다. 이제부터 혼자 공부를 시작해야할 데이터 과학 입문자와 취업 준비생들에게 컨설턴트의 경험담이 길잡이가 될 수 있을 것으로 기대한다.


* 이번 엔코아 리포트는 2월 24일에 있었던 공감토크 11탄의 강연내용을 요약한 것입니다.


1. 시작하기 전에, 간단히 알아보는 R과 분석 도구


본격적인 이야기를 시작하기 전 류 컨설턴트가 요리에 비유하는 데이터 분석과 분석 도구 이야기를 들어보자.


간단히 생각하면 R은 요리 도구와 같다. 계란이 프라이팬에 들어가면 계란후라이가 되듯, 데이터를 R에 넣으면 분석결과를 도출해 낼 수 있다.


훌륭한 요리를 위해서는 재료와 도구 이외에도 레시피가 있어야 하듯, 훌륭한 분석을 위해서도 데이터와 도구만 있어서는 안 된다. 진짜 분석을 위해서는 통계, 머신 러닝 등의 분석 지식 또한 필요하다.


그렇다면 어떤 분석 툴을 배워야 할까? 믹서기는 버튼만 누르면 쉽게 쓸 수 있지만 가는 것밖에 할 수 없다. 칼은 처음엔 익히기 어렵지만 다양한 조리가 가능하다.


분석 도구도 이와 같다. SPSS, 래피드마이너 등 상용 소프트웨어는 사용은 쉬운 편이나 할 수 있는 분석엔 한계가 있다. R은 배우기 어렵지만 할 수 있는 분석이 다양하다. 분석 도구 각각의 특징을 파악하고 자신에게 맞는 분석도구를 골라야 할 것이다.


 

1.png


[제11회 공감토크 참가자 분포와 질문들]


위 그림은 공감토크 11회의 지원자 분포와 질문을 도식화한 것이다. 그림을 보면 같은 전공이라 할지라도 부족한 부분도, 하는 질문도 천차만별임을 알 수 있다.


류 컨설턴트는 각자의 배경, 지식수준이 모두 다르기 때문에 무슨 도구를 먼저 선택하거나, 무엇을 먼저 해야 한다는 정답은 없다고 말한다.


 2.png
[데이터 과학 벤 다이어그램]


다만 데이터 과학에 대한 기초가 없는 분들을 위해, 앞으로의 이야기를 해나가는 과정에서 데이터 과학자에게 필요한 능력에 대한 기준을 세울 수 있도록 위의 벤 다이어그램을 참고용으로 준비했다.


데이터 과학자에게 필요한 능력은 많고 위의 그림과 비슷한 벤 다이어그램도 수없이 많다. 류 컨설턴트는 절대적인 기준은 아니니 참고해가며 자신만의 능력을 길러 나가야 할 것이라고 말한다.



2. R과의 만남. 학교 과제



류 컨설턴트는 R과의 첫 만남을 당혹스러움 그 자체로 회상한다.

대 출신에, 개발도 좀 해봤다는 그였지만 R은 낯설었다고 말한다.



 3.png


[당시 일일이 복사 붙여넣기로 만든 R코드]



개발자들의 지식인인 stackoverflow(프로그래밍 정보 제공 사이트)와 구글을 뒤져 코드를 복사 붙여넣기 하는 과정을 하나하나 반복했다. 쉽지도 않고, 데이터 분석 같지도 않았다. 류 컨설턴트는 진짜 데이터 분석에 가까워지고 싶다는 생각을 가졌고 수업에서 배웠던 데이터 분석 프로세스를 활용해 보기로 마음먹었다.


 
 

4.png


[데이터 분석 프로세스]


데이터 분석 프로세스를 활용하며, 한 단계 업그레이드된 분석을 할 수 있었지만 여전한 한계점은 있었다. 당시에는 데이터 정제 단계의 필요성을 잘 몰랐던 것.


 

5.png


[당시의 R코드]


데이터를 보고 모델을 만들 수 있었지만, 알고리즘을 공부하고 적용해본 수준이었다.

연습문제와 과제의 데이터로는 분명한 한계가 있었다.


3. 프로젝트, 데이터 가공의 중요성을 깨닫다.



“A라는 맥주를 마시는 사람에게 어떤 맥주를 추천해야 할까?”


이 맥주 프로젝트를 진행하며, 류 컨설턴트는 데이터 가공의 중요성을 깨달았다고 한다. 처음엔 구글에서 적절한 맥주 추천 알고리즘을 찾아 금새 끝낼 수 있을 것 같던 프로젝트가 데이터를 쓸 수가 없어 고생했다.


 

6.png


[당시 프로젝트의 코드, 데이터를 쓸 수 있게 만드는데 많은 부분이 소요되었음을 알 수 있다]


데이터를 쓸 수 있도록 가공을 하는 데에 모델링의 배의 시간과 고생이 소요되었다. 데이터 가공의 중요성을 처음 깨달은 때였다.


류 컨설턴트는 이 시점을 R 사용법을 넘은 고민이 필요했던 시점이라고 말한다. 이때 까지는R 사용법에만 주목했지 모델이 어떻게 적용이 되고 도움이 될지에 대한 고민까지는 하지 못했다. 데이터 분석에 왜 통계가 필요한지, 그 필요성도 정확히 알지 못했던 때이다.


4. 공모전, 비즈니스 이해와 이론의 중요성


류 컨설턴트는 2년 동안 십여 번의 공모전에 도전하고 수상한 경험을 통해 특히 큰 성장을 이루었다고 말한다. 그중에서도 가장 큰 성장을 이루게 도와줬던 두 케이스를 통해 배웠던 점을 이야기해보고자 한다.


공모전 01: 카드사 마케팅 공모전

 


7.png


[카드사 공모전의 제공된 데이터와 목표]


해당 카드사 공모전은 고객의 구매정보 데이터를 통해 마케팅 전략을 도출해 내는 것이 목표인 공모전이었다. 류 컨설턴트는 해당 공모전을 진행하며 평소에 느끼지 못했던 두 가지 난관을 겪었다고 한다.


 

8.png


[데이터 과학자는 여러 개의 데이터를 병합할 수 있어야한다]



첫번째는 따로 제공된 여러 개의 데이터. 지금까지는 하나로 병합된 데이터를 주로 다루었으나, 실무와 가까운 공모전에서는 고객데이터와 거래데이터가 따로 제공되었다. 여러 개의 데이터를 다룰 수 있는 데이터 병합 지식이 필요한 부분이었다.


 

9.png


[분석결과에 설득력을 가지게 하는 것도 데이터과학자의 능력 중 하나라는 것을 공모전에서 알았다]


두번째는 주장에 설득력을 더해야 하는 일이었다. 지금까지는 모델을 만들고, 분석결과를 도출하면 끝났었다. 하지만 이제 이게 우리회사 데이터에 유용한 모델인지, 새로운 고객 세그먼테이션이 기존의 2030 여성 등의 방법보다 좋은 것이 맞는지를 설득해내야 했다.
 
류 컨설턴트는 이러한 설득력을 가지기 위해서는 해당 비즈니스와 데이터에 대한 이해가 뒷받침 돼야 하며, 통계적 지식 또한 중요하다고 말한다.



공모전 02: 공공데이터 활용 공모전



10.png  
[공공데이터 활용 공모전의 목표]


공공데이터를 활용해야 하는 두 번째 공모전에서 류 컨설턴트는 기상데이터를 활용해 작물을 추천하는 주제를 빠르게 선정했으나, 예상외의 문제점에 부딪혔다고 회상한다.


장바구니 추천, 아마존 협업 필터링을 고려했으나 보유한 데이터와 적합하지 않았다. 이때 문득 이상치 탐색 기법을 추천에 활용해 볼까 하는 아이디어가 떠올랐다고 한다.

 



12.png

[이상치 탐색 기법의 정의]



이상치 탐색 기법에 대해 간단히 설명하자면, 위의 표를 사람의 키를 나타낸 표라고 생각해보자. 150, 170, 500이라고 생각하면 사람의 키가 500인 것은 정상이 아닐 것이다. 이렇게 데이터가 정상인 기준을 찾아내고 해당 기준을 따라 이상치를 식별하는 기법이 이상치 탐색 기법이다. 
 

13.png

[이상치 탐색 기법의 적용- 원리를 잘 알고 있었기에 활용이 가능했다]



이러한 이상치 탐색 기법을 적용해, 해외의 열대과일을 기르는 곳에 온도, 습도 등의 정상 기후 기준을 알아내고, 우리나라 미래 기후 중 해당 기준에 해당 되는 곳을 확인해 추천에 활용했다.


사실 이상치 탐색 기법은 추천에 주로 활용하는 방법은 아니고 특이한 이상치를 걸러내는데, 주로 사용하는 방법이다. 하지만 기법 자체의 원리를 알고 있었기 때문에 추천에 활용할 수 있었던 것이다.



14.png
 
[알고리즘의 원리 이해의 중요성 ]


류 컨설턴트는 처음 공부를 시작할 때 R에 코드만 쓰면 자동으로 되는 걸 굳이 원리까지 다 공부하는 시간이 의미가 있는 걸까 하는 고민을 했었다고 한다. 하지만 이렇게 알고리즘의 원리를 파악하고 있지 않았다면, 가지고 있는 데이터에 적합한 알고리즘을 고르고, 기법을 활용하는데 어려움을 겪었을 것이라 말한다.

 

15.png
[류 컨설턴트의 데이터 분석능력 성장 곡선]


위 표는 류 컨설턴트가 그린 자신의 능력 성장 곡선이다. 이론을 공부하고, R을 배우고, 연습데이터를 다루다 실제 데이터를 만나면서부터 실력이 많이 늘어나는 모습을 보이고 있다.


류 컨설턴트는 이론적인 공부, R의 기능을 배우는 것 모두 아주 중요한 과정이지만 그것에 메여서는 안 된다고 말한다. 무엇보다 직접 가공되지 않은 데이터를 만나 직접 활용을 고민하는 과정이 동기부여와 성장에 큰 도움이 될 것이라고 강조했다.


EN-CORE_Report_20170404_데과2.pdf


※ 다음 리포트에서는 “나는 이렇게 데이터과학자가 되었습니다-3”를 다룹니다.



목록