DATOR


데이터 사이언티스트로 성장하기... (주)엔코아 박세진 컨설턴트 커버 스토리


cs00-.jpg


데이터 사이언티스트라는 단어가 담긴 제목의 글을 쓰기란 정말 조심스럽다.  21세기 가장 매력적인 직업이라고도 이야기 하고 마치 파랑새 처럼 멀리 있을 것 같으면서도 바로 곁에 있을 것 같기도 한 유니콘 처럼 느껴지는 직업군이다.  현업 데이터사이언티스트들의 skill-set 과 현업에 대한 경험치가 담긴 글을 볼 때면 감히 댓글을 달기도 조심스러울 정도다.  특히 프로그래밍 또는 통계 전공 출신이 아닌 경우, 도대체 어디서 부터 시작해야 할지, 괜히 꿈만 꾸다가 헛바람만 들고, 시간만 낭비하는 것은 아닌지 그냥 모른척하자니 갈수록 좁아져만 가는 취업문에 스펙은 쌓아야 할 것 같고, 이미 직장인인 경우 그냥 이렇게 세월만 보내다가는 세상에 뒤떨어질 것 같은 불안감도 든다. 단기 속성 교육이나 워크샵, 스터디도 나가보지만, 이렇게 해서 어느 세월에  "이제 좀 알 것 같다" 라는 기분이 들까라는 생각도 든다.  분명 우리 동네에서는 나도 잘한다고 하는 것이 있었는데 말이다.


몇 년 후 쯤 되면 사정이 달라질 지 모르지만, 데이터 사이언스를 업으로 삼기 위해, 또는 자신의 영역을 분석 쪽으로 넓히기 위해 공부하기 시작한 경우 다 커서 배우는 제2 외국어처럼,  좀처럼 입에 붙거나 손에 익지 않고, 언제쯤 새로 익힌 지식들을 내재화 하여 업무에 쓸 수 있을 지 걱정하기도 한다.


어떻게 하면 데이터 사이언티스트가 될 수 있을까.  현재 데이터 사이언티스트로 일하고 있는 이들의 이야기를 들어보면 공통적으로 알 수 있는 것이, 자신이 하고 있는 일에서 영역을 확장하고 도전하고 자신이 뜻하는 바를 이루기 위해 필요하다고 생각된 부분을 오랜 기간 끊임없는 도전과 경험을 통해 쌓아오다 보니,  그 자리에 있게 되었고, 현재 그 일을 하는 이들의 각양각색의 특징을 공통점을 모아서 이야기 할 수 있는 단어가 "데이터 사이언티스트"라는 점이다. 각자의 출발점 역시 다르기 때문에, 어떤 조언을 따라야 내가 롤모델로 삼고 있는 그들처럼 될 수 있는지, 조언을 주는 사람 역시 방향을 제시할 뿐 자신에게 딱 맞는 맞춤형 정답을 주기는 힘든 일이다. 그럼에도 불구하고 이 글을 쓰는 이유는, 누구도 정답을 제시할 수 없는 변화의 시대에, 어떤 마음가짐으로 전략을 가지고 각도를 높혀가며 성장해 나갈까 그 방향성을 이야기해보고자 한다.


2000년대 초반, Human Genome Project 를 통해 인간의 유전체의 전체 염기서열이 알려지면서, Bioinformatics(생물정보학)의 붐이 일어났을 때가 있었다. 당시 미생물을 이용하여 분자생물학 실험을 하는 Wet lab (손에 물묻히면서 실험하는 실험실을 이야기한다) 에서 유전자 실험과 분석을 하면서, 실험을 통해서만 조금씩 한땀 한땀 얻을 수 있는 데이터 뿐 아니라, 기업 국가 단위로 생산된 다량의 데이터를, 컴퓨터 알고리즘을 통하여 데이터를 분석하여 정보를 얻고 문제를 해결할 수 있다는 사실은 더없이 매력적이었다. 당시 주로 대학원 과정이나 워크샵을 통해 진행되었던 생물정보학 수업에는 다양한 전공의 학생들이 모여서 유전학과 컴퓨터 사이언스, 통계학을 번갈아 가면서 배우는 과정을 거쳤으며, 융합학문 과정이 많이 없던 시기에  당시 많은 생물학도들이 C, JAVA 프로그래밍을 배우고 처음 다루어 보는 리눅스를 배우고 확률론, 자료구조, 알고리즘에 대해 학습하였고, 통계학, 컴퓨터 사이언스 전공자들은 다소 생소한 생물학, 유전학, wet lab 실험에 대한 지식을 익히며 도메인 지식을 공부했다. 학부과정때부터 단계별로 차근차근 배우는 지식이 아니라, 한학기에도 대학원 이상 수준의 지식들을 한꺼번에 접하며 학문에 있어서의 culture shock를 느끼며, 공부했던 기억이 난다.  가장 견디히 힘들었던 부분은,  왠만큼 노력해서는 "아, 이제 좀 알것 같아" 라는 느낌이 좀처럼 들지 않는다는 점이다.  당시 새로운 학문이었던 Bioinformatics를 공부하려고 모여들었던 연구자들이 열정을 쏟아부었고, 그 중 일부는 현재 현업 생물정보학자로서 산업계와 학계의 발전에 기여하고 있으며 .  또 어떤 이들은 자신의 자리로 다시 돌아갔다. 최근 NGS(Next Generation Sequencing)라고 하는 염기서열을 분석하는 기술의 획기적인 발전을 통해 다량의 염기서열을 분석할 수 있게 되면서, 데이터를 생산하는 비용과 시간이 비교할 수 없이 줄어들었고(과거 년단위, 억단위의 자원을 들여 만들고 분석할 수 있던 데이터를 지금은 며칠만에 수백만원 내에서 만들어낼 수 있다), 이전보다 기술이 보편화 되고 정보를 입수할 수 있는 루트도 다양해지고, 데이터 역시 서비스라는 형태로 제공되면서 다시 한 번 많은 이들이 bioinformatics 에 관심을 가지고 모여들기 시작했고, 좀 더 체계적인 교육 과정이 많이 만들어졌고, 10년 전 그랬던 것처럼 다시 한번 생물학자, 의사, 통계 학자, 컴퓨터 사이언스 전공자들이 모여서 프로그래밍, 통계, 유전학을 공부하기 시작한 지 몇 년이 되었다. 이 두 시대를 함께 겪고 부딪히면서, 또 두 번째 시대를 살면서는, 현재의 데이터 사이언스를 준비하는 이들과도 방향을 같이 하면서 다양한 방법으로 공부하고 경험을 쌓아온 과정을 통해 학습과 성장에 대한 전략을 나누고자 한다.


1. 단기간 워크샵

국가 기관에서 주관하는 생물정보학 교육들 일 년에 몇 차례 대전에서 2박 3일 정도로 열리는 집체 교육을 꾸준히 참석하며, 일상에서 벗어나 기숙사에서 먹고 자며 각자의 위치에서의 고민을 나누고 함께 교육을 받았던 기억이다. 매 식사 시간마다 일부러 인사를 나누고 함께 이야기하면서 각자의 고민과 조언을 나눌 수 있었다.  기술적인 부분과 학술적인 부분을 모두 커버하는 다양한 분야의 교육을 받을 수 있었던 것이 기억에 남는다. 
아무래도 교육 과정을 준비하다보면 초심자를 고려하다보니, 수준을 높이기 힘든 경우가 많은데, 당시 중급자 이상의 교육에 대한 방향성이 큰 도움이 되었다. 다양한 분야를 다루다보니 소화하기 힘든 경우도 많은데 그럴 때는 INDEX로서 활용하여, 그 중 내가 현재 가장 필요로 하는 부분이 무엇인지 전체적인 그림을 그리고, 돌아와서 부족한 부분을 채우기 위한 플랜을 추가적으로 마련하여 채워 나갔다.  특히 방학 기간에는 여름학교, 겨울학교 등의 이름으로 기계학습 관련 세미나가 많이 마련된다.  . 이렇듯 초급 수준을 넘어선 중급 이상의 단기간 워크샵의 경우, 현업 전문가로부터 직접 이야기를 들을 수 있는 좋은 기회이다. 단기간에 이루어지다보니 내재화 하기 전에 끝나는 경우가 많은데, 이 정보들을 잘 모으면 앞으로의 방향성을 잡는데 도움이 되며, 다양한 분야가 있는 만큼 자신과 연관된 분야를 찾는데도 도움이 된다.


2. 프로젝트 성 장기간 교육

가장 추억이 많고, 지금도 하고 있는 일을 계속할 수 있는 원동력이 되는 교육은 1년 동안 서울대학교 병원에서 실시했던 유전체 임상 정보 분석 전문가 과정 이다. 매주 목요일마다 5시간씩 1년동안 생명정보 유전체 맞춤의학, 초급 프로그래밍, 유전체의학 알고리즘 (Python), 자료처리론, 중급 통계학 (R),  데이터베이스론과 바이오 빅데이터 분석, 리눅스와 바이오인포매틱스, 바이오 유전체 정보학의 커리큘럼을 통해 공부하며, 생물학자(식물, 동물, 식품 전공 등), 의사, 기업체분석가, 대학원생들과 함께 프로젝트로 온라인 상에 공개된 암유전체 데이터(TCGA:The Cancer Genome Project)를 분석하면서, 생물학자, 생물정보학자, 의사들의 다양한 도메인 지식을 활용해, 방향을 잡고 하나의 결과물을 완성해 나가는 과정 속에서 각자가 가지고 있는 리소스를 최대한 활용하며, 당시 추가적으로 참석하고 있는 워크샵 내용까지 고려하여 자연스럽게 분업할 수 있도록 하고, 직접 분석 서버를 구축하고 파이프라인을 구성하여 R과 파이썬을 통하여 분석하고 네트워크분석,  대사경로 분석 까지 하나의 스토리를 만들어 가는 과정은 과정 중에는 정말 고생하였지만 그때의 열정과 추억이 지금도 힘들때는 큰 원동력을 되고 있다.

이직을 준비하는 과정에서 학생들과 함께 장기간 프로젝트성으로 진행하는 교육에 교육생으로 참석한 적이 있다.  데이터 시각화 과정이었기 때문에 더욱 다양한 전공의 학생들이 모여있었으며,  경영정보, 심리학, UX디자인, 미디어 전공 등 다양한 전공의 학생들과 함께 프로젝트에 참여할 기회가 주어졌다. 다양한 분야에서 모인 참가자들이었던 만큼, 가장 기억에 남는 부분은, 서로의 관점, 일하는 방식이 얼마나 다른가 였다.  팀프로젝트를 진행하며, 구현해야 할 코드의 양, 수집하고 분석해야 할 데이터들이 쌓여있는 상황에서, 계속 우리의 방향에 대하여 질문을 제기하는 기획자의 역할을  했던 친구와 선의의 논쟁을 계속했었다. 구현하기 위해서는 시간이 필요하고 집중해야 하는데, 계속 방향에 대한 제기가 이루어지면 일을 진행하기 어렵다는 관점과, 하지만 무엇보다 어떤 방향으로 가고 있는지를 확실히 해야 한다는 입장 차이를 조율해가며, 데이터를 이용한 이 결과물이 어떻게 서비스 될 것인가를 유난히 논하던 친구들과의 토론이 지금 업무를 하는데 있어서 다양한 각도로 일을 바라보며 타 부서와 협업하는데 있어서, 큰 밑거름이 되고 있다. 당시 이직을 준비하던 기간이라 자기소개서를 쓰는데 고민을 하고 있었는데, 졸업반 및 취업 준비를 하고 있던 친구들이라 자소서 만큼은 세상에서 가장 프로페셔널한 친구들이었다. 자신의 경력과 skill-set 을 따로 엑셀로 정리하여 관리하는 친구도 있었고, 이 친구들의 조언을 받아 힘을 얻어 자소서를 완성 할 수 있었다. 다른 친구들보다 경험과 나이가 많았던 만큼, 가르치는 선생님들을 서포트하고, 함께 하는 친구들에게 도움을 주려고 마음먹고  참가했었는데 내가 오히려 배우고 얻은 것이 활씬 많았던 것 같다.
빛나는 열정 만큼이나 하고 싶었던 일들도 많고 꿈도 많았던 친구들이라, 주제 선정을 위한 몇 주간에 걸친 아이디어 회의 안에서 나왔던 (당시 우리가 가진 자원과 기술적인 한계로 접어야 했던) 수십 가지의 많은 아이디어들은 교육이 끝나고 몇 달이 지난 지금도 "아 그때 이야기했던 그건 이렇게 하면 될 것 같아". "이 부분을 계속 해 나가려면 이걸 좀 더 해보는 게 좋겠어", '관심 있을 내용 인것 같아 공유합니다"  등 서로의 성장을 지켜보며 인연을 이어가고 있고, 그 중 일부는 따로 또 함께 창업, 서비스 런칭 등 새로운 일을 도모하여 꿈을 이루어 가는 과정에 있는 친구들도 있다.
장기간 프로젝트성 교육에 참석할 기회가 생겼다면, 그 기간 동안 함께 열정과 고민을 쏟아 뜨거운 경험을 만들어보자. 그 추억으로 하루를 버틸 수 있는 원동력이 되기도 한다.


3. 스터디
프로 스터디 참석자라고 말해도 될만큼, 다양한 스터디에 참석해왔다. 
2년전 바이오파이썬 이라는 이름으로 스터디를 시작했었는데, 당시 융합 분야에 대해 관심을 가진 다양한 직군의 사람들이 모여서 스터디가 진행되면서, 각자 하고 싶었던 분야들로 이후 다양한 스터디가 파생되어 생성되었고, 서로 도메인 지식의 한계, 기술적인 문제로 한계로 생각하던 부분들을 서로 십시일반 도와 가며 하나씩 완성해나가며, 개인적으로도 step-up 하는 큰 기회가 되었다. 특히 당시 현업 프로그래머 한분이 특강으로 진행해주셨던 github 강의로 인하여 지금도 그 많은 파생 스터디의 자료들이 모두 github 에 정리되고 공개되고 있다.  스터디를 진행할 때는 단기적인 플랜과 커리큘럼이 있는 것이 좋고, 자료를 공유하고 후에도 참고할 수 있도록 공개하게 되면 나중에 큰 재산이 되고, 누구보다 자신이 가장 많이 참고하게 된다.  다양한 분야의 전공, 직업군의 사람들과 만나게 되면, 그 전공, 직종의 사람들의 지식과 기술의 커버리지가 어디까지인지 파악할 수 있는 점도 큰 장점이다. 서로 부족한 부분을 채워가며 공부하다보면, 나중에 현업에서 팀을 구성하거나 협업할 때 그 경험이 큰 재산이 된다.
마침 지금 있는 회사에서도 2주일에 한번 씩 사내 분석 스터디를 하고 있다. 특히 지방에 있는 사이트에서 프로젝트 하고 계신 동료분들이 빠지지 않고 참석하실 때는 준비하고 있는 입장에서 큰 힘이 된다.  벌써 반 년 정도 진행하다보니,  서로의 분야에 대해서도 이해하게 되고 하고 싶은것도 생겨 나게 된다. 회사에서 지원해주고 있는 자리이다보니, 눈치보지 않고 참석할 수 있다는 점도 큰 메리트이고, 일과 공부하는 내용의 방향성에 대한 고민도 함께 나눌 수 있어서 좋다. 서로 다른 부서에서 일하는 분들과의 교감을 쌓을 수 있는 점 도 큰 장점이다.


4. 온라인 학습 사이트 (MOOC - coursera,  edx, kmooc, udemy)
코세라의 "Data Science " Johns Hopkins University를 추천한다. 데이터사이언스 전과정을 단계별로 학습할 수 있고, 처음에는 많이 어려울 수도 있지만, 팀을 이루어서 같이 학습하는 것을 추천한다. 서로 끌어주면서 나눠서 발표하고, 마감이 있는 퀴즈, 프로젝트를 해결하다보면 시간내에 task 를 해결하는 방법도 동시에 터득하게 된다. 3,4주차로  갈수록 많이 낙오하는 경향이 있는데, 함께 공부하는 것이 선의의 경쟁도 되고 동기부여가 된다. 무료로도 들을 수 있고 유료로 수강하게 되면 수료증을  링크드 인에 연동할 수 있어 취업 준비생에게는 학습에 큰 동기부여가 된다.
Datacamp - ‘학습’에 있어서 ‘학’과 ‘습’의 부분 중 습에 해당하는 연습을 한 스텝 한스텝 따라해볼 수 있어서 좋다.
K-MOOC  http://www.kmooc.kr/ 그동안의 MOOC  강의들이 영어로 되어 있어 부담스러웠다면 한글로 되어있는 K-MOOC 를 이용해보자. 실제 오프라인 대학강의와 동시에 진행되는 경우도 있고 오프라인 모임을 따로 가지는 경우도 있다. 특히 인문학 쪽의 다양한 강의들이 있어 도메인 지식을 넓히는데도 도움이 된다.
KBIG 빅데이터 분석 실습 교육 콘텐츠 https://kbig.kr/edu_manual/html/01_main.html
data manipulation 부터 분석 과정 전체를 학습할 수 있는 커리큘럼이라 추천한다. 분야별 데이터셋을 통해 분석과정을 학습할 수 있다. 교육 자료로도 활용이 가능하다고 한다.


5. 전공과목을 통한 공부
워크샵, 교육과정, 스터디를 통하여 공부하다보면, 아무래도 지식에 빈 부분이 많이 생기게 마련이다. 어느정도 방향이 잡혔다고 생각하면, 기회가 닿는대로, 전공 교과목에 해당하는 과정을 스스로 테크트리를 만들어 차곡차곡 쌓아나가는 것을 추천한다. 학부과정, 대학원과정에 있는 학생들의 경우, 전공 교과목에만 한정하지 말고, 최대한 교과목을 활용하고 학교의 자원을 활용하여 본인만의 균형잡힌 테크트리를 구성해보자. 현업을 하면서  방송통신대학의 정보 통계학과를 병행하는 경우도 있다. 필요한 skill-set을 갖추는 것도 의미있지만, 전체적인 균형잡힌 지식을 갖추어 나가는 것도 의미있다. 


이 글을 마치면서

올해 1월~2월까지 대학생들을 대상으로 엔코아 멘토링 스쿨 2기를 진행했었다.  부푼 꿈을 안고 지원서를 낸 학생들을 선발하는 과정에서 가장 많이 신경썼던 부분은, 처음으로 관심을 가지기 시작한 사람보다는, 많은 고민을 하고 나름대로 준비하면서 여러가지 시도를 해보며 자신만의 고민과 방향을 갖고 있는 사람, 그리고 끝난 후에도 스스로 길을 찾아갈만한 열정이 있는가였다.  7주간 매주 토요일 하루종일 함께 보내며 데이터분석가의 길을 함께 이야기했고, 멘토들 역시 매일매일 치열한 회사 생활의 현장에서 밤새고 일하다가도 1시간 자고 다시 그자리에 서서 멘티들과의 만남을 준비했던 기억도 있다. 답이 나오도록 예쁘게 준비된 데이터셋이 아닌, 날 것의 데이터를 가지고 좌충우돌 부딪히고 고생하면서 주제를 잡고 데이터를 정제하고, 원하는 방향으로 만들고 분석하여 인사이트를 얻고 하는 싸이클을 끊임없이 반복하면서, 마지막날에는, 데이터 사이언티스트라고 하면 그냥 멋있다고 생각했었는데, 다시 한번 이 길에 대하여 진지한 고민을 하게 되었다는 고백도 들었다. 그 고백을 했던 친구는 지금도 이 길을 열심히 준비하고 있는 모습을 본다.  멘토링 마지막 날에 멘티들에게 했던 이야기가 있다. 2달 동안은 우리가 멘토를 해주었지만, 이제부터는 같이 이 길을 준비하고 걸어가는 사람들이라고. 서로 성장해 나가는 만큼 서로에게 멘토링 해줄 수 있는 동등한 관계로 다시 시작하자고. 
그때 정말 고생했었지만, 열정을 나눌 친구들이 있었고 그랬기 때문에 더 보람있었다고, 오히려 제 자리로 돌아온 지금 과도한 열정을 부담스러워 하는 교수님, 함께 고민을 나눌 수 있는 동료가 부재하다는 것이 고민이라는 이야기를 들었다.  잘하고 싶은 분야와 잘하는 분야 사이에서 고민이 된다는 멘티의 이야기를 들으며,  이 땅에서 데이터 사이언티스트의 꿈을 꾸며 준비하고 있는 친구들에게 하고 싶은 이야기는,  세상은 경력같은 신입을 원하지만, 업을 시작하기 전에 경험할 수 없는 것들을 모두 준비하는 것은 쉬운 일이 아니다. 어떤 교육이나 워크샵, 수업도 한번에 원하는 모든 것을 채워주는 것은 없다. 자신만의 방향을 잡고, 각도를 높여가며, 스펙쌓기에 끌려 다니는 것이 아닌 자신만의 기준을 가지고 주도적으로 다양한 리소스를 활용하여, 자신의 조각을 채워 나가자. 그 과정 중에.그 조각들을 하나로 이루어줄 경험과 함께 쌓고, 이야기하고 고민할 동료들이 생긴다면 큰 힘이 될 것이다. 

Tag :

Leave Comments