• 미디어 >
  • 엔코아 리포트
Weekly Brief
[조회수 : 1977]  다운로드
데이터 순환계의 심장, 데이터 가공 산업

[데이터 순환계의 심장, 데이터 가공 산업]


생소하다. 우리에겐 “데이터 가공 산업”이라는 단어 자체가 잘 이해되지 않는다. 일반적으로 가공(加工)이라함은 원자재나 반제품을 인공적으로 처리하여 새로운 제품을 만들거나 제품의 질을 높이는 행위를 의미한다. 날 것을 상품으로 만드는 과정. 즉, 데이터 가공이란 각종 날 데이터들을 모아서 비비고 섞고 버무려서 모든 산업이 쓸 수 있도록 예쁘게 정돈하여 제공하는 일을 말한다.


1.jpg

[데이터 가공은 데이터 생태계에서 심장과 같이 데이터 순환을 위해 펌핑 작용을 한다]



앞선 글에서 여러 번 언급했던 데이터가 4차 산업혁명을 위한 원유이자 윤활유라는 것에 이제 이견을 제시할 사람은 없을 것이다. 하지만 데이터 생태계가 실질적인 생명력을 가지려면 데이터를 활용해야 하는 곳에 데이터를 보내 줄 수 있는 펌프 역할이 필요하다. 이를 위해 데이터 가공을 위한 공장이 필수적인데 아직 우리나라에서는 이러한 데이터 가공 공장의 필요성을 깨닫지 못하는 추세다.

이번 리포트에서는 데이터 생태계에서 왜 데이터 가공 산업의 역할이 중요한지 알아보고 그 특징과 구조, 해외 사례 등을 통해 우리에게 맞는 형태의 데이터 가공 산업이 어떻게 만들어질 수 있는지에 대해 생각해보고자 한다.


1. 데이터 생태계와 데이터 가공 산업


전통적인 데이터 산업은 크게 <저장>과 <활용>으로 구분되어 있다. 저장 영역은 데이터를 수집, 가공, 저장하는 과정이며, 활용 영역은 분석하고 서비스하는 영역이다. 통상적인 데이터 시장의 구분법으로 데이터를 저장하는 영역에는 IBM, 오라클, 마이크로소프트 같은 공룡 기업들이 포진되어 있고, 활용 영역에는 페이스북, 에어비엔비, 넷플릭스 같은 데이터 기반 서비스 업체들이 자리 잡고 있다


기업 정보화의 시작
기업은 컴퓨팅 시대를 맞아 업무 및 서비스의 효율화를 위해 정보화 시스템을 구축하였고 꾸준한 데이터 증가로 인해 90년대 후반부터는 비용절감과 생산성 극대화를 위한 분석이 필요해졌다. 전사자원관리나 생산관리, 고객관리 데이터는 데이터웨어하우스(DW)에 모아 미래 예측을 위한 분석을 하게 되었다. 이 시기에는 테라데이터나 사이베이스와 같은 기업들이 전사적데이터웨어하우스(EDW) 시장의 강자로 자리 잡고 있었다. SAS, SPSS와 같은 분석 소프트웨어들이 이러한 시장 환경에 편승하여 급속도로 동반 성장하게 된 시기다.


국내 EDW나 고객 관계관리 프로젝트들의 경우 데이터의 정제와 구조, 나아가 조직적 데이터의 흐름과 점검 없이 분석만을 중심으로 유행병처럼 번져 나갔기 때문에 EDW가 없으면 시스템적으로 뒤떨어지는 회사처럼 보이기도 했었다. 이렇게 기업 정보화 시장이 안정적으로 성장하는 듯 보였다. 


스마트폰 시대가 가져온 모바일 빅뱅
문제는 2007년 금융위기 이후 EDW의 효용성과 고객 관계관리의 성공 여부에 대해 논쟁하던 국내 IT 시장에 모바일 빅뱅이 터져 버렸다. 모바일 빅뱅은 데이터 산업의 관점에서 엄청난 변화를 가져다 주었는데 SNS와 블로그 등을 통해 기존과는 차원이 다른 양의 데이터가 저장되었고, 모든 사물이 네트워킹하기 시작하면서 서로 다른 타입의 데이터들이 쌓이기 시작한 것이다.


한국만의 독특한 기업 정보화 시장
차세대 컴퓨팅 시스템이라는 세계 어느 곳에도 찾아보기 힘든 빅뱅 방식의 선진 기술 들여오기에 급급했던 우리에게 한국형 구조로 필요한 것만 받아오다가 우리가 놓친 부분이 바로 데이터 가공 산업이다. 데이터 가공은 나의 데이터를 제 3자에게 맡기고 다시 받아오는 형태여야 하는데 선진 사례를 그렇게 좋아하는 우리 민족이 눈과 귀를 가려 버린 이유는 아무래도 우리 정서와 너무도 맞지 않기 때문에 있을 듯하다. 우리나라의 클라우드 보급 속도가 초고속인터넷 보급 속도보다 상대적으로 낮은 이유도 이와 같다고 본다.


글로벌 기업들의 데이터 기반 비즈니즈
미국 아마존의 CEO 제프 베조스는 우리는 데이터를 절대 버리지 않는다고 말했고, 중국 알리바바의 마윈 회장은 데이터 테크놀로지 시대의 전도사를 표방하면서 이제 소프트웨어에는 관심을 두지 않고 하드웨어 집중하겠다고 말했다. 데이터를 모으는 것에 집중하겠다는 의미다.


미국 다이렉트마케팅협회 조사에 따르면 데이터 관련 산업은 2012년 1560억 달러 시장 규모에서 2014년 2020억 달러로 35% 성장했고, 일자리 창출도 67만5000개에서 96만6000개로 2년 만에 49% 증가했다. 이는 데이터 관련 가공 및 판매 산업만으로도 한국 전체 데이터베이스(DB)와 관련된 매출 및 일자리와 비슷한 규모다. 특히 판매용 데이터 가치의 70%는 기업 간 데이터 교환과 판매에서 비롯됐다.


2.jpg

[데이터 기반 서비스를 위한 데이터 가공, 중개 산업 역할. 전자신문 2016. 7]


우리나라는 미국처럼 데이터 가공 관련 산업이 활성화되어 있진 않지만, 대기업을 중심으로 데이터 활용에 대한 요구가 일어나고 있다. 글로벌 기업들은 이미 내부 데이터와 공공 데이터, 소셜 데이터와 경쟁사의 데이터까지 포함하여 새로운 상품을 개발하고 새로운 고객을 찾고 새로운 문제를 찾아낸다.


2. 데이터 산업의 변화와 데이터 가공의 역할


데이터 가공 산업의 중요성
데이터 가공 산업은 기업이 데이터를 저장하고 활용하기 위해 단순했던 데이터들이 복잡해지고 다양해지면서 자연스럽게 생기고 확장된 산업이다. 가공 산업의 가장 중심에 서 있는 업종이 데이터 브로커이다.


데이터 브로커는 데이터를 수집해서 재판매하는 기업을 지칭하는 말이다. 이들이 데이터를 재판매하는 과정에서 가공과 분석이 더해진다. 이미 미국에서는 1950년대부터 등장했던 산업인데 우리나라는 개인정보보호에 대한 사회적 정서가 외국과 다르기 때문에 성장하지 못했던 산업이었다.


그런데, 최근 국내에서 데이터 가공 산업이 중요하다고 이야기되는 이유가 무엇일까? 바로 데이터 산업 전체 가치 사슬에서 데이터 브로커의 역할이 너무나 중요하기 때문이다. 또, 4차 산업혁명의 성패를 데이터의 연결 여부가 좌우할 수 있는데 숙련된 데이터 사이언티스트와 데이터 브로커 없이는 산업과 산업을 연결하는 융합이 일어나기 쉽지 않기 때문이다.


데이터 브로커의 역할
데이터 브로커는 데이터 산업 분류의 관점에서 유통업과 가공업에 해당한다. GS칼텍스나 SK이노베이션이 원유를 사와서 기업이 원하는 곳에 그냥 원유를 판매하기도 하지만 2차 3차 가공을 거쳐 부가가치를 더해 재판매하지 않는다면 에너지 시장에는 원유를 퍼 나르는 업자들만 가득하게 될 것이다. GS칼텍스나 SK이노베이션은 원유를 사 왔던 국가에 가공유를 되판 돈으로 원유를 사 온다.


에너지 산업뿐인가, 농산물, 수산물, 임산물, 광물, 심지어 지식산업에 이르기까지 가공이 없는 생태계와 가치 사슬은 없다. 하지만 우리나라는 개인정보보호법 덕분에 데이터 가공 산업이 자리를 잡지 못하고 있다.


지난해에도 소개했지만, 데이터 산업의 지도가 변하고 있다. 매년 발표되고 있는 이 생태계 지도는 2016년 MarTech USA 컨퍼런스를 통해 또 한차례 업데이트된 산업 지도를 발표했는데 지난 5년간 무려 24배나 성장하였다.

 

3.jpg


[2016년 MarTech USA 컨퍼런스에서 발표된 지난 5년간의 마케팅 산업의 성장 지도]


여기서 우리가 주목해야 할 것은 마케팅 산업의 확장이 아니라 데이터 산업의 포지션 변화다. 2010년 초반 우리가 한창 모바일 빅뱅으로 빅데이터 산업의 허와 실에 대한 논쟁을 벌이고 있을 때 미국에서는 데이터 산업 지도의 변화가 일어나고 있었다. 이 시기에 전통적인 IT 공룡들은 우리가 이해할 수 없는 M&A를 하기 시작했다. 수많은 기업들을 먹어치우면서 그들은 자신들을 IT기업이 아니라 마케팅 기업이라고 포장하기 시작했는데 SAS는 분석 소프트웨어가 아니라 마케팅 플랫폼을 판매하는 기업이라고 홍보했었고, 오라클도 저장 소프트웨어 기업이 아닌 마케팅 기업으로 불리길 원했다. 이제 그들은 탈 IT를 외치고 있다.


잠시 시간을 들여 눈을 크게 뜨고 아래 지도에 있는 우리가 알고 있는 기업들의 로고들을 찾아보자. 오라클의 경우 광고 프로모션을 제외한 마케팅 모든 영역에 걸쳐 사업을 펼치고 있다. (오라클은 친절하게 표시를 해두었으니 어도비로 한번 월리를 찾아 보시라.)


제목 없음.png


[2016년 마케팅 기술 랜드스케이프 Chiefmartec.com  바로가기]


미국 디지털 마케팅 협회는 데이터 브로커에 대한 의회 질의에서 “데이터 기반 마케팅은 디지털 시대의 미국의 자유시장 엔진이 돌아가게 하는 연료가 되고 있다.”고 말하며 전통적인 마케팅에서 디지털 시대 마케팅으로 진화하는 데 있어 데이터의 필수 불가결한 역할을 이야기했다.


하지만, 이러한 역할이 마케팅 산업에만 있으랴? 위에서 보았듯이 마케팅 테크놀러지를 마테크라 부른다. 우리 귀에 익숙한 핀테크는 파이넨스 테크놀러지다. 최근 홍보 분야에서는 애드테크가 가장 핫이슈이고, 의료, 국방, 행정, 정치 경제 전반에 걸쳐 데이터 기반 사회로 진화 중임을 우리는 이미 알고 있지만 무언가 이 문제를 풀어 줄 실마리를 찾지 못하고 있는 듯 보인다.


3. 데이터 가공 비즈니스


열매를 맺기 위해 필요한 일벌
데이터 브로커에게 데이터는 마치 벌들이 묻혀오는 꽃가루와 같아서 수집된 데이터를 가공하여 다시 산업에 보내주고 성숙한 데이터를 다시 받아서 재가공하여 다시 산업을 돌리는 원유이자 윤활유의 역할로 산업 전반을 풍성하게 만드는 역할을 한다.


앞서 설명한 바와 같이 이미 오래전부터 데이터 가공 산업이 만들어진 미국의 경우, 데이터 브로커 역시 큰 성장을 해왔다. 미국의 데이터 브로커들의 비즈니스 모델을 살펴보면 데이터 수집, 데이터 정제 및 상품화, 데이터 판매의 3단계로 나눌 수 있는데 단계별 주요 활동은 다음과 같다.


5.jpg


[데이터 브로커의 주요활동, 한국정보화진흥원 2016. 11]


데이터 브로커는 수집, 축적된 데이터를 기반으로 특별한 데이터 베이스를 구축하며 기존에 축적된 데이터,업데이트 된 데이터, 신규로 수집된 데이터 등을 분석 목적에 맞게 분류, 조합, 연결하는 데이터 가공 작업을 진행한다. 수집된 데이터를 요소별(나이, 성별, 인종, 지역, 소득, 학력, 직업 등)로 세분화하고, 각 요소 간 여러 조합을 통해 다양한 상관관계 등을 분석해 원하는 분석 결과를 도출한다.


이 과정에서 단순한 가공 및 분석에만 그치지 않고 통계와 빅데이터 분석 등을 통해 고객 행동 예측 모델을 개발해 다양한 수익창출을 이뤄 내고 있으며, 이러한 데이터 브로커의 분석결과는 광고, 마케팅, 선거 등 사용자 데이터 분석이 절대적으로 필요한 분야에 급속 도로 확산되고 있다.


그렇다면 데이터 가공업체의 더욱 상세한 수익창출은 어떻게 이루어질까? 데이터 브로커의 비즈니스 모델은 데이터를 수집해 판매하는 유통 중심 모델과 고객이 요구하는 분석 결과를 위해 필요한 데이터를 수집하고 이를 가공, 분석해 판매하는 맞춤형 비즈니스 모델로 구분할 수 있다.


데이터는 데이터화 및 수집, 수집된 데이터의 가공 및 분석, 분석결과를 통한 의사결정 및 활용 등의 ‘데이터 가치사슬’로 엮여 있다. 데이터 브로커는 이러한 데이터 가치사슬의 전 과정에 관여하며 수익을 창출한다.


데이터화 및 수집 단계에서는 주로 데이터 판매가 일어난다. 이 단계에서는 보유 중인 데이터, 따로 수집한 고객이 필요로 하는 데이터, 브로커 간 거래를 통해 획득한 데이터 등을 판매한다. 데이터 분석단계에서는 데이터를 가공, 조합, 활용한다. 그러한 데이터 분석 결과를 판매하거나, 고객에 따른 맞춤형 데이터를 만들어 판매하기도 한다.


의사결정 및 활용 단계에서는 분석결과의 활용 업무를 대신해주는 비즈니스도 진행된다. 주로 데이터 브로커의 데이터나 분석결과를 활용하는 것은 주로 구매자의 영역이다. 그러나 데이터 브로커에게 데이터 분석을 통한 마케팅 등의 업무를 위탁하는 경우도 있다.


데이터 브로커의 주요 비즈니스 영역은 아래와 같다.

6.jpg


[데이터 브로커의 주요 비즈니스 모델. 한국정보화진흥원 2016. 11]


지난 해 엔코아 리포트에서 소개했던 데이터 브로커 리스트도 다시 한번 소개한다.


 7.png
[미국의 대표적인 데이터브로커 출처: KISDI]


4. 개인정보보호법과 한국의 데이터 가공 산업


이렇게 많은 데이터를 보유하고 있어도 사고가 일어나지 않을까? 또 이러한 유통 과정이 공정하게 이뤄질 수 있을까? 미국은 개인 정보에 대한 보호법이 없나? 물론 아니다. 


2012년 페이스북과 데이터로직스 간의 협업 과정에서 프라이버시 침해 논란이 일었었고 미국 공정거래위원회는 액시엄과 데이터로직스를 비롯해 ID애널리틱스, 픽유 등 9개 데이터 브로커를 조사했었다. 이들 9개 기업 모두 소비자로부터 직접 데이터를 수집하지 않았던 것으로 밝혀졌다. 


그들은 인구통계 정보, 주소 변경 정보 같은 정부 데이터와 보도자료, 전화번호부, SNS 같은 공개 정보, 그리고 제품 구매 일자, 결제 방법 등 민간 데이터를 활용한 것으로 확인되었다. 특히 다른 데이터 브로커와 정보를 공유했는데 조사한 9개 업체 중 8개 업체가 서로 데이터를 거래한 것으로 나타났다.


미국 공정거래위원회(FTC)는 데이터 브로커 산업의 투명성 부족에 주목하고 의회에 소비자가 데이터 브로커의 존재와 활동을 인지하고 이들이 보유하고 있는 개인 정보에 합리적으로 접근할 수 있도록 돕는 법률 제정을 권고했다.


미국의 경우, 개인정보는 민감정보와 비민감 정보로 구분되는데 미국에서도 신용정보나 사회보장정보와 같은 민감정보를 활용하는 것에는 제약이 있지만, 비민감 정보는 마케팅에 활용하는 것이 허용되는 것이다.


위 사건은 마케팅 활동을 위해 개인 정보 활용에 동의한 기업 간 데이터 거래는 활성화되어야 한다는 것으로 결론이 났지만 아무래도 우리나라 정서에는 거부감이 있을 수밖에 없지만 글로벌 기업들은 이미 우리의 데이터를 활용하여 국내 시장에 침투한 지 오래다.


데이터 브로커가 데이터를 수집하고 활발하게 거래하는 과정에서 우리의 데이터가 어떻게 수집, 유통되는지 알 수가 없으므로 우리는 불안하다. 하지만, 이 과정에서 우리에겐 이익과 불이익은 동시에 나타나기 때문에 이제 시작하는 단계에서 조심스럽게 접근할 필요가 있다.


현재는 시장의 요구사항에 맞춰 정부가 개인정보 비식별화 가이드라인을 통해 기회를 제공하긴 했으나 실질적인 비즈니스를 위해 가이드라인을 활용하기 쉽지 않다는 목소리가 나오고 있다. 그러나 시장은 자연스럽게 만들어지게 될 것이고 규제는 바꿔 나가면 된다.


데이터 산업 활성화에 대해서는 세계 모든 국가가 주목하고 투자하고 있다. 현재는 미국 중심의 데이터 가공 시장이 활성화되어 있지만, 유럽, 일본, 중국 모두 데이터 활용에 대한 각자의 가이드라인을 만들어가고 있다.


우리도 세계 시장을 주목하며 우리만의 데이터 가공 산업 활성화에 대한 고민을 시작해야 한다.


※ 다음 리포트에서는 최근 이슈가 되고 있는 “의료 데이터 가공 산업”에 대해 알아 보고자 한다.

EN-CORE_Report_20161213_데이터 순환계의 심장, 데이터 가공 산업1.pdf


목록