• 미디어 >
  • 엔코아 리포트
Weekly Brief
[조회수 : 7037]  다운로드
데이터 시각화 PART2: 데이터 시각화 도구


[데이터 시각화 PART2: 데이터 시각화 도구]


데이터가 너무 많다. 기업들은 여기저기 넘쳐나는 데이터로 인해 조금이라도 <더 가치 있는 데이터>를 찾는 일에 서슴없이 주머니를 열고 있고, 그 <데이터를 제대로 바라 보기> 위해 투자하기 시작했다. 데이터 빅뱅 이후 우리는 가치 있는 데이터에서 가치 있는 정보가 나온다는 것을 확실하게 경험하며 살아가고 있다.


“데이터 시각화 도구”는 데이터에 대한 기업의 투자가 제대로 된 것이었는지 확인 할 수 있게 해 주는 동시에, 미래 먹거리를 위해 어느 곳에 투자해야 할지 알려주는 나침반과 같은 역할을 한다. 우리가 당면하고 있는 빅데이터 시대는 자연스럽게 데이터 시각화 도구를 주목 받게 만들었고, 과거에는 큰 비용을 치러야만 했던 데이터 시각화 도구들이 최근에는 기술의 발전과 공급 확대로 인해 오픈소스 기반의 무료 솔루션들까지 빠르게 늘어나고 있는 추세다.


2015년, 대한민국 대부분의 기업들은 데이터를 활용하는데 있어 “왜”와 “무엇”, “어떻게”가 결정되면 그 결과를 뽑아 낼 수 있는 정해진 포멧에 맞춰 찍어 내거나 인포그래픽 같은 아주 특별한 가공이 필요할 경우 대행사를 활용하고 있다. 마치 어느 공공기관이 연말에 차기 년도 예산안을 홍보하기 위해 몇 백만 원 짜리 인포그래픽 한 장을 대행사에 의뢰하여 제작해서 보도자료로 배포하는 것처럼 말이다.


하지만, 데이터 시각화 Part1에서 이야기 했듯 데이터 아티스트(Artist)들은 그렇게 생각하지 않는다. 시각화를 통해 얻을 수 있는 통찰력은 챠트 그래프와 같은 결과 보고서의 형태로 모두 말할 수 없기 때문이다. 데이터 아티스트가 말하는 새로운 가치를 찾는 것이 데이터 사이언티스트(Scientist)가 추구해야 할 방향이고 아트웍(Artwork)을 통해 창조적인 미래를 볼 수 있다는 것이다.


이번 엔코아 리포트는 데이터를 통해 얻은 가치를 가장 효율적으로 표현할 수 있는 다양한 데이터 시각화 도구들에 대해 알아보자.




1. 데이터 시각화가 추구해야 하는 방향


‘미국에서 가장 영향력 있는 디자이너 50인’에 선정되었으며, National Design Award를 수상한 바 있는 벤 프라이(Ben Fry)는 카네기 멜론대와 MIT 미디어랩 박사 과정을 거쳐 시각화 작업에 특화된 오픈소스 언어인 “Processing”을 개발한 개발자로도 유명한 데이터 시각화 전문가이다.


그는 현재 공공, 언론, 기업을 넘나들며 다양한 데이터 시각화 작품을 선보이고 있는데, 그의 작품을 통해 데이터 시각화의 미래를 엿볼 수 있다. 현재 그는 정보 디자인 컨설팅 회사의 수장이며 구글, 삼성 GE, 나이키, 뉴욕타임즈, 로이터 등과 데이터 시각화 작업을 해왔다.


그는 데이터 시각화에 대해 “하나의 시각화는 그 데이터 셋에 표현하는 유일한 특성들만을 표현해야만 한다. 일반적인 시각화 도구들을 이용해서 표현하는 것은 제대로 된 시각화가 어렵다. <그 데이터만을 위한 고유의 시각화>를 만들어 내야만 한다.”라고 말하며, “너무 많은 정보들은 청중을 혼란스럽게 하고, 정작 중요한 것을 전달하지 못한다는 것이다.”라고 말했다.



er1.jpg

[Visualizing Data by Ben Fry]


그는 그의 저서 Visualizing Data(2008)에서 데이터 시각화를 다음과 같은 7단계로 구분하였는데, 1단계는 Acquire(획득), 디스크의 파일이나 네트워크를 통해서 데이터를 획득한다. 2단계는 Parse(분해), 데이터의 의미를 해석할 수 있도록 구조에 넣는다. 3단계는 Filter(선별), 관심 있는 데이터만 남기고 나머지는 정리한다. 4단계는 Mine(마이닝), 통계학이나 데이터 마이닝 기법을 이용하여 패턴을 파악하거나 수학적인 맥락(mathematical context) 위에 놓는다. 5단계는 Represent(표현), 막대 그래프, 리스트(list)나 트리구조(tree) 등의 기본 시각화 모델을 정한다. 6단계는 Refine(정제), 기본 표상(basic representation)을 더 명확하고 시각적으로 돋보이게 개선시킨다. 7단계는 Interact(상호작용), 앞 단계에서 얻은 정보를 다양한 시각에서 시뮬레이션 해보는 과정


er2.jpg

[Ben Fry의 시각화 7단계]


이 7단계는 크게 <데이터 처리>와 <데이터 시각화>로 분류할 수 있는데, 기업이 수행하는 일반적인 데이터 기반의 활동 전체를 잘 구분하였으며 우리가 어떤 기준으로 데이터에 접근하고 바라봐야 하는지를 제시하고 있다.




2. 데이터 시각화 패러다임의 전환


최근 5년간 데이터 시장은 전체 IT시장에 비해 5~6배로 빠르게 성장하고 있으며 2014년 IDC가 예측한 데이터 시장 규모는 약 161억 달러에 이른다. 구조화 되기 이전의 데이터를 시각화하기 위한 노력은 이미 오래 전부터 끊임없이 이뤄졌지만 최근과 같이 이슈가 된 적은 없었다.


아직은 정의되지 않았지만 최근 채용 정보를 통해 보여지고 있는 CDO(Chief Data Officer)나 데이터 사이언티스트의 기본 소양을 정리해 보면 다음 세가지로 응축된다.


첫째, 데이터를 모으고 가공하는 데이터 처리 능력,
둘째, 데이터 분석에 필요한 모형을 만들고 결과를 도출하는 분석 능력,
셋째, 해당 업종에 대한 이해가 그것이다.


데이터 과학이 예술의 경지로 진화하려면 이 외에도 의사소통 능력, 협업, 리더십, 창의력, 규율, 열정이라는 요소도 겸비해야 한다고 전문가들은 조언한다. 또, 추가적으로 데이터 사이언티스트가 지녀야 할 덕목으로 기술 전문성(Technical expertise), 호기심(Curiosity), 데이터로부터 이야기를 만들어내고 이를 효과적으로 전달하는 능력(Storytelling)과 문제 해결을 위해 창의적인 관점에서 접근하는 능력(Cleverness)으로 표현하기도 한다.(Patil, 2011).


여기에서 보여지는 데이터 사이언티스트의 핵심 자질은 데이터를 바라보는 통찰력이다. 데이터로부터 이야기를 만들어 내서 효과적으로 전달해야 한다. 그러기 위해 가장 효율적인 도구는 무엇일까?


최근 비즈니스 인텔리전스(BI) 분야의 트랜드가 시각화 중심으로 재편되고 있다. 이런 상황이 트랜드에 불과하다는 의견도 있지만  <데이터 처리>를 위한 인프라는 빅데이터로 대변되는 분산환경으로 확대되고 있고, <데이터 시각화>를 포함하는 데이터 분석 분야는 시각화의 확대가 두드러지고 있는 경향이며, 기하급수적으로 늘어나는 데이터 량의 증대는 더더욱 시각화를 가속화 시킬 것이 자명하다.


2015년 가트너가 발표한 BI 및 분석 플랫폼 부문 매직 쿼드런트에서 분석에 대한 용이한 접근이 시장의 지배적인 요구사항이 될 것이며, 거버넌스 측면에서도 크게 강조될 것으로 보인다고 언급하며, 고급 분석을 활용하는 차세대 데이터 디스커버리 기능의 복잡성은 줄이고, 사용자의 데이터 준비를 단순화 시키고 패턴 탐색을 자동화하는데 유용한 도구들이 주목 받을 것이라고 말했다.


er3.jpg

[출처 : 가트너 2015 비즈니스 인텔리전스 및 분석 플랫폼 부문 매직 쿼드런트]


따라서, 이번 2015년 BI 및 분석 플래폼 부문 매직 쿼드런트에서 주목해야 하는 부분은 기존 강자인 SAS나 IBM 보다는 데이터 시각화에 상대적으로 강점을 가진 타블로(Tableau), Qlik Tech(클릭테크) 쪽에서 많이 발견할 수 있다. 


가트너가 지난 해 보고서에서 Tableau와 Qlik Tech 등 시각화에 강한 BI 업체들이 ' New normal(새로운 표준)'이 됐다고 표현 할 정도로 데이터 시각화 강자들의 선전은 눈부시다.


Tableau와 Qlik Tech 이외에도 지난 몇 년 동안 버스트(Birst), 데이터미어(Datameer), 스플렁크(Splunk) 등 많은 IT업체들이 시각화에 중점을 둔 BI 솔루션을 내놓으며 SAS, IBM, 오라클, 마이크로스트레티지 등 전통적인 BI 강자와 경쟁하고 있다.


Tableau의 경우, 커스터마이징이 많이 요구되는 국내 기업용 BI시장에서 아직 적응하지 못한 모습을 보여 주고 있지만 '모든 사람들이 빠르고 쉽고 스스로 분석할 수 있는 시대까지'라는 모토로 공격적인 시장 진입을 시도 할 것으로 보인다.

 

또, 이번에 처음으로 진입한 DataWatch(www.datawatch.com)는 전문적으로 시각적 스트리밍 분석및 다중 구조 데이터를 분석하는 양방향 데이터 디스커버리 플랫폼으로 최신 데이터 시각화 트랜드를 반영한 시장의 요구에 부응하는 솔루션을 제공하면서 시장의 반향을 불러오고 있다. 이제 빠르게 변화하는 기술을 반영한 시각화에 강점을 보이는 업체들의 선전은 놀라운 일이 아니게 될 것이다.



er4.jpg

[출처 : 가트너 2015 비즈니스 인텔리전스 및 분석 플랫폼 부문 매직 쿼드런트]


빠르게 변화하는 기술 환경이 오픈소스 기반의 무료 데이터 시각화 도구들을 쏟아내고 있기 때문이다. 이제는 시각화가 아닌 그 상위의 통찰력을 찾아내기 위한 투자가 요구 되는 시점이다. 수많은 리서치 기업들이 입 아프게 떠들고 있는 데이터 사이언티스트의 양성에 대한 기대가 공염불이 아니었음을 이러한 지표들이 증명하고 있다.




3. “무료” 데이터 시각화 도구


여기 <데이터 시각화를 위한 무료 도구>의 과거와 현재와 미래를 볼 수 있는 자료가 있다. IT 매체 Computerworld는 지난 2010년부터 거의 매년 데이터 시각화 도구들을 모아 기사화 하고 있는데, 그 중 2012년에 정리했던 무료 데이터 시각화 및 분석 도구를 분야별로 용도별로, 기능별로 정리한 자료가 있어 눈길을 끈다.


기술 수준 항목은 사용법을 익히는 것이 얼마나 어려운가의 기준으로, 1은 스프레드시트처럼 쉽게 사용할 수 있음을, 2는 몇 시간 정도 사용법을 익혀야 하는 수준, 3은 파워 유저에게 맞는 수준, 4는 코딩 경험이나 전문 지식을 필요로 하는 수준의 <무료 데이터 시각화> 도구를 소개하고 있다.




 

영역

다목적 시각화

지도

플랫폼

기술 수준

데이터 저장 방식

웹 퍼블리싱 지원

Data Wrangler

데이터 정제

X

X

브라우저

2

외부 서버

X

Google Refine

데이터 정제

X

X

브라우저

2

로컬

X

R Project

통계 분석

O

플러그인

리눅스, , 윈도우

4

로컬

X

Google Fusion Tables

시각화 앱/서비스

O

O

브라우저

1

외부 서버

O

Impure

시각화 앱/서비스

O

X

브라우저

3

다양

O

Many Eyes

시각화 앱/서비스

O

제한적

브라우저

1

공개 외부 서버

O

Tableau Public

시각화 앱/서비스

O

O

윈도우

3

공개 외부 서버

O

VIDI

시각화 앱/서비스

O

O

브라우저

1

외부 서버

O

Zoho Reports

시각화 앱/서비스

O

X

브라우저

2

외부 서버

O

Choosel

프레임워크

O

O

브라우저(IE 제외)

4

로컬 또는 외부 서버

X

Exhibit

라이브러리

O

O

코드 편집기 및 브라우저

4

로컬 또는 외부 서버

O

Google Chart Tools

라이브러리 및 시각화 앱/서비스

O

O

코드 편집기 및 브라우저

2

로컬 또는 외부 서버

O

JavaScript InfoVis Toolkit

라이브러리

O

X

코드 편집기 및 브라우저

4

로컬 또는 외부 서버

O

Protovis

라이브러리

O

O

코드 편집기 및 브라우저

4

로컬 또는 외부 서버

O

Quantum GIS (QGIS)

GIS/지도 : 데스크톱

X

O

리눅스, , 윈도우

4

로컬

플러그인

OpenHeatMap

GIS/지도 : , 라이브러리

X

O

브라우저

1

외부 서버

O

OpenLayers

GIS/지도 : , 라이브러리

X

O

코드 편집기 및 브라우저

4

로컬 또는 외부 서버

O

OpenStreetMap

GIS/지도 :

X

O

브라우저 또는 데스크톱 실행 자바

3

로컬 또는 외부 서버

O

TimeFlow

임시 데이터 분석

X

X

데스크톱 실행 자바

1

로컬

X

IBM Word-Cloud Generator

워드 클라우드

X

X

데스크톱 실행 자바

2

로컬

이미지로

Gephi

네트워크 분석

X

X

데스크톱 실행 자바

4

로컬

이미지로

NodeXL

네트워크 분석

X

X

엑셀 2007

4

로컬

이미지로

CSVKit

CSV 파일 분석

X

X

리눅스,

3

로컬

X

DataTables

정렬 가능한 테이블 생성

X

X

코드 편집기 및 브라우저

3

로컬 또는 외부 서버

O

FreeDive

정렬 가능한 테이블 생성

X

X

브라우저

2

외부 서버

O

Highcharts

라이브러리

O

X

코드 편집기 및 브라우저

3

로컬 또는 외부 서버

O

Mr. Data Converter

데이터 재포맷

X

X

브라우저

1

로컬 또는 외부 서버

X

Panda Project

검색 가능한 테이블 생성

X

X

브라우저와 EC2 또는 우분투 리눅스

2

로컬 또는 외부 서버

X

PowerPivot

분석 및 차트

O

X

엑셀 2010

3

로컬

X

Weave

시각화 앱/서비스

O

O

플래시 지원 브라우저

4

로컬 또는 외부 서버

O

Statwing

시각화 앱/서비스

O

X

브라우저

1

외부 서버

X

Infogr.am

시각화 앱/서비스

O

제한적

브라우저

1

외부 서버

Yes


[출처 : Sharon Machlis | Computerworld]


이는 이미 많은 기업들이 이러한 무료 데이터 시각화 도구를 활용하고 있으나 만약 도입을 앞두고 있거나 검토 중이 업체가 있다면 데이터 시각화 보다는 데이터 활용 이유에 대해 먼저 컨설팅을 받거나 고민 할 것을 권장한다. 또한, 현재 데이터 시각화를 위해 고민하는 단계에 있다면 디자인적 측면 보다는 분석적 측면에서부터 먼저 검토 하는 것이 바람직하다. 그 안에서 또 다른 통찰력을 얻기 위한 새로운 비전을 얻고 싶다면 접근 방법에 대해 심도 있게 다시 고민해야 할 것이다.




4. 데이터 시각화의 비전


우리가 추구해야 하는 데이터 시각화의 궁극적인 목표는 무엇일까? 여러 번 언급했듯이 우리는 과거와 현재의 데이터를 통해 미래를 예측하거나 새로운 비전을 찾아내려고 투자하고 있다. 그렇다면 어떤 접근이 가장 현실을 반영한 접근 법일까? 우리는 인포그래픽에서 그 답을 조금 엿볼 수 있다. 인포그래픽은 데이터 시각화의 최종 결과물이라고 해도 과언은 아니다.


한 기업의 데이터 전문가들이 기업에 산재되어 있는 데이터를 모아 새로운 가치를 찾아 냈다고 가정하자. 그 가치는 정보화 되어야 할 것이고 그 정보를 가장 신속하고 정확하게 바라 보기 위한 방법 중 하나가 “인포그래픽”이다.


데이터 시각화는 인포그래픽과 조금 다른 구조의 시각화이지만 결과물에서 이야기를 만들 수 있기도 하거니와 새로운 아이템들을 도출 해 낼 수 있다는 부분에 있어 공통 분모를 갖고 있다.


최근 기관이나 기업들이 효율적인 홍보를 위해 자신들이 가진 정보를 인포그래픽 제작사들에 의뢰하여 이미지화하고 그 결과물을 신문사나 매체에 보내고 있다. 이 과정은 자기 기업이 가진 장점을 최대한 예쁘게 포장하여 소개하는 회사 소개 동영상 제작과 유사하다. 기업이 갖고 있는 팩트(Fact)는 정해져 있으나 그 팩트 위에 어떤 가치를 더 할 것이냐를 스토리텔링 전문 기업인 동영상 제작 업체에 의뢰 하는 것이다.


국내 유명 인포그래픽 제작사의 몇몇 대표들과 대화를 나눠보면 흥미롭게도 새로운 가치를 찾지 못했던 곳은 한군데도 없다. 클라이언트들이 쌓아 놓은 데이터를 정보화하고 그 정보를 홍보하는 과정 중에 조금 더 효과적인 전달을 위한 아트웍(Artwork)을 더하여 스토리를 입히는 과정에서 부가적인 가치들을 발견 했다는 이야기다.


아래 GS칼텍스의 윤활유의 수출 데이터를 인포그래픽으로 표현한 사례를 보자. '인포그래픽 활용 노하우 2013' 컨퍼런스에서 발표된 이 “인포그래픽”은 GS칼텍스의 제작 의도에 대행사의 아이디어가 더해져 강력한 전달 효과와 추가적인 가치를 발견한 사례이다.


단순히 제공되는 데이터를 가지고 스토리 라인을 작성한 후, 작업의 개념도를 검토하고 디자인 초안을 만드는 과정에서 수많은 상상력이 발휘된다. 이 과정을 위해 수많은 내부 백(Back)데이터도 필요하지만 외부 데이터도 가져올 수 있어야 한다. 고객의 가치를 조금 더 가치 있게 표현하는 데는 한계가 필요 없기 때문이다.


이 사례를 준비하면서 GS칼텍스와 S-Oil, SK가 모이면 세계 3위의 윤활유 수출 국가가 된다는 점에 착안하여 마치 광고 카피 라이터와 같은 “수출 첨병”이라는 마케팅 메시지의 핵심을 잡아낸다.



[GS칼텍스 – 세상을 움직이는 윤활기유]


er6.jpg


[출처 : http://www.insightofgscaltex.com]



데이터 시각화는 전문적인 영역으로 진화 할 것이다. 따라서 지금 우리는 최소 비용으로 최대 효과를 누릴 수 있는 똑똑한 투자를 해야 한다.


산재 해 있는 데이터를 갖고 무엇을 해야 할지 모르는 수준이라면 무조건 무료 시각화 도구들을 활용하여 데이터를 다양하게 가공 해보자. 데이터는 모아 두었는데, 단순 리포트 외에 아무것도 해 본 경험이 없다면 새로운 도구 활용 보다는 새로운 가치를 찾기 위한 아웃소싱을 권한다. 마케팅 차원의 가벼운 접근 방법인 것이다. 마지막으로 한 차원 높은 통찰력을 얻기 원하는 수준이라면 “데이터 사이언티스트”의 영입을 고민 해 보라.


다운로드>> EN-CORE_Report_2015.04.07.pdf



※ 다음 리포트에서는 IT시장을 뜨겁게 달구고 있는 중국의 데이터 시장에 대해 알아 보고자 한다.


EN-CORE Data Research Center ⓒ 2015 All Rights Reserved

목록