DATOR


03. 다양한 데이터 시각화의 표현 방법 데이터 시각화


제 01회 비즈니스 데이터 시각화 연재를 시작하며

제 02회 데이터 시각화의 기본 원칙

제 03회 다양한 데이터 시각화의 표현 방법

제 04회 데이터 시각화에서의 분석 방법

제 05회 비즈니스 데이터 시각화의 임계치와 Alerts

제 06회 시각화 솔루션의 구성 요소와 평가

제 07회 시각화 솔루션의 디자인

제 08회 비즈니스 유형에 따른 시각화

제 09회 비즈니스 측정 지표와의 관계와 효과적인 시각화 방법



원 데이터(Raw Data)와 데이터 시각화를 사용자가 해석하고 이해하는 입장은 동일하다. 하지만 원 데이터는 문자로 되어 있어 사용자가 '읽다'(Read) 라고 하며, 데이터 시각화 원 데이터를 기반으로 선과 면, 색상, 질감 등을 이용하여 표현되어 있어 '본다'(See) 라고 해야 한다. 이렇듯 데이터 시각화는 원 데이터를 표현하였기 때문에 왜곡되지 않고, 표현의 목적과 용도에 맞게 설계되어야 한다. 그렇기 때문에 데이터 시각화가 가지고 있는 다양한 표현 방법에 대해 정확한 이해가 필요하다.

 

데이터 시각화는 대부분 '차트'(Chart)로 표현된다. (물론 차트가 아닌 다른 방법도 존재한다) '차트'는 데이터를 그래픽 요소를 활용하여 표현하는 것으로 서로 비슷한 의미를 갖지만, 데이터 시각화 보다는 좀 더 좁은 범위의 용어이다. 하지만 여기서는 '차트' '데이터 시각화'라는 용어를 동일한 의미로 사용하겠다. 차트의 종류는 워낙 많다. 주변에 흔하게 접할 수 있는 프리젠테이션 프로그램을 보더라도 11개의 유형으로 그룹화 하였고, 유형당 2개에서 19개까지 이루어져 있다. 그래서 본 기고에서는 아래와 같이 분류하기로 했다.

 

·               분류에 대한 비교

·               구성에 대한 비교

·               시계열 데이터의 평가

·               산포도의 관계와 연결

·               위치 정보의 표현과 데이터 연결

 

'분류에 대한 비교' 구성에 대한 비교에 대한 정확한 이해와 차이점을 알기 위해서는분류구성이라는 단어의 뜻을 이해해야 한다. '분류'란 종류에 따라 가름이라 뜻으로서 특정한 카테고리로 구분하고 이를 비교하는 것을 의미한다. 차트의 유형에서는 '분류에 대한 비교'는 각 항목간에 영향을 받지 않도록 구성하여 서로의 절대적인 값을 표현한다. 따라서분류에 대한 비교에서는 하나의 데이터 값이 다른 값에 의해 변동되는 일이 없다. 이 유형의 목적은 하나 또는 여러 개의 값을 특정 임계치나 다른 항목들과의 비교를 통해 사용자에게 통찰을 얻을 수 있도록 해주는 것이다. 이는내가 보고자 하는 값이 어떻게 변동되는가?’가 중요한 의미를 가진다.

반면, '구성'이란 몇 가지 부분이나 요소들을 모아서 일정한 전체를 이룸, 또는 그 이룬 결과라는 뜻이다. 차트의 유형에서구성에 대한 비교는 각 항목간에 값의 표현이 서로 영향을 받도록 구성하여 서로의 상대적인 값을 표현한다. 따라서구성에 대한 비교는 서로 다른 값에 의해 자신의 값이 변동 된다. 그리고 전체를 만들어 이를 차지하는 부분이 어떤지를 파악함으로써 사용자에게 통찰을 얻게 한다. 이는 단일 값이 가지는 의미보다는 상대적으로 차지하는 비중이 어떤지를 봐야할 때 중요한 의미를 가진다.

'시계열 데이터의 평가'는 시간이 경과함에 따라 일정한 간격을 기준으로 측정된 데이터를 평가할 수 있는 차트를 의미한다. 표현된 값에 대해 추세를 파악하고 미래의 상황을 예측하거나 현재에 대한 통찰력을 얻어 각종 의사결정을 하는데 도움을 받을 수 있다. '시계열 데이터'에서 통찰을 얻기 위해 가장 중요한 점은 과거에 흘러온 데이터를 가지고 미래에 어떻게 변할지 파악해야 한다는 것이다. 하지만 시계열 데이터는 다른 요소에 의한 영향도 파악이 어렵고 이를 시각화하여 표현 하기 위해서 많은 어려움이 존재한다. 이런 차트를 설계할 때는 이를 항상 유념하고, 다른 요소가 어떤 영향을 미치는지 파악하고 진정으로 영향을 미치는 요소인지 세심한 분석이 필요하다.

'산포도의 관계와 연결'는 차트에 산포되어 있는 데이터를 표현하고, 서로의 관계를 찾아내어 통찰을 얻는데 주 목적이 있다. 표현할 데이터를 가공하지 않고 원천 그대로 사용하되, 다양한 방법으로 이를 시각화하고자 할 때 유용하다. 산포도는 X축과 Y축으로 표현된다. 이를 활용하여 데이터가 가지고 있는 상관관계를 찾아내거나, 흩어져 있는 데이터에 대해 군집을 찾아내어 이를 분석하고 의사결정 내린다.

'위치 정보의 표현과 데이터 연결'은 위치 정보를 표현할 수 있는 그래픽 요소와 데이터를 관계 지어 사용자에게 보여주는 차트이다. 위치 정보는 비즈니스에서 중요한 요소이다. 위치별로 세분화하여 분할된 영역에 대해 평가하고 관찰하며, 이를 통해 전략을 수립할 수 있다. 또한 위치 정보는 매우 직관적이기 때문에 사용자가이해하기 쉽고, 의사결정과정에서 연계하여 사용한다면 매우 효과적이다.

각 차트의 분류별로 구성하고 있는 차트는 아래와 같다. 아래의 차트 분류는 데이토 홈페이지(http://www.dator.co.kr)를 통해 하나씩 상세한 설명과 지속적인 추가, 업데이트가 될 예정이다.


그림1.jpg

< 1. 차트의 분류별로 구분된 차트 >

 

앞의 분류는 방법에 따라 더 다양하게 분류할 수 있고, 동일한 차트를 다른 이름으로 부를 수도 있다. 앞에서 분류한 기준은 차트의 목적에 따라 분류하였으며, '어떻게 데이터를 보고자 하는가?'의 관점과 상통한다. 이는 시각화를 설계하는 작업자의 접근을 용이하게 하고자 했다. 그 이유는 사용자는 시각화된 최종 상태를 보기 때문에 이 분류가 의미를 갖지 못한다. 하지만 설계자는 원 데이터와 사용자의 요구사항, 분석되거나 분석할 결과, 설계자의 경험 등에 근거하기 때문에 분류 기준은 접근자인 '설계자 관점'에서 바라 본 것이다. 실제 설계를 진행하기 위해서는 '사용자가 어떻게 바라보는가'의 관점을 가지고 있어야 한다. 이러한 관점에서 각각의 차트는 아래와 같은 정보 항목을 작성하였다.

 

·               차트의 정의

·               데이터 요소

·               시각화 요소

·               임계치의 설정

 

분류에 대한 비교를 구성하는 4개의 차트를 예시로 들겠다. 첫 번째와 두 번째는, 가장 많이 사용되지만 개념이 혼동되는 막대 차트와 히스토그램이다. 세 번째는 두 시점의 데이터 변화를 직관적으로 보여주는 슬로프 그래프이고, 마지막으로 다양한 평가 요소를 동시에 표현이 가능하지만 그 만큼 단점을 동시에 보여줄 수 있는 방사형 차트이다.

 

 

막대 차트[Bar Chart]

막대 차트와 히스토그램 설명시 세로로 긴 형태의 차트를 기준으로 설명하며, 괄호()안에는 가로로 긴 형태일 때의 표현입니다.

막대 차트는 '분류간의 비교'에서 가장 대표적인 차트이다. 막대 차트는 하나의 축을 기준으로 데이터를 시각화한 차트이다. 데이터를 표현할 때 높이(또는 길이)로써 값을 표현하며, 이는 다른 값 또는 축과 비교한다. 중점을 두고 관찰하고자 하는 항목에 대해 다른 색상을 이용하여 사용자의 시선을 끌 수 있다. 가장 기본적인 차트이기 때문에 대부분 쉽게 이해할 수 있으며, 매우 직관적으로 정보를 전달한다.

막대 차트를 사용할 때 주의할 점은 시작점은 ‘0’에서 시작해야 한다는 것이다. 시작점이 ‘0’에서 시작하지 않으면 사용자에게 정보를 전달할 때 왜곡이 발생할 수 있다. 또한 데이터를 표현하는 축의 간격이 일정해야 한다. 물론 각 항목간에 값의 차이가 큰 경우가 존재할 수 있다. 이를 동시에 표현하기 어려운 경우 고의로 왜곡을 발생시키는 경우가 있는데, 설계자는 사용자가 이를 이해할 수 있도록 해야 한다.

 

그림2.jpg

그림3.jpg

< 그림 1. 색상의 사용하지 않은 경우와 색상을 활용하여 시선을 집중시킨 경우 >

 

데이터 요소

- 하나의 카테고리 : 막대 차트의 값을 분류하는 기준이 된다.

- 하나의 정수 값 : 막대 차트에서 양적인 표현을 하는 값이다.

 

시각화 요소

- 막대의 높이(또는 길이) : 사용자는 막대 차트에서 막대의 길이(높이)를 보고 표현하고자 하는 데이터를 이해하게 된다.

- 색상의 차이 : 색상의 차이를 두는 것은 사용자의 시선을 집중시킬 수 있다. 색상의 차이가 없는 막대 차트는 사용자에게 막대의 길이만으로 데이터를 인지하지만, 특정 막대에 색상의 차이를 둔다면 사용자는 이를 인지하고 해당 막대에 대해 집중하여 관찰할 것이다. 이러한 차이는 사용자가 인지할 수 있도록 명시적으로 표시하거나, 관념적인  범위에서 표현해야 한다.

 

임계치 설정

- 특정값을 비교 : 하나의 카테고리에 대해 분류된 값 전체 또는 일부에 대해서 특정 값을 기준으로 설정하게 된다.

- 분류간의 비교를 통한 지정 : 막대 차트의 본래의 목적은 서로의 항목간에 비교를 통하여 데이터를 파악하는 것이 주 목적이다. 임계치 설정 역시 서로의 값을 기준으로 설정하게 된다.

 

 

히스토그램[Histogram]

'히스토그램' '막대 차트'는 생김새가 유사하지만 중요한 차이점이 존재 한다. 막대 차트는 개별 막대의 높이만이 데이터를 표현하지만, 히스토그램은 개별 막대의 높이(길이)만이 아니라 폭 역시 데이터를 표현한다. 막대차트에서는 막대별로 서로 다른 항목으로 구분되지만, 히스토그램의 막대를 구분하는 기준은 일정한 단위를 가지고 측정할 수 있는 양 또는 수량과 같은 값이어야 한다. 그 값은 일정한 구간으로 집계하여 표시해야 한다.

히스토그램을 사용할 때 주의할 점은 막대의 길이로 표현할 데이터 역시 ‘0’에서 시작해야 한다는 것은 동일하다. 하지만 막대의 폭이 표현할 데이터는 반드시 ‘0’에서 시작할 필요는 없지만, 폭이 가지는 구간값은 동일해야 한다. 폭이 동일하지 않고 보여지는 길이로 폭을 표현한다면 사용자는 혼동될 것이다. 그리고 히스토그램은 막대간의 값이 연속적이기 때문에 막대 사이에 간격이 없어야 한다.

 

그림4.jpg

<그림 2. 야구 경기 시즌과 추가 투입되는 선수의 수 >

 

데이터 요소

- 하나의 일정한 단위를 가지고 측정할 수 있는 정수 값 : 히스토그램에서 막대의 폭을 지정하는 값이다.

- 하나의 정수값 : 히스토그램의 양적인 표현을 하는 값이다.

 

시각화 요소

- 막대의 높이 : 사용자는 막대 차트에서 막대의 높이(길이)를 보고, 데이터를 이해하게 된다.

- 막대의 폭 : 히스토그램에서는 특정한 구간으로 집계하여 표현한다.

 

임계치 설정

히스토그램은 막대차트와 동일하게 설정할 수 있다. 하지만 막대를 구분하는 값 또한 연속적이기 때문에 증가되거나 감소됨에 따라 임계치를 설정할 수 있다.

 

 

슬로프 그래프(Slopegraph)

'슬로프 그래프'는 서로 다른 두 점을 직선으로 연결함으로써값이 어떻게 변했는가를 가장 깔끔하게 표현할 수 있는 방법을 제공한다. 하지만 중간에 존재하는 값을 표현하지 않음으로써 왜곡이 발생하지만 값의 변화에 초점을 맞춰야 한다. 이 차트에서 색상의 차이를 두는 이유는 두 가지이다. 하나는 상승/하락을 구분하고, 다른 하나는 카테고리를 구분하기 위함으로 사용할 수 있다. 또한 선의 모양 또는 두께를 차별함으로써 사용자의 시선을 집중시킬 수 있다.

슬로프 그래프를 사용할 때 주의할 점은 실시간으로 정보를 제공해야 하는 경우에는 부적합하다. 이는 두 개의 시점만 제공되고, 중간 시점의 정보는 표현하지 않기 때문에 사용자가 잘못된 의사결정을 내릴 수 있다. 사용자는 중간의 추세를 표현해줘야 올바른 의사결정이 가능하다. 또한 선의 두께, 선의 색상, 선의 형태등을  이용하여 다양한 차원을 표현할 수 있는데 너무 다양한 차원을 표현하는 경우에는 사용자가 혼동될 수 있다. 그렇기 때문에 다양한 차원의 표현은 배제해야 한다.

그림5.jpg

< 그림 3. 슬로프 그래프를 이용하여 프로야구팀의 전년도 대비 순위 변화 >

 

데이터 요소

- 하나의 카테고리 : 슬로프 그래프에서 분류되는 기준이다.

- 2개의 정수값 : 두 개의 시점을 표현할 데이터이다.

 

시각화 요소

- 위치의 변동 : 사용자는 각 점을 이어주는 선에 따라 값의 변화를 인지한다.

- 선의 두께, 색상, 형태 : 이는 차트에서 그래픽 요소를 활용하여 다른 차원을 표현하는 방법으로 사용자의 시선을 유도할 수 있다.

 

임계치 설정

     슬로프 그래프가 실시간 차트에 적합하지 않다는 것은 임계치 설정도 어렵다는 것을 의미한다. 중간의 추세에 대한 정보를 분실하고 특정 두 시점에 대해서만 표현하기 때문이다.

 

 

방사형 차트(Radial chart)

'방사형 차트'는 가운데 중심점을 기준으로 원형 레이아웃으로 데이터를 표현한다. 다양한 평가요소를 한번에 보여줄 수 있다는 장점이 있지만, 차트에서 시점에 대한 정보를 제공하기 어렵고 원 바깥으로 갈수록 크게 보이기 때문에 정보를 왜곡 시킨다는 단점이 있다. 하지만 '방사형 차트'만큼 다양한 평가 요소를 동시에 보여줄 수 있는 차트가 드물기 때문에 자주 사용된다.

'방사형 차트'에서는 다양한 요소에 대해 축을 기준으로 표현하게 된다. 데이터의 표현이 축과 축사이의 빈 공간에 공백을 메우는 방식과, 축에 점으로 값을 표시하는 방식 등 두 가지로 구분한다. 공백을 메우는 방식은 축과 축 사이에 블록을 쌓는 것처럼 표현하는 방식이다. 이 방식은 여러 대상을 동시에 보여주는 것이 불가능하고, 밖으로 벗어날수록 크게 보인다는 점을 감안한다면 점으로 값을 표시하는 방식보다 우수하다. 축에 점으로 값을 표현하는 방식은 점과 점 사이를 연결하여 단면을 만들어 전체의 면적을 표현할 수 있다. 이 방식은 면적의 크기로 사용자가 평가할 수 있으며, 면의 색상으로 다수의 평가 대상을 표현할 수 있다. 하지만 면적의 경우 자칫 값을 왜곡할 수 있다는 단점이 있기 때문에 평가요소간의 값의 차이가 크다면 유의하여 사용해야 한다.

위의 공백 메우기 방식은 축에 점으로 표현하는 방식의 빨강색 바탕이 표현하고 있는 데이터를 동일하게 표시한 것이다. 이처럼 동일한 값을 표현하고 있지만 단일 항목에 대해서 평가하는 것이라면 공백 메우기 방식이 적합하다.

그림6.jpg 

그림7.jpg

< 그림 4. 방사형 차트의 공백 메우기 방식과 축에 점으로 표현하는 방식 >

 

데이터 요소

- 여러 개의 카테고리 : 방사형 차트에서 각각의 항목을 의미하게 된다.

- 한 개의 축 : 방사형 차트에서 축은 여러 개가 표시되지만 공백 메우기 방식이나 축에 점을 표현하는 방식 모두 축의 구간 값은 동일해야 하다.

 

시각화 요소

- 위치 : 사용자는 방사형 차트에서 각각의 데이터가 위치한 곳을 보고 이를 다른 항목이라고 식별하게 된다.

- 색상 차이 : 공백 메우기 방식에서는 색상의 차이가 각 항목을 구분하게 되지만, 축에 점으로 표현하는 방식은 평가 대상에 대해서 구분하게 된다.

 

 

시각화 평가 및 방향성 제시

'차트가 올바르게 설계되었는가?'에 대한 평가는 아래와 같은 3개의 분류와 각 분류당 3개의 항목으로 평가한다.

 

·               사용자 관점 (커스터 마이즈, 사용자 제어, 사용의 용이성)

·               데이터 관점 (데이터 넓이, 데이터 깊이, 데이터 품질)

·               시각화 관점 (용도의 적합성, 시각화 적합성, 분석의 복잡성)

 

사용자 관점은 사용자가 시각화된 자료 이용시 편리성을 기준으로 평가한다.

- 커스터 마이즈 : 조직은 다양한 계층으로 분류되어 있다. 관리자 관점에서 전략적인 의사결정을 해야 하는 사람도 있고, 조직 운영에 가장 근접해 있는 오퍼레이터 입장에서 일하는 사람도 있다. 관리자는 세밀한 데이터를 필요로 하기보다는 좀 더 상위수준의 집계된 현황을 필요로 하며, 오퍼레이터 입장에서는 좁은 범위지만 세부적으로 상세한 데이터를 원할 것이다. 이처럼 조직에는 다양한 계층이 존재하고 요구사항도 다르기 때문에 동일한 시각화 정보를 제공할 수 없다. 각 사용자 계층의 요구와 역할에 맞춰 차트가 만들어져 있는가를 본다.

- 사용자 제어 : 사용자는 해당 시각화 자료를 보면서 조작을 시도할 것이다. 이를 '대화형 시각화'라고 하는데, 사용자가 필요로 하는 조작을 모두 수용할 수 있어야 한다.

- 사용의 용이성 : 실제 사용자 계층의 수준을 고려하여 사용이 용이한지 봐야한다. 사용자의 수준이 고려되지 않고 불필요하고 복잡한 기능을 넣거나, 접근이 용이하지 않다면 이는 적합하지 않다.

 

데이터 관점은 시각화에 이용된 데이터가 얼마나 적합한가를 평가한다.

- 데이터 넓이 : 시각화에 사용된 데이터가 표현하고자 하는 범위를 모두 포함하였는지를 본다. 이는 무조건 넓은 범위의 데이터를 의미하지 않는다. 조직이 큰 경우, 데이터가 다양한 곳에 흩어져 있기 때문에 조직내의 필요로 하는 데이터가 모두 포함되어야 한다.

- 데이터 깊이 : 시각화는 짧은 기간의 데이터를 보고 판단하기 보다는 많은 기간의 데이터를 보고 판단하는 것이 좋다. 짧거나 특정 시점만의 데이터를 보고 의사결정을 내린다면 원하지 않는 결과를 가져올 수 있다.

- 데이터 품질 : 간혹 데이터 품질에 간과하는 사람이 있다. 이유는 데이터를 집계해서 보거나, 추세만을 보고 판단을 내리는 입장이라면 영향이 적을 수 있다. 하지만, 프로세스 지향적인 업무와 연관된 시각화의 경우 떨어지는 데이터 품질은 잘못된 의사결정을 내릴 수 있다. 그러므로 데이터 품질은 의사결정의 수준과는 관계없이 높은 품질을 지향해야 한다. , 이를 어느 수준의 품질까지 허용할 것인가에 대한 결정이 필요할 것이다.

 

시각화 관점은 시각화 자체의 본질적인 특성을 평가한다.

- 용도의 적합성 : 시각화는 다양한 형태로 조직의 기능을 지원하게 된다. 이 기능이 비즈니스 상위 수준의 전략을 지원하는지, 아니면 비즈니스의 세부적인 운영 관점의 전술을 지원하는지 구분하여야 한다. 그리고 차트가 이에 적합한지를 평가하게 된다.

- 표현의 적합성 : 차트 내부에 데이터와 임계치, 각종 레이블 및 차트를 이해하는데 있어 표현되는 정보가 올바른지 평가하게 된다.

- 분석의 복잡성 : 시각화는 분석과 밀접한 관계에 있다. 사용자는 차트를 보면서 다양한 분석을 수행하는데 이를 사용하는 있어서 어려움이 없어야 한다.

 

그림8.jpg

< 그림 5. 시각화 평가 기준에 따른 방향성 제시 >

 

위의 기준으로 이전의 시각화된 대시보드, 보고서, 각종 차트 등을 평가 및 진단하게 된다. 평가는 시각화 자료의 방향성을 제시하게 되며, 이 자료는 사용자 편의성 제고, 데이터 관점의 최적화, 시각화 자료의 활용 범위 증가 등을 목표로 하게 된다.

TAG

Leave Comments


profile우리는 하나님을 믿는다. 다른 모든 것들은 데이터로 검증해야 한다. 

Recent Trackback