• 미디어 >
  • 엔코아 리포트
Weekly Brief
[조회수 : 13086]  다운로드
빅데이터 시대의 BI 고도화를 위한 해법 DW에 있다.

최근 글로벌 IT 시장 조사 기관 IDC가 발표한 보고서에 따르면 빅데이터에 대한 관심 고조로 향후 5년간 전 세계 분석 시장이 연평균 9.8%의 높은 성장률을 달성하며 오는 2016년에는 전 세계 비즈니스 분석 시장이 507억달러에 이를 것으로 내다봤다. 여기서 말하는 분석 시장은 데이터웨어하우스, BI, 비즈니스 분석 등으로, IDC는 이 가운데 데이터웨어하우스(이하 DW) 시장이 가장 빠르게 성장할 것이라고 전망했다.

 

지난 1990년대 중반 처음 등장하여 발전을 거듭하고 있는 DW는 불확실한 시장 환경하에서 기업들이 경쟁 우위를 확보하기 위해 고급 정보의 신속한 처리를 필요로 함에 따라 필수 인프라로 자리 잡았다

그러나 데이터의 양이 급증하면서 DW 시스템은 기대와 달리 만족한 만한 성능을 발휘하지 못했고, 실시간 기업의 요구와 점점 멀어져 갔다. 이러한 이유로 DW 시스템의 혁신에 대한 목소리가 높아졌고, DW 시장이 들썩였다. BI 고도화를 위한 기존의 마트 중심의 DW를 고도화 하기 위한 DW의 차세대 구축 바람이 불고 있으며, DW 어플라이언스, 초병렬처리(MPP) DW 업계의 기술 흐름 역시 차세대 DW에 대한 요구를 반영하기 시작했다.

 

특히 방대한 데이터에서 필요한 정보를 추출하고 비즈니스에 유용한 정보로 재 가공하여 가치를 창출해 내는 빅데이터의 등장은 정보 저장소인 DB 성능의 고도화와 더불어 신속한 분석을 요구했으며, 이에 기존 DW의 고도화를 야기시키며, DW가 다시 한 번 주목 받는 계기가 되었다.

이번 엔코아 리포트에서는 기업 운영 환경에 직접적인 영향을 미칠 수 있는 핵심 인프라로서 조명 받고 있는 DW의 고도화 방안과, 최적의 DW 전략에 대해 살펴보자.

 

1. DW란 무엇인가?

데이터의 창고를 뜻하는 DW(Data Warehouse)1980년대 중반 IBM이 자사 하드웨어를 판매하기 위해 인포메이션 웨어하우스(Information Warehouse)라는 용어를 사용하면서 처음 도입했던 개념으로, 이후 많은 하드웨어와 소프트웨어 및 툴 공급 업체들에 의해 이론적, 현실적으로 성장하였고, 1980년대 후반 W.H.Inmon이 데이터 접근 전략으로 DW 개념을 사용함으로써 많은 관심을 모으기 시작했다.

 

DW의 정의에는 여러가지가 있지만, 그 중에서도 DW 시스템 아키텍처를 초창기에 이끈 W.H.Inmon는 DW에 대해서 의사 결정 프로세스를 지원하도록 데이터를 주제 중심적, 통합적, 시계열적, 비휘발성으로

모아 놓은 것이라고 정의했다.

 

 

 

                                         < DW의 특징>

구분

특징 및 설명

주제 중심적

(Subject Oriented)

분석하고자 하는 주제 중심으로 시스템을 구조화함

- 기존 시스템: 기능 중심으로 구현

- DW: 주제 중심 구현

통합적

(Integrated)

 

- 기존 운영 시스템의 데이터를 추출하여 원하는 형태로 변형 후 통합함

- 분석을 위한 데이터 추출 시 서로 다른 방식의 데이터 표현이 DW에서는 일관된 방식으로 표현됨

시계열적

(Time Variant)

- 데이터가 일정 기간 정확성을 유지하면서, 날짜, , 월과 같은 시점별 요소를 반영함

비 휘발성

(Non-volatile)

- DW에 올바르게 기록되면 변경되지 않으며 분석의 일관성을 유지함

- DW의 중요 기능은 대규모 데이터를 로딩(loading)해서 저장하고 저장된 데이터는 읽기 전용으로 존재함

 

DB를 활용하여 의사 결정 등을 위해 사용되는 다양한 종류의 응용 프로그램들은 그 질의(query) 수행이 원만하게 이루어지기 위해 운영 DB 이외에 새로운 형태의 통합된 데이터 저장소(repository)가 필요했고, 이 때 등장한 것이 바로 DW.

 

, DW는 당초 트랜잭션 위주의 시스템들로부터 필요한 정보를 추출해 중앙 집중화된 저장소에 모아 놓는 역할을 수행하며 지난 10여년 간 기업의 핵심 데이터를 저장해 왔다. OLTP DB가 계정계, 운영계를 담당하면서 빠른 트랜잭션 처리를 담당해 왔다면, DW(OALP)는 정보계, 분석계를 담당하면서 기업의 의사 결정과 판단을 돕기 위해 데이터를 저장해 온 것이다.

 

2. DW 패러다임의 변화

DW는 기업 내 여러 곳에 분산되어 운영되는 트랜잭션 위주의 시스템들로부터 필요한 정보를 추출하여 중앙 집중화된 저장소에 모아 놓고, 여러 계층의 사용자들이 좀 더 손쉽게 접근하여 이용하기 위한 목적으로 지난 1999년 무렵부터 국내에 도입되었으며, 2000년대 초반까지 불어온 CRM 도입 열풍이 DW 시장 확대에 견인차 역할을 했다.

 

DW 도입 초기에는 현 상황을 파악하기 위한 질의 및 보고 기능에 초점이 맞춰 졌고, 다음 단계에서는 원인을 분석하고 앞으로의 전략적 대응 조치 권고를 위한 데이터 마이닝이나 OLAP과 같은 이력 분석 기술에 역점을 둬 왔다.

 

그러나 최근 들어 기업이 취급하는 데이터의 양이 급증하고, 실시간 기업(RTE: Real Time Enterprise)을 추구하는 기업들이 늘어남에 따라 기존 DW 시스템은 기대와 달리 만족할 만한 성능을 발휘하지 못하여, 사용자의 요구를 충족시키지 못한 채 실시간 기업의 요구와 점점 멀어져 갔다.

 

이를 두고 IT 시장 분석 전문 기업인 가트너는 오는 2016년까지 기존 DW 75%가 무용지물이 될 것이라 전망하며 기존 DW의 한계를 지적 하기도 했다.

 

이는 DW가 단순한 저장 공간으로 인식 되고, 사용자 위주 보다는 IT 위주로 구축된 까닭에 사용자 편의성이 떨어지고, 전사 데이터를 통합하고 고품질의 데이터로 정제하여 진정한 의미의 데이터 활용 분석의 인프라의 역할을 하기보다는 지나치게 많은 데이터 마트를 생성함으로써 업무와 업무간, 또는 부서와 부서간 공유하는 데이터에 대한 접근 및 분석이 난해해 지면서 활용도가 저하된 데 따른 것이다.

 

이에 빠른 분석을 보장해 주는 통합되고 정제된 데이터 인프라의 필요성이 제기됐고 성능, 확장성 등이 DW 도입의 주 요소로 자리 잡아 가고 있다. 최근 국내 기업들이 잇따라 DW를 비롯한 정보계 시스템의 재구축에 들어가는 것도 이 같은 이유 때문이다. 금융, 유통, 통신 등 서비스 업종을 중심으로 여러 기업들이 차세대 DW 시스템을 구축하고 있으며, 이미 구축을 완료한 기업도 더러 있다.

 

그림1.JPG

 

차세대 DW의 필요성

 

기존에 활용하고 있는 DW가 적정한 기능을 수행하고 있는지 파악하기 위해서는 경영진의 의사 결정에 필요한 정보를 산출하기 위한 기초 데이터를 적시에 제공하는지, 이를 위해 적절한 운영 비용이 사용되고 있는지 살펴봐야 한다. 그게 아니라면 DW의 고도화가 요구된다고 볼 수 있다. 이 때 가장 중요한 것은 실시간으로 데이터를 처리하는 것으로, 실시간 DW는 현재 비즈니스 활동을 모니터링(BAM) 할 수 있도록 지원하며, 현재 현장에서 발생하고 있는 정보를 실시간으로 집계 분석, 즉각적인 의사 결정을 할 수 있도록 도와 주는 것이다.

 

특히 최근의 DW는 기존의 DW 기능 외에도 정보 통합, 프로세스 관리, 산업별 분석 템플릿 제공, 마스터 데이터 관리, 엔터프라이즈 데이터 모델링, 서치&텍스트 분석 기술 등이 요구 된다. 이러한 DW 고도화에 대한 니즈는 DW의 차세대 바람을 불러 일으키고 있다. 데이터 생명주기를 감안한 차세대 DW 아키텍처 구성, 데이터 분석 요구에 최적화된 DW 어플라이언스의 도입, 관리 및 속도 문제 해결을 위한 MPP(초 병렬 처리) 방식의 적용 등이 그 예이다. 

 

업계 전문가들은 이제까지 DW의 고도화가분석 데이터의 용량, ▲워크 로드에 따른 제품 다변화 리얼 데이터와 과거 데이터의 분리된 관리 등이었다면 향후 DW ▲SNS(소셜 네트워크 서비스)를 포함한 비정형 컨텐츠 분석 기능 강화, ▲클라우드상에서 가상화와 정보 최적화 등을 통해 복잡한 범위의 데이터를 실시간 분석할 수 있는 기반을 마련하게 될 것이라고 설명한다.

 

3. 빅데이터 시대의 DW 전략

최근 시장 조사 기관인 IDC의 자료에 따르면, 조사 대상 기업의 40% 가량은 데이터 볼륨이 매년 50%씩 급증하고 있는 반면, DW는 규모 면에서 매년 18%만 증가하고 있다고 한다. 이는 기업들이 취급해야 할 데이터 용량이 급증하고 있고 이에 따른 DW 구축 요구가 커지고 있지만, 기존 DW 솔루션의 발전 속도가 기업들의 요구에 부응하지 못함을 의미한다.

 

지금까지의 DW는 정형 데이터에 국한해 분석과 처리 업무를 담당했었고, 용량 또한 테라바이트 정도밖에 수용할 수 없기 때문에 빅데이터 시대에는 적절치 않다는 문제가 제기되어 왔다. 특히 비정형 데이터가 85% 이상을 차지하고 용량 또한 제타바이트급이 넘는 빅데이터를 감당하기에는 역부족이라는 지적이다.

 

, 빅데이터의 방향성에는 크게 2가지 시나리오가 있다. 하나는 일단 방대한 누적 데이터를 빠르고 효율적으로 '저장'하는 것이 목적인 경우, 다른 하나는 중대한 의사 결정에 참고할 방대한 발생 데이터를 매우 빠른 시간 내에 '분석'하는 게 목적인 경우다. 후자에서 중요한 건 데이터 처리 기술의 즉시성과 정확성이다. 실시간 데이터 확인의 필요성에서 저장의 중요도는 상대적으로 덜하다.

 

글로벌 기업들의 DW의 활용

 

이러한 요구에 반응해 DW 시장에서는 대용량 데이터의 저장 및 처리 속도 개선에 적극적으로 대응하고 있는 모습이다.

 

실제로 오라클은 '엑사데이터 데이터베이스 인메모리 머신'을 출시했고, 테라데이타는 엔터프라이즈 DW 외에 통합 빅데이터 분석 솔루션인 '테라데이타 애스터 빅데이터 애널리틱스 어플라이언스'를 출시했다. 또한 IBM도 새로운 DW 제품인 '퓨어데이터'를 출시하였으며, SAP EMC도 빅데이터 대응 DW 제품인 'SAP 하나(HANA)'와 그린플럼으로 시장을 공략하고 있다.

 

여기서 주목할 점은 시장에서 경쟁하고 있는 DW 제품들의 특징은 저마다 제 각각이지만 한결 같이 빅데이터 시대에 급격하게 증가하는 데이터의 효율적이고 빠른 처리 및 응답 속도를 강조한다는 것이다. 이로써 의사 결정 주기를 단축시켜 빠르게 변화하는 비즈니스 환경에 대응할 수 있게 해 준다  

 

빅데이터는 외부 비정형 데이터 분석을 위주로 시장에서 거론되고 있지만 기업 경영 측면에서 핵심 정보는 내부 정형 데이터에서 나오므로 이러한 데이터를 어떻게 처리하느냐가 주요 관건이다. 때문에 전통적인 데이터 분석 툴로 분석한 DW 내 수많은 워크 로드의 잘 정제된 정형 데이터 분석 결과들과 기업 외부의 다양한 형태의 비정형 데이터를 결합하는 것이 진정한 빅데이터의 활용이라고 할 수 있다. 그만큼 빅데이터 시대에서도 기업 내부의 정형 데이터를 분석하는 DW는 주요 인프라라고 할 수 있는 것이다.

 

DW 어플라이언스의 등장

 

기존 DW의 개발 과정은 매우 복잡한 과정을 거쳐 이뤄 진다. 먼저 질의 처리 및 결과의 최적 경로 비용을 찾아내는 옵티마이저를 셋팅하고, DW 프로젝트의 성패를 가름하는 물리 및 논리 모델링 작업을 진행해야 한다. 이외에도 상당 기간의 테스트 과정과 시간을 들여 최적화된 인덱스를 설정하는 것을 비롯해, 업무에 적합한 마트 설계 등의 과정을 거쳐야 한다.

 

이런 복잡한 과정을 거쳐도 종래의 방식은 업무가 정형화돼 있을 때만 DW 프로젝트의 성공을 보장할 수 있다는 단점을 갖고 있다. 그러나 실제 현업의 요구 사항은 규정된 범위 내에 존재하지 않는 경우가 많다. 또한 개발 기간에는 도출되지 않았던 문제점들이 개발 이후 유지 보수 과정에서 나타날 수도 있다.

 

이러한 DW의 성능 이슈에 대한 문제점을 해결하기 위해 등장한 개념이 바로 ‘DW 어플라이언스. DW 어플라이언스는 데이터베이스관리시스템(이하 DBMS), 서버, 스토리지를 구조적으로 통합한 것으로, 성능을 최대화 하도록 하드웨어와 소프트웨어를 최적화 한 것이다. DW 기능에 맞춰 스토리지와 DBMS를 최적화했기 때문에 서버, 스토리지, DBMS를 별도로 도입해 DW를 구축하던 기존의 방식과 달리 튜닝 작업이 크게 단축되고 성능이 향상 됐다. , DW 어플라이언스는 DBMS와 서버, 스토리지를 하나로 묶어 DW를 구현하는 형식을 취하고 있는 것이다.

 

IT 시장 분석 전문 기업 가트너는 DW 어플라이언스를 단지 HW SW의 결합체로 인식하는 경우가 있는데, 이는 잘못된 오해라고 지적하며 DW 어플라이언스가 갖춰야 할 요건을 다음과 같이 제시했다. 먼저 DW 어플라이언스는 사전 패키징 혹은 사전에 구성된 HW SW, 서비스와 유지 보수를 총체적으로 제공해야 하며, 서버, 메모리, 스토리지와 I/O 채널 등 HW 요소와 운용 체계(OS), DBMS와 관리 SW SW 요소들이 사전에 구성되고, DW 플랫폼으로서 요구되는 고가용성을 만족시킬 수 있도록 이중화 구성을 제공해야 한다고 설명했다. 또한 DW에 저장된 원시 데이터(추출된 데이터의 소스 시스템)의 총 용량을 기준으로 매겨 져야 하며, 서버나 스토리지 등 HW 기준이어서는 안 된다고 지적했다. 그리고 DW 어플라이언스의 가장 중요한 핵심 요소는 사용자가 임의로 어플라이언스의 구성을 변경할 수 없다는 것이라고 말했다.

 

DW 어플라이언스 업체들은 어플라이언스 기술에 대한 정의와 형태, 효용성에 대해서는 제각각 다른 목소리를 내고 있지만, 폭발적인 데이터 급증과 복잡한 워크 로드를 해결하기 위한 대안으로 DW 어플라이언스가 대세가 될 것이라는 전망에는 의견을 같이하고 있는 모습이다.

 

빅데이터 시대, 하둡과 손 잡은 DW

 

빅데이터 영역에서의 어플라이언스 제품 트렌드를 살펴 보면 기존의 DW가 확장된 형태이다. 기존의 DW에 비정형 데이터 분석과 대용량 처리 기술을 접목하여 진화된 형태의 DW의 출시로 빅데이터 시장에서의 어플라이언스 경쟁이 벌어지고 있다.

 

포레스터 리서치의 수석 애널리스트 제임스 코비엘루스는앞으로 하둡을 기반으로 한 DW 어플라이언스가 가장 인기 있는 플랫폼이 될 것이라며많은 IT벤더들이 하둡 껴안기에 나설 것이라 전망했다.

 

여기서 하둡이란 분산 처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템과 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술인 맵리듀스를 구현한 오픈 소스 프레임 워크를 일컫는 말로써, 폭증하는 데이터 특히 비정형에 대한 비용 효과적인 처리 및 저장을 원하는 기업들에게 매력적인 대안으로 떠올랐다. 이에 EMC, IBM, 오라클, 테라데이타 등 많은 DB·DW 업계는 하둡을 기반으로 한 DW 솔루션을 출시하기 시작했다.  

 

EMC DW 업체 그린플럼을 인수한 뒤 2011 9월 비정형 데이터 저장을 위해 하둡을 탑재한그린플럼 DCA’를 출시했다. 이 장비가 등장하기 전까지만 해도 시장은 정형 데이터와 비정형 데이터를 나눠 따로 분석했다.  EMC는 맵R을 바탕으로 따로 하둡을 만든 다음 이를 자사 관계형 DBMS와 하나로 묶어 내는 DW를 만들어 냈다.

 

오라클은 2011 11월 출시한오라클 빅데이터 어플라이언스로 하둡과 손을 잡았다. 비정형 데이터의 원활한 처리를 위해 클라우데라와 손을 잡고 자사 어플라이언스의 클라우데라의 하둡을 탑재했다.

 

IBM은 지난해 4월 자사 빅데이터 플랫폼에 탑재하는 하둡 배포판으로 *클라우데라를 선택했다.

 

데라데이타는 하둡 솔루션을 도입하거나 하둡을 개발한 다른 업체들과 달리 자사 데이터 처리 방식에 하둡 기술을 담았다. 테라데이타는 맵리듀스와 전통적인 DB 처리 언어인 SQL을 결합한테라데이타 애스터를 갖고 있었다. 여기에 지난해 6월 호튼웍스와 협력해애스터 SQL-H’라는 기술을 선보였다. 애스터 SQL-H는 어떤 방식으로 데이터가 저장되어 있는지 파악할 필요 없이 방대한 하둡 데이터를 직접 분석할 수 있도록 도와 주는 게 특징이다.

 

* 오픈소스 하둡을 전문적으로 개발해 상용 솔루션으로 배포하는 기업- 클라우데라, 호튼웍스, R

 

 논리적 DW의 도입

 

최근 IT 시장 전문 분석 기업 가트너가 발표한 향후 3년 내 가장 큰 영향을 미칠 기술을 정리한 `10대 전략 기술 발표` 중 하나로 `전략적 빅데이터` 기술이 꼽혔으며, 미래에는 하나의 DW가 기업의 모든 의사 결정을 지원할 수 있는 통합된 시스템으로 진화할 것이라고 전망했다.

 

대량의 방대한 데이터가 암시하는 것 중 하나는 미래에는 사용자들이 모든 유용한 정보를 한 개의 DW에 모두 담아 내지는 못할 것이라는 것이다. 빅데이터 시대 도입에 따라 앞으로는 데이터를 분석하기 위해 단일 DW를 구성하는 방식 대신 필요에 따라 다수의 데이터 소스로부터 정보를 한 곳에 모아 쓰는 논리적(Logical) DW가 단일 DW 모델을 대체하게 될 것이라는 전망이다.

 

이와 관련해 가트너의 설리 부사장은 “DW에 결정에 필요한 모든 정보가 들어 있다는 개념은 죽었다며, 데이터 서비스와 메타 데이터를 위한 컨텐츠 관리, DW, 데이터 마트, 분야별 파일 시스템을 포함하는 다중 시스템이 논리적인 엔터프라이즈 DW가 될 것이라고 주장하며, 분석 시스템의 물리적 경계가 허물어질 것이라 전망했다.

 

이는 미래의 DW 전략을 바꿔 놓게 될 것이며, 하나의 DW가 기업의 모든 의사 결정을 지원할 수 있는 통합된 시스템으로 진화할 것임을 뜻하는 것이다 

 

 LDW 1.JPG

 

4. DW 시장의 9가지 동향

 

IT 시장 분석 전문 기업 가트너는 DW 시장의 9가지 주요 동향을 다음과 같이 제시하고 있다.

 

1) 최적화: CPU/메모리 밸런싱, 디스크 스토리지, I/O 등 하드웨어 관리를 위한 최신 기능은 이제 DW 구현 플랫폼에 있어 당연한 요소로 자리잡아, 일부 신규 진출 업체들은 차별화를 위해 최적화에 초점을 맞추고 있으며, 대다수의 DW 업체들은 압축과 사용 기반의 데이터 배치 전략을 통해 스토리지의 최적화를 강조하고 있다. 그러나 이러한 것들이 실 사용에 있어 반드시 중요한 것만은 아니다.

 

2) 간소화: 기업들이 어플라이언스를 구매하는 이유의 가장 주된 이유는 간소함 때문이다. 업체에서 실행 성능을 예측할 수 있도록 하드웨어와 소프트웨어 서비스를 구성하고 확인하며, 어플라이언스는 완성된 상태이기 때문에 설치도 빠르다. 뿐만 아니라 문제가 발생하면 어플라이언스 업체에게 전화를 거는 것으로 1차 조치를 취할 수 있으며 이외에도 하드웨어 조정에 드는 시간 소모를 피하도록 해 준다는 점에서 2차 효과도 창출될 수 있다.

 

3) 실질적 POC: 기업 대부분은 DW DBMS를 선정하는 단계에서 선별한 업체들을 대상으로 POC(proof of concept: 개념 또는 기능 검증)를 수행해야만 한다는 점을 잘 알고 있다. 가능하면 운영 시스템에서 데이터를 추출한 실제 소스 시스템을 이용해 POC를 할 것을 권장한다. 또한 많은 사용자를 대상으로 해야 하고, 실제로 사용되는 환경에 부합하는 방식으로 DW 작업 부하를 생성해야 한다 

 

4) 작업 부하 관리: DW가 제공하게 되는 작업 부하에는 벌크/배치(Bulk/batch) 부하, 기본 리포팅, 기본 OLAP(온라인 분석 처리), 실시간/지속 부하, 데이터 마이닝 및 운영 BI 6가지가 있다. 이들 6가지 작업 부하를 제공하는 DW에 대해서 작업 부하 성능의 예측성을 위한 평가를 해야만 한다. 이는 작업 부하 분담에 대한 계획이 잘못되면 관리 비용이 올라가게 되고, 볼륨과 추가 작업 부하가 더해 지면 중대한 지속 가능성(sustainability) 문제를 초래할 수 있기 때문이다.

 

5) 데이터 마트의 활용 증대: 데이터 마트는 규모에 관계 없이 특정 애플리케이션을 전용 분석하는 저장소로, 일반적으로 DW보다 특정 소규모 사용자 그룹을 갖는다. 데이터 마트는 DW를 최적화하는데 사용할 수 있는데, 작업 부하의 일부를 데이터 마트로 분담시킴으로써 데이터 웨어하우징 환경의 성능을 높이는 방식을 활용한다.

 

6) 컬럼 스토어 DBMS 역할 증대: 컬럼 스토어(Column-store) DBMS는 일반적으로 기존의 로우 기반(row-based) 시스템에 비해 쿼리 응답이 빠르다. 따라서 뛰어난 데이터 마트 플랫폼으로, 더 나아가 주 DW 플랫폼으로 역할을 할 수도 있다. 가트너는 일부 업체들의 경우, 전통적인 사용자 또는 코어 모델 방식에서 DB에 불러들인 데이터 볼륨을 토대로 하는 소프트웨어 가격 모델 방식으로 바꿀 것이라고 예측하고 있다.

 

7) -메모리 DB 관리 기술 도입 증가: -메모리 DB 관리 기술은 쿼리 응답과 데이터 커밋(data commit) 시간이 아주 빠르다. 또한 분석 및 트랜잭션 시스템이 동일한 DB를 공유할 수 있는 가능성이 한층 높아진다. 미들 티어(middle tier)의 데이터 서비스, 마스터 데이터 접근법, 분석 데이터 모델이 지배적인 방식으로 부상하기 시작하면서, 기존의 로우 기반(row-based) 업체들이 컬럼 방식과 인-메모리 방식을 점차 더 많이 수용하도록 부추기고 있다. BI 솔루션은 일찌감치 부상할 것으로 보이며, 이로 인해 고성능 제품의 인-메모리 DB 관리가 강화되고, 대형 업체들의 인수 목표가 될 것으로 보인다.

 

8) 클라우드상의 DW: 서비스로 제공되는 DW SaaS(Software as a service)와 아웃 소싱 DW 두 가지 형태이다. 클라우드 상의 DW는 근본적으로 인프라스트럭처 설계를 어떻게 할 것인가의 문제이다. 여전히 데이터 모델을 개발해야 하고, 통합 전략을 적용해야 하고, BI 사용자 액세스가 가능하고 관리되어야 하기 때문이다. 프라이빗 클라우드는 일부 기업에 있어 주요 인프라 설계 방안의 하나로 부상하고 있다.

 

9) 오픈 소스 DBMS의 활용 제고: 오픈 소스 DBMS는 여전히 실험적으로, 그리고 형식적으로 사용되고 있다. 현재 오픈 소스 DW는 드물며, 전통적인 DW보다 소규모이고, 더 많은 수동 지원을 요구하는 게 일반적이다. 그러나 일부 솔루션은 데이터 웨어하우징 전용으로 최적화되어 있다. 

 

5. DW의 경쟁력 확보 방안

 

IT 시장 전문 분석 기업 가트너에 따르면 DW의 구축으로 효과를 얻지 못한 이유의 대부분은 데이터 품질과 데이터 통합에 있다며, 효율적인 DW 구축의 필수 요소로 데이터 품질을 최우선으로 꼽았다. DW의 궁극적인 목적은 물리적으로 여러 곳에 분산되어 있는 DB 내에 존재하는 데이터에 대하여 하나의 논리적 뷰(view)를 창출하는 것이기 때문이다.

 

실제로 대용량 데이터를 축적하고 있는 은행 및 카드사 등의 금융권을 비롯해 인터넷 포털, 대형 제조 및 유통 업체, 대형 병원 등은 실시간 데이터 통합이나 전사 데이터 통합에 적극 나서고 있지만, 데이터 품질의 저하 때문에 DW로부터 정확한 의사 결정을 위한 정보를 전달 받지 못하는 사례가 빈번히 발생하고 있다.

 

데이터 통합 과정은 전체 프로젝트에서 약 15~30%를 차지하는데 이는 전체 구현 비용 중 약 20~40%가 데이터 통합 과정에 할당되어 있는 것을 의미한다. 성공적으로 데이터 통합이 수행되기 위해서는 실질적으로 데이터를 이해하는 데 70% 이상의 노력이 투입되어야 하며, 이때 데이터 품질의 확보가 필수적이다.

 

데이터 품질 저하로 비즈니스 반영 한계

 

한국DB진흥원의 조사에 따르면 국내 기업 중 데이터 품질 관리를 수행하고 있는 곳은 30%에 불과했으며, 가트너는 50% 이상의 DW CRM 프로젝트가 불량 데이터로 문제점을 노출할 것으로 예측한 바 있다.

 

DW는 각 BI 애플리케이션에 데이터를 공급하는 전사 통합 데이터 제공 인프라의 역할을 하므로, 일관된 정보를 제공해야 한다. 그렇지 않으면 데이터의 중복과 불일치가 발생하기 때문에 차후 시스템의 개선이나 유지 보수에도 어려움을 겪게 된다.

 

DW 고도화, BA(비즈니스 분석), AV(고급 분석) 등 차세대 BI에 대한 방향성이 제시되면서 데이터의 본질적인 문제인품질이 다시금 주목 받고 있다. 아무리 방대한 데이터를 다차원적이고 빠르게 분석한다 하더라도, 원천 데이터의 신뢰도를 확보하지 않으면 제대로 된 대응을 할 수 없기 때문이다.

 

기존의 BI 구축이든, 빅데이터를 고려한 구축이든 중요한 것은, 사용자가 가공된 정보에 기반하여 의사 결정을 내리고 경영의 방향에 영향을 미치므로, 무엇보다 중요한 것은 정보의 신뢰성이다.

 

이처럼 DW가 기업의 경쟁 우위를 확보하는 핵심 역할을 수행할 수 있는 최적의 시스템으로 활용되기 위해서는 무엇보다 다양한 사용자 요구에 유연하게 대처할 수 있는 품질 높은 데이터를 원천으로 시스템이 구현되는 것이 필수적이다. 기업이 급변하는 업무 환경에서 고객의 요구에 적절히 대응하고 경쟁력을 확보하기 위해서는 고품질의 데이터를 전달할 수 있어야 하기 때문이다.

 

따라서 지금은 그 어느 때보다도 데이터의 품질에 대한 중요성을 인식하고 이에 대한 적정한 수준의 품질 관리 정책이 수립 반영되어야 한다. 낮은 품질의 데이터가 업무 수행에 미치는 영향이 막대하다. 잘못된 정보로 인한 손실은 현재뿐만 아니라 미래의 실적 기반을 잃어버리는 상황도 초래할 것이다.

 

데이터 거버넌스 이젠 선택 아닌 필수

 

데이터의 품질을 확보하기 위해서는 먼저, 데이터 거버넌스 체계를 수립하고 운영하는 것이 중요하다. 데이터 거버넌스란 조직이 데이터를 중요한 자산으로 인식하고 이를 관리하는 절차나 감독, 검사 방법을 규정한 것이다. 단순히 데이터 생성 및 관리 유지뿐 아니라 정보의 사용자 및 목적까지 관리하는 포괄적 개념이라 할 수 있다. 현행 데이터 관리 정책, 프로세스 및 조직 측면에서 평가하고, 보완이 필요한 부분에 대해서는 명확한 기준 및 절차를 수립하고, 필요 인력을 배치하는 것이 요구된다.

 

일반적으로 데이터 관리 역량을 향상시키기 위해서 DB 설계자 및 DBA IT 기술자에만 집중하는 경향이 있는데, 양질의 데이터를 확보하기 위해서는 비즈니스 측면에서 데이터의 흐름과 공유를 관리할 수 있는 데이터 관리자의 역할에 보다 중심을 둬야 하며, 정보 사용자 중심의 DW 구축 전략이 수반되어야 한다. 

 

DW는 다양한 사용자 그룹의 요구 사항을 수용해야 하므로, 리스크, 성과 분석, 마케팅 등 다양한 업무 전문가의 참여가 반드시 필요하며, 또한 다양한 데이터를 확인하고, 활용 관점에서 요구 사항을 정의해야 하므로, 타 시스템을 구축할 때와 비교하여, 분석 단계에 충분한 시간을 할애해야 할 것이다.

 

결론 및 시사점

 

하루가 다르게 변화하고 경쟁하는 시장 환경 속에서 역동적인 기업 활동을 위해서는 합리적인 전략과 의사 결정이 요구됨에 따라 정보 시스템 운영에 기업들의 의존도가 높아지면서 이를 지원할 수 있는 시스템 인프라를 적절하고 효과적으로 구축하는 것은 기업 경쟁력을 제고하는 데 필수 요건이 되었다.  

 

그 중에서는 BI DW 시스템은 기업 운영 환경에 직접적인 영향을 미칠 수 있는 핵심 인프라로 그 중요도는 갈수록 증가하고 있다. 특히 올해는 빅데이터 이슈와 맞물려 차세대 BI에 대한 관심이 높아지면서 DW의 고도화에 대한 고객의 니즈가 커짐에 따라 실시간 DW를 구현하는 것이 최대 이슈가 될 것으로 보인다.

 

클라우드가 과거 ASP SaaS 연장 선상에 있듯, 빅데이터는 DW BI의 연장 선상에 있다고 볼 수 있으며 전혀 새로운 기술은 아니다. 때문에 앞으로 DW는 비정형 데이터 분석 및 대용량 처리 기술과 접목되어 진화하면서 사용자들에게 이전 어느 때 보다 높은 수준의 성능과 유연성, 신뢰성 등을 제공하게 될 것이다. 이와 더불어 빅데이터를 위한 새로운 차원의 DW 및 데이터 분석 기술을 선보이는 업계들도 등장할 것으로 예상된다

 

 

※ 다음 엔코아 리포트에서는 DW 고도화를 위한 데이터 거버넌스 전략에 대해서 연구한 자료를 공유하고자 한다.

 

 

 

다운로드>> EN-CORE_Report_2013.02.02.pdf

 

 

목록