• 미디어 >
  • 엔코아 리포트
Weekly Brief
[조회수 : 6865]  다운로드
빅데이터 시대의 데이터 통합

한국 리서치 전문 기관인 KRG에서 기업의 투자 우선 순위를 조사한 바에 따르면, 시스템의 이행(Migration)과 IT 통합(Integra
tion) 부문이 전체 42.7%를 차지할 정도로 높은 관심을 받고 있다. 경기가 호황이던 몇 년 전만 해도 기업들은 경쟁력 향상과 급변하는 사회 구조에 맞춰 무분별하게 IT 분야에 투자를 집중하여 저마다 CRM, SCM, ERP, DW 등 다양한 애플리케이션 제품들을 사들였다. 그러나 전 세계적으로 경제 상황이 악화되면서 상당수 기업들은 투자 대비 효과 즉 ROI를 거둘 수 있을지 의구심을 품게 됐다. 기업의 정보를 조정하고 활용하는 방법이 점차적으로 간소화되고 애플리케이션 구축 성과에 대한 평가가 기업들마다 엇갈림에 따라 기업들은 혼란에 빠지기 시작했다. 실제로 그 동안 기업은 IT 신기술 도입에 엄청난 투자를 했지만 체계적이지 못한 시스템의 도입으로 막대한 유지보수 비용을 지출해야 했고 기업들의 IT 비용 부담을 가중시켰다.

결국 상당수 기업들은 많은 투자와 장기간의 도입을 거친 후에야 애플리케이션 그 자체만으로 기업 정보화의 성공을 이룰 수 없다는 것을 체감했고, 기업들은 기업을 실시간으로 지원하는 것을 목적으로 하는 통합 인프라 구축을 IT 운영을 성공의 열쇠로 판단하게 됐다. 특히 각각의 데이터를 통합해 하나의 관점에서 분석하려는 노력을 통해 비즈니스 통찰력을 얻고자 했다.

그러나 이제 기업들은 빅데이터 시대를 맞이하면서 운영 애플리케이션에서 발생하는 체계화 된 데이터뿐 아니라 소셜 미디어, 센서 네트워크 등에서 발생하는 비정형 데이터도 통합해야 하는 숙제를 안게 되었다. 

이에 대한 해결책으로 기업들은 비즈니스를 완벽하게 지원할 수 있는 360° 전방위적인 관점으로서 데이터 통합 및 이행 전략을 효율적인 대안으로 주목하기 시작했다. 이번 엔코아 리포트에서는 데이터 통합 및 이행(ETL) 트렌드에 대해 제시하고자 한다. 

1. 데이터 통합과 ETL 
IT 시장 전문 분석 기업 가트너(Gartner)의 리서치 담당 부사장인 마크 베이어는 기존 트랜잭션 데이터 규모가 급증하고, 소셜 네트워크, 이미지 등 과거에는 활용되지 않았던 새로운 유형의 데이터가 폭발하면서 데이터 통합, 데이터 품질, MDM은 기업들이 빅 데이터의 잠재성을 완벽하게 활용할 수 있도록 돕는 핵심 기술 요소라고 강조한 바 있다. 

데이터 통합이라고 하면 가장 먼저 떠오르는 것이 DW 혹은 데이터 마트를 구축하기 위한 운영 데이터를 추출하여 정제한 후 ODS 그리고 DW에 적재하는 ETL 작업이라고 할 수 있다. 

CRM, SCM 등 패키지 솔루션 도입 시 혹은 기업의 업무의 변경 및 확장으로 인한 특정 시스템을 주기적으로 교체하거나 새로운 시스템을 도입할 때 기존에 사용되던 데이터를 다른 시스템으로 이전할 때 발생하는 과정인 데이터 이행은 데이터 통합의 한 영역이라고 할 수 있다. 

또한 기업 내에 산재되어있는 다양한 애플리케이션과 시스템에서 유일한 고객의 정보를 추출하거나 유일한 거래처의 정보를 추출하여 표준화 정제 과정을 거쳐 일관된 관점을 제공하는 경우 또한 데이터 통합이라고 할 수 있다. 

이러한 ETL, 데이터 이행 등 데이터 통합의 영역은 단순한 데이터의 이동이 아닌 데이터의 표준화와 오류데이터 검증 및 수정 작업 흔히 말하는 데이터 클랜징 작업을 통하게 된다. 이러한 작업이 데이터 통합의 한 과정으로서 구현이 가능하게 함으로써 데이터의 품질 관리를 가능하게 한
다. 

여기서 ETL이란 다양한 소스 시스템(Source System)으로부터 필요한 데이터를 추출(Extract)하여 변환(Transformation) 작업을 거쳐 타겟 시스템(Target System)으로 전송 및 로딩 (Loading)하는 모든 과정을 말한다. 쉽게 말해서 DW 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 DW에 적재하는 과정을 말하는 것이다. 

DW에서 ETL 작업을 해야만 하는 이유는 대량의 데이터를 사용자가 손쉽고 빠르게 볼 수 있도록 하기 위함이다. 
ETL 1.jpg

아무리 좋은 OLAP Tool(MSTR 같은 고가의 Tool)을 보유하고 있다고 하여도 그 Tool을 이용하여 조회할 데이터가 없다면 그 비싼 Tool도 무용지물이다. 물론 ETL 작업을 아무리 잘 해놓았다고 하더라도 OLAP Tool이 없다면 그것도 불행한 일이기는 하겠지만 ETL 작업이 선행되어야 한다. 이처럼 ETL은 DW나 BI, 균형성과관리(BSC) 등의 시스템을 구축하기 위해 운용계에서 정보계로의 데이터 이관은 필수적인 요소다. 이러한 이관을 위한 ETL 작업은 시스템 성공 요소 중 하나로 자리잡고 있다. ETL 작업의 경우 과거에는 수작업(하드 코딩)을 통해 해결해 왔지만 매우 어려울뿐만 아니라 비용 부담이 높아 이를 자동화한 툴들이 잇따라 개발되었다. 

이와 관련해 IT 시장 전문 분석 기업 가트너(Gartner)는 일반적인 기업은 ETL 툴을 적절히 활용하여 인건비를 약 50% 이상 절감할 수 있다고 주장한 바 있다. 
ETL 2.jpg
방대한 규모의 운영 데이터를 얻기 위해서는 BI(Business Intelligence) 인프라가 OLTP(OnLine Transaction Processing) 시스템에 부담을 주지 않으면서 분석을 위해 데이터를 수집, 이동, 변환 및 저장할 수 있어야 한다. 서로 다른 운영 시스템, DB, 하드웨어 플랫폼 및 네트워크 환경을 고려하면 복잡하다. 

그러므로 추출 루틴 개발, 비즈니스 로직 디버깅 및 데이터를 안전하게 로딩하여 사용자 요구 사항을 만족시켜야 하는 IT 부서에게는 상당한 부담이 된다. 또한 데이터 관리의 필요성도 증대되고 있다. 소스 시스템에서 획득되는 원본 데이터는 서버로 전송하도록 메타데이터를 생성하고, 서버로 전송된 소스 데이터와 타겟 테이블간에 매핑을 생성한다. 세션을 생성한 후 실행하고, 모니터링한다. 데이터 모델링, 매핑(Mapping), BI(Business Intelligence) 제품 사이에 DW 및 데이터마트와 관련된 모든 메타데이터가 통합 관리 되어져야 한다.

최근 발표된 가트너 보고서에서도 ETL 툴을 중심으로 하는 데이터 통합 솔루션의 영역이 BI를 벗어난 영역으로의 확장을 강조하고 있다. 전형적인 BI 영역인 DW 구축에서 한 발 더 나아가 시스템 이관이나 마스터 데이터 관리, 운영 혹은 레거시 시스템 간의 데이터 일관성 확보 등을 위한 영역으로 활동 영역이 넓어진 것이다.

2. ETL의 발전 과정
 
ETL의 시작과 Legacy Code의 생성
초기의 ETL 툴은 ETL 기능들이 수행되었던 플랫폼의 operating 시스템을 위한 고유의 코드를 생성했다. 그 당시 데이터가 주로 메인 프레임상에 저장되었기 때문에, 대부분의 1세대 제품들은 실제로 코볼을 생성했다. 이들 제품들은 ETL 기능들을 생성하는 중앙 집중화된 툴을 이용해서, 그 코드를 해당 플랫폼에 보급함으로써 수작업으로 프로그램을 작성하는 것보다 ETL 기능들을 더 쉽게 만들었다. 성능은 고유의 컴파일된 코드의 상속된 성능 덕분에 우수하였지만, 이들 툴들은 다른 플랫폼상에서의 심층적인 프로그래밍 지식을 요구했고, 유지 보수 또한 어려웠다. 또한 이 방식은 메인 프레임상에서는 잘 작동하였지만, relational DB 상의 대량의 데이터 관리를 위해서는 별로 효율적이지 않았다.
 
Hub-and-Spoke 구현 방식 
다음으로는 모든 transformation 프로세스들을 수행하는 폐쇄형 엔진에 근거한 제 2 세대 ETL 툴들이 등장했다. 이 접근 방식은 상이한 플랫폼상의 상이한 언어를 사용해야만 하는 1세대의 문제를 해결했다. 단지 하나의 프로그래밍 언어(ETL 툴 자체의 언어)의 전문성을 요구하는 것보다 유연하고 용이한 코드의 자동 생성을 제공했으나, 모든 transformation을 수행하는 폐쇄형 엔진이 transformation 프로세스의 병목이 되는 현상이 발생했다. 타겟 시스템으로 가기 위해 다양한 소스 시스템들로부터 오는 모든 데이터는 이 폐쇄형 엔진을 통과해야만 하는데 이것을 Hub-and-spoke 구현 방식이라 한다. 여기서 hub가 필수적인 전송점이 되고 또한 정체점이 되기도 했다.
 
데이터 통합 플랫폼의 지향 
이전 두 세대의 각 장점을 활용하면서, 이들로부터 제기된 주요 과제들을 해결하고 또 점증하는 다양한 사용자 요구들을 수용하기 위해 ETL 툴의 새로운 세대가 등장했다. 이 세대는 전체적으로 보다 세련되고 강화된 그래픽 환경, 강력한 성능, DW, 데이터 마트의 구축을 지원하는 구현 기능, 개방적이고 확장된 메타데이터 관리 등의 포괄적이고 다양성을 제공하며, 계속적으로 ETL의 추가적 기능들을 빠르게 더하고 있다. 

DB 기업들은 또한 이전 세대에서부터 SQL의 능력을 크게 개선하기 위해 많은 노력을 기울여 왔다. 이 개선의 결과로 ETL 툴은 고유의 SQL이나 ETL 프로세스들에 관련된 DB의 언어를 통해 고도로 최적화된 ETL 프로세스들을 생성하고 실행하는 일이 가능하게 됐다. 

이렇게 보다 세련된 구조와 기능을 갖추고 다양한 요구들을 발빠르게 수용하고 있는 ETL은 단순히 추출•변환•적재 기능 도구일 뿐만 아니라 데이터 거버넌스를 기반으로 데이터 품질과 메타데이터 등 데이터 통합(Data Integration)의 핵심 요소로 진화를 거듭하고 있으며 다목적의 데이터 통합 플랫폼을 지향하고 있다.

3. ETL의 기능 요건
ETL의 기본적인 기능 요건은 다음과 같다. 

1) 다양한 소스 시스템 지원 기능
ODBC, Native API를 이용한 Plug-In, Sequential 파일, FTP Plug-In에 의한 Sequential 파일 등 다양한 형태의 소스 데이터 추출이 가능해야 한다. 

2) 편리한 개발 환경 지원
데이터를 추출하기 위한 다양한 함수 지원과 개발 및 관리를 위한 직관적인 사용자 인터페이스 화면 등이 제공되어야 한다. 

3) 다양한 언어 지원
소스 데이터에 표현되어 있는 다양한 언어 형태에 대해서 지원할 수 있어야 하며, 특히 한글 처리는 필수적인 요소이다. 

4) 병렬 처리
최종 로드하게 되는 데이터를 추출하기 위한 일련의 작업을 동시에 병렬 처리할 수 있어야 한다. 

5) 추출 대상 시스템에 대한 부하 최소화
테이블간 조인을 하지 않는 단순 질의를 통한 추출 및 소스 데이터 추출 후 변환이나 정제 작업은 추출 도구가 설치된 별도의 서버에서 실행 가능해야 한다. 또한 빠른 작업 처리를 위해 별도의 저장 공간에 저장하지 않고 시스템 메모리 등에서 처리가 가능해야 한다. 

6) 용이한 메타 데이터 관리
추출에 필요한 각종 메타 데이터를 손쉽게 관리하기 위한 관리 시스템이 지원되어야 한다. 

4. 빅데이터 시대의 ETL 
빅데이터 기반 의사 결정에도 이를 뒷받침할 데이터 통합 전략과 기술이 요구된다. 빅데이터를 활용한다는 게 반드시 전혀 새로운 정보를 얻어낸다는 의미는 아니다. 오히려 기업들에게는 이미 투자해온 데이터 처리 자산을 효율적으로 활용해야 할 필요가 크다. 이는 데이터 수집과 저장뿐 아니라 분석 시스템과 현업 사용자를 위한 애플리케이션까지에 모두 해당하는 얘기다.

IT 시장 조사 업체 벤타나리서치의 연구원 마크 A. 스미스는 '빅데이터의 비밀 공개'라는 칼럼을 통해서 기존 애플리케이션과 빅데이터를 효율적으로 융합하려면 데이터 통합을 제대로 해야 한다고 지적했으며, IT 시장 전문 분석 기업 가트너(Gartner) 소속 애널리스트인 테드 프리드먼 역시  고급 분석을 추구하는 기업들은 흔히 이미 보유한 데이터 통합 툴을 쓰지 않고 있는데 기존 DW와 연계해 줄 도구가 없으면 데이터 활용 가능성이 단절 된다고 경고한 바 있다. 

국내외 시장에서 데이터 통합 솔루션을 공급해 온 주요 기업들로는 인포매티카와 데이터스트림즈가 이름을 알렸고 오라클도 지난 2009년 전문업체 '골든게이트'를 사들였다. 이들의 데이터 통합 소프트웨어는 ▲DW와 분석 시스템 구축에 들어갈 데이터를 추출, 변환, 적재(ETL) ▲대용량 데이터 일괄(배치) 처리 ▲마스터데이터 관리(MDM)와 그 시스템 데이터 동기화 및 배포 ▲차세대 또는 신규 시스템 개발 시 데이터 이행을 해준다.

빅데이터 시대가 도래함에 따라 ETL의 역할도 진화하고 있다. 기존에는 관계형 DB에서 데이터를 추출해 관계형 DB에 올리는 역할을 하던 ETL이 이제는 관계형 DB가 아닌 하둡과 같은 파일 시스템까지 대상으로 확대되고 있는 것이다. 빅데이터 분석 역시 구조화 및 비구조 데이터가 구조화 데이터로 변환•적재가 이뤄져야 분석이 가능하기 때문이다. 

ETL 기업들은 원천 데이터 소스를 하둡에 올리거나 하둡에 있는 데이터를 다시 기존의 DW에 전달할 때 ETL이 필요하다고 주장한다. 원천 데이터를 무조건 하둡에 복사하는 것이 아니라 분석할 수 있는 형태로 변환해야 하고, 하둡의 데이터를 DW에 옮길 때도 마찬가지로 변환 작업이 필요하다.

특히 하둡 파일과 DBMS(DW)를 결합해 분석하려면 하둡이나 DBMS 한쪽으로 데이터를 이동해야 하는데, 데이터 사이즈가 너무 큰 빅데이터의 경우 이 과정에 많은 시간이 소요된다. ETL 기업들은 전문 ETL 툴을 활용하는 것이 이같은 문제를 해결하는 방안이라고 주장한다. 

즉 빅데이터 시대의 ETL은 ▲HDFS (Hadoop Distributed File System) 인터페이스 ▲대용량 데이터 처리를 위한 읽기/쓰기 병철 처리 ▲하둡 데이터를 DBMS에 적재 ▲하둡 파일 정렬, 병합 등 변환 기능 ▲하둡 파일 집계 ▲하둡 파일과 DBMS 간의 Join/Merge/Look-up 기능 등을 제공한다. 

현재 국내에서 하둡과 데이터를 주고 받을 수 있는 ETL은 IBM과 인포매티카가 제공하고 있다. 한국 IBM의 데이터스테이지는 최신 버전 9.1부터 하둡 파일 시스템과의 인터페이스를 제공한다. 원거리 서버에 있는 하둡 파일에 읽고 쓰기가 가능하다. 한국인포매티카 역시 기존의 파워 센터 및 파워익스체인지를 빅데이터 시대에 맞도록 개선했다. 파워센터 빅데이터 데이션 및 파워익스체인지 포 하둡 등이 그것이다. 그 외에도 데이터스트림즈가 테라스트림 포 하둡으로 시장에 대응하고 있다. 

하둡 기반의 빅데이터 구축이 진행 될수록 빠른 성능을 보장하는 ETL 도구에 대한 요구 사항은 증대될 것이다. 병렬 처리 기반의 ETL 도구가 하둡 기반의 빅데이터 구축의 핵심이 되는 것이다. 또한 기업들이 핸드 코딩을 통해 하둡의 데이터를 가져오고 보내면 유지 관리가 어렵고, 많은 인력이 투입돼야 하기 때문에 하둡 시대에도 ETL의 역할은 매우 중요하다 하겠다. 

5. 성공적인 데이터 통합을 위한 방법 
데이터 통합은 모든 산업군에 걸쳐 IT 시스템의 효율적인 운영의 핵심 근간이 된다. 금융기관에서는 자동화된 데이터 통합을 통해 신속 정확한 수익성 분석, 실시간 감사 및 데이터 이관 기반 구축, 효과적인 고객 관리 등을 수행할 수 있고, 제조업체는 효율적인 재고 관리는 물론 판매, 재고, 비용, 판매에 대한 보다 상세한 예측을 할 수 있다. 

이러한 데이터 통합은 어떠한 면에서는 가장 기본적인 통합이면서도 가장 중요한 단계라고 할 수 있다. 특히 최근 들어 기업들이 효율적인 정보의 통합 운영을 위해 다양한 시스템이나 애플리케이션에서 나오는 방대한 양의 데이터를 종류별로 다양한 포맷으로 지원하고 이기종에서 호환이 가능하도록 통합을 이뤄내는 것이 필수적이다. 

특히 지금까지 투자해 온 분석 시스템 인프라를 획기적으로 개선하기 위해서는 데이터 통합에 대한 고민이 먼저 이루어져야 한다. 애플리케이션의 경우 개발 후 테스트 과정에서 에러를 잡을 수 있지만 데이터의 경우 전사적인 관점에서 접근하지 않는 한 부정확한 데이터가 걷잡을 수 없이 늘어난다. 따라서 충분한 계획을 수립한 후 데이터 통합의 효과를 극대화할 수 있는 영역부터 데이터 품질을 높이기 위한 노력을 해야 한다. 데이터의 문제는 데이터 관리의 성숙도와 직결되기 때문에 △전사 데이터 아키텍처 체계 확립 △사용자 요건 관리의 일원화 △데이터 표준화와 품질 관리 체계 확립 △지속적이고 체계적인 변경 및 추적 관리 등이 필요하다.

제대로 된 데이터 통합은 기업 비즈니스를 구성하는 각 부문 혹은 전반에 대해 완전하고도 전체적인 통합된 뷰를 제공해 준다. 특히 △BI 인프라 전달 △전사 데이터에 대한 단일화된 뷰 △비즈니스 인프라 최적화 △전사 데이터의 자산화 등과 같은 기업의 특정 비즈니스 과제에 대한 명쾌한 해답을 제시해 준다. 

6. 성공적인 데이터 통합을 위한 과제 
데이터 통합의 과정에서 경영진이나 CIO들이 맞닥뜨리게 되는 문제는 시스템을 구성하는 데이터의 적합성, 신뢰성, 시의성이 보장되지 않는다면 성공적인 결과를 예측하기 힘들다는 사실이다. 따라서 기업들은 성공적인 데이터 통합을 위해 다음의 과제들을 고려해야 한다. 

먼저 어떤 접근 방법 내지는 툴을 이용해야 핵심 정보를 신속하게 활용할 수 있는지 파악해야 한다. 정보화가 성숙한 단계에서 기업의 시스템 다운은 곧 금전적인 손실을 의미한다. 이것은 시장 상황에 대한 신속한 의사 결정 및 대응 기회의 상실을 의미하기 때문이다. 기업들이 통합에 착수하기 시작할 때 통합 추진력을 지연시키는 요소들은 도처에 있다. 통합을 계획하기 위한 필수 전제 조건으로서 소스 시스템을 이해하고 문서화하는 단순한 일에도 몇 개월 내지 몇 년이 걸릴 수 있다. 또한 DW나 기업 애플리케이션과 같은 대상으로의 연결을 개발하는 과제는 둘째치더라도 데이터 통합 툴(ETL)과 데이터 품질 툴 간의 통합을 개발하는 데에도 수 개월이 걸린다. 이를 위해 기업들은 핵심 데이터의 통합을 통해 변화에 신속히 대응하고, 비즈니스 필요성의 변화에 유연하게 대처할 수 있어야 한다. 

둘째, 어떻게 고품질의 데이터를 제공함으로써 수익성 증대에 기여할 수 있는지 생각해야 한다. 주요 기회에 노출되고 최종적으로 정보를 문서화하고 지원함으로써 최종 사용자에게 충분한 정보를 제공하기 위해서는 데이터의 가공 및 대량의 데이터 처리가 필요하다. 이를 통해 궁극적으로는 전략적인 의사 결정 과정을 수행하게 되는 것이다. 고품질의 데이터는 광범위한 개념으로 데이터 생성, 가치 있는 소스 데이터의 발견, 중복을 제거한 최적의 데이터 도출의 결과로서 DW와 기업 애플리케이션에서 사용할 수 있다. 

셋째, 장기적으로는 최소의 유지 비용과 최대의 수익을 가져오는지 따져봐야 한다. CRM, SCM, DW 및 기업 통합(Enterprise Integration) 등의 주요 기업 애플리케이션들은 눈부신 성공에 기여한 부분도 있겠지만, 주요 애플리케이션으로 기업의 정보를 전달하는 능력 부족, 사용자 요구 사항의 복잡성으로 인한 예산 초과, 비즈니스 요구의 변화에 따른 사용자 지원 및 애플리케이션 수정을 위한 높은 유지 비용 발생 등 실패한 케이스도 찾아 볼 수 있기 때문이다, 
 
또한 기업들이 전체 IT 인프라에 투자할 때 이제는 리소스에 대한 투자보다는 비즈니스에 좀 더 집중해야 한다는 것을 명확히 해두어야 한다. 최소한의 노력으로 기업 애플리케이션을 지원하고, 고품질의 정보를 제공해야 하며, 소스 시스템에 있는 데이터를 자동으로, 최대한 활용할 수 있어야 한다. 또한 비즈니스 요구의 변화에 대해서 유연하게 대처하고 빠른 조정 능력을 가지고 있어야 한다. 

결론 및 시사점 
데이터 통합의 목적을 달성하기 위해서는 통합을 통해 얻을 수 있는 가치를 정의하고 통합 레벨에 맞는 적절한 해법을 찾아야 한다. 데이터 수준의 통합을 위해서 무작정 고가의 솔루션을 도입하는 것은 이치에 맞지 않는다. 대부분의 통합 솔루션은 데이터 통합부터 프로세스 통합까지 지원하고 있고 이에 따라 솔루션 도입에 고가의 비용이 요구된다. 데이터 수준의 통합만으로도 만족하는 조직이라면 전체적인 통합 인프라의 도입을 지양하거나 미들웨어 솔루션을 검토해 불필요한 지출을 막을 수 있다. 

또한 어떻게 데이터 통합을 구현할 것인가 ‘수단’에만 집중하기 보다는 통합 후 예상되는 프로세스나 시스템의 변경이 통합의 목적과 일치되는 방향으로 나아가고 있는지 지속적인 관리가 필요하다 하겠다. 


※ 다음 엔코아 리포트에서는 DBMS 동향 및 트렌드에 대해 연구한 자료를 공유하고자 한다.



목록