DATOR


BIG DATA, 결론은 품질이다 . . . (주)엔코아 문태식 이사 커버 스토리


20130409coverstory.jpg 

80년대에 기업의 문서를 관리하던 부분을 대체하는 수단으로 정보 시스템이 활용됐다면 90년대 들어서는 기업의 핵심 업무 프로세스를 관리하는 수단으로 발전을 하였고 2000년대 들어서는 인터넷의 발달로 인터쇼핑몰, 인터넷 뱅킹 등을 활용한 고객과의 최접점에서 영업의 기능을 수행하였다. 현재는 차를 몰고 가다가 주유소에서 기름을 넣거나 식당에서 식사 후에 결재를 하고 나면 근처의 맛집이나 커피숍을 추천해 주는 등 고객의 위치나 상황에 따라서 적극적으로 마케팅 전략을 펼치는 역할로까지 발전하고 있다. 이러한 시대 흐름과 함께 데이터 분석의 요구는 항상 있어 왔다. 80년대에 집계 테이블을 생성하여 고객별 영업 사원별 지점별 매출 현황 등을 분석하였고, 90년대 들어서는 비즈니스의 다양성에 발맞춰 많은 단위 스템들이 추가되었고, 또한 기간계 트랜잭션들이 늘어남으로써 정보계 시스템을 별도로 구축하는 DW 로젝트를 통해서 다양한 데이터 분석을 하였다. 2000년대 들어서는 비즈니스 역동성이 더욱더 확장되면서 이를 분석하기 위한 BI 시스템을 도입하여 데이터를 분석하였다. 현재는 빅데이터에 대한 분석 열풍이 거세게 일고 있는 시점이다.


기업은 소셜 네트워크 시대에 대한 불안감이 있다. 고객 한 사람의 목소리가 퍼져 나가는 속도가 엄청나게 빠른 시대에 살게 됐기 때문이다. 과거에는 고객 불만에 대한 목소리가 다른 사람들에게 전달되기란 쉽지 않았다. 주로 입소문을 통해서 퍼져 나갈 수 밖에 없었으니까그러나 지금은 유나이티트 에어라인의 사례와 같이 고객 불만의 목소리가 유투브 동영상을 통해 4일만에 천만 조회 이상을 퍼져 나가서 기업의 주가가 10% 하락하게 만드는 영향력을 행사하는 세상이 되었고, 반대의 경우도 마찬가지. 그래서 기업은 이에 적극적으로 대응을 하지 않으면 안 되는 상황이 된 것이다. 또한, 소셜 네트워크상에  나와 있는 정보들을 가지고 마케팅 전략에 적극적으로 활용하는 기업이 훨씬 더 경쟁 우위에 있음은 두말 할 나위도 없다.


그러나 좀더 엄밀하게 본다면 기업의 빅데이터 분석이라는 것이 기존의 것이 없어지고 빅데이터 분석만 있다는 것은 아니다. 집계 테이블을 만드는 것도 비즈니스에 따라서 필요하고 DW, BI 시스템도 그대로 존재하며, 여기에 BIG DATA 분석에 대한 부분이 더해지는 확장의 개념으로 봐야 한다. 소셜 네트워크상의 비정형 데이터에서 의미 있는 데이터를 뽑아 내는 것은 별도의 기술이 더 필요한 부분이지만 의미 있는 데이터가 되고 나서부터는 정형화된 데이터가 될 것이고 여기에 내부에서 그 동안 너무 큰 사이즈여서 관리를 못했던 것들도 우리가 원하는 형태의 정형화된 데이터로 관리를 할 것이다. 최종적으로 이렇게 모아진 모든 데이터들을 분석 대상에 올려 놓고 원하는 형태로 조회를 하거나 마이닝을 통하여 의미 있는 데이터를 찾아내서 마케팅에 활용 할 것이다.


소셜 네트워크상에서 데이터를 갖고 오거나 대용량의 데이터를 분석하는 부분을 제외한다면 BI 시스템의 기능과 유사한 부분들이 많은 데 지금도 성공적으로 BI 시스템을 활용하고 있느냐를 반문해 볼 필요가 있. 결론적으로 말하면, 과거부터 항상 데이터 분석을 할 때 데이터 품질의 문제가 대두되어 왔고 지금도 마찬가지이며 그로 인해 외부적으로는 성공한 것 같이 보이지만 내부적으로는 실패한 프로젝트들이 다반사이다. 결과를 조회하는 화면별로 다른 수치들이 조회되는 경우가 허다하고 이를 보정하기 위해서 사용자가 별도의 수치를 입력하여 데이터를 맞추는 인터페이스를 제공하는 OLAP 툴들이 인기를 끄는 상황까지 온 것이다. 이러한 상황에서 실시간 데이터 분석을 한다는 것은 요원할 것이다.


데이터 품질을 저하시키는 원인들은 잘못 코딩된 프로그램의 문제도 많이 있겠으나 가장 큰 문제는 데이터 구조 설계의 미비 때문이다. 구체적으로는 첫 번째 전사적인 데이터 구조 설계의 개념 없이 업무별로 데이터 모델을 설계하거나 이 조차도 하지 않고 급하다고 먼저 테이블에 반영을 해놓고 데이터 모델에는 나중에 반영을 한다든지 설계 자체를 아예 하지 않는 기업들이 대부분이다. 두 번째로는 데이터 설계를 할 때 데이터 구조 구현, 데이터 품질 관리 체계와의 연계, 데이터 흐름과의 연계, 애플리케이션을 포함한 전사적인 변경 영향도에 대한 고려를 하지 않고 단순히 데이터 설계만을 범위라고 생각하는 것이 문제다. 세 번째로는 체계적인 통제 프로세스에 대한 고민이 부족하다는 것이다. 요즘 차세대 프로젝트를 수행할 때 많은 기업들이 메타 관리 체계를 도입하면서 거버넌스 체계를 구축했다고 말을 하지만 앞서 언급한 두 가지 부분을 포함한 거버넌스 체계를 구현한 사례는 찾아보기 힘들다.


그렇다면 데이터 품질을 최대화 시키는 방법은 무엇일까? 명확하게 세 가지로 말 할 수가 있다.


첫 번째는 전사적인 데이터 아키텍처 기반의 데이터 설계를 하자는 것이다. DW, BI를 구축할 때 가장 어려운 부분이 마스터 데이터의 불일치성이다. 전사적인 데이터 아키텍처 기반이라는 것은 마스터 주제 영역의 통합을 추구하고 핵심 계약 레벨 주제 영역의 업무별 통합 정도를 관리하며 거래 주제 영역의 업무별 주제 영역 분할 정도를 관리하는 것이다. 이러한 개념 없이는 일관된 데이터 구조 관리가 요원할 뿐 아니라 데이터 값의 품질도 보장을 할 수가 없을 것이다.


두 번째는 데이터 모델을 설계한 것으로 다른 부분들과 원활하게 연계하여 전체적인 데이터 품질 관리 체계를 만들자는 것이다. 애플리케이션에서 MDA(Model Driven Architecture)라는 개념이 있듯이 데이터 영역에서도 DDA(Design Driven Architecture)를 구현하자는 것이다. 데이터 모델 기반으로 DBMS에 테이블 구현을 자동하고 데이터 품질 관리체계와 원활하게 연계를 하여 데이터 값 품질관리를 하고, 데이터 흐름관리와 연계를 하 ETL의 품질을 높이며, 설계 시점에 전사적인 프로그램 영향도를 분석하여 전체 IT시스템의 품질을 높일 수 있도록 하자는 것이다.


세 번째는 이러한 모든 것들이 거버넌스 체계에 포함되어야 한다는 것이다. 연관되는 모든 요소들이 시스템화 되어야 하고 우리가 하는 모든 업무 절차가 프로세스를 통해서 통제가 되어야 한다는 것이다. 많은 프로젝트를 수행하면서 사람을 믿지 않는 버릇이 생겼다. 사람의 능력을 믿지 않는 것이 아니라 사람이때문에 많은 양데이터를 수작업으로 처리하다 실수가 필연적으로 발생할 수 밖에 없다는 것이다. 일정한 규칙을 가지고 수행하는 일은 시스템이 훨씬  잘 한다. 그렇기 때문에 시스템화하는 것이 필수적이고 이를 통제하는 프로세스가 내재화 되어 있어야 한다.


빅데이터 시대, 과거 정보계 시스템의 잘못된 전철을 밟지 않으려면 시스템을 구축할 때 데이터 품질 관리체를 함께 구축하는 것이 중요하다. 그것이 단순히 메타관리시스템을 도입하는 것이 아닌 데이터 아키텍처 기반의 설계 사상과 전사적인 정보시스템과의 연계를 고려했을 때 훨씬 더 기업에서 필요한 가치 있는 데이터를 분석할 수 있는 근간이 될 것이고 정보 시스템이 기업의 핵심 경쟁력으로 자리 잡을 수 있으리라 생각한.

 

 

Tag :

Leave Comments