비투엔 기술기고

[기고] 빅데이터와 차세대 데이터 웨어하우스 하편

알 수 없는 사용자 2017. 5. 10. 14:59




▶ 빅데이터와 차세대 데이터 웨어하우스(상) - 비즈니스 환경 변화와 DW의 적응 몸부림 

▶ 빅데이터와 차세대 데이터 웨어하우스 (하) - 하둡 기반의 DW 참조 아키텍처와 활용 사례 




지난 회에서 전통적인 데이터 웨어하우스의 모습과 국내외 환경 간의 차이점, 한계점에 대해 살펴 보았다. 이번 회에서는 다른 측면에서 변화하고 있는 오픈소스 진영의 기술과 이를 어떻게 활용할 수 있는지 한번 살펴 보자.

하둡은 구글의 검색 서비스와 관련되어 등장했다. 검색 서비스에서 발생된 데이터를 손쉽게 값싼 저장 매체에 분산/관리하기 위한 용도로 GFS(Google File System)라든가 맵리듀스 같은 이론이 발표됐고, 2004년에 더그 커팅이 Nutch(너치)에 DFS와 맵리듀스를 실제 적용하면서 하둡이 탄생했다고 볼 수 있다. 이렇게 분산 파일 시스템이 급속하게 발전했고, 2007년에 「뉴욕타임즈」가 4테라바이트의 이미지 데이터를 분산 파일 시스템에 저장하면서 값싼 대용량 저장 매체로써 눈길을 끌기 시작했다.





하지만 아직까지 이 분산 파일 시스템에 저장된 데이터를 효과적으로 분석하거나 활용하기에는 어려움이 많다. 대표적인 것 가운데 하나가 맵리듀스를 이용한 프로그래밍의 어려움이다. 이 프로그래밍 기법은 많은 사용자가 접근하는 데 장애물로 작용하고 있다. 지난 2008년에 페이스북이 하이브(Hive)를 론칭하면서 상황은 바뀌기 시작했다. 하둡 에코시스템에서 SQL을 지원하기 시작한 것이다. 하이브라든가 임팔라, 타조 같은 SQL 분석 엔진 기반의 오픈소스들이 발전하면서 배치 기반의 엔터프라이즈 DW 구성이 가능해지는 계기가 되었고, 스파크(Spark)와 같은 실시간 분석 처리 솔루션들이 나오면서 빅데이터 분야는 실시간 데이터 웨어하우스를 구축할 수 있을 만큼 비약적으로 발전하고 있다. 분산 파일 시스템은 배치 처리 중심에서 출발했던 것이 Transitory Platform이라든가 데이터 오프로딩, 데이터 아카이빙과 같은 기능을 제공하기 시작하면서 멀티 플랫폼 분석 환경의 엔터프라이즈 데이터 매니지먼트 허브로서 발전할 수 있었다. 그리고 그 계기가 된 것이 바로 SQL 기반의 분석이며, 그 중심에 있는 것이 바로 SQL on Hadoop이다.






 기존 DW의 한계점 극복 


SQL on Hadoop의 핵심은 SQL 표준을 지원해서 기존 시스템과 통합이나 대체가 용이하다는 점이다. 물론 아직까지 100%를 지원하는 것은 아니지만, 대부분의 분석 쿼리들을 SQL 기반으로 사용할 수 있다. 또 하나는 맵리듀스의 한계를 벗어난 새로운 분산처리 프레임워크라는 것이다. 저장된 대용량 데이터를 빠르게 분석하고, 롱타임 쿼리를 지원하는 DW와 쿼리를 처리할 수 있는 기능을 지원하고 있다. 다시 말해서 SQL on Hadoop은 SQL 분석을 지원하기 때문에 기존 RDBMS 사용자가 지금 당장이라도 자신이 사용하는 SQL을 기반으로 신속하게 빅데이터 환경에서 분석할 수 있게 됐다. 이로써 하둡은 기업 환경에 폭넓게 적용되면서 기존 DW의 한계점이나 문제점을 극복하게 할 것으로 기대를 모으고 있다.





TDWI의 한 조사를 따르면 현재 하둡을 사용하고 있거나 최근 3년 내에 사용할 것이라고 답한 기업이 전체에 73%에 달했다. HDFS가 DW 보완 기술로서 활용될 것이라고 예상하는 기업 역시 78%에 달했다. 하지만 국내에는 아직 상황이 다르다. 유지보수를 위한 기술력 축적 미흡이라든가 안정성에 대한 불확실성으로 인해 아직까지 확산 속도가 빠르지는 않다. 그 이유는 전 세계 기업에서 널리 사용되지만, 기술력 확보와 기술 적용이 어렵기 때문이다. 그렇지만 이런 문제들은 최근 많은 기술적인 발전에 따른 관련 도구들이 많이 개선되고 있음에 따라 극복해 나갈 것이라고 전망한다.





 DW 구축 비용의 30%로 구축 가능 


오픈소스 기술은 기존에 해결하지 못했던 DW의 여러 한계점을 빅데이터 환경에서 극복할 수 있게 할 것으로 전망된다. 그것이 가능할 것이라고 생각하는 이유 중 하나가 저렴한 구축비용이다. MapR 테크놀로지의 보고서를 따르면, 전통적인 DW를 구축하는 데 드는 1테라바이트당 비용의 50에서 100배 정도 저렴한 비용으로 동일한 환경의 하둡 클러스터를 구축할 수 있다고 한다. 이와 유사하게 국내 한 보고서를 따르면, 전통적인 DW를 구축하는 데 드는 비용의 30%로도 하둡환경의 동일한 시스템을 구축할 수 있다고 한다.

필자가 보기에는 미국의 조사는 비약이 있고, 30% 비용이면 될 것으로 생각한다. 저렴한 비용으로 대용량 데이터를 손쉽게 분석하고 기존의 DW의 한계점을 보완할 것이라는 것은 엄청난 장점일 수밖에 없다.





 하이브리드 DW 환경 


이런 장점 때문에 전통적인 DW를 버리고 하둡 환경으로 이전하는 것이 과연 정답일까? 꼭 그렇지는 않다. 기존 DW는 아직까지 주제 중심적인 접근에서는 빠른 성능을 보여준다. 연동성과 호환성도 뛰어나다. OLAP처럼 빈번하고 빠른 응답성을 요구하는 쿼리를 아주 효과적으로 전환하는 데도 장점이 있다.

마찬가지로 오픈소스는 급증하는 원천 데이터를 효과적으로 저장하는 데 장점이 있다. ANSI SQL을 지원하므로 상용 DBMS와의 호환성도 매우 우수하다. 더불어 뛰어난 선형 확장성을 가지고 있고, 비용 효율적인 확장 아키텍처라는 것도 오픈소스의 장점이다. 따라서 기존 DW의 장점과 오픈소스의 장점을 서로 유기적으로 결합한 하이브리드 형태로 가는 것이 차세대 데이터 웨어하우스의 방향이라고 할 수 있다.







<그림 6>은 차세대 DW 아키텍처 참조 모형이다. 다양한 데이터 소스에서 배치 또는 리얼타임으로 데이터를 수집하고, 데이터 시스템 영역에서 RDBMS 기반의 DW와 하둡 기반의 DW의 장점을 살려서 데이터를 저장?수집?분석?처리한다. 각각의 영역에서 데이터를 서로 교환하거나 과거의 대용량 데이터를 액티브 아카이브 데이터 스토어로써 활용할 수 마이닝과 함께 데이터 가상화와 데이터 페더레이션을 가미해 하나의 논리적인 싱글 뷰로 제공할 수 있다. 이렇게 유기적으로 관리/운영할 수 있도록 데이터 표준이나 프로세스, 가이드, 그리고 이의 바탕이 되는 데이터 리파지터리 메타 구조가 데이터 거버넌스를 중심으로 결합되어 유기적이고 안정적으로 운용?활용할 수 있는 플랫폼을 구축할 수 있다. 이런 참조 아키텍처 모형은 분석해야 할 다양한 데이터 영역에서 각각의 영역별로 필요한 기술을 선택/구성할 수 있다. 분석해야 할 데이터 영역은 크게 오퍼레이셔널 데이터에서 빅데이터까지, 분석 속도로 보면 랙타임에서 리얼타임까지 다양한 영역이 존재한다.




 분석 환경의 구축 사례 


각각의 데이터 분석 영역에서 필요한 기술력도 저마다 다르므로 분석 유형과 요구 성능 등에 따라서 적용 가능한 기술세트에 대한 취사 선택을 통해 유연하고 확장성 높은 아키텍처를 구현할 수 있다. 그럼 각각의 분석 영역별로 어떻게 활용될 수 있는지 사례별로 살펴 보자.






 액티브 아카이브 데이터 스토어 


과거의 원천 데이터, 테이프 디바이스, EDW에 저장된 장기간 보관 데이터에 대한 액티브 아카이브 데이터 스토어로써의 활용이다. 이는 가장 손쉽게 적용하고 빠르게 접근할 수 있는 사례다. EDW 또는 테이프 디바이스에 보관중인 대용량 장기간 보관 데이터에 대해 하둡 기반의 DW에 저장해 SQL on Hadoop 등을 통해 온라인 형태로 조회할 수 있다. 오프라인 스토리지가 아니라 온라인 스토리지기 때문에 가능한 일이다. 온라인 스토리지는 대용량 데이터 저장 비용 측면에서도 디스크 기반 스토리지에 비해 훨씬 경제적이다. 이렇게 구축할 수 있는 이유는 과거 데이터 자체가 조회 빈도라든가 조회 성능에 민감하지 않는 특성이 있기 때문이다.






 리얼타임 데이터 분석 


스트리밍 데이터나 클릭 스트림 데이터를 실시간 분석해 선제적 대응이나 예측이 가능한 경우다. 스트리밍 데이터 또는 실시간으로 수집되는 데이터에 대해 이벤트 베이스 또는 On-the-fly Processing으로 실시간 분석을 하고, 기준이 되는 패턴이나 메타 또는 룰이나 기준정보 등을 마트 영역에서 수집/처리할 수 있다. 분석된 데이터는 다시 정형 마트 또는 패턴 데이터 형태로 축적해 향후 이벤트를 감지하는 경험 데이터로 활용할 수 있다. 실제로 제조 공정에서 발생하는 공정 데이터의 불량률 감지에서도 이 형태를 적용할 수 있다.






 유니파이드 데이터 분석 


다양한 데이터 소스를 통합/분석해 Value Added Service의 확보가 가능하다 주제 중심의 마트 부분은 RDBMS 기반의 DW에서 처리하고, 비정형 데이터는 하둡에서 처리한다. EDW에 저장된 과거 데이터를 포함한 데이터의 일부분을 하둡으로 복제해 비정형 데이터와 함께 하둡과 SQL on Hadoop에서 처리/분석한다. 분석한 결과는 다시 마트에 적재해 분석 효율을 더 높일 수 있는 데이터 선순환 사이클을 확보할 수 있다.






 게임 업체에서 부정행위 분석 


실제 구축 사례를 한번 살펴 보자. 먼저 국내로서 엔씨소프트는 부정행위 유저 분석을 위한 하이브리드 시스템을 구축했다. 엔씨소프트는 기존의 게임로그 분석 데이터로 계정 도용이라든가 어뷰징 등의 해킹 피해에 대응하기 위해 분석 시스템을 구축했다. 처음에는 인포메티카 기반의 DW를 구축했지만, 하루에 발생되는 게임로그 데이터가 2~3테라바이트에 달했으므로 기존의 상용 DBMS에서 분석은 이미 한계에 이르렀다. 대용량 데이터를 원활하게 분석하기 위해 하이브리드 구조의 시스템이 필요했다. 이에 따라 정형 데이터는 인포메티카 기반의 DW에서, 다시 전체 데이터의 약 90%에 달하는 비정형 데이터와 게임로그 데이터는 하둡에 적재하는 하이브리드 시스템이다. 하이브나 R과 같은 하둡 에코 시스템을 통해 게임 로그 데이터를 분석해 계정 도용이나 어뷰징 등의 부정행위 또는 해킹 피해에 신속하게 대처할 수 있게 됐다.






 리얼타임 IoT 분석 시스템 


가스터빈에서 발생되는 데이터를 엔드 포인트로부터 실시간 수집?분석해 실시간으로 이상징후 또는 문제점에 대한 예측 분석을 토대로 최적화된 Automated Operational decision이 가능한 분석 시스템 구축이 가능하다. 고성능 압축 인덱스 기반의 실시간 분석 엔진을 기반으로 스트리밍 데이터에 대한 실시간 분석 처리를 수행하고, 그 결과를 데이터 시각화 도구로 시각화해 의사 결정에 도움을 줄 수 있다.






 인텔의 하이브리드 빅데이터 플랫폼 


인텔은 빅데이터 전문지식과 기술격차를 해소하고 자사의 역량을 강화시키기 위한 일환으로 하이브리드 기반의 빅데이터 분석 플랫폼을 구축하고 이를 통해 다양한 개념 증명 연구를 진행하고 있다. 두 개의 시스템을 고속 데이터 로더로 연결해 분석에 필요한 데이터를 하둡 인프라스트럭처에서 필터링한다. 이어서 MPP에서 분석된 대용량 데이터를 차후 분석을 위해 하둡에 저장했다가 일괄 분석하는 선순환 사이클의 하이브리드 데이터 플랫폼을 활용하고 있다.







 기업 경쟁력 강화를 위한 시도 


지금까지 전통적인 DW 아키텍처의 모습, 국내와는 다른 해외 데이터 처리?분석 환경, 변화에 따른 DW의 한계점과 이를 극복할 수 있는 여러 오픈소스 기술에 대해 살펴 보았다. 하이브리드 환경의 DW를 구축해 전통적인 DW의 한계점을 강점으로 바꾸고, 기업 경쟁력을 높일 수 있는 기반을 마련할 수 있다.





하이브리드 DW를 도입한다고 바로 경쟁력을 강화할 수 있는 것은 아니다. 시스템을 도입하기 전에 먼저 준비해 둘 사항들이 있다. 첫 번째는 참조 아키텍처의 정리다. 기업의 환경은 모두가 동일하지 않고, 갖고 있는 데이터 역시 같지 않다. 따라서 보유한 데이터의 유형을 먼저 정리하고, 향후 분석할 데이터의 유형에 따라 어떠한 기술세트가 필요한지를 파악하여 참조 아키텍처 유형을 정의해야 한다. 참조 아키텍처 유형에 따라 단계적으로 접근하는 프로세스를 밟아가야 한다.

두 번째는 데이터 품질 확보와 거버넌스 체계 확립이다. 단위 시스템별로 갖고 있는 데이터가 서로 다른 의미로 해석된다면, 통합 분석 환경에서 결국 왜곡된 정보로 표출될 수밖에?? 데이터 품질로 인해 잘못된 의사결정을 내리고 있다고 한다. 이로 인해 약 12%의 손실을 가져오는 것으로 나왔다. 따라서 단위 시스템의 품질도 중요하지만, 데이터를 통합/분석/활용할 수 있는 데이터 허브 환경에서는 데이터 품질이 더욱 중요한 요소다. 이를 체계적으로 운용/유지/활용할 수 있는 데이터 거버넌스의 체계야말로 기초가 되는 중요한 부분 중 하나다.

세 번째는 적절한 스태핑과 강력한 스폰서십이다. 부적절한 인력 배치가 기술력 응집에 저해가 되는 장애물이다. 따라서 적절한 인력 배치를 통해 기술력을 축적?확산할 수 있도록 스탭을 구성해야 한다. 더불어 이를 뒷받침할 수 있는 강력한 스폰서십이 장기간 구축/활용/운용돼야 하는 하이브리드 DW 환경에서는 매우 중요하다.

마지막으로 단계적인 접근이다. 한 번에 전체 시스템을 구축하려면 엄청난 리스크를 감수할 수밖에 없다. 이처럼 빠르게 발전하고 있는 하둡 에코 시스템 기반의 하이브리드 DW 시스템을 빅뱅 방식으로 구축할 때, 충분한 기술력을 확보/운용하지 못하면 설사 오픈한다 해도 정상적인 운용이 불가능할 수 있다. 이는 사용성 저하로 연결되면서 결국 불필요한 시스템으로 연결될 수 있다. 따라서 개별 BI 단위로 단계적인 구축을 통해 그 효과를 검증하고 이를 점차 확산해 전사적으로 통합할 수 있도록 하는 단계적인 접근이야말로 하이브리드 DW를 구축하기 위한 바람직한 접근 방안이다. <끝>


출처 : 한국데이터진흥원 데이터 전문가 지식포털 DBguide.net (원문글 바로가기)