비투엔 기술기고 87

[기고] 누군지는 잘 모르지만, 뭘 좋아하는 지는 가장 잘 아는 비식별고객 정보

들어가며 데이터를 다루는 직업을 가진 사람들에게 가장 친숙하면서도 중요한 데이터는 고객 데이터이다. 어느 산업이건, 어떤 업무영역이건 고객 데이터 없이 굴러가는 데가 흔치 않고, 대부분 유사한 모양새로 관리되며, 심지어 핵심 데이터 항목은 거의 동일한 형태로 관리되기 때문이다. 이렇게 고만고만해 보이는 고객 데이터도 시대의 흐름에 따라, 그 중요도나 위상, 관리 측면의 주요 이슈가 조금씩 변화해 왔다. 그 옛날 2000년대 초반에 참여했던 시스템 통합 프로젝트에서는, 고객영역은 MASTER성 데이터가 많아 이행 프로그램이 단순하다며 참여 구성원 중 가장 막내인 나에게 맡겼었다. 그 당시에는 데이터 정제를 위한 과감한 의사결정도 가능했고, 관련 이해관계자도 많지 않았는데 이는 당시 해당 기업의 특징도 있겠..

[기고] 클라우드에서 “엣지(Edge)”로

클라우드에서 “엣지(Edge)”로 4차 산업혁명에 접어들면서 인공지능(A.I), 5G와 더불어 "엣지(Edge)컴퓨팅"이 화두가 되고 있습니다. 다양한 산업 분야에서 인공지능을 기반으로 하는 서비스가 각광을 받고 있으며, 이러한 인공지능 서비스는 빅데이터를 기반으로 클라우드에 저장 및 분석하여 제공합니다. 서비스를 제공하는 단말기가 컴퓨터에만 국한 되었던 과거와는 달리 사물인터넷(이하IoT) 환경에 맞춰 스마트폰, 웨어러블, 스마트홈 기기, 제조기기 등 다양화 되면서 언제 어디서든 서비스를 활용하기에 클라우드 컴퓨팅 환경이 적합하기 때문이죠, 이러한 추세에 맞춰 다양한 CSP(Cloud Service Provider, MS Azure, AWS, Google, NDrive 등)에서 빅데이터 및 인공지능 관..

[기고] 사례로 보는 사물인터넷(IoT) 데이터 품질관리

1. 들어가며 최근 ‘빅데이터 분석’, ‘4차산업혁명’, ‘인공지능’ 등과 같은 단어가 사람의 입에 자주 오르내리고 있다. 과거 광산에서 금맥을 찾는 것처럼 수많은 데이터에서 가치있는 정보를 찾고자 무한경쟁을 하고 있다. [가치 있는 것을 찾는 방식의 변화] 최근 사물인터넷(IoT) 활용도 증가 등으로 인해 반도체 수요 증가하면서 관련 회사가 호황을 누리고 있다. 그러나 미래에는 설치된 수많은 기기에서 끝없이 쏟아져 들어오는 데이터가 전하는 정보를 분석하여 미래를 예측하고 대응방안을 도출하는 정보 분석 기업이 농업, 어업, 국방 등 각 분야에서 정상을 선점 할 것이다. 이번 시간에는 IoT기기 활용 사례와 데이터 분석에 앞서 입수되는 센서 데이터를 품질진단 시 고려해야 할 점은 무엇인지 살펴보고자 한다...

[기고] 데이터 프로파일링의 이해

들어가며 데이터 품질 사업을 수행하다 보면 다양한 데이터 오류를 접하게 된다. 한번은 전 국민이 이용하는 서비스에서 생각지도 못한 데이터 오류가 발견되어 데이터를 시급하게 수정해야 하는 웃지 못 할 일도 있었다. 그럴 때마다 고객은 오류를 찾아낸 그 방법을 묻곤 한다. 지금부터 설명할 데이터 프로파일링은 그 방법 중에 하나로, 업무적인 지식이 없는 경우에도 데이터 오류를 의심해 볼 수 있으며, 관심과 노력만 있다면 어렵지 않게 누구든 자신이 관리하는 데이터 오류를 의심해 보는 방법이다. 본문에서는 진단 SQL과 같은 기술적인 부분은 다루지 않고 데이터 프로파일링의 이해를 돕기 위한 간략한 설명만을 담고자 한다. 1.데이터 프로파일링이란 1-1. 정의범죄 수사기법인 프로파일링의 사전적 의미를 검색해 보면 ..

[기고] 4차 산업혁명 시대의 공공데이터 품질관리

4차 산업혁명 시대에 '데이터'의 가치가 조명을 받고 있다. 4차 산업혁명은 인공지능(AI), 사물인터넷, 빅데이터, 모바일 등 첨단 정보통신기술이 경제·사회 전반에 융합되어 혁신적이 변화가 나타나는 시대로 사람, 사물, 공간이 네트워크로 연결돼 하나의 통합 시스템으로 구축된다 데이터는 인공지능(AI), 빅데이터, 클라우드 등 4차 산업혁명의 주요 기술을 움직이는 동력이며, 얼마나 많은 데이터를 보유·분석하느냐가 4차 산업혁명 시대에 국가와 기업의 경쟁력을 좌우 한다고 볼 수 있다. [그림1] 4차 산업혁명의 데이터의 역할 _ 출처: 미래창조과학 블로그 공공데이터란 공공기관이 생성하거나 관리하고 있는 자료 또는 정보로써, 기관이 업무를 수행하며 만들어낸 다양한 형태(텍스트, 수치, 이미지, 동영상, 오디..

[기고] 고객 데이터 모델 사례

고객 데이터 모델 이슈 고객 데이터는 거의 모든 조직에서 관리하고 있으며, 조직의 특성에 따라 대상과 범위가 다르고 관리하는 항목이 다를 수 있으나, 가장 중요하게 관리하는 데이터임은 분명하다. 국립국어원의 표준국어대사전은 고객을 "상점 따위에 물건을 사러 오는 손님"으로, 위키백과는 "고객(顧客)은 경제에서 창출된 재화와 용역을 구매하는 개인이나 가구를 일컫는다."로 정의했다. 어떤 기업에서는 상품/서비스 등을 직접 구입/계약한 고객뿐 아니라 구매 의사가 있는 고객도 대상으로 포함하는 등 고객의 개념과 대상을 기업마다 다르게 정의하고 있다. 조직에서 관리하는 고객 데이터는 고유/특성(나이,성별), 주소/연락처, 학력/경력, 재산/신용, 고객관계, 고객접촉 신용/마케팅정보활용 등 다양하다[그림1]. [그..

[기고] 엑사데이터 설계

엑사데이터에 대한 이해 엑사데이터(Exadata)의 특징으로 스마트스캔(Smart Scan), 인피니밴드 네트워크(InfiniBand Network), 스토리지인덱스(Storage Index), 셀 오프로딩(Cell Offloading), 플래시캐시(Flash Cache), HCC압축(Hybrid Columnar Compression) 기술을 들 수 있다. 자세한 기술 내용은 "[Oracle Exadata] 핵심 기술요소 Summary 1~4" 참고 스토리지 인덱스(Storage Index) : 데이터가 인덱스 범위에 속하지 않을 경우 해당 블록을 스캔하지 않도록 컬럼의 Min/Max 값을 Map 형태로 관리하여 Disk I/O를 줄임 셀오프로딩(Cell Offloading) : 기존 DB 서버에서 처리..

[기고] Project는 나만의 Career Path

개인이 직업을 선택하고 그 직업에서 얻게 되는 직무경험의 배열을 커리어패스라고 말한다. 이 커리어패스는 개인의 과거를 설명함과 동시에 개인의 미래를 의미하기도 한다. 특정한 보직을 반복적이거나 장기간을 맡으면서 특정 분야의 전문가로 인식되기도 한다. 커리어패스는 과업을 마치고 또 다른 과업의 멤버로 투입될 때 또는 새로운 직장을 구할 때 참고하게 되며, 조직과 해당 과업에 도움이 될 수 있는 경험을 보유하고 있는지를 판단하기 위한 중요한 자료로 사용된다. 이러한 이유로 많은 사람들은 좋은 커리어패스를 갖기 위하여 중요한 업무를 담당하려고 노력을 하며, 이러한 업무를 수행하는 자리를 얻지 못할 경우 과감하게 조직을 떠나는 경우도 발생한다. 커리어패스에 도움이 되는 업무 담당자가 되기 위한 방법은 어떤 것이..

[기고] EDW Keynote Speech

"The Transformation To Data-Driven Business Starts Here."비즈니스 데이터 기반을 위한 전환이 여기에서 시작됩니다. Enterprise Data World(이하 EDW)는 Dataversity(www.dataversity.net)에서 주최하는 데이터 관리 교육 컨퍼런스이다. 매년 다른 도시에서 개최되며 올 해는 2017년 4월, 미국 아틀란타에서 6일동안 진행되었다. EDW 2017은 데이터와 관련된 다양한 20여가지의 기술을 주제로 매일 10~20여개의 세션이 진행되었다. 특히 이번 2017 EDW는 NoSQL, Governance and Stewardship, Data and Information Quality 등을 주제로 한 세션의 비중이 많았다. [그림1..

[기고] Data Warehouse Vs. Data Lake

전 세계 데이터 관련 컨설팅 회사 및 저명 인사들이 한 자리에 모이는 Enterprise Data World(이하 EDW) 컨퍼런스. 2017 EDW에서 가장 많이 많이 다뤄졌던 주제 중 하나는 '데이터 레이크'였다. 지금부터 EDW의 The Components of Data Lake Architecture 세션 내용을 기반으로 '데이터 웨어하우스'와 '데이터 레이크'에 대한 차이 분석을 통해 데이터 레이크의 개념 정리와 효율적인 활용 측면에서 하이브리드 데이터 웨어하우스를 이야기 해보고자 한다. 기업의 정보시스템을 분류해보면 크게 그 기업을 영위하기 위한 거래 / 매출, 비용의 발생 및 처리 정보같은 기간 정보를 관리하는 기간계(계정계) / 그러한 기간 업무를 지원하는 홈페이지 / 콜센터와 같은 채널계..