빅 데이터란 무엇인가?

Feb 20, 2017 -- Posted by : admin

얼마 전 빅데이터는 무엇인가에 대해 자료를 찾아보던 중 blrunner님의 블로그에서 좋은 자료를 찾을 수 있었습니다. 

빅 데이터의 시대

빅 데이터라는 용어는 처음 들었지만, 빅 데이터는 이미 오래 전부터 우리의 곁에 있었습니다. 얼마 전 모 멤버쉽카드의 회원수가 1천만을 돌파했다는 뉴스가 나왔습니다. 이 멤버쉽 카드로 다양한 할인과 적립혜택을 받을 수 있으며, 그 중 위치에 기반한 서비스도 포함이 됩니다. 예를 들어 고객이 신촌역이 있을 경우, 신촌 역 반경 몇 M내에서 멤버쉽 카드를 이용해 혜택을 받을 수 있는 정보가 스마트폰에 노출됩니다. 위치 기반 서비스 외에도 고객이 멤버쉽 카드를 사용하는 성향에 따라서 다양한 쿠폰이 고객에게 배송됩니다. 1천만 회원이라면 전 국민의 1/4이 이 카드를 소지하고 있는 것인데, 어떻게 이러한 서비스가 가능할까요? 최근 유행하고 있는 소셜커머스의 경우도 사용자의 위치에 기반해 할인 업체를 제공하고, 또 사용자가 구매 패턴과 위치에 기반해 다양한 상품 추천 서비스를 제공하고 있습니다.

구글의 크롬 브라우저를 사용하고 계시다면, 한 번쯤은 실시간 자동 번역 서비스를 이용해보셨을 것입니다. 지난 40여년 동안 과학자들은 컴퓨터가 명사, 형용사, 동사 등 단어와 문법적 구조를 인식하여 번역하는 방식으로 자동 번역 프로그램 개발을 시도해왔습니다. 이에 반해 구글과 IBM은 문서와 번역문을 데이터베이스화하여서, 유사한 문장과 어구를 데이터베이스에서 추론해나가는 통계적 기법을 이용해 개발을 시도하였습니다. IBM은 캐나다 의회의 수백만 건의 문서를 활용하여 영어-불어 자동번역 시스템을 시도하였으나 실패로 끝났고, 구글은 수억건의 문서를 활용하여 전 세계 65개 언어의 자동 번역 프로그램을 성공하였습니다. 바로 ‘수백만 건’과 ‘수억 건’이라는 데이터의 차이가 두 기업의 자동 번역 프로그램의 번역 품질과 정확도, 서비스의 성패를 좌우한 것입니다.

1) 빅 데이터의 출현 배경

우리는 데이터 폭증의 시대에 살고 있습니다. 최근 2년간 생상된 데이터가 인류가 지금까지 생산한 데이터보다 양이 많다고 합니다. 스마트폰과 같은 디지털 기기의 보급과 소셜네트워크서비스(SNS)의 부상으로 엄청난 양의 데이터가 생산되고 있습니다. 특히 페이스북과 트위터와 같은 SNS의 성장과 스마트 폰과 같은 모바일 기기의 확산이 결합되면서 급격하게 데이터가 증가되고 있습니다. 2011년 5월 맥킨지에서 발표한 자료에 의하면 매달 300억개의 컨텐츠가 페이스북에서 공유되며, 전세계 데이터는 매년 40%씩 증가하고 있습니다.

스토리지 전문기업인 EMC가 발표한 자료에 따르면, 2011년에 전 세계에서 생성된 디지털 데이터의 양은 1.8 제타바이트(ZB)에 이릅니다. 1.8 ZB는 약 1조 8천억 기가바이트(GB)에 해당 하는 수치입니다. 이는 우리나라 전 국민이 18만년 동안 쉬지 않고, 1분마다 트위터 글을 3개씩 게시하는 것이나 마찬가지 입니다. 또한 2시간이 넘는 HD 영화 2000억편을 한 사람이 쉬지 않고 4천700만년 동안 시청할 분량에 해당합니다. 이를 32GB 아이패드에 저장할 경우에는 575억개의 아이패드가 필요하고, 이는 서울 면적의 2.1배에 해당하는 수량입니다. 이러한 데이터는 앞으로도 매년 2배 이상씩 증가할 것이라고 예상되고 있습니다.

이제 빅 데이터는 기업 뿐만 아니라 국가 차원에서도 이슈가 되고 있습니다. 지난 3월 미국 백악관은 국가 차원의 빅 데이터 R&D 추진안을 발표하였습니다. 대통령 직속 기관인 과학기술정책국(OSTP)이 중심으로 추진하며, 미 정부 산하 6개 기관이 대용량 디지털 데이터 저장 및 분석과 관련해 총 2억 달러를 투자하기로 하였습니다. 또한 백악관은 이 기술을 통해 과학 및 엔지니어링 분야의 발전을 촉진하는 한편 국가 안보 및 교육도 증진할 수 있을 것으로 기대한다고 밝혔습니다. 일본의 경우도 총무성과 국가전략회의를 중심으로 빅 데이터 R&D를 추진하고 있습니다. 우리 나라도 빅 데이터에 중요성을 인식하고, 각 정부 산하 조직에서 빅 데이터 R&D 추진을 진행하고 있습니다.

2) 빅 데이터의 개념

빅 데이터가 과연 무엇이길래 이렇게 화두가 되고 있는 걸까요? 문자 그대로 사이즈가 큰 데이터를 빅 데이터라고 하는 걸까요? 사실 지금까지 빅 데이터의 정의에 대해서 명확하게 합의가 된 적은 없었습니다. 세계적인 컨설팅 기관인 맥킨지와 IDC에서는 다음과 같이 빅 데이터를 정의하였습니다.

*  데이터의 규모에 초첨을 맞춘 정의
기존 데이터 베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터 – 맥킨지 2011년 6월

*  업무 수행 방식에 초점을 맞춘 정의
다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 – IDC 2010년 4월

위 두 가지 정의만으로는 빅 데이터를 이해하기에 부족한 감이 있습니다. 빅 데이터의 개념을 정확히 이해하기 위해서는, 반드시 빅 데이터의 3대 요소(3V)를 이해하고 있어야 합니다. 그림 1.1은 BI/DW 리서치 기관인 TDWI가 정의한 빅 데이터의 3대 요소를 나타낸 그림입니다.

 


[그림1.1] 빅 데이터 3대 요소

빅 데이터의 3대 요소(3V)란 크기(Volume), 속도(Velocity), 다양성(Variety)를 의미하며, 각 요소는 다음과 같이 특징을 가지고 있습니다.

*  크기(Volume)

비즈니스 특성에 따라서 다를 수 있지만, 일반적으로 수십 테라 혹은 수십 페타 바이트 이상이 빅 데이터의 범위에 해당합니다. 이러한 빅 데이터는 기존 파일 시스템에 저장하기 어려울 뿐만 아니라, 데이터 분석을 위해서 사용하는 BI/DW 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터 양이 증가하고 있습니다. 이러한 문제를 극복하기 위해서는 확장 가능한 방식으로 데이터를 저장하고, 분석하는 분산 컴퓨팅 기법으로 접근해야 합니다. 현재 분산 컴퓨팅 솔루션에는 구글의 GFS, 아파치의 하둡, 대용량 병렬 처리 데이터 베이스로는 EMC의 GreenPlum, HP의 Vertica, IBM의 Netezza, 테라데이터의 Kickfire 등이 있습니다

*  속도(Velocity)

빅 데이터의 속도적인 특징은 크게 실시간 처리와 장기적인 접근으로 나눌 수가 있습니다. 우리는 매일 매 순간 데이터를 생산하고 있습니다. 교통카드로 지하철과 버스를 이용할 때도 교통비와 탑승위치를 남기고, 금융 거래를 할 때도 금융 기관의 데이터 베이스에 데이터를 만들게 됩니다. 인터넷 검색을 할 때도 모든 검색어가 저장이 되고, 쇼핑몰이나 포털 사이트 같은 곳을 이용할 때도 우리가 클릭한 이력이 모두 저장됩니다. 스마트폰에서 SNS나 지도 같은 앱을 이용할 때도 우리의 위치 정보를 남기게 됩니다. 이와 같이 오늘날 디지털 데이터는 매우 빠른 속도로 생성이 되기 때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리되어야 합니다. 예를 들어 게임의 채팅창에서 누군가 불건전한 내용을 입력할 경우, 시스템에서 이러한 문구를 바로 분석해서 다른 사용자에게 피해가 없도록 조치를 해야 합니다. 또한 온라인 쇼핑몰에서 고객이 책을 주문할 경우, 주문한 책과 유사한 장르나 비슷한 성향의 고객이 구입한 책을 추천 한다면 매출을 늘리는데 도움이 될 것입니다. 물론 모든 데이터가 실시간 처리만을 요구한 것은 아닙니다. 수집된 대량의 데이터를 다양한 분석 기법과 표현 기술로 분석을 해야 하는데, 이는 장기적이고 전략적인 차원에서 접근할 필요가 있습니다. 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연어 처리, 패턴 인식 등이 분석 기법에 해당합니다. 

* 다양성(Variety)

다양한 종류의 데이터들이 빅 데이터를 구성하고 있습니다. 데이터의 정형화의 종류에 따라서 정형(Structured), 반정형(Semi-Structured), 비정형(Unstructed)로 나눌 수 있습니다. 정형 데이터는 문자 그대로 정형화된 데이터로, 고정된 필드에 저장되는 데이터를 의미합니다. 예를 들어 우리가 온라인 쇼핑몰에서 제품을 주문할 때 이름, 주소, 연락처, 배송주소, 결제정보 등을 입력한 후 주문을 하면 데이터 베이스에 미리 생성되어 있는 테이블에 저장됩니다. 이때 테이블은 고정된 필드들로 구성이 되는데, 이렇게 일정한 형식을 갖추고 저장되는 데이터를 정형 데이터라고 합니다. 정형 데이터는 기존의 솔루션을 이용하여 비교적 쉽게 보관, 분석, 처리 작업을 진행할 수 있습니다. 반정형 데이터는 고정된 필드로 저장되어 있지는 않지만, XML이나 HTML같이 메타 데이터나 스키마 등을 포함하는 데이터를 의미합니다. 비정형 데이터란 고정된 필드에 저장되어 있지 않은 데이터를 의미합니다. 유투부에서 업로드하는 동영상 데이터, SNS나 블로그에서 저장하는 사진과 오디오 데이터, 메신저로 주고 받은 대화 내용, 스마트폰에서 기록되는 위치 정보, 유무선 전화기에서 발생하는 통화 내용 등 다양한 비정형 데이터가 존재합니다. 빅 데이터는 이러한 비정형 데이터도 처리할 수 있는 능력을 갖추어야 합니다.

3대 요소(3V) 가운데 두 가지 이상의 요소만 충족한다면 빅 데이터라고 볼 수 있습니다. 예를 들어 화장품 쇼핑몰에서 사용자가 클릭하는 로그가 하루에 200기가씩 쌓인다고 가정합니다. 기존에 이 로그 파일을 분석하는데 1시간이 소요된 것을, 하둡과 같은 솔루션으로 수초 내에 분석을 끝낼 수 있다면 회사에 더 많은 가치를 만들어 낼 수 있습니다. 이러한 경우 데이터의 크기는 조금 부족하지만, 속도와 다양성은 빅 데이터에 부합니다.

2) 왜 하둡인가?

빅 데이터에 대한 신문 기사와 기술 보고서를 보면, 하둡이 꼭 함께 소개되고 있습니다. 또한 IT에 몸 담고 있는 사람들은 대부분 빅 데이터하면 하둡을 떠오를 정도로 자리 잡게 되었습니다. 하둡은 대규모 데이터의 분산 처리를 위한 오픈 소스 프레임워크입니다. 하둡은 오픈 소스 검색 엔진인 루씬(Luecene)의 창시자인 더그 커팅이 개발한 오프 소스 프로젝트이며, 구글이 논문을 통해 발표한 GFS(Google File System)와  MapReduce를 기반으로 진행됐습니다. 하둡의 핵심은 데이터 저장과 처리입니다. 하둡은 여러 개의 서버를 마치 하나의 서버처럼 묶어서 데이터를 저장하고, 처리할 수 있게 해줍니다. HDFS(Hadoop Distributed File System)를 통해 분산 저장하고, MapReduce(맵리듀스)를 통해 분산 저장된 데이터를 분산 처리하게 됩니다.

그렇다면 왜 하둡이 빅 데이터에서 가장 주목 받게 된 것일까요? 앞서 빅 데이터를 소개할 때 말씀 드렸듯이, 현대는 엄청나게 많은 다양한 종류의 데이터가 쏟아져 나오고 있습니다. 정형 데이터의 경우 기존 RDBMS에 저장할 수 있지만, 웹 로그 같은 비정형 데이터를 RDBMS에 저장하기에는 데이터 사이즈가 너무 큽니다. 상용 RDBMS가 설치되는 장비는 대부분 고가의 장비를 사용하게 되는데, 데이터를 감당하기 위해 언제까지 스토리지를 늘릴 수도 없기 때문입니다. 또한 어렵게 데이터를 저장한다 하더라도, 기존 BI 솔루션으로는 비정형 데이터를 분석해 내기가 어렵습니다.

하둡은 우선 오픈 소스이기에 소프트웨어 라이센 비용에 대한 부담도 없습니다. 시스템 운영이나 DB에 조금이라도 관련되신 분이라면, 상용 RDBMS의 라이센스 비용이 얼마나 큰지 아실 것입니다. 또한 값비싼 유닉스 장비를 사용하지 않고, x86 CPU에 리눅스 서버면 얼마든지 설치하고 운영할 수 있습니다. 데이터 저장 용량이 부족할 경우, 필요한 만큼 리눅스 서버만 추가해주면 됩니다. 또한 하둡은 데이터의 복제본을 저장하기 때문에 데이터의 유실이나 장애도 방지할 수가 있습니다.

그리고 기존 RDBMS는 데이터가 저장된 서버에서 데이터를 처리하는 방식이지만, 하둡은 여러 대의 서버에 데이터를 저장하고, 데이터가 저장된 각 각의 서버에서 동시에 데이터를 처리하는 방식입니다. 이러한 분산 컴퓨팅 방식을 통해 하둡은 기존에 데이터 분석 방식으로는 상상도 못했던 성과를 보여 주었습니다. 2008년 뉴욕 타임즈는 130년 분량의 신문 기사 1100만 페이지를 아마존 EC2, S2, 하둡을 이용해 하루만에 PDF로 변환하는데 성공했습니다. 이때 소요된 비용은 200만원에 불과했습니다. 이 변환 작업은 그 당시 일반 서버로 진행할 경우, 약 14년이 소요되는 엄청난 작업량이었습니다.

하둡의 저렴한 구축 비용과 비용 대비 빠른 데이터 처리, 그리고 장애를 대비한 특성은 많은 기업들의 구미를 당기게 했습니다. 하둡은 초기에 야후에서만 주도적으로 사용됐지만, 현재는 아마존, 이베이, 페이스북, 마이스페이스 등 글로벌 서비스 업체들에서 주로 이용하고 있으며, 국내에서는 NHN, DAUM과 같은 포털 기업과 KT, SKT 같은 기관통신사업체에서 사용되고 있습니다. 참고로 현재 야후에서는 약 5만 대, 페이스북에서는 1만대 이상의 하둡 클러스터를 이용하고 있습니다.
 
작년 7월 세계적인 DW 업체인 테라데이타(Teradata)의 댄 그레험(Dan Graham) 엔터프라이즈 시스템 총괄 매니저는 하둡은 철광석이고, 테라데이타는 이를 가공하는 제철소라고 밝혔습니다. 하둡이라는 철광석을 철강으로 만들기 위해서 많은 글로벌 기업들이 빅 데이터 시장이 띄어 들고 있습니다. EMC, IBM, 테라데이타, 오라클, 델, 마이크로소프트, HP 등은 지난 해부터 하둡과 관련된 제품들을 쏟아내고, 마케팅을 강화하고 있습니다. 또한 미국에서는 클라우드데라, 호튼웍스와 같은 하둡 컨설팅 업체들이 활발히 활동하고 있으며, 국내에서는 넥스알, 그루터, 클라우다인 같은 기업들이 하둡과 연계한 자체 솔루션을 선보이고 있습니다.



출처: http://blrunner.com/12 [BLRUNNER.COM]

블로그

빅 데이터란 무엇인가?

빅데이터란 무엇인가에 대한 블로그

기계학습이란?

기계학습에 대한 유형/알고리즘의 종류 포함

스파크를 이용해야 하는 5가지 이유

아파치 스파크(Apache Spark)는 하둡 기반의 고급 실시간 분석이 용이하도록 도와주면서 빅데이터의 차세대 '빅씽(Big…

 

 

 

© 2017 IMGURU, Inc. All rights reserved.

 
서울특별시 금천구 가산디지털 1로 128 STX-V 타워 502호
우편번호 : 08507  |  전화번호 : 070-4099-2022  |  이메일 : imguru@imgr.co.kr