■ 정의
기존 데이터베이스 관리도구의 데이터 수집˙저장˙관리˙분석의 역략을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미. 다양한 종류의 대규모 데이터의 생성˙수집˙분석˙표현을 그 특징으로 하는 빅 데이터 기술의 발전은, 다변화된 현대 사회를 보다 정확하게 예측하여 효율적으로 작동케 하고, 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공˙관리˙분석 가능케 하며, 과거에는 불가능 했던 기술을 실현시키기도 한다. 이같이 빅 데이터는 정치˙사회˙경제˙문화˙과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공하며, 세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술에 선정하였으며, 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정하는 등, 최근 세계는 빅 데이터를 조목하고 있다.
■ 개념
기존 빅 데이터의 개념은 단순히 데이터의 양이 많은 것을 의미했다면, 최근의 일반적인 빅 데이터의 개념은 기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장,검색,분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터세트를 의미한다.
■ 출현 배경
기존 소셜 네트워크 서비스로 대표되는 소셜 미디어의 성장과, 최근 스마트 폰으로 대변되는 모바일 장치의 확산이 결합되어, 일상 속에서 다양한 종류의 대규모 데이터가 급속히 생성, 유통, 저장되고 있다. 또한 RFID와 같이 정보를 감지하는 센서 장비의 이용 확대와 이러한 정보를 수집하는 클라우드 컴퓨팅 기술의 확산은, 물류의 이동 및 재고의 변화뿐만이 아닌 개별 소비자들의 개인정보 및 소비행태와 같은 모든 일상에 대한 디지털 기록을 가능케 하고 있다. 기업 및 사회는 이러한 수집된 데이터를 기반으로 예측 분석을 하기 위하여, 다양한 종류의 대규모 데이터 치리, 분석 및 활용 기술을 필요로 하고 있다. 대량의 다양한 데이터 생산기술의 진보와, 이에 필요한 데이터 저장˙관리˙분석 기술의 발전 속에서 빅 데이터가 출현하게 되었다.
■ 특징
빅 데이터는 TB(테라바이트)단위의 데이터량으로 정의되거나 데이터 수집 및 분석에 장기적인 시간을 요하므로, 데이터 양의 증가를 그 특징으로 하는 것이 명확해 보인다. 그러나 단순히 데이터 양의 증가를 넘어서서, 빅데이터는 크게 데이터 양(Volume), 데이터 속도(Velocity), 그리고 데이터 다양성(Variety) 등 세가지 요소의 복합적인 변화를 그 특징으로 한다.
- 데이터 양(Volume) : 단순 저장되는 물리적 데이터 양의 증가 뿐만이 아닌, 이를 분석 및 처리하는 데 어려움이 따르는 네트워크 데이터의 급속한 증가는 빅 데이터의 가장 기본적인 특징
- 데이터 속도(Velocity) : 데이터의 실시간 처리 및 장기적 접근을 요구한다. 데이터 생산 및 유통, 수집 및 분석 속도의 증가와 이에 대한 실시간 처리 및 장기간에 걸쳐 데이터를 수집˙분석하는 장기적 접근이 빅 데이터의 속도적 특성
- 데이터 다양성(Variety) : 기존 예측 분석에서의 데이터 분석은 기업 내부에서 발생하는 운영 데이터인 ERP(전사적 자원 관리), SCM(공급망 관리), MES(생산 지원 시스템), CRM(고객 관계 관리) 등의 시스템에 저장되어 있으며 잘 정제되어 있고 의미도 명확한 RDBMS(관계형 데이터베이스)기반의 정형 데이터를 통해 이뤄졌다. 최근 빅 데이터를 이용한 데이터 분석은 고정된 시스템에 저장되어 있지 않은 XML, HTML 등과 같이 데이터베이스 스키마를 포함하는 반정형 데이터를 이용한 분석 뿐만이 아닌, 사진˙오디오˙비디오 형식의 소셜 미디어 테이터나 로그파일(Database log) 같이 비정형 데이터도 처리할 수 있는 능력을 요구한다. 즉 빅 데이터의 성장이란 단순히 데이터의 양이 증가하는 것을 넘어서서, 다양한 형태의 데이터 양이 증가하는 것을 의미
■ 빅 데이터 분석 기술
- Text Mining : 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술
- 평판 분석(Opinion mining) : 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별하는 기술
- 소셜 네트워크 분석(Social Network Analysis) : 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하는 기술
- 군집 분석(Cluster Analysis) : 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군을 발굴하는데 사용
* 대규모의 정형/비정형 데이터를 처리하는 데 있어 가장 기본적인 분석 인프라로 Hadoop(하둡)이 있으며, 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 한다.
■ 활용사례
2008년 미국 대통령 선거
대한민국 제 19대 총선
아마존탓컴의 추천 상품 표시
구글 및 페이스북의 맞춤형 광고
MLB의 머니볼 이론 및 데이터 야구
구글 번역
생물정보학
의료
■ 앞으로의 미래
2020년에 10억개의 스마트 디바이스가 사용될 것으로 예측된다. 그 스마트 기기에서 사용자가 생산하는 데이터의 양은 상상도 못할 수준의 크기일 것이다. 이러한 데이터를 어떻게 수집˙분석˙처리 할 것인지에 대한 고민과, 이러한 데이터를 어떠한 방식으로 얻어 비즈니스에 활용할 것인가는 고민해봐야 할 사항이다. 또한 어떠한 서비스의 플랫폼을 구축할 것인지도 연관지어 고민해 봐야 할 사항인거 같다.
개인이 생산하는 정보의 양이 커질수록 저작권 및 개인정보보호에 대한 법적인 보호도 강화되어야 하지 않을까 싶다.
* 자료출처 : 위키백과 - 빅 데이터(http://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0)