BigData

BigData를 정리 합니다.

BigData 개요

빅데이터의 정의

기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 처리, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터의 집합

초점	정의
데이터 규모 (맥킨지, 2011.5)	기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터
업무 수행 방식 (IDC, 2011.6)	다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

빅데이터의 3대 요소(3V)

BigData는 크기(Volume)가 크고 변화(Velocity)의 속도가 빠르며 데이터의 속성이 다양(Variety)한 데이터를 입니다. BigData의 핵심 기술은 대규모 저장 시스템과 효과적인 데이터 처리 기술 입니다. 3대 요소 가운데 두가지 이상의 요소만 충족하면 빅데이터라고 볼 수 있습니다. 비즈니스 측면에서는 3V에 Value를 추가하여 4V를 사용 합니다.

Volume (데이터의 규모)	대규모의 데이터 (100 TB 이상의 데이터) kB (10^3, 2^10, KiloByte), MB (10^6, 2^20, MegaByte), GB (10^9, 2^30, GigaByte) TB (10^12, 2^40, TeraByte), PB (10^15, 2^50, PetaByte), EB (10^18, 2^60, ExaByte) ZB (10^21, 2^70, ZettaByte), YB (10^14, 2^80, YottaByte) 메모리 기반 분석, 분산 컴퓨팅 Collective intelligence (집단 지성)
Variety (데이터의 다양성)	데이터 소스의 수와 종류의 다양성 정형 데이터, 반정형 데이터, 비정형 데이터 Crowd sourcing (클라우드 소싱)
Velocity (데이터의 속도)	데이터의 짧은 변경 주기 실시간 또는 스트리밍 처리, 배치 처리 CEP (Complex Event Processing) Machine learning (기계 학습)
Value (데이터의 가치)	기업이 원하는 비즈니스의 목표에 부합되는 가치를 제공 (새로운 가치) 빅데이터 분석 방법론

BigData 관련 표준화 동향

ISO/IEC JTC 1/SC32 : 데이터 관리 및 교환 (데이터 표현)
ISO/IEC JTC 1/SC23 : 정보 교환 및 저장 (데이터 압축 및 저장)
ISO/IEC JTC 1/SC27 : 보안
ISO/IEC JTC 1/SC29 WG11 (MPEG) : 정규화 및 자연어 처리
ISO/IEC JTC 1/SC7 (ISO/IEC 25012) : 소스트웨어와 시스템 공학 기술
ITU-T SG13 : 클라우드 기반의 빅데이터 분석
ITU-T SG16 : 멀티미디어 빅데이터
ITU-T SG17 : 사생활 보호
W3C BigData CG : 빅데이터 처리를 위한 표준 구조, 프로그램 API
ODCA (Open Data Center Alliance) : 데이터 수집/관리/분석 표준, BI와 상호 운영성 표준
ODI (Open Data Institute) : 공공 데이터 공유 및 개방

빅데이터 증가 현황

2012년 생성된 디지털 정보량은 2.8ZB, 2년마다 2배씩 증가해 2020년 40ZB(IDC, 2011)
2010년 ~ 2015년 모바일 연평균 92%, 인터넷은 연평균 34% 트래픽 증가 (Cisco, 2011)
SNS, Mobile, M2M의 급속한 성장

SNS	트위터 : 2억 사용자 / 5억 가입자, 매년 3.4억건의 메시지 페이스북 : 10억 가입자, 매일 5억건 이상의 Linkes
Mobile	SKT : 하루 트래픽 1PB (1024TB) 2017년 대한민국 5.4EB 모바일 트래픽 (2012년 대비 11배 성장) 2017년 100억 기기 / 76억 인구 2017년 모바일 데이터 트래픽 134EX (1억 3400만 TB), 연평균 성장률 66%
디지털 정보량	2012년 생성된 디지털 정보량은 2.8ZB, 2년마다 2배씩 증가해 2020년 40ZB (IDC) 2011년 : 1.8 ZB (18억 TB) 2012년 : 2.8 ZB 2020년 : 40.0 ZB GB -> TB -> PB -> EB -> ZB -> YB
데이터 생성 속도	전세계 데이터의 90%가 최근 2년 안에 생성 기업 데이터량은 10개 중 9개 기업에서 급속히 증가, 16% 기업은 매년 50% 이상의 증가율을 경험

국내 디지털 데이터량 (IDC & 한국EMC)

2006 : 2.891 페타바이트
2007 : 4,401 페타바이트
2008 : 7,218 페타바이트
2009 : 12,105 페타바이트
2010 : 18,415 페타바이트
2011 : 27,237 페타바이드 (27 엑사바이트) 예상 (연평균 56.6% 증가)

BigData 2.0 개요

빅데이터 1.0이 BigData를 수집하고 이해하고 이를 활용하는 단계라면 빅데이터 2.0은 기업의 의사결정 과정에 BigData를 적극적으로 통합하는 단계 입니다. 다시 말하면 비즈니스의 목표를 달성하기 위해서 적극적인 방식으로 BigData를 활동하는 단계 입니다.

BigData 2.0의 3대 요소

고객의 행동을 형성 (Shaping customer behavior)	BigData 1.0이 빅데이터로부터 정보를 추출하여 고객의 행동을 예측 하여다면, BigData 2.0은 기업의 통제 가능한 전략 수단이 고객의 행동에 미치는 영향을 분석하여 적극적으로 고객의 행동을 통제 합니다. 고객 행동에 거꾸로 영향을 미치게 합니다.
새로운 제품이나 서비스의 생성 (Creation of new product or service)	BigData 1.0이 기존의 영업과 마케팅 등의 효율성을 강화 하였다면, BigData 2.0은 빅데이터 분석을 통해 부가적으로 추출한 정보를 활용하여 추가적인 영업기회(신상품/서비스 창출)를 발굴 합니다. 분석 결과를 토대로 신상품과 서비스를 개발 합니다.
데이터 생태계 확장 (Ecosystem view of data)	BigData 1.0이 기업이 보유/수집한 빅데이터를 분석 하였다면, BigData 2.0은 생태계와 같이 분석 대상이 되는 빅데이터의 범위를 확장/결합하여 분석의 가치를 극대화 합니다. 비즈니스 인사이트 축적을 위해 데이터 범위를 확장 합니다.

참고 문헌

빅데이터를 활용한 한류의 신 경쟁력 창출 방향성, 2013.5

BigData 업체

국내 BigData 업체

업체	제품	상세
넥스알 (NexR)	NDAP	NDAP (NexR Data Analytics Platform, 넥스알 데이터 분석 플랫폼) RHive, RStudio를 오픈소스로 공개 2010년 12월 KT에 인수됨 NexR이 한국정보통신기술협회(TTA)로부터 소프트웨어 품질인증(GS인증)을 받음 사용 오픈소스 RStudio ZooKeeper, Fabric, Collected R / RHive, ElasticSearch Hive, Oozie, MapReduce, HBase, Sqoop, Flume / Avro HDFS KT : KT 통신 로그 데이터 분석 시스템 (기존 시스템과 하이브리드 형태로 구성)
그루터 (Gruter)	클라우몬 씨날	빅데이터 플랫폼(BAAS, BigData Analysis & Application System) : Cloumon 빅데이터 분석 및 데이터 제공 서비스 (BigData Analysis & Data Providing Service) : Seenal 데이터 제공 서비스 (Data Providing Service) 빅데이터 분석 플랫폼 제공 서비스 (Ad-Hoc BigData Analysis Platform Service) Cloumon : BigData 시스템 통합 관리 및 모니터링 참조 : http://www.jaso.co.kr/460 Seenal : 소셜미디어 모니터링/분석 서비스 사용 오픈소스 ZooKeeper, ARM ElasticSearch, cascade Hive, Pig, Oozie, Cloustream, MapReduce, HBase, Cassandra, Flume / Thrift, scribe, chukwa HDFS

KTH	Daisy (데이지)	DAISY (Data Intelligence System) : 2012년 7월 출시 http://www.slideshare.net/rhodonghag/2013-05-21917614 http://dev.kthcorp.com/2013/01/07/big-data-age-introducing-kth-daisy/ 대용량 데이터 실시간 분석·추천 솔루션 Hadoop, 실시간 이벤트 처리 엔진, Solr/Lucene 사용 오픈소스 RStudio, Graphite Ganglia, Nagios, Puppet, Chef R / RHive, Mahout, Solr / Lucene Hive, Pig, MapReduce, Esper, Kafka, HBase, Sqoop, OpenPDC, Flume / Avro HDFS, OrientDB (GraphDB), ElephantDB (Key-Value) 2013.04 : 기상청 : 산업 분야 활용을 위한 기상정보 빅데이터 플랫폼 구축 및 매시업 서비스 개발 KT : VITAL(VoC Information Total Analysis) 시스템의 유무선 통합 VOC 수집/분석, ~ 2013.9
LG CNS	SBP	SBP (Smart BigData Platform, 스마트 빅데이터 플랫폼), 2012.10 출시 BigPack : 빅데이터 시스템 표준 배포판 SCM (Service & Configuration Manager) : 빅데이터 서버 관리 도구 MR Designer : 비즈니스 응용프로그램 자동 개발 도구 Smart SMA : 소셜 미디어 분석 솔루션
SK C&C	스톰	실시간 데이터 분석 솔루션 상권 분석, 교통 분석 등 국민연금관리공단 컨텐츠관리시스템(CMS) 구축에 SNS 분석을 적용
사이람	NetMiner, NetMetrica	소셜 네트워크 분석 SW 소셜 네트워크 분석 응용 솔루션 및 컨설팅 제공
솔트룩스 (Saltlux)	truestory, IN2, STORM, O2	비정형 빅데이터 분석 및 시맨틱 기술 전문 기업 truestory : 클라우드 기반 비정형 빅데이터 분석 플랫폼 IN2 : 클라우드 기반 시맨틱 검색 플랫폼 STORM : 시맨틱 기반 빅데이터 추론 플랫폼 O2 : 빅데이터 분석 서비스 플랫폼
클라우다인	플라밍고	하둡 사용자 인터페이스(UI)
빅데이터 솔루션 포럼 (BIGSF)	싸이밸류 얼라이언스(Cyvalue Alliance)	빅데이터 솔루션을 공동으로 개발하기 위한 국산 전문 소프트웨어(SW) 기업 간 모임 2012.9 발표 업체별 서비스 매핑 클라우다인 : Hadoop 컨설팅/개발 와이즈넷 : 검색엔진 비투엔컨설팅 : ETL 컨설팅 큐브리드 : Data warehouse 컨설팅/개발 야인소프트 : 옥타곤 EOS 이노룰스 : BER 한국키스코 : 컴포넌트/개발 투비소프트 : XPLATFORM
다음소프트	SOCIALmetrics	SOCIALmetrics TrendMap : 쇼설 미디어 분석 솔루션 SOCIALmetrics Biz, SOCIALmetrics Enterprise : SOCIALmetrics의 기업용 버전 트윗몹 : 실시간 소셜미디어 분석 및 모니터링 서비스 고도의 자연 언어 처리 기술과 방대한 언어 자원을 기반으로 소셜미디어 등 대용량의 텍스트 분석 서비스 제공 관심도 분석, 연관어 분석, 감성 및 긍부정 분석, 이슈 분석, 영향력자 분석, 소셜미디어 계정 분석 SNS 정보 기반 여론 진단 서비스, 소셜미디어 트위터, 블로그 트랜드 분석 소셜미디어 상의 데이터들에서 의미 있는 정보를 찾고, 조직화함으로써 정보간의 관계나 패턴, 트렌드 등을 분석하는 서비스 제공

BI포럼
빅데이터 포럼
빅데이터 국가 전략 포럼
삼성SDS : 삼성지놈닷컴 - 유전자 분석 서비스
KT

유전자 분석 서비스인 게놈클라우드 제공
UCloud Biz MapReduce : 빅데이터 분석 서비스

SK텔레콤

Smart Insight : 소셜 모니터링/분석 솔루션
T-MR : 시범 서비스

참고 문헌

빅데이터 기업의 솔루션 및 서비스 추진 현황 1, 2012.09

해외 BigData 업체

업체	제품	상세
Hortonworks	HDP	HDP (Hortonworks Data Platform) 야후의 하둡 인프라 개발 인력이 2011년 분사하여 설립 2013년 9월초 대한민국에 지사 설립 (초대 지사장 : 제프 마크햄) -> 중국, 일본 한국테라데이타와 영업 및 마케팅 분야에서 협력 관계 삼성전자 모바일솔루션센터(MSC)에서 빅데이터 분석에 활용 Microsfot Azure 에서 사용 Hadoop 코어 지원, 아키텍처 사용 오픈소스 ZooKeeper, Ambari, Knox, Gateway Hive, Pig, MapReduce, HCatalog, HBase, Sqoop, Talend HDFS
Cloudera	CDH (Cloudera Hadoop)	야후에서 분사 더그 커팅 클라우데라 수석아키텍트 겸 아파치SW재단 의장 기술지원, 교육 및 배포판 제공 Amazon Web Service, Rackspace, Oracle Hadoop Appliance 사용 오픈소스 ZooKeeper, Hue, Whirr, Nagios Impala, DataFu, Mahout Hive, Pig, Oozie, YARN / MapReduce, HBase, Sqoop, Flume / Avro HDFS
MapR Tech	MapR	2009년 설립 대한민국 지사 설립 추진 중, 2013.08 설립 예정 MapR FS : NFS에 호환되는 파일 시스템 사용 오픈소스 Whirr Mahout Hive, Pig, Cascading, Oozie, MapReduce, HCatalog, HBase, Sqoop, Flume / Avro HDFS
IBM	Big Insight, Stream	InfoSphere Big Insight : 빅데이터 솔루션, Hadoop JASL 기술을 사용하여 정형/비정형 데이터 처리 InfoSphere Stream : 스트림 프로세싱 엔진
Oracle	빅데이터 어플라이언스	세계적인 BI 업체인 하이페리온을 인수로 분석 기술 확보 BigData Appliance (CDH) Endeca, Exalytics 등 빅데이터 분석 솔루션 출시 Hadoop, R
EMC	GreenplumHD Isilion, 아이모스	Greenplum : MPP (Massively Parallel Processing), DB에 MapReduce 통합 External Table을 사용하여 HDFS 파일을 SQL로 접근 Isilion : 스케일 아웃 NAS 스토리지 ECM 다큐멘텀 : 비정형 컨텐츠 관리 아이실론, 아이모스 : BigData Storage 피보탈 HD DW Greenplum에 MapR 통합 사용 오픈소스 Spring ZooKeeper Mahout, Hive, Pig, YARN / MapReduce, HBase, Sqoop, Flume / Avro HDFS
SAP	HANA	사용 오픈소스 Embedded R, Hadoop, Hive Netbase SHAF (SAP HANA Analytics Foundation) BFL (Business Function Library) PAL (Predictive Analytic Library) : SAP BusinessObjects Predictive Analysis 기업 및 브랜드 관련 소셜 버즈 모니터링 서비스

Splunk	Splunk	사용 오픈소스 Django / Python Solr / Lucene MapReduce, Flume / Avro HDFS
SAS	SAS BigData Analytics Platform	SAS BigData Analytics Platform : IT, 분석, 비즈니스 통합 플랫폼 SAS HPA (High Performance Analytics) : HDFS 데이터를 분석, Memory 방식, SEMMA 방법론 제공 SAS VA (Visual Analytics) : Hive 데이터에 접속해 분석 DataFlux (ESP 엔진) 사용 오픈소스 Hadoop
HP	버티카, 오토노미	Vertica Analytic Database : Cloudera의 DBinputFormat2 기반 Autonomy 기업경영 의사결정, 경영정보 분석 등 경영지원 전략 수립 서비스 제공 BI 솔루션인 버티카 + 기업용 검색 엔진 오토노미 최대 7일간 고객의 IT환경을 분석해 빅데이터 도입 로드맵을 제시하고, 이를 수행하기 위한 방안으로 아파치 하둡을 이용한 클라우데라의 빅데이터 솔루션과 HP의 서버, 스토리지, 네트워크 등을 제안
Dell		Dell Cloudera Hadoop Solution 사용 오픈소스 Django / Pytho ZooKeeper, Hue, Nagios Hive, Pig, Oozie, MapReduce, Sqoop, Flume / Avro HDFS
인텔		사용 오픈소스 ZooKeeper R, Mahout Hive, Pig, Oozie, YARN, HBase, Sqoop, Flume / Avro HDFS
Teradata	애스터 맵리듀스 플랫폼	Hortonworks와 파트너 데이터웨어하우징(DW) 및 비즈니스 인텔리전스(BI) 전문 업체 비정형 데이터의 고급 분석/관리 솔루션 업체인 애스터데이터(Aster Data) 인수 nCluster : DB를 기반으로 동작하며 SQL-MR 함수를 제공 Ester MapReduce Platform 제시
Microsoft		Hadoop on Window, Hadoop on Azure 출시 예정 Hortonwork

BigData 서비스

업체	서비스	상세
Amazon	Amazon Web Service	Pig, Hive, Mahout EC2, Elastic MapReduce (Cloudera) S3, Elastic Block Store, DynamoDB, MySQL, Oracle
Google	Google Cloud Platform	BigQuery, Pig, Hive, Prediction API, Mahout AppEngine, Compute Engine (MapR) Cloud Storage, Datastore, Blockstore, AppEngine Datastore, CloudSQL
MS	Microsoft Azure	Pig, Hive, Mahout, StreamInsight Azure Compute, Hadoop (Hortonworks) HDFS, Blog, Table, Queues, Table Storage, SQL Azure
KT	UCloud MapReduce	Hadoop

BigData Platform

서비스	RStudio spagoBI Eclipse BIRT d3.js	JFreeChart, amCharts, HighChart Dasing (RoR), Pentaho, Liferay GraphLab, GoldnOrb
관리	ZooKeeper Hue Chef JBoss RHQ Nagios	Cloumon Cacti
분석 도구	R / RHive DataFu Mahout ElasticSearch	Lucene / Solr Nutch, Katta BDAS : Berkeley Data Analytics Stack
프로세싱	Distributed Processing Framework Hive (HiveQL) Pig (Pig Latin) Oozie MapReduce Real-Time analysis Event : Esper NoSQL : HBase Data Exchange DB : Sqoop 로그 등 : Flume Avro	Distributed Processing Framework Cascading Azkaban, Hamake Hama Dryad Real-Time analysis Event ESP (Event Straming Processing) : Storm, HStreaming, Shark, Kafka CEP (Complex Event Processing) : JBoss Drolls Fusion, S4, Akka NoSQL Disk 기반 : Cassandra, Hypertable Memory 기반 : MongoDB, Redis, Membase Membrain, CouchDB, CouchBase, Neo4j, FlockDB Cloudata Drizzle, MySQL Cluster, NimbusDB, ScaleBase, VoltDB SQL on Hadoop Drill, Impala, Tajo <- Dremel, 스트링거, BigQuery IBM, 빅SQL MS, 폴리베이스 EMC, 호크(HAWQ) Data Exchange DB : hiho 로그 등 : Chukwa, Scribe Thrift, ProtoBuf
인프라	HDFS (Hadoop Distributed File System) NAS (NFS, CIFS) OpenStack Swift	FlusterFS, pNFS, Ceph, GFS2, MogileFS

Apache Hadoop 생태계 솔루션

데이터 수집

첨부 파일 데이터 수집

PDF, MS Office, 한글 / 훈민정음
버전별 처리
문서별 양식지 사용시 처리 방안

수집 로봇 (웹 로봇)
Open API를 사용하여 수집

검색 엔진

형태소 분석 등을 위해 사전이 필요, 사전이 검색 엔진의 정확도 결정

표준어 사전
사용자 사전 : 회사에서만 사용하는 특수한 용어

BigData 방법론

BigData 방법론

비즈니스 모델

시장 규모

세계 빅데이터 기술 및 서비스 2014-2018 (IDC, 2014.10)

2013년 165억 5천만 달러
2018년 415억 달러 (연평균 26.4% 성장)

IDC 2011, 단위 : 백만 달러

매년 약 40% 성장하여 2015년에는 169억 2000만 달러 규모로 성장
S/W. 26%, 서비스.40%, 서버. 10%, 스토리지. 20%, 네트워킹. 4%
2011. 1.9 제타바이트, 5년 이내 9배 증가

구분	2010	2011	2012	2013	2014	2015	CAGR(%)
서버	495	665	803	1,032	1,270	1,657	27.3
스토리지	318	560	1,224	1,968	2,719	3,429	61.4
네트워킹	106	146	242	368	485	620	42.4
SW	1,062	1,415	1,851	2,476	3,376	4,625	34.2
서비스	1,236	1,979	2,721	3,883	5,009	6,538	39.5
합계	3,217	4,766	6,842	9,728	12,941	16,920	39.4

IDC : 비즈니스 분석 SW - 2016. 507억 달러 (연평균 9.8% 성장)

BigData Market Forecaset (Wikibon, 2012)

2012 : 51억 달러
2013 : 102억 달러
2014 : 168억 달러
2015 : 321억 달러
2016 : 480억 달러
2017 : 534억 달러

KISTI (한국과학기술정보연구원)

국내 시장은 2015년 2억 6300만 달러, 2020년 9억 달러로 성장
국내 IT 시장에서 빅데이터가 차지하는 비중은 2013년 0.6%에서 2020년 2.6%까지 증가
한국 빅데이터 시장

2013년 예측치 : 1억 6300만 달러
2015년 3000억 (2억 6300만 달러)
2020년 9000억 (8억 500만 달러) (70% 후반의 고성장)

한국 ICT에서 비중 : 2013. 0.6%, 2020. 2.3%
세계 빅데이터 시장의 1.6% 비중 점유

공공 빅데이터 시장은 2014년부터 고성장을 시작해 향후 5년간 5000억원 규모로 성장할 것

시장 현황

시장 현황

미래창조과학부 (미래부)

빅데이터 분석/활용 센터 구축 : 2013.9 ~,
빅데이터 마스터 플랜 수립 : 2016년까지 민간/정부가 약 5000억원을 빅데이터 기반 조성에 투입
빅데이터 아카데미 개설 : 2013년 100명 양성, 2007년까지 2000명 양성

빅데이터 기술 전문가, 빅데이터 분석 전문가

빅데이터 활용 시범사업

과제	상세
심야버스 노선 수립 지원	지차체-통신사간 데이터 연계 KT, 서울시
질병 주의, 예보 서비스	국민의료건강 데이터베이스와 소셜미디어 정보의 연계 분석 국민건강보험공단, 예측 모델 개발
의약품 안전성 조기경보 서비스	SGA, 한국의약품안전관리원 유해사례 신고 DB와 인터넷 소셜 데이터 분석
의료 서비스	유행병 예측과 대비 태세 향상 서울아산변원, 한국전자통신연구원, 한국마이크로소프트
점포 이력 분석 서비스	소상공인 상업 성공율 제고 오픈메이트, 비씨카드, 한국감정원 카드거래 정보와 소상공인 상가 이력, 부동산 정보 등을 연동해 분석 모형 구축
지능형 뉴스 검색 서비스	차세대융합기술연구원, 서울대학교 스마크 기기에 최적화된 뉴스 기사 요약 서비스 애플리케이션 개발

우정사업정보센터

우편 서비스 빅데이터 기반 마련 및 활용

안행부

빅데이터 공통 기반 및 시범서비스 구축 (40억)
정부통합전산센터 : 클라우드 기반의 빅데이터 분석 파일럿 시스템 구축 사업 (12억)

한국과학기술정보연구원 (KISTI)

국가 과학기술 빅데이터 거버넌스 구축 (7억)

서울시

2015년까지 빅데이터 기술을 시정에 도입

한국크라우드컴퓨팅연구조합

2013년 SW융합 역량강화 과정 사업자에 선정됨
2013년 하반기까지 클라우드, 빅데이터 전문 인력 720명 양성 계획, 2013.06

BigData 도입 사례

업체	제품	상세
GS홈쇼핑	FOSS	DW로 구축한 추천 시스템을 FOSS 기반의 추천 시스템 전환, 2012.7 구축 완료
엔씨소프트	FOSS	로그 데이터 분석 (1일 1TB 로그) 데이터 수집/저장/관리는 오픈소스, 분석은 상용 SW, SQL 엔진/관리 툴은 자체 개발
삼성전자		셜미디어 분석을 통해 솔리드 스테이트 드라이브(SSD) 시장의 새로운 흐름을 읽음 미디어솔루션센터(MSC)내 빅데이터 전담 조직 신설 MSC : 홍원표 사장, 소프트웨어와 콘텐츠 전략을 총괄 2010년 NHN에서 영입된 함종민 상무 삼성전자가 제공하는 콘텐츠 서비스에 대한 이용 형태 분석 사용자 로그 분석, 콘텐츠 이용 패턴과 선호도 -> 신규 서비스 개발, 사업 모델에 반영 사업자 선정 중 : 오라클과 테라데이타가 최종 후보로 선정
유유제약		멍치료제 공략시장을 소셜미디어 분석을 통해 유아에서 여성으로 변경
KTH	Daisy	2013.04 수주 : 기상청 - 산업 분야 활용을 위한 기상정보 빅데이터 플랫폼 구축 및 매시업 서비스 개발
삼성SDS		행정안전부 : ~ 2013.3, 빅데이터 공통기반 마련 및 활용을 위한 업무프로세스 재설계(BPR), 정보화전략계획(ISP) 수주

다음소프트, 소셜메트릭스 : 블로그, 트위터를 분석한 모니터링 정보 제공
코난테크놀러지, 펄스K : 소셜 미디어 모니터링 및 분석 서비스
Google Trends : 검색 로그 기반 동향 분석
Naver Trand

BigData 관련 기관

서울대

빅데이터 센터
빅데이터 포럼 (2013.5.30) : 9개 전문 분과로 운영

빅데이터 인프라 기술, 데이터 과학 및 분석 기술, 법 정책, 보건의료, 생명 환경, 사회복지, 미래산업경제, 방송 문화 스포츠, 인프라 및 인력양성

산업별 적용 모델

참고 문헌

산업별 BigData 적용 모델

산업군	상세
금융	실시간 마케팅 리스크 관리 대출 연체 가능성 예측, 리스크 익스포저 산출, 신규 오퍼링을 위한 고객 타겟팅 마케팅 사이클 단축 : 금융 모델 개발/활용 사이클 단축 실시간 캠페인 반응, 실시간 소셜내 평판/불만, 상품 추천 엔진, 고객 행동/패턴 예측 고객 확보 및 유지, 타겟 교차 판매 유도 사기 감지, 위험 관리 및 규정 준수 강화 카드사 실시간 이벤트 정의, 실시간 이벤트 감지 및 실행, 실시간 모니터링 및 결과 분석 실시간 채널 발송시스템, 실시간 마케팅 시스템 분석 정보 실시간 이벤트 정의 : 7 업무 40개 요건 정의 고객케어, 정보최신화, 상품마케팅, 회원마케팅, 시너지 마케팅, 가맹점 마케팅, 빅데이터 활용 http://www.bikorea.net/news/articleView.html?idxno=8174
공공	탈세 적발 트랜드 파악을 위한 시장 분석, 세부 정책 수립용 시장 분석, 동향 및 조사 보고서 분석용, 데이터 공객를 위한 정책 분석 환경 검토, 테러 방지 및 유권자 관계 등 국가보안, 치안, 재난, 질별, 교통, 의료 등
통신	캠페인 최적화 선제적 마케팅 강화 : 예측/모델링 및 최적화 기법 CDR 스트림, 텍스트 메시지, 모바일 웹 액세스 등을 관리하여 네트워크 최적화 소셜 네트워크 분석과 영향력 분포도를 사용하여 제품과 서비스 공급을 급변하는 고객의 수요에 맞춤 SK텔레콤 티맵 내비게이션 : 교통 정보를 실시간으로 분석, 정확한 도착 시간 제공 상권 분석 서비스 : 지도, 유동인구, 업종별 월별 매출 등
유통	재고 관리 고객 활동 예측 : 구매 행동에 기초한 타겟 설정 클레임 조기 경보 : 고객 feed-back 조기 발견 및 대응 고객 중심 마케팅 B2B, B2 클릭스트림, 텍스트, 이미지 데이터와 고객 프로파일을 통합하여 전자상거래의 효율성과 정확성을 높이고 다양한 채널에서 원활한 고객 경험을 이끔
제조	콜센터 데이터 분석 설비 센서 데이터 분석 (수율/설비고장예측/생산성), 물류/배송 최적화 예측, 원자재 가격 예측 SNS (페이스북 게시물, 트위터 트윗, 유튜브 동영상, 블로그 댓글, 기타)를 통해 소비자 이해, 상품 판매, 서비스 제공, 브랜드 이미지 관리 및 입소문 마케팅 대용량 RFID (Radio Frequency IDentification)를 활용하여 물류, 재고 및 생산을 최적화, 제조 결함을 신속하게 파악 GPS 및 매핑 데이터를 통해 공급만을 효율적으로 간소화 생산, 품질 분야에 활용

BigData 활용 분야

분야	상세
미래 예측	패턴의 우연성/지속성 구분 실시간 예측 및 자동 업데이트 장기간 축적된 데이터로부터 과거와 현재의 규칙성과 상관관계를 밝히고, 이를 토대로 이벤트의 발생 여부나 수요/판매량을 예측 빅데이터에서 발견한 인과관계가 일시적 또는 우연에 의한 것인지 반복적으로 지속될 패턴인지 구분
숨은 요구 발견	새로운 정보의 왜곡/실제 여부 판단 소비자의 일상이 담긴 데이터에서 발견한 새로운 패턴으로 경쟁사나 고객 스스로가 인지하지 목하는 고객 니즈를 발견 빅데이터에서 발견한 패턴이 데이터 오류나 분석 착오가 아닌지 관련 전문가가 해석, 검증하여 제품 및 서비스에 활용
위험 감소	일상/위기 상황 판단 정성적 정보의 양과 종류가 과거보다 대폭 증가하여 이상 징후 감지, 고위험 이벤트 경고 등 포괄적인 리스크 관리 상황과 이슈별로 분류한 고객 불만을 분석하여 트렌드 변화 및 특정 이슈를 관찰하고, 불만의 우선 순위를 정해 근원적 불만 요소를 식별 정보 가치가 낮은 데이터를 필터링하는 알고리즘을 개발하여 일상적인 불안 요소와 긴급하고 영향력이 큰 리스크를 구별, 해석
맞춤형 서비스	호불호 맥락 파악 추천 서비스 개별 상황에 대한 정확한 이해를 바탕으로 가장 적합한 방식과 내용으로 효과적인 메시지를 전달함으로써 서비스의 효용을 극대화 상황 및 감정 관련 데이터를 종합적으로 분석하여 호불호를 느끼는 맥락을 짚어내고 획일적이지 않은 콘텐츠 콘셉트를 도출
실시간 대응	실시간 감지/대응 체계 구축 부정 거래 감시 시장 사황 및 경쟁 동향을 실시간 파악하여 환경 변화에 신속하고 자동적으로 대응하는 체계를 구축함으로써 업무 성과를 제고 실시간으로 경영상 기회와 위기 요인을 정확히 읽어내고 즉시 대응할 수 있는 체계를 구축

정보 검색 서비스 -> 정보 분석 서비스

정보의 종류 : 공개된 SNS 정보, 미공개된 기업내 정보
다음소프트, 솔트룩스, 삼일 PwC, SKT 스마트 인사이트, 마스터카드
비씨카드 상권분석, 현대카드 상권분석 <- 여신전문금융업법 개정

BigData 분석 플랫폼 제공

KT 맵리듀스

BigData 분석 방법론 제공

연관 관계, 의미

로그 분석 시장

참고 문헌

개발 환경 구성

hadoop

conf/*
*.jar, lib/*.jar

zookeeper

zookeeper-3.4.5.jar

BigData Sizing

Sizing 기준

BigData 구분 기준 : 100 TB 이상
BigData 샘플 분석 크기 : 100 GB
BigData 시스템 규모 : 1 TB ~ 10 TB 처리 (55%)
Core당 4 GB Memory
Slave node당 24 TB Disk
Esper : Dual CPU * 2 GHz : 초당 50만건 이상의 처리 성능과 평균 3 microseconds 이하로 처리

BigData Server 구성 (250 TB당 20대)

Admin Node * 1
Working Node * 1
Database Node * 2
수집/연동 Node * 2
Master Node * 2
Slave Node * 12

미래부, 빅데이터 시범센터

2013년 6월초 사업자 선정
2013년 9월 서비스
프로젝트 기간 : 3개월, 예산 : 8억 2000만원

추정 S/W : 38,294만원
추정 스토리지 : 27,306만원
추정 서버 : 13,694만원
추정 네트워크 :5412만원

Oracle BigData Appliance

Rack : Intel Xeon E5-2600 processor / 2 CPU * 8 Core

18 Server / 2 CPU * 8 Core / 64 GB Mem. / 12 * 2TB Disk / 10GBE
Total 1152 GB Memory, 432 TB Disk

$450,000, 년간 유지보수 비용 $54,000

5분이내에 처리 가능한 수천개의 jobs by facebook

~ 350 TB : 20+ nodes
~ 500 TB : 40+ nodes

참고 문헌

SIZING BIG DATA PROBLEMS
rows * columns / sec : 초당 처리해야 하는 행 * 열의 수
Volume : rows가 1000만건 미만, 1000만건 이상에서 1억건 미만, 1억건 이상
Velocity : 시간 단위, 분단위, 초단위
Variety : columns이 100 미만, 100 이상에서 1000 미만, 1000 이상

단위 테스트

Hadoop 테스트

MRUnit

성능 테스트

Hadoop 벤치마킹 (Benchmark)

MR Bench, TeraSoft, TeraGen, DFSIO
Ganglia
Hibench

속도 측정 단위

밀리초(ms) : 1/1,000초
마이크로초(μs) : 1/1,000,000초
ms : 밀리초 0.001 = 10^(-3)초
㎲ : 마이크로초 0.000001초 = 10^(-6)초

참고 문헌

Turning

Linux 2.6.30 이상 권장

Local file system (ext3 or xfs) : mounted with noatime attribute
nodiratime attribute
File system read-ahead buffer size : 1024 or 2048 sectors

Hadoop 설정

dfs.namenode.handler.count = 64 이상 (default. 10)        //--- Numbers of name node and job tracker server threads
dfs.datanode.handler.count = 8 이상 (default. 3)          //--- Numbers of data node server threads
dfs.replication = 3                                       //--- replication factor for each block of an HDFS
dfs.block.size = 128 MB or 256 MB (default. 64 MB)        //--- HDFS block size

mapred.job.tracker.handler.count = 64 이상 (default. 10)  //--- Numbers of name node and job tracker server threads
//--- Maximum number of map/reduce tasks
mapred.tasktracker.map.tasks.maximum = node당core수 / 2 ~ node당core수 * 2
mapred.tasktracker.reduce.tasks.maximum = node당core수 / 2 ~ node당core수 * 2
mapred.compress.map.output = enabled                      //--- Compression of intermediate result and final output
mapred.output.compress = enbaled                          //--- Compression of intermediate result and final output
mapred.map.output.compression.codec = LZO                 //--- Compression of intermediate result and final output
mapred.output.compress.codec = LZO                        //--- Compression of intermediate result and final output
mapred.reduce.parallel.copier = 16 ~ 25 (default. 5)      //--- Number of parallel copier threads during reduce shuffle phase
tasktracker.http.threads = 40 ~ 50                        //--- Number of work threads on HTTP server

java.net.preferIPv4Stack = true   

io.sort.factor = 100 이상                                 //--- Number of input streams files to be merged at once
io.sort.mb = 200 MB (default. 100MB)                      //--- Total size of result and metadata buffers associated with a map task
io.sort.record.percent = 조정 (default. 0.05)             //--- Percentage of total buffer size that is dedicated to the metadata

Java 6 (Java 6u12) 이상

vi /etc/security/kimits.conf

Open file descriptor limit : 64000

vi /etc/sysctl.conf

Open epoll file descriptor limit : 4096

IP로 위치 추적

내 IP 확인

내 아이피 확인 / 위치보기

http://www.ip-adress.com/

IP로 주소 확인

IP 조회

해외 IP 조회

아시아태평양 : http://wq.apnic.net/apnic-bin/whois.pl
북미 : https://www.arin.net/
유럽 : http://apps.db.ripe.net/search.query.html
남미 : http://lacnic.net/cgi-bin/lacnic/whois?lg=EN
아프리카 : http://afrinic.net/

국가별 IP 대역

http://domain.kisa.or.kr/jsp/ipas/situation/listIpv4.jsp 사이트에서 대한민국의 IP 대역을 Excel로 다운로드 받을 수 있습니다.
GeoIP : MaxMind에서 제공하는 국가별로 IP를 확인할 수 있는 오픈소스 라이브러리

데이터 베이스 다운로드 : http://www.maxmind.com/en/home

사설 IP 대역

A class : 10.0.0.0∼10.255.255.255 (10/8 prefix)
B class : 172.16.0.0∼172.31.255.255 (172.16/12 prefix)
C class : 192.168.0.0∼192.168.255.255 (192.168/16 prefix)

Splunk의 iplocation 검색 명령어

http://www.hostip.info/, http://www.hostip.info/use.html
http://api.hostip.info/country.php?ip=12.215.42.19
http://api.hostip.info/get_html.php?ip=12.215.42.19 : Country, City 반환
http://api.hostip.info/get_html.php?ip=12.215.42.19&position=true : 위도와 경도도 추가로 반환
http://api.hostip.info/get_json.php?ip=12.215.42.19
http://api.hostip.info/get_json.php?ip=12.215.42.19&position=true
http://api.hostip.info/?ip=12.215.42.19

http://api.hostip.info/get_html.php?ip=203.222.12.34

Country: TAIWAN (TW)
City: (Unknown city)
IP: 203.222.12.34

주소로 위도/경도 좌표 확인

지오코딩 (GeoCoding) : 주소를 위도/경도와 같은 좌표로 변환

네이버 지도 Open API

검색 API의 경우 키 당 일일 25,000 쿼리, 지도 API의 경우 일일 100,000 페이지 요청까지 지원
추가 사용이 필요할 경우, Naver Open API 제휴 신청을 하세요.
http://dev.naver.com/openapi/apis/map/javascript_2_0/reference#coordtrans
tm128 좌표로 위치를 반환하는 Sample : http://openapi.map.naver.com/api/geocode.php?key=test&encoding=utf-8&coord=tm128&query=경기도성남시정자1동25-1

Google Geocoding API

1일 2500개 사용 제한, Google Maps API for Business 사용자는 하루에 최대 100,000개
http://maps.googleapis.com/maps/api/geocode/json?sensor=false&address=대한민국 서울특별시 관악구 낙성대동 1599-3
http://maps.googleapis.com/maps/api/geocode/json?sensor=false&address=대한민국서울특별시관악구낙성대동1599-3
http://maps.googleapis.com/maps/api/geocode/json?latlng=37.4794312,126.9534629&sensor=false

https://maps.google.com/maps?hl=kr 사이트에서 지도를 오른쪽 마우스로 클릭한 후 "이곳이 궁금한가요?" 메뉴를 선택하면 검색창에 GPS 좌표가 표시 됩니다.

참고 문헌

위도/경도 좌표로 지도 표시

http://maps.google.com/?q=위도,경도

http://maps.google.com/?q=37.479408,126.953582

http://maps.yahoo.com/#q1=대한민국 서울특별시 관악구 봉천동&mag=6&lon=경도&lat=위도

http://mygeoposition.com/

공공 정보 개방 현황

공공데이터의 제공 및 이용 활성화에 관한 법률

2013.7.30 : 공포
2013.10.31 : 시행

공공정보 개방 현황

608기관 1718종 17,065,215건 (2013.08)

대한민국 : https://www.data.go.kr/
미국 : http://www.data.gov/
영국 : http://www.data.gov.uk/
호주 : http://data.gov.au/, http://data.australia.gov.au/

참고 문헌

빅데이터 소스

공공데이터포털 : 교육, 교통물류 등 18종, 16880건
서울 열린 데이터 광장 : 공공행정, 교육 등 9종 , 9128건
데이터스토어 : 과학기술, 교통물류 등 15종, 6358건
API STORE : 공공행정, 교통물류 등 8종, 227건
경기데이터드림 : 공공행정, 농축수산 등 10종, 1065건

빅데이터 샘플 Data Set 다운로드 사이트

참고 문헌

21세기 원유, 빅데이터의 가능성, 2013.04
빅데이터 교육, 2013.2 : BigData 교육 목차

빅데이터 정의, 2012

MapR

2012년 BigData 발표 자료, 2012.07

빅 데이터 성능을 높이는 최강 조합 ··· '하둡+GPU' 아키텍처 집중해부, 2013.06