Hadoop 문서 원본 보기
←
Hadoop
둘러보기로 가기
검색하러 가기
문서 편집 권한이 없습니다. 다음 이유를 확인해주세요:
요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다:
사용자
.
이 문서는 편집하거나 다른 명령을 할 수 없도록 보호되어 있습니다.
문서의 원본을 보거나 복사할 수 있습니다.
클라우드 ([[Cloud]]) 스토리지 (대용량 분산 데이터 저장 및 처리 시스템)인 Hadoop를 정리 한다. *홈페이지 : http://hadoop.apache.org/, http://www.hadoop.or.kr/ :*[[YARN]] : http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html *다운로드 : http://hadoop.apache.org/#Download+Hadoop *라이선스 : [[Apache 2.0]] *플랫폼 : [[Java]] ==Hadoop 업무 영역== [[파일:Hadoop architecture01.png|700px]] ==Hadoop 개요== 분산 소프트웨어 플랫폼인 Hadoop은 대량의 데이터를 처리할 수 있는 애플리케이션을 쉽게 제작하고 운영하도록 도와줍니다. *Hadoop History :*2005년 Doug Cutting (Lucene & Nutch 개발자)에 의해 시작 :*2006년 Yahoo의 지원 *Hadoop : 대용량 분산 데이터 저장 및 처리 시스템 :*Nutch : 오픈소스 검색 엔진 :*MapReduce : 분산 데이터 처리 시스템 :*HBase : 분산 데이터 베이스 :*HDFS : 분산 파일 시스템 *Hadoop 배포판 :*Hadoop :*Cloudera :*Yahoo :*facebook :*IBM *Hadoop의 응용 분야 :*ETL (Extract, Transform, Load) :*Data Warehouse :*Storage for Log Aggregator :*Distributed Data Storage :*Spam Filtering :*Biometric :*Online Content Optimization :*Parallel Image, Movie Clip Processing :*Machine Learning :*Science :*Search Engine ==CentOS에서 Hadoop 설치== ===사전 준비 사항=== *Java 1.7.0_19 :*[[JDK#CentOS용 설치 가이드|CentOS용 JDK 설치 가이드]] *CentOS 6.4, 64 bits *vi /etc/hosts :*127.0.0.1을 사용할 경우, 분산된 서버로 접근하지 못하는 오류가 발생할 수 있습니다. 192.168.56.102 cloud001.cloudserver.com *vi /etc/sysconfig/network HOSTNAME=cloud001.cloudserver.com *vi /proc/sys/kernel/hostname cloud001.cloudserver.com ===설치=== *다운로드 받은 hadoop-1.1.2-bin.tar.gz 파일의 압축을 풀어 /appl/hadoop 폴더에 저장 합니다. wget http://apache.tt.co.kr/hadoop/common/hadoop-1.1.2/hadoop-1.1.2-bin.tar.gz tar -xvzf hadoop-1.1.2-bin.tar.gz chown -R root:root hadoop-1.1.2 mv hadoop-1.1.2 /appl/hadoop *vi ~/.bashrc ### ---------------------------------------------------------------------------- ### Hadoop 설정 ### ---------------------------------------------------------------------------- export JAVA_HOME=/usr/lib/jvm/jre export PATH=$PATH:/appl/hadoop/bin *hadoop 버전 확인 hadoop version ===환경 설정=== *vi /appl/hadoop/conf/hadoop-env.sh *Mode에 따른 설정 :*Mode에 맞추어 설정하지 않으면 [[sqoop]] 등에서 connetion refused 오류가 발생할 수 있습니다. {|cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" |- |width="25%" align="center" valign="middle" style="background-color:#eee;"|Core |width="75%"| *Core : fs.default.name = file://~ *Pseudo distributed : fs.default.name = hdfs://localhost:9000 *Fully distributed : fs.default.name = hdfs://cloud001.cloudserver.com:9000 |- |align="center" valign="middle" style="background-color:#eee;"|HDFS | *Core : dfs.replication 사용하지 않음 *Pseudo distributed : dfs.replicatione = 1 *Fully distributed : dfs.replication = 3 이상 |- |align="center" valign="middle" style="background-color:#eee;"|MapReduce | *Core : mapred.job.tracker = local *Pseudo distributed : mapred.job.tracker = localhost:9001 *Fully distributed : mapred.job.tracker = cloud001.cloudserver.com:9001 |} *Hadoop core용 환경 설정 :*vi /appl/hadoop/conf/core-site.xml <configuration> <property> <name>fs.default.name</name> <value>hdfs://cloud001.cloudserver.com:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/tmp/hadoop/hadoop-${user.name}</value> </property> </configuration> *HDFS 데몬용 환경 설정 :*vi /appl/hadoop/conf/hdfs-site.xml <configuration> <property> <name>dfs.name.dir</name> <value>/appl/hadoop/dfs/name</value> </property> <property> <name>dfs.name.edits.dir</name> <value>${dfs.name.dir}</value> </property> <property> <name>dfs.data.dir</name> <value>/appl/hadoop/dfs/data</value> </property> </configuration> *Job Tracker와 Task Tracker용 환경 설정 파일 :*vi /appl/hadoop/conf/mapred-site.xml <configuration> <property> <name>mapred.job.tracker</name> <value>cloud001.cloudserver.com:9001</value> </property> <property> <name>mapred.local.dir</name> <value>${hadoop.tmp.dir}/mapred/local</value> </property> <property> <name>mapred.local.dir</name> <value>${hadoop.tmp.dir}/mapred/system</value> </property> </configuration> *Master 컴퓨터의 목록 :*vi /appl/hadoop/conf/masters cloud001.cloudserver.com *data note와 task tracker를 작동시킬 컴퓨터의 목록 :*vi /appl/hadoop/conf/slaves cloud001.cloudserver.com *Master Server와 Slave Server간 상호 접속이 가능하도록 SSH 설정 ssh-keygen -t rsa cp /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys ### yum install openssh openssh-* ssh localhost *Name Node 포맷 hadoop namenode -format *Daemon 실행 start-all.sh start-mapred.sh //--- MapReduce 실행 start-dfs.sh //--- HDFS 실행 jps //--- Java 기반의 프로세스 상태 확인 ===서비스 확인=== *서비스 확인 Web Site :*http://localhost:50030/ : MapReduce :*http://localhost:50070/ : HDFS :*http://localhost:50060/ : Task Tracker *단어수를 계산하는 Sample cd /appl/hadoop hadoop dfs -mkdir input hadoop dfs -put CHANGES.txt input/ hadoop jar hadoop-examples-1.1.2.jar wordcount input output hadoop dfs -ls output hadoop dfs -cat output/part-r-00000 *Safe 오류시 hadoop dfsadmin -safemode leave //--- 데몬 재기동 *참고 문헌 :*http://blog.acronym.co.kr/329 ==AIX에서 Hadoop 설치== *참고 문헌 :*https://issues.apache.org/jira/browse/HADOOP-4546 :*http://grokbase.com/t/hadoop/hdfs-user/128hzwke2t/hadoop-1-0-3-nutch-1-5-1-throwing-errors-on-aix-6-1 ==Hadoop 가이드== hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] *참고 문헌 :*[http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/CommandsManual.html Hadoop Commands Reference] ==Hadoop Manager== *하둡 관리 도구 업체 :*[http://www.cloudera.com/content/dam/cloudera/Resources/PDF/Cloudera_Datasheet__Cloudera_Manager_Specifications.pdf 클라우데라 매니저] :*[http://www.slideshare.net/gruter/cloumon-introduction-ch 그루터 클라우몬] :*[http://www.slideshare.net/Hadoop_Summit/managing-hadoop-clusters-with-ambari 호튼웍스 암바리] :*[http://confluence.openflamingo.org/display/BLOG/Home Open Flamingo] : Hadoop 관련 다양한 오픈소스를 지원하는 Ajax Rich Web Interface + Workflow Engine + Workflow Availability Monitor + DataSource Engine *참고 문헌 :*[http://www.oss.kr/69814 하둡전문 3사, 같은듯 다른 빅데이터 관리툴, 2012.8] :*[http://www.oss.kr/82467 3社3色 하둡 관리도구 빅3의 현재, 2013.5] ==Hadoop 오류 처리== *오류 메시지 : Retrying connect to server RetryUpToMaximumCountWithFixedSleep :*Hadoop을 먼저 기동한 후에 작업을 하세요. *오류 메시지 : Name node is in safe mode :*Hadoop이 동작중인 상태에서 아래 명령을 입력 합니다. hadoop dfsadmin -safemode leave *오류 메시지 : log4j:WARN No appenders could be found for logger (org.apache.hadoop.hdfs.DFSClient). :*Log 설정 파일 ::conf/log4j.properties ::*hadoop-env.sh *오류 메시지 : # of failed Reduce Tasks exceeded allowed limit :*작업을 위한 thread가 부족함 :*vi hdfs-site.xml <property> <name>tasktracker.http.threads</name> <value>400</value> </property> *오류 메시지 : Too many fetch-failures :*Reduce가 Map의 작업이 끝난 데이터를 가져오지 못하는 오류 :*vi /etc/hosts 에서 TaskTracker 노드의 설정 정보를 맨 상단에 추가, 누락된 TaskTrack가 없도록 확인 ==Hadoop Client 사용자 지정== Hadoop을 설치해서 작업을 하다 보면 설치한 사용자 (hduser100)외에 다른 사용자(hduser)로 Hadoop을 사용할 필요가 있습니다. 그럴 경우, 아래와 같이 약간의 권한 설정을 하여 사용 하세요. *Hadoop을 설치한 사용자(hduser100/hdgroup)로 로그인 합니다. :*HDFS의 supergroup에 hdgroup를 추가 합니다. stop-all.sh vi /appl/hadoop100/conf/hdfs-site.xml 파일에서 아래 부분을 추가 합니다. <property> <name>dfs.permissions.supergroup</name> <value>hdgroup</value> </property> start-all.sh *CentOS user 생성 (hduser / hdgroup) groupadd hdgroup useradd -d /home/hduser -m -g hdgroup hduser passwd hduser *hduser 환경 설정 vi ~/.bashrc export JAVA_HOME=/usr/lib/jvm/jre export PATH=$PATH:/appl/hadoop100/bin == BigData 업체 동향 == MapR 4.0.1 출시 (2014.10) *Hadoop 2.4 기반의 Apache Drill, Apache Spark, Apache HBase 포함 *운영 애플리케이션 *인터렉티브 쿼리 및 스트리및 처리 (실시간) == 참고 문헌 == *[[MapReduce|MapReduce]], [[HDFS|HDFS]] *[http://www.yongbok.net/blog/how-to-install-hadoop-2-2-0-pseudo-distributed-mode/ http://www.yongbok.net/blog/how-to-install-hadoop-2-2-0-pseudo-distributed-mode/] *[http://pizzastudio.tistory.com/category/%ED%95%98%EB%91%A1%28Hadoop%29%20%EA%B4%80%EB%A0%A8%20%EC%9E%90%EB%A3%8C '하둡(Hadoop) 관련 자료'에 해당되는 글] :*[http://pizzastudio.tistory.com/entry/%EC%95%84%ED%8C%8C%EC%B9%98-%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4-%ED%8A%9C%ED%86%A0%EB%A6%AC%EC%96%BC-%EB%B2%88%EC%97%AD 번역: 아파치 맵리듀스 튜토리얼(mapreduce tutorial), 2012.03] *[http://helloworld.naver.com/helloworld/29533 빅데이터를 위한 플랫폼, 2012.03] *[http://www.oss.kr/?mid=oss_repository10&page=2&document_srl=78591 공개SW 활용 성공사례 72: KT 클라우드웨어 - 한국형 빅데이터 Hybrid DW 분석 시스템 구축, 2013.02] *[http://www.oss.kr/?mid=oss_repository10&page=6&document_srl=51780 공개SW 활용 성공사례 24: 그루터 - 하둡 활용한 빅데이터 관리 및 분석 플랫폼 제공, 2012.03] *[http://itxcloud.tistory.com/category/%E2%97%8F%20Big%20data 빅데이터: 하둡, 비즈니스 분석툴을 넘어] :*[http://itxcloud.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%98%EB%91%A1-%EB%B9%84%EC%A6%88%EB%8B%88%EC%8A%A4-%EB%B6%84%EC%84%9D%ED%88%B4%EC%9D%84-%EB%84%98%EC%96%B4-1-%EC%9C%84%ED%82%A4%EB%B3%B8Wikibon-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%84%A0%EC%96%B8 위키본(Wikibon) 빅데이터 선언, 2012.04] :*[http://itxcloud.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%98%EB%91%A1-%EB%B9%84%EC%A6%88%EB%8B%88%EC%8A%A4-%EB%B6%84%EC%84%9D%ED%88%B4%EC%9D%84-%EB%84%98%EC%96%B4-2-%EA%B8%B0%EC%A1%B4-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%B2%98%EB%A6%AC-%EB%B0%8F-%EB%B6%84%EC%84%9D 기존데이터 처리 및 분석, 2012.04] :*[http://itxcloud.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%98%EB%91%A1-%EB%B9%84%EC%A6%88%EB%8B%88%EC%8A%A4-%EB%B6%84%EC%84%9D%ED%88%B4%EC%9D%84-%EB%84%98%EC%96%B4-3-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%86%8D%EC%84%B1%EC%9D%98-%EB%B3%80%ED%99%94 데이터 속성의 변화, 2012.04] :*[http://itxcloud.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%98%EB%91%A1-%EB%B9%84%EC%A6%88%EB%8B%88%EC%8A%A4-%EB%B6%84%EC%84%9D%ED%88%B4%EC%9D%84-%EB%84%98%EC%96%B4-4-%EC%B2%AB%EB%B2%88%EC%A7%B8-%EC%A0%91%EA%B7%BC-%ED%95%98%EB%91%A1 첫번째 접근 '하둡', 2012.04] :*[http://itxcloud.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%98%EB%91%A1-%EB%B9%84%EC%A6%88%EB%8B%88%EC%8A%A4-%EB%B6%84%EC%84%9D%ED%88%B4%EC%9D%84-%EB%84%98%EC%96%B4-5-%ED%95%98%EB%91%A1%EC%9D%98-%EA%B8%B0%EC%88%A0%EC%A0%81-%EA%B5%AC%EC%84%B1 하둡의 기술적 구성, 2012.04] :*[http://itxcloud.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%98%EB%91%A1-%EB%B9%84%EC%A6%88%EB%8B%88%EC%8A%A4-%EB%B6%84%EC%84%9D%ED%88%B4%EC%9D%84-%EB%84%98%EC%96%B4-6-%ED%95%98%EB%91%A1%EC%9D%98-%EC%9E%A5%EB%8B%A8%EC%A0%90 하둡의 장단점, 2012.04] :*[http://itxcloud.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%98%EB%91%A1-%EB%B9%84%EC%A6%88%EB%8B%88%EC%8A%A4-%EB%B6%84%EC%84%9D%ED%88%B4%EC%9D%84-%EB%84%98%EC%96%B4-7-%EB%91%90%EB%B2%88%EC%A7%B8-%EC%A0%91%EA%B7%BC-%EC%B0%A8%EC%84%B8%EB%8C%80-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9B%A8%EC%96%B4%ED%95%98%EC%9A%B0%EC%A7%95 두번째 접근 '차세대 데이터웨어하우징', 2012.04] :*[http://itxcloud.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%98%EB%91%A1-%EB%B9%84%EC%A6%88%EB%8B%88%EC%8A%A4-%EB%B6%84%EC%84%9D%ED%88%B4%EC%9D%84-%EB%84%98%EC%96%B4-8-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%98-%EC%A0%81%EC%9A%A9-%EC%82%AC%EB%A1%80 빅데이터의 적용 사례, 2012.04] *[http://helloworld.naver.com/helloworld/258077 어떤 분산 파일 시스템을 사용해야 하는가?, 2013.01] *[http://www.looah.com/article/view/746 Apache Hadoop란 무엇인가, 2012.02] *[http://developer.yahoo.com/hadoop/tutorial/ Yahoo! Hadoop Tutorial] *[http://www.jaso.co.kr/99 hadoop 살펴보기(1), 2006.8] *[http://www.jaso.co.kr/101 hadoop 살펴보기(2), 2006.8] *[http://www.jaso.co.kr/103 hadoop 살펴보기(3), 2006.9] *[http://www.jaso.co.kr/253 hadoop summit 자료 공개, 2008.4] *[http://blog.udanax.org/ Edward J. Yoon's opensource life with the 블로그] :아파치 소프트웨어 재단(Apache Software Foundation)에서 아파치 하둡(Apache Hadoop) 프로젝트 커미터이며, 아파치 하마(Apache Hama) 프로젝트를 설립하고 개발을 이끌고 있는 Edward J. Yoon의 블로그 *[http://www.joinc.co.kr/modules/moniwiki/wiki.php/man/12/MapReduce?cx=002661009167463862046:8oq6cxlfibu&cof=FORID:9&q=MapReduce&sa=Search&ie=EUC-KR#1257 MapReduce] *파일 :*[http://pds21.egloos.com/pds/201101/18/63/Hadoop_Guide_ext.pdf 하둡은?] *[http://tajo.incubator.apache.org/ Tajo] *[http://www.mapr.com/ MapR] *[http://heonpark.tistory.com/1 하둡 배포판, 2013.02] *[Hadoop Default Ports Quick Reference Hadoop Default Ports Quick Reference, 2009.10] *[http://www.oreillynet.com/pub/a/other-programming/excerpts/hadoop-tdg/installing-apache-hadoop.html Installing Apache Hadoop - Hadoop: The Definitive Guide] *kiji : [http://www.kiji.org/getstarted/#Downloads http://www.kiji.org/getstarted/#Downloads] *[http://blrunner.com/46 Hadoop 기본 포트 - 하둡 설치 시 주의 사항 -, 2013.03] *[http://blog.naver.com/PostList.nhn?blogId=adonis50&from=postList&categoryNo=15 빅데이터: HADOOP, Fully Distributed mode 설정법, 2013.2] [[Category:BigData|Category:BigData]]<br/>[[Category:오픈소스|Category:오픈소스]]<br/>[[Category:Cloud|Category:Cloud]]
Hadoop
문서로 돌아갑니다.
둘러보기 메뉴
개인 도구
로그인
이름공간
문서
토론
변수
보기
읽기
원본 보기
역사 보기
더 보기
검색
주요 메뉴
오픈소스 컨설팅
오픈소스
오픈소스 라이선스
오픈소스 커뮤니티
오픈소스 종류
오픈소스 현황
오픈소스 한글화
문자셋과 인코딩
Storage
Network
보안
고가용성
모니터링
오픈 API
오픈 서비스
Cloud
BigData
Android
산사랑 노트
둘러보기
인기 문서
최근 수정 문서
모든 문서
모든 분류
임의 문서
위키 사용법
자매 사이트
CMS
오비컨 홈페이지
오비컨 CMS
블로그
데모 - SuiteCRM
산사랑의 Twitter
산사랑의 Facebook
친구 사이트
공개SW 포털
OLIS
한국공개소프트웨어협회
AppCenter 지원본부
OLC
PSEG
개발자 블로그
블로터
개인 메뉴
메뉴 수정
양식함
도구
여기를 가리키는 문서
가리키는 글의 최근 바뀜
특수 문서 목록
문서 정보