확성성 있는 인터넷 크롤러와 검색 엔진의 구축을 위한 프레임워크인 Nutch를 정리 합니다.
- 홈페이지 : http://nutch.apache.org/
- 다운로드 : http://nutch.apache.org/downloads.html
- 라이선스 : Apache 2.0
- 플랫폼 :
Nutch 개요
CentOS에서 Nutch 설치
Nutch 설치
cd install
wget http://apache.tt.co.kr/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz
tar xvfz apache-nutch-2.2.1-src.tar.gz
chown -R hduser:hdgroup apache-nutch-2.2.1
cd apache-nutch-2.2.1
ant #--- 오랜 시간동안 기다리세요.
chown -R hduser:hdgroup *
cd runtime
tar cvf ../../nutch.tar local
cd ../..
tar xvf nutch.tar
mv local /nas/appl/nutch
- 환경 설정
- vi ~hduser/.bash_profile
### ----------------------------------------------------------------------------
### NUTCH 설정
### ----------------------------------------------------------------------------
export NUTCH_HOME=/nas/appl/nutch
export PATH=$PATH:$NUTCH_HOME/bin
Nutch 설정
ElasticSearch 연동 설정
HBase 연동 설정
- vi /nas/appl/nutch/conf/hbase-site.xml
hbase.rootdir
hdfs://node201.hadoop.com:9000/hbase
hbase.cluster.distributed
true
hbase.zookeeper.quorum
localhost
- vi /nas/appl/nutch/conf/nutch-site.xml
storage.data.store.class
org.apache.gora.hbase.store.HBaseStore
Default class for storing data
http.agent.name
NutchCrawler
http.robots.agents
NutchCrawler,*
- vi /nas/appl/nutch/conf/gora.properties
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
- vi /nas/install/apache-nutch-2.2.1/ivy/ivy.xml
- 아래 주석 해제
- gora.properties 파일의 설정을 변경한 후 ant를 사용하여 nutch를 재빌드 하여야 함
MySQL 연동 설정
참고 문헌
http://www.joinc.co.kr/modules/moniwiki/wiki.php/Site/Search/Document/nutch
Nutch-2.2.1 – ElasticWriter.java:104: error: cannot find sym
리눅스(CentOS) 에 nutch 1.8 설치 하기, 2014.05
- http://digitalpebble.blogspot.kr/2013/09/nutch-fight-17-vs-221.html : Nutch 1 과 2의 성능 비교
- http://wiki.apache.org/nutch/NutchTutorial : Nutch Tutorial
최종 수정일: 2022-10-24 19:17:28
이전글 :
다음글 :