ElasticSearch 문서 원본 보기
←
ElasticSearch
둘러보기로 가기
검색하러 가기
문서 편집 권한이 없습니다. 다음 이유를 확인해주세요:
요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다:
사용자
.
이 문서는 편집하거나 다른 명령을 할 수 없도록 보호되어 있습니다.
문서의 원본을 보거나 복사할 수 있습니다.
[[Lucene]]을 바탕으로 개발한 분산 검색엔진인 ElasticSearch를 정리 합니다. *홈페이지 : http://www.elasticsearch.org/, http://elasticsearch.kr/ :*매뉴얼 : http://www.elasticsearch.org/guide/ :*한글 형태소 분석기 : https://github.com/chanil1218/elasticsearch-analysis-korean :*한국 유저 커뮤니티 : https://www.facebook.com/groups/elasticsearch.kr/ *다운로드 : http://www.elasticsearch.org/download/, https://github.com/elasticsearch/elasticsearch/ :*Arirang 다운로드 : https://lucenekorean.svn.sourceforge.net/svnroot/lucenekorean/ *라이선스 : [[Apache 2.0]] *플랫폼 : [[Java]] == ElasticSearch 개요 == [[Lucene|Lucene]]은 널리 알려진 [[Java|Java]] 기반의 오픈소스 검색 엔진 라이브러리 입니다. 많은 곳에서 사용 되고 있지만 라이브러리 형태라 사용에 불편함이 있고 [[BigData|BigData]] 시대를 맞아 분산 환경을 지원하지 않아 새로운 대안 솔루션이 필요하게 되었습니다. 오픈소스 진영에서는 분산 환경을 지원하는 [[Solr|Solr]]와 [http://www.elasticsearch.org/ <b>ElasticSearch</b>]가 Lucene 기반으로 작성이 되었습니다. [http://www.elasticsearch.org/ <b>ElasticSearch</b>]는 RESTful API를 지원하는 특성으로 인하여 여러 환경으로 포팅이 될 수 있어서 사용이 편리한 분산 검색 엔진 입니다. ElasticSearch의 특징 *실시간 검색 및 분석 *분산 구성 및 병렬 처리 *index (Database)와 Type (Table)을 사용하여 다양한 문서 처리 *JSON을 사용하는 RESTful API 지원 *Plugin 방식의 기능 확장 ElasticSearch 용어 {| cellspacing="0" cellpadding="2" border="1" width="100%" bgcolor="#FFFFFF" align="center" |- | width="30%" align="center" valign="middle" style="background-color: rgb(204, 204, 204);" | 용어 | width="70%" align="center" valign="middle" style="background-color: rgb(204, 204, 204);" | 상세 |- | align="center" valign="middle" | Cluster | *Node의 집합으로 유일한 이름을 가짐 |- | align="center" valign="middle" | Node | *Cluster를 이루는 물리적인 서버 |- | align="center" valign="middle" | Index<br/>(indice) | *유사한 특징을 가진 문서들의 모음으로 DBMS에서 <span style="color:#0000FF;">'''데이터베이스'''</span>와 유사한 개념 *Term, Count, Docs로 구성 |- | align="center" valign="middle" | Shard | *Index의 subset 개념으로 [[Lucene|Lucene]]을 사용하여 구성 *실제 데이터와 색인을 저장하고 있으며 Primary Shard와 Replica Shard로 분류 *Primary Shard : Shard를 구성하는 기본 인덱스 *Replica Shard : 분산된 다른 node에 저장된 Primary Shard의 복제본 **서비스 장애시 서비스의 영속성 보장 |- | align="center" valign="middle" | Type<br/>(Document Type)<br/> | *데이터 (Document)의 종류로 index 내에서의 논리적인 category/partition *DBMS에서 <span style="color:#0000FF;">'''테이블'''</span>과 유사한 개념 |- | align="center" valign="middle" | Mapping | *DBMS에서 <span style="color:#0000FF;">'''테이블 스키마'''</span>와 유사한 개념 |- | align="center" valign="middle" | Route | *색인 필드 중 unique key에 해당하는 값을 routing path로 지정한 후, 이 path를 사용하여 인덱싱과 검색에 사용할 shard를 지정하여 성능할 향상할 수 있습니다. *Routing Field : 스토어 옵션을 yes로 index not_analyzed로 설정 |- | align="center" valign="middle" | Document | *ElasticSearch에서 관리하는 기본적인 데이터(정보)의 저장 단위 *JSON ([[JavaScript|JavaScript]] Object Notaion)으로 표현 *DBMS에서 <span style="color:#0000FF;">'''레코드'''</span>와 유사한 개념 |- | align="center" valign="middle" | Field | *Document를 구성하고 있는 항목으로 name과 value로 구성 *DBMS에서 <span style="color:#0000FF;">'''컬럼'''</span>과 유사한 개념 |- | align="center" valign="middle" | Gateway | *Cluster 상태, Index 설정 등의 정보를 저장 |- | align="center" valign="middle" | Query | *검색어 |- | align="center" valign="middle" | TermQuery | *검색어의 종류 |- | align="center" valign="middle" | Term | *검색어의 항목 |- | align="center" valign="middle" | Token | *검색어의 항목을 구성하는 요소 |} <span style="color:#008000;"><span style="font-size:larger;">'''ElasticSearch의 개념적 구성도'''</span></span> [[File:ElasticSearch.png|700px|ElasticSearch.png]]<br/>[[File:LuceneIndex01.png|파일:LuceneIndex01.png]] *ElasticSearch Architecture [[File:ElasticSearchArchitecture.png|700px|ElasticSearchArchitecture.png]] :*_index : index 이름 :*_type : type 이름 :*_id : Document ID :*_score :*_source : Document 저장 :*properties ::*필드명 (field) :::*type : string <br/><span style="color:#008000;">'''<span style="font-size:larger;">ElasticSearch 관련 오픈소스</span>'''</span> [[File:ElasticSearch Environment.png|700px|ElasticSearch Environment.png]] == CentOS에서 ElasticSearch 설치 == === ElasticSearch 설치 === *ElasticSearch 설치 :*[[JDK|JDK]] 1.7 이상 필요 cd install wget [https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.3.2.tar.gz https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.3.2.tar.gz] tar -xvzf elasticsearch-1.3.2.tar.gz chown -R hduser:hdgroup elasticsearch-1.3.2 mv elasticsearch-1.3.2 /nas/appl/elasticsearch *환경 설정 :*vi ~hduser/.bash_profile ### ---------------------------------------------------------------------------- ### ELASTICSEARCH 설정 ### ---------------------------------------------------------------------------- export ELASTICSEARCH_HOME=/nas/appl/elasticsearch export PATH=$PATH:$ELASTICSEARCH_HOME/bin *ElasticSearch 환경 설정 :*데이터와 로그 폴더 생성 cd /nas/appl/elasticsearch mkdir data mkdir logs chown hduser:hdgroup data logs :*vi /nas/appl/elasticsearch/config/elasticsearch.yml cluster.name: elasticsearch node.name: "node201" path.data: /nas/appl/elasticsearch/data path.logs: /nas/appl/elasticsearch/logs discovery.zen.ping.multicast.enabled: false discovery.zen.ping.unicast.hosts: ["node201:9200"] bootstrap.mlockall: true *서비스 실행 및 확인 su - hduser elasticsearch #--- Foreground로 실행 elasticsearch -d #--- Daemon으로 실행 curl localhost:9200 #--- 서비스 확인 [http://node201.hadoop.com:9200/ http://node201.hadoop.com:9200/] #--- 서비스 확인 [http://node201.hadoop.com:9200/_status http://node201.hadoop.com:9200/_status] [http://node201.hadoop.com:9200/_plugin/head/ http://node201.hadoop.com:9200/_plugin/head/] #--- elasticsearch-head plugin이 설치된 경우 === ElasticSearch 로드밸런서 설치 === *ElasticSearch 로드밸런서 환경 설정 :*vi /nas/appl/elasticsearch/config/elasticsearch.yml node.master: false node.data: false network.bind_host: 192.168.0.1 *로드밸런서용 plugin 설치 plugin -install mobz/elasticsearch-head plugin -install lukas-vlcek/bigdesk === 환경 설정 === *환경 변수 :*bin/elasticsearch 환경변수 :*JAVA_OPTS :*ES_JAVA_OPTS, ES_HEAP_SIZE :*ES_MIN_MEM=256m, ES_MAX_MEM=1gb *환경 설정 방법 :*환경 설정 파일로 설정 vi /nas/appl/elasticsearch/config/elasticsearch.yml index: store: type: memory :*명령행 옵션으로 설정 elasticsearch -Des.index.store.type=memory :*REST API로 설정 curl -XPUT 'node201.hadoop.com:9200/customer/ -d ' index: store: type: memory ' *file descriptors 확인 :*max_file_descriptors curl 'node201.hadoop.com:9200/_nodes/process?pretty' *memory settings : disable swap :*한번만 적용 swapoff -a :*항상 적용 vi /etc/fstab #--- swap을 주석 처리 :*ElasticSearch 설정으로 처리 ulimit -l unlimited #--- root 사용자로 실행 mkdir /tmp/tmpJna vi config/elasticsearch.yml bootstrap.mlockall: true elasticsearch -Djna.tmpdir=/tmp/tmpJna === Service로 실행 === *환경 설정 변수 :*ES_USER, ES_GROUP :*ES_HEAP_SIZE, ES_HEAP_NEWSIZE, ES_DIRECT_SIZE :*MAX_OPEN_FILES :*MAX_LOCKED_MEMORY, MAX_MAP_COUNT :*LOG_DIR, DATA_DIR, WORK_DIR :*CONF_DIR, CONF_FILE :*ES_JAVA_OPTS, RESTART_ON_UPGRADE #--- /etc/init.d/elasticsearch #--- /etc/sysconfig/elasticsearch /sbin/chkconfig --add elasticsearch == Windows에서 ElasticSearch 설치 == <span style="color:#008000;"><span style="font-size:larger;">'''ElasticSearch 설치'''</span></span> ElasticSearch는 JDK 7 이상에서 실행되는 Java 기반의 애플리케이션으로 별도의 설치 과정 없이 소스를 다운로드 받아 실행하면 됩니다. [http://www.elasticsearch.org/download/ 다운로드 사이트(http://www.elasticsearch.org/download/)]에서 최신 버전(elasticsearch-1.3.2.zip)의 ElasticeSearch를 다운로드 합니다. 압축을 풀어 c:/appl/elasticsearch/ 폴더를 생성 합니다. <span style="color:#008000;"><span style="font-size:larger;">'''실행 및 확인'''</span></span> bin/ 폴더에서 elasticsearch.bat 파일을 실행 합니다. 브라우저에서 [http://localhost:9200/ http://localhost:9200/] 로 접속하여 확인 합니다. http://www.jopenbusiness.com/mediawiki/images/e/e1/ElasticSearch_Install_Windows_001.png Cluster 정보 확인 *http://localhost:9200/_cluster/health?pretty=true Node 정보 확인 *http://localhost:9200/_nodes?pretty=true *http://localhost:9200/_nodes/settings?pretty=true == ElasticSarch 폴더 구조 == {| border="1" cellspacing="0" cellpadding="2" style="width: 100%;" |- | style="text-align: center; background-color: rgb(204, 204, 204);" | 폴더 | style="text-align: center; background-color: rgb(204, 204, 204);" | 설정 변수 | style="text-align: center; background-color: rgb(204, 204, 204);" | 상세 |- | style="text-align: center;" | bin | style="text-align: center;" | <br/> | 윈도우용 실행 파일 *elasticsearch.bat : ElasticSearch 실행 프로그램 *service.bat : Service 형태로 ElasticSearch 실행<br/>service.bat install | remove | start | stop | manager [SERVICE_ID] *plugin.bat : 플러그인 설치 프로그램 (org.elasticsearch.plugins.PluginManager 프로그램이 실행됨) Linux용 실행 파일 *elasticsearch : ElasticSearch 실행 프로그램 *plugin : 플러그인 설치 프로그램 (org.elasticsearch.plugins.PluginManager 프로그램이 실행됨) <span style="color:#0000FF;">플러그인명/</span> : Plugin 설치 파일의 bin/ 폴더가 여기로 이동됨 |- | style="text-align: center;" | config | style="text-align: center;" | path.conf | 설정 파일 폴더 *elasticsearch.yml : ElasticSearch 설정 파일 **path.plugins : 플러그인 설치 폴더 (Default. plugins/) *logging.yml : 로그 설정 파일 <span style="color:#0000FF;">플러그인명/</span> : Plugin 설치 파일의 config/ 폴더가 여기로 이동됨 |- | style="text-align: center;" | data | style="text-align: center;" | path.data | 데이터와 인덱스를 저장하는 폴더 (elasticsearch/nodes/) *path.data: /path/to/data1,/path/to/data2 |- | style="text-align: center;" | lib | <br/> | ElasticSearch용 라이브러리 *<font color="#333333">[[Lucene|Lucene]] 검색 엔진 라이브러리</font> *<font color="#333333">[[Sigar|Sigar]] 라이브러리 : CPU, Memory, Disk 등을 모니터링</font> |- | style="text-align: center;" | logs | style="text-align: center;" | path.logs | 로그 파일 저장 폴더 |- | style="text-align: center;" | plugins | style="text-align: center;" | path.plugins | ElasticSearch 플러그인 설치 폴더<br/><span style="color:#0000FF;">플러그인명/</span> : Plugin 설치 파일에서 bin/ 폴더와 config/ 폴더를 제외한 파일이 설치되는 폴더 *_site/ : http://node111.jopenbusiness.com:9200/_plugin/head/ URL로 호출 |- | style="text-align: center;" | work | style="text-align: center;" | path.work | 임시 작업용 폴더 |} *path.home : ElasticSearch가 설치된 폴더를 지정하는 설정 변수 == Plugin == === Plugin 구조 === <span style="color:#008000;">'''<span style="font-size: larger;">Plugin 설치 프로그램</span>'''</span> 설치 프로그램 : org.elasticsearch.plugins.PluginManager {| border="1" cellspacing="0" cellpadding="2" style="width: 100%;" |- | style="text-align: center; background-color: rgb(241, 241, 241);" rowspan="1" colspan="2" | 옵션<br/> | style="text-align: center; background-color: rgb(241, 241, 241);" | 상세 |- | style="text-align: center;" | -u | style="text-align: center;" | -url ~ | Plugin 설치 파일 (~.zip) 다운로드 URL<br/> |- | style="text-align: center;" | -i | style="text-align: center;" | -install ~ | 설치할 Plugin 이름<br/>plugins/Plugin_이름/ 폴더에 설치됨 <span style="line-height: 20.7999992370605px;">[username/]pluginname[/version]</span> *user : username 사용 *pluginname : pluginname이 "elasticsearch-" 또는 "es-"로 시작하면 이 부분을 삭제한 후 사용 *repo : 원본 pluginname 사용 |- | style="text-align: center;" | -t | style="text-align: center;" | -timeout ~ | 타임아웃 설정 (30s, 1m, 1h, ...) |- | style="text-align: center;" | -r | style="text-align: center;" | -remove ~ | 삭제할 Plugin 이름 |- | style="text-align: center;" | -l | style="text-align: center;" | -list | 설치된 Plugin 목록 표시 |- | style="text-align: center;" | -v | style="text-align: center;" | -verbose | 상세 정보 표시 |- | style="text-align: center;" | -s | style="text-align: center;" | -silent | Silent 모드로 실행 |- | style="text-align: center;" | -h | style="text-align: center;" | -help | 도움말 표시 |} <span style="color:#008000;">'''<span style="font-size:larger;">Plugin 설치 파일 다운로드 위치</span>'''</span> <ul style="line-height: 20.7999992370605px;"> <li>"[https://github.com/ https://github.com/]" + user + "/" + repo + "/archive/master.zip"</li> <li>"[http://download.elasticsearch.org/ http://download.elasticsearch.org/]" + user + "/" + repo + "/" + repo + "-" + version + ".zip"</li> <li>"[http://search.maven.org/remotecontent?filepath= http://search.maven.org/remotecontent?filepath=]" + user.replace('.', '/') + "/" + repo + "/" + version + "/" + repo + "-" + version + ".zip"</li> <li>"[https://oss.sonatype.org/service/local/repositories/releases/content/ https://oss.sonatype.org/service/local/repositories/releases/content/]" + user.replace('.', '/') + "/" + repo + "/" + version + "/" + repo + "-" + version + ".zip"</li> <li>"[https://github.com/ https://github.com/]" + user + "/" + repo + "/archive/" + version + ".zip"</li> </ul> <span style="color:#008000;">'''<span style="font-size:larger;">Plugin 설치 파일 폴더 구조</span>'''</span> ~.zip 파일 {| border="1" cellspacing="0" cellpadding="2" style="width: 100%;" |- | style="text-align: center; background-color: rgb(241, 241, 241);" rowspan="1" colspan="2" | 폴더<br/> | style="text-align: center; background-color: rgb(241, 241, 241);" | 상세 |- | 플러그인명-버전/ | <br/> | <ul style="line-height: 20.7999992370605px;"> <li>기본적으로 모든 파일은 plugins/플러그인명/ 폴더에 배포 됩니다.</li> <li>bin/, config/, _site/ 폴더가 없고 *.class/.jar 파일이 없는 경우, plugins/플러그인명/_site/ 폴더에 배포 됩니다. *.class/.jar 파일이 있을 경우, plugins/플러그인명/ 폴더에 배포 됩니다.</li> |- | <br/> | _site/ | *index.html : 시작 페이지 |- | <br/> | bin/ | *bin/플러그인명/ 폴더에 배포 됩니다. |- | <br/> | config/ | *config/플러그인명/ 폴더에 배포 됩니다. |- | <br/> | _dict/ | <br/> |} === Site Plugin === plugins/head/_site/ 폴더가 생성 됩니다. http://node111.jopenbusiness.com:9200/_plugin/head/ URL로 접속할 수 있습니다. === Java Plugin === jar 파일에 들어 있는 es-plugin.properties 파일 *plugin=org.elasticsearch.plugin.analysis.kr.AnalysisKoreanPlugin : 플러그인 설치 파일 **org.elasticsearch.plugins.AbstractPlugin 파일을 구현한 class *version=~ : Plugin 버전 *description=~ : Plugin 설명 *lucene=~ : Lucene 버전 플러그인 설치 파일의 구성 함수 {| border="1" cellspacing="0" cellpadding="2" style="width: 100%;" |- | style="text-align: center; background-color: rgb(241, 241, 241);" | 종류 | style="text-align: center; background-color: rgb(241, 241, 241);" | 관련 class | style="text-align: center; background-color: rgb(241, 241, 241);" | 상세 |- | style="text-align: center;" | name() | style="text-align: center;" | <br/> | Plugin 이름 |- | style="text-align: center;" | description() | style="text-align: center;" | <br/> | Plugin 설명 |- | style="text-align: center;" | modules() | style="text-align: center;" | Module | Node level modules |- | style="text-align: center;" | indexModules() | style="text-align: center;" | Module | Per index modules |- | style="text-align: center;" | shardModules() | style="text-align: center;" | Module | Per index shard module |- | style="text-align: center;" | services() | style="text-align: center;" | LifecycleComponent | Node level services |- | style="text-align: center;" | indexServices() | style="text-align: center;" | CloseableIndexComponent | Per index services |- | style="text-align: center;" | shardServices() | style="text-align: center;" | <span style="line-height: 20.7999992370605px; text-align: center;">CloseableIndexComponent</span><br/> | Per index shard services |- | style="text-align: center;" | processModule() | style="text-align: center;" | Module | <br/> |- | style="text-align: center;" | additionalSettings() | style="text-align: center;" | <br/> | Plugin이 로딩될 때 추가되는 node 설정 |- | style="text-align: center;" | <span style="color:#0000FF;">onModule(AnyModule module)</span><br/> | style="text-align: center;" | <br/> | 모듈이 로딩될 때, 실행되는 함수 |} 참고 문헌 *[http://blog.iterativ.ch/2014/04/11/listindices-writing-your-first-elasticsearch-java-plugin/ http://blog.iterativ.ch/2014/04/11/listindices-writing-your-first-elasticsearch-java-plugin/] === 유용한 Plugin === {| border="1" cellspacing="0" cellpadding="2" style="width: 100%;" |- | style="text-align: center; background-color: rgb(241, 241, 241);" | 종류 | style="text-align: center; background-color: rgb(241, 241, 241);" | Plugin | style="text-align: center; background-color: rgb(241, 241, 241);" | 상세 |- | style="text-align: center;" | Site Plugin | style="text-align: center;" | Korean Analytis 한글 형태소 분석기 | plugin -install chanil1218/elasticsearch-analysis-korean/1.3.0<br/>또는<br/>plugin -url [https://dl-web.dropbox.com/spa/grpekzky9x5y6mc/elastic-analysis-korean/public/elasticsearch-analysis-korean-1.3.0.zip https://dl-web.dropbox.com/spa/grpekzky9x5y6mc/elastic-analysis-korean/public/elasticsearch-analysis-korean-1.3.0.zip] -install analysis-korean |- | style="text-align: center;" | Java Plugin | style="text-align: center;" | Marvel Plugin | plugin -i elasticsearch/marvel/latest<br/>노드에 대한 stats 정보를 인덱스에 색인하여 검색과 대시보드 형태로 제공<br/>[[Logstash|Logstash]]와 [[Kibana|Kibana]] 기반으로 구성<br/> |- | style="text-align: center;" | <br/> | style="text-align: center;" | <br/> | <br/> |} === 한글 형태소 분석기 Plugin === [https://github.com/chanil1218/elasticsearch-analysis-korean Korean Analysis for ElasticSearch (http://github.com/chanil1218/elasticsearch-analysis-korean)] 사이트에서 한글 형태소 분석기 Plugin을 설치 합니다. ElasticSearch용 한글 형태소 분석기 Plugin은 "루씬 한글분석기 오픈소스 프로젝트"를 가져와 작성이 되었습니다. 루씬 한글분석기 오픈소스 프로젝트 *카페 : [http://cafe.naver.com/korlucene http://cafe.naver.com/korlucene] *SourceForge : [http://sourceforge.net/projects/lucenekorean http://sourceforge.net/projects/lucenekorean] *SVN : [https://lucenekorean.svn.sourceforge.net/svnroot/lucenekorean https://lucenekorean.svn.sourceforge.net/svnroot/lucenekorean] *CVS : d:pserver:anonymous@lucenekorean.cvs.sourceforge.net:/cvsroot/lucenekorean <span style="color:#008000;"><span style="font-size:larger;">'''한글 형태소 분석기 Plugin 설치'''</span></span> {| cellspacing="1" cellpadding="1" style="font-size: 14px; color: rgb(37, 37, 37); font-family: sans-serif; line-height: 20.7999992370605px; width: 100%;" |- | style="background-color: rgb(241, 241, 241);" | bin/plugin -install chanil1218/elasticsearch-analysis-korean/1.3.0 만일 위 명령어로 설치시 오류가 발생하면 아래와 명령어로 설치를 다시 진행 합니다.<br/>bin/plugin -url [https://dl-web.dropbox.com/spa/grpekzky9x5y6mc/elastic-analysis-korean/public/elasticsearch-analysis-korean-1.3.0.zip https://dl-web.dropbox.com/spa/grpekzky9x5y6mc/elastic-analysis-korean/public/elasticsearch-analysis-korean-1.3.0.zip] -install analysis-korean |} 설치가 정상적으로 완료되면 plugins/analysis-korean/elasticsearch-analysis-korean-1.3.0.jar 파일을 확인할 수 있습니다. ---- *설치 후 확인 :*동작 확인 ::*korea 인덱스 삭제 curl -XDELETE 'node201.hadoop.com:9200/korea?pretty' ::*korea 인덱스 생성 #curl -XDELETE 'node201.hadoop.com:9200/korea?pretty' curl -XPUT 'node201.hadoop.com:9200/korea?pretty' -d '{ "settings": { "index": { "analysis": { "analyzer": { "kr_analyzer": { "type": "org.elasticsearch.index.analysis.KoreanAnalyzerProvider", "tokenizer": "KoreanTokenizer", "filter": [ "trim", "lowercase", "KoreanFilter" ] } } } } } }' ::*KoreanAnalyzer 동작 확인 ### curl -XGET 'node201.hadoop.com:9200/korea/_analyze?pretty&analyzer=kr_analyzer&text=이전 글에서 ElasticSearch와 Arirang 형태소 분석기를 살펴 보았습니다.' curl -XGET 'node201.hadoop.com:9200/korea/_analyze?pretty&analyzer=kr_analyzer&text=%EC%9D%B4%EC%A0%84%20%EA%B8%80%EC%97%90%EC%84%9C%20ElasticSearch%EC%99%80%20Arirang%20%ED%98%95%ED%83%9C%EC%86%8C%20%EB%B6%84%EC%84%9D%EA%B8%B0%EB%A5%BC%20%EC%82%B4%ED%8E%B4%20%EB%B3%B4%EC%95%98%EC%8A%B5%EB%8B%88%EB%8B%A4.' [http://node201.hadoop.com:9200/korea/_analyze?pretty&analyzer=kr_analyzer&text=이전%20글에서%20ElasticSearch와%20Arirang%20형태소%20분석기를%20살펴%20보았습니다 http://node201.hadoop.com:9200/korea/_analyze?pretty&analyzer=kr_analyzer&text=이전%20글에서%20ElasticSearch와%20Arirang%20형태소%20분석기를%20살펴%20보았습니다]. *elasticsearch-analysis-korean-1.3.0.jar 파일 구조 :*es-plugin.properties plugin=org.elasticsearch.plugin.analysis.kr.AnalysisKoreanPlugin :*packages org.apache.lucene.analysis.kr dic/ KoreanAnalyzer.java KoreanFilter.java KoreanTokenizer.java org.apache.solr.analysis.kr KoreanFilterFactory.java KoreanTokenizerFactory org.elasticsearch.index.analysis KoreanAnalysisBinderProcessor.java KoreanAnalyzerProvider.java KoreanFilterFactory.java KoreanTokenizerFactory.java org.elasticsearch.plugin.analysis.kr AnalysisKoreanPlugin.java *프로그램 호출 구조 :*AnalysisKoreanPlugin.java : AnalysisModule로 KoreanAnalysisBinderProcessor 등록 :*KoreanAnalysisBinderProcessor.java : Analyzer, Tokenizer, Filter 등록 ::*KoreanAnalyzerProvider.java (kr_analyzer) -> KoreanAnalyzer ::*KoreanTokenizerFactory.java (kr_tokenizer) -> KoreanTokenizer ::*KoreanFilterFactory.java (kr_filter) -> KoreanFilter == ElasticSearch 구성 == === elasticsearch.yml 설정 === [http://ko.wikipedia.org/wiki/YAML YAML] 문법에 따라 elasticsearch.yml 파일에서 설정 변수를 구성 합니다. {| border="1" cellspacing="0" cellpadding="2" style="width: 100%;" |- | style="text-align: center; background-color: rgb(204, 204, 204);" | 설정 변수 | style="text-align: center; background-color: rgb(204, 204, 204);" | Default | style="text-align: center; background-color: rgb(204, 204, 204);" | 상세 |- | style="text-align: center;" | cluster.name | style="text-align: center;" | elasticsearch | Cluster 이름<br/>data/Cluster 이름/ 폴더가 생성됨 |- | style="text-align: center;" | node.name | style="text-align: center;" | 0, 1, 2, ...<br/>(자동 생성)<br/> | Node 이름<br/>data/Cluster 이름/nodes/Node 이름/ 폴더가 생성됨 |- | style="text-align: center;" | node.master node.data node.client | style="text-align: center;" | true true false | Node 종류 *Master node **node.master: true **Cluster와 Node의 상태 정보를 관리 **Index와 Shard의 조정자 역할 *Data node **node.data: true **색인 데이터를 저장 *Load Balance node **node.master: false, node.data: false **검색 요청을 받아 분산 처리 *Client node **node.client: true, node.master: false **Master node로 사용하지 않고 Client node로 사용하고자 할 경우 |- | style="text-align: center;" | index.number_of_shards<br/> | style="text-align: center;" | 5 | Shard 개수 |- | style="text-align: center;" | index.number_of_replicas<br/> | style="text-align: center;" | 1 | Replica 개수 |- | style="text-align: center;" | http.enabled<br/> | style="text-align: center;" | true | http 서비스를 활성화 합니다. |- | style="text-align: center;" | http.port<br/> | style="text-align: center;" | 9200 | http 서비스에서 사용하는 port |- | style="text-align: center;" | transport.tcp.port<br/> | style="text-align: center;" | 9300 | <font color="#333333">[[Netty|netty]]의 Transport에서 사용하는 port</font> |- | style="text-align: center;" | transport.tcp.compress<br/> | style="text-align: center;" | | true이면 Transport에서 압축 허용 |- | style="text-align: center;" | network.bind_host<br/> | style="text-align: center;" | <br/> | Client의 요청을 접수할 IP 주소 |- | style="text-align: center;" | network.host<br/> | style="text-align: center;" | <br/> | ElasticSearch Node의 IP 주소 |- | style="text-align: center;" | gateway.type<br/> | style="text-align: center;" | local | Cluster의 메타 정보와 Index 설정, Mapping 정보 등을 어디서 관리할 것인지 지정 Gateway 종류 *local *shared fs *hadoop *s3 |- | style="text-align: center;" | discovery.zen.minimum_master_nodes<br/> | style="text-align: center;" | 1 | 최소 Master node 개수 (2개 이상 권장) |- | style="text-align: center;" | discovery.zen.ping.timeout<br/> | style="text-align: center;" | 3s | <br/> |- | style="text-align: center;" | discovery.zen.ping.multicast.enabled<br/> | style="text-align: center;" | true | <br/> |- | style="text-align: center;" | discovery.zen.ping.unicast.hosts<br/> | style="text-align: center;" | <br/> | Unicast 사용시 검색할 서버와 포트<br/>예) ["host1", "host2:port"] |} === Schema 설계 === curl -XPUT "http://localhost:9200/aaa?pretty=true" -d @aaa.json {| border="1" cellspacing="0" cellpadding="2" style="width: 100%;" |- | style="text-align: center; background-color: rgb(241, 241, 241);" | 단계 | style="text-align: center; background-color: rgb(241, 241, 241);" | 상세 |- | style="text-align: center;" | Entity 정의 | *Entity와 Entity Field 정의 *Entity간의 관계 정의 |- | style="text-align: center;" | Field 정의 | *검색 필드 정의 *통합 검색 필드 정의 *정렬 필드 정의 *패싯 필드 정의 *강조 필드 정의 |} == Java 개발 환경 구성 == === ElasticSearch Java 환경 구성 === *[http://www.elasticsearch.org/download/ ElasticSearch 다운로드] 사이트에서 elasticsearch-1.2.1.zip 파일을 다운로드 합니다. :*lib/elasticsearch-1.2.1.jar *[https://github.com/elasticsearch/elasticsearch/ ElasticSearch github] 사이트에서 elasticsearch-master.zip 파일을 다운로드 합니다. :*src/main/java/ 폴더 아래의 소스 파일을 사용 합니다. === Lucene Java 환경 구성 === *[http://lucene.apache.org/ Lucene] 사이트에서 "DOWNLOAD" 버튼을 눌러 lucene-4.8.1.zip 파일을 다운로드 합니다. :*core/lucene-core-4.8.1.jar *[http://lucene.apache.org/ Lucene] 사이트에서 "DOWNLOAD" 버튼을 눌러 lucene-4.8.1-src.tgz 파일을 다운로드 합니다. :*core/src/java/ 폴더 아래의 소스 파일을 사용 합니다. === Arirang Java 환경 구성 === *[https://lucenekorean.svn.sourceforge.net/svnroot/lucenekorean/ SVN 저장소]에서 소스를 다운로드 합니다. :*arirang.morph 소스를 먼저 받아 mvn install 진행 *[http://cafe.naver.com/korlucene/1102 http://cafe.naver.com/korlucene/1102] *[http://svn.apache.org/repos/asf/lucene/dev/branches/lucene4956/lucene/analysis/arirang/ http://svn.apache.org/repos/asf/lucene/dev/branches/lucene4956/lucene/analysis/arirang/] *사전 구성 및 사용법 :*[http://cafe.naver.com/korlucene/6 http://cafe.naver.com/korlucene/6] :*[http://cafe.naver.com/korlucene/877 http://cafe.naver.com/korlucene/877] [[File:Arirang 사전.zip|Arirang 사전.zip]] [http://www.jopenbusiness.com/mediawiki/images/5/54/Arirang_사전.zip http://www.jopenbusiness.com/mediawiki/images/5/54/Arirang_사전.zip] == REST API == *[[ElasticSearch - REST API|ElasticSearch - REST API]] ==JAVA API== ===Client=== import static org.elasticsearch.node.NodeBuilder.nodeBuilder; import org.elasticsearch.client.Client; import org.elasticsearch.client.transport.TransportClient; import org.elasticsearch.common.settings.ImmutableSettings; import org.elasticsearch.common.settings.Settings; import org.elasticsearch.common.transport.InetSocketTransportAddress; import org.elasticsearch.node.Node; private Boolean getTransportClient() { Settings settings = null; settings = ImmutableSettings.settingsBuilder().put("cluster.name", CLUSTER_NAME).build(); client = new TransportClient(settings).addTransportAddress(new InetSocketTransportAddress(HOST, PORT)); return true; } //--- elasticsearch.yml //--- cluster.name=~ private Boolean getNodeClient() { node = nodeBuilder().clusterName(CLUSTER_NAME).client(true).local(true).node(); client = node.client(); return true; } ===index java api=== import static org.elasticsearch.common.xcontent.XContentFactory.jsonBuilder; import org.elasticsearch.action.index.IndexResponse; json = jsonBuilder().startObject() .field("name", "value") .endObject().string(); res = client.prepareIndex("index", "type", "id").setSource(json).execute().actionGet(); UtilLogger.info.print(logCaller, "_index : " + res.getIndex()); UtilLogger.info.print(logCaller, "_type : " + res.getType()); UtilLogger.info.print(logCaller, "_id : " + res.getId()); UtilLogger.info.print(logCaller, "_version : " + res.getVersion()); UtilLogger.info.print(logCaller, "_index : " + res.getIndex()); ===get java api=== == 관리자 매뉴얼 == === 사전 구성 === #국어 사전 #온라인 사전을 통해서 주기적으로 갱신 #위키에 등록된 명사로 주기적으로 갱신 === elasticsearch.yml === *index.query.bool.max_clause_count === 오류 처리 === *Heap 메모리 부족시 :*vi /nas/appl/elasticsearch/bin/elasticsearch.in.sh #ES_MIN_MEM=256m #ES_MAX_MEM=1g ES_MIN_MEM=4g ES_MAX_MEM=4g *많은 Client에서 접속하여, 파일 개수 부족으로 오류 발생시 :*오류 메시지 org.elasticsearch.common.netty.channel.ChannelException: Failed to create a selector. Caused by: java.io.IOException: Too many open files :*조치 방법 ulimit -n vi /etc/security/limits.conf hduser soft nofile 999999 hduser hard nofile 999999 == 참고 문헌 == *[http://openhangul.com/ 한글 오픈데이터 플랫폼] *[[RegExp|RegExp]] *[[Nutch|Nutch]] *[[Lucene|Lucene]] / [[Solr|Solr]] *[[Sigar|Sigar]] *[[Kibana|Kibana]] : ElasticSearch의 데이터로 대시보드를 생성 *[[Fluentd|fluentd]] *[http://guruble.wordpress.com/tag/elasticsearch/ http://guruble.wordpress.com/tag/elasticsearch/] *[http://www.youtube.com/watch?v=6qpVJPNEkWc http://www.youtube.com/watch?v=6qpVJPNEkWc] *[https://www.found.no/tag/Elasticsearch/ https://www.found.no/tag/Elasticsearch/] :*[https://www.found.no/search/#search/query=ElasticSearch https://www.found.no/search/#search/query=ElasticSearch] :*[https://www.found.no/foundation/elasticsearch-internals/ https://www.found.no/foundation/elasticsearch-internals/] :*[https://code.google.com/p/google-guice/ Guice] :*[http://en.wikipedia.org/wiki/Dependency_injection Dependency injection] :*[http://www.jamesshore.com/Blog/Dependency-Injection-Demystified.html Dependency Injection Demystified, 2006.03] *[http://jjeong.tistory.com/ http://jjeong.tistory.com/] :*[http://jjeong.tistory.com/m/post/958 Elasticsearch: lucene arirang analyzer plugin, 2014.04] :*[http://jjeong.tistory.com/957 lucene: arirang maven build 하기, 2014.04] :*[http://jjeong.tistory.com/m/post/818 Elasticsearch: Plugins - site 플러그인과 custom analyzer 플러그인 만들기, 2013.04] :*[http://jjeong.tistory.com/743 elasticsearch 한국어 형태소분석기 분석의 이해, 2013.01] *[http://cafe.naver.com/korlucene http://cafe.naver.com/korlucene] *Helloworld naver :*[http://helloworld.naver.com/helloworld/645609 http://helloworld.naver.com/helloworld/645609] :*[http://helloworld.naver.com/helloworld/273788 elasticsearch로 로그 검색 시스템 만들기, 2013.02] *[http://www.sejong.or.kr/ 21세기 세종계획] *[http://nlp.postech.ac.kr/Course/CS730b/2005/ Statistical Natural Language Processing] :*[http://hegel.postech.ac.kr:5000/Research/POSTAG/sejong/postag_sejong_k.php POSTAG_SEJONG/K] *[http://elasticsearch-kr.github.io http://elasticsearch-kr.github.io] *[https://github.com/imotov/elasticsearch-facet-script https://github.com/imotov/elasticsearch-facet-script] *[https://www.found.no/foundation/writing-a-plugin/ https://www.found.no/foundation/writing-a-plugin/] *[http://en.wikipedia.org/wiki/ElasticSearch http://en.wikipedia.org/wiki/ElasticSearch] *[http://socurites.com/122 로그 파일에 대해 Elasticsearch 사용하기, 2012.10] *[http://misoin.tistory.com/27 elasticsearch (검색엔진) 설치 – 한글형태소분석기 적용, 2012.12] *[http://www.mimul.com/pebble/default/2012/02/23/1329988075236.html ElasticSearch 설치 및 샘플 사용기, 2012.02] *[http://helloworld.naver.com/helloworld/273788 elasticsearch로 로그 검색 시스템 만들기, 2013.02] *[https://gist.github.com/rajraj/1556657 Install ElasticSearch on CentOS 6] *[http://misoin.tistory.com/m/27 elasticsearch cluster 설치 + 한글형태소분석기, 2012.12] *ElasticSearch ([http://guruble.wordpress.com/tag/elasticsearch/ http://guruble.wordpress.com/tag/elasticsearch/]) :*[http://guruble.wordpress.com/2014/02/23/elasticsearch-1-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/ Elasticsearch - 1. 시작하기] :*[http://guruble.wordpress.com/2014/02/23/elasticsearch-2-shard-replica/ Elasticsearch - 2. Shard & Replica] :*[http://guruble.wordpress.com/2014/02/24/elasticsearch-3-node-discovery/ Elasticsearch - 3. Node Discovery] *[http://blog.naver.com/PostView.nhn?blogId=sung487&logNo=10164948506 http://blog.naver.com/PostView.nhn?blogId=sung487&logNo=10164948506] *MeCab (C++로 작성) :*[https://bitbucket.org/eunjeon/mecab-ko-lucene-analyzer/raw/master/elasticsearch-analysis-mecab-ko/ https://bitbucket.org/eunjeon/mecab-ko-lucene-analyzer/raw/master/elasticsearch-analysis-mecab-ko/] (최신) :*[https://github.com/bibreen/mecab-ko-lucene-analyzer https://github.com/bibreen/mecab-ko-lucene-analyzer] (예전 버전) ::*[https://github.com/bibreen/mecab-ko-lucene-analyzer/tree/master/elasticsearch-analysis-mecab-ko https://github.com/bibreen/mecab-ko-lucene-analyzer/tree/master/elasticsearch-analysis-mecab-ko] [[Category:Search|Category:Search]]<br/>[[Category:BigData|Category:BigData]]
ElasticSearch
문서로 돌아갑니다.
둘러보기 메뉴
개인 도구
로그인
이름공간
문서
토론
변수
보기
읽기
원본 보기
역사 보기
더 보기
검색
주요 메뉴
오픈소스 컨설팅
오픈소스
오픈소스 라이선스
오픈소스 커뮤니티
오픈소스 종류
오픈소스 현황
오픈소스 한글화
문자셋과 인코딩
Storage
Network
보안
고가용성
모니터링
오픈 API
오픈 서비스
Cloud
BigData
Android
산사랑 노트
둘러보기
인기 문서
최근 수정 문서
모든 문서
모든 분류
임의 문서
위키 사용법
자매 사이트
CMS
오비컨 홈페이지
오비컨 CMS
블로그
데모 - SuiteCRM
산사랑의 Twitter
산사랑의 Facebook
친구 사이트
공개SW 포털
OLIS
한국공개소프트웨어협회
AppCenter 지원본부
OLC
PSEG
개발자 블로그
블로터
개인 메뉴
메뉴 수정
양식함
도구
여기를 가리키는 문서
가리키는 글의 최근 바뀜
특수 문서 목록
문서 정보