"Lucene"의 두 판 사이의 차이
둘러보기로 가기
검색하러 가기
잔글 |
잔글 |
||
175번째 줄: | 175번째 줄: | ||
elasticsearch-analysis-korean-1.3.0.jar #--- Arirang 한글 형태소 분석기 포함 | elasticsearch-analysis-korean-1.3.0.jar #--- Arirang 한글 형태소 분석기 포함 | ||
− | ==참고 문헌== | + | == 관련 오픈소스 == |
− | *[[Solr]], [[ElasticSearch]] | + | |
− | *[[Nutch]] : 오픈 소스 인터넷 웹 검색엔진 프로젝트 | + | == 참고 문헌 == |
− | *[[RegExp]] | + | |
+ | *[[Solr|Solr]], [[ElasticSearch|ElasticSearch]] | ||
+ | *[[Nutch|Nutch]] : 오픈 소스 인터넷 웹 검색엔진 프로젝트 | ||
+ | *[[RegExp|RegExp]] | ||
*[http://opennlp.apache.org/ OpenNLP] | *[http://opennlp.apache.org/ OpenNLP] | ||
189번째 줄: | 192번째 줄: | ||
*[http://blog.naver.com/PostView.nhn?blogId=yalleeya&logNo=110124289708&parentCategoryNo=&categoryNo=&viewDate=&isShowPopularPosts=false&from=postView 풀 텍스트 검색엔진 Lucene 2부, 2011.11] | *[http://blog.naver.com/PostView.nhn?blogId=yalleeya&logNo=110124289708&parentCategoryNo=&categoryNo=&viewDate=&isShowPopularPosts=false&from=postView 풀 텍스트 검색엔진 Lucene 2부, 2011.11] | ||
− | *[http://gurubehc.wordpress.com/2014/01/19/nlp/ 자연어처리, 2014.01] | + | *[http://gurubehc.wordpress.com/2014/01/19/nlp/ 자연어처리, 2014.01] |
*인공지능 - 자연어 처리 | *인공지능 - 자연어 처리 | ||
− | :*http://hub-ai.com/nlp/412 | + | |
− | :*http://hub-ai.com/nlp/417 | + | :*[http://hub-ai.com/nlp/412 http://hub-ai.com/nlp/412] |
− | :*http://hub-ai.com/nlp/419 | + | :*[http://hub-ai.com/nlp/417 http://hub-ai.com/nlp/417] |
− | :*http://hub-ai.com/nlp/424 | + | :*[http://hub-ai.com/nlp/419 http://hub-ai.com/nlp/419] |
− | :*http://hub-ai.com/nlp/428 | + | :*[http://hub-ai.com/nlp/424 http://hub-ai.com/nlp/424] |
− | :*http://hub-ai.com/nlp/430 | + | :*[http://hub-ai.com/nlp/428 http://hub-ai.com/nlp/428] |
− | :*http://hub-ai.com/nlp/433 | + | :*[http://hub-ai.com/nlp/430 http://hub-ai.com/nlp/430] |
− | :*http://hub-ai.com/nlp/438 | + | :*[http://hub-ai.com/nlp/433 http://hub-ai.com/nlp/433] |
− | :*http://hub-ai.com/nlp/441 | + | :*[http://hub-ai.com/nlp/438 http://hub-ai.com/nlp/438] |
− | :*http://hub-ai.com/nlp/443 | + | :*[http://hub-ai.com/nlp/441 http://hub-ai.com/nlp/441] |
+ | :*[http://hub-ai.com/nlp/443 http://hub-ai.com/nlp/443] | ||
*Score | *Score | ||
− | |||
− | |||
− | [[Category:Search]] | + | :*[http://lucene.apache.org/core/4_8_1/core/org/apache/lucene/search/package-summary.html#scoring http://lucene.apache.org/core/4_8_1/core/org/apache/lucene/search/package-summary.html#scoring] |
− | [[Category:BigData]] | + | :*[http://lucene.apache.org/core/4_8_1/core/org/apache/lucene/search/similarities/TFIDFSimilarity.html http://lucene.apache.org/core/4_8_1/core/org/apache/lucene/search/similarities/TFIDFSimilarity.html] |
+ | [[Category:Search|Category:Search]]<br/>[[Category:BigData|Category:BigData]] |
2014년 11월 11일 (화) 12:39 판
검색 엔진인 Lucene을 정리 합니다.
- 홈페이지 : http://lucene.apache.org/
- 다운로드 :
- 라이선스 :
- 플랫폼 : Java
Lucene 개요
- Lucene Architecture
- Lucene Process 이해
- Lucene Score
- 용어 이해
용어 | 상세 |
Document (DBMS의 record) |
|
Analyzer |
|
Index (DBMS의 database) |
|
Query |
|
Filter |
|
TopDocs |
|
Scorer |
|
Lucene Query language
문법 | 상세 |
"term" |
|
AND, OR, NOT, () |
|
+term, -term |
|
field:term |
|
term~n, "term"~n |
|
[termFr TO termTo] |
|
\특수문자 |
|
자연어 처리
- 자연어 처리 (Natural Language Processing, NLP) : 형태소 분석 -> 구문 분석 -> 의미 분석
- 형태소 분석 (Morphological Analysis) : 문장을 형태소로 분해하고 각 형태소에 품사 등을 결정
- 구문 분석 : 문법 규칙 및 여러 종류의 규칙에 의해 문장을 해석하고 그 구조를 명확히 함
- 의미 분석 (Semantic Analysis) : 형태소의 의미를 해석
- 자연어 처리 관련 용어
- 자모 : 문자 체계의 한 요소 (자음, 모음)
- 용언 : 꾸미는 말 (동사, 형용사)
- 어간 (stem) : 용언이 활용할 때, 원칙적으로 모양이 변하지 않는 부분
- 어미 : 용언이 활용할 때 변하는 부분으로 문법적 기능을 수행
- 품사 : 명사, 대명사, 수사, 동사, 형용사, 관형사, 부사, 감탄사, 조사
- 형태소 (Morpheme) : 의미를 가진 최소의 언어 단위
- 어절 분류
- NP_SBP : 명사 + 주격 조사
- NP_OBJ : 명사 + 목적격 조사
- NP_MOD : 명사 + 관형격 조사
- VP : 동사 + 연결 어미 또는 동사 + 선어말 어미 + 종결 어미
- 자연어 처리의 형식적 모델
- n-gram : 문자의 빈도와 문자간 관계
- Finite Automaton Model (유한 오토마톤 모델) : 인접한 단어간 문법적 제약을 수학적으로 모델링
- 자연어 처리 평가
- 정확도 (precision) : 실험 결과가 true인 것 중에서 실제 true인 것의 비율
- 재현율 (recall) : 실제 true인 것 중에서 실험 결과가 true인 것의 비율
- 정밀도 (accuracy) : 전체 결과 중 실제 정답과 같은 결과를 내놓은 실험 결과의 비율
- 참고 문헌
색인기
- 참고 문헌
Lucene 개발 환경
- 라이브러리
#--- 공통 라이브러리 commons-logging-1.1.1.jar log4j-1.2.16.jar #--- Lucene 라이브러리 lucene-core-4.8.1.jar lucene-analyzers-common-4.8.1.jar lucene-queryparser-4.8.1.jar lucene-suggest-4.8.1.jar lucene-queries-4.8.1.jar #--- ElasticSearch 라이브러리 elasticsearch-1.2.0.jar elasticsearch-analysis-korean-1.3.0.jar #--- Arirang 한글 형태소 분석기 포함
관련 오픈소스
참고 문헌
- Solr, ElasticSearch
- Nutch : 오픈 소스 인터넷 웹 검색엔진 프로젝트
- RegExp
- OpenNLP
- 인공지능 - 자연어 처리
- Score