下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 6/6IKAnalyzer中文分詞器V3.2.3使用手冊 IKAnalyzer中文分詞器 V3.2使用手冊 目錄 1.IK Analyzer3.X介紹 (2) 2.使用指南 (5) 3.詞表擴(kuò)展 (12) 4.針對solr的分詞器應(yīng)用擴(kuò)展 (14) 5.關(guān)于 (16) 1.IK Analyzer3.X介紹 IK Analyzer是一個(gè)開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經(jīng)推出了3個(gè)大版本。最初,它是以開源項(xiàng)目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IK Analyzer3.X則發(fā)展
2、為面向Java的公用分詞組件,獨(dú)立于Lucene項(xiàng)目,同時(shí)提供了對Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn)。 1.1IK Analyzer3.X結(jié)構(gòu)設(shè)計(jì) 1.2IK Analyzer3.X特性 ?采用了特有的“正向迭代最細(xì)粒度切分算法“,具有80萬字/秒的高速處理能力。 ?采用了多子處理器分析模式,支持:英文字母(IP地址、Email、URL)、數(shù)字(日期,常用中文數(shù)量詞,羅馬數(shù)字,科學(xué)計(jì)數(shù)法),中文詞匯(姓名、地名處理)等分詞處理。?優(yōu)化的詞典存儲,更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義 ?針對Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser(吐血推薦);采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排
3、列組合,能極大的提高Lucene檢索的命中率。 1.3分詞效果示例 文本原文1: IKAnalyzer是一個(gè)開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經(jīng)推出了3個(gè)大版本。 分詞結(jié)果: ikanalyzer|是|一個(gè)|一|個(gè)|開源|的|基于|java|語言|開發(fā)|的|輕量級|量級|的|中文|分詞|工具包|工具|從|2006|年|12|月|推出|1.0 |版|開始|ikanalyzer|已經(jīng)|推出|出了|3|個(gè)大|個(gè)|版本 文本原文2: 永和服裝飾品有限公司 分詞結(jié)果: 永和|和服|服裝|裝飾品|裝飾|飾品|有限|公司 文本原文
4、3: 博客:http:/./doc/5fee914ffe4733687e21aaf7.html 電子郵件:linliangyi2005http:/./doc/5fee914ffe4733687e21aaf7.html 分詞結(jié)果: |博客|http:/./doc/5fee914ffe4733687e21aaf7.html |linliangyi|2007|javaeye|com|電子郵件|郵件地址|linliangyi2005http:/./doc/5fee914ffe4733687e21aaf7.html |linliangyi|2005|gmail|com 2.使用指南 2.1下載地址 Go
5、ogleCode開源項(xiàng)目:http:/./doc/5fee914ffe4733687e21aaf7.html /p/ik-analyzer/ GoogleCode SVN下載:http:/./doc/5fee914ffe4733687e21aaf7.html /svn/trunk/ 2.2與相關(guān)項(xiàng)目的版本兼容 IK分詞器版本L ucene版本S olr版本 3.1.5GA兼容2.9.1及先前版本對solr1.3提供接口實(shí)現(xiàn) (詳細(xì)請參考對應(yīng)版本使用手冊) 3.1.6GA兼容2.9.1及先前版本對solr1.3、solr1.4提供接口實(shí)現(xiàn) (詳細(xì)請參考對應(yīng)版本使用手冊) 3.2.0GA兼容Luc
6、ene2.9及3.0版本 不支持Lucene2.4及先前 版本僅對solr1.4提供接口實(shí)現(xiàn) (請參考本手冊solr部分說明) 2.3安裝部署 IK Analyzer安裝包包含: 1.IKAnalyzer中文分詞器V3.X使用手冊(即本文檔) 2.IKAnalyzer 3.X.jar(主jar包) 3.IKAnalyzer.cfg.xml(分詞器擴(kuò)展配置文件) 4.ext_stopword.dic(擴(kuò)展的stopword詞典,3.2以上版本提供) 它的安裝部署十分簡單,將IKAnalyzer3.X.jar部署于項(xiàng)目的lib目錄中;IKAnalyzer.cfg.xml 與ext_stopword
7、.dic文件放置在代碼根目錄(對于web項(xiàng)目,通常是WEB-INF/classes 目錄,同hibernate、log4j等配置文件相同)下即可。 2.4Lucene用戶快速入門 代碼樣例 IKAnalyzerDemo 執(zhí)行結(jié)果:命中:1 2.5關(guān)鍵API 說明 類org.wltea.analyzer.lucene org.wltea.analyzer.lucene. .IKAnalyzer 說明:IK 分詞器的主類,是IK 分詞器的Lucene Analyzer 類實(shí)現(xiàn)。 該類使用方法請參考“代碼樣例”章節(jié) ?public IKAnalyzer() 說明:構(gòu)造函數(shù),默認(rèn)實(shí)現(xiàn)最細(xì)粒度切分算法
8、?public IKAnalyzer(boolean isMaxWordLength) 說明:新構(gòu)造函數(shù),從版本V3.1.1起 參數(shù)1:boolean isMaxWordLength ,當(dāng)為true 時(shí),分詞器進(jìn)行最大詞長切分;當(dāng)為false 時(shí),分詞器進(jìn)行最細(xì)粒度切分。 類org.wltea.analyzer.lucene org.wltea.analyzer.lucene. .IKQueryParser ?public static void setMaxWordLength(boolean isMaxWordLength) 說明:設(shè)置QueryParser 的解釋時(shí),分詞器的切詞方式,從
9、版本V3.2.3起 參數(shù)1:boolean isMaxWordLength ,是否采用最大詞長分詞;true 采用最大詞長分詞;false 不采用。 返回值:無內(nèi)容:Document ?public static Query parse(String field,String query)throws IOException 說明:單條件,單Field查詢分析 參數(shù)1:String field,查詢的目標(biāo)域名稱 參數(shù)2:String query,查詢的關(guān)鍵字 返回值:構(gòu)造一個(gè)單條件,單Field查詢器 ?public static Query parseMultiField(Stringfie
10、lds,String query)throws IOException 說明:多Field,單條件查詢分析 參數(shù)1:Stringfields,多個(gè)查詢的目標(biāo)域名稱的數(shù)組 參數(shù)2:String query,查詢的關(guān)鍵字 返回值:構(gòu)造一個(gè)多Field,單條件的查詢器 ?public static Query parseMultiField(Stringfields,String query, BooleanClause.Occurflags)throws IOException 說明:多Field,單條件,多Occur查詢分析 參數(shù)1:Stringfields,多個(gè)查詢的目標(biāo)域名稱的數(shù)組 參數(shù)2:
11、String query,查詢的關(guān)鍵字 參數(shù)3:BooleanClause.Occurflags,查詢條件的組合方式(Or/And)返回值:構(gòu)造一個(gè)多Field,單條件,多Occur的查詢器 ?public static Query parseMultiField(Stringfields,Stringqueries)throws IOException 說明:多Field,多條件查詢分析 參數(shù)1:Stringfields,多個(gè)查詢的目標(biāo)域名稱的數(shù)組 參數(shù)2:Stringqueries,對應(yīng)多個(gè)查詢域的關(guān)鍵字?jǐn)?shù)組 返回值:構(gòu)造一個(gè)多Field,多條件的查詢器 ?public static Qu
12、ery parseMultiField(Stringfields,Stringqueries, BooleanClause.Occurflags)throws IOException 說明:多Field,多條件,多Occur查詢 參數(shù)1:Stringfields,多個(gè)查詢的目標(biāo)域名稱的數(shù)組 參數(shù)2:Stringqueries,對應(yīng)多個(gè)查詢域的關(guān)鍵字?jǐn)?shù)組 參數(shù)3:BooleanClause.Occurflags,查詢條件的組合方式(Or/And) 返回值:構(gòu)造一個(gè)多Field,多條件,多Occur的查詢器 org.wltea.analyzer.lucene.IKSimilarity 類org.w
13、ltea.analyzer.lucene 說明:IKAnalyzer的相似度評估器。該類重載了DefaultSimilarity的coord方法,提高詞元命中個(gè)數(shù)在相似度比較中的權(quán)重影響,即,當(dāng)有多個(gè)詞元得到匹配時(shí),文檔的相似度將提高。 該類使用方法請參考“代碼樣例”章節(jié) org.wltea.analyzer.IKSegmentation 類org.wltea.analyzer 說明:這是IK分詞器的核心類。它是真正意義上的分詞器實(shí)現(xiàn)。IKAnalyzer的3.0版本有別于之前的版本,它是一個(gè)可以獨(dú)立于Lucene的Java分詞器實(shí)現(xiàn)。當(dāng)您需要在Lucene以外的環(huán)境中單獨(dú)使用IK中文分詞組件
14、時(shí),IKSegmentation正是您要找 的。 ?public IKSegmentation(Reader input) 說明:IK主分詞器構(gòu)造函數(shù),默認(rèn)實(shí)現(xiàn)最細(xì)粒度切分 參數(shù)1:Reader input,字符輸入讀取 ?public IKSegmentation(Reader input,boolean isMaxWordLength) 說明:IK主分詞器新構(gòu)造函數(shù),從版本V3.1.1起 參數(shù)1:Reader input,字符輸入讀取 參數(shù)2:boolean isMaxWordLength,當(dāng)為true時(shí),分詞器進(jìn)行最大詞長切分; 當(dāng)為false時(shí),分詞器進(jìn)行最細(xì)粒度切分。 ?public
15、 Lexeme next()throws IOException 說明:讀取分詞器切分出的下一個(gè)語義單元,如果返回null,表示分詞器已經(jīng)結(jié)束。 返回值:Lexeme語義單元對象,即相當(dāng)于Lucene的詞元對象Token org.wltea.analyzer.Lexeme 類org.wltea.analyzer 說明:這是IK分詞器的語義單元對象,相當(dāng)于Lucene中的Token詞元對象。由于3.0版本被設(shè)計(jì)為獨(dú)立于Lucene的Java分詞器實(shí)現(xiàn),因此它需要Lexeme來代表分詞的結(jié)果。 ?public int getBeginPosition() 說明:獲取語義單元的起始字符在文本中的位置
16、 返回值:int,語義單元相對于文本的絕對起始位置 ?public int getEndPosition() 說明:獲取語義單元的結(jié)束字符的下一個(gè)位置 返回值:int,語義單元相對于文本的絕對終止位置的下一個(gè)字符位置?public int getLength() 說明:獲取語義單元包含字符串的長度 返回值:int,語義單元長度=getEndPositiongetBeginPosition ?public String getLexemeText() 說明:獲取語義單元包含字符串內(nèi)容 返回值:String,語義單元的實(shí)際內(nèi)容,即分詞的結(jié)果 3.詞表擴(kuò)展 目前,IK分詞器自帶的主詞典擁有27萬左右
17、的漢語單詞量。由于個(gè)人的精力有限,并沒有對搜集到的詞庫進(jìn)行全范圍的篩選、清理。此外,對于分詞組件應(yīng)用場景所涉及的領(lǐng)域的不同,也需要各類專業(yè)詞庫的支持。為此,IK分詞器提供了對詞典的擴(kuò)展支持。 在IK分詞器3.1.3以上版本,同時(shí)提供了對用戶自定義的停止詞(過濾詞)的擴(kuò)展支持。 3.1基于API的詞典擴(kuò)充 IK分詞器支持使用API編程模型擴(kuò)充您的詞典和停止詞典。如果您的個(gè)性化詞典是存儲于數(shù)據(jù)庫中,這個(gè)方式應(yīng)該對您適用。API如下: ?類org.wltea.analyzer.dic.Dictionary 說明:IK分詞器的詞典對象。它負(fù)責(zé)中文詞匯的加載,內(nèi)存管理和匹配檢索。 ?public sta
18、tic void loadExtendWords(ListextWords) 說明:加載用戶擴(kuò)展的詞匯列表到IK的主詞典中,增加分詞器的可識別詞語。 參數(shù)1:ListextStopWords)說明:加載用戶擴(kuò)展的停止詞列表,從版本V3.1.3起 參數(shù)1:ListextStopWords,擴(kuò)展的停止詞列表 返回值:無 3.2基于配置的詞典擴(kuò)充 IK分詞器還支持通過配置IKAnalyzer.cfg.xml文件來擴(kuò)充您的專有詞典以及停止詞典(過濾詞典)。 1.部署IKAnalyzer.cfg.xml IKAnalyzer.cfg.xml部署在代碼根目錄下(對于web項(xiàng)目,通常是WEB-INF/cla
19、sses目錄)同hibernate、log4j等配置文件相同。 2.詞典文件的編輯與部署 分詞器的詞典文件格式是無BOM的UTF-8編碼的中文文本文件,文件擴(kuò)展名不限。詞典中,每個(gè)中文詞匯獨(dú)立占一行,使用rn的DOS方式換行。(注,如果您不了解什么是無BOM的UTF-8格式,請保證您的詞典使用UTF-8存儲,并在文件的頭部添加一空行)。您可以參考分詞器源碼org.wltea.analyzer.dic包下的.dic文件。 詞典文件應(yīng)部署在Java的資源路徑下,即ClassLoader能夠加載的路徑中。(推薦同IKAnalyzer.cfg.xml放在一起) 3.IKAnalyzer.cfg.xml文件的配置 IK Analyzer擴(kuò)展配置 /mydict.dic; /com/mycompany/dic/mydict2.dic; /ext_stopword.dic 在配置文件中,用戶可一次配置多個(gè)詞典文件。文件名使用“;”號分隔。文件路徑為相對java包的起始根路徑。 4.針對solr的分詞器應(yīng)用擴(kuò)展 IK分詞器3.2.0以上版本從API層面提供了對solr1.4項(xiàng)目擴(kuò)展 4.1solr1.4的TokenizerFactor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO 21219-21:2025 EN Intelligent transport systems - Traffic and travel information (TTI) via transport protocol experts group,generation 2 (TPEG2) - Part 21: Geographic lo
- 《環(huán)境安全教育資料》課件
- 2024年隔離酒店消防安全應(yīng)急預(yù)案
- 單位管理制度合并匯編人員管理篇
- 單位管理制度分享大全【職工管理】十篇
- 《種按摩康復(fù)療法》課件
- 單位管理制度呈現(xiàn)合集【職員管理篇】十篇
- 單位管理制度呈現(xiàn)大合集【員工管理篇】十篇
- 《電子商務(wù)新技術(shù)》課件
- 2024年地稅個(gè)人年度工作總結(jié)
- (完整版)光伏施工質(zhì)量控制重點(diǎn)
- 微積分試卷及規(guī)范標(biāo)準(zhǔn)答案6套
- 藍(lán)色國家科學(xué)基金16.9杰青優(yōu)青人才科學(xué)基金答辯模板
- 銷售儲備培養(yǎng)方案
- 《南亞》優(yōu)教課件(第1課時(shí))
- 【電動汽車兩擋變速器結(jié)構(gòu)設(shè)計(jì)10000字(論文)】
- 非固化橡膠瀝青防水涂料技術(shù)交底
- 高二期末考試動員主題班會
- 易錯(cuò)題(試題)-2024一年級上冊數(shù)學(xué)北師大版含答案
- 滕州市九年級上學(xué)期期末語文試題(原卷版+解析版)
- EPC項(xiàng)目投標(biāo)人承包人工程經(jīng)濟(jì)的合理性分析、評價(jià)
評論
0/150
提交評論