中文文本預(yù)處理_第1頁
中文文本預(yù)處理_第2頁
中文文本預(yù)處理_第3頁
中文文本預(yù)處理_第4頁
中文文本預(yù)處理_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1中文文本預(yù)處理分詞軟件調(diào)用(中科院分詞系統(tǒng))軟件下載:/軟件包目錄&介紹|Readme.txt >介紹I+---binI+---DocExtractor >文檔篇章語義抽取系統(tǒng)|| DocExtractor.bat-->批處理,可以針對指定的文件夾進(jìn)行語義抽取|| DocExtractor.dl卜->支撐的動(dòng)態(tài)鏈接庫,基于分詞基礎(chǔ)上|| DocExtractorSample.exe-->應(yīng)用程序II|\---ICTCLAS2015 >分詞系統(tǒng)| ICTCLAS-tools.exe--〉分詞的支撐工具,可用于測試,本處主要用來做用戶詞典導(dǎo)入| importuserdict.bat-->可將用戶詞典自動(dòng)導(dǎo)入到系統(tǒng)內(nèi)| NLPIR.dl卜->W(wǎng)in32下的支撐動(dòng)態(tài)鏈接庫,其他環(huán)境的庫,可以訪問lib對應(yīng)環(huán)境的庫文件| NLPIR.lib| NLPIR_WinDemo.exe-->W(wǎng)in32下的演示程序,在Win832位下編譯而成,部分環(huán)境可能不支持,或者顯示異常| userdic.txt-->用戶詞典,用戶可以自行編輯|+---Data-->系統(tǒng)核心詞庫| \---English-->英文處理的支持知識庫,如果不需要英文處理的功能,可以不加載本庫。|+—doc-->相關(guān)文檔支持| ICTPOS3.0.doc-->我們的詞性標(biāo)注集說明| NLPIR-ICTCLAS2015分詞系統(tǒng)開發(fā)手冊.pdf-->開發(fā)使用手冊|+---include-->系統(tǒng)頭文件|NLPIR.h|+---lib-->不同環(huán)境下的支撐庫,每一種庫,同時(shí)支持C/C++/C#/Java庫。其他小眾化的環(huán)境支持,請聯(lián)系我們| +---linux32-->Linux32bit操作系統(tǒng)下的支持庫| |libNLPIR.so|丨| +---linux64-->Linux64bit操作系統(tǒng)下的支持庫|| libNLPIR.so|| Readme.txt|丨| +---win32-->Win32bit操作系統(tǒng)下的支持庫| |NLPIR.dll| |NLPIR.libII| \---win64-->Win64bit操作系統(tǒng)下的支持庫| NLPIR.dll| NLPIR.libI+---ppt-->NLPIR2015開幕演講的內(nèi)容| NLPIR2014開幕演講.pptx|+---sample-->NLPIR2015示例程序,均調(diào)試通過| +---C-->NLPIR2015C語言示例程序| | Example-C.cpp| | Makefile:Linux下的編譯makefile| +---C#-->NLPIR2014C#語言示例程序| | Example.cs|丨|+---pythonsample-->NLPIR2015Python示例程序|丨| \---JnaTest_NLPIR-->NLPIR2015Java采用JNA調(diào)用的示例程序| | .classpath| | .project| | nlperties| | Readme.txt| 丨| +---.settings| | org.eclipse.core.resources.prefs| | org.eclipse.jdt.core.prefs| 丨| +---bin| |+---code| | | NlpirTest$CLibrary.class| | | NlpirTest.class| 丨丨+---code| |NIpirTest.javaI I| \---utils| ReadConfigUtil.java| SystemParas.javaI\---test-->NLPIR2015測試文檔集合| 18屆三中全會.TXT| English.txt|中英文混雜示例.txt|屌絲,一個(gè)字頭的誕生.TXT|用戶詞典.txt|\---docs-->NLPIR2015測試文檔集合0-兩棲戰(zhàn)車亮相.txt遼寧阜新官員涉嫌淫亂事件舉報(bào)者被刑拘.txt遼寧一男子女廁用手機(jī)拍照被拘(圖).txt兩人打甲流疫苗后死亡另有15例較嚴(yán)重異常反應(yīng).txtEnglish.txt1.1.3軟件使用(C++)需要文件:include/NLPIR.h、lib文件夾下根據(jù)系統(tǒng)和版本選擇不同的庫文件、ata文件夾。常用接口:NLPIR_Init:boolNLPIR_Init(constchar*sInitDirPath=0,intencoding=GBK_CODE,constchar*sLicenceCode=0)接口說明:軟件初始化。參數(shù)說明:sInitDirPath初始化文件夾位置,表示Configure.xml和Data文件夾所在位置,默認(rèn)值為0,表示當(dāng)前目錄;encoding輸入語料的編碼格式,默認(rèn)為GBK_C0DE,可選參數(shù)為UTF8_C0DE和BIG5_CODE;sLicenseCode證書編碼,默認(rèn)可不填。NLPIR_Exit:boolNLPIR_Exit()接口說明:軟件運(yùn)行結(jié)束,釋放內(nèi)存。NLPIR_ImportUserDict:unsignedintNLPIR_ImportUserDict(constchar*sFilename,boolbOverwrite=true)接口說明:引入用戶自定義詞典參數(shù)說明:sFilename用戶詞典文件名;bOverwrite是否覆蓋現(xiàn)有詞典,默認(rèn)為true,改為false將該詞典添加到現(xiàn)有詞典。NLPIR_ParagraphProcess:constchar*NLPIR_ParagraphProcess(constchar*sParagraph,intbPOStagged=1)接口說明:分詞函數(shù)參數(shù)說明:sParagraph需要分詞的字符串;bPOStagged分詞結(jié)果是否包含POS標(biāo)簽,即詞性標(biāo)簽,默認(rèn)為true其他接口函數(shù)請參考Doc目錄下開發(fā)手冊1.1.4軟件使用(Java)主要通過Jna的方式對C++接口進(jìn)行調(diào)用。需要文件:lib下根據(jù)系統(tǒng)和版本選用不同的資源庫文件、Data文件夾和jna.jar使用方法:Jna編程首先根據(jù)C的頭文件來聲明對應(yīng)的函數(shù),聲明后就像調(diào)用普通的java方法一樣使用即可,詳細(xì)使用例子,請見代碼【注意:我們的dll是通用的,C、java、C#所使用的dll是同一個(gè)】樣例代碼:NlpirTest類就是對應(yīng)的分詞的C頭文件的函數(shù)的聲明:publicclassNlpirTest{//定義接口CLibrary,繼承自com.sun.jna.LibrarypublicinterfaceCLibraryextendsLibrary{//定義并初始化接口的靜態(tài)變量這一個(gè)語句是來加載dll的,注意dll文件的路徑可以是絕對路徑也可以是相對路徑,只需要填寫dll的文件名,不能加后綴。CLibraryInstance=(CLibrary)Native.loadLibrary("E://java//JNI//JnaTest_NLPIR//NLPIR",CLibrary.class);//初始化函數(shù)聲明publicintNLPIR_Init(byte[]sDataPath,intencoding,byte[]sLicenceCode);//執(zhí)行分詞函數(shù)聲明publicStringNLPIR_ParagraphProcess(StringsSrc,intbPOSTagged);//提取關(guān)鍵詞函數(shù)聲明publicStringNLPIR_GetKeyWords(StringsLine,intnMaxKeyLimit,booleanbWeightOut);//退出函數(shù)聲明publicvoidNLPIR_Exit();}publicstaticStringtransString(StringaidString,Stringori_encoding,Stringnew_encoding){try{returnnewString(aidString.getBytes(ori_encoding),new_encoding);}catch(UnsupportedEncodingExceptione){e.printStackTrace();}returnnull;publicstaticvoidmain(String[]args)throwsException{Stringargu=//Stringsystem_charset="GBK";//GBK 0Stringsystem_charset="GBK";intcharset_type=1;//intcharset_type=0;//調(diào)用printf打印信息intinit_flag=CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset),charset_type,"0".getBytes(system_charset));if(0==init_flag){System.err.println("初始化失??!");return;}StringsInput="據(jù)悉,質(zhì)檢總局已將最新有關(guān)情況再次通報(bào)美方,要求美方加強(qiáng)對輸華玉米的產(chǎn)地來源、運(yùn)輸及倉儲等環(huán)節(jié)的管控措施,有效避免輸華玉米被未經(jīng)我國農(nóng)業(yè)部安全評估并批準(zhǔn)的轉(zhuǎn)基因品系污染?!ǎ籗tringnativeBytes=null;try{nativeBytes=CLibrary.Instance.NLPIR_ParagraphProcess(sInput,1);System.out.println("分詞結(jié)果為:"+nativeBytes);intnCountKey=0;StringnativeByte=CLibrary.Instance.NLPIR_GetKeyWords(sInput,10,false);System.out.print("關(guān)鍵詞提取結(jié)果是:"+nativeByte);CLibrary.Instance.NLPIR_Exit();}catch(Exceptionex){//TODOAuto-generatedcatchblockex.printStackTrace();}}}1.2句法分析軟件調(diào)用(斯坦福)1.2.1軟件下載:/software/lex-parser.shtml1.2.2軟件說明可以根據(jù)不同的需要下載不同語言的版本,這里僅介紹Java版本的使用方法。解壓文件中l(wèi)exparser-gui.bat進(jìn)行可視化頁面運(yùn)行,解析需要的模型文件存放在stanford-parser-3.3.0-models.jar,可以對其解壓,方面以后使用。在中文處理方面,提供的模型文件有chineseFactored.ser.gz、chinesePCFG.ser.gz、xinhuaFactored.ser.gz、xinhuaFactoredSegmenting.ser.gz、xinhuaPCFG.ser.gz。factored包含詞匯化信息,PCFG是更快更小的模板,xinhua據(jù)說是根據(jù)大陸的《新華日報(bào)》訓(xùn)練的語料,而Chinese同時(shí)包含香港和臺灣的語料,xinhuaFactoredSegmenting.ser.gz可以對未分詞的句子進(jìn)行句法解析。API調(diào)用流程指定模型文件,指定一些參數(shù)信息。Stringgrammars="edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz";加載模型文件,初始化用于句法分析的類LexicalizedParser。LexicalizedParser

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論