中文文本預處理_第1頁
中文文本預處理_第2頁
中文文本預處理_第3頁
中文文本預處理_第4頁
中文文本預處理_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1中文文本預處理分詞軟件調用(中科院分詞系統(tǒng))軟件下載:/軟件包目錄&介紹|Readme.txt >介紹I+---binI+---DocExtractor >文檔篇章語義抽取系統(tǒng)|| DocExtractor.bat-->批處理,可以針對指定的文件夾進行語義抽取|| DocExtractor.dl卜->支撐的動態(tài)鏈接庫,基于分詞基礎上|| DocExtractorSample.exe-->應用程序II|\---ICTCLAS2015 >分詞系統(tǒng)| ICTCLAS-tools.exe--〉分詞的支撐工具,可用于測試,本處主要用來做用戶詞典導入| importuserdict.bat-->可將用戶詞典自動導入到系統(tǒng)內| NLPIR.dl卜->Win32下的支撐動態(tài)鏈接庫,其他環(huán)境的庫,可以訪問lib對應環(huán)境的庫文件| NLPIR.lib| NLPIR_WinDemo.exe-->Win32下的演示程序,在Win832位下編譯而成,部分環(huán)境可能不支持,或者顯示異常| userdic.txt-->用戶詞典,用戶可以自行編輯|+---Data-->系統(tǒng)核心詞庫| \---English-->英文處理的支持知識庫,如果不需要英文處理的功能,可以不加載本庫。|+—doc-->相關文檔支持| ICTPOS3.0.doc-->我們的詞性標注集說明| NLPIR-ICTCLAS2015分詞系統(tǒng)開發(fā)手冊.pdf-->開發(fā)使用手冊|+---include-->系統(tǒng)頭文件|NLPIR.h|+---lib-->不同環(huán)境下的支撐庫,每一種庫,同時支持C/C++/C#/Java庫。其他小眾化的環(huán)境支持,請聯系我們| +---linux32-->Linux32bit操作系統(tǒng)下的支持庫| |libNLPIR.so|丨| +---linux64-->Linux64bit操作系統(tǒng)下的支持庫|| libNLPIR.so|| Readme.txt|丨| +---win32-->Win32bit操作系統(tǒng)下的支持庫| |NLPIR.dll| |NLPIR.libII| \---win64-->Win64bit操作系統(tǒng)下的支持庫| NLPIR.dll| NLPIR.libI+---ppt-->NLPIR2015開幕演講的內容| NLPIR2014開幕演講.pptx|+---sample-->NLPIR2015示例程序,均調試通過| +---C-->NLPIR2015C語言示例程序| | Example-C.cpp| | Makefile:Linux下的編譯makefile| +---C#-->NLPIR2014C#語言示例程序| | Example.cs|丨|+---pythonsample-->NLPIR2015Python示例程序|丨| \---JnaTest_NLPIR-->NLPIR2015Java采用JNA調用的示例程序| | .classpath| | .project| | nlperties| | Readme.txt| 丨| +---.settings| | org.eclipse.core.resources.prefs| | org.eclipse.jdt.core.prefs| 丨| +---bin| |+---code| | | NlpirTest$CLibrary.class| | | NlpirTest.class| 丨丨+---code| |NIpirTest.javaI I| \---utils| ReadConfigUtil.java| SystemParas.javaI\---test-->NLPIR2015測試文檔集合| 18屆三中全會.TXT| English.txt|中英文混雜示例.txt|屌絲,一個字頭的誕生.TXT|用戶詞典.txt|\---docs-->NLPIR2015測試文檔集合0-兩棲戰(zhàn)車亮相.txt遼寧阜新官員涉嫌淫亂事件舉報者被刑拘.txt遼寧一男子女廁用手機拍照被拘(圖).txt兩人打甲流疫苗后死亡另有15例較嚴重異常反應.txtEnglish.txt1.1.3軟件使用(C++)需要文件:include/NLPIR.h、lib文件夾下根據系統(tǒng)和版本選擇不同的庫文件、ata文件夾。常用接口:NLPIR_Init:boolNLPIR_Init(constchar*sInitDirPath=0,intencoding=GBK_CODE,constchar*sLicenceCode=0)接口說明:軟件初始化。參數說明:sInitDirPath初始化文件夾位置,表示Configure.xml和Data文件夾所在位置,默認值為0,表示當前目錄;encoding輸入語料的編碼格式,默認為GBK_C0DE,可選參數為UTF8_C0DE和BIG5_CODE;sLicenseCode證書編碼,默認可不填。NLPIR_Exit:boolNLPIR_Exit()接口說明:軟件運行結束,釋放內存。NLPIR_ImportUserDict:unsignedintNLPIR_ImportUserDict(constchar*sFilename,boolbOverwrite=true)接口說明:引入用戶自定義詞典參數說明:sFilename用戶詞典文件名;bOverwrite是否覆蓋現有詞典,默認為true,改為false將該詞典添加到現有詞典。NLPIR_ParagraphProcess:constchar*NLPIR_ParagraphProcess(constchar*sParagraph,intbPOStagged=1)接口說明:分詞函數參數說明:sParagraph需要分詞的字符串;bPOStagged分詞結果是否包含POS標簽,即詞性標簽,默認為true其他接口函數請參考Doc目錄下開發(fā)手冊1.1.4軟件使用(Java)主要通過Jna的方式對C++接口進行調用。需要文件:lib下根據系統(tǒng)和版本選用不同的資源庫文件、Data文件夾和jna.jar使用方法:Jna編程首先根據C的頭文件來聲明對應的函數,聲明后就像調用普通的java方法一樣使用即可,詳細使用例子,請見代碼【注意:我們的dll是通用的,C、java、C#所使用的dll是同一個】樣例代碼:NlpirTest類就是對應的分詞的C頭文件的函數的聲明:publicclassNlpirTest{//定義接口CLibrary,繼承自com.sun.jna.LibrarypublicinterfaceCLibraryextendsLibrary{//定義并初始化接口的靜態(tài)變量這一個語句是來加載dll的,注意dll文件的路徑可以是絕對路徑也可以是相對路徑,只需要填寫dll的文件名,不能加后綴。CLibraryInstance=(CLibrary)Native.loadLibrary("E://java//JNI//JnaTest_NLPIR//NLPIR",CLibrary.class);//初始化函數聲明publicintNLPIR_Init(byte[]sDataPath,intencoding,byte[]sLicenceCode);//執(zhí)行分詞函數聲明publicStringNLPIR_ParagraphProcess(StringsSrc,intbPOSTagged);//提取關鍵詞函數聲明publicStringNLPIR_GetKeyWords(StringsLine,intnMaxKeyLimit,booleanbWeightOut);//退出函數聲明publicvoidNLPIR_Exit();}publicstaticStringtransString(StringaidString,Stringori_encoding,Stringnew_encoding){try{returnnewString(aidString.getBytes(ori_encoding),new_encoding);}catch(UnsupportedEncodingExceptione){e.printStackTrace();}returnnull;publicstaticvoidmain(String[]args)throwsException{Stringargu=//Stringsystem_charset="GBK";//GBK 0Stringsystem_charset="GBK";intcharset_type=1;//intcharset_type=0;//調用printf打印信息intinit_flag=CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset),charset_type,"0".getBytes(system_charset));if(0==init_flag){System.err.println("初始化失??!");return;}StringsInput="據悉,質檢總局已將最新有關情況再次通報美方,要求美方加強對輸華玉米的產地來源、運輸及倉儲等環(huán)節(jié)的管控措施,有效避免輸華玉米被未經我國農業(yè)部安全評估并批準的轉基因品系污染?!?;StringnativeBytes=null;try{nativeBytes=CLibrary.Instance.NLPIR_ParagraphProcess(sInput,1);System.out.println("分詞結果為:"+nativeBytes);intnCountKey=0;StringnativeByte=CLibrary.Instance.NLPIR_GetKeyWords(sInput,10,false);System.out.print("關鍵詞提取結果是:"+nativeByte);CLibrary.Instance.NLPIR_Exit();}catch(Exceptionex){//TODOAuto-generatedcatchblockex.printStackTrace();}}}1.2句法分析軟件調用(斯坦福)1.2.1軟件下載:/software/lex-parser.shtml1.2.2軟件說明可以根據不同的需要下載不同語言的版本,這里僅介紹Java版本的使用方法。解壓文件中l(wèi)exparser-gui.bat進行可視化頁面運行,解析需要的模型文件存放在stanford-parser-3.3.0-models.jar,可以對其解壓,方面以后使用。在中文處理方面,提供的模型文件有chineseFactored.ser.gz、chinesePCFG.ser.gz、xinhuaFactored.ser.gz、xinhuaFactoredSegmenting.ser.gz、xinhuaPCFG.ser.gz。factored包含詞匯化信息,PCFG是更快更小的模板,xinhua據說是根據大陸的《新華日報》訓練的語料,而Chinese同時包含香港和臺灣的語料,xinhuaFactoredSegmenting.ser.gz可以對未分詞的句子進行句法解析。API調用流程指定模型文件,指定一些參數信息。Stringgrammars="edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz";加載模型文件,初始化用于句法分析的類LexicalizedParser。LexicalizedParser

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論