中文文本預(yù)處理

上傳人：z*** IP屬地：天津上傳時(shí)間：2023-10-29 格式：DOCX 頁數(shù)：6 大小：26.11KB 積分：9.6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1中文文本預(yù)處理分詞軟件調(diào)用（中科院分詞系統(tǒng)）軟件下載：/軟件包目錄&介紹|Readme.txt ＞介紹I+---binI+---DocExtractor ＞文檔篇章語義抽取系統(tǒng)|| DocExtractor.bat--＞批處理，可以針對(duì)指定的文件夾進(jìn)行語義抽取|| DocExtractor.dl卜-＞支撐的動(dòng)態(tài)鏈接庫，基于分詞基礎(chǔ)上|| DocExtractorSample.exe--＞應(yīng)用程序II|\---ICTCLAS2015 ＞分詞系統(tǒng)| ICTCLAS-tools.exe--〉分詞的支撐工具，可用于測試，本處主要用來做用戶詞典導(dǎo)入| importuserdict.bat--＞可將用戶詞典自動(dòng)導(dǎo)入到系統(tǒng)內(nèi)| NLPIR.dl卜-＞W(wǎng)in32下的支撐動(dòng)態(tài)鏈接庫，其他環(huán)境的庫，可以訪問lib對(duì)應(yīng)環(huán)境的庫文件| NLPIR.lib| NLPIR_WinDemo.exe--＞W(wǎng)in32下的演示程序，在Win832位下編譯而成，部分環(huán)境可能不支持，或者顯示異常| userdic.txt--＞用戶詞典，用戶可以自行編輯|+---Data--＞系統(tǒng)核心詞庫| \---English--＞英文處理的支持知識(shí)庫，如果不需要英文處理的功能，可以不加載本庫。|+—doc--＞相關(guān)文檔支持| ICTPOS3.0.doc--＞我們的詞性標(biāo)注集說明| NLPIR-ICTCLAS2015分詞系統(tǒng)開發(fā)手冊(cè).pdf--＞開發(fā)使用手冊(cè)|+---include--＞系統(tǒng)頭文件|NLPIR.h|+---lib--＞不同環(huán)境下的支撐庫，每一種庫，同時(shí)支持C/C++/C#/Java庫。其他小眾化的環(huán)境支持，請(qǐng)聯(lián)系我們| +---linux32--＞Linux32bit操作系統(tǒng)下的支持庫| |libNLPIR.so|丨| +---linux64--＞Linux64bit操作系統(tǒng)下的支持庫|| libNLPIR.so|| Readme.txt|丨| +---win32-->Win32bit操作系統(tǒng)下的支持庫| |NLPIR.dll| |NLPIR.libII| \---win64-->Win64bit操作系統(tǒng)下的支持庫| NLPIR.dll| NLPIR.libI+---ppt-->NLPIR2015開幕演講的內(nèi)容| NLPIR2014開幕演講.pptx|+---sample-->NLPIR2015示例程序，均調(diào)試通過| +---C-->NLPIR2015C語言示例程序| | Example-C.cpp| | Makefile:Linux下的編譯makefile| +---C#-->NLPIR2014C#語言示例程序| | Example.cs|丨|+---pythonsample-->NLPIR2015Python示例程序|丨| \---JnaTest_NLPIR-->NLPIR2015Java采用JNA調(diào)用的示例程序| | .classpath| | .project| | nlperties| | Readme.txt| 丨| +---.settings| | org.eclipse.core.resources.prefs| | org.eclipse.jdt.core.prefs| 丨| +---bin| |+---code| | | NlpirTest$CLibrary.class| | | NlpirTest.class| 丨丨+---code| |NIpirTest.javaI I| \---utils| ReadConfigUtil.java| SystemParas.javaI\---test-->NLPIR2015測試文檔集合| 18屆三中全會(huì).TXT| English.txt|中英文混雜示例.txt|屌絲，一個(gè)字頭的誕生.TXT|用戶詞典.txt|\---docs-->NLPIR2015測試文檔集合0-兩棲戰(zhàn)車亮相.txt遼寧阜新官員涉嫌淫亂事件舉報(bào)者被刑拘.txt遼寧一男子女廁用手機(jī)拍照被拘(圖).txt兩人打甲流疫苗后死亡另有15例較嚴(yán)重異常反應(yīng).txtEnglish.txt1.1.3軟件使用(C++)需要文件：include/NLPIR.h、lib文件夾下根據(jù)系統(tǒng)和版本選擇不同的庫文件、ata文件夾。常用接口：NLPIR_Init:boolNLPIR_Init(constchar*sInitDirPath=0,intencoding=GBK_CODE,constchar*sLicenceCode=0)接口說明：軟件初始化。參數(shù)說明：sInitDirPath初始化文件夾位置，表示Configure.xml和Data文件夾所在位置，默認(rèn)值為0,表示當(dāng)前目錄;encoding輸入語料的編碼格式，默認(rèn)為GBK_C0DE,可選參數(shù)為UTF8_C0DE和BIG5_CODE；sLicenseCode證書編碼，默認(rèn)可不填。NLPIR_Exit：boolNLPIR_Exit()接口說明：軟件運(yùn)行結(jié)束，釋放內(nèi)存。NLPIR_ImportUserDict：unsignedintNLPIR_ImportUserDict(constchar*sFilename,boolbOverwrite=true)接口說明：引入用戶自定義詞典參數(shù)說明：sFilename用戶詞典文件名;bOverwrite是否覆蓋現(xiàn)有詞典，默認(rèn)為true，改為false將該詞典添加到現(xiàn)有詞典。NLPIR_ParagraphProcess：constchar*NLPIR_ParagraphProcess(constchar*sParagraph,intbPOStagged=1)接口說明：分詞函數(shù)參數(shù)說明：sParagraph需要分詞的字符串;bPOStagged分詞結(jié)果是否包含POS標(biāo)簽，即詞性標(biāo)簽，默認(rèn)為true其他接口函數(shù)請(qǐng)參考Doc目錄下開發(fā)手冊(cè)1.1.4軟件使用(Java)主要通過Jna的方式對(duì)C++接口進(jìn)行調(diào)用。需要文件：lib下根據(jù)系統(tǒng)和版本選用不同的資源庫文件、Data文件夾和jna.jar使用方法：Jna編程首先根據(jù)C的頭文件來聲明對(duì)應(yīng)的函數(shù),聲明后就像調(diào)用普通的java方法一樣使用即可,詳細(xì)使用例子，請(qǐng)見代碼【注意:我們的dll是通用的,C、java、C#所使用的dll是同一個(gè)】樣例代碼：NlpirTest類就是對(duì)應(yīng)的分詞的C頭文件的函數(shù)的聲明：publicclassNlpirTest{//定義接口CLibrary，繼承自com.sun.jna.LibrarypublicinterfaceCLibraryextendsLibrary{//定義并初始化接口的靜態(tài)變量這一個(gè)語句是來加載dll的，注意dll文件的路徑可以是絕對(duì)路徑也可以是相對(duì)路徑，只需要填寫dll的文件名，不能加后綴。CLibraryInstance=(CLibrary)Native.loadLibrary("E://java//JNI//JnaTest_NLPIR//NLPIR",CLibrary.class);//初始化函數(shù)聲明publicintNLPIR_Init(byte[]sDataPath,intencoding,byte[]sLicenceCode);//執(zhí)行分詞函數(shù)聲明publicStringNLPIR_ParagraphProcess(StringsSrc,intbPOSTagged);//提取關(guān)鍵詞函數(shù)聲明publicStringNLPIR_GetKeyWords(StringsLine,intnMaxKeyLimit,booleanbWeightOut);//退出函數(shù)聲明publicvoidNLPIR_Exit();}publicstaticStringtransString(StringaidString,Stringori_encoding,Stringnew_encoding){try{returnnewString(aidString.getBytes(ori_encoding),new_encoding);}catch(UnsupportedEncodingExceptione){e.printStackTrace();}returnnull;publicstaticvoidmain(String[]args)throwsException{Stringargu=//Stringsystem_charset="GBK";//GBK 0Stringsystem_charset="GBK";intcharset_type=1;//intcharset_type=0;//調(diào)用printf打印信息intinit_flag=CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset),charset_type,"0".getBytes(system_charset));if(0==init_flag){System.err.println("初始化失??！");return;}StringsInput="據(jù)悉，質(zhì)檢總局已將最新有關(guān)情況再次通報(bào)美方，要求美方加強(qiáng)對(duì)輸華玉米的產(chǎn)地來源、運(yùn)輸及倉儲(chǔ)等環(huán)節(jié)的管控措施，有效避免輸華玉米被未經(jīng)我國農(nóng)業(yè)部安全評(píng)估并批準(zhǔn)的轉(zhuǎn)基因品系污染?！ǎ籗tringnativeBytes=null;try{nativeBytes=CLibrary.Instance.NLPIR_ParagraphProcess(sInput,1);System.out.println("分詞結(jié)果為："+nativeBytes);intnCountKey=0;StringnativeByte=CLibrary.Instance.NLPIR_GetKeyWords(sInput,10,false);System.out.print("關(guān)鍵詞提取結(jié)果是："+nativeByte);CLibrary.Instance.NLPIR_Exit();}catch(Exceptionex){//TODOAuto-generatedcatchblockex.printStackTrace();}}}1.2句法分析軟件調(diào)用（斯坦福）1.2.1軟件下載：/software/lex-parser.shtml1.2.2軟件說明可以根據(jù)不同的需要下載不同語言的版本，這里僅介紹Java版本的使用方法。解壓文件中l(wèi)exparser-gui.bat進(jìn)行可視化頁面運(yùn)行，解析需要的模型文件存放在stanford-parser-3.3.0-models.jar,可以對(duì)其解壓，方面以后使用。在中文處理方面，提供的模型文件有chineseFactored.ser.gz、chinesePCFG.ser.gz、xinhuaFactored.ser.gz、xinhuaFactoredSegmenting.ser.gz、xinhuaPCFG.ser.gz。factored包含詞匯化信息，PCFG是更快更小的模板，xinhua據(jù)說是根據(jù)大陸的《新華日?qǐng)?bào)》訓(xùn)練的語料，而Chinese同時(shí)包含香港和臺(tái)灣的語料，xinhuaFactoredSegmenting.ser.gz可以對(duì)未分詞的句子進(jìn)行句法解析。API調(diào)用流程指定模型文件，指定一些參數(shù)信息。Stringgrammars="edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz";加載模型文件，初始化用于句法分析的類LexicalizedParser。LexicalizedParser

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中文文本預(yù)處理

文檔簡介

溫馨提示

最新文檔

評(píng)論