分詞實(shí)驗(yàn)指導(dǎo)_第1頁
分詞實(shí)驗(yàn)指導(dǎo)_第2頁
分詞實(shí)驗(yàn)指導(dǎo)_第3頁
分詞實(shí)驗(yàn)指導(dǎo)_第4頁
分詞實(shí)驗(yàn)指導(dǎo)_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

k=0k=0k=0k=0實(shí)驗(yàn)二、中文分詞MAXLEN=4importcodecs#importsys#語料corpus=codecs.open('F:\\2018課件\自然語言處理'lkX—自然語言處理實(shí)驗(yàn)'分詞實(shí)驗(yàn)\pku_test.txt','r','UTF-8')corpusReader=corpus.read()corpus.close()#字典dic=codecs.open('F:\\2018課件'自然語言處理\lkx_自然語言處理實(shí)驗(yàn)'分詞實(shí)驗(yàn)\word_freq_list.tXt','r','UTF-8')diclines=dic.readlines()dic.close()#分別存儲四字詞、三字詞和二字詞char_4=[]char_3=[]char_2=[]foriindiclines:iflen(i.decode().split('\r\n','rb')[0])==4:char_4.append(i.decode().split('\r\n')[0])eliflen(i.decode().split('\r\n')[0])==3:char_3.append(i.decode().split('\r\n')[0])else:char_2.append(i.decode().split('\r\n')[0])char_4=set(char_4)char_3=set(char_3)char_2=set(char_2)sentences=[]corpuslines=corpusReader.split('\r\n')forsentenincorpuslines:sentences.append(senten)print('Pleasewaitafewseconds...')temp=''segResult=codecs.open('divide_result.txt','w','utf-8')j+=1j+=1whilek!=len(sentences):i=0whilei<len(sentences[k]):ifi+MAXLEN<len(sentences[k]):possible_word=sentences[k][i:i+MAXLEN].split('\r\n')[0]ifpossible_wordinchar_4:temp+=possible_word+''#segResult.write(possible_word+'')i+=MAXLENcontinueifi+3<len(sentences[k]):possible_word=sentences[k][i:i+3].split('\r\n')[0]ifpossible_wordinchar_3:temp+=possible_word+''#segResult.write(possible_word+'')i+=3continueifi+2<len(sentences[k]):possible_word=sentences[k][i:i+2].split('\r\n')[0]ifpossible_wordinchar_2:temp+=possible_word+''#segResult.write(possible_word+'')i+=2continuepossible_word=sentences[k][i]temp+=possible_word+''#segResult.write(possible_word+'')i+=1#segResult.write('\r\n')k+=1temp=temp.strip()segResult.write(temp)segResult.close()print('Segmentationends,calculatingprecisionrate,recallrateandf-score.')segResult=codecs.open('divide_result.txt','r','utf-8')my=segResult.read()segResult.close()gold_corpus=codecs.open('此處為金標(biāo)分詞結(jié)果路徑‘,‘r','utf-8')gold=gold_corpus.read()gold_corpus.close()gold_split_enter=gold.split('\r\n')gold=''foriingold_split_enter:gold+=igold_list=gold.strip().split('')my_list=my.split('')gold_len=len(gold_list)my_len=len(my_list)correct=0gold_before=''my_before=''i=1j=1gold_before+=gold_list[0]my_before+=my_list[0]ifgold_before==my_beforeandgold_list[0]==my_list[0]:correct+=1#sys.stdout.write(my_list[0])whileTrue:ifgold_before==my_beforeandgold_list[i]==my_list[j]:correct+=1#sys.stdout.write(my_list[j])gold_before+=str(gold_list[i])my_before+=str(my_list[j])i+=1j+=1eliflen(gold_before)<len(my_before):gold_before+=str(gold_list[i])i+=1eliflen(gold_before)>len(my_before):my_before+=str(my_list[j])j+=1elifgold_before==my_beforeandgold_list[i]!=my_list[j]:gold_before+=str(gold_list[i])my_before+=str(my_list[j])i+=1ifi>=len(gold_list)andj>=len(my_list):breakprecision=correct/my_lenrecall=correct/gold_lenf_score=2*precision*recall/(precision+recall)print('precisionrate:',precision)print('recallrate:',recall)print('f-score:',f_score)1、實(shí)驗(yàn)內(nèi)容用最大匹配算法設(shè)計(jì)分詞程序?qū)崿F(xiàn)對文檔分詞,并計(jì)算該程序分詞的召回率??梢暂斎肴我饩渥?,顯示分詞結(jié)果。實(shí)驗(yàn)數(shù)據(jù):(1)word_freq_list.txt分詞詞典(2)pku_test.txt未經(jīng)過分詞的文檔文件(3)pku_test_gold.txt經(jīng)過分詞的文檔文件2、實(shí)驗(yàn)所采用的開發(fā)平臺及語言工具開發(fā)平臺:任意語言工具:任意3、實(shí)驗(yàn)的核心思想和算法描述核心思想:最大匹配算法算法描述:正向最大匹配法算法如下所示:逆向匹配法思想與正向一樣,只是從右向左切分,這里舉一個例子:輸入例句:S1="計(jì)算語言學(xué)課程有意思";定義:最大詞長MaxLen=5;S2=""分隔符="/”;假設(shè)存在詞表:…,計(jì)算語言學(xué),課程,意思,…;最大逆向匹配分詞算法過程如下:(1)S2="";S1不為空,從S1右邊取出候選子串W="課程有意思";(2)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="程有意思";(3)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="有意思";(4)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="意思"(5)查詞表,“意思”在詞表中,將W加入到52中,S2="意思/",并將W從S1中去掉,此時S1="計(jì)算語言學(xué)課程有";(6)S1不為空,于是從51左邊取出候選子串亞="言學(xué)課程有";(7)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="學(xué)課程有";(8)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="課程有";(9)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="程有";(10)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="有",這W是單字,將W加入到52中,S2=“/有/意思”,并將W從S1中去掉,此時S1="計(jì)算語言學(xué)課程";(11)S1不為空,于是從51左邊取出候選子串W="語言學(xué)課程";(12)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="言學(xué)課程";(13)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="學(xué)課程";(14)查詞表,W不在詞表中,將亞最左邊一個字去掉,得到W="課程";(15)查詞表,“意思”在詞表中,將亞加入到S2中,S2=“課程/有/意思/”,并將W從S1中去掉,此時S1="計(jì)算語言學(xué)";(16)S1不為空,于是從S1左邊取出候選子串W="計(jì)算語言學(xué)";(17)查詞表,“計(jì)算語言學(xué)”在詞表中,將亞加入到S2中,S2=“計(jì)算語言學(xué)/課程/有/意思/”,并將W從S1中去掉,此時S1="";(18)51為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。importcodecs獲得分詞字典,存儲為字典形式f1=codecs.open('F:\\2018課件\自然語言處理'lkX—自然語言處理實(shí)驗(yàn)'分詞實(shí)驗(yàn)\word_freq_list.txt','r',encoding='gbk')dic={}while1:line=f1.readline()iflen(line)==0:breakterm=line.strip().replace('\r\n','')#去除字符串兩側(cè)的換行符,避免取最大分詞長度時出差錯dic[term]=1f1.close獲得需要分詞的文本,為字符串形式f2=codecs.open('F:\\2018課件\自然語言處理'lkX—自然語言處理實(shí)驗(yàn)\分詞實(shí)驗(yàn)\pku_test.txt','r',encoding='gbk')chars=f2.read().strip().replace('\r\n','')#去除字符串兩側(cè)的換行符,避免截詞時出差錯f2.close#獲得停用詞典,存儲為字典形式f3=codecs.open('stoplis.tXt','r',encoding='gbk')stoplis={}while1:line=f3.readline()iflen(line)==0:breakterm=line.strip()stoplis[term]=1f3.close#正向最大匹配分詞算法遍歷分詞字典,獲得最大分詞長度max_chars=0forkeyindic:iflen(key)>max_chars:max_chars=len(key)#定義一個空列表來存儲分詞結(jié)果words=[]n=0whilen<len(chars):matched=0foriinrange(max_chars,0,-1):s=chars[n:n+i]#判斷所截取字符串是否在分詞詞典和停用詞典內(nèi)ifsindic:ifsinstoplis:matched=1n=n+ibreakels

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論