基于字符串匹配的分詞算法概述_第1頁
基于字符串匹配的分詞算法概述_第2頁
基于字符串匹配的分詞算法概述_第3頁
基于字符串匹配的分詞算法概述_第4頁
基于字符串匹配的分詞算法概述_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1基于字符串匹配的分詞方法2內(nèi)容提綱分詞算法分類各算法簡介總結(jié)3掃描方向:正向匹配逆向匹配不同長度優(yōu)先匹配情況:最大匹配

最小匹配是否與詞性標注過程結(jié)合:

單純分詞法分詞與標注相結(jié)合的方法算法分類4基本思想:

選取固定長個漢字的符號串作為最大符號串,把最大符號串與詞典中的單詞條目相匹配,如果不能匹配,就去掉一個漢字繼續(xù)匹配,直到在詞典中找到相應(yīng)的單詞為止。

匹配方向是從左向右,減字方向是從右向左。正向最大匹配算法5算法流程:第1步

初始化字符串并設(shè)置最大符號串長度P1為待分析字符串,初始值為用戶輸入的句子P2為分詞結(jié)果字符串,初始值為空M為候選子串,初始值為空第2步

若P1不為空,從P1左邊取出候選子串M

若P1為空,輸出P2作為分詞結(jié)果第3步

查詞典,若M在詞表中,將M加入到P2中,并將M從P1中去掉,轉(zhuǎn)第2步

若M不在詞表中,將M的最右邊一個字去掉,轉(zhuǎn)第3步算法舉例正向最大匹配算法6逆向最大匹配算法

逆向最大匹配算法與正向最大匹配算法類似,只是匹配的方向是從右到左,減詞方向是從左到右。它的算法比正向最大匹配算法的精確度高一些。7詞典中的詞按照由長到短逐減的順序逐字搜索整個待處理的材料,一直到把全部的詞切分出來。該算法不論分詞詞典多大,被

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論