文本分析方法_第1頁
文本分析方法_第2頁
文本分析方法_第3頁
文本分析方法_第4頁
文本分析方法_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

文本分析方法1.了解中文分詞

2.了解語言模型

3.了解循環(huán)神經(jīng)網(wǎng)絡中文分詞語言模型12循環(huán)神經(jīng)網(wǎng)絡31.中文分詞1).基于字符串匹配的分詞方法按照不同的掃描方式,逐個查找詞庫進行分詞根據(jù)掃描方式可細分為:正向最大匹配,反向最大匹配,雙向最大匹配,最小切分(即最短路徑)2).全切分方法首先切分出與詞庫匹配的所有可能的詞,再運用統(tǒng)計語言模型決定最優(yōu)的切分結果優(yōu)點在于可以解決分詞中的歧義問題對于文本串“南京市長江大橋”首先找到匹配的所有詞條(南京,市,長江,大橋,南京市,長江大橋,市長,江大橋,江大,橋),以詞網(wǎng)格(wordlattices)形式表示接著做路徑搜索,基于統(tǒng)計語言模型(例如n-gram)找到最優(yōu)路徑最后可能還需要命名實體識別最終結果P(南京市,長江,大橋)的語言模型得分最高,則為最優(yōu)切分1.中文分詞3).由字構詞的分詞方法可以理解為字的分類問題,也就是自然語言處理中的sequencelabeling問題通常做法是利用HMM,MAXENT,MEMM,CRF等預測文本串每個字的tag譬如B,E,I,S,這四個tag分別表示:beginning,inside,ending,single,也就是一個詞的開始,中間,結束,以及單個字的詞一般而言,方法一和方法二在工業(yè)界用得較多,方法三因為采用復雜的模型,雖準確率相對高,但耗時較大2.語言模型語言模型是用來計算一個句子產(chǎn)生概率的概率模型即P(w_1,w_2,w_3…w_m),m表示詞的總個數(shù)根據(jù)貝葉斯公式:P(w_1,w_2,w_3…w_m)=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)…P(w_m|w_1,w_2…w_{m-1})。最簡單的語言模型是N-Gram它利用馬爾科夫假設,認為句子中每個單詞只與其前n–1個單詞有關,即假設產(chǎn)生w_m這個詞的條件概率只依賴于前n–1個詞,則有P(w_m|w_1,w_2…w_{m-1})=P(w_m|w_{m-n+1},w_{m-n+2}…w_{m-1})。其中n越大,模型可區(qū)別性越強,n越小,模型可靠性越高。2.語言模型神經(jīng)網(wǎng)絡語言模型ffnnlm(Feed-forwardNeuralNetLanguageModel)基于循環(huán)神經(jīng)網(wǎng)絡(recurrentneuralnetwork)的語言模型rnnlm神經(jīng)網(wǎng)絡模型解決了傳統(tǒng)n-gram的兩個缺陷:(1)詞語之間的相似性可以通過詞向量來體現(xiàn);(2)自帶平滑功能。3.循環(huán)神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡源自于1982年由SarathaSathasivam提出的霍普菲爾德網(wǎng)絡其特點是可以存在有向環(huán),將上一次的輸出作為本次的輸入主要用途是處理和預測序列數(shù)據(jù),挖掘數(shù)據(jù)中的時序信息以及語義信息的深度表達在語音識別、語言模型、機器翻譯以及時序分析等方面實現(xiàn)了突破3.循環(huán)神經(jīng)網(wǎng)絡對于循環(huán)神經(jīng)網(wǎng)絡,一個非常重要的概念就是時刻循環(huán)神經(jīng)網(wǎng)絡會對于每一個時刻的輸入結合當前模型的狀態(tài)給出一個輸出循環(huán)神經(jīng)網(wǎng)絡的主體結構A的輸入除了來自輸入層Xt,還有一個循環(huán)的邊來提供當前時刻的狀態(tài)在每一個時刻,循環(huán)神經(jīng)網(wǎng)絡的模塊A會讀取t時刻的輸入Xt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論