單元3:詞性標注和實體命名識別1_第1頁
單元3:詞性標注和實體命名識別1_第2頁
單元3:詞性標注和實體命名識別1_第3頁
單元3:詞性標注和實體命名識別1_第4頁
單元3:詞性標注和實體命名識別1_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Python文本與語音應用設計單元3詞性標注和實體命名識別認識LTP3.1依存句法分析3.2詞性標注和實體命名識別單元3三元組抽取3.3知識目標了解LTP。掌握詞法層面的詞性標注和實體命名識別的概念;學習目標技能目標能夠使用LTP進行詞性標注;安裝LTP的Python封裝包;下載LTP的模型文件;能夠使用LTP進行命名實體識別,并提取其中的命名實體。學習目標單元概述單元概述分詞、詞性標注和命名實體識別這三項技術密切相關,構成了中文信息處理的基礎性關鍵技術,也是詞法層面的三姐妹,相互聯系和影響。上一單元學習了NLP中的基礎技術分詞,這一單元將學習NLP詞法層面的另外兩種基礎技術——詞性標注和實體命名識別。單元概述由于英文在不同的詞性下往往有不同的形態(tài),因此詞性標注相對較為簡單。而中文詞性標注的難點在于詞在不同的應用場景下沒有明顯的形態(tài)變化,而且往往具有多個詞性。因此,中文詞性標注的難度較大。本單元主要介紹詞性標注和命名實體識別的定義與實現。3.1詞性標注3.1詞性標注詞性是詞匯最基本的語法屬性。詞性標注(Part-Of-Speech

tagging,POS

tagging)是指對給定句子中判定每個詞的語法范疇,確定其詞性并加以標注的過程。詞性標注的正確與否會直接影響到之后的句法分析、語義分析,是中文自然語言處理的基礎之一。3.1詞性標注詞性標注最簡單的方法就是統(tǒng)計語料庫中每個詞所對應的高頻詞性,將其作為默認的詞性,這種方法可以覆蓋大多數場景,滿足基本的準確率要求。目前,常用的詞性標注方法主要分為兩種,一種是基于規(guī)則的詞性標注方法;另外一種是基于統(tǒng)計的詞性標注方法。目前較為主流的方法是基于統(tǒng)計的詞性標注方法,其基本思想與基于統(tǒng)計的分詞方法相同,也是將句子的詞性標注作為一個序列標注問題來解決的。3.1詞性標注jieba分詞工具提供了詞性標注功能。jieba分詞的詞性標注功能與分詞流程相同,同樣是結合規(guī)則和統(tǒng)計的方式,也就是說同時使用詞典匹配和HMM。常用的標注標準主要有北大的詞性標注集和賓州詞性標注集。3.2命名實體識別3.2命名實體識別命名實體識別(NamedEntitiesRecognition,NER)的目的在于識別語料中人名、地名、組織機構名等命名實體。NER重點在于劃分實體的邊界以及標注實體的類型。3.2命名實體識別命名實體識別分為(1)基于規(guī)則的命名實體識別;(2)基于統(tǒng)計的命名實體識別。但由于不同應用場合的詞典存在可移植性差、更新維護困難等問題,因此基于規(guī)則的命名實體識別無法在實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論