版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Python文本與語音應用設計單元3詞性標注和實體命名識別認識LTP3.1依存句法分析3.2詞性標注和實體命名識別單元3三元組抽取3.3知識目標了解LTP。掌握詞法層面的詞性標注和實體命名識別的概念;學習目標技能目標能夠使用LTP進行詞性標注;安裝LTP的Python封裝包;下載LTP的模型文件;能夠使用LTP進行命名實體識別,并提取其中的命名實體。學習目標單元概述單元概述分詞、詞性標注和命名實體識別這三項技術密切相關,構成了中文信息處理的基礎性關鍵技術,也是詞法層面的三姐妹,相互聯系和影響。上一單元學習了NLP中的基礎技術分詞,這一單元將學習NLP詞法層面的另外兩種基礎技術——詞性標注和實體命名識別。單元概述由于英文在不同的詞性下往往有不同的形態(tài),因此詞性標注相對較為簡單。而中文詞性標注的難點在于詞在不同的應用場景下沒有明顯的形態(tài)變化,而且往往具有多個詞性。因此,中文詞性標注的難度較大。本單元主要介紹詞性標注和命名實體識別的定義與實現。3.1詞性標注3.1詞性標注詞性是詞匯最基本的語法屬性。詞性標注(Part-Of-Speech
tagging,POS
tagging)是指對給定句子中判定每個詞的語法范疇,確定其詞性并加以標注的過程。詞性標注的正確與否會直接影響到之后的句法分析、語義分析,是中文自然語言處理的基礎之一。3.1詞性標注詞性標注最簡單的方法就是統(tǒng)計語料庫中每個詞所對應的高頻詞性,將其作為默認的詞性,這種方法可以覆蓋大多數場景,滿足基本的準確率要求。目前,常用的詞性標注方法主要分為兩種,一種是基于規(guī)則的詞性標注方法;另外一種是基于統(tǒng)計的詞性標注方法。目前較為主流的方法是基于統(tǒng)計的詞性標注方法,其基本思想與基于統(tǒng)計的分詞方法相同,也是將句子的詞性標注作為一個序列標注問題來解決的。3.1詞性標注jieba分詞工具提供了詞性標注功能。jieba分詞的詞性標注功能與分詞流程相同,同樣是結合規(guī)則和統(tǒng)計的方式,也就是說同時使用詞典匹配和HMM。常用的標注標準主要有北大的詞性標注集和賓州詞性標注集。3.2命名實體識別3.2命名實體識別命名實體識別(NamedEntitiesRecognition,NER)的目的在于識別語料中人名、地名、組織機構名等命名實體。NER重點在于劃分實體的邊界以及標注實體的類型。3.2命名實體識別命名實體識別分為(1)基于規(guī)則的命名實體識別;(2)基于統(tǒng)計的命名實體識別。但由于不同應用場合的詞典存在可移植性差、更新維護困難等問題,因此基于規(guī)則的命名實體識別無法在實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年蘭州客運資格證摸擬考試題
- 2024年麗江從業(yè)資格證模擬考試題庫
- 2024年西寧客運資格證考試模擬試題及答案
- 物業(yè)小區(qū)的調查報告
- 工廠的實習報告
- 舞蹈興趣小組工作總結
- 幼兒口才班匯報演出主持詞
- 電信的實習報告
- 有關公園的導游詞
- 【+高++中語文】《林教頭風雪山神廟》課件++統(tǒng)編版高中語文必修下冊
- 2023年江蘇蘇州常熟市人民法院招聘公益性崗位工作人員5人(共500題含答案解析)筆試歷年難、易錯考點試題含答案附詳解
- 公開招標范本
- 中學排球校本課程教材(小學也可用)
- 2023天然氣井防硫化氫安全檢查表
- 高考模擬話題作文“單純、高貴、寧靜”寫作
- 并饋式自立鐵塔中波天線
- 2024年航天知識總結
- 績效評價報告(失業(yè)保險基金項目)
- 萬物之理-愛因斯坦之夢智慧樹知到答案章節(jié)測試2023年中國海洋大學
- 高速鐵路列車餐飲服務PPT完整全套教學課件
- NG30周邊傳動濃縮機技術說明
評論
0/150
提交評論