01-3 自然語言處理相關(guān)知識的構(gòu)成_第1頁
01-3 自然語言處理相關(guān)知識的構(gòu)成_第2頁
01-3 自然語言處理相關(guān)知識的構(gòu)成_第3頁
01-3 自然語言處理相關(guān)知識的構(gòu)成_第4頁
01-3 自然語言處理相關(guān)知識的構(gòu)成_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

自然語言處理基礎(chǔ)Python自然語言處理第一章02自然語言處理的發(fā)展歷程CONTENT目錄

01什么是自然語言處理04探討自然語言處理的幾個層面03自然語言處理相關(guān)知識的構(gòu)成05自然語言處理與人工智能課前回顧什么是自然語言處理自然語言處理的研究任務(wù)自然語言處理的三大重要?dú)v程

自然語言處理相關(guān)知識的構(gòu)成03基礎(chǔ)術(shù)語知識結(jié)構(gòu)分詞分詞的準(zhǔn)確度直接決定了自然語言處理后續(xù)的詞性標(biāo)注、句法分析、詞向量以及文本分析的質(zhì)量。詞是最小的、能夠獨(dú)立活動的、有意義的語言成分,英文單詞之間以空格作為分界符,除了某些特定詞,如howmany,NewYork等外,大部分情況下不需要考慮分詞問題。而中文以字為基本書寫單位,天然缺少分隔符,需要讀者自行分詞和斷句。因此,同樣存在分詞的需求,但中文詞語組合繁多,分詞很容易產(chǎn)生歧義。中文分詞一直以來都是自然語言處理的一個重點(diǎn),也是一個難點(diǎn)。難點(diǎn)主要集中在分詞標(biāo)準(zhǔn),切分歧義和未登錄詞三部分。詞性標(biāo)注其中:我/r代表代詞;愛/v代表動詞;北京/ns和天安門/ns代表名詞;r、v、ns都是標(biāo)注。命名實(shí)體識別命名實(shí)體是指從文本中識別具有特定類別的實(shí)體,例如人名、地名、專有名詞等,是信息提取、問答系統(tǒng)、句法分析、機(jī)器翻譯等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具,在自然語言處理技術(shù)走向?qū)嵱没倪^程中占有重要地位。一般來說,命名實(shí)體識別的任務(wù)就是識別出待處理文本中三大類:實(shí)體類、時間類和數(shù)字類;七小類:人名、機(jī)構(gòu)名、地名、時間、日期、貨幣和百分比。句法分析句法分析是自然語言處理中的關(guān)鍵技術(shù)之一。句法分析是對輸入的文本句子進(jìn)行分析以得到句子的句法結(jié)構(gòu),解析句子中各個成分之間的依賴關(guān)系。例如:“小明是小華的哥哥”和“小華是小明的哥哥”,雖然兩句話的結(jié)構(gòu)相同,但是句法分析出其中的主從關(guān)系是不同的。對句法結(jié)構(gòu)進(jìn)行分析,一方面是語言理解的自身需求,另一方面也為其它自然語言處理任務(wù)提供支持。指代消費(fèi)指代消解是自然語言處理的一大任務(wù),它是信息抽取不可或缺的部分。在信息抽取過程中,用戶關(guān)心的事件和實(shí)體間語義關(guān)系經(jīng)常散布于文本的不同位置,同一實(shí)體可以有多種不同的表達(dá)方式。為了更準(zhǔn)確且沒有遺漏地從文本中抽取相關(guān)信息,必須先對文章中的指代現(xiàn)象進(jìn)行消解。指代消解不但在信息抽取中起著重要的作用,而且在機(jī)器翻譯、文本摘要和問答系統(tǒng)等應(yīng)用中也極為關(guān)鍵。情感識別計(jì)算機(jī)對從傳感器采集來的信號進(jìn)行分析和處理,從而得出對方的情感狀態(tài),這種行為叫做情感識別。情感識別,本質(zhì)是分類問題,人類的情感一般分為兩類:正面、負(fù)面,當(dāng)然也可再加上中性類別。情感識別常用來分析電商網(wǎng)站商品評價的好壞,便于商家及時發(fā)現(xiàn)并解決問題。糾錯自動糾錯在搜索技術(shù)和輸入法中應(yīng)用比較多,通常是由用戶輸入出錯導(dǎo)致。自然語言處理相關(guān)知識的構(gòu)成03基礎(chǔ)術(shù)語知識結(jié)構(gòu)知識結(jié)構(gòu)自然語言處理作為一門綜合學(xué)科,涉及知識包括語言學(xué)、統(tǒng)計(jì)學(xué)、最優(yōu)化理論、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及相關(guān)理論模型。簡單羅列其涉及的知識體系如下:知識結(jié)構(gòu)句法語義分析:對目標(biāo)語句進(jìn)行分詞、詞性標(biāo)記、命名實(shí)體識別與句法分析等操作,屬于自然語言理解任務(wù)。關(guān)鍵詞抽?。撼槿∧繕?biāo)文本的主要信息。比如從一條新聞中抽取關(guān)鍵信息為:誰、于何時、為何、對誰、做了何事、產(chǎn)生了有什么結(jié)果。關(guān)鍵詞抽取涉及實(shí)體識別、時間抽取、因果關(guān)系抽取等多項(xiàng)技術(shù)。文本挖掘:主要包括對目標(biāo)文本集的聚類、分類、信息提取、情感分析等處理,以及對挖掘出來的信息的可視化、交互式的展示。機(jī)器翻譯:將輸入的語言文本轉(zhuǎn)化為另一種語言的文本的技術(shù)。根據(jù)輸入數(shù)據(jù)類型的不同,可細(xì)分為:文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。知識結(jié)構(gòu)信息檢索:從大規(guī)模的文檔中獲取最符合規(guī)則或者需要的信息??梢院唵螌ξ臋n中的詞匯根據(jù)具體場景賦以不同的權(quán)重來建立索引(也可用算法模型)。查詢時,對輸入比進(jìn)行分析,然后在索引中查找匹配的候選文檔,根據(jù)具體排序機(jī)制對候選文檔排序,輸出得分最高的文檔。問答系統(tǒng):是信息檢索系統(tǒng)的一種高級形式,它能用準(zhǔn)確、簡潔的自然語言回答用戶用自然語言提出的問題。系統(tǒng)需要對查詢語句進(jìn)行語義分析,形成邏輯表達(dá)式,然后到知識庫匹配可能答案并通過具體排序機(jī)制找到最佳回答。對話系統(tǒng):機(jī)器和用戶進(jìn)行聊天、回答、完成任務(wù)等工作的系統(tǒng)。涉及用戶意圖理解、通用聊天引擎

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論