第8章-自然語言處理_第1頁
第8章-自然語言處理_第2頁
第8章-自然語言處理_第3頁
第8章-自然語言處理_第4頁
第8章-自然語言處理_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第八章自然語言處理第一頁,編輯于星期日:五點(diǎn)五十四分。提綱概述詞法分析句法分析語義分析語言知識庫自然語言處理的應(yīng)用第二頁,編輯于星期日:五點(diǎn)五十四分。概述自然語言vs.人工語言自然語言處理用計(jì)算機(jī)來分析、處理自然語言,讓計(jì)算機(jī)理解并能表達(dá)自然語言,實(shí)現(xiàn)人與計(jì)算機(jī)的自然語言交流。圖靈測試&IBMWatson所屬學(xué)科計(jì)算機(jī)與語言學(xué)的交叉學(xué)科計(jì)算機(jī)科學(xué)與技術(shù)—人工智能—自然語言處理語言學(xué)—應(yīng)用語言學(xué)—計(jì)算語言學(xué)(=自然語言處理)第三頁,編輯于星期日:五點(diǎn)五十四分。概述自然語言的特點(diǎn)新詞不斷出現(xiàn),很難完全收入詞典新詞一般包括如下類型命名實(shí)體:包括人名、地名、機(jī)構(gòu)名等。縮略語:如,人大(中國人民大學(xué)、全國人民代表大會(huì))、白骨精(白領(lǐng)、骨干、精英)。網(wǎng)絡(luò)新詞:蟻?zhàn)?、蝸居、打醬油、織圍脖(微博)、給力、傷不起。數(shù)字、字母、符號等。第四頁,編輯于星期日:五點(diǎn)五十四分。概述自然語言的特點(diǎn)自然語言的表達(dá)非常靈活,很難完全形式化如下面例子中,“主席團(tuán)”、“臺上”、“坐”可以隨便調(diào)換次序,但都表達(dá)相同的意思。主席團(tuán)臺上坐。主席團(tuán)坐臺上。臺上坐主席團(tuán)。臺上主席團(tuán)坐。還有各種各樣的省略形式。如:今天星期五。兩個(gè)詞語就構(gòu)成一句話,省略了謂語“是”。第五頁,編輯于星期日:五點(diǎn)五十四分。概述自然語言的特點(diǎn)自然語言充滿歧義,很難完全消解讀音歧義朝陽(zhaoyang)產(chǎn)業(yè)北京市朝陽(chaoyang)區(qū)分詞歧義南京市長江大橋。白天鵝在湖里游泳。詞性歧義這只會(huì)測水溫的鴨子,挺有用的。這只會(huì)測水溫的鴨子,沒什么用。第六頁,編輯于星期日:五點(diǎn)五十四分。概述自然語言的特點(diǎn)自然語言充滿歧義,很難完全消解句法結(jié)構(gòu)歧義咬死了獵人的狗。三個(gè)大學(xué)的老師。詞義歧義他說:“她這個(gè)人真有意思”。她說:“他這個(gè)人真怪有意思的”。于是人們以為他們有了那種意思,并讓他向她意思意思。他火了:“我根本沒有那個(gè)意思”!她也生氣了:“你們這么說是什么意思”?事后有人說,“真有意思”。也有人說:“真沒意思”。第七頁,編輯于星期日:五點(diǎn)五十四分。概述自然語言的特點(diǎn)自然語言中有各種語言創(chuàng)新,機(jī)器很難應(yīng)付隱喻、借代、雙關(guān)、幽默等雙關(guān)天大藥業(yè)的廣告詞:您的健康是天大的事。昂立教育:ONLYeducationcanchangeyourlife.第八頁,編輯于星期日:五點(diǎn)五十四分。概述自然語言處理涉及的層次語音分析詞法分析句法分析語義分析語用分析第九頁,編輯于星期日:五點(diǎn)五十四分。詞法分析英語中詞的識別英語詞與詞之間有空格區(qū)分句末點(diǎn)號與詞中點(diǎn)號識別出的詞與詞典中的詞的對應(yīng)能直接對應(yīng)需要詞根化以后才能對應(yīng)對應(yīng)不上,是未登錄詞第十頁,編輯于星期日:五點(diǎn)五十四分。詞法分析漢語分詞漢語是分句連寫,句與句之間有標(biāo)點(diǎn),詞與詞之間沒有分隔符?;谠~典的方法:正向最大匹配待切分字串S1,輸出詞串S2為空,最大詞長MaxLenS1是否為空從S1左邊取出最長字串W,W的長度不大于MaxLenW是否在詞典中將W最右邊一個(gè)字去掉W是否為單字S2=S2+W+空格;S1=S1-W輸出結(jié)果S2是否是是否否第十一頁,編輯于星期日:五點(diǎn)五十四分。詞法分析漢語分詞基于字的方法轉(zhuǎn)化為機(jī)器學(xué)習(xí)中的序列標(biāo)記問題。根據(jù)字在詞中的位置一般有四個(gè)標(biāo)記:詞首B、詞中M、詞尾E、獨(dú)立成詞S。例如,“自然語言處理是人工智能的分支學(xué)科”這句話中每個(gè)字加上標(biāo)記后的序列如下:自/B然/M語/M言/M處/M理/E是/S人/B工/M智/M能/E的/S分/B支/E學(xué)/B科/E加完標(biāo)簽后,再掃描一遍,就可以得到詞的序列:自然語言處理是人工智能的分支學(xué)科第十二頁,編輯于星期日:五點(diǎn)五十四分。句法分析短語結(jié)構(gòu)語法PhraseStructureGrammar由Chomsky提出,上下文無關(guān)文法。G=(N,T,S,P)N={ROOT,IP,NP,VP,NR,VV,VE,NN}T={俄國,希望,伊朗,沒有,制造,核武器}S=ROOT產(chǎn)生式P:ROOT

IPIP

NPVPPUNP

NRVP

VVIPVP

VEVPVP

VVNNNR

俄國VV

希望NR

伊朗VE

沒有VV

制造NN

核武器PU

。第十三頁,編輯于星期日:五點(diǎn)五十四分。句法分析依存語法DependencyGrammar由Tesniere于1959年提出。第十四頁,編輯于星期日:五點(diǎn)五十四分。語義分析詞義消歧一詞多義很常見。根據(jù)上下文語境自動(dòng)確定詞語用的是哪一個(gè)義項(xiàng)。例如,“儀表”這個(gè)詞在《現(xiàn)代漢語詞典(第5版)》中有兩個(gè)義項(xiàng):(1)人的外表(包括容貌、姿態(tài)、風(fēng)度等,指好的):~堂堂(2)測定溫度、壓力、電量等各種物理量的儀器。詞義消歧是確定下面兩句話中的“儀表”分別屬于哪一個(gè)義項(xiàng)。(1)我國儀器儀表事業(yè)取得了長足的發(fā)展。(2)酒店要求服務(wù)員儀表端莊大方。第十五頁,編輯于星期日:五點(diǎn)五十四分。語義分析語義角色標(biāo)注淺層語義分析,標(biāo)注謂詞(謂語動(dòng)詞、名詞、形容詞)的語義角色。語義角色指有關(guān)語言成分的所指在語句所表達(dá)的事件中所扮演的參與者角色。常見的語義角色類型有施事、受事、與事、工具、方式、時(shí)間、處所、結(jié)果、目的、原因等。例如:昨天張三在家吃蘋果。謂語動(dòng)詞“吃”的語義角色有:施事-張三,受事-蘋果,時(shí)間-昨天,處所-家。第十六頁,編輯于星期日:五點(diǎn)五十四分。語言知識庫現(xiàn)代漢語語法信息詞典GrammaticalKnowledgeBase,GKB由北京大學(xué)計(jì)算語言學(xué)研究所研制的一個(gè)現(xiàn)代漢語語法知識庫。該詞典的研制始于1986年,現(xiàn)在仍然在不斷發(fā)展和完善。該詞典以朱德熙先生倡導(dǎo)的“詞組本位”語法體系為理論基礎(chǔ),按照語法功能和意義結(jié)合的準(zhǔn)則收錄了8萬余詞條。依據(jù)語法功能分布的原則,建立了詞類體系,完成詞語的歸類。并在此基礎(chǔ)上,分類描述每個(gè)詞語的各種語法屬性,共計(jì)360余萬個(gè)屬性值。第十七頁,編輯于星期日:五點(diǎn)五十四分。語言知識庫現(xiàn)代漢語語法信息詞典GKB采用關(guān)系數(shù)據(jù)庫的格式描述詞語及其語法屬性的二維關(guān)系,包括總庫及分庫共34個(gè)數(shù)據(jù)庫文件。每一個(gè)詞類建立一個(gè)分庫,如名詞分庫、形容詞分庫、動(dòng)詞分庫等。分庫可以繼續(xù)細(xì)分,建立二級分庫,如體賓動(dòng)詞分庫、謂賓動(dòng)詞分庫、離合動(dòng)詞分庫等。所有的庫之間可以通過“詞語+詞類+同形”的聯(lián)合主鍵進(jìn)行連接,構(gòu)成上下位繼承關(guān)系的樹。第十八頁,編輯于星期日:五點(diǎn)五十四分。語言知識庫知網(wǎng)HowNet語義網(wǎng)絡(luò)1968年由美國心理學(xué)家M.R.Quillian在研究人類聯(lián)系記憶時(shí)提出的。1972年,美國人工智能專家R.F.Simmons和J.Slocum首先將語義網(wǎng)絡(luò)用于自然語言理解系統(tǒng)中。語義網(wǎng)絡(luò)可以用有向圖表示。圖的節(jié)點(diǎn)表示概念,有向邊表示概念之間的語義關(guān)系。一個(gè)語義網(wǎng)絡(luò)的基本單元可以用一個(gè)三元組表示(A,R,B),其中A、B表示兩個(gè)節(jié)點(diǎn),R是語義關(guān)系。ABR第十九頁,編輯于星期日:五點(diǎn)五十四分。語言知識庫知網(wǎng)HowNet語義網(wǎng)絡(luò)常見的語義關(guān)系地球行星IS-A窗戶房子PART-OF北京首都IS第二十頁,編輯于星期日:五點(diǎn)五十四分。語言知識庫知網(wǎng)HowNet知網(wǎng)由機(jī)器翻譯專家董振東教授創(chuàng)建的語言知識庫,是一個(gè)以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。知網(wǎng)是一個(gè)語義網(wǎng)絡(luò)。醫(yī)治醫(yī)生醫(yī)藥患者疾病罹患醫(yī)院醫(yī)療費(fèi)付給施事受事內(nèi)容工具內(nèi)容經(jīng)驗(yàn)者場所領(lǐng)屬物對象施事第二十一頁,編輯于星期日:五點(diǎn)五十四分。語言知識庫現(xiàn)代漢語虛詞用法知識庫ChineseFunctionwordusageKnowledgeBase,CFKB鄭州大學(xué)信息工程學(xué)院與北京大學(xué)計(jì)算語言學(xué)研究所合作構(gòu)建。三位一體的語言知識庫,包括現(xiàn)代漢語虛詞用法詞典、現(xiàn)代漢語虛詞用法規(guī)則庫以及現(xiàn)代漢語虛詞用法標(biāo)注語料庫。漢語虛詞類型包括副詞、介詞、連詞、助詞、語氣詞、方位詞,每個(gè)虛詞可能區(qū)分為若干義項(xiàng),每個(gè)義項(xiàng)又可能區(qū)分為若干用法。目前的現(xiàn)代漢語虛詞用法詞典中收錄的虛詞詞語總數(shù)為2401個(gè),共涉及2982個(gè)義項(xiàng)及4337個(gè)用法。第二十二頁,編輯于星期日:五點(diǎn)五十四分。自然語言處理的應(yīng)用語音識別與合成機(jī)器翻譯信息檢索問答系統(tǒng)信息抽取文本摘要文本分類社會(huì)計(jì)算輸入法文本糾錯(cuò)作文評分……第二十三頁,編輯于星期日:五點(diǎn)五十四分。自然語言處理的應(yīng)用機(jī)器翻譯巴別塔Babel的故事方法:基于規(guī)則、基于統(tǒng)計(jì)、基于實(shí)例GoogleTranslate源語言文本詞法分析句法分析語義分析結(jié)構(gòu)轉(zhuǎn)換句子生成形態(tài)生成譯詞選擇目標(biāo)語言文本詞典規(guī)則庫第二十四頁,編輯于星期日:五點(diǎn)五十四分。自然語言處理的應(yīng)用信息檢索Web搜索引擎,Google、百度等漢語分詞的應(yīng)用和服務(wù)必于三日后裁制完畢,并呈送將軍府中。王府飯店的設(shè)施和服務(wù)是一流的。

查詢的同義擴(kuò)展“電腦”與“計(jì)算機(jī)”第二十五頁,編輯于星期日:五點(diǎn)五十四分。本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論