自然語言理解NLP_第1頁
自然語言理解NLP_第2頁
自然語言理解NLP_第3頁
自然語言理解NLP_第4頁
自然語言理解NLP_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、自然語言理解1.自然語言理解概述2.自然語言的特點(diǎn)3.自然語言理解過程4.自然語言理解的研究層次5.相關(guān)技術(shù)與應(yīng)用6.NLP主要難點(diǎn)歧義問題1.自然語言理解概述v自然語言理解NLP(NLP,Nature Language Processing):(或者更一般地稱為自然語言處理)俗稱“人機(jī)對話”,是一種使機(jī)器能理解人類語言(像中文、英文等人類語言稱為自然語言)的技術(shù)。v是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。v包括查詢資料、解答問題、摘錄文獻(xiàn)、匯編資料以及一切有關(guān)自然語言信息的加工處理。v例如,如果有一臺機(jī)器既能理解中文又

2、能理解英文,那么,這臺機(jī)器就可以為人類充當(dāng)翻譯;如果電視能理解中文,那么,用戶就可以不用按鈕,而是通過說話來遙控電視v語言究竟是怎樣組織起來傳輸信息的?人又是怎樣從一連串的語言符號中獲取信息的?2.自然語言的特點(diǎn)自然語言的特點(diǎn)v由詞構(gòu)成,中文構(gòu)詞以兩個為主。v 有一定結(jié)構(gòu),如:主謂賓,特殊句型。v 由“名詞塊”與“動詞塊”組成。v 有復(fù)雜性:本身復(fù)雜、缺省、習(xí)慣用語v 允許歧義,上下文排除v 非歧義的句子含義也較多(有多個結(jié)果,有些在某領(lǐng)域有用)。3.自然語言理解過程自然語言理解過程1 拆分過程: 詞法分析。2 合并過程: 句法及語義分析,每一次語義分析,涉及若干個詞,一般是(動詞名詞)對,符

3、合語義(一個簡單句算分析成功),若干詞生成一個事件,事件轉(zhuǎn)換為名詞,參與新的合并。例句: 2加3等于5。 2加3是簡單句;生成2323是新名詞, 23等于5又是簡單句;生成 23 53 程序結(jié)束(理解完): 所有詞,經(jīng)過句法和語義分析,最終生成一個詞,即:生成一個事件。4 理解的意義: 在合并過程中,根據(jù)詞義搭配,生成相應(yīng)的內(nèi)容,數(shù)學(xué)中主要是運(yùn)算關(guān)系。 例如:延長線段AB至D; 給出關(guān)系命令:AB+BD=AD 給出繪圖命令:沿AB方向,延長線段AB至點(diǎn)D。4.自然語言理解的研究層次 語用學(xué): 語法學(xué):語義學(xué):形態(tài)學(xué):5.相關(guān)技術(shù)與應(yīng)用1.信息抽?。↖nformation Extraction,

4、IE):其目的是將非結(jié)構(gòu)化或半結(jié)構(gòu)化的自然語言描述文本轉(zhuǎn)化結(jié)構(gòu)化的數(shù)據(jù)。例如:自動根據(jù)郵件內(nèi)容生成Calendar;2.自動問答(Question Answering,QA):它是一套可以理解復(fù)雜問題,并以充分的準(zhǔn)確度、可信度和速度給出答案的計(jì)算系統(tǒng),以IBMs Waston為代表;3.情感分析(Sentiment Analysis,SA):又稱傾向性分析和意見挖掘,它是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程,如從大量網(wǎng)頁文本中分析用戶對“數(shù)碼相機(jī)”的“變焦、價格、大小、重量、閃光、易用性”等屬性的情感傾向;4.機(jī)器翻譯(Machine Translation,MT):將文

5、本從一種語言轉(zhuǎn)成另一種語言,如中英機(jī)器翻譯。NLP技術(shù)有非常廣泛的應(yīng)用。但是針對一定應(yīng)用,具有相當(dāng)自然語言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開始產(chǎn)業(yè)化。例如:各種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口各種機(jī)器翻譯系統(tǒng)全文信息檢索系統(tǒng)自動文摘系統(tǒng)等Coreference resolutionQuestion answering (QA)Part-of-speech (POS) taggingWord sense disambiguation (WSD)ParaphraseNamed entity recognition (NER)ParsingSummarizationInformation

6、 extraction (IE)Machine translation (MT)DialogSentiment analysis mostly solvedmaking good progressstill really hardSpam detectionLets go to Agra!Buy V1AGRA Colorless green ideas sleep furiously. ADJ ADJ NOUN VERB ADVEinstein met with UN officials in PrincetonPERSON ORG LOCYoure invited to our dinner

7、 party, Friday May 27 at 8:30PartyMay 27addBest roast chicken in San Francisco!The waiter ignored us for 20 minutes.Carter told Mubarak he shouldnt run again.I need new batteries for my mouse.The 13th Shanghai International Film Festival第13屆上海國際電影節(jié)開幕The Dow Jones is upHousing prices roseEconomy is g

8、oodQ. How effective is ibuprofen in reducing fever in patients with acute febrile illness?I can see Alcatraz from the window!XYZ acquired ABC yesterdayABC has been taken over by XYZWhere is Citizen Kane playing in SF? Castro Theatre at 7:30. Do you want a ticket?The S&P500 jumped5.NLP的發(fā)展現(xiàn)狀v基本解決:

9、詞性標(biāo)注、命名實(shí)體識別、Spam識別v取得長足進(jìn)展:情感分析Sentiment analysis、共指消解Coreference resolution、詞義消歧Word sense disambiguation 、句法分析Parsing、機(jī)器翻譯Machine translation (MT )、信息抽取Information extraction (IE)v挑戰(zhàn):自動問答、復(fù)述、文摘、會話機(jī)器人6.NLP主要難點(diǎn)歧義問題1.詞法分析歧義:v分詞:例如:“嚴(yán)守一把手機(jī)關(guān)了”可能的分詞結(jié)果:“嚴(yán)守一/ 把/ 手機(jī)/ 關(guān)/ 了” “嚴(yán)守/ 一把手/ 機(jī)關(guān)/ 了”v詞性標(biāo)注:例如“計(jì)劃”在不同上下文

10、中有不同的詞性:“我/ 計(jì)劃/考/ 研/”“我/ 完成/ 了/ 計(jì)劃/”2.語法分析歧義:“那只狼咬死了獵人的狗” “咬死了獵人的狗失蹤了”3.語義分析歧義:機(jī)器翻譯句子“At last, a computer that understands you like your mother”可以有多種含義,如下:“計(jì)算機(jī)會像你的母親那樣很好的理解你(的語言)”“計(jì)算機(jī)理解你喜歡你的母親”“計(jì)算機(jī)會像很好的理解你的母親那樣理解你”4.NLP應(yīng)用中的歧義音字轉(zhuǎn)換:例如:拼音串“ji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu”(機(jī)器翻譯及其應(yīng)用激起了人們極其濃厚的興趣)中的“ji qi”如何轉(zhuǎn)換成正確的詞條為什么自然語言理解如此困難?v用戶生成內(nèi)容中存在大量口語化、成語、方言等非標(biāo)準(zhǔn)的語言描述v分詞問題v新詞不斷產(chǎn)生v基本常識與上下文知識v各式各樣的實(shí)體詞如何解決?掌握較多的語言學(xué)知識,構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論