人工智能導(dǎo)論-項(xiàng)目7-自然語言處理_第1頁
人工智能導(dǎo)論-項(xiàng)目7-自然語言處理_第2頁
人工智能導(dǎo)論-項(xiàng)目7-自然語言處理_第3頁
人工智能導(dǎo)論-項(xiàng)目7-自然語言處理_第4頁
人工智能導(dǎo)論-項(xiàng)目7-自然語言處理_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能導(dǎo)論項(xiàng)目七

自然語言處理--人工智能實(shí)踐應(yīng)用

01項(xiàng)目背景02思維導(dǎo)圖03思政聚焦04項(xiàng)目相關(guān)知識05項(xiàng)目任務(wù)目錄CONTENTS06項(xiàng)目小結(jié)與展望01項(xiàng)目概述人機(jī)交流的關(guān)鍵--自然語言處理“語言是通往心靈深處的橋梁”,通過語言,人與人之間、動物與動物之間可以相互溝通交流。機(jī)器同樣也有自己的語言交流方式,那就是數(shù)字信息。但不同的語言之間往往是無法直接溝通的。如何讓機(jī)器學(xué)會“聽懂”一個(gè)人說的話,并翻譯成另一種語言后再說出來,自然語言處理(NaturalLanguageProcessing,簡稱NLP)就是其中的關(guān)鍵。自然語言處理概念自然語言處理(NLP)就是用計(jì)算機(jī)來處理、理解以及運(yùn)用人類語言(如中文、英文等),它屬于人工智能的一個(gè)分支,是計(jì)算機(jī)科學(xué)與語言學(xué)的交叉學(xué)科,又常被稱為計(jì)算語言學(xué)。目標(biāo):讓機(jī)器用人類語言做一些聰明的事情和利用人類語言進(jìn)行自我表達(dá),比如安排約會、買東西、或更高級的目標(biāo)—理解世界。NLP被譽(yù)為“人工智能皇冠上的珍珠”。自然語言處理應(yīng)用我們每天都在享受自然語言處理技術(shù)提供的便利。例如:拼音輸入法的輸入補(bǔ)全、百度翻譯、語音助手;在金融領(lǐng)域,金融風(fēng)險(xiǎn)分析、欺詐識別等;在法律領(lǐng)域,案例搜索、判決預(yù)測等;在醫(yī)療健康領(lǐng)域,病歷的輔助錄入、醫(yī)學(xué)資料的檢索等。02思維導(dǎo)圖項(xiàng)目五思維導(dǎo)圖03課程思政自然語言處理應(yīng)用百度旗下人工智能硬件品牌小度憑借自身過硬的人工智能實(shí)力,與故宮文化“跨界聯(lián)名”,推出了故宮主題智能音箱—小度在家1S故宮文化限定版,這一輪國內(nèi)頂尖科技與中國傳統(tǒng)文化的相互融合,將故宮聯(lián)名熱潮推至頂峰。讓傳統(tǒng)文化插上AI的翅膀,活化經(jīng)典。小度與故宮文化的“跨界聯(lián)名”04項(xiàng)目知識準(zhǔn)備自然語言處理的發(fā)展歷程自然語言處理(NLP)的歷史幾乎跟計(jì)算機(jī)和人工智能(AI)一樣長,自計(jì)算機(jī)出現(xiàn)后就有了人工智能的研究,而人工智能領(lǐng)域最早的研究就是機(jī)器翻譯以及自然語言理解。自然語言處理的發(fā)展大致經(jīng)歷了以下三個(gè)階段:自然語言處理的兩大流程自然語言處理機(jī)制涉及兩個(gè)流程,包括自然語言理解(NLU,LanguageUnderstanding)和自然語言生成(NLG,NaturalLanguageGeneration)。自然語言理解是指計(jì)算機(jī)能夠理解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達(dá)給定的意圖。自然語言處理的層次理解自然語言的理解和分析是一個(gè)層次化的過程,許多語言學(xué)家把這一過程分為五個(gè)層次,可以更好地體現(xiàn)語言本身的構(gòu)成,五個(gè)層次分別是語音分析、詞法分析、句法分析、語義分析和語用分析。(1)語音分析:要根據(jù)音位規(guī)則,從語音流中區(qū)分出一個(gè)個(gè)獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出音節(jié)及其對應(yīng)的詞素或詞。(2)詞法分析:找出詞匯的各個(gè)詞素,從中獲得語言學(xué)的信息。詞是漢語中能夠獨(dú)立的最小語言單位,正確的單詞切分取決于對文本語義的正確理解,而單詞切分又是理解語言的最初的一道工序。

例如“我們研究所有東西”這句話進(jìn)行分詞后可能會得到“我們/研究/所有/東西”,或“我們/研究所/有/東西”自然語言處理的層次理解(3)句法分析:對句子和短語的結(jié)構(gòu)進(jìn)行分析,目的是要找出詞、短語等的相互關(guān)系以及各自在句中的作用。

例如:“反對│的│是│少數(shù)人”,“咬死了|獵人|的|狗”(4)語義分析:找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達(dá)的真正含義或概念。

例如“你約我吃飯”和“我約你吃飯”,意思完全不同(5)語用分析:研究語言所存在的外界環(huán)境對語言使用者所產(chǎn)生的影響。

例如“我要一個(gè)漢堡包”,在不同的上下文中會有不同的含義。自然語言處理的研究現(xiàn)狀機(jī)器缺乏常識知識大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)較難獲得同樣一句話,不同的人使用時(shí)可能會有不同的說法和不同的表達(dá)個(gè)性化識別難語義理解難標(biāo)注數(shù)據(jù)資源貧乏04項(xiàng)目任務(wù)任務(wù)1:智能文本分析1、任務(wù)描述

智能文本分析是輸入一段待分析的文本內(nèi)容,通過文本分句、分詞、命令實(shí)體識別這三個(gè)重要步驟,從該文本范圍中提取出時(shí)間、地點(diǎn)、人物、事件等關(guān)鍵信息。這些關(guān)鍵信息能形成反映出中心內(nèi)容的文本摘要,實(shí)現(xiàn)對文本的分類、情感分析,最終生成文本分析報(bào)告。任務(wù)1:智能文本分析2、技術(shù)分析文本分詞采用基于字符串匹配的分詞方法,按照一定的策略將待分析的字符串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識別出一個(gè)詞),這種分詞方法的實(shí)現(xiàn)簡單方便。命名實(shí)體識別:命名實(shí)體識別的主要技術(shù)方法有基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)的方法、規(guī)則與統(tǒng)計(jì)相結(jié)合的混合方法。將規(guī)則與統(tǒng)計(jì)相結(jié)合、多種統(tǒng)計(jì)方法相結(jié)合的混合方法是目前主流的方法,也是本項(xiàng)目使用的命名實(shí)體識別技術(shù)方法。任務(wù)1:智能文本分析2、技術(shù)分析關(guān)鍵信息提取是指從文本里面把跟內(nèi)容意義最相關(guān)的一些詞語抽取出來,在文獻(xiàn)檢索、自動文摘、文本聚類/分類等方面有著重大的應(yīng)用。目前關(guān)于文本的關(guān)鍵信息提取算法主要有三種:有監(jiān)督的關(guān)鍵詞抽取、半監(jiān)督的關(guān)鍵詞提取、無監(jiān)督的關(guān)鍵詞提取。有監(jiān)督的文本關(guān)鍵詞提取算法需要高昂的人工成本,因此現(xiàn)有的文本關(guān)鍵詞提取主要采用適用性較強(qiáng)的無監(jiān)督關(guān)鍵詞提取方法,這也是本項(xiàng)目采用的關(guān)鍵詞提取算法。任務(wù)1:智能文本分析2、技術(shù)分析文本摘要生成:指的是為較長的文本文檔創(chuàng)建簡短、準(zhǔn)確的摘要。目前文本摘要的生成方式通常可分為生成式、抽取式兩類。生成式比抽取式更接近人進(jìn)行摘要的過程,這也是本項(xiàng)目采用的文本摘要生成方法。文本情感分析:指利用自然語言處理和文本挖掘技術(shù),對帶有情感色彩的主觀性文本進(jìn)行分析、處理和抽取的過程。目前主要采用的方法有基于情感詞典、基于機(jī)器學(xué)習(xí)的方法,其中基于機(jī)器學(xué)習(xí)的方法是本項(xiàng)目采用的情感分析技術(shù)方法。任務(wù)1:智能文本分析3、任務(wù)實(shí)現(xiàn)---請大家掃二維碼根據(jù)步驟測試實(shí)現(xiàn)任務(wù)2:機(jī)器人寫詩1、任務(wù)描述機(jī)器人寫詩是輸入詩的標(biāo)題、類型,通過模型訓(xùn)練,自動生成符合格式要求的詩詞。任務(wù)2:機(jī)器人寫詩2、技術(shù)分析在寫詩之前需要學(xué)習(xí)各種不同類型的風(fēng)格或不同主題的詩歌,獲得詩歌的一些基本特征規(guī)律,然后基于這些知識進(jìn)行詩歌生成。目前主流的詩歌生成技術(shù)方法有:基于傳統(tǒng)方法的詩歌生成、基于深度學(xué)習(xí)技術(shù)的詩歌生成。基于統(tǒng)計(jì)方法的詩歌生成方法一般需要人工設(shè)計(jì)規(guī)則和評估函數(shù)對生成詩歌的格律,語義等進(jìn)行約束。非常依賴詩歌的領(lǐng)域知識,通用性差方法,因此本項(xiàng)目采用的是基于深度學(xué)習(xí)技術(shù)的詩歌生成方法。任務(wù)2:機(jī)器人寫詩3、任務(wù)實(shí)現(xiàn)---請大家掃二維碼根據(jù)步驟測試實(shí)現(xiàn)04項(xiàng)目小結(jié)與展望項(xiàng)目小結(jié)

本章介紹了自然語言處理的概念、應(yīng)用、發(fā)展歷程、研究現(xiàn)狀等內(nèi)容。以智能文本分析、機(jī)器人寫詩這兩個(gè)項(xiàng)目實(shí)踐,對自然語言應(yīng)用做了案例具體實(shí)現(xiàn)。

智能文本分析實(shí)現(xiàn)過程主要包括文本分句、分詞、命名實(shí)體識別、關(guān)鍵信息提取、文本分類、情感分析等重要步驟。

機(jī)器人寫詩則主要是通過輸入詩的標(biāo)題和類型,自動生成詩歌。項(xiàng)目展望

人工智能自然語言處理將是信息科學(xué)技術(shù)中長期發(fā)展的一個(gè)新的戰(zhàn)略新高度,自然語言處理技術(shù)會讓大家的生活越來越方便。打客服電話,你不用再選擇一大堆

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論