第7章自然語言處理_第1頁
第7章自然語言處理_第2頁
第7章自然語言處理_第3頁
第7章自然語言處理_第4頁
第7章自然語言處理_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第七章自然語言處理人工智能概論目錄人工智能相關(guān)概念7.1概述7.2智能問答系統(tǒng)7.3聊天機(jī)器人7.4語音識別

7.5機(jī)器翻譯

7.6小結(jié)

7自然語言處理概念自然語言是人類表達(dá)和交流思想最基本的工具,是區(qū)別于形式語言或人工語言的人際交流的口頭語言和書面語言。自然語言處理是用機(jī)器處理人類語言的理論和技術(shù)。人工智能基礎(chǔ)7.1概述互聯(lián)網(wǎng)產(chǎn)業(yè)和傳統(tǒng)產(chǎn)業(yè)信息化的各種應(yīng)用需求驅(qū)動更多的研究人員、更多的經(jīng)費支持進(jìn)入了自然語言處理領(lǐng)域,有利的促進(jìn)了自然語言處理技術(shù)和應(yīng)用的發(fā)展。語言數(shù)據(jù)的不斷增長、語言資源的持續(xù)增加、語言加工能力的穩(wěn)步提高,為研究人員提供了研究自然語言處理技術(shù)、開發(fā)自然語言應(yīng)用的更好的機(jī)會和平臺。近年來深度學(xué)習(xí)技術(shù)的飛速發(fā)展,刺激了對新的自然語言處理技術(shù)的探索。同時,來自其他相近學(xué)科背景、來自工業(yè)界的人員的不斷加入,也為自然語言處理技術(shù)的發(fā)展帶來了一些新思路。人工智能基礎(chǔ)7.1.1自然語言處理含義人工智能基礎(chǔ)自然語言處理(naturallanguageprocessing,NLP)是用機(jī)器處理人類語言的理論和技術(shù)。從廣義上講,它包含所有用計算機(jī)對自然語言進(jìn)行的操作,從最簡單地通過計數(shù)詞出現(xiàn)的頻率來比較不同的寫作風(fēng)格,到最復(fù)雜地完全“理解”人所說的話,至少要能達(dá)到對人的話語做出有效反應(yīng)的程度。在學(xué)術(shù)界,很多人也把自然語言處理稱為“計算語言學(xué)”。由于自然語言的多義性、上下文相關(guān)性、模糊性、時代變遷性、涉及的知識面廣等原因,處理自然語言充滿困難。自然語言處理的研究希望機(jī)器能夠執(zhí)行人類所期望的某些語言功能,這些功能包括:(1)回答問題:計算機(jī)能正確地回答用自然語言輸入的有關(guān)問題。(2)文摘生成:機(jī)器能產(chǎn)生輸入文本的摘要。(3)釋義:機(jī)器能用不同的詞語和句型來復(fù)述輸入的自然語言信息。(4)翻譯:機(jī)器能把一種語言翻譯成另外一種語言。7.1.2自然語言處理的功能應(yīng)用人工智能基礎(chǔ)自然語言處理的功能應(yīng)用1.文字識別2.語音識別3.機(jī)器翻譯4.自動文摘5.文本分類6.信息檢索7.信息獲取8.信息過濾9.自然語言生成10.語音合成11.問答系統(tǒng)7.1.3自然語言處理的層次人工智能基礎(chǔ)語言雖然表示成一連串文字符號或一串聲音流,但其內(nèi)部事實上是一個層次化的結(jié)構(gòu)從語言的構(gòu)成中就可以清楚地看到這種層次性。一個文字表達(dá)的句子的層次是詞素→詞或詞形→詞組或句子,而聲音表達(dá)的句子的層次則是音素→音節(jié)→音詞→音句,其中每個層次都受到語法規(guī)則的制約。因此,語言的處理過程也應(yīng)當(dāng)是一個層次化的過程。許多現(xiàn)代語言學(xué)家把這一過程分為五個層次:語音分析、詞法分析、句法分析、語義分析和語用分析。語音分析就是根據(jù)音位規(guī)則,從語音流中區(qū)分出一個個獨立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個個音節(jié)及其對應(yīng)的詞素或詞。語用就是研究語言所存在的外界環(huán)境對語言使用所產(chǎn)生的影響。它描述語言的環(huán)境知識、語言與語言使用者在某個給定語言環(huán)境中的關(guān)系。關(guān)注語用信息的自然語言處理系統(tǒng)更側(cè)重于講話者/聽話者模型的設(shè)定,而不是處理嵌入到給定話語中的結(jié)構(gòu)信息。研究者提出了很多語言環(huán)境的計算模型,描述講話者及其通信目的、聽話者及其對說話者信息的重組方式。構(gòu)建這些模型的難點在于如何把自然語言處理的不同方面以及各種不確定的生理、心理、社會和文化等背景因素集中到一個完整的連貫的模型中。、7.1.4自然語言處理技術(shù)1.詞法分析詞法分析是理解單詞的基礎(chǔ),其主要目的是從句子中切分出單詞,找出詞匯的各個詞素,從中獲得單詞的語言學(xué)信息并確定單詞的詞義,如unchangeable是由un-change-able構(gòu)成的,其詞義由這三個部分構(gòu)成。不同的語言對詞法分析有不同的要求,例如,英語和漢語就有較大的差距。、7.1.4自然語言處理技術(shù)2.句法分析法分析主要有兩個作用:(1)對句子或短語結(jié)構(gòu)進(jìn)行分析,以確定構(gòu)成句子的各個詞、短語之間的關(guān)系以及各自在句子中的作用等,并將這些關(guān)系用層次結(jié)構(gòu)加以表達(dá);(2)對句法結(jié)構(gòu)進(jìn)行規(guī)范化。在對一個句子進(jìn)行分析的過程中,如果把分析句子各成分間的關(guān)系的推導(dǎo)過程用樹形圖表示出來的話,那么這種圖稱為句法分析樹。句法分析是由專門設(shè)計的分析器進(jìn)行的,分析過程就是構(gòu)造句法樹的過程,將每個輸入的合法語句轉(zhuǎn)換為一棵句法分析樹。、7.1.4自然語言處理技術(shù)3.語義分析句法分析通過后并不等于已經(jīng)理解了所分析的句子,至少還需要進(jìn)行語義分析,把分析得到的句法成分與應(yīng)用領(lǐng)域中的目標(biāo)表示相關(guān)聯(lián),才能產(chǎn)生唯一正確的理解。簡單的做法就是依次使用獨立的句法分析程序和語義解釋程序。這樣做的問題是,在很多情況下句法分析和語義分析相分離,常常無法決定句子的結(jié)構(gòu)。ATN允許把語義信息加進(jìn)句法分析,并充分支持語義解釋。為有效地實現(xiàn)語義分析,并能與句法分析緊密結(jié)合,學(xué)者們給出了多種進(jìn)行語義分析的方法,包括語義文法和格文法。7.2智能問答系統(tǒng)人工智能基礎(chǔ)

在圖靈測試中,是通過問答來測驗機(jī)器是否具備智能的,即提問者提出問題,機(jī)器和被模仿者均回答該問題。經(jīng)過一段時間的互動,如果機(jī)器可以“以假亂真”,就表面它具有智能。日常生活、學(xué)習(xí)、工作中都離不開“問答”這一基本的互動形式。社會上的各類資格考試、找工作時的面試以及讀書時的各種考試都涉及到問答。更有大量的智力競猜類電視節(jié)目,根據(jù)選手回答的正確性評價其“聰明”程度。

目前,智能問答系統(tǒng)的研究已成為高科技公司競爭的熱點。小冰是微軟公司推出的智能問答系統(tǒng)。它的語音識別能力、語音合成技術(shù)、基于大語料庫的自然語言對話引擎都有非常獨到的地方。截止到2016年9月17日,小冰已經(jīng)跟4200多萬人進(jìn)行了200多億次對話,包括文字聊天、語音聊天、電話通話等工作形式。其他公司推出的智能問答系統(tǒng)還包括:蘋果公司于2011年發(fā)布的iOS語音助理Siri;谷歌公司于2012年發(fā)布的GoogleNow;百度公司于2015年發(fā)布的集成個人搜索和智能聊天功能的度秘等。智能問答系統(tǒng)的主要功能是允許用戶用自然語言查詢,并直接提供簡潔、準(zhǔn)確的答案,這其中核心技術(shù)問題是如何準(zhǔn)確理解用戶的問題,是否能夠提供正確的答案。

總的來說,問答系統(tǒng)的工作流程與人的思考過程相近:理解問題、尋找知識、確定答案。這個流程既可以分步驟處理,也可以用“端到端”的思路建立模型。問答系統(tǒng)需根據(jù)知識表示的不同而采用不同的技術(shù)方案。例如,基于檢索的問答系統(tǒng)圍繞“檢索”展開,即先理解問題,知道建設(shè)什么;然后在合適的知識庫中檢索;最后篩選檢索到的答案,整理輸出。雖然機(jī)器回答了問題,但這個答案不是推理出來的,而是“搜”出來的。這類問答系統(tǒng)可以借助信息檢索技術(shù)實現(xiàn)。與傳統(tǒng)的信息檢索(如搜索引擎)相比,用戶問的不是若干關(guān)鍵詞,而是整句話;系統(tǒng)回復(fù)的也不再是保護(hù)關(guān)鍵詞的文檔,而是更精確的答案。機(jī)器學(xué)習(xí)是一個龐大的家族體系,涉及眾多算法和學(xué)習(xí)理論。根據(jù)不同的學(xué)習(xí)路徑,機(jī)器學(xué)習(xí)模型的類型主要有以下4種劃分方式:按學(xué)習(xí)理論劃分按學(xué)習(xí)理論的不同,可以將機(jī)器學(xué)習(xí)模型分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。按求解的算法劃分按求解算法的不同,可以將機(jī)器學(xué)習(xí)模型分為生成模型和判別模型。7.2.1問答系統(tǒng)的主要組成按方法劃分按所用方法的不同,可以將機(jī)器學(xué)習(xí)模型分為線性模型和非線性模型。按任務(wù)劃分按任務(wù)的不同,可以將機(jī)器學(xué)習(xí)模型分為回歸模型、分類模型和結(jié)構(gòu)化學(xué)習(xí)模型。7.2.1問答系統(tǒng)的主要組成問答系統(tǒng)的基本組成,與人進(jìn)行提問→思考→回答的思維過程相近,大致分為3個部分如圖所示。問答系統(tǒng)結(jié)構(gòu)圖7.2.1問答系統(tǒng)的主要組成1.問題理解對于自然語言輸入的問題,首先需要理解問題問的是什么:是在問一個詞語的定義,是在查詢某項智力知識,是在檢索身邊的生活信息,還是問某一個事件的發(fā)生原因,等等。只有準(zhǔn)確地理解問題,才有可能得到正確的知識庫中檢索答案。例如,“河南的溫度是多少”是在問河南這個城市的氣溫;而“太陽的溫度是多少”則是在問一項天文知識。字面上很相近的兩句話,如果理解錯誤,在氣象信息里尋找“太陽”這個城市的氣溫,則無法提供正確答案。7.2.1問答系統(tǒng)的主要組成2.知識檢索在理解了用自然語言形式提出的問題后,通常會組織成一個計算機(jī)可理解的檢索式,檢索式的格式由知識庫的結(jié)構(gòu)決定。例如,如果我們采用搜索引擎作為知識源,那么理解后的問題就可以是若干關(guān)鍵詞;如果采用百科全書作為知識源,那么問題就應(yīng)組織為一個主詞條及其屬性。以“河南的面積有多大”問題為例,如果用搜索引擎檢索,可生成“北京”“面積”兩個關(guān)鍵詞;如果百科全書檢索,則應(yīng)在“河南省”詞條中,檢索“面積”這一屬性信息。如果用神經(jīng)網(wǎng)絡(luò)這樣端到端的模型,則將問題理解后得到的向量,與知識源的數(shù)學(xué)表示進(jìn)行運算,得到的計算結(jié)果也蘊含了答案信息。7.2.1問答系統(tǒng)的主要組成3.答案生成通常檢索到的知識并不能直接作為答案返回。這是因為最精確的答案往往混雜在上下文中,我們需要提取出其中與問題最相關(guān)的部分。例如,用搜索引擎檢索到若干相關(guān)的文檔,然后從這些文檔的大量內(nèi)容中提取核心的段落、句子甚至詞語;百科全書的知識結(jié)構(gòu)可能與提問并不一一對應(yīng),例如,河南省的城市面積在不同的歷史時期有多個不同的數(shù)值,就“河南省的面積有多大”這個問題而言我們可以取最新數(shù)值作為答案;而如果加上限定詞“建國初期”,則需針對該約束條件,取最佳答案。7.2.2問答系統(tǒng)的分類1.文本問答系統(tǒng)本問答系統(tǒng)是最基本的一類問答系統(tǒng),其包含的模塊和技術(shù)涉及到問答系統(tǒng)的方方面面,也是各類問答系統(tǒng)的基礎(chǔ)。在問題理解方面,研究人員總結(jié)了提問的目標(biāo)和要素,整理出若干分類體系,既有平面分類,又有層次分類。這些分類體系有助于在候選答案中做篩選。問題理解的方法主要涉及自然語言處理的語義分析技術(shù)。此外,我們還需使用其他自然語言分析工具消除句子歧義,并針對相同意思擴(kuò)展原始問題。在知識檢索方面,包括非結(jié)構(gòu)化的信息檢索和結(jié)構(gòu)化的知識檢索,還包括本體和推理。基于深度神經(jīng)網(wǎng)絡(luò)模型,讓機(jī)器自動學(xué)習(xí)知識并完成推理,也是一個有前景的研究方向。在答案生成方面,可借助自然語言處理技術(shù),分析答案文本塊中的詞語,例如命名實體識別、詞性標(biāo)注等,從中篩選出更可能是答案的詞語或詞組。隨著候選答案范圍的逐步縮小,我們還可以借助其他工具驗證答案的可信程度。7.2.2問答系統(tǒng)的分類2.社區(qū)問答系統(tǒng)社區(qū)問答網(wǎng)站為我們提供了問題及對應(yīng)的答案,我們稱之為“問題—答案對”,簡稱“問答對”。因此,與前述傳統(tǒng)的問答系統(tǒng)不同,社區(qū)問答系統(tǒng)已經(jīng)有了問題和答案之間的聯(lián)系。社區(qū)問答系統(tǒng)的結(jié)構(gòu)可分為兩部分:問題理解和答案生成。找到的相近問題可能對應(yīng)很多答案,但在社區(qū)問答網(wǎng)站中,答案的質(zhì)量并不一定很高。因此,我們并不能直接把答案返回給用戶,而要挑選出一些更有可能準(zhǔn)確的答案,或者多個答案的綜合,或者長篇答案做摘要。社區(qū)問答網(wǎng)站國外的有Quora,國內(nèi)的有知乎、百度知道、搜狗問問等。社區(qū)問答系統(tǒng)的主要難點就在于相似問題檢索和答案過濾兩方面。社區(qū)問答系統(tǒng)中,我們只需要找到合適的問題,再從這些問題的答案中挑出最合適的,即可完成問答任務(wù)。社區(qū)問答系統(tǒng)的結(jié)構(gòu)如圖所示。7.2.2問答系統(tǒng)的分類2.社區(qū)問答系統(tǒng)社區(qū)問答系統(tǒng)的結(jié)構(gòu)示意7.2.2問答系統(tǒng)的分類3.多媒體問答系統(tǒng)多媒體問答系統(tǒng)是指能根據(jù)音像、視頻等多媒體內(nèi)容直接提問或利用多媒體內(nèi)容解答問題的系統(tǒng)。多媒體問答系統(tǒng)與文本問答系統(tǒng)在結(jié)構(gòu)上是相似的,只是多媒體問答系統(tǒng)所處理的問題、知識、答案不再限于文本,而包含了圖像、音頻、視頻等等。從技術(shù)角度講,除了自然語言處理,還需計算機(jī)視覺、信號處理等多媒體技術(shù),才能分析出多媒體所表達(dá)的內(nèi)容。多媒體問答系統(tǒng)尚屬研究界的前沿課題,相關(guān)工作并不像文本問答那樣多。此外,對多媒體內(nèi)容的理解也是制約多媒體問答系統(tǒng)發(fā)展的重要瓶頸?,F(xiàn)有研究可以從某些特定領(lǐng)域開始并逐步推廣到開放領(lǐng)域的問答。2011年IBM公司推出了名為“沃森”(Watson)的人工智能系統(tǒng),它在美國智力競賽電視節(jié)目《危險邊緣》(Jeopardy!)中與人類同臺競技,回答主持人提出的涵蓋多種主題、學(xué)科的智力題,最終在總決賽中擊敗了人類選手。該事件激發(fā)了社會對人工智能、自然語言處理技術(shù)的興趣,引發(fā)人們討論。沃森系統(tǒng)綜合了很多相關(guān)的處理技術(shù),集自然語言處理、信息檢索、知識表示、自動推理等技術(shù)于一身,使用了字典、詞典、百科全書、新聞作品等數(shù)百萬的文檔,并在硬盤上有足夠的計算資源支撐。與所有的問答系統(tǒng)結(jié)構(gòu)相近,沃森的結(jié)構(gòu)也分為問題、知識和答案三部分。沃森針對特定的問答模式進(jìn)行了細(xì)致的處理,特別是在知識部分,有大量的假設(shè)、推理和綜合步驟。沃森的總體結(jié)構(gòu)右圖所示。7.2.3問答系統(tǒng)案例IBM公司深度問答研究組開發(fā)的深度問答體系結(jié)構(gòu)譯自IBM7.3聊天機(jī)器人聊天機(jī)器人是一種通過自然語言模擬人類進(jìn)行對話的程序,是一種非任務(wù)導(dǎo)向型智能交互式問答對話系統(tǒng)。它通常運行在特定的軟件平臺上,如PC平臺或者移動終端設(shè)備平臺,而類人的硬件機(jī)械體則不是必需的承載設(shè)備。由人工智能的發(fā)展歷史可知,聊天機(jī)器人的構(gòu)想實際上源于圖靈測試。最早的聊天機(jī)器人程序ELIZA誕生于1966年,由麻省理工學(xué)院的約瑟夫?魏澤鮑姆(JosephWeizenbaum)開發(fā),用于在臨床醫(yī)療中模仿心理醫(yī)生。1988年,加州大學(xué)伯克利分校的羅伯特?威林斯基(RobertWilensky)等人開發(fā)了名為UC(UNIXConsultant)的聊天機(jī)器人系統(tǒng)。UC是一款幫助用戶學(xué)習(xí)使用UNIX操作系統(tǒng)的聊天機(jī)器人。近年來,聊天機(jī)器人受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。微軟推出的“小冰”、百度推出的用于交互式搜索的“小度”等產(chǎn)品,都推動了聊天機(jī)器人產(chǎn)品化的發(fā)展?,F(xiàn)代聊天機(jī)器人系統(tǒng)可以看作是“互聯(lián)網(wǎng)+自然語言理解”的結(jié)合。2019年5月,斯坦福大學(xué)舉辦的對話式問答(conversationalquestionanswering,CoQA)挑戰(zhàn)賽中,微軟亞洲研究院(microsoftresearchasia,MSRA)NLP組和微軟雷德蒙德語音對話研究組的問答系統(tǒng)成為了近年來首個表現(xiàn)超越人類的對話模型,這一成就標(biāo)志著搜索引擎(如必應(yīng))、智能助手(如Cortana)在與人互動和以更自然的方式(類似人與人之間的交流)提供信息方面取得了重大進(jìn)展。人工智能基礎(chǔ)7.3.1聊天機(jī)器人的分類1.按功能分類聊天機(jī)器人按功能分類,可分為問答型聊天機(jī)器人、任務(wù)型聊天機(jī)器人和閑聊型聊天機(jī)器人。不同功能的聊天機(jī)器人的實現(xiàn)技術(shù)也不盡相同,例如,在做問答型聊天機(jī)器人時,需要提取問句中的焦點詞匯,以此到三元組或知識圖譜中檢索;為了提高檢索的精度,還通常需要對問句和關(guān)系進(jìn)行分類操作。但是閑聊型聊天機(jī)器人則可以直接將問句作為序列標(biāo)注問題處理,將高質(zhì)量的數(shù)據(jù)輸入深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練,最終得到目標(biāo)模型。7.3.1聊天機(jī)器人的分類2.按模式分類聊天機(jī)器人按模式分類,可分為基于檢索模式的機(jī)器人和生成式模式機(jī)器人?;跈z索模式的機(jī)器人,使用預(yù)定義響應(yīng)的數(shù)據(jù)庫和某種啟發(fā)式推理來根據(jù)輸入及上下文選擇適當(dāng)?shù)捻憫?yīng),也就是構(gòu)建常見問題項目與對應(yīng)問題的解答,存儲成“問題-答案”對,之后用檢索的方式從“問題-答案”對中返回句子的答案。這些系統(tǒng)不會產(chǎn)生任何新的文本,而只是會從固定的集合中選擇一個響應(yīng)。這些系統(tǒng)雖然使用手工打造的存儲庫,基于檢索模式的方法不會產(chǎn)生語法錯誤,但無法處理沒有預(yù)定義響應(yīng)的場景,也不能引用上下文實體信息。7.3.1聊天機(jī)器人的分類2.按模式分類生成式模式機(jī)器人的實現(xiàn)要更難一些,因為它不依賴于預(yù)定義的響應(yīng),完全從零開始生成新的響應(yīng)。生成式模式通?;跈C(jī)器翻譯技術(shù),但不是將一種語言翻譯成另一種語言,而是從輸入到輸出(響應(yīng))的“翻譯”。它的好處是可以引用輸入中的實體,因此會讓使用這種聊天機(jī)器人的人們感到是在與人交談。但這些模型很難訓(xùn)練,而且很可能會有語法錯誤(特別是在較長的句子上),并且通常需要大量的訓(xùn)練數(shù)據(jù)。7.3.1聊天機(jī)器人的分類3.按領(lǐng)域分類聊天機(jī)器人按領(lǐng)域分類,可分為開放領(lǐng)域聊天機(jī)器人和封閉領(lǐng)域聊天機(jī)器人。從系統(tǒng)功能上講,自動問答分為開放域自動問答和限定域自動問答。開放域是指不限定問題領(lǐng)域,用戶可以隨意提問,系統(tǒng)會根據(jù)提問從海量數(shù)據(jù)中尋找答案;限定域是指系統(tǒng)事先聲明只能回答某一領(lǐng)域的問題,無法回答其他領(lǐng)域的問題。相對來說,開發(fā)域的聊天機(jī)器人更難實現(xiàn),因為用戶不一定有明確的目標(biāo)或意圖。一些大型社交媒體網(wǎng)站上的對話通常是開發(fā)領(lǐng)域的,它們可以談?wù)撊魏畏矫娴娜魏卧掝}。無數(shù)的話題和生成合理的反應(yīng)所需要的知識規(guī)模,使得開發(fā)領(lǐng)域的聊天機(jī)器人的實現(xiàn)相當(dāng)困難。同時這也需要開發(fā)域的知識庫作為其知識儲備,加大了信息檢索的難度。封閉領(lǐng)域的聊天機(jī)器人比較容易實現(xiàn),因為可能的輸入和輸出的空間是有限的,系統(tǒng)僅須實現(xiàn)一個非常特定的目標(biāo)。技術(shù)支持或購物助理之類的聊天機(jī)器人都是封閉領(lǐng)域聊天機(jī)器人的實例。這些系統(tǒng)只需要盡可能有效完成具體任務(wù),不需要解答除了任務(wù)以外的其他問題。7.3.1聊天機(jī)器人的分類4.按應(yīng)用場景分類聊天機(jī)器人按應(yīng)用場景分類,可分為在線客服、娛樂、教育、個人助理聊天機(jī)器人。在線客服聊天機(jī)器人系統(tǒng)的主要功能是與客戶進(jìn)行基本溝通,并自動回復(fù)用戶有關(guān)產(chǎn)品或服務(wù)的問題,以實現(xiàn)降低企業(yè)客服運營成本、提升用戶體驗的目的。其應(yīng)用場景通常為網(wǎng)站首頁或手機(jī)終端。娛樂場景下聊天機(jī)器人系統(tǒng)的主要功能是與用戶進(jìn)行開放主題的對話,從而實現(xiàn)對用戶進(jìn)行精神陪伴、情感慰藉和心理疏導(dǎo)等目的。其應(yīng)用場景通常為社交媒體、兒童玩具等,代表性的系統(tǒng)如微軟“小冰”、微信“小微”等,“小冰”和“小微”除了能夠與用戶進(jìn)行開放主題的聊天之外,還能提供特定主題的服務(wù),如天氣預(yù)報和生活常識講解等。7.3.1聊天機(jī)器人的分類4.按應(yīng)用場景分類應(yīng)用于教育場景下的聊天機(jī)器人系統(tǒng),其教育的內(nèi)容包括:構(gòu)建交互式的語言使用環(huán)境,幫助用戶學(xué)習(xí)某種語言;在用戶學(xué)習(xí)某項專業(yè)技能時,指導(dǎo)用戶逐步深入地學(xué)習(xí)并掌握該項技能;在用戶的特定年齡階段,幫助用戶進(jìn)行某種知識的輔助學(xué)習(xí)等。其應(yīng)用場景通常為具備人機(jī)交互功能的學(xué)習(xí)、培訓(xùn)類軟件以及智能玩具等。個人助理類應(yīng)用是指用戶主要通過語音或文字與聊天機(jī)器人系統(tǒng)進(jìn)行交互,以實現(xiàn)個人事務(wù)的查詢及代辦功能,如天氣查詢、空氣質(zhì)量查詢、定位、短信收發(fā)、日程提醒、智能搜索等,從而更便捷地進(jìn)行日常事務(wù)處理。其應(yīng)用場景通常為便攜式移動終端設(shè)備。7.3.2聊天機(jī)器人的自然語言理解通常來說,聊天機(jī)器人系統(tǒng)的自然語言理解功能包括用戶意圖識別、用戶情感識別、指代消解、省略恢復(fù)、回復(fù)確認(rèn)以及拒識判讀等技術(shù)。7.3.2聊天機(jī)器人的自然語言理解1.用戶意圖識別用戶意圖包括顯式意圖和隱式意圖。顯式意圖通常對應(yīng)一個明確的需求,如用戶輸入“我想預(yù)訂一個標(biāo)準(zhǔn)間”,明確表達(dá)了想要預(yù)訂房間的意圖;而隱式意圖則較難判斷,如用戶輸入“我的手機(jī)用了三年”,有可能表示想要換一個手機(jī),也有可能表示其手機(jī)性能和質(zhì)量良好。7.3.2聊天機(jī)器人的自然語言理解2.用戶情感識別用戶情感同樣也包含顯式和隱式兩種類型。如用戶輸入“我今天非常高興”,明確表達(dá)了喜悅的情感;而用戶輸入“今天考試剛剛及格”,則沒有明確表達(dá)式怎樣的情感。7.3.2聊天機(jī)器人的自然語言理解3.指代消解和省略恢復(fù)在對話過程中,人們由于聊天主題背景的一致性,通常使用代詞來指代上文中的某個實體或事件,或者干脆省略一部分句子成分。但對于聊天機(jī)器人系統(tǒng)來說,它只有明確了代詞指代的成分以及句子中省略的成分,才能正確理解用戶的意圖,給出合乎上下午語義的回復(fù)?;诖耍枰M(jìn)行代詞消解和省略恢復(fù)。7.3.2聊天機(jī)器人的自然語言理解4.回復(fù)確認(rèn)用戶意圖有時會帶有一定的模糊性,這時就需要系統(tǒng)具有主動詢問的功能,進(jìn)而對模糊的意圖進(jìn)行確認(rèn),即回復(fù)確認(rèn)。7.3.2聊天機(jī)器人的自然語言理解5.拒識判斷聊天機(jī)器人系統(tǒng)應(yīng)當(dāng)具備一定的拒識能力,即能主動拒絕識別超出自身回復(fù)范圍或者涉及敏感話題的用戶輸入。當(dāng)然,詞法分析、句法分析以及語義分析等基本的自然語言處理技術(shù)對于聊天機(jī)器人系統(tǒng)中的自然語言理解功能的實現(xiàn)也起到了至關(guān)重要的作用。7.4語音識別語音識別(speechrecognition)是指利用計算機(jī)自動對語音信號的音素、音節(jié)或詞進(jìn)行識別的技術(shù)總稱。語音識別是實現(xiàn)語音自動控制的基礎(chǔ)。語音識別技術(shù)所涉及的領(lǐng)域包括信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理等。其作為人工智能領(lǐng)域最成熟的技術(shù)之一,已經(jīng)廣泛應(yīng)用于教育、醫(yī)療、軍事等行業(yè)。語音識別不僅改變了人機(jī)交互的模式,使人類能夠以最自然的方式與機(jī)器進(jìn)行對話,而且具備將非結(jié)構(gòu)化的語音轉(zhuǎn)換成結(jié)構(gòu)化文本的能力,大幅提升了相關(guān)從業(yè)人員的工作效率。自然語言只是在句尾或者文字需要加標(biāo)點的地方有個間斷,其他都是連續(xù)的發(fā)音。以前的語音識別系統(tǒng)主要是以單字或單詞為單位的孤立的語音識別系統(tǒng)。后來,連續(xù)語音識別系統(tǒng)已經(jīng)漸漸成為主流。利用聲學(xué)模型建立的方式,特定人語音識別系統(tǒng)在前期需要大量的用戶發(fā)音數(shù)據(jù)來訓(xùn)練模型。非特定人語音識別系統(tǒng)在系統(tǒng)構(gòu)建成功后,不需要事先進(jìn)行大量語音數(shù)據(jù)訓(xùn)練。在語音識別技術(shù)的發(fā)展歷程中,隨著詞匯量的不斷增加,對系統(tǒng)的穩(wěn)定性要求也越來越高。人工智能基礎(chǔ)7.4.1語音識別系統(tǒng)目前主流的語音識別技術(shù)是基于統(tǒng)計模型的模式識別。一個完整的語音識別系統(tǒng)主要可分為語音特征提取、聲學(xué)模型與模式匹配、語音模型與語義理解3部分。7.4.1語音識別系統(tǒng)1.語音特征提取在語音識別系統(tǒng)中,模擬的語音信號在完成A/D轉(zhuǎn)換后會變成能被計算機(jī)識別的數(shù)字信號。但是時域上的語音信號難以直接被識別,這就需要從語音信號中提取語音特征,這樣做的好處是:可以獲得語音的本質(zhì)特征,又可以起到壓縮數(shù)據(jù)的作用。輸入的模擬語音信號首先要進(jìn)行預(yù)處理,如濾波、采樣、量化等。7.4.1語音識別系統(tǒng)2.聲學(xué)模型與模式匹配聲學(xué)模型對應(yīng)于語音音節(jié)頻率的計算,在識別時將輸入的語音特征與聲學(xué)特征同時進(jìn)行匹配和比較,得到最佳的識別效果。目前采用最廣泛的建模技術(shù)是隱式馬爾可夫模型(hiddenmarkovmodel,HMM)。7.4.1語音識別系統(tǒng)2.聲學(xué)模型與模式匹配馬爾可夫模型是一個離散時域有限狀態(tài)自動機(jī)。隱式馬爾可夫模型是指這一馬爾可夫模型的內(nèi)部狀態(tài)對外界而言是看不到的,外界只能看到各個時刻的輸出值。對于語音識別系統(tǒng),輸出值一般是指從各個幀計算得到的聲學(xué)特征。語音識別中使用隱式馬爾可夫模型通常是從左向右(單向)來對識別基元進(jìn)行建模的,一個音素就是3~5個狀態(tài)的隱式馬爾可夫模型,一個詞有多個音素的隱式馬爾可夫模型串聯(lián)形成,連續(xù)的語音識別的整體模型就是詞和靜音組合起來的隱式馬爾可夫模型。7.4.1語音識別系統(tǒng)3.語音模型與語義理解計算機(jī)會對識別結(jié)果進(jìn)行語法、語義分析,理解語言的意義并做出相應(yīng)的響應(yīng),該工作通常是通過語言模型來實現(xiàn)的。語言模型會計算音節(jié)到字的概率,主要分為規(guī)則模型和統(tǒng)計模型。語音模型的性能通常通過交叉熵和復(fù)雜度來表示。交叉熵表示用該模型對文本進(jìn)行識別的難度,或者從壓縮的角度來看,每個詞平均要用幾個位來編碼;復(fù)雜度是指用該模型表示這個文本平均的分支數(shù),其倒數(shù)可以看成是每個詞的平均概率。語音識別系統(tǒng)利用不同的語音處理技術(shù)將未知的語音信號轉(zhuǎn)換成特征向量的序列;利用特定的算法特征向量又被轉(zhuǎn)換成音素格(phonemelattice);識別模塊接著會利用詞法將音素格轉(zhuǎn)換成詞格(wordlattice);最后,將語法應(yīng)用在詞格上從而識別出具體的詞或文本。下圖給出了語音識別系統(tǒng)的通用識別過程。7.4.2語音識別的過程7.4語音識別語音識別(speechrecognition)是指利用計算機(jī)自動對語音信號的音素、音節(jié)或詞進(jìn)行識別的技術(shù)總稱。語音識別是實現(xiàn)語音自動控制的基礎(chǔ)。語音識別技術(shù)所涉及的領(lǐng)域包括信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理等。其作為人工智能領(lǐng)域最成熟的技術(shù)之一,已經(jīng)廣泛應(yīng)用于教育、醫(yī)療、軍事等行業(yè)。語音識別不僅改變了人機(jī)交互的模式,使人類能夠以最自然的方式與機(jī)器進(jìn)行對話,而且具備將非結(jié)構(gòu)化的語音轉(zhuǎn)換成結(jié)構(gòu)化文本的能力,大幅提升了相關(guān)從業(yè)人員的工作效率。自然語言只是在句尾或者文字需要加標(biāo)點的地方有個間斷,其他都是連續(xù)的發(fā)音。以前的語音識別系統(tǒng)主要是以單字或單詞為單位的孤立的語音識別系統(tǒng)。后來,連續(xù)語音識別系統(tǒng)已經(jīng)漸漸成為主流。利用聲學(xué)模型建立的方式,特定人語音識別系統(tǒng)在前期需要大量的用戶發(fā)音數(shù)據(jù)來訓(xùn)練模型。非特定人語音識別系統(tǒng)在系統(tǒng)構(gòu)建成功后,不需要事先進(jìn)行大量語音數(shù)據(jù)訓(xùn)練。在語音識別技術(shù)的發(fā)展歷程中,隨著詞匯量的不斷增加,對系統(tǒng)的穩(wěn)定性要求也越來越高。人工智能基礎(chǔ)7.4語音識別語音識別一般要經(jīng)過以下幾個過程:(1)語音預(yù)處理,包括對語音的幅度標(biāo)稱化、頻響校正、分幀、加窗和始末端點檢測等內(nèi)容。(2)語音聲學(xué)頻譜分析,利用線性預(yù)測編碼技術(shù)、快速傅里葉變換和頻率濾波器組等。(3)對每個塊做判別。(4)模式匹配,可以采用距離準(zhǔn)則或概論準(zhǔn)則,也可以采用句法分類等。(5)識別判決,通過最后的判別函數(shù)給出識別的結(jié)果。語音識別可按不同的識別內(nèi)容進(jìn)行分類:音素識別、音節(jié)識別、詞或詞組識別;也可以按詞匯量分類:小詞量(50個詞以下)、中詞量(50~500個詞)、大詞量(500個詞以上)及超大詞量(幾十至幾萬個詞);按照發(fā)音特點分類:孤立音、連接音及連續(xù)音的識別。按照對發(fā)音人的要求分類:特定人識別,即只對特定的發(fā)話人識別;非特定人識別,即不分發(fā)話人是誰都能識別。顯然,最困難的語音識別是大詞量、連續(xù)音和非特定人同時滿足的語音識別。人工智能基礎(chǔ)7.4.3語音識別應(yīng)用過程中的四大挑戰(zhàn)得益于深度學(xué)習(xí)的快速發(fā)展,語音識別系統(tǒng)的準(zhǔn)確率取得了大幅提升,語音輸入、語音搜索以及語音交互等產(chǎn)品已經(jīng)逐步達(dá)到了實用門檻,并日臻成熟。但是,要想真正實現(xiàn)語音識別系統(tǒng)在各種場景中更自然、更便利、更高效的應(yīng)用,仍然面臨說話風(fēng)格、口音、錄音質(zhì)量等諸多的挑戰(zhàn)。下面介紹四大挑戰(zhàn),包括:1.惡劣場景下的識別問題2.中英文混合識別問題3.專業(yè)術(shù)語識別問題4.低資源小語種識別問題人工智能基礎(chǔ)語音識別系統(tǒng)面臨的第二個挑戰(zhàn)性問題是多語言混合識別問題。隨著不同國家之間文化交流的日益增進(jìn),多語種混合的說話風(fēng)格越來越頻繁的出現(xiàn)在日常交流場景甚至是正式會談等場合,其中又以中英文混雜的說話風(fēng)格最具代表性。語種混合問題也是當(dāng)前語言識別技術(shù)領(lǐng)域面臨的重要難題,因為在傳統(tǒng)語言識別方案中,不同語種的語音識別系統(tǒng)是分別獨立建模的,所以如何針對不同的語種進(jìn)行建模單元的有效融合和區(qū)分以及如何處理中英文混合場景中語音數(shù)據(jù)、文本數(shù)據(jù)的獲取等問題,都是中英文混合識別的難點問題。語音識別系統(tǒng)面臨的第一個挑戰(zhàn)性問題是惡劣場景下的識別問題。具體地,在遠(yuǎn)距離、帶噪等復(fù)雜的使用場景中,各種噪聲、混響、甚至是其他人說話的插入,容易造成語音信號的混疊與污染,對語音識別的準(zhǔn)確性產(chǎn)生較大的影響。7.4.3語音識別應(yīng)用過程中的四大挑戰(zhàn)k-最近鄰分類1.惡劣場景下的識別問題2.中英文混合識別問題語言識別應(yīng)用中的最后一個挑戰(zhàn)是低資源小語種的識別問題。連續(xù)語音識別系統(tǒng)依賴于大量的有監(jiān)督數(shù)據(jù),對于常用的語種如中文、英文等,數(shù)據(jù)資源豐富,效果已經(jīng)達(dá)到可用的水平。而隨著全球化進(jìn)程的推進(jìn),小語種識別在旅游、商務(wù)等場景的應(yīng)用需求愈發(fā)迫切。因此,如何在低資源下構(gòu)建高準(zhǔn)確率的小語種識別系統(tǒng)也是領(lǐng)域的一個研究熱點。語音識別應(yīng)用中的另一個重要挑戰(zhàn)是特定領(lǐng)域?qū)I(yè)術(shù)語的識別問題。專業(yè)詞匯的識別準(zhǔn)確率很大程度上依賴于語言模型訓(xùn)練語料的覆蓋度。由于行業(yè)應(yīng)用領(lǐng)域的廣泛性,訓(xùn)練語料不可避免地存在稀疏性問題,而且專業(yè)詞匯出現(xiàn)的概率通常明顯低于通用域詞匯,因此專業(yè)詞匯有較大風(fēng)險識別成發(fā)音相近的通用詞匯。7.4.3語音識別應(yīng)用過程中的四大挑戰(zhàn)k-最近鄰分類3.專業(yè)術(shù)語識別問題4.低資源小語種識別問題7.5機(jī)器翻譯機(jī)器翻譯就是讓機(jī)器模擬人的翻譯過程,利用計算機(jī)自動地將一種自然語言翻譯成另一種自然語言。經(jīng)過50多年的發(fā)展,機(jī)器翻譯領(lǐng)域出現(xiàn)了很多研究方法,包括直接翻譯方法、句法轉(zhuǎn)換方法、中間語言方法、基于規(guī)則的方法、基于語料庫的方法、基于實例的方法(含模板與翻譯記憶方法)、基于統(tǒng)計的方法、基于深度學(xué)習(xí)的方法等。其中基于深度學(xué)習(xí)的機(jī)器翻譯方法在近幾年取得了巨大進(jìn)步,超越了以往的任何方法。人工智能基礎(chǔ)機(jī)器翻譯的過程一般包括4個階段:原文輸入、原文分析(查詞典和語法分析)、譯文綜合(調(diào)整詞序與修辭以及從譯文詞典中取詞)和譯文輸出。下面以英漢機(jī)器翻譯為例,簡要說明機(jī)器翻譯的整個過程。01基本概念7.5.1機(jī)器翻譯原理與過程由于計算機(jī)只能接收二進(jìn)制數(shù)字,所以字母和符號必須按照一定的編碼法轉(zhuǎn)換成二進(jìn)制數(shù)字。011.原文輸入原文分析包括兩個階段:查詞典和語法分析。022.原文分析7.5.1機(jī)器翻譯原理與過程譯文綜合這一階段的任務(wù)主要是把應(yīng)該移位的成分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論