人工智能概論 課件 第7章 自然語言處理_第1頁
人工智能概論 課件 第7章 自然語言處理_第2頁
人工智能概論 課件 第7章 自然語言處理_第3頁
人工智能概論 課件 第7章 自然語言處理_第4頁
人工智能概論 課件 第7章 自然語言處理_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

高職高專人工智能通識課規(guī)劃教材人工智能概論本章學(xué)習(xí)目標(biāo)第7章自然語言處理【素養(yǎng)目標(biāo)】通過學(xué)習(xí)自然語言處理,培養(yǎng)學(xué)生不怕困難、勇于攻關(guān)、自強(qiáng)不息的科學(xué)精神;通過學(xué)習(xí)百度、科大訊飛、搜狗等公司在機(jī)器翻譯、語音識別等領(lǐng)域的科技成果案例,培養(yǎng)學(xué)生愛國情懷,增強(qiáng)民族自信心、自豪感;通過學(xué)習(xí)自然語言處理系統(tǒng)的應(yīng)用,培養(yǎng)學(xué)生追求真理,勇攀科學(xué)高峰的責(zé)任感和使命感。本章學(xué)習(xí)目標(biāo)第7章自然語言處理【知識目標(biāo)】了解自然語言處理的概念、發(fā)展歷程和應(yīng)用;掌握自然語言處理的構(gòu)成;熟悉自然語言處理的一般流程:語料獲取、語料預(yù)處理、特征工程、模型訓(xùn)練和模型評價;熟悉自然語言理解的層次:語音分析、詞法分析、句法分析、語義分析和語用分析;了解機(jī)器翻譯的基本原理、方法及應(yīng)用;了解語音識別的定義、發(fā)展歷程及應(yīng)用;了解語音合成的概念及應(yīng)用。本章學(xué)習(xí)目標(biāo)第7章自然語言處理【能力目標(biāo)】能夠針對自然語言處理具體應(yīng)用功能,闡述其實現(xiàn)原理;能夠針對工作生活場景中的具體需求,提出自然語言處理技術(shù)解決思路;會使用百度在線翻譯、科大訊飛AI等工具。本章學(xué)習(xí)目標(biāo)第7章自然語言處理【思維導(dǎo)圖】第七章自然語言處理高職高專人工智能通識課規(guī)劃教材7.1

自然語言處理概述7.2自然語言理解7.3機(jī)器翻譯7.4語音識別7.5語音合成7.6本章實訓(xùn)7.7拓展知識7.1

自然語言處理概述第7章自然語言處理7.1.1自然語言處理的定義自然語言是指漢語、英語、法語等人們?nèi)粘J褂玫恼Z言,是自然而然地隨著人類社會發(fā)展演變而來的語言,是人類溝通和交流的重要工具,也是人類區(qū)別于其他動物的根本標(biāo)志,沒有語言,人類的思維就無從談起。在整個人類發(fā)展歷史中,以語言文字形式記載和流傳的知識占到知識總量的80%以上。自然語言處理是指用計算機(jī)來處理、理解及運用人類語言(如中文、英文),其技術(shù)目標(biāo)就是使機(jī)器(計算機(jī))能夠“聽懂”人類的語言,并進(jìn)行翻譯,實現(xiàn)人和機(jī)器的相互交流。用自然語言與計算機(jī)進(jìn)行通信,這是人們長期以來所追求的目標(biāo)。因為,這一目標(biāo)既有明顯的實際意義,同時也有重要的理論意義:人們可以用自己最習(xí)慣的語言來使用計算機(jī),而無須再花大量的時間和精力去學(xué)習(xí)不自然和不習(xí)慣的各種機(jī)器(計算機(jī))語言;人們也可通過它進(jìn)一步了解人類的語言能力和智能的機(jī)制。7.1

自然語言處理概述第7章自然語言處理7.1.1自然語言處理的定義自然語言處理是涉及計算機(jī)科學(xué)、人工智能和語言學(xué)的一門交叉學(xué)科,如圖所示,主要研究如何讓計算機(jī)能夠理解、處理、生成和模擬人類語言的能力,從而實現(xiàn)與人類進(jìn)行自然對話的能力。通過自然語言處理技術(shù),可以實現(xiàn)機(jī)器翻譯、問答系統(tǒng)、情感分析、文本摘要等多種應(yīng)用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)和其他機(jī)器學(xué)習(xí)方法已經(jīng)在自然語言處理領(lǐng)域取得了重要的進(jìn)展。自然語言處理的發(fā)展方向包括更深入的語義理解、更好的對話系統(tǒng)、更廣泛的跨語言處理和更強(qiáng)大的遷移學(xué)習(xí)技術(shù)。7.1

自然語言處理概述第7章自然語言處理7.1.2自然語言處理的發(fā)展歷程自然語言處理的發(fā)展經(jīng)歷了三個階段:基于規(guī)則的階段、基于統(tǒng)計的階段和基于深度學(xué)習(xí)的階段。1.基于規(guī)則的階段最早的自然語言處理方面的研究工作是機(jī)器翻譯。1949年,美國的瓦倫·威弗(WarrenWeaver)首先提出了機(jī)器翻譯設(shè)計方案。1952年,第一次機(jī)器翻譯會議在美國麻省理工學(xué)院召開。1954年,第一次機(jī)器翻譯試驗取得了成功,并第一次向人們展示了機(jī)器翻譯的可行性,同時激發(fā)了政府資助機(jī)器翻譯的興趣。20世紀(jì)50年代—70年代,自然語言處理的研究主要采用基于規(guī)則的技術(shù),研究人員認(rèn)為自然語言處理的過程就是人類認(rèn)知一門語言的過程。基于規(guī)則的技術(shù)利用人類的知識,不依賴數(shù)據(jù),可以快速起步,但其具有不可避免的缺點:①

規(guī)則不可能覆蓋所有語句;②

對研究人員的要求較高,要求研究人員既要熟悉計算機(jī),又要熟悉語言學(xué),因此該階段雖然解決了一些簡單的問題,但無法從根本上解決實際問題并得到應(yīng)用。7.1

自然語言處理概述第7章自然語言處理7.1.2自然語言處理的發(fā)展歷程2.基于統(tǒng)計的階段自20世紀(jì)70年代以來,隨著互聯(lián)網(wǎng)的快速發(fā)展及硬件的不斷完善,基于統(tǒng)計的方法代替了基于規(guī)則的方法。20世紀(jì)70年代,基于隱馬爾可夫模型(HiddenMarkovModel,HMM)的統(tǒng)計方法在語音識別領(lǐng)域獲得成功。20世紀(jì)80年代初,話語分析取得了重大進(jìn)展。20世紀(jì)90年代以后,隨著計算機(jī)性能的不斷提升,語音和語言處理的商品化開發(fā)成為可能。網(wǎng)絡(luò)技術(shù)的發(fā)展和Internet的商業(yè)化,使信息檢索和信息抽取的需求變得更加迫切。基于統(tǒng)計、實例及規(guī)則的語料庫技術(shù)在該時期得到蓬勃發(fā)展,各種處理技術(shù)開始融合,自然語言處理的研究又開始興旺起來。在該階段,自然語言處理基于數(shù)學(xué)模型和統(tǒng)計的方法取得了實質(zhì)性突破,從實驗室走向?qū)嶋H應(yīng)用。7.1

自然語言處理概述第7章自然語言處理7.1.2自然語言處理的發(fā)展歷程3.基于深度學(xué)習(xí)的階段從2008年到現(xiàn)在,深度學(xué)習(xí)開始在語音識別和圖像識別領(lǐng)域發(fā)揮威力,自然語言處理研究者開始用深度學(xué)習(xí)的方法進(jìn)行研究,在機(jī)器翻譯、閱讀理解、問答系統(tǒng)等領(lǐng)域取得了一定成功。深度學(xué)習(xí)是一個多層的神經(jīng)網(wǎng)絡(luò),從輸入層開始,經(jīng)過逐層非線性的變化得到輸出。深度學(xué)習(xí)從輸入層到輸出層做端到端的訓(xùn)練,準(zhǔn)備輸入層到輸出層的數(shù)據(jù),設(shè)計并訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),即可執(zhí)行預(yù)想的任務(wù)。目前,循環(huán)神經(jīng)網(wǎng)絡(luò)是自然語言處理最常用的方法之一。在深度學(xué)習(xí)時代,神經(jīng)網(wǎng)絡(luò)能夠自動從數(shù)據(jù)中挖掘特征,人們得以從復(fù)雜的特征中脫離出來,專注于模型算法本身的創(chuàng)新及理論的突破,深度學(xué)習(xí)已經(jīng)從一開始的機(jī)器翻譯領(lǐng)域,逐漸擴(kuò)展到其他領(lǐng)域。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用自然語言處理在機(jī)器翻譯、垃圾郵件分類、信息抽取、文本情感分析、智能問答、個性化推薦等方面都有廣泛的應(yīng)用。1.機(jī)器翻譯機(jī)器翻譯,又稱自動翻譯,是利用計算機(jī)將一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言(目標(biāo)語言)的過程。機(jī)器翻譯是計算語言學(xué)的一個分支,是人工智能的終極目標(biāo)之一,具有重要的科學(xué)研究價值。機(jī)器翻譯是一門涉及計算語言學(xué)、人工智能和數(shù)理邏輯的交叉學(xué)科。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用1.機(jī)器翻譯目前,文本翻譯最為主流的工作方式依然是以傳統(tǒng)的機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)翻譯為主。Google、Microsoft、百度、有道等公司都為用戶提供了免費的在線多語言翻譯系統(tǒng)。速度快、成本低是文本翻譯的主要特點,而且文本翻譯應(yīng)用廣泛,不同行業(yè)都可以選用相應(yīng)的專業(yè)的文本翻譯。但是,這一翻譯過程是機(jī)械的和僵硬的,在翻譯過程中會出現(xiàn)很多語義和語境上的問題,仍然需要人工翻譯來進(jìn)行補(bǔ)充。用語法規(guī)則和詞匯對照表實現(xiàn)的俄語和英語互譯的機(jī)器翻譯系統(tǒng)笑話百出,曾把“心有余而力不足”(thespiritiswilingbutthefleshisweak)這句英文翻譯到俄語,然后再翻譯回英語的時候,卻變成了“伏特加不錯而肉都爛掉了”(thevodkaisgoodbutthemeatisroten)。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用1.機(jī)器翻譯語音翻譯可能是目前機(jī)器翻譯中比較富有創(chuàng)新意識的領(lǐng)域,目前百度、科大訊飛、搜狗等公司推出的機(jī)器同聲傳譯技術(shù)主要在會議場景出現(xiàn),演講者的語音實時轉(zhuǎn)換成文本,并且進(jìn)行同步翻譯,翻譯結(jié)果低延遲顯示。希望在將來,機(jī)器同聲傳譯技術(shù)能夠取代人工同聲傳譯,使人們以較低成本實現(xiàn)不同語言之間的有效交流。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用2.垃圾郵件分類當(dāng)前,垃圾郵件過濾器已成為抵御垃圾郵件問題的第一道防線。判斷一封郵件是否是垃圾郵件,首先用到的方法是“關(guān)鍵詞過濾”,如果郵件存在常見的垃圾郵件關(guān)鍵詞,就判定為垃圾郵件。但這種方法的效果很不理想,首先是正常郵件中也可能有這些關(guān)鍵詞,因此非常容易產(chǎn)生誤判;其次是垃圾郵件也會進(jìn)化,通過將關(guān)鍵詞進(jìn)行變形,很容易規(guī)避關(guān)鍵詞過濾。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用2.垃圾郵件分類自然語言處理通過分析郵件中的文本內(nèi)容,能夠相對準(zhǔn)確地判斷郵件是否為垃圾郵件。目前,貝葉斯(Bayesian)垃圾郵件過濾是備受關(guān)注的技術(shù)之一,該技術(shù)通過學(xué)習(xí)大量的垃圾郵件和非垃圾郵件,收集郵件中的特征詞,生成垃圾詞庫和非垃圾詞庫,然后根據(jù)這些詞庫的統(tǒng)計頻數(shù)計算郵件屬于垃圾郵件的概率,以此來進(jìn)行垃圾郵件的判定。P(A|B)是已知B發(fā)生后A的條件概率7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用3.信息抽取信息抽取(InformationExtraction,IE)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。信息抽取系統(tǒng)輸入的是原始文本,輸出的是固定格式的信息點。信息點從各種各樣的文檔中被抽取出來,然后以統(tǒng)一的形式集成在一起,這就是信息抽取的主要任務(wù)。信息以統(tǒng)一的形式集成在一起的好處是方便檢查和比較。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用3.信息抽取互聯(lián)網(wǎng)是一個特殊的文檔庫,同一主題的信息通常被分別存放在不同的網(wǎng)站上,表現(xiàn)的形式也各不相同。利用信息抽取技術(shù),可以從大量的文檔中抽取需要的特定信息,并采用結(jié)構(gòu)化形式儲存。優(yōu)秀的信息抽取系統(tǒng)將把互聯(lián)網(wǎng)變成巨大的數(shù)據(jù)庫。例如,在金融市場上,許多重要決策正逐漸脫離人類的監(jiān)督和控制,基于算法的交易變得越來越流行,這是一種完全由技術(shù)控制的金融投資形式。由于很多決策都受到公告的影響,因此需要用自然語言處理技術(shù)來獲取這些明文公告,并以一種可被納入算法交易決策的格式提取相關(guān)信息。例如,公司之間合并的消息可能會對交易決策產(chǎn)生重大影響,將合并細(xì)節(jié)(包括參與者、收購價格)納入交易算法中,可以給決策者帶來巨大的利潤影響。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用4.文本情感分析文本情感分析又稱意見挖掘、傾向性分析等。簡單而言,文本情感分析是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程?;ヂ?lián)網(wǎng)(如博客和論壇以及社會服務(wù)網(wǎng)絡(luò),如大眾點評)上產(chǎn)生了大量的用戶參與的,對于諸如人物、事件、產(chǎn)品等有價值的評論信息。這些評論信息表達(dá)了人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂,或批評、贊揚等?;谶@些因素,網(wǎng)絡(luò)管理員可以通過瀏覽這些主觀色彩的評論來了解大眾輿論對于某一事件的看法;企業(yè)可以分析消費者對產(chǎn)品的反饋信息,或者檢測在線評論中的差評信息等。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用5.智能問答隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息量不斷增加,人們需要獲取更加精確的信息。傳統(tǒng)的搜索引擎技術(shù)已經(jīng)不能滿足人們越來越高的需求,而智能問答技術(shù)已經(jīng)成為了解決這一問題的有效手段。智能問答系統(tǒng)以一問一答形式,精確地定位網(wǎng)站用戶提問時所需要的知識,通過與網(wǎng)站用戶進(jìn)行交互,為網(wǎng)站用戶提供個性化的信息服務(wù)。智能問答系統(tǒng)在回答用戶問題時,首先要正確理解用戶所提出的問題,抽取其中的關(guān)鍵信息,在已有的語料庫或者知識庫中進(jìn)行檢索、匹配,將獲取的答案反饋給用戶。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用5.智能問答智能問答過程涉及詞法、句法、語義分析的基礎(chǔ)技術(shù),以及信息檢索、知識工程、文本生成等多項技術(shù)。根據(jù)目標(biāo)數(shù)據(jù)源的不同,問答技術(shù)大致可以分為檢索式問答、社區(qū)問答及知識庫問答三種。檢索式問答和社區(qū)問答的核心是淺層語義分析和關(guān)鍵詞匹配,而知識庫問答則正在逐步實現(xiàn)知識的深層邏輯推理。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用6.個性化推薦個性化推薦是指根據(jù)用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。個性化推薦的應(yīng)用領(lǐng)域較為廣泛,如今日頭條的新聞推薦、購物平臺的商品推薦、直播平臺的主播推薦、知乎平臺上的話題推薦等。在電子商務(wù)方面,個性化推薦系統(tǒng)首先依據(jù)大數(shù)據(jù)和歷史行為記錄,提取用戶的興趣愛好,預(yù)測用戶對給定物品的評分或偏好,實現(xiàn)對用戶意圖的精準(zhǔn)理解,同時對語言進(jìn)行匹配計算,實現(xiàn)精準(zhǔn)匹配。然后,個性化推薦系統(tǒng)利用電子商務(wù)網(wǎng)站,向用戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助用戶完成購買過程。在新聞服務(wù)領(lǐng)域,通過用戶閱讀的內(nèi)容、時長、評論等偏好,以及用戶所使用的社交網(wǎng)絡(luò),甚至移動設(shè)備型號等,對用戶所關(guān)注的信息源及核心詞匯進(jìn)行專業(yè)的細(xì)化分析,以進(jìn)行新聞推送,實現(xiàn)新聞的個人定制服務(wù),最終提升用戶黏性。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用6.個性化推薦個性化推薦是根據(jù)用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程計算機(jī)處理自然語言的一般流程可以分為:語料獲取、語料預(yù)處理、特征工程、模型訓(xùn)練和模型評價。語料預(yù)處理數(shù)據(jù)集模型訓(xùn)練模型評價特征工程語料獲取數(shù)據(jù)補(bǔ)充特征挖掘參數(shù)調(diào)優(yōu)7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程計算機(jī)處理自然語言的一般流程可以分為:語料獲取、語料預(yù)處理、特征工程、模型訓(xùn)練和模型評價。1.語料獲取語料,即語言材料。語料是語言學(xué)研究的內(nèi)容,是構(gòu)成語料庫的基本單元。所以,人們簡單地用文本作為語料的替代品,并把文本中的上下文關(guān)系作為現(xiàn)實世界中語言的上下文關(guān)系的替代品。一個文本集合稱為語料庫(Corpus),多個文本集合稱為語料庫集合(Corpora)。按語料來源,可以將語料分為以下兩種。(1)已有語料。很多業(yè)務(wù)部門、公司等組織隨著業(yè)務(wù)發(fā)展,都會積累大量的紙質(zhì)或者電子文本資料。在條件允許的情況下,對這些資料稍加整合,把紙質(zhì)的文本全部電子化就可以作為語料庫了。(2)網(wǎng)上下載、抓取語料。在缺乏相關(guān)數(shù)據(jù)時,可以選擇獲取國內(nèi)外標(biāo)準(zhǔn)開放數(shù)據(jù)集,如國內(nèi)的中文漢語數(shù)據(jù)集(搜狗語料、人民日報語料等);也可以借助爬蟲工具,從網(wǎng)上抓取特定數(shù)據(jù),以準(zhǔn)備模型訓(xùn)練。7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程2.語料預(yù)處理語料預(yù)處理即對輸入的語料進(jìn)行預(yù)處理。在一個完整的中文自然語言處理工程應(yīng)用中,語料預(yù)處理通常會占到整個工作量的50%—70%,所以開發(fā)人員的大部分時間就在進(jìn)行語料預(yù)處理。語料預(yù)處理主要包括以下4個步驟。(1)語料清洗,即保留有用的數(shù)據(jù),刪除噪聲數(shù)據(jù)。對于原始文本提取標(biāo)題、摘要、正文等信息,對于爬取的網(wǎng)頁內(nèi)容,去除廣告、標(biāo)簽、HTML、JS等代碼和注釋等。常見的清洗方式有人工去重、對齊(按照相同的格式、順序和維度對齊)、刪除、標(biāo)注等。(2)分詞,即將文本切分成詞語,如通過基于字符串匹配的分詞方法、基于理解的分詞方法、基于規(guī)則的分詞方法、基于統(tǒng)計的分詞方法進(jìn)行分詞。當(dāng)前中文分詞算法的主要難點有歧義識別和新詞識別,如“羽毛球拍賣完了”,這句話可以被切分成“羽毛/球拍/賣/完/了”,也可以被切分成“羽毛球/拍賣/完/了”,如果不依賴上下文中的其他句子,恐怕很難知道如何去理解。7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程2.語料預(yù)處理(3)詞性標(biāo)注,即給每個詞或者詞語標(biāo)上詞性標(biāo)簽,如名詞、動詞、形容詞等。這樣做可以讓文本在后面的處理過程中融入更多有用的語言信息。常用的詞性標(biāo)注方法有基于規(guī)則的方法、基于統(tǒng)計的方法,如基于最大熵的詞性標(biāo)注、基于統(tǒng)計最大概率輸出詞性標(biāo)注和基于HMM的詞性標(biāo)注。(4)去停用詞,即去掉對文本特征沒有任何貢獻(xiàn)作用的符號、字和詞語,如標(biāo)點符號、語氣詞、人稱代詞、助詞等。在一般性的文本處理中,分詞之后就是去停用詞。但是對于中文來講,去停用詞操作不是一成不變的,停用詞詞典是根據(jù)具體場景來決定的。例如,在情感分析中,語氣詞、感嘆號等是應(yīng)該保留的,因為這些對表示語氣程度、感情色彩有一定的貢獻(xiàn)和意義。7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程3.特征工程做完語料預(yù)處理之后,接下來需要考慮如何把分詞之后的字和詞語表示成為計算機(jī)能夠計算的類型。顯然,如果需要計算,則至少需要把中文分詞的字符串轉(zhuǎn)換為數(shù)字,確切地講就是數(shù)學(xué)中的向量。詞袋模型和詞向量是兩種常用的表示模型。(1)詞袋模型。詞袋模型(BagOfWord,BOW),即不考慮詞語原本在句子中的順序,直接將每一個詞語或者符號統(tǒng)一放置在一個集合(如list)中,然后按照計數(shù)的方式對詞語出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計。統(tǒng)計詞頻只是最基本的方式,詞頻-逆向文件頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)是詞袋模型的一個經(jīng)典用法。7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程

7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程3.特征工程如果在同一份文件中,“是”這個詞出現(xiàn)了10次,那么“是”的詞頻為10/100=0.1。如果只考慮詞頻這一個參數(shù),那么“是”這個詞語在這份文件中明顯比“奶牛”這個詞語更重要。但是還需要考慮逆向文件頻率,假設(shè)“是”這個詞語在全部的10000000份文件中都出現(xiàn)過了,那么“是”這個詞語的逆向文件頻率為lg(10000000/10000000)=0,則“是”這個詞語的TF-IDF值為0.1×0=0,遠(yuǎn)不及“奶?!边@個詞語重要。對于這份文件,“奶?!边@個詞語比出現(xiàn)更多次的“是”這個詞語更重要。諸如此類,出現(xiàn)很多次,但實際上并不包含文件特征信息的詞語還有很多,比如“這”“也”“就”“的”“了”等。7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程3.特征工程(2)詞向量。詞向量是將字、詞語轉(zhuǎn)換成向量矩陣的計算模型。目前常用的詞向量技術(shù)是獨熱編碼(One-HotEncoding),這種技術(shù)把每一個字或詞語表示為一個很長的向量。這個向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個維度的值為1,這個維度就代表了當(dāng)前的字或詞語。假設(shè)只分析“我和你”這個句子,共有“我”“和”“你”3個字(詞語),現(xiàn)在將“我”“和”“你”這3個字(詞語)分別對應(yīng)x、y、z軸,則“我”可以向量化為[1,0,0],“和”可以向量化為[0,1,0],“你”可以向量化為[0,0,1]。這3個詞向量都是正交的,可以理解為3個字(詞語)之間沒有關(guān)系。但是根據(jù)人們對語言的理解,“你”與“我”這兩個字(詞語)應(yīng)該還是有關(guān)系的,比如它們都是人稱。目前的獨熱編碼顯然無法解決此類詞義關(guān)聯(lián)的問題。7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程4.模型訓(xùn)練選擇好特征后,接下來要做的事情就是模型訓(xùn)練。對于不同的應(yīng)用需求,可選擇不同的模型,傳統(tǒng)的方法是監(jiān)督機(jī)器學(xué)習(xí)模型和無監(jiān)督機(jī)器學(xué)習(xí)模型,如KNN、SVM、決策樹、k-means等模型,深度學(xué)習(xí)模型有CNN、RNN、LSTM、TextCNN等。選擇好模型后,就要進(jìn)行模型訓(xùn)練,其中包括參數(shù)的微調(diào)等。在模型訓(xùn)練的過程中有可能出現(xiàn)模型在訓(xùn)練集中表現(xiàn)很好,但在測試集中表現(xiàn)很差的問題(過擬合)。7.1

自然語言處理概述第7章自然語言處理7.1.4自然語言處理的一般流程5.模型評價模型訓(xùn)練好后,在上線使用之前要對模型進(jìn)行必要的評價,目的是讓模型對語料具備較好的泛化能力。對于二分類問題,根據(jù)真實類別與學(xué)習(xí)器預(yù)測類別的組合,可把樣例劃分為真正例(TruePositive,TP)、假正例(FalsePositive,F(xiàn)P)、真反例(TrueNegative,TN)、假反例(FalseNegative,F(xiàn)N)四種情形,令TP、FP、TN、FN分別表示其對應(yīng)的樣例數(shù),顯然TP+FP+TN+FN=樣例總數(shù)。分類結(jié)果的“混淆矩陣”(ConfusionMatrix)如下表所示。真實情況預(yù)測結(jié)果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)7.1自然語言處理概述第7章自然語言處理7.1.5自然語言處理的構(gòu)成依據(jù)自然語言是處理系統(tǒng)的輸入還是輸出,自然語言處理完成的功能也有所不同,因此,可以將自然語言處理技術(shù)劃分自然語言理解技術(shù)(NaturalLanguageUnderstanding,NLU)和自然語言生成技術(shù)(NaturalLanguageGeneration,NLG),如下圖所示。7.1自然語言處理概述第7章自然語言處理7.1.5自然語言處理的構(gòu)成自然語言理解技術(shù)使計算機(jī)能夠理解自然語言,也就是輸入是自然語言,輸出是計算機(jī)內(nèi)部表示的語意。自然語言理解又包括詞法、語法、語義、語用等內(nèi)容。而自然語言生成技術(shù)則使計算機(jī)能夠生成自然語言,即輸入是計算機(jī)內(nèi)部表示的語意,輸出是自然語言。無論是輸入還是輸出,自然語言的表示可使用文本或語音這兩種形式。自然語言處理在解決具體問題時,通常既需要自然語言理解技術(shù),也需要自然語言生成技術(shù)。例如,常見的語音助手、智能音箱等產(chǎn)品,為了支持用戶使用自然語言(語音)調(diào)用機(jī)器的各種功能,產(chǎn)品不僅需要理解用戶在說什么,而且還需要做出特定的動作以滿足用戶的需求,如回答“您要找的資料在這個列表中”。在理解用戶話語和意圖時,機(jī)器需要使用自然語言理解技術(shù);在以文本或語言的形式回應(yīng)用戶時,機(jī)器需要使用自然語言生成技術(shù)。第七章自然語言處理7.1自然語言處理概述7.2自然語言理解高職高專人工智能通識課規(guī)劃教材7.3機(jī)器翻譯7.4語音識別7.5語音合成7.6本章實訓(xùn)7.7拓展知識7.2自然語言理解第7章自然語言處理7.2.1自然語言理解的難點比爾·蓋茨認(rèn)為“自然語言理解是人工智能皇冠上的明珠”。對自然語言的準(zhǔn)確理解是很困難的,造成困難的根本原因是自然語言的文本和對話中廣泛存在的歧義性(或多義性)。而消除歧義需要大量的知識,包括語言學(xué)知識(如詞法、句法、語義、語用等)和世界知識(與語言無關(guān))。將這些知識較完整地加以收集和整理,再找到合適的形式,將它們存入計算機(jī)系統(tǒng)中,以及有效地利用它們來消除歧義……這些都是工作量極大且十分困難的工作。這不是少數(shù)人短時期內(nèi)就可以完成的,還有待長期的、系統(tǒng)的工作。一個中文文本或一個漢字串(含標(biāo)點符號等)可能有多個含義,它是自然語言理解中的主要困難和障礙。反過來,一個相同或相近的意義同樣可以用多個中文文本或多個漢字串來表示。因此,自然語言的形式(字符串)與其意義之間是一種多對多的關(guān)系,這也正是自然語言的魅力所在。但從計算機(jī)處理的角度看,必須消除歧義,即要把帶有潛在歧義的自然語言輸入并轉(zhuǎn)換成某種無歧義的計算機(jī)內(nèi)部表示,這正是自然語言理解中的中心問題。7.2自然語言理解第7章自然語言處理7.2.1自然語言理解的難點自然語言中有很多含糊的詞句,比如“開刀的是他父親”,有“接受開刀的是他父親”和“主持開刀的是他父親”兩種理解,這是由語義不明確造成的歧義,通常需要在上下文中提供更多的相關(guān)知識,才能消除歧義。消除歧義是目前自然語言處理面臨的最大困難,它的根源是人類語言的復(fù)雜性和語言描述的外部世界的復(fù)雜性。人類語言承擔(dān)著人類表達(dá)情感、交流思想、傳播知識等重要功能,因此需要具備強(qiáng)大的靈活性和表達(dá)能力,而理解語言所需要的知識又是無止境的。自然語言理解一直是一個深奧的課題。雖然語言只是人工智能的一部分(人工智能還包括計算機(jī)視覺等),但它非常獨特。目前,有許多生物擁有超過人類的視覺系統(tǒng),但只有人類才擁有高級語言。完全理解和表達(dá)語言是極其困難的,完美的語言理解等價于實現(xiàn)人工智能。7.2自然語言理解第7章自然語言處理7.2.2自然語言理解的層次自然語言的理解是層次化的過程,許多語言學(xué)家把這一過程分為5個層次以更好地體現(xiàn)語言本身的構(gòu)成。這5個層次分別是語音分析、詞法分析、句法分析、語義分析和語用分析,如下圖所示。7.2自然語言理解第7章自然語言處理7.2.2自然語言理解的層次1.語音分析在有聲語言中,最小的、可獨立的聲音單元是音素。音素是一個或一組音。音素分為元音與輔音兩大類。音節(jié)在語音學(xué)上是指由一個或數(shù)個音素組成的語音結(jié)構(gòu)基本單位。如漢語音節(jié)?。è。┲挥幸粋€音素,愛(ài)有兩個音素,代(dài)有三個音素等。語音分析就是要根據(jù)音位規(guī)則,從語音流中區(qū)分出一個個獨立的音素,再根據(jù)音位形態(tài)規(guī)則查找出音節(jié)及其對應(yīng)的詞素或詞,進(jìn)而由詞到句,識別出一句話的完整信息,然后再將其轉(zhuǎn)換為文字。因此,語音分析是自然語言理解的核心。7.2自然語言理解第7章自然語言處理7.2.2自然語言理解的層次2.詞法分析詞法分析是找出詞匯的各個詞素,從中獲得語言學(xué)的信息。詞法分析的性能直接影響句法分析和語義分析的成果。詞語是漢語中能夠獨立的最小語言單位,但是不同于英語,漢語的書面語中并沒有將單個的詞語用空格符號隔開,因此漢語的自然語言理解的第一步便是從句子中切分出單詞(詞語)。正確的分詞取決于對文本語義的正確理解,而分詞又是理解語言的第一道工序。這樣的一個“雞生蛋,蛋生雞”的問題自然成為漢語的自然語言理解的第一個攔路虎。7.2自然語言理解第7章自然語言處理7.2.2自然語言理解的層次2.詞法分析例如,“臺州市長潭水庫”這一短語進(jìn)行分詞后可能會得到“臺州市/長潭水庫”和“臺州市長/潭水庫”兩種不同的結(jié)果,不同的分詞方法將導(dǎo)致短語有不同的含義。如果不依賴上下文中其他的句子,很難理解該短語的含義。分詞后需要對詞語進(jìn)行詞性標(biāo)注。詞性標(biāo)注是指為給定句子中的每個詞語賦予正確的詞法標(biāo)記。給定一個分詞后的句子,詞性標(biāo)注的目的是為句子中的每一個詞語賦予一個類別,這個類別稱為詞性標(biāo)記,例如名詞(Noun)、動詞(Verb)、形容詞(Adjective)等。例如,對語句“就讀清華大學(xué)”進(jìn)行分詞,得到“就讀”和“清華大學(xué)”這兩個詞語,通過詞性標(biāo)注模塊處理,可以得到詞語“就讀”的詞性標(biāo)記為動詞,得到詞語“清華大學(xué)”的詞性標(biāo)記為專有名詞。7.2自然語言理解第7章自然語言處理7.2.2自然語言理解的層次3.句法分析句法分析是對句子和短語的結(jié)構(gòu)進(jìn)行分析,目的是找出詞語、短語等的相互關(guān)系及各自在句中的作用。舉例如下?!胺磳?的/是/少數(shù)人”可能存在歧義,即到底是少數(shù)人提出反對,還是少數(shù)人被反對?!耙懒?獵人/的/狗”可能存在歧義,即到底是咬死了屬于獵人的一只狗,還是一只咬死了獵人的狗。7.2自然語言理解第7章自然語言處理7.2.2自然語言理解的層次4.語義分析語義分析是找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達(dá)的真正含義或概念。例如“你約我吃飯”和“我約你吃飯”雖然字完全相同,但意思是完全不同的,這叫做語義分析。語義分析是一個非常困難的研究領(lǐng)域,近幾年有很大進(jìn)展。7.2自然語言理解第7章自然語言處理7.2.2自然語言理解的層次5.語用分析語用分析主要研究語言所存在的外界環(huán)境對語言使用者所產(chǎn)生的影響。例如,“我要一個冰淇淋”,語義上似乎明確,但其在不同的上下文中會有不同的含義。如果是一個小孩子和媽媽說要吃一個冰淇淋,這叫請求;如果是顧客到店里,這可能是一個交易行為的發(fā)起。所以,語義上似乎明確的一句話,在不同的上下文中也可能會有不同的含義。第七章自然語言處理高職高專人工智能通識課規(guī)劃教材7.1自然語言處理概述7.3機(jī)器翻譯7.2自然語言理解7.4語音識別7.5語音合成7.6本章實訓(xùn)7.7拓展知識7.3機(jī)器翻譯第7章自然語言處理什么是機(jī)器翻譯機(jī)器翻譯,又稱自動翻譯,是利用計算機(jī)把一種語言翻譯成另外一種語言的過程。源語言用Source標(biāo)記,目標(biāo)語言用Target標(biāo)記,把中文翻譯成英文的例子如圖所示。機(jī)器翻譯任務(wù)就是把源語言的句子翻譯成目標(biāo)語言的句子。機(jī)器翻譯是人工智能的終極目標(biāo)之一。7.3機(jī)器翻譯第7章自然語言處理7.3.1機(jī)器翻譯的基本原理機(jī)器翻譯時,需要解決如下兩個問題。(1)譯文選擇。在翻譯一個句子時,會面臨很多選詞的問題,因為語言中一詞多義的現(xiàn)象比較普遍。例如,下圖中,源語言句子中的“看”,可以翻譯成look、watch、read和see等詞,如果不考慮后面的賓語“書”,那么這幾個譯詞都是可以使用的。在這個句子中,只有機(jī)器翻譯系統(tǒng)知道“看”的賓語“書”,才能做出正確的譯文選擇,把“看(書)”翻譯為read(readabook)。(2)譯文順序的調(diào)整。由于文化習(xí)慣及語言發(fā)展上的差異,不同語言在表述時,詞語的排列順序是不一樣的。下圖中,中文“在周日”放在句子前面,而“onSunday”這樣的時間狀語在英語中經(jīng)常被放在句子后面。7.3機(jī)器翻譯第7章自然語言處理7.3.2機(jī)器翻譯的方法機(jī)器翻譯的方法主要有基于規(guī)則的翻譯方法、基于統(tǒng)計的翻譯方法和基于神經(jīng)網(wǎng)絡(luò)的翻譯方法等三種。1.基于規(guī)則的翻譯方法基于規(guī)則的翻譯方法的翻譯知識來自人類專家。人類語言學(xué)家撰寫翻譯規(guī)則,如將一個詞語翻譯成另外一個詞語、詞語在句子中出現(xiàn)在什么位置等,都用規(guī)則表示出來。這種方法的優(yōu)點是直接使用語言學(xué)專家知識,準(zhǔn)確率較高。缺點是成本較高。例如,要開發(fā)中文和英文的翻譯系統(tǒng),則需要同時會中文和英文的語言學(xué)家進(jìn)行技術(shù)支持。而若要開發(fā)另外一種語言的翻譯系統(tǒng),就需要會另外一種語言的語言學(xué)家進(jìn)行技術(shù)支持。因此,基于規(guī)則的翻譯系統(tǒng)開發(fā)周期長,且開發(fā)成本高。7.3機(jī)器翻譯第7章自然語言處理7.3.2機(jī)器翻譯的方法1.基于規(guī)則的翻譯方法此外,該系統(tǒng)還面臨規(guī)則沖突的問題。隨著規(guī)則數(shù)量的增多,規(guī)則之間互相制約并互相影響。有時,為了解決一個問題而寫的一個規(guī)則,可能會給其他句子的翻譯帶來一系列問題。而為了解決這一系列問題,不得不引入更多的規(guī)則,從而形成惡性循環(huán)。7.3機(jī)器翻譯第7章自然語言處理7.3.2機(jī)器翻譯的方法2.基于統(tǒng)計的翻譯方法基于統(tǒng)計的翻譯方法需要使用語料庫,其翻譯知識來自大數(shù)據(jù)的自動訓(xùn)練。翻譯知識主要來自兩類訓(xùn)練數(shù)據(jù):①

平行語料,也稱雙語語料,例如,一句中文對應(yīng)一句英文,并且中文和英文是互為對應(yīng)關(guān)系的;②

單語語料,如只有英文,沒有中文。7.3機(jī)器翻譯第7章自然語言處理7.3.2機(jī)器翻譯的方法2.基于統(tǒng)計的翻譯方法翻譯模型從平行語料中能學(xué)到類似詞典的一個表,一般稱為“短語表”。例如,“在周日”可以翻譯成“onSunday”?!岸陶Z表”中還有一個概率值,用來衡量兩個詞語或短語對應(yīng)的可能性。這樣,“短語表”就建立起兩種語言之間的橋梁關(guān)系。7.3機(jī)器翻譯第7章自然語言處理7.3.2機(jī)器翻譯的方法2.基于統(tǒng)計的翻譯方法單語語料也可用來訓(xùn)練語言模型。語言模型用來衡量一個句子在目標(biāo)語言中是不是地道,是不是流利。例如,“readabook”這個表述是沒有問題的,“reada”后面跟一個“book”這個詞的概率可能是0.5,而“readaTV”的概率就很低,只有0.001,因為這不符合目標(biāo)語言的語法。所以,翻譯模型建立起兩種語言的橋梁,語言模型是衡量一個句子在目標(biāo)語言中是不是流利和地道。這兩種模型結(jié)合起來,加上其他的一些特征,形成了一個基于統(tǒng)計的翻譯方法。7.3機(jī)器翻譯第7章自然語言處理7.3.2機(jī)器翻譯的方法3.基于神經(jīng)網(wǎng)絡(luò)的翻譯方法基于神經(jīng)網(wǎng)絡(luò)的翻譯近年來迅速崛起。相比于基于統(tǒng)計的翻譯,基于神經(jīng)網(wǎng)絡(luò)的翻譯從模型上來講相對簡單,它主要包含兩個部分:一個部分是編碼器,另一個部分是解碼器。編碼器負(fù)責(zé)把源語言經(jīng)過一系列的神經(jīng)網(wǎng)絡(luò)的變換后,表示為一個高維向量。解碼器負(fù)責(zé)把這個高維向量再重新解碼(翻譯)為目標(biāo)語言,如圖所示。7.3機(jī)器翻譯第7章自然語言處理7.3.2機(jī)器翻譯的方法3.基于神經(jīng)網(wǎng)絡(luò)的翻譯方法隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的翻譯方法自2014年逐漸興起。2015年,百度公司發(fā)布了全球首個互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)。短短3、4年的時間,基于神經(jīng)網(wǎng)絡(luò)的翻譯方法在大部分的語言翻譯方面已經(jīng)超越了基于統(tǒng)計的翻譯方法。目前,評價機(jī)器翻譯的譯文質(zhì)量主要有兩種方式。第一種方式是人工評價。中國近代啟蒙思想家、翻譯家嚴(yán)復(fù)提出了翻譯的三原則:信、達(dá)、雅?!靶拧笔侵缸g文意思不悖原文,即譯文要準(zhǔn)確,不偏離,不遺漏,也不要隨意增減意思;“達(dá)”是指不拘泥于原文形式,譯文要通暢明白;“雅”則指翻譯時選用的詞語要得體,追求文章本身的古雅,內(nèi)容要簡明優(yōu)雅。目前,機(jī)器翻譯水平還遠(yuǎn)沒有達(dá)到可以用“雅”來衡量的狀態(tài)。第二種方式是自動評價。自動評價能夠快速地反映出機(jī)器翻譯質(zhì)量的好壞,相比人工評價而言,自動評價的成本更低、效率更高。7.3機(jī)器翻譯第7章自然語言處理7.3.3機(jī)器翻譯的應(yīng)用1.翻譯機(jī)從出國旅行,到國際文化交流,再到對外貿(mào)易,語言障礙是一個天然的痛點。因此,許多商家,如百度、科大訊飛等公司,結(jié)合文字識別技術(shù)和語音識別技術(shù),推出了具有豐富實用功能的翻譯機(jī)產(chǎn)品,如圖所示。該類產(chǎn)品可以實時地通過攝像頭的取景框來采集外文景點指示牌、菜單、說明書和實物等,并進(jìn)行翻譯;再結(jié)合語音技術(shù)的會話翻譯,可以幫助用戶實現(xiàn)不同語種的無障礙交流。7.3機(jī)器翻譯第7章自然語言處理7.3.3機(jī)器翻譯的應(yīng)用2.語音同傳技術(shù)同聲傳譯廣泛應(yīng)用于國際會議等多語言交流的場景。搜狗等公司推出的語音同傳技術(shù),可以將演講者的語音實時轉(zhuǎn)換成文本,并能進(jìn)行同步翻譯,低延遲顯示翻譯結(jié)果,有望能夠取代門檻較高的人工同傳,實現(xiàn)不同語言間低成本的有效交流。7.3機(jī)器翻譯第7章自然語言處理7.3.3機(jī)器翻譯的應(yīng)用3.跨語言檢索目前,中文信息只占世界信息總量的10%。面對逐年增加的跨語言檢索需求,搜狗公司推出了海外搜索系統(tǒng),該系統(tǒng)將機(jī)器翻譯和信息檢索技術(shù)進(jìn)行了結(jié)合,不論用戶輸入中文還是英文,系統(tǒng)都會從海量優(yōu)質(zhì)的英文網(wǎng)頁中搜索出用戶需要的結(jié)果,并應(yīng)用國際領(lǐng)先的機(jī)器翻譯技術(shù),自動對其進(jìn)行翻譯,為用戶提供原文、翻譯、雙語這3個頁面的搜索結(jié)果。7.3機(jī)器翻譯第7章自然語言處理7.3.3機(jī)器翻譯的應(yīng)用4.助力翻譯行業(yè)升級機(jī)器翻譯加后期編輯是機(jī)器翻譯和傳統(tǒng)人工翻譯相結(jié)合的產(chǎn)物。顧名思義,后期編輯是在機(jī)器翻譯完之后,翻譯人員對文本進(jìn)行編輯,以提高翻譯的準(zhǔn)確性、清晰度和流暢性,即由人工編輯將翻譯的精細(xì)度提升至機(jī)器所不能達(dá)到的高度。機(jī)器翻譯和傳統(tǒng)翻譯行業(yè)相結(jié)合,可以利用機(jī)器翻譯提高傳統(tǒng)翻譯行業(yè)的效率,提升商業(yè)價值。第七章自然語言處理高職高專人工智能通識課規(guī)劃教材7.1自然語言處理概述7.4語音識別7.3機(jī)器翻譯7.2自然語言理解7.5語音合成7.6本章實訓(xùn)7.7拓展知識7.4語音識別第7章自然語言處理7.4.1語音識別的定義語音識別,通常被稱為自動語音識別(AutomaticSpeechRecognition,ASR),主要是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入,一般為可以編輯的文本內(nèi)容或者字符序列。語音識別就好比機(jī)器的聽覺系統(tǒng),它使機(jī)器通過識別和理解,將語音信號轉(zhuǎn)換為相應(yīng)的文本或命令。目前,語音識別系統(tǒng)主要包括孤立語音識別系統(tǒng)和連續(xù)語音識別系統(tǒng),特定人語音識別系統(tǒng)和非特定人語音識別系統(tǒng),大詞匯量語音識別系統(tǒng)和小詞匯量語音識別系統(tǒng),以及嵌入式語音識別系統(tǒng)和服務(wù)器模式語音識別系統(tǒng)。7.4語音識別第7章自然語言處理7.4.1語音識別的定義自然語言只是在句尾或者文字需要加標(biāo)點的地方有間斷,其他部分都是連續(xù)的發(fā)音。以前的語音識別系統(tǒng)主要是以單字或單詞為單位的孤立語音識別系統(tǒng)。近年來,連續(xù)語音識別系統(tǒng)已經(jīng)漸漸成為主流。根據(jù)聲學(xué)模型建立的方式,特定人語音識別系統(tǒng)在前期需要大量的用戶發(fā)音數(shù)據(jù)來訓(xùn)練模型。非特定人語音識別系統(tǒng)則在系統(tǒng)構(gòu)建成功后,不需要事先進(jìn)行大量語音數(shù)據(jù)訓(xùn)練就可以使用。在語音識別技術(shù)的發(fā)展過程中,詞匯量是不斷積累的,隨著詞匯量的增大,對系統(tǒng)的穩(wěn)定性要求也越來越高,系統(tǒng)的成本也越來越高。例如,一個識別電話號碼的系統(tǒng)只需要聽懂10個數(shù)字就可以了,一個訂票系統(tǒng)就需要能識別各個地名,而識別一篇報道稿就需要一個擁有大量詞匯的語音識別系統(tǒng)。7.4語音識別第7章自然語言處理7.4.1語音識別的定義語音識別是一項融合多學(xué)科知識的前沿技術(shù),覆蓋了數(shù)學(xué)、統(tǒng)計學(xué)、聲學(xué)、語言學(xué)、模式識別理論以及神經(jīng)生物學(xué)等學(xué)科。自2009年深度學(xué)習(xí)技術(shù)興起之后,語言識別技術(shù)的發(fā)展已經(jīng)取得了長足進(jìn)步。語音識別的精度和速度取決于實際應(yīng)用環(huán)境,在安靜環(huán)境、標(biāo)準(zhǔn)口音、常見詞匯場景下的語音識別準(zhǔn)確率已經(jīng)超過97%,具備了與人類相仿的語言識別能力。7.4語音識別第7章自然語言處理7.4.2語音識別的發(fā)展歷程20世紀(jì)50年代,語音識別的研究工作開始。1952年,貝爾實驗室研發(fā)出了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。此時,語音識別的重點是探索和研究聲學(xué)和語音學(xué)的基本概念及原理。20世紀(jì)60年代開始,卡耐基梅隆大學(xué)的雷伊·雷蒂(RajReddy)等人開展了連續(xù)語音識別的研究,但是進(jìn)展很緩慢。1969年,貝爾實驗室的約翰·皮爾斯(JohnPierce)甚至在一封公開信中,將語音識別比作近幾年不可能實現(xiàn)的事情。7.4語音識別第7章自然語言處理7.4.2語音識別的發(fā)展歷程20世紀(jì)80年代開始,以隱馬爾可夫模型的統(tǒng)計方法為代表的基于統(tǒng)計模型的方法逐漸在語音識別研究中占據(jù)了主導(dǎo)地位。該方法能夠很好地描述語音信號的短時平穩(wěn)特性,并能將聲學(xué)、語言學(xué)、句法等知識集成到同一框架中。此后,該方法的研究和應(yīng)用逐漸成為主流。第一個“非特定人連續(xù)語音識別系統(tǒng)”是當(dāng)時還在卡耐基梅隆大學(xué)讀書的李開復(fù)研發(fā)的SPHINX系統(tǒng)。到20世紀(jì)80年代后期,人工神經(jīng)網(wǎng)絡(luò)也成為語音識別研究的一個方向。但這種淺層神經(jīng)網(wǎng)絡(luò)在語音識別任務(wù)上的效果一般,表現(xiàn)并不如隱馬爾可夫模型。7.4語音識別第7章自然語言處理7.4.2語音識別的發(fā)展歷程20世紀(jì)90年代開始,語音識別掀起了第一次研究和產(chǎn)業(yè)應(yīng)用的小高潮。該時期,劍橋大學(xué)發(fā)布的隱馬爾可夫開源工具包大幅度降低了語音識別研究的門檻。在此后將近10年的時間中,語音識別的研究進(jìn)展一直比較有限,基于隱馬爾可夫模型的語音識別系統(tǒng)的整體效果還遠(yuǎn)遠(yuǎn)達(dá)不到實用水平,語音識別的研究和應(yīng)用陷入了瓶頸。7.4語音識別第7章自然語言處理7.4.2語音識別的發(fā)展歷程2006年,杰弗里·辛頓提出了深度置信網(wǎng)絡(luò),它解決了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中容易陷入局部最優(yōu)解的問題,深度學(xué)習(xí)的大潮自此正式拉開。2009年,杰弗里·辛頓和他的學(xué)生將深度置信網(wǎng)絡(luò)應(yīng)用在語音識別聲學(xué)建模中,并且在小詞匯量連續(xù)語音識別數(shù)據(jù)庫中獲得了成功。2011年,深度神經(jīng)網(wǎng)絡(luò)在大詞匯量連續(xù)語音識別上獲得成功,取得了近10年來最大的突破。從此,基于深度神經(jīng)網(wǎng)絡(luò)的建模方式正式取代隱馬爾可夫模型,成為主流的語音識別模型。7.4語音識別第7章自然語言處理7.4.3語音識別系統(tǒng)語音識別其實是一個模式識別匹配的過程,就像人們聽語音時并不會把語音和語言的語法結(jié)構(gòu)、語義結(jié)構(gòu)分離開來。語音識別系統(tǒng)一般可以分為前端處理和后端處理兩部分,如圖所示。前端包括語音輸入、預(yù)處理、特征提取。前端的作用是對輸入的語音信號進(jìn)行濾波,刪掉非語音聲音,降低噪聲并進(jìn)行特征提取。7.4語音識別第7章自然語言處理7.4.3語音識別系統(tǒng)后端包括:聲學(xué)模型、語音模型、字典和模板庫。聲學(xué)模型通過訓(xùn)練來識別特定人的語音模型和發(fā)音環(huán)境特征;負(fù)責(zé)將輸入的音頻信號(如人的語音)轉(zhuǎn)換為可能的音素或詞素序列。語音模型涉及中文信息處理的問題,在處理過程中要給語料庫單詞的規(guī)則化建一個概率模型;描述了語言中的詞或詞素序列的概率分布。字典則列出了大量的單詞和發(fā)音規(guī)則。模板庫是語音模板的集合??梢允且阎亩陶Z、命令或關(guān)鍵詞的音頻樣本。通常用于快速響應(yīng)特定的命令或請求,例如智能家居系統(tǒng)中的“打開燈”或“播放音樂”。后端的作用是對前端進(jìn)行預(yù)處理和對特征提取后的信號進(jìn)行模式識別。7.4語音識別第7章自然語言處理7.4.3語音識別系統(tǒng)語音識別的過程如下。首先,語音通過送話器將語音信號轉(zhuǎn)換成電脈沖信號,并輸入語音識別系統(tǒng),語音識別系統(tǒng)對語音信號進(jìn)行預(yù)處理,如濾波、采樣、量化等。然后,通過人類的語言特點建立人類語音信號模型,對輸入的語音信號進(jìn)行分析,抽取所需的特征,并在此基礎(chǔ)上建立語音識別所需要的模板。在識別過程中,計算機(jī)根據(jù)語音識別的整體模型,將計算機(jī)中已經(jīng)存在的語音模板與輸入的語音信號的特征進(jìn)行比較,并根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的、與輸入語音匹配的模板,通過查表和判決算法給出識別結(jié)果。顯然,識別結(jié)果的準(zhǔn)確率與語音特征的選擇、語音模型和語音模板的好壞及準(zhǔn)確度有關(guān)。7.4語音識別第7章自然語言處理7.4.3語音識別系統(tǒng)語音識別系統(tǒng)的性能受多個因素的影響,如不同的說話人、不同的語言以及同一種語言不同的發(fā)音和說話方式等。提高系統(tǒng)的穩(wěn)定性就是要提高系統(tǒng)克服這些因素的能力,使系統(tǒng)能夠適應(yīng)不同的環(huán)境。7.4語音識別第7章自然語言處理7.4.4語音識別的應(yīng)用語音識別已經(jīng)得到越來越廣泛的應(yīng)用,并成為人工智能領(lǐng)域中不可或缺的一部分。它可以將我們的語音轉(zhuǎn)化為計算機(jī)能夠識別和處理的信號,并將其應(yīng)用于以下領(lǐng)域。(1)智能家居:利用語音識別技術(shù)可以在家庭中實現(xiàn)人機(jī)交互,實現(xiàn)家庭環(huán)境的智能化控制,如對燈光、音響、空調(diào)等家電設(shè)備的控制,從而提高人們的生活品質(zhì)。例如,通過說出“小度小度,把客廳電視打開”就可以迅速打開電視。(2)智能交通:利用語音識別技術(shù)可以實現(xiàn)智能駕駛和智能交通控制,如語音導(dǎo)航等。在保證駕駛安全的前提下,司機(jī)可以通過說出指令來控制車輛,而無須分心操作屏幕或按鈕。7.4語音識別第7章自然語言處理7.4.4語音識別的應(yīng)用(3)智能醫(yī)療:語音識別技術(shù)可以被廣泛應(yīng)用于醫(yī)療記錄、醫(yī)學(xué)診斷、醫(yī)學(xué)研究和醫(yī)學(xué)教育等方面。醫(yī)生可以通過語音快速記錄病歷和診斷結(jié)果,從而更好地為病人提供診療服務(wù)。(4)智能客服:語音識別技術(shù)也可以被應(yīng)用于客戶服務(wù),尤其是針對不同語言的客戶??蛻艨梢酝ㄟ^說出指令來解決問題,減少語言溝通的障礙,并提高客戶滿意度。第七章自然語言處理高職高專人工智能通識課規(guī)劃教材7.1自然語言處理概述7.5語音合成7.3機(jī)器翻譯7.4語音識別7.2語音合成自然語言理解7.6本章實訓(xùn)7.7拓展知識7.5語音合成第7章自然語言處理7.5.1語音合成概述語音合成,又稱文語轉(zhuǎn)換(TexttoSpeech)技術(shù),是通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù),能夠?qū)⑷我馕淖中畔崟r轉(zhuǎn)換為標(biāo)準(zhǔn)流暢的語音,相當(dāng)于給機(jī)器裝上了人工“嘴巴”。語音合成技術(shù)涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計算機(jī)科學(xué)等多個學(xué)科,是文字信息處理領(lǐng)域的一項前沿技術(shù)。語音合成可以在任何時候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實現(xiàn)讓機(jī)器“像人一樣開口說話”。20世紀(jì)80年代末期,語音合成技術(shù)取得了重大突破,特別是基音同步疊加方法的提出,使基于時域波形拼接方法合成語音的音色和自然度大大提高。20世紀(jì)90年代初,基于基音同步疊加方法的法語、德語、英語等語種的文語轉(zhuǎn)換系統(tǒng)都已經(jīng)研制成功,且具有較高的自然度。同時,基于基音同步疊加方法的合成器結(jié)構(gòu)簡單且易于實時實現(xiàn),有很大的商用前景。7.5語音合成第7章自然語言處理7.5.1語音合成概述我國的漢語語音合成研究起步較晚,但從20世紀(jì)80年代初就已與其他國家的研究同步發(fā)展。在國家高技術(shù)研究發(fā)展(863計劃)、國家自然科學(xué)基金委員會、國家科技攻關(guān)計劃、中國科學(xué)院有關(guān)項目等的支持下,我國相繼研發(fā)了聯(lián)想佳音(1995)、清華大學(xué)TH_SPEECH(1993)、中國科技大學(xué)KDTALK(1995)等系統(tǒng),這些系統(tǒng)多采用基于基音同步疊加方法的時域波形拼接技術(shù),其合成漢語普通話的可懂度、清晰度達(dá)到了很高的水平。7.5語音合成第7章自然語言處理7.5.1語音合成概述語音合成過程共有三個步驟,分別是語言處理、韻律處理和聲學(xué)處理。(1)語言處理:在文語轉(zhuǎn)換系統(tǒng)中起著重要的作用,主要模擬人對自然語言的理解過程——文本規(guī)整、詞語切分、語法分析和語義分析,使計算機(jī)能夠完全理解輸入的文本,并給出韻律處理和聲學(xué)處理所需要的各種發(fā)音提示。(2)韻律處理:為合成語音規(guī)劃出音段特征,如音高、音長和音強(qiáng)等,使合成語音能正確表達(dá)語意,聽起來更加自然。(3)聲學(xué)處理:根據(jù)語言處理和韻律處理的處理結(jié)果的要求輸出語音,即合成語音。7.5語音合成第7章自然語言處理7.5.2語音合成的應(yīng)用隨著語音合成技術(shù)的發(fā)展,語音合成的應(yīng)用十分廣泛,其典型應(yīng)用場景如下。(1)閱讀聽書:使用語音合成技術(shù)的閱讀類App能夠為用戶提供多種語音庫的朗讀功能,釋放用戶的雙手和雙眼,用戶能獲得更極致的閱讀體驗。(2)資訊播報:提供專為新聞資訊播報場景打造的特色音庫,讓手機(jī)、音箱等設(shè)備化身“專業(yè)主播”,隨時隨地為用戶播報新聞資訊。(3)訂單播報:可應(yīng)用于打車軟件、餐飲叫號、排隊軟件等場景,通過語音合成播報訂單,讓客戶便捷地獲取通知信息。(4)智能硬件:可集成到兒童故事機(jī)、智能機(jī)器人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論