語音識(shí)別簡(jiǎn)介_第1頁
語音識(shí)別簡(jiǎn)介_第2頁
語音識(shí)別簡(jiǎn)介_第3頁
語音識(shí)別簡(jiǎn)介_第4頁
語音識(shí)別簡(jiǎn)介_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語音識(shí)別索引TOC\o"1-5"\h\z\o"CurrentDocument"語音識(shí)別的發(fā)展簡(jiǎn)史 1\o"CurrentDocument"語音識(shí)別的發(fā)展趨勢(shì) 2\o"CurrentDocument"語音識(shí)別的系統(tǒng)類型 4\o"CurrentDocument"語音識(shí)別的基元選擇 4\o"CurrentDocument"5. 特征參數(shù)提取 5語音識(shí)別系統(tǒng)性能評(píng)分標(biāo)準(zhǔn) 5\o"CurrentDocument"語音識(shí)別應(yīng)用分類 6\o"CurrentDocument"語音識(shí)別應(yīng)用的特點(diǎn) 6\o"CurrentDocument"面向具體任務(wù)的語音識(shí)別 8語音識(shí)別的發(fā)展簡(jiǎn)史語音識(shí)別研究從二十世紀(jì)50年代開始到現(xiàn)在已經(jīng)歷半個(gè)多世紀(jì)的蓬勃發(fā)展,在這期間獲得了巨大的進(jìn)展。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線索進(jìn)行簡(jiǎn)要回顧。50年代,研究人員大都致力于探索聲學(xué)一語音學(xué)的基本概念。1952年AT&TBell實(shí)驗(yàn)室實(shí)現(xiàn)了一個(gè)單一發(fā)音人孤立發(fā)音的十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng),方法主要是度量每個(gè)數(shù)字的元音音段的共振峰。1956年,RCALab開展的一項(xiàng)獨(dú)立研究也是試圖識(shí)別單一發(fā)音人的10不同的音節(jié),同樣采用了度量共振峰的方法。1959年,英國UniversityCollege的研究人員嘗試用譜分析和模板匹配方法構(gòu)建了一種音素識(shí)別器,用以識(shí)別4個(gè)元音和9個(gè)輔音。而MIT林肯實(shí)驗(yàn)室的研究人員則是構(gòu)建一種非特定人的元音識(shí)別器,用于識(shí)別嵌在/b/-vowel+/t/語境中的10個(gè)元音。60年代,相繼出現(xiàn)并發(fā)表了語音識(shí)別的幾個(gè)重要的思想。但是,伴隨著這個(gè)年代的開始卻是幾個(gè)日本的實(shí)驗(yàn)室進(jìn)入語音識(shí)別領(lǐng)域,并構(gòu)建一些專用的硬件用于語音識(shí)別系統(tǒng)。東京RadioResearchLab首先構(gòu)建了一個(gè)用硬件實(shí)現(xiàn)的元音識(shí)別器。語音信號(hào)經(jīng)過精心制作的帶通濾波器進(jìn)行譜分析和通道輸出譜加權(quán)處理后,用多數(shù)邏輯決策電路選擇輸入語音中元音的識(shí)別結(jié)果。1962年,東京大學(xué)進(jìn)行了另一個(gè)音素識(shí)別器的硬件實(shí)現(xiàn)的嘗試。它使用過零率方法分離語音信號(hào)的不同部分,并進(jìn)行識(shí)別。1963年,日本NECLab對(duì)數(shù)字進(jìn)行語音識(shí)別的嘗試可以算得上最值得注意的工作,因?yàn)樗粌H是NEC研究語音識(shí)別的開端,還導(dǎo)致一個(gè)長(zhǎng)期的和卓有成效的研究計(jì)劃。在60年代中,三個(gè)研究項(xiàng)目的開展對(duì)其后20多年的語音識(shí)別研究和開發(fā)產(chǎn)生了重大影響。第一個(gè)研究項(xiàng)目在RCALab開始于60年代后期,目的是研究語音事件在時(shí)間刻度上不均勻性的現(xiàn)實(shí)解決辦法。在能夠可靠檢測(cè)出語音事件的始末點(diǎn)的基礎(chǔ)上,發(fā)展了一套時(shí)間歸正的基本方法,顯著降低了識(shí)別匹配評(píng)分的變化程度。幾乎與此同時(shí),前蘇維埃的研究人員Vintsyuk提出使用動(dòng)態(tài)規(guī)劃來對(duì)齊兩個(gè)不同長(zhǎng)度的語音音段。盡管動(dòng)態(tài)時(shí)間彎折(DTW)概念的實(shí)質(zhì)和用于連接詞識(shí)別的算法雛形已經(jīng)包含在Vintsyuk的工作中,但直到80年代才在西方廣為人知,并發(fā)揚(yáng)光大。60年代的最后一項(xiàng)成就是研究人員Reddy用動(dòng)態(tài)跟蹤音素的方法進(jìn)行連續(xù)語音識(shí)別的開創(chuàng)性工作Reddy的這項(xiàng)工作最終在CMU(他在60年后期加入CMU)培育出長(zhǎng)期進(jìn)行的并獲極大成功的語音識(shí)別研究計(jì)劃,在連續(xù)語音識(shí)別系統(tǒng)的研究方面至今仍然保持世界領(lǐng)先的水平。70年代,語音識(shí)別研究取得了一系列具有里程碑意義的成就。首先,在模式識(shí)別思想、動(dòng)態(tài)規(guī)劃方法、線性預(yù)測(cè)思想等基礎(chǔ)研究的成功應(yīng)用的支撐下,孤立詞發(fā)音和孤立語句發(fā)音的識(shí)別成為了可行的有用技術(shù)。70年代的另一個(gè)里程碑是在IBM開始了一個(gè)長(zhǎng)期持續(xù)的、卓有成效的大詞匯量連續(xù)語音識(shí)別研究的集體努力。他們?cè)?0多年中研究了三項(xiàng)不同的工作,其中之一就是簡(jiǎn)單備忘錄的聽寫系統(tǒng)Tangorn。在這期間,AT&TBellLab開展了一系列目的在于建立真正的非特定人語音識(shí)別系統(tǒng)的實(shí)驗(yàn)。研究提出了范圍廣泛的一類復(fù)雜的聚類算法,用于確定能夠表示大量人群的不同詞語的所有聲學(xué)變化的不同模式的數(shù)量。這些研究經(jīng)過10多年的精煉后,成為構(gòu)建非特定人的模式聚類技術(shù),現(xiàn)在已經(jīng)得到充分理解并廣泛應(yīng)用。繼孤立詞語識(shí)別成為70年代研究的主要焦點(diǎn)之后,連接詞語識(shí)別的問題則是80年代研究的焦點(diǎn)。其目標(biāo)是創(chuàng)建基于用由單個(gè)詞的模式串接在一起進(jìn)行匹配,并能識(shí)別由詞匯串接組成的流暢話語的可靠系統(tǒng)。形式化并實(shí)現(xiàn)了大量連接詞語音識(shí)別的算法,例如兩層動(dòng)態(tài)規(guī)劃方法,一遍法,層建法,幀同步層建法。這些“優(yōu)化”匹配處理的每一種方法都有它自己的實(shí)現(xiàn)優(yōu)點(diǎn),并對(duì)相當(dāng)多的任務(wù)進(jìn)行過探索研究。語音識(shí)別研究在80年代的最大特點(diǎn)是從基于模板的方法向統(tǒng)計(jì)模型方法的轉(zhuǎn)變,特別是轉(zhuǎn)向研究隱馬爾柯夫模型HMM的理論、方法和實(shí)現(xiàn)問題。雖然個(gè)別實(shí)驗(yàn)室(主要是IBM,InstituteforDefenseAnalysis,DragonSystems)對(duì)HMM的方法論早已非常熟知和充分理解,但直到80年代中期在HMM的理論和方法廣泛發(fā)表以后,才使原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),并被世界上幾乎每一個(gè)從事語音識(shí)別的實(shí)驗(yàn)室所采用。貫穿整個(gè)80年代,大詞匯量連續(xù)語音識(shí)別系統(tǒng)研究受到了DARPA的有力推動(dòng)。DARPA發(fā)起有關(guān)語音識(shí)別的巨大研究計(jì)劃的目的是,對(duì)于1000條詞匯的數(shù)據(jù)庫管理任務(wù)的連續(xù)語音達(dá)到高的詞匯識(shí)別精度。這方面的主要研究貢獻(xiàn)產(chǎn)生于CMU,BBN,LincolnLabs,SRI,MIT,AT&TBellLab.90年代,語音識(shí)別研究的重點(diǎn)轉(zhuǎn)向自然語言的識(shí)別處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。同時(shí),語音識(shí)別技術(shù)不斷應(yīng)用于電話網(wǎng)絡(luò),增強(qiáng)話務(wù)員服務(wù)和自動(dòng)化。2000年以來,人機(jī)語音交互成為研究的焦點(diǎn)。研究重點(diǎn)包括即興口語的識(shí)別和理解,自然口語對(duì)話,以及多語種的語音同聲翻譯。中國的語音識(shí)別研究工作最早開始于中科院聲學(xué)所。50年代后期,中科院聲學(xué)所用頻譜分析的方法研究了漢語10個(gè)元音的語音識(shí)別,到70年代后期,構(gòu)建了基于模板匹配的孤立詞語音識(shí)別系統(tǒng)。在80年代后期,主持研究了八五期間中科院人機(jī)語音對(duì)話研究項(xiàng)目。在此期間國內(nèi)大專院校和研究所相繼開始了語音識(shí)別研究。聲學(xué)所、自動(dòng)化所、北大、清華等研究機(jī)構(gòu)在中國的語音識(shí)別研究的方向和內(nèi)容等方面起了積極的催化和引導(dǎo)作用。繼“863”計(jì)劃期間,漢語大詞匯量語音識(shí)別—聽寫機(jī)技術(shù)成為研究的重點(diǎn)之后,漢語自然口語對(duì)話和語音翻譯在“973”計(jì)劃期間成為新的研究焦點(diǎn)。語音識(shí)別的發(fā)展趨勢(shì)語音識(shí)別技術(shù)經(jīng)過全球半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號(hào)的平均識(shí)別率可以達(dá)到90%以上。在這樣的水平基礎(chǔ)上,語音識(shí)別技術(shù)開始嘗試從實(shí)驗(yàn)室演示系統(tǒng)走向?qū)嵱没唐?。以IBMViaVoice和DragonDictation為代表的幾個(gè)聽寫機(jī)系統(tǒng)的出現(xiàn)使“語音識(shí)別”一時(shí)聲名遠(yuǎn)揚(yáng),引起了社會(huì)的廣泛關(guān)注。一些人認(rèn)為這些系統(tǒng)基本可以使用,但由于校對(duì)和更正識(shí)別的錯(cuò)誤還很麻煩和浪費(fèi)時(shí)間,降低了語音識(shí)別的便捷優(yōu)勢(shì)。也有人因?yàn)槁爩懙恼_識(shí)別率受到識(shí)別的內(nèi)容,使用的環(huán)境或講話習(xí)慣口音等因素的影響大大降低,認(rèn)為目前的語音識(shí)別系統(tǒng)還無法滿足實(shí)用要求。AT&T和MIT等將語音識(shí)別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動(dòng)轉(zhuǎn)接、電話查詢、數(shù)字串識(shí)別。在這些識(shí)別任務(wù)中,當(dāng)講話的內(nèi)容是系統(tǒng)所期待的,使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時(shí),語音識(shí)別的正確識(shí)別率可以相當(dāng)接近100%。不過在實(shí)際應(yīng)用中當(dāng)這些前提條件被破壞時(shí),對(duì)可用性也會(huì)產(chǎn)生一定的影響。人們還試圖在手持設(shè)備上應(yīng)用語音識(shí)別技術(shù),目前這種應(yīng)用主要受到計(jì)算平臺(tái)的性能和價(jià)格的制約。換言之,語音識(shí)別技術(shù)要進(jìn)入成熟的商業(yè)運(yùn)用還有一段艱難的路程,還必須在很多方面取得突破性進(jìn)展。提高可靠性。一方面,語音識(shí)別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在公共場(chǎng)合,人能夠有意識(shí)地摒棄環(huán)境噪聲并從中獲取自己所需要的特定聲音,但幾乎不可能指望計(jì)算機(jī)能聽懂你的話。來自四面八方的環(huán)境噪聲和背景話音,讓它茫然而不知所措,極大地限制了語音識(shí)別技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語音識(shí)別技術(shù)必須有特殊的抗噪(NoiseCancellation)麥克風(fēng)才能進(jìn)行,這對(duì)多數(shù)用戶來說是不現(xiàn)實(shí)的。另一方面,在日常生活中人們說話有較大的隨意性(Spontaneous),常常不經(jīng)過特殊準(zhǔn)備,并帶有明顯的言語習(xí)慣,例如,說話時(shí)帶有地方口音、重復(fù)、更正、插入、猶豫、停頓、咳嗽、咂嘴、不受語法限制等。相對(duì)于在講話方式和講話內(nèi)容都經(jīng)過特殊準(zhǔn)備的符合語法規(guī)則的流暢的標(biāo)準(zhǔn)“朗讀式語音”而言的,這種自然口語語音的識(shí)別要困難得多。提高可靠性的目的是當(dāng)使用環(huán)境的聲學(xué)特性與訓(xùn)練語音的收集環(huán)境的聲學(xué)特性不一致或用戶的言語方式與訓(xùn)練語音的言語方式不一致時(shí),語音識(shí)別系統(tǒng)性能的下降不會(huì)太大。增加詞匯量。系統(tǒng)可以識(shí)別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個(gè)重要度量。如果語音識(shí)別系統(tǒng)使用的聲學(xué)模型和語音模型太過于局限,當(dāng)用戶所講的詞匯超出系統(tǒng)已知的范圍,或突然從中文轉(zhuǎn)為英文、法文、俄文,計(jì)算機(jī)就會(huì)常常輸出混亂奇怪的結(jié)果。隨著系統(tǒng)建模方法的改進(jìn)、搜索算法效率的提高和硬件資源的發(fā)展,將來的語音識(shí)別系統(tǒng)可能會(huì)做到詞匯量無限制和多種語言混合,用戶在使用時(shí)可以不必在語種之間來回切換,不受或少受詞匯量的限制。應(yīng)用拓展。語音識(shí)別是一種賦能技術(shù),現(xiàn)有的很多人機(jī)交互界面都可能通過補(bǔ)充語音識(shí)別功能而得到改善,還可以塑造或創(chuàng)造一批新的機(jī)器和新的信息服務(wù)行業(yè)進(jìn)入人的生活。語音識(shí)別技術(shù)可以用于把費(fèi)腦、費(fèi)力、費(fèi)時(shí)的機(jī)器操作變成一件很容易很有趣味性的事,在許多“手忙”、“手不能用”、“手所不能及”,“懶得動(dòng)手”的場(chǎng)景中,包括象駕駛室、一些危險(xiǎn)的工業(yè)場(chǎng)合、遠(yuǎn)距離自動(dòng)信息獲取、家電控制等方面,語音識(shí)別技術(shù)可能帶動(dòng)一系列嶄新或更便捷功能的設(shè)備出現(xiàn),更加方便人的工作和生活。由于知識(shí)層次和知識(shí)領(lǐng)域的差異,現(xiàn)實(shí)生活中有相當(dāng)一部分人很難得到現(xiàn)代化生活可能給帶來的便利,包括信息服務(wù)和其他各類先進(jìn)設(shè)備可提供的幫助。語音識(shí)別技術(shù)有助于改善這種情況,使社會(huì)各個(gè)階層更多的人享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù),提高整個(gè)社會(huì)的信息化程度和現(xiàn)代化程度。計(jì)算機(jī)通信技術(shù)的發(fā)展,使互聯(lián)網(wǎng)在信息聚集和傳播方面成為很先進(jìn)社會(huì)基礎(chǔ)設(shè)施,但由于使用手段的限制,還有相當(dāng)多的人或在相當(dāng)多的場(chǎng)合還無法廣泛普及使用。有線固定電話和無線移動(dòng)電話網(wǎng)絡(luò)的應(yīng)用雖然已經(jīng)廣泛普及到幾乎社會(huì)所有階層,但電話網(wǎng)絡(luò)現(xiàn)在的最主要的功能還是話音通信。如果將兩者結(jié)合,用電話網(wǎng)絡(luò)作為互聯(lián)網(wǎng)的語音入口,用語音識(shí)別作為人與網(wǎng)上信息交互的便捷工具,則可以在相當(dāng)大的范圍,使人們享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù),促進(jìn)社會(huì)的進(jìn)步。例如,用電話與信息代理機(jī)器交談,隨時(shí)得到天氣、娛樂、旅行、學(xué)習(xí)的日常生活信息,了解政府的各種政策法規(guī)等等。將語音識(shí)別與語言理解、文字翻譯、語音合成進(jìn)行系統(tǒng)創(chuàng)新集成的語音同聲翻譯技術(shù),可以用于突破不同語種的人說話交流的語言壁壘。降低成本減小體積。降低成本是任何技術(shù)商業(yè)化的重要前提,一般的途徑是通過規(guī)模生產(chǎn)來攤薄成本。目前降低語音識(shí)別技術(shù)成本的主要困難在于這項(xiàng)技術(shù)仍然處在逐步改進(jìn)的過程中,對(duì)于多數(shù)要求較高的功能和性能的應(yīng)用,往往都帶有量身定制的特點(diǎn),規(guī)模生產(chǎn)定型產(chǎn)品的條件尚不成熟。只有在功能和性能非常有限的語音識(shí)別應(yīng)用方面,可以規(guī)模生產(chǎn)一些低成本產(chǎn)品,但這些產(chǎn)品的應(yīng)用常常又受到功能和性能瓶頸的限制。微型化是語音識(shí)別技術(shù)商業(yè)應(yīng)用的另一個(gè)重要途徑,這取決于語音識(shí)別技術(shù)本身進(jìn)步的程度,也和微電子芯片技術(shù)的進(jìn)一步發(fā)展關(guān)系密切。將具有先進(jìn)功能和性能的語音識(shí)別應(yīng)用系統(tǒng)固化到更加微小的芯片或模塊上,大幅度降低產(chǎn)品成本,是語音識(shí)別技術(shù)真正進(jìn)入大規(guī)模應(yīng)用的重要條件。21世紀(jì)是信息和網(wǎng)絡(luò)的時(shí)代,Internet、寬帶IP網(wǎng)、公用電話網(wǎng)、移動(dòng)電話網(wǎng)把全球各地連接起來,巨大的信息資源能夠通過網(wǎng)絡(luò)在短暫時(shí)間內(nèi)迅速擴(kuò)散到全球范圍,幾乎所有人與機(jī)器進(jìn)行信息交互相關(guān)的需求和服務(wù),例如自然口語對(duì)話、信息索取、電子商務(wù)、數(shù)字圖書館、遠(yuǎn)程教育、語音翻譯等,都可能會(huì)在網(wǎng)絡(luò)上實(shí)現(xiàn)語音識(shí)別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢(shì)是,讓人在任何地方,任何時(shí)間,對(duì)任何事都能夠通過語音交互的方式,更加方便地享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù)。人類將越來越多地體驗(yàn)到語音識(shí)別技術(shù)可能的便捷優(yōu)點(diǎn)。語音識(shí)別的系統(tǒng)類型語音識(shí)別技術(shù)常常根據(jù)各種使用限制建構(gòu)成為不同類型的系統(tǒng)。限制用戶的說話方式按照語音識(shí)別系統(tǒng)對(duì)用戶說話方式的限制,可以分為孤立詞語音識(shí)別系統(tǒng)、連續(xù)語音識(shí)別系統(tǒng)、即興口語語音識(shí)別系統(tǒng)。孤立詞語音識(shí)別系統(tǒng)(isolate-wordspeechrecognitionsystem)是指用戶在對(duì)系統(tǒng)說話時(shí),相鄰的詞匯之間的發(fā)音要有明顯停頓,在這種發(fā)音方式下,詞匯之間語音信號(hào)的聲學(xué)特征基本不受下文的影響,詞匯在語音信號(hào)中的起始點(diǎn)和結(jié)束點(diǎn)的檢測(cè)比較容易,系統(tǒng)實(shí)現(xiàn)難度較低。連接詞語音識(shí)別(connected-wordsspeechrecognition)是指中小規(guī)模詞匯但用詞匯本身作為識(shí)別基本單元的連續(xù)語音識(shí)別系統(tǒng)。連續(xù)語音識(shí)別系統(tǒng)(continuespeechrecognitionsystem)是指中大規(guī)模詞匯但用子詞作為識(shí)別基本單元的連續(xù)語音識(shí)別系統(tǒng)。連接詞語音識(shí)別系統(tǒng)和連續(xù)語音識(shí)別系統(tǒng)的共同點(diǎn)是,人在說話時(shí),音流中相鄰的詞匯之間的發(fā)音沒有停頓,詞匯之間語音信號(hào)的聲學(xué)特征、語調(diào)和韻律都受到強(qiáng)烈的下文影響,詞匯在語音信號(hào)中的起始點(diǎn)和結(jié)束點(diǎn)的檢測(cè)非常困難,系統(tǒng)實(shí)現(xiàn)難度較大。即興口語語音識(shí)別系統(tǒng)(spontaneousspeechrecognitionsystem)是指用戶使用隨意的、至少?zèng)]有在講話方式上經(jīng)過特殊準(zhǔn)備的語言與系統(tǒng)對(duì)話?!凹磁d口語語音”是相對(duì)“朗讀式語音”而言的,朗讀式語音指符合語法規(guī)則的、流暢的,在講話方式和講話內(nèi)容都經(jīng)過特殊準(zhǔn)備的語言,這種語音是以往大多數(shù)連續(xù)語音識(shí)別系統(tǒng)所假設(shè)的用戶輸入方式。即興口語語音同連續(xù)朗讀式語音相比有許多不同的特性,它通常是不流暢的,包含許多隨機(jī)事件,如語音重入、語音更正、語音插入、猶豫、停頓、咳嗽、咂嘴聲等,這些特性使得自然口語語音的識(shí)別要比朗讀式語音識(shí)別困難得多。限制用戶的用詞范圍根據(jù)系統(tǒng)所擁有的詞匯量大小,可以分為:小詞匯量、中等詞匯量(電話撥號(hào)、命令控制);大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)(聽說場(chǎng)合)小詞匯量、中等詞匯量的識(shí)別系統(tǒng)主要用于語音控制系統(tǒng),例如電話撥號(hào),命令控制等。大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)可以用在更一般化的場(chǎng)合,如聽寫等。限制系統(tǒng)的用戶對(duì)象根據(jù)系統(tǒng)對(duì)用戶的依賴程度可以分為特定人和非特定人語音識(shí)別系統(tǒng)。特定人系統(tǒng)可以是個(gè)人專用系統(tǒng)或特定群體系統(tǒng),如特定性別、特定年齡、特定口音等。語音識(shí)別的基元選擇語音識(shí)別的基元的主要任務(wù)是在不考慮說話人試圖傳達(dá)的信息內(nèi)容的情況下,將聲學(xué)信號(hào)表示為若干個(gè)具有區(qū)別性的離散符號(hào)??梢猿洚?dāng)語音識(shí)別基元的單位可以是詞句、音節(jié)、音素或更小的單位,具體選擇什么樣的基元,經(jīng)常受識(shí)別任務(wù)的具體要求和設(shè)計(jì)者的知識(shí)背景影響。一般來說,詞句基元廣泛應(yīng)用于中小詞匯量語音識(shí)別系統(tǒng),但不適合大詞匯量系統(tǒng),原因在于詞句做基元時(shí),大詞匯量系統(tǒng)的模型庫太龐大,要求龐大的訓(xùn)練數(shù)據(jù),識(shí)別匹配計(jì)算復(fù)雜度高,難以滿足實(shí)時(shí)性要求。音節(jié)基元在其它語種,例如英語中也有應(yīng)用,但多見于漢語語音識(shí)別,主要因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言,音節(jié)數(shù)目比較有限,大約1300個(gè)帶調(diào)音節(jié),但若不考慮聲調(diào),約有408個(gè)無調(diào)音節(jié)。因此,對(duì)于中、大詞匯量漢語語音識(shí)別系統(tǒng)來說,以音節(jié)為識(shí)別單元基本是可行的。音素基元以前多見于英語語音識(shí)別的研究中,但目前中、大詞匯量漢語語音識(shí)別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。關(guān)于基元顆粒度的確定,主要需要權(quán)衡基元的數(shù)目和基元聲學(xué)特性的穩(wěn)定性?;念w粒度大,基元聲學(xué)穩(wěn)定性高,但需要的數(shù)據(jù)量大,匹配的計(jì)算復(fù)雜度也大。相反,顆粒度小,計(jì)算復(fù)雜度和訓(xùn)練數(shù)據(jù)量要求相對(duì)較小,但基元聲學(xué)穩(wěn)定性受協(xié)同發(fā)音的影響很大,不利于提高識(shí)別性能。選取顆粒度合適的基元,也是有待深入研究的課題(基元顆粒度越小,計(jì)算度底當(dāng)不穩(wěn)定,識(shí)別準(zhǔn)確率低)特征參數(shù)提取特征參數(shù)提取的目的是對(duì)語音信號(hào)進(jìn)行分析處理,從而突出所載荷的語言聲音信息的特征,盡可能抑制與語言聲音信息無關(guān)的特征,同時(shí)壓縮特征的數(shù)據(jù)量。語音識(shí)別系統(tǒng)主要提取以短時(shí)譜為基礎(chǔ)的各種表征,最為成功的典型特征包括:線性預(yù)測(cè)倒譜系數(shù)LPCEPSTRA和美倒譜系數(shù)MFCC。LP譜:表示的技術(shù)基礎(chǔ)是語音信號(hào)產(chǎn)生的聲源—濾波器理論。在這種理論框架下,語言聲音信息主要由聲道濾波器的傳輸函數(shù)來載荷,并且可以通過線性預(yù)測(cè)的方法從語音信號(hào)本身獲取聲道濾波器的傳輸函數(shù)。美譜:表示的核心思想是把人的聽覺系統(tǒng)對(duì)頻率感知的非線性特征用于語音識(shí)別特征中。具體地說,在1千赫茲以下的低頻段,人耳對(duì)頻率感知是線性的;在1千赫茲以上頻段,人耳對(duì)頻率感知呈現(xiàn)對(duì)數(shù)非線性的。LP譜或美譜經(jīng)過倒譜變換成為倒譜系數(shù),使得倒譜系數(shù)之間的相關(guān)性進(jìn)一步降低。這樣提取的倒譜系數(shù)在HMM模型中可以使協(xié)方差矩陣簡(jiǎn)化為對(duì)角矩陣,從而減小計(jì)算代價(jià)。語音識(shí)別系統(tǒng)性能評(píng)分標(biāo)準(zhǔn)為了確定哪些任務(wù)能用語音識(shí)別系統(tǒng)來完成,了解針對(duì)語音識(shí)別系統(tǒng)的實(shí)驗(yàn)室評(píng)分標(biāo)準(zhǔn)是值得的。表5-1給出了很大一類語音識(shí)別系統(tǒng)的性能評(píng)分,它們都是在實(shí)驗(yàn)室環(huán)境中(如高質(zhì)量麥克風(fēng)、低環(huán)境噪聲)得到的表中分別針對(duì)多種識(shí)別方式,例如,特定技術(shù)、特定任務(wù),特定任務(wù)語法、特定模式、特定詞匯表,給出了語音識(shí)別系統(tǒng)的單詞錯(cuò)誤率性能(用“%”表示)。表5-1語音識(shí)別系統(tǒng)的性能評(píng)分技術(shù)任務(wù)句法模式詞庫單詞錯(cuò)誤率(%)孤立詞//話者相關(guān)SD10個(gè)數(shù)字0話者無關(guān)SI39個(gè)字母4.51109個(gè)基本英語詞4.310個(gè)數(shù)字0.139個(gè)字母7.0129個(gè)航班詞2.9連接詞數(shù)字串長(zhǎng)度已知話者相關(guān)SD10個(gè)數(shù)字0.1航班訂票數(shù)字串話者無關(guān)SI11個(gè)數(shù)字0.2有限狀態(tài)網(wǎng)絡(luò)話者相關(guān)SD129航班詞0.1(困惑度=4)流暢語音海洋資源管理有限狀態(tài)網(wǎng)絡(luò)話者無關(guān)SI991個(gè)詞4.5(困惑度=60)從表中可以看出,對(duì)于適合用孤立詞識(shí)別的任務(wù),在不考慮任務(wù)內(nèi)容和語法限制的情況下,特定說話人(SD)識(shí)別方式的單詞錯(cuò)誤率小于5%;而針對(duì)非特定人識(shí)別方式(SI)和較寬范圍的識(shí)別詞匯表,單詞錯(cuò)誤率在7%以下。這些應(yīng)用的單詞錯(cuò)誤率相當(dāng)?shù)?。如果能夠較好地確定識(shí)別任務(wù),并引入恰當(dāng)?shù)娜蝿?wù)語法(它們會(huì)對(duì)識(shí)別出的孤立詞序列進(jìn)行額外的限制),識(shí)別性能將進(jìn)一步提高。我們即將在后面看到幾個(gè)例子。在適用連接詞識(shí)別方式的任務(wù)里,例如連接數(shù)字串,如果已經(jīng)知道數(shù)字串的長(zhǎng)度,SD和SI兩種識(shí)別方式的單詞錯(cuò)誤率都在0.1%-0.2%。這樣高的識(shí)別精度,使得個(gè)人身份證號(hào)碼、電話號(hào)碼、信用卡號(hào)碼和分類代碼的識(shí)別成為可行,如果能夠在語音識(shí)別的這些應(yīng)用中再考慮相應(yīng)的語法,識(shí)別結(jié)果會(huì)更加可靠。最后一個(gè)例子是海洋資源管理任務(wù)。這個(gè)任務(wù)以連續(xù)語音識(shí)別的方式工作,系統(tǒng)詞匯表有991個(gè)單詞,識(shí)別的困惑度(表示單詞的平均分支因子)是60。在非特定人的工作模式下,單詞錯(cuò)誤率是4%,句子的錯(cuò)誤率是20%。因此在實(shí)際運(yùn)用中,這個(gè)任務(wù)利用語音識(shí)別來做是不合適的。表5-1中所有性能評(píng)分都是在實(shí)驗(yàn)室條件下得到的。而在實(shí)際應(yīng)用中,由于說話人的口音、環(huán)境有噪聲、說話人言語習(xí)慣(包括猶豫、加了“啊”、“嗯”,以及其它變化)等因素的影響,單詞錯(cuò)誤率會(huì)增加2-5倍。幸運(yùn)的是,基于特定任務(wù)的一些限制又會(huì)使單詞錯(cuò)誤率減少了2-10倍。因而,表5-1中所引用的單詞錯(cuò)誤率經(jīng)常符合識(shí)別系統(tǒng)在實(shí)際環(huán)境中工作時(shí)測(cè)試到的性能值。語音識(shí)別應(yīng)用分類語音識(shí)別可以應(yīng)用的領(lǐng)域大致分為大五類:1) 辦公室或商務(wù)系統(tǒng)典型的應(yīng)用包括:填寫數(shù)據(jù)表格、數(shù)據(jù)庫管理和控制、鍵盤功能增強(qiáng)等等。2) 制造業(yè)在質(zhì)量控制中,語音識(shí)別系統(tǒng)可以為制造過程提供一種“不用手”、“不用眼”的檢控(部件檢查)。3) 電信相當(dāng)廣泛的一類應(yīng)用在撥號(hào)電話系統(tǒng)上都是可行的,包括話務(wù)員協(xié)助服務(wù)的自動(dòng)化、國際國內(nèi)遠(yuǎn)程電子商務(wù)、語音呼叫分配、語音撥號(hào)、分類訂貨。4) 醫(yī)療這方面的主要應(yīng)用是由聲音來生成和編輯專業(yè)的醫(yī)療報(bào)告。5) 其它包括由語音控制和操作的游戲和玩具、幫助殘疾人的語音識(shí)別系統(tǒng)、車輛行駛中一些非關(guān)鍵功能的語音控制,如車載交通路況控制系統(tǒng)、音響系統(tǒng)。語音識(shí)別應(yīng)用的特點(diǎn)如果要在所提出的任務(wù)中使用語音識(shí)別系統(tǒng),下面幾個(gè)要求是最基本的:(1) 語音識(shí)別系統(tǒng)要對(duì)用戶有益(希望它是能檢測(cè)到的)例如提高生產(chǎn)率,容易使用,更好的人機(jī)界面,或更自然的信息交流模式?,F(xiàn)已提出了語音識(shí)別在很多方面的應(yīng)用(但一般不成功),多數(shù)是利用語音識(shí)別的新奇特性來引起用戶注意,從而達(dá)到增加商業(yè)上的銷售額的目的。但是,如果對(duì)用戶沒有實(shí)在的益處的話,語音識(shí)別的這些應(yīng)用是不會(huì)持續(xù)長(zhǎng)久的。(2) 語音識(shí)別系統(tǒng)要對(duì)用戶“友好”。這種“友好”的含義是:用戶在和系統(tǒng)進(jìn)行語音對(duì)話時(shí)感到舒適;系統(tǒng)的語音提示既有幫助,又很親近;當(dāng)識(shí)別系統(tǒng)沒有恰當(dāng)?shù)乩斫馊苏f出的指令時(shí),系統(tǒng)還得提供一種有效地與人交流的方式,例如某種回退模式。對(duì)用戶“友好”這個(gè)概念是我們堅(jiān)持人機(jī)對(duì)話技術(shù)的精髓。(3) 語音識(shí)別系統(tǒng)必須有足夠的精度識(shí)別系統(tǒng)必須(或至少)達(dá)到某種特定的性能要求。有趣的是,由于人在實(shí)際生活中對(duì)識(shí)別系統(tǒng)錯(cuò)誤率的感知能力似乎是非線性的,因此只要識(shí)別系統(tǒng)的精度超過一定水準(zhǔn),絕對(duì)的系統(tǒng)識(shí)別能力便顯得不太重要了。例如,人們?cè)趯?shí)際使用一個(gè)孤立詞識(shí)別系統(tǒng)時(shí),很難區(qū)分系統(tǒng)的識(shí)別精度是95%,還是99%。這是因?yàn)椋绻R(shí)別系統(tǒng)的精度是95%,那么系統(tǒng)識(shí)別語音時(shí),平均20次有一次錯(cuò)誤;如果識(shí)別系統(tǒng)的精度是99%,平均每100次發(fā)生一次錯(cuò)誤。從用戶使用的角度來看,這兩種系統(tǒng)都有很高精度,都很少有錯(cuò)誤。因此即使偶爾有錯(cuò)誤發(fā)生,用戶也會(huì)將其歸咎于自己的使用失誤,而不會(huì)認(rèn)為是識(shí)別系統(tǒng)的問題。但是,當(dāng)系統(tǒng)的精度低于某一個(gè)更低的閾值(例如90%)時(shí),用戶就會(huì)感覺到識(shí)別系統(tǒng)出現(xiàn)了過多的錯(cuò)誤,并會(huì)認(rèn)為它不太可靠。實(shí)際中,單詞錯(cuò)誤的發(fā)生是不相干的,因此在較高精度下,人覺察到系統(tǒng)出現(xiàn)錯(cuò)誤是極少的。(4)語音識(shí)別系統(tǒng)要有實(shí)時(shí)處理能力系統(tǒng)對(duì)用戶詢問的響應(yīng)時(shí)間要很短,一般要在人說話后250毫秒之內(nèi)作出響應(yīng)。這是非常重要的。只有如此,才能保證人和系統(tǒng)之間的對(duì)話持續(xù)進(jìn)行。上面的每一個(gè)要求對(duì)語音識(shí)別系統(tǒng)來說都是很基本的,也是強(qiáng)制性的。只有如此,才能使我們?cè)诶谜Z音識(shí)別系統(tǒng)完成一個(gè)實(shí)際任務(wù)時(shí)取得成功。2.語音識(shí)別錯(cuò)誤的處理如果機(jī)器在語音識(shí)別時(shí)發(fā)生了錯(cuò)誤,一個(gè)很重要的問題是我們要如何處理它,以保證人機(jī)之間信息交流不會(huì)中斷。至少有以下四種方式可以處理這個(gè)問題,其中的任何一種都可以運(yùn)用到各種各樣的特定任務(wù)中。(1)錯(cuò)誤弱化法主要含義是使一個(gè)識(shí)別錯(cuò)誤的“代價(jià)”(根據(jù)這個(gè)識(shí)別錯(cuò)誤是否讓用戶感到厭煩或引起用戶的收益減少來度量)小。如果這個(gè)識(shí)別錯(cuò)誤能被檢測(cè)出來,并能在隨后的人機(jī)交互中得到糾正,那么我們認(rèn)為這個(gè)識(shí)別錯(cuò)誤基本上是可以接受的。如果語音指令被系統(tǒng)誤識(shí)并可能導(dǎo)致下一輪人機(jī)對(duì)話不恰當(dāng),用戶通過輸入正確的模式(拼寫正確指令)就可以退到剛才出現(xiàn)錯(cuò)誤的地方。這種處理僅僅花費(fèi)用戶很少一點(diǎn)時(shí)間,對(duì)用戶幾乎沒什么其它不利影響。(2)錯(cuò)誤自檢糾正法系統(tǒng)利用已知任務(wù)的限制自動(dòng)地檢測(cè)并糾正錯(cuò)誤。如果系統(tǒng)實(shí)現(xiàn)的是從一個(gè)數(shù)量有限的名單中拼出其中一個(gè)名字的任務(wù)的話,系統(tǒng)一般能夠比較容易檢測(cè)到并糾正字母拼寫的識(shí)別錯(cuò)誤。因?yàn)橄到y(tǒng)識(shí)別出的名字只能從給定的名單中選取。在數(shù)字串識(shí)別任務(wù)(例如分類訂貨和庫存控制)中,系統(tǒng)發(fā)生識(shí)別錯(cuò)誤時(shí),可以利用已知的糾錯(cuò)碼(如Reed-Solomon碼)來校正。在編碼糾錯(cuò)能力范圍內(nèi),數(shù)字識(shí)別錯(cuò)誤可被檢測(cè)和糾正。(3)確認(rèn)或多層次判定當(dāng)識(shí)別結(jié)果出現(xiàn)兩個(gè)或多個(gè)與輸入語音指令匹配程度都很高的候選者而又難于對(duì)他們的微小差別進(jìn)行區(qū)分時(shí),系統(tǒng)就很難確定用哪一個(gè)作為假設(shè)正確的識(shí)別結(jié)果。在這種情況下,系統(tǒng)可以讓用戶首先對(duì)識(shí)別的第一候選進(jìn)行確認(rèn);如果第一候選沒有得到用戶的確認(rèn),系統(tǒng)再提示用戶對(duì)識(shí)別的第二候選進(jìn)行確認(rèn),依此類推。另一種可供選擇的模式是,系統(tǒng)將所有使它迷惑的識(shí)別候選者都羅列出來,并給每個(gè)候選結(jié)果一個(gè)標(biāo)記序號(hào),再讓用戶作出正確選擇。這種模式里,系統(tǒng)雖然只是把它不能確定的識(shí)別結(jié)果轉(zhuǎn)換為序號(hào)標(biāo)記提供給用戶進(jìn)行選擇,但我們要知道,經(jīng)過系統(tǒng)識(shí)別以后,不確定度已經(jīng)極大降低了。(4)拒絕/轉(zhuǎn)向人工座席在識(shí)別結(jié)果出現(xiàn)兩個(gè)或多個(gè)與輸入語音指令匹配程度都很高的候選者,或者識(shí)別結(jié)果中的最佳者與輸入語音指令匹配程度都很低而做不出可靠決定的情況下,系統(tǒng)就得推遲對(duì)輸入語音指令作出決定。我們可以把所有輸入到系統(tǒng)的語音指令用數(shù)字格式記錄下來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論