語音識別簡介_第1頁
語音識別簡介_第2頁
語音識別簡介_第3頁
語音識別簡介_第4頁
語音識別簡介_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語音識別索引TOC\o"1-5"\h\z\o"CurrentDocument"語音識別的發(fā)展簡史 1\o"CurrentDocument"語音識別的發(fā)展趨勢 2\o"CurrentDocument"語音識別的系統(tǒng)類型 4\o"CurrentDocument"語音識別的基元選擇 4\o"CurrentDocument"5. 特征參數(shù)提取 5語音識別系統(tǒng)性能評分標(biāo)準(zhǔn) 5\o"CurrentDocument"語音識別應(yīng)用分類 6\o"CurrentDocument"語音識別應(yīng)用的特點 6\o"CurrentDocument"面向具體任務(wù)的語音識別 8語音識別的發(fā)展簡史語音識別研究從二十世紀(jì)50年代開始到現(xiàn)在已經(jīng)歷半個多世紀(jì)的蓬勃發(fā)展,在這期間獲得了巨大的進展。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線索進行簡要回顧。50年代,研究人員大都致力于探索聲學(xué)一語音學(xué)的基本概念。1952年AT&TBell實驗室實現(xiàn)了一個單一發(fā)音人孤立發(fā)音的十個英文數(shù)字的語音識別系統(tǒng),方法主要是度量每個數(shù)字的元音音段的共振峰。1956年,RCALab開展的一項獨立研究也是試圖識別單一發(fā)音人的10不同的音節(jié),同樣采用了度量共振峰的方法。1959年,英國UniversityCollege的研究人員嘗試用譜分析和模板匹配方法構(gòu)建了一種音素識別器,用以識別4個元音和9個輔音。而MIT林肯實驗室的研究人員則是構(gòu)建一種非特定人的元音識別器,用于識別嵌在/b/-vowel+/t/語境中的10個元音。60年代,相繼出現(xiàn)并發(fā)表了語音識別的幾個重要的思想。但是,伴隨著這個年代的開始卻是幾個日本的實驗室進入語音識別領(lǐng)域,并構(gòu)建一些專用的硬件用于語音識別系統(tǒng)。東京RadioResearchLab首先構(gòu)建了一個用硬件實現(xiàn)的元音識別器。語音信號經(jīng)過精心制作的帶通濾波器進行譜分析和通道輸出譜加權(quán)處理后,用多數(shù)邏輯決策電路選擇輸入語音中元音的識別結(jié)果。1962年,東京大學(xué)進行了另一個音素識別器的硬件實現(xiàn)的嘗試。它使用過零率方法分離語音信號的不同部分,并進行識別。1963年,日本NECLab對數(shù)字進行語音識別的嘗試可以算得上最值得注意的工作,因為它不僅是NEC研究語音識別的開端,還導(dǎo)致一個長期的和卓有成效的研究計劃。在60年代中,三個研究項目的開展對其后20多年的語音識別研究和開發(fā)產(chǎn)生了重大影響。第一個研究項目在RCALab開始于60年代后期,目的是研究語音事件在時間刻度上不均勻性的現(xiàn)實解決辦法。在能夠可靠檢測出語音事件的始末點的基礎(chǔ)上,發(fā)展了一套時間歸正的基本方法,顯著降低了識別匹配評分的變化程度。幾乎與此同時,前蘇維埃的研究人員Vintsyuk提出使用動態(tài)規(guī)劃來對齊兩個不同長度的語音音段。盡管動態(tài)時間彎折(DTW)概念的實質(zhì)和用于連接詞識別的算法雛形已經(jīng)包含在Vintsyuk的工作中,但直到80年代才在西方廣為人知,并發(fā)揚光大。60年代的最后一項成就是研究人員Reddy用動態(tài)跟蹤音素的方法進行連續(xù)語音識別的開創(chuàng)性工作Reddy的這項工作最終在CMU(他在60年后期加入CMU)培育出長期進行的并獲極大成功的語音識別研究計劃,在連續(xù)語音識別系統(tǒng)的研究方面至今仍然保持世界領(lǐng)先的水平。70年代,語音識別研究取得了一系列具有里程碑意義的成就。首先,在模式識別思想、動態(tài)規(guī)劃方法、線性預(yù)測思想等基礎(chǔ)研究的成功應(yīng)用的支撐下,孤立詞發(fā)音和孤立語句發(fā)音的識別成為了可行的有用技術(shù)。70年代的另一個里程碑是在IBM開始了一個長期持續(xù)的、卓有成效的大詞匯量連續(xù)語音識別研究的集體努力。他們在20多年中研究了三項不同的工作,其中之一就是簡單備忘錄的聽寫系統(tǒng)Tangorn。在這期間,AT&TBellLab開展了一系列目的在于建立真正的非特定人語音識別系統(tǒng)的實驗。研究提出了范圍廣泛的一類復(fù)雜的聚類算法,用于確定能夠表示大量人群的不同詞語的所有聲學(xué)變化的不同模式的數(shù)量。這些研究經(jīng)過10多年的精煉后,成為構(gòu)建非特定人的模式聚類技術(shù),現(xiàn)在已經(jīng)得到充分理解并廣泛應(yīng)用。繼孤立詞語識別成為70年代研究的主要焦點之后,連接詞語識別的問題則是80年代研究的焦點。其目標(biāo)是創(chuàng)建基于用由單個詞的模式串接在一起進行匹配,并能識別由詞匯串接組成的流暢話語的可靠系統(tǒng)。形式化并實現(xiàn)了大量連接詞語音識別的算法,例如兩層動態(tài)規(guī)劃方法,一遍法,層建法,幀同步層建法。這些“優(yōu)化”匹配處理的每一種方法都有它自己的實現(xiàn)優(yōu)點,并對相當(dāng)多的任務(wù)進行過探索研究。語音識別研究在80年代的最大特點是從基于模板的方法向統(tǒng)計模型方法的轉(zhuǎn)變,特別是轉(zhuǎn)向研究隱馬爾柯夫模型HMM的理論、方法和實現(xiàn)問題。雖然個別實驗室(主要是IBM,InstituteforDefenseAnalysis,DragonSystems)對HMM的方法論早已非常熟知和充分理解,但直到80年代中期在HMM的理論和方法廣泛發(fā)表以后,才使原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認識,并被世界上幾乎每一個從事語音識別的實驗室所采用。貫穿整個80年代,大詞匯量連續(xù)語音識別系統(tǒng)研究受到了DARPA的有力推動。DARPA發(fā)起有關(guān)語音識別的巨大研究計劃的目的是,對于1000條詞匯的數(shù)據(jù)庫管理任務(wù)的連續(xù)語音達到高的詞匯識別精度。這方面的主要研究貢獻產(chǎn)生于CMU,BBN,LincolnLabs,SRI,MIT,AT&TBellLab.90年代,語音識別研究的重點轉(zhuǎn)向自然語言的識別處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。同時,語音識別技術(shù)不斷應(yīng)用于電話網(wǎng)絡(luò),增強話務(wù)員服務(wù)和自動化。2000年以來,人機語音交互成為研究的焦點。研究重點包括即興口語的識別和理解,自然口語對話,以及多語種的語音同聲翻譯。中國的語音識別研究工作最早開始于中科院聲學(xué)所。50年代后期,中科院聲學(xué)所用頻譜分析的方法研究了漢語10個元音的語音識別,到70年代后期,構(gòu)建了基于模板匹配的孤立詞語音識別系統(tǒng)。在80年代后期,主持研究了八五期間中科院人機語音對話研究項目。在此期間國內(nèi)大專院校和研究所相繼開始了語音識別研究。聲學(xué)所、自動化所、北大、清華等研究機構(gòu)在中國的語音識別研究的方向和內(nèi)容等方面起了積極的催化和引導(dǎo)作用。繼“863”計劃期間,漢語大詞匯量語音識別—聽寫機技術(shù)成為研究的重點之后,漢語自然口語對話和語音翻譯在“973”計劃期間成為新的研究焦點。語音識別的發(fā)展趨勢語音識別技術(shù)經(jīng)過全球半個多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實用的階段。在實驗室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號的平均識別率可以達到90%以上。在這樣的水平基礎(chǔ)上,語音識別技術(shù)開始嘗試從實驗室演示系統(tǒng)走向?qū)嵱没唐?。以IBMViaVoice和DragonDictation為代表的幾個聽寫機系統(tǒng)的出現(xiàn)使“語音識別”一時聲名遠揚,引起了社會的廣泛關(guān)注。一些人認為這些系統(tǒng)基本可以使用,但由于校對和更正識別的錯誤還很麻煩和浪費時間,降低了語音識別的便捷優(yōu)勢。也有人因為聽寫的正確識別率受到識別的內(nèi)容,使用的環(huán)境或講話習(xí)慣口音等因素的影響大大降低,認為目前的語音識別系統(tǒng)還無法滿足實用要求。AT&T和MIT等將語音識別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動轉(zhuǎn)接、電話查詢、數(shù)字串識別。在這些識別任務(wù)中,當(dāng)講話的內(nèi)容是系統(tǒng)所期待的,使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時,語音識別的正確識別率可以相當(dāng)接近100%。不過在實際應(yīng)用中當(dāng)這些前提條件被破壞時,對可用性也會產(chǎn)生一定的影響。人們還試圖在手持設(shè)備上應(yīng)用語音識別技術(shù),目前這種應(yīng)用主要受到計算平臺的性能和價格的制約。換言之,語音識別技術(shù)要進入成熟的商業(yè)運用還有一段艱難的路程,還必須在很多方面取得突破性進展。提高可靠性。一方面,語音識別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在公共場合,人能夠有意識地摒棄環(huán)境噪聲并從中獲取自己所需要的特定聲音,但幾乎不可能指望計算機能聽懂你的話。來自四面八方的環(huán)境噪聲和背景話音,讓它茫然而不知所措,極大地限制了語音識別技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗噪(NoiseCancellation)麥克風(fēng)才能進行,這對多數(shù)用戶來說是不現(xiàn)實的。另一方面,在日常生活中人們說話有較大的隨意性(Spontaneous),常常不經(jīng)過特殊準(zhǔn)備,并帶有明顯的言語習(xí)慣,例如,說話時帶有地方口音、重復(fù)、更正、插入、猶豫、停頓、咳嗽、咂嘴、不受語法限制等。相對于在講話方式和講話內(nèi)容都經(jīng)過特殊準(zhǔn)備的符合語法規(guī)則的流暢的標(biāo)準(zhǔn)“朗讀式語音”而言的,這種自然口語語音的識別要困難得多。提高可靠性的目的是當(dāng)使用環(huán)境的聲學(xué)特性與訓(xùn)練語音的收集環(huán)境的聲學(xué)特性不一致或用戶的言語方式與訓(xùn)練語音的言語方式不一致時,語音識別系統(tǒng)性能的下降不會太大。增加詞匯量。系統(tǒng)可以識別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個重要度量。如果語音識別系統(tǒng)使用的聲學(xué)模型和語音模型太過于局限,當(dāng)用戶所講的詞匯超出系統(tǒng)已知的范圍,或突然從中文轉(zhuǎn)為英文、法文、俄文,計算機就會常常輸出混亂奇怪的結(jié)果。隨著系統(tǒng)建模方法的改進、搜索算法效率的提高和硬件資源的發(fā)展,將來的語音識別系統(tǒng)可能會做到詞匯量無限制和多種語言混合,用戶在使用時可以不必在語種之間來回切換,不受或少受詞匯量的限制。應(yīng)用拓展。語音識別是一種賦能技術(shù),現(xiàn)有的很多人機交互界面都可能通過補充語音識別功能而得到改善,還可以塑造或創(chuàng)造一批新的機器和新的信息服務(wù)行業(yè)進入人的生活。語音識別技術(shù)可以用于把費腦、費力、費時的機器操作變成一件很容易很有趣味性的事,在許多“手忙”、“手不能用”、“手所不能及”,“懶得動手”的場景中,包括象駕駛室、一些危險的工業(yè)場合、遠距離自動信息獲取、家電控制等方面,語音識別技術(shù)可能帶動一系列嶄新或更便捷功能的設(shè)備出現(xiàn),更加方便人的工作和生活。由于知識層次和知識領(lǐng)域的差異,現(xiàn)實生活中有相當(dāng)一部分人很難得到現(xiàn)代化生活可能給帶來的便利,包括信息服務(wù)和其他各類先進設(shè)備可提供的幫助。語音識別技術(shù)有助于改善這種情況,使社會各個階層更多的人享受到更多的社會信息資源和現(xiàn)代化服務(wù),提高整個社會的信息化程度和現(xiàn)代化程度。計算機通信技術(shù)的發(fā)展,使互聯(lián)網(wǎng)在信息聚集和傳播方面成為很先進社會基礎(chǔ)設(shè)施,但由于使用手段的限制,還有相當(dāng)多的人或在相當(dāng)多的場合還無法廣泛普及使用。有線固定電話和無線移動電話網(wǎng)絡(luò)的應(yīng)用雖然已經(jīng)廣泛普及到幾乎社會所有階層,但電話網(wǎng)絡(luò)現(xiàn)在的最主要的功能還是話音通信。如果將兩者結(jié)合,用電話網(wǎng)絡(luò)作為互聯(lián)網(wǎng)的語音入口,用語音識別作為人與網(wǎng)上信息交互的便捷工具,則可以在相當(dāng)大的范圍,使人們享受到更多的社會信息資源和現(xiàn)代化服務(wù),促進社會的進步。例如,用電話與信息代理機器交談,隨時得到天氣、娛樂、旅行、學(xué)習(xí)的日常生活信息,了解政府的各種政策法規(guī)等等。將語音識別與語言理解、文字翻譯、語音合成進行系統(tǒng)創(chuàng)新集成的語音同聲翻譯技術(shù),可以用于突破不同語種的人說話交流的語言壁壘。降低成本減小體積。降低成本是任何技術(shù)商業(yè)化的重要前提,一般的途徑是通過規(guī)模生產(chǎn)來攤薄成本。目前降低語音識別技術(shù)成本的主要困難在于這項技術(shù)仍然處在逐步改進的過程中,對于多數(shù)要求較高的功能和性能的應(yīng)用,往往都帶有量身定制的特點,規(guī)模生產(chǎn)定型產(chǎn)品的條件尚不成熟。只有在功能和性能非常有限的語音識別應(yīng)用方面,可以規(guī)模生產(chǎn)一些低成本產(chǎn)品,但這些產(chǎn)品的應(yīng)用常常又受到功能和性能瓶頸的限制。微型化是語音識別技術(shù)商業(yè)應(yīng)用的另一個重要途徑,這取決于語音識別技術(shù)本身進步的程度,也和微電子芯片技術(shù)的進一步發(fā)展關(guān)系密切。將具有先進功能和性能的語音識別應(yīng)用系統(tǒng)固化到更加微小的芯片或模塊上,大幅度降低產(chǎn)品成本,是語音識別技術(shù)真正進入大規(guī)模應(yīng)用的重要條件。21世紀(jì)是信息和網(wǎng)絡(luò)的時代,Internet、寬帶IP網(wǎng)、公用電話網(wǎng)、移動電話網(wǎng)把全球各地連接起來,巨大的信息資源能夠通過網(wǎng)絡(luò)在短暫時間內(nèi)迅速擴散到全球范圍,幾乎所有人與機器進行信息交互相關(guān)的需求和服務(wù),例如自然口語對話、信息索取、電子商務(wù)、數(shù)字圖書館、遠程教育、語音翻譯等,都可能會在網(wǎng)絡(luò)上實現(xiàn)語音識別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢是,讓人在任何地方,任何時間,對任何事都能夠通過語音交互的方式,更加方便地享受到更多的社會信息資源和現(xiàn)代化服務(wù)。人類將越來越多地體驗到語音識別技術(shù)可能的便捷優(yōu)點。語音識別的系統(tǒng)類型語音識別技術(shù)常常根據(jù)各種使用限制建構(gòu)成為不同類型的系統(tǒng)。限制用戶的說話方式按照語音識別系統(tǒng)對用戶說話方式的限制,可以分為孤立詞語音識別系統(tǒng)、連續(xù)語音識別系統(tǒng)、即興口語語音識別系統(tǒng)。孤立詞語音識別系統(tǒng)(isolate-wordspeechrecognitionsystem)是指用戶在對系統(tǒng)說話時,相鄰的詞匯之間的發(fā)音要有明顯停頓,在這種發(fā)音方式下,詞匯之間語音信號的聲學(xué)特征基本不受下文的影響,詞匯在語音信號中的起始點和結(jié)束點的檢測比較容易,系統(tǒng)實現(xiàn)難度較低。連接詞語音識別(connected-wordsspeechrecognition)是指中小規(guī)模詞匯但用詞匯本身作為識別基本單元的連續(xù)語音識別系統(tǒng)。連續(xù)語音識別系統(tǒng)(continuespeechrecognitionsystem)是指中大規(guī)模詞匯但用子詞作為識別基本單元的連續(xù)語音識別系統(tǒng)。連接詞語音識別系統(tǒng)和連續(xù)語音識別系統(tǒng)的共同點是,人在說話時,音流中相鄰的詞匯之間的發(fā)音沒有停頓,詞匯之間語音信號的聲學(xué)特征、語調(diào)和韻律都受到強烈的下文影響,詞匯在語音信號中的起始點和結(jié)束點的檢測非常困難,系統(tǒng)實現(xiàn)難度較大。即興口語語音識別系統(tǒng)(spontaneousspeechrecognitionsystem)是指用戶使用隨意的、至少沒有在講話方式上經(jīng)過特殊準(zhǔn)備的語言與系統(tǒng)對話?!凹磁d口語語音”是相對“朗讀式語音”而言的,朗讀式語音指符合語法規(guī)則的、流暢的,在講話方式和講話內(nèi)容都經(jīng)過特殊準(zhǔn)備的語言,這種語音是以往大多數(shù)連續(xù)語音識別系統(tǒng)所假設(shè)的用戶輸入方式。即興口語語音同連續(xù)朗讀式語音相比有許多不同的特性,它通常是不流暢的,包含許多隨機事件,如語音重入、語音更正、語音插入、猶豫、停頓、咳嗽、咂嘴聲等,這些特性使得自然口語語音的識別要比朗讀式語音識別困難得多。限制用戶的用詞范圍根據(jù)系統(tǒng)所擁有的詞匯量大小,可以分為:小詞匯量、中等詞匯量(電話撥號、命令控制);大詞匯量以及無限詞匯量語音識別系統(tǒng)(聽說場合)小詞匯量、中等詞匯量的識別系統(tǒng)主要用于語音控制系統(tǒng),例如電話撥號,命令控制等。大詞匯量以及無限詞匯量語音識別系統(tǒng)可以用在更一般化的場合,如聽寫等。限制系統(tǒng)的用戶對象根據(jù)系統(tǒng)對用戶的依賴程度可以分為特定人和非特定人語音識別系統(tǒng)。特定人系統(tǒng)可以是個人專用系統(tǒng)或特定群體系統(tǒng),如特定性別、特定年齡、特定口音等。語音識別的基元選擇語音識別的基元的主要任務(wù)是在不考慮說話人試圖傳達的信息內(nèi)容的情況下,將聲學(xué)信號表示為若干個具有區(qū)別性的離散符號??梢猿洚?dāng)語音識別基元的單位可以是詞句、音節(jié)、音素或更小的單位,具體選擇什么樣的基元,經(jīng)常受識別任務(wù)的具體要求和設(shè)計者的知識背景影響。一般來說,詞句基元廣泛應(yīng)用于中小詞匯量語音識別系統(tǒng),但不適合大詞匯量系統(tǒng),原因在于詞句做基元時,大詞匯量系統(tǒng)的模型庫太龐大,要求龐大的訓(xùn)練數(shù)據(jù),識別匹配計算復(fù)雜度高,難以滿足實時性要求。音節(jié)基元在其它語種,例如英語中也有應(yīng)用,但多見于漢語語音識別,主要因為漢語是單音節(jié)結(jié)構(gòu)的語言,音節(jié)數(shù)目比較有限,大約1300個帶調(diào)音節(jié),但若不考慮聲調(diào),約有408個無調(diào)音節(jié)。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。音素基元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個)和韻母(共有28個)構(gòu)成,且聲韻母聲學(xué)特性相差很大。實際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。關(guān)于基元顆粒度的確定,主要需要權(quán)衡基元的數(shù)目和基元聲學(xué)特性的穩(wěn)定性?;念w粒度大,基元聲學(xué)穩(wěn)定性高,但需要的數(shù)據(jù)量大,匹配的計算復(fù)雜度也大。相反,顆粒度小,計算復(fù)雜度和訓(xùn)練數(shù)據(jù)量要求相對較小,但基元聲學(xué)穩(wěn)定性受協(xié)同發(fā)音的影響很大,不利于提高識別性能。選取顆粒度合適的基元,也是有待深入研究的課題(基元顆粒度越小,計算度底當(dāng)不穩(wěn)定,識別準(zhǔn)確率低)特征參數(shù)提取特征參數(shù)提取的目的是對語音信號進行分析處理,從而突出所載荷的語言聲音信息的特征,盡可能抑制與語言聲音信息無關(guān)的特征,同時壓縮特征的數(shù)據(jù)量。語音識別系統(tǒng)主要提取以短時譜為基礎(chǔ)的各種表征,最為成功的典型特征包括:線性預(yù)測倒譜系數(shù)LPCEPSTRA和美倒譜系數(shù)MFCC。LP譜:表示的技術(shù)基礎(chǔ)是語音信號產(chǎn)生的聲源—濾波器理論。在這種理論框架下,語言聲音信息主要由聲道濾波器的傳輸函數(shù)來載荷,并且可以通過線性預(yù)測的方法從語音信號本身獲取聲道濾波器的傳輸函數(shù)。美譜:表示的核心思想是把人的聽覺系統(tǒng)對頻率感知的非線性特征用于語音識別特征中。具體地說,在1千赫茲以下的低頻段,人耳對頻率感知是線性的;在1千赫茲以上頻段,人耳對頻率感知呈現(xiàn)對數(shù)非線性的。LP譜或美譜經(jīng)過倒譜變換成為倒譜系數(shù),使得倒譜系數(shù)之間的相關(guān)性進一步降低。這樣提取的倒譜系數(shù)在HMM模型中可以使協(xié)方差矩陣簡化為對角矩陣,從而減小計算代價。語音識別系統(tǒng)性能評分標(biāo)準(zhǔn)為了確定哪些任務(wù)能用語音識別系統(tǒng)來完成,了解針對語音識別系統(tǒng)的實驗室評分標(biāo)準(zhǔn)是值得的。表5-1給出了很大一類語音識別系統(tǒng)的性能評分,它們都是在實驗室環(huán)境中(如高質(zhì)量麥克風(fēng)、低環(huán)境噪聲)得到的表中分別針對多種識別方式,例如,特定技術(shù)、特定任務(wù),特定任務(wù)語法、特定模式、特定詞匯表,給出了語音識別系統(tǒng)的單詞錯誤率性能(用“%”表示)。表5-1語音識別系統(tǒng)的性能評分技術(shù)任務(wù)句法模式詞庫單詞錯誤率(%)孤立詞//話者相關(guān)SD10個數(shù)字0話者無關(guān)SI39個字母4.51109個基本英語詞4.310個數(shù)字0.139個字母7.0129個航班詞2.9連接詞數(shù)字串長度已知話者相關(guān)SD10個數(shù)字0.1航班訂票數(shù)字串話者無關(guān)SI11個數(shù)字0.2有限狀態(tài)網(wǎng)絡(luò)話者相關(guān)SD129航班詞0.1(困惑度=4)流暢語音海洋資源管理有限狀態(tài)網(wǎng)絡(luò)話者無關(guān)SI991個詞4.5(困惑度=60)從表中可以看出,對于適合用孤立詞識別的任務(wù),在不考慮任務(wù)內(nèi)容和語法限制的情況下,特定說話人(SD)識別方式的單詞錯誤率小于5%;而針對非特定人識別方式(SI)和較寬范圍的識別詞匯表,單詞錯誤率在7%以下。這些應(yīng)用的單詞錯誤率相當(dāng)?shù)?。如果能夠較好地確定識別任務(wù),并引入恰當(dāng)?shù)娜蝿?wù)語法(它們會對識別出的孤立詞序列進行額外的限制),識別性能將進一步提高。我們即將在后面看到幾個例子。在適用連接詞識別方式的任務(wù)里,例如連接數(shù)字串,如果已經(jīng)知道數(shù)字串的長度,SD和SI兩種識別方式的單詞錯誤率都在0.1%-0.2%。這樣高的識別精度,使得個人身份證號碼、電話號碼、信用卡號碼和分類代碼的識別成為可行,如果能夠在語音識別的這些應(yīng)用中再考慮相應(yīng)的語法,識別結(jié)果會更加可靠。最后一個例子是海洋資源管理任務(wù)。這個任務(wù)以連續(xù)語音識別的方式工作,系統(tǒng)詞匯表有991個單詞,識別的困惑度(表示單詞的平均分支因子)是60。在非特定人的工作模式下,單詞錯誤率是4%,句子的錯誤率是20%。因此在實際運用中,這個任務(wù)利用語音識別來做是不合適的。表5-1中所有性能評分都是在實驗室條件下得到的。而在實際應(yīng)用中,由于說話人的口音、環(huán)境有噪聲、說話人言語習(xí)慣(包括猶豫、加了“啊”、“嗯”,以及其它變化)等因素的影響,單詞錯誤率會增加2-5倍。幸運的是,基于特定任務(wù)的一些限制又會使單詞錯誤率減少了2-10倍。因而,表5-1中所引用的單詞錯誤率經(jīng)常符合識別系統(tǒng)在實際環(huán)境中工作時測試到的性能值。語音識別應(yīng)用分類語音識別可以應(yīng)用的領(lǐng)域大致分為大五類:1) 辦公室或商務(wù)系統(tǒng)典型的應(yīng)用包括:填寫數(shù)據(jù)表格、數(shù)據(jù)庫管理和控制、鍵盤功能增強等等。2) 制造業(yè)在質(zhì)量控制中,語音識別系統(tǒng)可以為制造過程提供一種“不用手”、“不用眼”的檢控(部件檢查)。3) 電信相當(dāng)廣泛的一類應(yīng)用在撥號電話系統(tǒng)上都是可行的,包括話務(wù)員協(xié)助服務(wù)的自動化、國際國內(nèi)遠程電子商務(wù)、語音呼叫分配、語音撥號、分類訂貨。4) 醫(yī)療這方面的主要應(yīng)用是由聲音來生成和編輯專業(yè)的醫(yī)療報告。5) 其它包括由語音控制和操作的游戲和玩具、幫助殘疾人的語音識別系統(tǒng)、車輛行駛中一些非關(guān)鍵功能的語音控制,如車載交通路況控制系統(tǒng)、音響系統(tǒng)。語音識別應(yīng)用的特點如果要在所提出的任務(wù)中使用語音識別系統(tǒng),下面幾個要求是最基本的:(1) 語音識別系統(tǒng)要對用戶有益(希望它是能檢測到的)例如提高生產(chǎn)率,容易使用,更好的人機界面,或更自然的信息交流模式?,F(xiàn)已提出了語音識別在很多方面的應(yīng)用(但一般不成功),多數(shù)是利用語音識別的新奇特性來引起用戶注意,從而達到增加商業(yè)上的銷售額的目的。但是,如果對用戶沒有實在的益處的話,語音識別的這些應(yīng)用是不會持續(xù)長久的。(2) 語音識別系統(tǒng)要對用戶“友好”。這種“友好”的含義是:用戶在和系統(tǒng)進行語音對話時感到舒適;系統(tǒng)的語音提示既有幫助,又很親近;當(dāng)識別系統(tǒng)沒有恰當(dāng)?shù)乩斫馊苏f出的指令時,系統(tǒng)還得提供一種有效地與人交流的方式,例如某種回退模式。對用戶“友好”這個概念是我們堅持人機對話技術(shù)的精髓。(3) 語音識別系統(tǒng)必須有足夠的精度識別系統(tǒng)必須(或至少)達到某種特定的性能要求。有趣的是,由于人在實際生活中對識別系統(tǒng)錯誤率的感知能力似乎是非線性的,因此只要識別系統(tǒng)的精度超過一定水準(zhǔn),絕對的系統(tǒng)識別能力便顯得不太重要了。例如,人們在實際使用一個孤立詞識別系統(tǒng)時,很難區(qū)分系統(tǒng)的識別精度是95%,還是99%。這是因為,如果識別系統(tǒng)的精度是95%,那么系統(tǒng)識別語音時,平均20次有一次錯誤;如果識別系統(tǒng)的精度是99%,平均每100次發(fā)生一次錯誤。從用戶使用的角度來看,這兩種系統(tǒng)都有很高精度,都很少有錯誤。因此即使偶爾有錯誤發(fā)生,用戶也會將其歸咎于自己的使用失誤,而不會認為是識別系統(tǒng)的問題。但是,當(dāng)系統(tǒng)的精度低于某一個更低的閾值(例如90%)時,用戶就會感覺到識別系統(tǒng)出現(xiàn)了過多的錯誤,并會認為它不太可靠。實際中,單詞錯誤的發(fā)生是不相干的,因此在較高精度下,人覺察到系統(tǒng)出現(xiàn)錯誤是極少的。(4)語音識別系統(tǒng)要有實時處理能力系統(tǒng)對用戶詢問的響應(yīng)時間要很短,一般要在人說話后250毫秒之內(nèi)作出響應(yīng)。這是非常重要的。只有如此,才能保證人和系統(tǒng)之間的對話持續(xù)進行。上面的每一個要求對語音識別系統(tǒng)來說都是很基本的,也是強制性的。只有如此,才能使我們在利用語音識別系統(tǒng)完成一個實際任務(wù)時取得成功。2.語音識別錯誤的處理如果機器在語音識別時發(fā)生了錯誤,一個很重要的問題是我們要如何處理它,以保證人機之間信息交流不會中斷。至少有以下四種方式可以處理這個問題,其中的任何一種都可以運用到各種各樣的特定任務(wù)中。(1)錯誤弱化法主要含義是使一個識別錯誤的“代價”(根據(jù)這個識別錯誤是否讓用戶感到厭煩或引起用戶的收益減少來度量)小。如果這個識別錯誤能被檢測出來,并能在隨后的人機交互中得到糾正,那么我們認為這個識別錯誤基本上是可以接受的。如果語音指令被系統(tǒng)誤識并可能導(dǎo)致下一輪人機對話不恰當(dāng),用戶通過輸入正確的模式(拼寫正確指令)就可以退到剛才出現(xiàn)錯誤的地方。這種處理僅僅花費用戶很少一點時間,對用戶幾乎沒什么其它不利影響。(2)錯誤自檢糾正法系統(tǒng)利用已知任務(wù)的限制自動地檢測并糾正錯誤。如果系統(tǒng)實現(xiàn)的是從一個數(shù)量有限的名單中拼出其中一個名字的任務(wù)的話,系統(tǒng)一般能夠比較容易檢測到并糾正字母拼寫的識別錯誤。因為系統(tǒng)識別出的名字只能從給定的名單中選取。在數(shù)字串識別任務(wù)(例如分類訂貨和庫存控制)中,系統(tǒng)發(fā)生識別錯誤時,可以利用已知的糾錯碼(如Reed-Solomon碼)來校正。在編碼糾錯能力范圍內(nèi),數(shù)字識別錯誤可被檢測和糾正。(3)確認或多層次判定當(dāng)識別結(jié)果出現(xiàn)兩個或多個與輸入語音指令匹配程度都很高的候選者而又難于對他們的微小差別進行區(qū)分時,系統(tǒng)就很難確定用哪一個作為假設(shè)正確的識別結(jié)果。在這種情況下,系統(tǒng)可以讓用戶首先對識別的第一候選進行確認;如果第一候選沒有得到用戶的確認,系統(tǒng)再提示用戶對識別的第二候選進行確認,依此類推。另一種可供選擇的模式是,系統(tǒng)將所有使它迷惑的識別候選者都羅列出來,并給每個候選結(jié)果一個標(biāo)記序號,再讓用戶作出正確選擇。這種模式里,系統(tǒng)雖然只是把它不能確定的識別結(jié)果轉(zhuǎn)換為序號標(biāo)記提供給用戶進行選擇,但我們要知道,經(jīng)過系統(tǒng)識別以后,不確定度已經(jīng)極大降低了。(4)拒絕/轉(zhuǎn)向人工座席在識別結(jié)果出現(xiàn)兩個或多個與輸入語音指令匹配程度都很高的候選者,或者識別結(jié)果中的最佳者與輸入語音指令匹配程度都很低而做不出可靠決定的情況下,系統(tǒng)就得推遲對輸入語音指令作出決定。我們可以把所有輸入到系統(tǒng)的語音指令用數(shù)字格式記錄下來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論