淺析語音識別技術_第1頁
淺析語音識別技術_第2頁
淺析語音識別技術_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、淺析語音識別技術摘要:語音識別最為人機交互的重要技術,成為人工智能領域研究的重點,具 有重要的研究意義跟廣泛的應用前景。本文簡要闡述了語音識別的發(fā)展、原理、 過程。關鍵詞:人工交互;人工智能;語音識別引言:隨著信息技術的發(fā)展,人機交互成為新興課題。智能化研究的語音識別技 術成為人機交互必不可少的話題。人工智能領域的深度學習使語音識別技術更加 精準可靠。語音識別技術不僅可以應用到生活領域而且還可以用到軍事領域,從 而提高人們對信息的處理能力和工作效率1語音識別技術的發(fā)展20世紀50年代,這段時期以實現(xiàn)10個英文數(shù)字的語音識別為代表,這是 計算機語音識別的開端。20世紀60年代,取得了階段性建站,

2、解決了語音信號的提取問題。20世紀70年代,語音識別領域取得突破,實現(xiàn)了基于線性預測倒譜和和 DTW技術的語音識別系統(tǒng)。20世紀80年代,語音識別實驗室階段取得巨大突破,從孤立詞匯到大量詞 匯、非特定人、連續(xù)語音等的改變。同時,語音識別算法開始從模板匹配技術轉 向基于統(tǒng)計模型技術,研究從微觀轉向宏觀,連理最優(yōu)的語音識別系統(tǒng)。20世紀90年代后,人工智能技術開始應用于語音識別技術,人工智能具有 自適應性、魯棒性、學習特性等,在參數(shù)優(yōu)化、系統(tǒng)自適應方面有了很大的進展。 語音識別技術進一步發(fā)展,開始實現(xiàn)語音識別技術的產品化。2語音識別概念及原理2.1語音識別概念語音識別簡單來說就是將聲音信號轉化為文

3、字或者指令的過程。輸入語音 輸出識別結果。語音識別設計技術包括:人工智能、數(shù)字信號處理、概率論和信 息論、聲學、語言學、發(fā)聲機理和聽覺機理、認知科學等學科領域技術。語音識別設計性能指標:詞匯表范圍:這是指機器能識別的單詞或詞組的范圍,如不作任何限制, 則可認為詞匯表范圍是無限的。說話人限制:是僅能識別指定發(fā)話者的語音,還是對任何發(fā)話人的語音 都能識別。訓練要求:使用前要不要訓練,即是否讓機器先“聽一下給定的語音, 以及訓練次數(shù)的多少。正確識別率:平均正確識別的百分數(shù),它與前面三個指標有關。2.2語音識別原理目前,主流的語音識別系統(tǒng)多采用統(tǒng)計模式識別技術。典型的基于統(tǒng)計模 式識別方法的語音識別系

4、統(tǒng)由以下幾個基本模塊所構成信號處理及特征提取模塊。該模塊的主要任務是從輸入信號中提取特征, 供聲學模型處理。同時,它一般也包括了一些信號處理技術,以盡可能降低環(huán)境 噪聲、信道、說話人等因素對特征造成的影響。統(tǒng)計聲學模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模。發(fā) 音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲 學模型建模單元與語言模型建模單元間的映射。語言模型。語言模型對系統(tǒng)所針對的語言進行建模。理論上,包括正則 語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系 統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。解碼器。解碼器是語音識別系統(tǒng)的核心之

5、一,其任務是對輸入的信號, 根據(jù)聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。3深度學習應用于語音識別3.1語音識別流程3.1.1語音信號采集語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。話 筒將聲波轉換為電壓信號,然后通過A/D裝置(如聲卡)進行采樣,從而將連續(xù) 的電壓信號轉換為計算機能夠處理的數(shù)字信號。3.1.2語音信號預處理語音信號號在采集后首先要進行濾波、A/D變換,預加重(Preemphasis)和 端點檢測等預處理,然后才能進入識別、合成、增強等實際應用。3.1.3語音信號的特征參數(shù)提取在語音識別中,常用線性預測編碼技術抽取語音特征。線性預測編碼的基本思

6、想是:語音信號采樣點之間存在相關性,可用過去的 若干采樣點的線性組合預測當前和將來的采樣點值。線性琪測系數(shù)埽以通過使預 測信號和實際信號之間的均方誤差最小來唯一確定。語音線性預測系數(shù)作為語音信號的一種特征參數(shù),已經廣泛應用于語音處 理各個領域。3.1.4向置量化向量量化(VectorQuantization,VQ)技術是一種數(shù)據(jù)壓縮和編碼技術。經過向 量量化的特征向量也可以作為后面隱馬爾可夫模型中的輸入觀察符號。向量量化的基本原理是將若十個標量數(shù)據(jù)組成一個向量(或者是從一幀語 音數(shù)據(jù)中提取的特征向量)在多維空間給予整體量化,從而可以在信息量損失較 小的情況下壓縮數(shù)據(jù)量。3.1.5語音識別當提取

7、聲音特征集合以后,就可以識別這些特征所代表的單詞。識別系統(tǒng) 的輸入是從語音信號中提取出的特征參數(shù),如LPC預測編碼參數(shù),當然,單詞對 應于字母序列。語音識別所采用的方法一般有模板匹配法、隨機模型法和概率語 法分析法三種。這三種方法都是建立在最大似然決策貝葉斯(Bayes)判決的基礎 上的。(1)模板(template)匹配法在訓練階段,用戶將詞匯表中的每一個詞依次說一遍,并且將其特征向量 作為模板存入模板庫。在識別階段,將輸入語音的特征向量序列,依次與模板庫 中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。(2)隨機模型法隨機模型法是目前語音識別研究的主流。其突出的代表是隱馬爾可夫模型。 隱馬爾可夫模型則用概率統(tǒng)計的方法來描述這樣一種時變的過程。概率語法分析法這種方法是用于大長度范圍的連續(xù)語音識別。將區(qū)別性特征與來自構詞、 句法、語義等語用約束相互結合,就可以構成一個自底向上或自頂向下的交 互作用的知識系統(tǒng),不同層次的知識可以用若干規(guī)則來描述。4結束語隨著信息技術的發(fā)展和人們生活水平的提高,語音識別技術已經成為趨勢。 伴隨著計算機軟硬件的發(fā)展,語音識別技術將會有著質的飛躍。參考文獻程建軍.關于深度學習的語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論