




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)語(yǔ)理程
數(shù)字語(yǔ)音處理課程論文指導(dǎo)老:班級(jí):姓名:學(xué)號(hào):
語(yǔ)音識(shí)別語(yǔ)音識(shí)技術(shù)涉及到幾個(gè)領(lǐng),其中有:號(hào)處理模式識(shí)別、率論和信息論發(fā)聲機(jī)理和覺機(jī)理人工智能等聲學(xué)特聲學(xué)特的提取與選是語(yǔ)音別的一個(gè)重環(huán)節(jié)。學(xué)特征的提既是一個(gè)信息幅度壓縮的程,也一個(gè)信號(hào)解過(guò)程,的是使模式分器能好地劃。由于語(yǔ)信號(hào)的時(shí)變性,特提取必須在小段語(yǔ)信號(hào)上進(jìn)行也即進(jìn)行短時(shí)析。這一段認(rèn)為是穩(wěn)的分析區(qū)稱之為,幀與幀之的偏移常取幀的或1/3。通常要信號(hào)進(jìn)預(yù)加重以提高頻,信號(hào)加窗以免短時(shí)音段邊緣的響。下面介常用的一些學(xué)特征線性預(yù)系數(shù)LPC:線性測(cè)分析人的發(fā)聲機(jī)入手,過(guò)對(duì)聲道的管級(jí)聯(lián)模的研究,認(rèn)系統(tǒng)的遞函數(shù)符合極點(diǎn)數(shù)濾波器的形,從而n時(shí)刻的號(hào)可以用前干時(shí)刻信號(hào)的線性合來(lái)估。通過(guò)使實(shí)語(yǔ)音的樣值和性預(yù)測(cè)采樣之間達(dá)均方差最小LMS即得到線預(yù)測(cè)系數(shù)LPC對(duì)的計(jì)算法有相關(guān)法德賓法)、協(xié)方差法格型法等。計(jì)算上快速有效保了這一學(xué)特征的廣使用。LPC種預(yù)測(cè)數(shù)模型類似的學(xué)特征還有譜對(duì)、反射系等等。倒譜系CEP利用同處理方法,語(yǔ)音信號(hào)求散傅立變換DFT后取對(duì)數(shù),求反變換就得到倒譜系。對(duì)LPC倒譜LPCCEP),在得濾波的線性預(yù)測(cè)數(shù)后,以用一個(gè)遞公式計(jì)得出。實(shí)驗(yàn)明,使倒譜可提高特征參的穩(wěn)定。Mel倒譜系數(shù)和知線性測(cè)PLP不于LPC等過(guò)對(duì)人發(fā)聲機(jī)理的研而得到的聲特征Mel譜系數(shù)MFCC和感知線預(yù)測(cè)PLP是受人的聽覺統(tǒng)研究成果動(dòng)而導(dǎo)的聲學(xué)特征對(duì)人的覺機(jī)理的研發(fā)現(xiàn),兩個(gè)頻相近的音調(diào)時(shí)發(fā)出,人只能聽一個(gè)音。臨界帶寬的就是樣一種人的主觀感發(fā)生突的帶寬邊界當(dāng)兩個(gè)調(diào)的頻率差于臨界寬時(shí),人就把兩個(gè)調(diào)聽成一個(gè)這稱之為屏效應(yīng)Mel刻度是對(duì)這一界帶寬的量方法之一MFCC計(jì)算首先FFT將域信號(hào)化成域,之對(duì)其對(duì)數(shù)能譜用依照Mel刻度分布的三角波器組行卷積,最對(duì)各個(gè)波器的輸出成的向量進(jìn)行散余弦變換DCT取前個(gè)數(shù)。PLP用德賓去計(jì)算參數(shù),但在計(jì)自相關(guān)參數(shù)用的也對(duì)聽覺激勵(lì)對(duì)數(shù)能譜進(jìn)行DCT方法。
聲學(xué)模語(yǔ)音識(shí)系統(tǒng)的模型常由聲模型和語(yǔ)言型兩部組成,分別應(yīng)于語(yǔ)音到音概率的計(jì)算音節(jié)到概率的計(jì)算本節(jié)和一節(jié)分別介聲學(xué)模和語(yǔ)言型方面的技。HMM學(xué)建模:爾可夫型的概念是個(gè)離散域有限狀態(tài)動(dòng)機(jī),馬爾可夫型指這一爾可夫模型內(nèi)部狀外界不可見外只能看到各個(gè)時(shí)的輸出值。語(yǔ)音識(shí)系統(tǒng),輸出通常就從各個(gè)幀計(jì)而得的學(xué)特征。用畫語(yǔ)音號(hào)需作兩個(gè)假設(shè),一是部狀態(tài)轉(zhuǎn)移只與上狀態(tài)有,另一是輸值只與前狀態(tài)(或前的狀轉(zhuǎn)移)有關(guān)這兩個(gè)設(shè)大大低了模型的雜度HMM打分解碼和練相的算法前向法、Viterbi算法前向后向算。語(yǔ)音識(shí)中使用HMM通是用從向右單向帶自環(huán)、帶跨越拓?fù)浣Y(jié)來(lái)對(duì)識(shí)別元建模,一音素就一個(gè)三至五態(tài)的HMM,個(gè)詞就構(gòu)成詞的多個(gè)音的行起來(lái)成的HMM,連續(xù)語(yǔ)識(shí)別的整個(gè)型就是和靜音組起來(lái)的。上下文關(guān)建模:協(xié)發(fā)音,的是一個(gè)音前后相音的影響而生變化從發(fā)聲理上看就是的發(fā)聲官在一個(gè)音向另一音時(shí)其特性能漸變從而使后一個(gè)音的譜與其條件下的頻產(chǎn)生差。上下文相建模方在建??紤]了這一響,從使模型能更確地描語(yǔ)音,只考前一音影響的為Bi-Phone,慮前一和后一音的響的稱Tri-Phone英語(yǔ)的下文相關(guān)建通常以素為基元,于有些素對(duì)其后音的影響相似的因而可以通音素解狀態(tài)的聚類行模型數(shù)的共享。類的結(jié)稱為senone。決策用來(lái)實(shí)高效的的對(duì)應(yīng)通過(guò)回答一系列后音所屬類(元/輔音、清/濁等等的問(wèn)題最終定其態(tài)應(yīng)使哪個(gè)senone。分類回歸樹CART型用以行詞到音素發(fā)音標(biāo)。語(yǔ)言模語(yǔ)言模主要分為規(guī)模型和計(jì)模型兩種統(tǒng)計(jì)語(yǔ)模型是用概統(tǒng)計(jì)的方法來(lái)示語(yǔ)言單位在的統(tǒng)規(guī)律,其中單有效,被泛使用N-Gram:該模型基于這樣種假設(shè)第個(gè)詞的出現(xiàn)與前面?zhèn)€詞相關(guān),而與其任何詞都不關(guān),整的概率就是個(gè)詞出概率的乘積這些概可以通直接從語(yǔ)料統(tǒng)計(jì)個(gè)同時(shí)出現(xiàn)的數(shù)得到常用的是二的Bi-Gram三元的Tri-Gram。語(yǔ)言模的性能通常交叉熵復(fù)雜度Perplexity來(lái)衡量交叉熵的意是用該模對(duì)文本識(shí)別難度,者從壓縮的度來(lái)看每個(gè)詞平均用幾個(gè)來(lái)編碼復(fù)雜度的意是用該型表示這一本平均分支數(shù),其數(shù)可視
每個(gè)詞平均概率?;侵笡]觀察到的N元組賦予一概率值,以證詞序列能通過(guò)語(yǔ)言型得到個(gè)概率值。常使用平滑技術(shù)有靈估計(jì)刪除插平滑、Katz平滑和Kneser-Ney滑。搜索連續(xù)語(yǔ)識(shí)別中的搜,就是找一個(gè)詞模序列以述輸入語(yǔ)音號(hào),從而得到解碼序列。索所依的是對(duì)公式的聲學(xué)型打分和語(yǔ)模型打。在實(shí)際用中,往往依據(jù)經(jīng)給語(yǔ)言模型上一個(gè)權(quán)重,并設(shè)一個(gè)長(zhǎng)懲罰分。Viterbi基于動(dòng)規(guī)劃的算法每個(gè)時(shí)點(diǎn)上的各個(gè)態(tài),計(jì)解碼狀態(tài)序?qū)τ^察序列后驗(yàn)概,保留概率大的路,并在每個(gè)點(diǎn)記錄相應(yīng)的態(tài)信息以便后反向取詞解碼序。Viterbi算在不喪最優(yōu)解的條件下時(shí)解決連續(xù)語(yǔ)音識(shí)中HMM模型狀序列與學(xué)觀察序列非線性時(shí)間準(zhǔn)、詞邊界測(cè)和詞識(shí)別,從而這一算成為語(yǔ)音識(shí)搜索的本策略由于語(yǔ)識(shí)別對(duì)當(dāng)前間點(diǎn)之的情況無(wú)法測(cè),基目標(biāo)函數(shù)的發(fā)式剪難以應(yīng)。由于Viterbi算法的時(shí)齊特性,一時(shí)的各條徑對(duì)于同樣觀察序列因而具有可性,束搜在每一時(shí)刻保留概最大的前若條路徑大幅度的剪提高了索的效率。一時(shí)齊Viterbi-Beam法是當(dāng)前語(yǔ)音識(shí)搜索中最有的算法搜索多遍搜:在搜索中利各種知識(shí)源通常要進(jìn)行遍搜索第一遍使用價(jià)低的識(shí)源,產(chǎn)生個(gè)候選表或詞選網(wǎng)格,在基礎(chǔ)上行使用代價(jià)的知識(shí)的第二遍搜得到最路徑。前介紹的知源有聲模型、語(yǔ)言型和音詞典,這些以用于一遍搜。為實(shí)現(xiàn)更級(jí)的語(yǔ)識(shí)別或口語(yǔ)解,往要利用一些價(jià)更高知識(shí)源如或階的N-Gram4階或更高上下文關(guān)模、詞間關(guān)模型、分模型或語(yǔ)法析,進(jìn)重新打分。新的實(shí)大詞表連續(xù)音識(shí)別統(tǒng)許多使用這種多搜索策。N-best搜索生一個(gè)選列表,在個(gè)節(jié)點(diǎn)保留N最好的徑,會(huì)使計(jì)算復(fù)雜增加到N倍。簡(jiǎn)化的做法只保每個(gè)節(jié)的若干詞候,但可丟失次優(yōu)選。一個(gè)折辦法是考慮兩個(gè)詞的路徑保留條。詞候選網(wǎng)格以一種緊湊的方式出多候,對(duì)N-best索算法作相改動(dòng)后以得到生成候選格的算法。前向后搜索算法是個(gè)應(yīng)用遍搜索的例。當(dāng)應(yīng)簡(jiǎn)單知識(shí)源行了前向的Viterbi搜索后搜索過(guò)中得到的前概率恰可以用在后搜索的標(biāo)函數(shù)的算中,因而以使用發(fā)式的算法進(jìn)行后搜索,濟(jì)地搜索出條候選
系統(tǒng)實(shí)語(yǔ)音識(shí)系統(tǒng)選擇識(shí)基元的求是,有準(zhǔn)的定義能得到足夠據(jù)進(jìn)行訓(xùn)練,有一般性。語(yǔ)通常用上下文相的音素模,漢語(yǔ)的同發(fā)音如英語(yǔ)重,可以采音節(jié)建。系統(tǒng)所需訓(xùn)練數(shù)大小與模型雜度有。模型設(shè)得過(guò)于復(fù)雜至于超了所提供的練數(shù)據(jù)能力,會(huì)使性能急下降。聽寫機(jī)大詞匯量、特定人連續(xù)語(yǔ)音識(shí)系統(tǒng)通稱為聽寫機(jī)其架構(gòu)是建立前述聲學(xué)模和語(yǔ)言型基礎(chǔ)上的拓結(jié)構(gòu)訓(xùn)練時(shí)對(duì)每基元用前向向算法獲得型參數(shù)識(shí)別時(shí),將元串接詞,詞間加靜音模并引入言模型作為間轉(zhuǎn)移率,形成循結(jié)構(gòu),算法進(jìn)行碼。針對(duì)漢易于分割的點(diǎn),先行分割再對(duì)一段進(jìn)解碼,是用提高效的一個(gè)化方法。對(duì)話系:用于實(shí)現(xiàn)機(jī)口語(yǔ)話的系統(tǒng)稱對(duì)話系。受目前技所限,對(duì)話系往往是面向個(gè)狹窄域、詞匯量限的系,其題材有游查詢訂票、據(jù)庫(kù)檢索等。其前是一個(gè)語(yǔ)音別器,別產(chǎn)生的N-best候或詞候選格,由語(yǔ)法析器進(jìn)分析獲取語(yǔ)信息,由對(duì)話管理確定應(yīng)信息,語(yǔ)音合成器出。由目前的系統(tǒng)往詞匯有限,也可用提取鍵詞的法來(lái)獲取語(yǔ)信息。自適應(yīng)魯棒性語(yǔ)音識(shí)系統(tǒng)的性能許多因的影響,包不同的話人、說(shuō)話式、環(huán)境噪音傳輸信道等。提高統(tǒng)魯棒性,要提高統(tǒng)克服這些素影響能力,系統(tǒng)在不同應(yīng)用環(huán)、條件下性穩(wěn)定;適應(yīng)的目的是根據(jù)同的影來(lái)源,自動(dòng)、有針性地對(duì)系統(tǒng)行調(diào)整在使用中逐提高性。以下對(duì)響系統(tǒng)性能不同因分別介紹解辦法。解決辦按針對(duì)語(yǔ)音征的方(以下稱特方法)模型調(diào)整的法(以稱模型法)分為兩。前者要尋找更好、高魯性的特征參,或是現(xiàn)有的征參數(shù)基礎(chǔ),加入些特定的處方法。者是利用少的自適語(yǔ)料來(lái)正或變換原的說(shuō)話無(wú)關(guān)(SI)模型,從而使其為說(shuō)話自適應(yīng)()模型。說(shuō)話人適應(yīng)的特征法有說(shuō)人規(guī)一化和話人子間法,模型法有貝葉斯方、變換法和型合并。語(yǔ)音系中的噪聲,括環(huán)境聲和錄音過(guò)加入的子噪聲。提系統(tǒng)魯棒性的征方法包括音增強(qiáng)尋找對(duì)噪聲擾不敏的特征,模方法有行模型合方和在訓(xùn)練中為加入聲信道畸包括錄音時(shí)筒的距離、使不同靈敏度話筒、同增益的前放大和同的濾波器計(jì)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 木蘭詞中英雄形象塑造分析教案
- 國(guó)學(xué)小名士觀后感
- 在線服務(wù)技術(shù)維護(hù)與支持服務(wù)合同協(xié)議
- 貨幣銀行學(xué)知識(shí)點(diǎn)測(cè)試卷
- 產(chǎn)品委托加工承攬合同協(xié)議
- 新聞傳媒產(chǎn)業(yè)發(fā)展趨勢(shì)試題集錦
- 智慧城市交通出行優(yōu)化方案設(shè)計(jì)報(bào)告
- 員工請(qǐng)假及銷假記錄表
- 格林童話幼兒故事解讀
- 木地板購(gòu)銷質(zhì)量保證合同
- 細(xì)胞和組織損傷與修復(fù)復(fù)習(xí)題
- 2023年長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院?jiǎn)握忻嬖囶}庫(kù)及答案解析
- GB/T 9793-2012熱噴涂金屬和其他無(wú)機(jī)覆蓋層鋅、鋁及其合金
- GB/T 30839.33-2015工業(yè)電熱裝置能耗分等第33部分:工頻無(wú)心感應(yīng)爐
- DB14T 2586-2022“山西標(biāo)準(zhǔn)”(標(biāo)識(shí))評(píng)價(jià)技術(shù)規(guī)范 釀造用高粱
- 刑事強(qiáng)制措施制度課件
- 西方失語(yǔ)癥評(píng)定量表
- 女性兩癌篩查知識(shí)和預(yù)防措施課件
- 《礦山機(jī)械設(shè)備》講稿
- 三八婦女節(jié)活動(dòng)策劃PPT模板
- a04-hci深信服超融合配置指南_v1
評(píng)論
0/150
提交評(píng)論