基于抖動(dòng)失真的語(yǔ)音頻客觀質(zhì)量評(píng)價(jià)方法及系統(tǒng)_第1頁(yè)
基于抖動(dòng)失真的語(yǔ)音頻客觀質(zhì)量評(píng)價(jià)方法及系統(tǒng)_第2頁(yè)
基于抖動(dòng)失真的語(yǔ)音頻客觀質(zhì)量評(píng)價(jià)方法及系統(tǒng)_第3頁(yè)
基于抖動(dòng)失真的語(yǔ)音頻客觀質(zhì)量評(píng)價(jià)方法及系統(tǒng)_第4頁(yè)
基于抖動(dòng)失真的語(yǔ)音頻客觀質(zhì)量評(píng)價(jià)方法及系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)(19)民國(guó)家知局(21)(22)

B(73)專利權(quán)人大(72)發(fā)明人余洪江(74)專利機(jī)構(gòu)知識(shí)事務(wù)人G10L25/60員權(quán)利要求書3頁(yè)說(shuō)明書10頁(yè)附圖6(57)B頻的移動(dòng)語(yǔ)音頻,且評(píng)價(jià)結(jié)果更接近真實(shí)聽B

權(quán)利要求 1/3所述的測(cè)試信號(hào)總體失真其中,N(k,l)為連續(xù)丟包數(shù)為l時(shí)測(cè)試信號(hào)的第k幀信號(hào)的總體失真σ2[k+i]為第(k+i)幀原始信號(hào)和測(cè)試信號(hào)的頻域窗信號(hào)的均方差;所述的測(cè)試信號(hào)的抖動(dòng)失真參數(shù)其中,wk,l是權(quán)重,lmax為最大連續(xù)丟Pk,lk續(xù)丟包l的概率;(K,L)表示總:,信號(hào)的頻域信號(hào)間的誤差信號(hào)其中,k為信號(hào)的幀數(shù)索引,為加窗后原始信號(hào)的第k幀頻域信號(hào)為加窗后測(cè)試信號(hào)的第k幀頻域信號(hào),Xerrror[k]為第k幀原始信號(hào)和測(cè)試信號(hào)窗信號(hào)的誤差信號(hào);:, 步驟2獲取原始信號(hào)和測(cè)試信號(hào)的窗信號(hào)的均方差σ2[k]= M其中,σ2[k]為第k幀原始信號(hào)和測(cè)試信號(hào)窗信號(hào)的均方差,X[k]為第k幀原始信號(hào)和測(cè)試信號(hào)窗信號(hào)的誤差信號(hào)X T[k]為X [k]的倒置矩陣M 步驟3,基于原始信號(hào)和測(cè)試信號(hào)的窗信號(hào)的均方差獲取測(cè)試信號(hào)的總體失真其中,N(k,l)為連續(xù)丟包數(shù)l時(shí)、測(cè)試信號(hào)的第k幀信號(hào)的總體σ2)續(xù)丟包數(shù);步驟5,獲取測(cè)試信號(hào)的抖動(dòng)失真參 其中,wk,l

權(quán)利要求 2/3,權(quán) lmax為最大連續(xù)丟包數(shù)Pk,l是第k幀信號(hào)連續(xù)丟包數(shù)為l的概率,)驟:驟:感知模塊和認(rèn)知模塊;,感知模塊用來(lái)獲得測(cè)試信號(hào)的語(yǔ)音頻失真特征,感知模塊進(jìn)一步包括質(zhì)量抖動(dòng)模取總體失真超過(guò)設(shè)定閾值的測(cè)試信號(hào),并基于總體失真超過(guò)閾值的測(cè)試信號(hào)獲取測(cè)試信N(k,)lk(k+i)數(shù)其中wk,l是權(quán)重lx為最大連續(xù)丟包數(shù);Pklkl(K,L),

權(quán)利要求 3/3述的質(zhì)量抖動(dòng)模塊進(jìn)一步包括子模塊::,,k引為加窗后原始信號(hào)的第k幀頻域信號(hào)為加窗后測(cè)試信號(hào)的第k幀頻域信:,, σ2σ2 第k幀原始信號(hào)和測(cè)試信號(hào)窗信號(hào)的均方差,Xerrror[k]為第k幀原始信號(hào)和測(cè)試信號(hào)窗信號(hào)的誤差信號(hào)XT[k]為X [k]的倒置矩陣M為 其中N(k,l)為連續(xù)丟包數(shù)為lkl其中,K表示信號(hào)幀索引,L表示連續(xù)丟包數(shù),k表示具體的信號(hào)幀編號(hào),l為具體的連續(xù)丟包數(shù)第五子模塊用來(lái)獲取測(cè)試信號(hào)的抖動(dòng)失真參數(shù)其中,wk,l是權(quán)重lmax為最大連續(xù)丟包數(shù)Pk,l是第k幀信號(hào)連續(xù)丟包數(shù)為l的概率,N(k,l)為連續(xù)丟包數(shù)為l時(shí)、測(cè)試信號(hào)的第k幀信號(hào)的總體失,基于抖動(dòng)失真的語(yǔ)音頻客觀質(zhì)量評(píng)價(jià)方法及系 端和接收端的語(yǔ)音頻信號(hào)分別記為原始信號(hào)與測(cè)試信號(hào)。本發(fā)明方法包括以下步驟: 步驟1將原始信號(hào)和測(cè)試信號(hào)的時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào)可采用短法進(jìn)行時(shí)頻轉(zhuǎn)換; 2始信號(hào)和測(cè)試信號(hào)的底層聲學(xué)特征參數(shù)獲得測(cè)試信號(hào)的底層聲學(xué)特征參數(shù)失真測(cè)度值; 3真參數(shù); [0012]上述底層聲學(xué)特征參數(shù)失真測(cè)度值其中,Dp為測(cè)試信號(hào)第i個(gè)底層聲學(xué)特征參數(shù)的失真測(cè)度值,xpyp分別為原始信號(hào)和測(cè)試信號(hào)的第p個(gè)底層聲學(xué)特征參數(shù)值,p為底層聲學(xué)特征參數(shù)編號(hào)。 ,:引為加窗后原始信號(hào)的第k幀頻域信號(hào),Xt[k]為加窗后測(cè)試信號(hào)的第k幀頻域信號(hào),Xerrror[k]k,:[0015]302σ2[k (XT[k]·X[k])/M,其中,σ2[k] X[k]為第k幀原始信號(hào)和測(cè)試信號(hào)窗信號(hào)的誤差信號(hào)X T[k]為X [k]的倒置矩陣;M σ2 ) 體的連續(xù)丟包數(shù)步驟305獲取測(cè)試信號(hào)的抖動(dòng)失真參

PN(k,l)為連續(xù)丟包數(shù)l時(shí)、測(cè)試信k幀信號(hào)的總 的原始信號(hào)的頻譜能量的孤立特性與測(cè)試信號(hào)相同,所得閾值即為信號(hào)的能量均衡參數(shù); [0027] 失真; 45。[0048] 時(shí)頻分析模塊2用于將輸入的原始信號(hào)和測(cè)信號(hào)的時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào)并將所得頻域信號(hào)分三路分別輸入到音色評(píng)價(jià)模塊3質(zhì)量抖動(dòng)模塊4與能量均衡模塊5。[0049] 音色評(píng)價(jià)模塊3用于根據(jù)輸入的頻域信號(hào)獲取原始信號(hào)和測(cè)試信號(hào)的底層聲學(xué)特征參數(shù)并基于底層聲學(xué)特征參數(shù)獲得測(cè)試信號(hào)的底層聲學(xué)特征參數(shù)失真測(cè)度值并輸出給認(rèn)知模塊6具體為根據(jù)人耳聽覺掩蔽效應(yīng)將原始信號(hào)和測(cè)試信號(hào)劃分Bark巴克并計(jì)算各Bark帶的調(diào)制誤差響度失真噪掩比帶寬等底層聲學(xué)特征參數(shù)根據(jù)原始信號(hào)的底層聲學(xué)特征參數(shù)和測(cè)試信號(hào)的底層聲學(xué)特征參數(shù)獲得測(cè)試信號(hào)的一組底層聲學(xué)特征參數(shù)失真測(cè)度值并將所得底層聲學(xué)特征參數(shù)失真測(cè)度值輸出給認(rèn)知模塊6。[0050] 質(zhì)量抖動(dòng)模塊4用于根據(jù)輸入的頻域信號(hào)獲得測(cè)試信號(hào)的抖動(dòng)失真參數(shù)并輸出給認(rèn)知模塊6具體為在丟包率為1%3%5%6%10%五種情形時(shí)分別計(jì)算原始信號(hào)和測(cè)試信號(hào)的頻域信號(hào)之間的均方差并基于所得均方差獲取信號(hào)總體失真超過(guò)設(shè)定閾值的部分測(cè)試信號(hào)對(duì)這些超過(guò)閾值的部分總體失真求和即得到測(cè)試信號(hào)的抖動(dòng)失真參數(shù),并將所得抖動(dòng)失真參數(shù)輸出給認(rèn)知模塊6。[0051] 能量均衡模塊5用于根據(jù)輸入的頻域信通過(guò)調(diào)整原始信號(hào)的頻譜能獲取信號(hào)的能量均衡參數(shù)并輸出給認(rèn)知模塊6。具體為對(duì)原始信號(hào)的頻域信號(hào)進(jìn)行截短調(diào)整調(diào)整閾值使得頻譜能量幅度大于設(shè)定閾值的原始信號(hào)的頻譜能量的孤立特性與測(cè)試信號(hào)相同所得閾值即為信號(hào)的能量均衡參數(shù)或?qū)y(cè)試信號(hào)的頻域信號(hào)進(jìn)行截短調(diào)整,調(diào)整閾值使得頻譜能量幅度大于定閾值的測(cè)試信號(hào)的頻譜能量的孤立特性與原始信號(hào)相同所得閾值即為信號(hào)的能量均衡參數(shù)。將所得能量均衡參數(shù)輸出給認(rèn)知模塊6。[0052] 認(rèn)知模塊6用于融合底層聲學(xué)特征參數(shù)失真測(cè)度值抖動(dòng)失真參數(shù)和能量均衡參數(shù)獲得語(yǔ)音頻客觀質(zhì)量評(píng)價(jià)分?jǐn)?shù)本發(fā)明利用信息融合的思想生成單一的輸出參數(shù)即語(yǔ)音頻用戶體驗(yàn)得分Qo(QualityofExperience。具體為采用人工神經(jīng)網(wǎng)絡(luò)模型預(yù)先建立用于神經(jīng)網(wǎng)絡(luò)系數(shù)的語(yǔ)音頻測(cè)試序列訓(xùn)練集經(jīng)訓(xùn)練獲得神經(jīng)網(wǎng)絡(luò)系數(shù)即值基于所得值將底層聲學(xué)特征參數(shù)失真測(cè)度值抖動(dòng)失真參數(shù)和能量均衡參數(shù)映射融合得到單一的用戶體驗(yàn)得分QoE即本發(fā)明中的語(yǔ)音頻客觀質(zhì)量評(píng)價(jià)分?jǐn)?shù)。 步驟: [0055]將原始信號(hào)的時(shí)域信號(hào)xr通過(guò)短時(shí)變換成頻域信號(hào)Xr;將測(cè)試信號(hào)的時(shí)域信號(hào)xt通過(guò)短時(shí)變換成頻域信號(hào)Xt。實(shí)施例輸入的原始信號(hào)的時(shí)域信號(hào)xr和測(cè)試信號(hào)的時(shí)域信號(hào)xt的采樣率均為48kHz通過(guò)短時(shí)變換得到的頻域信號(hào)幀長(zhǎng)為2048算測(cè)試信號(hào)的底層聲學(xué)特征參數(shù)失真測(cè)度值。具體為: [0065]根據(jù)現(xiàn)有的國(guó)際電信的ITU-R語(yǔ)音頻質(zhì)量客觀評(píng)價(jià)標(biāo)準(zhǔn)BS.1387提供的Bark的頻域信分別計(jì)算出各幀原始信號(hào)和測(cè)試信號(hào)中各Bark帶的底層聲 征參(z1,z2,...zm)獲取測(cè)試信號(hào)的一組底層聲學(xué)特征參數(shù)失真測(cè)度值(D1,D2,...Dm)。 具體實(shí)施時(shí)所述的底層聲學(xué)特征參數(shù)失真測(cè)度值其中,p1,2,...,m,m為底層聲學(xué)特征參數(shù)的個(gè)數(shù)。 窗信號(hào)之間的抖動(dòng)失真參數(shù)。具體為: 1%3%5%6%10M135610Xerrror[k]:[0072](2)中k為信號(hào)的幀數(shù)索引 為加窗后測(cè)試信號(hào)的第k幀頻域信號(hào),Xerrror[k]為第k幀原始信號(hào)和測(cè)試信號(hào)窗信號(hào)的誤差信號(hào); σ2[k]=(XT[k]·X (3)中,XT[k]為 [k]的倒置矩陣M (4,測(cè)試信號(hào)在不同的連續(xù)丟包數(shù)下的總體失真Nkl在所得總體失真中尋找總體失真) 動(dòng)失真JD為: , (6)中,wkl是權(quán)重lmax為最大丟包數(shù)目Pk,l是第k幀信號(hào)連llk幀測(cè)試信號(hào)的總體失真,所有總體失真N(k,l)的最大值。[0087]本步驟根據(jù)原始信號(hào)的頻域信號(hào)Xr和測(cè)試信號(hào)的頻域信號(hào)Xt的能量,比較原始信 character號(hào)Xr和頻域信號(hào)Xt的能假如原始信號(hào)頻譜能量大于測(cè)試信號(hào)頻譜能計(jì)算測(cè)試信號(hào)帶通頻譜能量ek: total_block總數(shù)i是時(shí)間索取值范圍為0~total_blockj是頻率索值范圍為94~184代表測(cè)試信號(hào)的頻域信號(hào)從2.2kHz4.3kHz的帶通信號(hào)。[0092]TknTknXr(i,j),后原始信號(hào)的頻域信號(hào)Xm(i,j): [0096]將截短后原始信號(hào)的頻域信號(hào)的帶通頻譜能量與測(cè)試信號(hào)的帶通頻譜能量ek進(jìn)行比較尋找使得調(diào)整后的原始信號(hào)頻譜的孤立特性與測(cè)試信號(hào)相同的閾值Tkn即為能量均衡參數(shù)Tkn。 Δ 絡(luò)模型其函數(shù)為其中,e為數(shù)學(xué)常數(shù),x為函數(shù)的輸入 IJwα[i]輸出層的系數(shù)wβ[j]以及輸出層的兩個(gè)限制因子bmin和bmax進(jìn)行訓(xùn)得到一[0103]D1,D2,...DmJDTkn,DI(DistortionIndex):[0105其中i0~I(xiàn)-1j0~J-1m為底層特征參數(shù)的α[i]為認(rèn)知模型的[0107]QoE=bmin+(bmax-bmin)·sig(DI)神經(jīng)網(wǎng)絡(luò)模型的相關(guān)內(nèi)容可參見國(guó)際標(biāo)準(zhǔn)ITUITU-RBS.1387-1Methodforobjectivemeasurementsofperceivedaudioquality[0108]音樂(lè)序列和混合序列,同時(shí)序列還包含各種不同丟包率情況。測(cè)試序列來(lái)自AMR-WB+和AVS-P10兩種編的不同碼率不同丟包率的序列包括15個(gè)用于訓(xùn)練的序列和12用于個(gè)驗(yàn)證的序列,見表1。 [0112]測(cè)試的目的是評(píng)估編

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論