2024車載語音交互系統(tǒng)語音識別測評方法

上傳人：1*** IP屬地：山西上傳時(shí)間：2024-05-06 格式：DOCX 頁數(shù)：11 大?。?00.89KB 積分：7.2 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

智產(chǎn)品音識測評法第1部分載音交系統(tǒng)II目??次前言 II引言 III范圍 1規(guī)范性引用文件 1術(shù)語、定義和縮略語 1術(shù)語和定義 1縮略語 2車載語音交互系統(tǒng)分類及表述 2概述 2基于應(yīng)用場景的分類 2車載語音交互系統(tǒng)的結(jié)構(gòu)表述 3車載語音交互系統(tǒng)的性能指標(biāo)要求 3概述 3字準(zhǔn)確率 4識別成功率 4平均響應(yīng)時(shí)間 4喚醒率 4誤喚醒率 4車載語音交互系統(tǒng)測試方法 4概述 5測試語料設(shè)計(jì) 5測試語音/環(huán)境噪聲錄制 5基于語音標(biāo)準(zhǔn)庫的測試方法 6測試步驟 8測試報(bào)告內(nèi)容 9PAGEPAGE1智能產(chǎn)品語音識別測評方法第1部分：車載語音交互系統(tǒng)范圍本文件從影響車載交互系統(tǒng)的語音識別性能的各技術(shù)角度出發(fā)，制定相應(yīng)的測試方法和技術(shù)要求。載語音交互系統(tǒng)。后裝的車載語音交互系統(tǒng)可參考本文件。規(guī)范性引用文件（不包括勘誤的內(nèi)容GB/T2007中文語音識別系統(tǒng)通用技術(shù)規(guī)范ITU-TP.5612/2001激活語音電平的客觀測量(Objectivemeasurementofactivespeechlevel)ITU-TP.5812000HATS在免提終端測試中的使用(Useofheadandtorsosimulator(HATSforhands-freeterminaltesting)ITU-TP.851基于口語對話系統(tǒng)的電話服務(wù)的主觀質(zhì)量評價(jià)(Subjectivequalityevaluationoftelephoneservicesbasedonspokendialoguesystems)術(shù)語、定義和縮略語術(shù)語和定義下列術(shù)語和定義適用于本文件。語音識別 speechrecognition將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。語音識別系統(tǒng) speechrecognitionsystem具有語音識別功能的開發(fā)工具、軟件、裝置或應(yīng)用。車載系統(tǒng) in-vehiclesystem車載語音交互系統(tǒng) in-vehiclespeechinteractionsystem實(shí)現(xiàn)人類與車載系統(tǒng)間語音交互的系統(tǒng)，以將人類的語音輸入轉(zhuǎn)化為車載系統(tǒng)可識別的控制指令，同時(shí)將車載系統(tǒng)的反饋信息通過語音或文字輸出為主要目的。識別決策 recognitionstrategies語音喚醒 speechwakeup響應(yīng)時(shí)間 triggertime對于特定的語音識別任務(wù)，若語音輸入的結(jié)束時(shí)刻為te；車載語音識別系統(tǒng)的開始響應(yīng)時(shí)刻為tr。則：響應(yīng)時(shí)間=tr-te縮略語下列縮略語適用于本文件。HATS：頭和軀干模擬器（HeadAndTorsoSimulator）車載語音交互系統(tǒng)分類及表述概述基于應(yīng)用場景的分類文字輸入類以文字錄入為主要目的，要求把語音轉(zhuǎn)化成文字的系統(tǒng)，如短消息功能。聲音檢測識別類是指根據(jù)用戶語音中發(fā)出的特定命令或者關(guān)鍵詞，完成特定操作和業(yè)務(wù)的應(yīng)用場景。如撥打電話、音樂命令控制等?？谡Z對話類車載語音交互系統(tǒng)的結(jié)構(gòu)表述語音預(yù)處語音識別應(yīng)用模塊理模塊模塊語意理解語音預(yù)處語音識別應(yīng)用模塊理模塊模塊語意理解交互決策語音合成模塊模塊模塊圖1 車載語音交互系統(tǒng)結(jié)構(gòu)圖車載語音交互系統(tǒng)的性能指標(biāo)要求概述字準(zhǔn)確率字準(zhǔn)確率的性能指標(biāo)定義詳見GB/T21023中5.2.1的內(nèi)容。1表1 中文普通話感受效果分類識別率評價(jià)效果≥90%優(yōu)秀＜90%且＞70%可接受≤70%不可接受識別成功率RSR（。則：識別成功率=SR/R×100%；誤操作率=FR/R×100%；識別成功率+誤操作率=1121802應(yīng)≥75%；場景3的識別成功率應(yīng)≥70%。平均響應(yīng)時(shí)間喚醒率若車載語音交互系統(tǒng)共進(jìn)行了W次喚醒，其中SW次成功喚醒。則：喚醒率=SW/W×100%。誤喚醒率若車載語音交互系統(tǒng)在T小時(shí)內(nèi)出現(xiàn)FW次誤喚醒。則：誤喚醒率=FW/T次/小時(shí)。20.5/小時(shí)。車載語音交互系統(tǒng)測試方法概述GB/T21023測試語料設(shè)計(jì)車載語音交互系統(tǒng)測試語料設(shè)計(jì)原則應(yīng)符合語音識別系統(tǒng)輸入準(zhǔn)則：中文車載語音交互系統(tǒng)應(yīng)支持漢語通用語,從信息社會發(fā)展角度支持推廣普通話。180-300/min30s60s。0.2s2s2s，則認(rèn)為一次語音輸入結(jié)束。GB/T21023-2007測試語料應(yīng)從詞匯量覆蓋、開放業(yè)務(wù)覆蓋、音節(jié)覆蓋，以及常用性角度加以設(shè)計(jì)，設(shè)計(jì)要求如下：對于命令詞識別車載語音識別系統(tǒng)，測試語料應(yīng)覆蓋被測系統(tǒng)的所有詞匯。建議測試語料的規(guī)200對于連續(xù)語音識別車載語音識別系統(tǒng)，測試語料應(yīng)盡量覆蓋被測系統(tǒng)的詞匯，對于每種開放業(yè)500測試語音/環(huán)境噪聲錄制測試語音/環(huán)境噪聲錄制要求如下：對于非特定人群車載語音識別系統(tǒng)，特別強(qiáng)調(diào)對含有一定口音的漢語語音適應(yīng)能力和漢語聲調(diào)問題。3050-100名以上的發(fā)音人錄制。應(yīng)在符合系統(tǒng)對識別人群限制的條件下，盡量選擇具有代表性和統(tǒng)計(jì)分布規(guī)律的發(fā)音人，特別是應(yīng)考慮不同口音、不同的普通話等級、不同年齡、不同語速、不同教育背景、不同說話韻律等因素。對于命令詞識別車載語音識別系統(tǒng)，應(yīng)盡量保證由各發(fā)音人分100測試語音可以是發(fā)音人的語音或通過高保真設(shè)備回放的測試語音。測試語音文件的錄制格式為.wav44.1kHz16bit風(fēng)間應(yīng)保持一定距離（15cm,避免風(fēng)噪的影響），并確保波形采樣范圍為±5000背景噪聲的錄制在真車內(nèi)進(jìn)行，使用一個(gè)放置在靠近車載免提麥克風(fēng)處的測量傳聲器來錄制背景噪聲，如果條件允許，也可以使用車載免提麥克風(fēng)來直接錄制。一般由測試實(shí)驗(yàn)室（與生產(chǎn)廠家）來共同決定使用背景噪聲的類型。環(huán)境噪聲文件的錄制格式為.wav44.1kHz16bit2表2 典型的環(huán)境噪聲的場景場景編號行車環(huán)境車速車窗空調(diào)麥克風(fēng)處的環(huán)境噪聲聲壓級（僅供參考，以實(shí)際錄制結(jié)果為準(zhǔn)）備注1安靜0km/h關(guān)關(guān)45-50dB（A）必選2鬧市40-60km/h關(guān)低檔50-65dB（A）必選3高速60-120km/h關(guān)中檔65-75dB（A）必選4鬧市40-60km/h半開關(guān)65-75dB（A）可選5高速60-120km/h半開關(guān)70-85dB（A）可選基于語音標(biāo)準(zhǔn)庫的測試方法概況ITU-TP.581規(guī)定的HATSHATS進(jìn)行校準(zhǔn)和均衡。背景噪聲重放使用四個(gè)中音揚(yáng)聲器和一個(gè)低音揚(yáng)聲器組成的陣列來模擬行車噪聲場景，如圖2所示。使用揚(yáng)聲器為了使得揚(yáng)聲器、免提麥克風(fēng)和HATS的聲傳輸路徑間的干擾最小，應(yīng)仔細(xì)選擇揚(yáng)聲器的放置位置。圖2 語音識別測量及背景噪聲重放設(shè)置車內(nèi)測試配置HATS一般由廠家來指定HATS（包括仿真嘴和仿真耳分別相對于麥克風(fēng)和揚(yáng)聲器的距離HATS為了保證每次車內(nèi)測試時(shí)HATS（比如在車內(nèi)中標(biāo)出HATS相對于某一位置的距離，如左、右車門和車頂?shù)裙潭ㄎ矬w。注：如有特殊測試要求，也可以放置在副駕駛位和乘客位。仿真嘴仿真嘴應(yīng)符合ITU-TP.58的規(guī)定，并依據(jù)ITU-TP.340在MRP處進(jìn)行均衡。在MRP校準(zhǔn)的聲壓級為-4.7dBPa。對于揚(yáng)聲式車載免提終端，應(yīng)在HATS-HFRP（HATS免提參考點(diǎn)）處進(jìn)行聲壓校準(zhǔn)，使得HATS-HFRP處的平均聲壓級為-25.7dBPa，此時(shí)MRP處的聲壓為發(fā)送方向源信號大小。以上過程的具體操作步驟見ITU-TP.581的相關(guān)部分。測試行車噪聲環(huán)境下時(shí)，由于“倫巴效應(yīng)”，仿真嘴的輸出電平會增大。0IN

forfor

N5050N77

0.3N8.0

for

N77I--仿真嘴輸出電平增大值N--靠近駕駛員頭部位置的長時(shí)A記權(quán)噪聲大小ITU-TP.340中規(guī)定，在免提裝置的發(fā)送測試中，0.3倍的語音電平增長應(yīng)單獨(dú)計(jì)算。仿真耳對于揚(yáng)聲免提終端，HATS左右耳的聲信號均被使用。HATS應(yīng)進(jìn)行自由場或擴(kuò)散場均衡，具體可參考ITU-TP.581。對于頭戴免提終端，使用的耳型和佩戴位置見ITU-TP.380。測試信號和電平測試可以使用提前錄制的真人語音信號。（詳見ITU-T測試信號的平均大小規(guī)定如下：HATS-HFRP-28.7dBPa），這一水平適用于耳機(jī)的免提終端；（MRP）：-1.7dBPa（典型的平均說話聲壓級）HATS-HFRP處聲壓級大小為-25.7dBPa)。注：背景噪聲測試中要考慮“倫巴效應(yīng)”(由于高背景噪聲而增加說話者的說話聲壓級)。測試步驟字準(zhǔn)確率6.4.3.16.4.26.26.3MRP)處在6.4.3.4。同步播放測試信號和相應(yīng)背景噪聲場景。d)記錄字準(zhǔn)確率。注：安靜情況下，不需播放背景噪聲。識別成功率6.4.3.16.4.26.26.36.4.3.4。同步播放測試信號和相應(yīng)背景噪聲場景。記錄識別結(jié)果。完成所有命令詞測試后，統(tǒng)計(jì)不同場景下語音識別率。平均響應(yīng)時(shí)間6.4.3.16.26.36.4.3.4。播放測試信號，記錄語音輸入的結(jié)束時(shí)刻為te；車載語音識別系統(tǒng)的開始響應(yīng)時(shí)刻為tr。t-。注：從標(biāo)準(zhǔn)庫中選擇5段語音，分別進(jìn)行本地語音識別和在線語音識別。如是在線語音識別，請保持網(wǎng)絡(luò)良好。喚醒率6.4.3.16.4.26.26.36.4.3.4。同步播放測試信號和相應(yīng)背景噪聲場景。記錄喚醒測試結(jié)果。重復(fù)喚醒測試，統(tǒng)計(jì)不同場景下喚醒率。誤喚醒率6.4.3.16.4.26.2

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024車載語音交互系統(tǒng)語音識別測評方法

文檔簡介

溫馨提示

最新文檔

評論

2024車載語音交互系統(tǒng)語音識別測評方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔