2024車載語音交互系統(tǒng)語音識別測評方法_第1頁
2024車載語音交互系統(tǒng)語音識別測評方法_第2頁
2024車載語音交互系統(tǒng)語音識別測評方法_第3頁
2024車載語音交互系統(tǒng)語音識別測評方法_第4頁
2024車載語音交互系統(tǒng)語音識別測評方法_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

智產(chǎn)品音識測評法 第1部分載音交系統(tǒng)II目??次前言 II引言 III范圍 1規(guī)范性引用文件 1術(shù)語、定義和縮略語 1術(shù)語和定義 1縮略語 2車載語音交互系統(tǒng)分類及表述 2概述 2基于應(yīng)用場景的分類 2車載語音交互系統(tǒng)的結(jié)構(gòu)表述 3車載語音交互系統(tǒng)的性能指標(biāo)要求 3概述 3字準(zhǔn)確率 4識別成功率 4平均響應(yīng)時間 4喚醒率 4誤喚醒率 4車載語音交互系統(tǒng)測試方法 4概述 5測試語料設(shè)計 5測試語音/環(huán)境噪聲錄制 5基于語音標(biāo)準(zhǔn)庫的測試方法 6測試步驟 8測試報告內(nèi)容 9PAGEPAGE1智能產(chǎn)品語音識別測評方法第1部分:車載語音交互系統(tǒng)范圍本文件從影響車載交互系統(tǒng)的語音識別性能的各技術(shù)角度出發(fā),制定相應(yīng)的測試方法和技術(shù)要求。載語音交互系統(tǒng)。后裝的車載語音交互系統(tǒng)可參考本文件。規(guī)范性引用文件(不包括勘誤的內(nèi)容GB/T2007中文語音識別系統(tǒng)通用技術(shù)規(guī)范ITU-TP.5612/2001激活語音電平的客觀測量(Objectivemeasurementofactivespeechlevel)ITU-TP.5812000HATS在免提終端測試中的使用(Useofheadandtorsosimulator(HATSforhands-freeterminaltesting)ITU-TP.851基于口語對話系統(tǒng)的電話服務(wù)的主觀質(zhì)量評價(Subjectivequalityevaluationoftelephoneservicesbasedonspokendialoguesystems)術(shù)語、定義和縮略語術(shù)語和定義下列術(shù)語和定義適用于本文件。語音識別 speechrecognition將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。語音識別系統(tǒng) speechrecognitionsystem具有語音識別功能的開發(fā)工具、軟件、裝置或應(yīng)用。車載系統(tǒng) in-vehiclesystem車載語音交互系統(tǒng) in-vehiclespeechinteractionsystem實現(xiàn)人類與車載系統(tǒng)間語音交互的系統(tǒng),以將人類的語音輸入轉(zhuǎn)化為車載系統(tǒng)可識別的控制指令,同時將車載系統(tǒng)的反饋信息通過語音或文字輸出為主要目的。識別決策 recognitionstrategies語音喚醒 speechwakeup響應(yīng)時間 triggertime對于特定的語音識別任務(wù),若語音輸入的結(jié)束時刻為te;車載語音識別系統(tǒng)的開始響應(yīng)時刻為tr。則:響應(yīng)時間=tr-te縮略語下列縮略語適用于本文件。HATS:頭和軀干模擬器(HeadAndTorsoSimulator)車載語音交互系統(tǒng)分類及表述概述基于應(yīng)用場景的分類文字輸入類以文字錄入為主要目的,要求把語音轉(zhuǎn)化成文字的系統(tǒng),如短消息功能。聲音檢測識別類是指根據(jù)用戶語音中發(fā)出的特定命令或者關(guān)鍵詞,完成特定操作和業(yè)務(wù)的應(yīng)用場景。如撥打電話、音樂命令控制等。口語對話類車載語音交互系統(tǒng)的結(jié)構(gòu)表述語音預(yù)處語音識別應(yīng)用模塊理模塊模塊語意理解語音預(yù)處語音識別應(yīng)用模塊理模塊模塊語意理解交互決策語音合成模塊 模塊 模塊圖1 車載語音交互系統(tǒng)結(jié)構(gòu)圖車載語音交互系統(tǒng)的性能指標(biāo)要求概述字準(zhǔn)確率字準(zhǔn)確率的性能指標(biāo)定義詳見GB/T21023中5.2.1的內(nèi)容。1表1 中文普通話感受效果分類識別率評價效果≥90%優(yōu)秀<90%且>70%可接受≤70%不可接受識別成功率RSR(。則:識別成功率=SR/R×100%;誤操作率=FR/R×100%;識別成功率+誤操作率=1121802應(yīng)≥75%;場景3的識別成功率應(yīng)≥70%。平均響應(yīng)時間喚醒率若車載語音交互系統(tǒng)共進行了W次喚醒,其中SW次成功喚醒。則:喚醒率=SW/W×100%。誤喚醒率若車載語音交互系統(tǒng)在T小時內(nèi)出現(xiàn)FW次誤喚醒。則:誤喚醒率=FW/T次/小時。20.5/小時。車載語音交互系統(tǒng)測試方法概述GB/T21023測試語料設(shè)計車載語音交互系統(tǒng)測試語料設(shè)計原則應(yīng)符合語音識別系統(tǒng)輸入準(zhǔn)則:中文車載語音交互系統(tǒng)應(yīng)支持漢語通用語,從信息社會發(fā)展角度支持推廣普通話。180-300/min30s60s。0.2s2s2s,則認為一次語音輸入結(jié)束。GB/T21023-2007測試語料應(yīng)從詞匯量覆蓋、開放業(yè)務(wù)覆蓋、音節(jié)覆蓋,以及常用性角度加以設(shè)計,設(shè)計要求如下:對于命令詞識別車載語音識別系統(tǒng),測試語料應(yīng)覆蓋被測系統(tǒng)的所有詞匯。建議測試語料的規(guī)200對于連續(xù)語音識別車載語音識別系統(tǒng),測試語料應(yīng)盡量覆蓋被測系統(tǒng)的詞匯,對于每種開放業(yè)500測試語音/環(huán)境噪聲錄制測試語音/環(huán)境噪聲錄制要求如下:對于非特定人群車載語音識別系統(tǒng),特別強調(diào)對含有一定口音的漢語語音適應(yīng)能力和漢語聲調(diào)問題。3050-100名以上的發(fā)音人錄制。應(yīng)在符合系統(tǒng)對識別人群限制的條件下,盡量選擇具有代表性和統(tǒng)計分布規(guī)律的發(fā)音人,特別是應(yīng)考慮不同口音、不同的普通話等級、不同年齡、不同語速、不同教育背景、不同說話韻律等因素。對于命令詞識別車載語音識別系統(tǒng),應(yīng)盡量保證由各發(fā)音人分100測試語音可以是發(fā)音人的語音或通過高保真設(shè)備回放的測試語音。測試語音文件的錄制格式為.wav44.1kHz16bit風(fēng)間應(yīng)保持一定距離(15cm,避免風(fēng)噪的影響),并確保波形采樣范圍為±5000背景噪聲的錄制在真車內(nèi)進行,使用一個放置在靠近車載免提麥克風(fēng)處的測量傳聲器來錄制背景噪聲,如果條件允許,也可以使用車載免提麥克風(fēng)來直接錄制。一般由測試實驗室(與生產(chǎn)廠家)來共同決定使用背景噪聲的類型。環(huán)境噪聲文件的錄制格式為.wav44.1kHz16bit2表2 典型的環(huán)境噪聲的場景場景編號行車環(huán)境車速車窗空調(diào)麥克風(fēng)處的環(huán)境噪聲聲壓級(僅供參考,以實際錄制結(jié)果為準(zhǔn))備注1安靜0km/h關(guān)關(guān)45-50dB(A)必選2鬧市40-60km/h關(guān)低檔50-65dB(A)必選3高速60-120km/h關(guān)中檔65-75dB(A)必選4鬧市40-60km/h半開關(guān)65-75dB(A)可選5高速60-120km/h半開關(guān)70-85dB(A)可選基于語音標(biāo)準(zhǔn)庫的測試方法概況ITU-TP.581規(guī)定的HATSHATS進行校準(zhǔn)和均衡。背景噪聲重放使用四個中音揚聲器和一個低音揚聲器組成的陣列來模擬行車噪聲場景,如圖2所示。使用揚聲器為了使得揚聲器、免提麥克風(fēng)和HATS的聲傳輸路徑間的干擾最小,應(yīng)仔細選擇揚聲器的放置位置。圖2 語音識別測量及背景噪聲重放設(shè)置車內(nèi)測試配置HATS一般由廠家來指定HATS(包括仿真嘴和仿真耳分別相對于麥克風(fēng)和揚聲器的距離HATS為了保證每次車內(nèi)測試時HATS(比如在車內(nèi)中標(biāo)出HATS相對于某一位置的距離,如左、右車門和車頂?shù)裙潭ㄎ矬w。注:如有特殊測試要求,也可以放置在副駕駛位和乘客位。仿真嘴仿真嘴應(yīng)符合ITU-TP.58的規(guī)定,并依據(jù)ITU-TP.340在MRP處進行均衡。在MRP校準(zhǔn)的聲壓級為-4.7dBPa。對于揚聲式車載免提終端,應(yīng)在HATS-HFRP(HATS免提參考點)處進行聲壓校準(zhǔn),使得HATS-HFRP處的平均聲壓級為-25.7dBPa,此時MRP處的聲壓為發(fā)送方向源信號大小。以上過程的具體操作步驟見ITU-TP.581的相關(guān)部分。測試行車噪聲環(huán)境下時,由于“倫巴效應(yīng)”,仿真嘴的輸出電平會增大。0IN

forfor

N5050N77

0.3N8.0

for

N77I--仿真嘴輸出電平增大值N--靠近駕駛員頭部位置的長時A記權(quán)噪聲大小ITU-TP.340中規(guī)定,在免提裝置的發(fā)送測試中,0.3倍的語音電平增長應(yīng)單獨計算。仿真耳對于揚聲免提終端,HATS左右耳的聲信號均被使用。HATS應(yīng)進行自由場或擴散場均衡,具體可參考ITU-TP.581。對于頭戴免提終端,使用的耳型和佩戴位置見ITU-TP.380。測試信號和電平測試可以使用提前錄制的真人語音信號。(詳見ITU-T測試信號的平均大小規(guī)定如下:HATS-HFRP-28.7dBPa),這一水平適用于耳機的免提終端;(MRP):-1.7dBPa(典型的平均說話聲壓級)HATS-HFRP處聲壓級大小為-25.7dBPa)。注:背景噪聲測試中要考慮“倫巴效應(yīng)”(由于高背景噪聲而增加說話者的說話聲壓級)。測試步驟字準(zhǔn)確率6.4.3.16.4.26.26.3MRP)處在6.4.3.4。同步播放測試信號和相應(yīng)背景噪聲場景。d)記錄字準(zhǔn)確率。注:安靜情況下,不需播放背景噪聲。識別成功率6.4.3.16.4.26.26.36.4.3.4。同步播放測試信號和相應(yīng)背景噪聲場景。記錄識別結(jié)果。完成所有命令詞測試后,統(tǒng)計不同場景下語音識別率。平均響應(yīng)時間6.4.3.16.26.36.4.3.4。播放測試信號,記錄語音輸入的結(jié)束時刻為te;車載語音識別系統(tǒng)的開始響應(yīng)時刻為tr。t-。注:從標(biāo)準(zhǔn)庫中選擇5段語音,分別進行本地語音識別和在線語音識別。如是在線語音識別,請保持網(wǎng)絡(luò)良好。喚醒率6.4.3.16.4.26.26.36.4.3.4。同步播放測試信號和相應(yīng)背景噪聲場景。記錄喚醒測試結(jié)果。重復(fù)喚醒測試,統(tǒng)計不同場景下喚醒率。誤喚醒率6.4.3.16.4.26.2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論