




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
TAF-WG4AS0001-V1.0.0智能產(chǎn)品語音識別測評方法第1部分:車載語音交互系統(tǒng)范圍本文件從影響車載交互系統(tǒng)的語音識別性能的各技術(shù)角度出發(fā),制定相應的測試方法和技術(shù)要求。本文件適用于車載終端設備配置的中文語音識別系統(tǒng)。本文件的制定和實施主要用于指導前裝的車載語音交互系統(tǒng)。后裝的車載語音交互系統(tǒng)可參考本文件。規(guī)范性引用文件下列文件中的條款通過本文件的引用而成為本文件的條款。凡是注明日期的引用文件,其隨后所有的修改版(不包括勘誤的內(nèi)容)或修訂版均不適用于本文件,然而,鼓勵根據(jù)本文件達成協(xié)議的各方研究是否可使用這些文件的最新版本。凡是不注日期的引用文件,其最新版本適用于本文件。GB/T2007中文語音識別系統(tǒng)通用技術(shù)規(guī)范ITU-TP.5612/2001激活語音電平的客觀測量(Objectivemeasurementofactivespeechlevel)ITU-TP.5812000HATS在免提終端測試中的使用(Useofheadandtorsosimulator(HATS)forhands-freeterminaltesting)ITU-TP.851基于口語對話系統(tǒng)的電話服務的主觀質(zhì)量評價(Subjectivequalityevaluationoftelephoneservicesbasedonspokendialoguesystems)術(shù)語、定義和縮略語術(shù)語和定義下列術(shù)語和定義適用于本文件。語音識別speechrecognition將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。語音識別系統(tǒng)speechrecognitionsystem具有語音識別功能的開發(fā)工具、軟件、裝置或應用。車載系統(tǒng)in-vehiclesystem能產(chǎn)生人類智能行為的車載計算機系統(tǒng),可為用戶提供車輛控制、安全、信息、娛樂等方面的功能或服務。車載語音交互系統(tǒng)in-vehiclespeechinteractionsystem實現(xiàn)人類與車載系統(tǒng)間語音交互的系統(tǒng),以將人類的語音輸入轉(zhuǎn)化為車載系統(tǒng)可識別的控制指令,同時將車載系統(tǒng)的反饋信息通過語音或文字輸出為主要目的。識別決策recognitionstrategies根據(jù)客觀的可能性,以已知的信息和知識為基礎(chǔ),借助一定的方法對識別目標的諸多可能情況進行分析、計算和選優(yōu)后,做出的行動決定。語音喚醒speechwakeup車載語音識別系統(tǒng)在睡眠模式下自動檢測背景語音中的喚醒詞,在成功匹配的情況下轉(zhuǎn)入正常工作模式。響應時間triggertime對于特定的語音識別任務,若語音輸入的結(jié)束時刻為;車載語音識別系統(tǒng)的開始響應時刻為。則:響應時間=tr-te縮略語下列縮略語適用于本文件。HATS:頭和軀干模擬器(HeadAndTorsoSimulator)車載語音交互系統(tǒng)分類及表述概述車載語音交互系統(tǒng)根據(jù)基本屬性如應用場景、詞匯量、應用人群、工作模式、應用環(huán)境等進行分類。從用戶感受的角度觸發(fā),把車載語音交互系統(tǒng)當作黑匣子,車載語音交互系統(tǒng)的性能指標僅基于系統(tǒng)的應用場景屬性提出?;趹脠鼍暗姆诸愜囕d語音交互系統(tǒng)基于應用場景可以分為:文字輸入類、聲音檢測識別類和對話類三類系統(tǒng),或兼容三種應用場景。文字輸入類以文字錄入為主要目的,要求把語音轉(zhuǎn)化成文字的系統(tǒng),如短消息功能。聲音檢測識別類是指根據(jù)用戶語音中發(fā)出的特定命令或者關(guān)鍵詞,完成特定操作和業(yè)務的應用場景。如撥打電話、音樂命令控制等??谡Z對話類是指接受用戶以對話形式發(fā)出的自然的口頭語言,明白及理解用戶意圖及想要獲取的信息,并將以各種形式與用戶進行反饋,以將對話繼續(xù)進行的應用。如地圖查詢,天氣查詢等。車載語音交互系統(tǒng)的結(jié)構(gòu)表述語音交互系統(tǒng)可分為前端語音預處理模塊、語音識別模塊、語義理解模塊、交互決策模塊和語音合成模塊。前端語音預處理模塊負責將語音輸入轉(zhuǎn)化為語音流,作為語音識別模塊的輸入。語音識別模塊負責將語音流轉(zhuǎn)換為人類可識別的文本信息直接輸出到相關(guān)的應用模塊,或轉(zhuǎn)換為計算機可識別的字符串輸出到語義理解模塊。語義理解模塊負責對語音識別模塊的識別結(jié)果做語義解析。識別決策模塊負責根據(jù)語義理解模塊“理解的”的結(jié)果制定識別決策,并依此向相關(guān)應用模塊下達控制指令及獲取反饋信息。語音合成模塊負責將識別決策模塊或應用模塊提供的計算機可識別的文本信息轉(zhuǎn)換為語音信號輸出。某些子模塊可選擇在本地、云端或融合實現(xiàn)。語音預處理模塊語音預處理模塊應用模塊語意理解模塊交互決策模塊語音合成模塊語音識別模塊車載語音交互系統(tǒng)結(jié)構(gòu)圖車載語音交互系統(tǒng)的性能指標要求概述車載語音交互系統(tǒng)的性能需滿足以下指標要求,其中喚醒率和誤喚醒率僅針對支持語音喚醒功能的車載語音交互系統(tǒng)。這些要求與系統(tǒng)的用途有關(guān),多用途的需求分別滿足多指標的要求。系統(tǒng)給出的具體指標應明確在何種條件下成立。字準確率字準確率的性能指標定義詳見GB/T21023中5.2.1的內(nèi)容。該指標用于評價車載語音交互系統(tǒng)輸出的人類可識別的文本信息的正確率。對于中文普通話車載語音交互系統(tǒng),該項指標的評價分類如表1所示。中文普通話感受效果分類識別率評價效果≥90%優(yōu)秀<90%且>70%可接受≤70%不可接受識別成功率若車載語音交互系統(tǒng)在既定的識別輪數(shù)內(nèi)完成了語音識別任務,則此次語音識別成功。語音識別成功與否應兼顧車載系統(tǒng)動作的可靠性問題。若車載語音識別系統(tǒng)共進行了R次特定的語音識別任務,其中SR次識別成功,F(xiàn)R次識別出現(xiàn)誤操作(包括未在既定的識別輪數(shù)內(nèi)完成的識別、未完成識別前退出、識別無響應和錯誤識別)。則:識別成功率=SR/R×100%;誤操作率=FR/R×100%;識別成功率+誤操作率=1。該指標用于評價車載語音交互系統(tǒng)對語音識別任務的正確響應情況。對于中文普通話車載語音交互系統(tǒng),該項指標的評價分類如表1所示。在如表2所述的測試環(huán)境下,具體要求如下:場景1的識別成功率應≥80%;場景2的識別成功率應≥75%;場景3的識別成功率應≥70%。平均響應時間該指標用于評價車載語音交互系統(tǒng)對語音識別任務的響應速度。離線車載語音交互系統(tǒng)的平均響應時間應≤2s;在線車載語音交互系統(tǒng)的平均響應時間應≤3s。喚醒率若車載語音交互系統(tǒng)共進行了W次喚醒,其中SW次成功喚醒。則:喚醒率=SW/W×100%。該指標用于評價車載語音識別系統(tǒng)在疊加背景音樂的情況下,對語音喚醒操作的正確響應情況。在表2所述的測試環(huán)境下疊加低檔背景音樂,場景1的喚醒率應≥95%;場景2的喚醒率應≥88%。誤喚醒率若車載語音交互系統(tǒng)在T小時內(nèi)出現(xiàn)FW次誤喚醒。則:誤喚醒率=FW/T次/小時。該指標用于評價車載語音交互系統(tǒng)在疊加背景語音的情況下,對語音喚醒操作的錯誤響應情況。在表2所述的測試環(huán)境下疊加低檔背景音樂,誤喚醒率應≤0.5次/小時。車載語音交互系統(tǒng)測試方法概述為保證車載語音交互系統(tǒng)測試的可重復性和性,應采用基于車載語音識別系統(tǒng)測試標準庫的測試方法。語音識別標準庫的建立應按照GB/T21023中的要求進行。車載語音識別系統(tǒng)測試標準庫應同其開發(fā)庫獨立同分布。測試語料的設計與測試語音/環(huán)境噪聲的錄制應保證與實際應用場景的一致性。影響車載語音識別性能的因素包括不同用戶、語言種類、口音、發(fā)音、語速、詞匯量、語境、噪聲環(huán)境。測試時應充分考慮車載語音交互系統(tǒng)的設計目標和各因素下對性能指標影響。測試語料設計車載語音交互系統(tǒng)測試語料設計原則應符合語音識別系統(tǒng)輸入準則:a)中文車載語音交互系統(tǒng)應支持漢語通用語,從信息社會發(fā)展角度支持推廣普通話。b)語音輸入標準語速為180-300字/min,時長一般不超過30s,特殊情況下不超過60s。c)發(fā)音單元的持續(xù)時間不應小于0.2s,發(fā)音單元間的間隔不超過2s;停頓時間超過2s,則認為一次語音輸入結(jié)束。d)對于文本中的分漢字字符,包括數(shù)字、電話號碼、標點符號,其可參照GB/T21023-2007附錄A所定義的方法朗讀。測試語料應從詞匯量覆蓋、開放業(yè)務覆蓋、音節(jié)覆蓋,以及常用性角度加以設計,設計要求如下:e)對于命令詞識別車載語音識別系統(tǒng),測試語料應覆蓋被測系統(tǒng)的所有詞匯。建議測試語料的規(guī)模不小于200句。f)對于連續(xù)語音識別車載語音識別系統(tǒng),測試語料應盡量覆蓋被測系統(tǒng)的詞匯,對于每種開放業(yè)務從音節(jié)覆蓋和常用性角度挑選典型語料。建議每種開放業(yè)務測試語料的規(guī)模為500句。測試語音/環(huán)境噪聲錄制測試語音/環(huán)境噪聲錄制要求如下:a)對于非特定人群車載語音識別系統(tǒng),特別強調(diào)對含有一定口音的漢語語音適應能力和漢語聲調(diào)問題。b)測試語音至少應由男女各30名以上的發(fā)音人錄制,用于語音喚醒功能的測試語音需要50-100名以上的發(fā)音人錄制。應在符合系統(tǒng)對識別人群限制的條件下,盡量選擇具有代表性和統(tǒng)計分布規(guī)律的發(fā)音人,特別是應考慮不同口音、不同的普通話等級、不同年齡、不同語速、不同教育背景、不同說話韻律等因素。對于命令詞識別車載語音識別系統(tǒng),應盡量保證由各發(fā)音人分別錄制全部測試語料。對于連續(xù)語音識別車載語音識別系統(tǒng),每組測試語料不應超過100句,盡量保證由不同的發(fā)音人錄制。c)測試語音可以是發(fā)音人的語音或通過高保真設備回放的測試語音。測試語音文件的錄制格式為.wav,純凈測試語音的錄制應保證44.1kHz的采樣頻率和16bit的量化間隔,發(fā)音人和麥克風間應保持一定距離(如15cm,避免風噪的影響),并確保波形采樣范圍為±5000—±10000smpl;錄制過程至少應包括錄音、標注和確認三個步驟,以保證測試標準庫的正確性。錄制完成后需按測試語料完成測試語音文件的切分,進入測試系統(tǒng)前需進行語音處理,保證電平符合要求。d)背景噪聲的錄制在真車內(nèi)進行,使用一個放置在靠近車載免提麥克風處的測量傳聲器來錄制背景噪聲,如果條件允許,也可以使用車載免提麥克風來直接錄制。一般由測試實驗室(與生產(chǎn)廠家)來共同決定使用背景噪聲的類型。環(huán)境噪聲文件的錄制格式為.wav,應保證44.1kHz的采樣頻率和16bit的量化間隔,并記錄噪聲幅值,以便重放。環(huán)境噪聲應考慮行車環(huán)境、車速、前車窗和空調(diào)的使用情況。典型的環(huán)境噪聲的錄制場景如表2所示。典型的環(huán)境噪聲的場景場景編號行車環(huán)境車速車窗空調(diào)麥克風處的環(huán)境噪聲聲壓級(僅供參考,以實際錄制結(jié)果為準)備注1安靜0km/h關(guān)關(guān)45-50dB(A)必選2鬧市40-60km/h關(guān)低檔50-65dB(A)必選3高速60-120km/h關(guān)中檔65-75dB(A)必選4鬧市40-60km/h半開關(guān)65-75dB(A)可選5高速60-120km/h半開關(guān)70-85dB(A)可選基于語音標準庫的測試方法概況測試需要在可重復的、模擬真實場景下進行。測試聲場景應模擬行車使用環(huán)境,在真實汽車車殼或真實車輛內(nèi)進行測試。推薦使用符合ITU-TP.581規(guī)定的HATS進行聲音信號的重現(xiàn)與采集,使用前對HATS進行校準和均衡。將語音標準庫中預先錄制好的語音輸入待測系統(tǒng),并統(tǒng)計系統(tǒng)輸出結(jié)果。車載系統(tǒng)的響應可以錄像的方式記錄下來,作為測試結(jié)果之一。背景噪聲重放使用四個中音揚聲器和一個低音揚聲器組成的陣列來模擬行車噪聲場景,如圖2所示。使用揚聲器陣列來重放放背景噪聲時,應首先經(jīng)過均衡和校準,使得免提麥克風位置處的聲功率譜密度和錄音信號一致。均衡既可以使用測量麥克風,也可以使用錄制背景噪聲時用過的車載免提麥克風。比較錄音信號和模擬背景噪聲信號,兩者的最大A計權(quán)聲壓級偏差應不超過±1dB,在100Hz~10kHz頻率范圍內(nèi)的1/3倍頻程功率譜密度偏差應不超過±3dB。為了使得揚聲器、免提麥克風和HATS的聲傳輸路徑間的干擾最小,應仔細選擇揚聲器的放置位置。低音揚聲器放置在座位后面正中后備箱上面,后排兩個揚聲器分別放置在后座靠枕與后窗玻璃之間靠近車殼的支架處,前面兩個揚聲器分別放在儀表面板的上部兩邊。語音識別測量及背景噪聲重放設置車內(nèi)測試配置HATS的放置一般由廠家來指定HATS的放置位置(包括仿真嘴和仿真耳分別相對于麥克風和揚聲器的距離)。如沒有特別指定,測試時HATS應放置在駕駛員的座位上,該具體位置應和多數(shù)人的駕駛習慣位置一致,并且定義仿真嘴到麥克風的距離。測試報告應包含位置信息。為了保證每次車內(nèi)測試時HATS的位置相對固定,可以通過在車內(nèi)進行標注的方法來幫助定位(比如在車內(nèi)中標出HATS相對于某一位置的距離,如左、右車門和車頂?shù)裙潭ㄎ矬w。注:如有特殊測試要求,也可以放置在副駕駛位和乘客位。仿真嘴仿真嘴應符合ITU-TP.58的規(guī)定,并依據(jù)ITU-TP.340在MRP處進行均衡。在MRP校準的聲壓級為-4.7dBPa。對于揚聲式車載免提終端,應在HATS-HFRP(HATS免提參考點)處進行聲壓校準,使得HATS-HFRP處的平均聲壓級為-25.7dBPa,此時MRP處的聲壓為發(fā)送方向源信號大小。以上過程的具體操作步驟見ITU-TP.581的相關(guān)部分。測試行車噪聲環(huán)境下時,由于“倫巴效應”,仿真嘴的輸出電平會增大。式中:I--仿真嘴輸出電平增大值N--靠近駕駛員頭部位置的長時A記權(quán)噪聲大小ITU-TP.340中規(guī)定,在免提裝置的發(fā)送測試中,0.3倍的語音電平增長應單獨計算。仿真耳對于揚聲免提終端,HATS左右耳的聲信號均被使用。HATS應進行自由場或擴散場均衡,具體可參考ITU-TP.581。對于頭戴免提終端,使用的耳型和佩戴位置見ITU-TP.380。測試信號和電平測試可以使用提前錄制的真人語音信號。所有的測試信號電平都是指測試信號的激活語音電平(詳見ITU-TP.56)。語音識別測試在發(fā)送方向使用的是非限帶信號。測試信號的平均大小規(guī)定如下:發(fā)送方向(MRP):-4.7dBPa(典型的講話平均聲壓級,相當于HATS-HFRP處聲壓級大小為-28.7dBPa),這一水平適用于耳機的免提終端;發(fā)送方向(MRP):-1.7dBPa免提揚聲器終端(典型的平均說話聲壓級)(相當于HATS-HFRP處聲壓級大小為-25.7dBPa)。注:背景噪聲測試中要考慮“倫巴效應”(由于高背景噪聲而增加說話者的說話聲壓級)。測試步驟字準確率a)人工頭按照配置,背景噪聲系統(tǒng)按照6.4.2配置并均衡。b)測試信號為根據(jù)6.2、6.3錄制的語音信號。由人工嘴產(chǎn)生測試信號的頻譜在嘴參考點(MRP)處在自由聲場的條件下進行校準。測試信號幅值見。c)同步播放測試信號和相應背景噪聲場景。d)記錄字準確率。注:安靜情況下,不需播放背景噪聲。識別成功率a)人工頭按照配置,背景噪聲系統(tǒng)按照6.4.2配置并均衡。b)測試信號為根據(jù)6.2、6.3錄制的語音信號,即相應命令詞語。由人工嘴產(chǎn)生測試信號的頻譜在嘴參考點(MRP)處在自由聲場的條件下進行校準。測試信號幅值見。c)同步播放測試信號和相應背景噪聲場景。d)記錄識別結(jié)果。e)完成所有命令詞測試后,統(tǒng)計不同場景下語音識別率。平均響應時間a)人工頭按照配置。b)測試信號為根據(jù)6.2、6.3錄制的語音信號,即相應命令詞語。由人工嘴產(chǎn)生測試信號的頻譜在嘴參考點(MRP)處在自由聲場的條件下進行校準。測試信號幅值見。c)播放測試信號,記錄語音輸入的結(jié)束時刻為;車載語音識別系統(tǒng)的開始響應時刻為。d)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福州墨爾本理工職業(yè)學院《企業(yè)資源規(guī)劃系統(tǒng)與應用》2023-2024學年第二學期期末試卷
- 鄭州大學《機器人機械系統(tǒng)》2023-2024學年第二學期期末試卷
- 衡水學院《影視文學研究》2023-2024學年第二學期期末試卷
- 廂式改裝車、特種車輛項目效益評估報告
- 羅定職業(yè)技術(shù)學院《別墅建筑空間設計》2023-2024學年第二學期期末試卷
- 《 峨日朵雪峰之側(cè)》教學設計 2024-2025學年統(tǒng)編版高中語文必修上冊
- 揚州大學廣陵學院《機器學習實驗》2023-2024學年第二學期期末試卷
- 昆玉職業(yè)技術(shù)學院《工業(yè)機器人基礎(chǔ)與實踐》2023-2024學年第二學期期末試卷
- 浙江外國語學院《水產(chǎn)養(yǎng)殖學創(chuàng)新創(chuàng)業(yè)教育》2023-2024學年第二學期期末試卷
- 【化學】認識有機化合物 第一課時教學設計 2024-2025學年高一下學期化學人教版(2019)必修第二冊
- 中國煙草總公司鄭州煙草研究院筆試試題2023
- 建設法規(guī)(全套課件)
- 心衰患者的容量管理中國專家共識-共識解讀
- 個人投資收款收據(jù)
- H3C全系列產(chǎn)品visio圖標庫
- 新生兒常見儀器的使用與維護 課件
- 工藝能力分析報告
- 《給校園植物掛牌》課件
- 氣道高反應性教學演示課件
- 健身房眾籌方案
- 護理帶教匯報課件
評論
0/150
提交評論