機(jī)器人感知智能 課件 第5章 機(jī)器人聽(tīng)覺(jué)感知_第1頁(yè)
機(jī)器人感知智能 課件 第5章 機(jī)器人聽(tīng)覺(jué)感知_第2頁(yè)
機(jī)器人感知智能 課件 第5章 機(jī)器人聽(tīng)覺(jué)感知_第3頁(yè)
機(jī)器人感知智能 課件 第5章 機(jī)器人聽(tīng)覺(jué)感知_第4頁(yè)
機(jī)器人感知智能 課件 第5章 機(jī)器人聽(tīng)覺(jué)感知_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器人感知智能第五章機(jī)器人聽(tīng)覺(jué)感知聲音是一種物理波動(dòng)現(xiàn)象,即聲源振動(dòng)或氣動(dòng)發(fā)聲所產(chǎn)生的聲波。聲波通過(guò)空氣、固體、液體等介質(zhì)傳播,便能被人或動(dòng)物的聽(tīng)覺(jué)器官所感知。聲波具有一般波的各種特性,包括反射、折射和衍射等。聲音還是一種心理感受,不僅與人的生理構(gòu)造和聲音的物理性質(zhì)有關(guān),還受到環(huán)境和背景的影響。圖5.1聲音的分類關(guān)系圖5.1.1人類聽(tīng)覺(jué)模型一、聲音的定義5.1機(jī)器人聽(tīng)覺(jué)概述純音和復(fù)合音都是周期性聲音,波形具有一定的重復(fù)性,具有明顯的音高。純音是只具有單一頻率的正弦波,通常只能由音叉、電子器件或合成器產(chǎn)生,在自然環(huán)境下一般不會(huì)發(fā)生。日常生活和自然界中聽(tīng)到的聲音大多是復(fù)合音,由許多參數(shù)不同的正弦波分量疊加而成。純音和復(fù)合音之間可以互相合成與分解。從信號(hào)的角度——聲音可分為純音、復(fù)合音和噪聲。從聲音特性的角度——聲音可劃分為語(yǔ)音、音樂(lè)和一般音頻。語(yǔ)音信號(hào)屬于復(fù)合音,其基本要素是音高、強(qiáng)度、音長(zhǎng)、音色等。音樂(lè)是人類創(chuàng)造的復(fù)雜的藝術(shù)形式,組成成分是上述的各種樂(lè)音,包括歌聲、各種管弦和彈撥類樂(lè)器發(fā)出的復(fù)合音、少量來(lái)自環(huán)境聲的復(fù)合音以及一些來(lái)自打擊樂(lè)器的噪樂(lè)音。除了人類創(chuàng)造的語(yǔ)音和音樂(lè),在自然界和日常生活中,還存在著其他數(shù)量巨大、種類繁多的聲音,統(tǒng)稱為一般音頻或環(huán)境聲。5.1.1人類聽(tīng)覺(jué)模型二、人類聽(tīng)覺(jué)中樞外耳包括耳翼和外耳道兩個(gè)部分。從外耳道發(fā)出的聲音在中頻區(qū)域與外耳產(chǎn)生共鳴。外耳道的最后部分是一種稱為鼓膜的薄膜。中耳包括鼓膜和內(nèi)耳層,內(nèi)層有三個(gè)聽(tīng)小骨,即錐骨、砧骨和鐙骨,它們彼此相連。聲波經(jīng)外耳道進(jìn)入后,會(huì)引起鼓膜的震動(dòng),三個(gè)與鼓膜連接的聽(tīng)骨會(huì)因?yàn)槁曇舻恼饎?dòng)而產(chǎn)生震動(dòng)。內(nèi)耳是人類聽(tīng)覺(jué)的一個(gè)主要器官,在內(nèi)耳有一個(gè)重要的螺旋狀環(huán)形通路,稱為耳蝸。耳蝸是主要的聽(tīng)覺(jué)器官,它是由骨頭組成,外形像蝸牛,里面充滿了高電阻的淋巴。當(dāng)聲音傳入耳內(nèi)時(shí),由外耳、中耳、內(nèi)耳分別負(fù)責(zé),共同發(fā)出“感覺(jué)”訊息給大腦。一般而言,聲源與媒介間的時(shí)序差異和聲源間的強(qiáng)度差異,可以幫助人們精確地確定聲源的方位。5.1.1人類聽(tīng)覺(jué)模型三、人類聽(tīng)覺(jué)中樞的工作方式機(jī)器人聽(tīng)覺(jué)傳感器的總體思想:模仿人的聽(tīng)覺(jué)中樞,完成語(yǔ)音信號(hào)的信息提取和聲源定位。外耳鼓膜接收外界聲音,鼓膜產(chǎn)生震動(dòng),中耳將這種震動(dòng)放大、壓縮和限幅,并抑制噪聲。內(nèi)耳的主要功能是對(duì)不同聲音進(jìn)行分析。纖維將基底膜接受聲音時(shí)產(chǎn)生的震動(dòng)變成電信號(hào)的平均值時(shí),對(duì)應(yīng)的繼電器接通。位于耳蝸底部的基底膜使得耳蝸帶有相異的電諧振以及機(jī)械諧振效應(yīng),如果接收到的聲音信號(hào)中含有不同頻率段,那么在基底膜的不同位置會(huì)產(chǎn)生由于行波差異導(dǎo)致的某個(gè)頻率段的最大峰值。重合神經(jīng)元主要負(fù)責(zé)完成突觸和細(xì)胞體的響應(yīng),在整個(gè)聽(tīng)覺(jué)中樞系統(tǒng)中完成對(duì)語(yǔ)音信號(hào)的空間方位信息提取與整合。5.1.1人類聽(tīng)覺(jué)模型(一)聲源目標(biāo)的實(shí)時(shí)定位:在許多應(yīng)用場(chǎng)景下機(jī)器人是需要實(shí)時(shí)與人進(jìn)行溝通的,目標(biāo)定位的實(shí)時(shí)性是機(jī)器人定位應(yīng)用的關(guān)鍵問(wèn)題,如何進(jìn)一步提高算法的精度和速度是下一步研究的主要內(nèi)容之一。(二)多語(yǔ)音識(shí)別:很多時(shí)候機(jī)器人實(shí)際工作環(huán)境不可能是單聲源的,如何在多聲源情況下服務(wù)機(jī)器人準(zhǔn)確辨識(shí)、分離、判斷任務(wù),是人機(jī)互動(dòng)的前提之一。(三)針對(duì)運(yùn)動(dòng)聲源實(shí)現(xiàn)跟蹤定位:機(jī)器人大多需要不停移動(dòng)或者被服務(wù)對(duì)象是運(yùn)動(dòng)的,如何針對(duì)運(yùn)動(dòng)的聲源進(jìn)行定位、追蹤,同樣是服務(wù)機(jī)器人進(jìn)行聲源定位的研究?jī)?nèi)容之一。(四)智能、友好的交互方式:機(jī)器人可以透明地、主動(dòng)與人交互,而人處于被動(dòng)的方式。因此,服務(wù)機(jī)器人目標(biāo)聲源定位技術(shù)一定程度上受到相關(guān)技術(shù)的限制,例如聲音的分離、檢測(cè)以及識(shí)別等。一、聽(tīng)覺(jué)感知應(yīng)用5.1.2機(jī)器人聽(tīng)覺(jué)感知二、機(jī)器人聽(tīng)覺(jué)在應(yīng)用中需要解決的問(wèn)題音頻時(shí)頻表示:包括音頻本身的表示,如信號(hào)或符號(hào)、單聲道或雙聲道、模擬或數(shù)字、聲波樣本、壓縮算法的參數(shù)等;音頻信號(hào)的各種時(shí)頻表示,如短時(shí)傅里葉變換、小波變換、小波包變換、連續(xù)小波變換、常數(shù)Q變換、S變換、希爾伯特-黃變換、離散余弦變換等;音頻信號(hào)的建模表示由于種類繁多,又通常包含多個(gè)聲源,無(wú)法像語(yǔ)音信號(hào)那樣被有效地表示成某個(gè)特定的模型,如源濾波器模型,通常使用濾波器組或正弦波模型來(lái)獲取并捕捉多個(gè)聲音參數(shù)。特征提?。阂纛l特征是對(duì)音頻內(nèi)容的緊致反映,用來(lái)刻畫音頻信號(hào)的特定方面,有時(shí)域特征、頻域譜特征、T-F特征、統(tǒng)計(jì)特征、感知特征、中層特征、高層特征等數(shù)十種。典型的時(shí)域特征如過(guò)零率、能量,頻域譜特征如譜質(zhì)心、譜通量,T-F特征如基于頻譜圖的Zernike矩、基于頻譜圖的描述子,統(tǒng)計(jì)特征如峰度、均值,感知特征如Mel頻率倒譜系數(shù)、線性預(yù)測(cè)倒譜系數(shù),中層特征如半音類,高層特征如旋律、節(jié)奏、頻率顫音等。5.1.2機(jī)器人聽(tīng)覺(jué)感知聲音相似性:兩段音頻之間或者一段音頻內(nèi)部各子序列之間的相似性一般通過(guò)計(jì)算音頻特征之間的各種距離來(lái)度量。距離越小,相似度越高。在某些時(shí)域信息很重要的場(chǎng)合,通常使用動(dòng)態(tài)時(shí)間規(guī)整來(lái)計(jì)算相似度,也可通過(guò)機(jī)器學(xué)習(xí)方法進(jìn)行音頻相似性計(jì)算。聲源分離:與通常只有一個(gè)聲源的語(yǔ)音信號(hào)不同,現(xiàn)實(shí)聲音場(chǎng)景中的環(huán)境聲及音樂(lè)的一個(gè)基本特性就是包含多個(gè)同時(shí)發(fā)聲的聲源,因此聲源分離問(wèn)題成為一個(gè)極其重要的技術(shù)難點(diǎn)。音樂(lè)中的各種樂(lè)器及歌聲按照旋律、和聲及節(jié)奏耦合起來(lái),對(duì)其進(jìn)行分離比分離環(huán)境聲中各種基本不相關(guān)的聲源要更加困難,至今沒(méi)有方法能很好地解決這個(gè)問(wèn)題。多模態(tài)分析:人類對(duì)世界的感知都是結(jié)合各個(gè)信息源綜合得到的。因此,對(duì)數(shù)字音頻和音樂(lè)進(jìn)行內(nèi)容分析理解時(shí),理想情況下也需要結(jié)合文本、視頻、圖像等多種媒體進(jìn)行多模態(tài)的跨媒體研究。二、機(jī)器人聽(tīng)覺(jué)在應(yīng)用中需要解決的問(wèn)題5.1.2機(jī)器人聽(tīng)覺(jué)感知5.2.1麥克風(fēng)原理:電磁感應(yīng)原理。當(dāng)發(fā)射聲波后,膜片產(chǎn)生振動(dòng),膜片內(nèi)部纏繞的線圈(又稱音圈)也隨之振動(dòng)。線圈纏繞在磁鐵上,在磁鐵產(chǎn)生的磁場(chǎng)內(nèi)發(fā)生振動(dòng),振動(dòng)導(dǎo)致電流產(chǎn)生,輸出電信號(hào)。當(dāng)話筒采集到的聲音時(shí),在音圈內(nèi)產(chǎn)生的電流的幅度和方向也會(huì)隨之改變,獲取到的聲音信號(hào)決定了感應(yīng)電流變化的大小。優(yōu)點(diǎn):結(jié)構(gòu)簡(jiǎn)單、穩(wěn)定性好、自身噪音小、容易操作、實(shí)用性好、成本低。缺點(diǎn):靈敏度低、頻率范圍窄。結(jié)構(gòu):電容式麥克風(fēng)內(nèi)包含三部分,即振膜、金屬極板和負(fù)載電阻。原理:內(nèi)部含有兩個(gè)導(dǎo)電膜片,當(dāng)振膜受到聲波振動(dòng)時(shí),導(dǎo)電膜片之間的電容大小產(chǎn)生變化,導(dǎo)致整個(gè)電路中的電流隨之變化。電流的變化導(dǎo)致負(fù)載電阻上產(chǎn)生相對(duì)應(yīng)的電壓,將接收到的聲音信號(hào)就變成電信號(hào)。優(yōu)點(diǎn):具有平坦的頻率響應(yīng)。對(duì)于語(yǔ)音信號(hào)的識(shí)別,語(yǔ)音頻率范圍內(nèi)靈敏度統(tǒng)一,有利于單通道語(yǔ)音識(shí)別處理。缺點(diǎn):靈敏度不足、識(shí)別距離有限、功耗大、大放大電路不穩(wěn)定等。圖5.6動(dòng)圈式麥克風(fēng)結(jié)構(gòu)示意圖一、動(dòng)圈式麥克風(fēng)二、電容式麥克風(fēng)5.2聲音傳感器毫米級(jí)駐極體麥克風(fēng)具有極低的雜散電容、自偏置、可大規(guī)模生產(chǎn)、可陣列、可與片上電子器件集成、結(jié)構(gòu)簡(jiǎn)單且在普通環(huán)境中隨時(shí)間推移極其穩(wěn)定等特點(diǎn)。在聲控電路、錄音機(jī)、無(wú)線話筒等方面廣泛應(yīng)用,在其生產(chǎn)高峰時(shí)每年產(chǎn)量超過(guò)10億個(gè)。由于出色的電荷存儲(chǔ)氟碳聚合物的特性,幾乎所有商用非硅駐極體麥克風(fēng)使用碳氟化合物駐極體,例如聚四氟乙烯,且考慮到輸入輸出阻抗問(wèn)題,駐極體電容式話筒在工作時(shí)需要直流工作電壓。圖5.7駐極體麥克風(fēng)優(yōu)點(diǎn):高可靠性、高穩(wěn)定性、高一致性、低不良率和低返修率等優(yōu)點(diǎn)。圖5.11MEMS傳感器結(jié)構(gòu)示意圖與傳感器實(shí)物圖片(一)駐極體麥克風(fēng)(二)MEMS電容傳感器5.2.1麥克風(fēng)壓電式麥克風(fēng)是用晶體或陶瓷(欽酸鋇等材料)作為變換元件,利用壓電原理將機(jī)械振動(dòng)從聲波信號(hào)轉(zhuǎn)換為電信號(hào)。在壓電式麥克風(fēng)中,常用用來(lái)制造振動(dòng)隔膜的壓電材料是氮化鋁和氧化鋅。壓電式麥克風(fēng)的優(yōu)點(diǎn)是靈敏度高、體積小。壓電效應(yīng)是通過(guò)變形來(lái)產(chǎn)生電荷,除了可以作為聲音傳感元件,壓電效應(yīng)所產(chǎn)生的電信號(hào)還可用于感知運(yùn)動(dòng)引起的物理或化學(xué)效應(yīng)。圖5.12柔性壓電式麥克風(fēng)的工作流程示意圖

電容式壓阻式電磁式壓電式檢測(cè)信號(hào)電容電壓電流電壓外部供電需要需要不需要不需要開(kāi)路靈敏度低低低高頻率響應(yīng)平坦尖峰尖峰聲音頻帶可調(diào)表5.1不同聲傳感器的性能對(duì)比三、壓電式麥克風(fēng)5.2.1麥克風(fēng)

圖5.14幾款超聲波傳感器芯片:(a)MaxBotixInc.(MB1414-000);(b)MaxBotixInc.(MB1443-000);(c)TDKInvenSense(MOD_CH101-03-01).超聲波是一種具有很短的波長(zhǎng)(在空氣中不到2厘米)的機(jī)械波,它必須通過(guò)媒介來(lái)傳遞,在空中的傳播速度沒(méi)有聲音和次聲波快,在水里的傳播范圍要更大一些。超聲傳感器測(cè)距包括三個(gè)主要過(guò)程,即超聲波的產(chǎn)生、傳播和接收。5.2.2超聲波傳感器超聲波傳感器是一種應(yīng)用超聲波技術(shù)研制而成的傳感器,可以把各種能量和超聲波轉(zhuǎn)換成各種形態(tài)的裝置。超聲波傳感器的核心部分是一種能夠發(fā)出和接收聲波的壓電片。超聲波探頭可以分為直探頭、雙探頭、斜探頭等。超聲波沿著一條直線進(jìn)行傳播,其發(fā)射頻率越高,其反射性能越好。目前超聲傳感器的市場(chǎng)份額最大的是電聲型傳感器和水力型超聲波傳感器。一、工作原理電聲傳感器包括壓電、磁致伸縮、靜電三大類;液動(dòng)超聲傳感器分為兩類,即氣態(tài)和液態(tài)。5.2.2超聲波傳感器超聲波接收器的工作原理:利用發(fā)電機(jī)中的壓電晶體共振來(lái)生成聲波。常見(jiàn)的壓電式超聲波傳感器內(nèi)部包括兩塊壓電晶圓和一塊喇叭或共振板,當(dāng)負(fù)載的脈沖信號(hào)與壓電晶圓的自振頻率一致時(shí),它們就會(huì)發(fā)生共鳴,從而引起振蕩,因此形成了超聲波信號(hào)。反之,在不將脈沖信號(hào)導(dǎo)入壓電晶圓的兩端時(shí),若在擴(kuò)音器或共振板上檢測(cè)到超聲波,則該揚(yáng)聲器或諧振板將引起振蕩,從而使壓電晶片產(chǎn)生振動(dòng),使物理機(jī)械能量轉(zhuǎn)化為電能,而壓電晶體在振動(dòng)時(shí),將會(huì)產(chǎn)生電信號(hào),從而使壓電晶體的兩端產(chǎn)生電信號(hào),這時(shí),超聲波發(fā)生器就變成了超聲波接收器。接觸式超聲傳感器主要用于變壓器、組合電器等大型電力設(shè)備監(jiān)測(cè);非接觸式超聲傳感器則主要用于電力電纜、開(kāi)關(guān)柜等電力設(shè)備檢測(cè)。圖5.16超聲波往返時(shí)間檢測(cè)法測(cè)距原理示意圖圖5.15常見(jiàn)超聲波傳感器外觀及結(jié)構(gòu)示意圖5.2.2超聲波傳感器常規(guī)脈沖回波超聲波傳感器,其測(cè)距方法包括單程測(cè)距法和雙程測(cè)距法。單程測(cè)距法中傳感器信號(hào)發(fā)射端和接收端分離,信號(hào)接收端配置在待測(cè)目標(biāo)處,發(fā)射端發(fā)射信號(hào),接收端接收信號(hào),根據(jù)信號(hào)傳播速度和渡越時(shí)間的乘積,計(jì)算獲得距離。距離計(jì)算公式:l表示超聲傳感器信號(hào)的發(fā)送端到被測(cè)量對(duì)象的信號(hào)接收端的距離,c表示在空氣中超聲的傳播速率,?t表示從信號(hào)發(fā)送端到被測(cè)量對(duì)象的接收端的超聲傳輸?shù)膫鬏敃r(shí)間。圖5.19雙程測(cè)距法原理圖圖5.18單程測(cè)距法原理圖雙程測(cè)距法與單程測(cè)距法的不同之處在于超聲波傳感器信號(hào)發(fā)射端與信號(hào)接收端配置在一起。距離計(jì)算公式:5.2.2超聲波傳感器二、聲吶聲吶檢測(cè)利用了聲波在水下的傳播特性,發(fā)射聲波在水中傳播遇到物體發(fā)射的回波獲取目標(biāo)信息,完成水下目標(biāo)檢測(cè)。水下聲傳播可以用聲波P的齊次波動(dòng)方程來(lái)描述:其中c為水中聲速,x,y,z為空間方向。通常用聲場(chǎng)信號(hào)強(qiáng)度的衰減來(lái)度量傳播損失的大小,某點(diǎn)與參考點(diǎn)距離之間的聲信號(hào)強(qiáng)度損失為傳播損失:聲波的強(qiáng)度隨傳播距離增大會(huì)呈現(xiàn)指數(shù)衰減的變化規(guī)律,另外聲波的振動(dòng)頻率、環(huán)境溫度和介質(zhì)特性也會(huì)造成聲波強(qiáng)度的變化。一、仿生聽(tīng)覺(jué)傳感器蝙蝠耳仿生麥克風(fēng):蝙蝠具有極其強(qiáng)大的檢波、抗噪、自適應(yīng)能力,是目前的聲吶系統(tǒng)、雷達(dá)系統(tǒng)所無(wú)法達(dá)到的。仿蠅耳麥克風(fēng):一種具有指向性、靈敏度高特性的微型傳聲器蚊子聽(tīng)覺(jué)仿生系統(tǒng):蚊子的聽(tīng)覺(jué)系統(tǒng)位于其頭部觸角上。當(dāng)有聲音傳過(guò)來(lái)時(shí),觸角上的鞭毛會(huì)發(fā)生彎曲變形,拉動(dòng)觸角中的神經(jīng)發(fā)生形變,使得神經(jīng)膜內(nèi)外電位差變化,從而將這種信號(hào)傳輸給蚊子大腦來(lái)感知聲音信號(hào)。二、柔性壓電聲學(xué)傳感器壓電膜的厚度和形狀是影響諧振頻率的關(guān)鍵因素,設(shè)計(jì)時(shí)應(yīng)該重點(diǎn)考慮;柔性壓電膜可以根據(jù)通道寬度產(chǎn)生多個(gè)頻率分量數(shù)據(jù)集,多通道信號(hào)可以獲得兩倍以上的語(yǔ)音信息進(jìn)行語(yǔ)音處理;具有基于充足數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練和從多通道輸入中選擇有用信號(hào)的優(yōu)點(diǎn)。5.2.3其他聲音傳感器三、光纖聲音傳感器光纖聲學(xué)傳感器是一種利用光纖作為光傳播的聲學(xué)傳感器媒體或檢測(cè)單元。與傳統(tǒng)的電聲傳感器相比,它具有靈敏度高、帶寬頻率響應(yīng)、抗電磁干擾等優(yōu)點(diǎn),對(duì)國(guó)家安全、工業(yè)無(wú)損檢測(cè)、醫(yī)療診斷、消費(fèi)電子等領(lǐng)域具有重要價(jià)值。聲場(chǎng)與光的耦合方式有間接耦合和直接耦合兩種。間接耦合型光纖聲傳感器:分為光強(qiáng)調(diào)制型、相位調(diào)制型和波長(zhǎng)調(diào)制型等類型。直接耦合型光纖聲傳感器:不使用聲耦合材料,直接利用光束檢測(cè)聲波引起空氣介質(zhì)折射率的微小變化實(shí)現(xiàn)聲探測(cè),相比間接耦合型光纖聲傳感器,具有穩(wěn)定性好、高頻靈敏度高、大帶寬、大動(dòng)態(tài)范圍等優(yōu)點(diǎn),主要包括自耦合效應(yīng)型和法布里—珀羅標(biāo)準(zhǔn)具(FPE)型兩種類型。衡量光纖聲傳感器性能的參數(shù)主要包括:靈敏度、信噪比、頻率響應(yīng)和動(dòng)態(tài)范圍。5.2.3其他聲音傳感器5.3.1語(yǔ)音信號(hào)特點(diǎn)一、語(yǔ)音的聲學(xué)特性和短時(shí)性聲道是一個(gè)可以放大一定頻率的共振腔,同時(shí)也可以削弱其它頻率的能量,這種共振頻率就是所謂的共振峰值。諧振峰與聲道的尺寸相關(guān),不同組之間的諧振峰一一對(duì)應(yīng)。語(yǔ)音的頻譜特征主要取決于諧振峰值。因?yàn)椴煌f(shuō)話人的聲道尺寸是不一樣的,所以諧振峰值和說(shuō)話人有著很大的聯(lián)系。即便是同樣的音位,由于說(shuō)話人的差異,其共振峰也會(huì)發(fā)生很大的改變。在語(yǔ)音識(shí)別中,需要考慮三個(gè)以上的共振峰。二、語(yǔ)音信號(hào)特點(diǎn)漢語(yǔ)以漢語(yǔ)拼音為基礎(chǔ)。漢語(yǔ)一字節(jié)是由聲母和韻母組成的,通常一個(gè)聲母中只有一個(gè)輔音,而韻母是一個(gè)或幾個(gè)以上的元音或元音和輔音的結(jié)合。漢語(yǔ)是一種聲調(diào)語(yǔ)言,漢語(yǔ)聲調(diào)的識(shí)別功能是其最基本的功能,其主要功能是根據(jù)調(diào)式進(jìn)行區(qū)分不同的音調(diào)。英語(yǔ)里的每個(gè)句子都有一個(gè)重讀。在口語(yǔ)中,有時(shí)還會(huì)出現(xiàn)兩個(gè)或更多的重讀,所以,在口頭交流中,重音是表達(dá)意義的象征,而重音同時(shí)也是一條重要的信息。5.3語(yǔ)音識(shí)別二、語(yǔ)音識(shí)別系統(tǒng)分類(一)按照說(shuō)話人分類說(shuō)話人識(shí)別的特征提取與語(yǔ)音識(shí)別的特征提取正好相反,語(yǔ)音識(shí)別是要找到不同說(shuō)話人相同語(yǔ)音之間的共性作為特征,而說(shuō)話人識(shí)別則需要使用說(shuō)話人之間的區(qū)別作為特征。說(shuō)話人識(shí)別的特征在層次上又可分為低層的聲學(xué)特征和高層的語(yǔ)言習(xí)慣特征,而在目前的研究水平,可區(qū)分性較強(qiáng)、穩(wěn)定性較高特征還僅限于低層的聲學(xué)特征,是基于個(gè)人的發(fā)聲器官的生理特性的特征。具有較好效果的特征主要有如下幾種:

基于發(fā)聲原理的管道模型的線性預(yù)測(cè)系數(shù)及其各種變體;語(yǔ)音頻譜導(dǎo)出系數(shù)組,包括基音輪廓、共振峰、語(yǔ)音強(qiáng)度以及其變遷特性;基于聽(tīng)覺(jué)感知原理的特征,以美爾頻標(biāo)倒譜為代表。5.3.2語(yǔ)音識(shí)別概述二、語(yǔ)音識(shí)別系統(tǒng)分類(二)按照詞匯量分類大詞匯量指的是500字以上的識(shí)別,小詞匯量是指100字以下的識(shí)別,除此之外,還有中等詞匯量的識(shí)別。例如,MHINT語(yǔ)料庫(kù):包含男性發(fā)音的480個(gè)語(yǔ)句,每個(gè)語(yǔ)句包含十個(gè)漢字。語(yǔ)音采樣率均為16kHz。(三)按照表達(dá)方式的不同分類對(duì)于一次語(yǔ)音輸出,機(jī)器可按照連續(xù)信號(hào)、孤立詞、關(guān)鍵詞三種方式檢索識(shí)別。連續(xù)語(yǔ)音識(shí)別計(jì)算量較大,對(duì)一段連續(xù)的語(yǔ)音信號(hào)進(jìn)行識(shí)別處理;孤立詞即機(jī)器對(duì)一個(gè)個(gè)孤立的字或詞進(jìn)行識(shí)別,所以運(yùn)算量較小;關(guān)鍵詞語(yǔ)音識(shí)別即機(jī)器從一段語(yǔ)音信號(hào)中找出需要的關(guān)鍵詞進(jìn)行識(shí)別。5.3.2語(yǔ)音識(shí)別概述三、說(shuō)話人識(shí)別基本原理說(shuō)話人識(shí)別系統(tǒng)由語(yǔ)音數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練、模式匹配四部分組成。在訓(xùn)練階段,系統(tǒng)根據(jù)輸入的語(yǔ)音數(shù)據(jù)提取特征,利用聲紋識(shí)別算法訓(xùn)練出模型;在識(shí)別階段,系統(tǒng)提取輸入語(yǔ)音數(shù)據(jù)的特征,并將該特征輸入訓(xùn)練好的識(shí)別模型,輸出識(shí)別結(jié)果。圖5.25說(shuō)話人識(shí)別系統(tǒng)架構(gòu)語(yǔ)音情感識(shí)別語(yǔ)音情感識(shí)別是指從語(yǔ)音信號(hào)中識(shí)別出說(shuō)話人的情感狀態(tài),常見(jiàn)特征包括:特征名稱說(shuō)明基音基因頻率及其導(dǎo)數(shù),以及均值,方差等統(tǒng)計(jì)量基音輪廓輪廓以及各種幾何學(xué)特征強(qiáng)度短時(shí)能量及其導(dǎo)數(shù)的各種統(tǒng)計(jì)量語(yǔ)速單位時(shí)間內(nèi)的符號(hào)數(shù)量音質(zhì)共振峰的頻率及其帶寬5.3.2語(yǔ)音識(shí)別概述預(yù)處理

將輸入的音信號(hào)數(shù)字話并轉(zhuǎn)換成適合在計(jì)算機(jī)系統(tǒng)中進(jìn)行運(yùn)算的結(jié)構(gòu)以及調(diào)整數(shù)據(jù)的特性。特征提取

從語(yǔ)音流中找到聲學(xué)特征的表達(dá)參數(shù),能夠有效的包含應(yīng)語(yǔ)音段的有效信息。特征訓(xùn)練

先將訓(xùn)練的聲音輸入到語(yǔ)音,再通過(guò)預(yù)處理、特征抽取等方法,獲得一個(gè)特征向量的參數(shù),再利用該模型建立一個(gè)訓(xùn)練語(yǔ)音的參照庫(kù),或者在模式庫(kù)中修改該參照庫(kù)。識(shí)別

將輸入的語(yǔ)音特征矢量和參照模式庫(kù)的相似度進(jìn)行測(cè)度,并將它們的相應(yīng)類型作為識(shí)別的中間候選。后處理判別模塊是利用語(yǔ)言模型、詞法、句法等多種知識(shí)進(jìn)行最后的辨識(shí),以達(dá)到語(yǔ)音識(shí)別的目的。圖5.26典型的語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)語(yǔ)音數(shù)據(jù)處理包含了語(yǔ)音信號(hào)預(yù)處理、特征提取、特征訓(xùn)練、識(shí)別與后處理判定等多項(xiàng)功能,后處理和判決是任選的。5.3.3語(yǔ)音數(shù)據(jù)處理一、語(yǔ)音數(shù)據(jù)預(yù)處理圖5.27語(yǔ)音識(shí)別預(yù)處理基本流程(一)采樣與量化聲帶發(fā)出的原始聲音是連續(xù)的,而錄音機(jī)則會(huì)接收到持續(xù)的訊號(hào),也就是模擬訊號(hào),需要取樣、量化,然后再用電腦進(jìn)行處理。取樣是指在時(shí)間線上以某一頻率(也就是間隔一段時(shí)間),用每一次模擬信號(hào)的模擬量替換原先連續(xù)的信號(hào)。奈奎斯特取樣頻率:假定頻譜限制信號(hào)f(t),在頻譜在-ωm~+ωm范圍內(nèi)時(shí),可用等間距取樣值來(lái)唯一地表達(dá)信號(hào)f(t)。(二)預(yù)加重目的是消除聲門激振和口鼻輻射,人為地利用預(yù)加重功能強(qiáng)化了語(yǔ)音信號(hào)中的高頻成分,改善了高頻段的信噪比,降低了語(yǔ)音信號(hào)在發(fā)射時(shí)產(chǎn)生的能量損耗,使得聲音的高頻部分得到增強(qiáng),使得信號(hào)的頻譜更加扁平。5.3.3語(yǔ)音數(shù)據(jù)處理一、語(yǔ)音數(shù)據(jù)預(yù)處理(三)分幀與加窗可以把話音分成短時(shí)的語(yǔ)言,每一段都被稱作“幀”,所以對(duì)話音信號(hào)的處理必須基于它的“短時(shí)性”;分幀是通過(guò)窗函數(shù)實(shí)現(xiàn)語(yǔ)音信號(hào)截?cái)?,但截?cái)嗪蟮亩虝r(shí)語(yǔ)音信號(hào)會(huì)導(dǎo)致信號(hào)的頻譜特性發(fā)生突變,產(chǎn)生無(wú)限帶寬;在語(yǔ)音分幀時(shí),常采用一種可動(dòng)的有限長(zhǎng)窗來(lái)進(jìn)行加權(quán),而窗的選取會(huì)影響其短期能量,并將其視為濾波器的單元沖擊響應(yīng)。(1)矩形窗

(2)漢明窗(3)漢寧窗5.3.3語(yǔ)音數(shù)據(jù)處理(四)端點(diǎn)檢測(cè)實(shí)際的語(yǔ)音識(shí)別中,由于語(yǔ)音信號(hào)中會(huì)含有噪音,因此,首先要對(duì)語(yǔ)音輸入進(jìn)行判定,并從中找到含有有效信息的起始點(diǎn),從而確保所獲取的聲音是真正有用的;通常采用短時(shí)能量、短時(shí)平均振幅、短時(shí)過(guò)零率等時(shí)域參數(shù)來(lái)判定有效信號(hào)的起始和結(jié)束。語(yǔ)音信號(hào)的短時(shí)能量定義為:其中,窗口長(zhǎng)度為N,短時(shí)能見(jiàn)度為一幀樣點(diǎn)的加權(quán)平方和。短時(shí)能的主要功能是:首先,它可以區(qū)分清音與濁音,因?yàn)樵跐嵋魰r(shí),短時(shí)間內(nèi)的能量E(n)要比清音大。語(yǔ)音信號(hào)的短時(shí)平均過(guò)零率定義為:一、語(yǔ)音數(shù)據(jù)預(yù)處理5.3.3語(yǔ)音數(shù)據(jù)處理二、特征提?。ㄒ唬┚€性預(yù)測(cè)系數(shù)LPC線性預(yù)測(cè)的基本概念:將其以往幾次抽樣值的權(quán)值(線性結(jié)合)用于預(yù)測(cè),其中每一權(quán)重系數(shù)都是以最小的預(yù)測(cè)誤差平均方值為原則(也就是按照所謂的最小平均方差標(biāo)準(zhǔn)),那么就是p級(jí)的線性預(yù)測(cè)因子(Linearitypredictscoefficients,LPC)。設(shè)P{x(n)|n=0,1,...,N-1}為一幀語(yǔ)音采樣序列,則第n個(gè)語(yǔ)音樣點(diǎn)值s(n)的p階線性預(yù)測(cè)值為:式中p為預(yù)測(cè)階數(shù),ai

(i=1,2,...,p

)是線性預(yù)測(cè)系數(shù)。預(yù)測(cè)誤差ε(n)為:5.3.3語(yǔ)音數(shù)據(jù)處理二、特征提取線性預(yù)測(cè)倒頻譜系數(shù)(Linearitypredictscepstrumcoefficients,LPCC)是一個(gè)較為關(guān)鍵的特征參數(shù),它可以較徹底地消除語(yǔ)音生成時(shí)的激勵(lì)信息,并能很好地反映出語(yǔ)音的共振峰。在線性預(yù)測(cè)分析中,通道模型是一個(gè)完全的極點(diǎn)模式:LPC分析的重要意義:該方法能提供一套簡(jiǎn)單的語(yǔ)音模型參數(shù),能夠更準(zhǔn)確地反映出語(yǔ)音信號(hào)的波幅,并且其運(yùn)算量也不大,可以用來(lái)做模板,既能提高識(shí)別率,又能縮短處理時(shí)間。LPC倒譜系數(shù)不足之處:其建立在全極點(diǎn)模式的基礎(chǔ)上,因而不能準(zhǔn)確地反映清、鼻音,同時(shí)又包含了零點(diǎn)效應(yīng),故在理論上,應(yīng)采用極點(diǎn)模式。(二)線性預(yù)測(cè)倒譜系數(shù)LPCC5.3.3語(yǔ)音數(shù)據(jù)處理二、特征提取(三)梅爾倒譜系數(shù)MFCC在求取梅爾倒譜系數(shù)(Mel-frequencycepstralcoefficient,MFCC)的過(guò)程中,根據(jù)梅爾頻率與Hz的對(duì)應(yīng)關(guān)系,類似臨界頻帶的劃分,可以將語(yǔ)音頻率劃分成一系列三角濾波器序列,即梅爾頻率濾波器組,每個(gè)濾波器在以梅爾為單位的頻率軸上是不等間距的,而是符合臨界帶寬的分布特性。取每個(gè)三角形的濾波器頻帶寬內(nèi)所有信號(hào)幅度加權(quán)和作為某個(gè)帶通濾波器的輸出,然后對(duì)所有濾波器輸出做對(duì)數(shù)運(yùn)算,再進(jìn)一步進(jìn)行離散余弦變換(Discretecosinetransform,DCT),即得到MFCC。將各三角濾波器頻率帶寬中的信號(hào)幅值相加,并將其作為一個(gè)帶通濾波器的輸出,并對(duì)各濾波器的輸出進(jìn)行對(duì)數(shù)運(yùn)算,最后進(jìn)行DCT,即獲得MFCC。5.3.3語(yǔ)音數(shù)據(jù)處理(一)動(dòng)態(tài)時(shí)間規(guī)整法(DynamicTimeWarping,DTW)動(dòng)態(tài)時(shí)間規(guī)則問(wèn)題是最典型的,其最大的特點(diǎn)是:在此基礎(chǔ)上,利用一條有條件限制的時(shí)間規(guī)則函數(shù)來(lái)描述模型與樣品模板之間的時(shí)間對(duì)應(yīng)關(guān)系,并在此基礎(chǔ)上求出相應(yīng)的規(guī)則函數(shù)。(二)矢量量化(VectorQuantization,VQ)模型向量量化指的是把說(shuō)話者當(dāng)作一個(gè)聲音信號(hào)源,通過(guò)向量量化技術(shù)對(duì)其進(jìn)行建模(通過(guò)訓(xùn)練序列聚合產(chǎn)生

VQ代碼書),使得

VQ代碼書與說(shuō)話者一一對(duì)應(yīng),在進(jìn)行識(shí)別時(shí),使用全部碼本編碼輸入的測(cè)試序列,并計(jì)算出相應(yīng)的平均量化畸變,再進(jìn)行比較,確定出失真最少的基準(zhǔn)模式。圖5.17基于VQ技術(shù)的說(shuō)話人識(shí)別系統(tǒng)原理圖三、模型訓(xùn)練與模板匹配5.3.3語(yǔ)音數(shù)據(jù)處理(三)隱馬爾可夫模型隱馬爾可夫模型是一種以轉(zhuǎn)移概率和輸出概率為基礎(chǔ)的隨機(jī)模式,其原因在于,一種具有n個(gè)狀態(tài)的S1,S2,……,Sn的模式,將輸入的特性從一種狀態(tài)轉(zhuǎn)換到另一種狀態(tài),每次由于無(wú)法觀測(cè)到狀態(tài)轉(zhuǎn)換序列,因此只能根據(jù)已知的輸出符號(hào)序列進(jìn)行運(yùn)算,并對(duì)其進(jìn)行預(yù)測(cè)。為每一個(gè)說(shuō)話人構(gòu)建一個(gè)特殊的語(yǔ)音模型,然后經(jīng)過(guò)訓(xùn)練,獲得一個(gè)狀態(tài)轉(zhuǎn)換的概率矩陣和符號(hào)的輸出概率矩陣。在辨識(shí)時(shí),通過(guò)計(jì)算狀態(tài)轉(zhuǎn)換中未知語(yǔ)言的最大機(jī)率,并利用最大概率對(duì)應(yīng)的模式判斷出說(shuō)話者的身份。圖5.19狀態(tài)轉(zhuǎn)移模型三、模型訓(xùn)練與模板匹配5.3.3語(yǔ)音數(shù)據(jù)處理語(yǔ)音識(shí)別系統(tǒng)可分為離線語(yǔ)音識(shí)別和在線離線語(yǔ)音識(shí)別系統(tǒng)。離線語(yǔ)音識(shí)別:詞語(yǔ)庫(kù)比較小,屬于小詞匯量語(yǔ)音識(shí)別,不依賴網(wǎng)絡(luò)環(huán)境,識(shí)別過(guò)程在硬件內(nèi)部自動(dòng)完成;受嵌入式硬件平臺(tái)的限制,導(dǎo)致離線語(yǔ)音識(shí)別不能占有過(guò)多的存儲(chǔ)空間,而且不能進(jìn)行太多復(fù)雜的運(yùn)算處理;目前主要以嵌入式平臺(tái)為主,通過(guò)啟動(dòng)專用語(yǔ)音識(shí)別芯片的方法來(lái)進(jìn)行語(yǔ)音識(shí)別。在線語(yǔ)音識(shí)別:針對(duì)大詞匯量的連續(xù)語(yǔ)音識(shí)別的分布式語(yǔ)音識(shí)別系統(tǒng);每次識(shí)別前將需要識(shí)別的語(yǔ)音內(nèi)容上傳至服務(wù)器,然后通過(guò)服務(wù)器進(jìn)行運(yùn)算處理,最后與詞語(yǔ)庫(kù)中的詞語(yǔ)進(jìn)行匹配,最后再將結(jié)果反饋給說(shuō)話者。一、語(yǔ)音識(shí)別模塊(一)MEGASUN-M6語(yǔ)音識(shí)別模塊(二)LD3320芯片(三)XFS5152CE芯片5.3.4語(yǔ)音識(shí)別系統(tǒng)二、硬件開(kāi)發(fā)語(yǔ)音識(shí)別芯片:語(yǔ)音信號(hào)的處理和識(shí)別;單片機(jī):主控芯片加以控制,同時(shí)與上位機(jī)進(jìn)行通訊;外部寄存器:動(dòng)態(tài)地添加和編輯需要識(shí)別的詞語(yǔ)庫(kù);USB轉(zhuǎn)串口模塊:將硬件系統(tǒng)方便地與上位機(jī)建立通信;專用的語(yǔ)音識(shí)別芯片:用麥克風(fēng)接收說(shuō)話者的語(yǔ)音信號(hào),進(jìn)行處理和識(shí)別。三、軟件開(kāi)發(fā)(一)Arduino開(kāi)源平臺(tái)(二)DeepSpeech開(kāi)源平臺(tái)(三)Kaldi開(kāi)源平臺(tái)(四)CMUSphinx語(yǔ)音識(shí)別器5.3.4語(yǔ)音識(shí)別系統(tǒng)5.4.1人耳模型在大多數(shù)人類聲音定位研究中,聲源被限制在兩個(gè)平面中的一個(gè):水平面或垂直(中矢)面。水平和垂直定位之間的區(qū)別似乎也可以通過(guò)水平和垂直定位的主要空間線索(即雙耳差異線索與單耳線索)的差異來(lái)證明。入射到聽(tīng)者耳朵上的聲波會(huì)被面對(duì)入射波一側(cè)的頭部反射,衍射到頭部陰影一側(cè)的耳朵,并通過(guò)耳廓傳輸?shù)蕉?。這些反射和衍射產(chǎn)生雙耳時(shí)間差和雙耳強(qiáng)度差,這是眾所周知的雙耳差異線索。5.4.2麥克風(fēng)陣列麥克風(fēng)陣列由若干個(gè)具有特定幾何結(jié)構(gòu)的感應(yīng)器構(gòu)成,具有很好的空間選擇性,能夠在一定的距離上對(duì)聲源進(jìn)行自適應(yīng)探測(cè),并能進(jìn)行軌跡定位。麥克風(fēng)陣列能夠有效地解決單一話筒在空間信號(hào)的接收與處理上的不足。機(jī)器人聽(tīng)力系統(tǒng)通常采用多種形式的傳聲器,通過(guò)多種方法組成一個(gè)陣列,從周圍環(huán)境中采集聲音,并對(duì)不同方位的聲音進(jìn)行加強(qiáng)。5.4聲源定位(一)線性陣列圖5.23線性陣列示意圖(二)二維平面陣列指向性模式圖5.25二維面陣示意圖5.4.2麥克風(fēng)陣列(三)三維立體陣列1.四元正四面體陣列:圖5.28正四面體陣列結(jié)構(gòu)與位置示意圖2.五元正四面體陣列:圖5.29五元正四面體陣列結(jié)構(gòu)3.球形陣列:圖5.30球面陣列示意圖5.4.2麥克風(fēng)陣列固定波束形成。固定波束成形可以看做是一種閉環(huán)系統(tǒng),在這種系統(tǒng)中,接收到的信號(hào)的隨機(jī)統(tǒng)計(jì)特性決定了其性能的好壞,為了能夠更好的降低噪聲和干擾對(duì)語(yǔ)音的影響,進(jìn)行固定波束形成前需要知道信號(hào)和干擾、噪聲的具體位置。它的各項(xiàng)參數(shù)在進(jìn)行波束形成前就由開(kāi)發(fā)人員固定,不因信號(hào)的改變而改變。自適應(yīng)波束形成。該類波束形成算法常以具體準(zhǔn)則為基礎(chǔ)提出相應(yīng)的算法,可用較少的麥克風(fēng)取得較好的去噪效果。自適應(yīng)波束形成算法本質(zhì)上以信號(hào)處理為基礎(chǔ),仍只是將語(yǔ)音看做普通的傳輸信號(hào)處理。

盲源信號(hào)分離。該類算法分為三類,第一類方法被稱為獨(dú)立分量分析,它是在信號(hào)經(jīng)過(guò)變換后,保證不同的信號(hào)分量之間的相依性盡可能的減小。5.4.2麥克風(fēng)陣列雙耳聲源定位主要機(jī)理:1.雙耳間聲強(qiáng)差:聲源在左右耳的聲音強(qiáng)度差;

2.雙耳間時(shí)間差或相位差:點(diǎn)聲源抵達(dá)左右耳的時(shí)間差;

3.頻率線索:基于頻譜相關(guān)特性來(lái)進(jìn)行聲源定位。在三維空間聲場(chǎng)中,空間上的描述有三個(gè)維度:1.左右空間方位:這個(gè)主要是依賴于雙耳線索,通過(guò)聲音抵達(dá)雙耳之間的差異,來(lái)判斷聲音的左右偏向。ITD是聲源抵達(dá)雙耳的時(shí)間差,ITD范圍為0~690????區(qū)間。2.上下空間方位:主要是通過(guò)耳廓的形狀,造成不同入射角有不同的折射程度而產(chǎn)生的差異。大多數(shù)頻譜線索位于4~16kHz的頻率范圍。

3.遠(yuǎn)近空間方位(Distance):遠(yuǎn)近維度其實(shí)就是聲源到達(dá)雙耳的能量,能量大聽(tīng)覺(jué)上感覺(jué)近,能量小聽(tīng)覺(jué)上感覺(jué)遠(yuǎn)。

5.4.3聲源定位方法

一、基于聲波到達(dá)時(shí)間差聲音定位的基本思想是從一對(duì)麥克風(fēng)之間的到達(dá)時(shí)間差推導(dǎo)出聲源的方向;時(shí)差可以在短時(shí)間內(nèi)通過(guò)通用互相關(guān)方法進(jìn)行估計(jì);通用互相關(guān)方法可以通過(guò)不同的加權(quán)方案進(jìn)行增強(qiáng),如相位變換。二、基于最大輸出功率的可控波束形成技術(shù)波束形成器形成標(biāo)量輸出信號(hào),作為傳感器陣列接收的數(shù)據(jù)的加權(quán)組合;權(quán)重確定波束形

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論