機器人感知智能 教案-第5章 機器人感知智能_第1頁
機器人感知智能 教案-第5章 機器人感知智能_第2頁
機器人感知智能 教案-第5章 機器人感知智能_第3頁
機器人感知智能 教案-第5章 機器人感知智能_第4頁
機器人感知智能 教案-第5章 機器人感知智能_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PAGEPAGE27授課周次第周授課時間2024年月日至2024年月日課程章節(jié)第5章機器人感知智能5.1機器人聽覺概述5.1.1人類聽覺模型5.1.2機器人聽覺感知教學目的1、掌握聲音的定義與分類;2、掌握人類聽覺工作方式;3、了解聽覺感知的應用。內(nèi)容提要及板書設計第5章機器人感知智能5.1機器人聽覺概述5.1.1人類聽覺模型5.1.2機器人聽覺感知重點、難點及解決方案重點:聲音的定義與分類難點:人類聽覺工作方式教學內(nèi)容時間分配序號教學內(nèi)容1人類聽覺模型302機器人聽覺感知——人類聽覺工作方式303機器人聽覺感知——聽覺感知應用3045教學手段講解教學形式(在右欄勾選)理實一體()理論教學()實驗()實訓()上機()作業(yè)作業(yè)完成方式書面()電子()教學后記注:教案按周次填寫,課堂組織和教學過程設計填寫在附頁中。附頁:第周序號具體內(nèi)容(課堂組織和教學過程設計)授課改進意見及實時教學效果記錄第5章機器人感知智能5.1.1人類聽覺模型一、聲音的定義聲音是一種物理波動現(xiàn)象,即聲源振動或氣動發(fā)聲所產(chǎn)生的聲波。聲波通過空氣、固體、液體等介質(zhì)傳播,便能被人或動物的聽覺器官所感知。聲波具有一般波的各種特性,包括反射、折射和衍射等。聲音還是一種心理感受,不僅與人的生理構(gòu)造和聲音的物理性質(zhì)有關(guān),還受到環(huán)境和背景的影響。圖5.1聲音的分類關(guān)系圖從信號的角度——聲音可分為純音、復合音和噪聲。純音和復合音都是周期性聲音,波形具有一定的重復性,具有明顯的音高。純音是只具有單一頻率的正弦波,通常只能由音叉、電子器件或合成器產(chǎn)生,在自然環(huán)境下一般不會發(fā)生。日常生活和自然界中聽到的聲音大多是復合音,由許多參數(shù)不同的正弦波分量疊加而成。純音和復合音之間可以互相合成與分解。從聲音特性的角度——聲音可劃分為語音、音樂和一般音頻。語音信號屬于復合音,其基本要素是音高、強度、音長、音色等。音樂是人類創(chuàng)造的復雜的藝術(shù)形式,組成成分是上述的各種樂音,包括歌聲、各種管弦和彈撥類樂器發(fā)出的復合音、少量來自環(huán)境聲的復合音以及一些來自打擊樂器的噪樂音。除了人類創(chuàng)造的語音和音樂,在自然界和日常生活中,還存在著其他數(shù)量巨大、種類繁多的聲音,統(tǒng)稱為一般音頻或環(huán)境聲。二、人類聽覺中樞外耳包括耳翼和外耳道兩個部分。從外耳道發(fā)出的聲音在中頻區(qū)域與外耳產(chǎn)生共鳴。外耳道的最后部分是一種稱為鼓膜的薄膜。中耳包括鼓膜和內(nèi)耳層,內(nèi)層有三個聽小骨,即錐骨、砧骨和鐙骨,它們彼此相連。聲波經(jīng)外耳道進入后,會引起鼓膜的震動,三個與鼓膜連接的聽骨會因為聲音的震動而產(chǎn)生震動。內(nèi)耳是人類聽覺的一個主要器官,在內(nèi)耳有一個重要的螺旋狀環(huán)形通路,稱為耳蝸。耳蝸是主要的聽覺器官,它是由骨頭組成,外形像蝸牛,里面充滿了高電阻的淋巴。圖5.2聽覺信息處理涉及的學科關(guān)系當聲音傳入耳內(nèi)時,由外耳、中耳、內(nèi)耳分別負責,共同發(fā)出“感覺”訊息給大腦。一般而言,聲源與媒介間的時序差異和聲源間的強度差異,可以幫助人們精確地確定聲源的方位。三、人類聽覺中樞的工作方式外耳鼓膜接收外界聲音,鼓膜產(chǎn)生震動,中耳將這種震動放大、壓縮和限幅,并抑制噪聲。內(nèi)耳的主要功能是對不同聲音進行分析。纖維將基底膜接受聲音時產(chǎn)生的震動變成電信號的平均值時,對應的繼電器接通。位于耳蝸底部的基底膜使得耳蝸帶有相異的電諧振以及機械諧振效應,如果接收到的聲音信號中含有不同頻率段,那么在基底膜的不同位置會產(chǎn)生由于行波差異導致的某個頻率段的最大峰值。重合神經(jīng)元主要負責完成突觸和細胞體的響應,在整個聽覺中樞系統(tǒng)中完成對語音信號的空間方位信息提取與整合。機器人聽覺傳感器的總體思想:模仿人的聽覺中樞,完成語音信號的信息提取和聲源定位。聽覺感知應用(一)聲源目標的實時定位:在許多應用場景下機器人是需要實時與人進行溝通的,目標定位的實時性是機器人定位應用的關(guān)鍵問題,如何進一步提高算法的精度和速度是下一步研究的主要內(nèi)容之一。(二)多語音識別:很多時候機器人實際工作環(huán)境不可能是單聲源的,如何在多聲源情況下服務機器人準確辨識、分離、判斷任務,是人機互動的前提之一。(三)針對運動聲源實現(xiàn)跟蹤定位:機器人大多需要不停移動或者被服務對象是運動的,如何針對運動的聲源進行定位、追蹤,同樣是服務機器人進行聲源定位的研究內(nèi)容之一。(四)智能、友好的交互方式:機器人可以透明地、主動與人交互,而人處于被動的方式。因此,服務機器人目標聲源定位技術(shù)一定程度上受到相關(guān)技術(shù)的限制,例如聲音的分離、檢測以及識別等。機器人聽覺在應用中需要解決的問題(一)音頻時頻表示:包括音頻本身的表示,如信號或符號、單聲道或雙聲道、模擬或數(shù)字、聲波樣本、壓縮算法的參數(shù)等;音頻信號的各種時頻表示,如短時傅里葉變換、小波變換、小波包變換、連續(xù)小波變換、常數(shù)Q變換、S變換、希爾伯特-黃變換、離散余弦變換等;音頻信號的建模表示由于種類繁多,又通常包含多個聲源,無法像語音信號那樣被有效地表示成某個特定的模型,如源濾波器模型,通常使用濾波器組或正弦波模型來獲取并捕捉多個聲音參數(shù)。(二)特征提取:音頻特征是對音頻內(nèi)容的緊致反映,用來刻畫音頻信號的特定方面,有時域特征、頻域譜特征、T-F特征、統(tǒng)計特征、感知特征、中層特征、高層特征等數(shù)十種。典型的時域特征如過零率、能量,頻域譜特征如譜質(zhì)心、譜通量,T-F特征如基于頻譜圖的Zernike矩、基于頻譜圖的描述子,統(tǒng)計特征如峰度、均值,感知特征如Mel頻率倒譜系數(shù)、線性預測倒譜系數(shù),中層特征如半音類,高層特征如旋律、節(jié)奏、頻率顫音等。(三)聲音相似性:兩段音頻之間或者一段音頻內(nèi)部各子序列之間的相似性一般通過計算音頻特征之間的各種距離來度量。距離越小,相似度越高。在某些時域信息很重要的場合,通常使用動態(tài)時間規(guī)整來計算相似度,也可通過機器學習方法進行音頻相似性計算。(四)聲源分離:與通常只有一個聲源的語音信號不同,現(xiàn)實聲音場景中的環(huán)境聲及音樂的一個基本特性就是包含多個同時發(fā)聲的聲源,因此聲源分離問題成為一個極其重要的技術(shù)難點。音樂中的各種樂器及歌聲按照旋律、和聲及節(jié)奏耦合起來,對其進行分離比分離環(huán)境聲中各種基本不相關(guān)的聲源要更加困難,至今沒有方法能很好地解決這個問題。(五)多模態(tài)分析:人類對世界的感知都是結(jié)合各個信息源綜合得到的。因此,對數(shù)字音頻和音樂進行內(nèi)容分析理解時,理想情況下也需要結(jié)合文本、視頻、圖像等多種媒體進行多模態(tài)的跨媒體研究。授課周次第周授課時間2024年月日至2024年月日課程章節(jié)第5章機器人感知智能5.2聲音傳感器5.2.1麥克風5.2.2超聲波傳感器5.2.3其他聲音傳感器教學目的1、掌握麥克風的分類及原理;2、掌握超聲波傳感器的工作原理;3、了解新興的聲音傳感器。內(nèi)容提要及板書設計第5章機器人感知智能5.2聲音傳感器5.2.1麥克風5.2.2超聲波傳感器5.2.3其他聲音傳感器重點、難點及解決方案重點:麥克風的分類及原理難點:超聲波傳感器的工作原理教學內(nèi)容時間分配序號教學內(nèi)容1麥克風302超聲波傳感器303其他聲音傳感器3045教學手段講解教學形式(在右欄勾選)理實一體()理論教學()實驗()實訓()上機()作業(yè)作業(yè)完成方式書面()電子()教學后記

附頁:第周序號具體內(nèi)容(課堂組織和教學過程設計)授課改進意見及實時教學效果記錄5.2.1麥克風一、動圈式麥克風原理:電磁感應原理。當發(fā)射聲波后,膜片產(chǎn)生振動,膜片內(nèi)部纏繞的線圈(又稱音圈)也隨之振動。線圈纏繞在磁鐵上,在磁鐵產(chǎn)生的磁場內(nèi)發(fā)生振動,振動導致電流產(chǎn)生,輸出電信號。當話筒采集到的聲音時,在音圈內(nèi)產(chǎn)生的電流的幅度和方向也會隨之改變,獲取到的聲音信號決定了感應電流變化的大小。優(yōu)點:結(jié)構(gòu)簡單、穩(wěn)定性好、自身噪音小、容易操作、實用性好、成本低。缺點:靈敏度低、頻率范圍窄。二、電容式麥克風結(jié)構(gòu):電容式麥克風內(nèi)包含三部分,即振膜、金屬極板和負載電阻。原理:內(nèi)部含有兩個導電膜片,當振膜受到聲波振動時,導電膜片之間的電容大小產(chǎn)生變化,導致整個電路中的電流隨之變化。電流的變化導致負載電阻上產(chǎn)生相對應的電壓,將接收到的聲音信號就變成電信號。優(yōu)點:具有平坦的頻率響應。對于語音信號的識別,語音頻率范圍內(nèi)靈敏度統(tǒng)一,有利于單通道語音識別處理。缺點:靈敏度不足、識別距離有限、功耗大、大放大電路不穩(wěn)定等。(一)駐極體麥克風毫米級駐極體麥克風具有極低的雜散電容、自偏置、可大規(guī)模生產(chǎn)、可陣列、可與片上電子器件集成、結(jié)構(gòu)簡單且在普通環(huán)境中隨時間推移極其穩(wěn)定等特點。在聲控電路、錄音機、無線話筒等方面廣泛應用,在其生產(chǎn)高峰時每年產(chǎn)量超過10億個。由于出色的電荷存儲氟碳聚合物的特性,幾乎所有商用非硅駐極體麥克風使用碳氟化合物駐極體,例如聚四氟乙烯,且考慮到輸入輸出阻抗問題,駐極體電容式話筒在工作時需要直流工作電壓。(二)MEMS電容傳感器優(yōu)點:高可靠性、高穩(wěn)定性、高一致性、低不良率和低返修率等優(yōu)點。三、壓電式麥克風壓電式麥克風是用晶體或陶瓷(欽酸鋇等材料)作為變換元件,利用壓電原理將機械振動從聲波信號轉(zhuǎn)換為電信號。在壓電式麥克風中,常用用來制造振動隔膜的壓電材料是氮化鋁和氧化鋅。壓電式麥克風的優(yōu)點是靈敏度高、體積小。壓電效應是通過變形來產(chǎn)生電荷,除了可以作為聲音傳感元件,壓電效應所產(chǎn)生的電信號還可用于感知運動引起的物理或化學效應。表5.1不同聲傳感器的性能對比5.2.2超聲波傳感器超聲波是一種具有很短的波長(在空氣中不到2厘米)的機械波,它必須通過媒介來傳遞,在空中的傳播速度沒有聲音和次聲波快,在水里的傳播范圍要更大一些。超聲傳感器測距包括三個主要過程,即超聲波的產(chǎn)生、傳播和接收。一、工作原理超聲波傳感器是一種應用超聲波技術(shù)研制而成的傳感器,可以把各種能量和超聲波轉(zhuǎn)換成各種形態(tài)的裝置。超聲波傳感器的核心部分是一種能夠發(fā)出和接收聲波的壓電片。超聲波探頭可以分為直探頭、雙探頭、斜探頭等。超聲波沿著一條直線進行傳播,其發(fā)射頻率越高,其反射性能越好。目前超聲傳感器的市場份額最大的是電聲型傳感器和水力型超聲波傳感器。電聲傳感器包括壓電、磁致伸縮、靜電三大類;液動超聲傳感器分為兩類,即氣態(tài)和液態(tài)。超聲波接收器的工作原理:利用發(fā)電機中的壓電晶體共振來生成聲波。常見的壓電式超聲波傳感器內(nèi)部包括兩塊壓電晶圓和一塊喇叭或共振板,當負載的脈沖信號與壓電晶圓的自振頻率一致時,它們就會發(fā)生共鳴,從而引起振蕩,因此形成了超聲波信號。反之,在不將脈沖信號導入壓電晶圓的兩端時,若在擴音器或共振板上檢測到超聲波,則該揚聲器或諧振板將引起振蕩,從而使壓電晶片產(chǎn)生振動,使物理機械能量轉(zhuǎn)化為電能,而壓電晶體在振動時,將會產(chǎn)生電信號,從而使壓電晶體的兩端產(chǎn)生電信號,這時,超聲波發(fā)生器就變成了超聲波接收器。接觸式超聲傳感器主要用于變壓器、組合電器等大型電力設備監(jiān)測;非接觸式超聲傳感器則主要用于電力電纜、開關(guān)柜等電力設備檢測。圖5.16超聲波往返時間檢測法測距原理示意圖超聲波測距傳感器可分為兩類:脈沖回波超聲傳感器和連續(xù)的調(diào)頻(FM)超聲波傳感器。常規(guī)脈沖回波超聲波傳感器,其測距方法包括單程測距法和雙程測距法。單程測距法中傳感器信號發(fā)射端和接收端分離,信號接收端配置在待測目標處,發(fā)射端發(fā)射信號,接收端接收信號,根據(jù)信號傳播速度和渡越時間的乘積,計算獲得距離。雙程測距法與單程測距法的不同之處在于超聲波傳感器信號發(fā)射端與信號接收端配置在一起。二、聲吶聲吶檢測利用了聲波在水下的傳播特性,發(fā)射聲波在水中傳播遇到物體發(fā)射的回波獲取目標信息,完成水下目標檢測。水下聲傳播可以用聲波P的齊次波動方程來描述:其中c為水中聲速,x,y,z為空間方向。通常用聲場信號強度的衰減來度量傳播損失的大小,某點與參考點距離之間的聲信號強度損失為傳播損失:聲波的強度隨傳播距離增大會呈現(xiàn)指數(shù)衰減的變化規(guī)律,另外聲波的振動頻率、環(huán)境溫度和介質(zhì)特性也會造成聲波強度的變化。5.2.3其他聲音傳感器一、仿生聽覺傳感器(一)蝙蝠耳仿生麥克風:蝙蝠具有極其強大的檢波、抗噪、自適應能力,是目前的聲吶系統(tǒng)、雷達系統(tǒng)所無法達到的。(二)仿蠅耳麥克風:一種具有指向性、靈敏度高特性的微型傳聲器(三)蚊子聽覺仿生系統(tǒng):蚊子的聽覺系統(tǒng)位于其頭部觸角上。當有聲音傳過來時,觸角上的鞭毛會發(fā)生彎曲變形,拉動觸角中的神經(jīng)發(fā)生形變,使得神經(jīng)膜內(nèi)外電位差變化,從而將這種信號傳輸給蚊子大腦來感知聲音信號。二、柔性壓電聲學傳感器壓電膜的厚度和形狀是影響諧振頻率的關(guān)鍵因素,設計時應該重點考慮;柔性壓電膜可以根據(jù)通道寬度產(chǎn)生多個頻率分量數(shù)據(jù)集,多通道信號可以獲得兩倍以上的語音信息進行語音處理;具有基于充足數(shù)據(jù)進行機器學習訓練和從多通道輸入中選擇有用信號的優(yōu)點。三、光纖聲音傳感器光纖聲學傳感器是一種利用光纖作為光傳播的聲學傳感器媒體或檢測單元。與傳統(tǒng)的電聲傳感器相比,它具有靈敏度高、帶寬頻率響應、抗電磁干擾等優(yōu)點,對國家安全、工業(yè)無損檢測、醫(yī)療診斷、消費電子等領(lǐng)域具有重要價值。聲場與光的耦合方式有間接耦合和直接耦合兩種。(1)間接耦合型光纖聲傳感器:分為光強調(diào)制型、相位調(diào)制型和波長調(diào)制型等類型。(2)直接耦合型光纖聲傳感器:不使用聲耦合材料,直接利用光束檢測聲波引起空氣介質(zhì)折射率的微小變化實現(xiàn)聲探測,相比間接耦合型光纖聲傳感器,具有穩(wěn)定性好、高頻靈敏度高、大帶寬、大動態(tài)范圍等優(yōu)點,主要包括自耦合效應型和法布里—珀羅標準具(FPE)型兩種類型。衡量光纖聲傳感器性能的參數(shù)主要包括:靈敏度、信噪比、頻率響應和動態(tài)范圍。授課周次第13周授課時間2024年月日至2024年月日課程章節(jié)第5章機器人感知智能5.3語音識別5.3.1語音信號特點5.2.2語音識別概述5.2.3語音數(shù)據(jù)處理5.3.4語音識別系統(tǒng)教學目的1、掌握語音信號特點及識別系統(tǒng)分類;2、掌握語音數(shù)據(jù)處理流程與方法;3、了解語音識別系統(tǒng)硬件、軟件。內(nèi)容提要及板書設計第5章機器人感知智能5.3語音識別5.3.1語音信號特點5.2.2語音識別概述5.2.3語音數(shù)據(jù)處理5.3.4語音識別系統(tǒng)重點、難點及解決方案重點:語音數(shù)據(jù)處理流程與方法難點:語音數(shù)據(jù)處理流程與方法教學內(nèi)容時間分配序號教學內(nèi)容1語音信號特點202語音識別概述103語音數(shù)據(jù)處理404語音識別系統(tǒng)205教學手段講解教學形式(在右欄勾選)理實一體()理論教學()實驗()實訓()上機()作業(yè)作業(yè)完成方式書面()電子()教學后記附頁:第周序號具體內(nèi)容(課堂組織和教學過程設計)授課改進意見及實時教學效果記錄5.3.1語音信號特點一、語音的聲學特性和短時性聲道是一個可以放大一定頻率的共振腔,同時也可以削弱其它頻率的能量,這種共振頻率就是所謂的共振峰值。諧振峰與聲道的尺寸相關(guān),不同組之間的諧振峰一一對應。語音的頻譜特征主要取決于諧振峰值。因為不同說話人的聲道尺寸是不一樣的,所以諧振峰值和說話人有著很大的聯(lián)系。即便是同樣的音位,由于說話人的差異,其共振峰也會發(fā)生很大的改變。在語音識別中,需要考慮三個以上的共振峰。二、語音信號特點漢語以漢語拼音為基礎。漢語一字節(jié)是由聲母和韻母組成的,通常一個聲母中只有一個輔音,而韻母是一個或幾個以上的元音或元音和輔音的結(jié)合。漢語是一種聲調(diào)語言,漢語聲調(diào)的識別功能是其最基本的功能,其主要功能是根據(jù)調(diào)式進行區(qū)分不同的音調(diào)。英語里的每個句子都有一個重讀。在口語中,有時還會出現(xiàn)兩個或更多的重讀,所以,在口頭交流中,重音是表達意義的象征,而重音同時也是一條重要的信息。5.3.2語音識別概述二、語音識別系統(tǒng)分類(一)按照說話人分類說話人識別的特征提取與語音識別的特征提取正好相反,語音識別是要找到不同說話人相同語音之間的共性作為特征,而說話人識別則需要使用說話人之間的區(qū)別作為特征。說話人識別的特征在層次上又可分為低層的聲學特征和高層的語言習慣特征,而在目前的研究水平,可區(qū)分性較強、穩(wěn)定性較高特征還僅限于低層的聲學特征,是基于個人的發(fā)聲器官的生理特性的特征。具有較好效果的特征主要有如下幾種:基于發(fā)聲原理的管道模型的線性預測系數(shù)及其各種變體;語音頻譜導出系數(shù)組,包括基音輪廓、共振峰、語音強度以及其變遷特性;基于聽覺感知原理的特征,以美爾頻標倒譜為代表。(二)按照詞匯量分類大詞匯量指的是500字以上的識別,小詞匯量是指100字以下的識別,除此之外,還有中等詞匯量的識別。例如,MHINT語料庫:包含男性發(fā)音的480個語句,每個語句包含十個漢字。語音采樣率均為16kHz。(三)按照表達方式的不同分類對于一次語音輸出,機器可按照連續(xù)信號、孤立詞、關(guān)鍵詞三種方式檢索識別。連續(xù)語音識別計算量較大,對一段連續(xù)的語音信號進行識別處理;孤立詞即機器對一個個孤立的字或詞進行識別,所以運算量較小;關(guān)鍵詞語音識別即機器從一段語音信號中找出需要的關(guān)鍵詞進行識別。三、說話人識別基本原理說話人識別系統(tǒng)由語音數(shù)據(jù)預處理、特征提取、模型訓練、模式匹配四部分組成。在訓練階段,系統(tǒng)根據(jù)輸入的語音數(shù)據(jù)提取特征,利用聲紋識別算法訓練出模型;在識別階段,系統(tǒng)提取輸入語音數(shù)據(jù)的特征,并將該特征輸入訓練好的識別模型,輸出識別結(jié)果。語音情感識別語音情感識別是指從語音信號中識別出說話人的情感狀態(tài),常見特征包括:5.3.3語音數(shù)據(jù)處理語音數(shù)據(jù)處理包含了語音信號預處理、特征提取、特征訓練、識別與后處理判定等多項功能,后處理和判決是任選的。預處理將輸入的音信號數(shù)字話并轉(zhuǎn)換成適合在計算機系統(tǒng)中進行運算的結(jié)構(gòu)以及調(diào)整數(shù)據(jù)的特性。特征提取從語音流中找到聲學特征的表達參數(shù),能夠有效的包含應語音段的有效信息。特征訓練先將訓練的聲音輸入到語音,再通過預處理、特征抽取等方法,獲得一個特征向量的參數(shù),再利用該模型建立一個訓練語音的參照庫,或者在模式庫中修改該參照庫。識別將輸入的語音特征矢量和參照模式庫的相似度進行測度,并將它們的相應類型作為識別的中間候選。后處理判別模塊是利用語言模型、詞法、句法等多種知識進行最后的辨識,以達到語音識別的目的。圖5.12典型的語音識別系統(tǒng)結(jié)構(gòu)一、語音數(shù)據(jù)預處理圖5.13語音識別預處理基本流程(一)采樣與量化聲帶發(fā)出的原始聲音是連續(xù)的,而錄音機則會接收到持續(xù)的訊號,也就是模擬訊號,需要取樣、量化,然后再用電腦進行處理。取樣是指在時間線上以某一頻率(也就是間隔一段時間),用每一次模擬信號的模擬量替換原先連續(xù)的信號。奈奎斯特取樣頻率:假定頻譜限制信號f(t),在頻譜在-ωm~+ωm范圍內(nèi)時,可用等間距取樣值來唯一地表達信號f(t)。(二)預加重目的是消除聲門激振和口鼻輻射,人為地利用預加重功能強化了語音信號中的高頻成分,改善了高頻段的信噪比,降低了語音信號在發(fā)射時產(chǎn)生的能量損耗,使得聲音的高頻部分得到增強,使得信號的頻譜更加扁平。(三)分幀與加窗可以把話音分成短時的語言,每一段都被稱作“幀”,所以對話音信號的處理必須基于它的“短時性”;分幀是通過窗函數(shù)實現(xiàn)語音信號截斷,但截斷后的短時語音信號會導致信號的頻譜特性發(fā)生突變,產(chǎn)生無限帶寬;在語音分幀時,常采用一種可動的有限長窗來進行加權(quán),而窗的選取會影響其短期能量,并將其視為濾波器的單元沖擊響應。(四)端點檢測實際的語音識別中,由于語音信號中會含有噪音,因此,首先要對語音輸入進行判定,并從中找到含有有效信息的起始點,從而確保所獲取的聲音是真正有用的;通常采用短時能量、短時平均振幅、短時過零率等時域參數(shù)來判定有效信號的起始和結(jié)束。二、特征提?。ㄒ唬┚€性預測系數(shù)LPC線性預測的基本概念:將其以往幾次抽樣值的權(quán)值(線性結(jié)合)用于預測,其中每一權(quán)重系數(shù)都是以最小的預測誤差平均方值為原則(也就是按照所謂的最小平均方差標準),那么就是p級的線性預測因子(Linearitypredictscoefficients,LPC)。(二)線性預測倒譜系數(shù)LPCC線性預測倒頻譜系數(shù)(Linearitypredictscepstrumcoefficients,LPCC)是一個較為關(guān)鍵的特征參數(shù),它可以較徹底地消除語音生成時的激勵信息,并能很好地反映出語音的共振峰。LPC分析的重要意義:該方法能提供一套簡單的語音模型參數(shù),能夠更準確地反映出語音信號的波幅,并且其運算量也不大,可以用來做模板,既能提高識別率,又能縮短處理時間。LPC倒譜系數(shù)不足之處:其建立在全極點模式的基礎上,因而不能準確地反映清、鼻音,同時又包含了零點效應,故在理論上,應采用極點模式。(三)梅爾倒譜系數(shù)MFCC在求取梅爾倒譜系數(shù)(Mel-frequencycepstralcoefficient,MFCC)的過程中,根據(jù)梅爾頻率與Hz的對應關(guān)系,類似臨界頻帶的劃分,可以將語音頻率劃分成一系列三角濾波器序列,即梅爾頻率濾波器組,每個濾波器在以梅爾為單位的頻率軸上是不等間距的,而是符合臨界帶寬的分布特性。取每個三角形的濾波器頻帶寬內(nèi)所有信號幅度加權(quán)和作為某個帶通濾波器的輸出,然后對所有濾波器輸出做對數(shù)運算,再進一步進行離散余弦變換(Discretecosinetransform,DCT),即得到MFCC。將各三角濾波器頻率帶寬中的信號幅值相加,并將其作為一個帶通濾波器的輸出,并對各濾波器的輸出進行對數(shù)運算,最后進行DCT,即獲得MFCC。模型訓練與模板匹配(1)動態(tài)時間規(guī)整法(DynamicTimeWarping,DTW)(2)矢量量化(VectorQuantization,VQ)模型(3)隱馬爾可夫模型圖5.17基于HMM的說話人識別系統(tǒng)框圖語音信號可以被看作是一個可觀測序列,用一個模型來描述,就可以對其進行識別。整體上,語音信號表現(xiàn)出不穩(wěn)定的特征,而信號在很短的時間內(nèi)表現(xiàn)出接近于穩(wěn)定的特征,而整體的信號處理可以被看成是從一個比較穩(wěn)定的特征向另外一個特征的轉(zhuǎn)變。在隨機模式下,隱馬爾可夫模型是最適用于語音信號的處理方法。5.3.4語音識別系統(tǒng)語音識別系統(tǒng)可分為離線語音識別和在線離線語音識別系統(tǒng)。離線語音識別詞語庫比較小,屬于小詞匯量語音識別,不依賴網(wǎng)絡環(huán)境,識別過程在硬件內(nèi)部自動完成;受嵌入式硬件平臺的限制,導致離線語音識別不能占有過多的存儲空間,而且不能進行太多復雜的運算處理;目前主要以嵌入式平臺為主,通過啟動專用語音識別芯片的方法來進行語音識別。在線語音識別針對大詞匯量的連續(xù)語音識別的分布式語音識別系統(tǒng);每次識別前將需要識別的語音內(nèi)容上傳至服務器,然后通過服務器進行運算處理,最后與詞語庫中的詞語進行匹配,最后再將結(jié)果反饋給說話者。一、語音識別模塊(一)MEGASUN-M6語音識別模塊(二)LD3320芯片(三)XFS5152CE芯片二、硬件開發(fā)語音識別芯片:語音信號的處理和識別;單片機:主控芯片加以控制,同時與上位機進行通訊;外部寄存器:動態(tài)地添加和編輯需要識別的詞語庫;USB轉(zhuǎn)串口模塊:將硬件系統(tǒng)方便地與上位機建立通信;專用的語音識別芯片:用麥克風接收說話者的語音信號,進行處理和識別。三、軟件開發(fā)(一)Arduino開源平臺(二)DeepSpeech開源平臺(三)Kaldi開源平臺(四)CMUSphinx語音識別器圖5.20典型的語音識別硬件設計結(jié)構(gòu)授課周次第周授課時間2024年月日至2024年月日課程章節(jié)第5章機器人感知智能5.4聲源定位5.4.1人耳模型5.4.2麥克風陣列5.4.3聲源定位方法5.5視覺聽覺交叉融合5.5.1人類視聽交叉感知機制5.5.2視聽信息融合識別5.5.3視聽信息交互的目標跟蹤教學目的1、掌握麥克風陣列分類及工作原理;2、掌握聲源定位方法;3、了解視聽交叉融合識別技術(shù)。內(nèi)容提要及板書設計第5章機器人感知智能5.4聲源定位5.4.1人耳模型5.4.2麥克風陣列5.4.3聲源定位方法5.5視覺聽覺交叉融合5.5.1人類視聽交叉感知機制5.5.2視聽信息融合識別5.5.3視聽信息交互的目標跟蹤重點、難點及解決方案重點:麥克風陣列分類及工作原理難點:聲源定位方法教學內(nèi)容時間分配序號教學內(nèi)容1人耳模型與麥克風陣列302聲源定位方法203人類視聽交叉感知機制104視聽信息融合識別105視聽信息交互的目標跟蹤20教學手段講解教學形式(在右欄勾選)理實一體()理論教學()實驗()實訓()上機()作業(yè)作業(yè)完成方式書面()電子()教學后記

附頁:第周序號具體內(nèi)容(課堂組織和教學過程設計)授課改進意見及實時教學效果記錄5.4聲源定位5.4.1人耳模型在大多數(shù)人類聲音定位研究中,聲源被限制在兩個平面中的一個:水平面或垂直(中矢)面。水平和垂直定位之間的區(qū)別似乎也可以通過水平和垂直定位的主要空間線索(即雙耳差異線索與單耳線索)的差異來證明。入射到聽者耳朵上的聲波會被面對入射波一側(cè)的頭部反射,衍射到頭部陰影一側(cè)的耳朵,并通過耳廓傳輸?shù)蕉?。這些反射和衍射產(chǎn)生雙耳時間差和雙耳強度差,這是眾所周知的雙耳差異線索。5.4.2麥克風陣列麥克風陣列由若干個具有特定幾何結(jié)構(gòu)的感應器構(gòu)成,具有很好的空間選擇性,能夠在一定的距離上對聲源進行自適應探測,并能進行軌跡定位。麥克風陣列能夠有效地解決單一話筒在空間信號的接收與處理上的不足。機器人聽力系統(tǒng)通常采用多種形式的傳聲器,通過多種方法組成一個陣列,從周圍環(huán)境中采集聲音,并對不同方位的聲音進行加強。圖5.27-29四元正四面體陣列,五元正四面體陣列結(jié)構(gòu),球形陣列示意圖一、麥克風陣列算法(一)固定波束形成。固定波束成形可以看做是一種閉環(huán)系統(tǒng),在這種系統(tǒng)中,接收到的信號的隨機統(tǒng)計特性決定了其性能的好壞,為了能夠更好的降低噪聲和干擾對語音的影響,進行固定波束形成前需要知道信號和干擾、噪聲的具體位置。它的各項參數(shù)在進行波束形成前就由開發(fā)人員固定,不因信號的改變而改變。(二)自適應波束形成。該類波束形成算法常以具體準則為基礎提出相應的算法,可用較少的麥克風取得較好的去噪效果。自適應波束形成算法本質(zhì)上以信號處理為基礎,仍只是將語音看做普通的傳輸信號處理。(三)盲源信號分離。該類算法分為三類,第一類方法被稱為獨立分量分析,它是在信號經(jīng)過變換后,保證不同的信號分量之間的相依性盡可能的減小。5.4.3聲源定位方法雙耳聲源定位主要機理:1.雙耳間聲強差:聲源在左右耳的聲音強度差;2.雙耳間時間差或相位差:點聲源抵達左右耳的時間差;3.頻率線索:基于頻譜相關(guān)特性來進行聲源定位。在三維空間聲場中,空間上的描述有三個維度:1.左右空間方位:這個主要是依賴于雙耳線索,通過聲音抵達雙耳之間的差異,來判斷聲音的左右偏向。ITD是聲源抵達雙耳的時間差,ITD范圍為0~690????區(qū)間。2.上下空間方位:主要是通過耳廓的形狀,造成不同入射角有不同的折射程度而產(chǎn)生的差異。大多數(shù)頻譜線索位于4~16kHz的頻率范圍。3.遠近空間方位(Distance):遠近維度其實就是聲源到達雙耳的能量,能量大聽覺上感覺近,能量小聽覺上感覺遠。一、基于聲波到達時間差聲音定位的基本思想是從一對麥克風之間的到達時間差推導出聲源的方向;時差可以在短時間內(nèi)通過通用互相關(guān)方法進行估計;通用互相關(guān)方法可以通過不同的加權(quán)方案進行增強,如相位變換。二、基于最大輸出功率的可控波束形成技術(shù)波束形成器形成標量輸出信號,作為傳感器陣列接收的數(shù)據(jù)的加權(quán)組合;權(quán)重確定波束形成器的空間濾波特性,并且如果具有重疊頻率內(nèi)容的信號來自不同位置,則能夠分離這些信號;選擇與數(shù)據(jù)無關(guān)的波束形成器中的權(quán)重,以提供與接收數(shù)據(jù)無關(guān)的固定響應。三、基于高分辨率譜估計高分辨頻譜估計技術(shù)一般應用于多個聲源環(huán)境;該方法給出了在一定條件下,保證在平穩(wěn)狀態(tài)下不發(fā)生變化,且具有充分的平均信號,而在真實情況下,這種情況發(fā)生的可能性非常低;這種方法計算量大,相對于傳統(tǒng)的波束成形算法,它對聲源和話筒模型的錯誤具有很好的魯棒

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論