基于機器學習的數(shù)字音頻分類方法研究_第1頁
基于機器學習的數(shù)字音頻分類方法研究_第2頁
基于機器學習的數(shù)字音頻分類方法研究_第3頁
基于機器學習的數(shù)字音頻分類方法研究_第4頁
基于機器學習的數(shù)字音頻分類方法研究_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于機器學習的數(shù)字音頻分類方法研究摘要:讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。隨著經(jīng)濟的開展,人們越來越迫切要求擺脫鍵盤的束縛而代之以語音輸入這樣便于使用的、自然的、人性化的輸入方式。這就使語音信號分析成為社會生活中越來越重要的一局部。其中語音識別是語音信號分析的重要領(lǐng)域,而語音特征信號識別又是語音識別研究領(lǐng)域的一個重要方面。語音特征信號識別一般采用模式匹配的方法解。首先通過預處理提取語音特征,作為該語音片段的模型。將該模型與的參考模型相比擬,獲得最正確匹配的參考模式作為識別結(jié)果,在論文中研究的是基于傳統(tǒng)的BP神經(jīng)網(wǎng)絡的音頻分類與SVM技術(shù)音頻分類的仿真實驗結(jié)果進行比擬,比照兩者各自優(yōu)缺點,從而熟悉這兩種技術(shù)的根本工作原理和算法。通過實驗對其性能進行了主觀評價和客觀數(shù)據(jù)分析,對于所選語音信號BP網(wǎng)絡具有較快的訓練速度,但是SVM技術(shù)具有較高的識別率。BP網(wǎng)絡的學習和記憶具有不穩(wěn)定性。也就是說,如果增加了學習樣本,訓練好的網(wǎng)絡就需要從頭開始訓練,對于以前的權(quán)值和閾值是沒有記憶的。但是可以將預測、分類或聚類做的比擬好的權(quán)值保存。關(guān)鍵詞:語音識別,特征提取,梅爾倒譜系數(shù),BP網(wǎng)絡,SVM〔支持向量機〕Researchondigitalaudioclassificationbaseonmachine-learningAbstract:Sincethebirthofthecomputerpeoplewanttoletthecomputercanunderstandhuman'slanguage.Peoplearebecomingmoreandmoreurgenttogetridofkeyboardandreplaceitbyvoiceinputthatispersonalized、convenientandnaturaltobeused.SothatAnalysisofspeechsignalbecomeamoreandmoreimportantpartinsociallife.ThespeechrecognitionisanimportantpartofAnalysisofspeechsignal,andthevoicesignalrecognitionisoneofthemostimportantaspectsofspeechrecognition.Speechfeaturesignalsrecognitionusetousepatternmatchingmethod.Firstly,throughpretreatmentofphoneticfeatureextractionmakeasthemodel.Themodeliscomparedwithknownreferencemodel,getthebestmatchesthereferencepatternasaresultofrecognition.InthispaperresearchisbasedonthetraditionalBPneuralnetworkaudioclassificationandtechnologyofSupportvectormachineaudioclassificationtheexperimentalresultswerecomparedtofindeachofadvantagesanddisadvantages,sotounderstandwiththetwotechnicalbasicprincipleandalgorithm.Throughtheexperimentsontheperformanceofthesubjectiveevaluationandobjectivedataanalysis,forselectedspeechsignalBPnetworkhasfastertrainingspeed,buttheSVMtechnologyhashigherrecognitionrate.BPnetworklearningandmemoryhaveinstability.Thatistosaythatiftheincreaseoflearningsamples,thetrainednetworkisneededtostarttraining,forthepreviousweightsandthresholdsisnomemory.Butitcankeepthesebetterweightthatdowellinpredict,classificationorclustering.KEYWORDS:SpeechrecognitionfeatureextractionMelfrequencycepstrumcoefficientBPnetworksSVM(supportvectormachine)目錄TOC\o"1-3"\h\u14441第一章緒論5109011.1語音信號處理開展前景5167771.2語音識別技術(shù)概述5265541.2.1語音識別技術(shù)的開展歷史回憶6229571.2.2音頻識別系統(tǒng)的根本原理695181.2.3語音識別的意義7127481.3工程的主要研究內(nèi)容712841.4本文的主要章節(jié)安排73282第二章信號的預處理8273842.1信號的預加重8169052.2音頻信號的加窗分幀9127292.3音頻信號的端點檢測10265382.3.1音頻信號的短時能量分析10193992.3.2音頻信號的短時過零率分析1137982.3.3基于短時平均能量和短時平均過零率的雙門限端點檢測1213291第三章音頻信號的特征矢量提取1311693.1信號的倒譜分析13294033.2梅爾倒譜參數(shù)1426493第四章基于BP神經(jīng)網(wǎng)絡的音頻信號數(shù)據(jù)分類19272684.1BP神經(jīng)網(wǎng)絡概述1982834.1.1BP神經(jīng)網(wǎng)絡19238164.1.2語音特征信號分類20316424.2BP網(wǎng)絡的MATLAB實現(xiàn)2152544.2.1歸一化方法及MATLAB實現(xiàn)21216424.2.2數(shù)據(jù)選擇選擇和歸一化21312524.2.4仿真結(jié)果分析227575第五章利用SVM建立分類器來對語音特征信號進行分類預測25168365.1svm技術(shù)簡述25320975.1.1SVM的原理和優(yōu)點25284925.1.2SVM技術(shù)在本案例中的應用2650525.1.3實驗的仿真結(jié)果與分析2616005第六章總結(jié)與展望298651致謝302373畢業(yè)設(shè)計小結(jié)3110853參考文獻3224082附錄3325812附錄1:相關(guān)文獻的翻譯33第一章緒論通過語音傳遞信息是人類最重要、最有效、最常用和方便的交換信息的形式。語音是人類特有的功能,聲音是人類最常用的工具,是相互傳遞信息的最主要的手段。因此,語音信號是人們構(gòu)成思想溝通和感情交流的途徑。1.1語音信號處理開展前景讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。隨著計算機越來越向便攜化方向開展,以及計算環(huán)境的日趨復雜化,人們越來越迫切要求擺脫鍵盤的束縛而代之以語音輸入這樣便于使用的、自然的、人性化的輸入方式。尤其是漢語,它的漢字輸入一直是計算機應用普及的障礙,因此利用漢語語音進行人機交換是一個極其重要的研究課題。作為高科技應用領(lǐng)域的研究熱點,語音信號處理技術(shù)從理論的研究到產(chǎn)品的開發(fā)已經(jīng)走過了幾十個春秋平且取得了長足的進步。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游的行業(yè)的語音咨詢與管理,工業(yè)生產(chǎn)部門的語音控制,-電信系統(tǒng)的自動撥號、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活志愿系統(tǒng)等各種實際應用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應用程序的用戶界面??梢?,語音信號處理技術(shù)的研究將是一項極具市場價值和挑戰(zhàn)性的生活。我們今天進行這一領(lǐng)域的研究與開拓就是要讓語音信號處理技術(shù)走入人們的日常生活當中,并不斷朝向更高目標而努力。語音信號處理這門學科之所以能夠長期地、深深地吸引廣闊科學工作者不斷地對其進行研究和探討,除了它的實用性之外,另一個重要原因是,它始終與當時信息科學中最活潑的前沿學科保持密切的聯(lián)系,并且一起開展。語音信號處理是以語音語言學和數(shù)字信號處理為根底而形成的一門涉及面很廣的綜合性學科都有著非常密切的關(guān)系。對語音信號處理的研究一直是數(shù)字信號處理技術(shù)開展的重要推動力量。因為許多的處理的新方法的提出,首先是在語音處理中獲得成功,然后在推廣到其他領(lǐng)域的[2]。1.2語音識別技術(shù)概述語音識別是指機器對人類說話的語句或命令進行識別和理解并做出相應的反響。它是涉及語言學、計算機科學、生理學等諸多領(lǐng)域的一門交叉學科。隨著計算機軟硬件和信息技術(shù)的飛速開展,以語音識別技術(shù)開發(fā)出的產(chǎn)品也廣泛地應用于聲控交換、信息網(wǎng)絡查詢、醫(yī)療效勞、銀行效勞、工業(yè)控制等社會和人們生活的每個方面。語音識別技術(shù)的開展歷史回憶對語音識別技術(shù)的研究距今已有半個多世紀的歷史。1952年,AT&Tbell實驗室的Davis等人成功研制的Audry系統(tǒng)標志著語音識別研究工作的開始。它是世界上第一個能識別十個英文數(shù)字發(fā)音的實驗系統(tǒng)。進入20世紀60年代,計算機的應用推動了語音識別的開展。在這一時期產(chǎn)生了動態(tài)規(guī)劃(DP,DynamicProgramming)和線性預測分析技術(shù)(LP,LinearPrediction)兩大重要理論,較好地解決了語音信號產(chǎn)生模型的問題,對語音識別的開展產(chǎn)生了深遠影響。70年代,語音識別領(lǐng)域取得了較大的突破。動態(tài)時間歸正技術(shù)(DTW)根本成熟,有效地解決了語音信號特征提取和不等長語音匹配問題,同時還提出了矢量量化(VQ),隱馬爾可夫模型(HMM)理論。80年代語音識別研究進一步走向深入,各種連接詞語音識別算法被開發(fā),并從模板匹配技術(shù)轉(zhuǎn)向基于統(tǒng)計模型技術(shù),特別是在實踐開發(fā)中成功應用了HMM模型和人工神經(jīng)網(wǎng)絡〔ANN〕。1988年Kai-FuLee等用VQ/HMM方法實現(xiàn)了997個詞匯的非特定人連續(xù)語音識別系統(tǒng)SPHINX,這是世界上第一個高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)。進入90年代后,語音識別技術(shù)開始向市場提供產(chǎn)品。具代表性的是IBM的ViaVoice和Dragon公司的DragonDictate系統(tǒng),這些語音識別系統(tǒng)具有說話人自適應能力,新用戶不需要對全部詞匯進行訓練便可在使用中不斷提高識別率。進入21世紀,語音識別的研究重點包括即興口語的識別和理解,自然口語對話,以及多語種的語音同聲翻譯。而基于語音識別芯片的嵌入式產(chǎn)品也越來越多,如Infineon公司的Unispeech和Unilite語音芯片等。我國對語音識別的研究也較早。20世紀50年代后期,中科院聲學所用頻譜分析的方法研究了漢語10個元音的語音識別;20世紀70年代后期,構(gòu)建了基于模板匹配的孤立詞語音識別系統(tǒng);20世紀80年代后期,研究了八五期間中科院人機語音對話研究工程。目前我國語音識別技術(shù)的研究水平已經(jīng)根本上與國際相當。如以中國科學院自動化研究所模式識別國家重點實驗室為依托的中科模識,其漢語連續(xù)語音、非特定人聽寫機系統(tǒng)的普通話系統(tǒng)的錯誤率可以控制在10%以內(nèi)。音頻識別系統(tǒng)的根本原理語音識別屬于模式識別的范疇。根據(jù)模式識別的原理,未知語音的模式與己知語音的參考模式逐一進行比擬,最正確匹配的參考模式被作為識別結(jié)果。語音識別系統(tǒng)的工作過程可以描述如下:待識別語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端,首先經(jīng)過預處理,包括反混疊失真濾波、預加重和端點檢測從而將語音信號的特征被提取出來。常用的特征包括:短時平均能量或幅度、短時平均過零率、短時自相關(guān)函數(shù)、線性預測系數(shù)、倒譜、共振峰等。根據(jù)實際需要選擇語音特征參數(shù),這些特征參數(shù)的時間序列便構(gòu)成了待識別語音的模式,將其與己經(jīng)存儲在計算機內(nèi)的參考模式逐一進行比擬,獲得最正確匹配的參考模式便是識別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲起來的,為此,要輸入一系列語音信號,提取它們的特征作為參考模式,這一過程稱為訓練過程。1.2.3語音識別的意義語音識別〔SpeechRecognition〕主要指讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖。它是一門涉及很廣的交叉學科,與計算機、通信、語音語音學、數(shù)理統(tǒng)計、信號處理、神經(jīng)生理學、神經(jīng)心理學和人工智能等學科都有著密切的關(guān)系。隨著計算機技術(shù)、模式識別和信號處理技術(shù)及聲學技術(shù)等的開展,使得能滿足各種需要的語音識別的實現(xiàn)成為可能。近二三十年來,語音識別在工業(yè)、軍事、交通、醫(yī)學、民用諸方面,特別是在計算機、信息處理、通信與電子系統(tǒng)、自動控制等領(lǐng)域中有著廣泛的引用。當今,語音識別在人機交換應用中,已經(jīng)占到了越來越大的比例。主要是有下面的例子:語音打印機、數(shù)據(jù)庫檢索。特定的環(huán)境所需的語音命令。目前在語音識別中,如何充分借鑒和利用人在語音識別和理解時所利用的方法和原理的一個重要課題[1]。1.3工程的主要研究內(nèi)容通過本次畢業(yè)設(shè)計應能夠熟練掌握數(shù)字信號處理、信息論、語音信號處理、模式識別等課程的相關(guān)理論知識,并將其運用到實際的工程設(shè)計中。掌握科學研究的一般方法,提高查閱文獻和算法設(shè)計的能力,為今后的科學研究和工程設(shè)計打下根底。語音特征信號識別是語音識別研究領(lǐng)域的一個重要方面,一般采用模式匹配的方法解決。首先通過預處理提取語音特征,作為該語音片段的模型。將該模型與的參考模型相比擬,獲得最正確匹配的參考模式作為識別結(jié)果。要求基于神經(jīng)網(wǎng)絡相關(guān)理論,編程實現(xiàn)對不同類型音頻信號的通用分類算法。1.4本文的主要章節(jié)安排緒論:語音信號的簡介、語音識別簡介、課題安排、章節(jié)設(shè)置語音識別技術(shù)綜述:語音識別的系統(tǒng)簡介和模型設(shè)計、對目前主流的語音識別技術(shù)介紹信號的預處理:介紹音頻信號的預處理技術(shù),包括預加重,加窗分幀,端點檢測等。音頻信號的特征矢量提?。河懻撘纛l信號的MFCC特征矢量提取方法,并給出適合本工程的MFCC矢量特征提取方案。第五章基于BP神經(jīng)網(wǎng)絡的音頻信號數(shù)據(jù)分類:建立BP網(wǎng)絡對語音特征數(shù)據(jù)進行分類、對仿真結(jié)果進行分析第六章利用SVM建立分類器來對語音特征信號進行分類預測:利用SVM建立分類器對特征型號進行、并對仿真結(jié)果進行分類第七章總結(jié)與展望:對兩個方法進行比擬、總結(jié)本工程的主要工作,給出結(jié)論及進一步的工作設(shè)想。第二章信號的預處理在對音頻信號進行分析和處理之前,必須要對所采集的語音信號進行預處理。信號的預處理包括預加重,加窗分幀,短時能量,短時過零率計算以及在此根底上進行的端點檢測。2.1信號的預加重對音頻信號進行分析之前,一般要對信號加以提升(預加重)。預加重的目的是濾除低頻干擾,尤其是50Hz或者60Hz的工頻干擾,提升對音頻識別有用的高頻局部,使信號的頻譜變得平坦,以便于進行頻譜分析或聲道參數(shù)分析。語音信號的預加重一般在模/數(shù)轉(zhuǎn)化后進行,利用6db/倍頻的一階數(shù)字預加重濾波器實現(xiàn)。其函數(shù)為:(2-1)、時域表達式為:(2-2)其中,的取值范圍是0.95~0.97。圖2-1預加重時域效果圖2-2預加重頻域效果對一幀信號的預加重時域效果如圖2-1,頻域效果如圖2-2,從頻域比照可以看出,信號經(jīng)過預加重之后頻譜相對平坦了一些,信號的高頻分量得到了提升。2.2音頻信號的加窗分幀由于音頻信號是一種典型的非平穩(wěn)信號,其特性是隨時間變化的。但是可假定在10~30ms這樣的時間段內(nèi),音頻信號是平穩(wěn)信號,其頻譜特性和某些物理特征參量可近似地看作不變。目前,幾乎所有的音頻信號處理方法都是基于這個假定——將語音信號分成假設(shè)干個短段,每一短段稱為一個分析幀。對該分析幀進行處理就相當于對固定特性的持續(xù)語音進行處理。分析幀可以是連續(xù)的,也可以采用交疊分幀的方法。經(jīng)過處理后將從原始語音序列產(chǎn)生一個新的依賴于時間的序列,用于描述語音信號的特征[2]。同時分幀也是整個識別流程的前提——后面的MFCC特征矢量提取,矢量量化等都是以一幀信號為單位進行計算。為了減小音頻數(shù)據(jù)幀的截斷效應,降低幀兩端的坡度,使音頻幀的兩端不引起急劇變化而平滑過渡到0,就要讓音頻幀乘以一個窗函數(shù)。理想窗函數(shù)的頻率響應要求主瓣無限狹窄且沒有旁瓣(即無頻譜泄漏),但這種窗函數(shù)在實際工程中是無法實現(xiàn)的。窗函數(shù)越寬,對信號的平滑作用越顯著,窗函數(shù)過窄,對信號平滑作用越不明顯。一般需要窗函數(shù)具有以下的性質(zhì):(l)頻率分辨率高,主瓣狹窄、鋒利;(2)頻譜泄漏少,旁瓣衰減速度快。這里使用目前常用的Hamming窗:(2-3)其中N為每幀的采樣點數(shù)。設(shè)長度為N的一幀信號為,那么加窗后的幀信號為:(2-4)2.3音頻信號的端點檢測語音的端點檢測在語音的編碼、語音識別、語音增強、說話人識別中起著非常重要的作用,直接影響著后續(xù)工作的正確率。在本工程中要依靠端點檢測確定出一個廣告音頻信號處理分析的開始點。目前常用的端點檢測方法有如下幾種:基于短時能量的、基于短時過零率的、基于倒譜特征的、基于信息熵的端點檢測的方法等[5]??紤]到所處理的廣告音頻信號是從電視機里直接引出的音頻信號,一般情況下可以有可靠的信噪比〔目前數(shù)字電視的音頻輸出信噪比可以到達80dB以上〕,這里采用比擬簡單的基于短時能量和短時過零率的端點檢測[13]。音頻信號的短時能量分析語音信號的能量分析是基于語音信號能量隨時間有相當大的變化,特別是清音段的能量一般比濁音段的能量小得多。能量分析包括能量和幅度兩個方面。n時刻某音頻信號的短時平均能量定義為:(2-5)其中為上述分幀加窗所用的窗函數(shù)[2]。實際操作時計算一幀信號的短時平均能量作為端點檢測的依據(jù)。一幀信號的短時平均能量可以用加窗分幀之后的信號這樣描述:(2-6)短時能量可用來區(qū)分清音段和濁音段。En值大的對應于濁音段,而En值小的對應于清音段。對于高信噪比的語音信號,無語音信號的噪聲能量En很小,而有語音信號的能量En顯著增大到某一數(shù)值,由此可以區(qū)分語音信號的起始點和結(jié)束點。以短時平均能量為特征的起止點算法:根據(jù)發(fā)音剛開始前己知為“靜〞態(tài)的連續(xù)10幀內(nèi)的數(shù)據(jù),計算每幀的短時平均能量,最大值稱之為IMX,最小值為IMN,那么計算低能量閥值ITL及高能量閥值RTU的經(jīng)驗公式如下。(3-7)(3-8)(3-9)(3-10)由此可以進行起止點判斷,做起點判別時:先根據(jù)ITL算得一初始起點N1,把它定為最先升到低能量閥值的幀號,但是隨著時間的后移,幀平均能量在升到ITU之前又下降到ITL之下,那么原N1不作為初始起點,而改稱下一個再升到ITL的點為N1,以此類推,在找到第一個平均能量超過ITU的幀時停止比擬。音頻信號的短時過零率分析短時過零率表示一幀語音信號波形穿過橫軸(零電平)的次數(shù)。對于連續(xù)語音信號,過零即意味著時域波形通過時間軸,而對于離散信號,如果相鄰的取樣值具有不同的代數(shù)符號就稱為發(fā)生了過零。一段時間內(nèi)(在本工程中是一幀信號時間長度)的過零率稱作平均過零率。窄帶信號的過零率反映了該信號的頻率。當信號為單一正弦波時,過零率是信號頻率的兩倍。對于寬帶信號,因為過零率是隨時間變化的,所以不能采用長時平均過零率,而必須采用短時平均過零率。廣告音頻信號不僅僅是寬帶信號,而且還是時變信號,它的頻譜特性是隨時間變化的,故短時平均過零率實際上是描述時變頻譜的一種最簡單的方法。過零率的計算主要是將相鄰兩取樣值的符號進行比擬,假設(shè)考慮噪聲的存在,就必須規(guī)定一個噪聲門限,超過這一門限正值的取樣值認為是正,低于該門限負值的取樣值被認為是負,界于該門限正負值之間的取樣被認為是零。顯然,為了能夠準確判定各取樣值的符號,應要求信號中不含有直流偏移,噪聲和電源干擾應盡可能小以及選擇適宜大小的正負門限值。以短時平均過零率為特征的起止點算法:根據(jù)發(fā)音剛開始前為“靜〞態(tài)的連續(xù)10幀內(nèi)的數(shù)據(jù),計算出過零率的閥值IZCT:(2-11)其中,為根據(jù)所取樣值算得的均值及標準差的估值,IF為固定值,一般取為25。由此可以進行起止點判斷:根據(jù)IZCT算得一個初始起點N1,把它規(guī)定為最先升到平均過零率閥值的幀號,隨著時間的后移,過零率下降到IZCT之下,那么這時的幀號N2點作為終點?;诙虝r平均能量和短時平均過零率的雙門限端點檢測語音端點檢測方法可采用測試信號的短時能量或短時對數(shù)能量聯(lián)合過零率等特征參數(shù),并采用雙門限判定法來檢測音頻信號端點。首先為短時能量和過零率分別確定兩個門限,一個是較低的門限數(shù)值較小,對信號的變化比擬敏感,很容易超過;另一個是比擬高的門限,數(shù)值較大。低門限被超過未必是語音的開始,有可能是很短的噪聲引起的,高門限被超過并且接下來的自定義時間段內(nèi)的語音超過低門限,意味著信號開始。具體方法為:先使用短時能量判別法確定一個高過高能量閾值ITU的開始幀號N1,當N1確定后,從N1幀向前N1-25幀搜索,依次比擬各幀的過零率,假設(shè)有3幀以上的過零率大于或等于過零率門限,那么將起點N1定為滿足過零率大于等于過零率門限的最前幀的幀號,否那么即以原N1為起點。這種起點檢測法也稱雙門限前端檢測算法。檢測效果如圖2-3所示。圖2-3雙門限端點檢測效果第三章音頻信號的特征矢量提取音頻信號的的特征提取是為了從信號中提取能表示音頻特征的信息。在現(xiàn)有的語音識別中主要有三類:時域、頻域、倒頻域。音頻信號的時域分析就是分析和提取語音信號的時域參數(shù)。進行音頻信號分析時,最先接觸到并且也是最直觀的是它的時域波形。音頻信號本身就是時域信號,因而時域分析是最早使用,也是應用最廣泛的一種分析方法,這種方法直接利用語音信號的時域波形。音頻信號的時域參數(shù)有短時能量、短時過零率、短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)等。音頻信號的頻域分析就是分析信號的頻域特征、從廣義上講,音頻信號的頻域分析包括語音信號的頻譜、功率譜、倒頻譜、頻譜包絡分析等,而常用的頻域分析方法有帶通濾波器組法、傅里葉變換法,線性預測法等幾種。,音頻信號的倒譜分析就是求取信號倒譜特征參數(shù)的過程,它可以通過同態(tài)處理來實現(xiàn)。同態(tài)信號處理也稱為同態(tài)濾波,它實現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的別離處理,即解卷。對語音信號進行解卷卷,可將信號的聲門鼓勵信息及聲道響應信息別離開來,從而求得聲道共振特征和基音周期。其中音頻信號特征參數(shù)的開展也主要是從時域到頻域,再到倒頻域的過程。廣告音頻信號是一種冗余度很高的隨機信號,在進行信號處理的時候,必須經(jīng)過特征提取才能有效的降低信號冗余度。所以特征提取實際上是對音頻信號進行大幅度壓縮的過程。廣告音頻信號雖然是時變信號,但是假設(shè)把它分成10ms至30ms之間這樣的音頻段,那么音頻段是相對平穩(wěn)的,這就是所謂的短時平穩(wěn)性。因此可以把短時音頻段的特征提取出來。這里介紹的特征矢量是梅爾倒頻譜系數(shù)MFCC[6]。3.1信號的倒譜分析數(shù)字化的音頻信號是聲道頻率特性和鼓勵信號源二者的共同結(jié)果,后者對于某幀而言常帶有一定的隨機性。音頻的個性特征很大程度上表達在信號聲道變化上,即聲道頻率特性。因此有必要采用一定的方法將這兩者有效的分開,這個方法就是同態(tài)濾波。濾波的過程是將卷積處理化為乘積,然后作對數(shù)處理,使之化為可別離的相加成分,結(jié)果就形成了倒譜c(n)=h(n)+i(n)。因h(n)描述了信號的聲道分量,故是非常有效的信號特征參數(shù)。倒譜定義為時間序列的z變換的模的對數(shù)的逆變換,具體說,序列x(n)的倒譜c(n)定義為:(3-1)倒譜的計算過程如下列圖所示:傅里葉反變換對數(shù)變換傅里葉變換語音信號倒譜傅里葉反變換對數(shù)變換傅里葉變換圖3-1倒譜計算過程在具體實現(xiàn)時,用DFT來代替傅立葉變換,這樣得到的倒譜將是真實倒譜的混疊形式,它是真正倒譜的逼近。對倒譜推導過程進行分析,可以得知語音信號的倒譜具有如下性質(zhì):(1)倒譜的低時局部對應信號的聲道分量,且按1/n的趨勢隨n的增加而衰減,故用維數(shù)不多的倒譜向量足以表征信號的聲道分量。(2)倒譜的高時局部對應于音頻信號的音源鼓勵分量。由此可見,由于聲道和音源鼓勵所處的倒譜時段不同,通過信號倒譜的低時和高時段可以將它們別離,彼此根本互不干擾,尤其是可以防止聲道分量受到具有隨機變換的音源鼓勵分量的干擾。由于倒譜的低時局部描述了信號的聲道特性,所以常常作為廣告音頻識別的個性特征參數(shù)。3.2梅爾倒譜參數(shù)前面4.1節(jié)己講了語音的倒譜,MFCC特征參數(shù)就是在上述的過程中參加了Mel帶通濾波器組,即在圖4-1所示的倒譜計算過程中不直接對信號的對數(shù)譜進行逆DFT,而是先經(jīng)過Mel頻率坐標的尺度彎折,然后才進行逆DFT。人耳對不同頻率的聲音具有不同的感知能力,有實驗說明在1000Hz以下,感知能力與頻率成線性關(guān)系,在1000Hz以上,感知能力與頻率成對數(shù)關(guān)系。即在低頻局部,人耳對聲音的感受比擬敏銳;在高頻局部,人耳對聲音的感受會越來越粗糙。為了模擬人耳對不同頻率語音的感知特性,于是產(chǎn)生了Mel頻率的概念。Mel頻率和線性頻率的關(guān)系如下:(3-2)或(3-3)在本文中采用4-2式,得到的Mel頻率和線性頻率的對應關(guān)系如圖3-2:圖3-2Mel頻率與一般頻率關(guān)系曲線MFCC參數(shù)計算過程如圖4-3:圖3-3MFCC特征矢量計算流程(1)原始音頻信號S(n)經(jīng)過預加重、分幀、加窗等處理,得到每個信號幀的時域信號x(n)。然后將時域信號經(jīng)過離散傅立葉變換(DFT)后得到線性頻譜X(k)。設(shè)一幀信號的DFT為:(3-4)式中x(n)為輸入的幀信號,N表示傅立葉變換的點數(shù),實際計算時采用FFT計算,以減少計算量,提高程序的運行效率。(2)求線性頻譜X(k)幅度的平方,即能量譜:(3-5)(3)計算Mel濾波器組:Mel頻率濾波器組是在音頻信號的頻譜范圍內(nèi)設(shè)置的假設(shè)干個帶通濾波器,其中心頻率為,(m=1,2,…M,為濾波器序號),M為濾波器的個數(shù),通常取為24~40之間。每一個三角形濾波器的中心頻率在Mel頻率軸上等間隔分配。設(shè),和分別是第m個三角形濾波器的下限、中心和上限頻率,那么相鄰三角形濾波器之間的下限、中心和上限頻率有下式的關(guān)系:(3-6)每個濾波器具有三角形濾波特性,m值小時相鄰f(m)之間的間隔也小,隨著m的增加相鄰f(m)的間隔逐漸變大,每個帶通濾波器的傳遞函數(shù)為:(3-7)式中中心頻率定義如下:(3-8)其中為DFT/FFT的窗寬,為信號的采樣率,、為濾波器的頻率應用范圍的下限頻率和上限頻率,為Mel濾波器的個數(shù),即式4-2的反函數(shù)。根據(jù)上述算法使用Matlab仿真得到的Mel濾波器組如圖3-4:圖3-424個Mel濾波器的頻域響應(4)為了使結(jié)果對噪聲和譜估計誤差有更好的魯棒性,一般將經(jīng)Mel濾波器組得到Mel頻譜取對數(shù)能量。因此,得到的對數(shù)頻譜總傳遞函數(shù)為:(3-9)此過程即是通過三角帶通濾波器濾波的過程。使用三角帶通濾波器濾波有兩個主要目的:一是對頻譜進行平滑化,并消除諧波的作用,凸顯原先語音的共振峰;再者可以降低資料量。(5)經(jīng)離散余弦變換(DCT)得到MFCC系數(shù):將上述通過帶通濾波器組的對數(shù)能量帶入離散余弦變換DCT變換到倒譜頻域,求出滿階的MFCC特征參數(shù):(3-10)其中(3-11)圖3-5一段語音信號的MFCC系數(shù)有實驗說明最前假設(shè)干維以及最后假設(shè)干維的MFCC系數(shù)對語音區(qū)分性能影響較大,MFCC系數(shù)個數(shù)通常取最低的12~16階。MFCC系數(shù)的第一維的值的能量很大,故在一般的識別系統(tǒng)中,將稱為能量系數(shù),不作為倒譜系數(shù)中的一員。在本工程中取作12維的MFCC特征矢量。圖3-5是對一段語音信號提取的MFCC系數(shù)??梢钥闯?,低階的MFCC系數(shù)類似于原信號的一種包絡,以其作為信號的特征矢量參數(shù)是有效的。第四章基于BP神經(jīng)網(wǎng)絡的音頻信號數(shù)據(jù)分類4.1BP神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetworks,簡稱為NN)是近年來開展起來的模擬人腦生物過程的人工智能技術(shù).它由大量簡單的神經(jīng)元廣泛互連形成的復雜的非線性系統(tǒng),它不需要任何先驗公式,就能從已有數(shù)據(jù)中自動地歸納規(guī)那么,獲得這些數(shù)據(jù)的內(nèi)在規(guī)律,具有很強的非線性映射能力,特別適合于因果關(guān)系復雜的非確性推理、判斷、識別和分類等問題.基于誤差反向傳播(Backpropagation)算法的多層前饋網(wǎng)絡(Multiple—layerfeedforwardnet.work,簡記為BP網(wǎng)絡),是目前應用最多也是最成功的網(wǎng)絡之一,構(gòu)造一個BP網(wǎng)絡需要確定其處理單元——神經(jīng)元的特性和網(wǎng)絡的拓撲結(jié)構(gòu)。在案例中選用的音頻信號為流行、古箏、搖滾和民歌四類不同音樂的特征信號,新測試類我選用是橫笛的特征信號[7]。4.1.1BP神經(jīng)網(wǎng)絡概述基于誤差反向傳播(BackPropagation)算法的多層前饋網(wǎng)絡(Multiple-layerfeedforwardnetwork),簡記為BP網(wǎng)絡[4],又稱誤差信號反響網(wǎng)絡,是神經(jīng)網(wǎng)絡的一個分支,也是目前神經(jīng)網(wǎng)絡中應用最多也是最成功的網(wǎng)絡之一。它是一種有教師的學習網(wǎng)絡,能夠?qū)崿F(xiàn)從N維到M維的非線性映射,一般采用梯度下降法實現(xiàn)快速收斂。而構(gòu)造一個BP網(wǎng)絡需要確定其處理單元,即神經(jīng)元的特性和網(wǎng)絡的拓撲結(jié)構(gòu)。BP網(wǎng)絡的拓撲結(jié)構(gòu)神經(jīng)網(wǎng)絡的拓撲結(jié)構(gòu)是指神經(jīng)元之間的互連結(jié)構(gòu)。BP神經(jīng)網(wǎng)絡采用的是并行網(wǎng)格結(jié)構(gòu),包括輸入層、隱含層和輸出層,經(jīng)作用函數(shù)后,再把隱節(jié)點的輸出信號傳遞到輸出節(jié)點,最后給出輸出結(jié)果。由圖2可見各層次的神經(jīng)元之間形成全互連連接,各層次內(nèi)的神經(jīng)元之間沒有連接。這種結(jié)構(gòu)使多層前饋網(wǎng)絡可在輸入和輸出間建立適宜的線性或非線性關(guān)系,又不致使網(wǎng)絡輸出限制在-1和1間。圖4-1是一個三層的BP網(wǎng)絡結(jié)構(gòu)。圖4-1三層的BP網(wǎng)絡結(jié)構(gòu)算法分為兩個階段:第一階段〔正向過程〕輸入信息,從輸入層經(jīng)隱層逐層計算各單元的輸出值;根據(jù)下式計算每層的輸出值:(4-1)〔4-2〕第二階段〔反向傳播過程〕輸出誤差,逐層向前算出隱層各個單元的誤差,并用此誤差修正前層的值。在BP算法中常采用梯度法修正權(quán)值,為此要求輸出函數(shù)可微,通常采用Sigmoid函數(shù)作為輸出函數(shù)。誤差計算:〔4-3〕按照梯方向計算各層權(quán)重的修正值:〔4-4〕其中δ的計算公式:〔4-5〕修正層權(quán)重:〔4-6〕重復上述的步驟,知道誤差值小于給定的閾值。4.1.2語音特征信號分類語音識別系統(tǒng)的典型識別方案如圖4-2所示。這是一個基于模式匹配原理的自動語音識別系統(tǒng)方框圖,也是目前大多數(shù)語音識別系統(tǒng)都采用的設(shè)計原理[5]。根據(jù)這個原理,未知語音的模式要與語音的參考模式逐一進行比擬,選出最正確匹配的參考模式作為識別結(jié)果。圖4-2語音識別系統(tǒng)的典型識別方案圖4-2中,待識別語音先經(jīng)話筒變換成語音信號,或直接從wav文件中讀取,然后從識別系統(tǒng)前端輸入,再進行預處理。這時前端輸入的語音信號還只是模擬信號,必須經(jīng)過預處理,轉(zhuǎn)化為數(shù)字語音信號。預處理包括預濾波、采樣和量化、分幀加窗、端點檢測、預加重等,有時還包括模數(shù)轉(zhuǎn)換器。特征提取局部用于提取語音中反映本質(zhì)特征的聲學參數(shù),常用的特征有短時平均能量或幅度、短時平均過零率、短時自相關(guān)函數(shù)、線性預測系數(shù)、清音/濁音標志、基音頻率、短時傅立葉變換、倒譜、共振峰等。訓練在識別之前進行,是通過屢次重復語音的方式從原始語音樣本中去除冗余信息,保存關(guān)鍵數(shù)據(jù),再按一定規(guī)那么對數(shù)據(jù)加以聚類,形成模式庫。模式匹配是整個語音識別系統(tǒng)的核心,是根據(jù)一定的準那么以及專家知識〔如構(gòu)詞規(guī)那么、語法規(guī)那么、語義規(guī)那么等〕,計算輸入特征與庫存模式之間的相似度,選擇最相似度作為識別結(jié)果,從而判斷出輸入語音的語意信息。4.2BP網(wǎng)絡的MATLAB實現(xiàn)BP網(wǎng)絡的訓練所采用的算法是反向傳播法,可以以任意精度逼近任意的連續(xù)函數(shù),近年來,為了解決BP網(wǎng)絡收斂速度慢,訓練時間長等缺乏,技術(shù)人員又提出了許多改良算法.在應用BP網(wǎng)絡解決實際問題的過程中,選擇多少層網(wǎng)絡、每層多少個神經(jīng)元節(jié)點、選擇何種傳遞函數(shù)、何種訓練算法等,均無可行的理論指導,只能通過大量的實驗計算獲得.這無形增加了研究工作量和編程計算工作量.MATLAB軟件提供了一個現(xiàn)成的神經(jīng)網(wǎng)絡工具箱(NeuralNetworkToolbox,簡稱NNbox),為解決這個矛盾提供了便利條件.下面針對BP網(wǎng)絡的建立、傳遞函數(shù)的選擇、網(wǎng)的訓練等,在介紹NNbox相關(guān)函數(shù)的根底上,給出利用這些函數(shù)編程的方法.根據(jù)BP神經(jīng)網(wǎng)路理論,在MATLAB軟件中編程實現(xiàn)基于BP神經(jīng)網(wǎng)絡的語音特征信號分類算法[10]。4.2.1歸一化方法及MATLAB實現(xiàn)數(shù)據(jù)歸一化方法是神經(jīng)網(wǎng)絡預測前對數(shù)據(jù)長做的一種處理方法。數(shù)據(jù)歸一化處理把所有數(shù)據(jù)都轉(zhuǎn)化為[0,1]之間的數(shù),其目的是取消各維數(shù)據(jù)間數(shù)量級差異,防止以為輸入輸出數(shù)據(jù)數(shù)量級差異較大而造成網(wǎng)絡預測誤差較大。數(shù)據(jù)歸一化的方法有兩種最大最小法。函數(shù)形式如下:=〔-〕/〔-〕式子中為數(shù)據(jù)序列中的最小數(shù);為序列中的最大數(shù)。平均數(shù)方差法,函數(shù)形式如下:=〔-〕/其中為數(shù)據(jù)序列的均值;為數(shù)據(jù)的方差。設(shè)計中采用第一種數(shù)據(jù)歸一化方法,歸一化函數(shù)采用MATLAB自帶函數(shù)4.2.2數(shù)據(jù)選擇選擇和歸一化首先根據(jù)倒譜系數(shù)提取四類音樂語音特征信號,不同的語音信號分別用1,2,3,4標識,提取出信號分別儲存于data1.mat,data2.mat,data3.mat,data4.mat數(shù)據(jù)庫文件中,每組數(shù)據(jù)為25維,第1維為類別標識,后24維為語音特征信號。把四類語音特征信號合為一組,從中隨機選取1500組數(shù)據(jù)座位訓練數(shù)據(jù),其余500維數(shù)據(jù)作為測試數(shù)據(jù),并對數(shù)據(jù)進行歸一化處理。根據(jù)語音類別標識設(shè)定每組語音信號的期望輸出值,如標識類為1時,期望輸出向量為[1000]。仿真結(jié)果分析用訓練好的BP神經(jīng)網(wǎng)絡分類語音特征信號測試數(shù)據(jù),BP神經(jīng)網(wǎng)絡分類誤差圖如下。BP網(wǎng)絡分類誤差:圖4-3BP網(wǎng)絡分類誤差實際語音和預計語音比擬圖:圖4-4實際語音與預測語音的比擬BP神經(jīng)網(wǎng)絡分類正確率如下表第一次訓練:語音信號類別第一類第二類第三類第四類識別正確率0.68911.00000.96300.8785第二次訓練:語音信號類別第一類第二類第三類第四類識別正確率0.56671.00000.96420.8712第三次訓練:語音信號類別第一類第二類第三類第四類識別正確率0.91671.00000.58130.8462從BP神經(jīng)網(wǎng)絡分類結(jié)果可以看出,基于BP神經(jīng)網(wǎng)絡的語音信號分類具有一定的準確性,能夠識別出語音信號的所屬歸類,但是對于現(xiàn)在這樣要求高精度的識別率,這樣的結(jié)果還是讓感到十分的不滿意,這里經(jīng)過網(wǎng)上理論知識的補充,找到了另一種有較高識別率的技術(shù)——SVM。仍然隨機選取1500組數(shù)據(jù)作為訓練數(shù)據(jù),但是其余500維數(shù)據(jù)作為測試數(shù)據(jù)的數(shù)據(jù)使用原始的數(shù)據(jù)分別進行識別觀察實驗結(jié)果。然后在隨便一個音頻作為測試類信號提取其特征值獲得其特征參數(shù),然后作為測試數(shù)據(jù)進行實驗,觀察結(jié)果。實驗結(jié)果觀察如下:第一類:語音信號類別第一類第二類第三類第四類識別正確率0.832700.13010.0372第二類:語音信號類別第一類第二類第三類第四類識別正確率01.000000第三類:語音信號類別第一類第二類第三類第四類識別正確率0.200100.70320.0967第四類:語音信號類別第一類第二類第三類第四類識別正確率0.061900.50530.8828測試類:語音信號類別第一類第二類第三類第四類識別正確率0.27980.00530.18210.5328第五章利用SVM建立分類器來對語音特征信號進行分類預測5.1支持向量機技術(shù)簡述支持向量機〔SVM,SupportVectorMachine〕是由Vapnik首先提出的,像多層感知器網(wǎng)絡和徑向基函數(shù)網(wǎng)絡一樣,可用于模式識別和非線性回歸。支持向量機的主要思想是建立一個分類超平面作為決策曲面,使得正比例和反比例之間的隔離邊緣被最大化。支持向量機的理論根底是統(tǒng)計學習理論,更精確地說,支持向量機是結(jié)構(gòu)風險最小化的近似實現(xiàn)[11]。SVM的原理SVM理論原理是基于這樣的事實:學習機器在測試數(shù)據(jù)上的誤差率〔即泛化誤差率〕以訓練誤差率和一個依賴于維數(shù)VC〔Vapnik-Chervonenkisdimension〕的項的和為界,在可分模式情況下,支持向量機對于前一項的值為零,并且使第二項最小化。因此,盡管它不利用問題的領(lǐng)域內(nèi)部問題,但在模式分類問題上支持向量機能提供好的泛化性能,這個屬性是支持向量機帶有的。支持向量機具有以下的有點:通用性:能夠在很廣的各種函數(shù)集中構(gòu)造函數(shù);魯棒性:不需要微調(diào);有效性:在解決實際問題中總是屬于最好的方法之一;計算簡單:方法的實現(xiàn)只需要利用簡單的優(yōu)化技術(shù);理論上完善:基于VC推廣性理論的框架。在支持向量x〔i〕和輸入空間抽取的向量x之間的內(nèi)積核這一個概念是構(gòu)造支持向量機學校算法的關(guān)鍵。支持向量機是由算法從訓練數(shù)據(jù)中抽取的小的子集構(gòu)成。支持向量機的體系結(jié)構(gòu)如下列圖5-1。圖5-1支持向量機的體系結(jié)構(gòu)其中K為核函數(shù),其種類主要有:線性核函數(shù):K〔x,〕=;多項式核函數(shù):K〔x,〕=〔r+r,r>0;徑向基核函數(shù):K〔x,〕=exp〔-r||x|〕,r>0;兩層感知器核函數(shù):K〔x,〕=tanh〔r+r〕?;赟VM的數(shù)字音頻分類對于經(jīng)過mfcc提取后的四組數(shù)據(jù)進行試驗,為了和BP的分類效果進行比擬,此處數(shù)據(jù)的分組和原來保持一樣,i.e.:共有2000組語音特征信號,從中隨機選擇1500組數(shù)據(jù)做為訓練數(shù)據(jù)訓練網(wǎng)絡,500組數(shù)據(jù)作為測試數(shù)據(jù)測試網(wǎng)絡分類能力。

由于是從中隨機選擇1500組數(shù)據(jù)做為訓練數(shù)據(jù)訓練網(wǎng)絡,500組數(shù)據(jù)作為測試數(shù)據(jù)測試網(wǎng)絡分類能力這里使用的是LIBSVM工具包是臺灣大學林智仁(LinChih-Jen)副教授等開發(fā)設(shè)計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包。實驗的仿真結(jié)果與分析SVM網(wǎng)絡分類正確率是語音信號類別第一類第二類第三類第四類識別正確率86.1587%100.00%88.6179%100.00%第一次分類:第二次分類:語音信號類別第一類第二類第三類第四類識別正確率82.2103%100.00%87.2359%100.00%第三次分類:語音信號類別第一類第二類第三類第四類識別正確率80.9524%100.00%84.507%99.9999%實驗仿真試圖:對使用的信號的進行降維處理后的結(jié)果:圖5-1降維處理后的結(jié)果SVM參數(shù)選擇的結(jié)果:圖5-1SVM參數(shù)選擇的結(jié)果由實驗不難看錯SVM分類的正確率要明顯高于使用BP神經(jīng)網(wǎng)絡的正確率,但是在這里要指出的是SVM的訓練時間卻比BP網(wǎng)絡訓練的時間長了很多。那么要如何選擇這兩種分類方法呢?當每次都有新的模板樣本要被訓練,且要求的訓練精度相對不那么嚴格時可以使用BP網(wǎng)絡,而只需建立一次樣本訓練,之后都只要使用這個訓練的結(jié)果或者是精度的要求高時,都需要使用SVM進行分類。第六章總結(jié)與展望本實驗通過使用兩種不同分類方法理解兩類方法的根本知識。通過學習知道BP神經(jīng)網(wǎng)絡和SVM都是機器學習的經(jīng)典方法,都有著學習方法的最最根本的特征。人工神經(jīng)網(wǎng)絡〔ArtificialNeuralNetworks〕它是一種模范動物神經(jīng)網(wǎng)絡行為特征,進行分布式并行信息處理的算法數(shù)學模型。這種網(wǎng)絡依靠系統(tǒng)的復雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而到達處理信息的目的。人工神經(jīng)網(wǎng)絡具有自學習和自適應的能力,可以通過預先提供的一批相互對應的輸入-輸出數(shù)據(jù),分析掌握兩者之間潛在的規(guī)律,最終根據(jù)這些規(guī)律,用新的輸入數(shù)據(jù)來推算輸出結(jié)果,這種學習分的過程被稱為“訓練〞。SVM的主要思想可以概括為兩點:(1)它是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;(2)它基于結(jié)構(gòu)風險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學習器得到全svm系列產(chǎn)品局最優(yōu)化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。假設(shè)是以后可以從事語音信號處理方面。本論文基于音頻識別的模式識別技術(shù),根據(jù)倒譜理論,對給定的音頻信號的識別技術(shù)做了初步的探索,為實際工程應用建立了初步的根底。但由于時間和水平的限制,要實現(xiàn)工程實際應用,還要做很多工作。本文采用的方法比擬單一,沒有采用更多的方法以便比擬。而且音頻識別的準確率在信號相似的情況下也不理想,有待提高。未來系統(tǒng)可以結(jié)合java編程技術(shù)編寫出更好的用戶界面。致謝本文是在林曉丹老師的悉心指導下完成的。林老師嚴謹?shù)闹螌W態(tài)度和專業(yè)的知識使我受益匪淺。使我不僅在學習動手能力上有了很大的起色,而且在對待工作的態(tài)度上有了新的認識。在此對林老師表示最誠摯的謝意。此外在本文的完成過程中,得到了ilovematlab論壇上很多技術(shù)人員的幫助,和他們相處的這段時間我學到了很多東西。在此對他們也表示我最誠摯的謝意!最后,要特別感謝我的同學對我的關(guān)心和支持。畢業(yè)設(shè)計小結(jié)畢業(yè)設(shè)計是每個畢業(yè)生完成大學學習任務后的最后一項重要作業(yè),通過一個學期的學習和工作,我深刻體會到了畢業(yè)設(shè)計這個環(huán)節(jié)在整個大學學習環(huán)節(jié)中的重要性和必要性。首先,畢業(yè)設(shè)計是一項綜合性的大任務,是我們從理論學習到實踐的必要過度階段。是對整個大學學習的全方位檢驗,需要我們把學習的各方面的知識聯(lián)系起來并加以應用。畢業(yè)設(shè)計同時也對所學知識起到了加深穩(wěn)固的作用。為了進行本課題研究,我先后看了《模式識別》、《神經(jīng)網(wǎng)絡與matlab》、《語音信號數(shù)值處理》等個種數(shù)據(jù),拓寬了我的知識面,也穩(wěn)固了我的大學知識。通過這次畢業(yè)設(shè)計,我也學到了一些新的知識,了解了音頻(語音)信號識別的全過程,從翻閱各種技術(shù)資料到系統(tǒng)的Matlab仿真,再到DSP編程實現(xiàn),這里面涉及的知識都是平常學習中沒有接觸過的,對自己的動手能力和學習能力有很大的提高作用。另外,論文的撰寫過程那么考察了我們對自己思想和觀點的表達能力以及對科學研究的謹慎態(tài)度。它為我們綜合組織個方面的信息到一個完整的清晰的整體提供了一個平臺??傊?,畢業(yè)設(shè)計讓我在大學最后的一學期學到了很多的東西。在以后的學習和工作中,我會牢記在母校教我的點點滴滴,繼續(xù)發(fā)揚華僑大學治學嚴謹?shù)男oL,不斷學習和自我提升,為社會創(chuàng)造更多的價值。參考文獻[1]邊肇祺,張學工.模式識別[M].北京:清華大學出版社,2003.[2]周志華,曹存根.神經(jīng)網(wǎng)絡及其應用[M].北京:清華大學出版社,2004.[3]S.Haykin,“NeuralNetworks:acomprehensivefoundation〞,MacmillanCollegePublishingCompany,NewYork,[4]K.El-Maleh,M.Klein,G.Petrucci,P.Kabal,Speech/MusicDiscriminationforMultimediaApplications[C].InIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,Vol.6,2000,pp.2445—2448[5]LieLu,Hong-JiangZhang,StanZ.Li,Content-basedAudioClassificationandSegmentationbyUsingSupportVectorMachines叨.MultimediaSystems,V01.8,No.6,2003,pp.482-492[6]語音信號處理.趙力編著.第2版.北京:機械工業(yè)出版社,2023.[7]《MATLAB神經(jīng)網(wǎng)絡30個案例分析_MATLAB中文論壇》李洋著2023.[8]《神經(jīng)網(wǎng)絡模型及matlab仿真程序設(shè)計》周開立著2005[9]Ilovematlab上《基于SVM技術(shù)的語音特征分類》[10]Ilovematlab上《bp網(wǎng)絡的語音識別技術(shù)》[11]《語音信號處理》胡航2023[12]《數(shù)字語音處理》張雪英2023[13]《神經(jīng)網(wǎng)絡模型及matlab仿真程序設(shè)計》周開利2004[14]《BPNeuralNetworkprincipleandMATLABSimulation》,XiongXin/NieMingxin2006附錄附錄1:相關(guān)文獻的翻譯BPNeuralNetworkprincipleandMATLABSimulationXiongXin/NieMingxinSchoolofWuhansense1559@163niemx@sohuAbstractThispaperintroducestheprevalentBPalgorithminneuralnetwork,anddiscussesthegoodness、problemandtrainingprocessofBPneuralnetwork,aswellasusingMATLABsoftwaretosimulatethenumbersonthebasisofit.Atlast,severalimprovedBPtrainingalgorithmshavebeencomparedinthepaper.Keywords:BPneuralnetwork;numberrecognition;MATLAB1IntroductionThedevelopmentofneuralnetworkisrapidsincethefirstneuralnetworkmodel——MPmodelcameupin1943[1].Hopfieldneuralnetworkproposedin1982andoppositephasebroadcastalgorithmproposedbyRumelhartin1985maketheneuralnetworkofHopfieldmodelandmultilayerfeedforwardmodeltobetheprevalentneuralnetworkmodel.Theyareeffectiveinmanyapplicationsoffieldssuchasspeechrecognition,moderecognition,imageprocessingandindustrycontrolling.Neuralnetworkisantheorywhichisimitativeofthebiologicalprocessingmodeltogetthefunctionofinformationintelligentprocessing.Ittreatswiththepatterninformationwhichishardtobeexpressedincertainlanguagebythemethodfrombottomtotopandparalleldistributionwayformedbyself-study,self-organizationandnon-lineardynamics.Neuralnetworkisaparallelanddistributedinformationprocessingnetworkarchitecture.Itisgenerallycomposedbymassiveneurons,eachofwhichhasonlyoneoutputthatcanconnectmanyotherneurons.Thereciprocitybetweenneuronsisembodiedbytheirconnectedweighs.Theoutputofneuronsisitsinputfunction.Thetypesoffunctionsincommonusehavelinearfunction,Sigmoidfunctionandvaluefunction.TherearetwophasesofpositivetransmittingprocessinganderrorreversetransmittingprocessinginthestudyprocessingofBPneuralnetwork[2].Thesignalinputtedfromoutsidespreadstotheoutputlayerandgivestheresultthroughprocessinglayerforlayerofneuronsininputlayerandhiddenlayer.Iftheexpectedoutputcan’tbeobtainedinoutputlayer,itshiftstotheconversedspreadingprocessingandthetruevalueandtheerroroutputtedbynetworkwillreturnalongthecoupledaccessformerly.Theerrorisreducedbymodifyingcontactedweightvalueofneuronsineverylayerandthenitshiftstothepositivespreadingprocessingandrevolvesiterationuntiltheerrorissmallerthegivenvalue.Takeathreelayernetworkforexample,thenetworkiscomposedofNinputneurons,KhiddenneuronsandMoutputneurons(asshowedinfig.1).O2pmandO1pkaretheoutputvalueofoutputlayerandhiddenlayerrespectively.w2kmandw1nkaretheconnectedweightvaluefromthehiddenlayertotheoutputlayerandfromtheinputlayertothehiddenlayerrespectively.SupposetheinputstudyingsampleisXpn,soitscorrespondingexpectedoutputvalueistpm.Fig.1BPneuralnetworkconfiguration2BPNeuralNetwork2.1theDiscussionabouttheAdvantagesandDisadvantagesofBPNeuralNetworkBPneuralnetworkisakindofneuralnetworkformswhichhasmostapplicationscurrently[3],butitisn’tveryperfect.Inordertounderstandhowtoapplytheneuralnetworktoresolveproblems,wecarryonthediscussionaboutitsadvantagesanddisadvantageshere.TheadvantagesofBPneuralnetwork:①Networkrealizesthemappedfunctionfrominputtooutputandmathematicaltheoryhasprovedthatithasthefunctiontoachieveanycomplexnon-linearmapping;②Networkcanextractthe“l(fā)ogical〞solutionrulesautomaticallythroughstudyingtheexampleswithcorrectresults.Ithastheabilityofself-study;③Networkhasthedefiniteabilitiesofpromotionandgeneralization.ThedisadvantagesofBPneuralnetwork:①ThestudyspeedofBPalgorithmisveryslow.Themaincausationsofitare:a.BecauseBPalgorithmisgradsdecliningmethodessentiallyandtheaimfunctionoptimizedbyitisverycomplex,the“sawtooth-shapedphenomenon〞isboundtoappearwhichmakestheBPalgorithminefficiency;b.Thetorpidphenomenonexists.Becausetheoptimizedaimfunctionisverycomplex,itcanappearsomeflatareasinthecaseoftheoutputofneuronsapproach0or1.Intheseareas,theerrorofweightvaluechangesverylittle,whichcanhardlymakethetrainingprocessingbreakdown;c.InordertoexecutetheBPalgorithminthenetwork,wecan’tusethetraditionalone-dimensionalsearchmethodtosolvetheinterativesteplengtheverytime.Weshouldputthenetworktheupdatedrulesofsteplengthinadvance.Theformeralgorithmwillmakethealgorithminefficiency.②thenetworktrainingismuchmorelikelytofail,thereasonsasbelow:a.Fromtheperspectiveofmathematics,BPalgorithmasakindoflocalsearchingoptimizedmethod,itisusedtosolvetheoverallextremumofcomplexnon-linearfunction,sothealgorithmislikelytobegottenintothelocalextremumandmakethetrainingfail;b.Theapproachingandpromotingabilitiesarecloselylinkedwiththerepresentativeofstudyingsample.Itisahardproblemtochoosethetrainingcollectioncomposedofthetypicalsamplingexamples.③Thecontradictionbetweenthescaleofexamplesandnetworkishardtosolve,whichreferstotherelationshipofpossibilityandfeasibilityofnetworkcapacity,viz.theproblemofstudyingcomplexity;④Thechoiceofnetworkconfigurationhasstillnoauniformandintegrateacademicguidanceanditcanbeselectedbyexperience.Thereforesomepeoplecallthestructurechoiceofneuralnetworkisakindofart.Thenetworkstructureinfectstheapproachingabilityandpromotingcharacterdirectly.Sohowtochooseanappropriatenetworkstructureisanimportantproblem;⑤Newsamplescaninfectthenetworkwhichstudiessuccessfullyandthenumberthatdescribesthecharacterofeveryinputsampleshouldbeequal;⑥Thereiscontradictionbetweenthepredictiveabilityofnetwork(alsocalledgeneralizationabilityorpromotingability)andtrainingability(alsocalledapproachingabilityorstudyability).Usuallywhenthetrainingabilityispoor,thepredictiveabilitywillbepoorandinacertainextent,withtheimprovementoftrainingabilitythepredictiveabilityisalsoimproved.However,thistrendhasalimit.Whenachievingthislimit,withtheimprovementofthetrainingabilitythepredictiveabilitywillbedeclineonthecontrary,whichisalsocalledtheoverfittingphenomenon.Andnowthenetworkstudiestoomuchdetailofsamplesandcan’treflecttheembeddedlawsofsamples.2.2BPNetworkalgorithmThetrainingprocessofBPnetworkisasbelow[4].(1)Initialization.Endoweveryconnectedweightvalueandthresholdvaluewithalesserrandomvalue.(2)InputthecorrespondingneuronsininputlayerwithancomponentofaeigenvectorXpk=(Xpk1,Xpk2Xpk3,…,Xpkn).(3)UsetheeigenvectorofinputsamplestocalculatethecorrespondingoutputvalueO1pk=f(Xpkn)ofneuronsinhiddenlayer.(4)UseeachunitoutputO1pkinhiddenlayertocalculatetheinputvalueineachoutputlayerandthenfurthercalculatethecorres

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論