智能機器人的語音識別_第1頁
智能機器人的語音識別_第2頁
智能機器人的語音識別_第3頁
智能機器人的語音識別_第4頁
智能機器人的語音識別_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

智能機器人的語音識別語音識別概述最近,由于其重大的理論意義和實用價值,語音識別已經(jīng)受到越來越多的關(guān)注。到現(xiàn)在為止,多數(shù)的語音識別是基于傳統(tǒng)的線性系統(tǒng)理論,例如隱馬爾可夫模型和動態(tài)時間規(guī)整技術(shù)。隨著語音識別的深度研究,研究者發(fā)現(xiàn),語音信號是一個復雜的非線性過程,如果語音識別研究想要獲得突破,那么就必須引進非線性系統(tǒng)理論方法。最近,隨著非線性系統(tǒng)理論的發(fā)展,如人工神經(jīng)網(wǎng)絡(luò),混沌與分形,可能應(yīng)用這些理論到語音識別中。因此,本文的研究是在神經(jīng)網(wǎng)絡(luò)和混沌與分形理論的基礎(chǔ)上介紹了語音識別的過程。語音識別可以劃分為獨立發(fā)聲式和非獨立發(fā)聲式兩種。非獨立發(fā)聲式是指發(fā)音模式是由單個人來進行訓練,其對訓練人命令的識別速度很快,但它對與其他人的指令識別速度很慢,或者不能識別。獨立發(fā)聲式是指其發(fā)音模式是由不同年齡,不同性別,不同地域的人來進行訓練,它能識別一個群體的指令。一般地,由于用戶不需要操作訓練,獨立發(fā)聲式系統(tǒng)得到了更廣泛的應(yīng)用。所以,在獨立發(fā)聲式系統(tǒng)中,從語音信號中提取語音特征是語音識別系統(tǒng)的一個基本問題。語音識別包括訓練和識別,我們可以把它看做一種模式化的識別任務(wù)。通常地,語音信號可以看作為一段通過隱馬爾可夫模型來表征的時間序列。通過這些特征提取,語音信號被轉(zhuǎn)化為特征向量并把它作為一種意見,在訓練程序中,這些意見將反饋到HMM的模型參數(shù)估計中。這些參數(shù)包括意見和他們響應(yīng)狀態(tài)所對應(yīng)的概率密度函數(shù),狀態(tài)間的轉(zhuǎn)移概率,等等。經(jīng)過參數(shù)估計以后,這個已訓練模式就可以應(yīng)用到識別任務(wù)當中。輸入信號將會被確認為造成詞,其精確度是可以評估的。整個過程如圖一所示。圖1語音識別系統(tǒng)的模塊圖

3、理論與方法從語音信號中進行獨立揚聲器的特征提取是語音識別系統(tǒng)中的一個基本問題。解決這個問題的最流行方法是應(yīng)用線性預測倒譜系數(shù)和Mel頻率倒譜系數(shù)。這兩種方法都是基于一種假設(shè)的線形程序,該假設(shè)認為說話者所擁有的語音特性是由于聲道共振造成的。這些信號特征構(gòu)成了語音信號最基本的光譜結(jié)構(gòu)。然而,在語音信號中,這些非線形信息不容易被當前的特征提取邏輯方法所提取,所以我們使用分型維數(shù)來測量非線形語音擾動。本文利用傳統(tǒng)的LPCC和非線性多尺度分形維數(shù)特征提取研究并實現(xiàn)語音識別系統(tǒng)。3.1線性預測倒譜系數(shù)線性預測系數(shù)是一個我們在做語音的線形預分析時得到的參數(shù),它是關(guān)于毗鄰語音樣本間特征聯(lián)系的參數(shù)。線形預分析正式基于以下幾個概念建立起來的,即一個語音樣本可以通過一些以前的樣本的線形組合來快速地估計,根據(jù)真實語音樣本在確切的分析框架(短時間內(nèi)的)和預測樣本之間的差別的最小平方原則,最后會確認出唯一的一組預測系數(shù)。LPC可以用來估計語音信號的倒譜。在語音信號的短時倒譜分析中,這是一種特殊的處理方法。信道模型的系統(tǒng)函數(shù)可以通過如下的線形預分析來得到:E=;1-Wk=]其中p代表線形預測命令,3,(k=1,2,……,p)代表預測參數(shù),脈沖響應(yīng)用f\h(n)來表示,假設(shè)h(n)的倒譜是■■■■;■■■■-o那么(1)式可以擴展為(2)式:(2)AAH(z)=In//(z)=£力f砂=”n=](2)將(1)帶入(2),兩邊同時,(2)變成(3)。將(1)帶入(2),兩邊同時,(2)變成(3)。__5,]沱In,I-Ez-=]就獲得了方程(4):

n-£危)工"。必"=Ykak(4)那么可以通過八來獲得。八h(n)=0由/?<0n=1n-1,劣+£,ik=1-—)akh(n-k)n1<np(5)n-1<女Tk&~)akh(n-k)nnNp(5)中計算的倒譜系數(shù)叫做LPCC,n代表LPCC命令。在我們采集LPCC參數(shù)以前,我們應(yīng)該對語音信號進行預加重,幀處理,加工和終端窗口檢測等,所以,中文命令字“前進”的端點檢測如圖2所示,接下來,斷點檢測后的中文命令字“前進”語音波形和LPCC的參數(shù)波形如圖3所示。圖2中文命令字“前進”的端點檢測(K()IFruun9nntliiFBr圖3斷點檢測后的中文命令字“前進”語音波形和LPCC的參數(shù)波形3.2語音分形維數(shù)計算分形維數(shù)是一個與分形的規(guī)模與數(shù)量相關(guān)的定值,也是對自我的結(jié)構(gòu)相似性的測量。分形分維測量是[6-7]。從測量的角度來看,分形維數(shù)從整數(shù)擴展到了分數(shù),打破了一般集拓撲學方面被整數(shù)分形維數(shù)的限制,分數(shù)大多是在歐幾里得幾何尺寸的延伸。有許多關(guān)于分形維數(shù)的定義,例如相似維度,豪斯多夫維度,信息維度,相關(guān)維度,容積維度,計盒維度等等,其中,豪斯多夫維度是最古老同時也是最重要的,它的定義如【3】所示:D=ImdiiWa(F)/]n5]J(6)其中,史,表示需要多少個單位來覆蓋子集F.Ds(F)端點檢測后,中文命令詞“向前”的語音波形和分形維數(shù)波形如圖4所示。圖4端點檢測后,中文命令詞“向前”的語音波形和分形維數(shù)波形3.3改進的特征提取方法考慮到LPCC語音信號和分形維數(shù)在表達上各自的優(yōu)點,我們把它們二者混合到信號的特取中,即分形維數(shù)表表征語音時間波形圖的自相似性,周期性,隨機性,同時,LPCC特性在高語音質(zhì)量和高識別速度上做得很好。由于人工神經(jīng)網(wǎng)絡(luò)的非線性,自適應(yīng)性,強大的自學能力這些明顯的優(yōu)點,它的優(yōu)良分類和輸入輸出響應(yīng)能力都使它非常適合解決語音識別問題。由于人工神經(jīng)網(wǎng)絡(luò)的輸入碼的數(shù)量是固定的,因此,現(xiàn)在是進行正規(guī)化的特征參數(shù)輸入到前神經(jīng)網(wǎng)絡(luò)[9],在我們的實驗中,LPCC和每個樣本的分形維數(shù)需要分別地通過時間規(guī)整化的網(wǎng)絡(luò),LPCC是一個4幀數(shù)據(jù)(LPCC1,LPCC2,LPCC3,LPCC4,每個參數(shù)都是14維的),分形維數(shù)被模范化為12維數(shù)據(jù),(FDi,F(xiàn)D2,?FDi2,每一個參數(shù)都是一維),以便于每個樣本的特征向量有4*14+12*1=68-D維,該命令就是前56個維數(shù)是LPCC,剩下的12個維數(shù)是分形維數(shù)。因而,這樣的一個特征向量可以表征語音信號的線形和非線性特征。自動語音識別的結(jié)構(gòu)和特征自動語音識別是一項尖端技術(shù),它允許一臺計算機,甚至是一臺手持掌上電腦(邁爾斯,2000)來識別那些需要朗讀或者任何錄音設(shè)備發(fā)音的詞匯。自動語音識別技術(shù)的最終目的是讓那些不論詞匯量,背景噪音,說話者變音的人直白地說出的單詞能夠達到100%的準確率(CSLU,2002)。然而,大多數(shù)的自動語音識別工程師都承認這樣一個現(xiàn)狀,即對于一個大的語音詞匯單位,當前的準確度水平仍然低于90%。舉一個例子,Dragon'sNaturallySpeaking或者IBM公司,闡述了取決于口音,背景噪音,說話方式的基線識別的準確性僅僅為60%至80%(Ehsani&Knodt,。更多的能超越以上兩個的昂貴的系統(tǒng)有Subarashii(Bernstein,etal.,,EduSpeak(Franco,etal.,2001),Phonepass(Hinks,2001),ISLEProject(Menzel,etal.,2001)andRAD(CSLU,2003)。語音識別的準確性將有望改善。在自動語音識別產(chǎn)品中的幾種語音識別方式中,隱馬爾可夫模型(HMM)被認為是最主要的算法,并且被證明在處理大詞匯語音時是最高效的(Ehsani&Knodt,1998)。詳細說明隱馬爾可夫模型如何工作超出了本文的范圍,但可以在任何關(guān)于語言處理的文章中找到。其中最好的是Jurafsky&Martin(2000)andHosom,Cole,andFanty(2003)。簡而言之,隱馬爾可夫模型計算輸入接收信號和包含于一個擁有數(shù)以百計的本土音素錄音的數(shù)據(jù)庫的匹配可能性(Hinks,2003,p.5)。也就是說,一臺基于隱馬爾可夫模型的語音識別器可以計算輸入一個發(fā)音的音素可以和一個基于概率論相應(yīng)的模型達到的達到的接近度。高性能就意味著優(yōu)良的發(fā)音,低性能就意味著劣質(zhì)的發(fā)音(Larocca,etal.,1991)。雖然語音識別已被普遍用于商業(yè)聽寫和獲取特殊需要等目的,近年來,語言學習的市場占有率急劇增加(Aist,1999;Eskenazi,1999;Hinks,2003)。早期的基于自動語音識別的軟件程序采用基于模板的識別系統(tǒng),其使用動態(tài)規(guī)劃執(zhí)行模式匹配或其他時間規(guī)范化技術(shù)(Dalby&Kewley-Port,1999).這些程序包括TalktoMe(Auralog,1995),theTellMeMoreSeries(Auralog,2000),Triple-PlayPlus(Mackey&Choi,1998),NewDynamicEnglish(DynEd,1997),EnglishDiscoveries(Edusoft,1998),andSeeit,HearIt,SAYIT!(CPI,1997)。這些程序的大多數(shù)都不會提供任何反饋給超出簡單說明的發(fā)音準確率,這個基于最接近模式匹配說明是由用戶提出書面對話選擇的。學習者不會被告之他們發(fā)音的準確率。特別是內(nèi)里,(2002年)評論例如TalktoMe和TellMeMore等作品中的波形圖,因為他們期待浮華的買家,而不會提供有意義的反饋給用戶。TalktoMe2002年的版本已經(jīng)包含了更多Hinks(2003)的特性,比如,信任對于學習者來說是非常有用的:一個視覺信號可以讓學習者把他們的語調(diào)同模型揚聲器發(fā)出的語調(diào)進行對比。學習者發(fā)音的準確度通常以數(shù)字7來度量(越高越好)★那些發(fā)音失真的詞語會被識別出來并被明顯地標注。附件2:外文原文(復印件)Improvedspeechrecognitionmethod

forintelligentrobot2、OverviewofspeechrecognitionSpeechrecognitionhasreceivedmoreandmoreattentionrecentlyduetotheimportanttheoreticalmeaningandpracticalvalue[5].Uptonow,mostspeechrecognitionisbasedonconventionallinearsystemtheory,suchasHiddenMarkovModel(HMM)andDynamicTimeWarping(DTW).Withthedeepstudyofspeechrecognition,itisfoundthatspeechsignalisacomplexnonlinearprocess.Ifthestudyofspeechrecognitionwantstobreakthrough,nonlinear-systemtheorymethodmustbeintroducedtoit.Recently,withthedevelopmentofnonlinea-systemtheoriessuchasartificialneuralnetworks(ANN),chaosandfractal,itispossibletoapplythesetheoriestospeechrecognition.Therefore,thestudyofthispaperisbasedonANNandchaosandfractaltheoriesareintroducedtoprocessspeechrecognition.Speechrecognitionisdividedintotwowaysthatarespeakerdependentandspeakerindependent.Speakerdependentreferstothepronunciationmodeltrainedbyasingleperson,theidentificationrateofthetrainingperson?sordersishigh,whileothers’ordersisinlowidentificationrateorcan’tberecognized.Speakerindependentreferstothepronunciationmodeltrainedbypersonsofdifferentage,sexandregion,itcanidentifyagroupofpersons’orders.Genejspeilyerindependentsystemismorewidelyused,sincetheuserisnotrequiredtoconductthetraining.Soextractionofspeakerindependentfeaturesfromthespeechsignalisthefundamentalproblemofspeakerrecognitionsystem.Speechrecognitioncanbeviewedasapatternrecognitiontask,whichincludestrainingandrecognition.Generally,speechsignalcanbeviewedasatimesequenceandcharacterizedbythepowerfulhiddenMarkovmodel(HMM).Throughthefeatureextraction,thespeechsignalistransferredintofeaturevectorsandactasobservations.Inthetrainingprocedure,theseobservationswillfeedtoestimatethemodelparametersofHMM.Theseparametersincludeprobabilitydensityfunctionfortheobservationsandtheircorrespondingstates,transitionprobabilitybetweenthestates,etc.Aftertheparameterestimation,thetrainedmodelscanbeusedforrecognitiontask.Theinputobservationswillberecognizedastheresultedwordsandtheaccuracycanbeevaluated.ThewholeprocessisillustratedinFig.1.Fig.1Blockdiagramofspeechrecognitionsystem3TheoryandmethodExtractionofspeakerindependentfeaturesfromthespeechsignalisthefundamentalproblemofspeakerrecognitionsystem.ThestandardmethodologyforsolvingthisproblemusesLinearPredictiveCepstralCoefficients(LPCC)andMel-FrequencyCepstralCo-efficient(MFCC).Boththesemethodsarelinearproceduresbasedontheassumptionthatspeakerfeatureshavepropertiescausedbythevocaltractresonances.Thesefeaturesformthebasicspectralstructureofthespeechsignal.However,thenon-linearinformationinspeechsignalsisnoteasilyextractedbythepresentfeatureextractionmethodologies.Soweusefractaldimensiontomeasurenon2linearspeechturbulence.ThispaperinvestigatesandimplementsspeakeridentificationsystemusingbothtraditionalLPCCandnon-linearmultiscaledfractaldimensionfeatureextraction.3.1LinearPredictiveCepstralCoefficientsLinearpredictioncoefficient(LPC)isaparametersetwhichisobtainedwhenwedolinearpredictionanalysisofspeech.Itisaboutsomecorrelationcharacteristicsbetweenadjacentspeechsamples.Linearpredictionanalysisisbasedonthefollowingbasicconcepts.Thatis,aspeechsamplecanbeestimatedapproximatelybythelinearcombinationofsomepastspeechsamples.Accordingtotheminimalsquaresumprincipleofdifferencebetweenrealspeechsampleincertainanalysisframe

short-timeandpredictivesample,theonlygroupofpredictioncoefficientscanbedetermined.U)LPCcoefficientcanbeusedtoestimatespeechsignalcepstrum.Thisisaspecialprocessingmethodinanalysisofspeechsignalshort-timecepstrum.Systemfunctionofchannelmodelisobtainedbylinearpredictionanalysisasfollow.U)II(=)k=]Whereprepresentslinearpredictionorder,ak,(k=1,2,...,p)representspredictioncoefficient,Impulseresponseisrepresentedbyh(n).SupposeAcepstrumofh(n)isrepresentedby「’,then(1)canbeexpandedas(2).A//(z)=ln/Z(z)*A£h(n)znn=][nuuduce(1)inio(2),andderivefonbothsides,(2)ischangediiw(3)1如In]".履紐*Equation(4)isobtained:p-a(\-A//(z)=ln/Z(z)[nuuduce(1)inio(2),andderivefonbothsides,(2)ischangediiw(3)1如In]".履紐*Equation(4)isobtained:p-a(\-£位二。Vnh(n)E=]Ah(n)£n(3)0口]zk劣-£fl-土mknakh(n-k)1<nWp(5)Ah(n-k)u五pThecepstrumcoefficientcalculatedinthewayof(5)iscalledLPCC,nrepresentsLPCCorder.WhenweextractLPCCparameterbefore,weshouldcarryonspeechsignalpre-emphasis,framingprocessing,windowingprocessingandendpointsdetectionetc.,sotheendpointdetectionofChinesecommandword“Forward”isshowninFig.2,next,thespeechwaveformofChinesecommandword“Forward”andLPCCparameterwaveformafterEndpointdetectionisshowninFig.3.I(MX)2(MM)31XM1400()5(KM)7(KM)KFKKISElinjilili|rPuiril]'2EndpohtdetectionofChiiese

cdninandword"lorwardSiinp|iii]£P(guān)nini1I11.L‘i.—■JF%10152()25M濟加45同F(xiàn)niiTu4^uuil^rI「諾3SpeechwaveftjmiofChiiesecommandword

"Furwiird”andLPCCparameterwavefonn

afterendpniitdetectkm3.2SpeechFractalDimensionComputationFractaldimensionisaquantitativevaluefromthescalerelationonthemeaningoffractal,andalsoameasuringonself-similarityofitsstructure.Thefractalmeasuringisfractaldimension[6-7].Fromtheviewpointofmeasuring,fractaldimensionisextendedfromintegertofraction,breakingthelimitofthegeneraltopologysetdimensionbeingintegerFractaldimension,fractionmostly,isdimensionextensioninEuclideangeometry.Therearemanydefinitionsonfractaldimension,eg.,similardimension,Hausdoffdimension,inforationdimension,correlationdimension,capabilityimension,box-countingdimensionetc.,where,Hausdoffdimensionisoldestandalsomostimportant,foranysets,itisdefinedas[3].D=Jhif]nV/6(F)/]r^J)(6)Where,M£(F)denoteshowmanyunit£neededtocoversubsetF.Inthispaper,theBox-Countingdimension(DB)of,F,isobtainedbypartitioningtheplanewithsquaresgridsofside£,andthenumberofsquaresthatintersecttheplane(N(£))andisdefinedas[8].八/尸』.mmfDB(F)=Im(7)J。In(1/z)ThespeechwaveformofChinesecommandword“Forward”andfractaldimensionwaveformafterEndpointdetectionisshowninFig.4.3.3Improvedfeatureextractionsmethod

ConsideringtherespectiveadvantagesonexpressingspeechsignalofLPCCandfractaldimension,wemixbothtobethefeaturesignal,thatis,fractaldimensiondenotestheself2similarity,periodicityandrandomnessofspeechtimewaveshape,meanwhileLPCCfeatureisgoodforspeechqualityandhighonidentificationrate.115002mi2500")0015(X1I'nimIi*1LI5KJ152025JKI354045醐55FrHIIEr115002mi2500")0015(X1I'nimIi*1LI5KJ152025JKI354045醐55FrHIIEr代HmbrrDuetoANN'snonlinearity,self-adaptability,robustandself-learningsuchobviousadvantages,itsgoodclassificationandinput2outputreflectionabilityaresuitabletoresolvespeechrecognitionproblem.DuetothenumberofANNinputnodesbeingfixed,thereforetimeregularizationiscarriedouttothefeatureparameterbeforeinputtedtotheneuralnetwork[9].Inourexperiments,LPCCandfractaldimensionofeachsampleareneedtogetthroughthenetworkoftimeregularizationseparately,LPCCis4-framedata(LPCC1,LPCC2,LPCC3,LPCC4,eachframeparameteris14-D),fractaldimensionisregularizedtobe12-framedata(FD1,FD2,...,FD12,eachframeparameteris1-D),sothatthefeaturevectorofeachsamplehas4*14+1*12=68-D,theorderis,thefirst56dimensionsareLPCC,therest12dimensionsarefractaldimensions.Thus,suchmixedfeatureparametercanshowspeechlinearandnonlinearcharacteristicsaswell.ArchitecturesandFeaturesofASRASRisacuttingedgetechnologythatallowsacomputerorevenahand-heldPDA(Myers,2000)toidentifywordsthatarereadaloudorspokenintoanysound-recordingdevice.TheultimatepurposeofASRtechnologyistoallow100%accuracywithallwordsthatareintelligiblyspokenbyanypersonregardlessofvocabularysize,backgroundnoise,orspeakervariables(CSLU,2002).However,mostASRengineersadmitthatthecurrentaccuracylevelforalargevocabularyunitofspeech(e.g.,thesentence)remainslessthan90%.Dragon'sNaturallySpeakingorIBM'sViaV)ice,forexample,showabaselinerecognitionaccuracyofonly60%to80%,dependinguponaccent,backgroundnoise,typeofutterance,etc.(Ehsani&Knodt,1998).MoreexpensivesystemsthatarereportedtooutperformthesetwoareSubarashii(Bernstein,etal.,1999),EduSpeak(Franco,etal.,2001),Phonepass(Hinks,2001),ISLEProject(Menzel,etal.,2001)andRAD(CSLU,2003).ASRaccuracyisexpectedtoimprove.AmongseveraltypesofspeechrecognizersusedinASRproducts,bothimplementedandproposed,theHiddenMarkovModel(HMM)isoneofthemostdominantalgorithmsandhasproventobeaneffectivemethodofdealingwithlargeunitsofspeech(Ehsani&Knodt,1998).DetaileddescriptionsofhowtheHHMmodelworksgobeyondthescopeofthispaperandcanbefoundinanytextconcernedwithlanguageprocessing;amongthebestareJurafsky&Martin(2000)andHosom,Cole,andFanty(2003).Putsimply,HMMcomputestheprobablematchbetweentheinputitreceivesandphonemescontainedinadatabaseofhundredsofnativespeakerrecordings(Hinks,2003,p.5).Thatis,aspeechrecognizerbasedonHMMcomputeshowclosethephonemesofaspokeninputaretoacorrespondingmodel,basedonprobabilitytheory.Highlike

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論