語(yǔ)音信號(hào)傳輸?shù)睦碚揰第1頁(yè)
語(yǔ)音信號(hào)傳輸?shù)睦碚揰第2頁(yè)
語(yǔ)音信號(hào)傳輸?shù)睦碚揰第3頁(yè)
語(yǔ)音信號(hào)傳輸?shù)睦碚揰第4頁(yè)
語(yǔ)音信號(hào)傳輸?shù)睦碚揰第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音信號(hào)數(shù)字處理 參考數(shù)目:語(yǔ)音信號(hào)數(shù)字處理 語(yǔ)音信號(hào)處理 1緒論數(shù)字語(yǔ)音處理的概念語(yǔ)音的基本特征數(shù)字語(yǔ)音處理的發(fā)展課程內(nèi)容以及安排2前言耳聰目明聽(tīng)說(shuō)讀寫(xiě)語(yǔ)音和圖像重要的感知媒體對(duì)語(yǔ)音和圖像的分析處理媒體計(jì)算的主要研究對(duì)象和內(nèi)容語(yǔ)音:新一代自然人機(jī)交互的關(guān)鍵之一信號(hào)處理模式識(shí)別人工智能3語(yǔ)音信號(hào)處理的概念語(yǔ)音信號(hào)處理簡(jiǎn)稱(chēng)語(yǔ)音處理,是以語(yǔ)音學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門(mén)綜合性學(xué)科,處理的目的是要得到一些語(yǔ)音參數(shù)以便高效的傳輸或存儲(chǔ),或者通過(guò)處理的某種運(yùn)算以達(dá)到某種用途的要求,例如人工合成出語(yǔ)音,辨識(shí)出說(shuō)話者,識(shí)別講話的內(nèi)容等。它包括語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話人識(shí)別四大分支。4語(yǔ)音的定

2、義語(yǔ)音是人類(lèi)發(fā)音器官發(fā)出的、具有一定意義的、能起社會(huì)交際作用的聲音。能夠代表一定的意義,這是語(yǔ)言的聲音同自然界其他一切聲音的本質(zhì)區(qū)別。人體外的聲音自不必說(shuō)(如鐘聲、風(fēng)聲、動(dòng)物叫聲、機(jī)器聲),就是人的發(fā)音器官發(fā)出的聲音,也并非都是語(yǔ)言。如打噴嚏、打嗝兒、打哈欠、咳嗽等等,雖然也傳遞出了某種信息病了,飽了,困了或是醒了,但聲音的發(fā)出不是為了交際,而是人體本能的生理反映;又如吹口哨、口技演員的表演、哭、笑等等,這些聲音的發(fā)出是有目的的,是一定的心理活動(dòng)的表現(xiàn),不是單純的生理現(xiàn)象,但聲音同意義之間沒(méi)有固定的結(jié)合關(guān)系,不能成為代表意義的聲音符號(hào),只能表示情緒,展示技巧。以上這些聲音都不是語(yǔ)言。5語(yǔ)音的定

3、義語(yǔ)言的聲音同它所代表的意義是相互依存的統(tǒng)一體,一方面,發(fā)音器官發(fā)出的聲音必須同意義緊密結(jié)合、成為一定意義的代表,才能成為語(yǔ)音;另一方面,意義必須借助聲音才能成為可被人感知、被人接受的東西,沒(méi)有聲音,意義便無(wú)法表達(dá)出來(lái)。語(yǔ)音是一種具有多重屬性的聲音。首先,它同自然界其他聲音一樣,是由物體振動(dòng)產(chǎn)生聲波而形成的一種自然現(xiàn)象,所以它具有物理的屬性方面的自然屬性。語(yǔ)言又是人類(lèi)的生理現(xiàn)象,發(fā)音是人體器官的動(dòng)作。因此,它同時(shí)具有生理屬性。作為語(yǔ)言這一特殊社會(huì)現(xiàn)象的物質(zhì)基礎(chǔ),語(yǔ)音又具有社會(huì)屬性,這是語(yǔ)音的本質(zhì)屬性。我們?cè)诜治稣Z(yǔ)音現(xiàn)象的時(shí)候,這三種屬性都會(huì)涉及到。 6語(yǔ)音學(xué)語(yǔ)音學(xué)是研究語(yǔ)音過(guò)程的科學(xué),包括發(fā)音

4、語(yǔ)音學(xué)、聲學(xué)語(yǔ)音學(xué)和聽(tīng)覺(jué)語(yǔ)音學(xué)三大分支。發(fā)音語(yǔ)音學(xué)研究發(fā)音器官在發(fā)音過(guò)程中的運(yùn)動(dòng)和語(yǔ)音的音位特征;聲學(xué)語(yǔ)音學(xué)研究語(yǔ)音的物理屬性,如語(yǔ)音聲波的頻率、振幅以及頻譜特性等;聽(tīng)覺(jué)語(yǔ)音學(xué)研究聽(tīng)覺(jué)和語(yǔ)音感知。7語(yǔ)音的屬性物理屬性 物體由于某種外力的作用發(fā)生振動(dòng),并引起周?chē)諝饣蚱渌浇槲镔|(zhì)的振動(dòng),產(chǎn)生了振動(dòng)波 聲波,聲波作用于耳鼓膜,使之產(chǎn)生同樣的振動(dòng),刺激聽(tīng)覺(jué)神經(jīng),人就感覺(jué)到了聲音。語(yǔ)音也是這樣產(chǎn)生、傳遞與接收的。物理聲學(xué)認(rèn)為聲波具有音高、音強(qiáng)、音長(zhǎng)、音色四種要素,語(yǔ)音同樣是這四種要素的統(tǒng)一體。 8聲波示意(L. A. Rowe )壓縮稀薄時(shí)間幅度正弦波9聲波頻率聲壓變化可以是周期性的和非周期性頻率概念

5、循環(huán)(cycle)- 壓縮/稀薄過(guò)程頻率(frequency):每秒cycle數(shù),單位 hertz (Hz)周期 cycle的持續(xù)時(shí)間 (1/frequency)聲音信號(hào)一般由許多頻率不同的信號(hào)組成,稱(chēng)為復(fù)合信號(hào);而單一頻率的信號(hào)稱(chēng)為分量信號(hào)10頻率范圍頻率小于20Hz 一般稱(chēng)為次聲波(subsonic)人的聽(tīng)覺(jué)器官能感知的聲音頻率范圍約為20Hz20kHz的信號(hào)稱(chēng)為音頻(Audio)信號(hào)人發(fā)音器官發(fā)聲頻率約是803400Hz,但人說(shuō)話的信號(hào)頻率約為3003000Hz,即話音(speech)信號(hào)高于20kHz的信號(hào)稱(chēng)為超聲波 (ultrasonic)超聲波及次聲波一般不能引起人聽(tīng)覺(jué)器官的感覺(jué),

6、但可借助一些儀器設(shè)備進(jìn)行觀察和測(cè)量11語(yǔ)音的物理屬性音高 音高指聲音的高低,它取決于發(fā)音體振動(dòng)的快慢。發(fā)音體振動(dòng)越快,發(fā)出的聲音越高,反之聲音則低。物體每秒鐘振動(dòng)的次數(shù)叫頻率,聲學(xué)把頻率作為測(cè)定物體振動(dòng)快慢與聲音高低的標(biāo)準(zhǔn)。說(shuō)聲音的頻率高就是說(shuō)發(fā)音體在單位時(shí)間里振動(dòng)次數(shù)多,它振動(dòng)得快,發(fā)出的聲音高,而頻率低也就表示聲音低。頻率的高低是由物體自身的質(zhì)量、松緊度、長(zhǎng)短等項(xiàng)因素決定的,大而沉、粗而厚、長(zhǎng)而松的物體振動(dòng)慢,音低;小而輕、細(xì)而薄、短而緊的物體振動(dòng)快,音高。語(yǔ)音的高低則與聲帶的長(zhǎng)短、厚薄、松緊有關(guān)。通常,兒童和一般婦女的聲帶比成年男子的聲帶短而薄,所以聲音高;而聲音低的人聲帶相對(duì)說(shuō)長(zhǎng)而厚,

7、如成年男子,女中、低音聲樂(lè)演員,老人等。同一個(gè)人發(fā)出的聲音有高低變化,則是靠控制聲帶的松緊來(lái)調(diào)節(jié)的。 12典型聲門(mén)脈沖波形Tp為基音周期,倒數(shù)為基音頻率,用fp表示,取決于聲帶的尺寸和特性男性說(shuō)話者的fp大致分布在60-200Hz范圍內(nèi)女性說(shuō)話者和小孩的fp值在200-450Hz范圍內(nèi)同一個(gè)人所發(fā)出的聲音有高低變化,是靠控制聲帶的松緊來(lái)調(diào)節(jié)的。13語(yǔ)音的物理屬性音強(qiáng) 音強(qiáng)是指聲音的強(qiáng)弱,它取決于發(fā)音體振動(dòng)幅度的大小。物體振動(dòng)的幅度叫振幅,振幅大,發(fā)出的聲音強(qiáng)度就大,振幅小,聲音就弱。振幅的大小是由引起物體振動(dòng)的外力的大小決定的。語(yǔ)音的強(qiáng)弱同發(fā)音時(shí)呼出氣流量的大小和說(shuō)話人用力的大小有關(guān)。發(fā)音時(shí)用

8、力大,沖擊聲帶或其他發(fā)音部位的氣流強(qiáng),語(yǔ)音就強(qiáng)。14語(yǔ)音的物理屬性音長(zhǎng) 音長(zhǎng)指聲音的長(zhǎng)短,也就是聲波延續(xù)的長(zhǎng)度,它取決于發(fā)音體振動(dòng)持續(xù)的時(shí)間。在語(yǔ)音中,再長(zhǎng)的音實(shí)際上也很短,音長(zhǎng)一般決定于發(fā)音動(dòng)作持續(xù)的時(shí)間。 在四要素中,音高音強(qiáng)音色總是隨著音波在時(shí)間上的延續(xù)表現(xiàn)出來(lái)的,音長(zhǎng)的變化往往會(huì)影響到音質(zhì)音高和音強(qiáng),語(yǔ)音中就常會(huì)出現(xiàn)這種情況。如普通話的輕聲,讀輕聲的字,聲韻母的音質(zhì)、聲調(diào)的音高、音節(jié)的強(qiáng)度都可能與讀它的本調(diào)時(shí)不同,但造成輕的決定性因素是音長(zhǎng)縮短,輕聲字音節(jié)的長(zhǎng)度只有重讀音節(jié)長(zhǎng)度的一半左右,這使得聲韻調(diào)原有的音高音強(qiáng)音質(zhì)來(lái)不及完全表現(xiàn),因而出現(xiàn)變化。 15語(yǔ)音的物理屬性音質(zhì) 音質(zhì)又叫音色

9、,是一個(gè)聲音能區(qū)別于其他聲音的本質(zhì)特點(diǎn)。聲波的振動(dòng)方式與共鳴器的共振作用,都決定著音質(zhì)的差別。 世界上的聲音很少是只有一種單純頻率的純音,絕大多數(shù)聲音都是由許多個(gè)頻率和振幅不同的音波組成的復(fù)合音。復(fù)合音的各成分波之間頻率和振幅相互影響,形成了特定的波形,產(chǎn)生出特定的音質(zhì)。 從波形上看,音質(zhì)可分為兩類(lèi)噪音與樂(lè)音。噪音是由許多無(wú)規(guī)則的音波合成的,它們的音高和強(qiáng)度隨時(shí)在變化,相互之間沒(méi)有一定的關(guān)系,合成的波形雜亂而無(wú)規(guī)律。這種聲音聽(tīng)起來(lái)刺耳、嘈雜,如剎車(chē)聲,電鋸鋸木聲,馬路上車(chē)馳笛鳴的喧鬧聲等等。語(yǔ)音中也有不少噪音成分,如輔聲中的塞音、擦音、塞擦音等等。 樂(lè)音則由若干規(guī)則的純音組成,形成的復(fù)合音波有

10、周期性,很有規(guī)律,這樣的聲音聽(tīng)起來(lái)和諧、悅耳,歌聲、樂(lè)聲和語(yǔ)音中的元音,都是這樣的聲音。 16語(yǔ)音的物理屬性音質(zhì)從音波的產(chǎn)生上看,造成不同音質(zhì)的發(fā)音條件有三種:發(fā)音體不一樣,口琴和笛子的音質(zhì)不同,因?yàn)榭谇俚陌l(fā)音體是金屬簧片,笛子的發(fā)音體是竹膜。發(fā)音方法不一樣,拍手掌發(fā)出的是“啪啪”聲,兩手掌來(lái)回搓發(fā)出的是“擦擦”聲。在語(yǔ)音中,用阻礙氣流的方法發(fā)出的是輔音,用不阻礙氣流的方法發(fā)出是就是元音。共鳴器形狀不同。共鳴器有自己的振動(dòng)頻率,它會(huì)同跟自己頻率相同或相近的音波產(chǎn)生共振,把它加強(qiáng),其它頻率的音波就會(huì)被抑制或消耗。不同形狀的共鳴器頻率不一樣,即使是對(duì)同一束復(fù)合音波,產(chǎn)生的共振結(jié)果也不一樣。對(duì)于語(yǔ)音

11、來(lái)說(shuō),口鼻腔就是共鳴器,一個(gè)人不斷改變口形就會(huì)發(fā)出不同的音。17語(yǔ)音的物理屬性音質(zhì)共鳴器形狀對(duì)語(yǔ)音音質(zhì)的區(qū)分還有另一方面的意義。倘若男女老少四人來(lái)發(fā)一個(gè)a音,他們的聲帶長(zhǎng)短厚薄及韌性等各有差異,產(chǎn)生的音波肯定是不同形式的,但我們除了聽(tīng)出是四個(gè)人的聲音外,總還是聽(tīng)到了同一個(gè)韻母的音質(zhì)。原因還在共鳴器的形狀。不同的人發(fā)同一個(gè)音時(shí),口鼻腔形狀雖然不會(huì)絕對(duì)相同,但其形狀的基本特點(diǎn)是一致的,比如發(fā)a時(shí)都要把舌面壓低,口腔開(kāi)大,舌根后部的咽腔相對(duì)窄小?,F(xiàn)在就是四束復(fù)合波與同一個(gè)形狀的共鳴器發(fā)生共振了,每人被共振加強(qiáng)的音波在絕對(duì)頻率上雖不見(jiàn)得一樣,但共振頻率分布的位置卻有共性,這使我們聽(tīng)出了同樣的元音。在元

12、音的識(shí)別中,音質(zhì)并不決定于聲波的振動(dòng)形式,而決定于共鳴器形狀對(duì)共振頻率的選擇。這也說(shuō)明了在語(yǔ)音傳遞過(guò)程中,準(zhǔn)確的發(fā)音動(dòng)作有多么重要,共鳴器形狀正是靠發(fā)音動(dòng)作來(lái)調(diào)節(jié)的。 18語(yǔ)音的生理屬性 人體沒(méi)有專(zhuān)門(mén)用來(lái)發(fā)音的器官,起發(fā)音作用的是呼吸器官和消化器官的一部分,它們的協(xié)同動(dòng)作產(chǎn)生了語(yǔ)音。了解這部分器官的構(gòu)造、活動(dòng)方式及對(duì)語(yǔ)音的作用,是正確發(fā)音、辨音的基礎(chǔ)。 19語(yǔ)音的生理屬性發(fā)音器官 發(fā)音器官可分三部分。 1 肺和氣管肺部呼吸產(chǎn)生的氣流是發(fā)音的動(dòng)力,氣流通過(guò)氣管送到喉頭,沖擊聲帶或其他發(fā)音器官,使之振動(dòng),發(fā)出聲音。肺本身不能自由擴(kuò)張收縮,是依靠胸部腹部肌肉群的活動(dòng)來(lái)進(jìn)行呼吸的。這些肌肉群的活動(dòng)還可

13、以控制肺部吸入氣流量的大小、呼出氣流量的強(qiáng)弱及持續(xù)時(shí)間,影響聲音的強(qiáng)弱與長(zhǎng)短。 2 喉頭和聲帶氣管的頂端接著喉頭。喉頭由幾塊軟骨及它們相連的肌肉、韌帶組成,是個(gè)能活動(dòng)的管腔體,聲帶就長(zhǎng)在喉頭中間。聲帶是一對(duì)唇形的韌帶,邊緣很薄,富有彈性。它一端合并固定在甲狀軟骨上,不能分開(kāi);另一端分別附在兩塊杓狀軟骨上。杓狀軟骨小而靈活,能在肌肉牽引下轉(zhuǎn)動(dòng),使聲帶拉緊或放松,閉合或打開(kāi)。聲帶中間的空隙叫聲門(mén),聲門(mén)有四種常見(jiàn)狀態(tài),正常呼吸狀態(tài),聲門(mén)敞開(kāi),略呈三角形;深呼吸狀態(tài),聲門(mén)大開(kāi)呈菱形;耳語(yǔ)狀,聲帶前半閉合后半接近,杓狀軟骨之間形成三角形空隙,叫氣聲門(mén),氣流從這里擦出,基本不觸及聲帶;發(fā)音狀態(tài),杓狀軟骨轉(zhuǎn)

14、動(dòng)向一起合,聲帶也并攏,聲門(mén)關(guān)閉 20語(yǔ)音的生理屬性發(fā)音器官發(fā)聲狀態(tài)時(shí)聲門(mén)下的氣流受阻,壓力增加,氣流沖擊聲帶,聲帶被沖開(kāi)又合上,再被沖開(kāi),再合上,這樣不停地開(kāi)閉,形成有節(jié)奏的顫動(dòng)。氣流從聲帶間一噴一噴地沖出來(lái),產(chǎn)生了規(guī)律的周期波,這就是原始的聲帶音。聲帶音只是一種微弱的蜂鳴聲,我們是聽(tīng)不見(jiàn)的,經(jīng)過(guò)咽腔、口腔、鼻腔的共鳴作用放大,我們才聽(tīng)到響亮的樂(lè)音。聲帶的顫動(dòng)是語(yǔ)音中樂(lè)音成分的聲源。聲帶還同語(yǔ)音的高低有密切關(guān)系。杓狀軟骨的轉(zhuǎn)動(dòng)可以調(diào)節(jié)聲帶的松緊,聲帶繃緊時(shí)和放松時(shí)顫動(dòng)的頻率是不一樣的,發(fā)出的聲音高低也不一樣。漢語(yǔ)中聲調(diào)的高低升降變化,就是通過(guò)控制聲帶松緊來(lái)實(shí)現(xiàn)的。21語(yǔ)音的生理屬性發(fā)音器官3

15、 口腔、鼻腔、咽腔 這一部分器官既是聲帶音的共鳴器,又是語(yǔ)音中噪音成分的聲源。 喉頭到小舌之間的條狀空間就是咽腔,這是人類(lèi)特有的。一般動(dòng)物的聲門(mén)位置很高,聲門(mén)與口腔間幾乎沒(méi)有空腔。人的聲門(mén)位置較低,喉頭和口腔間距離拉長(zhǎng),形成了咽腔。有了它,舌頭和軟腭有了充分的活動(dòng)空間,可以做出靈活多變的動(dòng)作,發(fā)出動(dòng)物發(fā)不出的復(fù)雜聲音。同時(shí)它還是口腔的延伸,是整個(gè)共鳴器的一部分??谇皇前l(fā)音器官中活動(dòng)最復(fù)雜的部分,除牙齒、牙齦、硬腭外,其余部位都可以活動(dòng)。雙唇可做出開(kāi)閉攏放各種動(dòng)作,下唇還可以收回同上齒接觸。上腭后半部分的軟腭與小舌可以上升或下垂,它們的主要作用是改變氣流方向。它們上升時(shí),小舌抵住咽壁,擋住鼻腔通

16、道,氣流進(jìn)入口腔;下垂時(shí),鼻腔通道打開(kāi),氣流可進(jìn)入鼻腔。 22語(yǔ)音的生理屬性發(fā)音器官舌頭是口腔中最活躍的部件,它柔軟而靈活,不僅整個(gè)舌頭可以前后上下移動(dòng),它的各部分(舌尖、舌面、舌根)都可以獨(dú)立活動(dòng)。舌頭多變的動(dòng)作是口腔形狀能出現(xiàn)豐富變化的重要條件。鼻腔不像口腔那樣可以變動(dòng),它是個(gè)形狀固定的共鳴腔,但當(dāng)它與口腔連通時(shí),口腔動(dòng)作的改變也可以發(fā)出不同的鼻音。這部分器官通過(guò)復(fù)雜的動(dòng)作不斷改變共鳴腔的形狀,用不同的共振把原始的聲帶音變成了我們聽(tīng)見(jiàn)的各種聲音??谇贿€有一部分動(dòng)作是由某些部位靠近或閉合,阻擋了氣流,氣流必須發(fā)力沖破阻擋或從窄小的通道擠過(guò)去,才能到達(dá)口鼻腔外。在打通通道的同時(shí),氣流就沖擊了阻

17、擋它的部位,產(chǎn)生出不規(guī)則振動(dòng)的噪聲波。這也就是語(yǔ)音中許多輔音的來(lái)源。23語(yǔ)音處理研究的基本內(nèi)容說(shuō)的是什么內(nèi)容?是誰(shuí)在說(shuō)話?計(jì)算機(jī)去說(shuō)話?怎么把話說(shuō)好?語(yǔ)音識(shí)別聲紋識(shí)別文語(yǔ)轉(zhuǎn)換說(shuō)話水平評(píng)估說(shuō)的是什么語(yǔ)言?語(yǔ)種識(shí)別24語(yǔ)音信號(hào)處理的內(nèi)容介紹一下語(yǔ)音學(xué)的基本知識(shí)語(yǔ)音產(chǎn)生模型清音、濁音的產(chǎn)生機(jī)理及特性語(yǔ)音的短時(shí)分析特性同態(tài)分析和線性預(yù)測(cè)分析目的:求得一組可以逼近聲道的特征矢量和相應(yīng)的激勵(lì)信號(hào)序列25話音編譯碼器A/D話音編碼信道編碼信道信道譯碼話音譯碼D/A26語(yǔ)音合成(Text To Speech)定義:語(yǔ)音合成技術(shù)是指將文本信息轉(zhuǎn)換為語(yǔ)音數(shù)據(jù),然后以語(yǔ)音的方式播放出來(lái)語(yǔ)音合成的應(yīng)用:電話查詢業(yè)務(wù)、

18、語(yǔ)音信箱、語(yǔ)音聊天室,公共汽車(chē)或電車(chē)的自動(dòng)報(bào)站等27語(yǔ)音合成與傳統(tǒng)的數(shù)字錄音技術(shù)不同數(shù)字錄音技術(shù)需要人工錄音,語(yǔ)音合成可以利用有限的系統(tǒng)資源將大量的、無(wú)限的文本信息轉(zhuǎn)換為語(yǔ)音。就工作量而言,錄音需要大量的人力,語(yǔ)音合成的大部分工作由計(jì)算機(jī)完成,只需要給出文本信息即可28語(yǔ)音合成與傳統(tǒng)的數(shù)字錄音技術(shù)不同對(duì)于一些動(dòng)態(tài)特別是要求實(shí)時(shí)性的信息,語(yǔ)音合成能夠進(jìn)行實(shí)時(shí)轉(zhuǎn)換錄音信息的存儲(chǔ)、查詢、維護(hù)、修改不如語(yǔ)音合成方便。29語(yǔ)音識(shí)別(Automatic Speech Recognition)定義:語(yǔ)音識(shí)別是指將人們說(shuō)話的語(yǔ)音信號(hào)轉(zhuǎn)換為可以被計(jì)算機(jī)程序識(shí)別的文字信息,從而識(shí)別說(shuō)話人的語(yǔ)音指令以及文字內(nèi)容應(yīng)用

19、:自動(dòng)訂票系統(tǒng),電話查詢等30語(yǔ)音識(shí)別的過(guò)程計(jì)算機(jī)語(yǔ)音識(shí)別的目的是讓計(jì)算機(jī)能夠聽(tīng)懂人的話語(yǔ)音識(shí)別實(shí)際上是一個(gè)模式識(shí)別匹配的過(guò)程。首先根據(jù)人的語(yǔ)言特征建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,抽取相應(yīng)的特征,建立所需要的模板,在識(shí)別過(guò)程中,將計(jì)算機(jī)中存放的語(yǔ)音模板與輸入的語(yǔ)音信號(hào)特征進(jìn)行比較。31語(yǔ)音識(shí)別的例子英國(guó)的Webflorists網(wǎng)上花站利用互聯(lián)網(wǎng)和語(yǔ)音識(shí)別技術(shù)接收和處理鮮花訂單。北京中科院研究一種將語(yǔ)音識(shí)別技術(shù)應(yīng)用于電視,控制電視的開(kāi)關(guān)和轉(zhuǎn)換頻道32說(shuō)話人識(shí)別技術(shù)(Speaker Recognition)定義:說(shuō)話人識(shí)別技術(shù)是以話音對(duì)說(shuō)話人進(jìn)行區(qū)分,從而進(jìn)行身份鑒別與認(rèn)證的技術(shù),通過(guò)說(shuō)話

20、人識(shí)別可以利用人本身的生物特征進(jìn)行身份鑒別。應(yīng)用領(lǐng)域:公安部門(mén)進(jìn)行語(yǔ)音驗(yàn)證,為一般的用戶提供防盜門(mén)開(kāi)啟功能,語(yǔ)音撥號(hào),電話銀行,電話購(gòu)物,語(yǔ)音E-mail,信息服務(wù)等33說(shuō)話認(rèn)識(shí)別的基本原理通過(guò)分析人的發(fā)聲和聽(tīng)覺(jué),為每個(gè)人建立一個(gè)數(shù)學(xué)模型,然后由計(jì)算機(jī)對(duì)模型和實(shí)際輸入的語(yǔ)音進(jìn)行精確的匹配,根據(jù)匹配的結(jié)果便人說(shuō)話人是誰(shuí)。34語(yǔ)音的基本單位Phoneme (abstract, smallest)音素:清音,濁音 Morpheme 詞素 Syllable 音節(jié):元音和輔音構(gòu)成;(聲母和韻母) Word 單詞 Phrase 短語(yǔ) Sentence 句子 Paragraph 段落 Topics, Articles, Stories 主題文章35 研究的范圍36語(yǔ)音分析工具: MATLAB, PRAAT, SFS37言語(yǔ)過(guò)程從說(shuō)話者想說(shuō)到聽(tīng)話者對(duì)話音的理解是一個(gè)很復(fù)雜的過(guò)程,一般可分為如下幾個(gè)階段想說(shuō):大腦產(chǎn)生說(shuō)話的意向(intension),接著生成概念(concept),選擇合適的詞匯,按語(yǔ)法組織成語(yǔ)言;說(shuō)出:發(fā)音器官協(xié)調(diào)工作,發(fā)出聲音(產(chǎn)生聲波),面部的肌肉、器官和體態(tài)與發(fā)音器官配合,送出多種信息以便讓聽(tīng)者更好的理

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論