多媒體計算機技術_第1頁
多媒體計算機技術_第2頁
多媒體計算機技術_第3頁
多媒體計算機技術_第4頁
多媒體計算機技術_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多媒體計管機技術

號玄偉

hwlu@263.net

第四章音頻信號和聲音卡

2?音頻編碼基礎考

*?音頻處理涉及的內容題

??音頻信號壓縮技術

??音頻編碼標準

??聲音卡的組成和工作原理

Z?語音識別技術及應用

音頻處理涉及的內容

,也即聲波的物理特性。

音頻的記錄和產生方式,包括模/數(shù)、數(shù)

/模轉換;數(shù)據壓縮和聲音合成。

:?音頻信號的處理方法大致可分為兩類:

:一種是數(shù)字音頻方式,另一種是分析一

■合成的方安

音頻編碼基礎

??聲音是攜帶信息的極其重要的媒體,是多媒體技術研

■究中的一個重要內容。聲音的種類繁多,如人的話音、

Z樂器聲、動物發(fā)出的聲音、機器產生的聲音以及自然

2界的聲音等。

:?這些聲音有許多共同的特性,也有它們各自的特性。

Z在用計算機處理這些聲音時,既要考慮它們的共性,

■又要利用它們的各自的特性。

:?我們將研究聲音的基礎知識,掌握聲音數(shù)字化的兩個

?最基本的概念;了解基本的音頻信號編碼技術。

音頻編碼基礎

Z?聲音信號的特點

z.音頻信息的分類

?■音頻信號處理的方法

??音頻文件的存儲格式

聲音質量的度量

頻帶寬度

BacU

?音頻信號的頻帶越寬,所包含的音頻信

號分量越豐富,音質越好

CD-DA

FM廣橘

AM廣播

電話

1020502003.4K7K15K22Kf(Hz)

:動態(tài)范圍K

EaeL

:?動態(tài)范圍越大,信號強度的相對變化范

?圍越大,音響效果越好

X動態(tài)范圍(邢)406050100

信噪比

BacU

??信噪比SNR(SignaltoNoiseRatio)

:是有用信號與噪聲之比的簡稱。噪音可

:分為環(huán)境噪音和設備噪音。信噪比越大,

聲音質量越好。

門加有用信號的平均功率

噪聲的平均功率

主觀度量法

BacU

:?人的感覺機理對聲音的度量最有決定意

:義。感覺上的、主觀上的測試是評價聲

二音質量不可缺少的部分。當然,可靠的

:主觀度量值是較難獲得的

音頻信息的分類

NEXT

分類注釋

不規(guī)則聲音一般指不攜帶信息的噪音

語音是指具有語言內涵和人類約定俗成的特殊媒體

音樂規(guī)范的符號化了的聲音

指人類熟悉的其它聲音,如動物發(fā)聲、機器產生的聲音、自然界的

風雨雷電等。

規(guī)則音頻

BacU

?規(guī)則音頻是一種連續(xù)變化的模擬信號,可用一

條連續(xù)的曲線來表示,稱為聲波。模擬信號

的曲線無論多復雜,在任一時刻都可分解成

一系列正弦波的線性疊加:

聲音信號的特點

NEXT

?聲音是通過空氣傳

播的一種連續(xù)的波,

這種連續(xù)性表現(xiàn)在

兩個方面,一個是

時間上的連續(xù)性,

另一方面是指它在

幅度上是連續(xù)的。

?音頻信號的特征:

?基頻與音調

?諧波與音色

*幅度與音強

?音寬與頻帶

:聲音信號的特點.

:EaeL

:-人的聽覺器官能感知的頻率范圍為20?

:20000Hz,能感知的聲音幅度范圍在0?

-120dB之間,而人的發(fā)音器官能夠發(fā)出

Z的聲音頻率范圍為80?3,400Hz。

z?聲音是一種彈性波,聲音信號可以分成

:周期信號與非周期信號兩類。

:-聲音的質量與聲音的頻率范圍有關。

:基頻與音調IS

:EaeL

:?頻率是指信號每秒鐘變化的次數(shù)。人對聲音

Z頻率的感覺表現(xiàn)為音調的高低,在音樂中稱

2為音高。音調正是由頻率/所決定的。音樂

?中音階的劃分是在頻率的對數(shù)坐標(20Xlog)

Z上取等分而得的:

■音階CDEFGAB

■簡諾符號1234567

頻率(Hz)

,261293330349392440494

■頻率(對數(shù))48.349.350.350.851.852.853.8

:諧波與音色.

.EaeL

*?〃①0稱為①0的高次諧波分量,也稱為泛

:音。音色是由混入基音的泛音所決定的,

;高次諧波越豐富,音色就越有明亮感和

:穿透力。不同的諧波具有不同的幅值A”

:和相位偏移彼n,由此產生各種音色效

:?1y果No

幅度與音強

BacU

:?人耳對于聲音細節(jié)的分辨只有在強度適中時

:才最靈敏。人的聽覺響應與強度成對數(shù)關系。

■一般的人只能察覺出3

Z?分貝的音強變化,再細分則沒有太多意義。

z我們常用音量來描述音強,以分貝

?(dB=201og)為單位。在處理音頻信號時,

:絕對強度可以放大,但其相對強度更有意義,

■一般用動態(tài)范圍定義:

Z動態(tài)范圍=20義log(信號的最大強度/信號的

?最小強度)(dB)

音寬與頻帶

BacU

:?頻帶寬度或稱為帶寬,它是描述組成復

:合信號的頻率范圍

音頻(Audio)帶寬

次聲帶一(_P—超聲帶

語音(Speech)帶寬

203003K20Kf(Hz)

音頻信號處理的方法.

?首先對聲音進行在時間軸和幅度兩個方

面進行離散化。

音頻文件的存儲格式

FNEXT]

:?目前比較流行的主要包括以下幾種:

:-主要用在PC上的以.wav(waveform)為擴展

:名的文件格式;

--主要用在Unix工作站上的以.au(audio)為擴

X展名的文件格式;

Z-主要用在蘋果機和美國視算科技有限公司

二的工作站上的以.aiff和snd為擴展名的文件

Z格式

:-PC機上比較流行的以.rm和.mp3

波形文件格式

NEXT

??.wav為擴展名的

:文件格式稱為波ID:RIFF。

2形文件格式RIFF類型:WWEo

??由IBM和微軟公格式塊”

Z司于1991年8月

二聯(lián)合開發(fā)的聲音數(shù)據塊”

部分音頻文件的后綴盆.

文件的擴展名說明

Sun和NeXT公司的音頻文件存儲格式(8位四律編碼

Au

或者16位線性編碼)

aif(AudioInterchange)Apple計算機上的音頻文件存儲格式

cmf(CreativeMusicFormat)聲霸(SB)卡帶的MIDI文件存儲格式

MIDI文件存儲格式

WMWe*t/1

mid(MIDI)Windows的MIDI文件存儲格式

mp2MPEGLayerI』

mp3MPEGLayerIII

Mod(Module)MIDI文件存儲格式

rm(RealMedia)則黝喊鼠公司的流式音頻文件格式

ra(RealAudio)四麒殿殿公司的流式音頻文件格式

聲音卡文件存儲格式

\RAAoA/Vl*Adlib

Snd(sound)Apple計算機上的音頻文件存儲格式

SeaMIDI文件存儲格式

MIDI文件存儲格式

聲霸卡存儲的音頻文件存儲格式

XV/v\oA/Wcv(CreativeVoice)

Windows采用的波形音頻文件存儲格式

\WAAAaAvAA(zWaveform)*

WrkCakewalkPro軟件采用的MID

:聲音質量的度量.

:EaeL

:-聲音的質量可以用聲音信號的帶寬和動態(tài)范

:圍來衡量,等級由高到低依次是DAT,CD,

.FM,AM和數(shù)字電話。

:?聲音質量的度量還有兩種基本的方法:一種

z是客觀質量度量,另一種是主觀質量度量。

2?聲音客觀質量的度量主要用值噪比SNR(signal

?tonioseratio)。

z?主觀質量度量最常用的方法有平均意見得分

■(meanopinionscore,MOS)。

音頻信號壓縮技術

?,木既述

??脈沖編碼調制

:-增量調制

??自適應脈沖編碼調制

??差分脈沖編碼調制

:?自適應差分脈沖編碼調制

概述

爵aek

數(shù)據壓縮的主要依據是人耳朵的聽覺

特性,使用“心理聲學模型”來達到壓縮

聲音數(shù)據的目的:

-聽覺系統(tǒng)中存在一個聽覺閾值電平

-聽覺掩飾特性

脈沖編碼調制

BaeU

:?脈沖編碼調制PCM(PulseCodeModulation)是一

一種模數(shù)轉換的最基本編碼方法

Z?模數(shù)轉換有兩個步驟:第一步是采樣,就是每隔一

?段時間間隔讀一次聲音的幅度;第二步是量化,就

Z是把采樣得到的聲音信號幅度轉換成數(shù)字值。

采樣時鐘

]|11nHi\

:采樣頻率

:?采樣頻率是指一秒鐘內采樣的次數(shù)。采

:樣頻率的選擇應該遵曲奈奎斯特

一(HarryNyquist)采樣理論:如果對

:某一模擬信號進行采樣,則采樣后可還

:原的最高信號頻率只有采樣頻率的一半,

:或者說只要采樣頻率高于輸入信號最高

:頻率的兩倍,就能從采樣信號系列重構

:原始信號

量化

Z量化位是兩化中一個十分重要的參數(shù),它是對模

■擬音頻信號的幅度軸進行數(shù)字化,決定了模擬信號數(shù)

Z字化以后的動態(tài)范圍。由于計算機按字節(jié)運算,一般

?的量化位數(shù)為8位和16位。量化位越高,信號的動態(tài)

z范圍越大,數(shù)字化后的音頻信號就越可能接近原始信

:號,但所需要的存貯空間也越大。

?量化有好幾種方法,但可歸納成兩類:一類稱為

Z,另一類稱為非均勻量化。如果采用相等的

,量化間隔對采樣得到的信號作量化,那么這種量化稱

Z為均勻量化。均勻量化就是采用相同的“等分尺”來

?度量采樣得到的幅度,也稱為線性量化,如圖所示。

Z這種方法稱為,用PCM表示

:非線性量化

:?非線性量化的基本想法是,對輸入信號進行量化時,

二大的輸入信號采用大的量化間隔,小的輸入信號采用小

Z的量化間隔。

2?在非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據

Z之間定義了兩種對應關系,一種稱為口律壓(縮)擴(展)

■夏法,另一種稱為A律壓(縮)擴(展)算法。

:pi律壓(縮)擴(展)算法.■

:日律壓擴用在北美和日本等地區(qū)的數(shù)字電

:話通信中,按下面的式子確定量化輸入和

:輸出的關系:

:FR(x)=sgn(x)[ln(l+//1x|)/ln(l+//)]

:式中:X為輸入信號幅度,規(guī)格化成

:VI;sgn(x)為X的極性;〃為確定壓縮量的參

:數(shù),它反映最大量化間隔和最小量化間隔

一之比,取1004/4500。

A律壓(縮)擴(展)算法

BaeU

?A律(A-Law)壓擴用在歐洲和中國大陸等地區(qū)的

:數(shù)字電話通信中,按下面的式子確定量化輸入

:和輸出的關系:

一/"—{sgn(x)[(l+InZ|x|)/(1+InA)]\/A<|x|<1

:式中:X為輸入信號幅度,規(guī)格化成-1。。,

zSgn(x)為X的極性;4為確定壓縮量的參數(shù),它反

?映最大量化間隔和最小量化間隔之比。

增量調制

FNEXT]

增量調制DM(DeltaModulation)是一種預

測編碼技術。

DM是對實際的采樣信號與預測的采樣

信號之差的極性進行編碼,將極性變成

“0,,和“1,,這兩種可能的取值之一。如

果實際的采樣信號與預測的采樣信號之

差的極性為“正”,則用“1”表示;相

反則用“0”表示。

DM波形編碼的原理圖

NEXT

x[0]x[l]x[2]x[3]x[4]x[5]x[6]x[7]x[8]x[9]x[10]x[ll]x[12]…

?編碼輸出

三其中x[i]表示在i點的編碼輸出,y[i]表

:示輸入信號的實際值。

:增量調制的缺點

:EMU

:?一是會出現(xiàn)斜率過載,即增量調制器的

:輸出不能保持跟蹤輸入信號的快速變化

I?二是會產生粒狀噪聲。反饋回路輸出信

:號的最大變化速率受到量化階大小的限

:制,因為量化階的大小是固定的。

自適應脈沖編碼調制《?

Baeu

?根據輸入信號幅度的均方根值的變化來改變

量化增量的一種編碼技術。

?改變量化階大小的方法有兩種:一種稱為前

向自適應(forwardadaptation),另一種稱為后

向自適應(backwardadaptation)。

輸入T量化器

z輸入"夏福m垣卜,輸出*輸出

?輸出量化增置適配播j

圖4.9前向自適應圖4.10后向自適應

-r

:差分脈沖編碼調制S

.EMU

:?利用樣本與樣本之間存在的

z信息冗余度來進行編碼的一

.種數(shù)據壓縮技術。輸入率使[土

:?差分脈沖編碼調制的思想是國軻

z根據過去的辭本去估算下一

-個樣本信號的幅度大小,這--------于

:個值稱為預測值,然后對實

?際信號值與預測值之差進行

z量化編碼,從而就減少了表

?示每個樣本信號的位數(shù)。

自適應差分

脈沖編碼調制

?它的核心想法是:

:①利用自適應的思想輸入LKI

z改變量化增量的大小;

?②使用過去的樣本值

:估算下一個輸入樣本

Z的預測值,使實際樣

:本值和預測值之間的

:差值總是最小。

音頻編碼標準

??ITU-TG系列聲音壓縮標準

*?MP3壓縮技術

:,MP4壓縮技術

*?樂器數(shù)字接口MIDI

ITU-TG系列

聲音壓縮標準BaeU

2?G.711

??G.722

Z?G.723

升G.728

z?G.729

--音頻編碼標準比較

:G.711

:KacL

?1972年CCITT為電話質量和語音壓縮制

:定了PCM標準G.711。其速率為64kb/s,使

:用V律或A律的非線性量化技術,主要用于

:公共電話網中。

G.722

BaeU

:?1988年CCITT為調幅廣播質量的音頻信號壓縮

:制定了G.722標準,它使用子帶編碼(SBC)方

Z案,其濾波器組將輸入信號分成高低兩個子

:帶信號,然后分別使用ADPCM進行編碼。

:?G.722能將224kb/s的調幅廣播質量的音頻信號

:壓縮為64kb/s,主要用于視聽多媒體和會議電

Z視等。

G.722的主要目標是保持64kb/s的數(shù)據率,而

;音頻信號的質量要明顯高于G.711的質量。

G.723

BaeU

:1996年ITU-T通過了G.723標準一“用

:于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話

:音編碼”。它采用多脈沖激勵最大似然量

:化(MP-MLQ)算法,此標準可應用于可視

:電話及IP電話等系統(tǒng)中。

G.728

BaeU

為了進一步降低壓縮的速率,CCITT

于1992年制定了G.728標準,使用基于低

時延碼本激勵線性預測編碼(LD-CELP)算

法,其速率為16kb/s,主要用于公共電話

網中。

:G.729」

:KacL

:ITU-T于1996年3月通過了G.729標準,

?它使用8kb/s的共貌結構代數(shù)碼激勵線性預

?測(CS-ACELP)算法,此標準將在無線移

:動網、數(shù)字多路復用系統(tǒng)和計算機通信系

:統(tǒng)中應用。

音頻編碼標準比較.

BaeU

標選比摘蟀繇魅應用制定日期

G.71164kb/sPCM公共電麗72年

G.72264kb/sSBC+ADPCM撕多媒體舲議電話88.11

G.7235.3kb/s或MP-MLQ963

懶電話及IP電話等

63kM

G.72816kMLD-CELP公共電麗92.9

G.7298kb/sCS-ACELP祓移拆、計算機通信系統(tǒng)等963

MP3壓縮技術

FNEXT]

??MP3(BPMotionPictureExpertsGroup-1audio

:layer3)是近年來發(fā)展非常迅速的一種音頻文

z件格式,具有文件小、音質佳的特點,它利

?用MPEGAudioLayer3的技術將WAV文件再

Z加以壓縮成為標準音頻CD文件的十二分之一。

:?在一張存放16首歌曲的74分鐘的CD上,可以

:存儲大約160首歌曲而且能夠播放14個小時之

T多。

MPEG音頻編碼標準

NEXT

:?MPEG音頻編碼標準具有可伸縮性,根

:據采用的壓縮因子的不同可以獲得不同

:的音質。

:?MPEG采用分層編碼方式,其層次與壓

:縮因子的關系如下表所示

1:4Layer1(相當于384kbps立體嚴信號),

1:6...1:8Layer2(木魁于256..192kbps立體聲信號),

1:10...1:12Layer3(相當于128..112kbps立體聲信號),

MP3的一些主要性能

BaeU

音質帶寬模式tm¥壓縮比

電話音質2.5kHz單聲道8kbps96:1

短波4.5kHz單聲道16kbps48:1

調幅收音機7.5kHz單聲道32kbps24:1

FM收音機11kHz雙聲道56...64kbps26...24:1

耐CD15kHz雙聲道96kbps16:1

CD>15kHz雙聲道112J28kbps14.,12:1

YV

MP4壓縮技術

FNEXT]

:?MP4采用的是美國電話電報公司(AT&T)

:所研發(fā)的、以“知覺編碼”為關鍵技術

?的a2b音樂壓縮技術,可將壓縮比成功地

:提高到15:1(最大可達至1)20:1)而不影響音

X樂的實際聽感。

z?MP4在加密和授權方面也做了特別的設

T計。

:MP4的特點j

:KacL

??每首MP4樂曲就是一個擴展名為.exe的

?可執(zhí)行文件

??更小的體積和更好的音質

Z?獨特的數(shù)字水印

??支持版權保護

??比較完善的功能

樂器數(shù)字接口MIDI

FNEXT]

??MIDI是樂器數(shù)字接口(MusicalInstrument

ZDigitalInterface)的英文縮寫,是數(shù)字音樂/電

2子合成樂器的統(tǒng)一國際標準。

:?MIDI規(guī)范不僅定義了電腦音樂程序、音樂合

一成器及其它電子音樂設備交換音樂信號的方

,式,而且還規(guī)定了不同廠家的電子樂器與電

:腦連接的電纜和硬件及設備間數(shù)據傳輸?shù)膮f(xié)

:議,可用于為不同樂器創(chuàng)建數(shù)字聲音,能很

?容易地模擬鋼琴、小提琴等傳統(tǒng)樂器的聲音。

:樂器數(shù)字接口MIDI

??相對于保存真實采樣數(shù)據的聲音文件,MIDI

:文件顯得更加緊湊,其文件的大小要比WAV

X文件小得多

:-MIDI本身并不能發(fā)出聲音,它是一個協(xié)議,

:只包含用于產生特定聲音的指令,而這些指

*令則包括調用何種MIDI設備的音色、聲音的

Z強弱及持續(xù)的時間等。電腦把這些指令交由

:聲卡去合成相應的聲音(如依指令發(fā)出鋼琴聲

?或小提琴聲等)。

Z?電腦播放MIDI文件時,有兩種方法合成聲音:

?FM合成和波表合成。

Z聲音卡的組成

Z和工作原理

??聲音卡的發(fā)展歷史

??聲音卡的聲道

??聲音卡的功能

??聲音卡的工作原理

??聲音卡的選擇及應用

:聲音卡的發(fā)展歷史

??從PC喇叭到ADLIB音樂卡

:,SoundBlaster系列

Z?SBAWE系列聲卡

??PCI聲卡

聲音卡的聲道

BaeU

...cgQia"

單聲道左聲=道.一仁:竽、.、口右聲道

/\I,、

/,、3。度:;'

立體聲r

四聲道環(huán)繞

:2。度3

5.1聲道左環(huán)繞1"

I~右環(huán)繞

圖5.155.1通道

聲音卡的功能

BaeU

5-錄制、編輯和回放數(shù)字聲音文件

三?控制各聲源的音量,并混合在一起,以

:便數(shù)字化

:■在記錄和回放數(shù)字文件時進行壓縮和解

:壓縮,以節(jié)省存儲空間

:■采用語音合成技術,能讓電腦朗讀文件

Z?MIDI接口

聲音卡的工作原理

NEXT

;?主機通過總線將數(shù)字化的聲音

主*Line輸出

.信號以PCM的方式送到數(shù)模轉換D/A

?器(D/A),將數(shù)字信號變成模擬的機功放一?耳機/揚聲器

■音頻信號。同時又可以通過模數(shù)總麥克風

線二A/D

:轉換器(A/D)將麥克風或CD的輸Line輸入

.入信號轉換成數(shù)字信號,送到計

一算機進行處理。

z?聲音處理芯片是聲卡中的核心芯片,是一個完整的音頻子系

?統(tǒng)電路,通過對音頻信號的轉換、控制、加工、處理,在個人計

?算機上實現(xiàn)聲卡的另一關鍵芯片是合成器芯片。

Z?多媒體計算機只有通過合成器才能播放MIDI文件。了較理想

,的音響效果。

JSoundBlasterl6的結構框圖

NEXT

-三

MIDI合成芯片邏輯框圖

BaeU

IRQXIxo

CLKO

數(shù)

據4BCO

總定時控制器

AO,AI線時鐘?LRO

WCO

CS,WR,RD制

包絡線-

■FM算了T累加器]

發(fā)生器.—X—1

PDO,▼線性內插

寄存器陣列?DO

D0-D7相位發(fā)生器LFOI值計算器

:聲音卡的選擇及應用S

.KacL

??聲卡的兼容性

Z,音頻技術指標

:-聲卡的使用

語音識別技術及應用

??語音識別的發(fā)展歷史

??語音識別技術

:?語音識別系統(tǒng)的類型

??語音識別的應用

尚待成熟的語音識別

:?就在幾年羽,語音識別(SR)還是投資界的寵兒。蟲

—場領導廠商如Dragon和LernoutHauspie(L&H)有點被

?熱情沖昏了頭腦。98%的準確率及能夠識別10萬余字

Z的功能似乎幾個月內就會淘汰鍵盤、甚至手寫筆。

,?許多用戶對傳聞的準確率感到失望。盡管許多公司竭

Z力炒作其技術可以實現(xiàn)很高的準確率,但是準確率往

一往只有80%到85%。SR對許多字斷章取義,尚未解決

,標點問題,似乎老是聽不懂尖聲的嗓音、感冒患者的

Z聲音及各種口音。顯然,一項尚在發(fā)展的技術被人誤

?傳成了“成品”。這項技術即使接近廠商在上世紀末

?所做的承諾,恐怕也需要許多年。

語音識別的發(fā)展歷史

FNEXT]

Z?語音識別技術的研究工作始于20世紀50年代,當時

-AT&TBell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字

Z的語音識別系統(tǒng)一Audry系統(tǒng)。

Z?60年代,計算機的應用推動了語音識別的發(fā)展。

:?70年代,語音識別領域取得了突破。

:?80年代,語音識別研究進一步走向深入,其顯著特征

Z是HMM模型和人工神經元網絡(ANN)在語音識別

一中的成功應用。

Z?90年代,隨著多媒體時代的來臨,迫切要求語音識別

■系統(tǒng)從實驗室走向實用。

:語音識別技術的發(fā)展.

.KacL

,如圖表示了從80年代初以來語音識別技術經歷的從孤立詞、小詞匯

語音識別技術

BaeU

:?不同的語音識別系統(tǒng),雖然具體實現(xiàn)細

:節(jié)有所不同,但所采用的基本技術相似,

:它所涉及的領域包括:信號處理、模式

:識別、概率論和信息論、發(fā)聲機理和聽

2覺機理、人工智能等等。

Z?語音識別技術主要包括特征提取技術、

z模式匹配準則及模型訓練技術三個方面。

;此外,還涉及到語音識別單元的選取。

典型語音識別系統(tǒng)

的實現(xiàn)過程

識別結果

:語音識別單元的選取.

:KacL

Z?選擇識別單元是語音識別研究的第一步

:?語音識別單元有單詞(句)、音節(jié)和音素三

Z種

:-單詞單元廣泛應用于中小詞匯語音識別系統(tǒng)

:?音節(jié)單元多見于漢語語音識別

:-音素單元以前多見于英語語音識別的研究中,

Z但目前中、大詞匯量漢語語音識別系統(tǒng)也在

T越來越多地采用

特征參數(shù)提取技術

FNEXT]

:?語音信號中含有豐富的信息,這些信息

:稱為語音信號的聲學特征

二?特征提取是對語音信號進行分析處理,

:去除對語音識別無關緊要的冗余信息,

:獲得影響語音識別的重要信息

:?由于語音信號的時變特性,特征提取必

:須在一小段語音信號上進行,也即進行

■短講分析

:常用的一些聲學特征.

.KacL

??線性預測系數(shù)LPC

??倒譜系數(shù)CEP

**Mel倒譜系數(shù)MFCC和感知線性預測PLP

:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論