數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第1頁
數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第2頁
數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第3頁
數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第4頁
數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章數(shù)字音頻處理技術(shù)?第三章數(shù)字音頻處理技術(shù)?1第一節(jié)數(shù)字音頻基礎(chǔ)一、聲學(xué)基礎(chǔ):1、聲音的三個(gè)物理量:響度、音調(diào)、音色。2、室內(nèi)聲場(chǎng)中聲能結(jié)構(gòu):直達(dá)聲、早期反射聲、混響聲。?第一節(jié)數(shù)字音頻基礎(chǔ)一、聲學(xué)基礎(chǔ):?2第一節(jié)數(shù)字音頻基礎(chǔ)3、模擬音頻信號(hào)的產(chǎn)生與再生?第一節(jié)數(shù)字音頻基礎(chǔ)3、模擬音頻信號(hào)的產(chǎn)生與再生?3第一節(jié)數(shù)字音頻基礎(chǔ)二、音頻的數(shù)字化?第一節(jié)數(shù)字音頻基礎(chǔ)二、音頻的數(shù)字化?4第一節(jié)數(shù)字音頻基礎(chǔ)三、立體聲與三維立體聲技術(shù)?第一節(jié)數(shù)字音頻基礎(chǔ)三、立體聲與三維立體聲技術(shù)?5第一節(jié)數(shù)字音頻基礎(chǔ)?第一節(jié)數(shù)字音頻基礎(chǔ)?6第一節(jié)數(shù)字音頻基礎(chǔ)四、數(shù)字音頻的文件格式1、WAV波形文件。是非常流行的音頻文件格式,占有磁盤空間較大。2、是音質(zhì)最好的音頻格式之一,采樣率及量化位數(shù)較高。3、MP1\2\3文件。其中MP3是目前最為流行的音樂文件格式。4、VQF文件:雅馬哈公司特有的文件格式,壓縮后文件可比MP3小30%~50%,但支持軟件不多。所以影響力不大。?第一節(jié)數(shù)字音頻基礎(chǔ)四、數(shù)字音頻的文件格式?7第一節(jié)數(shù)字音頻基礎(chǔ)5、AIFF文件;音頻交換文件格式,可廣泛用于其它類型的計(jì)算機(jī)平臺(tái)。6、RealAudio文件:流媒體文件格式,普遍用于網(wǎng)絡(luò)音頻傳播。7、WMA文件:微軟公司開發(fā)的流媒體文件格式,音質(zhì)好于MP3。8、MIDI文件:計(jì)算機(jī)記錄音樂的一種格式,不能用于語音場(chǎng)合。?第一節(jié)數(shù)字音頻基礎(chǔ)5、AIFF文件;音頻交換文件格式,可廣8第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?9第二節(jié)數(shù)字音頻壓縮技術(shù)一、數(shù)字音頻壓縮方法分類1、無損壓縮:它利用數(shù)據(jù)統(tǒng)計(jì)冗余進(jìn)行壓縮,根據(jù)信源符號(hào)出現(xiàn)概率的分布特性進(jìn)行壓縮編碼,在信源符號(hào)與碼字之間明確的一一對(duì)應(yīng)關(guān)系,但壓縮率受統(tǒng)計(jì)冗余度的限制,一般為2:1~5:1。常用的編碼方法為——哈夫曼編碼和游程編碼。?第二節(jié)數(shù)字音頻壓縮技術(shù)一、數(shù)字音頻壓縮方法分類?10第二節(jié)數(shù)字音頻壓縮技術(shù)(1)霍夫曼編碼霍夫曼編碼是哈夫曼于1952年提出的一種代碼長(zhǎng)度不均勻的編碼方法。它的基本原理是按信源符號(hào)出現(xiàn)的概率大小進(jìn)行排序,出現(xiàn)概率大的分配短碼,反之則分配長(zhǎng)碼。在分配碼字時(shí),需建立一株n階完全二叉樹。哈夫曼編碼有時(shí)稱為最佳編碼,因?yàn)楫?dāng)符號(hào)的概率都是2的乘方時(shí),哈夫曼編碼中碼字的平均長(zhǎng)度達(dá)到最小的極限。即信源的熵?;舴蚵幋a是消除編碼冗余的最常用技術(shù)。?第二節(jié)數(shù)字音頻壓縮技術(shù)(1)霍夫曼編碼?11第二節(jié)數(shù)字音頻壓縮技術(shù)假定要對(duì)下面這段歌詞進(jìn)行哈夫曼編碼,BecauseI'mbad,I'mbad—comeOnBad,bad-really,reallybadYouknowI'mbad,I'mbad-Bad,bad--really,rea1lybadYouknowI'mbad,I’mbad—Comeon,youknowBad,badreally,reallybad?第二節(jié)數(shù)字音頻壓縮技術(shù)假定要對(duì)下面這段歌詞進(jìn)行哈夫曼編碼,12第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?13第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?14第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?15第二節(jié)數(shù)字音頻壓縮技術(shù)結(jié)果,采用哈夫曼編碼,大約可得到20%左右的壓縮率。編碼效率=1.59/2.32=69%?第二節(jié)數(shù)字音頻壓縮技術(shù)結(jié)果,采用哈夫曼編碼,大16第二節(jié)數(shù)字音頻壓縮技術(shù)(2)游程編碼游程編碼是一種簡(jiǎn)單的編碼方式,在二值圖像處理中應(yīng)用較廣。普遍用于傳真系統(tǒng)中的信號(hào)編碼。游程(行程):指由信源字符或信號(hào)樣值在數(shù)據(jù)流中重復(fù)出現(xiàn)的字符串長(zhǎng)度。

?第二節(jié)數(shù)字音頻壓縮技術(shù)(2)游程編碼?17第二節(jié)數(shù)字音頻壓縮技術(shù)主要方法是將數(shù)據(jù)中相同的符號(hào)串用一個(gè)游程長(zhǎng)度(符號(hào)數(shù))和一個(gè)代表值描述,并分別賦予不同的碼字。編碼方式有定長(zhǎng)編碼與變長(zhǎng)編碼兩種。?第二節(jié)數(shù)字音頻壓縮技術(shù)主要方法是將數(shù)據(jù)中相同的符號(hào)串用一個(gè)18第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?19第二節(jié)數(shù)字音頻壓縮技術(shù)在對(duì)以上圖像數(shù)據(jù)傳輸時(shí),只要對(duì)上述掃描得到的13對(duì)數(shù)據(jù)編碼傳輸,就可以在接收端恢復(fù)該圖像的64個(gè)像素的灰度值。為了達(dá)到比較好的數(shù)據(jù)壓縮效果,行程編碼常常與其它一些編碼技術(shù)結(jié)合使用。?第二節(jié)數(shù)字音頻壓縮技術(shù)在對(duì)以上圖像數(shù)據(jù)傳輸時(shí),20第二節(jié)數(shù)字音頻壓縮技術(shù)(3)算術(shù)編碼算術(shù)編碼是一種較好的統(tǒng)計(jì)編碼,每一符號(hào)對(duì)應(yīng)[0,1]上的一個(gè)子空間,區(qū)間長(zhǎng)度為該符號(hào)出現(xiàn)的概率。該方法將被編碼的符號(hào)串表示為一個(gè)0和1之間的一個(gè)區(qū)間。?第二節(jié)數(shù)字音頻壓縮技術(shù)(3)算術(shù)編碼?21第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?22第二節(jié)數(shù)字音頻壓縮技術(shù)2、有損壓縮普通的無損壓縮方法對(duì)信號(hào)的保真度高,但是信號(hào)傳輸占用帶寬較寬,保存占有磁盤空間較大。所以,壓縮技術(shù)的發(fā)展拓展了數(shù)字技術(shù)發(fā)展的平臺(tái)。?第二節(jié)數(shù)字音頻壓縮技術(shù)2、有損壓縮?23第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.2時(shí)域波形編碼時(shí)域波形編碼音頻質(zhì)量好,但壓縮比不大?;痉椒椋翰钪盗炕?、自適應(yīng)預(yù)測(cè)編碼、增量調(diào)制等。差分脈沖編碼(DPCM):利用取樣值之間的差值作為編碼的依據(jù)。從而減少碼字。增量調(diào)制(DM):用一個(gè)比特的兩種狀態(tài)表示相鄰取樣值的增加與減少關(guān)系。?第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.2時(shí)域波形編碼?24第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.3感知編碼:1、心理聲學(xué)模型2、感知編碼:用一個(gè)隨音頻信號(hào)而定的聽力門限和原有音頻進(jìn)行比較,對(duì)于哪些低于門限(人耳無法分辨)的信號(hào),略過編碼或者減少比特位。以降低編碼后的總比特位。3、頻域壓縮編碼:分為子帶編碼和變換編碼。把音頻信號(hào)變換到頻域,用心理聲學(xué)模型中的掩蔽曲線作為對(duì)數(shù)據(jù)進(jìn)行壓縮的參照,對(duì)篩選出來的信息進(jìn)行編碼。?第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.3感知編碼:?25第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.4音頻壓縮標(biāo)準(zhǔn)1、MPEG-1音頻標(biāo)準(zhǔn):屬于感知編碼類型。它規(guī)定了三個(gè)不同層次的編碼方案。Ⅰ、Ⅱ?qū)咏⒃谘诒文J酵ㄓ米訋Ш投嗦窂?fù)用編碼算法的基礎(chǔ)之上。Ⅲ層次編碼復(fù)雜程度較大,應(yīng)用于目前常見的MP3音頻文件編碼。

?第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.4音頻壓縮標(biāo)準(zhǔn)?262、MPEG-2音頻標(biāo)準(zhǔn):經(jīng)歷了三個(gè)階段,前兩個(gè)階段增加了低取樣頻率的應(yīng)用,同時(shí)增加了單聲道、雙聲道立體聲、5.1聲道立體聲應(yīng)用。有向后兼容的特點(diǎn)。第三階段支持多聲道應(yīng)用,不向后兼容。?2、MPEG-2音頻標(biāo)準(zhǔn):經(jīng)歷了三個(gè)階段,前兩個(gè)階段增加了27第二節(jié)數(shù)字音頻壓縮技術(shù)MPEG-4標(biāo)準(zhǔn)MPEG-4研究的目的是解決低比特率下的多媒體窄寬傳輸、高畫質(zhì)壓縮、交互性操作以及如何將自然物體與人造物體相溶合的表達(dá)方式,并特別強(qiáng)調(diào)廣泛的適應(yīng)性和可擴(kuò)展性。MPEG-4音頻結(jié)構(gòu)包括:傳統(tǒng)的音頻編碼標(biāo)準(zhǔn);獨(dú)特的音頻結(jié)構(gòu);合成/自然混合編碼方法。從而解決了高質(zhì)量音頻在窄帶中傳輸?shù)膯栴}。?第二節(jié)數(shù)字音頻壓縮技術(shù)MPEG-4標(biāo)準(zhǔn)?28第二節(jié)數(shù)字音頻壓縮技術(shù)DolbyAC-3音頻標(biāo)準(zhǔn)

是一款由杜比實(shí)驗(yàn)室開發(fā)的數(shù)字式多聲道環(huán)繞式立體聲系統(tǒng)。系統(tǒng)由“左聲道”、“中置聲道”、“右聲道”、后置的“左環(huán)繞聲道”和“右環(huán)繞聲道”五個(gè)全頻域聲道加一個(gè)超低音聲道(頻率響應(yīng)為3-120Hz)組成。前置的左、右音箱,中置音箱產(chǎn)生極有深度感和定位明確的音場(chǎng),兩個(gè)后置或側(cè)置的環(huán)繞音箱和超低音箱表現(xiàn)寬廣壯闊的音場(chǎng),全頻段的細(xì)節(jié)十分豐富,具有真正的立體聲。?第二節(jié)數(shù)字音頻壓縮技術(shù)DolbyAC-3音頻標(biāo)準(zhǔn)?29第三節(jié)計(jì)算機(jī)音樂1、數(shù)字式電子合成器模擬電子合成器是用電子元件制成信號(hào)發(fā)生器來產(chǎn)生聲音信號(hào)中的各種頻率成分。而數(shù)字式電子合成器則是由數(shù)字方法造成波形然后轉(zhuǎn)換為聲音信息。?第三節(jié)計(jì)算機(jī)音樂1、數(shù)字式電子合成器?30第三節(jié)計(jì)算機(jī)音樂?第三節(jié)計(jì)算機(jī)音樂?31第三節(jié)計(jì)算機(jī)音樂2、MIDI(樂器數(shù)字接口)通過電纜將電子音樂設(shè)備(MIDI鍵盤)與計(jì)算機(jī)連接起來,與相關(guān)軟件相配合進(jìn)行電腦作曲。1、MIDI輸入單元(硬件設(shè)備):輸入作曲旋律。2、編輯控制單元(計(jì)算機(jī)軟件):記錄相關(guān)信息3、音源單元(音樂合成器):合成音樂。?第三節(jié)計(jì)算機(jī)音樂2、MIDI(樂器數(shù)字接口)?32第三節(jié)計(jì)算機(jī)音樂MIDI鍵盤MIDI鏈接電纜?第三節(jié)計(jì)算機(jī)音樂MIDI鍵盤MIDI鏈接電纜?33聲卡的MIDI接口和游戲桿接口是共用的。

第三節(jié)計(jì)算機(jī)音樂?聲卡的MIDI接口和游戲桿接口是共用的。第三節(jié)計(jì)算機(jī)音樂34??35第三節(jié)計(jì)算機(jī)音樂3、數(shù)字音頻工作站(1)數(shù)字音頻工作站是一種集中多種音頻處理工具,以計(jì)算機(jī)軟硬件平臺(tái)為主的數(shù)字音頻制作系統(tǒng)。?第三節(jié)計(jì)算機(jī)音樂3、數(shù)字音頻工作站?36第三節(jié)計(jì)算機(jī)音樂(2)數(shù)字音頻工作站的功能具有專業(yè)要求的聲音錄入和聲音播放。具備錄音、放音、與音樂合成功能。方便快捷的音樂剪輯功能。具備數(shù)字效果處理功能。?第三節(jié)計(jì)算機(jī)音樂(2)數(shù)字音頻工作站的功能?37第三節(jié)計(jì)算機(jī)音樂Pocketstudio5是一方便移動(dòng)的4軌數(shù)字錄音機(jī),使用Flash卡用作存儲(chǔ)載體。除了它的四個(gè)音頻軌用于人聲,吉他以及其它樂器外,Pocketstudio5還帶有一個(gè)內(nèi)置的MIDI音源,因此它也可以被用作音序播放器,而且四音軌可同時(shí)播放。它本身自帶100首標(biāo)準(zhǔn)的MIDI文件,插上卡就可以享受多種背景音樂風(fēng)格!另外,它還增加了超過100種自帶的效果。?第三節(jié)計(jì)算機(jī)音樂Pocketstudio5是一方便移動(dòng)38第三節(jié)計(jì)算機(jī)音樂羅蘭VS-2480通道數(shù)字音頻工作站VS-2480也是一個(gè)集錄音機(jī)調(diào)音臺(tái),和效果器于一體的產(chǎn)品。具有24軌同時(shí)播放,24比特AD/DA轉(zhuǎn)換,96KHZ采樣頻率,17個(gè)電動(dòng)推子,LCD液晶顯示屏。更令人振奮的是,VS-2480可以象電腦那樣操作,?第三節(jié)計(jì)算機(jī)音樂羅蘭VS-2480通道數(shù)字音頻工作站39第四節(jié)數(shù)字語音處理技術(shù)1、語音合成語音合成最基本的目的是讓機(jī)器模仿人類的語言發(fā)聲來傳送信息。例如:常見的自動(dòng)化語音服務(wù)系統(tǒng)。(1)波形編碼語音合成:以語句、短句、詞和音節(jié)為合成單元,這些單元被分別錄音后,直接進(jìn)行數(shù)字編碼,經(jīng)適當(dāng)數(shù)據(jù)壓縮后組成數(shù)字語音庫。重放時(shí),根據(jù)待輸出的信息,在語音庫中取出相應(yīng)單元的波形數(shù)據(jù),串接或編輯在一起,經(jīng)解碼還原出聲音。?第四節(jié)數(shù)字語音處理技術(shù)1、語音合成?40第四節(jié)數(shù)字語音處理技術(shù)(2)基音同步疊加法(PSOLA),在拼接語音波形片斷之前,根據(jù)上下文要求,對(duì)拼接單元的韻律特征進(jìn)行調(diào)整,使合成波形既保持原有的音段特征,又能使拼接單元韻律特征符合上下文要求。Sonic文——語轉(zhuǎn)換系統(tǒng):這是清華大學(xué)計(jì)算機(jī)系基于波形編輯的漢語文語轉(zhuǎn)換系統(tǒng)。該系統(tǒng)利用漢語詞庫進(jìn)行分詞,并且根據(jù)語音學(xué)研究的成果建立了語音規(guī)則,對(duì)漢語中的某些常見語音現(xiàn)象進(jìn)行了處理。系統(tǒng)采用PSOLA算法修改超音段語音特征,提高了言語輸出的質(zhì)量。

?第四節(jié)數(shù)字語音處理技術(shù)(2)基音同步疊加法(PS41第四節(jié)數(shù)字語音處理技術(shù)(3)參數(shù)語音分析合成按照語言理論,對(duì)所有合成單元的語音進(jìn)行分析,一幀一幀地提取有關(guān)語音參數(shù),以音節(jié)、半音節(jié)或音素為合成單元,組成一個(gè)合成語音庫,輸出時(shí),根據(jù)帶合成的語音信息,從語音庫中提取相關(guān)信息進(jìn)行合成。3、規(guī)則語音合成除提取有關(guān)語音參數(shù)外,在存儲(chǔ)語音組成規(guī)則。語音合成過程較復(fù)雜。音質(zhì)一般。?第四節(jié)數(shù)字語音處理技術(shù)(3)參數(shù)語音分析合成?42第四節(jié)數(shù)字語音處理技術(shù)(4)文——語轉(zhuǎn)換系統(tǒng)以文字串為語音合成對(duì)象,對(duì)文字進(jìn)行正確理解后調(diào)用語音庫數(shù)據(jù)進(jìn)行語音合成。是一個(gè)語義、語音轉(zhuǎn)換的人工智能系統(tǒng)。?第四節(jié)數(shù)字語音處理技術(shù)(4)文——語轉(zhuǎn)換系統(tǒng)?43第四節(jié)數(shù)字語音處理技術(shù)2、語音增強(qiáng)主要目的是消除原有語音中的噪聲。(1)噪聲對(duì)消法(2)諧波增強(qiáng)法(3)基于參數(shù)估計(jì)的語音合成法。?第四節(jié)數(shù)字語音處理技術(shù)2、語音增強(qiáng)?44第四節(jié)數(shù)字語音處理技術(shù)3、語音識(shí)別語音識(shí)別技術(shù)集聲學(xué)、語音學(xué)、計(jì)算機(jī)、信息處理和人工智能等諸多領(lǐng)域的一項(xiàng)綜合技術(shù)。是多媒體領(lǐng)域目前研究的熱點(diǎn)。目的是讓機(jī)器能聽懂人的語言?第四節(jié)數(shù)字語音處理技術(shù)3、語音識(shí)別?45第四節(jié)數(shù)字語音處理技術(shù)4、漢語語音識(shí)別(1)漢語與其它語言有著截然不同的特點(diǎn):以字為最小語音單位,而且每一個(gè)漢字的發(fā)音對(duì)應(yīng)與一個(gè)音節(jié),在常用的6000多個(gè)漢字中,全部語音音節(jié)只有1281個(gè),如果不考慮聲調(diào)中的四聲,漢語無調(diào)音節(jié)只有412個(gè)。所以,以音節(jié)作為語音合成的基本單位,歷來是漢語語音合成的常用方法。?第四節(jié)數(shù)字語音處理技術(shù)4、漢語語音識(shí)別?46第四節(jié)數(shù)字語音處理技術(shù)(2)語音特征參數(shù)的提取LPC倒譜系數(shù)分析法。Mel倒譜系數(shù)感知線性預(yù)測(cè)。小波變換系數(shù)分析法(3)模式識(shí)別匹配◆動(dòng)態(tài)時(shí)間規(guī)整技術(shù)◆隱馬爾科夫模型技術(shù)◆人工神經(jīng)網(wǎng)絡(luò)技術(shù)◆混合型模式匹配技術(shù)◆自適應(yīng)魯棒性?第四節(jié)數(shù)字語音處理技術(shù)(2)語音特征參數(shù)的提取?47踏實(shí),奮斗,堅(jiān)持,專業(yè),努力成就未來。12月-2212月-22Friday,December23,2022弄虛作假要不得,踏實(shí)肯干第一名。07:28:0907:28:0907:2812/23/20227:28:09AM安全象只弓,不拉它就松,要想保安全,常把弓弦繃。12月-2207:28:0907:28Dec-2223-Dec-22重于泰山,輕于鴻毛。07:28:0907:28:0907:28Friday,December23,2022不可麻痹大意,要防微杜漸。12月-2212月-2207:28:0907:28:09December23,2022加強(qiáng)自身建設(shè),增強(qiáng)個(gè)人的休養(yǎng)。2022年12月23日7:28上午12月-2212月-22追求卓越,讓自己更好,向上而生。23十二月20227:28:09上午07:28:0912月-22嚴(yán)格把控質(zhì)量關(guān),讓生產(chǎn)更加有保障。十二月227:28上午12月-2207:28December23,2022重規(guī)矩,嚴(yán)要求,少危險(xiǎn)。2022/12/237:28:0907:28:0923December2022好的事情馬上就會(huì)到來,一切都是最好的安排。7:28:09上午7:28上午07:28:0912月-22每天都是美好的一天,新的一天開啟。12月-2212月-2207:2807:28:0907:28:09Dec-22務(wù)實(shí),奮斗,成就,成功。2022/12/237:28:09Friday,December23,2022抓住每一次機(jī)會(huì)不能輕易流失,這樣我們才能真正強(qiáng)大。12月-222022/12/237:28:0912月-22謝謝大家!踏實(shí),奮斗,堅(jiān)持,專業(yè),努力成就未來。12月-2212月-248第三章數(shù)字音頻處理技術(shù)?第三章數(shù)字音頻處理技術(shù)?49第一節(jié)數(shù)字音頻基礎(chǔ)一、聲學(xué)基礎(chǔ):1、聲音的三個(gè)物理量:響度、音調(diào)、音色。2、室內(nèi)聲場(chǎng)中聲能結(jié)構(gòu):直達(dá)聲、早期反射聲、混響聲。?第一節(jié)數(shù)字音頻基礎(chǔ)一、聲學(xué)基礎(chǔ):?50第一節(jié)數(shù)字音頻基礎(chǔ)3、模擬音頻信號(hào)的產(chǎn)生與再生?第一節(jié)數(shù)字音頻基礎(chǔ)3、模擬音頻信號(hào)的產(chǎn)生與再生?51第一節(jié)數(shù)字音頻基礎(chǔ)二、音頻的數(shù)字化?第一節(jié)數(shù)字音頻基礎(chǔ)二、音頻的數(shù)字化?52第一節(jié)數(shù)字音頻基礎(chǔ)三、立體聲與三維立體聲技術(shù)?第一節(jié)數(shù)字音頻基礎(chǔ)三、立體聲與三維立體聲技術(shù)?53第一節(jié)數(shù)字音頻基礎(chǔ)?第一節(jié)數(shù)字音頻基礎(chǔ)?54第一節(jié)數(shù)字音頻基礎(chǔ)四、數(shù)字音頻的文件格式1、WAV波形文件。是非常流行的音頻文件格式,占有磁盤空間較大。2、是音質(zhì)最好的音頻格式之一,采樣率及量化位數(shù)較高。3、MP1\2\3文件。其中MP3是目前最為流行的音樂文件格式。4、VQF文件:雅馬哈公司特有的文件格式,壓縮后文件可比MP3小30%~50%,但支持軟件不多。所以影響力不大。?第一節(jié)數(shù)字音頻基礎(chǔ)四、數(shù)字音頻的文件格式?55第一節(jié)數(shù)字音頻基礎(chǔ)5、AIFF文件;音頻交換文件格式,可廣泛用于其它類型的計(jì)算機(jī)平臺(tái)。6、RealAudio文件:流媒體文件格式,普遍用于網(wǎng)絡(luò)音頻傳播。7、WMA文件:微軟公司開發(fā)的流媒體文件格式,音質(zhì)好于MP3。8、MIDI文件:計(jì)算機(jī)記錄音樂的一種格式,不能用于語音場(chǎng)合。?第一節(jié)數(shù)字音頻基礎(chǔ)5、AIFF文件;音頻交換文件格式,可廣56第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?57第二節(jié)數(shù)字音頻壓縮技術(shù)一、數(shù)字音頻壓縮方法分類1、無損壓縮:它利用數(shù)據(jù)統(tǒng)計(jì)冗余進(jìn)行壓縮,根據(jù)信源符號(hào)出現(xiàn)概率的分布特性進(jìn)行壓縮編碼,在信源符號(hào)與碼字之間明確的一一對(duì)應(yīng)關(guān)系,但壓縮率受統(tǒng)計(jì)冗余度的限制,一般為2:1~5:1。常用的編碼方法為——哈夫曼編碼和游程編碼。?第二節(jié)數(shù)字音頻壓縮技術(shù)一、數(shù)字音頻壓縮方法分類?58第二節(jié)數(shù)字音頻壓縮技術(shù)(1)霍夫曼編碼霍夫曼編碼是哈夫曼于1952年提出的一種代碼長(zhǎng)度不均勻的編碼方法。它的基本原理是按信源符號(hào)出現(xiàn)的概率大小進(jìn)行排序,出現(xiàn)概率大的分配短碼,反之則分配長(zhǎng)碼。在分配碼字時(shí),需建立一株n階完全二叉樹。哈夫曼編碼有時(shí)稱為最佳編碼,因?yàn)楫?dāng)符號(hào)的概率都是2的乘方時(shí),哈夫曼編碼中碼字的平均長(zhǎng)度達(dá)到最小的極限。即信源的熵?;舴蚵幋a是消除編碼冗余的最常用技術(shù)。?第二節(jié)數(shù)字音頻壓縮技術(shù)(1)霍夫曼編碼?59第二節(jié)數(shù)字音頻壓縮技術(shù)假定要對(duì)下面這段歌詞進(jìn)行哈夫曼編碼,BecauseI'mbad,I'mbad—comeOnBad,bad-really,reallybadYouknowI'mbad,I'mbad-Bad,bad--really,rea1lybadYouknowI'mbad,I’mbad—Comeon,youknowBad,badreally,reallybad?第二節(jié)數(shù)字音頻壓縮技術(shù)假定要對(duì)下面這段歌詞進(jìn)行哈夫曼編碼,60第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?61第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?62第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?63第二節(jié)數(shù)字音頻壓縮技術(shù)結(jié)果,采用哈夫曼編碼,大約可得到20%左右的壓縮率。編碼效率=1.59/2.32=69%?第二節(jié)數(shù)字音頻壓縮技術(shù)結(jié)果,采用哈夫曼編碼,大64第二節(jié)數(shù)字音頻壓縮技術(shù)(2)游程編碼游程編碼是一種簡(jiǎn)單的編碼方式,在二值圖像處理中應(yīng)用較廣。普遍用于傳真系統(tǒng)中的信號(hào)編碼。游程(行程):指由信源字符或信號(hào)樣值在數(shù)據(jù)流中重復(fù)出現(xiàn)的字符串長(zhǎng)度。

?第二節(jié)數(shù)字音頻壓縮技術(shù)(2)游程編碼?65第二節(jié)數(shù)字音頻壓縮技術(shù)主要方法是將數(shù)據(jù)中相同的符號(hào)串用一個(gè)游程長(zhǎng)度(符號(hào)數(shù))和一個(gè)代表值描述,并分別賦予不同的碼字。編碼方式有定長(zhǎng)編碼與變長(zhǎng)編碼兩種。?第二節(jié)數(shù)字音頻壓縮技術(shù)主要方法是將數(shù)據(jù)中相同的符號(hào)串用一個(gè)66第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?67第二節(jié)數(shù)字音頻壓縮技術(shù)在對(duì)以上圖像數(shù)據(jù)傳輸時(shí),只要對(duì)上述掃描得到的13對(duì)數(shù)據(jù)編碼傳輸,就可以在接收端恢復(fù)該圖像的64個(gè)像素的灰度值。為了達(dá)到比較好的數(shù)據(jù)壓縮效果,行程編碼常常與其它一些編碼技術(shù)結(jié)合使用。?第二節(jié)數(shù)字音頻壓縮技術(shù)在對(duì)以上圖像數(shù)據(jù)傳輸時(shí),68第二節(jié)數(shù)字音頻壓縮技術(shù)(3)算術(shù)編碼算術(shù)編碼是一種較好的統(tǒng)計(jì)編碼,每一符號(hào)對(duì)應(yīng)[0,1]上的一個(gè)子空間,區(qū)間長(zhǎng)度為該符號(hào)出現(xiàn)的概率。該方法將被編碼的符號(hào)串表示為一個(gè)0和1之間的一個(gè)區(qū)間。?第二節(jié)數(shù)字音頻壓縮技術(shù)(3)算術(shù)編碼?69第二節(jié)數(shù)字音頻壓縮技術(shù)?第二節(jié)數(shù)字音頻壓縮技術(shù)?70第二節(jié)數(shù)字音頻壓縮技術(shù)2、有損壓縮普通的無損壓縮方法對(duì)信號(hào)的保真度高,但是信號(hào)傳輸占用帶寬較寬,保存占有磁盤空間較大。所以,壓縮技術(shù)的發(fā)展拓展了數(shù)字技術(shù)發(fā)展的平臺(tái)。?第二節(jié)數(shù)字音頻壓縮技術(shù)2、有損壓縮?71第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.2時(shí)域波形編碼時(shí)域波形編碼音頻質(zhì)量好,但壓縮比不大?;痉椒椋翰钪盗炕?、自適應(yīng)預(yù)測(cè)編碼、增量調(diào)制等。差分脈沖編碼(DPCM):利用取樣值之間的差值作為編碼的依據(jù)。從而減少碼字。增量調(diào)制(DM):用一個(gè)比特的兩種狀態(tài)表示相鄰取樣值的增加與減少關(guān)系。?第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.2時(shí)域波形編碼?72第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.3感知編碼:1、心理聲學(xué)模型2、感知編碼:用一個(gè)隨音頻信號(hào)而定的聽力門限和原有音頻進(jìn)行比較,對(duì)于哪些低于門限(人耳無法分辨)的信號(hào),略過編碼或者減少比特位。以降低編碼后的總比特位。3、頻域壓縮編碼:分為子帶編碼和變換編碼。把音頻信號(hào)變換到頻域,用心理聲學(xué)模型中的掩蔽曲線作為對(duì)數(shù)據(jù)進(jìn)行壓縮的參照,對(duì)篩選出來的信息進(jìn)行編碼。?第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.3感知編碼:?73第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.4音頻壓縮標(biāo)準(zhǔn)1、MPEG-1音頻標(biāo)準(zhǔn):屬于感知編碼類型。它規(guī)定了三個(gè)不同層次的編碼方案。Ⅰ、Ⅱ?qū)咏⒃谘诒文J酵ㄓ米訋Ш投嗦窂?fù)用編碼算法的基礎(chǔ)之上。Ⅲ層次編碼復(fù)雜程度較大,應(yīng)用于目前常見的MP3音頻文件編碼。

?第二節(jié)數(shù)字音頻壓縮技術(shù)2.2.4音頻壓縮標(biāo)準(zhǔn)?742、MPEG-2音頻標(biāo)準(zhǔn):經(jīng)歷了三個(gè)階段,前兩個(gè)階段增加了低取樣頻率的應(yīng)用,同時(shí)增加了單聲道、雙聲道立體聲、5.1聲道立體聲應(yīng)用。有向后兼容的特點(diǎn)。第三階段支持多聲道應(yīng)用,不向后兼容。?2、MPEG-2音頻標(biāo)準(zhǔn):經(jīng)歷了三個(gè)階段,前兩個(gè)階段增加了75第二節(jié)數(shù)字音頻壓縮技術(shù)MPEG-4標(biāo)準(zhǔn)MPEG-4研究的目的是解決低比特率下的多媒體窄寬傳輸、高畫質(zhì)壓縮、交互性操作以及如何將自然物體與人造物體相溶合的表達(dá)方式,并特別強(qiáng)調(diào)廣泛的適應(yīng)性和可擴(kuò)展性。MPEG-4音頻結(jié)構(gòu)包括:傳統(tǒng)的音頻編碼標(biāo)準(zhǔn);獨(dú)特的音頻結(jié)構(gòu);合成/自然混合編碼方法。從而解決了高質(zhì)量音頻在窄帶中傳輸?shù)膯栴}。?第二節(jié)數(shù)字音頻壓縮技術(shù)MPEG-4標(biāo)準(zhǔn)?76第二節(jié)數(shù)字音頻壓縮技術(shù)DolbyAC-3音頻標(biāo)準(zhǔn)

是一款由杜比實(shí)驗(yàn)室開發(fā)的數(shù)字式多聲道環(huán)繞式立體聲系統(tǒng)。系統(tǒng)由“左聲道”、“中置聲道”、“右聲道”、后置的“左環(huán)繞聲道”和“右環(huán)繞聲道”五個(gè)全頻域聲道加一個(gè)超低音聲道(頻率響應(yīng)為3-120Hz)組成。前置的左、右音箱,中置音箱產(chǎn)生極有深度感和定位明確的音場(chǎng),兩個(gè)后置或側(cè)置的環(huán)繞音箱和超低音箱表現(xiàn)寬廣壯闊的音場(chǎng),全頻段的細(xì)節(jié)十分豐富,具有真正的立體聲。?第二節(jié)數(shù)字音頻壓縮技術(shù)DolbyAC-3音頻標(biāo)準(zhǔn)?77第三節(jié)計(jì)算機(jī)音樂1、數(shù)字式電子合成器模擬電子合成器是用電子元件制成信號(hào)發(fā)生器來產(chǎn)生聲音信號(hào)中的各種頻率成分。而數(shù)字式電子合成器則是由數(shù)字方法造成波形然后轉(zhuǎn)換為聲音信息。?第三節(jié)計(jì)算機(jī)音樂1、數(shù)字式電子合成器?78第三節(jié)計(jì)算機(jī)音樂?第三節(jié)計(jì)算機(jī)音樂?79第三節(jié)計(jì)算機(jī)音樂2、MIDI(樂器數(shù)字接口)通過電纜將電子音樂設(shè)備(MIDI鍵盤)與計(jì)算機(jī)連接起來,與相關(guān)軟件相配合進(jìn)行電腦作曲。1、MIDI輸入單元(硬件設(shè)備):輸入作曲旋律。2、編輯控制單元(計(jì)算機(jī)軟件):記錄相關(guān)信息3、音源單元(音樂合成器):合成音樂。?第三節(jié)計(jì)算機(jī)音樂2、MIDI(樂器數(shù)字接口)?80第三節(jié)計(jì)算機(jī)音樂MIDI鍵盤MIDI鏈接電纜?第三節(jié)計(jì)算機(jī)音樂MIDI鍵盤MIDI鏈接電纜?81聲卡的MIDI接口和游戲桿接口是共用的。

第三節(jié)計(jì)算機(jī)音樂?聲卡的MIDI接口和游戲桿接口是共用的。第三節(jié)計(jì)算機(jī)音樂82??83第三節(jié)計(jì)算機(jī)音樂3、數(shù)字音頻工作站(1)數(shù)字音頻工作站是一種集中多種音頻處理工具,以計(jì)算機(jī)軟硬件平臺(tái)為主的數(shù)字音頻制作系統(tǒng)。?第三節(jié)計(jì)算機(jī)音樂3、數(shù)字音頻工作站?84第三節(jié)計(jì)算機(jī)音樂(2)數(shù)字音頻工作站的功能具有專業(yè)要求的聲音錄入和聲音播放。具備錄音、放音、與音樂合成功能。方便快捷的音樂剪輯功能。具備數(shù)字效果處理功能。?第三節(jié)計(jì)算機(jī)音樂(2)數(shù)字音頻工作站的功能?85第三節(jié)計(jì)算機(jī)音樂Pocketstudio5是一方便移動(dòng)的4軌數(shù)字錄音機(jī),使用Flash卡用作存儲(chǔ)載體。除了它的四個(gè)音頻軌用于人聲,吉他以及其它樂器外,Pocketstudio5還帶有一個(gè)內(nèi)置的MIDI音源,因此它也可以被用作音序播放器,而且四音軌可同時(shí)播放。它本身自帶100首標(biāo)準(zhǔn)的MIDI文件,插上卡就可以享受多種背景音樂風(fēng)格!另外,它還增加了超過100種自帶的效果。?第三節(jié)計(jì)算機(jī)音樂Pocketstudio5是一方便移動(dòng)86第三節(jié)計(jì)算機(jī)音樂羅蘭VS-2480通道數(shù)字音頻工作站VS-2480也是一個(gè)集錄音機(jī)調(diào)音臺(tái),和效果器于一體的產(chǎn)品。具有24軌同時(shí)播放,24比特AD/DA轉(zhuǎn)換,96KHZ采樣頻率,17個(gè)電動(dòng)推子,LCD液晶顯示屏。更令人振奮的是,VS-2480可以象電腦那樣操作,?第三節(jié)計(jì)算機(jī)音樂羅蘭VS-2480通道數(shù)字音頻工作站87第四節(jié)數(shù)字語音處理技術(shù)1、語音合成語音合成最基本的目的是讓機(jī)器模仿人類的語言發(fā)聲來傳送信息。例如:常見的自動(dòng)化語音服務(wù)系統(tǒng)。(1)波形編碼語音合成:以語句、短句、詞和音節(jié)為合成單元,這些單元被分別錄音后,直接進(jìn)行數(shù)字編碼,經(jīng)適當(dāng)數(shù)據(jù)壓縮后組成數(shù)字語音庫。重放時(shí),根據(jù)待輸出的信息,在語音庫中取出相應(yīng)單元的波形數(shù)據(jù),串接或編輯在一起,經(jīng)解碼還原出聲音。?第四節(jié)數(shù)字語音處理技術(shù)1、語音合成?88第四節(jié)數(shù)字語音處理技術(shù)(2)基音同步疊加法(PSOLA),在拼接語音波形片斷之前,根據(jù)上下文要求,對(duì)拼接單元的韻律特征進(jìn)行調(diào)整,使合成波形既保持原有的音段特征,又能使拼接單元韻律特征符合上下文要求。Sonic文——語轉(zhuǎn)換系統(tǒng):這是清華大學(xué)計(jì)算機(jī)系基于波形編輯的漢語文語轉(zhuǎn)換系統(tǒng)。該系統(tǒng)利用漢語詞庫進(jìn)行分詞,并且根據(jù)語音學(xué)研究的成果建立了語音規(guī)則,對(duì)漢語中的某些常見語音現(xiàn)象進(jìn)行了處理。系統(tǒng)采用PSOLA算法修改超音段語音特征,提高了言語輸出的質(zhì)量。

?第四節(jié)數(shù)字語音處理技術(shù)(2)基音同步疊加法(PS89第四節(jié)數(shù)字語音處理技術(shù)(3)參數(shù)語音分析合成按照語言理論,對(duì)所有合成單元的語音進(jìn)行分析,一幀一幀地提取有關(guān)語音參數(shù),以音節(jié)、半音節(jié)或音素為合成單元,組成一個(gè)合成語音庫,輸出時(shí),根據(jù)帶合成的語音信息,從語音庫中提取相關(guān)信息進(jìn)行合成。3、規(guī)則語音合成除提取有關(guān)語音參數(shù)外,在存儲(chǔ)語音組成規(guī)則。語音合成過程較復(fù)雜。音質(zhì)一般。?第四節(jié)數(shù)字語音處理技術(shù)(3)參數(shù)語音分析合成?90第四節(jié)數(shù)字語音處理技術(shù)(4)文——語轉(zhuǎn)換系統(tǒng)以文字串為語音合成對(duì)象,對(duì)文字進(jìn)行正確理解后調(diào)用語音庫數(shù)據(jù)進(jìn)行語音合成。是一個(gè)語義、語音轉(zhuǎn)換的人工智能系統(tǒng)。?第四節(jié)數(shù)字語音處理技術(shù)(4)文——語轉(zhuǎn)換系統(tǒng)?91第四節(jié)數(shù)字語音處理技術(shù)2、語音增強(qiáng)主要目的是消除原有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論