數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第1頁
數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第2頁
數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第3頁
數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第4頁
數(shù)字媒體技術(shù)基礎(chǔ)第三章數(shù)字音頻處理技術(shù)課件_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章 數(shù)字音頻處理技術(shù)第一節(jié) 數(shù)字音頻基礎(chǔ)一、聲學(xué)基礎(chǔ): 1、聲音的三個(gè)物理量: 響度 、音調(diào)、音色。 2、室內(nèi)聲場(chǎng)中聲能結(jié)構(gòu): 直達(dá)聲、早期反射聲、混響聲。第一節(jié) 數(shù)字音頻基礎(chǔ) 3、模擬音頻信號(hào)的產(chǎn)生與再生第一節(jié) 數(shù)字音頻基礎(chǔ)二、音頻的數(shù)字化第一節(jié) 數(shù)字音頻基礎(chǔ)三、立體聲與三維立體聲技術(shù)第一節(jié) 數(shù)字音頻基礎(chǔ)第一節(jié) 數(shù)字音頻基礎(chǔ)四、數(shù)字音頻的文件格式 1、WAV 波形文件。是非常流行的音頻文件格式,占有磁盤空間較大。 2、是音質(zhì)最好的音頻格式之一,采樣率及量化位數(shù)較高。 3、MP123文件。其中MP3是目前最為流行的音樂文件格式。 4、VQF文件:雅馬哈公司特有的文件格式,壓縮后文件可比MP

2、3小30%50%,但支持軟件不多。所以影響力不大。第一節(jié) 數(shù)字音頻基礎(chǔ)5、AIFF文件;音頻交換文件格式,可廣泛用于其它類型的計(jì)算機(jī)平臺(tái)。6、RealAudio文件:流媒體文件格式,普遍用于網(wǎng)絡(luò)音頻傳播。7、WMA文件:微軟公司開發(fā)的流媒體文件格式,音質(zhì)好于MP3。8、MIDI文件:計(jì)算機(jī)記錄音樂的一種格式,不能用于語音場(chǎng)合。第二節(jié) 數(shù)字音頻壓縮技術(shù)第二節(jié) 數(shù)字音頻壓縮技術(shù)一、數(shù)字音頻壓縮方法分類 1、無損壓縮:它利用數(shù)據(jù)統(tǒng)計(jì)冗余進(jìn)行壓縮,根據(jù)信源符號(hào)出現(xiàn)概率的分布特性進(jìn)行壓縮編碼,在信源符號(hào)與碼字之間明確的一一對(duì)應(yīng)關(guān)系,但壓縮率受統(tǒng)計(jì)冗余度的限制,一般為2:15:1。常用的編碼方法為哈夫曼編

3、碼和游程編碼。第二節(jié) 數(shù)字音頻壓縮技術(shù)(1)霍夫曼編碼 霍夫曼編碼是哈夫曼于1952年提出的一種代碼長(zhǎng)度不均勻的編碼方法。它的基本原理是按信源符號(hào)出現(xiàn)的概率大小進(jìn)行排序,出現(xiàn)概率大的分配短碼,反之則分配長(zhǎng)碼。在分配碼字時(shí),需建立一株n階完全二叉樹。哈夫曼編碼有時(shí)稱為最佳編碼,因?yàn)楫?dāng)符號(hào)的概率都是2的乘方時(shí),哈夫曼編碼中碼字的平均長(zhǎng)度達(dá)到最小的極限。即信源的熵。霍夫曼編碼是消除編碼冗余的最常用技術(shù)。第二節(jié) 數(shù)字音頻壓縮技術(shù)假定要對(duì)下面這段歌詞進(jìn)行哈夫曼編碼, Because Im bad,Im badcome On Bad,bad-really,really bad You know Im ba

4、d,Im bad- Bad,bad-really,rea1ly bad You know Im bad,Im badCome on, you know Bad,bad really,really bad第二節(jié) 數(shù)字音頻壓縮技術(shù)第二節(jié) 數(shù)字音頻壓縮技術(shù)第二節(jié) 數(shù)字音頻壓縮技術(shù)第二節(jié) 數(shù)字音頻壓縮技術(shù) 結(jié)果,采用哈夫曼編碼,大約可得到20%左右的壓縮率。編碼效率=1.59/2.32=69%第二節(jié) 數(shù)字音頻壓縮技術(shù)(2)游程編碼 游程編碼是一種簡(jiǎn)單的編碼方式,在二值圖像處理中應(yīng)用較廣。普遍用于傳真系統(tǒng)中的信號(hào)編碼。 游程(行程):指由信源字符或信號(hào)樣值在數(shù)據(jù)流中重復(fù)出現(xiàn)的字符串長(zhǎng)度。 第二節(jié) 數(shù)字音

5、頻壓縮技術(shù)主要方法是將數(shù)據(jù)中相同的符號(hào)串用一個(gè)游程長(zhǎng)度(符號(hào)數(shù))和一個(gè)代表值描述,并分別賦予不同的碼字。編碼方式有定長(zhǎng)編碼與變長(zhǎng)編碼兩種。第二節(jié) 數(shù)字音頻壓縮技術(shù)第二節(jié) 數(shù)字音頻壓縮技術(shù) 在對(duì)以上圖像數(shù)據(jù)傳輸時(shí),只要對(duì)上述掃描得到的13對(duì)數(shù)據(jù)編碼傳輸,就可以在接收端恢復(fù)該圖像的64個(gè)像素的灰度值。 為了達(dá)到比較好的數(shù)據(jù)壓縮效果,行程編碼常常與其它一些編碼技術(shù)結(jié)合使用。第二節(jié) 數(shù)字音頻壓縮技術(shù)(3)算術(shù)編碼 算術(shù)編碼是一種較好的統(tǒng)計(jì)編碼,每一符號(hào)對(duì)應(yīng)0,1上的一個(gè)子空間,區(qū)間長(zhǎng)度為該符號(hào)出現(xiàn)的概率。該方法將被編碼的符號(hào)串表示為一個(gè)0和1之間的一個(gè)區(qū)間。第二節(jié) 數(shù)字音頻壓縮技術(shù)第二節(jié) 數(shù)字音頻壓縮

6、技術(shù)2、有損壓縮普通的無損壓縮方法對(duì)信號(hào)的保真度高,但是信號(hào)傳輸占用帶寬較寬,保存占有磁盤空間較大。所以,壓縮技術(shù)的發(fā)展拓展了數(shù)字技術(shù)發(fā)展的平臺(tái)。第二節(jié) 數(shù)字音頻壓縮技術(shù)2.2.2 時(shí)域波形編碼 時(shí)域波形編碼音頻質(zhì)量好,但壓縮比不大?;痉椒椋?差值量化、自適應(yīng)預(yù)測(cè)編碼、增量調(diào)制等。 差分脈沖編碼(DPCM):利用取樣值之間的差值作為編碼的依據(jù)。從而減少碼字。 增量調(diào)制(DM):用一個(gè)比特的兩種狀態(tài)表示相鄰取樣值的增加與減少關(guān)系。第二節(jié) 數(shù)字音頻壓縮技術(shù)2.2.3 感知編碼: 1、心理聲學(xué)模型 2、感知編碼:用一個(gè)隨音頻信號(hào)而定的聽力門限和原有音頻進(jìn)行比較,對(duì)于哪些低于門限(人耳無法分辨)的

7、信號(hào),略過編碼或者減少比特位。以降低編碼后的總比特位。 3、頻域壓縮編碼:分為子帶編碼和變換編碼。把音頻信號(hào)變換到頻域,用心理聲學(xué)模型中的掩蔽曲線作為對(duì)數(shù)據(jù)進(jìn)行壓縮的參照,對(duì)篩選出來的信息進(jìn)行編碼。第二節(jié) 數(shù)字音頻壓縮技術(shù)2.2.4 音頻壓縮標(biāo)準(zhǔn) 1、MPEG-1音頻標(biāo)準(zhǔn):屬于感知編碼類型。它規(guī)定了三個(gè)不同層次的編碼方案。、層建立在掩蔽模式通用子帶和多路復(fù)用編碼算法的基礎(chǔ)之上。 層次編碼復(fù)雜程度較大,應(yīng)用于目前常見的MP3音頻文件編碼。 2、 MPEG-2音頻標(biāo)準(zhǔn):經(jīng)歷了三個(gè)階段,前兩個(gè)階段增加了低取樣頻率的應(yīng)用,同時(shí)增加了單聲道、雙聲道立體聲、5.1聲道立體聲應(yīng)用。有向后兼容的特點(diǎn)。第三階段

8、支持多聲道應(yīng)用,不向后兼容。第二節(jié) 數(shù)字音頻壓縮技術(shù)MPEG-4 標(biāo)準(zhǔn)MPEG-4研究的目的是解決低比特率下的多媒體窄寬傳輸、高畫質(zhì)壓縮、交互性操作以及如何將自然物體與人造物體相溶合的表達(dá)方式,并特別強(qiáng)調(diào)廣泛的適應(yīng)性和可擴(kuò)展性。 MPEG-4音頻結(jié)構(gòu)包括:傳統(tǒng)的音頻編碼標(biāo)準(zhǔn);獨(dú)特的音頻結(jié)構(gòu);合成/自然混合編碼方法。從而解決了高質(zhì)量音頻在窄帶中傳輸?shù)膯栴}。第二節(jié) 數(shù)字音頻壓縮技術(shù)Dolby AC-3音頻標(biāo)準(zhǔn) 是一款由杜比實(shí)驗(yàn)室開發(fā)的數(shù)字式多聲道環(huán)繞式立體聲系統(tǒng)。系統(tǒng)由 “左聲道”、“中置聲道”、“右聲道”、后置的“左環(huán)繞聲道”和“右環(huán)繞聲道”五個(gè)全頻域聲道加一個(gè)超低音聲道(頻率響應(yīng)為3-120H

9、z )組成。前置的左、右音箱,中置音箱產(chǎn)生極有深度感和定位明確的音場(chǎng),兩個(gè)后置或側(cè)置的環(huán)繞音箱和超低音箱表現(xiàn)寬廣壯闊的音場(chǎng),全頻段的細(xì)節(jié)十分豐富,具有真正的立體聲。第三節(jié) 計(jì)算機(jī)音樂1、數(shù)字式電子合成器 模擬電子合成器是用電子元件制成信號(hào)發(fā)生器來產(chǎn)生聲音信號(hào)中的各種頻率成分。而數(shù)字式電子合成器則是由數(shù)字方法造成波形然后轉(zhuǎn)換為聲音信息。第三節(jié) 計(jì)算機(jī)音樂第三節(jié) 計(jì)算機(jī)音樂2、MIDI(樂器數(shù)字接口) 通過電纜將電子音樂設(shè)備(MIDI鍵盤)與計(jì)算機(jī)連接起來,與相關(guān)軟件相配合進(jìn)行電腦作曲。 1、MIDI輸入單元(硬件設(shè)備):輸入作曲旋律。 2、編輯控制單元(計(jì)算機(jī)軟件):記錄相關(guān)信息 3、音源單元(

10、音樂合成器):合成音樂。第三節(jié) 計(jì)算機(jī)音樂MIDI鍵盤MIDI鏈接電纜聲卡的MIDI接口和游戲桿接口是共用的。 第三節(jié) 計(jì)算機(jī)音樂第三節(jié) 計(jì)算機(jī)音樂3、數(shù)字音頻工作站 (1) 數(shù)字音頻工作站是一種集中多種音頻處理工具,以計(jì)算機(jī)軟硬件平臺(tái)為主的數(shù)字音頻制作系統(tǒng)。第三節(jié) 計(jì)算機(jī)音樂(2)數(shù)字音頻工作站的功能 具有專業(yè)要求的聲音錄入和聲音播放。 具備錄音、放音、與音樂合成功能。 方便快捷的音樂剪輯功能。 具備數(shù)字效果處理功能。 第三節(jié) 計(jì)算機(jī)音樂Pocketstudio 5 是一方便移動(dòng)的4軌數(shù)字錄音機(jī),使用Flash卡用作存儲(chǔ)載體。除了它的四個(gè)音頻軌用于人聲,吉他以及其它樂器外,Pocketstu

11、dio 5 還帶有一個(gè)內(nèi)置的MIDI音源,因此它也可以被用作音序播放器,而且四音軌可同時(shí)播放。它本身自帶100首標(biāo)準(zhǔn)的MIDI文件,插上卡就可以享受多種背景音樂風(fēng)格!另外,它還 增加了超過100種自帶的效果。第三節(jié) 計(jì)算機(jī)音樂羅蘭 VS2480通道數(shù)字音頻工作站 VS-2480也是一個(gè)集錄音機(jī)調(diào)音臺(tái),和效果器于一體的產(chǎn)品。具有24軌同時(shí)播放,24比特AD/DA轉(zhuǎn)換,96KHZ采樣頻率,17個(gè)電動(dòng)推子,LCD液晶顯示屏。 更令人振奮的是,VS-2480可以象電腦那樣操作,第四節(jié) 數(shù)字語音處理技術(shù)1、語音合成 語音合成最基本的目的是讓機(jī)器模仿人類的語言發(fā)聲來傳送信息。例如:常見的自動(dòng)化語音服務(wù)系統(tǒng)

12、。 (1)波形編碼語音合成:以語句、短句、詞和音節(jié)為合成單元,這些單元被分別錄音后,直接進(jìn)行數(shù)字編碼,經(jīng)適當(dāng)數(shù)據(jù)壓縮后組成數(shù)字語音庫。重放時(shí),根據(jù)待輸出的信息,在語音庫中取出相應(yīng)單元的波形數(shù)據(jù),串接或編輯在一起,經(jīng)解碼還原出聲音。第四節(jié) 數(shù)字語音處理技術(shù) (2) 基音同步疊加法(PSOLA),在拼接語音波形片斷之前,根據(jù)上下文要求,對(duì)拼接單元的韻律特征進(jìn)行調(diào)整,使合成波形既保持原有的音段特征,又能使拼接單元韻律特征符合上下文要求。 Sonic文語轉(zhuǎn)換系統(tǒng):這是清華大學(xué)計(jì)算機(jī)系基于波形編輯的漢語文語轉(zhuǎn)換系統(tǒng)。該系統(tǒng)利用漢語詞庫進(jìn)行分詞,并且根據(jù)語音學(xué)研究的成果建立了語音規(guī)則,對(duì)漢語中的某些常見語

13、音現(xiàn)象進(jìn)行了處理。系統(tǒng)采用PSOLA算法修改超音段語音特征,提高了言語輸出的質(zhì)量。第四節(jié) 數(shù)字語音處理技術(shù)(3)參數(shù)語音分析合成 按照語言理論,對(duì)所有合成單元的語音進(jìn)行分析,一幀一幀地提取有關(guān)語音參數(shù),以音節(jié)、半音節(jié)或音素為合成單元,組成一個(gè)合成語音庫,輸出時(shí),根據(jù)帶合成的語音信息,從語音庫中提取相關(guān)信息進(jìn)行合成。3、規(guī)則語音合成 除提取有關(guān)語音參數(shù)外,在存儲(chǔ)語音組成規(guī)則。語音合成過程較復(fù)雜。音質(zhì)一般。第四節(jié) 數(shù)字語音處理技術(shù)(4)文語轉(zhuǎn)換系統(tǒng) 以文字串為語音合成對(duì)象,對(duì)文字進(jìn)行正確理解后調(diào)用語音庫數(shù)據(jù)進(jìn)行語音合成。是一個(gè)語義、語音轉(zhuǎn)換的人工智能系統(tǒng)。第四節(jié) 數(shù)字語音處理技術(shù)2、語音增強(qiáng) 主要

14、目的是消除原有語音中的噪聲。(1)噪聲對(duì)消法(2)諧波增強(qiáng)法(3)基于參數(shù)估計(jì)的語音合成法。第四節(jié) 數(shù)字語音處理技術(shù)3、語音識(shí)別 語音識(shí)別技術(shù)集聲學(xué)、語音學(xué)、計(jì)算機(jī)、信息處理和人工智能等諸多領(lǐng)域的一項(xiàng)綜合技術(shù)。是多媒體領(lǐng)域目前研究的熱點(diǎn)。目的是讓機(jī)器能聽懂人的語言第四節(jié) 數(shù)字語音處理技術(shù)4、漢語語音識(shí)別 (1)漢語與其它語言有著截然不同的特點(diǎn):以字為最小語音單位,而且每一個(gè)漢字的發(fā)音對(duì)應(yīng)與一個(gè)音節(jié),在常用的6000多個(gè)漢字中,全部語音音節(jié)只有1281個(gè),如果不考慮聲調(diào)中的四聲,漢語無調(diào)音節(jié)只有412個(gè)。所以,以音節(jié)作為語音合成的基本單位,歷來是漢語語音合成的常用方法。第四節(jié) 數(shù)字語音處理技術(shù)(

15、2)語音特征參數(shù)的提取 LPC倒譜系數(shù)分析法。 Mel倒譜系數(shù)感知線性預(yù)測(cè)。 小波變換系數(shù)分析法(3)模式識(shí)別匹配動(dòng)態(tài)時(shí)間規(guī)整技術(shù) 隱馬爾科夫模型技術(shù) 人工神經(jīng)網(wǎng)絡(luò)技術(shù) 混合型模式匹配技術(shù)自適應(yīng)魯棒性踏實(shí),奮斗,堅(jiān)持,專業(yè),努力成就未來。7月-227月-22Wednesday, July 27, 2022弄虛作假要不得,踏實(shí)肯干第一名。06:34:4206:34:4206:347/27/2022 6:34:42 AM安全象只弓,不拉它就松,要想保安全,常把弓弦繃。7月-2206:34:4206:34Jul-2227-Jul-22重于泰山,輕于鴻毛。06:34:4206:34:4206:34Wednesday, July 27, 2022不可麻痹大意,要防微杜漸。7月-227月-2206:34:4206:34:42July 27, 2022加強(qiáng)自身建設(shè),增強(qiáng)個(gè)人的休養(yǎng)。2022年7月27日6:34 上午7月-227月-22追求卓越,讓自己更好,向上而生。27 七月 20226:34:42 上午06:34:427月-22嚴(yán)格把控質(zhì)量關(guān),讓生產(chǎn)更加有保障。七月 226:34 上午7月-2206:34July 27, 2022重規(guī)矩,嚴(yán)要求,少危險(xiǎn)。202

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論