音頻與圖像轉(zhuǎn)化的研究_第1頁
音頻與圖像轉(zhuǎn)化的研究_第2頁
音頻與圖像轉(zhuǎn)化的研究_第3頁
音頻與圖像轉(zhuǎn)化的研究_第4頁
音頻與圖像轉(zhuǎn)化的研究_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、音頻與圖像轉(zhuǎn)化的研究論文摘要:本文從物理上包括時間軸在內(nèi)的四維空間概念著手,提出二維的音頻與二維的圖像之間可以通過坐標(biāo)軸的替代進(jìn)行轉(zhuǎn)化。論文關(guān)鍵詞:物理空間,類似對,硬性改寫,一一對應(yīng)目錄1.引言-32正文-32.1問題的提出-32.2問題的分析-42.4問題的解決-72.5結(jié)論和分析-113.參考文獻(xiàn)及網(wǎng)站-121引言計(jì)算機(jī)的出現(xiàn)引起了人類社會很多方面的革命,多媒體技術(shù)也是其中的一種。音頻和圖像文件為適合不同應(yīng)用場合的不同要求,出現(xiàn)了各種各樣的格式。在音頻和圖形領(lǐng)域中同類的多種格式之間的轉(zhuǎn)化技術(shù)已經(jīng)較為成熟。在此根底上,本文提出了一個問題:音頻文件和圖像文件之間可以相互轉(zhuǎn)化嗎?其實(shí),在此方面

2、已經(jīng)有一些初步的嘗試,如WINAMP中的peaks就是其中之一。它將音樂中不同頻率的音量化成波帶,根據(jù)各時刻該頻帶聲音的響度來定義波帶的高度,并以圖像的形式表現(xiàn)出來。但這種轉(zhuǎn)化與本文所提到的轉(zhuǎn)化是不同的。它轉(zhuǎn)化而成的波帶不是靜態(tài)的,而是隨時間變化的。這種轉(zhuǎn)化不涉及文件內(nèi)容的改寫,僅是軟件的一個附加功能,而本文的轉(zhuǎn)化思路是將一個音頻文件轉(zhuǎn)化成為一幅靜態(tài)的圖像,是將兩者在文件屬性上進(jìn)行本質(zhì)改變。經(jīng)過資料調(diào)查和分析研究,我們得出結(jié)論,音頻文件與圖像文件之間的轉(zhuǎn)換是可以實(shí)現(xiàn)的。2正文2.1問題的提出物理學(xué)指出,我們所生活的世界是一個四維空間。四個坐標(biāo)軸分別為三維空間中的三個坐標(biāo)軸和時間坐標(biāo)軸。在這里值

3、得引起注意的是,正如三維空間的三根坐標(biāo)軸實(shí)際上處于等同的位置,沒有先后上下之分,四維空間中這四根坐標(biāo)軸也是等價的,可以相互轉(zhuǎn)換。唯一區(qū)別在于:空間的三個坐標(biāo)軸相互轉(zhuǎn)換時,任意兩點(diǎn)間的距離保持不變,倍率為1。而時間坐標(biāo)軸上兩點(diǎn)間的距離轉(zhuǎn)化為任一空間坐標(biāo)軸的兩點(diǎn)距離時,需乘以光速,倍率為。以此為根底,我們提出了音頻與圖像相互轉(zhuǎn)化的可能性。可以看到,圖像和音頻都存在于四維空間中的一個二維平面上。區(qū)別僅僅在于,確定圖像所在平面的兩個坐標(biāo)軸都是空間坐標(biāo)軸,確定音頻所在平面的兩坐標(biāo)軸分別是空間坐標(biāo)軸和時間坐標(biāo)軸產(chǎn)生聲音的振動是一個一維振動,可以通過質(zhì)點(diǎn)在一根坐標(biāo)軸上的位置變換表示。根據(jù)上面所說的,時間坐標(biāo)

4、軸可與空間坐標(biāo)軸相互轉(zhuǎn)化的理論,當(dāng)我們將音頻中的時間坐標(biāo)軸轉(zhuǎn)換為任一空間坐標(biāo)軸,音頻就變成了圖像。同樣,將圖像中的任一空間坐標(biāo)軸轉(zhuǎn)化為時間坐標(biāo)軸后,圖像也就變成了音頻。聯(lián)系到上面所說的倍率關(guān)系,音頻所轉(zhuǎn)化成的圖像文件將會非常龐大??梢詺w納為,時間坐標(biāo)軸轉(zhuǎn)化為空間坐標(biāo)軸時,兩點(diǎn)間距離會展寬;空間坐標(biāo)軸轉(zhuǎn)化為時間坐標(biāo)軸時,兩點(diǎn)間的距離會縮短。另一個使得這種轉(zhuǎn)化變得可能的條件,是隨著計(jì)算機(jī)的開展,各類信息都最終歸為二進(jìn)制碼元。這種二進(jìn)制碼元,即圖像與音頻在計(jì)算機(jī)中存儲處理的格式的共同點(diǎn),成為了我們實(shí)行這種轉(zhuǎn)化的天然橋梁。不同格式的文件在計(jì)算機(jī)中都是以二進(jìn)制數(shù)的形式存儲的,只有當(dāng)通過不同的播放軟件,經(jīng)

5、過不同的解碼,才可以顯示出不同之處。其中播放軟件通過對文件頭的識別來區(qū)分文件的格式。所以即使數(shù)據(jù)原本表示的信息不一樣,但是對于計(jì)算機(jī)而言它都是0和1兩種符號而已。2.2問題的分析基于上述分析思路,我們首先對各類音頻格式和圖形格式進(jìn)行研究,確定我們在物理世界中所熟悉的圖像或者音頻,在計(jì)算機(jī)內(nèi)部用二進(jìn)制碼表示時的具體細(xì)節(jié)。計(jì)算機(jī)多媒體技術(shù)在近些年得到了長足的進(jìn)步,各類適用于不同場合、滿足不同要求的多媒體格式層出不窮。我們對此進(jìn)行篩選,從最根本的格式入手,通過了解其編碼及存儲的具體方式,找到實(shí)現(xiàn)轉(zhuǎn)化的具體方法。經(jīng)過篩選,我們將研究對象確定為圖像格式中的BMP、JPEG、以及在網(wǎng)絡(luò)及各類商業(yè)LOGO中

6、較為常用的矢量型圖形SVG,音頻格式中的WAV、MP3、以及在電子音樂制作中大名鼎鼎的MIDI。對這六種格式進(jìn)行研究后,我們發(fā)現(xiàn)BMP與WAV之間存在很多相似關(guān)系。BMP的存儲機(jī)制十分簡單。首先,文件頭標(biāo)志出其文件屬性為BMP,同時包含其他根本信息,比方文件的大小,文件頭大小,位圖的寬度和高度,每個像素點(diǎn)中顏色的位數(shù),分辨率,有無壓縮等。文件頭結(jié)束后它便按從左下角到右上角的順序,將整幅圖像中每個像素點(diǎn)的RGB三種色彩值以像素矩陣的形式進(jìn)行記錄,成為數(shù)據(jù)塊。WAV格式中包括三個到四個Chunk。首先是文件頭信息。文件頭標(biāo)志該文件屬性為WAV,并包含其他根本信息如采樣率,聲道數(shù)目,每個采樣所需要的

7、bit數(shù),數(shù)據(jù)塊對應(yīng)關(guān)系等。最后一個Chunk用來保存wav數(shù)據(jù)。具體存儲時,根據(jù)文件頭所規(guī)定的聲道數(shù)和采樣頻率,將每次采樣時各聲道的聲音進(jìn)行不同精密程度的量化,并以二進(jìn)制碼的形式記錄下來。綜合以上可以看到,除了文件頭必須標(biāo)志出本格式的種種特征以外,BMP和WAV格式在具體數(shù)據(jù)的存儲上是相似的。BMP把圖像文件劃分為一個個像素,將像素的中心顏色加以記錄;WAV把音頻文件劃分為一個個采樣點(diǎn),將各個采樣點(diǎn)對應(yīng)的聲音波形加以記錄。因此我們將WAV和BMP稱為第一類似對。它們都將文件劃分為根本元素,然后進(jìn)行取樣并記錄取樣值。應(yīng)用的優(yōu)點(diǎn)在于可以表現(xiàn)完整豐富的效果,缺點(diǎn)在于文件往往過大,且不易對其進(jìn)行編輯

8、改變。同樣的類似關(guān)系也存在于SVG格式和MIDI格式之間。SVG格式屬于矢量圖形。前面所說的BMP屬于位圖格式。位圖格式的特點(diǎn)是將整幅畫面分割成像素分別存儲。這種存儲方式有利于表現(xiàn)顏色多樣且色彩結(jié)構(gòu)豐富的圖像。缺點(diǎn)在于文件往往較大,只適合表現(xiàn)靜態(tài)圖像,不適應(yīng)網(wǎng)頁快速翻開或者刷新的要求。而且位圖文件在放大到一定程度后,畫面的邊緣會出現(xiàn)鋸齒,也就是馬賽克;。這是因?yàn)榉糯蟮脑硎菍⒃瓉淼南袼攸c(diǎn)上的各顏色值通過例如求均值一類的算法,填充出新增的像素點(diǎn)。這個缺點(diǎn)也制約了它在LOGO上的應(yīng)用。矢量圖形的存儲機(jī)制與位圖完全不同。它存儲的根本單位不是像素點(diǎn),而是一個圖形,或者說是一個事件。比方一個SVG文件中

9、有一條線段,記錄時就只記錄這條線段的兩個端點(diǎn),線的粗細(xì)顏色等特征。一個圓就記錄這個圓的圓心坐標(biāo)和半徑長度等。矢量圖像的優(yōu)點(diǎn)是文件小,而且對圖像進(jìn)行放大縮小不影響圖像質(zhì)量,因此在網(wǎng)頁和LOGO上得到大量應(yīng)用。但是矢量圖像對顏色的處理非常粗糙,它只能將某個邊緣明確的區(qū)域填充一種純色。因此它無法表現(xiàn)豐富復(fù)雜的顏色效果。音頻格式MIDI的特點(diǎn)是,它存儲的不是聲音符號,而是一個事件,包括音符、控制參數(shù)等指令。它通過指令控制MIDI設(shè)備工作,從而產(chǎn)生不同的聲音效果。比方一個MIDI格式文件中有一個音符,它不會像WAV一樣記錄聲音的波形,而是記錄這個音符的開始發(fā)音時間,結(jié)束發(fā)音時間,發(fā)聲通道,音色,音高,音

10、量等信息。在播放時,它將每個音符視為一個事件,在適當(dāng)?shù)臅r候控制MIDI設(shè)備開始發(fā)聲,結(jié)束發(fā)聲,并指示MIDI設(shè)備按照音色表發(fā)出這個音符的音色,這樣這個音符就從揚(yáng)聲器中發(fā)出。由此可以看出MIDI和SVG的相似之處。二者將物理實(shí)體圖形或者音符抽象化為事件,只存儲事件特征。文件翻開的時候,只需要將事件的各個特征取出,進(jìn)行判決再生的工作,重構(gòu)事件,就可以復(fù)原整個文件。這種以事件進(jìn)行的存儲非常利于控制。所以,我們將MIDI和適量圖形稱為第二類似對。第二類似對的優(yōu)點(diǎn)在于文件小,利于控制。缺點(diǎn)在于往往只能表現(xiàn)簡單的畫面或者音樂,豐富度不夠。這里我們提出兩種音頻文件與圖像文件轉(zhuǎn)化的思路:由第一類似對看到,二者

11、的重大區(qū)別僅在于文件頭,數(shù)據(jù)塊局部二者都是將文件劃分為相應(yīng)的二維小塊再進(jìn)行存取。因此考慮將文件頭進(jìn)行硬性改寫,改寫成為另外一種格式的文件頭標(biāo)準(zhǔn)格式,數(shù)據(jù)局部保持不變,就有可能實(shí)現(xiàn)音頻與圖像格式文件之間的轉(zhuǎn)化。由第二類似對看到,二者的共通之處在于將整個文件劃分為一個個根本單元的根本領(lǐng)件,并僅對事件特征進(jìn)行存儲。因此考慮將二者所存儲的事件中的信息進(jìn)行一一對應(yīng),將一種文件所記錄的事件特征轉(zhuǎn)化為另一種文件所記錄的事件特征,可以實(shí)現(xiàn)音頻與圖像格式的文件的轉(zhuǎn)化。這里需要注意的是,思路二中的文件頭還是要改變的。文件頭是標(biāo)志一個文件格式的最根本依據(jù),所以要實(shí)現(xiàn)文件格式轉(zhuǎn)化,文件頭必須要改動。此外,我們研究的六

12、種格式中還有兩種,圖像格式JPEG和音頻格式MP3。這兩種格式可以算是普通計(jì)算機(jī)用戶最最熟悉的兩種格式了。它們不但像第一類似對那樣有良好的表現(xiàn)效果,而且像第二類似對那樣保持較為適宜的文件大小。這得益于它們成熟的壓縮技術(shù)。可是正是由于這種成熟的壓縮技術(shù),使它們之間不能像前兩對那樣實(shí)現(xiàn)簡單的相互轉(zhuǎn)化。JPEG和MP3所采用的都是有損壓縮技術(shù),有損壓縮后被丟棄的信息是無法恢復(fù)的。而對于音頻和圖像來說,由于它們本身性質(zhì)的不同,在壓縮時考慮丟棄的方面也是不同的。對于圖像文件來說,如果將圖像中的信息以波形來表現(xiàn)時,處理時我們著重要考慮的是相位關(guān)系,因?yàn)槿搜蹖τ谙辔魂P(guān)系比頻率關(guān)系要敏感。而對于音頻文件,處理

13、波形時往往比擬重視頻率關(guān)系,相位只要不要有大的過失就沒有關(guān)系,而頻率有波動時那么會導(dǎo)致聲音失真嚴(yán)重。因?yàn)槿硕鷮τ陬l率關(guān)系要比相位關(guān)系敏感。有損壓縮的根本思想就在于丟棄人感官中不敏感的信息細(xì)節(jié),這樣無可防止地造成了信息缺失。所以,我們不能保證在JPEG壓縮算法中丟棄的那些細(xì)節(jié)中是否含有對于MP3十分重要的信息,反之也一樣。因此我們在現(xiàn)階段認(rèn)為二者轉(zhuǎn)化可能存在一些問題,不把它們作為第三類似對。2.4問題的解決由于播放器音頻播放器和圖像查看軟件都是通過文件頭識別文件格式的。為了實(shí)現(xiàn)格式轉(zhuǎn)化,考慮更改文件的頭文件即文件對象數(shù)據(jù)以前的局部,讓播放器識別。不同格式的文件在計(jì)算機(jī)中都是以二進(jìn)制數(shù)的形式存儲的

14、,所以即使文件頭后的數(shù)據(jù)原本表示的信息不一樣,最終只是表現(xiàn)的不同,并不影響文件格式。二進(jìn)制碼的含義是由編程人員定的,與文件格式無關(guān)。真正決定文件格式的是文件頭數(shù)據(jù)。轉(zhuǎn)化前必須首先明確一個問題,即后綴名和文件格式之間的關(guān)系。后綴名是文件格式的一個標(biāo)識符,但只對后綴名進(jìn)行修改并沒有改變文件的實(shí)質(zhì)格式。后綴名的功能僅限于方便計(jì)算機(jī)識別文件,尋找對應(yīng)的軟件翻開或者進(jìn)行處理。各種后綴名與軟件之間存在對應(yīng)關(guān)系。找到對應(yīng)的軟件后,軟件會讀入文件存儲的二進(jìn)制碼,再根據(jù)二進(jìn)制碼中頭文件所提供的信息對該文件進(jìn)行相應(yīng)的操作。之所以要對這個問題進(jìn)行闡述是因?yàn)楝F(xiàn)在的播放軟件大都支持多種格式。所以當(dāng)你將BMP文件的后綴名

15、改為JPG時,圖片瀏覽軟件仍然可以翻開并且正常顯示。由此有一種錯誤觀點(diǎn)認(rèn)為文件格式已經(jīng)被改變了。其實(shí)對于圖片瀏覽軟件而言,它還是按照翻開BMP文件的方法翻開該文件的,調(diào)用軟件內(nèi)部針對BMP文件的包的依據(jù)是文件頭中標(biāo)示出這是一個BMP文件。證明以上結(jié)論的方法非常簡單:暴風(fēng)影音播放器同時支持多種視頻和音頻格式。把一個視頻格式AVI或者RMVB文件的后綴名改成音頻格式MP3或者WMA后用暴風(fēng)影音翻開,畫面照常顯示,證明軟件是把它做為一個視頻,而不是音頻翻開的。用編輯器直接查看文件代碼也可以看到,后綴名的改變完全不影響文件的內(nèi)部編碼。我們根據(jù)前面所講的第一種轉(zhuǎn)化思路,對文件頭進(jìn)行硬性改寫。事實(shí)上根據(jù)前

16、面的說明,對文件頭硬性改寫實(shí)現(xiàn)轉(zhuǎn)化的方法適用于任何格式之間。通過一個可以查看并且更改文件內(nèi)部二進(jìn)制碼的編輯軟件UltraEdit,我們采用手動的方法,將一個MP3格式的音頻文件的頭文件,按照BMP圖像格式的頭文件的形式更改。步驟如下:1、我們將一個MP3文件的前三行做如下置換,原文件頭符合MP3文件標(biāo)準(zhǔn):494433F76544954320000;0005000000D1A7BBE0000;270000574D2F4D65646961436C617373;修改后的文件頭符合BMP文件標(biāo)準(zhǔn):424D36003C0000002800;18000000;000000003C0000000000;2、

17、將修改后的文件另存為后綴名是BMP的文件,之后利用ACDSee翻開得到:圖經(jīng)過頭文件修改之后的mp3圖像我們同時對文件的后綴名和文件頭進(jìn)行了改寫。雙擊翻開后計(jì)算機(jī)查找到與BMP文件相關(guān)聯(lián)的軟件并調(diào)用。此文件已經(jīng)可以以BMP圖片的形式被圖片查看軟件識別并顯示了。此試驗(yàn)證明了音頻文件可以轉(zhuǎn)化為圖像文件。但可以看出該圖片不具有任何欣賞性。文件頭的硬性轉(zhuǎn)換是一個非常粗糙的過程。它僅僅考慮將文件頭進(jìn)行改寫,對數(shù)據(jù)完全不做任何變化,轉(zhuǎn)化后的文件的可視性完全沒有保障?,F(xiàn)在根據(jù)第二種思路,將SVG與MIDI中的各個事件進(jìn)行一一對應(yīng),從而完成兩者之間的對應(yīng)轉(zhuǎn)換。這種方法較第一種方法來說更加科學(xué)。它對數(shù)據(jù)進(jìn)行了一

18、定的處理,二者間的對應(yīng)關(guān)系可以實(shí)實(shí)在在的看到。具體對應(yīng)關(guān)系如下:在SVG中,按照圖像中圖形的屬性儲存圖像。比方一個直線元,在SVG中存儲的是1、起始點(diǎn)坐標(biāo),在矢量圖形中,有一個度量是單位長度,而每個坐標(biāo)都是這個單位長度的倍數(shù),此單位長度可以改變,以此來改變整個矢量圖形的大小。在此,暫且將其定義為1;2、終止點(diǎn)坐標(biāo);3、線的寬度;4、線的顏色;直線元的組合就可以形成不同的直線或者曲線,也可以形成其他復(fù)雜的圖形。對應(yīng)的在MIDI中,對一個事件的記錄是通過對一個音符的屬性進(jìn)行描述的。如:1、音符發(fā)音的起始時間,MIDI中有一個單位時間的概念,每一個起始時間和終止時間都是單位時間的倍數(shù),可以通過改變單

19、位時間的大小改變整個曲子的播放時間,同樣,在此將其設(shè)為1;2、音符的終止時間;3、音符的音高;4、音符發(fā)音的響度;5、描述音符所用的樂器;一段音樂或者一首曲子,就是由不同的音符元組合而成的。根據(jù)上面論述的坐標(biāo)轉(zhuǎn)化的原理以及對圖像、音頻的屬性的認(rèn)識,我們對其做了以下的一一對應(yīng)。如下列圖:圖2SVG中直線元和MIDI中音頻元的一一對應(yīng)轉(zhuǎn)換關(guān)系由此,通過對每個根本單元的轉(zhuǎn)化,可以將SVG和MIDI進(jìn)行整體的轉(zhuǎn)換。數(shù)據(jù)塊轉(zhuǎn)化結(jié)束后,整理出文件的信息,包括文件名,文件大小,起始地址,偏移量等,將其放到頭文件中,對頭文件進(jìn)行相應(yīng)的改寫,就可以生成一個目標(biāo)格式的完整文件。2.5結(jié)論和分析本文我們從兩個方面論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論