版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于MATLAB的歌曲制作研究摘要本文結(jié)合“數(shù)字信號處理”課程和“Matlab程序設(shè)計”課程的相關(guān)知識,給出了基于Matlab的音樂播放器的總體設(shè)計方案,介紹了播放器主要模塊的功能,設(shè)計與實現(xiàn)方法。我們將該設(shè)計作為電子信息類專業(yè)數(shù)字信號處理課程設(shè)計項目,有助于激發(fā)學(xué)生的學(xué)習(xí)興趣,提高其綜合設(shè)計和應(yīng)用創(chuàng)新能力。音樂作為人們生活中必不可少的一部分,音樂搜索具有廣大的用戶群體,也蘊含著巨大的商機。傳統(tǒng)的音樂搜索是根據(jù)用戶輸入的關(guān)鍵詞進(jìn)行搜索,關(guān)鍵詞可以是歌曲的名稱,歌手名,歌詞等,這種方式被稱為基于文木的檢索。對于這種方式的檢索,如果用戶不能準(zhǔn)確地一記住歌曲的相關(guān)信息(歌曲名稱,歌詞等),就不能準(zhǔn)確的檢索歌曲。同時,采用這種檢索方式需要手動去維護(hù)一個音樂數(shù)據(jù)庫,對每首歌曲的基本信息進(jìn)行標(biāo)注,增加了管理者的工作量,因此需要找到一種更簡單,更快捷的檢索方式。哼唱檢索便是一種新型的檢索方式,它充分利用歌曲自身的特征,如音高,音長等特征,為用戶提供一種更簡單更自然的檢索方式。這種新型的檢索方式可以廣泛地應(yīng)用在移動互聯(lián)網(wǎng),卡拉OK中,也可以應(yīng)用于音樂教育等方面。哼唱檢索最核心的兩部分是音樂旋律特征提取和匹配。如何準(zhǔn)確的提取歌曲的特征信息,利用特征信息描述歌曲輪廓;采用哪種匹配算法又快又準(zhǔn)確的檢索出我們所需要的歌曲是本文的研究重點。圍繞這兩個問題,本文做了如下相關(guān)研究和探索。關(guān)鍵詞:Matlab程序設(shè)計;數(shù)字信號處理;歌曲制作目錄TOC\o"1-3"\h\u59511緒論 1110321.1研究的內(nèi)容和意義 12101.2國內(nèi)外的研究現(xiàn)狀 281351.3選題意義 399032音樂特征概述 4230602.1音樂樂理基礎(chǔ) 4197722.2音樂文件格式介紹 6232152.3聲音的物理特征 742912.3.1短時平均能量 7229552.3.2短時平均幅度 8271922.3.3音高 8124643基于MATLAB的歌曲制作 918203.1音頻信號的預(yù)處理 940453.2樂理實驗準(zhǔn)備 10300923.3音樂存儲準(zhǔn)備 1066053.4音量和音調(diào)的動態(tài)波形顯示 12280953.5數(shù)據(jù)存儲 13113223.6Matlab結(jié)構(gòu)體仿真 1432013.7實驗改進(jìn)(ADSR) 15308384結(jié)束語 1611881參考文獻(xiàn) 161緒論1.1研究的內(nèi)容和意義信息檢索(InformationRetrieval)是指將信息按一定的方式組織起來,并根據(jù)用戶的需要找到相關(guān)信息的過程和技術(shù)川。信息檢索源于圖書館的參考咨詢和文摘索引工作,其最初一直都是由人手工建立索引并檢索。隨著第一臺計算機問世及信息技術(shù)的發(fā)展,給人類社會帶來重大影響,信息技術(shù)逐步進(jìn)入信息檢索領(lǐng)域。二十一世紀(jì)是一個信息時代,隨著互聯(lián)網(wǎng)的迅猛發(fā)展,信息,知識和資訊等以前所未有的速度和方式涌向我們?;ヂ?lián)網(wǎng)上,一天的信息量足以刻滿1.68億張DVD,每天有2940億封電子郵件被發(fā)送,200萬篇博文發(fā)布,巨大的信息量給信息檢索帶來了前所未有的發(fā)展機遇,也帶來了重大的挑戰(zhàn)。當(dāng)前的信息檢索工具主要是基于文本的,而且已經(jīng)發(fā)展得非常成熟。幾大著名的搜索引擎Google,Yahoo和百度都是通過構(gòu)造索引,采用關(guān)鍵字匹配的方式來檢索相關(guān)文檔。最后將檢索結(jié)果依據(jù)“相關(guān)度”排序并顯示給用戶。音樂是人們生活的重要組成部分,也是互聯(lián)網(wǎng)資源的重要組成部分。隨著互聯(lián)網(wǎng),移動通信技術(shù)的發(fā)展,網(wǎng)絡(luò)己成為人們生活中不可分割的一部分。對于音樂的獲取,人們已不再愿意通過購買磁帶,CD等載體獲取音樂。相反,更多傾向于從互聯(lián)網(wǎng)上搜索,下載音樂?;ヂ?lián)網(wǎng)上存儲有大量的歌曲,如何準(zhǔn)確,便捷地從龐大的歌曲數(shù)據(jù)庫中檢索出用戶想要的歌曲,是對搜索引擎的一個巨大挑戰(zhàn)。傳統(tǒng)的音樂創(chuàng)作也是基于文本的,需要預(yù)先手動對音樂的歌曲名稱、歌詞、演唱者、作者等元數(shù)據(jù)信息進(jìn)行標(biāo)注,即手工錄入這些信息。系統(tǒng)根據(jù)用戶輸入的關(guān)鍵字與這些元數(shù)據(jù)信息進(jìn)行比對,同樣將檢索結(jié)果依據(jù)“相關(guān)度”排序并顯示給用戶。在實際的應(yīng)用中,這種檢索方式有其固有的缺陷。首先,它對用戶的要求較高,要求用戶能夠準(zhǔn)確地記住所唱歌曲的名稱,演唱者等相關(guān)信息。其次,隨著時間的推移,數(shù)據(jù)庫中的音頻數(shù)據(jù)量會逐漸增大,人工的標(biāo)注工作量也會隨之增大?;趦?nèi)容的音樂創(chuàng)作則是利用音樂文件自身的特征信息進(jìn)行檢索,如旋律,節(jié)拍,音調(diào)等。它充分利用人對音樂的感知,是一種最符合用戶習(xí)慣的檢索方式。當(dāng)用戶聽到一首熟悉的旋律時,想要檢索這首歌曲,只需哼唱一個片段就可以快速、準(zhǔn)確查詢相關(guān)歌曲的信息,而無需輸入歌名,演唱者,歌詞等信息。給用戶提供了更方便快捷的查詢方式,提供更好的用戶體驗。本文研究的正是這種基于哼唱的音樂創(chuàng)作QBH(QueryByHumming)。這是一不中新型的信息檢索方式,同時具備廣泛的應(yīng)用價值。概括來講,基于哼唱的音樂創(chuàng)作主要有以下幾個方而的應(yīng)用:(1)互聯(lián)網(wǎng)或移動終端的音樂搜索。隨著移動終端的發(fā)展,移動終端擁有強大的處理能力,用戶可以對著手機或其它移動終端哼唱一小段歌曲,便能通過互聯(lián)網(wǎng)進(jìn)行檢索或下載。(2)卡拉OK點歌系統(tǒng)??筛淖儺?dāng)前的點歌方式,無需輸入歌手名稱,歌詞名等信息,只需哼唱一段,計算機便能返回一個檢索列表。(3)音樂教育。系統(tǒng)提取用戶哼唱的歌曲特征信息,并細(xì)致,全面的分析用戶的哼唱情況。指出用戶演唱過程中存在的問題,和需要改進(jìn)的地方,給出相應(yīng)的改進(jìn)策略,不斷提升用戶的演唱技能。1.2國內(nèi)外的研究現(xiàn)狀1995年,英國Southampton大學(xué)的Ghias等在ACM多媒體研討會上介紹了自己在哼唱檢索方面的研究,并開發(fā)了一個QBH系統(tǒng)。Ghias采用的是基于音符切分的方式提取基頻。首先將聲音信號按音符切分,然后用基于時域的ACF算法提取音高,根據(jù)音高值的變化,采用字母“U","D","R”組成的序列來表示旋律特征。其中,字符“U”表示當(dāng)前音符的音高值比前一個音符的音高值要高,字符“D”表示當(dāng)前音符的音高值比前一個音符的音高值要低,字符“R”表示當(dāng)前音符的音高值和前一個音符的音高值相同。匹配引擎采用近似字符串模糊匹配算法。McNab等人在Ghias等人的基礎(chǔ)上增加了對音樂節(jié)奏信息的提取與研究,從而提高系統(tǒng)檢索的成功率。采用Gold-RabinierAlgorithm算法提取基頻,根據(jù)提取到的基頻特征再采用基于能量的方式進(jìn)行音符的切分,最后以音符作為最小匹配單元進(jìn)行搜索,開發(fā)了一套MELDEX系統(tǒng),實現(xiàn)了通過哼唱搜索歌曲的功能。Roland和henhuang為了提高檢索的速度采用了基于樹的數(shù)據(jù)庫檢索技術(shù)。Chen等使用半音(semitone)為單位來表示提取到的基頻,在旋律的描述序列中去掉相鄰的重復(fù)音高。LieLu等人也指出,由于音符切分不準(zhǔn)確很容易導(dǎo)致提取到的基頻中有不少重復(fù)的序列,在LieLu等人的研究中,其參考了Ghias的音樂特征農(nóng)示法,采用相對音高表示法,但不采用+R”字符來表示音樂特征序列。Kosugi等在其系統(tǒng)中提出一種同時考慮音高和節(jié)奏的檢索方法。Shih在其開發(fā)的系統(tǒng)中引入了隱含馬爾科夫模型(HMM)進(jìn)行匹配檢索。“臺灣清華大學(xué)資訊工程系張鉀星等人做了大量關(guān)于語音識別和哼唱檢索方而的研究,也取得了很多成果,并成功開發(fā)了多個語音合成,語音識別,哼唱檢索相關(guān)的產(chǎn)品。張摺星團隊開發(fā)了一個基于web的大型在線哼唱檢索系統(tǒng)MIRACLE,收錄的歌曲超過13000首,平均搜索時間在3~4秒之間。系統(tǒng)采用B/S結(jié)構(gòu),客戶端采用Flash技術(shù)開發(fā),服務(wù)器端采用CUDA并行計算技術(shù)加速計算。在匹配算法的選擇上該系統(tǒng)采用兩級過濾算法進(jìn)行比較,首先采用LS算法,過濾到90%的不匹配項,然后采用DTW算法從剩下的10%的候選項中進(jìn)行精確比較,充分結(jié)合LS算法在速度上的優(yōu)勢和DTW算法在精度上的優(yōu)勢,使得整個系統(tǒng)具有較快的響應(yīng)速度和較高的正確率。Google,微軟,盛大,騰一訊等IT企業(yè)也都做過相關(guān)的深入研究,盛大推出了語音哼唱檢索開源軟件,騰訊推出了一款基于Web的哼唱檢索系統(tǒng)。國內(nèi)的諸多研究所,高校,如清華大學(xué),西北大學(xué),華南理工等都做過這方面的研究。綜上所述,音樂哼唱檢索系統(tǒng)的研究重點在于如何提取音樂特征,采用何種方式準(zhǔn)確描述音樂特征,采用何種匹配算法使系統(tǒng)檢索準(zhǔn)確度較高,同時保證系統(tǒng)的檢索速度能夠被廣大用戶所接受,本文主要也是圍繞這幾個問題展開。1.3選題意義音樂風(fēng)格代表著一個音樂創(chuàng)作者的個性,聽眾對于不同音樂風(fēng)格的喜好也因人而異,很難找到某一種音樂風(fēng)格為所有大眾喜愛。在這個網(wǎng)絡(luò)音樂的時代,基于計算機技術(shù)的音樂風(fēng)格分類方法是一個充滿前景的研究領(lǐng)域。其主要應(yīng)用領(lǐng)域包括為:音樂推薦:根據(jù)特定用戶的喜好,進(jìn)行同類風(fēng)格歌曲的推薦。這項功能既可以為用戶省去繁瑣的搜索音樂過程,也為知名度較低的音樂提供了一個推廣的平臺。音樂交友:系統(tǒng)根據(jù)用戶聽音樂的習(xí)慣,對用戶進(jìn)行分類。對于用戶來說,可以很容易地找到和自己喜歡相同或者相近音樂風(fēng)格的用戶進(jìn)行交流與學(xué)習(xí)。因此,音樂交友功能是互聯(lián)網(wǎng)上的一個非常理想的社交平臺。自動音樂導(dǎo)航:音樂風(fēng)格的名詞有多種,例如:“布魯斯”,“新金屬”,“新世紀(jì)音樂”。而并非所有用戶都知道這些術(shù)語,對于用戶來說,音樂風(fēng)格可能更趨向于音樂的聽覺效果,例如:“憂郁”,“沖擊力”,“治愈系”。系統(tǒng)進(jìn)行音樂分類以后,可以根據(jù)用戶輸入的音樂效果返回相應(yīng)的音樂風(fēng)格,例如“治愈系”對應(yīng)“新世紀(jì)音樂”。相似音樂搜索:鐘愛于某種音樂風(fēng)格的用戶可能希望聽到更多該風(fēng)格的音樂。例如,用戶可能會搜索:“與B.B.King相同風(fēng)格”,系統(tǒng)可以為用戶返回BuddyGuy的音樂計算機輔助音樂創(chuàng)作:此項功能類似于音樂創(chuàng)作人的“決策系統(tǒng)”,為創(chuàng)作人提供作曲、編曲建議。例如:相關(guān)軟件可以回答“用什么樣的和聲伴奏使得作品更趨向于JAZZ風(fēng)格”一類問題。以上為音樂分類技術(shù)的部分應(yīng)用領(lǐng)域,大部分已經(jīng)被各網(wǎng)站廣泛使用。因此,在互聯(lián)網(wǎng)上的音樂作品成幾何級增長的時代,研究基于計算機技術(shù)的音樂分類方法具有深遠(yuǎn)的意義。2音樂特征概述在基于內(nèi)容的音樂創(chuàng)作技術(shù)出現(xiàn)之前,音樂創(chuàng)作只能停留在基于文本信息的層面上。檢索系統(tǒng)必須先構(gòu)建一個音樂特征信息數(shù)據(jù)庫,此時音樂特征數(shù)據(jù)庫中包含的是音樂的作曲者,作詞者,演唱者,歌譜,歌詞等信息。然后檢索系統(tǒng)利用用戶輸入的關(guān)鍵詞去音樂數(shù)據(jù)庫中檢索,返回匹配項。墓于內(nèi)容的音樂創(chuàng)作是基于音樂文件自身特征的檢索技術(shù),不需要人工去標(biāo)注該音樂的作曲者,作詞者,演唱者等信息。采用基于內(nèi)容的音樂創(chuàng)作,其后臺的數(shù)據(jù)庫的構(gòu)建更加的方便與快捷。同時它的出現(xiàn)也使得人們可以采用一種更自然,更直觀的方式去檢索音樂。只需要對著麥克風(fēng)哼唱一首歌曲的片段,系統(tǒng)便會從音樂數(shù)據(jù)庫中查找出內(nèi)容相似的音樂返回給用戶。2.1音樂樂理基礎(chǔ)聲音是由物體振動產(chǎn)生的,以聲波的形式進(jìn)行傳播,聲波通過各種傳播介質(zhì),傳播到人耳中,引起人耳內(nèi)鼓膜的振動,這些振動被轉(zhuǎn)化為微小的腦電波,傳到大腦相應(yīng)的部位進(jìn)行處理和解釋,形成我們所能覺察到的聲音。自然界中聲音的頻域非常寬廣,但人耳能聽到地聲音頻率大約在20Hz到20000Hz之間。人們把頻率高于20000Hz的聲音稱為超聲波,低于20Hz的聲音稱為次聲波。音樂是屬于聲音世界的一部分。發(fā)聲體(聲源)做有規(guī)則的周期振動,發(fā)出具有固定頻率,具有一定高度的音稱為樂音;沒有固定頻率,無規(guī)律又雜亂無章的音稱為噪音。音樂是按照一定的規(guī)律將各種樂音組織起來,使其產(chǎn)生聽覺美感。音樂主要具有以下基本特征。音符(note):音符是用來一記錄樂音長短的符號,在樂譜中以其形狀表示相對的音長,不同類型的音符代表不同的長度,通常有八分音符、四分音符、二分音符、全音符等。音高(pitch):代表音符的高低,從物理學(xué)角度上看,音高是由聲源振動的頻率決定的。振動的頻率越高,音高越高。在五線譜中音高符一號用C,D,E,P,G,A,B七個字母命名,對應(yīng)簡譜中的1,2,3,4,5.6.7。通常女性發(fā)聲時聲帶的振動頻率較高,一般在1l0Hz到1000Hz之間;相比之下,男性發(fā)聲時聲帶的振動頻率較低,一般是在65Hz到550Hz之間。音長(duration):用來描述一個音符所持續(xù)的時間的長短。音量:通常也稱為音強,響度,聲音的能量等。音量描述的是聲音的強弱。從物理學(xué)的角度上看,它是山發(fā)聲體振動幅度的大小所決定的,發(fā)聲體振動幅度越大,一音量就越強;發(fā)聲體振動的}隔度越小,音量也就越弱。音色:指的是發(fā)聲體的質(zhì)地,它山發(fā)聲體的材料性質(zhì),形狀結(jié)構(gòu),發(fā)聲方式等因素決定,體現(xiàn)的是聲音的總體品格,是聲音給人的一種主觀感覺特征,體現(xiàn)了發(fā)聲體的特色?;?聲音是山發(fā)聲體做一系列頻率、振幅各不相同的振動疊加一而成的?;羰前l(fā)聲體整體振動中頻率最低,最強的振動發(fā)出的聲音。其余為泛音,基音所對應(yīng)的頻率稱為基頻。泛音:發(fā)聲體振動發(fā)出的聲音是以基音為標(biāo)準(zhǔn)的,同時包含著多個泛音,泛音的組合決定了特定的音色,泛音是由發(fā)聲體112.113,1/4等局部部分振動時發(fā)出的聲音。樂器和自然界里所有的音都有泛音。節(jié)奏:節(jié)奏用來描述的是音與音之間的長短關(guān)系與間隔。旋律:多個樂音按某種規(guī)律組織起來的表現(xiàn),也稱為曲調(diào)。在音樂檢索中,常用音高,音長等信息綜合起來表示旋律。在哼唱檢索的研究中,我們主要利用的是音樂的音高和音長特征。因為對于同一首歌曲,不同的人演唱或者用不同的樂器演奏,既使聲音的強弱或音色都會發(fā)生較大的變化,但人們還是很容易地辨認(rèn)出這首歌曲。而如果歌曲的音高或音長發(fā)生較大的變化,這首歌的旋律將會發(fā)生很大的變化。因此,對于音樂來說,音高和音長更能體現(xiàn)出一首歌曲的主要特征。對于基于音樂旋律的哼唱檢索來說,我們更多關(guān)注的是旋律的音高和音長特征。音色也是基于內(nèi)容的音樂檢索系統(tǒng)考慮的另一個重要特征,但更多的是用音色來識別發(fā)聲的樂器。音量更多的用在音樂風(fēng)格的判斷上。2.2音樂文件格式介紹聲音數(shù)據(jù)存儲也有其固定存儲格式。當(dāng)前使用的聲音文件的類型很多,但目前比較流的有WAV文件、VOC文件、MIDI文件、CD文件、MP3文件、WMA文件等。下面簡單介紹一下幾種最常見的聲音文件格式。1.WAV格式WAV文件格式也稱為波形文件格式(wavfileformat),其后綴名為“.wav”。WAV文件格式的標(biāo)準(zhǔn)是由IBM和微軟公司在1991年聯(lián)合制定的。在Windows系統(tǒng)中WAV文件是最常用的多媒體音頻格式之一,被Windows系列平臺及其應(yīng)用程序所支持。其應(yīng)用非常廣泛,同時也是最早的數(shù)字音頻格式。WAV格式的文件支持許多壓縮算法,可具備較高的音質(zhì),然而由于格式對存儲空問需求太大,因此不便于用來交流和傳播。2.MIDI格式MIDI(MusicalInstrumentDigitalInterface,MIDI),樂器數(shù)字接口是用于在一音樂合成器、樂器和計算機之間交換音樂信息的一種標(biāo)準(zhǔn)協(xié)議。MIDI是樂器和計算機使用的標(biāo)準(zhǔn)語言,是一套指定的約定。MIDI格式的音樂文件中存儲的不是聲音信號,而是相關(guān)的指令。即告訴樂器(即MIDI設(shè)備要做什么,怎么做。例如,告訴音樂設(shè)備在某個時刻演奏音符,該音符的音高,持續(xù)時間長度,響度等。MIDI文件具有體積小的優(yōu)點,同時其數(shù)據(jù)是完全可編輯的。因為MIDI文件中存儲的是命令,而不是聲音的波形。較聲音波形而言,編輯命令是很容易實現(xiàn)的。用戶可以在軟件的幫助下可以不斷地自由修改MIDI音樂文件的命令從而改變音樂的音調(diào)、音長等屬性,直到滿足自己想要的效果。MIDI文件雖然體積小,但是卻包含了豐富的音樂信息。MIDI格式的音樂受到了廣泛的應(yīng)用,也被廣大研究人員所關(guān)注。由于從MIDI音樂中提取音樂信息非常便捷,故MIDI音樂文件常用于音樂庫的建設(shè)中。3.MP3格式MP3的全稱是MPEGAudioLayer3,是一種音頻壓縮技術(shù)。采用這種壓縮技術(shù)可以大幅度的降低音頻數(shù)據(jù)量,可以將體積較大的音樂文件以較大的壓縮比壓縮成容量較小的文件。壓縮比甚至可以達(dá)到12:1。它充分利用的是人耳的掩蓋效應(yīng),利用人耳對高頻聲音信號不敏感的特性,將時域波形信號轉(zhuǎn)換成頻域信號,并劃分成多個頻段,對不同的頻段使用不同的壓縮率,對高頻加大壓縮比(甚至忽略信號),對低頻信號使用小壓縮比,保證信號不失真。因此對于大多數(shù)用戶來一說不會察覺壓縮后的音質(zhì)有明顯的下降。而文件的體積只有對應(yīng)文件的1/10左右。4.WMA格式WMA即WindowsMediaAudio,是微軟公司推出的一種壓縮音頻文件格式。WMA在壓縮比和音質(zhì)方而都超過了MP3,它的壓縮比可以達(dá)到18:1,并且即使是在較低的采樣頻率下仍能有較好的音質(zhì)。WMA7之后的WMA支持證書加密,在未經(jīng)許可的情況下,既使將WMA格式的音頻文件非法拷貝到木地,也是無法使用的。在WMA9中,微軟進(jìn)行了大幅改進(jìn),可以使WMA格式的文件在同音質(zhì)條件下比MP3文件的體積少1/3左右,因此非常適合用于網(wǎng)絡(luò)流媒體方面的應(yīng)用。2.3聲音的物理特征對哼唱信號進(jìn)行處理的方法主要分為三大類,基于時域的方法,基于頻域的方法,棍合法?;跁r域的基頻分析方法是最早提出來的,也是最為廣泛使用的一種分析方法。基于時域的分析方法直接利用聲音信號的時域波形,分析語言信號的短時平均能量或短時平均幅度,過零率,短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)等特征?;陬l域的方法是分析聲音的頻域特征,包括語音信號的頻譜,功率譜,倒譜等?;旌戏▌t是綜合利用聲音信號的時域特征或頻域特征進(jìn)行分析,考慮聲音的聲學(xué)感知特性,但通常計算比較復(fù)雜,計算量大?;跁r域的分析方法簡單,直觀,提取的特征信息準(zhǔn)確,獲得了廣泛使用。本文中采用的是基于時域分析方法,主要利用的是聲音信號的以下幾個特征:2.3.1短時平均能量對于信號x(n),假設(shè)窗函數(shù)中的窗長為N,則短時能量可表示為:由于計算短時能量取的是信號值的平方,所以計算出的短時能量對信號比較敏感。實際應(yīng)用中,常用對數(shù)能量。對數(shù)能量的公式如下:采用對數(shù)能量公式計算后得到的值的單位是分貝。是一個相對強度的值,比較符合人耳對聲音大小的感覺。2.3.2短時平均幅度短時平均能量的一個主要問題是函數(shù)對于電平值過于敏感,同時平方運算人為的增加了高低信號之間的差距,且加大了運算量,在實際過程中用平均幅度末表示音量的大小,短時平均幅度函數(shù)的定義為短時平均能量和短時一平均幅度都足用來農(nóng)小音量的大小,音量也被稱為“能量”、“力度”、“強度”等,音量特征在聲音信一號處理中具有重要作用,主要體現(xiàn)在以下兒個方而:(1)用來區(qū)分濁一音,清音與雜音。一般而言,濁音的能量明顯要高于清音,清音的能量又要高于雜音。根據(jù)這一點,在處理的過程可以設(shè)置一個閥值,只提取濁音相關(guān)的數(shù)據(jù)。同時還可以根據(jù)音量的變化大致判定清音變成濁音或濁音變成輕音的時刻。(2)在信噪比較高的情況下,可以用來作為區(qū)分有聲和無聲的依據(jù)。(3)用于端點檢測,估測有聲的聲母或韻母的開始位置及結(jié)束位置。山于音量是一個相對的指標(biāo),與麥克風(fēng)設(shè)備及其自身的設(shè)定有很大關(guān)系。2.3.3音高音高也稱為音調(diào),指的是發(fā)聲體聲帶振動的頻率,通過對基音周期求倒數(shù)來獲得。音高足一種主觀感覺,和音強音量之問其有互為補充的關(guān)系??梢杂靡袅垦a充頻率使人感覺音高相同,也可用頻率來補充音量使人感覺響度相同。下圖中足一咅叉振動發(fā)出的聲音波形,該聲音信號的采樣頻率為16000Hz。圖2.1音叉發(fā)出的聲音波形從中取出一巾貞的波形,包含256個點,波形如下:圖2.2音叉的某一頓波形觀察圖中的波形可以發(fā)現(xiàn),該聲音信號具有明顯的波形,圖中橫線連接的區(qū)域包含有5個周期,橫線兩端的波峰分別對應(yīng)的是第36個點和第218個點。所以聲音的頻率為f=16000/[(218-36)/5]=439.56Hz。通常采用半音(semitone)為單位來表示音高,頻率到半音的轉(zhuǎn)換公式如下:采用公式一可得出該一音叉振動時發(fā)出的聲音的音高為68.9827半音(semitone)。當(dāng)頻率為440Hz時,對應(yīng)該的是69semitone,這與鋼琴上的A4鍵的發(fā)音對應(yīng)。由于音叉振動的頻率非常接近于440Hz,故常用音叉來校準(zhǔn)鋼琴。3基于MATLAB的歌曲制作3.1音頻信號的預(yù)處理對于用戶哼唱的聲音信號,由于受到環(huán)境和設(shè)備的影響。采取到的聲音信號中往往包含有大量的噪聲,這些噪聲包括電氣設(shè)備的噪聲,周圍環(huán)境的噪音等。同時也存在著相關(guān)的信號干擾電源工頻干擾。預(yù)處理的操作一方面是為了盡可能的排除噪音和信號干擾對基頻提取帶來的影響,另一方面則是根據(jù)后期提取音頻信號特征的需要,對音頻信號進(jìn)行進(jìn)一步的處理。通常音頻信號的預(yù)處理包括采樣,預(yù)濾波,去噪,加權(quán)重,加窗分頓幾個步驟。在實際操作中可以將“去噪”這一步放在基頻的后期處理操作中,采用基于能量的過濾和平滑處理來去除噪聲干擾和野點。因此,一個聲音信號預(yù)處理的典型流程如下圖所示:圖3.1聲音信號的預(yù)處理模塊3.2樂理實驗準(zhǔn)備在五線譜的五根等距離的平行橫線上,線上和線間都代表不同的音符,同時可以再五線譜的上方或下方加線或間,在五線譜上音的位置愈高,音也愈高,反之音的位置愈低,音也愈低。五線譜音符與簡譜音階對應(yīng)的對照圖如下。圖3-2五線譜的線和間圖3-3五線譜、簡譜音階對照示意圖3.3音樂存儲準(zhǔn)備圖3-4鍵盤樣式和按鍵編號在上述鍵盤中,我們將A4鍵即編號為49的按鍵的頻率作為基準(zhǔn)頻率,該鍵被命名為A-440,表示它的頻率是440Hz,由于每個音階相隔12個按鍵,那么每兩個按鍵之間的頻率跨度為2的12分之一Hz。這樣可以計算得出編號為44的按鍵的頻率為440×2(44-49)/12Hz。由此可以得出更加一般的頻率計算公式:這樣,只要我們能得到每個按鍵的編號,經(jīng)過上述公式變換,便能得到每個按鍵的頻率。頻率的大小反映了音調(diào)的高低,記錄音符的頻率就相當(dāng)于決定了按鍵在琴盤的位置。在解決了每個按鍵的頻率問題之后,接下來還有一個問題要解決:每個音符持續(xù)的時間。在五線譜中,不同的音符代表不同的長度。音符有以下幾種:全音符、二分音符、四分音符、八分音符、十六分音符、三十二分音符、六十四分音符。我們可以通過識別每個音符的外形來判斷其持續(xù)的節(jié)拍數(shù)。然后再把所有的節(jié)拍數(shù)存儲起來,就可以得到所有音符的時長了。圖3-5樂譜截圖比如在上面的五線譜截圖中,在Violin1音軌,4/4表示以4分音符為一拍,每一節(jié)4拍。例如,在第一小節(jié)中前兩個音符各占一拍,第三個音符占一拍半,第四個音符占半拍。而第一個節(jié)拍中的四個音符的pulse數(shù)分別為4,4,6,2,對pulse單位的說明如下:clear;clc;
A4=440;%標(biāo)準(zhǔn)音A4
pt=44100;p0=pt/2;%頻率
scale12=A4/2^(9/12)*2.^((0:11)/12);%十二平均律
map=[135681012];%七音符
%樂譜
score=[1155665,...dodosolsollalasol-
4433221,...fafamimireredo-
5544332,...solsolfafamimire-
5544332,...solsolfafamimire-
1155665,...dodosolsollalasol-
4433221];%fafamimireredo-
%節(jié)拍
rhythm=repmat([1111112],1,6);
%歌詞
lyric=['一閃一閃亮晶晶'...Twinkletwinklelittlestar
'滿天都是小星星'...HowIwonderwhatyouare
'掛在天上放光明'...Upabovetheworldsohigh
'好像許多小眼睛'...likeadiamondinthesky
'一閃一閃亮晶晶'...Twinkletwinklelittlestar
'滿天都是小星星'];%HowIwonderwhatyouare
%下面開始播放
fori=1:length(score)
fprintf(1,'%c',lyric(i))
wavplay(sin((1:rhythm(i)*p0)/pt*2*pi*scale12(map(score(i)))),pt);
ifmod(i,7)==0
fprintf(1,'\n');
end
end我們存儲的時長是以pulse為單位的,所以乘以該變量就可以完成從樂譜節(jié)拍到存儲音符時長的轉(zhuǎn)換,得到每個音符持續(xù)的時間。至此,讓MATLAB函數(shù)發(fā)出完整的旋律的所有要素我們已經(jīng)準(zhǔn)備好了。3.4音量和音調(diào)的動態(tài)波形顯示該模塊用來展現(xiàn)動態(tài)且富有張力的視覺效果,設(shè)計為時域和頻域顯示兩部分。時域顯示音量的強度,用一條不斷跳躍的曲線表現(xiàn),方法是將信號長度分段,每段約5000點,時長約0.1134秒。啟動定時器timer,用plot指令將各段信號繪制成波形,顯示在控件axes上。頻域描述音調(diào),用20根上下不斷跳轉(zhuǎn)的柱形圖表現(xiàn)。其方法是將各段時間信號進(jìn)行傅里葉變換獲得其幅頻特性,利用bar函數(shù)繪制成柱狀圖,顯示在axes控件上。為增強動態(tài)效果和界面美感,將顯示波形設(shè)計成紅、橙、黃、綠、藍(lán)、靛、紫七種顏色,由紅、綠、藍(lán)三基色合成。繪制時域波形時,直接在plot命令中設(shè)置三基色值,繪制頻域波形時,用colormap命令設(shè)置色調(diào)。另外,該模塊還設(shè)計了“切換顯示”按鈕,通過點擊按鈕可以不斷在時域波形、頻域波形以及無顯示三者之間切換。3.5數(shù)據(jù)存儲我們得到了每個音符的頻率和時長,我們將數(shù)據(jù)存儲在.mat文件中,mat文件不是文本格式的,而是二進(jìn)制的,通過Matlab的load命令可以打開。下面是依次打開的過程:圖3-6加載mat后的視圖這里的兩個結(jié)構(gòu)體表明是對應(yīng)的樂譜是雙音軌。兩個音軌疊加,可以得到更加悅耳的和弦。圖3-7每個結(jié)構(gòu)體的成員變量這是每個結(jié)構(gòu)體里的成員變量,其中keys對應(yīng)的是按鍵的編號,durations對應(yīng)的是每個音符持續(xù)的時長,以pulse為單位。圖3-8keys成員變量的值的集合這是打開keys成員變量后的視圖,可以很清楚的看到,這是按鍵的編號集合。通過循環(huán)遍歷,我們就可以得到每個按鍵的頻率。3.6Matlab結(jié)構(gòu)體仿真Matlab的結(jié)構(gòu)體不用預(yù)先定義,直接使用即可。實例代碼如下:x.Amp=7;x.phase=-pi/2;x.freq=100;x.fs=11025;x.timeInterval=0:(1/x.fs):0.05;x.values=x.Amp*cos(2*pi*(x.freq)*(x.timeInterval)+x.phase);='SinSignal';%echothecontentsofthestructure"x"plot(x.timeInterval,x.values);title();上述代碼的運行效果如下:圖3-9驗證結(jié)構(gòu)體使用方法得到的正弦波形程序流程圖:圖3-10程序流程圖3.7實驗改進(jìn)(ADSR)ADSR用來調(diào)整合成的音樂的幅度,使之對聽眾的耳朵更加友好。x(t)=E(t)cos(2πfkeyt+Φ)公式中的E(t)就是我們應(yīng)該施加的窗函數(shù)。一種普遍的做法是,利用一下函數(shù)來
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年技術(shù)風(fēng)險評估與安全保障合同
- 2024年技術(shù)研發(fā)與知識產(chǎn)權(quán)共享協(xié)議
- 2024年建筑工程專業(yè)分包合作協(xié)議
- 保安制度內(nèi)容(12篇萬能)
- 入職培訓(xùn)心得報告100字(8篇范文參考)
- 2024年拼多多店鋪首頁設(shè)計合同
- 2024年技術(shù)轉(zhuǎn)讓居間合同:權(quán)利與義務(wù)解析
- 2024年技術(shù)研發(fā)許可合同標(biāo)的與技術(shù)范圍
- 《利用印染污泥焚燒灰渣制備硅酸鹽水泥熟料的開發(fā)研究》
- 《血清糖化血紅蛋白水平與急性小動脈閉塞型腦卒中患者神經(jīng)功能缺損程度及預(yù)后的相關(guān)性》
- 2024年國際貨物買賣FOB條款合同
- 華南理工大學(xué)《嵌入式系統(tǒng)》2022-2023學(xué)年期末試卷
- 統(tǒng)編版(2024)七年級上冊道德與法治第三單元《珍愛我們的生命》測試卷(含答案)
- 江蘇省中等職業(yè)學(xué)校學(xué)業(yè)水平考試語文卷含答案
- 售后服務(wù)保障方案3篇
- 2025屆江蘇省南通市海安市海安高級中學(xué)物理高三上期中聯(lián)考試題含解析
- 電梯安裝主要施工方法及施工技術(shù)措施
- 2024-2025學(xué)年二年級上學(xué)期數(shù)學(xué)期中模擬試卷(蘇教版)(含答案解析)
- 入團志愿書(2016版本)(可編輯打印標(biāo)準(zhǔn)A4) (1)
- 等差數(shù)列及其通項公式
- 【土木工程本科畢業(yè)設(shè)計】《混凝土結(jié)構(gòu)》課程設(shè)計
評論
0/150
提交評論