基于樂器演奏的樂音識別系統(tǒng)的研究_第1頁
基于樂器演奏的樂音識別系統(tǒng)的研究_第2頁
基于樂器演奏的樂音識別系統(tǒng)的研究_第3頁
基于樂器演奏的樂音識別系統(tǒng)的研究_第4頁
基于樂器演奏的樂音識別系統(tǒng)的研究_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——基于樂器演奏的樂音識別系統(tǒng)的研究

一、研究的啟發(fā)及其意義

讓計算機聽懂樂曲并自動生成譜表是我從小的愿望。前不久我仍看到父親邊聽錄音邊記譜,聽一段,記一句,有時一句需要聽上幾遍,才能記錄來,這使得他老人家工作勞累,真想用所學(xué)的計算機專業(yè)學(xué)識去幫他解決如此繁雜的事情。另外,在我學(xué)習(xí)揚琴的過程中,也遇到類似的難題——在網(wǎng)上學(xué)習(xí)中國音樂學(xué)院揚琴教授項祖華和李玲玲的揚琴曲時,被他們諳熟入耳的名曲演奏迷醉,夢想找到相應(yīng)的曲譜來練習(xí),但搜來搜去并無結(jié)果,于是便開頭研究識譜軟件。

酷我MP3伴侶是一款音樂識別軟件。它應(yīng)用音頻指紋技術(shù),根據(jù)旋律可切實識別歌名、歌手、專輯名等信息。這主要是針對在網(wǎng)上探尋海量的音樂文件,不具備識譜功能。目前,有一款曲譜編輯軟件,但它只能識別電子琴這一種有MIDI音樂接口的音頻,對MIDI文件可以轉(zhuǎn)換簡譜或五線譜。但對于其他樂器(鋼琴或琵琶等民族樂器)產(chǎn)生的音頻文件,就無法轉(zhuǎn)換。譬如從網(wǎng)上下載或錄制的樂曲那么無法轉(zhuǎn)換并產(chǎn)生相應(yīng)譜表。筆者將能供給這一功能的系統(tǒng)初步命名為基于樂器演奏的樂音識別系統(tǒng),并開頭了通過計算機程序設(shè)計與數(shù)據(jù)信號處理的學(xué)習(xí)和研究。

此項研究對全體音樂創(chuàng)作領(lǐng)域的作曲人士和眾多喜歡音樂的人有著重大意義,也將隨著這項研究的完成而節(jié)省大量的精力、時間、財力,從而提高工作效率。所以能夠通過使用計算機程序來自動識別演奏或演唱的樂曲并自動完成樂譜創(chuàng)作,將會使音樂人創(chuàng)作效率得到很大提高,并能極大地激發(fā)創(chuàng)作靈感,變更目前由于手稿寫樂譜的不便而導(dǎo)致創(chuàng)作效率低甚至影響靈感發(fā)揮的不良狀況。樂音識別這一技術(shù)在音樂創(chuàng)作中有很重要的實用價值。

二、國內(nèi)外研究現(xiàn)狀

現(xiàn)有的樂音識別系統(tǒng)有好多,如《調(diào)音之王》弦樂器體系?穴包括提琴、吉它、古箏、三弦、琵琶、二胡等?雪,樂器聲音測試,頻譜,聲音標(biāo)準(zhǔn),檢測,弦樂器學(xué)習(xí)的好幫手,是一個完整的自動化的樂音識別系統(tǒng),但卻沒有樂譜自動生告成能;再有《樂音3.0》可通過外接MIDI音源、模擬MIDI鍵盤作曲,但對于除電子琴外的其他樂器演奏的音源,就無法產(chǎn)生相應(yīng)的樂譜。

2005年在《樂音識別方法及應(yīng)用》①一文中提出能使計算機聽懂樂器(如鋼琴)的演奏并自動譜曲,即根據(jù)錄入的鋼琴演奏曲產(chǎn)生相應(yīng)的五線譜表,如圖1所示。另外,在2009年《樂音音符基頻識別》②一文中,通過語音信號的短時能量和過零率來確定語音的端點以及分割音節(jié),進而通過短時自相關(guān)函數(shù)法來提取基音周期。

在研究樂音識別技術(shù)及應(yīng)用的根基上,筆者提出目前該系統(tǒng)的缺乏之處:五線譜表中無小節(jié)線,也無終止符號,而且無法得志只懂簡譜的宏大用戶的需求,更重要的是,此項研究沒有持續(xù)完成,也沒有投入使用。就此對以上問題開展研究,并用另一種有效可行的方法及算法加以驗證,從而進一步改善原有的樂音識別系統(tǒng)。

目前以樂音音符識別為目的,并完成自動樂曲創(chuàng)作的研究不多,有關(guān)樂音處理方面的研究大多局限在樂音的數(shù)字采樣、濾波、音效處理、編輯等。在音符錄入方面,那么一般使用MDII鍵盤簡樸映射實現(xiàn),并不涉及研究的樂音音符?穴音高?雪的識別。

三、樂音識別系統(tǒng)

基于樂器演奏的樂音識別的過程,是根據(jù)樂器演奏音頻輸入自動產(chǎn)生相應(yīng)的音樂譜表?穴簡譜或五線譜?雪,即通過一系列的信號和數(shù)據(jù)處理過程將原始音頻信息轉(zhuǎn)換成為符號表示的樂譜信息,從而實現(xiàn)樂音識別的功能。

對樂器演奏信息的獲取和處理有多種方法,可以是一個在線錄制的樂曲,也可以自己錄制。處理的主要目的是從音頻文件中提取出表達音樂旋律的特征信號。對信號的處理過程使用時域方法、頻域方法或時域頻域相結(jié)合的處理方法舉行音符分割、音高跟蹤,得到旋律特征數(shù)據(jù)序列,再以特定的組織方式將旋律特征序列作為匹配譜表的輸入,在提前錄制好的單音符數(shù)據(jù)庫中舉行旋律特征匹配,從而產(chǎn)生相應(yīng)的譜表。

本文的工作面向樂音識別中樂器演奏信號處理,即對樂器演奏音頻信號舉行處理,獲取旋律特征信息,并將旋律信息表示為一種合理的中間格式,可以直接或變換后用于不同的樂音識別系統(tǒng),舉行譜表的構(gòu)造。

樂器演奏音頻處理方法

對樂器演奏音頻信號的處理方法可以采用一般對語音信號分析處理的方法,但又有所不同:語音信號處理針對目的的不同,處理的重點與概括采用的方法也不同。我對樂器演奏音頻處理的過程分為三個片面:

1.預(yù)處理

預(yù)處理片面包括錄音、降噪、整流、低通濾波、計算短時幀能量等操作。一般使用聲卡和麥克風(fēng)舉行錄音采樣來得到數(shù)字化的樂器演奏音頻數(shù)據(jù)。樂器發(fā)聲基頻范圍依據(jù)不同的樂器而不同,基音頻串范圍最寬的是鋼琴,由27.5Hz—4136Hz以內(nèi),綜合考慮系統(tǒng)所需的數(shù)據(jù)精度和計算繁雜度,確定了預(yù)處理程序音頻采集格式為22025Hz/8bit/momo,數(shù)字化后去除信號直流分量。

目前,筆者對數(shù)字化的音頻信息只做簡樸低通濾波,由于使用的是在線方式將優(yōu)質(zhì)的樂器演奏曲子錄制了其中5秒的一段作為測驗測試的音頻數(shù)據(jù)。

第一步:錄音

可用Windows自帶的“錄音機”或特意的音頻處理軟件CoolEdit或AdobeAudition的錄制即可。

其次步:降噪

在實際應(yīng)用環(huán)境中,作曲人士大多使用現(xiàn)場錄制樂器聲音或在線錄音作為輸入數(shù)據(jù)。一般面對的條件是配置聲卡的個人電腦和普遍的麥克風(fēng),且無法制止環(huán)境噪聲的干擾。所以,假設(shè)是現(xiàn)聲錄音,務(wù)必對輸入信號做降噪處理。

降噪的主要目的是為了有利于后續(xù)的音符分割和音高跟蹤,可以用音頻處理軟件CoolEdit或AdobeAudition中的降噪功能簡樸而有效地對音頻信號的噪聲舉行降噪處理。假設(shè)是在線錄制的音頻,由于質(zhì)量高,不降噪也可。

由于我們的關(guān)鍵目的是將樂器的樂音轉(zhuǎn)換為樂譜,而樂音與樂譜的一些特性,抉擇了對錄制的音頻文件不需太高的要求,只要沒有明顯的噪聲即可。

第三步:二次處理

音頻信號進一步處理步驟:①對音頻信號全波整流;②對整流信號舉行低通濾;③計算短時幀能量。

選擇一個適合的幀長對音頻信號舉行分幀,得到一個二維矩陣frame(每行對應(yīng)一幀數(shù)據(jù),矩陣行數(shù)等于幀數(shù),列數(shù)等于幀長)。計算每一個短時能量的公式如下:

%計算門限

E=sum?穴frame,2?雪/lf;

T=2?觹?眼sum?穴E?雪/length?穴E?雪?演;

G=gradient?穴E?雪;

%計算能量梯度,選取上升快速的點,與高能條件結(jié)合,共同確定特征區(qū)域。

Gm=1.5?觹{sum[abs?穴G?雪]/length?穴G?雪};

2.利用音頻特征點的檢測實現(xiàn)音符的切實定位

如何切實、有效地舉行音符的切實定位(即音符分割),是樂音識別系統(tǒng)中最困難,也是最為關(guān)鍵的問題。對于樂器演奏的音符分割的處理相對簡化,可以采用語音識別端點檢測類似方法。常用的端點檢測方法有基于能量、基于能量與過零率、基于信息嫡、基于頻域特征等。

根據(jù)樂曲的旋律及對語譜圖(如圖2下半片面所示)的查看和分析,筆者察覺:語譜圖中表現(xiàn)出全體的音符的音調(diào)都表示出深色的縱向條紋。因此可以采用特征點檢測的音符分割方法,使用時域、頻域與最高能量相結(jié)合的方法,既簡化計算過程,又可以對比有效而切實地舉行音符分割。

本系統(tǒng)中測驗所用音頻為普遍揚琴演奏的一段練習(xí)曲(本文稱為示范曲)。語譜圖的橫坐標(biāo)是時間,縱坐標(biāo)是頻率,坐標(biāo)點值為語音數(shù)據(jù)能量。由于是采用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強。

首先采用基于能量跟蹤的方法作為第一級,由于有效地舉行了降噪處理,信號有較高的信噪比。這種處境下,通過計算信號的短時能量,就可以通過能量跟蹤找到每個音符語音段的開頭及終止時間。有了音符分割的數(shù)據(jù),音高跟蹤的工作也得以簡化并更加有效。其次級的音符分割基于音高跟蹤的結(jié)果得到,目的是把第一級沒有分割開的連奏音符根據(jù)音高顯著變化特征,即基音頻率不同而進一步分割開來,這樣,就由兩級音符分割得到了每個獨立音符的起始和終止時間?穴以幀序號表示?雪,由音高跟蹤得到了每個音符的基音頻率值。

①確定能量門限值

一段樂音音頻中高能的波峰有多個,高能幀通常是高能波峰的標(biāo)志,也是音符的起點。選擇一個適合的門限可以篩選出若干高能幀,即可確定出若干音頻信號特征點(即音符的音高)。為使特征點選擇方法用于多種音頻,門限可取一個相對值:即取平均幀能量的若干倍作為能量門限,N是幀數(shù);倍數(shù)β越大,得到的特征點就越少。

能量門限的取值相當(dāng)關(guān)鍵,若取得過大,那么會漏掉某些弱音,若取得過小,那么多出大量同音,這樣的話,產(chǎn)生出來的樂譜

就不夢想了。因此結(jié)合樂譜中的最小音長,就可以解決。

②梯度門限選擇

利用幀能量變化的梯度可以確定能量的變化速度。使用梯度門限與能量門限結(jié)合可以使選擇的重點更穩(wěn)定。

3.樂譜表示

計算出兩個特征點之間的距離(時間長短),就可以確定前一音符的時值,即音長(如表1所示,本文以90拍為例),將其暫存,再取出特征點所在頻率,與音符頻率對照表(如表2所示,本文以G調(diào)為例)對照,將得到的音符序列的音名和音長按照確定的組織布局將這些數(shù)據(jù)表示成中間格式,舉行

旋律表達,即可得到譜表。

示范曲調(diào)號、拍號及速度:

1=G2/41=90

四、系統(tǒng)目標(biāo)

通過采用基于Matlab的分析、處理、識別技術(shù),并將分析處理識別結(jié)果封裝成DLL文件,通過VB6.0調(diào)用,功能簡樸、界面直觀、穩(wěn)當(dāng)性高。結(jié)果在用VB設(shè)計的應(yīng)用程序界面上:先開啟一個錄制好的音頻文件,其格式為:22050Hz采樣率、16位單聲道的Wave波形文件(擴展名為.wav)(其他格式的音頻文件由于本系統(tǒng)目前還未擴展其功能,可先通過千千靜聽等一些音頻播放或∑音頻編輯軟件便當(dāng)轉(zhuǎn)換),顯示播放的聲音波形(本文以G調(diào)的一段揚琴曲為例,預(yù)期

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論