基于分形理論的音樂(lè)特征提取方法_第1頁(yè)
基于分形理論的音樂(lè)特征提取方法_第2頁(yè)
基于分形理論的音樂(lè)特征提取方法_第3頁(yè)
基于分形理論的音樂(lè)特征提取方法_第4頁(yè)
基于分形理論的音樂(lè)特征提取方法_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于分形理論的音樂(lè)特征提取方法

根據(jù)用戶網(wǎng)站,他們可以閱讀歷史和網(wǎng)站本身的內(nèi)容,并獲得用戶的個(gè)性化需求。在此基礎(chǔ)上,推薦相關(guān)信息以實(shí)現(xiàn)積極的導(dǎo)航。該推薦系統(tǒng)使用戶更方便地獲得大量互聯(lián)網(wǎng)信息的必要知識(shí)?;趦?nèi)容的音樂(lè)推薦系統(tǒng)是音樂(lè)或娛樂(lè)網(wǎng)站大力發(fā)展的新主題,但是與文本內(nèi)容不同的是音樂(lè)具有更大的數(shù)據(jù)量和難以描述的推薦特征;前者將導(dǎo)致算法的時(shí)間復(fù)雜度難以達(dá)到在線處理的要求,后者使搜索具有很大的模糊性:用戶喜歡某首歌可能是因?yàn)楦枋?、歌詞、節(jié)奏、旋律等多種因素,甚至自己也不能清楚描述其原因所在,這使推薦系統(tǒng)的音樂(lè)特征難以確定。音樂(lè)推薦系統(tǒng)中基于內(nèi)容的音樂(lè)特征(以下簡(jiǎn)稱音樂(lè)推薦特征)并不完全等同于音頻檢索、分割中的音樂(lè)特征,后者需要對(duì)某一音樂(lè)信息的完整表達(dá),而音樂(lè)推薦系統(tǒng)需要獲取其整體性特征為個(gè)性化推薦提供依據(jù)。因此,音樂(lè)推薦特征實(shí)際可以看作個(gè)體音樂(lè)相對(duì)于整個(gè)音樂(lè)庫(kù)的個(gè)性描述,此外還要求特征維數(shù)不能太大,以保證在線處理的能力。介紹的算法首先通過(guò)設(shè)定音樂(lè)的內(nèi)容特征,構(gòu)建音樂(lè)庫(kù)的特征記錄集;之后采用分形理論對(duì)記錄集進(jìn)行屬性約簡(jiǎn),得到n維矢量構(gòu)成音樂(lè)推薦特征向量,最后定義向量之間的距離度量獲得不同音樂(lè)之間的相似度,實(shí)現(xiàn)音頻的歸類和推薦。1基音特征的推導(dǎo)有很多特征被提取出來(lái)用于描述音樂(lè),包括頻域能量、子帶能量、頻域中心、基音頻率、MFCC系數(shù)(Mel-FrequencyCepstralCoeffficient)等,其主要思想是對(duì)音樂(lè)音高(頻率)、音長(zhǎng)(節(jié)奏)、響度(重音)的刻畫(huà)等。這些特征需要將音頻分割成等時(shí)間的幀、加窗,有時(shí)為了保證幀間特征的平滑還需要設(shè)置幀交疊,經(jīng)過(guò)傅里葉變換得到幀頻譜F(w)后,可以計(jì)算以下音樂(lè)特征:基音頻率:F0,第一個(gè)諧波頻率,用于衡量音調(diào)高低。MFCC系數(shù):主要表達(dá)聲道或樂(lè)器的音色特征?;谏鲜鎏卣鬟€可以推導(dǎo)出音樂(lè)幀的其他特征,如靜音比例、子帶能量均值、帶寬均值、基音頻率標(biāo)準(zhǔn)方差、諧成份比例、相鄰幀MFCC差值等。之后還提出了一些新音樂(lè)特征描述方法,如以聲譜圖來(lái)概略地描述一段音樂(lè),該方法選取每一幀中最大的K個(gè)頻率值構(gòu)建“特征識(shí)別矩陣”,依據(jù)矩陣的相似性進(jìn)行音樂(lè)檢索。此外還有使用模糊粗糙集模型的音樂(lè)數(shù)據(jù)約簡(jiǎn)算法,以及MDCT頻譜熵壓縮域音頻指紋算法等,這些方法都在音樂(lè)檢索中得到了驗(yàn)證。2基于分形維數(shù)的屬性約簡(jiǎn)基于內(nèi)容的檢索希望依據(jù)某一曲或一些音樂(lè),得到相同或相近的其他作品,這是一個(gè)分類和查詢的過(guò)程。而推薦系統(tǒng)是從現(xiàn)有音樂(lè)庫(kù)中檢索出相似的其他作品,這種相似特征帶有相對(duì)性,音樂(lè)的相似不是指在某個(gè)時(shí)間段具有相同的音樂(lè)特征,而是總體感覺(jué)接近。因此,從特征選擇角度來(lái)看,音樂(lè)推薦比基于內(nèi)容的檢索更強(qiáng)調(diào)整體的概念,這也符合實(shí)際應(yīng)用需求?;谝陨戏治?構(gòu)建音樂(lè)庫(kù)特征數(shù)據(jù)集如下:對(duì)所有音樂(lè)進(jìn)行等長(zhǎng)分幀。提取每一首音樂(lè)的音樂(lè)特征(如第1章所述)構(gòu)成一條記錄,所有音樂(lè)特征構(gòu)成了一個(gè)音樂(lè)記錄集。對(duì)一個(gè)數(shù)據(jù)集而言,并非所有屬性都是記錄分類所必須的,分類無(wú)關(guān)或弱相關(guān)的屬性為冗余屬性。為了刪除原始音樂(lè)記錄集的冗余屬性,需要利用分形維數(shù)進(jìn)行屬性約簡(jiǎn)。分形來(lái)自于對(duì)自然、類自然的描述,在音樂(lè)處理中也得到了應(yīng)用,如BigerelleM等利用音樂(lè)的分形維數(shù)作為音樂(lè)特征對(duì)多種音樂(lè)進(jìn)行分類,李堅(jiān)等提出利用分形幾何抽取音頻特征的全局化音頻檢索,在學(xué)習(xí)階段計(jì)算音頻數(shù)據(jù)庫(kù)中每個(gè)音頻的分維作為特征向量。但這些研究是將分形應(yīng)用于具體一首音樂(lè)或一首音樂(lè)的局部特征,而分形的本質(zhì)是總體與部分的相似,因此音樂(lè)特征抽取的記錄集也具有分形特征。一個(gè)數(shù)據(jù)集是否具有分形特征尚未有理論上的鑒定,但是通過(guò)對(duì)具體數(shù)據(jù)集的分形維數(shù)計(jì)算可以得到反演認(rèn)定,這也是利用分形理論對(duì)記錄集進(jìn)行屬性約簡(jiǎn)的基礎(chǔ),研究證明,分形理論應(yīng)用到擁有較多屬性的數(shù)據(jù)集上可以達(dá)到更好的屬性約簡(jiǎn)效果。實(shí)際求解一個(gè)數(shù)據(jù)集的分形維數(shù)常常采用計(jì)算記錄集的盒維來(lái)近似得到,其具體過(guò)程如下:設(shè)數(shù)據(jù)集s={A,E,d},其中A表示擁有p個(gè)屬性的屬性集{A1,A2,…,Ap},d表示分類屬性,E表示包含n個(gè)元組的對(duì)象集,依據(jù)Traina等人的研究,如果將E映射到p維空間,并將每一維1/r等分(r=1/2,1/4,1/8,…)后得到(1/r)*p個(gè)單元格,依屬性集順序從0開(kāi)始編號(hào)每一個(gè)p維單元格,則第i條記錄Ri={Ri1,Ri2,…,Rip}在p維空間中落入的單元格順序編號(hào)可以基于(Ri1/R1,Ri2/R2,…,Rip/Rp)得到,其中R1,R2,…,Rp分別為數(shù)據(jù)集的屬性A1,A2,…,Ap的值域范圍被1/r等分之后的數(shù)值,記第i個(gè)單元格落入的點(diǎn)數(shù)為C(r,i),令則數(shù)據(jù)集的分形維數(shù)可以定義為:對(duì)于自相似的數(shù)據(jù)集,式(1)是常數(shù),而對(duì)于實(shí)際數(shù)據(jù)集,在以logr為橫坐標(biāo),以log(S(r))為縱坐標(biāo)的兩維坐標(biāo)系統(tǒng)中描點(diǎn),其曲線的近似斜率即為數(shù)據(jù)集的分形維。研究證明數(shù)據(jù)集的分形維數(shù)是數(shù)據(jù)集的固有維數(shù)的一個(gè)精確度量。由式(1)可知,分形維數(shù)的計(jì)算并不需要分類屬性的參與,而分類屬性常常應(yīng)用在檢驗(yàn)過(guò)程中。3固有維數(shù)的提取設(shè)音樂(lè)記錄集的原有屬性為m,通過(guò)計(jì)算出音樂(lè)記錄集的盒維n,可以認(rèn)定原記錄集的固有維數(shù)為n,即數(shù)據(jù)集有(m-n)個(gè)冗余屬性,與傳統(tǒng)的維數(shù)約簡(jiǎn)過(guò)程中采用剔除冗余屬性或選擇候選屬性的方法提取數(shù)據(jù)集的固有維數(shù)不同,提出基于每條記錄進(jìn)行獨(dú)立處理的策略。首先,音樂(lè)記錄集中每一屬性并不同于傳統(tǒng)數(shù)據(jù)集中的嚴(yán)格定義,根據(jù)一首音樂(lè)的等時(shí)間段劃分獲取的某一特征僅僅反映的是該音樂(lè)在一個(gè)時(shí)段的特點(diǎn)。另一方面,兩首相似的音樂(lè)是因?yàn)榫哂懈嗟南嗨铺卣?并且相似特征強(qiáng)度越大,其相似性表現(xiàn)得愈明顯,文獻(xiàn)就以聲波強(qiáng)度進(jìn)行音樂(lè)特征的構(gòu)建。因此,對(duì)每一首音樂(lè)的原有m個(gè)特征選擇數(shù)值最大的前n個(gè)特征,并依據(jù)時(shí)間順序構(gòu)成推薦特征。這一方法同時(shí)也提高了特征集的抽取效率。4音樂(lè)推薦特征向量的相似兩個(gè)音樂(lè)推薦特征向量之間的相似性并不等同于傳統(tǒng)向量之間的度量,因?yàn)閭鹘y(tǒng)向量的每一個(gè)分量表達(dá)相似性的能力相當(dāng),因此采用夾角余弦可以反映出兩個(gè)傳統(tǒng)向量之間的相似度,對(duì)于兩個(gè)特征向量X={x1ue0a8x2ue0a8ue02a,xn}ue0a8Y={y1ue0a8y2ue0a8ue02a,yn},其夾角余弦的定義為:夾角余弦的取值在范圍,當(dāng)其值為1時(shí),兩個(gè)向量是完全一樣的。但就音樂(lè)推薦特征向量而言,兩個(gè)向量中序號(hào)相同的一對(duì)分量并不表示相同的幀位置,但向量的順序號(hào)反映了同一首音樂(lè)中幀的順序,其數(shù)值的接近與否代表了音樂(lè)的相似程度。因此式(2)僅從一定程度上對(duì)音樂(lè)推薦特征向量之間的相似性進(jìn)行了描述。音樂(lè)的相似性也可能在不同的時(shí)間順序上有相同或相似的旋律等特點(diǎn),反映在特征向量上可能表現(xiàn)為兩個(gè)向量有很多相同的分量值,但它們并不是彼此對(duì)應(yīng)的,如以下向量:x={1,1,1,5,5,5},y={5,5,5,1,1,1},可以看出這兩個(gè)音樂(lè)推薦特征向量有較大的相似性,但由式(2)算得的相似結(jié)果僅為0.385,甚至沒(méi)有特征x={1,1,1,1,1,1},y={2,2,2,2,2,2}得到的結(jié)果大(0.4)。因此比較兩個(gè)音樂(lè)推薦特征向量之間的相似性,需要忽略它們的順序,當(dāng)二者有更多相同或接近數(shù)值的分量時(shí),定義其為相似。針對(duì)這一特性定義兩個(gè)音樂(lè)推薦特征向量的距離d2為一個(gè)向量間所有分量與另一向量中所有分量最接近值之差的絕對(duì)值之和。d2的獲得需要遍歷向量的所有特征值,兩向量距離的偽代碼如下。由偽代碼可以看出,計(jì)算距離的時(shí)間復(fù)雜度為O(n2),n代表向量的維數(shù),而實(shí)際n值一般在幾百以內(nèi),因此其耗時(shí)是很小的。對(duì)由偽代碼獲得的距離進(jìn)行數(shù)據(jù)歸一化處理,最終定義為:d2=1-e-d2,基于式(2)定義另一距離為:d1=1-ρ。由此得到兩個(gè)音樂(lè)推薦特征向量之間的距離為:基于式(3)得到上文中提到的第一對(duì)向量之間的距離為0.3075,而第二對(duì)向量之間的距離為0.7975,符合本文預(yù)期。5模擬實(shí)驗(yàn)5.1音樂(lè)特征的提取為了檢驗(yàn)提出的推薦特征的有效性,分別選取wav格式的音樂(lè)683首,包括男女生流行音樂(lè)獨(dú)唱歌曲、女聲小合唱、鋼琴演奏、古箏獨(dú)奏、二胡獨(dú)奏等六種風(fēng)格的音樂(lè),數(shù)據(jù)采用雙聲道、采樣率為22.05kHz、存儲(chǔ)精度為16位格式。所選音樂(lè)要求時(shí)間比較接近,全部在3.6min至5.2min之間。實(shí)驗(yàn)主要抽取了以下三個(gè)特征進(jìn)行分析:頻域能量,基音頻率標(biāo)準(zhǔn)方差以及基于聲譜圖的識(shí)別矩陣的第一行,即每一幀中強(qiáng)度最大的一個(gè)頻率值。三個(gè)特征分別代表了音樂(lè)的原始特征、初步統(tǒng)計(jì)特征、較高程度的抽象特征。為了減少音樂(lè)庫(kù)記錄集的初始屬性數(shù),實(shí)驗(yàn)中對(duì)每首音樂(lè)劃分為6個(gè)580ms的音樂(lè)片段,相鄰片段之間間隔相同的時(shí)間,并保證其均勻地分布在整首音樂(lè)上,再對(duì)每段加23ms的Hamming窗形成幀,相鄰幀有50%重疊,這樣一首音樂(lè)可以提取300個(gè)特征。為了防止式(3)運(yùn)算過(guò)程中,數(shù)據(jù)本身的較大差異使距離權(quán)重偏大或偏小,對(duì)所選特征值都進(jìn)行了歸一化處理。5.2u3000約簡(jiǎn)的聚類分析首先利用式(1)計(jì)算數(shù)據(jù)集的分形維數(shù),圖1是基于頻域能量形成的初始數(shù)據(jù)集K1在迭代200次下的盒維走勢(shì)圖(因數(shù)據(jù)差別較大,縱橫坐標(biāo)比例不同,且橫軸是單元格個(gè)數(shù)r,而不是log(r)),從盒維比較光滑的走勢(shì)及總體斜率相似的特點(diǎn),可以斷定K1數(shù)據(jù)集具有良好的分形特征。對(duì)K1計(jì)算得到分形維數(shù)為138。同樣的計(jì)算,基音頻率標(biāo)準(zhǔn)方差的初始數(shù)據(jù)集K2的分形維數(shù)為122,每幀強(qiáng)度最大頻率值的初始數(shù)據(jù)集K3的分形維數(shù)為175。分別從K1的每一條記錄選取TOP138個(gè)值構(gòu)成基于頻域能量的特征數(shù)據(jù)集F1,F1是擁有138個(gè)屬性683條記錄的數(shù)據(jù)集,同樣的F2(122X683)、F3(175X683),利用k-mean聚類方法,采用式(3)的距離定義,分別對(duì)記錄集F1,F2,F3進(jìn)行6分類聚類,得到的結(jié)果見(jiàn)表1。表1數(shù)據(jù)中形如“6A3”代表將6首A3類(女聲小合唱)錯(cuò)分為本類。從表1可以看到本文提出的推薦特征是非常有效的,對(duì)原始特征、初步統(tǒng)計(jì)特征、較高程度的抽象特征都有良好的效果,說(shuō)明提出的新方法得到了很好的效果。為了驗(yàn)證約簡(jiǎn)后的數(shù)據(jù)集是否是必須的分類數(shù)據(jù)集,即沒(méi)有或僅有很少的冗余屬性,對(duì)K1數(shù)據(jù)集分別抽取了每一條記錄的TOP30,TOP50,TOP70,TOP90,TOP110,TOP130,TOP150個(gè)值構(gòu)成SK1~SK7個(gè)數(shù)據(jù)集,進(jìn)行的k-mean聚類結(jié)果見(jiàn)表2。表2中“Q”代表被錯(cuò)分音樂(lè)類別,分析表1可以看出約簡(jiǎn)后的數(shù)據(jù)集中的屬性并沒(méi)有太多的冗余。依據(jù)表2和表1最后一行數(shù)據(jù)所繪制的折線圖(圖2)可以直觀地發(fā)現(xiàn)這一特點(diǎn)。6在線推薦特征抽取提出了對(duì)整個(gè)音樂(lè)集進(jìn)行統(tǒng)一處理的研究思路,這事實(shí)上將無(wú)窮搜索變成了在有限范圍的查找。相比于基于內(nèi)容的音樂(lè)檢索等研究中需要用特征矩陣描述一首音樂(lè),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論