西北工業(yè)大學(xué)大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃項(xiàng)目申請書_第1頁
西北工業(yè)大學(xué)大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃項(xiàng)目申請書_第2頁
西北工業(yè)大學(xué)大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃項(xiàng)目申請書_第3頁
西北工業(yè)大學(xué)大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃項(xiàng)目申請書_第4頁
西北工業(yè)大學(xué)大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃項(xiàng)目申請書_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

西北工業(yè)大學(xué)2023年大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃項(xiàng)目申請書項(xiàng)目名稱哼唱檢索中旋律匹配算法研究所在學(xué)院/基地電子信息學(xué)院申請人商景瑞導(dǎo)師姓名聯(lián)系電話E-mail:填表日期2023年3月24日西北工業(yè)大學(xué)教務(wù)處制表

項(xiàng)目名稱哼唱檢索中旋律匹配算法研究起止時(shí)間2023年4月至2023年6月申請經(jīng)費(fèi)8000元申請人或申請團(tuán)隊(duì)學(xué)號姓名年級所在學(xué)院、專業(yè)聯(lián)系電話E-mail商景瑞大一電子信息學(xué)院通信工程宋燕秋大一材料學(xué)院岳明大二航海學(xué)院電子信息工程宋金夢大三航海學(xué)院電子信息工程導(dǎo)師姓名學(xué)院職務(wù)/職稱E-mail電話一、申請立項(xiàng)依據(jù)(涉及項(xiàng)目背景、項(xiàng)目來源、技術(shù)依據(jù)、前期已有的研究基礎(chǔ),自身具有的知識條件、自己的愛好愛好、專長等)1、項(xiàng)目背景隨著網(wǎng)絡(luò)多媒體數(shù)據(jù)和數(shù)據(jù)庫應(yīng)用的增長,如何對這些數(shù)據(jù)進(jìn)行自動分類和檢索已成為一個(gè)研究熱點(diǎn)。特別對音頻而言,由于出現(xiàn)越來越多在線音樂存儲和音樂檢索,這就需要一種更加有效的機(jī)制去組織檢索這些海量數(shù)據(jù)。基于文本的傳統(tǒng)檢索方式只能對有標(biāo)注信息的音樂文獻(xiàn)進(jìn)行檢索,而基于內(nèi)容的檢索則不依靠標(biāo)注信息,而是根據(jù)音樂中的旋律、節(jié)奏、音色等信息進(jìn)行檢索?!昂叱獧z索”是一種基于內(nèi)容的音樂檢索方法,它已經(jīng)引起了廣泛的研究愛好,其原理是用戶通過麥克風(fēng)唱出歌曲的某個(gè)片斷,系統(tǒng)會通過一定算法找到與之相似歌曲,并相似限度排列反饋給用戶。這種方法相對于人們所熟悉的用歌曲的名稱、演唱者、出版時(shí)間等檢索音樂的方法更加方便、自然。特別在人們搜索某一首歌曲,而卻忘掉歌曲名稱時(shí),這種哼唱檢索的優(yōu)勢就尤為突顯。只需憑借印象中殘存的音樂旋律片段,便可找到相關(guān)音樂。而哼唱檢索中的匹配算法則是音頻數(shù)字信號分析過程中最為關(guān)鍵的一步,其算法的好壞,直接影響到了最終搜索系統(tǒng)的檢索效率,以及精確限度。目前哼唱檢索之所以尚未達(dá)成應(yīng)用階段,除了國內(nèi)對于哼唱檢索的相關(guān)研究較少之外,匹配算法效率低下,從而導(dǎo)致檢索之間較長,匹配精度較低是其重要因素之一。2、項(xiàng)目來源解決當(dāng)前哼唱檢索撇匹配算法效率較低的問題。3、技術(shù)依據(jù)樂理基礎(chǔ),音樂編碼方式,人體發(fā)生機(jī)理,語音解決,語音辨認(rèn),數(shù)字信號解決等。3.1語音的發(fā)聲機(jī)理1、濁音空氣流通過聲帶時(shí),假如聲帶是崩緊的,則聲帶將產(chǎn)生張弛振動,即聲帶將周期性地啟開和閉合。聲帶啟開時(shí),空氣流從聲門噴射出來,形成一個(gè)脈沖,聲帶閉合時(shí)相應(yīng)于脈沖序列的間隙期。因此,這種情況下在聲門處產(chǎn)生出一個(gè)準(zhǔn)周期脈沖狀的空氣流。該空氣流通過聲道后最終從嘴唇輻射出聲波,這便是濁音語音。這個(gè)準(zhǔn)周期脈沖的周期即為基音周期?;纛l率是由聲帶張開閉合的周期所決定的:男性的基音頻率一般為50~250Hz,女性基音頻率為100~500Hz。2、清音空氣流通過聲帶時(shí),假如聲帶是完全舒展開來的,則肺部發(fā)出的空氣流將不受影響地通過聲門??諝饬魍ㄟ^聲門后,會碰到兩種不同情況。一種情況是,假如聲道的某個(gè)部位發(fā)生收縮形成了一個(gè)狹窄的通道,當(dāng)空氣流到達(dá)此處時(shí)被迫以高速沖過收縮區(qū),并在附近產(chǎn)生出空氣湍流,這種湍流空氣通過聲道后便形成所謂摩擦音或清音。3、爆破音另一種情況是,假如聲道的某個(gè)部位完全閉合在一起,當(dāng)空氣流到達(dá)時(shí)便在此處建立起空氣壓力,閉合點(diǎn)忽然啟動便會讓氣壓快速釋放,通過聲道后便形成所謂爆破音。3.2音樂的基礎(chǔ)理論在音樂理論中,我們使用的、有固定音高的音的總和,叫做樂音體系。樂音體系中的各音叫做音級,兩個(gè)音級在音高上的互相關(guān)系叫做音程。樂音體系中的音,按照上升或下降順序排列起來,叫做音列。音列的總范圍叫做音域,即從它的最低音到最高音(A2-C5)間的距離。下邊簡樸將樂理知識介紹如下:聲音是由物體的振動產(chǎn)生的。音符:音符是音樂的基本要素,是記錄樂音及其時(shí)值長短的符號。音高:音高是由物體振動的頻率決定的。頻率越高音越高。音量:音量也稱為音強(qiáng)或能量,音強(qiáng)就是在聽時(shí)人們所感到的響度,也就是人們通常說的強(qiáng)弱或大、小,輕、重,它代表音符的強(qiáng)弱,比如在彈奏鋼琴時(shí)音強(qiáng)說明了一個(gè)琴鍵按下的力度。是由振動的幅度大小決定的,幅度越大音越強(qiáng)。音程:音程是兩個(gè)音級在音高上的互相關(guān)系叫做音程。先后彈奏的兩個(gè)音形成旋律音程,同時(shí)彈奏的兩個(gè)音形成和聲音程。八度:兩個(gè)相鄰的具有同樣名稱的音叫做八度。音名:音名是音符的名稱。通常有三種表達(dá)方法。第一種是音樂用音名表達(dá)法。人們通常以低音譜表第二間的C音定義為中央C,在這種表達(dá)法中把這個(gè)鍵的音名叫做小字一組。l。順序向音高升高的方向?yàn)樾∽忠唤M的其它音。C1的高八度音是c2,從此開始的音叫做小字二組。依此類推是小字三組、小字四組????一直到c5。從c1開始向音高減少處依次為小字組、大字組、大字一組、大字二組。第二種表達(dá)法為聲學(xué)用音名表達(dá)法。是在英文大寫字母右面寫一個(gè)阿拉伯?dāng)?shù)字來表達(dá)音名。第三中表達(dá)法是鍵號表達(dá)法,就是從鋼琴最低音鍵開始以數(shù)字順序編號,以最低音鍵為1號鍵,連同白鍵、黑鍵,向音高升高的方向順序排列。對于標(biāo)準(zhǔn)鋼琴來說共有88個(gè)鍵,所以有88個(gè)音。用鋼琴的琴鍵來表達(dá)音高,是由于一般情況下,其它樂器的基頻音高都不會超過這個(gè)范圍。半音和全音:十二音平均律把八度提成十二個(gè)均等的部分--半音(Semitone)。兩音間的距離等于兩個(gè)半音的叫做全音。音長:音長說明了音符的長短,這是以全音符為基礎(chǔ)劃分的,其它各音符按它與全音符的比值命名,如二分音符、四分音符就相稱于全音符的一半、四分之一。通常音樂都是以四分音符為一拍,八分音符為半拍來演奏音樂的。3.3音樂格式分析MPEG格式:Mp3是指的是MPEG(MovingpictureExpertsGroup)標(biāo)準(zhǔn)中的音頻部分,也就是MPEG音頻層,它誕生于八十年代的德國。根據(jù)壓縮質(zhì)量和編碼解決的不同分為3層,MP3分別相應(yīng)Mp1、mp2、mP3這3種聲音文獻(xiàn)。MPEG音頻文獻(xiàn)的壓縮是一種有損壓縮,MPEG3音頻編碼具有10:1-12:1的高壓縮率,它運(yùn)用人耳的掩蔽效應(yīng),犧牲聲音文獻(xiàn)中12KHz到16KHz高音頻這部分的質(zhì)量來換取文獻(xiàn)的尺寸,同時(shí)基本保持低音頻部分不失真,相同長度的音樂文獻(xiàn),用mP3格式來儲存,一般只有wav文獻(xiàn)的1/10,而音質(zhì)要低于CD格式或wav格式的聲音文獻(xiàn)。RealAudio格式:RealAudio是RealNetWorks公司推出的一種音頻文獻(xiàn)格式,它重要用來在低速率網(wǎng)絡(luò)上進(jìn)行在線音樂欣賞,因而通常它的回放效果較差。它可以根據(jù)網(wǎng)絡(luò)數(shù)據(jù)傳輸速率的不同而采用不同的壓縮比率,在數(shù)據(jù)傳輸過程中邊下載邊播放音樂,從而實(shí)現(xiàn)聲音數(shù)據(jù)的實(shí)時(shí)傳送和播放。WMA格式:即WindowsMediaAudio,是Microsoft公司推出的又一種壓縮音頻文獻(xiàn)格式,它比mP3的壓縮率更高,可達(dá)1:18;wMA的另一個(gè)優(yōu)點(diǎn)是內(nèi)容提供商可以通過DRM(DigitalrightsManagement)方案如windowsMediarightsManager7加入防拷貝保護(hù)。這種版權(quán)保護(hù)技術(shù)可以限制播放時(shí)間和播放次數(shù)甚至于播放的機(jī)器等等。MIDI文獻(xiàn)為解決電子樂器之間的通信問題,1982年,國際樂器制造者協(xié)會會議通過了“通用合成器接口”方案,并命名為“音樂設(shè)備數(shù)字接口MIDI(MusicalInstrumentDigitalinterface)”。MIDI文獻(xiàn)記錄的是音樂演奏指令序列,說明了在什么時(shí)間、用什么樂器演奏什么音符及如何演奏。事實(shí)上MIDI文獻(xiàn)是運(yùn)用聲音輸出設(shè)備或與計(jì)算機(jī)相連的電子樂器進(jìn)行演奏,其中并不包含真實(shí)聲音的數(shù)據(jù),所以文獻(xiàn)尺寸要比聲音文獻(xiàn)小的多。MIDI的重要特性涉及:1)MIDI文獻(xiàn)是一種數(shù)據(jù)文獻(xiàn),包含音樂數(shù)據(jù)和命令:2)MIDI文獻(xiàn)是一種二進(jìn)制文獻(xiàn);3)MDI文獻(xiàn)并不能跨越所有平臺或軟硬件。模塊文獻(xiàn)模塊Module格式是一種己經(jīng)存在了很長時(shí)間的聲音記錄方式,它同時(shí)具有MIDI與數(shù)字音頻的共同特性,也就是說模塊文獻(xiàn)中既涉及如何演奏樂器的指令,又保存了聲音信號的采樣數(shù)據(jù),因此其聲音回放質(zhì)量對音頻硬件的依賴性較小。在不同的機(jī)器上可以獲得基本相似的聲音回放質(zhì)量,它的后綴名常為.MOD、.S3M、.XM、.MTM、.FAR、.KAR、.IT等。3.4音樂特性的表達(dá)旋律是音樂的靈魂,是音樂的基礎(chǔ)。音樂的重要特性就是旋律。旋律的一個(gè)簡樸的定義是單音調(diào)的連續(xù)的音階序列。一般意義上,旋律是音調(diào)和節(jié)奏的組合。研究指出旋律的輪廓比精確的旋律更易于記憶。旋律的輪廓是指音調(diào)的起伏的整體形狀,即相鄰音符的起伏。假定音樂的輪廓和音階是分開存儲在我們的大腦中的,而旋律的輪廓是重要的、印象深刻的部分。相同的旋律輪廓可以映射到不同的音階上。Ewdorthy給出了辨認(rèn)輪廓或音程的改變和旋律的長度有密切關(guān)系的觀點(diǎn)。Dowling也提出了類似的觀點(diǎn)。在以前的研究中,普遍用到的是兩種音樂內(nèi)容的表達(dá)方法:基于音樂節(jié)奏的表達(dá)方法和基于音樂旋律輪廓(音調(diào)高低)的表達(dá)方法。本文采用另一種旋律表達(dá)方法:基于音高差和音長比的表達(dá)方法。三種方法簡樸介紹如下:基于音樂節(jié)奏的表達(dá)方法運(yùn)用節(jié)奏表達(dá)音樂內(nèi)容的方法[2l]忽略了音樂的音調(diào)特性,運(yùn)用音樂的節(jié)奏表達(dá)音樂的內(nèi)容,較基于音樂輪廓的內(nèi)容表達(dá)要復(fù)雜,雖然如此,仍丟失了很多的音樂信息,由于它忽略了音樂的音調(diào)特性?;谝魳沸奢喞?音調(diào)高低)的表達(dá)方法:運(yùn)用三個(gè)字符s-same、u-up、D-down,來表達(dá)音樂的旋律輪廓。音樂音調(diào)輪廓描述了相對音調(diào)的變化,忽略了音樂的節(jié)奏信息,也忽略了音調(diào)的精確變化。一段旋律中的字符表達(dá)當(dāng)前音符與其前面的音符的比較,S表達(dá)音調(diào)的反復(fù),U表達(dá)比其前面音符的音調(diào)高,D表達(dá)比其前面音符的音調(diào)低。如|555534|5.7.|666646|5.(歌曲“同桌的你”節(jié)選)可表達(dá)為SSSSDUUUDSSSDUD。旋律的音調(diào)輪廓同樣會丟失音樂信息。這樣雖然可以減少搜索空間,但同時(shí)也使搜索變得不精確,對于一個(gè)大型數(shù)據(jù)庫來說查找的結(jié)果過多,不利于找到要搜索的目的。為了找到目的歌曲,需要較長的輸入串,這會與用戶對歌曲的記憶的長度相矛盾?;谝舾卟詈鸵糸L比的表達(dá)方法:在基于哼唱的音樂檢索系統(tǒng)中,音符分割是難點(diǎn),假如能很好的將用戶哼唱的聲音信號中的音符分割出來,就可以提取每個(gè)音符的音高值,轉(zhuǎn)換成半音單位。再根據(jù)音符的音高值,計(jì)算出兩個(gè)相鄰音符的音高差。由于每個(gè)人哼唱時(shí)音高不同,我們可以用音高平移的方法,將哼唱聲音信號的音高,平移到比對資料相同的音高。這樣可以提高檢索的查準(zhǔn)率。另一方面,有了比較準(zhǔn)確的端點(diǎn)檢測的結(jié)果后,我們就可以得到每個(gè)音符的音長數(shù)據(jù),根據(jù)音長數(shù)據(jù),我們可以計(jì)算出兩相鄰音符的音長比,作為我們旋律信息的一部分。3、前期已有的研究基礎(chǔ)已完畢對音頻文獻(xiàn)預(yù)解決部分的理論及編程工作,為下一步開展匹配算法的研究做好了準(zhǔn)備工作。4、自身具有的知識條件團(tuán)隊(duì)所有成員對語音信號解決抱有很高的愛好,成員中多為班級及社團(tuán)的骨干成員,有很好的創(chuàng)新性思維,能提出自己獨(dú)立的見解。工作研究踏實(shí)認(rèn)真,具有良好的研究素質(zhì)。團(tuán)隊(duì)中有3名成員是學(xué)習(xí)信息解決方面專業(yè)的同學(xué),對信號解決有一定的了解,具有扎實(shí)的理論基礎(chǔ)。大三的成員已完畢數(shù)字信號解決課程,大二成員通過自學(xué)的方式學(xué)習(xí)了語音解決有關(guān)知識,對語音編碼,信號頻域分析,數(shù)字信號解決有一定的了解。同時(shí)團(tuán)隊(duì)成員都能純熟使用MATLAB,C,JAVA等編程軟件,以及AdobeAudition等音頻解決軟件,為算法功能的實(shí)現(xiàn)提供了良好的條件。二、立項(xiàng)研究的目的和意義隨著哼唱檢索系統(tǒng)的提出以及相關(guān)方面研究情況的發(fā)展,哼唱檢索系統(tǒng)作為一種新興的基于內(nèi)容的檢索方式勢必會被越來越多的人接受和愛慕,并廣泛應(yīng)用于未來的音樂檢索及相關(guān)領(lǐng)域。然而如今國內(nèi)外對于哼唱檢索系統(tǒng)的相關(guān)研究進(jìn)展發(fā)展緩慢,碰到了很多技術(shù)難題,旋律匹配作為哼唱檢索系統(tǒng)中的一項(xiàng)重要環(huán)節(jié),在很大限度上決定了整個(gè)系統(tǒng)的穩(wěn)定性和高效性,其中的許多難題有待突破?,F(xiàn)階段已有從事此方面研究的人從不同層次提出了不同的匹配算法,這其中包含了傳統(tǒng)的動態(tài)時(shí)間規(guī)整算法(DTW),也有經(jīng)典的隱馬爾科夫模型(HMM),應(yīng)用這些算法的確可以完畢一定限度上的精確匹配,在實(shí)驗(yàn)過程中也取得了很好的匹配效果。但是往往由于算法的準(zhǔn)確率和高效性不能兼顧的因素,在真正應(yīng)用到實(shí)際的哼唱檢索系統(tǒng)中去時(shí),并沒有達(dá)成抱負(fù)的匹配效果。所以我們迫切的需要尋找到一種可以平衡算法準(zhǔn)確率和效率的算法或者是采用綜合多種算法。三、項(xiàng)目計(jì)劃實(shí)行研究內(nèi)容哼唱檢索的一個(gè)重要環(huán)節(jié)就是音樂旋律匹配。在特性提取完畢之后,大數(shù)據(jù)量的二進(jìn)制數(shù)據(jù)將被轉(zhuǎn)化為長度很短的字符串序列,將這些序列與音樂數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行相似度計(jì)算,再返回若干相似度最高的音樂,即完畢了搜索過程。在這個(gè)過程中如何將哼唱產(chǎn)生的音樂旋律與已有的模板數(shù)據(jù)庫準(zhǔn)確進(jìn)行匹配并由模板數(shù)據(jù)庫鏈接到歌曲數(shù)據(jù)庫這就涉及到用音樂的哪些特性信息作為可用來匹配的參數(shù)(這些參數(shù)可以反映歌曲之間的不同點(diǎn))這些參數(shù)以什么形式進(jìn)行組織或是表達(dá)可以用來一對一的匹配。初步有兩種也許的解決途徑。參數(shù)函數(shù)法選定反映歌曲本性特性的幾個(gè)重要參數(shù),這寫參數(shù)構(gòu)成了音樂的特性函數(shù)S.若由哼唱產(chǎn)生的音樂特性函數(shù)為S1,從模板數(shù)據(jù)庫提取出來的匹配音樂特性函數(shù)為S2,現(xiàn)在就只需要比較兩個(gè)函數(shù)的相似限度即可。不妨設(shè)d=ls1-s2l,在函數(shù)上分別取點(diǎn)然后計(jì)算d值,以求出最小的d值為最佳匹配結(jié)果并輸出。應(yīng)用此法的話涉及到優(yōu)化的問題,一般可采用的算法有DTW算法(時(shí)間規(guī)整算法)、HMM(馬爾可夫)模型等。音符字符化此種方法比較傳統(tǒng),通常是以音高來作為可匹配的參數(shù),由音高的變化生成一系列的字符串,然后通過字符串的相似限度比較來實(shí)現(xiàn)音樂旋律的匹配,需要用的算法基本上與方法相同。其實(shí)兩種方法的實(shí)質(zhì)都是運(yùn)用音樂的本質(zhì)特性作為匹配的依據(jù),這些特性通常也都是通過某種方式的轉(zhuǎn)化變成可以用計(jì)算機(jī)解決的匹配類問題,在此過程中必然會牽扯到匹配算法的選擇以及改善。如何選擇好的算法以及完畢對算法的進(jìn)一步優(yōu)化以提高算法效率是我們需要重點(diǎn)研究的課題,在明確匹配思緒的同時(shí)也更需要我們在已知算法的基礎(chǔ)上通過采用一種算法或綜合采用多種算法的方式可以較好較準(zhǔn)確的完畢匹配這一環(huán)節(jié)。四、國內(nèi)外研究概況目前國內(nèi)外對于基于內(nèi)容的音樂檢索的匹配算法研究已經(jīng)被大量提出。1995年,Ghias將歌曲轉(zhuǎn)換為音調(diào)輪廓信息進(jìn)行匹配,將連續(xù)音符的音高變化歸納成升高、減少和不變?nèi)?,分別用三個(gè)字符:S-same、U—up、D-down來表達(dá)音樂的旋律輪廓,將音樂的旋律轉(zhuǎn)換成字符串,使用了字符串匹配的相似度方法進(jìn)行檢索。旋律匹配是通過近似字符串匹配算法來完畢的。但該方法需要從哼唱輸人中精確分割出一個(gè)個(gè)音符,這在實(shí)際中一般是很難做到的。并且在旋律匹配中,以巨大的運(yùn)算量來獲得音調(diào)調(diào)整的準(zhǔn)確性,隨著音樂數(shù)據(jù)庫的增大,這類方法越來越顯得局限性。隨后便有人提出了應(yīng)用長半音音階模型來估計(jì)midi和哼唱輸入的參考音高,通過對這兩種音樂特性的分析作為匹配的依據(jù),這種匹配算法運(yùn)算量低但準(zhǔn)確度高。而在實(shí)際應(yīng)用中,越來越大的音樂數(shù)據(jù)庫中不符合長半音音階模型的歌曲越來越多。目前為止,對于基于內(nèi)容的音樂檢索的研究如雨后春筍般地發(fā)展起來。國內(nèi)中國科學(xué)院聲學(xué)研究所在哼唱檢索方面開展了工作,此外如浙江大學(xué)、上海交通大學(xué)、西北大學(xué)等也在基于內(nèi)容音樂檢索方面開展了研究工作,并且工作都重要集中在對匹配算法的改善以及對系統(tǒng)的優(yōu)化之中,提出了好多時(shí)興的算法如動態(tài)時(shí)間規(guī)整(DTW)、隱馬爾科夫模型(HMM)等等。自此對于哼唱檢索中的匹配算法研究工作正如火如荼的開展和進(jìn)行之中,而匹配作為檢索的關(guān)鍵環(huán)節(jié)也在不斷的改善和完善。五、研究方法、技術(shù)路線及研究中面臨的技術(shù)難點(diǎn)和擬采用的解決辦法技術(shù)難點(diǎn):1、準(zhǔn)確度與檢索速度的取舍準(zhǔn)確度與檢索速度是個(gè)互相矛盾的問題,側(cè)重精度,則會導(dǎo)致速度的減緩,而側(cè)重速度,側(cè)有也許導(dǎo)致精度達(dá)不到預(yù)期規(guī)定。2、端點(diǎn)檢測的方法如何使計(jì)算機(jī)擬定用戶哼唱片段的起始位置。3、原聲與用戶的語音差異人與人之間語音的頻率是不相同的,也就是說,每個(gè)人說話的語音都是不同樣的。為了進(jìn)行匹配,就必須消除這種語音特性差異。4、用戶哼唱在調(diào)式方面的錯(cuò)誤由于不能保證用戶都具有良好的音樂基礎(chǔ),所以哼唱片段中也許會有旋律的錯(cuò)誤片段。擬采用的解決辦法:1、準(zhǔn)確度與檢索速度的取舍通過對算法的多次實(shí)驗(yàn),調(diào)整匹配算法的及旋律特性的相關(guān)數(shù)值,尋求精確度與速度見的平衡點(diǎn)。2、端點(diǎn)檢測的方法根據(jù)人哼唱習(xí)慣一般會從整句的開頭起唱,從而只需檢測音樂中整句或整小節(jié)的起始部分。3、原聲與用戶的語音差異可以采用相對值,如前一幀與后一幀的相對頻率,或頻率變化率。4、用戶哼唱在調(diào)式方面的錯(cuò)誤為了能消除用戶哼唱在調(diào)式方面的錯(cuò)誤,一般的檢索算法采用樂曲的相對特性表達(dá),即用樂曲音符的音高差、音長比作為樂曲特性值序列。也許的話,引入模糊算法,會是比較好的解決方案。六、進(jìn)度安排(選題、自主設(shè)計(jì)實(shí)驗(yàn)、實(shí)驗(yàn)研究、數(shù)據(jù)解決、研制開發(fā)、撰寫總結(jié)報(bào)告、項(xiàng)目鑒定、成果推廣或論文發(fā)表等)2023-3選題2023-4至2023-6理論知識學(xué)習(xí)2023-7至2023-12自主設(shè)計(jì)實(shí)驗(yàn)與理論研究2023-12至2023-2實(shí)驗(yàn)研究2023-3至2023-4數(shù)據(jù)解決2023-4至2023-5研制開發(fā)程序2023-5至2023-6撰寫總結(jié)報(bào)告,成果推廣或論文發(fā)表七、擬運(yùn)用資源(開展研究工作所需要的實(shí)驗(yàn)室、創(chuàng)新競賽基地、重要儀器設(shè)備、試劑、參考資料及其他工作條件等)書籍:語音辨認(rèn)、語音信號分析、數(shù)字信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論