713AM如何寫基金申請(qǐng)1_第1頁
713AM如何寫基金申請(qǐng)1_第2頁
713AM如何寫基金申請(qǐng)1_第3頁
713AM如何寫基金申請(qǐng)1_第4頁
713AM如何寫基金申請(qǐng)1_第5頁
已閱讀5頁,還剩80頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、如何寫科研基金申請(qǐng)的建議如何寫科研基金申請(qǐng)的建議 趙鶴鳴趙鶴鳴 蘇州大學(xué)電子信息學(xué)院蘇州大學(xué)電子信息學(xué)院 20132013年年7 7月月 如何寫科研基金申請(qǐng)如何寫科研基金申請(qǐng) 科研經(jīng)費(fèi)是開展科研的前提條件和物質(zhì) 基礎(chǔ),科研經(jīng)費(fèi)又必須通過申報(bào)課題才能獲 得,這里有科研選題、科研設(shè)計(jì)和科研申請(qǐng) 書的寫作三個(gè)重要環(huán)節(jié)。 一、科研課題申報(bào)渠道 1 1國家級(jí)課題國家級(jí)課題 國家自然科學(xué)基金:主要有重大項(xiàng)目、重點(diǎn)課題 項(xiàng)目、專項(xiàng)基金項(xiàng)目、面上項(xiàng)目和青年基金項(xiàng)目 、國家杰出青年科學(xué)基金、優(yōu)秀青年科學(xué)基金、 國家基金國際合作基金等。 “863”高技術(shù)研究發(fā)展計(jì)劃、火炬計(jì)劃(發(fā)展高 新技術(shù)產(chǎn)業(yè)計(jì)劃) “973”

2、基礎(chǔ)研究計(jì)劃項(xiàng)目、“973”青年科學(xué)家項(xiàng) 目 國家重大專項(xiàng) 2 2省部級(jí)課題省部級(jí)課題 部基金:有教育部、國防科工局、衛(wèi)生 部等部委的科學(xué)基金,包括回國人員科 研啟動(dòng)基金等。 省基金:有省自然科學(xué)基金、省自然科 學(xué)青年基金、省杰出青年基金、重點(diǎn)科 研基金等。 其他課題其他課題 3、市、廳級(jí)課題:包括省教育廳、各個(gè)市的 科研基金題等。 4、本單位科研基金。 5、橫向課題。 6、自選題。 二、科研申請(qǐng)書的格式 國家自然基金申請(qǐng)書的格式 科研申請(qǐng)書的格式因基金種類的不 同而有所不同,但大同小異,基本要求 大體一致。下面僅就國家自然科學(xué)基金 的申請(qǐng)格式為代表作一說明。 國家自然基金申請(qǐng)書的格式 一前置

3、部分一前置部分 1封面 2封二(填報(bào)說明) 二主體部分二主體部分 1基本信息 (1)申請(qǐng)者信息 (2)依托單位信息 (3)合作單位信息 (4)項(xiàng)目基本信息 (5)摘要(研究內(nèi)容和意義簡介,限400字) 關(guān)鍵詞(限5個(gè)) 國家自然基金申請(qǐng)書的格式 2立題依據(jù)與研究內(nèi)容(8000字) (1)項(xiàng)目的立項(xiàng)依據(jù)(附主要參考文獻(xiàn)) (2)項(xiàng)目的研究內(nèi)容、研究目標(biāo)以及擬解決的關(guān)鍵問題 (3)擬采取的研究方案及可行性分析 (4)本項(xiàng)目的特色與創(chuàng)新之處 (5)年度研究計(jì)劃及預(yù)期研究結(jié)果 3研究基礎(chǔ)與工作條件 (1)工作基礎(chǔ) (2)工作條件 (3)申請(qǐng)人簡歷(包括項(xiàng)目組主要成員) (4)承擔(dān)科研項(xiàng)目情況 國家自然

4、基金申請(qǐng)書的格式 4經(jīng)費(fèi)預(yù)算 包括研究經(jīng)費(fèi)(業(yè)務(wù)費(fèi)、材料費(fèi)、儀器設(shè)備費(fèi)、實(shí)驗(yàn) 室改裝費(fèi)、協(xié)作費(fèi))、國際合作與交流費(fèi)、勞務(wù)費(fèi)、管理 費(fèi)等5個(gè)方面17項(xiàng)目,非常具體,而且還要求注明經(jīng)費(fèi)計(jì) 算依據(jù)與說明,要求十分嚴(yán)格,不可馬虎。 國家自然基金申請(qǐng)書的格式 三簽字、蓋章、承諾部分三簽字、蓋章、承諾部分 1簽字、蓋章頁 2申請(qǐng)者承諾及簽字 3項(xiàng)目組主要成員承諾及簽字 (包括項(xiàng)目分工、每年工作時(shí)間) 4依托單位及合作單位承諾 四推薦與審批部分四推薦與審批部分 1推薦 2審批 國家自然基金申請(qǐng)書 三、書寫科研申請(qǐng)書的具體要求 書寫科研申請(qǐng)書的具體要求 立題依據(jù)充分、國內(nèi)外動(dòng)態(tài)和信息了解清楚。 課題科學(xué)意義重

5、大,具有較好的應(yīng)用前景。 起點(diǎn)高,科學(xué)問題新穎,學(xué)術(shù)構(gòu)思巧妙,有創(chuàng)見。 與國內(nèi)外同類工作相比,有自己的特色,避免重復(fù)。 課題研究范圍不宜過大,內(nèi)容不宜過多,主攻方向要明確、集 中。 技術(shù)路線清楚,設(shè)計(jì)方案合理可行,研究方法力求先進(jìn)。 書寫科研申請(qǐng)書的具體要求 充分說明已有研究的基礎(chǔ)和物質(zhì)技術(shù)條件,研究小組的優(yōu)勢和 實(shí)力。 預(yù)期結(jié)果明確。要充分展示預(yù)試驗(yàn)的結(jié)果,突出把握性和可行 性。 申報(bào)手續(xù)完備,各欄目填寫完整、齊全、清楚、實(shí)事求是。 認(rèn)真選擇申報(bào)學(xué)科專業(yè),以便同行評(píng)議和終審順利通過。 研究小組人員結(jié)構(gòu)合理,實(shí)力較強(qiáng),時(shí)間保證,符合規(guī)定。 申請(qǐng)經(jīng)費(fèi)合理、恰當(dāng)、理由充分。 四、申請(qǐng)書的幾大要素

6、申請(qǐng)書的幾大要素 擬研究的內(nèi)容是一個(gè)科學(xué)問題 例如:基于jfa 的耳語說話人識(shí)別研究 耳語音發(fā)音機(jī)理問題 建立耳語發(fā)音計(jì)算模型 模型的求解問題 擬解決的科學(xué)問題具有理論研究或潛在的 應(yīng)用價(jià)值 擬解決的科學(xué)問題具有先進(jìn)性/創(chuàng)新性 申請(qǐng)書的幾大要素 提出具體和可行的解決該科學(xué)問題的方法 和技術(shù)路線 列出所獲結(jié)果的價(jià)值和創(chuàng)新性 申請(qǐng)者和科研小組有較好的工作基礎(chǔ)和開 展工作的條件 五、淺談創(chuàng)新性 淺談創(chuàng)新性 何為創(chuàng)新思維?目前學(xué)術(shù)界眾說紛紜,仁 智互見,莫衷一是,但其核心內(nèi)容是比較 一致的,那就是創(chuàng)新思維歸根結(jié)蒂旨在突 破舊概念,建立新概念,它是孕育新概念 誕生的一種思維方式。這里所指的新概念 ,應(yīng)該

7、作寬泛的理解,它可以是新的知識(shí) 、理論和見解,也可以是新的方法、技術(shù) 和產(chǎn)品,總之,是通過科技實(shí)踐特別是科 學(xué)研究所獲得的具有創(chuàng)新意義的新成果。 淺談創(chuàng)新性 創(chuàng)新的內(nèi)涵有三個(gè)層面: 一是: 強(qiáng)調(diào)原始創(chuàng)新,努力獲得更多科學(xué)發(fā)現(xiàn)和技術(shù)發(fā)現(xiàn); 二是: 強(qiáng)調(diào)集成創(chuàng)新,使各種相關(guān)技術(shù)有機(jī)融合,形成具有市場競 爭力的產(chǎn)品或產(chǎn)業(yè); 三是: 強(qiáng)調(diào)對(duì)先進(jìn)技術(shù)的消化、吸收和再創(chuàng)新。從這個(gè)意義上來講 ,創(chuàng)新思維應(yīng)該貫穿于科技工作特別是科研工作的全過程:從科研課 題的選擇,科研工作的開展,到科研成果的總結(jié),論文的撰寫,都需 要運(yùn)用創(chuàng)新思維。 六、科研選題和科學(xué)問題凝練 科研選題和科學(xué)問題凝練 在科研選題時(shí),首先首先要

8、進(jìn)行調(diào)查研究,特別是對(duì)國內(nèi) 外文獻(xiàn)的調(diào)查,然后盡其可能提出多種研究課題的設(shè)想, 再精心選擇出一個(gè)最適宜的具有創(chuàng)新意義的具有創(chuàng)新意義 的研究課題;或者或者是對(duì)前人的研究進(jìn)行剖析,然后對(duì)各家 之長進(jìn)行整合,避開各家的弊端,提出一個(gè)最佳的研究課 題,以實(shí)現(xiàn)新的突破;或者或者是對(duì)過去的研究結(jié)果或理論產(chǎn) 生質(zhì)疑,提出新的科學(xué)假說,然后設(shè)法去進(jìn)行論證,得出 全新的結(jié)論,等等。這些都是在科研選題階段常見的創(chuàng)新 思維過程。 如何選擇科研課題如何選擇科研課題 需要性(目的性)需要性(目的性) 科學(xué)性(真實(shí)性、客觀性)科學(xué)性(真實(shí)性、客觀性) 創(chuàng)新性(先進(jìn)性)創(chuàng)新性(先進(jìn)性) 可行性(現(xiàn)實(shí)性、效能性)可行性(現(xiàn)實(shí)

9、性、效能性) 如何選擇科研課題如何選擇科研課題 初始意念(初始意念(ideaidea) 文獻(xiàn)調(diào)研文獻(xiàn)調(diào)研 科學(xué)假設(shè)科學(xué)假設(shè) 證實(shí)手段證實(shí)手段 確定選題確定選題 科研設(shè)計(jì)科研設(shè)計(jì) 七、正確處理課題申報(bào)中的諸多關(guān)系 正確處理課題申報(bào)中的諸多關(guān)系 創(chuàng)新性與可行性的關(guān)系。 課題大與小、研究內(nèi)容豐富與精深的關(guān)系。 形式與內(nèi)容,科研構(gòu)想與文字表達(dá)的關(guān)系。 醞釀準(zhǔn)備與形成標(biāo)書的關(guān)系: 一是要厚積薄發(fā),深思熟慮; 二是文獻(xiàn)調(diào)研要全面、新穎、充分、準(zhǔn)確; 三是要認(rèn)真研究項(xiàng)目申報(bào)指南,了解已被批準(zhǔn)的項(xiàng)目情況; 四是要認(rèn)真總結(jié)申報(bào)工作的成功經(jīng)驗(yàn)與失敗教訓(xùn); 五是精心選擇學(xué)科門類,正確處理熱門與冷門、熟悉與生疏之間的

10、關(guān)系等。 正確處理課題申報(bào)中的諸多關(guān)系 謙虛謹(jǐn)慎與充分展示自己的實(shí)力和已有工作基礎(chǔ)的關(guān)系。 內(nèi)部因素與外部因素、自身努力與公關(guān)工作的關(guān)系。 利用本單位內(nèi)、校內(nèi)條件與本單位外、校外條件的關(guān)系。 主觀努力與客觀條件的關(guān)系(機(jī)遇、公關(guān)、宣傳)。 科學(xué)思想(idea)與科學(xué)方法的關(guān)系。 申報(bào)本項(xiàng)基金與申報(bào)其他基金的關(guān)系:可以針對(duì)不同基金的要 求、特點(diǎn),適當(dāng)變換,多渠道申報(bào)。 八、申請(qǐng)書主要內(nèi)容舉例解讀 基于jfa的耳語發(fā)音方式下說話人識(shí)別研究 (一)、立項(xiàng)依據(jù)與研究內(nèi)容(一)、立項(xiàng)依據(jù)與研究內(nèi)容 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 研究意義、國內(nèi)外研究現(xiàn)狀及發(fā)展動(dòng) 態(tài)分析,需結(jié)合科學(xué)研究發(fā)展趨勢來論述

11、 科學(xué)意義; 或結(jié)合國民經(jīng)濟(jì)和社會(huì)發(fā)展中迫切需要 解決的關(guān)鍵科技問題來論述其應(yīng)用前景。 附主要參考文獻(xiàn)目錄 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 耳語音作為一種常見而特殊的發(fā)音方式,在很多場合 下,人們不便于大聲講話(如會(huì)場、圖書館等環(huán)境中), 或是為了通話的保密性,有時(shí)甚至為了刻意不想透露說話 人自身的身份,都可能采用耳語發(fā)音的方式。在移動(dòng)通信 廣泛普及的今天,人們常會(huì)采用耳語方式通話來避免對(duì)他 人的干擾或保持通話內(nèi)容的保密性;在文語轉(zhuǎn)換系統(tǒng)( tts)中,耳語也常被當(dāng)作一種特殊的情感語音進(jìn)行研究 ;在nam(non-audible murmur)系統(tǒng)里,耳語則作為一 種有效的語音轉(zhuǎn)換模式來實(shí)

12、現(xiàn)無聲語音或是電子喉語音的 感知;公安、司法等領(lǐng)域,在破譯語音內(nèi)容,鑒別當(dāng)事人 或罪犯身份時(shí),耳語也常常被涉及。因此,作為一種特殊 而常見的語音信號(hào),耳語音有著廣泛的應(yīng)用背景。鑒于此 ,國外一些語音識(shí)別的數(shù)據(jù)中也包含了對(duì)耳語音的要求。 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 由于耳語音發(fā)音方式的特殊性,其相關(guān)的研究(如語 音內(nèi)容識(shí)別、說話人識(shí)別等)必將面臨新的問題,照搬正 常語音處理技術(shù)難以奏效。耳語音與正常音的發(fā)音機(jī)理不 同,其主要特征有:耳語音的激勵(lì)源為噪聲,聲帶不振動(dòng), 因而耳語音沒有基音頻率;耳語音是氣聲發(fā)音,能量低, 信噪比低;聲道傳輸函數(shù)改變,增加了額外的零極點(diǎn),導(dǎo) 致共振峰結(jié)構(gòu)有較大

13、變化;耳語音頻譜較正常語音平坦, 低頻段衰減大;耳語音相對(duì)正常語音平均時(shí)長增加,濁輔音 的嗓音起始時(shí)間與正常發(fā)音有顯著差異.另外,耳語發(fā)音時(shí) 較易受發(fā)音者心理及環(huán)境影響,lombard效應(yīng)較明顯,語 音特征變化大,隨機(jī)性強(qiáng)。鑒于以上特點(diǎn),諸如耳語音識(shí) 別等方面的研究必須有針對(duì)性地探索其相關(guān)的理論問題和 研究方法。 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 耳語音研究已越來越受到國內(nèi)外研究機(jī)構(gòu)和學(xué)者們的重視,其研究內(nèi)容 包括:耳語音聲學(xué)特性分析及感知,耳語音識(shí)別、轉(zhuǎn)換與合成,耳語音話者 鑒別與情感分析等。目前,國外從事耳語音信號(hào)處理研究的有:美國喬治亞 理工學(xué)院、新加坡南洋理工大學(xué)、日本宇都宮大學(xué)、土

14、耳其伊斯坦布爾科技 大學(xué)從事的耳語音轉(zhuǎn)換與重構(gòu)研究1,2,3,4;日本名古屋大學(xué)進(jìn)行的耳語音聲 學(xué)分析和識(shí)別研究5;美國卡耐基梅隆大學(xué)、德克薩斯大學(xué)的耳語音說話人 識(shí)別研究6,7;瑞典斯德哥爾摩大學(xué)關(guān)于耳語音聲學(xué)特性的研究8;加拿大 維多利亞大學(xué)、荷蘭萊頓大學(xué)關(guān)于耳語音聲調(diào)感知問題的研究9,10,南斯 拉夫貝爾格萊德大學(xué)和土耳其安卡拉大學(xué)的學(xué)者分別以塞爾維亞語和土耳其 語為基礎(chǔ)11,12,對(duì)耳語音共振峰結(jié)構(gòu)方面展開研究;日本奈良先端科技大 學(xué)、富山縣立大學(xué)實(shí)現(xiàn)了nam至耳語音的映射合成13,14。此外,加拿大皇 后大學(xué)的學(xué)者利用耳語音分析了獨(dú)立元音的聲學(xué)特性15;美國坦普爾大學(xué)實(shí) 現(xiàn)了多重語音

15、環(huán)境中的耳語音定位16;澳大利亞西澳及臥龍崗大學(xué)基于視覺 的話者分類17及愛爾蘭都柏林大學(xué)的話者確認(rèn)研究18中均涉及到了耳語音 ;而美國哈佛及麻省理工學(xué)院則為耳語音提供了自適應(yīng)短時(shí)切分方案19。產(chǎn) 品開發(fā)方面,韓國浦項(xiàng)科技大學(xué)設(shè)計(jì)了適于耳語傳輸?shù)柠溈孙L(fēng)20。 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 國內(nèi)方面的研究主要有南京大學(xué)聲學(xué)所進(jìn)行 的耳語音信號(hào)處理與識(shí)別研究21,22,蘇州大學(xué) 本項(xiàng)目課題組關(guān)于耳語音聲學(xué)分析以及耳語音轉(zhuǎn) 換方面的研究23,24,東南大學(xué)正開展耳語音情 感分析的研究25,南開大學(xué)關(guān)于偽裝語音的聲學(xué) 研究也涉及耳語音分析??傮w來說,目前關(guān)于耳 語音的研究當(dāng)處于探索研究的初步階段

16、,且目前 主要集中在聲學(xué)分析比較、耳語音轉(zhuǎn)換方法和正 常語音識(shí)別方法做出修正后用于耳語音識(shí)別等幾 個(gè)方面。 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 有關(guān)耳語音說話人識(shí)別的研究更是一個(gè)全新的課題。美國卡耐基梅隆大 學(xué)的最新研究表明6:耳語環(huán)境下能對(duì)說話人進(jìn)行識(shí)別,但比正常語音的話 者識(shí)別困難。他們采用典型的mfcc參數(shù)作為說話人耳語音特征、基于幀得分 的gmm作為識(shí)別模型,在與訓(xùn)練模型匹配與失配兩種情況下給出了多種實(shí)驗(yàn) 結(jié)果。愛爾蘭都柏林大學(xué)的研究人員則驗(yàn)證了以語音共振峰及諧波成分為依 據(jù)計(jì)算出的瞬時(shí)頻率相對(duì)于mfcc有更好的耳語音話者識(shí)別率,但仍然沒有達(dá) 到期待的識(shí)別效果18。這些研究均側(cè)重于正常

17、發(fā)音與耳語音說話人識(shí)別的比 較,沒有對(duì)耳語音的特點(diǎn)從特征提取和識(shí)別模型方面加以進(jìn)一步探索。美國 德克薩斯大學(xué)的學(xué)者通過修正暫態(tài)模式下的mfcc參數(shù)及特征映射等手段進(jìn)行 了耳語話者確認(rèn)7。南京大學(xué)林瑋博士關(guān)于耳語音說話人識(shí)別的研究中22 采用濾波器組的方法對(duì)耳語音頻率特性進(jìn)行了研究,并由此提出了適于耳語 音說話人識(shí)別的修正mfcc等特征參數(shù),且對(duì)隱馬爾可夫模型進(jìn)行了修正,提 高了識(shí)別性能。但該研究受說話人數(shù)量和發(fā)音內(nèi)容的限制。 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 耳語音說話人識(shí)別與正常語音說話人識(shí)別相比的主要難點(diǎn)和尚未解決(尚待深入研 究)的問題有: (1)耳語音特征表達(dá)問題。由于耳語音不存在基

18、音頻率,共振峰偏移且?guī)捈哟螅?耳語音頻譜更為平坦,因而目前對(duì)話者識(shí)別比較有效的常用特征參數(shù)基頻無法利用, 頻譜相關(guān)參數(shù)提取變得更為困難。 (2)易受噪聲及信道環(huán)境因素影響問題。由于耳語音是氣聲發(fā)音,聲級(jí)較低,其信 噪比要比同等環(huán)境下的信噪比低很多(我們?cè)趯?shí)驗(yàn)室環(huán)境下采集的耳語音樣本平均信 噪比約為10db),較易受噪聲干擾,同時(shí)耳語音往往在手機(jī)通話時(shí)使用,易受信道環(huán) 境影響。因此耳語音說話人識(shí)別系統(tǒng)中信道環(huán)境補(bǔ)償更為重要也更為 困難。 (3)易受說話人心理因素、情緒及發(fā)音狀態(tài)影響問題。耳語發(fā)音時(shí),往往受發(fā)音場 所制約,情感表達(dá)受限,且發(fā)音狀態(tài),心理因素都會(huì)產(chǎn)生一定的變化,刻意隱瞞講話 者身份

19、而用耳語發(fā)音的情況更是如此。因此消除說話人心理、情感等因素的影響對(duì)于 耳語音說話人識(shí)別系統(tǒng)的魯棒性提出了更高的要求。 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 為此,本項(xiàng)目擬從耳語發(fā)音機(jī)理出發(fā) ,根據(jù)耳語音特點(diǎn),建立耳語發(fā)音的二維 波導(dǎo)模型來提取耳語音特征;在聯(lián)合因子 分析(joint factor analysis, jfa)26思路框 架下,建立信道因子模型、說話人因子模 型及其聯(lián)合模型來補(bǔ)償不同信道和說話人 不同狀態(tài)的影響以對(duì)上述三個(gè)難點(diǎn)問題作 深入研究,在此基礎(chǔ)上實(shí)現(xiàn)耳語音說話人 識(shí)別。 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 在正常語音說話人識(shí)別、語音增強(qiáng)、耳語音聲學(xué)分析 、耳語音共振峰結(jié)構(gòu)和

20、音調(diào)感知等研究中,本課題組成員 已積累了一定的經(jīng)驗(yàn)及實(shí)驗(yàn)研究數(shù)據(jù),課題組成員在多年 從事語音信號(hào)處理研究的基礎(chǔ)上不斷深入,同時(shí)與德國、 日本及國內(nèi)有關(guān)高校合作與交流。課題組負(fù)責(zé)人已主持完 成了兩項(xiàng)與語音處理相關(guān)的國家自然科學(xué)基金項(xiàng)目(詳見 工作基礎(chǔ)),已在語音處理相關(guān)領(lǐng)域發(fā)表論文60多篇,其 中被三大檢索收錄或同時(shí)收錄逾40篇,早期參與研制的采 用說話人識(shí)別技術(shù)的語音鎖得到了公安部有關(guān)部門的認(rèn)可 和市級(jí)公安部門的采用,近幾年在耳語音聲學(xué)分析等方面 的研究,已在國際刊物和國際學(xué)術(shù)會(huì)議發(fā)表論文18篇,項(xiàng) 目主持人被國外學(xué)者邀請(qǐng)合作編寫語音識(shí)別著作中關(guān)于耳 語音分析的專門章節(jié)。 1、項(xiàng)目的立項(xiàng)依據(jù)、

21、項(xiàng)目的立項(xiàng)依據(jù) 立項(xiàng)依據(jù)的結(jié)束,一般給出總結(jié),如: 以上表明,對(duì)于耳語音說話人識(shí)別研究 相關(guān)的理論問題有待深入研究,并對(duì)拓展 語音處理技術(shù)應(yīng)用領(lǐng)域有很大作用。本課 題組已經(jīng)具備進(jìn)行本課題研究的基礎(chǔ)和條 件,能夠確保項(xiàng)目的順利開展和完成。 1、項(xiàng)目的立項(xiàng)依據(jù)、項(xiàng)目的立項(xiàng)依據(jù) 主要參考文獻(xiàn) 1 r.w.morris, enhancement and recognition of whispered speech, phd thesis, georgia institute of technology, usa, 2002 2 ahmadi, farzaneh, mcloughlin, ian vi

22、nce1, sharifzadeh and hamid reza, analysis-by-synthesis method for whisper-speech reconstruction, ieee aisa pac. conf. circuits syst. proc. apccas, 2008: 1280-1283 3 zhu, weizhong and kasuya, hideki, new speech synthesis system based on the arx speech production model, int conf spoken lang process i

23、cslp proc, 1996, 3: 1413-1416 4 irem trkmen, h. and elif karsligil, m., normally phonated speech recovery from whispers by melp, proc. 2008 ieee 16th signal processing, communication and applications conference, siu, 2008: 1-4 5 ito, taisuke, takeda, kazuya and itakura, fumitada, analysis and recogn

24、ition of whispered speech, speech communication, 2005, 45 (2): 139-152 6 jin, qin, jou, szu-chen stan and schultz, tanja, whispering speaker identification, proc. ieee int. conf. multimedia and expo, icme, 2007: 1027-1030 7 fan, xing and hansen, john h. l., speaker identification for whispered speec

25、h using modified temporal patterns and mfccs, proc. annu. conf. int. speech commun. assoc., interspeech, 2009: 896-899 8 traunmuller, hartmut and eriksson, anders, acoustic effects of variation in vocal effort by men, women, and children, journal of the acoustical society of america, 2000, 107 (6):

26、3438- 3451 9 gao man, tones in whispered chinese: articulatory features and perceptual cues, m.a. thesis, university of victoria, canada, 2002 10 heeren, w. and van heuven, v.j., perception and production of boundary tones in whispered dutch, proc. annu. conf. int. speech commun. assoc., interspeech

27、, 2009: 2411-2414 11 slobodan t. jovii and zoran ari, acoustic analysis of consonants in whispered speech , journal of voice, 2008, 22 (3): 263-274 12 icat, filiz and ilk, h. gkhan, investigation on differences between whispered and phonated sustained turkish vowels, proc. ieee sign. process. commun

28、. appl. conf. siu, 2004: 564- 566 13 nakagiri, mikihiro, toda, tomoki, kashioka, hideki and shikano, kiyohiro, improving body transmitted unvoiced speech with statistical voice conversion, interspeech intl. conf. spoken lang. proc., interspeech icslp, 2006: 2270-2273 14 otani, makoto, shimizu, shota

29、 and hirahara, tatsuya, vocal tract shapes of non-audible murmur production, acoustical science and technology, 2008, 29 (2): 195-198 15 purcell, david w. and munhall, kevin g., compensation following real-time manipulation of formants in isolated vowels, journal of the acoustical society of america

30、, 2006, 114 (9): 2288-2297 16 carlin, michael a., smolenski, brett y. and wenndt, stanley j., unsupervised detection of whispered speech in the presence of normal phonation, interspeech intl. conf. spoken lang. proc., interspeech icslp, 2006: 685-688 17 kim, jeesun, davis, chris, kroos, christian an

31、d hill, harold, speaker discriminability for visual speech modes, proc. annu. conf. int. speech commun. assoc., interspeech, 2009: 2259- 2262 18 grimaldi, marco and cummins, fred, speaker identification using instantaneous frequencies, ieee trans. audio speech lang. process., 2008, 16 (6): 1097-1111

32、 19 rudoy, danie, quatieri, thomas f. and wolfe, patrick j., time-varying autoregressive tests for multiscale speech analysis, proc. annu. conf. int. speech commun. assoc., interspeech, 2009: 2839-2842 20 choi, sungjoon, moon, wonkyu and lee, jeong hyun, a new microphone system for near whispering,

33、journal of the acoustical society of america, 2003, 114 (2): 801-812 21 li, xue-li and xu, bo-ling, formant comparison between whispered and voiced vowels in mandarin, acta acustica united with acustica, 2005, 91 (6): 1079-1085 22 lin, wei, yang, lili and xu, boling, a new frequency scale of chinese

34、 whispered speech in the application of speaker identification, progress in natural science, 2006, 16 (10): 1072- 1078 23 chen, xue-qin and zhao, he-ming, perceiving of tone in whispered chinese based on auditory model, acta electronica sinica, 2009, 37 (4): 864-867 24 gang, l.v. and zhao, heming, f

35、ormant frequency estimations of whispered speech in chinese, archives of acoustics, 2009, 34 (2): 127-135 25 jin, yun, zhao, yan, huang, chengwei and zhao, li, study on the emotion recognition of whispered speech, pro. of the 2009 wri global congress on intelligent systems, gcis 2009, 3: 242-246 26

36、patrick kenny ,gilles boulianne, et al. joint factor analysis versus eigenchannels in speaker recognition, ieee transactions on audio speech and language processing, 2007 ,15(4): 1448-1460 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 研究內(nèi)容:研究內(nèi)容: 本項(xiàng)目擬研究耳語發(fā)音情況下的文本無關(guān)說話人識(shí)別問題。任何一個(gè)說話人識(shí)別系 統(tǒng),主要涉及兩大問

37、題:說話人特征表達(dá)和識(shí)別模型。對(duì)耳語發(fā)音方式,由于發(fā)音機(jī) 理不同,這兩方面的問題都有其特殊性而大大增加了難度。在特征表達(dá)方面,因耳語 音基頻的缺失使聲道結(jié)構(gòu)如共振峰等相關(guān)參數(shù)成為表示耳語音話者的關(guān)鍵特征,而耳 語發(fā)音的共振峰帶寬變寬、峰點(diǎn)偏移、頻譜較正常發(fā)音變得更平坦,這使得共振峰相 關(guān)參數(shù)的有效提取也更為困難,為此,需尋求新的特征表達(dá);在識(shí)別模型建立方面, 由于耳語音為非正常發(fā)音,往往受環(huán)境因素和說話人心理變化等多方面的影響,發(fā)音 特征變異大,因此目前常用的gmm模型對(duì)耳語音說話人識(shí)別的性能大為下降。我們已 進(jìn)行的這方面實(shí)驗(yàn)也論證了這一點(diǎn):在多種實(shí)驗(yàn)條件下,我們得到的大致結(jié)果為:如 采用相同

38、的參數(shù)(mfcc)及識(shí)別模型(gmm),正常發(fā)音的話者識(shí)別率超過90%時(shí), 耳語音則下降到30%以下。由于耳語發(fā)音受說話人和環(huán)境兩種變化因素影響,因此自適 應(yīng)建模方法或變得復(fù)雜或難以有效。為此,需要新的建模方法。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 (一)建立基于聯(lián)合因子分析(jfa)的耳語音說話人識(shí)別模型 聯(lián)合因子分析方法是新近提出的一種用于實(shí)際環(huán)境下說話人識(shí)別的新方法,但最近的研究主要集中在用該方法實(shí) 現(xiàn)信道影響的消除或補(bǔ)償,實(shí)際上主要考慮的是信道因子單一作用,沒有考慮說話人變化因子,對(duì)應(yīng)的jfa方法也演 變?yōu)楸菊餍诺?/p>

39、(eigenchannel)分析單一因子分析方法。這對(duì)于正常發(fā)音方式是有效的,因?yàn)榇藭r(shí)說話人因子的影響 相對(duì)較小,可以忽略說話人狀態(tài)變化因素而突出信道環(huán)境這一影響真實(shí)環(huán)境下說話人識(shí)別性能的主要因素。如前所 述,在耳語發(fā)音方式下,說話人每次發(fā)音的差異性很大,同時(shí)信道或環(huán)境的多樣性和隨機(jī)性因素同樣需要考慮,因 此在此方式下必須同時(shí)考慮信道變化因素和說話人變化因素。本項(xiàng)目研究提出用聯(lián)合因子分析方法處理解決耳語發(fā) 音多種因素變異大的問題。該方法針對(duì)耳語音特點(diǎn)引入兩類變化因子:(這里借用fa算法中的術(shù)語:將觀察不到的 隨機(jī)量稱為因子)說話人自身變化因子和通話信道環(huán)境變化因子,并分別建立相應(yīng)的模型。前者反

40、映每次發(fā)音時(shí)說 話人自身因心理、說話氣氛、刻意強(qiáng)調(diào)或偽裝發(fā)音等耳語發(fā)音常見的變化因素;后者主要反映通話信道(如耳語音 常在手機(jī)通話時(shí)運(yùn)用)以及環(huán)境的變化。jfa假設(shè):描述與說話人和信道環(huán)境相關(guān)的超矢量為說話人超矢量與信道環(huán) 境超矢量之和,且與是統(tǒng)計(jì)獨(dú)立的,都為正態(tài)分布),即: (假設(shè)一) 而對(duì)隨機(jī)選擇的說話人,其超矢量可假設(shè)為: (假設(shè)二) 上式中:為與說話人、信道環(huán)境無關(guān)的超矢量,其最簡單的估計(jì)可從通用背景模型ubm得到; 和為隱隨機(jī)矢量,并統(tǒng) 計(jì)獨(dú)立,且都具正態(tài)分布,稱為說話人變化因子;稱為說話人變化補(bǔ)償因子;為的導(dǎo)入矩陣(描述說話人子空間) 、為的導(dǎo)入矩陣。在說話人變化空間中起主導(dǎo)作用,

41、為補(bǔ)償項(xiàng)作為說話人變化因子的補(bǔ)償,因?yàn)閷?duì)的實(shí)際估計(jì)可能 會(huì)有偏差。,假設(shè)二則轉(zhuǎn)化為標(biāo)準(zhǔn)fa問題,可用最大后驗(yàn)概率(map)來估計(jì)。 信道環(huán)境超矢量同樣可用信道環(huán)境因子和相關(guān)的引入矩陣(描述信道環(huán)境子空間)來表示: (假設(shè)三) c = ux(s) m = m +c m(s)= m+ vy(s)+ dz(s) 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 在上述三個(gè)假設(shè)中,我們對(duì)各隨機(jī)量和導(dǎo)入矩陣作進(jìn)一步說明,進(jìn)一 步假設(shè)相互獨(dú)立且為正態(tài)分布,且說話人識(shí)別模型有個(gè)混合分量,聲 學(xué)特征矢量為維,則假設(shè)二中是均值為,協(xié)方差矩陣為的正態(tài)分布。

42、 這里我們假設(shè)為的對(duì)角陣,為的低秩矩陣()。如假設(shè)為零,即只需 要估計(jì)空間,則 jfa方法變?yōu)楸菊餍诺婪椒?,假設(shè)二可用標(biāo)準(zhǔn)最大后 驗(yàn)概率估計(jì),且其估計(jì)隨訓(xùn)練數(shù)據(jù)的增加而漸近為最大似然估計(jì)。假 設(shè)二中,之所以假設(shè)為低秩的,是源于主分量分析(pca)的思想, 即把超矢量壓縮至低維空間,而估計(jì)精度下降有限,這樣當(dāng)訓(xùn)練增加 新的說話人時(shí)只要少量的訓(xùn)練數(shù)據(jù)即可較快地自適應(yīng)為表述方便,對(duì) 應(yīng)的map稱之為本征音map(eigen-voice map):此概念近來在語言 識(shí)別自適應(yīng)訓(xùn)練得到應(yīng)用。在假設(shè)二中,實(shí)際上我們結(jié)合了標(biāo)準(zhǔn)map 和本征音map估計(jì)兩者的優(yōu)點(diǎn)。同樣地,在假設(shè)三中,矩陣也是低秩 的,可設(shè)為

43、(其中,)。 由假設(shè)一至假設(shè)三,構(gòu)成了既考慮信道環(huán)境變化因素、又考慮說話人 狀態(tài)變化因素的聯(lián)合因子分析(jfa)模型,該模型適合用于實(shí)際環(huán)境 下耳語音說話人的識(shí)別。jfa分析即是對(duì)超參數(shù)集的估計(jì),其中為塊對(duì) 角陣,由每個(gè)聯(lián)合分量的協(xié)方差矩陣塊組成。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 建立基于耳語音說話人識(shí)別模型,其相 關(guān)研究的主要內(nèi)容有: (1)聯(lián)合因子分析似然函數(shù) 若給出超參數(shù)集,對(duì)任一耳語話者是的第次 ()發(fā)音(或錄音),其觀察特征矢量為,并用 表示共次發(fā)音(或錄音),對(duì)應(yīng)為。這在jfa模型 中為觀察量。再設(shè)是可隱隨

44、機(jī)矢量,組成的聯(lián)合 矢量,由于隱矢量未知, 因此要計(jì)算觀察的似然 度需要對(duì)條件似然函數(shù)積分得到:,其中為標(biāo)準(zhǔn) 高斯核)。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 (2)話者無關(guān)超參數(shù)集估計(jì) 對(duì)于給定的訓(xùn)練集(每個(gè)說話人會(huì)有若 干段不同狀態(tài)的耳語發(fā)音),超參數(shù)集可 用似然度增加算法來估計(jì),例如em算法能 使訓(xùn)練數(shù)據(jù)的總似然數(shù)隨迭代次數(shù)增加而 增加。由于總似然度涉及所有說話人的訓(xùn) 練數(shù)據(jù),因此稱其為話者無關(guān)超參數(shù)集估 計(jì)。除em算法外,還可用其他的方法,為 此將對(duì)此估計(jì)算法作比較研究。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究

45、內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 (3)不同訓(xùn)練集數(shù)據(jù)估計(jì)算法的自適應(yīng) jfa模型訓(xùn)練中,話者無關(guān)超參數(shù)集估計(jì) 的有效性,一般對(duì)訓(xùn)練集數(shù)據(jù)變化(每個(gè) 話者的多個(gè)不同發(fā)音或錄音,耳語發(fā)音更 突出)比較敏感,如何使用不同的訓(xùn)練數(shù) 據(jù)集都能有效對(duì)超參數(shù)集估計(jì),或者通過 對(duì)已估計(jì)的超參數(shù)集再用其它訓(xùn)練數(shù)據(jù)自 適應(yīng),是本研究中一個(gè)待探討的問題。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 (4)待識(shí)別耳語音話者超參數(shù)集估計(jì) 對(duì)一個(gè)待識(shí)別的耳語音說話者,可由其訓(xùn)練數(shù) 據(jù)估計(jì)相應(yīng)的超參數(shù)和,并用kullback-l

46、eiber距離 最小和分布對(duì)作后驗(yàn)估計(jì)。對(duì)任一說話人,其超 參數(shù)集。 (5)似然比統(tǒng)計(jì)量 由研究內(nèi)容(1)的似然函數(shù)可構(gòu)造多種形式 的似然比統(tǒng)計(jì)量用于耳語音說話人識(shí)別。一種方 法是由話者無關(guān)超參數(shù)集和待識(shí)別話者超參數(shù)集 計(jì)算似然度和,以其對(duì)數(shù)比作為似然比統(tǒng)計(jì)量。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 (二)構(gòu)建耳語音二維波導(dǎo)網(wǎng)格聲道模型 波導(dǎo)網(wǎng)格模型是描述聲道特征的物理模型,由一組偏微分方程來 計(jì)算聲道時(shí)變參數(shù),其計(jì)算較為復(fù)雜。2008年8月k.van den doel博士 發(fā)表在上的論文提出了一種實(shí)時(shí)計(jì)算波導(dǎo)網(wǎng)格一 維離散

47、模型的計(jì)算方法,適合用于共振峰及帶寬的計(jì)算,論文以耳語 元音發(fā)音為例給出了實(shí)例。我們擬以該方案為基礎(chǔ),并根據(jù)耳語音語 速慢、發(fā)音時(shí)聲道氣體體積速度大的特點(diǎn),合理選擇網(wǎng)格結(jié)構(gòu)和相關(guān) 參數(shù),建立二維網(wǎng)格模型,并將其離散化并進(jìn)行數(shù)值求解。 一維模型假設(shè)聲道長度恒定(如18cm),且設(shè)網(wǎng)格是一維的,通 過計(jì)算網(wǎng)格內(nèi)每一節(jié)點(diǎn)的聲壓、聲道面積來描述發(fā)音特征。聲道長度 恒定和均勻網(wǎng)格的假設(shè)主要為了便于計(jì)算。我們擬建立的二維模型中 ,假設(shè):(a)聲道長度緩慢變化,這一假設(shè)符合耳語發(fā)音慢的特點(diǎn);(b) 網(wǎng)格模型中的每個(gè)節(jié)點(diǎn)受四個(gè)不同方向上的相鄰節(jié)點(diǎn)相互影響(傳遞 正反向壓力),這一假設(shè)是一維模型的拓展,更能反應(yīng)

48、聲道動(dòng)態(tài)特征 ;(c)網(wǎng)格是非均勻的,此假設(shè)有利于表達(dá)耳語發(fā)音聲道氣體體積速度 大的特征。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 建立二維波導(dǎo)網(wǎng)格聲道模型,其相關(guān)研究的主要 內(nèi)容有: (1)根據(jù)語音發(fā)音機(jī)理,建立描述時(shí)變聲道長度 、聲道面積,聲道內(nèi)氣體壓力和聲道氣體體積速 度相互關(guān)系的物理模型,其形式為一組偏微分方 程。其中模型結(jié)構(gòu)、相關(guān)物理參數(shù),結(jié)合耳語發(fā) 音特點(diǎn)選取。 (2)將上述二維波導(dǎo)網(wǎng)格模型時(shí)域離散,空域節(jié) 點(diǎn)化形成研究相應(yīng)的模型數(shù)值求解方法。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及

49、擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 (3)由二維波導(dǎo)網(wǎng)格模型得到的物理參數(shù)轉(zhuǎn)換為描述耳語發(fā)音環(huán)境下說話人個(gè)性特征參 數(shù),以便用于說話人識(shí)別系統(tǒng)的訓(xùn)練和識(shí)別。主要研究: 研究聲道面積與共振鋒(對(duì)耳語音而言,f2、f3更為重要)之間的定量關(guān)系、聲 道面積變化與共振峰軌跡變化的對(duì)應(yīng)關(guān)系。 研究確定聲道反射系數(shù)與二維網(wǎng)格模型中各節(jié)點(diǎn)阻抗大小的關(guān)系。聲道反射系數(shù)由 各節(jié)點(diǎn)的阻抗共同決定,而網(wǎng)格各節(jié)點(diǎn)的阻抗由該節(jié)點(diǎn)與相鄰節(jié)點(diǎn)傳遞的正反向壓力 有關(guān)。 研究聲道反射系數(shù)與共振峰寬帶的關(guān)系。 研究聲道變化的特征、聲道內(nèi)氣體壓力與耳語音聲調(diào)感知對(duì)應(yīng)的特征關(guān)系。正常語 音發(fā)音時(shí),基頻軌跡可確定漢語音調(diào),而耳語音沒

50、有基頻,但人能感知耳語聲調(diào)。 研究耳語發(fā)音時(shí),二維波導(dǎo)網(wǎng)格模型相關(guān)特征參數(shù)表征說話人個(gè)性特征的有效性。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 根據(jù)我們已完成的一維模型計(jì)算得到的 耳語音漢語元音的共振峰估計(jì),并與其他 多種常用共振峰估計(jì)結(jié)果比較得出,波導(dǎo) 網(wǎng)格模型在表征耳語音發(fā)音說話人聲道特 點(diǎn)方面有特征參數(shù)離散性小,受噪聲等其 它因素影響比較小的優(yōu)點(diǎn),預(yù)計(jì)二維波導(dǎo) 網(wǎng)格模型比一維模型更有效地反映耳語發(fā) 音時(shí)說話人個(gè)性特征。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo), , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵

51、問題 本項(xiàng)目的研究目標(biāo)本項(xiàng)目的研究目標(biāo): (1) 研究基于聯(lián)合因子分析模型的實(shí)際環(huán)境下耳語音說 話人識(shí)別方法,并提出相應(yīng)的算法,在此基礎(chǔ)上實(shí)現(xiàn)耳語 音發(fā)音情況下的文本無關(guān)說話人識(shí)別系統(tǒng)。 (2) 在不同發(fā)音環(huán)境,說話人耳語發(fā)音狀態(tài)變化較大的 情況下能有效辨識(shí)講話者,并與目前研究較多的本征信道 模型、傳統(tǒng)的gmm模型比較,識(shí)別正確率有明顯提高。 擬定的測試集包括300名不同的說話人以及各說話人的多 種發(fā)音狀態(tài)和不同的耳語音通話信道環(huán)境。 (3)建立完整的表征時(shí)變聲道特征的二維波導(dǎo)網(wǎng)格模型, 模型可以數(shù)值求解,并具有相對(duì)低的計(jì)算復(fù)雜度。 2 2、項(xiàng)目的研究內(nèi)容、研究目標(biāo)、項(xiàng)目的研究內(nèi)容、研究目標(biāo),

52、 , 以及擬解決的關(guān)鍵問題以及擬解決的關(guān)鍵問題 為此,擬解決以下幾個(gè)關(guān)鍵問題為此,擬解決以下幾個(gè)關(guān)鍵問題: (1) 說話人因子分析與模型估計(jì)。對(duì)于正常發(fā)音方式下 的說話人識(shí)別這個(gè)問題并不突出,因而在已有的聯(lián)合因子 分析中尚未有深入研究,但對(duì)發(fā)音變異離散性大、狀態(tài)變 化因素多的耳語音話者識(shí)別而言,是一個(gè)關(guān)鍵問題。 (2)jfa模型參數(shù)估計(jì)問題。由于我們進(jìn)行的聯(lián)合因子分 析需要同時(shí)估計(jì)說話人子空間和信道環(huán)境子空間,因此需 要建立完整的聯(lián)合因子分析模型,并有效估計(jì)其模型參數(shù) 。 (3)二維波導(dǎo)網(wǎng)格模型的建立與計(jì)算實(shí)現(xiàn)??紤]耳語音 特點(diǎn),選擇合適的網(wǎng)格模型結(jié)構(gòu)和參數(shù),并依據(jù)物理原理 建立耳語發(fā)音過程中

53、描述聲道時(shí)間、位置變化特性的微分 方程,由此導(dǎo)出二維波導(dǎo)網(wǎng)格模型,并研究提出模型的數(shù) 值求解算法,利用計(jì)算機(jī)編程實(shí)現(xiàn)。 3、擬采取的研究方案及可行性分析、擬采取的研究方案及可行性分析 擬采用的研究方案及可行性分析。擬采用的研究方案及可行性分析。(包括有關(guān)方法、技術(shù)路線、實(shí)驗(yàn)手段、關(guān)鍵技術(shù) 說明 ) 研究方法研究方法: 首先建立不同說話人耳語發(fā)音數(shù)據(jù)庫 由于耳語音發(fā)音時(shí),說話人變化因素和信道環(huán)境變化因素明顯,因此,耳語音語料庫 的建立必須盡可能地反映這種特點(diǎn)。 語料庫文本的設(shè)計(jì)(已完成)??紤]到語料庫的通用性,語料文本包含:數(shù)字串、一 組適于情緒狀態(tài)表達(dá)的語句(含詞組、單一聲調(diào)語句、不同聲調(diào)組合

54、語句)、50句電 話通話及電視節(jié)目中摘取的常用語。設(shè)計(jì)該語料庫時(shí)充分考慮了包括韻律在內(nèi)的漢語 發(fā)音特性。 考慮不同說話人群體,選取不同區(qū)域、不同年齡、不同性別的說話人300名。 不同發(fā)音情緒狀態(tài)的選擇:錄音人在項(xiàng)目組成員的引導(dǎo)下,采用平靜、驚奇、傷心、 恐懼、高興、生氣、憤怒等多種情緒模式,以自然口語交流方式進(jìn)行錄音。 錄音環(huán)境的選擇:分為一般環(huán)境、電話傳輸、手機(jī)通話、錄音筆記錄及帶一定噪聲環(huán) 境等。 經(jīng)將近一年時(shí)間,目前已完成大部分工作,并為所錄耳語音做好標(biāo)注文件。這一工作 量非常龐大。將錄制的不同話者的耳語音語料,三分之二用于訓(xùn)練,三分之一測試( 測試的另一類型為直接說話人發(fā)音)。 研究方

55、法研究方法 建立波導(dǎo)網(wǎng)格聲道模型 波導(dǎo)網(wǎng)格聲道模型本身可針對(duì)任何語音,這里 考慮道耳語音發(fā)音特點(diǎn),選擇其作為重要的特征 表達(dá)參數(shù)。 先建立一維網(wǎng)格模型,再推廣至二維模型。 一維網(wǎng)格模型建立時(shí),先建立簡化線性無損模型 ,再考慮聲道關(guān)閉存在能量損耗的情形。在推廣 至二維模型時(shí),網(wǎng)格模型中每個(gè)節(jié)點(diǎn)采用與相鄰 四個(gè)節(jié)點(diǎn)連接的形式,該形式的選取既考慮彌補(bǔ) 一維模型反映聲道變化動(dòng)態(tài)特征不夠、無關(guān)考慮 不同邊界條件下激勵(lì)速度函數(shù)變化的影響的不足 ,又考慮了計(jì)算量的因素。 研究方法研究方法 從網(wǎng)格模型提取特征并與其他耳語音發(fā)音特征進(jìn)行比較 對(duì)于不同的耳語音發(fā)音,從二維波導(dǎo)網(wǎng)格聲道模型提 取聲道面積、阻抗等參數(shù)

56、,并將其轉(zhuǎn)換為典型聲道相關(guān)參 數(shù)(如共振峰、反射參數(shù)等),以利于與不同特征方法進(jìn) 行比較。為便于比較,將對(duì)相同語料用不同于本網(wǎng)格模型 的方法(如一些常規(guī)的典型方法)進(jìn)行特征提取。比較特 征提取有效性的方法有二:一是不同特征提取方法提取的 參數(shù)用于同一jfa模型,以識(shí)別結(jié)果比較;二是以f比(一 致性測度)和d比(可分性測度)來比較。 在耳語音說話人識(shí)別、訓(xùn)練兩個(gè)階段采用相同的二 維波導(dǎo)網(wǎng)格聲道模型和特征提取方法。 研究方法研究方法 建立耳語說話人情緒狀態(tài)分析模型 提取適于表達(dá)耳語說話人情緒狀態(tài)的特征參數(shù) 一是可借助已有的情感分析研究成果中的有效特征表達(dá),二是用二維 網(wǎng)格聲道模型中的相關(guān)特征,以多

57、種特征參數(shù)的時(shí)間軌跡作為一類參 數(shù),并對(duì)軌跡曲線計(jì)算若干統(tǒng)計(jì)量,構(gòu)成二類特征,并構(gòu)成特征向量 用于狀態(tài)分析。 選擇高效的特征降維算法 可采用sffs算法或采用主成份分析方法實(shí)現(xiàn)對(duì)特征向量進(jìn)行降維,通 過正確分類率的置信區(qū)間理論,實(shí)現(xiàn)分段檢索,降低運(yùn)算量,提高分 析效率。 選擇隱馬爾可夫模型進(jìn)行話者情緒狀態(tài)分析 采用情緒狀態(tài)分析既可采用隱馬爾可夫模型,也可采用混合高斯模型 或神經(jīng)網(wǎng)絡(luò)的方法。我們初步的工作表明,對(duì)耳語發(fā)音的情況,用隱 馬爾可夫模型進(jìn)行說話人不同情緒狀態(tài)分析和分類是可行的。 研究方法研究方法 訓(xùn)練jfa模型 全局(通用)背景模型ubm 假設(shè)二中的由ubm估計(jì)得到,由于ubm表示與說

58、話人無關(guān)的特征分布,所以 選擇語料時(shí)應(yīng)盡可能覆蓋可能遇到的各種耳語音類型,即充分反映不同的說 話人因子和信道環(huán)境因子。為使訓(xùn)練得到的ubm模型避免或少受不平衡數(shù)據(jù) (不同因子數(shù)據(jù)不平衡)的影響,擬采用不同子集訓(xùn)練模型再將模型合并的 方法來解決。 不考慮信道環(huán)境因子的模型訓(xùn)練 由ubm模型解決估計(jì)后,先不考慮信道環(huán)境變化問題,即假設(shè)每個(gè)說話人可 用單一的超矢量來建立與信道環(huán)境因素獨(dú)立的模型。由“研究內(nèi)容”一節(jié) 可 表示為:,設(shè)矩陣為對(duì)角陣,為補(bǔ)償項(xiàng),其參數(shù)由標(biāo)準(zhǔn)map方法來估計(jì);矩 陣為低秩矩陣(,),項(xiàng)主要反映說話人狀態(tài)變化的因素,其參數(shù)由本征發(fā) 音map(eigen-voice map)方法

59、來估計(jì)。 加入信道環(huán)境因子的jfa模型訓(xùn)練 設(shè)說話人的錄音數(shù)為,對(duì)每次發(fā)音(或錄音),與說話人、信道環(huán)境都相關(guān)的 超矢量表示為,低秩矩陣(,)和信道因子矢量的參數(shù)由類似于本征信道估 計(jì)方法來估計(jì)。 研究方法研究方法 jfa模型參數(shù)的自適應(yīng) 在jfa模型中通過自適應(yīng)模型參數(shù)的方法求出目標(biāo)說話人 的模型,自適應(yīng)算法分為兩步:第一步類似于em算法的e 步,對(duì)jfa的每個(gè)成分計(jì)算目標(biāo)說話人訓(xùn)練耳語音的充分 統(tǒng)計(jì)估計(jì);第二步則與em算法的m步不同,這些新的充分 統(tǒng)計(jì)估計(jì)與原來的統(tǒng)計(jì)用一個(gè)混合參數(shù)相結(jié)合,混合加權(quán) 參數(shù)是與語料相關(guān)的。 根據(jù)jfa模型進(jìn)行耳語音話者識(shí)別 首先對(duì)待識(shí)別耳語音樣本由二維波導(dǎo)網(wǎng)格

60、聲道模型計(jì)算特 征參數(shù)矢量序列,再由jfa模型將測試特征矢量序列代入 每個(gè)說話人訓(xùn)練模型計(jì)算似然比統(tǒng)計(jì)量,比較后即得出識(shí) 別結(jié)果。 技術(shù)路線技術(shù)路線 技術(shù)路線:技術(shù)路線: 在對(duì)耳語音說話人識(shí)別的相關(guān)文獻(xiàn)進(jìn)行調(diào)研論證的基 礎(chǔ)上,采用兩條彼此既獨(dú)立又相互影響的研究路線。 第一方面的研究路線為理論研究:第一方面的研究路線為理論研究:首先在文獻(xiàn)中已有 一維波導(dǎo)網(wǎng)格聲道模型的基礎(chǔ)上建立二維波導(dǎo)網(wǎng)格聲道模 型,并由模型計(jì)算得到的參數(shù)轉(zhuǎn)換為適于表示耳語音特征 的相關(guān)參數(shù);其次是話者情緒狀態(tài)分析模型的理論研究, 針對(duì)耳語音采用相關(guān)特征參數(shù)并經(jīng)降維處理后經(jīng)分析模型 進(jìn)行分類;最后是聯(lián)合因子分析模型的理論研究,聯(lián)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論