




已閱讀5頁,還剩107頁未讀, 繼續(xù)免費閱讀
【畢業(yè)學位論文】大規(guī)模目標說話人檢測關鍵技術研究-計算機應用技術博士論文.pdf 免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大規(guī)模目標說話人檢測 關鍵技術研究 (申請清華大學工學博士學位論文 ) 培 養(yǎng) 單 位 : 計算機科學與技術系 學 科 : 計算機科學與技術 研究 生 : 王 剛 指 導 教 師 : 鄭 方 研究員 二 一一 年四 月 in of 2011 關于學位論文使用授權的說明 本人完全了解清華大學有關保留、使用學位論文 的規(guī)定,即: 清華大學擁有在著作權法規(guī)定范圍內學位論文的使用權,其中包括: ( 1) 已獲學位的研究生必須按學校規(guī)定提交學位論文,學??梢圆捎糜坝?、縮印或其他復制手段保存研究生上交的學位論文; ( 2)為教學和科研目的,學??梢詫⒐_的學位論文作為資料在圖書館、資料室等場所供校內師生閱讀,或在校園網(wǎng)上供校內師生瀏覽部分內容; ( 3)根據(jù)中華人民共和國學位條例暫行實施辦法,向國家圖書館報送可以公開的學位論文。 本人保證遵守上述規(guī)定。 (保密的論文在解密后遵守此規(guī)定) 作者簽名: 導 師簽名: 日 期: 日 期: 摘 要 I 摘 要 為提高大規(guī)模目標說話人檢測的性能,本論文針對多說話人分割問題和快速辨認問題進行了研究,主要工作包括: 1 提出基于參考說話人模型的距離度量算法 。為提高在分析窗寬較短情況下兩窗語音之間距離度量的穩(wěn)定性,本文提出了基于參考說話人模型的距離度量算法。該算法 不需要將窗內語音訓練成模型,避免了數(shù)據(jù)較少、模型不精確對距離度量的影響, 利用兩窗語音分別與 參考說話人模 型之間的差異性來度量兩窗語音之間的距離。 與傳統(tǒng)的 法相比, 在 002 新聞采訪語音庫 漏檢率相對下降 電話交談語音庫 漏檢率相對下降 2 提出基于音素識別和文本相關的說話人分割算法 。考慮到在較短語音下文本相關說話人識別好于文本無關說話人識別的原因在于文本相關信息的充分利用,提出通過 音素識別技術獲取音素這樣的相關文本信息,以此進行文本相關的說話人識別的思路。 在 據(jù)庫上, 與 基于參考說話人模型的分割算法相比,漏檢率相對下降 3 提出 基于類純度約束的說話人聚類算法 。為減輕分割后單說話人語音段長度過短對后續(xù)的說話人識別性能的影響,提出基于類純度約束的說話人聚類算法。該算法借助參考說話人信息計算語音段之間的距離,以類內離散度最小、類純度最大為準則,降低了不同說話人的語音被聚到同一類內的可能性。在 006 數(shù)據(jù)庫上,在 語音段平均長度分別為 2 秒、 5 秒和 8 秒的條件下 ,與傳統(tǒng)的法比較,有效類語音的比例分別 提高了 目標說話人檢測的召回率分別提高了 4 提出基于參 考說話人和雙層結構的說話人快速辨認算法 。 目標說話人越多,說話人辨認所需要的時間越長,因此,大規(guī)模目標說話人辨認任務中辨認速度是必須面對的、極其關鍵的問題。為此,本文提出利用 參考說話人度量待辨認語音與目標說話人之間的相似程度,并進一步利用雙層結構進行剪枝以提高辨認速度的算法。在基于 構的說話人辨認系統(tǒng)中,與傳統(tǒng)的 法相比,運算時間降低了 辨認正確率提高 關鍵詞: 大規(guī)模;說話人檢測; 說話人分割 ; 說話人聚類;快速辨認 I on on to of It 1 To of a is in no is by of a 002 002 2 it is is an to is is in a DR on 3 To on of to of a on is SM is to as as as It of by II On 006 AC 5 in be 4 SM a It is of be is a in To an SM to is a to to MC a an of 錄 錄 第 1 章 緒論 . 1 大規(guī)模目標說話人檢測技術概述 . 1 大規(guī)模目標說話人檢測技術的研究現(xiàn)狀 . 3 說話人分割聚類的研究現(xiàn)狀 . 4 說話人快速辨認的研究現(xiàn)狀 . 7 大規(guī)模目標說話人檢測的難點 . 10 研究工作概述 . 12 研究思路 . 12 論文工作內容 . 15 論文的組織結構 . 17 第 2 章 基于參考說話人模型的說話人分割算法 . 19 基于距離度量的說話人分割算法介紹 . 19 離度量 . 19 離度量 . 21 離度量 . 22 說話人分割算法的評測指標 . 23 基于參考說話人模型的說話人分割算法 . 24 問題的提出 . 24 基本思想 . 24 算法描述 . 25 實驗結果與分析 . 33 實驗數(shù)據(jù)和設置 . 33 實驗結果與分析 . 34 討論 . 41 小結 . 41 第 3 章 基于音素識別和文本相關的說話 人分割算法 . 43 利用高層信息的說話人分割算法介紹 . 43 基于區(qū)分性頻域特征的說話人分割算法 . 43 短時特征與長時特征融合的說話人分割算法 . 44 目 錄 V 基于音素識別和文本相關的說話人分割算法 . 44 基本思想 . 44 算法描述 . 45 實驗結果與分析 . 49 實驗數(shù)據(jù)和設置 . 49 實 驗結果與分析 . 50 小結 . 53 第 4 章 基于類純度約束的說話人聚類算法 . 54 常用聚類算法 . 54 法 . 54 基于 聚類算法 . 55 說話人聚類算法的評測指標 . 56 基于類純度約束的說話人聚類算法 . 57 聚類結果的影響分析 . 57 算法描述 . 59 實驗結果與分析 . 62 實驗數(shù)據(jù)和設置 . 62 實驗結果與分析 . 63 小結 . 66 第 5 章 基于雙層結構的說話人快速辨認算法 . 68 常用的說話人快速辨認算法 . 68 法 . 69 法 . 70 現(xiàn)有算法分析 . 70 基于雙層結構的說話人快速辨認算法 . 72 基于 目標說話人剪枝算法 . 73 基于雙層結構的目標說話人剪枝算法 . 76 實驗結果與分析 . 77 實驗數(shù)據(jù)和設置 . 77 實驗結果與分析 . 78 小結 . 84 第 6 章 結論與展望 . 86 目 錄 論文工作總結 . 86 下一 步研究的展望 . 88 參考文獻 . 90 致 謝 . 100 聲 明 . 101 個人簡歷、在學期間發(fā)表的學術論文與研究成果 . 102 第 1 章 緒論 1 第 1章 緒論 語音是人與人進行交流的重要媒介,是最自然、最方便 、 最有效的交流工具之一 ,也是人 類 獲取信息的主要來源之一。隨著信息技術的不斷發(fā)展,利用信息技術自動識別語音的說話人身份的技術也隨之不斷發(fā)展,即說話人識別( 術 1。 說話人識別技術 有著非常廣闊的應用前景:在 公安 司法領域中 ,它可以用來尋找 、 發(fā)現(xiàn) 、 鎖定 和確認 目標 ;在銀行金融等領域中,它可以作為身份核對的一種手段 ,如聲紋電話銀行 ; 在日常生活中 ,它 可 以 用作個人身份的確定,如聲控門禁等。 大規(guī)模目標說話人檢測是說話人識別的應用之一,目的是解決 說話人識別 所 面臨 的 由 多說話人語音和大規(guī)模目標說話人等因素引發(fā) 的 問題 ,提高說話人 識別 的 性能。 論文在前人 已有 工作 的 基礎上, 對上述問題分別進行了研究,并 提出了自己的一些見解。 本章的內容安排如下: 大規(guī) 模目標 說話人 檢測 技術的 組成 與發(fā)展做簡要介紹; 述 大規(guī)模目標說話人檢測的 研究現(xiàn)狀 并 指出 其 重點和難點; 紹 本文工作的研究思路和 工作 內容 ; 紹 本文的組織結構 。 大規(guī)模目標 說話人 檢測 技術 概述 大規(guī)模目標說話人檢測 技術 是一種說話人識別 技術, 說話人識別是根據(jù)語音中反映說話人生理和行為特征的語音參數(shù),來識別語音發(fā)出者身份的技術。 說話人識別根據(jù)應用的范疇可分為說話人辨認( 2和說話人確認( 2兩類 。說話人辨認是判定待識別的語音屬于 一個多選一的問題;說話人確認是確定一段語音是否由所聲明的說話人發(fā)出,答案有 “ 是 ” ( 接受 )或 “ 否 ” (拒絕)兩種 ,是一個二選一的問題 。 說話人識別根據(jù)識別的內容可以分為文本無關( 文本相關( 類 2。文本無關不指定說話人發(fā)音的文本,模型建立相對困難,但使用方便且應用范圍較寬;文本相關在訓練時要求用戶按照指定文本發(fā)音,精確地建立每位說話人的模型(例如基于詞、音素或音節(jié)的模型) , 在識別時 要求 用戶必須按指定文本發(fā)音。一般來說,文本相關的說話人識別 的 性能要 好于文本無關的說話人識別,但是 文本無關 的 說話人識別 應用的靈活性要大大好于文本相關 。 第 1 章 緒論 2 說話人識別根據(jù) 待識別語音 的 說話人 可以分為 閉集( 別 和 開集( 別 兩類 2。 閉集識別 , 待識別語音的說話人均屬于已知的 目標 說話人集合(目標說話人 也稱作 集內說話人 , 不屬于 目標 說話人集合的說話人稱作 假冒者或 集外說話人)。 開集識別 , 待識別語音的說話人可能 為集外說話人, 即 不屬于已知的 目標 說話人集合 。 顯然,開集識別的難度要大于閉集識別。 大規(guī)模目標說話人檢測 ,其 目的 是 檢測輸入語音中是否包含目標說話人發(fā)出的語音, 其輸入語音 中 一般包 含多于一位說話人的語音 (多說話人語音), 目標說話人的數(shù)量多(大規(guī)模 ) 。 一般來說, 說話人識別 中 待識別語音 中 只含有一位說話人的語音 (單說話人語音),為避免混淆, 在本文中將待識別語音 為單 說話人語音的說話人識別稱為單說話人識別 。 單說話人識別 對多說話人語音的處理存在著 較大 的問題,因為很 顯然將多說話人語音直接用來進行 單 說話人識別在理論 上是說不通的,無論多說話人語音與某一說話人匹配地如何完美也不能夠說明 這段語音是由這位說話人發(fā)出的,因為這段語音中還包含了其他說話人的語音不能代表單一某位說話人的特性。 大規(guī)模目標說話人檢測可以分解成兩個子任務: 一是 將多說話人語音轉換成多段單說話人語音。這 就需要 檢測 多說話人 語音中不同說話人 說話 的時間點 ,根據(jù) 語音中說話人身份發(fā)生變化的時間點將 多說話人語音 分割成許多小段語音 ,這也是通常所說的說話人分割( 3。因為分割之后的單說話人語音 段 的長度 可能 較短 , 會 對 單說話人識別 的 性能 造成一定的影響 ,說話人分割之后一般還需進行說話人聚類( 3, 說話人聚類是將 說話人 分割之后的語音 段 按照說話人 的 身份進行聚類, 將 屬于同一說話人的語音 段 聚成一類 。 二是 單說話人識別任務 , 在說話人檢測中通常是指說話人辨認,即對說話人分割聚類之后得到多段單說話人語音 分別 進行說話人辨認 , 在 辨認結果中 回答 多說話人語音中否有目標說話人發(fā)音, 如果有 目標說話人發(fā)音的話回答是 哪些目標說話人 的發(fā)音 。 圖 說話人檢測的問題分解 示意 圖 。 大規(guī)模目標 說話人 檢測 系統(tǒng) 的 輸入語音是多個說話人的 任意文本的隨意發(fā)音(多說話人語音、文本無關)、輸入語音中既包含 目標說話人 的語音 也包含 假冒者 的語音(開集)、 目標說話人的數(shù)量多(大規(guī)模目標說話人); 沒有輸入語音的 先驗知識,如 輸入 語音中 的說話人數(shù)量、性別以及 可能的目標說話人 身份 等 ;目的是檢測 輸入 語音中是否有目標說話人發(fā)出的語音,如果有的話是哪一個或哪幾個目標說話人。因此 , 本論文所研究的系統(tǒng)是一個文本無關的大規(guī)模的開集的多 說話人 檢測 系統(tǒng)。 第 1 章 緒論 3 0 1 2 3 4 5 6 7 8 9 10x 1 05 . 500 . 51說話人 A 說話人 B 說話人 C 說話人聚類 說話人分割 目標說話人 集合 說話人辨認 檢測 結果 圖 話人檢測 問題分解 示意圖 當 目標說話人 集合過大時 必然會造成 辨認 速度的大幅下降 4,因此 本文的 研究 任務可分解為兩部分,一是提高將 多說話人語音轉換成多段單說話人語音的能力 ,即 改善說話人分割聚類的性能 ;二是 在保持 說話人 辨認 的辨認準確 率的前提下 提高 辨認 的 速度。 大規(guī)模目標說話人檢測技術的研究現(xiàn)狀 說話人識別的研究始于 20 世紀 30 年代, 幾十年來 國內外許多 著名 大學 、 研究機構 以及很多大公司的實驗室 都在 開展 說話人識別 方面 的 相關研究, 并取得了豐碩的研究成果,國外的有美國的 實驗室、麻省理工學院林肯實驗室( 、 加州大學 伯克利 分校 的 國際計算機科學研究院( 、 究中心 等, 加拿大的 de 驗室 等 , 法國的 實驗室、 1 章 緒論 4 驗室和 驗室等;國內的有中 國 科 學 院聲學研究所、 自動化研究所,北京大學,中國科技大學 、科大訊飛 語音實驗室, 北京郵電大學,北京理工大學 , 上海交通大學 , 浙江大學,南京大學,哈爾濱工業(yè)大學 等 。 近十 多 年來 ,輸入語音為 多說話人語音的說話人 檢測 也逐漸 開 展 起來 。 美國國家標準與技術研究院( 5在 1999 年組織 的 說話人識別 評測( 5中就有了雙人語音的說話人檢測 任務 ; 002 和 2003 中 組織了說話人分割聚類評測 ; 2004 年以后的 6當中,將 說話人分割 作為 測的一項子任務。一些說話人 檢測 系統(tǒng) 也逐漸出現(xiàn) ,如法國的 統(tǒng) 7 0,11系統(tǒng) 等 。大規(guī)模目標說話人快速辨認的研究 在近些年 也取得了相當 大 的進展,研究者們提出了很多 的 快速辨認算法,取得了 很好的加速效果 4。 下面, 本文將 主要 從說話人分割聚類和 說話人 快速 辨認 兩 個 方面來介紹研究進展 并給出分析 。 說話人分割聚類 的研究現(xiàn)狀 說話人分割聚類的常用算法 總的來說, 說話人分割聚類 算法 可分為三類:( 1)基于距離度量 的算法, 該類算法主要是利用一些距離度量準則, 利用預先設定好的閾值 判斷相鄰的兩 段 語音是否屬于同一說話人。常用的度量準則有 貝葉斯信息準則( 12 一般化似然比( 17離( 21交叉似然比( 25,26和權重 歐式距離 27等 。 ( 2)基于 模型 搜索 的算法 , 該類算法 需要 已知目標說話人模型,或從多說話人語音中估計出 可能的 目標說話人模型,利用這些模型來搜索目標說話人的發(fā)音時刻,不斷的 迭代 更新 目標 說話人的模型并對 輸入語音進行重搜索來完成說話人檢測;常用的算法有 美國 實驗室的 基于 高斯混合模型( 的搜索算法 28、 法國 驗室的 基于 隱馬爾科夫模型( 的搜索算法等 29。( 3)距離度量 和模型 搜索 相 融合 的算法, 如法國的 統(tǒng) 7, 統(tǒng) 10等。 目前, 一些 國內外研究機構 均 已經出現(xiàn)了不少具有實用價值的說話人 分割聚類 算法和系統(tǒng),以下是其中一些的簡介。 ( 1) 法國 多階段( 10說話人分割 系統(tǒng),首先利第 1 章 緒論 5 用語音活動檢測( 語音分成語音和非語音兩類,接下來使用 基于 離的說話人分割 算法進行 初始 分割,將分割得到 的每 個 語音段 訓練成 型 30并 利用 碼算法重新分割, 然后 使用 為距離度量 準則 對 分割后的 語音 段 進行 模型聚類, 將 屬于同一類的 語音 段 合并 , 并重估合并后 的 語音 段 的 型,利用帶有能量限制的 碼算法重新分割,最后按照說話人進行聚類。 統(tǒng) 在 T 04F6和 1評測數(shù)據(jù)集上 , 對比單階段 統(tǒng)的說話人錯誤率 6相對下降了 40%。 ( 2) 美國 實驗室提出了一種基于 說話人檢測算法 28。 該算法首先在 訓練階段利用 已知的目標說話人 語音 訓練 目標說話人模型, 檢測時 根據(jù)語音段在 目標說 話人模型和背景說話人模型 上的似然分數(shù)差進行目標說話人檢測。在 聞數(shù)據(jù)庫 32上,對于單一目標說話人檢測,在語音質量很干凈的情況下,漏檢率大約是 7%, 在語音質量不干凈的情況下,漏檢率大約是 27%; 對于雙目標說話人檢測,漏檢率大約是 63%。 ( 3) 法國的 統(tǒng) 7,該系統(tǒng) 將基于 統(tǒng)和基于 統(tǒng)進行融合,融合策略有串行和并行兩種,串行融合是將 統(tǒng)的輸出作為 統(tǒng)的輸入,并行融合是將 統(tǒng)和 統(tǒng)的結果 首先 進行融合,分割結果一致的 部分 保留不變,對于分割結果不同的語音段,采用任一系統(tǒng)進行重新分割。在 002, 2003 和 2004 評測中, 統(tǒng) 分別取得了會議交談語音庫和電話對話語音庫上 的 最優(yōu)性能 7,最優(yōu)系統(tǒng)性能 8和 最優(yōu)說話人分割性能 33的好成績。 ( 4) 微軟亞洲研究院提出了一種基于 說話人實時分割算法 34,35。該算法分為預分割和優(yōu)化兩步。在預分割階段,根據(jù)每幀語音在 的 似然 分 的高低 將該幀語音劃分為可靠說話人語音幀、可疑說話人語音幀和非說話人語音幀;在優(yōu)化階段,使用遞增說話人自適應( 法從可靠說話人語音幀上得到精確的說話人模型,并根據(jù)得到的模型對初始分割的結果做進一步判決。在 語新聞廣播數(shù)據(jù)庫上,誤警率為 漏檢率為 ( 5) 2000 提出 了 話人分割算法 23。該算法分為預分割和優(yōu)化兩步。在預分割階段,采用 離作為距離度量準則進行初始分割;在優(yōu)化階段,使用 斷預分割結果中的相鄰兩個語音段是否屬于同一個說話人,如果是則 合并,否則保持不變。該算法在新聞語料和電話語料上都取得了不錯的分割結果。 ( 6) 北京大學信息科學技術學院智能科學系的視覺與聽覺信息處理國家重點第 1 章 緒論 6 實驗室提出了一種基于集外說話人模型集上似然分向量的說話人分割算法 36。該算法 包括預分割、集外說話人模型打分和基于模型分數(shù)向量的聚類三部分,先 將語音分割成每段只含有一個說話人的小段, 然后進行集外模型打分并合并模型分數(shù)向量距離較小的段,采用重分割 進一步提升性能,在 003 雙說話人識別數(shù)據(jù)庫上取得了較好的分割效果。 ( 7) 中國科學院自動化研究所高技術創(chuàng)新中心提出了一種基于熵的音頻跳變點檢測方法 37用于廣播電視環(huán)境下的說話人跟蹤檢測 ,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省蘇州平江中學2025年初三第一次聯(lián)考英語試題文試題含答案
- 浙江省湖州市吳興區(qū)2025年初三五校聯(lián)誼期中考試試卷數(shù)學試題含解析
- 上海市徐匯區(qū)2025年初三TOP20三月聯(lián)考(全國II卷)生物試題含解析
- 股權無償轉移合同范本大全
- BIM技術研究與開發(fā)合同
- 遼寧省大連市中山區(qū)2019-2020學年八年級上學期期末測試物理試題【含答案】
- 人教版地理七上第五章《發(fā)展與合作》表格教學設計
- Brand KPIs for pet supply online shop Zee.Dog in Brazil-外文版培訓課件(2025.2)
- 山東省煙臺市黃務中學六年級歷史下冊 第8課 輝煌的隋唐文化(二)教學設計 魯教版五四制
- 2024年七月三角形分類教學中的多模態(tài)資源整合
- 隧道施工監(jiān)控量測方案及措施
- Liaison快速操作指南中文版說課材料
- 國家開放大學《人文英語3》章節(jié)測試參考答案
- 中國暈厥診斷與治療專家共識(2014 )
- 長途大客車總布置設計
- Q∕GDW 10799.6-2018 國家電網(wǎng)有限公司電力安全工作規(guī)程 第6部分:光伏電站部分
- T∕CAAA 002-2018 燕麥 干草質量分級
- 方格網(wǎng)計算步驟及方法
- 課題評分表(共1頁)
- 六年級趣味數(shù)學(課堂PPT)
- 詢價單(模板)
評論
0/150
提交評論