【畢業(yè)學(xué)位論文】大規(guī)模目標(biāo)說(shuō)話人檢測(cè)關(guān)鍵技術(shù)研究-計(jì)算機(jī)應(yīng)用技術(shù)博士論文_第1頁(yè)
【畢業(yè)學(xué)位論文】大規(guī)模目標(biāo)說(shuō)話人檢測(cè)關(guān)鍵技術(shù)研究-計(jì)算機(jī)應(yīng)用技術(shù)博士論文_第2頁(yè)
【畢業(yè)學(xué)位論文】大規(guī)模目標(biāo)說(shuō)話人檢測(cè)關(guān)鍵技術(shù)研究-計(jì)算機(jī)應(yīng)用技術(shù)博士論文_第3頁(yè)
【畢業(yè)學(xué)位論文】大規(guī)模目標(biāo)說(shuō)話人檢測(cè)關(guān)鍵技術(shù)研究-計(jì)算機(jī)應(yīng)用技術(shù)博士論文_第4頁(yè)
【畢業(yè)學(xué)位論文】大規(guī)模目標(biāo)說(shuō)話人檢測(cè)關(guān)鍵技術(shù)研究-計(jì)算機(jī)應(yīng)用技術(shù)博士論文_第5頁(yè)
已閱讀5頁(yè),還剩107頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大規(guī)模目標(biāo)說(shuō)話人檢測(cè) 關(guān)鍵技術(shù)研究 (申請(qǐng)清華大學(xué)工學(xué)博士學(xué)位論文 ) 培 養(yǎng) 單 位 : 計(jì)算機(jī)科學(xué)與技術(shù)系 學(xué) 科 : 計(jì)算機(jī)科學(xué)與技術(shù) 研究 生 : 王 剛 指 導(dǎo) 教 師 : 鄭 方 研究員 二 一一 年四 月 in of 2011 關(guān)于學(xué)位論文使用授權(quán)的說(shuō)明 本人完全了解清華大學(xué)有關(guān)保留、使用學(xué)位論文 的規(guī)定,即: 清華大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)學(xué)位論文的使用權(quán),其中包括: ( 1) 已獲學(xué)位的研究生必須按學(xué)校規(guī)定提交學(xué)位論文,學(xué)校可以采用影印、縮印或其他復(fù)制手段保存研究生上交的學(xué)位論文; ( 2)為教學(xué)和科研目的,學(xué)??梢詫⒐_(kāi)的學(xué)位論文作為資料在圖書(shū)館、資料室等場(chǎng)所供校內(nèi)師生閱讀,或在校園網(wǎng)上供校內(nèi)師生瀏覽部分內(nèi)容; ( 3)根據(jù)中華人民共和國(guó)學(xué)位條例暫行實(shí)施辦法,向國(guó)家圖書(shū)館報(bào)送可以公開(kāi)的學(xué)位論文。 本人保證遵守上述規(guī)定。 (保密的論文在解密后遵守此規(guī)定) 作者簽名: 導(dǎo) 師簽名: 日 期: 日 期: 摘 要 I 摘 要 為提高大規(guī)模目標(biāo)說(shuō)話人檢測(cè)的性能,本論文針對(duì)多說(shuō)話人分割問(wèn)題和快速辨認(rèn)問(wèn)題進(jìn)行了研究,主要工作包括: 1 提出基于參考說(shuō)話人模型的距離度量算法 。為提高在分析窗寬較短情況下兩窗語(yǔ)音之間距離度量的穩(wěn)定性,本文提出了基于參考說(shuō)話人模型的距離度量算法。該算法 不需要將窗內(nèi)語(yǔ)音訓(xùn)練成模型,避免了數(shù)據(jù)較少、模型不精確對(duì)距離度量的影響, 利用兩窗語(yǔ)音分別與 參考說(shuō)話人模 型之間的差異性來(lái)度量?jī)纱罢Z(yǔ)音之間的距離。 與傳統(tǒng)的 法相比, 在 002 新聞采訪語(yǔ)音庫(kù) 漏檢率相對(duì)下降 電話交談?wù)Z音庫(kù) 漏檢率相對(duì)下降 2 提出基于音素識(shí)別和文本相關(guān)的說(shuō)話人分割算法 ??紤]到在較短語(yǔ)音下文本相關(guān)說(shuō)話人識(shí)別好于文本無(wú)關(guān)說(shuō)話人識(shí)別的原因在于文本相關(guān)信息的充分利用,提出通過(guò) 音素識(shí)別技術(shù)獲取音素這樣的相關(guān)文本信息,以此進(jìn)行文本相關(guān)的說(shuō)話人識(shí)別的思路。 在 據(jù)庫(kù)上, 與 基于參考說(shuō)話人模型的分割算法相比,漏檢率相對(duì)下降 3 提出 基于類純度約束的說(shuō)話人聚類算法 。為減輕分割后單說(shuō)話人語(yǔ)音段長(zhǎng)度過(guò)短對(duì)后續(xù)的說(shuō)話人識(shí)別性能的影響,提出基于類純度約束的說(shuō)話人聚類算法。該算法借助參考說(shuō)話人信息計(jì)算語(yǔ)音段之間的距離,以類內(nèi)離散度最小、類純度最大為準(zhǔn)則,降低了不同說(shuō)話人的語(yǔ)音被聚到同一類內(nèi)的可能性。在 006 數(shù)據(jù)庫(kù)上,在 語(yǔ)音段平均長(zhǎng)度分別為 2 秒、 5 秒和 8 秒的條件下 ,與傳統(tǒng)的法比較,有效類語(yǔ)音的比例分別 提高了 目標(biāo)說(shuō)話人檢測(cè)的召回率分別提高了 4 提出基于參 考說(shuō)話人和雙層結(jié)構(gòu)的說(shuō)話人快速辨認(rèn)算法 。 目標(biāo)說(shuō)話人越多,說(shuō)話人辨認(rèn)所需要的時(shí)間越長(zhǎng),因此,大規(guī)模目標(biāo)說(shuō)話人辨認(rèn)任務(wù)中辨認(rèn)速度是必須面對(duì)的、極其關(guān)鍵的問(wèn)題。為此,本文提出利用 參考說(shuō)話人度量待辨認(rèn)語(yǔ)音與目標(biāo)說(shuō)話人之間的相似程度,并進(jìn)一步利用雙層結(jié)構(gòu)進(jìn)行剪枝以提高辨認(rèn)速度的算法。在基于 構(gòu)的說(shuō)話人辨認(rèn)系統(tǒng)中,與傳統(tǒng)的 法相比,運(yùn)算時(shí)間降低了 辨認(rèn)正確率提高 關(guān)鍵詞: 大規(guī)模;說(shuō)話人檢測(cè); 說(shuō)話人分割 ; 說(shuō)話人聚類;快速辨認(rèn) I on on to of It 1 To of a is in no is by of a 002 002 2 it is is an to is is in a DR on 3 To on of to of a on is SM is to as as as It of by II On 006 AC 5 in be 4 SM a It is of be is a in To an SM to is a to to MC a an of 錄 錄 第 1 章 緒論 . 1 大規(guī)模目標(biāo)說(shuō)話人檢測(cè)技術(shù)概述 . 1 大規(guī)模目標(biāo)說(shuō)話人檢測(cè)技術(shù)的研究現(xiàn)狀 . 3 說(shuō)話人分割聚類的研究現(xiàn)狀 . 4 說(shuō)話人快速辨認(rèn)的研究現(xiàn)狀 . 7 大規(guī)模目標(biāo)說(shuō)話人檢測(cè)的難點(diǎn) . 10 研究工作概述 . 12 研究思路 . 12 論文工作內(nèi)容 . 15 論文的組織結(jié)構(gòu) . 17 第 2 章 基于參考說(shuō)話人模型的說(shuō)話人分割算法 . 19 基于距離度量的說(shuō)話人分割算法介紹 . 19 離度量 . 19 離度量 . 21 離度量 . 22 說(shuō)話人分割算法的評(píng)測(cè)指標(biāo) . 23 基于參考說(shuō)話人模型的說(shuō)話人分割算法 . 24 問(wèn)題的提出 . 24 基本思想 . 24 算法描述 . 25 實(shí)驗(yàn)結(jié)果與分析 . 33 實(shí)驗(yàn)數(shù)據(jù)和設(shè)置 . 33 實(shí)驗(yàn)結(jié)果與分析 . 34 討論 . 41 小結(jié) . 41 第 3 章 基于音素識(shí)別和文本相關(guān)的說(shuō)話 人分割算法 . 43 利用高層信息的說(shuō)話人分割算法介紹 . 43 基于區(qū)分性頻域特征的說(shuō)話人分割算法 . 43 短時(shí)特征與長(zhǎng)時(shí)特征融合的說(shuō)話人分割算法 . 44 目 錄 V 基于音素識(shí)別和文本相關(guān)的說(shuō)話人分割算法 . 44 基本思想 . 44 算法描述 . 45 實(shí)驗(yàn)結(jié)果與分析 . 49 實(shí)驗(yàn)數(shù)據(jù)和設(shè)置 . 49 實(shí) 驗(yàn)結(jié)果與分析 . 50 小結(jié) . 53 第 4 章 基于類純度約束的說(shuō)話人聚類算法 . 54 常用聚類算法 . 54 法 . 54 基于 聚類算法 . 55 說(shuō)話人聚類算法的評(píng)測(cè)指標(biāo) . 56 基于類純度約束的說(shuō)話人聚類算法 . 57 聚類結(jié)果的影響分析 . 57 算法描述 . 59 實(shí)驗(yàn)結(jié)果與分析 . 62 實(shí)驗(yàn)數(shù)據(jù)和設(shè)置 . 62 實(shí)驗(yàn)結(jié)果與分析 . 63 小結(jié) . 66 第 5 章 基于雙層結(jié)構(gòu)的說(shuō)話人快速辨認(rèn)算法 . 68 常用的說(shuō)話人快速辨認(rèn)算法 . 68 法 . 69 法 . 70 現(xiàn)有算法分析 . 70 基于雙層結(jié)構(gòu)的說(shuō)話人快速辨認(rèn)算法 . 72 基于 目標(biāo)說(shuō)話人剪枝算法 . 73 基于雙層結(jié)構(gòu)的目標(biāo)說(shuō)話人剪枝算法 . 76 實(shí)驗(yàn)結(jié)果與分析 . 77 實(shí)驗(yàn)數(shù)據(jù)和設(shè)置 . 77 實(shí)驗(yàn)結(jié)果與分析 . 78 小結(jié) . 84 第 6 章 結(jié)論與展望 . 86 目 錄 論文工作總結(jié) . 86 下一 步研究的展望 . 88 參考文獻(xiàn) . 90 致 謝 . 100 聲 明 . 101 個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果 . 102 第 1 章 緒論 1 第 1章 緒論 語(yǔ)音是人與人進(jìn)行交流的重要媒介,是最自然、最方便 、 最有效的交流工具之一 ,也是人 類 獲取信息的主要來(lái)源之一。隨著信息技術(shù)的不斷發(fā)展,利用信息技術(shù)自動(dòng)識(shí)別語(yǔ)音的說(shuō)話人身份的技術(shù)也隨之不斷發(fā)展,即說(shuō)話人識(shí)別( 術(shù) 1。 說(shuō)話人識(shí)別技術(shù) 有著非常廣闊的應(yīng)用前景:在 公安 司法領(lǐng)域中 ,它可以用來(lái)尋找 、 發(fā)現(xiàn) 、 鎖定 和確認(rèn) 目標(biāo) ;在銀行金融等領(lǐng)域中,它可以作為身份核對(duì)的一種手段 ,如聲紋電話銀行 ; 在日常生活中 ,它 可 以 用作個(gè)人身份的確定,如聲控門禁等。 大規(guī)模目標(biāo)說(shuō)話人檢測(cè)是說(shuō)話人識(shí)別的應(yīng)用之一,目的是解決 說(shuō)話人識(shí)別 所 面臨 的 由 多說(shuō)話人語(yǔ)音和大規(guī)模目標(biāo)說(shuō)話人等因素引發(fā) 的 問(wèn)題 ,提高說(shuō)話人 識(shí)別 的 性能。 論文在前人 已有 工作 的 基礎(chǔ)上, 對(duì)上述問(wèn)題分別進(jìn)行了研究,并 提出了自己的一些見(jiàn)解。 本章的內(nèi)容安排如下: 大規(guī) 模目標(biāo) 說(shuō)話人 檢測(cè) 技術(shù)的 組成 與發(fā)展做簡(jiǎn)要介紹; 述 大規(guī)模目標(biāo)說(shuō)話人檢測(cè)的 研究現(xiàn)狀 并 指出 其 重點(diǎn)和難點(diǎn); 紹 本文工作的研究思路和 工作 內(nèi)容 ; 紹 本文的組織結(jié)構(gòu) 。 大規(guī)模目標(biāo) 說(shuō)話人 檢測(cè) 技術(shù) 概述 大規(guī)模目標(biāo)說(shuō)話人檢測(cè) 技術(shù) 是一種說(shuō)話人識(shí)別 技術(shù), 說(shuō)話人識(shí)別是根據(jù)語(yǔ)音中反映說(shuō)話人生理和行為特征的語(yǔ)音參數(shù),來(lái)識(shí)別語(yǔ)音發(fā)出者身份的技術(shù)。 說(shuō)話人識(shí)別根據(jù)應(yīng)用的范疇可分為說(shuō)話人辨認(rèn)( 2和說(shuō)話人確認(rèn)( 2兩類 。說(shuō)話人辨認(rèn)是判定待識(shí)別的語(yǔ)音屬于 一個(gè)多選一的問(wèn)題;說(shuō)話人確認(rèn)是確定一段語(yǔ)音是否由所聲明的說(shuō)話人發(fā)出,答案有 “ 是 ” ( 接受 )或 “ 否 ” (拒絕)兩種 ,是一個(gè)二選一的問(wèn)題 。 說(shuō)話人識(shí)別根據(jù)識(shí)別的內(nèi)容可以分為文本無(wú)關(guān)( 文本相關(guān)( 類 2。文本無(wú)關(guān)不指定說(shuō)話人發(fā)音的文本,模型建立相對(duì)困難,但使用方便且應(yīng)用范圍較寬;文本相關(guān)在訓(xùn)練時(shí)要求用戶按照指定文本發(fā)音,精確地建立每位說(shuō)話人的模型(例如基于詞、音素或音節(jié)的模型) , 在識(shí)別時(shí) 要求 用戶必須按指定文本發(fā)音。一般來(lái)說(shuō),文本相關(guān)的說(shuō)話人識(shí)別 的 性能要 好于文本無(wú)關(guān)的說(shuō)話人識(shí)別,但是 文本無(wú)關(guān) 的 說(shuō)話人識(shí)別 應(yīng)用的靈活性要大大好于文本相關(guān) 。 第 1 章 緒論 2 說(shuō)話人識(shí)別根據(jù) 待識(shí)別語(yǔ)音 的 說(shuō)話人 可以分為 閉集( 別 和 開(kāi)集( 別 兩類 2。 閉集識(shí)別 , 待識(shí)別語(yǔ)音的說(shuō)話人均屬于已知的 目標(biāo) 說(shuō)話人集合(目標(biāo)說(shuō)話人 也稱作 集內(nèi)說(shuō)話人 , 不屬于 目標(biāo) 說(shuō)話人集合的說(shuō)話人稱作 假冒者或 集外說(shuō)話人)。 開(kāi)集識(shí)別 , 待識(shí)別語(yǔ)音的說(shuō)話人可能 為集外說(shuō)話人, 即 不屬于已知的 目標(biāo) 說(shuō)話人集合 。 顯然,開(kāi)集識(shí)別的難度要大于閉集識(shí)別。 大規(guī)模目標(biāo)說(shuō)話人檢測(cè) ,其 目的 是 檢測(cè)輸入語(yǔ)音中是否包含目標(biāo)說(shuō)話人發(fā)出的語(yǔ)音, 其輸入語(yǔ)音 中 一般包 含多于一位說(shuō)話人的語(yǔ)音 (多說(shuō)話人語(yǔ)音), 目標(biāo)說(shuō)話人的數(shù)量多(大規(guī)模 ) 。 一般來(lái)說(shuō), 說(shuō)話人識(shí)別 中 待識(shí)別語(yǔ)音 中 只含有一位說(shuō)話人的語(yǔ)音 (單說(shuō)話人語(yǔ)音),為避免混淆, 在本文中將待識(shí)別語(yǔ)音 為單 說(shuō)話人語(yǔ)音的說(shuō)話人識(shí)別稱為單說(shuō)話人識(shí)別 。 單說(shuō)話人識(shí)別 對(duì)多說(shuō)話人語(yǔ)音的處理存在著 較大 的問(wèn)題,因?yàn)楹?顯然將多說(shuō)話人語(yǔ)音直接用來(lái)進(jìn)行 單 說(shuō)話人識(shí)別在理論 上是說(shuō)不通的,無(wú)論多說(shuō)話人語(yǔ)音與某一說(shuō)話人匹配地如何完美也不能夠說(shuō)明 這段語(yǔ)音是由這位說(shuō)話人發(fā)出的,因?yàn)檫@段語(yǔ)音中還包含了其他說(shuō)話人的語(yǔ)音不能代表單一某位說(shuō)話人的特性。 大規(guī)模目標(biāo)說(shuō)話人檢測(cè)可以分解成兩個(gè)子任務(wù): 一是 將多說(shuō)話人語(yǔ)音轉(zhuǎn)換成多段單說(shuō)話人語(yǔ)音。這 就需要 檢測(cè) 多說(shuō)話人 語(yǔ)音中不同說(shuō)話人 說(shuō)話 的時(shí)間點(diǎn) ,根據(jù) 語(yǔ)音中說(shuō)話人身份發(fā)生變化的時(shí)間點(diǎn)將 多說(shuō)話人語(yǔ)音 分割成許多小段語(yǔ)音 ,這也是通常所說(shuō)的說(shuō)話人分割( 3。因?yàn)榉指钪蟮膯握f(shuō)話人語(yǔ)音 段 的長(zhǎng)度 可能 較短 , 會(huì) 對(duì) 單說(shuō)話人識(shí)別 的 性能 造成一定的影響 ,說(shuō)話人分割之后一般還需進(jìn)行說(shuō)話人聚類( 3, 說(shuō)話人聚類是將 說(shuō)話人 分割之后的語(yǔ)音 段 按照說(shuō)話人 的 身份進(jìn)行聚類, 將 屬于同一說(shuō)話人的語(yǔ)音 段 聚成一類 。 二是 單說(shuō)話人識(shí)別任務(wù) , 在說(shuō)話人檢測(cè)中通常是指說(shuō)話人辨認(rèn),即對(duì)說(shuō)話人分割聚類之后得到多段單說(shuō)話人語(yǔ)音 分別 進(jìn)行說(shuō)話人辨認(rèn) , 在 辨認(rèn)結(jié)果中 回答 多說(shuō)話人語(yǔ)音中否有目標(biāo)說(shuō)話人發(fā)音, 如果有 目標(biāo)說(shuō)話人發(fā)音的話回答是 哪些目標(biāo)說(shuō)話人 的發(fā)音 。 圖 說(shuō)話人檢測(cè)的問(wèn)題分解 示意 圖 。 大規(guī)模目標(biāo) 說(shuō)話人 檢測(cè) 系統(tǒng) 的 輸入語(yǔ)音是多個(gè)說(shuō)話人的 任意文本的隨意發(fā)音(多說(shuō)話人語(yǔ)音、文本無(wú)關(guān))、輸入語(yǔ)音中既包含 目標(biāo)說(shuō)話人 的語(yǔ)音 也包含 假冒者 的語(yǔ)音(開(kāi)集)、 目標(biāo)說(shuō)話人的數(shù)量多(大規(guī)模目標(biāo)說(shuō)話人); 沒(méi)有輸入語(yǔ)音的 先驗(yàn)知識(shí),如 輸入 語(yǔ)音中 的說(shuō)話人數(shù)量、性別以及 可能的目標(biāo)說(shuō)話人 身份 等 ;目的是檢測(cè) 輸入 語(yǔ)音中是否有目標(biāo)說(shuō)話人發(fā)出的語(yǔ)音,如果有的話是哪一個(gè)或哪幾個(gè)目標(biāo)說(shuō)話人。因此 , 本論文所研究的系統(tǒng)是一個(gè)文本無(wú)關(guān)的大規(guī)模的開(kāi)集的多 說(shuō)話人 檢測(cè) 系統(tǒng)。 第 1 章 緒論 3 0 1 2 3 4 5 6 7 8 9 10x 1 05 . 500 . 51說(shuō)話人 A 說(shuō)話人 B 說(shuō)話人 C 說(shuō)話人聚類 說(shuō)話人分割 目標(biāo)說(shuō)話人 集合 說(shuō)話人辨認(rèn) 檢測(cè) 結(jié)果 圖 話人檢測(cè) 問(wèn)題分解 示意圖 當(dāng) 目標(biāo)說(shuō)話人 集合過(guò)大時(shí) 必然會(huì)造成 辨認(rèn) 速度的大幅下降 4,因此 本文的 研究 任務(wù)可分解為兩部分,一是提高將 多說(shuō)話人語(yǔ)音轉(zhuǎn)換成多段單說(shuō)話人語(yǔ)音的能力 ,即 改善說(shuō)話人分割聚類的性能 ;二是 在保持 說(shuō)話人 辨認(rèn) 的辨認(rèn)準(zhǔn)確 率的前提下 提高 辨認(rèn) 的 速度。 大規(guī)模目標(biāo)說(shuō)話人檢測(cè)技術(shù)的研究現(xiàn)狀 說(shuō)話人識(shí)別的研究始于 20 世紀(jì) 30 年代, 幾十年來(lái) 國(guó)內(nèi)外許多 著名 大學(xué) 、 研究機(jī)構(gòu) 以及很多大公司的實(shí)驗(yàn)室 都在 開(kāi)展 說(shuō)話人識(shí)別 方面 的 相關(guān)研究, 并取得了豐碩的研究成果,國(guó)外的有美國(guó)的 實(shí)驗(yàn)室、麻省理工學(xué)院林肯實(shí)驗(yàn)室( 、 加州大學(xué) 伯克利 分校 的 國(guó)際計(jì)算機(jī)科學(xué)研究院( 、 究中心 等, 加拿大的 de 驗(yàn)室 等 , 法國(guó)的 實(shí)驗(yàn)室、 1 章 緒論 4 驗(yàn)室和 驗(yàn)室等;國(guó)內(nèi)的有中 國(guó) 科 學(xué) 院聲學(xué)研究所、 自動(dòng)化研究所,北京大學(xué),中國(guó)科技大學(xué) 、科大訊飛 語(yǔ)音實(shí)驗(yàn)室, 北京郵電大學(xué),北京理工大學(xué) , 上海交通大學(xué) , 浙江大學(xué),南京大學(xué),哈爾濱工業(yè)大學(xué) 等 。 近十 多 年來(lái) ,輸入語(yǔ)音為 多說(shuō)話人語(yǔ)音的說(shuō)話人 檢測(cè) 也逐漸 開(kāi) 展 起來(lái) 。 美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院( 5在 1999 年組織 的 說(shuō)話人識(shí)別 評(píng)測(cè)( 5中就有了雙人語(yǔ)音的說(shuō)話人檢測(cè) 任務(wù) ; 002 和 2003 中 組織了說(shuō)話人分割聚類評(píng)測(cè) ; 2004 年以后的 6當(dāng)中,將 說(shuō)話人分割 作為 測(cè)的一項(xiàng)子任務(wù)。一些說(shuō)話人 檢測(cè) 系統(tǒng) 也逐漸出現(xiàn) ,如法國(guó)的 統(tǒng) 7 0,11系統(tǒng) 等 。大規(guī)模目標(biāo)說(shuō)話人快速辨認(rèn)的研究 在近些年 也取得了相當(dāng) 大 的進(jìn)展,研究者們提出了很多 的 快速辨認(rèn)算法,取得了 很好的加速效果 4。 下面, 本文將 主要 從說(shuō)話人分割聚類和 說(shuō)話人 快速 辨認(rèn) 兩 個(gè) 方面來(lái)介紹研究進(jìn)展 并給出分析 。 說(shuō)話人分割聚類 的研究現(xiàn)狀 說(shuō)話人分割聚類的常用算法 總的來(lái)說(shuō), 說(shuō)話人分割聚類 算法 可分為三類:( 1)基于距離度量 的算法, 該類算法主要是利用一些距離度量準(zhǔn)則, 利用預(yù)先設(shè)定好的閾值 判斷相鄰的兩 段 語(yǔ)音是否屬于同一說(shuō)話人。常用的度量準(zhǔn)則有 貝葉斯信息準(zhǔn)則( 12 一般化似然比( 17離( 21交叉似然比( 25,26和權(quán)重 歐式距離 27等 。 ( 2)基于 模型 搜索 的算法 , 該類算法 需要 已知目標(biāo)說(shuō)話人模型,或從多說(shuō)話人語(yǔ)音中估計(jì)出 可能的 目標(biāo)說(shuō)話人模型,利用這些模型來(lái)搜索目標(biāo)說(shuō)話人的發(fā)音時(shí)刻,不斷的 迭代 更新 目標(biāo) 說(shuō)話人的模型并對(duì) 輸入語(yǔ)音進(jìn)行重搜索來(lái)完成說(shuō)話人檢測(cè);常用的算法有 美國(guó) 實(shí)驗(yàn)室的 基于 高斯混合模型( 的搜索算法 28、 法國(guó) 驗(yàn)室的 基于 隱馬爾科夫模型( 的搜索算法等 29。( 3)距離度量 和模型 搜索 相 融合 的算法, 如法國(guó)的 統(tǒng) 7, 統(tǒng) 10等。 目前, 一些 國(guó)內(nèi)外研究機(jī)構(gòu) 均 已經(jīng)出現(xiàn)了不少具有實(shí)用價(jià)值的說(shuō)話人 分割聚類 算法和系統(tǒng),以下是其中一些的簡(jiǎn)介。 ( 1) 法國(guó) 多階段( 10說(shuō)話人分割 系統(tǒng),首先利第 1 章 緒論 5 用語(yǔ)音活動(dòng)檢測(cè)( 語(yǔ)音分成語(yǔ)音和非語(yǔ)音兩類,接下來(lái)使用 基于 離的說(shuō)話人分割 算法進(jìn)行 初始 分割,將分割得到 的每 個(gè) 語(yǔ)音段 訓(xùn)練成 型 30并 利用 碼算法重新分割, 然后 使用 為距離度量 準(zhǔn)則 對(duì) 分割后的 語(yǔ)音 段 進(jìn)行 模型聚類, 將 屬于同一類的 語(yǔ)音 段 合并 , 并重估合并后 的 語(yǔ)音 段 的 型,利用帶有能量限制的 碼算法重新分割,最后按照說(shuō)話人進(jìn)行聚類。 統(tǒng) 在 T 04F6和 1評(píng)測(cè)數(shù)據(jù)集上 , 對(duì)比單階段 統(tǒng)的說(shuō)話人錯(cuò)誤率 6相對(duì)下降了 40%。 ( 2) 美國(guó) 實(shí)驗(yàn)室提出了一種基于 說(shuō)話人檢測(cè)算法 28。 該算法首先在 訓(xùn)練階段利用 已知的目標(biāo)說(shuō)話人 語(yǔ)音 訓(xùn)練 目標(biāo)說(shuō)話人模型, 檢測(cè)時(shí) 根據(jù)語(yǔ)音段在 目標(biāo)說(shuō) 話人模型和背景說(shuō)話人模型 上的似然分?jǐn)?shù)差進(jìn)行目標(biāo)說(shuō)話人檢測(cè)。在 聞數(shù)據(jù)庫(kù) 32上,對(duì)于單一目標(biāo)說(shuō)話人檢測(cè),在語(yǔ)音質(zhì)量很干凈的情況下,漏檢率大約是 7%, 在語(yǔ)音質(zhì)量不干凈的情況下,漏檢率大約是 27%; 對(duì)于雙目標(biāo)說(shuō)話人檢測(cè),漏檢率大約是 63%。 ( 3) 法國(guó)的 統(tǒng) 7,該系統(tǒng) 將基于 統(tǒng)和基于 統(tǒng)進(jìn)行融合,融合策略有串行和并行兩種,串行融合是將 統(tǒng)的輸出作為 統(tǒng)的輸入,并行融合是將 統(tǒng)和 統(tǒng)的結(jié)果 首先 進(jìn)行融合,分割結(jié)果一致的 部分 保留不變,對(duì)于分割結(jié)果不同的語(yǔ)音段,采用任一系統(tǒng)進(jìn)行重新分割。在 002, 2003 和 2004 評(píng)測(cè)中, 統(tǒng) 分別取得了會(huì)議交談?wù)Z音庫(kù)和電話對(duì)話語(yǔ)音庫(kù)上 的 最優(yōu)性能 7,最優(yōu)系統(tǒng)性能 8和 最優(yōu)說(shuō)話人分割性能 33的好成績(jī)。 ( 4) 微軟亞洲研究院提出了一種基于 說(shuō)話人實(shí)時(shí)分割算法 34,35。該算法分為預(yù)分割和優(yōu)化兩步。在預(yù)分割階段,根據(jù)每幀語(yǔ)音在 的 似然 分 的高低 將該幀語(yǔ)音劃分為可靠說(shuō)話人語(yǔ)音幀、可疑說(shuō)話人語(yǔ)音幀和非說(shuō)話人語(yǔ)音幀;在優(yōu)化階段,使用遞增說(shuō)話人自適應(yīng)( 法從可靠說(shuō)話人語(yǔ)音幀上得到精確的說(shuō)話人模型,并根據(jù)得到的模型對(duì)初始分割的結(jié)果做進(jìn)一步判決。在 語(yǔ)新聞廣播數(shù)據(jù)庫(kù)上,誤警率為 漏檢率為 ( 5) 2000 提出 了 話人分割算法 23。該算法分為預(yù)分割和優(yōu)化兩步。在預(yù)分割階段,采用 離作為距離度量準(zhǔn)則進(jìn)行初始分割;在優(yōu)化階段,使用 斷預(yù)分割結(jié)果中的相鄰兩個(gè)語(yǔ)音段是否屬于同一個(gè)說(shuō)話人,如果是則 合并,否則保持不變。該算法在新聞?wù)Z料和電話語(yǔ)料上都取得了不錯(cuò)的分割結(jié)果。 ( 6) 北京大學(xué)信息科學(xué)技術(shù)學(xué)院智能科學(xué)系的視覺(jué)與聽(tīng)覺(jué)信息處理國(guó)家重點(diǎn)第 1 章 緒論 6 實(shí)驗(yàn)室提出了一種基于集外說(shuō)話人模型集上似然分向量的說(shuō)話人分割算法 36。該算法 包括預(yù)分割、集外說(shuō)話人模型打分和基于模型分?jǐn)?shù)向量的聚類三部分,先 將語(yǔ)音分割成每段只含有一個(gè)說(shuō)話人的小段, 然后進(jìn)行集外模型打分并合并模型分?jǐn)?shù)向量距離較小的段,采用重分割 進(jìn)一步提升性能,在 003 雙說(shuō)話人識(shí)別數(shù)據(jù)庫(kù)上取得了較好的分割效果。 ( 7) 中國(guó)科學(xué)院自動(dòng)化研究所高技術(shù)創(chuàng)新中心提出了一種基于熵的音頻跳變點(diǎn)檢測(cè)方法 37用于廣播電視環(huán)境下的說(shuō)話人跟蹤檢測(cè) ,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論