基于內(nèi)容的語音信息檢索技術(shù)的內(nèi)容與實現(xiàn),搜索引擎論文_第1頁
基于內(nèi)容的語音信息檢索技術(shù)的內(nèi)容與實現(xiàn),搜索引擎論文_第2頁
基于內(nèi)容的語音信息檢索技術(shù)的內(nèi)容與實現(xiàn),搜索引擎論文_第3頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于內(nèi)容的語音信息檢索技術(shù)的內(nèi)容與實現(xiàn),搜索引擎論文自然界存在著各種各樣的聲音,對聲音進(jìn)行數(shù)字化處理得到的結(jié)果稱為音頻,是一種重要的計算機多媒體信息。20Hz~20kHz是正常的人耳能夠感悟合理頻率范圍。音頻信息中的一種重要類型為語音,具有下面重要特征:〔1〕由高度抽象的概念溝通組成的媒體形式,主要由字、詞、語法等語素組成。〔2〕語音信息的頻率大約分布在300Hz~4000Hz之間,主要組成部分為低頻,且頻譜中心〔或亮度〕也處于低頻段。〔3〕一般的語音信息中停頓點位于單詞和句子之間,且靜音所占比例較高.〔4〕語音信息的特征構(gòu)造為前部只要是由輔音引起的連續(xù)音節(jié)短摩擦周期,后部是元音的較長間隔.在輔音引起的連續(xù)音節(jié)短摩擦周期內(nèi)有較高的平均過零率〔ZCR〕,在ZCR上比音樂具有更高層次的可變性.利用這些特征對語音信息進(jìn)行特征提取,是針對性的研究和討論基于內(nèi)容的語音信息檢索技術(shù)的前提條件.2語音信息檢索技術(shù)利用語音處理技術(shù)檢索感興趣的音頻信息成為語音檢索.利用前人對語音信號數(shù)字化處理的研究成果,進(jìn)行改良和優(yōu)化后能夠應(yīng)用于語音檢索.建立語音索引進(jìn)行檢索的主要策略見圖1和圖2所示.在建立語音索引進(jìn)行檢索的策略1中,還應(yīng)該包含語音中的發(fā)音者身份及其情緒等其它信息因素,這樣能夠提高語音索引的建立及進(jìn)行檢索的效率和準(zhǔn)確度;建立語音索引進(jìn)行檢索的策略2便于利用數(shù)字化的信息檢索技術(shù)對語音信號進(jìn)行處理,這就是基于內(nèi)容的音頻檢索技術(shù)的基本原理和方式方法。下面主要詳細(xì)討論和總結(jié)幾種當(dāng)前比擬成熟的語音信息檢索技術(shù)和方式方法?!?〕大詞匯語音辨別技術(shù):利用自動語音辨別〔ASR〕技術(shù)將語音轉(zhuǎn)換為文本信息,采用傳統(tǒng)的文本檢索方式方法進(jìn)行檢索。這種技術(shù)依靠于連續(xù)語音辨別系統(tǒng)的辨別率以及對語音信息的處理經(jīng)過.在新聞廣播等標(biāo)準(zhǔn)語音環(huán)境下能夠到達(dá)90%以上的詞語正確度,但在實際應(yīng)用由于存在講話人的差異和情緒等因素的干擾,語音辨別率較低.考慮到檢索任務(wù)只是匹配包含在音頻數(shù)據(jù)中的查詢詞句,而不是追求一篇可讀性好的完好文章,所以ASR辨別出來的腳本仍然對信息檢索有用,這種方式方法可作為語音檢索的最初的模糊匹配,為進(jìn)一步的精到準(zhǔn)確匹配奠定基礎(chǔ).CarnegieMellon大學(xué)的Infomedia項目就是采用這種方式方法將電視電影中的聲音轉(zhuǎn)換為文本腳本,經(jīng)過數(shù)據(jù)分析整理后構(gòu)成合適全文檢索的形式和構(gòu)造[1].這種方式方法存在嚴(yán)重的缺陷是講話人地域及口音的差異會給辨別帶來困難,當(dāng)前只能通過對系統(tǒng)加大形式辨別訓(xùn)練量及采用多級穿插辨別的方式方法來保證一定的辨別率.〔2〕基于子詞單元檢索技術(shù):利用子詞〔Subword〕索引單元處理不在系統(tǒng)的詞庫中的專業(yè)的詞匯〔例如人名、地點〕。這種方式方法合適于處理各方面無限制主題的大范圍語音資料,能夠提高辨別率,擴大范圍進(jìn)行進(jìn)一步的辨別搜索.在ETHZurich的一個研究小組利用VCV〔2個元音+2個輔音+2個元音子詞單元〕的音節(jié)形式單元作為索引進(jìn)行語音檢索.例如,information這個詞的VCV形式為info、orma和atio.進(jìn)行檢索查詢時,用戶的查詢條件首先進(jìn)行分解構(gòu)成子詞單元,然后將這些單元的特征與語音檢索庫中預(yù)先設(shè)定的特征進(jìn)行匹配,以完成檢索任務(wù).這種辨別技術(shù)的僅針對英語語種,存在一定的局限,但能夠作為設(shè)計其它語種進(jìn)行的語音檢索的一種思路和方式方法.〔3〕基于本文關(guān)鍵詞語發(fā)現(xiàn)的檢索技術(shù):本文關(guān)鍵詞語發(fā)現(xiàn)〔Keywordspotting〕指在無約束的語音中自動檢測詞或短語的一種技術(shù)[6].該技術(shù)的原理和方式方法主要是在長段語音錄音或音軌中辨別或標(biāo)記用戶設(shè)定的興趣事件或某些重要時間節(jié)點,利用這些標(biāo)記進(jìn)行關(guān)鍵標(biāo)記檢索便能夠獲得用戶所需結(jié)果.例如,在足球比賽中通過檢測比賽講解評說詞中的進(jìn)球詞句并設(shè)定標(biāo)記進(jìn)行檢索,便能夠得到相關(guān)進(jìn)球內(nèi)容的檢索結(jié)果.該技術(shù)通常能夠作為一種建立音頻索引的基本方式方法和技術(shù).由于該技術(shù)是利用預(yù)先確定的固定本文關(guān)鍵詞語句進(jìn)行辨別和索引的,因而存在辨別率低,檢索效率不高的問題,為了提高檢索效率,能夠?qū)z索范圍限定在某個特定領(lǐng)域。Cambridge大學(xué)的VMR組通過預(yù)先計算生成語音網(wǎng)格,便能夠在限定檢索范圍內(nèi)實現(xiàn)無限制本文關(guān)鍵詞語發(fā)現(xiàn),進(jìn)而提高了檢索的效率.〔4〕基于講話人分辨體認(rèn)進(jìn)行分割的檢索技術(shù):該技術(shù)僅根據(jù)講話人的語音差異不同進(jìn)行講話人的身份辨別,而不對語音的內(nèi)容進(jìn)行辨別。若在適當(dāng)條件環(huán)境下能夠到達(dá)較高的精到準(zhǔn)確度,因而當(dāng)前較多應(yīng)用于安保系統(tǒng)的語音辨別身份確認(rèn)領(lǐng)域。同時在語音信息處理領(lǐng)域,運用該技術(shù)能夠根據(jù)講話人的變化開展分割錄音,并建立講話人身份的錄音索引,進(jìn)而能夠再一段語音信息中將講話人進(jìn)行分割,為后繼處理提供基礎(chǔ)。當(dāng)前常用該技術(shù)技術(shù)檢測視頻或多媒體資源的聲音信息中的講話人變化情況及其身份,進(jìn)而建立相關(guān)的索引或根據(jù)需求確定某種類型的構(gòu)造〔如對話〕。XeroxPARC就是利用該技術(shù)對會議錄音進(jìn)行分割并展開分析,以講話人身份或聲學(xué)類型〔如掌聲、音樂等〕作為分割區(qū)段的根據(jù)。假如采用的用戶界面是以時間線為坐標(biāo)軸的形式展示分割區(qū)段,則對長篇的會議資料進(jìn)行快速方便地直接閱讀[4][5].3自然語言的計算機信息處理技術(shù)自然語言指主要受限于語法規(guī)則,其它因素對其只要較少束縛,屬于非受控語言.若其的信息標(biāo)引〔如詞組等〕直接從原始信息中抽取,則其信息標(biāo)引的錯誤率較低、準(zhǔn)確度高,且具有較強的時效性.而且若使用自然語言檢索則用戶無需太多考慮檢索規(guī)則就能夠?qū)崿F(xiàn)信息檢索.但是自然語言也存在詞義模糊、詞間關(guān)系不清等因素造成漏檢和誤檢,進(jìn)而導(dǎo)致檢索效果不盡人意.解決的方式方法是在檢索前建立系統(tǒng)內(nèi)本文關(guān)鍵詞語詞典、類主題詞典和后控制詞表等自然語言處理系統(tǒng)模塊對自然語言進(jìn)行預(yù)處理.人工智能計算機是處理自然語言的基礎(chǔ),主要的技術(shù)為自動分詞技術(shù)、人名和機構(gòu)名自動辨別技術(shù)、自動標(biāo)引技術(shù)等,同時需結(jié)合自動文摘、文檔自動分類、信息抽取、自動發(fā)現(xiàn)中文概念詞以及概念詞之間的語義關(guān)系確實定等復(fù)雜技術(shù)才能獲得較好的處理效果.當(dāng)前基于信息檢索的自然語言處理技術(shù)仍只能針對簡單語言的處理〔如確認(rèn)詞根和詞組等〕.另外,由于歷史和政治等原因造成漢語計算機處理字符集和內(nèi)碼體系沒有統(tǒng)一標(biāo)準(zhǔn),港澳臺使用繁體而中國大陸和新加坡使用簡體,臺灣主要為大五碼〔big5〕,中國大陸為國標(biāo)碼〔GB〕等。這就使中文得自然語言處理技術(shù)必須解決編碼自動轉(zhuǎn)換與漢語自動切分兩大難題.在這個領(lǐng)域比擬成熟的是尤里卡中文智能搜索引擎,其利用先進(jìn)的自然語言理解技術(shù),成功突破了表示出差異和忠實表示出的難題,實現(xiàn)了信息檢索和導(dǎo)航服務(wù)的智能化,用戶只需輸入白話化的查詢請求,便能夠獲得直接的、準(zhǔn)確的和翔實的結(jié)果.4語音辨別系統(tǒng)簡單的講,自動語音辨別〔ASR〕屬于形式匹配范疇.一般ASR系統(tǒng)應(yīng)該具有訓(xùn)練階段和形式匹配階段.〔1〕訓(xùn)練階段:ASR系統(tǒng)首先需采集大量的發(fā)音者的語音序列數(shù)據(jù).詳細(xì)步驟見圖3所示.圖中ASR系統(tǒng)提取的最小的語音單位為音素,辨別數(shù)據(jù)庫包含音素模型集合、同義詞詞庫和語法等要素。〔2〕形式匹配〔辨別〕階段:ASR系統(tǒng)對輸入語音進(jìn)行處理的方式方法與訓(xùn)練階段類似,通過對輸入語音提取特征矢量,在辨別數(shù)據(jù)庫中搜索與輸入語音的特征矢量最匹配的特征矢量的單詞序列,進(jìn)而通過形式匹配完成對輸入語音的辨別。當(dāng)前比擬通用和流行的ASR形式匹配技術(shù)為:動態(tài)時間環(huán)繞技術(shù)、隱藏馬可夫模型〔HMM〕和人工神經(jīng)網(wǎng)〔ANN〕模型等。華而不實應(yīng)用較為廣泛為基于HMM的技術(shù)。HMM技術(shù)的主要核心思想為:首先將每個音素分解為可持續(xù)超過一個幀時間〔一般設(shè)定為10ms〕的三個狀態(tài),分別為輸入狀態(tài)、中間狀態(tài)和輸出狀態(tài);然后在訓(xùn)練階段中使用訓(xùn)練語音數(shù)據(jù)為每個可能的音素構(gòu)建HMM,每個音素的HMM均輸入狀態(tài)、中間狀態(tài)和輸出狀態(tài)三個狀態(tài),并用狀態(tài)轉(zhuǎn)換概率和符號發(fā)生概率來定義。在該設(shè)定環(huán)境下,為每個幀計算的特征矢量稱為符號。由于時間的單向性特征決定了一些轉(zhuǎn)換是不允許的。在訓(xùn)練階段后期,由不同的發(fā)音者、時間變化和周圍的聲音引起的變化均采用每個音素由捕獲不同幀的特征矢量變化的一個HMM表示;最后的語音辨別階段中,便能夠根據(jù)幀的順序來計算每個輸入音素的特征矢量.辨別的目的就是去發(fā)現(xiàn)哪個音素的HMM最可能產(chǎn)生輸入音素的特征矢量序列,進(jìn)而進(jìn)行匹配.HMM對應(yīng)的音素被以為是輸入音素,由于一個單詞含有大量的音素,因而一般需將音素序列進(jìn)行整體辨別.計算HMM產(chǎn)生一個給定特征矢量序列的概率當(dāng)前有多種算法,常用Viterbi算法和前向算法。Viterbi算法主要應(yīng)用在辨別連續(xù)的語音,前向算法主要應(yīng)用于辨別隔離的單詞.5結(jié)束語當(dāng)前的語音檢索技術(shù)還處于發(fā)展階段,還面臨著眾多挑戰(zhàn):〔1〕對檢索結(jié)果準(zhǔn)確性的判定:假如檢索出來的結(jié)果較多,那么用戶必須對檢索要求進(jìn)行逐一判定,對于用戶來講比擬費事,而且需用較大的耗時成本去鑒別檢索結(jié)果的準(zhǔn)確性,這是一個急待解決的難題.〔2〕需要制定更先進(jìn)的和統(tǒng)一的編

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論