




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第7章 跨語(yǔ)言信息檢索技術(shù)作者:于振紅學(xué)號(hào):1308305020目錄7.1 跨語(yǔ)言信息檢索技術(shù)概論跨語(yǔ)言信息檢索技術(shù)概論7.2 跨語(yǔ)言信息檢索技術(shù)的研究發(fā)展跨語(yǔ)言信息檢索技術(shù)的研究發(fā)展7.3 跨語(yǔ)言信息檢索技術(shù)的基本框架跨語(yǔ)言信息檢索技術(shù)的基本框架7.4 跨語(yǔ)言信息檢索技術(shù)及其分類跨語(yǔ)言信息檢索技術(shù)及其分類 7.4.1 同源匹配技術(shù) 7.4.2 查詢翻譯技術(shù) 7.4.3 中間語(yǔ)言翻譯方法 7.4.4 文獻(xiàn)翻譯 7.4.5 不翻譯技術(shù) 7.4.6 基于媒體對(duì)象的跨語(yǔ)言信息檢索7.5 跨語(yǔ)言信息檢索的主要研究熱點(diǎn)跨語(yǔ)言信息檢索的主要研究熱點(diǎn) 7.5.1跨語(yǔ)言信息檢索中的翻譯歧義研究 7.5.2跨語(yǔ)
2、言信息檢索中的翻譯資源構(gòu)建研究 7.5.3跨語(yǔ)言信息檢索中的專有名詞識(shí)別與音譯研究 7.5.4跨語(yǔ)言信息檢索中的翻譯技術(shù)研究 7.5.5跨語(yǔ)言信息檢索中的系統(tǒng)評(píng)價(jià)研究 7.5.6有關(guān)中英文跨語(yǔ)言信息檢索的研究7.1 跨語(yǔ)言信息檢索技術(shù)概述 跨語(yǔ)言信息檢索(Cross Language Information Retrieval,CLIR)就是通過(guò)一種語(yǔ)言提問(wèn)來(lái)檢索出用另一種語(yǔ)言呈現(xiàn)的信息,是一種跨越語(yǔ)言界限進(jìn)行信息檢索的活動(dòng)??缯Z(yǔ)言信息檢索技術(shù)計(jì)算機(jī)科學(xué)情報(bào)學(xué)語(yǔ)言學(xué)管理學(xué)管理學(xué)心理學(xué) 國(guó)際上跨語(yǔ)言信息檢索研究領(lǐng)域每年定期會(huì)召開一些國(guó)際會(huì)議,這些會(huì)議從不同方面反映了當(dāng)今跨語(yǔ)言信息檢索的研究熱點(diǎn)和
3、發(fā)展趨勢(shì)。國(guó)際上的研究:TREC1CLEF2NTCIR3ACM SIGIR4國(guó)際上召開的一些會(huì)議文本檢索會(huì)議跨語(yǔ)言評(píng)價(jià)論壇日本國(guó)家信息檢索測(cè)試會(huì)議美國(guó)計(jì)算機(jī)協(xié)會(huì)信息檢索特殊興趣小組會(huì)議(1) 檢索詞與檢索到的信息內(nèi)容分屬于不同的語(yǔ)言。檢索詞與檢索到的信息內(nèi)容分屬于不同的語(yǔ)言。(2) 檢索詞的歧義和多義性。檢索詞的歧義和多義性。(3) 查詢?cè)~的切分。查詢?cè)~的切分。(4) 信息內(nèi)容的多語(yǔ)言性。信息內(nèi)容的多語(yǔ)言性。(5) 輸出結(jié)果的排序組織。輸出結(jié)果的排序組織。(6) 對(duì)多語(yǔ)言資源的依賴。對(duì)多語(yǔ)言資源的依賴??缯Z(yǔ)言信息檢索技術(shù)需要處理的主要問(wèn)題:7.2跨語(yǔ)言信息檢索技術(shù)的研究發(fā)展 根據(jù)研究對(duì)象的時(shí)間
4、歷程和階段性成果的差異,跨語(yǔ)言信息檢索技術(shù)主要分為三個(gè)主要發(fā)展階段:萌芽階段發(fā)展階段大型商用階段接上頁(yè)萌芽階段萌芽階段基于國(guó)際聯(lián)機(jī)系統(tǒng)的跨語(yǔ)言檢索研究基于國(guó)際聯(lián)機(jī)系統(tǒng)的跨語(yǔ)言檢索研究發(fā)展階段發(fā)展階段基于互聯(lián)網(wǎng)的跨語(yǔ)言信息檢索實(shí)驗(yàn)系統(tǒng)基于互聯(lián)網(wǎng)的跨語(yǔ)言信息檢索實(shí)驗(yàn)系統(tǒng)研究研究大型商用大型商用階段階段跨語(yǔ)言搜索引擎技術(shù)的飛速發(fā)展跨語(yǔ)言搜索引擎技術(shù)的飛速發(fā)展7.3 跨語(yǔ)言信息檢索技術(shù)的基本框架7.4跨語(yǔ)言信息檢索技術(shù)及其分類7.4.1 同源匹配技術(shù)同源匹配技術(shù) 同源匹配技術(shù)根據(jù)兩種語(yǔ)言的語(yǔ)詞拼寫形式或讀音相似度來(lái)判斷其中一種語(yǔ)言語(yǔ)詞的意義,不進(jìn)行任何翻譯。 同源匹配可以單獨(dú)使用。而多數(shù)情況下是與其他
5、策略結(jié)合使用,比如在中英文跨語(yǔ)言信息檢索中可以用于外來(lái)語(yǔ)的音譯或反向音譯。7.4.2 查詢翻譯技術(shù)查詢翻譯技術(shù)1. 查詢翻譯技術(shù)分類語(yǔ)境信息很少提問(wèn)時(shí)通常很短難以消除歧義查詢翻譯技術(shù)在線快速執(zhí)行優(yōu)點(diǎn)缺點(diǎn)1)翻譯模糊性控制 每個(gè)提問(wèn)詞被其所有可能的一發(fā)譯法所替代,翻譯模糊性問(wèn)題嚴(yán)重,故控制翻譯的模糊性是設(shè)計(jì)有效的提問(wèn)式翻譯技術(shù)的一個(gè)關(guān)鍵問(wèn)題。 方法方法一一只翻譯短語(yǔ),因?yàn)槎陶Z(yǔ)翻譯通常只翻譯短語(yǔ),因?yàn)槎陶Z(yǔ)翻譯通常表現(xiàn)出較少的模糊性。表現(xiàn)出較少的模糊性。方法二通過(guò)用戶的介入(利用交互式用戶界面)也可以有效控制翻譯的模糊性。2)查詢翻譯技術(shù)分類 受控詞匯檢索是指文檔集通過(guò)手工使用預(yù)先選擇好的詞匯進(jìn)行索
6、引,用戶也是從相同的受控詞匯中選擇詞匯構(gòu)建查詢條件,然后對(duì)文檔進(jìn)行檢索。自由文本查詢翻譯受控詞匯查詢翻譯查詢翻譯 文檔的索引是通過(guò)概念識(shí)別器的匹配實(shí)現(xiàn)的。受控詞匯跨語(yǔ)言檢索系統(tǒng)中包含兩個(gè)過(guò)程:將文檔與查詢條件都用受控詞匯來(lái)表示。對(duì)文檔的標(biāo)識(shí)其實(shí)是對(duì)文檔的翻譯過(guò)程,而對(duì)查詢條件用受控詞匯來(lái)構(gòu)建其實(shí)是對(duì)查詢條件翻譯的過(guò)程。2)查詢翻譯技術(shù)分類第一點(diǎn)第一點(diǎn)用受控詞匯表中的檢索詞來(lái)標(biāo)識(shí)每一篇文檔用受控詞匯表中的檢索詞來(lái)標(biāo)識(shí)每一篇文檔通常是手工完成的,其使用范圍受到很大的通常是手工完成的,其使用范圍受到很大的局限。局限。第二點(diǎn)培訓(xùn)用戶學(xué)會(huì)有效地使用受控詞匯來(lái)構(gòu)建查詢條件是一件非常困難的工作。受控詞匯檢索
7、的不足之處2)查詢翻譯技術(shù)分類 跨語(yǔ)言信息自由文本檢索的四個(gè)基本方法基于機(jī)器翻譯的方法基于知識(shí)的方法基于語(yǔ)料庫(kù)的方法混合方法2.查詢翻譯技術(shù)1)基于知識(shí)的查詢翻譯方法 基于知識(shí)的查詢方法主要利用人類專家總結(jié)的知識(shí),例如機(jī)讀字典、主題詞表、百科全書等完成對(duì)查詢式的翻譯。 (1)基于機(jī)讀字典的查詢翻譯?;谧值涞牟樵兎g方法是最常用的查詢翻譯方法之一,是指從機(jī)讀雙語(yǔ)字典中抽取查詢中每個(gè)詞或者詞組的合適的翻譯進(jìn)行替換的方法。常用的從字典中選擇詞語(yǔ)的方法主要有:全部選擇、選擇前n個(gè)、選擇最合適的n個(gè)。(1)基于機(jī)讀字典的查詢翻譯此種方法的主要問(wèn)題:字典的覆蓋度問(wèn)題屈折語(yǔ)的處理詞組的識(shí)別和翻譯歧義問(wèn)題(
8、2)基于多語(yǔ)主題詞表、本體的查詢翻譯方法 最早應(yīng)用在查詢翻譯中的方法就是基于多語(yǔ)主題詞表的方法。 本體中飽含比主題詞表更詳細(xì)的概念定義,更廣泛的關(guān)系描述,以及公理實(shí)例等,可以更好地反映出獨(dú)立于語(yǔ)言的更為本質(zhì)的東西,并用于對(duì)查詢式進(jìn)行語(yǔ)義層次的理解,精確地翻譯結(jié)果,從而獲得更優(yōu)的檢索結(jié)果。2)基于機(jī)器翻譯的查詢翻譯方法 利用機(jī)器翻譯系統(tǒng)進(jìn)行查詢翻譯的優(yōu)勢(shì)就在于可以利用機(jī)器翻譯系統(tǒng)的詞法、句法、語(yǔ)義分析得到更為準(zhǔn)確的翻譯結(jié)果。但是將機(jī)器翻譯系統(tǒng)應(yīng)用在查詢翻譯中并沒有取得很好的效果,主要原因看右表:原因一原因一機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量不高機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量不高原因二查詢式長(zhǎng)度通常很短,甚至只是一個(gè)
9、詞從而影響了機(jī)器翻譯的效果。原因三多數(shù)商用的機(jī)器翻譯系統(tǒng)只返回一個(gè)最優(yōu)翻譯結(jié)果,不提供可供選擇的翻譯列表。3)基于語(yǔ)料庫(kù)的查詢翻譯方法基于平行語(yǔ)料庫(kù)的方法基于平行語(yǔ)料庫(kù)的方法平行語(yǔ)料庫(kù)依據(jù)對(duì)其程度又可分為篇章對(duì)齊、段落對(duì)平行語(yǔ)料庫(kù)依據(jù)對(duì)其程度又可分為篇章對(duì)齊、段落對(duì)齊、句子對(duì)齊和詞對(duì)齊,一般來(lái)說(shuō)對(duì)齊的粒度越小,齊、句子對(duì)齊和詞對(duì)齊,一般來(lái)說(shuō)對(duì)齊的粒度越小,對(duì)齊的精度越高,查詢翻譯效果就越好。對(duì)齊的精度越高,查詢翻譯效果就越好?;诳杀日Z(yǔ)料庫(kù)的方法基于可比語(yǔ)料庫(kù)的方法使用可比語(yǔ)料庫(kù)最著名的方法就是相似性敘詞表。有使用可比語(yǔ)料庫(kù)最著名的方法就是相似性敘詞表。有學(xué)者利用一個(gè)瑞典語(yǔ)新聞?wù)Z料庫(kù)和英語(yǔ)新聞
10、語(yǔ)料庫(kù),學(xué)者利用一個(gè)瑞典語(yǔ)新聞?wù)Z料庫(kù)和英語(yǔ)新聞?wù)Z料庫(kù),構(gòu)建雙語(yǔ)可比語(yǔ)料庫(kù),從中提取出雙語(yǔ)的相似性主題構(gòu)建雙語(yǔ)可比語(yǔ)料庫(kù),從中提取出雙語(yǔ)的相似性主題詞表信息并且用于查詢翻譯中。試驗(yàn)結(jié)果顯示此種方詞表信息并且用于查詢翻譯中。試驗(yàn)結(jié)果顯示此種方法所獲得的檢索性能是單語(yǔ)言信息檢索性能的一半左法所獲得的檢索性能是單語(yǔ)言信息檢索性能的一半左右。右。平行語(yǔ)料庫(kù)依據(jù)對(duì)齊程度的分類: 一般來(lái)說(shuō)對(duì)齊的粒度越小,對(duì)齊的精度越高,查詢翻譯效果就越好。篇章對(duì)齊句子對(duì)齊詞對(duì)齊段落對(duì)齊平行語(yǔ)料庫(kù)的分平行語(yǔ)料庫(kù)的分類類 平行語(yǔ)料庫(kù)在查詢翻譯中的主要應(yīng)用是構(gòu)建雙語(yǔ)對(duì)照詞典主要包括兩步:利用詞頻矩陣計(jì)算一種語(yǔ)言的詞語(yǔ)出現(xiàn)時(shí)另一種
11、語(yǔ)言的詞出現(xiàn)的條件概率,建立翻譯詞典計(jì)算詞貢獻(xiàn)矩陣,矩陣的每個(gè)元素是對(duì)齊單元中源語(yǔ)言詞和目標(biāo)語(yǔ)言詞共現(xiàn)的次數(shù)。第一步第二步 使用可比語(yǔ)料庫(kù)最著名的方法就是相似性敘詞表。有學(xué)者利用一個(gè)瑞典語(yǔ)新聞?wù)Z料庫(kù)和英語(yǔ)新聞?wù)Z料庫(kù),構(gòu)建雙語(yǔ)可比語(yǔ)料庫(kù),從中提取出雙語(yǔ)的相似性主題詞表信息并且用于查詢翻譯中。相似性敘詞表單語(yǔ)言信息檢索4)混合方法 混合方法是綜合利用上面各種技術(shù)的優(yōu)缺點(diǎn)以期望獲得更佳的檢索效果。此種方法中應(yīng)用最廣泛的資源組合是將雙語(yǔ)字典和一些單語(yǔ)資源,例如單語(yǔ)體本W(wǎng)ordNet、單語(yǔ)語(yǔ)料庫(kù)等結(jié)合,利用字典進(jìn)行翻譯知識(shí)的抽取,利用單語(yǔ)資源進(jìn)行翻譯消歧。機(jī)讀字典統(tǒng)計(jì)字典機(jī)器翻譯系統(tǒng)單語(yǔ)言檢索三者單獨(dú)作
12、用均能夠達(dá)到單語(yǔ)言檢索的90%三種資源結(jié)合三種資源混合使用取得了最佳的檢索效果機(jī)讀字典統(tǒng)計(jì)字典單語(yǔ)言檢索三者結(jié)合作使用檢索能力能夠達(dá)到單語(yǔ)言檢索的98%機(jī)器翻譯系統(tǒng)3.查詢翻譯過(guò)程中的基本問(wèn)題查詢翻譯過(guò)程查詢式查詢翻譯翻譯資源分解三個(gè)要素包涵源語(yǔ)言和目標(biāo)語(yǔ)言,源語(yǔ)言和目標(biāo)語(yǔ)言的轉(zhuǎn)換過(guò)程以及在此轉(zhuǎn)換過(guò)程中所使用的翻譯資源。依據(jù)這三個(gè)要素,查詢翻譯過(guò)程中所遇到的基本問(wèn)題也分為三個(gè)方面:第一方面第一方面查詢式的詞法分析查詢式的詞法分析第二方面查詢式翻譯時(shí)的歧義問(wèn)題第三方面翻譯工具存在問(wèn)題1).查詢式的詞法分析 世界上的語(yǔ)言有近3000種,每種語(yǔ)言都有其自身的特點(diǎn),可根據(jù)其特點(diǎn)對(duì)查詢式進(jìn)行預(yù)處理。例如
13、,像英語(yǔ)、法語(yǔ)等西語(yǔ),可以對(duì)其進(jìn)行詞法分析,實(shí)現(xiàn)詞根還原。 對(duì)于漢語(yǔ)、日語(yǔ)等沒有明晰分隔符的語(yǔ)言來(lái)說(shuō),要對(duì)查詢式進(jìn)行翻譯就必須要確定翻譯單位,或者說(shuō)是與翻譯資源匹配的單位。 目前來(lái)說(shuō)在查詢翻譯過(guò)程中最最常使用的翻譯單位還是詞,分詞的效果對(duì)查詢翻譯有很大的影響。2)查詢式翻譯時(shí)的歧義問(wèn)題 跨語(yǔ)言信息檢索涉及到兩種語(yǔ)言之間的相互轉(zhuǎn)換,在此過(guò)程中主要會(huì)出現(xiàn)的問(wèn)題是歧義問(wèn)題。在自然語(yǔ)言中一詞多義和一義多詞的現(xiàn)象很普遍。對(duì)于機(jī)器來(lái)說(shuō),要理解詞義是很困難的,尤其是理解只包含少量語(yǔ)境信息的查詢?cè)~的意思??缯Z(yǔ)言信息檢索中德的歧義來(lái)自源語(yǔ)言和目標(biāo)語(yǔ)言兩個(gè)方面,在處理上的難度很大?,F(xiàn)有的主要消歧方法包括:方法一方
14、法一方法二方法二方法三方法三方法四方法四方法五方法五詞性標(biāo)注技術(shù)短語(yǔ)和習(xí)慣用語(yǔ)的識(shí)別與翻譯詞法分析詞的共現(xiàn)統(tǒng)計(jì)技術(shù)相關(guān)反饋技術(shù) 在自然語(yǔ)言中很多短語(yǔ)、習(xí)慣用語(yǔ)等通常有固定的語(yǔ)義,其意義很多都不等于其中詞的語(yǔ)義的簡(jiǎn)單組合。因此當(dāng)把其按照單個(gè)詞進(jìn)行翻譯時(shí)失掉其本來(lái)的語(yǔ)義信息。 JIanfeng Gao 等設(shè)計(jì)了三個(gè)統(tǒng)計(jì)模型:如有圖 模型一模型一共現(xiàn)模型(共現(xiàn)模型(Co-occurence Model)模型二名詞短語(yǔ)翻譯模型(Noun Phrase Translation Model)模型三依存翻譯模型(Dependency Translation Model) 其中后兩種模型分別可以識(shí)別名詞短語(yǔ)和
15、依存三元組(Dependency Triples),例如動(dòng)賓短語(yǔ)(Verb-Object),所有的三種方法都能起到很好的翻譯消歧效果。模型一模型一共現(xiàn)模型(共現(xiàn)模型(Co-occurence Model)模型二名詞短語(yǔ)翻譯模型(Noun Phrase Translation Model)模型三依存翻譯模型(Dependency Translation Model)3)翻譯工具存在的問(wèn)題對(duì)查詢翻譯的影響翻譯資源的獲取問(wèn)題覆蓋度問(wèn)題準(zhǔn)確度問(wèn)題 在查詢翻譯過(guò)程中經(jīng)常使用的翻譯資源包括機(jī)讀字典、主題詞表、本體、語(yǔ)料庫(kù)等。這些翻譯資源對(duì)于查詢翻譯的影響包括翻譯資源的獲取問(wèn)題、覆蓋度問(wèn)題、準(zhǔn)確度問(wèn)題等方面
16、。4.查詢翻譯的未來(lái)發(fā)展方向 查詢翻譯的未來(lái)發(fā)展方向可以概括為以下三點(diǎn):(1)多種查詢翻譯方法的結(jié)合詞典提供較廣且較淺的覆蓋度,而語(yǔ)料庫(kù)提供較窄且較深的覆蓋度,本體、主題詞表則豐富的概念層次和語(yǔ)義關(guān)系,如能將多種查詢翻譯策略相結(jié)合,充分利用各層次知識(shí),可以提高查詢翻譯的效果。(2)語(yǔ)義層次進(jìn)行查詢式翻譯現(xiàn)在比較流行的、相對(duì)成熟的查詢翻譯方法總體來(lái)說(shuō)還是字符級(jí)的匹配,只有從語(yǔ)義層次上理解查詢式,才能獲得更優(yōu)的查詢翻譯結(jié)果,因此越來(lái)越多得學(xué)者開始使用本體這樣包含語(yǔ)義信息的資源進(jìn)行查詢翻譯。(3)語(yǔ)種的多樣性現(xiàn)在跨語(yǔ)言信息檢索主要集中于雙語(yǔ)言信息檢索,尤其是英語(yǔ)和另外一種語(yǔ)言的檢索。盡管互聯(lián)網(wǎng)上英語(yǔ)
17、仍然是最大的語(yǔ)種,但是漢語(yǔ)、拉丁語(yǔ)等比例也很大,實(shí)現(xiàn)這些語(yǔ)種之間的跨語(yǔ)言檢索的意義也是非常大的。7.4.3 中間語(yǔ)言翻譯方法 在跨語(yǔ)言信息檢索中,解決語(yǔ)言障礙的基本方法是兩種語(yǔ)言之間的翻譯,然而所有的翻譯方法都離不開機(jī)器翻譯、雙語(yǔ)翻譯、語(yǔ)料庫(kù)等作為翻譯的語(yǔ)言基礎(chǔ)。但是,在跨語(yǔ)言信息檢索中可能會(huì)碰到這樣的情形:兩種語(yǔ)言直接翻譯的資源不存在。為此研究人員提出了一種利用中間語(yǔ)言或中樞語(yǔ)言進(jìn)行翻譯的方法:將源語(yǔ)言翻譯成中間語(yǔ)言,然后再將中間語(yǔ)言翻譯成目標(biāo)語(yǔ)言。7.4.4 文獻(xiàn)翻譯 文獻(xiàn)翻譯與查詢翻譯正好相反,是指先將多語(yǔ)言的原始信息集合轉(zhuǎn)換成與查詢相同的語(yǔ)言,再進(jìn)行單語(yǔ)言信息檢索。(2)可以離線執(zhí)行文
18、獻(xiàn)翻譯的優(yōu)點(diǎn)(1)提高翻譯質(zhì)量?jī)?yōu)點(diǎn)速度太慢,且可能會(huì)使原始信息庫(kù)的規(guī)模很大缺點(diǎn)7.4.5 不翻譯技術(shù) 目前不通過(guò)翻譯進(jìn)行跨語(yǔ)言信息檢索的技術(shù)有潛在語(yǔ)義索引(Latent Semantic Indexing,LSI)和廣義向量空間模型等方法。 LSI是由Deerwester等人于1990年在單語(yǔ)言信息檢索中提出的。同年,Landauer和Litman提出了跨語(yǔ)言潛在語(yǔ)義索引(Cross-Language Latent Semantic Indexing,CLSI)的信息檢索技術(shù)。潛在語(yǔ)義索引與廣義向量空間模型的對(duì)比潛在語(yǔ)義索引潛在語(yǔ)義索引它的基本思想是首先通過(guò)將有代表性的文檔與其對(duì)應(yīng)的翻它的基本
19、思想是首先通過(guò)將有代表性的文檔與其對(duì)應(yīng)的翻譯文檔聯(lián)系起來(lái)形成訓(xùn)練文檔集,然后利用奇異值分解技譯文檔聯(lián)系起來(lái)形成訓(xùn)練文檔集,然后利用奇異值分解技術(shù)(術(shù)(Singular Value Decomposition,SVD)對(duì)雙語(yǔ)檢索詞)對(duì)雙語(yǔ)檢索詞文檔關(guān)聯(lián)矩陣進(jìn)行奇異值分解,獲得雙語(yǔ)文檔集的特征文檔關(guān)聯(lián)矩陣進(jìn)行奇異值分解,獲得雙語(yǔ)文檔集的特征信息以及檢索詞用法上的映射關(guān)系,即構(gòu)造出不同語(yǔ)種的信息以及檢索詞用法上的映射關(guān)系,即構(gòu)造出不同語(yǔ)種的潛在語(yǔ)義空間,最后根據(jù)平行文檔中語(yǔ)詞的用法特征檢索潛在語(yǔ)義空間,最后根據(jù)平行文檔中語(yǔ)詞的用法特征檢索出另一種語(yǔ)種的相關(guān)信息。出另一種語(yǔ)種的相關(guān)信息。廣義向量空間模
20、型廣義向量空間模型基本思想是根據(jù)雙語(yǔ)訓(xùn)練文檔集分別建立源語(yǔ)與目標(biāo)語(yǔ)的基本思想是根據(jù)雙語(yǔ)訓(xùn)練文檔集分別建立源語(yǔ)與目標(biāo)語(yǔ)的“檢索詞檢索詞文檔關(guān)聯(lián)文檔關(guān)聯(lián)”矩陣,在計(jì)算查詢條件和文檔的相矩陣,在計(jì)算查詢條件和文檔的相似度時(shí),考慮將經(jīng)典的向量空間模型與兩個(gè)關(guān)聯(lián)矩陣相結(jié)似度時(shí),考慮將經(jīng)典的向量空間模型與兩個(gè)關(guān)聯(lián)矩陣相結(jié)合,在源語(yǔ)言與目標(biāo)語(yǔ)言之間實(shí)現(xiàn)映射關(guān)系。合,在源語(yǔ)言與目標(biāo)語(yǔ)言之間實(shí)現(xiàn)映射關(guān)系。7.4.6 基于媒體對(duì)象的跨語(yǔ)言信息檢索分類 根據(jù)檢索的媒體對(duì)象類型,跨語(yǔ)言信息檢索可以分為跨語(yǔ)言文本信息檢索(Cross-Language Document Retrieval),跨語(yǔ)言圖像信息檢索(Cros
21、s-Language Image Retrieval)和跨語(yǔ)言語(yǔ)音信息檢索(Cross-Language Spoken Document Retrieval)。 根據(jù)檢索的媒體對(duì)象類型, 跨語(yǔ)言信息檢索的分類比較:(1)跨語(yǔ)言文本信)跨語(yǔ)言文本信息檢索息檢索跨語(yǔ)言文本信息檢索是目前研究最多的??缯Z(yǔ)言文本信息檢索是目前研究最多的。TREC和和NTCIR主主要是對(duì)文本信息檢索進(jìn)行測(cè)評(píng)和研究。對(duì)于要是對(duì)文本信息檢索進(jìn)行測(cè)評(píng)和研究。對(duì)于TREC,跨語(yǔ)言,跨語(yǔ)言信息檢索只是中心議題之一,語(yǔ)言以英語(yǔ)為主,并搭配一信息檢索只是中心議題之一,語(yǔ)言以英語(yǔ)為主,并搭配一些戰(zhàn)略語(yǔ)言。些戰(zhàn)略語(yǔ)言。NTCIR主要側(cè)重于
22、亞洲語(yǔ)言的跨語(yǔ)言信息檢主要側(cè)重于亞洲語(yǔ)言的跨語(yǔ)言信息檢索問(wèn)題的研究。索問(wèn)題的研究。(2)跨語(yǔ)言圖像信)跨語(yǔ)言圖像信息檢索息檢索目前研究較少。目前研究較少。CLEF于于2003年舉行的會(huì)議上對(duì)跨語(yǔ)言圖像年舉行的會(huì)議上對(duì)跨語(yǔ)言圖像信息檢索進(jìn)行了首次測(cè)評(píng),并成為信息檢索進(jìn)行了首次測(cè)評(píng),并成為CLEF的正式測(cè)試項(xiàng)目。的正式測(cè)試項(xiàng)目。2004年和年和2005年的年的Image CLEF 主要分為主要分為3個(gè)字任務(wù):雙語(yǔ)個(gè)字任務(wù):雙語(yǔ)Ad Hoc檢索、交互檢索(檢索、交互檢索(Interactive Retrical)、醫(yī)學(xué)圖像)、醫(yī)學(xué)圖像檢索(檢索(Medical Image Retrieval)。測(cè)試
23、和評(píng)比的目的就是)。測(cè)試和評(píng)比的目的就是要促進(jìn)基于文本和基于內(nèi)容的跨語(yǔ)言圖像信息檢索方法。要促進(jìn)基于文本和基于內(nèi)容的跨語(yǔ)言圖像信息檢索方法。(3)跨語(yǔ)言語(yǔ)音信)跨語(yǔ)言語(yǔ)音信息檢索息檢索內(nèi)容包括文獻(xiàn)信息檢索技術(shù)、跨語(yǔ)言翻譯技術(shù)和自動(dòng)語(yǔ)音內(nèi)容包括文獻(xiàn)信息檢索技術(shù)、跨語(yǔ)言翻譯技術(shù)和自動(dòng)語(yǔ)音識(shí)別技術(shù)(識(shí)別技術(shù)(Automatic Speech Recognition,ASR)。)。7.5 跨語(yǔ)言信息檢索的主要研究熱點(diǎn)7.5.1 跨語(yǔ)言信息檢索中的翻譯歧義研究 翻譯的歧義性是跨語(yǔ)言信息檢索的關(guān)鍵問(wèn)題,對(duì)檢索效率有重要影響,這也是國(guó)外學(xué)者廣泛關(guān)注的研究領(lǐng)域,所依賴的語(yǔ)言資源主要有詞典、主題詞表、本體、語(yǔ)料
24、庫(kù)等。 幾種消歧研究的方法及效果:方法名稱及簡(jiǎn)介方法名稱及簡(jiǎn)介方法起到的效果方法起到的效果方法一Davis嘗試依詞性進(jìn)行消歧平均準(zhǔn)確率提高了37%,達(dá)到單語(yǔ)言檢索的67.3%。方法二Chen等人以共現(xiàn)模型分析翻譯消歧,以虛擬語(yǔ)境模型分析目標(biāo)多義。在TREC-6的評(píng)測(cè)中,與僅處理翻譯歧義相比,檢索效率提高了10.11%。方法三Akira等人以Web文獻(xiàn)為語(yǔ)料,利用詞匯間的共現(xiàn)信息實(shí)現(xiàn)了同樣的檢索效率。在其試驗(yàn)中檢索的平均準(zhǔn)確率達(dá)到了手工翻譯的97%。方法四Myung-Gil Jang等人利用從目標(biāo)文獻(xiàn)中獲得的互信息統(tǒng)計(jì)進(jìn)行消歧。在這里互信息不僅用于選擇翻譯詞匯而且對(duì)翻譯后的查詢?cè)~賦以權(quán)重,檢索效
25、率分別達(dá)到單語(yǔ)檢索的85%和手工消歧的96%。7.5.2 跨語(yǔ)言信息檢索中的翻譯資源構(gòu)建研究 翻譯資源的優(yōu)劣對(duì)于跨語(yǔ)言信息檢索的性能有著重要的影響,所以在跨語(yǔ)言信息檢所研究中,國(guó)外學(xué)者對(duì)于翻譯資源的構(gòu)建以及相互之間的比較進(jìn)行了深入的研究。在跨語(yǔ)言信息檢索中,常用的翻譯資源有機(jī)器翻譯系統(tǒng)、雙語(yǔ)詞典、本體和語(yǔ)料庫(kù)等。7.5.3跨語(yǔ)言信息檢索中的專有名詞識(shí)別與音譯研究 由于翻譯詞典的覆蓋度,未登錄詞一直是機(jī)器翻譯和跨語(yǔ)言信息檢索的重要問(wèn)題,專有名詞的翻譯更是挑戰(zhàn)。Chen等人,Kinght和Graehl,Wan和Verspoor都相繼提出機(jī)器音譯的方法來(lái)處理這個(gè)問(wèn)題。幾種音譯的研究方法簡(jiǎn)述方法簡(jiǎn)述取
26、得效果取得效果研究一Yan Qu等人提出了由英語(yǔ)到日語(yǔ)片假名的音譯方法,利用英語(yǔ)語(yǔ)音詞典和概率規(guī)則來(lái)獲取候選語(yǔ)音,并通過(guò)日語(yǔ)單語(yǔ)語(yǔ)料庫(kù)自動(dòng)確認(rèn)最終將英語(yǔ)-日語(yǔ)音譯詞成對(duì)添加到雙語(yǔ)詞典。檢索的平均準(zhǔn)確率提高了2.5%64.8%。研究二Nasreen提出一種統(tǒng)計(jì)模型進(jìn)行英語(yǔ)-阿拉伯語(yǔ)間的音譯。無(wú)論是對(duì)專有名詞音譯還是對(duì)所有未登錄詞音譯都證明是有效的。研究三S.Y.Jung等人采用隱馬爾可夫模型(HMM)進(jìn)行英語(yǔ)到漢語(yǔ)的音譯。召回率達(dá)到了87.5%。研究四Paola等人將專有名詞的音譯用于跨語(yǔ)言聲音文件的檢索。效果也是顯著的。7.5.4 跨語(yǔ)言信息檢索中的翻譯技術(shù)研究 跨語(yǔ)言信息檢索涉及查詢語(yǔ)種和檢
27、索語(yǔ)種兩個(gè)基本的概念。查詢語(yǔ)種是用戶查詢請(qǐng)求所屬語(yǔ)種,檢索語(yǔ)種是檢索目標(biāo)對(duì)象所屬語(yǔ)種。如何能夠在這兩者之間建立溝通可以從以下3個(gè)方面展開:跨語(yǔ)言信息檢索中的翻譯技術(shù)Brown等人提出了一種基于機(jī)器翻譯的方法1Nie、BBN等也相繼提出了概率論翻譯模型2Kwok、Hedlund等著重研究了翻譯過(guò)程中的字典查找模型TEXT3Ballesteros和微軟的研究人員在自己的工作中都使用到了基于共現(xiàn)的統(tǒng)計(jì)方法TEXT47.5.5 跨語(yǔ)言信息檢索中的系統(tǒng)評(píng)價(jià)研究 跨語(yǔ)言信息檢索系統(tǒng)的評(píng)價(jià)基本上采用了與一般信息檢索系統(tǒng)評(píng)價(jià)相同的方法和步驟。然而,在跨語(yǔ)言信息檢索的評(píng)價(jià)試驗(yàn)中,需要對(duì)檢索提問(wèn)進(jìn)行翻譯,并比較跨
28、語(yǔ)言信息檢索系統(tǒng)與單語(yǔ)言信息檢索系統(tǒng)的性能,這是評(píng)價(jià)跨語(yǔ)言信息檢索系統(tǒng)的一個(gè)重要指標(biāo)。 跨語(yǔ)言信息檢索評(píng)價(jià)測(cè)試至少兩種語(yǔ)言以上的測(cè)試文檔集合。包含與文檔不同語(yǔ)言的檢索問(wèn)題集合。檢索問(wèn)題的正確答案集合。 跨語(yǔ)言信息檢索系統(tǒng)評(píng)價(jià)需要覆蓋多種語(yǔ)言的評(píng)價(jià)測(cè)試集??缯Z(yǔ)言信息檢索評(píng)價(jià)測(cè)試集通常包含3個(gè)部分。1.跨語(yǔ)言信息檢索評(píng)價(jià)模型 跨語(yǔ)言信息檢索評(píng)價(jià)通常改變測(cè)試主題,以比較相同系統(tǒng)下單語(yǔ)言信息檢索和跨語(yǔ)言信息檢索的檢索性能。一般跨語(yǔ)言信息檢索系統(tǒng)的評(píng)價(jià)模型如圖所示。2.跨語(yǔ)言信息檢索效率評(píng)價(jià)指標(biāo) 由于用戶查詢條件中所固有的模糊性,信息檢索系統(tǒng)檢索出來(lái)的文檔集不一定全是用戶所期待的,因此有必要對(duì)這些文檔集
29、根據(jù)其與用戶查詢條件的相關(guān)性進(jìn)行排序,并以此來(lái)判定信息檢索系統(tǒng)檢索出的文檔集滿足用戶查詢條件的程度。其中最重要的評(píng)價(jià)指標(biāo)是查全率和查準(zhǔn)率。(1)查全率 查全率是評(píng)價(jià)跨語(yǔ)言信息檢索效率的一個(gè)重要指標(biāo),查全率是指在檢索系統(tǒng)中的相關(guān)信息總體中盡可能查詢輸出的相關(guān)信息量所占的比率。總量檢索系統(tǒng)中的相關(guān)文獻(xiàn)檢出的相關(guān)文獻(xiàn)量查全率 (2)查準(zhǔn)率 查準(zhǔn)率是評(píng)價(jià)跨語(yǔ)言信息檢索效率的另一個(gè)重要指標(biāo),查全率是指檢出的文獻(xiàn)中相關(guān)文獻(xiàn)的準(zhǔn)確程度。檢出的文獻(xiàn)總量檢出的相關(guān)文獻(xiàn)量查準(zhǔn)率 3.跨語(yǔ)言信息檢索的經(jīng)典測(cè)試與評(píng)價(jià)平臺(tái) 除了理論和技術(shù)外,評(píng)估也是跨語(yǔ)言信息檢索系統(tǒng)發(fā)展過(guò)程的重要一環(huán)。目前跨語(yǔ)言信息檢索主要有3個(gè)測(cè)試平臺(tái):TREC、NTCIR、CLEF。(1)TREC通過(guò)大型測(cè)試文檔集的建立,測(cè)試項(xiàng)目,測(cè)試通過(guò)大型測(cè)試文檔集的建立,測(cè)試項(xiàng)目,測(cè)試程序,評(píng)估準(zhǔn)則的制定,程序,評(píng)估準(zhǔn)則的制定,TREC為不同的檢索系為不同的檢索系統(tǒng)和檢索技術(shù)提供了一個(gè)標(biāo)準(zhǔn)的評(píng)比環(huán)境,并統(tǒng)和檢索技術(shù)提供了一個(gè)標(biāo)準(zhǔn)的評(píng)比環(huán)境,并舉辦論壇供參與者討論和分享結(jié)果。舉辦論壇供參與者討論和分享結(jié)果。TREC的出的出現(xiàn),開創(chuàng)了檢索評(píng)價(jià)研究的一個(gè)新的里程碑?,F(xiàn),開創(chuàng)了檢索評(píng)價(jià)研究的一個(gè)新
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 原廠服務(wù)合同范本
- 利益保障合同范本
- 中醫(yī)師承拜師合同范本
- 個(gè)體房屋租賃合同范本
- 發(fā)包合同范本格式
- 內(nèi)蒙辣椒購(gòu)銷合同范本
- 賣車協(xié)議合同范例
- 專用配件銷售合同范本
- 叉車承攬合同范例
- 農(nóng)業(yè)養(yǎng)豪豬合同范本
- 前列腺癌的診斷與治療課件
- 產(chǎn)品開發(fā)的變更流程
- 氣管鏡科室講課ppt課件(PPT 69頁(yè))
- 蝴蝶豌豆花(課堂PPT)
- 無(wú)創(chuàng)呼吸機(jī)的應(yīng)用(飛利浦偉康V60)課件
- 口腔修復(fù)學(xué)-第七章-牙列缺失的全口義齒修復(fù)
- Y-Y2系列電機(jī)繞組標(biāo)準(zhǔn)數(shù)據(jù)匯總
- 對(duì)于二氧化碳傳感器的現(xiàn)狀及發(fā)展趨勢(shì)的淺分析
- 麥語(yǔ)言函數(shù)手冊(cè)參考模板
- 知情同意書-北京大學(xué)腫瘤醫(yī)院
- 建筑材料碳排放因子查詢表
評(píng)論
0/150
提交評(píng)論