基于信息理論的鑒別信息測量畢業(yè)論文_第1頁
基于信息理論的鑒別信息測量畢業(yè)論文_第2頁
基于信息理論的鑒別信息測量畢業(yè)論文_第3頁
基于信息理論的鑒別信息測量畢業(yè)論文_第4頁
基于信息理論的鑒別信息測量畢業(yè)論文_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、畢業(yè)論文基于信息理論的鑒別信息測量 摘要 至今,在實(shí)際應(yīng)用的合理、明確環(huán)境中,我們?nèi)院茈y解釋詞所傳達(dá)的大量鑒別信息的含義,并且將詞之間的語義關(guān)聯(lián)程度概念成功且有意義地引入到科學(xué)討論中也不是那么容易的,本文就嘗試完成這個任務(wù)。我們試圖回答兩個重要問題:1)鑒別信息中詞所所傳達(dá)的信息是什么以及我們?nèi)绾螠y量它?2)什么是詞之間 的關(guān)聯(lián)性以及怎樣去判斷?我們專注于第一個問題的研究,基于多種信息測量我們對鑒別測量進(jìn)行了深入地調(diào)查研究,這個研究如今已經(jīng)在很多領(lǐng)域得到了應(yīng)用。根據(jù)各自的鑒別測量,關(guān)聯(lián)性度量可以自然地確定。為闡明存在于關(guān)聯(lián)性度量的潛在問題,一些關(guān)鍵點(diǎn)被提出,并提出了一些解決方法。本文提供了兩個

2、在文本挖掘和信息檢索方面應(yīng)用的例子。研究的目的的本文的一個組成部分,它是建立一個以鑒別信息的測量為核心的統(tǒng)一理論框架,并實(shí)現(xiàn)有效的語義關(guān)聯(lián)的測量。由于它的普遍性,我們的方法將被期待在多個領(lǐng)域被廣泛應(yīng)用。索引詞 統(tǒng)計(jì)語義分析,鑒別信息的測量,語義關(guān)聯(lián)性的測量,識別信息術(shù)語,關(guān)鍵詞提取,文本挖掘,信息檢索1.引言本研究中主要有兩個點(diǎn):詞的鑒別信息測量和詞之間的語義關(guān)聯(lián)性度量。1.1鑒別信息的測量詞之間的鑒別信息測量(mdi)問題在科學(xué)研究的很多領(lǐng)域充當(dāng)了重要的角色,其中包括知識表達(dá)、機(jī)器學(xué)習(xí)和翻譯、計(jì)算機(jī)語言學(xué)、自然語言處理、文本挖掘和注釋、信息提取和檢索、觀點(diǎn)挖掘和情感分析、文件分類和綜述、生物

3、信息學(xué)和化學(xué)信息學(xué)等。 本文中所用的詞鑒別信息指的是屬于某一種類關(guān)于確定主題的興趣點(diǎn)并拒絕其他種類的詞所傳達(dá)的信息量。一個信息詞,也常稱為一個好的鑒別器,它對分類文件應(yīng)該有很好的性能。文件分類是基于它的主題內(nèi)容將每個文件分到一個或多個類別中。為簡化我們的討論,本文中所用的分類是指基于一群不相關(guān)主題的相似點(diǎn)而將文件分類的過程,每個已知類別的文件都應(yīng)該屬于一類并僅僅屬于這一類。根據(jù)這個觀點(diǎn),類別應(yīng)該能明確地判定,類別之間相互排斥,文件分類是信息科學(xué)的另一個基本問題,本文的研究是一個獨(dú)特但相關(guān)的工作。詞t比其他詞含有更多的信息量,這個觀點(diǎn)很含糊。直覺上,具有更強(qiáng)識別力的詞應(yīng)該被認(rèn)為具有更多的信息,這

4、個觀點(diǎn)是可以接受的。統(tǒng)計(jì)學(xué)上,具有更強(qiáng)識別力的詞通常對信息的期望結(jié)果貢獻(xiàn)更多。詞可能貢獻(xiàn)的程度被當(dāng)作是詞的信息量測量策略,用于計(jì)算程度的公式稱為識別力測量。能夠計(jì)算的潛在數(shù)學(xué)結(jié)構(gòu)是從信息理論中提取出的散度測量,他們從詞的分布情況判斷預(yù)期散度,因此它為估算預(yù)期信息量提供一個有力的工具。1.2 語義關(guān)聯(lián)性的測定詞之間的語義測定(msr)問題在多個研究領(lǐng)域都有了一段很長的歷史,我們預(yù)期基于詞典的算法比基于全集的算法在捕獲同義詞方面將得到更好的效果,因?yàn)樵~典(也就是詞匯網(wǎng)絡(luò)12)提供了只隱含在體內(nèi)的同義詞信息,但是這個實(shí)驗(yàn)結(jié)果并不支持我們的直覺3,原因可能是基于全集的方法通常能確定有相似同現(xiàn)模型的詞,

5、而并確定的詞是相關(guān)的或互相相似,或者互相是完全相反的4。語義關(guān)聯(lián)性比語義相似性更具有普遍性。相似的詞由于它們詞義的相似(同義)通常被認(rèn)為是相關(guān)的;不相似的詞通過詞典的關(guān)系(上下文的關(guān)系、部分-整體的關(guān)系等),或者從語料庫5中得到的同現(xiàn)統(tǒng)計(jì)也讓其在語義上有關(guān)系。實(shí)際上,不見得一個詞所支持的信息只出現(xiàn)在一個類別中。本文所研究的主要問題是,在所有類別中的每個詞之間的鑒別中最強(qiáng)支持類的鑒別(簡稱為ssc)。詞t指的是一些詞t與其他詞相比更緊密,這個說法還是很含糊。直觀上,互相緊密聯(lián)系的詞應(yīng)該在同類文件的相似上下文同時出現(xiàn),這個說法是可接受的。統(tǒng)計(jì)學(xué)上,密切相關(guān)的詞在分類上彼此往往有相同的最強(qiáng)支持類,并

6、比其他詞提供更高的相關(guān)性值到最強(qiáng)支持類中。潛在的正式分析是mdi,它為每個詞確定其最強(qiáng)支持類,并測量詞關(guān)于最強(qiáng)支持類的相關(guān)值,因而提供測量詞之間的關(guān)聯(lián)性的有效方法。計(jì)算應(yīng)用程序通常要求語義關(guān)聯(lián),而不僅僅是語義相似度6。許多應(yīng)用程序被當(dāng)作msr是其主要關(guān)系的情況,例如,問答7、修飾語對8、同義詞識別9、語義關(guān)系相似性測量3、語篇銜接的測量10、潛在的語義分析11、文本挖掘12和詞義消歧13。我們努力地提出了多種相關(guān)性測定方法:一些是應(yīng)用了詞典(手動建立詞庫)1415,一些是應(yīng)用了共現(xiàn)統(tǒng)計(jì)(非監(jiān)督學(xué)習(xí)語料庫)161718192021222324252627,和一些是應(yīng)用了混合技術(shù)(結(jié)合統(tǒng)計(jì)和詞匯的

7、綜合信息)2829302531。1.3 本文的研究目的在實(shí)際應(yīng)用的合理、明確環(huán)境中,我們?nèi)院茈y解釋詞所傳達(dá)的大量鑒別信息的含義,并且將詞之間的語義關(guān)聯(lián)程度概念成功且有意義地引入到科學(xué)討論中也不是那么容易的,本文就嘗試完成這個任務(wù)。我們向有效的msr試圖建立一個理論框架,以mdi為核心,并回答在科學(xué)界的多個領(lǐng)域中兩個重要的問題:1.詞t傳達(dá)的鑒別信息是什么并怎樣去測量它?2.詞t和t之間有怎樣的關(guān)聯(lián)性并怎樣去測量它?我們首先介紹兩個基本概念的正式定義:1)詞的鑒別信息2)詞之間的關(guān)聯(lián)性。接著,我們通過正式判讀集中于mdi和按照從分類測量中得到的鑒別措施而對第一個概念進(jìn)行定量表達(dá)。然后,我們集中到

8、msr,根據(jù)各自的鑒別措施給出了一系列關(guān)聯(lián)性測定方法的表達(dá)。我們也突出鑒別測量的性能,強(qiáng)調(diào)從mdi到msr應(yīng)用的問題,并給出相應(yīng)的解決方法。 圖1 c類的例子本文的貢獻(xiàn)有三點(diǎn):第一,我們?yōu)閮蓚€基本的概念建立了表示法并引進(jìn)了正式定義(第2、3節(jié))。第二,我們集中于mdi,并討論了鑒別測量方法的性能和闡述(第4節(jié)),接著我們集中在msr,并為關(guān)聯(lián)性測量給出了表示法(第5節(jié))。第三,我們考慮了兩個實(shí)際應(yīng)用實(shí)例(第6節(jié)),最后我們得出結(jié)論(第7節(jié))。2.詞的鑒別信息這一節(jié)通過討論詞的鑒別信息的基本概念,嘗試回答在1.3節(jié)提出的第一個問題。這個答案對鑒別測量進(jìn)行了全面的定義,則這個定義將貫穿整個文章。2

9、.1 一個設(shè)想首先,我們引入符號。設(shè)想,是不相關(guān)的成對出現(xiàn)的主體,設(shè)c為文件的語料庫且,并c是c的一類,并。試想是主體的所有文件的一類,所有的類別在c區(qū)形成一個分類,也就是說,其中。圖1就是c類的一個例子。設(shè)t是一個詞,v是在c中指出各自文件的所有詞的一個詞匯表且,設(shè)為包含至少在中出現(xiàn)一次的詞的分詞匯表,其中。通常,其中。正如前面所提到的,實(shí)際上每個中的t不可能只傳達(dá)支持c中的信息,為了回答第一個問題,首先我們必須提出下列的假設(shè):一個信息詞包含的信息不僅支持一種文件類,而且支持其他的類別。詞對支持的類別所包含的信息量是可觀的或不可觀的。擁有最大可觀量的類別稱為這個類別中詞的最強(qiáng)支持類(ssc)

10、。很明顯,如果我們知道信息中包含的數(shù)量,我們就很容易識別每個詞t的ssc,其中。但是,似乎很難估計(jì)每個類別中每個詞所包含的信息量。在的上下文環(huán)境中,我們就主要判斷t有多少信息,其中。正如前面所提到的,詞有較強(qiáng)的識別力,也就是說它比其他詞在預(yù)期信息量上貢獻(xiàn)更多,則它應(yīng)該被當(dāng)作是更有信息的。因此,如果我們有鑒別措施去估計(jì)詞的貢獻(xiàn)程度,則我們就有方法去測量詞的信息量和定量詞所含有的信息量。2.2 鑒別測量的一般定義測量詞的鑒別能力的第一次無疑是估計(jì)預(yù)期的散度(也就是預(yù)期的信息量),它是由每個詞對期望散度的貢獻(xiàn)所引出的,隱含在其中的分類準(zhǔn)則如下32:散度的測量應(yīng)該不依賴于附加物或去掉與分類不相關(guān)的詞。

11、所說與分類不想關(guān)的詞在這里是指它們的分類概率相等。現(xiàn)在設(shè)是互不相容的,就是假設(shè)詞t傳達(dá)的上下文信息()。為定量t依照它的鑒別信息支持的信息量,我們僅僅需要作一個假設(shè)(聲明而非正式):語句“表達(dá)類上下文關(guān)系的信息量”可以被重聲明為“詞t的鑒別力是支持假設(shè)而反對所有其他假設(shè)?!痹O(shè)是從類別分類出來的離散詞,它的先驗(yàn)概率為,其中。假設(shè)d是基于分類準(zhǔn)則可行的散度測量,且 (1) 其中是v中的所有d項(xiàng)和是c中每項(xiàng)的子項(xiàng)。d必須得滿足分類準(zhǔn)則:當(dāng),詞t不為將c分類到c中提供任何有益的鑒別信息。以上的討論已經(jīng)回答了第一個問題。其實(shí),一個詞中的信息就是支持一些類別的鑒別信息。mdi問題將在下節(jié)進(jìn)行深入研究,它提

12、供一種方法從形式上定義識別量從而得到它的重要性。這種定義如下列所介紹:定義2.2.1 假設(shè)d是式(1)所給的散度測量,已知,支持而反對的鑒別信息以如下定義: , (2)上式稱為t對的支持程度,且剩下的鑒別信息由下式定義: (3) ,上式稱為t對的剩余支持程度。所有的都被稱為鑒別測量。很明顯,是估計(jì)詞t支持的某個特定種類的信息量,每個類別自己所支持的信息量可以相互抵消,最后我們得到余下的信息量,它是類c中各自支持程度的加權(quán)代數(shù)和。圖2說明了我們的觀點(diǎn)。 圖2 t在各自類別中的信息量2.3最強(qiáng)支持類為確定詞t最有可能屬于的類別,我們假設(shè)是詞t在所有支持的類別中含有的最多的信息量,也就是說,存在一些

13、,則 注意的值可能不是很樂觀的,且接受的類別也不是唯一的,于是我們引入了下列的定義。定義2.3.1 設(shè)d是式(1)中給出的一些散度測量,對于已知的,如果存在一些類別如,則有 于是我們可以稱為t的最強(qiáng)支持類(ssc),且它可以從t到c中獲取最強(qiáng)支持度。在下列敘述中,已知t,我們把當(dāng)作是所有t的最強(qiáng)支持類的集合,同時對于一個已知的類別,我們把當(dāng)作所有其他詞在c中最強(qiáng)支持的集合。我們也將通過下列表達(dá)引出聲明“與其他的假設(shè)相比,t更是支持假設(shè)的”。 對于,它有。在這種情況下,我們可以得到,在實(shí)際應(yīng)用中,沒有ssc的詞將被立即丟掉。注意已知詞的ssc的概念是在c上而非v上,且在的所有類別都接收相同的最強(qiáng)

14、支持度,根據(jù)統(tǒng)計(jì)特性分類,跟詞之間很大的不同。2.4 潛在的問題在很多應(yīng)用中所使用的鑒別測量是而不是,但是使用存在很多潛在的問題。我們以兩個簡單的例子來定向,每個例子都是本研究的一個關(guān)鍵點(diǎn)。在以下的兩個例子,設(shè)我們有個分類,且已知其先驗(yàn)概率分布。k1:一個正數(shù)的剩余支持度可能不會表明在中就有更多的信息而在其他類c中就沒有什么信息。例如,設(shè)取且。但是時,則,則我們不能稱t更支持而非,并且很明顯得到和。k2:如果,則t在類的表達(dá)環(huán)境中更具有信息量(盡管殘余支持度的代號可能為負(fù)。)例如,如果且,則,很明顯得到和。以上的兩點(diǎn)對本文研究必不可少,它們將在第三節(jié)中表達(dá)鑒別測量時得到更清楚的解釋。3.兩詞間

15、的關(guān)聯(lián)性為回答在1.3節(jié)中提出的第二個問題,并深入了解詞之間的關(guān)聯(lián)性和特性,我們需要深入引入一系列符號我們必須定義詞與已知主題間的直觀關(guān)聯(lián)性概念。設(shè)給定成對不相關(guān)的對象:,在實(shí)際應(yīng)用中,在摘要中或類的概述中給出,其中。設(shè)作為反映每個詞的重要性的加權(quán)函數(shù),其中就而言,。一般,當(dāng),則,其中是中詞的集合。進(jìn)一步研究,將作為對象的復(fù)合體(可以看成是的聯(lián)合),若一個文件要么屬于要么屬于,則它可表示為。直覺上,t與的關(guān)聯(lián)性由統(tǒng)計(jì)的特性決定:1)關(guān)于的t的重要性,2)只支持的t的鑒別信息。因而關(guān)聯(lián)性的測量應(yīng)該是一個由決定的復(fù)合函數(shù);在先驗(yàn)概率下,剩余的關(guān)聯(lián)性測量應(yīng)該是個別c中的加權(quán)代數(shù)和,則我們下列形式定義

16、得到一些聲明:定義3.1 設(shè)d是式(1)中給出的散度測量,對于已知,t和的關(guān)聯(lián)性由下式?jīng)Q定: , (4)則余下的t與的關(guān)聯(lián)性由下式?jīng)Q定: (5) ,其中鑒別測量在式(2)中給出了,所有都成為關(guān)聯(lián)性測量。很明顯,是估計(jì)特定對象關(guān)于的t關(guān)聯(lián)性程度,個別的關(guān)聯(lián)性程度可以相互抵消,最后剩余關(guān)聯(lián)性程度,它是個別關(guān)聯(lián)值在c上的加權(quán)代數(shù)和。正如前面所提到的,互相緊密聯(lián)系的詞通常有相同的ssc,并對對象提供更高的關(guān)聯(lián)值。事實(shí)上,在介紹了鑒別測量和關(guān)聯(lián)性測量后,第二個問題的答案就相當(dāng)簡單了,則我們可以下列的正式定義:定義3.2 設(shè)d是式(1)給出的一些散度測量,對于任意的,它們相互緊密聯(lián)系,且存在一些類,則能得

17、到理想的情況:1.就是它們的ssc,也就是2. 與的相比,能得到更高的關(guān)聯(lián)值、和。從上面兩個定義中,我們可以很清晰地得出“詞和對象的關(guān)聯(lián)性”和“詞之間的關(guān)聯(lián)性”是兩個不同的概念。前者是詞和個別類別的關(guān)系,在這種關(guān)系中,支持度看成是并不超過;后者是詞之間的關(guān)系,則支持度在時僅僅看成是最強(qiáng)支持度。為簡單起見,下面的討論我們只是在兩個對象,且。這樣的設(shè)置很容易推廣到任何有限數(shù)目的類別中,此外,為了完善我們的想法,在本研究中每個都是與兩個對立的猜測聯(lián)系(如,是的補(bǔ)充)。已知這種簡化的一個重要應(yīng)用是從兩個類別中分類文件,其中關(guān)于的分類,而不是的分類,在這種情況下,我們可以設(shè)是“虛無”對象,即=“不是的任

18、何對象”。很明顯,在這種情況下是互不相關(guān)的。在下一節(jié),基于類別的一些散度測量,我們集中討論鑒別信息測量。4.鑒別測量在定義2.2.1我們已經(jīng)介紹鑒別信息的一般形式,從信息理論和相應(yīng)的正式表達(dá)得出三種散度測量,從而有了一系列的鑒別測量,接下來,都將設(shè)。4.1 散度測量方法設(shè)和都是分別從類a和類中提取的離散詞分布。基于語料庫有五種信息測量被廣泛使用:定向散度33,散度33,信息半徑34,杰森差異35,這就是通常所說的信息增益,現(xiàn)在已經(jīng)被許多研究者所熟悉,文獻(xiàn)33詳細(xì)介紹了散度的概念,文獻(xiàn)36中可以找到公理表征,下列將簡略地進(jìn)行介紹:本研究中所使用的三個散度測量為: , (6) (7) (8) 在散

19、度測量中對數(shù)的底數(shù)是不重要的,在整個文中,對數(shù)都是取底數(shù)為2,除非有特殊說明。可看成是支持而反對的期望信息增益,kullback33稱為定向散度的測量,則表示可以測量從中的的期望散度,在應(yīng)用時有一個必要條件就是必須關(guān)于的完全連續(xù),也就是,對于每個,都不能關(guān)于和的對稱。當(dāng)我們沒有特別強(qiáng)調(diào)或,則它可能有一個可取的對稱散度,且在信息增益方面是很有意義的??煽闯墒侵С侄磳Φ男畔⑵谕?,且信息期望是支持而反對33。是關(guān)于和對稱的,但是它需要對每個都滿足和,當(dāng)我們從不同的類別中取出兩個詞分布,這樣的要求在實(shí)際應(yīng)用中很難達(dá)到。進(jìn)一步設(shè)分別有先驗(yàn)概率分布和,也設(shè)是從語料庫中提取的混合分布(注意與不同)?;谛?/p>

20、息增益的表達(dá),看成是支持而反對的信息增益期望3734, 與和相比,得到了很好的定義,也就是說,它不需要和的任何要求:當(dāng)且若,則對于每個都有,因而設(shè)和可以用來比較任意詞分布,因?yàn)檫@個突出特性,信息半徑貌似就有一些新的興趣點(diǎn),很明顯關(guān)于和無論是都是不對稱的。在時,一個對稱的信息半徑可以很容易被引出。如果對所有都有,則、和,這個性質(zhì)表明從所有詞中所得到的信息期望都是非負(fù)的,如果詞的分布信息是相同的,則將沒有信息期望,也就是說他們都滿足分類標(biāo)準(zhǔn)。在實(shí)踐中,杰森差異35也成為熵增加的措施,實(shí)際上,當(dāng)信息熵38使用時它是信息半徑,因此另一種方式是尋找信息半徑和杰森的差異。因此,在原則上一些正式方法討論的的

21、信息半徑和熵增益是同一回事,交互信息的測量期望是定向散度的特殊情況,我們已經(jīng)在mdi3940中討論了這兩個測量的應(yīng)用。4.2 鑒別測量方法設(shè)是分別從中取的詞t,設(shè)和分別從中取出,為深入了解鑒別信息和它的屬性,我們需要引入一個符號將這個符號定義為鑒別因子。注意當(dāng)準(zhǔn)確,則有: ,上式成為鑒別因子,其中是在已知t時支持反對的幾率,且是支持反對的幾率。在圖靈機(jī)的術(shù)語和貝葉斯因素下,概念比在信息論中是一個直觀且重要的概念。圖靈機(jī)介紹表達(dá)“貝葉斯因子在假設(shè)條件下成立”,kullback33把貝葉斯因子對數(shù)作為支持反對的“鑒別信息”,good41也給了一個相似的定義,即將當(dāng)作t關(guān)于而反對的“衡量證據(jù)的份量”

22、(在這種情況下,詞的發(fā)生率當(dāng)作是證據(jù)的分量),因此鑒別因子可以測量t支持反對的信息量。現(xiàn)在回到式(6),定向散度可以看成是,其中可看作是t支持反對的鑒別力,幅度概率測量t在類a中的決策力,因此,根據(jù)定義2.2.1,則表示支持反對的信息,因此我們可以得到下列的正式定義:定義4.2.1 設(shè)對時,對于每個,則支持反對的鑒別信息為: (9) 接著回到式(7),同樣的散度可表達(dá)成的和,每個都有兩個子項(xiàng):和,在式(9)中我們討論了,類似的討論可以應(yīng)用到第二個子項(xiàng)中,因此通過定義2.2.1,消去,則我們可以得到下列的正式定義:定義4.2.2 設(shè),對每個有,支持反對的鑒別信息可以由下式定義: 此式在式(9)已

23、給出,支持反對的鑒別信息可以由下式定義: (10) 且t傳達(dá)的剩余信息由下式定義: (11)現(xiàn)在進(jìn)一步假設(shè)是t以先驗(yàn)概率從中提取,設(shè)是t從中提取的,且。接著回到式(8),信息半徑包含所有的詞,每個都有兩個子項(xiàng):和。首先考慮第一個子項(xiàng),它類似于,是鑒別兩個相反的假設(shè)的能力,測量t關(guān)于a在決策力上的意義,因此,由定義2.2.1,表明支持反對的信息。類似的討論將應(yīng)用到第二個子項(xiàng)中,則有下列正式定義:定義4.2.3 對每個都設(shè),則每個支持反對的鑒別信息的定義為: (12) 支持反對的鑒別信息的定義為: (13) 且t傳達(dá)的剩余信息的定義為: (14)在下一節(jié)中,我們討論在定義4.2.1-4.2.3中已

24、知的鑒別信息的性質(zhì),并給出相應(yīng)的解釋。4.3 鑒別測量的闡述取決于他們的屬性的個別的鑒別測量的闡述是不同的,在這節(jié)中,在表達(dá)a的上下文關(guān)系時,我們將明白t是否是最有信息的或不取決于a是否是ssc(也就是,),而不是剩余支持度的標(biāo)志。4.3.1 的闡述 注意,對于每個非對稱定向散度中的詞在中的符號可能是正也可能是負(fù),因此我們有下列的定量表示: 1.如果,則,即t在分類c到c中不能提供鑒別信息。2.如果,則,且t傳達(dá)支持反對的信息,因此由定義2.3.1和4.2.1可得: 且 3. 如果,則,且t傳達(dá)支持反對的信息,因此,如第2節(jié)中所提,t應(yīng)該馬上丟棄。評論 注意,從上面的三點(diǎn)我們不能找到t的ssc

25、和,在這三點(diǎn)的情況下,我們也不能說t有助于支持反對的,因?yàn)椤?.3.2 的闡述 在給出定量表示之前,首先讓我們通過下列的定理42考慮的屬性:定量 4.3.1 對任意,若滿足,則我們通常有且 1.有且只有當(dāng),則,也就是;2. 有且只有當(dāng),則,也就是。從上面的定理,我們了解到非對稱散度的每個詞都是非負(fù)的,且對每個都有,因此我們有下列的定量表示:1. 如果,則,即t在分類c到c中不能提供鑒別信息。2. 如果,則a. ,則t傳達(dá)支持反對的信息,且t有助于支持反對的。b. ,t也傳達(dá)支持反對的信息,且它有助于支持反對的。因此,由定義2.3.1和4.2.2,我們可得,且,因此表明t支持比更多一些。3.如果

26、,則a. ,t傳達(dá)支持反對的信息,且t有助于支持反對的。b. ,t也傳達(dá)支持反對的信息,且它有助于支持反對的。因此,且,因此與第二點(diǎn)比較,表明t支持比更多一些。評論 從以上三點(diǎn),我們能明白當(dāng),剩余支持度并不表示,這是因?yàn)闉檎鞘芩鶝Q定的,在第二節(jié)中的已經(jīng)給出了這兩個實(shí)例清晰地闡述了我們的觀點(diǎn)。 因此,為判斷是否有,我們必須進(jìn)行更深入的考慮,從以上第二點(diǎn)我們可以很容易得到,若存在,只有在: (15)4.3.3 的闡述 注意的符號可能正可能負(fù),因?yàn)樗膬蓚€子項(xiàng)可能正可能負(fù),因此,類似于,在給出定量表示之前,我們通過下列定理32首先考慮下的屬性:定理4.3.2 對任意,若滿足,我們常有: 1.有且只

27、有當(dāng),則,也就是;2. 有且只有當(dāng),則,也就是。從上面的定理,我們了解到對每個都有,因此我們有下列的定量表示:1. 如果,則,即t在分類c到c中不能提供鑒別信息。2. 如果,則a. ,也就是,因此,t傳達(dá)支持反對的信息,且t有助于支持反對的。b. ,也就是,因此,t也傳達(dá)支持反對的信息,且t有助于支持反對的。因此,由定義2.3.1和4.2.2,我們可得,且,因此從非負(fù)性出發(fā),表明t支持比更多一些。3.如果,則a. ,也就是,因此,t傳達(dá)支持反對的信息,且t有助于支持反對的。b. ,也就是,因此,t也傳達(dá)支持反對的信息,且t有助于支持反對的。因此, ,且,因此與第二點(diǎn)比較,表明t支持比更多一些。

28、評論 從以上三點(diǎn),我們能明白當(dāng),剩余支持度并不表示,這是因?yàn)闉檎鞘芩鶝Q定的(見第二節(jié)中已經(jīng)給出了)。 因此,為判斷是否有,我們必須進(jìn)行更深入的考慮,從以上第二點(diǎn)我們可以很容易得到,若存在,只有在: (16)5.其他測量方法已給出了mdi的正式分析后,現(xiàn)在我們是要考慮如何將它運(yùn)用到實(shí)際問題中測量詞之間的語義關(guān)聯(lián)程度。在定義3.1介紹的關(guān)聯(lián)性測定方法是任何分類的一般形式,根據(jù)式(9)-(14)給出的鑒別測量方法,我們可以寫出關(guān)聯(lián)性測定的一系列定義,很顯然下面三個定義是定義3.1的特殊情況:定義5.1 設(shè)每個都有,在每個中,t與對象之間的關(guān)聯(lián)性可以由下式規(guī)定: (17)定義5.2 設(shè)每個都有且,在

29、每個中,t與對象之間的關(guān)聯(lián)性可以由下式規(guī)定: 上式在式(17)已給出;t與對象之間的關(guān)聯(lián)性可以由下式規(guī)定: (18)t與對象之間的剩余關(guān)聯(lián)性可以由下式規(guī)定: (19)定義5.3 對每個設(shè),在每個中,t與對象之間的關(guān)聯(lián)性可以由下式規(guī)定: (20) t與對象之間的剩余關(guān)聯(lián)性可以由下式規(guī)定: (21) t與對象之間的剩余關(guān)聯(lián)性可以由下式規(guī)定: (22) 特別是,如果我們只考慮鑒別信息而沒將對象的權(quán)重合并到關(guān)聯(lián)值中,上面所說的個別關(guān)聯(lián)性測量方法的相應(yīng)的關(guān)聯(lián)性測定法可以寫出,例如: (23) (24) (25)它能夠讓我們了解詞的鑒別信息是如何為系統(tǒng)性能發(fā)揮作用的。 通過以上定義5.1-5.3,我們很容

30、易給出任意兩個詞關(guān)于的關(guān)聯(lián)性定義,它是定義3.2的一個特殊情況。定義5.4 設(shè)d是式(1)給出的一些散度測量,對兩個任意的詞,當(dāng)且僅當(dāng)滿足下列條件其一,它們要彼此密切相關(guān),滿足的情況如下:case 1: 1.,也就是2.對所有(或大部分),則有。case 2:1. ,也就是2. 對所有(或大部分),則有。 在式(9)-(14)給出的鑒別測量方法可以用于鑒定哪一類是ssc,且式(17)-(25)給出的關(guān)聯(lián)性測定方法可以用于,然后量化詞之間的關(guān)聯(lián)性。評論 假設(shè)我們關(guān)注于類a:我們從中選擇一些彼此密切相關(guān)的詞,當(dāng)使用了(這種情況在實(shí)際運(yùn)用中并不常見),我們強(qiáng)調(diào)的是下面的點(diǎn)必不可少。正如第三節(jié)所提到的

31、,是兩個相反的和的代數(shù)加權(quán)和:當(dāng)t在文件中也出現(xiàn)的時候,它提供的不僅是的關(guān)聯(lián)性,而且還是的關(guān)聯(lián)性。注意當(dāng)而時,表明,但是并不能保證a是t的ssc,這是因?yàn)橛啥ɡ?.3.1和4.3.2給出的性質(zhì),僅因?yàn)槎瞥鍪遣粔虻?,因此理解和這兩個值并不代表兩個密切相關(guān)是非常重要的。1.提供的僅僅是的關(guān)聯(lián)性,盡管t可能出現(xiàn)在文件中。因此僅查證,就足以為每個選定的詞有效鑒定它們在中密切相關(guān)。2. 是和的代數(shù)加權(quán)和,因此和這兩個值并不能保證兩個密切相關(guān),為鑒定中的詞互相密切相關(guān),則可通過式(15)為每個選定詞的查證。3. 是和的代數(shù)加權(quán)和, 因此和這兩個值并不能保證兩個密切相關(guān),而式(16)可為每個詞進(jìn)行查證。6

32、.應(yīng)用實(shí)例 在本節(jié)中,我們從數(shù)學(xué)抽象出一些具體的例子,則有助于進(jìn)一步闡明我們正式方法中的一些思想,mdi的兩個典型的應(yīng)用是在文本挖掘(tm)和信息領(lǐng)域(ir)。因此我們選擇的例子是在tm和ir環(huán)境中。6.1 tm的實(shí)例tm通常指的是提取新的、以前并不知道的知識的過程,它是通過從文本信息源中自動提取關(guān)鍵詞,tm的一個典型例子發(fā)生在基因組學(xué)領(lǐng)域:蛋白質(zhì)與其他蛋白質(zhì)相互作用,為預(yù)測它們的相互作用,現(xiàn)有一些統(tǒng)計(jì)模型學(xué)習(xí)方法可以在討論蛋白質(zhì)文件中確定詞共現(xiàn)模型。統(tǒng)計(jì)模式學(xué)習(xí)方法已經(jīng)在tm領(lǐng)域取得了顯著的成效,我們的正式方法可以很容易應(yīng)用到提取關(guān)鍵詞的有效技術(shù),這個方法的基本思想是很簡單的。假設(shè)我們得到兩

33、個蛋白質(zhì),通常不同時出現(xiàn)在同一個文件中,則討論或的文件如下:1.記為發(fā)生的一組文件(在這種情況下,通常當(dāng)作一個對象),且在文件中,記為至少發(fā)生在其中一個文件中的一組詞,其中。2.提取詞的共現(xiàn)模型,且取自的為:a.對每個,將記為詞的集合,這些詞將為它們的ssc;b. 對每個估計(jì)t與的關(guān)聯(lián)性,并記為高度相關(guān)詞的集合(根據(jù)預(yù)定閾值),其中。3.觀察包含的文件,這些文件希望包含相互作用的蛋白質(zhì),反之亦然。在這個例子中,我們將演示用戶是如何通過我們的系統(tǒng)從樹基43文本中提取分類名和關(guān)鍵詞。 一般而言,對任意,的估計(jì)值可以由下式得出:其中是一個權(quán)重函數(shù),它用于反映文件d中t的重要性,例如,我們可以使用ok

34、api權(quán)重函數(shù)(bm25)44表示: 在此式中參數(shù)為t在文件d中出現(xiàn)的頻率,是d的長度;是語料庫c的平均文件長度。則對的討論也類似,在文獻(xiàn)40中詳細(xì)地討論了估計(jì)詞分配問題。 樹基是我們使用的語料庫之一,它是系統(tǒng)進(jìn)化的關(guān)系型數(shù)據(jù)庫。通過接近已發(fā)表的系統(tǒng)進(jìn)化研究和它們所包含的數(shù)據(jù)和樹,它提供一種機(jī)制來發(fā)現(xiàn)所謂的系統(tǒng)進(jìn)化關(guān)系。設(shè)a(也就是)是用戶取自樹基的,例如式(23)已知的,關(guān)聯(lián)性測定方法可用于類群名和關(guān)鍵詞的提取。在我們的系統(tǒng)中,所有文件都是有來源的,所有的禁用詞都被刪除了。 圖3 提取分類名和關(guān)鍵詞的例子在我們的初步實(shí)驗(yàn)中,幾乎所有的類群名都有非常高的關(guān)聯(lián)值,并位于榜首,我們也認(rèn)為20個排名

35、第一的并不是類群名。圖3是一個實(shí)例,在這個例子中,給予的重點(diǎn)是:類群名(下劃線),排名1-10的詞(加黑陰影),排名11-20的詞(陰影斜體)。有趣的是,具有高文件頻率的詞(如,細(xì)胞群,dna測序,細(xì)胞核,葉綠體rbcl基因,系統(tǒng)進(jìn)化,簡約,分支,核糖體rna基因,屬,基因序列,核苷酸,祖先)具有相對較低的關(guān)系值,因?yàn)槲覀兊姆椒ㄕJ(rèn)為它們并不富有信息。6.2 ir的實(shí)例在ir中,用戶提供的問題(作為主體)對于用戶的信息需求來說,通常是不夠的、不準(zhǔn)確的或是不完全的描述,一個恢復(fù)的系統(tǒng)僅通過用戶的查詢是不能被期望產(chǎn)生理想的結(jié)果。查詢擴(kuò)展是一門技術(shù),它修正用戶的查詢以便達(dá)到更準(zhǔn)確的描述用戶的信息需求。

36、特別是,當(dāng)擴(kuò)展詞是選自于一組相關(guān)文件,由a表示(其中),查詢擴(kuò)展是一種有效的技術(shù):它增加一些詞以便提供更準(zhǔn)確的信息需求,它發(fā)生在相關(guān)文件中關(guān)于原始查詢的。為調(diào)查每個關(guān)聯(lián)性測定方法對改進(jìn)性能的貢獻(xiàn)到底有多少,我們進(jìn)行了多項(xiàng)實(shí)驗(yàn)。方法的詳細(xì)描述,如文件的權(quán)重函數(shù),查詢的權(quán)重函數(shù)(為估計(jì)的值,i=1,2),擴(kuò)展查詢(記為)的重新加權(quán)函數(shù)為,這些可以在文獻(xiàn)40中找到。這個例子顯示了我們開展的關(guān)聯(lián)反饋過程實(shí)驗(yàn)的一部分,關(guān)聯(lián)測量的兩組詞都是選自a中密切相關(guān)的詞。第一組是,和,它們分別在式(17),(19),(22)給出了。第二組是,和,它們分別在式(23)-(25)給出了。 圖4 這個例子顯示的是使用取自

37、trec專案數(shù)據(jù)中的50個查詢ft集合(金融時報(bào)“1991-1994”,210,158號文件)的檢索性能。每個查詢都分別產(chǎn)生于trec主題(351-400)之一的標(biāo)題領(lǐng)域(僅由標(biāo)題表示),標(biāo)題和描述域(描述+標(biāo)題)和全文本(純文本表示)。從trec相關(guān)評估提供的有關(guān)文件,使用的標(biāo)準(zhǔn)評價措施是:pk(在排名前k文件的平均精度,其中k=5,10),a-p(50個查詢中的評價精度) ,r-p(r-p精度文件號的精度)。圖4的實(shí)驗(yàn)結(jié)果由平均檢索性能(超過50個查詢)組成,分別取自(表示):原始查詢(基準(zhǔn)),和從第一、第二組關(guān)聯(lián)測定詞取得的擴(kuò)展查詢。在圖4中,方括號給出的是最好的結(jié)果,最差的結(jié)果由星號標(biāo)

38、記。從實(shí)驗(yàn)結(jié)果,可以得到如下結(jié)論:擴(kuò)展查詢比基準(zhǔn)能取得更好的性能,這些改進(jìn)表現(xiàn)在所有評估點(diǎn)上,在對所有產(chǎn)查詢的不同部分,和對6個關(guān)聯(lián)性測定方法上。和應(yīng)用在查詢的不同部分時,它們顯示的性能很相似,在所有的評估點(diǎn)上,它們都幾乎優(yōu)于。和應(yīng)用在查詢的不同部分時,它們顯示的性能很相似,當(dāng)與比較時,在所有的評估點(diǎn)上,它們都幾乎劣于。 與,和相比,和包含更好的性能。當(dāng)它們應(yīng)用在描述+標(biāo)題或僅僅標(biāo)題查詢時,性能增加是很有意義的。更好的性能使我們想到,將查詢詞的權(quán)重合并到詞的關(guān)聯(lián)值中是不合適的,這很可能是因?yàn)椴樵冊~的鑒別信息已經(jīng)合并到鑒別測量中,且反復(fù)使用信息可能會降低檢索的性能。如前所述,許多優(yōu)秀的研究實(shí)驗(yàn)驗(yàn)

39、證,采用散度測定方法去建立為選擇信息詞的關(guān)聯(lián)性測定方法是很有益的,本文的重點(diǎn)是在理論分析和正式討論,讀者感興趣的是我們的正式討論是如何能被一些經(jīng)驗(yàn)證據(jù)所支持,這些經(jīng)驗(yàn)證據(jù)是來自所引用的一些文獻(xiàn)的性能實(shí)驗(yàn)。7.結(jié)論本文有兩個重點(diǎn):詞的mdi和詞之間的msr。我們?yōu)橐粋€基本的概念引入了一個正式定義:詞所傳達(dá)的鑒別信息?;趲讉€散度測定方法,我們深入討論并正式解釋了鑒別測量法。通過散度措施d中詞和子項(xiàng),我們定量表示了它。從這項(xiàng)研究可以清楚的看到,個別的鑒別信息測量法根據(jù)它們的屬性是不同的,特別是我們能闡明下列兩個關(guān)鍵點(diǎn):并不表示的詞在表達(dá)a是有信息的。如果,則t在表達(dá)a時是有情報(bào)的,盡管我們介紹一個

40、直觀而正式的定義:兩詞之間的關(guān)聯(lián)性。從本文研究中可以看出,這直觀的概念與本文中所介紹的其他概念是有區(qū)別的:詞和對象的關(guān)聯(lián)性。前者關(guān)心的僅僅是和中感興趣的詞;而后者關(guān)心的是中的。從本文中可以清晰地得到,提供的不僅是t和間的關(guān)聯(lián)性,還提供t和間的關(guān)聯(lián)性。因此,并不指。和具有正值,并不表示(其中)是相互緊密聯(lián)系的。為鑒定詞之間的密切聯(lián)系,解決上面問題的方法為選定的詞查證不等式(15)或(16)。本文的目的也就是本文的一個部分就是建立一個統(tǒng)一的理論框架,它是以mdi為核心,并取得有效的msr。參考文獻(xiàn)1 c. fellbaum, 詞匯網(wǎng)絡(luò):一個電子詞匯數(shù)據(jù)庫. the mit press, 1998.

41、2 g. miller, “詞匯網(wǎng)絡(luò):一個在線詞匯數(shù)據(jù)庫,” intl j.lexicography, special issue, vol. 3, no. 4, pp. 235-244, 1990.3 p.d. turney, “相似的語義關(guān)系,” 計(jì)算機(jī)語言學(xué),vol. 32, no.3,pp. 379-410, 2006.4 i. dagan, “上下文的詞語相似度,” 自然語言處理手冊, pp. 459-475, marcel dekker, inc., 2000.5 a. budanitsky and g. hirst, “基于wordnet的詞匯語義相關(guān)措施的評價,” 計(jì)算機(jī)語言學(xué)

42、,vol. 4, no. 1, pp. 1-49, 2005.6 a. budanitsky and g. hirst, “在wordnet的語義距離:五項(xiàng)面向應(yīng)用的評價實(shí)驗(yàn),”proc. workshop wordnet and other lexical resources, second meeting of the north am. chapter of the assoc. for computational linguistics, pp. 29-34, 2001.7 d. moldovan, a. badulescu, m. tatu, d. antohe, and r. gi

43、rju, “名詞短語的語義分類模型,” proc.workshop computational lexical semantics, pp. 60-67, 2004.8 v. nastase and s. szpakowicz, “探索名詞修飾詞的語義關(guān)系,” proc. fifth intl workshop computational semantics, pp. 285-301, 2003.9 p.d. turney, m.l. littman, j. bigham, and v. shnayder,“結(jié)合獨(dú)立的模塊來解決選擇題的同義詞和類比問題,” proc. intl conf. r

44、ecent advances in natural language processing, pp. 482-489, 2003.10 j. morris and g. hirst, “詞匯銜接詞庫的關(guān)系作為一個文本結(jié)構(gòu)的指標(biāo)計(jì)算,” computational linguistics, vol. 17, no. 1, pp. 21-48, 1991.11 t.k. landauer and s.t. dumais, “柏拉圖問題的一個解決方案:獲取的潛在語義分析理論,歸納并知識表示,” psychological rev.,vol. 104, no. 2, pp. 211-240, 1997

45、.12 k. frantzi, s. ananiadou, and h. mima, “自動識別多字的詞,” intl j. digital libraries, vol. 3, no. 2,pp. 117-132, 2000.13 r. florian and d. yarowsky, “建模共識:詞義消歧的分類結(jié)合,” proc. conf.empirical methods in natural language processing, pp. 25-32, 2002.14 j.h. lee, m.h. kim, and y.j. lee, “基于繼承層次結(jié)構(gòu)的概念距離的信息檢索,” j

46、. documentation,vol. 49, pp. 188-207, 1993.15 r. richardson, a. smeaton, and j. murphy, “應(yīng)用wordnet知識庫測量詞的語義相似性,” proc. artificial intelligence and cognitive science (aics)conf., 1994.16 c. corley and r. mihalcea, “測量文本的語義相似,” proc. acl workshop empirical modeling of semantic equivalence and entailme

47、nt, pp. 13-18, 2005.17 i. dagan, l. lee, and f.c.n. pereira, “基于相似性的詞共現(xiàn)概率模型,” machine learning, special issue on natural language learning, vol. 34, nos. 1-3, pp. 43-69, 1999.18 g. hirst and a. budanitsky, “恢復(fù)詞匯銜接以實(shí)時糾正單詞拼寫錯誤,” natural language eng.,vol. 11, no. 1, pp. 87-111, 2005.19 l. lee, “分布相似的措

48、施,” proc. 37th ann.meeting of the assoc. for computational linguistics, pp. 25-32, 1999.20 i. marx, z. dagan, j. buhmann, and e. shamir, “聚類群:一個結(jié)構(gòu)一致的檢測方法,”j. machine learning research, vol. 3, pp. 747-780, 2002.21 s. mohammad and g. hirst, “作為代理的分布式語義相關(guān)措施,” /pub/gh/mohammad+h

49、irst-2005.pdf, 2005.22 s. mohammad and g. hirst, “概念距離的分配方法:一個面向任務(wù)的評價,” proc. conf. empirical methods in natural language processing, 2006.23 s. mohammad and g. hirst, “利用詞庫確定詞義優(yōu)勢,” proc. 11th conf. european chapter of the assoc. for computational linguistics, pp. 121-128, 2006.24 p. pantel and d. l

50、in, “從文本中發(fā)現(xiàn)詞義,” proc.acm sigkdd, pp. 613-619, 2002.25 p. resnik, “分類學(xué)中的語義相似性:基于測量及其在自然語言中關(guān)于不確定問題的應(yīng)用的信息,” j. artificial intelligence research, vol. 11, pp. 95-130, 1999.26 n. seco, t. veale, and j. hayes, “在wordnet中關(guān)于語義相似性的內(nèi)在信息量度量方法,” proc. 16th european conf. artificial intelligence, 2004.27 j. weeds and d. weir, “共現(xiàn)檢索:詞匯分布相似的靈活框架,” computational linguistics, vol. 31, no. 4, pp. 439-475, 2005.28 l. han, l.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論