改進的基于關(guān)系的IR技術(shù)分析_第1頁
改進的基于關(guān)系的IR技術(shù)分析_第2頁
改進的基于關(guān)系的IR技術(shù)分析_第3頁
改進的基于關(guān)系的IR技術(shù)分析_第4頁
改進的基于關(guān)系的IR技術(shù)分析_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

改進的基于關(guān)系的IR技術(shù)分析

摘要:基于關(guān)系的信息檢索技術(shù)或基于語義的IR技術(shù)仍存在顯而易見的缺陷,即不能明確關(guān)系本身。本文介紹了一種改進的基于關(guān)系的IR技術(shù),明確關(guān)系的取值和屬性,整合概念對和關(guān)系的信息為三元組表達式,通過適當(dāng)?shù)钠ヅ浞椒ǐ@取未知信息。

關(guān)鍵詞:信息檢索技術(shù);基于關(guān)系;IR

一、引言

在眾多的文本信息處理技術(shù)中,IR技術(shù)是最常用,也是大規(guī)模文獻數(shù)據(jù)挖掘技術(shù)中的重要部分。隨著社會發(fā)展,IR幾乎涉及到了每一個人的每一天,如使用web搜索引擎或查找郵件。IR技術(shù)在巨大需求下迅猛發(fā)展,壓倒傳統(tǒng)的數(shù)據(jù)庫搜索方式,成為占統(tǒng)治地位的信息獲取途徑。

二、基于語義的IR技術(shù)

隨著科學(xué)技術(shù)和通信技術(shù)的發(fā)展,人們開始重視符號背后代表的語義信息?,F(xiàn)實世界中每一個事物總存在著基于廣泛共識的本質(zhì)的區(qū)別于其它事物的特征和屬性,即一個事物的概念,用概念代表事物而不是用符號,可以避免通信或科研中由多詞同義和一詞多義帶來的歧義問題,有利于人們對事物達成統(tǒng)一的認識。事物、概念和符號的聯(lián)系和區(qū)別。

概念一般是公認的準確全面的描述,卻不易使用,如果給每個概念一個唯一的ID標(biāo)識,則會帶來極大的方便?;谡Z義的IR技術(shù)使用UMLS,WordNet等本體庫作為語義的基礎(chǔ)和標(biāo)準,在語義層面上理解和處理查詢或文本。例如,在一次信息檢索過程中,用戶輸入的查詢是:計算機(符號),可知他的查詢本意是查找名叫“計算機”或“電腦”(符號)的“用來計算的儀器,尤指可進行高速數(shù)學(xué)或邏輯運算或匯編、存儲、整理或處理信息的可編程的電子機器”(概念)對應(yīng)的相關(guān)文本。如果上述概念有一個公認的唯一的概念I(lǐng)D:1234(概念與概念的ID的對應(yīng)關(guān)系一般由本體庫收錄),則用戶輸入“計算機”作為初始查詢時,系統(tǒng)確定對應(yīng)的概念I(lǐng)D,并應(yīng)用這個唯一ID進行檢索。

三、改進的基于關(guān)系的IR技術(shù)

傳統(tǒng)的IR用詞匯項表示文本,后來改進為基于語義的方法,用概念(concept)表示文本,近年來的基于關(guān)系的IR技術(shù)有了重大突破,考慮了概念間的關(guān)系,把IR技術(shù)提高到新的層次。但是這種被稱為基于關(guān)系的IR技術(shù)不是真正意義上的“基于關(guān)系”,因為系統(tǒng)根本不能提取出“關(guān)系”本身。關(guān)系獲取(capture)是極富挑戰(zhàn)性的。事實上,我們所有的工作都是基于對關(guān)系(relationship)的以下認識:

1)關(guān)系分為固有關(guān)系或長久關(guān)系(intemal/permanentrelationship)和臨時關(guān)系(temporaryrelationship)。

2)IR領(lǐng)域的關(guān)系抽取有別于IE的關(guān)系抽取,由于二者的功能和目的不同,后者偏重于固有關(guān)系或者長久關(guān)系,在抽取出的實體的基礎(chǔ)上,在脫離文本的情況下,通過一定的手段,如知識庫或機器學(xué)習(xí),獲取實體間的關(guān)系,其中關(guān)系的類型可采用ACE測評給出的預(yù)先定義。

3)在LTMLS,WordNet中記錄的一般為固有關(guān)系,不同于文本中出現(xiàn)的概念之間的直接關(guān)系(一般由動詞表達),是經(jīng)過專家論證過的確實存在的知識。UMLS中的關(guān)系是定義在語義類型上的關(guān)系(如:ISA);WordNet中定義的關(guān)系是相對于詞性的(例如名詞存在反義、上下位、部分整體、屬性關(guān)系)。

4)在文本中多數(shù)的概念對(指在一個句子中的兩個概念)間的直接關(guān)系(指與概念在同一個句子中的關(guān)系)為臨時關(guān)系,這類關(guān)系還未得到專家的驗證,還未固化為長久或固有關(guān)系。IR主要用于發(fā)現(xiàn)和檢索后這一種關(guān)系,固有關(guān)系可以作為有益的補充。

(一)基于關(guān)系的查詢與文本的表示

(1)查詢與文本的類型

1.查詢具有多樣性:

1)項查詢(termquery):這種查詢方式還在普遍使用,其特點為多個(=1)查詢項(term)組成一個查詢,項之間可能會存在較強的關(guān)聯(lián)。

2)問句查詢(questionquery):問句查詢是近年來應(yīng)用的趨勢,很多解釋敘述型查詢都可以轉(zhuǎn)化為問句形式。

(2)查詢與文本的三元組表示

1)概念的表示:鑒于基于關(guān)系的IR系統(tǒng)要在概念的基礎(chǔ)上定義關(guān)系,所以應(yīng)該支持對概念的表示格式,其中CUI(UniqueIdentifierofconcept)是概念的唯一識別碼,TUI(UniqueIdentifierofSemanticType)是概念的語義類型的唯一識別碼,STR(String)記錄文本中出現(xiàn)的字符串,Attribute記錄文本中概念的屬性(不同于UMLS定義的Attribute),Location用來記錄概念在文本語句中的偏移量,用以定位概念對(conceptpair)之間的關(guān)系;是需要檢索的未知(unknown)信息,未列出的概念和關(guān)系的參數(shù)取值為空。

2)關(guān)系的表示:其中關(guān)系是原子關(guān)系(atomicrelation),即關(guān)系中無并列成分,是保證完整語義的最小單位;RCUI(UniqueIdentifierofRelation)是關(guān)系作為某種意義上的概念在WordNet中的唯一識別碼,@RCUI(UniqueIdentifierofRelation‘sHypernymy)。

(二)關(guān)系的抽取與整合

1、抽取關(guān)系

首先,動詞也存在同義詞和近義詞,但是對于名詞的同義詞和近義詞,某些領(lǐng)域本體庫已經(jīng)給出了它們對應(yīng)的概念及其編號(UMLS中記為CUD,大大減少了多詞同義、多詞近義而詞形不同帶來的麻煩,但是這些本體庫并不涉及動詞;其次,有些其他詞性的詞,如某些特殊的名詞代表某種動詞的涵義。如果將此類情況忽略,一定會影響檢索性能。但是,如果可以根據(jù)同義近義將關(guān)系歸類編號,壓縮為數(shù)量不多(UMLS中有50多個)的語義關(guān)系,就可以很好的解決上述問題,這也是處理體現(xiàn)關(guān)系的動詞的最實用的方法。幸運的是WordNet提供了可以解決以上問題的機制,我們的系統(tǒng)就是將領(lǐng)域本體庫UMLS和廣泛本體庫WordNet結(jié)合起來用于概念和關(guān)系的抽取。

2、表示關(guān)系

獲取關(guān)系的工作完成后就要用適當(dāng)?shù)姆绞奖硎娟P(guān)系,關(guān)系表示的正確性和簡便性直接影響了IRIR系統(tǒng)實現(xiàn)的復(fù)雜度,也關(guān)系到檢索的性能。

(三)關(guān)系的整合

首先計算概念對的中心位置;關(guān)于概念配對,我們采用關(guān)于實體一實體關(guān)系生成的方法。概念對(ConceptPair)與關(guān)系列表(RelationList)中第n個的關(guān)系組合形成三元組,即表明該關(guān)系與概念對在同一個句子中,并且距離概念對的中心位置最近。在得到triple三個分量的值以后,就可以應(yīng)用不同的策略界定與triple對應(yīng)的文字段(passage)的偏移量和長度了。文字段的界定策略有多種,本文使用的是以句子為最小單位組成文字段的策略,即文字段的起始(offset)是關(guān)系所在的句子的偏移量,文字段的長度(length)是該句的長度。

(四)相關(guān)判定一排序機制

相關(guān)判定一排序原則:1)匹配最佳優(yōu)先原則:文本triple匹配上查詢triple的分量越多排序在前:2)概念匹配優(yōu)先原則:概念包含的專業(yè)信息更豐富,因此匹配時概念較多的文本triple排序在前,只有關(guān)系分量匹配上的不判定為相關(guān);3)當(dāng)topic處理為多個triple,每個triple按相同權(quán)重(=1)分別進行檢索。

相關(guān)判定一排序(judgingesranking)方法將第k個文本triple比對第i個topic的第J個查詢triple,根據(jù)匹配上的分量類型和數(shù)量打分,概念分量匹配上多的分值較高(=文本triple[k]分值*加權(quán)值,文本triple分值即為該triple在語料庫中出現(xiàn)的次數(shù)),關(guān)系分量匹配上的分值較低(-文本triple[k]分值*加權(quán)值):對于查詢triple中關(guān)系是多義的情況,首詞義(a)或次詞義匹配上時文本triple的排序計算公式(見算法2中式((1))的加權(quán)值((weight)分別為1和,對于關(guān)系是單義的情況,排序計算同(a);合并處在同一文字段的不同triple,累加其排序權(quán)值(rankValue),最后按分值高低提交triple對應(yīng)的文字段(即triple表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論