




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于向量空間模型的信息檢索系統(tǒng)的設(shè)計包金龍(南京大學(xué)信息管理系南京210093摘要向量空間檢索模型最早提出于1958年,它在信息檢索系統(tǒng)中有著良好的性能表現(xiàn)。先對該模型作了介紹,然后在向量空間模型的基礎(chǔ)上,根據(jù)文獻標(biāo)引、索引項權(quán)重的確定、相似度測算這三個步驟設(shè)計了一個信息檢索系統(tǒng),總結(jié)了該系統(tǒng)要用到的核心技術(shù),并評價了該系統(tǒng)。關(guān)鍵詞檢索模型向量空間模型信息檢索系統(tǒng)文獻查詢向量信息檢索系統(tǒng)從最初的純手工檢索系統(tǒng)業(yè)已發(fā)展到現(xiàn)在的以信息技術(shù)為支撐的網(wǎng)絡(luò)化、1智能化的檢索系統(tǒng),在這一過程中,適應(yīng)新的信息資源、信息技術(shù)這些檢索環(huán)境,提高信息檢索系統(tǒng)的查全率、查準(zhǔn)率和系統(tǒng)響應(yīng)時間是永不變更的主題。就文獻特
2、征表示而言,為了適應(yīng)不斷變化的新的檢索環(huán)境和提高檢索效率,先后出現(xiàn)過布爾檢索模型、向量空間檢索模型和概率模型等,隨著檢索實踐的發(fā)展,將還會有更多的檢索模型涌現(xiàn),其中向量空間檢索模型歷久彌新,至今在信息檢索系統(tǒng)中都有很好的應(yīng)用和不俗的表現(xiàn)。本文在介紹向量空間模型的基礎(chǔ)上給出了基于它的信息檢索系統(tǒng)的一般結(jié)構(gòu)框架和各部分的功能介紹,探討了系統(tǒng)中所涉及到的關(guān)鍵技術(shù)。1向量空間模型介紹在文本挖掘、搜索引擎應(yīng)用中,文本的特征表示是挖掘工作的基礎(chǔ),它對文本進行預(yù)處理,抽取代表其特征的元數(shù)據(jù),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。向量空間模型(Vector Space Model是近年來應(yīng)用
3、較多的文本特征表示方法之一,它是由Gerard Slaton等人在1958年提出并發(fā)展起來的1,是一個關(guān)于文獻表示的統(tǒng)計模型,具有較強的可計算性和可操作性,已經(jīng)被廣泛地應(yīng)用于文本檢索、自動文摘、關(guān)鍵詞自動提取、文本分類和搜索引擎等信息檢索領(lǐng)域的各項應(yīng)用中,并且取得了較好的效果。為了便于解釋,下面給出一些向量空間模型中常用的概念。文獻(document:泛指各種機器可讀的記錄,可指一篇文章或一個網(wǎng)頁,也稱為文檔。項(term:亦稱索引項,是用來標(biāo)引被檢索內(nèi)容的關(guān)鍵詞等。例如,當(dāng)文獻或查詢的內(nèi)容被簡單地看作是由它所包含的基本語言單位(詞、短語等構(gòu)成的集合時,這些基本語言單位統(tǒng)稱為項。于是文獻和查詢
4、均可用由項構(gòu)成的向量來表示:d=(t1,t2,t n。項的權(quán)重(term weight:對于有n個不同的項的系統(tǒng),文獻D=(t1,t2,t n,項t k(1kn常常被賦予一個數(shù)值W k,表示它在文獻中的重要程度,稱為項t k的權(quán)重。因此,我們一般用D=(w1,w2,w n的形式表示文獻。特征項的權(quán)重計算,是人為賦予的,因此主觀性較強,但比較權(quán)威的確定權(quán)重的方法是運用TF-IDF公式,即W ik=tf ik/d f k=tf ik idf k,其中tf ik為特征項T k在文檔D i中的出現(xiàn)頻率,稱為項頻率(term frequency;df k則是文檔集D中出現(xiàn)特征項T k的文檔的數(shù)量,稱為文
5、檔頻率;idf k為d f k的倒數(shù),稱為反轉(zhuǎn)文檔頻率(inverted document freq uency。另外,還應(yīng)考慮到文檔的長度,否則長文檔易被檢出,而短文檔會被漏檢,所以通常還要對上面公式進行標(biāo)準(zhǔn)化處理。向量空間模型的基本思想是將所涉及的m個文獻中出現(xiàn)的所有特征詞構(gòu)成一個n維向量空間T(T1,T2,T n,其中n為特征詞的總個數(shù),對于每一個文獻i(i=1,2,m,定義向量P i =3W i1,W i2,L,W in4,其中W in表示特征詞T j在文檔i中的重要程度即權(quán)值。又對用戶提問所對應(yīng)的查詢表達式或用戶預(yù)先定義的模板文件(Profile定義向量Q j=(q1,q2,q n,
6、其中q j表示查詢詞T j在查詢表達式中的權(quán)值,這樣所有文獻和用戶提問都可以映射到向量空間T上,從而將文獻信息與用戶需求的匹配問題轉(zhuǎn)化為在向量空間中的向量匹配問題,通常用向量Q與P i之間夾角的余弦或內(nèi)積距離來度量被檢索文獻i與用戶興趣的相關(guān)度Sim(Q u,p u i,即Sim(Q u,p u i=cos(Q u,p u i=Q u,p u iQ u#p u i=E nj=1q j#W ijE nj=1q j2#E n j=1W ij2或Sim(D1,D2=E N k=1W1k#W2k 顯然相關(guān)度Sim(Qu,P u i在0,1上取值,當(dāng)兩向量夾角為0時相關(guān)度最高為1,表明該文獻和用戶是最相
7、關(guān)的。2基于向量空間模型的信息檢索系統(tǒng)的設(shè)計2.1系統(tǒng)設(shè)計思想從上面可看出基于向量空間模型的信息檢索系統(tǒng)的設(shè)計一般可以分成三個主要步驟:文獻標(biāo)引(Docu-ment Indexing、索引項權(quán)重確定(T erm Weighting和相似度測算(Similarity Coefficients。文獻標(biāo)引,是指從文檔中抽取出能表征文檔主要內(nèi)容特征和形式特征的標(biāo)引詞,以形成文檔的向量表示,包括源文檔和查詢提問的標(biāo)引,具體要解決怎么抽取特征向量和抽取多少的問題。項的選擇必須由處理速度、精度、存儲空間等方面的具體要求來決定,需要抽取多少維的特征項,目前沒有很好的解決方法,一般采用先定初始值,然后根據(jù)實驗測
8、試和統(tǒng)計結(jié)果確定最佳值,一般初始值定在幾千左右2。特征項選取#情報檢索#Jou rnal of Information No.7,2005作者簡介:包金龍,女,1981年生,碩士研究生。有幾個原則:一是應(yīng)當(dāng)選取包含語義信息較多,對文本的表示能力較強的語言單位作為特征項;二是文本在這些特征項上的分布應(yīng)當(dāng)有較為明顯的統(tǒng)計規(guī)律性,這樣將適用于信息檢索、文檔分類等應(yīng)用系統(tǒng);三是特征選取過程應(yīng)該容易實現(xiàn),其時間和空間復(fù)雜度都不太大。實際應(yīng)用中常常采用字、詞或短語作為特征項。因為中文是表意文字,不像英語容易處理,在操作中先要進行句子的切分、詞和短語的識別,而文檔的意義主要由實詞承擔(dān),所以又要劃分實詞和虛詞
9、,最后遴選特征詞。選取關(guān)鍵詞的方法通常有兩種:一種是語言分析的方法,采取排除法,對理解文檔內(nèi)容無用的一些虛詞、助詞和普通詞(區(qū)分度不高的詞建立停用詞表;另一種是數(shù)理統(tǒng)計的方法,根據(jù)語言學(xué)的研究成果實詞和虛詞的詞頻差異來區(qū)分實詞和虛詞。研究表明,簡單的關(guān)鍵詞選擇方法取得的效果幾乎和復(fù)雜的特征選擇方法一樣好。另外,為了保持索引項之間較高的獨立性,現(xiàn)在較為流行又很實用的ontolo-gy思想(ontology是對領(lǐng)域知識概念的抽象和描述,應(yīng)用于信息系統(tǒng)中可以構(gòu)造對象模型以及對象的關(guān)系和屬性3。在構(gòu)建知識系統(tǒng)的時候,它作為引導(dǎo)知識獲取的基礎(chǔ)或起點,可以提高系統(tǒng)的速度和可靠性4。在此可以有所作為:使用它
10、建立一個概念導(dǎo)航系統(tǒng),實現(xiàn)表達同一概念的索引詞的標(biāo)準(zhǔn)化,避免同義詞、近義詞重復(fù)建立向量的情況;通過對概念的組織,便于實現(xiàn)分類與聚類的功能。索引項權(quán)重的確定,包括標(biāo)引和檢索時索引項權(quán)重的確定,這往往要通過幾輪的反饋與調(diào)整的過程方能確定,在本模型中是采用一種較常用的T F-IDF公式5:W ik=(log(f ik+1.0log(N/n kE l k=1log(f ik+1.0log(N/n k2其中f ik是T k在D i中出現(xiàn)的頻率,N是整個文檔集包含的文檔數(shù),n k是整個文檔集中含T k的文檔數(shù),式中的因子log(N/n k就是idf。相似度測算即檢索查詢時通過查詢向量與文檔集向量的比較計算
11、,返回與查詢相關(guān)度較高的文檔,使文檔按相關(guān)度排序,并設(shè)有可選的閾值,當(dāng)返回文檔數(shù)目較多時,可以通過調(diào)整閾值的大小來確定文檔的返回量。在這里我們將采用余弦匹配函數(shù)計算文檔的相似度。Sim (d i,d j=E Mk=1W ikW ik (EMk=1W2ik(EMk=1W2j k其中前兩個步驟是系統(tǒng)實現(xiàn)時的關(guān)鍵,它實現(xiàn)的一般過程可用圖1表示:圖1在此把這兩步合稱為文檔向量化處理模塊。2.2系統(tǒng)的框架體系根據(jù)以上思路,現(xiàn)給出具體的基于向量的系統(tǒng)體系結(jié)構(gòu)模型如圖2:圖2基于向量的系統(tǒng)體系結(jié)構(gòu)模型信息源:模型中的信息源泛指一切信息源,包括Internet資源和一般的數(shù)據(jù)庫文獻等。如果面對的是網(wǎng)絡(luò)資源,就
12、要運用當(dāng)前搜索引擎中的Robert或Spider實現(xiàn)網(wǎng)絡(luò)信息的自動采集。文獻向量化處理:它既是連接外部信息源和內(nèi)部一次信息庫的中間環(huán)節(jié),實現(xiàn)了外部信息源初步描述即向量表征和索引,又是用戶的查詢接口,實現(xiàn)了從用戶的自然語言到系統(tǒng)能識別的檢索語言的過渡。一次信息庫:它是信息源經(jīng)向量化處理后的結(jié)果,是外部信息源在系統(tǒng)內(nèi)的初步映射,未做二次加工整理,表現(xiàn)為特征詞多且相關(guān)度高等,這在檢索處理的數(shù)據(jù)量較大時,就會體現(xiàn)出不足,如影響系統(tǒng)響應(yīng)時間和查全率、查準(zhǔn)率。分類、聚類處理:針對一次信息庫在檢索時的不足,提高系統(tǒng)響應(yīng)時間和檢索效果(查全率與查準(zhǔn)率,一般要對一次信息庫進行再次加工、處理提煉,這里進行聚類、分
13、類處理,基于向量模型的自動聚類、分類現(xiàn)在已有不少的算法可以實現(xiàn)6,7,我們可以根據(jù)實際需要選擇使用。二次信息庫:它是一次信息庫經(jīng)分類、聚類處理后的結(jié)果,是一個經(jīng)組織的系統(tǒng)化的知識體系,這樣可以更方便于用戶進行查詢處理,提高系統(tǒng)工作效率。檢索結(jié)果分類及評估:這是實現(xiàn)用戶個性化查詢比較重要的一步,它要能在普通查詢結(jié)果的基礎(chǔ)上,使用戶模型對結(jié)果進行過濾和排序,查詢結(jié)果要盡量滿足用戶的個人需要。2.3系統(tǒng)中所需的關(guān)鍵技術(shù)說,明確信息中出現(xiàn)的檢索詞的含義,是提高檢索準(zhǔn)確率、確定信息相關(guān)性的關(guān)鍵。為此,研究人員提出了詞的共現(xiàn)技術(shù),即若兩個有一定關(guān)聯(lián)的詞共同出現(xiàn)在某一篇文獻或者文獻的某一個部分,就可以非常容
14、易地確定其含義。4跨語言信息檢索系統(tǒng)簡介隨著跨語言信息檢索技術(shù)的發(fā)展,到目前為止,國外已經(jīng)涌現(xiàn)出不少成功的跨語言信息檢索系統(tǒng)。這些系統(tǒng)可分為兩類:示范性系統(tǒng)(Aport系統(tǒng)、Arctos系統(tǒng)、Eric系統(tǒng)、Mulinex系統(tǒng)、M udial系統(tǒng)等;實用性商業(yè)系統(tǒng)(Cindor系統(tǒng)、Rotondo系統(tǒng)、T extFinder系統(tǒng)等。a.Gindor系統(tǒng)。Gindor系統(tǒng)是MM IS公司的一個產(chǎn)品,它目前所支持的語言有英、法、德、意、日和西班牙語,而對于中文的支持正處于研究之中。該系統(tǒng)的特點是統(tǒng)一的字符編碼標(biāo)準(zhǔn)、自然語言檢索、查詢自動擴展、申請專利的跨語言檢索技術(shù)等。Gindor目前有3項核心技術(shù)
15、,即概念中間語言、語言分析、搜索管理。b.K eizai系統(tǒng)。Keizai是美國新墨西哥州立大學(xué)計算研究實驗室開發(fā)的一個系統(tǒng),它是一個跨語言的交互檢索和摘要系統(tǒng)。它使用了統(tǒng)一字符編碼檢索體系(USRA和交互文檔摘要方法(M IN DS。目前所提供的新聞源有英文、法文、德文、西班牙文、意大利文、中文、日文、韓文的新聞,支持以上幾種語言的跨語言翻譯和檢索,不過提問式只能是英文的。5結(jié)束語到目前為止,CL IR技術(shù)及系統(tǒng)基本上用于網(wǎng)絡(luò)(互聯(lián)網(wǎng)信息和多語種商業(yè)數(shù)據(jù)庫的信息檢索。由于該技術(shù)是正處于研究的新興技術(shù),實際的應(yīng)用還不是很多,因此其應(yīng)用領(lǐng)域還比較狹窄。隨著技術(shù)的逐步成熟,功能更加強大、支持更多語
16、種之間的相互翻譯、翻譯準(zhǔn)確性可媲美于人工翻譯的大型CL IR系統(tǒng)將會創(chuàng)建并投入實際使用。數(shù)字圖書館是一個龐大的信息系統(tǒng),它不僅涵蓋了包括數(shù)據(jù)庫、多媒體、網(wǎng)絡(luò)等多種高新技術(shù),而且還收集存儲了海量的信息資料。數(shù)字圖書館包含有世界各國的信息資料數(shù)據(jù),因此其信息資料庫是一個標(biāo)準(zhǔn)的多語種多媒體信息數(shù)據(jù)庫。早在國家/8630計劃中,我國就已經(jīng)開始重點研究數(shù)字圖書館中的多語種問題。隨著CLIR技術(shù)的進步,研究人員開始將CLIR技術(shù)應(yīng)用于數(shù)字圖書館以解決其多語種信息檢索問題。相信由于數(shù)字圖書館系統(tǒng)的信息資料豐富性和CL IR技術(shù)的先進性,兩者的結(jié)合必定會開創(chuàng)一個新的研究領(lǐng)域,取得意想不到的效果,使CL IR技
17、術(shù)有真正的用武之地,體現(xiàn)出CL IR技術(shù)實在的價值。參考文獻4B Kang Insu,Kwon Oh-Woog,Lee Jong-H yeok,Lee Geunbae.Cross-L an-guage Tex t Ret rieval by Query Translation Using T erm Rewei ghting.Interna-tional Journal of P attern Recogni t i on&Art i f i cial Intelli g e nce,2000;14(55B Fuj ii At sushi,Ishika wa T etsuya.Cros
18、s-Langua g e Inform ation Retrieval Based on Que ry Keyword T ra nsl at i on:An Internet Search Applic at i o n.Interna-tional Journal of Computer Pro c essing of Oriental L anguages,2000;13(16B Mic hos Stephanos,Stam atatos Efst athi os,Fakot akis Nikos.Support i ng Mult-i linguali ty in L i brary Autom ation Systems Using ai Tools.Applie d Artificia l In-telli g ence,1999;1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年平板紙令紙包裝輸送系統(tǒng)項目提案報告
- 商務(wù)茶藝教學(xué)課件
- 文庫發(fā)布:春說課課件
- 線上教學(xué)搶答課件
- 涂色教學(xué)課件圖片模板
- 敬畏生命班會課件
- 新媒體外包策劃活動方案
- 新店顧客活動方案
- 春天勞動實踐活動方案
- 無錫學(xué)生獨立活動方案
- 重慶市森林資源二類調(diào)查操作細則2012年
- 民航危險品運輸學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- IEC31010-2019風(fēng)險管理 風(fēng)險評估技術(shù)(雷澤佳譯-2024)
- 人民法院司法警察執(zhí)法資格考試題庫(500題)
- 新生兒黃疸的護理常規(guī)
- ISOIEC38507-2022信息技術(shù)-IT治理-組織使用人工智能的治理影響(中文版-雷澤佳譯2024)
- 國家開放大學(xué)本科《西方行政學(xué)說》期末紙質(zhì)考試總題庫珍藏版
- 2024年萊蕪市萊城區(qū)小升初素養(yǎng)數(shù)學(xué)檢測卷含解析
- DL∕T 1552-2016 變壓器油儲存管理導(dǎo)則
- 廣東省茂名市2023-2024學(xué)年八年級下學(xué)期期末語文試題
- 鐵路道砟買賣合同學(xué)習(xí)
評論
0/150
提交評論