情報檢索系統(tǒng)中的信息組織課件_第1頁
情報檢索系統(tǒng)中的信息組織課件_第2頁
情報檢索系統(tǒng)中的信息組織課件_第3頁
情報檢索系統(tǒng)中的信息組織課件_第4頁
情報檢索系統(tǒng)中的信息組織課件_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

情報檢索系統(tǒng)中的

信息組織情報檢索系統(tǒng)中的

信息組織1目標(biāo)情報檢索定義:信息單元的表示、存儲、組織和存取旨在滿足用戶的信息需求用戶的信息需求例如:找到關(guān)于姚明在休斯敦火箭隊(duì)的所有文獻(xiàn),包含(1)他與其他幾位中國球員的交往

或(2)他與女友的交往;重點(diǎn)在查找相關(guān)信息,而不是數(shù)據(jù)目標(biāo)情報檢索定義:信息單元的表示、存儲、組織和存取2數(shù)據(jù)檢索DataRetrieval文獻(xiàn)包含的關(guān)鍵詞是數(shù)據(jù)含義固定一點(diǎn)小錯誤會造成查找失敗情報檢索Informationretrieval關(guān)于一個主題或話題的信息含義常常比較寬松,有一定范圍允許一些錯誤,不影響查到相關(guān)內(nèi)容情報檢索系統(tǒng)IRsystem:對信息對象內(nèi)容的解釋排序反映了相關(guān)性相關(guān)性是最重要的概念數(shù)據(jù)檢索DataRetrieval3情報檢索時代的來臨情報檢索已不是圖書情報領(lǐng)域關(guān)心的課題,隨著萬維網(wǎng)的來臨,一躍成為受人關(guān)注的關(guān)鍵技術(shù)之一。情報檢索時代的來臨4基本模型用戶目標(biāo)檢索信息或數(shù)據(jù)有目的地瀏覽隨意沖浪F1;cars,LeMans,France,tourismRetrievalBrowsingDatabase基本模型用戶目標(biāo)RetrievalBrowsingDatab5基本概念文件的邏輯視圖數(shù)字化文本可以用全文進(jìn)行索引,而不必只取“關(guān)鍵詞”或“分類號”結(jié)構(gòu)分詞禁用詞名詞

詞組詞干/同義詞人工標(biāo)引文件結(jié)構(gòu)提取全文索引詞基本概念結(jié)構(gòu)分詞禁用詞名詞

詞組詞干/同義詞人工標(biāo)引文件結(jié)構(gòu)6用戶界面文本操作提問式操作標(biāo)引檢索排序索引文本提問用戶需求用戶反饋經(jīng)過排序文件獲取文件邏輯視圖邏輯視圖倒排檔數(shù)據(jù)庫管理模塊4,106,75828文本數(shù)據(jù)庫文本情報檢索流程用戶界面文本操作提問式操作標(biāo)引檢索排序索引文本提問用戶需求用7簡介情報檢索系統(tǒng)采用索引詞處理提問(匹配)索引詞:關(guān)鍵詞或者規(guī)范詞任意詞用到切分或截詞:connect:connecting,connection,connections倒排檔用于查檢操作簡介情報檢索系統(tǒng)采用索引詞處理提問(匹配)8Introduction文件信息需求索引詞文件提問排序匹配Introduction文件信息需求索引詞文件提問排序匹配9簡介排序是檢出文獻(xiàn)對于用戶提問的相關(guān)程度的順序以下原因造成問題:索引詞的匹配不太精確用戶常常會不滿足由于用戶沒有經(jīng)過提問式編寫的培訓(xùn),檢索效果會更糟Web上的情報檢索更是如此相關(guān)性的測度成為匹配與排序的關(guān)鍵問題簡介排序是檢出文獻(xiàn)對于用戶提問的相關(guān)程度的順序10情報檢索模型非重疊列表最近節(jié)點(diǎn)結(jié)構(gòu)化模型

檢索:

實(shí)際上是信息過濾瀏覽

用戶目的傳統(tǒng)模型

布爾模型矢量模型概率模型集合論

模糊理論

擴(kuò)展的布爾邏輯概率論

推理網(wǎng)絡(luò)

信任網(wǎng)絡(luò)代數(shù)論

普通矢量

語義索引神經(jīng)網(wǎng)絡(luò)瀏覽

平面結(jié)構(gòu)結(jié)構(gòu)指南超文本情報檢索模型非重疊列表結(jié)構(gòu)化模型檢索:瀏覽用戶目的傳11情報檢索模型情報檢索模型,文件的邏輯視圖,以及檢索任務(wù)是情報檢索的三個不同方面情報檢索模型情報檢索模型,文件的邏輯視圖,以及檢索任務(wù)是12經(jīng)典模型–基本概念每篇文獻(xiàn)用關(guān)鍵詞或索引詞來代表索引詞是特定文獻(xiàn)中有意義的或代表文獻(xiàn)主題的詞通常索引詞為名詞,因?yàn)橹挥忻~自身才有意義然而搜索引擎將所有詞都進(jìn)行索引,成為全文索引經(jīng)典模型–基本概念每篇文獻(xiàn)用關(guān)鍵詞或索引詞來代表13但是并不是所有詞對于特定文獻(xiàn)都具有相等的代表性:低頻詞更能區(qū)分文獻(xiàn)(具有更小的命中文獻(xiàn)集合)索引詞的重要性由賦予它的權(quán)重決定如

ki為一索引詞dj為一文獻(xiàn)

wij為(ki,dj)的權(quán)重權(quán)重wij

代表了索引詞ki在文獻(xiàn)dj中的重要性經(jīng)典模型–基本概念但是并不是所有詞對于特定文獻(xiàn)都具有相等的代表性:低頻詞更能區(qū)14ki為一索引詞dj為一文獻(xiàn)

t是檢索系統(tǒng)中文獻(xiàn)的總數(shù)K=(k1,k2,…,kt)索引詞集合wij>=0是與(ki,dj)相關(guān)的權(quán)重wij=0表示該詞不在某篇文獻(xiàn)dj中vec(dj)=(w1j,w2j,…,wtj)是關(guān)于文獻(xiàn)dj的權(quán)重矢量gi(vec(dj))=wijis是返回關(guān)于(ki,dj)權(quán)重的函數(shù)經(jīng)典模型–基本概念ki為一索引詞經(jīng)典模型–基本概念15數(shù)字圖書館中的情報檢索一般認(rèn)為數(shù)字圖書館是:數(shù)字對象的集合所構(gòu)成的資源庫;描述這些數(shù)字對象的元數(shù)據(jù)庫;實(shí)用這些數(shù)字對象的目標(biāo)用戶;提供各種服務(wù)(捕捉、標(biāo)引、編目、查詢、瀏覽、檢索、傳遞、存檔、長期保存等)的系統(tǒng)數(shù)字圖書館中的情報檢索一般認(rèn)為數(shù)字圖書館是:16

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論