版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、信 息 檢 索1圖6.1 信息檢索系統(tǒng)的體系結(jié)構(gòu) 潛在的相關(guān)信息信息組織和檢索系統(tǒng)規(guī)范化的疑問式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則主題索引規(guī)則辭典(包括詞匯表和索引語言)需求概述或疑問式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請求存貯2:信息的表示1、 信息檢索的基本原理2關(guān)于相關(guān)性 Saracevic認(rèn)為,一個研究領(lǐng)域的歷史實(shí)則上就是一些重要思想和理念的歷史。Information science自產(chǎn)生至20世紀(jì)90年代末期,孕育了三個重要的思想:信息檢索、相關(guān)性和交互性。信息檢索為信息處理過程提供了邏輯基礎(chǔ);相關(guān)性直接面向人類信息需求與評價過程;交互促成了
2、人機(jī)之間的交流與反饋。3 信息檢索的核心是用戶查詢行為與信息之間的相似性匹配。相關(guān)性是查尋表達(dá)式與文檔內(nèi)容的一致性,亦即文檔所涵蓋的內(nèi)容對查尋表達(dá)式的適合程度。 這一定義實(shí)際上包含3個基本假設(shè): 查尋表達(dá)式中的主題詞能夠描述用戶真實(shí)的信息需求; 賦予文檔的主題詞足以概括文檔包含的內(nèi)容; 檢索匹配的結(jié)果恰為用戶真實(shí)的情報需求相關(guān)的文檔集合。 關(guān)于相關(guān)性4關(guān)于相關(guān)性5四個階段 手工信息檢索階段 機(jī)械信息檢索階段 計算機(jī)信息檢索階段網(wǎng)絡(luò)信息檢索階段2、信息檢索的發(fā)展歷程6手工信息檢索階段 正規(guī)的參考咨詢工作是由美國的公共圖書館和大專院校圖書館于19世紀(jì)下半葉首先發(fā)展起來的。“參考咨詢工作”產(chǎn)生的標(biāo)志
3、是1876年召開的美國圖書館協(xié)會第一屆大會。1883年,波士頓公共圖書館首次設(shè)置了專職參考館員和參考閱覽室;20世紀(jì)初,多數(shù)圖書館成立了參考咨詢部門,主要利用圖書館的書目工具來幫助讀者查找圖書、期刊或現(xiàn)成答案。逐漸發(fā)展到從多種文獻(xiàn)源中查找、分析、評價和重新組織信息;“索引”突破了以前的狹隘范疇,成為獨(dú)立的檢索工具;40年代進(jìn)一步包括回答事實(shí)性咨詢,編制書目、文摘,進(jìn)行專題文獻(xiàn)檢索,提供文獻(xiàn)代譯等。“信息檢索”從此成為一項(xiàng)獨(dú)立的用戶服務(wù)工作,并逐漸從單純的經(jīng)驗(yàn)工作向?qū)I(yè)化方向發(fā)展。 7機(jī)械信息檢索兩種基本類型機(jī)電信息檢索系統(tǒng)光電信息檢索系統(tǒng) 機(jī)械信息檢索并沒有發(fā)展信息檢索語言,只是采用單一的方法
4、對固定的存貯形式進(jìn)行檢索,而且過分依賴于設(shè)備,檢索復(fù)雜,成本較高,檢索效率和質(zhì)量都不理想。 機(jī)械信息檢索階段 8計算機(jī)信息檢索系統(tǒng)三個階段:1971年以前建立的信息檢索系統(tǒng),是傳統(tǒng)的批處理檢索方式。 1971年以后,產(chǎn)生并發(fā)展的聯(lián)機(jī)信息檢索系統(tǒng),如OCLC、Dialog在線數(shù)據(jù)庫聯(lián)機(jī)檢索系統(tǒng)。 20世紀(jì)90年代以來,產(chǎn)生并發(fā)展的網(wǎng)絡(luò)信息檢索階段。 9網(wǎng)絡(luò)信息檢索: 以互聯(lián)網(wǎng)的出現(xiàn)為標(biāo)志,信息資源分布無序,難于規(guī)范化和結(jié)構(gòu)化,用戶界面要求高,體系結(jié)構(gòu)從終端主機(jī)方式發(fā)展到客戶/服務(wù)器結(jié)構(gòu)方式 搜索引擎、網(wǎng)絡(luò)數(shù)據(jù)庫等為代表103、信息檢索技術(shù) 信息檢索是一個具有濃重技術(shù)性色彩的研究領(lǐng)域,其技術(shù)經(jīng)歷了
5、快速而巨大的演變和進(jìn)步:檢索對象:結(jié)構(gòu)化書目信息無結(jié)構(gòu)化或半結(jié)構(gòu)化全文文本多媒體信息信息組織方式:傳統(tǒng)的線性文本組織超文本/超媒體組織檢索匹配技術(shù):關(guān)鍵詞(字面)匹配基于概念匹配概念語義匹配與推理檢索方式:手工檢索計算機(jī)化聯(lián)機(jī)實(shí)時網(wǎng)絡(luò)檢索環(huán)境:單機(jī)網(wǎng)絡(luò)平臺,集中網(wǎng)絡(luò)分布式網(wǎng)絡(luò)113.1 定性檢索技術(shù) 定性檢索技術(shù)主要指以布爾檢索為基礎(chǔ)和核心,包含截詞檢索、位置檢索、字段檢索等在內(nèi)的一類檢索技術(shù)。 定性檢索技術(shù)主要建立并實(shí)現(xiàn)在經(jīng)典的布爾邏輯模型理論基礎(chǔ)上,不僅適用于傳統(tǒng)的文本信息檢索,而且在當(dāng)前的非文本檢索領(lǐng)域,也有較為廣泛的應(yīng)用123.1 定性檢索技術(shù)3.1.1 布爾檢索布爾邏輯運(yùn)算符: 與(
6、and / *)、或(or / +)、非(not / -)A and B(A*B): 同時含有A、B這兩個檢索詞才能被命中A or B(AB): 只要含有其中一個檢索詞或同時含有兩個檢索詞都將被命中A not B(AB): 含有檢索詞A但不含有檢索詞B才能被命中133.1 定性檢索技術(shù)3.1.2 截詞檢索 在檢索時使用詞的一個局部(某些位置上的字符被截去)進(jìn)行檢索匹配。需要使用專門的截詞符,以制定截詞的具體位置和截斷字符的數(shù)量 右截詞:comput* 左截詞:*magnetic 中間截詞:sul?ur141516173.1 定性檢索技術(shù)3.1.3 位置檢索 位置檢索是一種增強(qiáng)的“邏輯與”檢索。
7、按照各檢索詞之間應(yīng)滿足的位置關(guān)系要求的不同,可以有多種不同類型的位置檢索鄰近檢索: (nW),n是125之間的整數(shù) 中國(5W)大學(xué)同句檢索、同字段檢索:要求多個檢索詞在同一自然段或同一字段中出現(xiàn)183.1 定性檢索技術(shù)3.1.4 字段檢索 字段檢索屬于限制檢索技術(shù)的一種,目的是為了提 高查準(zhǔn)率 例如:標(biāo)題、關(guān)鍵詞、文摘、分類號、作者、發(fā)表 時間等193.2 量化檢索技術(shù)聚類檢索 主要基于文獻(xiàn)聚類文檔來進(jìn)行,針對系統(tǒng)中全部文獻(xiàn)向量,使用一定的相似性(或相異性)度量指標(biāo)聚類方法,計算出文獻(xiàn)與文獻(xiàn)之間的相似度,并把相似度較高的文獻(xiàn)聚集在一起,生成文獻(xiàn)的聚類文檔 進(jìn)行聚類檢索時,首先將用戶的檢索問題
8、形成為與文獻(xiàn)向量等長的提問向量;然后將提問向量與聚類文檔中各文獻(xiàn)類的類向量進(jìn)行相似度計算,確定與提問最相關(guān)的文獻(xiàn)類;最后,在最相關(guān)的文獻(xiàn)類中,將提問向量與其包含的文獻(xiàn)逐篇比較匹配,將相似度大于閾值的文獻(xiàn)排序輸出20212223243.3 概念檢索技術(shù) 概念檢索指的是檢索結(jié)果可能包含與檢索詞同義或近義的內(nèi)容,但不一定包含檢索詞。 如:輸入“電腦”,結(jié)果: 輸入“西紅柿”,結(jié)果: 概念檢索的基礎(chǔ)是檢索系統(tǒng)有一個包含同義詞、近義詞、廣義詞、狹義詞和相關(guān)詞等語義關(guān)系的詞庫25 信息檢索策略是指在分析信息提問實(shí)質(zhì)的基礎(chǔ)上,確定檢索途徑與檢索用詞,并且明確詞與詞之間邏輯關(guān)系與查找步驟的科學(xué)安排 檢索策略考
9、慮的主要有兩個因素: 查全率 查準(zhǔn)率4 信息檢索策略26 信息檢索策略是指在分析信息提問實(shí)質(zhì)的基礎(chǔ)上,確定檢索途徑與檢索用詞,并且明確詞與詞之間邏輯關(guān)系與查找步驟的科學(xué)安排 檢索策略考慮的主要有兩個因素: 查全率 查準(zhǔn)率5 檢索效果評價27檢索效率是指全、準(zhǔn)、快、便、省(檢全率、檢準(zhǔn)率、檢索速度、檢索方便性、檢索成本與效益),最主要的是全和準(zhǔn)。在評價信息檢索效率過程中,主要通過查全率、查準(zhǔn)率、漏檢率和誤檢率四個評價指標(biāo)進(jìn)行評價,其中重點(diǎn)是查全率和查準(zhǔn)率。 5 信息檢索效率的評價28查全率是指系統(tǒng)在進(jìn)行某一檢索時,檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫中相關(guān)文獻(xiàn)總量的比率,它反映該系統(tǒng)文獻(xiàn)庫中實(shí)有的相關(guān)文
10、獻(xiàn)量在多大程度上被檢索出來查全率(檢出的相關(guān)文獻(xiàn)量/文獻(xiàn)庫內(nèi)相關(guān)文獻(xiàn)總量)1005 信息檢索效率的評價29影響查全率的因素信息收集和加工的角度來看,包括:文獻(xiàn)庫收錄文獻(xiàn)不全;索引詞匯缺乏控制和專指性;詞表結(jié)構(gòu)不完整;詞間關(guān)系模糊或不正確;標(biāo)引不詳;標(biāo)引前后不一致;標(biāo)引人員遺漏了原文的重要概念或用詞不當(dāng)從檢索方面來看,包括:檢索策略過于簡單;選詞和進(jìn)行邏輯組配不當(dāng);檢索途徑和方法太少;檢索系統(tǒng)不具備截詞功能和反饋功能,檢索時不能全面描述檢索要求等5 信息檢索效率的評價30查準(zhǔn)率是指系統(tǒng)在進(jìn)行某一檢索時,檢出的相關(guān)文獻(xiàn)量與檢出的文獻(xiàn)總量的比率,它反映該系統(tǒng)文獻(xiàn)庫中實(shí)際檢出的全部文獻(xiàn)中有多少是相關(guān)的
11、 查準(zhǔn)率(檢出的相關(guān)文獻(xiàn)量/檢出文獻(xiàn)總量)1005 信息檢索效率的評價31影響查準(zhǔn)率的因素信息收集和加工的角度來看,包括:索引詞不能準(zhǔn)確描述文獻(xiàn)主題和檢索要求;組配規(guī)則不嚴(yán)密;選詞及詞間關(guān)系不正確;標(biāo)引過于詳盡;組配錯誤從檢索方面來看,包括:檢索詞專指度不夠,檢索面寬于檢索要求;檢索系統(tǒng)不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數(shù)量有限;截詞部位不當(dāng),檢索式中使用邏輯“或”不當(dāng)?shù)? 信息檢索效率的評價32圖6.2 檢全率與檢準(zhǔn)率的互逆相互曲線 1008040601008040202060檢全率 R檢準(zhǔn)率 P336.1 搜索引擎的發(fā)展階段第一代:根據(jù)詞頻搜索的原理開發(fā)第二代: “超鏈分
12、析”技術(shù)第三代:以競價排名商業(yè)模式為特征下一代:社區(qū)化搜索 “知識共享社區(qū)搜索引擎”6 搜索引擎346.2 搜索引擎技術(shù)網(wǎng)絡(luò)信息自動采集技術(shù):robot/spider搜索結(jié)果排序技術(shù) 基于web網(wǎng)頁內(nèi)容特征 基于網(wǎng)頁鏈接結(jié)構(gòu) 基于用戶信息需求與需求行為 基于關(guān)鍵詞競價排名6 搜索引擎35 主要考慮用戶所查詢的關(guān)鍵詞在結(jié)果網(wǎng)頁中的出現(xiàn)頻率和出現(xiàn)位置等因素,并以此來評價命中網(wǎng)頁與用戶查詢請求之間的相關(guān)度大小,作為排序依據(jù)基于web內(nèi)容特征的排序技術(shù)網(wǎng)頁關(guān)鍵詞的出現(xiàn)位置排序權(quán)重第一、第二標(biāo)題5第一段的第一句話5相近關(guān)鍵詞(多重關(guān)鍵詞)4句首關(guān)鍵詞1.5以黑體或斜體出現(xiàn)的關(guān)鍵詞1文章內(nèi)容1主題屬性1高
13、亮標(biāo)簽0.5描述標(biāo)記0.5關(guān)鍵詞標(biāo)記0.0536 最早出現(xiàn)在1998年,主要根據(jù)網(wǎng)頁被鏈接或被引用的情況來判斷頁面信息的權(quán)威性和質(zhì)量,以此來優(yōu)化對搜索結(jié)果的排序,如Google中的PageRank算法基于網(wǎng)頁鏈接結(jié)構(gòu)的排序技術(shù)3738 搜索引擎通過將關(guān)鍵詞拍賣,讓網(wǎng)站或網(wǎng)頁所有者對其價格進(jìn)行競爭的辦法來產(chǎn)生搜索結(jié)果的排序基于關(guān)鍵詞競價的排名396.3 元搜索引擎 元搜索引擎(metasearch engine)是將用戶提交的檢索請求到多個獨(dú)立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、
14、個性搜索功能的設(shè)置和用戶檢索界面的友好性上,查全率和查準(zhǔn)率都比較高。目前比較成功的元搜索引擎有metacrawler、dopile、ixquick等。406.3 元搜索引擎 成員搜索引擎的選擇 提問式轉(zhuǎn)換 結(jié)果信息的選擇與融合 檢索結(jié)果的整合 去重,重新排序,結(jié)果聚類顯示41424344 Grasps the meaning of your content AdSense can deliver relevant ads because Google understands the meaning of a web page. Weve refined our technology, and
15、it keeps getting smarter all the time. For example, words can have several different meanings, depending on context. Google technology grasps these distinctions, so you get more targeted ads. 4546 Show only appropriate ads Googles ad review process ensures that the ads you serve are not only family-
16、friendly, but also comply with our strict editorial guidelines. We combine sensitive language filters, your input, and a team of linguists with good hard common sense to automatically filter out ads that may be inappropriate for your content. Whats more, you can block competitive ads and choose your own default ads. Its your show from start to finish. 47Competitive FilterEnables you to filter out specific competitorsor specific advertisers Contextual FilterEliminate delivery of ads
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海市重點(diǎn)建設(shè)項(xiàng)目社會穩(wěn)定風(fēng)險評估報告編制指南
- 四年級數(shù)學(xué)(上)計算題專項(xiàng)練習(xí)及答案匯編
- 海島雷達(dá)塔玻璃鋼接閃桿 耐腐蝕玻璃纖維燈桿監(jiān)控桿 場變放電避雷針
- 釀酒制酒知識培訓(xùn)課件
- 春節(jié)汽車市場解析
- 2025版建筑工程施工現(xiàn)場環(huán)境保護(hù)資金投入保障合同3篇
- 中國衛(wèi)星網(wǎng)絡(luò)集團(tuán)有限公司介紹
- 二零二五年度房產(chǎn)交易資金監(jiān)管居間合同3篇
- 從《西游記》到《黑神話:悟空》:孫悟空的游戲形象變遷與跨媒介敘事
- 以愛之名反對歧視
- 暖通工程合同
- 生產(chǎn)型企業(yè)規(guī)章管理制度(3篇)
- 鋼結(jié)構(gòu)之樓承板施工方案流程
- 2024年?duì)I銷部工作人員安全生產(chǎn)責(zé)任制(2篇)
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實(shí)踐指導(dǎo)材料之3:4組織環(huán)境-4.1理解組織及其環(huán)境(雷澤佳編制-2025B0)
- 2024-2030年中國管道檢測工程行業(yè)前景分析發(fā)展規(guī)劃研究報告
- 新的護(hù)理交班模式
- 2024年安徽省高校分類對口招生考試數(shù)學(xué)試卷真題
- 2024電影數(shù)字節(jié)目管理中心招聘歷年高頻難、易錯點(diǎn)練習(xí)500題附帶答案詳解
- 棋牌室消防應(yīng)急預(yù)案
- 《ISO56001-2024創(chuàng)新管理體系 - 要求》之22:“8運(yùn)行-8.2 創(chuàng)新行動”解讀和應(yīng)用指導(dǎo)材料(雷澤佳編制-2024)
評論
0/150
提交評論