6信息檢索匯總_第1頁
6信息檢索匯總_第2頁
6信息檢索匯總_第3頁
6信息檢索匯總_第4頁
6信息檢索匯總_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、信息管理學(xué)信息管理學(xué) 王二威2022年4月13日第二部分:信息資源采集利用第二部分:信息資源采集利用第4章 信息獲取第5章 信息組織第6章 信息檢索案例:專利信息的采集與利用6.1 概述 信息組織信息組織是指按照一定的規(guī)則來描述信息資源是指按照一定的規(guī)則來描述信息資源 或信息對象,以便于能被需要它們的人高效地或信息對象,以便于能被需要它們的人高效地利用。利用。 信息檢索信息檢索則是指為了個人或他人的需要,去發(fā)則是指為了個人或他人的需要,去發(fā)現(xiàn)適當(dāng)?shù)男畔①Y源或信息對象。現(xiàn)適當(dāng)?shù)男畔①Y源或信息對象。 信息組織和信息檢索是信息組織和信息檢索是一對互逆過程一對互逆過程。 什么是信息檢索 信息檢索(信息

2、檢索(Information Retrieval,IR)就是從數(shù)據(jù)源中)就是從數(shù)據(jù)源中找到滿足需求的信息的過程。找到滿足需求的信息的過程。 傳統(tǒng)信息檢索傳統(tǒng)信息檢索v根據(jù)筆畫從字典中查找某字的讀音和意思根據(jù)筆畫從字典中查找某字的讀音和意思v從三國演義中查找貂蟬出場的章節(jié)和地點從三國演義中查找貂蟬出場的章節(jié)和地點v從概率論中查找貝葉斯公式等等從概率論中查找貝葉斯公式等等 電子信息電子信息時代時代 的信息檢索的信息檢索v從手機(jī)通信錄中查找某條短信v從電子詞典中查找某單詞的例句v從某個網(wǎng)頁中查找某關(guān)鍵字出現(xiàn)的地方v從數(shù)據(jù)庫中查詢滿足檢索條件的記錄v本書重點要討論的信息檢索: 信息檢索是信息用戶為處理

3、解決各種問題而查信息檢索是信息用戶為處理解決各種問題而查找、識別、獲取相關(guān)的事實、數(shù)據(jù)、知識的活找、識別、獲取相關(guān)的事實、數(shù)據(jù)、知識的活動及過程。動及過程。 廣義:信息的存儲與檢索廣義:信息的存儲與檢索 狹義:檢索狹義:檢索 本質(zhì):用戶的信息需求與一定信息集合的匹配本質(zhì):用戶的信息需求與一定信息集合的匹配,潛在的相關(guān)信息是信息檢索系統(tǒng)輸出的結(jié)果,潛在的相關(guān)信息是信息檢索系統(tǒng)輸出的結(jié)果。6.1 概述 滿足信息用戶的信息需求而建立的、存貯經(jīng)過滿足信息用戶的信息需求而建立的、存貯經(jīng)過加工了的信息集合,擁有特定的存貯、檢索與加工了的信息集合,擁有特定的存貯、檢索與傳送的技術(shù)裝備,提供一定存貯與檢索方法

4、及傳送的技術(shù)裝備,提供一定存貯與檢索方法及檢索服務(wù)功能的一種相對獨立的服務(wù)實體檢索服務(wù)功能的一種相對獨立的服務(wù)實體(包包括人和檢索工作單位括人和檢索工作單位),統(tǒng)稱為信息檢索系統(tǒng),統(tǒng)稱為信息檢索系統(tǒng)(Information Retrieval System,簡稱簡稱IRS)。 信息檢索系統(tǒng)的三個基本要素信息檢索系統(tǒng)的三個基本要素:人、檢索工具人、檢索工具(包括設(shè)備包括設(shè)備)和信息資料和信息資料圖圖6.1 6.1 信息檢索系統(tǒng)的體系結(jié)構(gòu)信息檢索系統(tǒng)的體系結(jié)構(gòu) 潛在的相關(guān)信息信息組織和檢索系統(tǒng)規(guī)范化的疑問式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則主題索引規(guī)則辭典(包括詞匯表

5、和索引語言)需求概述或疑問式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請求存貯2:信息的表示 6.1.2 類型類型 文獻(xiàn)檢索文獻(xiàn)檢索 數(shù)據(jù)檢索:比較分析、定量分析數(shù)據(jù)檢索:比較分析、定量分析 事實檢索事實檢索 文本檢索文本檢索 數(shù)值檢索數(shù)值檢索 音視頻檢索音視頻檢索 1.文獻(xiàn)信息檢索(文獻(xiàn)信息檢索(Document Retrieval) 利用二次信息查找事物的信息及信息出處,檢索結(jié)果是文獻(xiàn)信息?!霸O(shè)計人行天橋的參考文獻(xiàn)有哪些?” 2.數(shù)據(jù)信息檢索(數(shù)據(jù)信息檢索(Data Retrieval) 利用檢索工具(工具書、數(shù)據(jù)庫)檢索文獻(xiàn)中的數(shù)據(jù)、公式等。檢索結(jié)果是數(shù)據(jù), 23456韓元=?$ 3.

6、事實信息檢索(事實信息檢索(Fact Retrieval) 利用檢索工具從存儲事實的信息系統(tǒng)中查找出特定的事實。檢索結(jié)果是事實,“中國最古老的橋?”6.1 概述 6.1.2 類型類型 全文檢索全文檢索 多媒體檢索多媒體檢索 超媒體檢索超媒體檢索檢索對象:從文本到多媒體檢索 信息檢索的應(yīng)用包含了帶有結(jié)構(gòu)的多媒體文檔、有意義的文本內(nèi)容和其他媒體 常見的信息媒體包括圖片、視頻、音頻(包括音樂和語音) 當(dāng)前搜索非文本文檔的技術(shù)依賴于對這些內(nèi)容的文本描述,而不是這些媒體自身的內(nèi)容。對媒體內(nèi)容的直接比較技術(shù)正在不斷進(jìn)步,例如圖片的比較 TinEye 相似圖片搜索引擎(加拿大)相似圖片搜索引擎(加拿大) 過

7、濾:顏色、模式、形狀、過濾:顏色、模式、形狀、face 人立方:人物關(guān)系搜索引擎人立方:人物關(guān)系搜索引擎 R 關(guān)系可能性關(guān)系可能性 六度分割理論六度分割理論 搜索華爾茲。搜索華爾茲。按照規(guī)模分類 第一個級別是以 Web 搜索(搜索(web search)為代表的大規(guī)模級別,此時需要處理存儲在數(shù)百萬臺計算機(jī)上的數(shù)十億篇文檔:v如何采集到這種規(guī)模的文檔?v如何在這種大規(guī)模數(shù)據(jù)量的情況下建立高效運(yùn)行的系統(tǒng)?v如何應(yīng)對Web 特性所帶來的特殊問題(比如欺騙)? 第二個級別是小規(guī)模,第二個級別是小規(guī)模,個人信息檢索個人信息檢索(personal information retrieval):v操作系統(tǒng)中

8、已經(jīng)融合操作系統(tǒng)中已經(jīng)融合的的信息檢索的功能信息檢索的功能v桌面搜索桌面搜索(desktop search)v郵件程序中郵件程序中的的搜索功能搜索功能、分類分類 問題:問題:v如何處理個人計算機(jī)上各種格式的文檔?如何處理個人計算機(jī)上各種格式的文檔?v如何保證搜索系統(tǒng)的免維護(hù)?如何保證搜索系統(tǒng)的免維護(hù)?v如何在啟動搜索系統(tǒng)、處理信息和使用磁盤時保持簡單且占如何在啟動搜索系統(tǒng)、處理信息和使用磁盤時保持簡單且占用的系統(tǒng)資源足夠少而不至于對用戶的正常工作造成影響?用的系統(tǒng)資源足夠少而不至于對用戶的正常工作造成影響? 介于第一種大規(guī)模和第二種小規(guī)模之間的信息檢索主要面對的是中等規(guī)模的數(shù)據(jù),包括面向企業(yè)、

9、機(jī)構(gòu)和特定領(lǐng)域的搜索(domain-specific search):v公司內(nèi)部文檔v專利庫或生物醫(yī)學(xué)文獻(xiàn)v學(xué)術(shù)論文的搜索 這種情況下,文檔往往存儲在集中的文件系統(tǒng)中,由一臺或者多臺計算機(jī)提供搜索服務(wù)標(biāo)引標(biāo)引檢索檢索輸出輸出存儲存儲過程過程一次一次信息信息信息信息特征特征檢檢索索語語言言信息特信息特征標(biāo)識征標(biāo)識信信息息檢檢索索工工具具檢檢索索結(jié)結(jié)果果檢索檢索過程過程檢索檢索課題課題檢索檢索提問提問檢索提檢索提問標(biāo)識問標(biāo)識分析分析分析分析標(biāo)引標(biāo)引輸入輸入信息檢索原理信息檢索原理信息資源集合信息資源集合信息需求集合信息需求集合匹配匹配6.1.4 信息檢索的模型 20世紀(jì)世紀(jì)60-70年代年代v布爾

10、模型布爾模型v向量空間模型向量空間模型v概率模型概率模型v模糊檢索模型模糊檢索模型 20世紀(jì)世紀(jì)90年代后年代后v搜索引擎搜索引擎 商業(yè)性文獻(xiàn)數(shù)據(jù)庫的主流模型商業(yè)性文獻(xiàn)數(shù)據(jù)庫的主流模型 與查詢條件相關(guān)或無關(guān)與查詢條件相關(guān)或無關(guān) 查詢結(jié)果不進(jìn)行排序查詢結(jié)果不進(jìn)行排序 計算事物之間相似度的通用方法計算事物之間相似度的通用方法 多維空間,向量相似度多維空間,向量相似度 查詢向量查詢向量 文檔向量文檔向量 相似性相似性6.2 信息檢索的發(fā)展歷程 四個階段 手工信息檢索階段 機(jī)械信息檢索階段 計算機(jī)信息檢索階段 網(wǎng)絡(luò)信息檢索階段6.2 信息檢索的發(fā)展歷程 手工階段 正規(guī)的參考咨詢工作是由美國的公共圖書館

11、和大專院校圖書館于19世紀(jì)下半葉首先發(fā)展起來的?!皡⒖甲稍児ぷ鳌碑a(chǎn)生的標(biāo)志是1876年召開的美國圖書館協(xié)會第一屆大會。1883年,波士頓公共圖書館首次設(shè)置了專職參考館員和參考閱覽室; 20世紀(jì)初,多數(shù)圖書館成立了參考咨詢部門,主要利用圖書館的書目工具來幫助讀者查找圖書、期刊或現(xiàn)成答案。逐漸發(fā)展到從多種文獻(xiàn)源中查找、分析、評價和重新組織信息;“索引”突破了以前的狹隘范疇,成為獨立的檢索工具; 40年代進(jìn)一步包括回答事實性咨詢,編制書目、文摘,進(jìn)行專題文獻(xiàn)檢索,提供文獻(xiàn)代譯等?!靶畔z索”從此成為一項獨立的用戶服務(wù)工作,并逐漸從單純的經(jīng)驗工作向?qū)I(yè)化方向發(fā)展。 6.2 信息檢索的發(fā)展歷程 機(jī)械檢索

12、階段 機(jī)械信息檢索兩種基本類型v機(jī)電信息檢索系統(tǒng)v光電信息檢索系統(tǒng) 機(jī)械信息檢索并沒有發(fā)展信息檢索語言,只是采用單一的方法對固定的存貯形式進(jìn)行檢索,而且過分依賴于設(shè)備,檢索復(fù)雜,成本較高,檢索效率和質(zhì)量都不理想。 6.2 信息檢索的發(fā)展歷程 計算機(jī)檢索階段 1971年以前建立的信息檢索系統(tǒng),是傳統(tǒng)的批處理檢索方式。 1971年以后,產(chǎn)生并發(fā)展的聯(lián)機(jī)信息檢索系統(tǒng),如OCLC、Dialog在線數(shù)據(jù)庫聯(lián)機(jī)檢索系統(tǒng)。 20世紀(jì)90年代以來,產(chǎn)生并發(fā)展的網(wǎng)絡(luò)信息檢索階段。 機(jī)讀數(shù)據(jù)庫成為檢索對象; 專業(yè)檢索向個人終端轉(zhuǎn)移。搜索引擎的鼻祖:Archie 1990年由Montreal的McGill Univ

13、ersity(麥吉爾大學(xué))學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie(Archie FAQ) 實際上是一個可搜索的FTP文件名列表現(xiàn)代搜索引擎的起源:Wanderer 1993年MIT 的學(xué)生Matthew Gray開發(fā)了World Wide Web Wanderer,它是世界上第一個利用網(wǎng)頁之間的鏈接關(guān)系來監(jiān)測Web發(fā)展規(guī)模的機(jī)器人(Robot)程序。 最開始只是用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,之后發(fā)展為也能捕獲網(wǎng)址。Yahoo 1994.4美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo完成了一套搜索軟件。 最初Yahoo的

14、數(shù)據(jù)是手工輸入的,實際上只是一個可搜索的目錄。 1995年1月,正式成立Yahoo網(wǎng)站 第一個現(xiàn)代意義上的搜索引擎:Lycos 1994.7 Carnegie Mellon University 的Michael Mauldin 將 John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了Lycos. 提供了前綴匹配和字符相近限制、網(wǎng)頁自動摘要、數(shù)據(jù)量相對較大。Infoseek 1994年底,Infoseek推出,沿襲Yahoo!和Lycos的概念。 友善的用戶界面、大量附加服務(wù)使其后來者居上。 1995.12與Netscape的戰(zhàn)略性協(xié)議使它變得很強(qiáng)勢 2001年2月,Infoseek改

15、用Overture的搜索結(jié)果第一個元搜索引擎: Metacrawler 元搜索引擎(A Meta Search Engine Roundup)。v用戶提交搜索后,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。 第一個元搜索引擎,是Washington大學(xué)碩士生 Eric Selberg 和 Oren Etzioni開發(fā)的 Metacrawler(1995)。第一個支持自然語言搜索的搜索引擎: AltaVista 1995年12月出現(xiàn)(AltaVista Public Beta Press Release )。 A

16、ltaVista是第一個支持自然語言搜索的搜索引擎。 2003年AltaVista被Overture收購,后者是Yahoo的子公司。搜索引擎的后來之王:Google 1995年,佩奇來到斯坦福讀博士,開始網(wǎng)絡(luò)鏈接結(jié)構(gòu)方面的研究項目BackRub。 之后,他和布林提出了PageRank技術(shù),用于對網(wǎng)頁評級 之后用于搜索引擎,改寫了搜索引擎的定義,建立了Google。搜索引擎的后來之王:Google Google在斯坦福引起了人們的關(guān)注。 佩奇開始準(zhǔn)備出售該技術(shù),但是沒有成功。 Sun公司創(chuàng)始人的投資,隨后成立公司。 2000年和Yahoo合作,一飛沖天。 2004年7月上市,市值250億,增長速

17、度超過微軟。Google之特點 專注、進(jìn)取、樸素、低調(diào)、神話般的創(chuàng)業(yè)故事中文搜索引擎老大:百度 2000.1李彥宏創(chuàng)立了百度。 2001.8發(fā)布百度測試版。 目前是最大的中文搜索引擎 MP3搜索特色百度的特點 專注于技術(shù)專注于技術(shù) 專注于中文搜索專注于中文搜索6.3 檢索工具檢索工具一、檢索工具定義一、檢索工具定義 1. 用來揭示、存儲和查找信息的工具用來揭示、存儲和查找信息的工具 主要指手工檢索工具主要指手工檢索工具2. 檢索系統(tǒng):檢索系統(tǒng): 檢索設(shè)備檢索設(shè)備+ +載體載體+ +信息構(gòu)成的信息服務(wù)系統(tǒng)信息構(gòu)成的信息服務(wù)系統(tǒng)6.3 檢索工具檢索工具二、檢索工具類型二、檢索工具類型 l 目錄目錄

18、(Catalogue)1.綜合性目錄: 2.專題目錄: 3.館藏目錄: 4.聯(lián)合目錄: l目錄款目以各學(xué)科門類的圖書或報刊文獻(xiàn)為揭示對象的目錄,如中國期刊目錄揭示與報道某一特定學(xué)科、某一研究方向或課題的圖書報刊文獻(xiàn)目錄揭示一個圖書情報機(jī)構(gòu)收藏圖書報刊情況的目錄,如:上海圖書館館藏中文報紙目錄揭示地區(qū)、系統(tǒng)或全國的圖書文獻(xiàn)機(jī)構(gòu)文獻(xiàn)收藏情況的目錄,如全國中文期刊聯(lián)合目錄U464.176WPL 汽車風(fēng)冷發(fā)動機(jī)的構(gòu)造原理 / 王平利,張虹主編. 2版.北京:高等教育出版社,2004.1 242頁:插圖;16開 ISBN 7-04-012789-X:22元館藏目錄款目格式館藏目錄款目格式6.3 檢索工具

19、檢索工具二、檢索工具類型二、檢索工具類型 l 索引索引(Index) Ewen-Smith, B. M. 23777 Ewing, M. 20974, 20976 Excell, P. S. 22613 Ezekiel, S. 01352 Faber, M. T. 20820 Fabjan, C. W. 05177 索引款目著錄格式索引款目著錄格式6.3 檢索工具檢索工具二、檢索工具類型二、檢索工具類型 l文摘文摘(Abstract) 對一份文獻(xiàn)的內(nèi)容所進(jìn)行的簡略而準(zhǔn)確的描述,即內(nèi)容摘要目錄目錄反映文獻(xiàn)的外部特征文摘文摘反映文獻(xiàn)的內(nèi)部特征 提供文獻(xiàn)內(nèi)容梗概,不加評論和補(bǔ)充解釋,4個要素: 研究

20、目的、方法、結(jié)研究目的、方法、結(jié)果、結(jié)論果、結(jié)論6.3 檢索工具檢索工具二、檢索工具類型二、檢索工具類型 分類法主題法科學(xué)文摘 化學(xué)文摘 新華文摘是人民出版社主辦的是一個大型的綜合性、學(xué)術(shù)性、資料性的文摘半月刊,其選登文章代表了諸領(lǐng)域的前沿思想。 1979年,在時任人民出版社副社長范用的大力支持下,新華月報文摘版創(chuàng)刊,1981年更名為新華文摘,2004年改版為半月刊,1999年1月起出版大字本新華文摘。 中國人民大學(xué) 復(fù)印報刊資料 該庫收錄從95年至今100多個專題的全文復(fù)印資料,所有全文都是由100多位專家、教授從國內(nèi)公開出版的3000余種核心報刊中精選出來的,其門類覆蓋了全部社會科學(xué)和人文

21、科學(xué)領(lǐng)域,能夠代表學(xué)科研究前沿狀況,具有很高的學(xué)術(shù)價值和應(yīng)用價值,為用戶所認(rèn)可的優(yōu)秀數(shù)據(jù)庫。前情回顧 信息檢索:信息檢索:用戶的信息需求與一定信息集合的匹配,用戶的信息需求與一定信息集合的匹配,潛在的相關(guān)信息是信息檢索系統(tǒng)輸出的結(jié)果潛在的相關(guān)信息是信息檢索系統(tǒng)輸出的結(jié)果 滿足信息用戶的信息需求而建立的、存貯經(jīng)過加工了滿足信息用戶的信息需求而建立的、存貯經(jīng)過加工了的信息集合,擁有特定的存貯、檢索與傳送的技術(shù)裝的信息集合,擁有特定的存貯、檢索與傳送的技術(shù)裝備,提供一定存貯與檢索方法及檢索服務(wù)功能的一種備,提供一定存貯與檢索方法及檢索服務(wù)功能的一種相對獨立的服務(wù)實體相對獨立的服務(wù)實體(包括人和檢索工

22、作單位包括人和檢索工作單位),統(tǒng)稱為,統(tǒng)稱為信息檢索系統(tǒng)信息檢索系統(tǒng)(Information Retrieval System,簡稱簡稱IRS)。圖圖6.1 6.1 信息檢索系統(tǒng)的體系結(jié)構(gòu)信息檢索系統(tǒng)的體系結(jié)構(gòu) 潛在的相關(guān)信息信息組織和檢索系統(tǒng)規(guī)范化的疑問式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則主題索引規(guī)則辭典(包括詞匯表和索引語言)需求概述或疑問式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請求存貯2:信息的表示6.3 檢索工具檢索工具二、檢索工具類型二、檢索工具類型 分類法主題法科學(xué)文摘 化學(xué)文摘信息檢索系統(tǒng)6.4 信息檢索的步驟與策略 分析檢索課題 選擇檢索工具

23、 選擇檢索途徑,確定檢索標(biāo)識 選擇檢索方法 獲取原始文獻(xiàn)6.4 信息檢索的步驟與策略 分析檢索課題v1.分析主題內(nèi)容: 學(xué)科范圍,關(guān)鍵問題;決定主題詞和關(guān)鍵詞v2.分析時間范圍: 最新進(jìn)展/專利-近/遠(yuǎn)v3.分析信息類型: 期刊/專著/會議論文/專利/標(biāo)準(zhǔn)文獻(xiàn)/科技報告6.4 信息檢索的步驟與策略 選擇檢索工具 選擇檢索途徑,確定檢索標(biāo)識v1.選擇檢索途徑v分類途徑;主題途徑;題名途徑;著者途徑;信息代碼途徑v2. 確定檢索標(biāo)識v1) 采用主題詞做檢索標(biāo)識時,應(yīng)考慮該詞的同義詞,近義詞,如互聯(lián)網(wǎng)/英特網(wǎng)v2) 根據(jù)檢索課題要求,選取恰當(dāng)?shù)臋z索標(biāo)識,適度確定其范圍的大小信息檢索步驟信息檢索步驟分

24、析檢索課題分析檢索課題1.主題內(nèi)容2.時間范圍3.信息類型4.檢索語種主主題題概概念念確定檢索途徑確定檢索途徑1.分類途徑2.主題途徑3.題名途徑4.著者途徑5.其它途徑選擇檢索方法選擇檢索方法1.常規(guī)法2.追溯法3.交替法信信息息線線索索確定一次信息出處確定一次信息出處1.縮寫還原為全稱2.音譯轉(zhuǎn)換成原名3.信息類型選擇檢索工具選擇檢索工具1.館藏目錄2.圖書館信息檢索系統(tǒng)獲獲取取一一次次信信息息選擇檢索工具選擇檢索工具1.索引2.文摘 信息檢索策略信息檢索策略 信息檢索策略是針對檢索提問、運(yùn)用檢索方法和技信息檢索策略是針對檢索提問、運(yùn)用檢索方法和技術(shù)而設(shè)計的信息檢索方案,其目的是要達(dá)到一定

25、的術(shù)而設(shè)計的信息檢索方案,其目的是要達(dá)到一定的檢準(zhǔn)率和檢全率檢準(zhǔn)率和檢全率。 信息檢索策略信息檢索策略 目前在以下三方面取得進(jìn)展: (1)以檢全為目標(biāo)的檢索策略的調(diào)節(jié)與控制; (2)以檢準(zhǔn)為目標(biāo)的檢索策略的調(diào)節(jié)與控制; (3)以最小投入為目標(biāo)的檢索策略的調(diào)節(jié)與控制。 對特定系統(tǒng)、特定數(shù)據(jù)以及某一類型課題的檢索策略的研究具體表現(xiàn)在以下兩方面: (1)是某一系統(tǒng)、某一數(shù)據(jù)庫檢索策略; (2)是某一類型課題檢索策略。信息檢索效率的評價 檢索效率是指全、準(zhǔn)、快、便、省(檢全率、檢準(zhǔn)率、檢索速度、檢索方便性、檢索成本與效益),最主要的是全和準(zhǔn)。 在評價信息檢索效率過程中,主要通過檢全率、檢準(zhǔn)率、漏檢率和

26、誤檢率四個評價指標(biāo)進(jìn)行評價,其中重點是檢全率和檢準(zhǔn)率。 信息檢索效率的評價 檢全率R(Recall Ratio):檢出能力的指標(biāo)v檢出相關(guān)文獻(xiàn)/相關(guān)文獻(xiàn)總量=a/(a+b) 檢準(zhǔn)率P (Precision Ratio):檢索精度v檢出相關(guān)文獻(xiàn)/檢出文獻(xiàn)總量=a/(a+c)相關(guān)文獻(xiàn)相關(guān)文獻(xiàn)非相關(guān)文獻(xiàn)非相關(guān)文獻(xiàn)總計總計被檢出文獻(xiàn)被檢出文獻(xiàn)aca+c未檢出文獻(xiàn)未檢出文獻(xiàn)bdb+d總計總計a+bc+da+b+c+d信息檢索效率的評價 漏檢率O(Omission Ratio):檢出能力的指標(biāo)v未檢出相關(guān)文獻(xiàn)/相關(guān)文獻(xiàn)總量=b/(a+b) 誤檢率E (Error Ratio)v檢出非相關(guān)文獻(xiàn)/檢出文獻(xiàn)總量

27、=c/(a+c)相關(guān)文獻(xiàn)相關(guān)文獻(xiàn)非相關(guān)文獻(xiàn)非相關(guān)文獻(xiàn)總計總計被檢出文獻(xiàn)被檢出文獻(xiàn)aca+c未檢出文獻(xiàn)未檢出文獻(xiàn)bdb+d總計總計a+bc+da+b+c+d6.5 搜索引擎 搜索引擎是信息檢索技術(shù)在大規(guī)模文本集合上搜索引擎是信息檢索技術(shù)在大規(guī)模文本集合上的實際應(yīng)用。的實際應(yīng)用。 “搜索引擎搜索引擎”一詞原來是指為文本搜索服務(wù)的一詞原來是指為文本搜索服務(wù)的特殊的硬件。特殊的硬件。 從從20世紀(jì)世紀(jì)80年代中期開始,在描述用來比較查年代中期開始,在描述用來比較查詢和文檔并生成文檔排序結(jié)果的軟件系統(tǒng)時,詢和文檔并生成文檔排序結(jié)果的軟件系統(tǒng)時,逐漸更多地使用逐漸更多地使用“搜索引擎搜索引擎”一詞,而不是

28、一詞,而不是“信息檢索系統(tǒng)信息檢索系統(tǒng)”或者或者“全文檢索系統(tǒng)全文檢索系統(tǒng)”。6.5 搜索引擎 網(wǎng)絡(luò)搜索引擎網(wǎng)絡(luò)搜索引擎,比如,比如Yahoo,必須能夠捕獲,或者說,必須能夠捕獲,或者說爬取爬取(crawl)TB級的數(shù)據(jù),并對每天收到的全世界數(shù)以級的數(shù)據(jù),并對每天收到的全世界數(shù)以百萬計的查詢提供亞秒級的響應(yīng)時間。百萬計的查詢提供亞秒級的響應(yīng)時間。 企業(yè)搜索引擎企業(yè)搜索引擎,比如,比如Autonomy,必須能夠處理一個公,必須能夠處理一個公司內(nèi)部不同類型的信息源,使用與公司有關(guān)的特殊知司內(nèi)部不同類型的信息源,使用與公司有關(guān)的特殊知識作為搜索和相關(guān)任務(wù)識作為搜索和相關(guān)任務(wù)(如數(shù)據(jù)挖掘如數(shù)據(jù)挖掘(d

29、ata mining)的一的一部分。數(shù)據(jù)挖掘指從數(shù)據(jù)中自動發(fā)現(xiàn)有趣的結(jié)構(gòu),也部分。數(shù)據(jù)挖掘指從數(shù)據(jù)中自動發(fā)現(xiàn)有趣的結(jié)構(gòu),也包括聚類包括聚類(clustering)技術(shù)。技術(shù)。 桌面搜索引擎桌面搜索引擎,比如,比如google和百度的桌面搜索引擎,和百度的桌面搜索引擎,必須能夠在人們制作和瀏覽新文檔、網(wǎng)頁和郵件時快必須能夠在人們制作和瀏覽新文檔、網(wǎng)頁和郵件時快速地合并,同時提供非常直觀的界面來搜索這些非常速地合并,同時提供非常直觀的界面來搜索這些非常異質(zhì)的混合信息。異質(zhì)的混合信息。6.5 搜索引擎 搜索引擎設(shè)計中的重要問題包括了信息檢索中搜索引擎設(shè)計中的重要問題包括了信息檢索中的各種問題:有效的

30、排序算法、評價及用戶交的各種問題:有效的排序算法、評價及用戶交互?;?。 大規(guī)模數(shù)據(jù)給搜索引擎帶來了其他許多難題大規(guī)模數(shù)據(jù)給搜索引擎帶來了其他許多難題, 首要問題是搜索引擎的性能首要問題是搜索引擎的性能:v響應(yīng)時間響應(yīng)時間(response time)v查詢吞吐量查詢吞吐量(query throughput)v索引速度索引速度(indexing speed)。6.5 搜索引擎 搜索要處理動態(tài)持續(xù)變化的信息。另一個重要搜索要處理動態(tài)持續(xù)變化的信息。另一個重要的性能指標(biāo)是把新數(shù)據(jù)合并到索引中的速度。的性能指標(biāo)是把新數(shù)據(jù)合并到索引中的速度。v覆蓋率覆蓋率( coverage)衡量現(xiàn)存信息(比如在一衡量

31、現(xiàn)存信息(比如在一個企業(yè)信息環(huán)境中)有多少被索引和存儲在個企業(yè)信息環(huán)境中)有多少被索引和存儲在搜索引擎中。搜索引擎中。v新近性新近性(recency)或時新性或時新性(freshness)衡量所衡量所存信息的年齡存信息的年齡(age)。6.5 搜索引擎 Web搜索引擎搜索引擎v不僅在規(guī)模上史無前例,而且其創(chuàng)建過程中協(xié)調(diào)機(jī)制的缺乏也是空前的vWeb參與者的背景和動機(jī)的多樣性同樣也是空前的 以上的每一個因素都使得 Web 搜索有別于傳統(tǒng)的文檔搜索。6.5 搜索引擎 Web搜索引擎搜索引擎6.5 搜索引擎 Web搜索引擎搜索引擎Web 到底有多大? 到到 1995 年底,年底,Altavista聲稱

32、它采集并索引了大概聲稱它采集并索引了大概三千萬個靜態(tài)網(wǎng)頁。三千萬個靜態(tài)網(wǎng)頁。 動態(tài)頁面(動態(tài)頁面(dynamic page)通常是由應(yīng)用服務(wù)器應(yīng))通常是由應(yīng)用服務(wù)器應(yīng)答數(shù)據(jù)庫的查詢需求時產(chǎn)生的。這種頁面的一個答數(shù)據(jù)庫的查詢需求時產(chǎn)生的。這種頁面的一個標(biāo)志是標(biāo)志是URL 中通常包含字符中通常包含字符“?”。 在在 1995 年時,由于大家相信每過幾個月靜態(tài)頁面年時,由于大家相信每過幾個月靜態(tài)頁面的數(shù)目就會翻番,所以早期的包括的數(shù)目就會翻番,所以早期的包括 Altavista 在內(nèi)在內(nèi)的的 Web 搜索引擎必須要經(jīng)常增加硬件和帶寬來采搜索引擎必須要經(jīng)常增加硬件和帶寬來采集和索引網(wǎng)頁。集和索引網(wǎng)頁。

33、Web圖 我們可以將整個靜態(tài)我們可以將整個靜態(tài) Web 看成是靜態(tài)看成是靜態(tài) HTML 網(wǎng)頁通過超網(wǎng)頁通過超鏈接互相連接而成的有向圖,鏈接互相連接而成的有向圖,其其中每個網(wǎng)頁是圖的頂點,中每個網(wǎng)頁是圖的頂點,而每個超鏈接則代表一個有向邊。而每個超鏈接則代表一個有向邊。 一個網(wǎng)頁的入鏈接數(shù)目被稱為這個網(wǎng)頁的入度(in-degree),在一系列研究中得到的。作弊網(wǎng)頁 Web 搜索引擎顯然是連接廣告商和顧客的一種重要途徑搜索引擎顯然是連接廣告商和顧客的一種重要途徑! 例如:例如:用戶在搜索用戶在搜索“Chicago golf real estate”時,他想時,他想做的不僅僅是搜索有關(guān)做的不僅僅是搜

34、索有關(guān) Chicago的的高爾夫球場地產(chǎn)的新聞高爾夫球場地產(chǎn)的新聞或者娛樂信息,而且很可能要尋找并購買這樣的地產(chǎn)?;蛘邐蕵沸畔?,而且很可能要尋找并購買這樣的地產(chǎn)。: 即通過操作網(wǎng)頁內(nèi)容即通過操作網(wǎng)頁內(nèi)容來達(dá)到在某些關(guān)鍵詞的搜索結(jié)果中排名較高的目的。來達(dá)到在某些關(guān)鍵詞的搜索結(jié)果中排名較高的目的。 為了避免用戶對這些冗余和重復(fù)信息的極度反感,一些老為了避免用戶對這些冗余和重復(fù)信息的極度反感,一些老練的作弊者還會采用一些手段和技巧,比如將這些重復(fù)的練的作弊者還會采用一些手段和技巧,比如將這些重復(fù)的詞設(shè)置成和背景一樣的顏色。詞設(shè)置成和背景一樣的顏色。偽裝 作弊者也發(fā)展出了更多的作弊技術(shù)。一種技術(shù)被稱為

35、橋頁包含了精心挑選的文字和元信息,通過這些信息能夠針對某些選定的搜索關(guān)鍵詞來提高排名。當(dāng)某個瀏覽器請求訪問橋頁時,它會重定向到一個更具商業(yè)性的網(wǎng)頁。 更復(fù)雜的作弊技術(shù)還包括及指向等。回目錄 由于作弊的根源來自經(jīng)濟(jì)利益的驅(qū)動,因此涌現(xiàn)了一個被稱為 ,搜索引擎優(yōu)化)的產(chǎn)業(yè)。 這些 SEO 能逐漸推斷出每個 Web 搜索引擎排名算法的特性,而搜索引擎公司則會不斷做出應(yīng)對,他們之間的斗爭將永不停止。(adversarial information retrieval)。為了對抗作弊者通過操作網(wǎng)頁內(nèi)容進(jìn)行作弊的做法,人們開發(fā)出了一種利用 Web 中鏈接結(jié)構(gòu)的被稱為的方法。 最早大規(guī)模使用鏈接分析方法的搜

36、索引擎是Google。6.5 搜索引擎 獨立搜素引擎獨立搜素引擎v搜索引擎的架構(gòu)為搜索引擎提供組成部分并定義各搜索引擎的架構(gòu)為搜索引擎提供組成部分并定義各個組件關(guān)系的高層描述。搜索引擎的兩個主要目標(biāo)個組件關(guān)系的高層描述。搜索引擎的兩個主要目標(biāo)是:是:- 效果:對于用戶的的查詢,返回最準(zhǔn)確的相關(guān)性效果:對于用戶的的查詢,返回最準(zhǔn)確的相關(guān)性排序文檔。排序文檔。- 效率:盡可能快速的返回滿足用戶的查詢的檢索效率:盡可能快速的返回滿足用戶的查詢的檢索結(jié)果。結(jié)果。v為了提供準(zhǔn)確的效果,搜索引擎對網(wǎng)頁和日志等內(nèi)為了提供準(zhǔn)確的效果,搜索引擎對網(wǎng)頁和日志等內(nèi)容進(jìn)行深入的加工和處理;為了高效率的服務(wù),搜容進(jìn)行深

37、入的加工和處理;為了高效率的服務(wù),搜索引擎采用特殊的數(shù)據(jù)結(jié)構(gòu)和緩存技術(shù)索引擎采用特殊的數(shù)據(jù)結(jié)構(gòu)和緩存技術(shù). 元搜索引擎元搜索引擎6.5 搜索引擎索引組件6.5 搜索引擎查詢處理組件6.5 搜索引擎索引組件6.5 搜索引擎 文本采集組件用于發(fā)現(xiàn)文檔。文本采集組件用于發(fā)現(xiàn)文檔。 文本采集通常通過爬行(文本采集通常通過爬行(crawing),建立檢索的),建立檢索的文檔集合、元數(shù)據(jù)(文檔集合、元數(shù)據(jù)(metadata)庫。)庫。 元數(shù)據(jù)不表示文檔的文本內(nèi)容,但是表示關(guān)于一元數(shù)據(jù)不表示文檔的文本內(nèi)容,但是表示關(guān)于一篇文檔的信息。如文檔類型、文檔結(jié)構(gòu)、來源、篇文檔的信息。如文檔類型、文檔結(jié)構(gòu)、來源、日期

38、、長度等信息。日期、長度等信息。 爬蟲爬蟲 信息推送信息推送 文本轉(zhuǎn)換文本轉(zhuǎn)換 文檔數(shù)據(jù)庫文檔數(shù)據(jù)庫 6.5 搜索引擎 為快速生成摘要以及分析任務(wù),有必要在搜索引為快速生成摘要以及分析任務(wù),有必要在搜索引擎本地保存原始文檔的副本。擎本地保存原始文檔的副本。 文檔數(shù)據(jù)庫管理的數(shù)據(jù)包括非結(jié)構(gòu)化的文檔內(nèi)容文檔數(shù)據(jù)庫管理的數(shù)據(jù)包括非結(jié)構(gòu)化的文檔內(nèi)容和結(jié)構(gòu)化的元數(shù)據(jù)。和結(jié)構(gòu)化的元數(shù)據(jù)。 小規(guī)模的文檔集,可以采用關(guān)系數(shù)據(jù)庫存儲這些小規(guī)模的文檔集,可以采用關(guān)系數(shù)據(jù)庫存儲這些文檔和元數(shù)據(jù)。文檔和元數(shù)據(jù)。 大規(guī)模的場景中,通常采用專門設(shè)計的文檔數(shù)據(jù)大規(guī)模的場景中,通常采用專門設(shè)計的文檔數(shù)據(jù)庫,存儲大規(guī)模的文檔數(shù)

39、據(jù)庫,并提供高速的內(nèi)庫,存儲大規(guī)模的文檔數(shù)據(jù)庫,并提供高速的內(nèi)容存取。容存取。6.5 搜索引擎 文檔格式解析文檔格式解析 詞素切分詞素切分 去除停用詞去除停用詞 詞干提取詞干提取 超鏈接的抽取與分析超鏈接的抽取與分析 信息抽取信息抽取 文本分類器文本分類器6.5 搜索引擎 索引項索引項v文本轉(zhuǎn)換組件將文檔轉(zhuǎn)化為索引項(文本轉(zhuǎn)換組件將文檔轉(zhuǎn)化為索引項(index term)或者)或者“特征特征”(feature)。)。v最簡單的索引項是一個英語單詞或者一個漢語最簡單的索引項是一個英語單詞或者一個漢語字。字。 文檔統(tǒng)計文檔統(tǒng)計v文檔統(tǒng)計組件匯總和記錄詞、特征及文檔的統(tǒng)文檔統(tǒng)計組件匯總和記錄詞、特征及文檔的統(tǒng)計信息。排序組件使用該信息來計算文檔的分計信息。排序組件使用該信息來計算文檔的分值。值。 權(quán)重計算權(quán)重計算 倒排索引倒排索引 索引分派索引分派6.5 搜索引擎索引項索引項文檔統(tǒng)計文檔統(tǒng)計權(quán)重計算權(quán)重計算v索引項的權(quán)值(索引項的權(quán)值(weight)反映了文檔中詞的相對重要性)反映了文檔中詞的相對重要性,并且用于為排序計算分值。,并且用于為排序計算分值。v加權(quán)組件利用文檔統(tǒng)計結(jié)果計算權(quán)值,并將權(quán)值存儲在加權(quán)組件利用文檔統(tǒng)計結(jié)果計算權(quán)值,并將權(quán)值存儲在查找

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論