計算機基礎(chǔ)信息檢索演示_第1頁
計算機基礎(chǔ)信息檢索演示_第2頁
計算機基礎(chǔ)信息檢索演示_第3頁
計算機基礎(chǔ)信息檢索演示_第4頁
計算機基礎(chǔ)信息檢索演示_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

計算機基礎(chǔ)信息檢索ppt課件當前1頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.1信息檢索的概念7.1信息檢索概述當前2頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.1信息檢索的概念信息檢索包括兩個層次的含義:廣義的信息檢索和狹義的信息檢索。廣義的信息檢索包括信息的存儲和查找兩個過程,如圖7.1所示的全部過程就是廣義的信息檢索。信息的存儲就是將大量無序的文獻信息進行搜集、整理、歸類,采用規(guī)范的方法進行編排,編制出各種檢索系統(tǒng)。信息查找必須先有信息存儲,而信息存儲就是為了更快捷地查找信息。信息查找則是信息存儲的逆向過程,是人們根據(jù)特定需要,運用已有的檢索系統(tǒng),有序查詢并找出符合要求的信息。狹義的信息檢索是指信息的查找過程,只包括圖7.1中的后半部分,本書中討論的信息檢索就是狹義的信息檢索。7.1信息檢索概述當前3頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.2信息檢索的類型1.根據(jù)檢索對象劃分根據(jù)檢索對象的不同,信息檢索分為文獻檢索、事實檢索和數(shù)據(jù)檢索三種。(1)文獻檢索。文獻檢索以文獻為檢索對象,查找含有用戶所需信息的文獻。文獻檢索是一種相關(guān)性檢索而非確定性檢索,系統(tǒng)不直接回答用戶所提出的問題本身,它提供的是與用戶信息需求相關(guān)文獻的線索或原文。(2)事實檢索。事實檢索以特定的事實為檢索對象,是存儲有關(guān)課題(如機構(gòu)、人物等)的指示性描述,或關(guān)于某一事件發(fā)生的時間、地點、經(jīng)過等信息,并將其查找出來的檢索,屬于確定性檢索。(3)數(shù)據(jù)檢索。數(shù)據(jù)檢索以數(shù)據(jù)為檢索對象,屬于確定性檢索,它是將經(jīng)過選擇、整理、鑒定的數(shù)據(jù)存入數(shù)據(jù)庫中,根據(jù)需要查出可回答某一問題的數(shù)據(jù)的檢索。例如,查找公式、數(shù)據(jù)、圖表、成分、性能等都屬于數(shù)據(jù)檢索的范疇。7.1信息檢索概述當前4頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.2信息檢索的類型2.按檢索方式劃分按檢索方式的不同,信息檢索可以分為手工檢索、機械檢索和計算機檢索三種方式。(1)手工檢索。手工檢索就是以人工的方式直接查找所需的信息,多利用各種檢索工具的印刷版來實現(xiàn),例如印刷的目錄、題錄、文摘、索引等。手工檢索直觀,不需要輔助設(shè)備,但速度慢、漏檢嚴重。(2)機械檢索。機械檢索也稱機電式檢索,是指運用打孔機、分類機及光電感應(yīng)設(shè)備等進行的檢索。機械檢索過分依賴設(shè)備,成本較高,檢索效果和質(zhì)量都不太理想。(3)計算機檢索。計算機信息檢索是將大量的文獻資料或數(shù)據(jù)進行加工整理,按一定格式存儲在數(shù)據(jù)庫中,利用計算機對數(shù)據(jù)庫進行檢索的信息檢索方式。與手工檢索相比,計算機檢索速度快、效率高、查全率高、不受時空限制、檢索結(jié)果輸出方式多樣。除上述兩種主要的分類方式外,信息檢索還有另外多種分類方式。例如按照檢索對象的信息組織方式可以分為全文檢索、超文本檢索和超媒體檢索;按照檢索對象的形式可分為文本檢索和多媒體檢索;按照檢索要求可分為強相關(guān)檢索和弱相關(guān)檢索;按檢索的時間跨度可分為定題檢索和回溯檢索。7.1信息檢索概述當前5頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.3信息檢索模型1.布爾檢索模型布爾檢索模型是基于集合論和布爾代數(shù)的一種簡單檢索模型。由于集合是一個相當直觀的概念,所以布爾檢索模型為信息檢索系統(tǒng)的普通用戶提供了一種易于掌握的框架。在布爾檢索模型中,查詢被描述為具有精確語義的布爾表達式。因為該模型的簡單性和易于表示的形式方法,在很長一段時間內(nèi)都受到重視。然而,布爾檢索模型的缺點也是相當明顯的。首先,該模型的檢索策略是基于二值決策準則,即一個文檔只被判別為相關(guān)的或無關(guān)的,而沒有任何等級變化,難以提高檢索性能,因此布爾檢索模型主要用于實現(xiàn)數(shù)據(jù)檢索模型,而不是信息檢索模型;其次,這種方法將構(gòu)造一個合適的查詢的責任推到用戶身上,用戶必須詳細規(guī)劃自己的查詢,其復雜程度不亞于編寫程序,普通用戶無法用布爾表達式描述他們的查詢請求。于是一些研究人員改進了布爾模型,提出了向量空間模型。7.1信息檢索概述當前6頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.3信息檢索模型2.向量空間模型向量空間模型是一種基于代數(shù)理論的檢索模型。在向量空間模型中,一個文檔被描述成由一系列關(guān)鍵詞組成的向量,每一個關(guān)鍵詞都是這個向量空間中的一維。同樣道理,來自用戶的查詢也可以用向量來表示。當進行一個查詢時,向量空間模型將計算查詢和文檔表示之間的相似度,例如可以用兩個向量之間的歐氏距離或兩個向量之間的余弦夾角表示二者之間的相似度,然后對檢出的文檔按照相似度進行降序排列,以實現(xiàn)文檔與查詢項的部分匹配,于是查詢結(jié)果集中文檔的排列順序要合理的多。與布爾檢索模型相比,向量空間模型改善了檢索性能,其部分匹配的策略允許所檢索的文檔與查詢條件相近似,同時還能夠按照文檔與查詢的相似度對文檔進行排序。但在向量空間模型中,各索引項之間是互相獨立的,無法對文檔中的索引項提供相關(guān)性信息,而在實際中,需要考慮各索引項之間的相關(guān)性才能得到滿意的查詢結(jié)果。向量空間模型適合一般的文檔集的相似性排序,通過查詢擴展或相關(guān)反饋,可以改善模型產(chǎn)生的結(jié)果集。向量空間模型與其他檢索模型相比較,即使不是最優(yōu)的,其性能也相當好的,因此該模型是目前普遍采用的信息檢索模型。7.1信息檢索概述當前7頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.3信息檢索模型3.概率檢索模型概率檢索模型是一種基于概率論的檢索模型,試圖在一個概率框架內(nèi)處理信息檢索問題。概率檢索模型假設(shè)給定一個用戶的查詢,則有一個只包含相關(guān)文檔且不包含無關(guān)文檔的理想結(jié)果集,如果能夠給出這個理想結(jié)果集的描述,檢索文檔時就十分方便了。最初我們并不能精確給出理想結(jié)果集,但猜測允許我們產(chǎn)生一個初步的對理想結(jié)果集的概率描述,用于檢索出初始的文檔集,然后引入用戶的交互,以改善理想結(jié)果集的概率描述。用戶瀏覽檢索出文檔,并決定哪些文檔是相關(guān)的,哪些是無關(guān)的。然后信息檢索系統(tǒng)利用這個信息,修改理想結(jié)果集的描述。通過多次重復這個過程,不斷修改描述并逐步接近理想結(jié)果集的真實描述。從理論上講,概率檢索模型檢出的文檔將按照相關(guān)的概率降序排列,這符合我們的查詢要求。但在該模型中,需要最初將文檔分為相關(guān)的和無關(guān)的兩個集合,并且與向量空間模型一樣,各索引項之間是獨立的,無法對文檔中的索引項提供相關(guān)性信息。7.1信息檢索概述當前8頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.4信息檢索效果的評價檢索效果(RetrievalEffectiveness)是指用戶利用檢索系統(tǒng)實施檢索的有效程度,也是某次檢索滿足用戶信息需求的程度,它直接反映了檢索系統(tǒng)的性能和本次檢索的成敗。判定信息檢索效果的主要標準包括查全率、查準率、漏查率、誤查率等。1.查全率查全率(RecallRatio)又稱檢全率,是指用戶進行某次檢索時,系統(tǒng)檢索出的所有信息量與檢索系統(tǒng)中相關(guān)信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述當前9頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.4信息檢索效果的評價2.查準率查準率(PrecisionRatio)又稱檢準率,是指用戶進行某次檢索時,系統(tǒng)檢索出的符合課題需要的相關(guān)信息量與檢索出的信息總量的比率,具體可用下面的公式表示:3.漏查率漏查率(OmissionRatio)又稱漏檢率,是指用戶進行某次檢索時,系統(tǒng)未檢索出的相關(guān)信息量與檢索系統(tǒng)中相關(guān)信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述當前10頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.1.4信息檢索效果的評價4.誤查率誤查率(MissRatio)又稱誤檢率,是指用戶進行某次檢索時,系統(tǒng)檢索出的不相關(guān)信息量與檢索出的信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述當前11頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法1.網(wǎng)絡(luò)瀏覽網(wǎng)絡(luò)瀏覽是Internet上發(fā)現(xiàn)和檢索信息的最原始方法。在日常的網(wǎng)絡(luò)閱讀中,人們都有過意外發(fā)現(xiàn)有用信息的體驗,尤其是網(wǎng)頁中提供的超鏈接,使用戶可以在Internet中“順鏈而行”,從一個網(wǎng)頁轉(zhuǎn)到另一個網(wǎng)頁。追蹤某個網(wǎng)頁的相關(guān)鏈接有些類似于傳統(tǒng)文獻檢索中的“追溯檢索”,即根據(jù)文獻后所附的參考文獻追溯相關(guān)文獻,一輪一輪地不斷擴大范圍。這種方式可以在很短時間內(nèi)獲得大量相關(guān)信息,但也可能會偏離檢索目標,因此搜索的結(jié)果可能帶有某種偶然性和片面性。嚴格地說,網(wǎng)絡(luò)瀏覽并不是一種真正的網(wǎng)絡(luò)信息檢索方法。當我們在網(wǎng)絡(luò)瀏覽中發(fā)現(xiàn)有價值的信息后,應(yīng)及時收藏這些信息頁面,為今后的使用提供方便。7.2Internet網(wǎng)絡(luò)信息檢索當前12頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法1.網(wǎng)絡(luò)瀏覽網(wǎng)絡(luò)瀏覽是Internet上發(fā)現(xiàn)和檢索信息的最原始方法。在日常的網(wǎng)絡(luò)閱讀中,人們都有過意外發(fā)現(xiàn)有用信息的體驗,尤其是網(wǎng)頁中提供的超鏈接,使用戶可以在Internet中“順鏈而行”,從一個網(wǎng)頁轉(zhuǎn)到另一個網(wǎng)頁。追蹤某個網(wǎng)頁的相關(guān)鏈接有些類似于傳統(tǒng)文獻檢索中的“追溯檢索”,即根據(jù)文獻后所附的參考文獻追溯相關(guān)文獻,一輪一輪地不斷擴大范圍。這種方式可以在很短時間內(nèi)獲得大量相關(guān)信息,但也可能會偏離檢索目標,因此搜索的結(jié)果可能帶有某種偶然性和片面性。嚴格地說,網(wǎng)絡(luò)瀏覽并不是一種真正的網(wǎng)絡(luò)信息檢索方法。當我們在網(wǎng)絡(luò)瀏覽中發(fā)現(xiàn)有價值的信息后,應(yīng)及時收藏這些信息頁面,為今后的使用提供方便。7.2Internet網(wǎng)絡(luò)信息檢索當前13頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法2.使用搜索引擎檢索信息搜索引擎作為主要的Internet網(wǎng)絡(luò)信息檢索工具,能夠向用戶提供關(guān)鍵詞、詞組或自然語言檢索,在網(wǎng)絡(luò)信息檢索中具有重要的地位。在進行信息檢索時,由戶提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫中進行查找,并將檢索結(jié)果反饋給用戶。一般情況下,搜索引擎具有布爾檢索、詞組檢索、截詞檢索、字段檢索等多種功能。利用搜索引擎實施檢索省時省力、簡單方便、檢索速度快、能及時獲取新增網(wǎng)絡(luò)信息。但由于搜索引擎使用計算機程序自動進行信息的加工、處理,檢索軟件的智能性不是很高,會造成檢索的準確性不是很理想,與人們的檢索需求及對檢索效率的期望存在一定的差距。7.2Internet網(wǎng)絡(luò)信息檢索當前14頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法3.使用網(wǎng)絡(luò)資源指南檢索信息開發(fā)網(wǎng)絡(luò)資源指南的目的是可實現(xiàn)對網(wǎng)絡(luò)信息資源的智能性查找。為了對Internet上的信息資源加以組織和管理,使大量有價值的信息納入一個有序的組織體系,便于用戶全面掌握網(wǎng)絡(luò)資源的分布,專業(yè)人員基于對網(wǎng)絡(luò)信息資源的產(chǎn)生、傳遞與利用機制的廣泛了解,以及對網(wǎng)絡(luò)信息資源分布狀況的熟悉,使用采集、組織、評價、過濾、控制、檢索等各種手段,開發(fā)出用于快速檢索信息的網(wǎng)絡(luò)資源指南。網(wǎng)絡(luò)資源指南會根據(jù)網(wǎng)絡(luò)信息的主題內(nèi)容進行分類,并以等級目錄的形式進行組織。在Internet上,綜合性的網(wǎng)絡(luò)資源指南廣受歡迎,最著名的就是Yahoo目錄;而專業(yè)性的網(wǎng)絡(luò)資源指南也很普遍,幾乎每一個學科專業(yè)、重要課題、研究領(lǐng)域的網(wǎng)絡(luò)資源指南都可以在Internet上找到,例如中國高等教育文獻保障系統(tǒng)CALIS()就是一個含有多學科的網(wǎng)絡(luò)資源指南。但使用網(wǎng)絡(luò)資源指南也存在著很大的局限性,由于對網(wǎng)絡(luò)資源指南的管理和維護跟不上網(wǎng)絡(luò)信息的增長速度,因此其中收錄信息的范圍不夠全面,新穎性、及時性不夠強,同時用戶還要受開發(fā)人員分類思想的限制。7.2Internet網(wǎng)絡(luò)信息檢索當前15頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法4.使用在線數(shù)據(jù)庫檢索信息使用Internet上的在線數(shù)據(jù)庫進行查詢,是用戶獲取學術(shù)性信息的最有效方法。目前,Internet上在線數(shù)據(jù)庫有很多,比較著名的有維普數(shù)據(jù)庫、CNKI中國期刊網(wǎng)、萬方數(shù)據(jù)庫資源系統(tǒng)、超星數(shù)字圖書館等。5.使用其他類型的網(wǎng)絡(luò)信息檢索工具在Internet發(fā)展的初期,相繼開發(fā)了一系列的網(wǎng)絡(luò)信息查詢工具。例如,使用Telnet遠程登錄到各類圖書館的公共目錄系統(tǒng)、信息服務(wù)機構(gòu)的綜合信息系統(tǒng)等進行查詢;使用分布式數(shù)據(jù)庫檢索系統(tǒng)Archie在FTP文件服務(wù)器中查詢信息;使用USENET新聞組在Internet上讀取新聞組消息并開展討論;使用基于菜單驅(qū)動的Internet信息查詢工具檢索文本信息;使用廣域信息查詢工具WAIS在Internet上檢索信息資源。需要注意的是,由于WWW系統(tǒng)的快速發(fā)展,成為Internet網(wǎng)絡(luò)信息發(fā)布的主流,隨著時間的不斷推移,在上述網(wǎng)絡(luò)信息查詢工具中,有些還在繼續(xù)使用,有些已無人問津。7.2Internet網(wǎng)絡(luò)信息檢索當前16頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.2Internet搜索引擎1.搜索引擎的工作原理搜索引擎通常由搜索器、索引器、檢索器、數(shù)據(jù)庫和用戶接口五個部分組成。搜索器是一個自動運行的程序,人們通常也將其稱為蜘蛛(Spider)、機器人(Robot)、網(wǎng)頁爬行者(WebCrawler)等,搜索器的功能是在Internet中自動漫游,發(fā)現(xiàn)信息并生成信息摘要。它日夜不停地運行,盡可能多、盡可能快地搜集各種類型的新信息,同時還要定期更新已經(jīng)搜集過的舊信息,避免無效鏈接的出現(xiàn)。索引器也稱標引器,它的主要功能是對搜索器捕獲的信息進行分析,從中抽取出索引項,建立文檔的索引表。索引器的標引方法因系統(tǒng)的不同而異,大多數(shù)都采取自動標引技術(shù),可以建立對WWW網(wǎng)頁內(nèi)容的全文索引,也可以按某些分類或特征從網(wǎng)頁中抽取信息。數(shù)據(jù)庫是搜索引擎所包含信息資源的集合,它不僅存放搜索器從網(wǎng)絡(luò)中收集的信息摘要,同時還存放了索引器對這些信息摘要建立的索引項,以備將來用戶查詢時使用。檢索器是根據(jù)用戶的查詢要求在信息數(shù)據(jù)庫中快速匹配文檔,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性的反饋機制。用戶接口供用戶輸入查詢,顯示匹配結(jié)果。主要目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效及時的信息。7.2Internet網(wǎng)絡(luò)信息檢索當前17頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.2Internet搜索引擎1.搜索引擎的工作原理在搜索引擎中,首先利用搜索器從Internet上收集各網(wǎng)絡(luò)站點的摘要信息,再使用索引器對網(wǎng)頁上的某些關(guān)鍵詞建立索引,并存放到本地數(shù)據(jù)庫中。當用戶在檢索時,通過搜索引擎的用戶接口訪問摘要信息數(shù)據(jù)庫,檢索器根據(jù)用戶的查詢條件快速檢索出文檔,并對將要輸出的結(jié)果進行排序和相關(guān)性處理,最后再通過用戶接口將檢索結(jié)果反饋給用戶。7.2Internet網(wǎng)絡(luò)信息檢索當前18頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.2Internet搜索引擎2.搜索引擎的基本檢索功能搜索引擎使用輸入的檢索關(guān)鍵詞進行檢索。一般地,可以將搜索引擎的檢索功能分為基本檢索功能和高級檢索功能兩類。搜索引擎支持的基本檢索功能主要有字符串檢索、布爾邏輯檢索、截詞檢索、字段限制檢索等。(1)布爾邏輯檢索搜索引擎大都支持布爾邏輯檢索,即用布爾算符AND、OR、NOT連接檢索關(guān)鍵詞進行邏輯運算。例如檢索關(guān)鍵詞“計算機AND數(shù)碼相機”表示查詢既含有計算機又含有數(shù)碼相機的信息內(nèi)容,而檢索關(guān)鍵詞“計算機OR數(shù)碼相機”則表示查詢含有計算機或含有數(shù)碼相機的信息內(nèi)容。需要注意的是,不同的搜索引擎對邏輯檢索支持的程度不同,邏輯運算符的表示也不相同,使用時應(yīng)參考具體的搜索引擎。(2)字符串檢索字符串檢索是一種精確的查找方式,它將一個字符串當成一個獨立的運算單元進行嚴格地匹配。字符串檢索不僅規(guī)定了檢索關(guān)鍵詞中各個具體的檢索詞及其相互的邏輯關(guān)系,而且規(guī)定了檢索詞之間的位置關(guān)系。幾乎所有的搜索引擎都支持字符串檢索,而且都采用雙引號“”來代表字符串。例如在搜索引擎中使用字符串“計算機軟件”作為檢索關(guān)鍵詞,就等于告訴搜索引擎只檢索網(wǎng)頁中含有“計算機軟件”的信息內(nèi)容,而忽略哪些包含有“計算機軟件行情”的信息內(nèi)容。7.2Internet網(wǎng)絡(luò)信息檢索當前19頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.2Internet搜索引擎(3)截詞檢索截詞檢索是能夠有效防止漏檢的檢索技術(shù),尤其在西文檢索中應(yīng)用更加廣泛。截斷技術(shù)可以擴大檢索范圍,具有方便用戶、增強檢索效果的特點,但一定要合理使用,否則會造成誤檢。大多數(shù)搜索引擎都支持截詞功能,一般提供右截斷,有些搜索引擎采用自動截詞,有的搜索引擎則是在一定條件下才能截詞。常用的截詞符有“?”、“*”和“$”,例如在搜索引擎中可以輸入檢索關(guān)鍵詞“comput?”,則搜索引擎可以檢索出包含computer、computers、computing等的信息內(nèi)容。(4)字段限制檢索在搜索引擎中,字段檢索一律表現(xiàn)為前綴符限制的形式,如屬于主題字段限制的有Title、Keywords、Subject、Summary等;屬于非主題字段限制的有Image、Text、Applet等。此外搜索引擎還提供了帶有典型的網(wǎng)絡(luò)檢索特征的字段限制類型,如主機名限制Host、網(wǎng)站地址限制Site、域名限制Domain、新聞組限制Newsgroups、URL限制URL等。例如希望限制在新浪網(wǎng)中檢索信息,可在檢索關(guān)鍵詞后添加字符串“Site:”。7.2Internet網(wǎng)絡(luò)信息檢索當前20頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.2Internet搜索引擎3.搜索引擎的高級檢索功能搜索引擎的高級檢索功能包括自然語言檢索、模糊檢索、概念檢索、區(qū)分大小寫的檢索、管道檢索、相關(guān)信息反饋檢索等。(1)自然語言檢索自然語言檢索即直接采用自然語言中的字、詞、句作為檢索關(guān)鍵詞進行檢索,例如可以使用“什么是信息檢索?”或“當前計算機的發(fā)展趨勢如何?”這樣的語句充當檢索關(guān)鍵詞。自然語言檢索使網(wǎng)絡(luò)檢索變得簡單、直接,目前大多數(shù)的搜索引擎都支持自然語言檢索,因而備受廣大用戶的歡迎。(2)模糊檢索模糊檢索是一種常用的檢索技術(shù),當輸入一個檢索關(guān)鍵詞時,搜索引擎就把與關(guān)鍵詞相關(guān)的詞條同時檢索出來供用戶加以選擇。例如使用關(guān)鍵詞“搜索引擎”進行檢索時,模糊檢索就會同時檢索出包含搜索引擎、搜尋引擎、引擎等相關(guān)詞條的信息內(nèi)容。(3)概念檢索概念檢索主要是同義詞和近義詞檢索,即使用某檢索關(guān)鍵詞時,概念檢索技術(shù)會同時對與該詞概念類似的同義詞和近義詞進行檢索,以達到擴大檢索、避免漏檢的目的。例如用戶使用“計算機”作為檢索關(guān)鍵詞時,模糊檢索就會檢索出包含有“計算機”、“電腦”、“PC機”等相關(guān)詞條的信息內(nèi)容。7.2Internet網(wǎng)絡(luò)信息檢索當前21頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.2Internet搜索引擎(4)區(qū)分大小寫的檢索區(qū)分大小寫的檢索有助于提高查準率,為此許多搜索引擎都可以讓用戶選擇是否要求區(qū)分英文字母的大小寫,在檢索含有的人名、地名等專有名詞的關(guān)鍵詞中經(jīng)常使用。(5)管道檢索管道檢索即用管道檢索符號“|”連接兩個或更多檢索關(guān)鍵詞,先使用前一個關(guān)鍵詞進行檢索,再在查詢結(jié)果的基礎(chǔ)上對后一個關(guān)鍵詞進行檢索,以此類推,以達到逐步縮小檢索結(jié)果、提高查準率的目的。(6)相關(guān)信息反饋檢索搜索引擎往往能進一步提供與檢索結(jié)果類似的結(jié)果,這稱為相關(guān)信息反饋檢索。7.2Internet網(wǎng)絡(luò)信息檢索當前22頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.2.3常用搜索引擎介紹目前,在Internet上用戶常用的搜索引擎有百度、谷歌、雅虎、必應(yīng)、愛問和搜搜等,下面列出了它們的其網(wǎng)絡(luò)地址。百度()谷歌()雅虎()必應(yīng)()愛問()搜搜()7.2Internet網(wǎng)絡(luò)信息檢索當前23頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺中國知識基礎(chǔ)設(shè)施(ChinaNationalKnowledgeInfrastructure,CNKI)是以建設(shè)社會化的知識基礎(chǔ)設(shè)施為目標的國家級大規(guī)模信息化工程,該項目由清華大學發(fā)起,1999年6月開始實施,目前已建成世界上全文信息量最大的CNKI知識網(wǎng)絡(luò)服務(wù)平臺,涵蓋了期刊、報紙、專利文獻、學位論文、會議論文等各類文獻,使我國教育、科研、政府、企業(yè)、醫(yī)療衛(wèi)生等各行業(yè)獲取與交流信息的能力達到了國際先進水平。CNKI以網(wǎng)絡(luò)形式發(fā)布信息,因而又稱為中國知網(wǎng)(),其主頁如圖7.8所示。7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前24頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前25頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺CNKI目前已建成并投入使用的數(shù)據(jù)庫主要包括:中國學術(shù)期刊網(wǎng)絡(luò)出版總庫中國博士學位論文全文數(shù)據(jù)庫中國優(yōu)秀碩士學位論文全文數(shù)據(jù)庫中國重要會議論文全文數(shù)據(jù)庫中國重要報紙全文數(shù)據(jù)庫中國專利全文數(shù)據(jù)庫高等教育文獻總庫中國基礎(chǔ)教育知識倉庫醫(yī)院知識倉庫中國城市規(guī)劃知識倉庫7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前26頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺1.中國學術(shù)期刊網(wǎng)絡(luò)出版總庫簡介中國學術(shù)期刊網(wǎng)絡(luò)出版總庫是在《中國學術(shù)期刊(光盤版)》的基礎(chǔ)上開發(fā)的基于Internet的一種大規(guī)模集成化、多功能、動態(tài)學術(shù)期刊全文檢索系統(tǒng),全文收錄國內(nèi)7400多種重要的學術(shù)類期刊,內(nèi)容覆蓋自然科學、工程技術(shù)、農(nóng)業(yè)、哲學、醫(yī)學、人文社會科學等各個領(lǐng)域,累積的學術(shù)期刊文獻總量超過2400萬篇。中國學術(shù)期刊網(wǎng)絡(luò)出版總庫收錄的內(nèi)容共分為10個專輯,分別是基礎(chǔ)科學、工程科技I輯、工程科技II輯、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、信息科技、人文與社會科學文獻、社會科學I輯、社會科學II輯、經(jīng)濟管理科學,共168個專題文獻數(shù)據(jù)庫,7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前27頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺(/)2.登錄CNKI由于CNKI的全文數(shù)據(jù)庫均為收費檢索數(shù)據(jù)庫,因此使用CNKI的用戶必須是注冊用戶或是CNKI中心網(wǎng)站、CNKI開放式鏡像站點的包庫用戶。在如圖7.8所示的CNKI主頁中,輸入注冊賬號和密碼后即可登錄CNKI。一般情況下,校園網(wǎng)用戶可首先登錄到學校圖書館網(wǎng)站,再通過超鏈接進入CNKI主頁,輸入學校圖書館提供的賬號和密碼,登錄CNKI。登錄后,可通過CNKI主頁面中的超鏈接進入文獻檢索頁面。7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前28頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺3.CNKI的檢索方式在如圖7.8所示的頁面中,右邊列出了學科領(lǐng)域分類細目,用戶可根據(jù)需要逐級選擇使用;下方列出了各類數(shù)據(jù)庫,用戶可以選擇中國學術(shù)期刊網(wǎng)絡(luò)出版總庫、中國博士學位論文全文數(shù)據(jù)庫及其他用于檢索的數(shù)據(jù)庫。CNKI提供了包括簡單檢索、標準檢索、高級檢索、專業(yè)檢索、引文檢索、學者檢索、科研基金檢索、句子檢索等在內(nèi)的多種檢索方式。(1)簡單檢索簡單檢索界面如圖7.10所示,提供了類似搜索引擎的檢索方式,用戶只需要輸入所要找的檢索關(guān)鍵詞,單擊“簡單檢索”按鈕就能查到相關(guān)的文獻。7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前29頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺(2)標準檢索標準檢索是CNKI檢索系統(tǒng)默認的檢索方式,標準檢索界面如圖7.11所示。7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前30頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺(3)高級檢索高級檢索界面如圖7.12所示,用戶應(yīng)首先輸入范圍控制條件,再輸入文獻內(nèi)容特征信息,最后對檢索得到的結(jié)果分組排序。7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前31頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺4)專業(yè)檢索專業(yè)檢索面向從事圖書情報檢索工作的專業(yè)用戶,用戶需要使用邏輯運算符和關(guān)鍵詞構(gòu)造檢索式進行檢索,其檢索界面如圖7.13所示。在專業(yè)檢索中,可使用主題、題名(篇名)、關(guān)鍵詞、摘要、全文、作者、第一責任人(第一作者)、機構(gòu)(單位)、中文刊名或英文刊名、引文(參考文獻)、發(fā)表時間、年、基金、中圖分類號、ISSN、統(tǒng)一刊號、ISBN、被引頻次等檢索字段構(gòu)造檢索表達式,多個檢索項的檢索表達式之間用AND、OR、NOT邏輯運算符進行組合。7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前32頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺(5)引文檢索引文檢索以被引文獻的特征信息和文獻的引用關(guān)系為出發(fā)點進行文件檢索,其檢索界面如圖7.14所示。引文檢索的檢索過程與標準檢索一致,這里就不在贅述。7.3網(wǎng)絡(luò)文獻檢索系統(tǒng)當前33頁,總共40頁。青島大學公共計算機基礎(chǔ)教學中心第7章信息檢索7.3.1CNKI知識網(wǎng)絡(luò)服務(wù)平臺(6)學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論