版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
上海理工大學(xué)電子商務(wù)研究所設(shè)計制作:王錫俊網(wǎng)絡(luò)信息檢索第二章上海理工大學(xué)電子商務(wù)研究所網(wǎng)絡(luò)信息檢索第二章第二章網(wǎng)絡(luò)信息檢索系統(tǒng)2.1網(wǎng)絡(luò)信息檢索概述2.2WorldWideWeb(WWW)檢索系統(tǒng)2.3常用中英文搜索引擎及檢索策略2.4網(wǎng)上多媒體信息檢索系統(tǒng)2.5經(jīng)濟(jì)信息檢索系統(tǒng)2.6互聯(lián)網(wǎng)科技信息資源檢索類型第二章網(wǎng)絡(luò)信息檢索系統(tǒng)2.1網(wǎng)絡(luò)信息檢索概述2.1網(wǎng)絡(luò)信息檢索概述2.1.1計算機(jī)檢索特點(diǎn)2.1.2網(wǎng)絡(luò)信息檢索工具及原理2.1.3網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢2.1網(wǎng)絡(luò)信息檢索概述2.1.1計算機(jī)檢索特點(diǎn)2.1.1計算機(jī)檢索特點(diǎn)隨著計算機(jī)技術(shù)、高密度海量存儲器技術(shù)和現(xiàn)代通信技術(shù)的發(fā)展,計算機(jī)檢索系統(tǒng)已經(jīng)成為世界上最先進(jìn)的信息檢索系統(tǒng)。它具有檢索速度快、檢索范圍廣而全面、檢索途徑多、質(zhì)量高、檢索內(nèi)容新等特點(diǎn)。由于計算機(jī)具有上述特點(diǎn),所以它廣泛應(yīng)用于信息管理中,如情報信息管理、圖書館資料管理、檔案館文件管理等方面。計算機(jī)信息檢索系統(tǒng)能存儲大量的信息,并對信息條目進(jìn)行分類、編目或編制索引;還可以根據(jù)用戶要求從已存儲的信息庫中調(diào)取出特定的信息,并提供插入、修改和刪除某些信息的能力。2.1.1計算機(jī)檢索特點(diǎn)隨著計算機(jī)技術(shù)、高密度海量存儲器技1.計算機(jī)檢索系統(tǒng)的發(fā)展過程第一階段,1971年以前,開始建立計算機(jī)信息檢索系統(tǒng),并取得了一定的進(jìn)展。這一階段的數(shù)據(jù)存取與數(shù)據(jù)通信能力都比較差。第二階段,1971年以后,產(chǎn)生并發(fā)展了聯(lián)機(jī)情報檢索系統(tǒng)。這一階段的特點(diǎn)是聯(lián)機(jī)數(shù)據(jù)庫集中管理,具有完備的數(shù)據(jù)庫聯(lián)機(jī)檢索功能,但其數(shù)據(jù)通信能力較差。第三階段,20世紀(jì)80年代以后,出現(xiàn)了以Internet為標(biāo)志的網(wǎng)絡(luò)信息檢索系統(tǒng)。系統(tǒng)大多采用分布式的網(wǎng)絡(luò)化管理,其信息資源的主要特點(diǎn)是:數(shù)字形式表達(dá)、多媒體和多載體、內(nèi)容覆蓋面廣、分布無序、難于規(guī)范化和結(jié)構(gòu)化、內(nèi)容特征抽取復(fù)雜、用戶界面要求高等。1.計算機(jī)檢索系統(tǒng)的發(fā)展過程第四階段,進(jìn)入21世紀(jì)后,隨著連續(xù)性語音識別技術(shù)的不斷發(fā)展,計算機(jī)信息檢索系統(tǒng)跨入一個新的階段。在前三個階段的基礎(chǔ)上,信息檢索技術(shù)正向兩個新的方向發(fā)展:一是傳統(tǒng)信息檢索向全文文本、多媒體等新型信息檢索發(fā)展,在深度上應(yīng)能對提問的內(nèi)容進(jìn)行分析和理解,提高查準(zhǔn)率,探索自動抽詞、自動索引、自動檢索、自動文摘、自動分類、自動翻譯等解決方案,提高管理和組織信息的能力;二是信息資源的網(wǎng)絡(luò)化和分布化,主要面對Internet中浩瀚無垠的資源,提高查全率。第四階段,進(jìn)入21世紀(jì)后,隨著連續(xù)性語音識別技術(shù)的不斷發(fā)展,2.基于概念的信息檢索系統(tǒng)基于概念的信息檢索是通過對文獻(xiàn)中的原文信息進(jìn)行語義上的自然語言處理,析取各種概念信息,并由此形成一個知識庫。然后,根據(jù)對用戶提問的理解,檢索知識庫中相關(guān)的信息,以提供直接的回答。2.基于概念的信息檢索系統(tǒng)(1)概念信息檢索的特性概念信息檢索具有分析和理解自然語言的能力。無論是向知識庫的自然語言輸入,還是對系統(tǒng)的自然語言提問,概念信息檢索都可以通過分析和理解,得到自然語言原文的內(nèi)容。概念信息檢索可以對輸入的原文根據(jù)其概念內(nèi)容進(jìn)行組織和安排,而不是根據(jù)關(guān)鍵詞檢索。概念信息檢索可以進(jìn)行語義層次上的自然語言處理,以析取相關(guān)的概念信息和范疇知識;然后,通過記憶機(jī)制將它們存儲到知識庫中,以備檢索之用。(1)概念信息檢索的特性概念信息檢索的記憶機(jī)制能夠自動補(bǔ)充與更新。同時,存儲在知識庫中的概念信息和范疇知識也能得到補(bǔ)充與更新,且補(bǔ)充與更新的新信息與新知識能恰當(dāng)?shù)貧w類到相應(yīng)的范疇之中。概念信息檢索具有使用自然語言回答用戶提問的能力。這種能力包括從自然語言原文的概念內(nèi)容中析取檢索要點(diǎn),通過記憶機(jī)制檢查某個特別的范疇,以獲取必需的背景知識,以及通過對知識庫中存儲的其它概念信息進(jìn)行分析和理解,并回答用戶的提問。概念信息檢索的記憶機(jī)制能夠自動補(bǔ)充與更新。同時,存儲在知識庫(2)概念信息檢索系統(tǒng)的結(jié)構(gòu)概念信息檢索系統(tǒng)的結(jié)構(gòu)一般分為:記憶機(jī)制部分。存儲原文內(nèi)容或概念,能自動更新。語言分析機(jī)制部分。運(yùn)用自然語言處理技術(shù),從語義層次上分析和理解文本內(nèi)容及用戶提問內(nèi)容。知識庫部分。通過分析機(jī)制和記憶機(jī)制,獲取關(guān)于檢索和推理的知識。人機(jī)接口部分。輸入原文內(nèi)容及用戶提問,輸出自然語言形式的檢索結(jié)果。(2)概念信息檢索系統(tǒng)的結(jié)構(gòu)(3)應(yīng)用系統(tǒng)CyFr系統(tǒng)。CyFr系統(tǒng)是Schank、Kolodner和DeJong于1981年根據(jù)概念信息檢索理論建立的系統(tǒng),用于處理與美國前國務(wù)卿范斯(Vance)有關(guān)的新聞。Researcher系統(tǒng)。由Lebowitz于1983年在哥倫比亞大學(xué)研制,用于閱讀和理解用自然語言形式輸入的專利文獻(xiàn)摘要。還有由McCune和Tong研制的Rubric系統(tǒng),是用來檢索與恐怖行為概念有關(guān)的文獻(xiàn)。美國通用電器公司人工智能研究室的Ran1987年建立的SCICOR系統(tǒng)、美國卡內(nèi)基梅隆大學(xué)機(jī)器翻譯中心1991年完成的FERRET系統(tǒng)。(3)應(yīng)用系統(tǒng)3.超文本信息檢索系統(tǒng)以超文本網(wǎng)絡(luò)為基礎(chǔ)的文獻(xiàn)檢索系統(tǒng)。正文信息是以節(jié)點(diǎn)而不是以字符串作為信息的基本單元,節(jié)點(diǎn)間通過鏈進(jìn)行連接。在檢索文獻(xiàn)時,節(jié)點(diǎn)間的多種鏈接關(guān)系可以動態(tài)地選擇性激發(fā),從而可根據(jù)思維聯(lián)想或新信息的需要,通過鏈從一個節(jié)點(diǎn)跳到另一個節(jié)點(diǎn),由此形成隨著人們思維和需要的流動而構(gòu)成的數(shù)據(jù)鏈,體現(xiàn)出一種完全不同于過去順序檢索方式的聯(lián)想式檢索。3.超文本信息檢索系統(tǒng)(1)設(shè)計思想一般是基于引導(dǎo)瀏覽的檢索系統(tǒng)。其設(shè)計思想是:屏幕上的窗口與數(shù)據(jù)庫中的卡片相對應(yīng),卡片是數(shù)據(jù)庫中的基本信息單元,即節(jié)點(diǎn)??ㄆg通過鏈路即數(shù)據(jù)庫中的指針相連接,在窗口中則以高亮度的關(guān)鍵字為標(biāo)志。(2)超文本系統(tǒng)結(jié)構(gòu)與模型超文本系統(tǒng)結(jié)構(gòu)模型主要采用Combell、Goodman及Dexter模型。其中Combell與Goodman模型都具有表現(xiàn)層、抽象機(jī)制和數(shù)據(jù)庫層三層結(jié)構(gòu),而Dexter模型的結(jié)構(gòu)則為運(yùn)行層、表現(xiàn)描述層、存儲層、錨定點(diǎn)機(jī)制及內(nèi)部組件層五層。從描述超文本信息的組織結(jié)構(gòu)來看,可分為基于圖論的模型、基于網(wǎng)論的模型、基于邏輯模型、基于集論的模型。(1)設(shè)計思想(3)應(yīng)用系統(tǒng)目前已建立了多個基于超文本的信息檢索系統(tǒng),如AltaVista、WebCrawler、Yahoo!、Lycos、OpenText、Infoseek等著名的網(wǎng)絡(luò)檢索系統(tǒng)。這些系統(tǒng)檢索速度快,數(shù)據(jù)資料新,具備多種查詢方式,極大地方便了用戶使用Internet,提高了全文檢索的查全率。(3)應(yīng)用系統(tǒng)4.計算機(jī)全文檢索的進(jìn)一步研究全文檢索(FullTextRetrieval)是指以全文本信息作為檢索對象,建立全文數(shù)據(jù)庫,除了具有布爾邏輯檢索功能外,還具有文本檢索功能,并允許用戶以自然語言檢索,直接獲得原文中的有關(guān)章節(jié)和段句。全文檢索技術(shù)應(yīng)用領(lǐng)域主要包括:企業(yè)信息門戶、媒體網(wǎng)站、政府網(wǎng)站、數(shù)字圖書館、搜索引擎及商業(yè)網(wǎng)站。4.計算機(jī)全文檢索的進(jìn)一步研究2.1.2網(wǎng)絡(luò)信息檢索工具及原理1.網(wǎng)絡(luò)信息檢索工具發(fā)展概述
20世紀(jì)70年代,開發(fā)了許多種類的情報(信息)檢索軟件,形成了軟件開發(fā)研究和情報科學(xué)研究的一個相對獨(dú)立的分支:情報檢索。隨著Internet的不斷擴(kuò)張,網(wǎng)絡(luò)信息檢索工具(NetworkedInformationRetrievalTools)的新型檢索工具便應(yīng)運(yùn)而生了。2.1.2網(wǎng)絡(luò)信息檢索工具及原理1.網(wǎng)絡(luò)信息檢索工具發(fā)展網(wǎng)絡(luò)檢索工具的研究與開發(fā),使原來的“情報檢索”這一學(xué)科分支產(chǎn)生了新的分支“網(wǎng)絡(luò)信息檢索”(NIR,NetworkedInformationRetrieval)。Internet上信息資源的迅猛增長使主管Internet的技術(shù)問題的Internet工程特別工作小組(IETF,InternetEngineeringTaskForce)對網(wǎng)絡(luò)信息檢索給予了充分重視。IETF與歐洲科研網(wǎng)絡(luò)協(xié)會(RARE-AssociationofEuropeanResearchNetworks)和網(wǎng)絡(luò)信息聯(lián)盟(CNI-CoalitionforNetworkedInformation)聯(lián)合組建了“網(wǎng)絡(luò)信息檢索工作小組”(NIRWorkingGroup)。主要任務(wù)是:收集和發(fā)布網(wǎng)絡(luò)信息檢索工具及其研究團(tuán)體的信息;鼓勵合作開發(fā)網(wǎng)絡(luò)信息檢索工具;協(xié)調(diào)網(wǎng)絡(luò)信息檢索工具開發(fā)單位、有關(guān)聯(lián)網(wǎng)機(jī)構(gòu)和網(wǎng)絡(luò)信息檢索工具的生產(chǎn)銷售廠商的行動。網(wǎng)絡(luò)檢索工具的研究與開發(fā),使原來的“情報檢索”這一學(xué)科分支產(chǎn)目前在Internet上運(yùn)行的網(wǎng)絡(luò)檢索工具可分為三大類:交互式信息提供服務(wù)(InteractiveInformationDeliveryServices);名錄服務(wù)(DirectoryServices);索引服務(wù)(IndexingServices)。目前在互聯(lián)網(wǎng)運(yùn)行的交互式信息服務(wù)軟件主要基于WWW和Gopher,名錄服務(wù)軟件主要基于WHOIS、NETFIND和X.500,索引服務(wù)軟件主要基于Archie、Veronica、Jughead和WAIS。交互式信息檢索工具一般為用戶提供友好的交互操作界面,并具備交互瀏覽信息的功能,信息在網(wǎng)絡(luò)上的存放方式以及如何取得信息,對使用者都是透明的。菜單式查詢系統(tǒng)Gopher是Internet上較早出現(xiàn)的一種交互信息查詢工具。WWW系統(tǒng)是近年來發(fā)展的最重要的一種交互信息查詢工具,也是迄今用戶最多和使用最為方便的工具。目前在Internet上運(yùn)行的網(wǎng)絡(luò)檢索工具可分為三大類:索引式信息檢索工具是通過對信息資源文件建立的索引查找文件的所在位置,以便用其他檢索工具進(jìn)一步獲取信息文件。此外,Internet上還產(chǎn)生大量基于電子郵件交換的信息。這類信息獲取系統(tǒng)包括電子公告板系統(tǒng)、電子郵件通信組、網(wǎng)絡(luò)專題消息、電子刊物以及網(wǎng)絡(luò)廣告等。索引式信息檢索工具是通過對信息資源文件建立的索引查找文件的所2.菜單式查詢系統(tǒng)(Gopher)Gopher是一種按“菜單”形式組織的分布式文檔查詢系統(tǒng),1991年在美國Minnesota大學(xué)發(fā)展起來。開始用于校園網(wǎng),后來推廣到Internet。Gopher為用戶查詢信息提供一個多級的菜單界面,只需按照菜單指示的路徑就能獲取想要的信息,使用非常方便。2.菜單式查詢系統(tǒng)(Gopher)3.廣域信息服務(wù)系統(tǒng)(WAIS)WAIS(WideAreaInformationSystem)以各種文本數(shù)據(jù)文件為檢索對象(信息源),融匯了Archie、newsgroup等的信文件在內(nèi)的各類信息。目前,Internet上已建立了幾千個提供檢索服務(wù)的WAIS服務(wù)器,成為整個Internet網(wǎng)絡(luò)文本式信息資源的檢索工具。用WAIS檢索信息可分兩步進(jìn)行:第一步,先從信息源(文件題目)列表選擇檢索對象;第二步,在選定范圍內(nèi)通過文件的關(guān)鍵詞查找文件。3.廣域信息服務(wù)系統(tǒng)(WAIS)4.網(wǎng)絡(luò)文件搜索系統(tǒng)(Archie)由于Internet所包含的信息量驚人,用戶很難了解某類信息在Internet上的分布情況,或者某個具體軟件存儲在哪一個主機(jī)結(jié)點(diǎn)上。Archie可以使用戶能夠查詢信息資源的存放地址,以便能夠從特定場所的服務(wù)器中獲取各種感興趣的或者有用的信息。Archie與WAIS不同,后者除查詢信息存放地址之外,還可以進(jìn)一步顯示與瀏覽信息文件的內(nèi)容。4.網(wǎng)絡(luò)文件搜索系統(tǒng)(Archie)2.1.3網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢目前,網(wǎng)絡(luò)信息檢索技術(shù)正在向兩個方向發(fā)展:一是傳統(tǒng)信息檢索向全文文本、多媒體等新型信息檢索發(fā)展,在深度上能對提問的內(nèi)容進(jìn)行分析和理解,提高查準(zhǔn)率,探索自動抽詞、自動索引、自動檢索、自動文摘、自動分類、自動翻譯等解決方案,提高管理和組織信息的能力;二是信息資源的網(wǎng)絡(luò)化和分布化,面對Internet中浩瀚無垠的資源,提高查全率。2.1.3網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢目前,網(wǎng)絡(luò)信息檢索技術(shù)網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢突出表現(xiàn)出以下特點(diǎn):支持主題指南的搜索引擎。增加特色服務(wù),提供全方位的信息服務(wù)。本地化服務(wù)。提供多媒體檢索功能。多語種檢索。推廣利用信息新技術(shù)。商業(yè)化發(fā)展趨勢。網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢突出表現(xiàn)出以下特點(diǎn):2.2WorldWideWeb(WWW)
檢索系統(tǒng)2.2.1WWW發(fā)展簡介2.2.2WWW上的“搜索引擎”2.2.3搜索引擎的類型與特點(diǎn)2.2.4中文搜索引擎的現(xiàn)狀及發(fā)展2.2WorldWideWeb(WWW)
2.2.1WWW發(fā)展簡介WWW是一種基于超文本(Hypertext)文件的交互式瀏覽型檢索工具。WWW是1989年由歐洲核物理研究中心(CERN)的TimeBerners-Lee提出的一個研究項(xiàng)目,其目的是向國際高能物理研究界提供一個在計算網(wǎng)上用超文本方式傳送文件和相互進(jìn)行通信的工具。1990年底,第一個WWW軟件被安裝在一臺NeXT機(jī)器上。用戶可用它在Internet網(wǎng)上瀏覽、傳遞和編輯超文本格式的文件。1992年以后,經(jīng)過Tim本人的不懈努力,WWW概念日益深入人心。全世界有數(shù)百名志愿者無償?shù)赝度腴_發(fā)和推廣WWW軟件的工作。2.2.1WWW發(fā)展簡介WWW是一種基于超文本(Hype現(xiàn)在WWW已成為全球性的軟件開發(fā)項(xiàng)目。由于全世界軟件人員的共同努力,WWW軟件不斷完善,并且增加了多媒體功能,成為具有超媒體(Hypermedia)功能的、網(wǎng)上最先進(jìn)的信息檢索工具。由于WWW的優(yōu)異性能,其用戶數(shù)量有了“爆發(fā)性”的增長。1996年,WWW的通信量已穩(wěn)居第一。許多原來只能通過Telnet、Gopher、Wais才能獲得的信息現(xiàn)在都可以通過WWW方便地獲得?,F(xiàn)在WWW已成為全球性的軟件開發(fā)項(xiàng)目。由于全世界軟件人員的共2.2.2WWW上的“搜索引擎”1.“搜索引擎”原理簡介
在美國,搜索引擎(SEARCHENGINE)通常指的是基于互聯(lián)網(wǎng)的搜索引擎,這種引擎收集互聯(lián)網(wǎng)上幾千萬到幾億個網(wǎng)頁數(shù)量不等,并且每一個網(wǎng)頁上的每一個詞都被搜索引擎所收錄,也就是“全文檢索”。典型的互聯(lián)網(wǎng)搜索引擎包括AltaVista、Inktomi、Infoseek、Google等。2.2.2WWW上的“搜索引擎”1.“搜索引擎”原理簡介搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計算機(jī)程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的倒排文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個檢索詞在一篇文章中出現(xiàn)的概率,對包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果?;ヂ?lián)網(wǎng)搜索引擎除了需要有全文檢索系統(tǒng)之外,還有“蜘蛛”(SPIDER)系統(tǒng),即能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的數(shù)據(jù)搜集系統(tǒng)。在中國,搜索引擎通常指的是基于網(wǎng)站目錄的搜索服務(wù)或是特定網(wǎng)站的搜索服務(wù)。前者如搜狐、新浪等公司開發(fā)的網(wǎng)站搜索服務(wù),后者如《人民日報》、《文匯報》網(wǎng)站上提供的全文檢索服務(wù)。搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計算機(jī)程序通過掃描每2.網(wǎng)絡(luò)搜索引擎的發(fā)展過程(1)第一代搜索引擎1)
Altavista(/)2)Infoseek(/)3)Excite(/)4)Lycos(/)2.網(wǎng)絡(luò)搜索引擎的發(fā)展過程(2)第二代搜索引擎只做后臺技術(shù)提供者與大量應(yīng)用人工智能是第二代搜索引擎的標(biāo)志。第一代的搜索引擎公司后來演變成了門戶網(wǎng)站,而第二代的搜索引擎廠商則成為像Inktomi、Google那樣給網(wǎng)站提供技術(shù)與服務(wù)的ASP,或是在技術(shù)上采用了人工智能技術(shù)的廠商,如Askjeeves、Directhit等。第二代搜索引擎廠商的特點(diǎn)是只做后臺技術(shù)的提供者。1)Inktomi(/)2)Askjeeves(/)3)Goto(/)4)Google(/)(2)第二代搜索引擎3.搜索引擎面臨的挑戰(zhàn)搜索引擎對自然語言提問沒有理解能力;所有著名的搜索引擎都不支持中文或是對中文的支持極弱;搜索引擎收集的網(wǎng)頁數(shù)量和其數(shù)據(jù)庫的更新速度存在著不可調(diào)和的矛盾;搜索引擎無法與電子商務(wù)緊密結(jié)合;搜索引擎對多媒體內(nèi)容的處理尚不成熟。3.搜索引擎面臨的挑戰(zhàn)4.新一代搜索引擎的特點(diǎn)AskJeeves。巧妙地將用戶提問轉(zhuǎn)化為系統(tǒng)已知的問題,然后對已知的問題進(jìn)行回答,降低了對自然語言理解技術(shù)的依賴性;B。第一個為中國人寫的商業(yè)化的互聯(lián)網(wǎng)搜索引擎,信息量大,相關(guān)性好,刷新率高,速度快;G。最先將拍賣的概念引入搜索引擎服務(wù),當(dāng)用戶檢索某些詞時,廣告商可以通過競拍使自己的網(wǎng)站在搜索結(jié)果中的排名提前,這就把電子商務(wù)的概念輕松地引入了搜索服務(wù)。MySimon。這是一個完全面向電子商務(wù)的搜索服務(wù),它對同一種商品按價格的高低進(jìn)行排序;Ditto。這是一個多媒體的搜索引擎,目前主要提供網(wǎng)上圖像的搜索,已收集了超過200萬個圖像,并且大多經(jīng)過人工的篩選,因而搜索結(jié)果質(zhì)量較高。4.新一代搜索引擎的特點(diǎn)5.搜索引擎的未來從1996年起,搜索引擎技術(shù)開始注重網(wǎng)頁質(zhì)量與相關(guān)性的結(jié)合,這主要是通過三種手段:對網(wǎng)上的超鏈結(jié)構(gòu)進(jìn)行分析,如Infoseek和Google;對用戶的點(diǎn)擊行為進(jìn)行分析,如Directhit(該公司被AskJeeves收購);與網(wǎng)站目錄相結(jié)合。最新的趨勢則是搜索的個性化和本地化:5.搜索引擎的未來2.2.3搜索引擎的類型與特點(diǎn)目前發(fā)展最為迅速、最受人們歡迎的信息檢索工具是WWW(互聯(lián)網(wǎng))上的檢索工具,主要分為兩類:主題指南和搜索引擎。其它檢索工具,有Gopher、Archie、WAIS等,它們分別用來查詢Gopher資源、FTP資源和WAIS資源。這些不同的工具為查詢各種信息提供了多種途徑。從最初的主題指南發(fā)展到獨(dú)立型搜索引擎、混合式搜索引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引擎功能不斷改進(jìn)、性能日趨完善、更趨向智能化的檢索特征。2.2.3搜索引擎的類型與特點(diǎn)目前發(fā)展最為迅速、最受人們歡1.主題指南主題指南是搜索引擎的最初表現(xiàn)形式。是人工建立的、結(jié)構(gòu)化的互聯(lián)網(wǎng)網(wǎng)址主題類目和子類目,按照字母、時間、地點(diǎn)、主題等順序進(jìn)行排列,使用戶通過瀏覽網(wǎng)絡(luò)站點(diǎn)列表,檢索有關(guān)信息。較為典型有Yahoo!、LookSmart、InfoMine等。主題指南由人工編制和維護(hù),因此在信息的收集、編排、HTML編碼以及信息注解等方面花費(fèi)大量的人力和時間。它強(qiáng)調(diào)的是瀏覽功能,優(yōu)點(diǎn)是采用人工干預(yù)提高了主題指南返回結(jié)果的相關(guān)性;缺點(diǎn)是很難檢索到較深的信息,難于控制主題等級類目的質(zhì)量,信息更新速度相對較慢,收錄信息數(shù)量相對不足。1.主題指南主題指南主要適用于:用戶進(jìn)行籠統(tǒng)或較籠統(tǒng)的主題瀏覽和檢索。當(dāng)用戶尚未形成很精確的檢索概念時,采用主題指南作為檢索起始點(diǎn)非常有效。除綜合性主題指南之外,為了適應(yīng)網(wǎng)上各種類型信息的發(fā)展變化,又出現(xiàn)了某些專業(yè)的主題指南,它由某一領(lǐng)域的專家編制和維護(hù),在信息準(zhǔn)確性和易于理解方面比綜合性主題指南要好。主題指南主要適用于:2.獨(dú)立型搜索引擎獨(dú)立搜索引擎也叫關(guān)鍵詞檢索工具。這種搜索引擎實(shí)際上是定期搜索互聯(lián)網(wǎng)(以WWW為主)并收集新網(wǎng)頁信息的計算機(jī)程序。每個搜索引擎都有自己獨(dú)有的搜索系統(tǒng)和一個包容互聯(lián)網(wǎng)資源站點(diǎn)的獨(dú)有數(shù)據(jù)庫。其數(shù)據(jù)庫由稱為“Robots”(或Spiders、Crawler)的自動檢索程序建立,不需人工干預(yù)。這是它與主題指南的最大區(qū)別。它具有檢索面廣、信息量大、信息更新速度快等優(yōu)點(diǎn),非常適用于特定主題詞的檢索。但因其檢索噪音較大,為檢索帶來負(fù)面影響。2.獨(dú)立型搜索引擎3.混合式搜索引擎隨著搜索引擎技術(shù)的不斷發(fā)展,獨(dú)立型搜索引擎多與主題指南合二為一,演化為兼具有分類瀏覽和關(guān)鍵詞檢索功能的混合式搜索引擎?;旌鲜剿阉饕媸悄壳罢紦?jù)搜索引擎主導(dǎo)地位的一種搜索引擎,具有分類瀏覽和關(guān)鍵詞檢索功能。3.混合式搜索引擎4.元搜索引擎元搜索引擎(又稱集成搜索引擎,MegaSearchEngine,MultipleSearchEnginge)是一種集成化搜索引擎,它是多個獨(dú)立型搜索引擎的集合體。與獨(dú)立搜索引擎的區(qū)別在于,元搜索引擎沒有自己獨(dú)立的數(shù)據(jù)庫,通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的甚至是同時利用多個搜索引擎實(shí)現(xiàn)檢索操作。4.元搜索引擎5.分布式搜索引擎分布式搜索引擎是基于搜索機(jī)器人的搜索引擎。其基本思想是:根據(jù)地域、主題、IP地址或其他的劃分標(biāo)準(zhǔn),將全網(wǎng)劃分成若干自治域,在每個自治區(qū)內(nèi)分設(shè)檢索服務(wù)器。由于分布式搜索引擎將索引數(shù)據(jù)庫劃分到幾個分散的數(shù)據(jù)庫中,每個數(shù)據(jù)庫變小了,但所有搜索引擎覆蓋的范圍則變大了,且很少有信息重復(fù)。而作為分布式系統(tǒng)特性之一的可擴(kuò)充性也是分布式搜索引擎的優(yōu)點(diǎn)之一。5.分布式搜索引擎2.2.4中文搜索引擎的現(xiàn)狀及發(fā)展1.中文搜索引擎發(fā)展現(xiàn)狀
目前中文引擎共有約80多個,可以分為兩類,一類是自由詞或關(guān)鍵詞檢索搜索引擎,另一類是分類搜索引擎。內(nèi)碼問題:由于歷史原因,目前世界上使用中文的國家與地區(qū)在中文語言的使用上有較大差別,體現(xiàn)在計算機(jī)處理上也有很大不同,其中最重要的區(qū)別是采用不同的字符集及內(nèi)碼體系。2.2.4中文搜索引擎的現(xiàn)狀及發(fā)展1.中文搜索引擎發(fā)展現(xiàn)分詞問題:西文單詞用空格分隔相當(dāng)清晰,而此法對中文的字詞則行不通,因此就產(chǎn)生了不同的處理方法。一種是完全單漢字全文檢索。另外一種即根據(jù)一定的原則和手段對文章進(jìn)行自動分詞,然后按詞建庫,對檢索結(jié)果按詞匯匹配進(jìn)行查詢。目前的中文搜索引擎還不能很好地解決中文名詞分詞這個難題,從而嚴(yán)重地影響搜索引擎的查準(zhǔn)率。除了以上的兩個原因之外,國內(nèi)的搜索引擎技術(shù)與國外相比差距依然很大。目前國內(nèi)搜索引擎能夠檢索2000萬個網(wǎng)頁,而國外能做到檢索上億個,其差距主要是在蜘蛛軟件與搜索器的設(shè)計上,而國內(nèi)能夠研發(fā)大容量與大訪問量的系統(tǒng)和軟件方面的人才相當(dāng)少。此外,國內(nèi)有些中文網(wǎng)站的網(wǎng)頁搜索服務(wù)長期外包給一些在境外的ASP服務(wù)器,這也是查詢速度緩慢的原因之一。分詞問題:西文單詞用空格分隔相當(dāng)清晰,而此法對中文的字詞則行2.中文集成搜索引擎及特點(diǎn)單個的搜索引擎只能從數(shù)據(jù)庫提取信息,具有很大的局限性。為用戶創(chuàng)造更為便利的檢索條件,必須發(fā)展性能更優(yōu)越的新型引擎搜索技術(shù),集成搜索引擎便應(yīng)運(yùn)而生。集成搜索引擎(meta-searchengine),也稱元搜索引擎、多搜索引擎、索引搜索引擎等,是居于搜索引擎之上的搜索引擎。中文搜索引擎的發(fā)展方向就是在現(xiàn)有的搜索引擎的基礎(chǔ)上運(yùn)用和增設(shè)多元搜索。中文集成搜索引擎是將整個互聯(lián)網(wǎng)作為一個超大型的動態(tài)數(shù)據(jù)庫,并采用了一系列的優(yōu)化運(yùn)行機(jī)制,能夠在盡可能短的時間內(nèi)提供相對全面、準(zhǔn)確的信息,即使不能完全滿足用戶需求,仍可以作為相對可靠的參考源進(jìn)行擴(kuò)展搜索,因此逐漸成為網(wǎng)絡(luò)信息檢索的首選入口。2.中文集成搜索引擎及特點(diǎn)目前,有多家中文網(wǎng)站采用了集成搜索引擎,這些集成搜索引擎的突出特點(diǎn)是:智能化的中文語言處理技術(shù)大大提高了搜索的準(zhǔn)確性與查全率;可擴(kuò)展的搜索技術(shù)保證最快最多地收集網(wǎng)絡(luò)信息,構(gòu)建大規(guī)模索引庫;高效的搜索算法和本地服務(wù)器保證最快的響應(yīng)速度,一個檢索的平均響應(yīng)時間小于0.18秒;支持動態(tài)網(wǎng)頁的檢索。目前,有多家中文網(wǎng)站采用了集成搜索引擎,這些集成搜索引擎的突2.3常用中英文搜索引擎及檢索策略2.3.1常用中文搜索引擎2.3.2常用英文搜索引擎2.3.3特殊的專門搜索引擎2.3.4網(wǎng)絡(luò)信息檢索策略2.3常用中英文搜索引擎及檢索策略2.3.1常用中文搜索2.3.1常用中文搜索引擎1.搜狐
搜狐(/)提供分類目錄網(wǎng)站檢索,搜集范圍以中國為主,收錄較豐富,還加入了部分英文網(wǎng)站,分類較科學(xué),類目縝密。它也是第一個針對國內(nèi)中文網(wǎng)頁的搜索引擎,此外它還包括新聞信息、多媒體文件下載、網(wǎng)上調(diào)查、免費(fèi)電子郵件等其他服務(wù)。圖2-1是搜狐的主頁。2.3.1常用中文搜索引擎1.搜狐圖2-1“搜狐”搜索引擎的主頁圖2-1“搜狐”搜索引擎的主頁2.新浪新浪(/)提供分類目錄、網(wǎng)站檢索以及全文檢索,搜集范圍遍及全球中文網(wǎng)站,收錄非常豐富;分類規(guī)范,層次合理;全文檢索為AltaVista、IPO提供支持;但復(fù)雜條件查詢較弱;可提供熱門關(guān)鍵詞查詢等新方式。圖2-2是新浪的主頁。2.新浪圖2-2“新浪”搜索引擎的主頁圖2-2“新浪”搜索引擎的主頁3.網(wǎng)易網(wǎng)易(/)提供較豐富的分類目錄、網(wǎng)站檢索及FTP檢索,范圍以中國為主收錄富,目錄較嚴(yán)密;提供新聞等其他服務(wù),網(wǎng)易主站另有“網(wǎng)站導(dǎo)航”欄目,分類列舉推薦網(wǎng)站。圖2-3是網(wǎng)易的主頁。3.網(wǎng)易圖2-3“網(wǎng)易”搜索引擎的主頁圖2-3“網(wǎng)易”搜索引擎的主頁4.263搜索263搜索(/)。屬首都在線所有,提供分類目錄和網(wǎng)站檢索,資料較豐富,復(fù)雜條件查詢功能強(qiáng)――可限制時間、語言(簡、繁)、查詢網(wǎng)站或提要等,并可直達(dá)所查到的網(wǎng)站;另提供新聞及檢索等服務(wù)。圖2-4是263的主頁。4.263搜索圖2-4“263”搜索引擎的主頁圖2-4“263”搜索引擎的主頁5.其他中文搜索引擎天網(wǎng)(:8000/gbindex.htm)悠游(/)搜索客(/)常青藤(/)中國導(dǎo)航(/)“我是野虎”(/)若比鄰(/)1608搜網(wǎng)(/)hi2000(/)5.其他中文搜索引擎2.3.2常用英文搜索引擎1.Yahoo!Yahoo!搜索引擎之王,是最早的目錄索引之一,也是目前最重要的搜索服務(wù)網(wǎng)站,在全部互聯(lián)網(wǎng)搜索應(yīng)用中所占份額高達(dá)23%左右。其數(shù)據(jù)庫中的注冊網(wǎng)站無論是在形式上還是內(nèi)容上質(zhì)量都非常高。圖2-5是YAHOO!的主頁。2.3.2常用英文搜索引擎1.Yahoo!圖2-5YAHOO!的主頁圖2-5YAHOO!的主頁2.AltaVistaAltaVista是功能全面的搜索引擎,是最重要和功能最完善的搜索引擎之一,屬于全文搜索引擎。提供常規(guī)搜索、高級搜索和主題搜索,主題包括圖象(Images)、MP3/Audio&Video等。允許以25種不同的語言進(jìn)行搜索,并提供英、法、德、意、葡萄牙、西班牙語雙向翻譯。其他特色服務(wù)包括重大新聞(發(fā)生于6小時至14天之間),新聞組及購物查詢。圖2-6是AltaVista的主頁。2.AltaVista圖2-6AltaVista搜索引擎的主頁圖2-6AltaVista搜索引擎的主頁3.ExciteExcite數(shù)據(jù)庫中存有2.5億張網(wǎng)頁及媒體文件,并且檢索Usenet新聞。此外還提供總數(shù)達(dá)15萬種的主題分類查詢(實(shí)際上是定制的關(guān)鍵詞搜索)。提供常規(guī)及高級搜索。操作界面提供了11種語言供選擇,此外還可以在國別列表中選定某個國家或地區(qū),以及限定域名后綴(如“cn”或“tw”等)進(jìn)行一定區(qū)域范圍的搜索。Excite提供了很好的概念延伸查詢,能列出比輸入的關(guān)鍵詞更具體的相關(guān)領(lǐng)域供用戶選擇查詢。圖2-7是excite主頁。3.Excite圖2-7Excite搜索引擎的主頁圖2-7Excite搜索引擎的主頁4.GoogleGoogle是現(xiàn)在非常流行的搜索引擎之一,它具有很多獨(dú)特的優(yōu)點(diǎn)。有關(guān)中文Google的使用方法將在本書第五章中介紹。4.Google圖2-8Google搜索引擎的主頁圖2-8Google搜索引擎的主頁5.其他英文搜索引擎(1)LookSmart也是主要的目錄索引之一,向包括MSN、AltaVista、Excite等在內(nèi)的其他搜索引擎提供搜索內(nèi)容。與ODP一樣,其注冊網(wǎng)站在合作伙伴搜索結(jié)果中排位往往也靠前。LookSmart在網(wǎng)站結(jié)構(gòu)和內(nèi)容上與其他目錄索引大同小異,其目錄中的網(wǎng)站排列也是根據(jù)字母順序。它使用Inktomi的數(shù)據(jù)庫提供二級網(wǎng)頁搜索。圖2-8是LOOKSMART搜索引擎的主頁。5.其他英文搜索引擎圖2-8LOOKSMART搜索引擎的主頁圖2-8LOOKSMART搜索引擎的主頁(2)LYCOS搜索引擎中的元老,是最早提供信息搜索服務(wù)的網(wǎng)站之一。Lycos整合了搜索數(shù)據(jù)庫、在線服務(wù)和其他互聯(lián)網(wǎng)工具,提供網(wǎng)站評論、圖象及包括MP3在內(nèi)的壓縮音頻文件下載鏈接等等。提供常規(guī)及高級搜索。高級搜索提供多種選擇定制搜索條件,并允許針對網(wǎng)頁標(biāo)題、地址進(jìn)行檢索。具有多語言搜索功能,共有25種語言供選擇。首頁下部顯示部分OpenDirectory的目錄索引。圖2-9是LYCOS搜索引擎的主頁。(2)LYCOS圖2-9LYCOS搜索引擎的主頁圖2-9LYCOS搜索引擎的主頁2.3.3特殊的專門搜索引擎1).tw:8080/news(新聞組搜索)2).tw/service/nslookup2.phtmlIP(地址查詢)3).tw/cd/(古典CD搜索)4).tw/search/search/search.htm(世界歌手搜索)5).tw/search/(商業(yè)貿(mào)易搜索)6)/gb/(全球華人尋人)7)/chig/home.html?language=1(中華大黃頁)2.3.3特殊的專門搜索引擎1)http://dunsi2.3.4網(wǎng)絡(luò)信息檢索策略1.基本指導(dǎo)思想
要完成一個有效搜索,首先應(yīng)當(dāng)確定要搜索的是什么。當(dāng)檢索概念較泛,尚未形成一明確專指的檢索概念時,可先用主題指南的合適類目進(jìn)行逐級瀏覽,直到發(fā)現(xiàn)最相關(guān)的網(wǎng)址。如需進(jìn)一步檢索,再從這些網(wǎng)址中尋找合適的檢索詞,利用元搜索引擎或獨(dú)立搜索進(jìn)行縮檢。當(dāng)用戶已知檢索詞,但對獨(dú)立搜索引擎不熟悉或想節(jié)省在多個獨(dú)立搜索引擎之間的轉(zhuǎn)換時間,可選用元搜索引擎作試探性的起始檢索,了解網(wǎng)上是否有相關(guān)信息以及在哪里可找到這些信息,然后再利用獨(dú)立搜索引擎進(jìn)行更全面、更深入的檢索。2.3.4網(wǎng)絡(luò)信息檢索策略1.基本指導(dǎo)思想2.查詢策略不同目的的查詢應(yīng)使用不同的查詢策略,這主要取決于是想得到一個問題的多方面信息還是簡單的答案。要進(jìn)行有效的搜索,最好輸入與主題相關(guān)的、盡可能精確的詞或詞組。提供的詞組越精確,檢索結(jié)果就越好。同時,應(yīng)通過不同詞組的檢索,逐漸縮小搜索范圍。在使用搜索引擎時,掌握常用搜索引擎的特性,充分利用它們各自的優(yōu)點(diǎn),往往可以得到最佳及最快捷的查詢結(jié)果。2.查詢策略3.分步細(xì)化逐步接近查詢結(jié)果如果我們想查找某一類信息但又找不到合適的關(guān)鍵詞時,就可以使用分類式搜索逐步深化,這樣也可以得到的較為滿意的結(jié)果。3.分步細(xì)化逐步接近查詢結(jié)果4.模糊查詢和精確查詢模糊查詢又稱為智能查詢。當(dāng)我們輸入一個關(guān)鍵詞時,搜索引擎不但反饋包括了關(guān)鍵詞的網(wǎng)址,同時也發(fā)來與關(guān)鍵詞意義相近的內(nèi)容。模糊查詢往往反饋來大量不需要的信息,如果想精確地只查某一個關(guān)鍵詞,則可以使用精確查詢功能。精確查詢一般是在文字框中輸入關(guān)鍵詞時,加一對雙引號。用邏輯條件限制這一功能允許我們一次輸入多個關(guān)鍵詞,而且,各關(guān)鍵詞之間的關(guān)系可以是“和”、“或”、“非”(and、or、not)等基本布爾操作符。4.模糊查詢和精確查詢圖2-10揚(yáng)子人才熱線的模糊檢索及相關(guān)符號使用說明圖2-10揚(yáng)子人才熱線的模糊檢索及相關(guān)符號使用說明5.網(wǎng)絡(luò)信息檢索的流程(1)基本檢索途徑:1)利用網(wǎng)頁上列出的分類目錄進(jìn)行檢索。2)利用關(guān)鍵詞進(jìn)行檢索。3)利用機(jī)構(gòu)檢索網(wǎng)站。5.網(wǎng)絡(luò)信息檢索的流程(2)條件檢索1)簡單條件檢索。所謂簡單條件檢索,即用鼠標(biāo)點(diǎn)選檢索框下方所列出的幾組簡單的檢索條件。2)區(qū)域條件檢索。所謂區(qū)域條件檢索,即在檢索前選擇一定的區(qū)域或條件。(2)條件檢索3)參數(shù)條件檢索所謂參數(shù)條件線索,即由檢索詞與檢索運(yùn)算符組成檢索表達(dá)式進(jìn)行查詢。檢索運(yùn)算符主要有:“+”:表示多個關(guān)鍵字間“邏輯與”的關(guān)系?!啊保罕硎径鄠€關(guān)鍵字間“邏輯非”的關(guān)系?!啊保罕硎径鄠€關(guān)鍵字間或的關(guān)系?!?”:通配符。例如,輸入:“上海*大學(xué)”,則檢索結(jié)果包含符合“上海某某大學(xué)”的記錄。在關(guān)鍵詞前加“T:”:表示僅搜索網(wǎng)站、網(wǎng)頁的名稱。在關(guān)鍵詞前加“U:”:表示僅搜索網(wǎng)站、網(wǎng)頁的URL。3)參數(shù)條件檢索(3)漸進(jìn)檢索1)基于目錄的漸進(jìn)檢索。從搜索引擎網(wǎng)站主頁選擇類目進(jìn)入,輸入檢索詞后按“漸進(jìn)”按鈕,則檢索范圍即為“當(dāng)前目錄”而非“全部目錄”。2)基于前次檢索結(jié)果的漸進(jìn)檢索。即在前次查詢結(jié)果的范圍內(nèi),再進(jìn)一步進(jìn)行指定檢索詞的查詢。在鍵入檢索詞后,按下“漸近”按鈕即可。(4)高級檢索1)同義詞檢索。同義詞檢索功能指系統(tǒng)會按你所輸入的檢索詞及其同義詞檢索符合條件的記錄。2)上位詞檢索。上位詞檢索功能指系統(tǒng)會按所輸入的檢索詞或其上位詞進(jìn)行檢索符合條件的記錄。(3)漸進(jìn)檢索2.4網(wǎng)上多媒體信息檢索系統(tǒng)目前的多媒體信息檢索水平還很低,還脫離不了文字檢索的查詢功能都很強(qiáng),但檢索圖像和聲音仍然固定思路。盡管現(xiàn)在的全文檢索和結(jié)構(gòu)化受到很大限制。在這種情況下,就需要開發(fā)專門的圖像和聲音的檢索系統(tǒng)。由于信息網(wǎng)絡(luò)化、資源多媒體化日漸深入的原因,網(wǎng)絡(luò)檢索新技術(shù)的研究和應(yīng)用也日新月異,必將極大地促進(jìn)網(wǎng)絡(luò)多媒體信息檢索技術(shù)的發(fā)展。2.4網(wǎng)上多媒體信息檢索系統(tǒng)目前的多媒體信息檢索水平還很低2.5經(jīng)濟(jì)信息檢索系統(tǒng)2.5.1我國經(jīng)濟(jì)信息網(wǎng)絡(luò)化的現(xiàn)狀2.5.2經(jīng)濟(jì)信息數(shù)據(jù)庫移植上網(wǎng)2.5經(jīng)濟(jì)信息檢索系統(tǒng)2.5.1我國經(jīng)濟(jì)信息網(wǎng)絡(luò)化的現(xiàn)狀2.5.1我國經(jīng)濟(jì)信息網(wǎng)絡(luò)化的現(xiàn)狀1997年以來,我國經(jīng)濟(jì)信息網(wǎng)的發(fā)展表現(xiàn)出以下特點(diǎn):1)經(jīng)濟(jì)信息網(wǎng)數(shù)量多。2)覆蓋面廣。首先是地域覆蓋面廣,其次是行業(yè)覆蓋面廣。3)類型多樣。我國現(xiàn)已建成并開始提供服務(wù)的經(jīng)濟(jì)信息網(wǎng)既有綜合性的又有專業(yè)性的,既有公益性的又有商業(yè)性的,既有提供一次經(jīng)濟(jì)信息服務(wù)的又有提供信息分析預(yù)測服務(wù)的。2.5.1我國經(jīng)濟(jì)信息網(wǎng)絡(luò)化的現(xiàn)狀1997年以來,我國經(jīng)2.5.2經(jīng)濟(jì)信息數(shù)據(jù)庫移植上網(wǎng)20世紀(jì)90年代,我國開展了以數(shù)據(jù)庫為重點(diǎn)的信息資源調(diào)查,結(jié)果表明我國當(dāng)時已有1038個自建的數(shù)據(jù)庫,其中經(jīng)濟(jì)類數(shù)據(jù)庫297個,數(shù)據(jù)庫在數(shù)量、質(zhì)量、容量等各方面指標(biāo)較以往有了長足的進(jìn)步。隨著Internet的發(fā)展與應(yīng)用,我國的經(jīng)濟(jì)信息數(shù)據(jù)庫才開始紛紛移植上網(wǎng),開展聯(lián)機(jī)服務(wù)等。這在一定程度上,克服了光盤檢索的不足,擴(kuò)大了數(shù)據(jù)庫的規(guī)模及服務(wù)范圍,使經(jīng)濟(jì)信息共享更加充分。2.5.2經(jīng)濟(jì)信息數(shù)據(jù)庫移植上網(wǎng)20世紀(jì)90年代,我國開Internet豐富的信息資源,快捷的信息傳播以及龐大的用戶群,也給企業(yè)提供了無限商機(jī)。企業(yè)利用網(wǎng)絡(luò)搜集并發(fā)布經(jīng)濟(jì)信息,能使企業(yè)在市場上獲得更多的有效信息以及更大的主動性等,因此,有戰(zhàn)略眼光的企業(yè)紛紛在網(wǎng)上建立自己的站點(diǎn),宣傳本企業(yè)的文化形象,提高企業(yè)的知名度。雖然我國經(jīng)濟(jì)信息網(wǎng)數(shù)量多、規(guī)模和內(nèi)容的側(cè)重點(diǎn)也各不相同,但卻存在信息交叉重復(fù)的問題,給經(jīng)濟(jì)信息的查詢與利用造成了不少障礙。因此,建立界面友好、檢索方便、內(nèi)容詳盡準(zhǔn)確的我國的網(wǎng)絡(luò)化經(jīng)濟(jì)信息導(dǎo)航系統(tǒng)迫在眉睫。這類網(wǎng)站的建立可以大大提高我國網(wǎng)絡(luò)化經(jīng)濟(jì)信息資源的利用效率,也為我國下一步經(jīng)濟(jì)信息網(wǎng)絡(luò)化的發(fā)展提供可靠動力。Internet豐富的信息資源,快捷的信息傳播以及龐大的用戶2.6互聯(lián)網(wǎng)科技信息資源檢索類型2.6.1國外科技資源站點(diǎn)2.6.2國內(nèi)科技資源站點(diǎn)2.6互聯(lián)網(wǎng)科技信息資源檢索類型2.6.1國外科技資源站2.6.1國外科技資源站點(diǎn)1.Clearinghause互聯(lián)網(wǎng)學(xué)科資源指南Clearinghause的互聯(lián)網(wǎng)學(xué)科資源指南是美國密執(zhí)根大學(xué)圖書館和情報學(xué)院(SILS)聯(lián)合提供的服務(wù),它收集和整理了互聯(lián)網(wǎng)上的科技資源和信息,并按學(xué)科分類向用戶提供各種資源的指南。該指南的URL地址是:Gopher:gopher:///1/inetdirs
路徑為Guides
On
the
scienceWWW:/lou.chome.html該指南所包括的學(xué)科分為人文科學(xué)、社會科學(xué)和自然科學(xué)3大類,指南信息來源于互聯(lián)網(wǎng)用戶以及SILS參加“發(fā)掘互聯(lián)網(wǎng)資源”研究項(xiàng)目的學(xué)生。2.6.1國外科技資源站點(diǎn)1.Clearinghaus2.OCLC(OnlineComputerLibraryCenter,聯(lián)機(jī)計算機(jī)圖書館中心)OCLC(/)是一個非營利的成員組織,其存在的目的是為了促進(jìn)世界各地成千上萬所圖書館和信息中心的合作,并存取全世界的信息。OCLC是世界上最大的圖書館及信息中心,擁有世界上最大的書目數(shù)據(jù)庫,提供文獻(xiàn)記錄和館藏地點(diǎn)信息,以幫助數(shù)萬家OCLC用戶更好地進(jìn)行聯(lián)合編目和資源共享。2.OCLC(OnlineComputerLibrar3.美國專利書目數(shù)據(jù)庫SPIE(USPatentBibliographicDataBase)的InCite數(shù)據(jù)庫SPIE的InCite數(shù)據(jù)庫(/)收集了20世紀(jì)90年代SPIE(包括期刊、會議兩部分)的論文和文摘,數(shù)據(jù)量超過9萬條。3.美國專利書目數(shù)據(jù)庫SPIE(USPatentBib4.科學(xué)引文索引科學(xué)引文索引(/)是美國科學(xué)情報研究所出版的《科學(xué)引文索引(SCI)》(ScienceCitationIndex)的網(wǎng)站,對世界上的3300多種學(xué)科的著名科學(xué)以及技術(shù)期刊上的論文進(jìn)行了收錄,是檢索某個作者的論文被其他論文引用情況的一種重要索引。并且某篇論文被別人引用的次數(shù)的多少以及能否被SCI收錄,已被公認(rèn)為評價該論文學(xué)術(shù)水平高低的一個指標(biāo)。4.科學(xué)引文索引2.6.2國內(nèi)科技資源站點(diǎn)1.中國科技信息網(wǎng)(CSTNet)
中國科技網(wǎng)的服務(wù)(/)主要包括網(wǎng)絡(luò)通信服務(wù)、域名注冊服務(wù)、信息資源服務(wù)和超級計算服務(wù)。中國科技網(wǎng)的科技信息資源有科學(xué)數(shù)據(jù)庫、中國科普博覽、科技成果、科技管理、技術(shù)資料、農(nóng)業(yè)資源和文獻(xiàn)情報等,總數(shù)據(jù)量達(dá)數(shù)百GB(1GB=1024MB)可以向國內(nèi)外用戶提供各種科技信息服務(wù)。2.6.2國內(nèi)科技資源站點(diǎn)1.中國科技信息網(wǎng)(CSTN2.中國科學(xué)院科學(xué)數(shù)據(jù)庫科學(xué)數(shù)據(jù)庫(/)是由中國科學(xué)院主辦,非常具有權(quán)威性的科技文獻(xiàn)網(wǎng)站。內(nèi)容涵蓋了基礎(chǔ)科學(xué)的方方面面。包括技術(shù)論壇、科技導(dǎo)航、在線教程、論文選編、網(wǎng)站地圖等幾個欄目。提供專業(yè)數(shù)據(jù)庫和非專業(yè)數(shù)據(jù)庫兩種科技數(shù)據(jù)庫的檢索。3.中國專利信息檢索系統(tǒng)中國專利信息檢索系統(tǒng)(/)共提供了11個檢索入口,并允許各個檢索條件之間進(jìn)行復(fù)雜的邏輯運(yùn)算。4.中國專利信息網(wǎng)中國專利信息網(wǎng)(/)由中國專利局檢索咨詢中心與長通飛華信息技術(shù)有限公司共同開發(fā)創(chuàng)建。中國專利信息網(wǎng)向社會公眾提供全方位的專利信息檢索和查詢服務(wù)。2.中國科學(xué)院科學(xué)數(shù)據(jù)庫上海理工大學(xué)電子商務(wù)研究所設(shè)計制作:王錫俊網(wǎng)絡(luò)信息檢索第二章上海理工大學(xué)電子商務(wù)研究所網(wǎng)絡(luò)信息檢索第二章第二章網(wǎng)絡(luò)信息檢索系統(tǒng)2.1網(wǎng)絡(luò)信息檢索概述2.2WorldWideWeb(WWW)檢索系統(tǒng)2.3常用中英文搜索引擎及檢索策略2.4網(wǎng)上多媒體信息檢索系統(tǒng)2.5經(jīng)濟(jì)信息檢索系統(tǒng)2.6互聯(lián)網(wǎng)科技信息資源檢索類型第二章網(wǎng)絡(luò)信息檢索系統(tǒng)2.1網(wǎng)絡(luò)信息檢索概述2.1網(wǎng)絡(luò)信息檢索概述2.1.1計算機(jī)檢索特點(diǎn)2.1.2網(wǎng)絡(luò)信息檢索工具及原理2.1.3網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢2.1網(wǎng)絡(luò)信息檢索概述2.1.1計算機(jī)檢索特點(diǎn)2.1.1計算機(jī)檢索特點(diǎn)隨著計算機(jī)技術(shù)、高密度海量存儲器技術(shù)和現(xiàn)代通信技術(shù)的發(fā)展,計算機(jī)檢索系統(tǒng)已經(jīng)成為世界上最先進(jìn)的信息檢索系統(tǒng)。它具有檢索速度快、檢索范圍廣而全面、檢索途徑多、質(zhì)量高、檢索內(nèi)容新等特點(diǎn)。由于計算機(jī)具有上述特點(diǎn),所以它廣泛應(yīng)用于信息管理中,如情報信息管理、圖書館資料管理、檔案館文件管理等方面。計算機(jī)信息檢索系統(tǒng)能存儲大量的信息,并對信息條目進(jìn)行分類、編目或編制索引;還可以根據(jù)用戶要求從已存儲的信息庫中調(diào)取出特定的信息,并提供插入、修改和刪除某些信息的能力。2.1.1計算機(jī)檢索特點(diǎn)隨著計算機(jī)技術(shù)、高密度海量存儲器技1.計算機(jī)檢索系統(tǒng)的發(fā)展過程第一階段,1971年以前,開始建立計算機(jī)信息檢索系統(tǒng),并取得了一定的進(jìn)展。這一階段的數(shù)據(jù)存取與數(shù)據(jù)通信能力都比較差。第二階段,1971年以后,產(chǎn)生并發(fā)展了聯(lián)機(jī)情報檢索系統(tǒng)。這一階段的特點(diǎn)是聯(lián)機(jī)數(shù)據(jù)庫集中管理,具有完備的數(shù)據(jù)庫聯(lián)機(jī)檢索功能,但其數(shù)據(jù)通信能力較差。第三階段,20世紀(jì)80年代以后,出現(xiàn)了以Internet為標(biāo)志的網(wǎng)絡(luò)信息檢索系統(tǒng)。系統(tǒng)大多采用分布式的網(wǎng)絡(luò)化管理,其信息資源的主要特點(diǎn)是:數(shù)字形式表達(dá)、多媒體和多載體、內(nèi)容覆蓋面廣、分布無序、難于規(guī)范化和結(jié)構(gòu)化、內(nèi)容特征抽取復(fù)雜、用戶界面要求高等。1.計算機(jī)檢索系統(tǒng)的發(fā)展過程第四階段,進(jìn)入21世紀(jì)后,隨著連續(xù)性語音識別技術(shù)的不斷發(fā)展,計算機(jī)信息檢索系統(tǒng)跨入一個新的階段。在前三個階段的基礎(chǔ)上,信息檢索技術(shù)正向兩個新的方向發(fā)展:一是傳統(tǒng)信息檢索向全文文本、多媒體等新型信息檢索發(fā)展,在深度上應(yīng)能對提問的內(nèi)容進(jìn)行分析和理解,提高查準(zhǔn)率,探索自動抽詞、自動索引、自動檢索、自動文摘、自動分類、自動翻譯等解決方案,提高管理和組織信息的能力;二是信息資源的網(wǎng)絡(luò)化和分布化,主要面對Internet中浩瀚無垠的資源,提高查全率。第四階段,進(jìn)入21世紀(jì)后,隨著連續(xù)性語音識別技術(shù)的不斷發(fā)展,2.基于概念的信息檢索系統(tǒng)基于概念的信息檢索是通過對文獻(xiàn)中的原文信息進(jìn)行語義上的自然語言處理,析取各種概念信息,并由此形成一個知識庫。然后,根據(jù)對用戶提問的理解,檢索知識庫中相關(guān)的信息,以提供直接的回答。2.基于概念的信息檢索系統(tǒng)(1)概念信息檢索的特性概念信息檢索具有分析和理解自然語言的能力。無論是向知識庫的自然語言輸入,還是對系統(tǒng)的自然語言提問,概念信息檢索都可以通過分析和理解,得到自然語言原文的內(nèi)容。概念信息檢索可以對輸入的原文根據(jù)其概念內(nèi)容進(jìn)行組織和安排,而不是根據(jù)關(guān)鍵詞檢索。概念信息檢索可以進(jìn)行語義層次上的自然語言處理,以析取相關(guān)的概念信息和范疇知識;然后,通過記憶機(jī)制將它們存儲到知識庫中,以備檢索之用。(1)概念信息檢索的特性概念信息檢索的記憶機(jī)制能夠自動補(bǔ)充與更新。同時,存儲在知識庫中的概念信息和范疇知識也能得到補(bǔ)充與更新,且補(bǔ)充與更新的新信息與新知識能恰當(dāng)?shù)貧w類到相應(yīng)的范疇之中。概念信息檢索具有使用自然語言回答用戶提問的能力。這種能力包括從自然語言原文的概念內(nèi)容中析取檢索要點(diǎn),通過記憶機(jī)制檢查某個特別的范疇,以獲取必需的背景知識,以及通過對知識庫中存儲的其它概念信息進(jìn)行分析和理解,并回答用戶的提問。概念信息檢索的記憶機(jī)制能夠自動補(bǔ)充與更新。同時,存儲在知識庫(2)概念信息檢索系統(tǒng)的結(jié)構(gòu)概念信息檢索系統(tǒng)的結(jié)構(gòu)一般分為:記憶機(jī)制部分。存儲原文內(nèi)容或概念,能自動更新。語言分析機(jī)制部分。運(yùn)用自然語言處理技術(shù),從語義層次上分析和理解文本內(nèi)容及用戶提問內(nèi)容。知識庫部分。通過分析機(jī)制和記憶機(jī)制,獲取關(guān)于檢索和推理的知識。人機(jī)接口部分。輸入原文內(nèi)容及用戶提問,輸出自然語言形式的檢索結(jié)果。(2)概念信息檢索系統(tǒng)的結(jié)構(gòu)(3)應(yīng)用系統(tǒng)CyFr系統(tǒng)。CyFr系統(tǒng)是Schank、Kolodner和DeJong于1981年根據(jù)概念信息檢索理論建立的系統(tǒng),用于處理與美國前國務(wù)卿范斯(Vance)有關(guān)的新聞。Researcher系統(tǒng)。由Lebowitz于1983年在哥倫比亞大學(xué)研制,用于閱讀和理解用自然語言形式輸入的專利文獻(xiàn)摘要。還有由McCune和Tong研制的Rubric系統(tǒng),是用來檢索與恐怖行為概念有關(guān)的文獻(xiàn)。美國通用電器公司人工智能研究室的Ran1987年建立的SCICOR系統(tǒng)、美國卡內(nèi)基梅隆大學(xué)機(jī)器翻譯中心1991年完成的FERRET系統(tǒng)。(3)應(yīng)用系統(tǒng)3.超文本信息檢索系統(tǒng)以超文本網(wǎng)絡(luò)為基礎(chǔ)的文獻(xiàn)檢索系統(tǒng)。正文信息是以節(jié)點(diǎn)而不是以字符串作為信息的基本單元,節(jié)點(diǎn)間通過鏈進(jìn)行連接。在檢索文獻(xiàn)時,節(jié)點(diǎn)間的多種鏈接關(guān)系可以動態(tài)地選擇性激發(fā),從而可根據(jù)思維聯(lián)想或新信息的需要,通過鏈從一個節(jié)點(diǎn)跳到另一個節(jié)點(diǎn),由此形成隨著人們思維和需要的流動而構(gòu)成的數(shù)據(jù)鏈,體現(xiàn)出一種完全不同于過去順序檢索方式的聯(lián)想式檢索。3.超文本信息檢索系統(tǒng)(1)設(shè)計思想一般是基于引導(dǎo)瀏覽的檢索系統(tǒng)。其設(shè)計思想是:屏幕上的窗口與數(shù)據(jù)庫中的卡片相對應(yīng),卡片是數(shù)據(jù)庫中的基本信息單元,即節(jié)點(diǎn)??ㄆg通過鏈路即數(shù)據(jù)庫中的指針相連接,在窗口中則以高亮度的關(guān)鍵字為標(biāo)志。(2)超文本系統(tǒng)結(jié)構(gòu)與模型超文本系統(tǒng)結(jié)構(gòu)模型主要采用Combell、Goodman及Dexter模型。其中Combell與Goodman模型都具有表現(xiàn)層、抽象機(jī)制和數(shù)據(jù)庫層三層結(jié)構(gòu),而Dexter模型的結(jié)構(gòu)則為運(yùn)行層、表現(xiàn)描述層、存儲層、錨定點(diǎn)機(jī)制及內(nèi)部組件層五層。從描述超文本信息的組織結(jié)構(gòu)來看,可分為基于圖論的模型、基于網(wǎng)論的模型、基于邏輯模型、基于集論的模型。(1)設(shè)計思想(3)應(yīng)用系統(tǒng)目前已建立了多個基于超文本的信息檢索系統(tǒng),如AltaVista、WebCrawler、Yahoo!、Lycos、OpenText、Infoseek等著名的網(wǎng)絡(luò)檢索系統(tǒng)。這些系統(tǒng)檢索速度快,數(shù)據(jù)資料新,具備多種查詢方式,極大地方便了用戶使用Internet,提高了全文檢索的查全率。(3)應(yīng)用系統(tǒng)4.計算機(jī)全文檢索的進(jìn)一步研究全文檢索(FullTextRetrieval)是指以全文本信息作為檢索對象,建立全文數(shù)據(jù)庫,除了具有布爾邏輯檢索功能外,還具有文本檢索功能,并允許用戶以自然語言檢索,直接獲得原文中的有關(guān)章節(jié)和段句。全文檢索技術(shù)應(yīng)用領(lǐng)域主要包括:企業(yè)信息門戶、媒體網(wǎng)站、政府網(wǎng)站、數(shù)字圖書館、搜索引擎及商業(yè)網(wǎng)站。4.計算機(jī)全文檢索的進(jìn)一步研究2.1.2網(wǎng)絡(luò)信息檢索工具及原理1.網(wǎng)絡(luò)信息檢索工具發(fā)展概述
20世紀(jì)70年代,開發(fā)了許多種類的情報(信息)檢索軟件,形成了軟件開發(fā)研究和情報科學(xué)研究的一個相對獨(dú)立的分支:情報檢索。隨著Internet的不斷擴(kuò)張,網(wǎng)絡(luò)信息檢索工具(NetworkedInformationRetrievalTools)的新型檢索工具便應(yīng)運(yùn)而生了。2.1.2網(wǎng)絡(luò)信息檢索工具及原理1.網(wǎng)絡(luò)信息檢索工具發(fā)展網(wǎng)絡(luò)檢索工具的研究與開發(fā),使原來的“情報檢索”這一學(xué)科分支產(chǎn)生了新的分支“網(wǎng)絡(luò)信息檢索”(NIR,NetworkedInformationRetrieval)。Internet上信息資源的迅猛增長使主管Internet的技術(shù)問題的Internet工程特別工作小組(IETF,InternetEngineeringTaskForce)對網(wǎng)絡(luò)信息檢索給予了充分重視。IETF與歐洲科研網(wǎng)絡(luò)協(xié)會(RARE-AssociationofEuropeanResearchNetworks)和網(wǎng)絡(luò)信息聯(lián)盟(CNI-CoalitionforNetworkedInformation)聯(lián)合組建了“網(wǎng)絡(luò)信息檢索工作小組”(NIRWorkingGroup)。主要任務(wù)是:收集和發(fā)布網(wǎng)絡(luò)信息檢索工具及其研究團(tuán)體的信息;鼓勵合作開發(fā)網(wǎng)絡(luò)信息檢索工具;協(xié)調(diào)網(wǎng)絡(luò)信息檢索工具開發(fā)單位、有關(guān)聯(lián)網(wǎng)機(jī)構(gòu)和網(wǎng)絡(luò)信息檢索工具的生產(chǎn)銷售廠商的行動。網(wǎng)絡(luò)檢索工具的研究與開發(fā),使原來的“情報檢索”這一學(xué)科分支產(chǎn)目前在Internet上運(yùn)行的網(wǎng)絡(luò)檢索工具可分為三大類:交互式信息提供服務(wù)(InteractiveInformationDeliveryServices);名錄服務(wù)(DirectoryServices);索引服務(wù)(IndexingServices)。目前在互聯(lián)網(wǎng)運(yùn)行的交互式信息服務(wù)軟件主要基于WWW和Gopher,名錄服務(wù)軟件主要基于WHOIS、NETFIND和X.500,索引服務(wù)軟件主要基于Archie、Veronica、Jughead和WAIS。交互式信息檢索工具一般為用戶提供友好的交互操作界面,并具備交互瀏覽信息的功能,信息在網(wǎng)絡(luò)上的存放方式以及如何取得信息,對使用者都是透明的。菜單式查詢系統(tǒng)Gopher是Internet上較早出現(xiàn)的一種交互信息查詢工具。WWW系統(tǒng)是近年來發(fā)展的最重要的一種交互信息查詢工具,也是迄今用戶最多和使用最為方便的工具。目前在Internet上運(yùn)行的網(wǎng)絡(luò)檢索工具可分為三大類:索引式信息檢索工具是通過對信息資源文件建立的索引查找文件的所在位置,以便用其他檢索工具進(jìn)一步獲取信息文件。此外,Internet上還產(chǎn)生大量基于電子郵件交換的信息。這類信息獲取系統(tǒng)包括電子公告板系統(tǒng)、電子郵件通信組、網(wǎng)絡(luò)專題消息、電子刊物以及網(wǎng)絡(luò)廣告等。索引式信息檢索工具是通過對信息資源文件建立的索引查找文件的所2.菜單式查詢系統(tǒng)(Gopher)Gopher是一種按“菜單”形式組織的分布式文檔查詢系統(tǒng),1991年在美國Minnesota大學(xué)發(fā)展起來。開始用于校園網(wǎng),后來推廣到Internet。Gopher為用戶查詢信息提供一個多級的菜單界面,只需按照菜單指示的路徑就能獲取想要的信息,使用非常方便。2.菜單式查詢系統(tǒng)(Gopher)3.廣域信息服務(wù)系統(tǒng)(WAIS)WAIS(WideAreaInformationSystem)以各種文本數(shù)據(jù)文件為檢索對象(信息源),融匯了Archie、newsgroup等的信文件在內(nèi)的各類信息。目前,Internet上已建立了幾千個提供檢索服務(wù)的WAIS服務(wù)器,成為整個Internet網(wǎng)絡(luò)文本式信息資源的檢索工具。用WAIS檢索信息可分兩步進(jìn)行:第一步,先從信息源(文件題目)列表選擇檢索對象;第二步,在選定范圍內(nèi)通過文件的關(guān)鍵詞查找文件。3.廣域信息服務(wù)系統(tǒng)(WAIS)4.網(wǎng)絡(luò)文件搜索系統(tǒng)(Archie)由于Internet所包含的信息量驚人,用戶很難了解某類信息在Internet上的分布情況,或者某個具體軟件存儲在哪一個主機(jī)結(jié)點(diǎn)上。Archie可以使用戶能夠查詢信息資源的存放地址,以便能夠從特定場所的服務(wù)器中獲取各種感興趣的或者有用的信息。Archie與WAIS不同,后者除查詢信息存放地址之外,還可以進(jìn)一步顯示與瀏覽信息文件的內(nèi)容。4.網(wǎng)絡(luò)文件搜索系統(tǒng)(Archie)2.1.3網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢目前,網(wǎng)絡(luò)信息檢索技術(shù)正在向兩個方向發(fā)展:一是傳統(tǒng)信息檢索向全文文本、多媒體等新型信息檢索發(fā)展,在深度上能對提問的內(nèi)容進(jìn)行分析和理解,提高查準(zhǔn)率,探索自動抽詞、自動索引、自動檢索、自動文摘、自動分類、自動翻譯等解決方案,提高管理和組織信息的能力;二是信息資源的網(wǎng)絡(luò)化和分布化,面對Internet中浩瀚無垠的資源,提高查全率。2.1.3網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢目前,網(wǎng)絡(luò)信息檢索技術(shù)網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢突出表現(xiàn)出以下特點(diǎn):支持主題指南的搜索引擎。增加特色服務(wù),提供全方位的信息服務(wù)。本地化服務(wù)。提供多媒體檢索功能。多語種檢索。推廣利用信息新技術(shù)。商業(yè)化發(fā)展趨勢。網(wǎng)絡(luò)信息檢索工具的發(fā)展趨勢突出表現(xiàn)出以下特點(diǎn):2.2WorldWideWeb(WWW)
檢索系統(tǒng)2.2.1WWW發(fā)展簡介2.2.2WWW上的“搜索引擎”2.2.3搜索引擎的類型與特點(diǎn)2.2.4中文搜索引擎的現(xiàn)狀及發(fā)展2.2WorldWideWeb(WWW)
2.2.1WWW發(fā)展簡介WWW是一種基于超文本(Hypertext)文件的交互式瀏覽型檢索工具。WWW是1989年由歐洲核物理研究中心(CERN)的TimeBerners-Lee提出的一個研究項(xiàng)目,其目的是向國際高能物理研究界提供一個在計算網(wǎng)上用超文本方式傳送文件和相互進(jìn)行通信的工具。1990年底,第一個WWW軟件被安裝在一臺NeXT機(jī)器上。用戶可用它在Internet網(wǎng)上瀏覽、傳遞和編輯超文本格式的文件。1992年以后,經(jīng)過Tim本人的不懈努力,WWW概念日益深入人心。全世界有數(shù)百名志愿者無償?shù)赝度腴_發(fā)和推廣WWW軟件的工作。2.2.1WWW發(fā)展簡介WWW是一種基于超文本(Hype現(xiàn)在WWW已成為全球性的軟件開發(fā)項(xiàng)目。由于全世界軟件人員的共同努力,WWW軟件不斷完善,并且增加了多媒體功能,成為具有超媒體(Hypermedia)功能的、網(wǎng)上最先進(jìn)的信息檢索工具。由于WWW的優(yōu)異性能,其用戶數(shù)量有了“爆發(fā)性”的增長。1996年,WWW的通信量已穩(wěn)居第一。許多原來只能通過Telnet、Gopher、Wais才能獲得的信息現(xiàn)在都可以通過WWW方便地獲得?,F(xiàn)在WWW已成為全球性的軟件開發(fā)項(xiàng)目。由于全世界軟件人員的共2.2.2WWW上的“搜索引擎”1.“搜索引擎”原理簡介
在美國,搜索引擎(SEARCHENGINE)通常指的是基于互聯(lián)網(wǎng)的搜索引擎,這種引擎收集互聯(lián)網(wǎng)上幾千萬到幾億個網(wǎng)頁數(shù)量不等,并且每一個網(wǎng)頁上的每一個詞都被搜索引擎所收錄,也就是“全文檢索”。典型的互聯(lián)網(wǎng)搜索引擎包括AltaVista、Inktomi、Infoseek、Google等。2.2.2WWW上的“搜索引擎”1.“搜索引擎”原理簡介搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計算機(jī)程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的倒排文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個檢索詞在一篇文章中出現(xiàn)的概率,對包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果?;ヂ?lián)網(wǎng)搜索引擎除了需要有全文檢索系統(tǒng)之外,還有“蜘蛛”(SPIDER)系統(tǒng),即能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的數(shù)據(jù)搜集系統(tǒng)。在中國,搜索引擎通常指的是基于網(wǎng)站目錄的搜索服務(wù)或是特定網(wǎng)站的搜索服務(wù)。前者如搜狐、新浪等公司開發(fā)的網(wǎng)站搜索服務(wù),后者如《人民日報》、《文匯報》網(wǎng)站上提供的全文檢索服務(wù)。搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計算機(jī)程序通過掃描每2.網(wǎng)絡(luò)搜索引擎的發(fā)展過程(1)第一代搜索引擎1)
Altavista(/)2)Infoseek(/)3)Excite(/)4)Lycos(/)2.網(wǎng)絡(luò)搜索引擎的發(fā)展過程(2)第二代搜索引擎只做后臺技術(shù)提供者與大量應(yīng)用人工智能是第二代搜索引擎的標(biāo)志。第一代的搜索引擎公司后來演變成了門戶網(wǎng)站,而第二代的搜索引擎廠商則成為像Inktomi、Google那樣給網(wǎng)站提供技術(shù)與服務(wù)的ASP,或是在技術(shù)上采用了人工智能技術(shù)的廠商,如Askjeeves、Directhit等。第二代搜索引擎廠商的特點(diǎn)是只做后臺技術(shù)的提供者。1)Inktomi(/)2)Askjeeves(/)3)Goto(/)4)Google(/)(2)第二代搜索引擎3.搜索引擎面臨的挑戰(zhàn)搜索引擎對自然語言提問沒有理解能力;所有著名的搜索引擎都不支持中文或是對中文的支持極弱;搜索引擎收集的網(wǎng)頁數(shù)量和其數(shù)據(jù)庫的更新速度存在著不可調(diào)和的矛盾;搜索引擎無法與電子商務(wù)緊密結(jié)合;搜索引擎對多媒體內(nèi)容的處理尚不成熟。3.搜索引擎面臨的挑戰(zhàn)4.新一代搜索引擎的特點(diǎn)AskJeeves。巧妙地將用戶提問轉(zhuǎn)化為系統(tǒng)已知的問題,然后對已知的問題進(jìn)行回答,降低了對自然語言理解技術(shù)的依賴性;B。第一個為中國人寫的商業(yè)化的互聯(lián)網(wǎng)搜索引擎,信息量大,相關(guān)性好,刷新率高,速度快;G。最先將拍賣的概念引入搜索引擎服務(wù),當(dāng)用戶檢索某些詞時,廣告商可以通過競拍使自己的網(wǎng)站在搜索結(jié)果中的排名提前,這就把電子商務(wù)的概念輕松地引入了搜索服務(wù)。MySimon。這是一個完全面向電子商務(wù)的搜索服務(wù),它對同一種商品按價格的高低進(jìn)行排序;Ditto。這是一個多媒體的搜索引擎,目前主要提供網(wǎng)上圖像的搜索,已收集了超過200萬個圖像,并且大多經(jīng)過人工的篩選,因而搜索結(jié)果質(zhì)量較高。4.新一代搜索引擎的特點(diǎn)5.搜索引擎的未來從1996年起,搜索引擎技術(shù)開始注重網(wǎng)頁質(zhì)量與相關(guān)性的結(jié)合,這主要是通過三種手段:對網(wǎng)上的超鏈結(jié)構(gòu)進(jìn)行分析,如Infoseek和Google;對用戶的點(diǎn)擊行為進(jìn)行分析,如Directhit(該公司被AskJeeves收購);與網(wǎng)站目錄相結(jié)合。最新的趨勢則是搜索的個性化和本地化:5.搜索引擎的未來2.2.3搜索引擎的類型與特點(diǎn)目前發(fā)展最為迅速、最受人們歡迎的信息檢索工具是WWW(互聯(lián)網(wǎng))上的檢索工具,主要分為兩類:主題指南和搜索引擎。其它檢索工具,有Gopher、Archie、WAIS等,它們分別用來查詢Gopher資源、FTP資源和WAIS資源。這些不同的工具為查詢各種信息提供了多種途徑。從最初的主題指南發(fā)展到獨(dú)立型搜索引擎、混合式搜索引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引擎功能不斷改進(jìn)、性能日趨完善、更趨向智能化的檢索特征。2.2.3搜索引擎的類型與特點(diǎn)目前發(fā)展最為迅速、最受人們歡1.主題指南主題指南是搜索引擎的最初表現(xiàn)形式。是人工建立的、結(jié)構(gòu)化的互聯(lián)網(wǎng)網(wǎng)址主題類目和子類目,按照字母、時間、地點(diǎn)、主題等順序進(jìn)行排列,使用戶通過瀏覽網(wǎng)絡(luò)站點(diǎn)列表,檢索有關(guān)信息。較為典型有Yahoo!、LookSmart、InfoMine等。主題指南由人工編制和維護(hù),因此在信息的收集、編排、HTML編碼以及信息注解等方面花費(fèi)大量的人力和時間。它強(qiáng)調(diào)的是瀏覽功能,優(yōu)點(diǎn)是采用人工干預(yù)提高了主題指南返回結(jié)果的相關(guān)性;缺點(diǎn)是很難檢索到較深的信息,難于控制主題等級類目的質(zhì)量,信息更新速度相對較慢,收錄信息數(shù)量相對不足。1.主題指南主題指南主要適用于:用戶進(jìn)行籠統(tǒng)或較籠統(tǒng)的主題瀏覽和檢索。當(dāng)用戶尚未形成很精確的檢索概念時,采用主題指南作為檢索起始點(diǎn)非常有效。除綜合性主題指南之外,為了適應(yīng)網(wǎng)上各種類型信息的發(fā)展變化,又出現(xiàn)了某些專業(yè)的主題指南,它由某一領(lǐng)域的專家編制和維護(hù),在信息準(zhǔn)確性和易于理解方面比綜合性主題指南要好。主題指南主要適用于:2.獨(dú)立型搜索引擎獨(dú)立搜索引擎也叫關(guān)鍵詞檢索工具。這種搜索引擎實(shí)際上是定期搜索互聯(lián)網(wǎng)(以WWW為主)并收集新網(wǎng)頁信息的計算機(jī)程序。每個搜索引擎都有自己獨(dú)有的搜索系統(tǒng)和一個包容互聯(lián)網(wǎng)資源站點(diǎn)的獨(dú)有數(shù)據(jù)庫。其數(shù)據(jù)庫由稱為“Robots”(或Spiders、Crawler)的自動檢索程序建立,不需人工干預(yù)。這是它與主題指南的最大區(qū)別。它具有檢索面廣、信息量大、信息更新速度快等優(yōu)點(diǎn),非常適用于特定主題詞的檢索。但因其檢索噪音較大,為檢索帶來負(fù)面影響。2.獨(dú)立型搜索引擎3.混合式搜索引擎隨著搜索引擎技術(shù)的不斷發(fā)展,獨(dú)立型搜索引擎多與主題指南合二為一,演化為兼具有分類瀏覽和關(guān)鍵詞檢索功能的混合式搜索引擎。混合式搜索引擎是目前占據(jù)搜索引擎主導(dǎo)地位的一種搜索引擎,具有分類瀏覽和關(guān)鍵詞檢索功能。3.混合式搜索引擎4.元搜索引擎元搜索引擎(又稱集成搜索引擎,MegaSearchEngine,MultipleSearchEnginge)是一種集成化搜索引擎,它是多個獨(dú)立型搜索引擎的集合體。與獨(dú)立搜索引擎的區(qū)別在于,元搜索引擎沒有自己獨(dú)立的數(shù)據(jù)庫,通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的甚至是同時利用多個搜索引擎實(shí)現(xiàn)檢索操作。4.元搜索引擎5.分布式搜索引擎分布式搜索引擎是基于搜索機(jī)器人的搜索引擎。其基本思想是:根據(jù)地域、主題、IP地址或其他的劃分標(biāo)準(zhǔn),將全網(wǎng)劃分成若干自治域,在每個自治區(qū)內(nèi)分設(shè)檢索服務(wù)器。由于分布式搜索引擎將索引數(shù)據(jù)庫劃分到幾個分散的數(shù)據(jù)庫中,每個數(shù)據(jù)庫變小了,但所有搜索引擎覆蓋的范圍則變大了,且很少有信息重復(fù)。而作為分布式系統(tǒng)特性之一的可擴(kuò)充性也是分布式搜索引擎的優(yōu)點(diǎn)之一。5.分布式搜索引擎2.2.4中文搜索引擎的現(xiàn)狀及發(fā)展1.中文搜索引擎發(fā)展現(xiàn)狀
目前中文引擎共有約80多個,可以分為兩類,一類是自由詞或關(guān)鍵詞檢索搜索引擎,另一類是分類搜索引擎。內(nèi)碼問題:由于歷史原因,目前世界上使用中文的國家與地區(qū)在中文語言的使用上有較大差別,體現(xiàn)在計算機(jī)處理上也有很大不同,其中最重要的區(qū)別是采用不同的字符集及內(nèi)碼體系。2.2.4中文搜索引擎的現(xiàn)狀及發(fā)展1.中文搜索引擎發(fā)展現(xiàn)分詞問題:西文單詞用空格分隔相當(dāng)清晰,而此法對中文的字詞則行不通,因此就產(chǎn)生了不同的處理方法。一種是完全單漢字全文檢索。另外一種即根據(jù)一定的原則和手段對文章進(jìn)行自動分詞,然后按詞建庫,對檢索結(jié)果按詞匯匹配進(jìn)行查詢。目前的中文搜索引擎還不能很好地解決中文名詞分詞這個難題,從而嚴(yán)重地影響搜索引擎的查準(zhǔn)率。除了以上的兩個原因之外,國內(nèi)的搜索引擎技術(shù)與國外相比差距依然很大。目前國內(nèi)搜索引擎能夠檢索2000萬個網(wǎng)頁,而國外能做到檢索上億個,其差距主要是在蜘蛛軟件與搜索器的設(shè)計上,而國內(nèi)能夠研發(fā)大容量與大訪問量的系統(tǒng)和軟件方面的人才相當(dāng)少。此外,國內(nèi)有些中文網(wǎng)站的網(wǎng)頁搜索服務(wù)長期外包給一些在境外的ASP服務(wù)器,這也是查詢速度緩慢的原因之一。分詞問題:西文單詞用空格分隔相當(dāng)清晰,而此法對中文的字詞則行2.中文集成搜索引擎及特點(diǎn)單個的搜索引擎只能從數(shù)據(jù)庫提取信息,具有很大的局限性。為用戶創(chuàng)造更為便利的檢索條件,必須發(fā)展性能更優(yōu)越的新型引擎搜索技術(shù),集成搜索引擎便應(yīng)運(yùn)而生。集成搜索引擎(meta-searchengine),也稱元搜索引擎、多搜索引擎、索引搜索引擎等,是居于搜索引擎之上的搜索引擎。中文搜索引擎的發(fā)展方向就是在現(xiàn)有的搜索引擎的基礎(chǔ)上運(yùn)用和增設(shè)多元搜索。中文集成搜索引擎是將整個互聯(lián)網(wǎng)作為一個超大型的動態(tài)數(shù)據(jù)庫,并采用了一系列的優(yōu)化運(yùn)行機(jī)制,能夠在盡可能短的時間內(nèi)提供相對全面、準(zhǔn)確的信息,即使不能完全滿足用戶需求,仍可以作為相對可靠的參考源進(jìn)行擴(kuò)展搜索,因此逐漸成為網(wǎng)絡(luò)信息檢索的首選入口。2.中文集成搜索引擎及特點(diǎn)目前,有多家中文網(wǎng)站采用了集成搜索引擎,這些集成搜索引擎的突出特點(diǎn)是:智能化的中文語言處理技術(shù)大大提高了搜索的準(zhǔn)確性與查全率;可擴(kuò)展的搜索技術(shù)保證最快最多地收集網(wǎng)絡(luò)信息,構(gòu)建大規(guī)模索引庫;高效的搜索算法和本地服務(wù)器保證最快的響應(yīng)速度,一個檢索的平均響應(yīng)時間小于0.18秒;支持動態(tài)網(wǎng)頁的檢索。目前,有多家中文網(wǎng)站采用了集成搜索引擎,這些集成搜索引擎的突2.3常用中英文搜索引擎及檢索策略2.3.1常用中文搜索引擎2.3.2常用英文搜索引擎2.3.3特殊的專門搜索引擎2.3.4網(wǎng)絡(luò)信息檢索策略2.3常用中英文搜索引擎及檢索策略2.3.1常用中文搜索2.3.1常用中文搜索引擎1.搜狐
搜狐(/)提供分類目錄網(wǎng)站檢索,搜集范圍以中國為主,收錄較豐富,還加入了部分英文網(wǎng)站,分類較科學(xué),類目縝密。它也是第一個針對國內(nèi)中文網(wǎng)頁的搜索引擎,此外它還包括新聞信息、多媒體文件下載、網(wǎng)上調(diào)查、免費(fèi)電子郵件等其他服務(wù)。圖2-1是搜狐的主頁。2.3.1常用中文搜索引擎1.搜狐圖2-1“搜狐”搜索引擎的主頁圖2-1“搜狐”搜索引擎的主頁2.新浪新浪(/)提供分類目錄、網(wǎng)站檢索以及全文檢索,搜集范圍遍及全球中文網(wǎng)站,收錄非常豐富;分類規(guī)范,層次合理;全文檢索為AltaVista、IPO提供支持;但復(fù)雜條件查詢較弱;可提供熱門關(guān)鍵詞查詢等新方式。圖2-2是新浪的主頁。2.新浪圖2-2“新浪”搜索引擎的主頁圖2-2“新浪”搜索引擎的主頁3.網(wǎng)易網(wǎng)易(/)提供較豐富的分類目錄、網(wǎng)站檢索及FTP檢索,范圍以中國為主收錄富,目錄較嚴(yán)密;提供新聞等其他服務(wù),網(wǎng)易主站另有“網(wǎng)站導(dǎo)航”欄目,分類列舉推薦網(wǎng)站。圖2-3是網(wǎng)易的主頁。3.網(wǎng)易圖2-3“網(wǎng)易”搜索引擎的主頁圖2-3“網(wǎng)易”搜索引擎的主頁4.263搜索263搜索(/)。屬首都在線所有,提供分類目錄和網(wǎng)站檢索,資料較豐富,復(fù)雜條件查詢功能強(qiáng)――可限制時間、語言(簡、繁)、查詢網(wǎng)站或提要等,并可直達(dá)所查到的網(wǎng)站;另提供新聞及檢索等服務(wù)。圖2-4是263的主頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 內(nèi)蒙古招投標(biāo)市場準(zhǔn)入制度
- 紅木家具維修工勞動合同模板
- 保健品會計崗位聘用合同
- 電力設(shè)施通信網(wǎng)絡(luò)升級合同
- 軟裝窗簾選購合同
- 水上垂釣池塘租賃合同
- 醫(yī)藥生產(chǎn)物料提升機(jī)租賃合同
- 2024年度光學(xué)儀器設(shè)備制造與銷售合同
- 心理咨詢代理授權(quán)書
- 娛樂場所維護(hù)勞務(wù)分包協(xié)議
- 顏真卿書法藝術(shù) 完整版課件
- SPECTRO直讀光譜儀使用課件
- 2021年盤錦北方瀝青股份有限公司校園招聘筆試試題及答案解析
- 小學(xué)道德與法治 五年級上冊 傳統(tǒng)美德源遠(yuǎn)流長 天下興亡 匹夫有責(zé)的愛國情懷 教學(xué)設(shè)計
- 國開作業(yè)《公共部門人力資源管理》形考任務(wù)4:撰寫課程學(xué)習(xí)總結(jié)(第1-9章權(quán)重25%)參考882
- 暈厥護(hù)理查房(與“暈厥”相關(guān)共28張)課件
- 全國護(hù)士延續(xù)注冊體檢表-(正式)
- 礦山三違識別表
- 危房封條格式
- 智慧校園項(xiàng)目—數(shù)據(jù)大腦等平臺建設(shè)方案
- 300mw汽輪機(jī)畢業(yè)設(shè)計論文
評論
0/150
提交評論