網(wǎng)上資源的獲取_第1頁(yè)
網(wǎng)上資源的獲取_第2頁(yè)
網(wǎng)上資源的獲取_第3頁(yè)
網(wǎng)上資源的獲取_第4頁(yè)
網(wǎng)上資源的獲取_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)上資源的獲取我們已經(jīng)知道網(wǎng)上有多種多樣的教育資源,從技術(shù)上講,它們是在Internet的多種服務(wù)功能的支持下實(shí)現(xiàn)的,包含WWW、e-mail、Usenet、FTP、BBS等,其中發(fā)展最快,也是最為流行的是WWW。因此我們著重介紹WWW信息的檢索方法。據(jù)1999年底的統(tǒng)計(jì),網(wǎng)上大約有15億個(gè)網(wǎng)頁(yè),并且以每天增加190萬(wàn)個(gè)網(wǎng)頁(yè)的速度在增長(zhǎng),到2002年已達(dá)到80億個(gè)網(wǎng)頁(yè)。要想在這么大的一個(gè)資源庫(kù)中查找一條具體的信息,猶如大海撈針一般。因此,有人發(fā)出這樣的感嘆:"我們淹沒(méi)在數(shù)據(jù)資料的的海洋中,卻又在忍受著知識(shí)的饑渴"。現(xiàn)在出現(xiàn)了許多種在網(wǎng)上查找信息的方法。這些方法可以分為兩類(lèi):

2、一類(lèi)是有既定目標(biāo)的查找,一類(lèi)是沒(méi)有目標(biāo)的查找,而后者往往是指一種網(wǎng)上"沖浪"游戲。在具有既定目標(biāo)的情況下,如果已有信息線索,可以用瀏覽器航行的辦法尋找信息對(duì)象;如果信息線索未定,則需要利用搜索工具首先獲得信息線索。搜索工具又有傳統(tǒng)工具和現(xiàn)代工具之分。傳統(tǒng)工具是在索引數(shù)據(jù)庫(kù)中進(jìn)行主題樹(shù)/目錄檢索或KWDSEs(關(guān)鍵詞搜索引擎)進(jìn)行建設(shè)而索引庫(kù)的建設(shè)是一個(gè)極其繁重的任務(wù),現(xiàn)在已經(jīng)可以利用"機(jī)器人"程序來(lái)幫忙,它們通過(guò)跟蹤最新建立的HTML網(wǎng)頁(yè)的URL對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行瀏覽,可以在網(wǎng)上從這一個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,并記錄下它們?cè)L問(wèn)過(guò)的網(wǎng)頁(yè)的各自特征(這種只有十來(lái)年歷

3、史的搜索技術(shù)就被稱(chēng)為傳統(tǒng)工具了,你覺(jué)得奇怪嗎?)。而現(xiàn)代搜索工具是利用智能代理來(lái)工作,它們不是對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行索引,而是在接到一個(gè)新任務(wù)時(shí)就出發(fā),去搜索網(wǎng)上資源并提取有價(jià)值的信息。因此,智能代理是利用神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行搜索,它試圖去發(fā)現(xiàn)自然語(yǔ)言與樣本網(wǎng)頁(yè)的模式及它們之間的相互關(guān)系,這些將與新近發(fā)現(xiàn)的網(wǎng)上資源相匹配,最后以一串網(wǎng)址的形式供用戶(hù)訪問(wèn)。圖2_3_10顯示了網(wǎng)上信息檢索工具的選擇方法。 (一)搜索工具在Internet上現(xiàn)有的檢索工具成百上千,比較普及且功能較強(qiáng)的就有幾十種。這些檢索按照其工作原理的不同,大概可以分為3種類(lèi)型:1.主題目錄主題目錄有時(shí)也稱(chēng)為主題指南,什么是主題目錄呢?讓我們

4、打開(kāi)雅虎中國(guó)網(wǎng)站來(lái)看一看。在網(wǎng)頁(yè)首頁(yè)的中部正是雅虎自定義的一級(jí)主題目錄,其中一個(gè)類(lèi)目就是"教育"。如果我們點(diǎn)擊"教育"將會(huì)看見(jiàn)其下一級(jí)類(lèi)目,如果接著點(diǎn)擊其中一個(gè)子類(lèi)目,還可以進(jìn)入更下一級(jí)類(lèi)目,直到某一個(gè)具體網(wǎng)站或網(wǎng)頁(yè)。主題目錄是按照等級(jí)排列的主題類(lèi)索引,排列的方法有字母順序法、時(shí)間順序法、地點(diǎn)法、主題法等等,或是各種方法綜合使用。主題目錄能讓用戶(hù)通過(guò)主題瀏覽Web站點(diǎn)列表檢索相關(guān)信息。主題目錄主要是依靠圖書(shū)館和信息專(zhuān)業(yè)專(zhuān)家對(duì)已知的網(wǎng)站根據(jù)其主要內(nèi)容進(jìn)行篩選、組織和評(píng)論,從而編制的等級(jí)式的主題目錄。有時(shí)也允許網(wǎng)站擁有者對(duì)他們自己的網(wǎng)站加以歸類(lèi)或進(jìn)行類(lèi)別描述

5、;有的網(wǎng)站則干脆邀請(qǐng)隨機(jī)的網(wǎng)站訪問(wèn)者來(lái)對(duì)網(wǎng)址進(jìn)行分類(lèi)。這些主題目錄以超文本鏈接的方式將不同學(xué)科、專(zhuān)業(yè)、行業(yè)和區(qū)域的信息按照分類(lèi)目錄的方式組織起來(lái),類(lèi)目之間按照等級(jí)系統(tǒng)排列,然后將待收錄的網(wǎng)頁(yè)與相應(yīng)的類(lèi)目或主題相連。這樣,用戶(hù)就可以通過(guò)主題目錄的指引,在相應(yīng)的等級(jí)結(jié)構(gòu)中逐層瀏覽,直到找到與自己的需求相關(guān)的信息。目前以主題目錄為核心,并且收錄網(wǎng)絡(luò)信息較多的網(wǎng)站有雅虎中國(guó)l()、圖書(shū)館員索引()、信息開(kāi)采()等。由于主題目錄要由人工編制和維護(hù),在信息的收集、編排、HTML編碼以及信息注釋等方面要花費(fèi)大量的人力和時(shí)間。人工干

6、預(yù)雖然減少了主題目錄下不切題結(jié)果的可能性,但也往往會(huì)造成某一主題下的站點(diǎn)不夠多、不夠全面的缺陷。同時(shí)由于Internet上網(wǎng)頁(yè)數(shù)最龐大并且在不斷變化,所有的主題類(lèi)別都要能跟上站點(diǎn)內(nèi)容的發(fā)展,也很難辦到,所以碰上部分站點(diǎn)為"死鏈"或已經(jīng)過(guò)期也就不奇怪了??傮w而言,主題目錄特別適宜于一般性的、比較籠統(tǒng)的主題的瀏覽和檢索。其等級(jí)式分類(lèi)令用戶(hù)可以自由選擇檢索范圍,并且從大到小的范圍逐級(jí)瀏覽也十分方便。但是使用主題目錄很難檢索到較為專(zhuān)業(yè)的信息,且由于人類(lèi)的分析判斷帶有主觀性,網(wǎng)址分析歸納者的網(wǎng)站分類(lèi)方法也不一定與用戶(hù)的需要相適應(yīng)。如果思路碰巧與網(wǎng)址分析歸納者的思路合拍的話(huà),這些主題目

7、錄可能會(huì)對(duì)用戶(hù)有巨大的價(jià)值;但假如情況相反,用戶(hù)則會(huì)感到它們牽強(qiáng)而且不可捉摸,精心分析和歸納的數(shù)據(jù)與實(shí)際需求風(fēng)馬牛不相及。在許多時(shí)候,用戶(hù)需要的信息會(huì)分散在好幾個(gè)不同的主題類(lèi)別下,用戶(hù)容易錯(cuò)過(guò)交叉有關(guān)的信息。另外,不同的網(wǎng)站提供的主題目錄的分類(lèi)和結(jié)構(gòu)不盡相同,用戶(hù)有時(shí)要找到合適的類(lèi)別也有相當(dāng)?shù)碾y度。2.搜索引擎搜索引擎的基本概念出現(xiàn)于20世紀(jì)20年代,但真正發(fā)展和應(yīng)用卻是20世紀(jì)90年代的事情,特別是在90年代中期得到快速的發(fā)展。搜索引擎一般包含兩大核心技術(shù):自動(dòng)網(wǎng)頁(yè)搜索技術(shù)和全文檢索技術(shù)。目前得到普遍認(rèn)可并且功能較強(qiáng)大的、以搜索引擎為核心的網(wǎng)站很多,例如: AltaVista: Excite

8、:http:/WWW lycos: Google:httP:/搜索引擎與主題目錄最大的區(qū)別在于:搜索引擎主要依靠被稱(chēng)為蜘蛛、機(jī)器人、爬蟲(chóng)、漫游者等的網(wǎng)頁(yè)搜索工具,而不是人工編制。其基本工作可分成以下3個(gè)方面。(l)首先搜索引擎派出網(wǎng)頁(yè)搜索工具如spider(蜘蛛)在Internet上搜索信息,并把信息帶回搜索引擎;(2)將信息進(jìn)行分類(lèi)索引,建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù); (3)通過(guò)Web服務(wù)器端軟件,為用戶(hù)提供瀏覽器界面下的信息查詢(xún)。對(duì)用戶(hù)來(lái)說(shuō),搜索引擎的可見(jiàn)部分就是它的用戶(hù)界面。當(dāng)用戶(hù)在輸入框中輸入需要查詢(xún)的關(guān)鍵字,點(diǎn)擊"查詢(xún)"之類(lèi)的啟動(dòng)按鈕后,搜索引擎就會(huì)使用一定的檢索算法從網(wǎng)頁(yè)數(shù)據(jù)

9、庫(kù)中找出與查詢(xún)關(guān)鍵詞相匹配的相關(guān)記錄,并以列表的方式顯示給用戶(hù)。當(dāng)然,不同的搜索引擎其檢索算法也不一定相同。 一般搜索引擎不僅提供鍵入一個(gè)或多個(gè)關(guān)鍵字的簡(jiǎn)單查詢(xún),大多數(shù)還提供附加的查詢(xún)選項(xiàng)。比如說(shuō):布爾運(yùn)算符號(hào):AND(與)、OR(或)、NOT(非);多媒體檢索:檢索包含Java Applets、Shockwave等對(duì)象的網(wǎng)頁(yè);專(zhuān)用檢索:檢索在鏈接、圖象名稱(chēng)、文檔標(biāo)題中的關(guān)鍵字或URL;多種檢索約束條件:限定檢索文檔的創(chuàng)建時(shí)間,文檔使用的語(yǔ)言等。提交給用戶(hù)的查詢(xún)結(jié)果一般包括文檔標(biāo)題、URL和概述,有時(shí)也包括文檔建立的時(shí)間、文檔的大小等。有的搜索引擎還會(huì)根據(jù)一定的算法,給出每一條查找結(jié)果與查詢(xún)關(guān)

10、鍵詞之間的相關(guān)程度評(píng)分。網(wǎng)頁(yè)的概述內(nèi)容,通常是用戶(hù)決定是否鏈接上該網(wǎng)頁(yè)仔細(xì)瀏覽的依據(jù)。而網(wǎng)頁(yè)概述部分的形成有好幾種辦法:將網(wǎng)頁(yè)制作者的描述作為網(wǎng)頁(yè)的概述;將文檔的前面100一200個(gè)字符作為概述;采用一種提煉文檔語(yǔ)句的算法來(lái)形成概述。全文檢索技術(shù)則是以文本信息作為檢索對(duì)象,建立全文數(shù)據(jù)庫(kù)。其基本工作方式就足能夠把所有包含檢索詞的文檔檢索出來(lái),不論這個(gè)詞是出現(xiàn)在文檔的標(biāo)題,還是出現(xiàn)在文檔的任何一個(gè)位置。全文檢索系統(tǒng)能夠?qū)ξ臋n中出現(xiàn)的任意詞進(jìn)行檢索,或者說(shuō)文檔中出現(xiàn)的任意詞都可以作為檢索到該文檔的條件,這就是"全文"兩字真正含義之所在。3.元搜索引擎元搜索引擎(metasear

11、ch engine)又稱(chēng)多元搜索引擎或者并行搜索引擎,也稱(chēng)作大容量搜索引擎,是近兩年才陸續(xù)出現(xiàn)的新型搜索引擎。它是為彌補(bǔ)搜索引擎的不足而出現(xiàn)的一種輔助檢索工具。一般搜索引擎的檢索范周僅局限于其自身的數(shù)據(jù)庫(kù),而且即使是世界上功能最強(qiáng)大的搜索引擎數(shù)據(jù)庫(kù)也只能涵蓋世界上不到三分之一的公用網(wǎng)頁(yè)。同時(shí),由于不同的搜索引擎各自的信息收集方式和范圍、檢索算法和結(jié)果排序方法都各不相同,同一檢索表達(dá)式得到的結(jié)果大不相同,要想得到較全面的網(wǎng)上信息,不得不使用多個(gè)搜索引擎,費(fèi)時(shí)費(fèi)力。而元搜索引擎允許你同時(shí)搜索若干個(gè)數(shù)據(jù)庫(kù)和搜索引擎,有的甚至可以向你提交單一的、集成的、分級(jí)排列的搜索結(jié)果清單。實(shí)際上,它將用戶(hù)的檢索提

12、問(wèn)同時(shí)送到數(shù)個(gè)搜索引擎的不同數(shù)據(jù)庫(kù)中進(jìn)行檢索,在短短幾秒鐘時(shí)間就能從這些搜索引擎數(shù)據(jù)庫(kù)中找到相關(guān)記錄的集合并進(jìn)行不同程度的處理。這比一次只能訪問(wèn)一個(gè)搜索引擎方便得多。并且同樣進(jìn)行一次搜索,元搜索引擎使得你能夠比使用單一搜索引擎查找到更多的網(wǎng)址。元搜索引擎本身可以有也可以沒(méi)有自身的數(shù)據(jù)庫(kù)。它就好像是有智能的中間代理,它發(fā)布用戶(hù)的搜索請(qǐng)求,然后收集獨(dú)立搜索引擎返回的結(jié)果,最后為用戶(hù)提供一個(gè)統(tǒng)一界面的搜索結(jié)果報(bào)告。由于元搜索引擎剛出現(xiàn),影響比較大的主要來(lái)自國(guó)外,比如: Dogpile: Inference Find: Search:元搜索引擎也有缺點(diǎn)。由于其出現(xiàn)的時(shí)間不長(zhǎng),一些搜索引擎的強(qiáng)大的檢索功

13、能還不能實(shí)現(xiàn)。并且由于它要借助于別的搜索引擎,而不同的搜索引擎解析查詢(xún)表達(dá)式的方式不同;處理大小寫(xiě)字母的方式不同;有的允許自然語(yǔ)言查詢(xún)而有的不允許;有的可以采用NEAR(鄰接)操作符而有的不可以。為了借用盡可能多的搜索引擎,元搜索通常只使用簡(jiǎn)單、直接的搜索策略,一般僅支持AND、OR、NOT等簡(jiǎn)單的比較低級(jí)的通用搜索操作。這樣就很難甚至不能利用每個(gè)搜索引擎的特色功能。最新最全面的檢索功能和一些專(zhuān)門(mén)化的信息還是只能在特定的搜索引擎中獲得。假如您的需求比較一般化,用元搜索引擎會(huì)有很好效果。但假如您需要更精細(xì)的搜索結(jié)果,元搜索并不一定合適。另外,與需要信息無(wú)關(guān)的檢索結(jié)果大量出現(xiàn)的問(wèn)題仍然不能解決。(二)搜索策略前面已經(jīng)闡明,一種搜索引擎適用于一項(xiàng)任務(wù),而且沒(méi)有任何兩個(gè)搜索引擎的搜索結(jié)果會(huì)完全相同。為了獲得最好的結(jié)果,需

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論