搜索引擎Yahoo的分類體系及性能評(píng)價(jià)_第1頁
搜索引擎Yahoo的分類體系及性能評(píng)價(jià)_第2頁
搜索引擎Yahoo的分類體系及性能評(píng)價(jià)_第3頁
搜索引擎Yahoo的分類體系及性能評(píng)價(jià)_第4頁
搜索引擎Yahoo的分類體系及性能評(píng)價(jià)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎Yahoo的分類體系及性能評(píng)價(jià) 目前很多的搜索引擎都是將人工編制的等級(jí)式主題目錄和計(jì)算機(jī)檢索軟件提供的關(guān)鍵詞等檢索手段結(jié)合起來,完成網(wǎng)絡(luò)信息資源的組織任務(wù)。yahoo就是這種等級(jí)式主題指南類搜索引擎的典型代表。 Yahoo的魅力,就在于它的可瀏覽式等級(jí)主題索引。按照主題建立分類索引,提供全面的分類體系結(jié)構(gòu),并結(jié)合高質(zhì)量的檢索軟件,Yahoo成功地建立起了一套獨(dú)特的信息管理和組織機(jī)制,使得對(duì)網(wǎng)絡(luò)信息的全面檢索變成現(xiàn)實(shí)。現(xiàn)對(duì)yahoo的類目體系、分類原理、檢索方式、性能評(píng)價(jià)等作進(jìn)一步的探討。 一、類目體系yahoo由14個(gè)基本大類組成,包括ArtHumanities(藝術(shù)與人文)、Busi

2、nessEconomy(商業(yè)與經(jīng)濟(jì))、ComputersInternet(電腦與網(wǎng)際網(wǎng)路/網(wǎng)絡(luò))、Education(教育)、Entertainment(娛樂)、Government(政府)、Health(健康與醫(yī)藥)、NewsMedia(新聞與媒體)、RecreationSports(休閑與運(yùn)動(dòng))、Reference(參考資料)、Regional(國家與地區(qū))、Science(科學(xué))、SocialScience(社會(huì)科學(xué))、SocietyCulture(社會(huì)與文化)。根據(jù)其擁有的信息或網(wǎng)站的多寡及知識(shí)組織的需要程度,每一個(gè)基本類目下細(xì)分不同層次的次類目或子類目,愈往下的子類目中的網(wǎng)站其主題愈

3、特定。它建立了一個(gè)由類目、子類目等構(gòu)成的可供瀏覽的相當(dāng)詳盡的目錄等級(jí)結(jié)構(gòu)。其類目設(shè)計(jì)合理,結(jié)構(gòu)完整、全面,類目等級(jí)層次鮮明,各級(jí)詳略、寬泛程度不一,從而為網(wǎng)上豐富的信息資源的歸類,尤其是確切歸類提供了基礎(chǔ)。 二、分類原理InternetScoutProject的分類專家AimeeGlassel認(rèn)為,“印度著名分類專家和圖書館專家阮崗納贊的冒號(hào)分類法理論體系與Yahoo網(wǎng)絡(luò)信息資源的主體目錄之間存在著密切的聯(lián)系”,從而揭示了yahoo應(yīng)用分面分析方法進(jìn)行網(wǎng)絡(luò)信息資源的分類實(shí)質(zhì)。具體說來,可從以下幾點(diǎn)來深入地理解yahoo的分面分類原理或基本過程。1.采用寬泛的主題領(lǐng)域建立分類索引為了使其分類體系

4、既具有無限的容納性,又具有相當(dāng)?shù)膶V感?,yahoo采用較為寬泛的主題領(lǐng)域,通過分析兼綜合的方法建立較為完整的分類索引。這與分面分類的思想不謀而合,因?yàn)閷⒅R(shí)分為寬泛的類目即分面,多方面地反映主題內(nèi)容以避免列舉式類表的線性單向式的結(jié)構(gòu)正是阮崗納贊冒號(hào)分類法的主要原則所在。2.根據(jù)上下文進(jìn)行信息內(nèi)容的組合從Yahoo的分類結(jié)構(gòu)外表看,也許會(huì)認(rèn)為它與敘詞表很相近,因?yàn)閥ahoo也是使用詞匯而非符號(hào)來組成相應(yīng)的概念詞串。但是,從組合類目的能力看,它遠(yuǎn)遠(yuǎn)比普通的敘詞表復(fù)雜得多。通過分析Web頁面的內(nèi)容特征,得到由Yahoo分類體系結(jié)構(gòu)中某些類目詞組成的概念詞串或標(biāo)引詞串,將其放入相應(yīng)的類目層次中。在ya

5、hoo的概念詞串或檢索詞串中包含的獨(dú)立的詞匯都含有自身的名字,但是一旦與其它詞組合,則產(chǎn)生了一個(gè)上下文關(guān)系,擁有了一深層次的涵義。從這一點(diǎn)上說來,與分面分類法也是極為相似的。3.利用冒號(hào)標(biāo)記信息內(nèi)容現(xiàn)以“20世紀(jì)60年代印度在肺結(jié)核治療方面的研究”作為待分類標(biāo)引的信息內(nèi)容來具體考察兩者的標(biāo)記制度:在阮崗納贊的冒號(hào)分類法中,該內(nèi)容標(biāo)引為:L,45;421;6;253;f.44N5用詞代替相應(yīng)的符號(hào),則為:Medicine,Lungs;Tuberculosis:Treatment;Xray:Research.India1950如果將分面公式中的相應(yīng)標(biāo)點(diǎn)符號(hào)用冒號(hào)代替,由此所形成的字符串形式就是在y

6、ahoo中用于描述信息內(nèi)容的方法,相應(yīng)地表示為:Health:DiseasesandConditions:Tuberculosis可見兩者在信息描述上何其相似!yahoo利用冒號(hào)作為統(tǒng)一的分隔符進(jìn)行了信息內(nèi)容的組織和描述,既保留了原先的分面標(biāo)記的特點(diǎn),又在一定程度上簡化了標(biāo)記制度,從而極大地提高了信息分類標(biāo)引的效率。4.提供不同的分類路徑入口“虛擬的信息集合”是yahoo的一大優(yōu)點(diǎn),體現(xiàn)在其擁有的概念模式和引用次序(即分面排列次序)的靈活性上。在傳統(tǒng)的圖書館中,一本書只能放在書架的某一固定位置上。但在數(shù)字化的世界里,電子信息資源卻不用再限制在唯一的物理位置上。我們可以將某一信息源分到類目結(jié)構(gòu)的

7、不同位置上。通過將分面分析方法應(yīng)用到網(wǎng)絡(luò)信息資源的組織中,yahoo能夠?yàn)槟骋恍畔⒃丛谄渚薮蟮姆诸惖燃?jí)結(jié)構(gòu)中提供不同的路徑分支入口,這樣就使其能夠從不同的路徑,為檢索相同內(nèi)容的不同用戶提供服務(wù),從而完成查詢。例如,現(xiàn)欲查找美國WisconsinMadison大學(xué)所在的網(wǎng)頁,yahoo就能提供如下幾種分類或檢索路徑:Wisconsin:Cities:Madison:Education:CollegesandUniversities:UniversityofWisconsinMadison。(2)若從Education類目入手,開始的幾級(jí)路徑為:Education:HigherEducation:

8、CollegesandUniversities,在CollegesandUniversities目錄下選擇地理區(qū)域的子類目“UnitedStates”后,可以看到,又返回到Regional目錄下,之后就與上述路徑相同了。其中的奧妙就在于符號(hào)“”的運(yùn)用,它提供類似于相關(guān)參照(crossreference)的作用,能夠指引用戶由某一子類目進(jìn)入yahoo的瀏覽性等級(jí)結(jié)構(gòu)的其它分支中。 三、檢索方式Y(jié)ahoo能夠提供簡單檢索和細(xì)節(jié)檢索。前者主要檢索其分類結(jié)構(gòu)中的一級(jí)目錄,后者可使用關(guān)鍵詞構(gòu)成布爾邏輯式進(jìn)行檢索,其檢索軟件主要由OpenText公司提供。兩者的結(jié)合堪稱珠聯(lián)壁合:一個(gè)提供強(qiáng)大的高質(zhì)量的主題

9、指南目錄,另一個(gè)則提供高水平的檢索工具。而且,yahoo在檢索時(shí),也不光檢索自身的主題目錄,同時(shí)也會(huì)相應(yīng)地檢索OpenText公司提供的收有100萬Web文件的OpenText數(shù)據(jù)庫。誠然,Yahoo在檢索方式上上存在著一些缺陷,如:只能進(jìn)行關(guān)鍵詞檢索,并且只支持布爾算符and和or,未提供near等,但通過在其主頁的末尾提供了其它引擎如ALTAVISTA、LYCOS等的超鏈接,指引用戶進(jìn)入這些地方去搜索,從而彌補(bǔ)了Yahoo的若干缺陷。因此,從總體上說來,yahoo仍然是WWW上最流行的查詢工具之一。 四、性能評(píng)價(jià)作為主題指南類搜索引擎的典范,yahoo具有以下優(yōu)點(diǎn):1.主題目錄與檢索軟件的

10、完美結(jié)合采用分面分析的方法,由信息管理專家編制主題目錄,反映了人們?cè)谶x擇和組織信息時(shí)的知識(shí)和智慧,提高了目錄編制的質(zhì)量。同時(shí),按照主題目錄以人工為主對(duì)提交的網(wǎng)頁進(jìn)行篩選、歸類和組織,也能不斷克服單純由搜索軟件自動(dòng)完成分類的缺陷,增強(qiáng)分類的條理性。嵌入相應(yīng)的檢索軟件或工具,并與之相集成,提供高質(zhì)、高效的檢索服務(wù),從而加快了系統(tǒng)的反映速度,提高了檢索的準(zhǔn)確性,使得檢索結(jié)果更接近用戶的信息需求。2.信息檢索難度的降低Yahoo的數(shù)據(jù)庫按照14個(gè)大類(各大類下又包含數(shù)量不等的小類)組織,其分類體系非常詳盡,因此是進(jìn)行寬泛主題檢索的良好起點(diǎn),特別是對(duì)于那些新用戶和模糊需求的用戶而言,選擇瀏覽可逐級(jí)展開的

11、主題索引比構(gòu)造檢索式要自然得多。并且,在用戶所在的類目下,顯示了該級(jí)別的類目包含的條目數(shù),如果用戶認(rèn)為數(shù)量過多,還可在此范圍內(nèi)使用關(guān)鍵詞檢索。yahoo的目錄特征和利用上下文的服務(wù)使得能夠?qū)崿F(xiàn)快速和容易的檢索,從而在一定程度上降低了互聯(lián)網(wǎng)信息檢索的難度,提高了系統(tǒng)的用戶友好性。3.檢索結(jié)果的分類選擇Yahoo由分類路徑入手,最終將檢索結(jié)構(gòu)分成類目輸出,從而將極大地推動(dòng)信息的選擇。它還對(duì)結(jié)果列表中的相應(yīng)內(nèi)容進(jìn)行必要加工,加上一些描述的詞組或句子,方便用戶瀏覽并選擇:如:或cool標(biāo)記表明該結(jié)果項(xiàng)在內(nèi)容和版面設(shè)計(jì)都優(yōu)于其他項(xiàng);new表明是最近3日內(nèi)收錄的最新內(nèi)容;以及上述提及過的以“”表示相關(guān)參照

12、,以括號(hào)里的數(shù)字表示收錄的文件數(shù)量等等。另外,Yahoo增加了結(jié)果顯示的類型,可以以相關(guān)網(wǎng)站、相關(guān)網(wǎng)頁、新聞等形式輸出相應(yīng)的檢索結(jié)果??偠灾瑸榱烁玫貙?shí)現(xiàn)為用戶服務(wù)的目的,yahoo正不斷開發(fā)新的途徑和方法用以改善信息檢索服務(wù)。在總結(jié)yahoo所具有的優(yōu)勢的同時(shí),也應(yīng)注意它的缺陷,這些缺陷往往也正是主題指南類搜索引擎的共同弊病所在:1、由于互聯(lián)網(wǎng)信息的迅猛增長,使得采集信息的速度遠(yuǎn)遠(yuǎn)比不上網(wǎng)絡(luò)資源的增長速度,更勿論編制主題目錄的速度了。這就造成了所建立的數(shù)據(jù)庫規(guī)模較小,且在某些類目下收集的文件數(shù)量有限等缺點(diǎn),使得用戶經(jīng)常“乘興而來,敗興而歸”,滿足不了相應(yīng)的信息需求。 2、簡單檢索表中檢索

13、詞之間缺省設(shè)置為“.or.”,且內(nèi)含的自動(dòng)截詞功能,使得在檢索中往往會(huì)出現(xiàn)許多不相關(guān)的文件,導(dǎo)致查準(zhǔn)率降低。3、為了適應(yīng)不同用戶的查詢或檢索需求,Yahoo對(duì)相同的信息內(nèi)容往往能提供不同的路徑入口,并以符號(hào)“”建立相應(yīng)的參照。這一方面加大了分類工作的難度,另一方面也使得其分類的一致性難以得到確切保障,所以,經(jīng)常出現(xiàn)從某一路徑入手,卻無法查到y(tǒng)ahoo中所包含的信息內(nèi)容的現(xiàn)象。4、待收錄的網(wǎng)頁或其它信息內(nèi)容的復(fù)雜度的增加也在無形之中加大了確切分類的難度,如與ActiveX技術(shù)相關(guān)的文獻(xiàn)就很難在yahoo中確切歸類。5、為了編制高質(zhì)量的主題目錄并跟上網(wǎng)絡(luò)資源發(fā)展的速度,必須投入相當(dāng)大的人力、物力和

14、財(cái)力,且對(duì)從事該項(xiàng)工作的人員的素質(zhì)要求也日漸提高。否則,將無法很好地保證其主題目錄的質(zhì)量,也就從根本上無法提供優(yōu)質(zhì)的服務(wù)。 五、啟示和建議Yahoo最關(guān)鍵也是最成功之處就在于它為搜索引擎,尤其是主題指南類的搜索引擎的設(shè)計(jì)和開發(fā)樹立了“摸板”。借鑒yahoo先進(jìn)的搜索引擎經(jīng)驗(yàn),進(jìn)一步完善網(wǎng)絡(luò)信息資源尤其是中文信息資源的組織和管理,是歷史賦予我們的責(zé)任?,F(xiàn)就建立網(wǎng)上中文信息資源的高質(zhì)、高效的“導(dǎo)航器”,提出以下幾點(diǎn)建議:1、yahoo在數(shù)字化信息的組織中成功地應(yīng)用分面分析的思想,建立起了一套完整、全面、等級(jí)層次鮮明的主題目錄體系以提高信息組織的質(zhì)量,這一點(diǎn)值得我們借鑒與學(xué)習(xí)。目前,國內(nèi)的許多中文引

15、擎或者因沒有分類路徑入口,而不能跟上未來形勢的發(fā)展;或者因目錄體系缺乏必要的分類主題理論基礎(chǔ),而給信息的確切歸類和準(zhǔn)確檢索帶來了一系列的困難。我們并不一定要照搬yahoo的分類模式。在具體的編制過程中,應(yīng)從中國人的思維習(xí)慣、檢索習(xí)慣出發(fā),結(jié)合國內(nèi)已有的主題分類的理論體系(如:中圖法等),建立所需的分類框架。2、應(yīng)逐步增大數(shù)據(jù)庫的規(guī)模,從而奠定成功的信息檢索的物質(zhì)基礎(chǔ)。建議可以通過兩種方式補(bǔ)充數(shù)據(jù)庫的內(nèi)容:一是鼓勵(lì)用戶將自己網(wǎng)頁的地址(URL)通過聯(lián)機(jī)表格遞交,二是由自身的巡視軟件不斷去發(fā)現(xiàn)網(wǎng)上新出現(xiàn)的文件,將之歸入數(shù)據(jù)庫,在補(bǔ)充的過程中,也應(yīng)注意數(shù)據(jù)庫內(nèi)容的定期更新。關(guān)于這一點(diǎn),現(xiàn)在的一些中文

16、搜索引擎做得還很不夠,往往只知盲目地填充信息,卻缺乏對(duì)庫內(nèi)容應(yīng)有的維護(hù)工作,導(dǎo)致數(shù)據(jù)庫龐大臃腫,檢索效率低,信息內(nèi)容陳舊,查準(zhǔn)率差。3、鑒于單純依賴手工進(jìn)行信息歸類效率低的缺陷,應(yīng)在這方面加強(qiáng)研究,考慮是否可將目前在文本環(huán)境中已經(jīng)實(shí)現(xiàn)并在進(jìn)一步完善的自動(dòng)分類、自動(dòng)標(biāo)引和自動(dòng)文摘等處理信息內(nèi)容的手段用到網(wǎng)絡(luò)信息資源的組織上來。手工和機(jī)器輔助的結(jié)合,定能提高工作效率,改善信息組織、管理的質(zhì)量。 另外,應(yīng)繼續(xù)加強(qiáng)檢索軟件的研制和開發(fā)工作。WWW網(wǎng)頁內(nèi)容多由圖像、動(dòng)畫、聲音、視頻等多媒體信息構(gòu)成。應(yīng)積極探索這一類信息的檢索途徑,而不僅限于關(guān)鍵詞檢索方式。目前,對(duì)多媒體信息的存儲(chǔ),標(biāo)引和檢索正日益引起計(jì)算機(jī)和信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論