淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第1頁(yè)
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第2頁(yè)
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第3頁(yè)
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第4頁(yè)
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

淺析各類搜索引擎之間的聯(lián)系與區(qū)別摘要 internet上蘊(yùn)藏著非常豐富的信息資源,但是要從浩如煙海的信息中準(zhǔn)確、及時(shí)、方便、迅速的找到自己所需要的信息,卻并不是一件容易的事情.為此應(yīng)對(duì)重點(diǎn)網(wǎng)絡(luò)搜索引擎的檢索技術(shù)與功能作一全面的介紹.使學(xué)生在網(wǎng)絡(luò)信息檢索中選擇了好的搜索引擎,才能快速、準(zhǔn)確地找到所需要信息.本文主要對(duì)百度與google兩個(gè)典型搜索引擎之間的檢索技術(shù)、各自特點(diǎn)進(jìn)行全面的比較與分析,從而得出各類搜索引擎之間的聯(lián)系與區(qū)別。關(guān)鍵字 google 百度 搜索引擎 比較分析 Google是世界上最大的搜索引擎,通過(guò)對(duì)200多億網(wǎng)頁(yè)信息的整理,每天為世界各地提供1.5億次以上的網(wǎng)上信息查詢服務(wù)。百度是全球最大的中文搜索引擎, 擁有超過(guò)10多億的中文網(wǎng)頁(yè)數(shù)據(jù)庫(kù), 每天響應(yīng)超過(guò)億次的網(wǎng)絡(luò)信息搜索請(qǐng)求。在這兩大搜索引擎之間, 搜索的結(jié)果平均有85%的不同,因此,有網(wǎng)站把兩者結(jié)合建立了百Google度。然而,這兩大搜索引擎之間究竟有什么特點(diǎn)與區(qū)別,本文將根據(jù)數(shù)據(jù)加以分析、比較研究。Google與百度的特點(diǎn) Google的特點(diǎn) google秉持著開(kāi)發(fā)“ 確解用戶之意, 切返用戶之需” 的“ 完美的搜索引擎” , 使得搜索方式發(fā)生了根本性變化, 在業(yè)界獨(dú)樹(shù)一幟, 其強(qiáng)大的功能與獨(dú)到的特點(diǎn)就在于:(1) “ 網(wǎng)頁(yè)快照” 功能。能從google服務(wù)器里直接取出緩存的網(wǎng)頁(yè)。如果原地址打開(kāi)很慢, 那么可以直接查看google緩存頁(yè)面, 因?yàn)間oogle服務(wù)器速度極快;如果原鏈接已經(jīng)死掉或者因?yàn)榫W(wǎng)絡(luò)的原因暫時(shí)鏈接不通, 那么可以通過(guò)google快照看到該頁(yè)面信息;如果打開(kāi)的頁(yè)面信息量巨大, 一下子找不到關(guān)鍵詞所在位置, 那么可以通過(guò)google快照, 因?yàn)榭煺罩術(shù)oogle用黃色表明關(guān)鍵字位置。(2) “ 單詞英文解釋” 功能。寫英文文章的時(shí)候, 最頭疼的事情就是對(duì)某個(gè)英文單詞的用法不確定?,F(xiàn)在有了google, 一切就迎刃而解了!無(wú)論你是想查找某個(gè)生詞的意思還是想了解某個(gè)單詞的用法, 均可使用在線詞典。(3) “ 網(wǎng)頁(yè)翻譯” 功能。google提供了網(wǎng)頁(yè)翻譯功能, 雖然目前只支持有限的拉丁語(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)與葡萄牙文, 但是不得不承認(rèn), 這是個(gè)杰出功能, 只要你點(diǎn)擊“Translate this page ” 按鈕, google為你提供了人工智能的機(jī)器翻譯, 翻譯出來(lái)的結(jié)果讓你大致能夠看得明白。(4) “ 搜索結(jié)果過(guò)濾” 功能。網(wǎng)絡(luò)上的成人信息浩如煙海, 而且很多站點(diǎn)具有欺騙或者其他不良企圖, 瀏覽者很容易掉入其中的陷阱。為此google新設(shè)立了成人內(nèi)容過(guò)濾功能, 見(jiàn)google的設(shè)置頁(yè)面,不過(guò), 中文狀態(tài)下的尚沒(méi)有這個(gè)功能。(5) “ 超文本匹配分析” 功能。google的搜索引擎, 同時(shí)也分析網(wǎng)頁(yè)內(nèi)容, 它并不采用單純掃描基于網(wǎng)頁(yè)的文本的方式, 而是分析網(wǎng)頁(yè)的全部?jī)?nèi)容以及字體、分區(qū)及每個(gè)文字精確位置等因素, 同時(shí)還會(huì)分析相鄰網(wǎng)頁(yè)的內(nèi)容, 以確保返回與用戶查詢最相關(guān)的結(jié)果。(6) “ PageRank,” 技術(shù)。通過(guò)對(duì)由超過(guò)5000萬(wàn)個(gè)變量與20億個(gè)詞匯組成的方程進(jìn)行計(jì)算,PageRank能夠?qū)W(wǎng)頁(yè)的重要性做出客觀的評(píng)價(jià), 它并不計(jì)算直接鏈接的數(shù)量, 而是將從網(wǎng)頁(yè)A指向網(wǎng)頁(yè)B的鏈接解釋為由網(wǎng)頁(yè)A對(duì)網(wǎng)頁(yè)B所投的一票, 這樣會(huì)根據(jù)網(wǎng)頁(yè)B所收到的投票數(shù)量評(píng)估該頁(yè)的重要性, 提供準(zhǔn)確率極高的搜索結(jié)果。(7)“ 圖片搜索” 功能。google可以檢索390000000張圖片, 并稱為“ 互聯(lián)網(wǎng)上最好用的圖像搜索工具” , 對(duì)中國(guó)用戶而言, google的圖片搜索引擎是最好的圖像搜索工具。(8)“ 新聞組搜索” 功能。新聞組有詳盡的分類主題, 某些主題還有專人管理與編輯, 具有大量的有價(jià)值信息。由于新聞組包含的信息實(shí)在是海量, 因此不利用工具進(jìn)行檢索是不大可能的。2001年google將DEJA收購(gòu)并提供了所有DEJA的功能?,F(xiàn)在, 除了搜索之外, google還支持新聞組的WEB方式瀏覽與張貼功能。(9) “ 目錄檢索” 功能, 如果不想搜索廣泛的網(wǎng)頁(yè), 而是想找某些專題網(wǎng)站, 你可以訪問(wèn)google的分類目錄。分類的網(wǎng)站目錄一般由專人負(fù)責(zé), 分類明確, 信息集中。(10) 其他功能。google的其他功能還包括查詢電話號(hào)碼、查找PDF文件、股票報(bào)價(jià)、找找誰(shuí)與你鏈接、查找站點(diǎn)、查找字典釋意, 等等。 百度的特點(diǎn) 百度致力于傾聽(tīng)、挖掘與滿足中國(guó)網(wǎng)民的需求, 秉承“ 用戶體驗(yàn)至上” 的理念, 除網(wǎng)頁(yè)搜索外, 還提供MP3、文檔、地圖、傳情、影視等多樣化的搜索服務(wù), 將無(wú)數(shù)網(wǎng)民頭腦中的智慧融人了搜索, 使“百度一下” 已經(jīng)成為了人們進(jìn)行搜索的新動(dòng)詞。其獨(dú)有的功能與特點(diǎn)就在于:(1)“ 百度快照” 功能。如果無(wú)法打開(kāi)某個(gè)搜索結(jié)果, 或者打開(kāi)速度特別慢, “ 百度快照” 能幫您解決。每個(gè)被收錄的網(wǎng)頁(yè), 在百度上都存有一個(gè)純文本的備份, 稱為“ 百度快照” 。由于百度速度較快, 您可以通過(guò)“ 快照” 快速瀏覽頁(yè)面內(nèi)容。(2)“ 相關(guān)搜索” 功能。搜索的結(jié)果不佳, 有時(shí)候是因選擇的查詢?cè)~不妥當(dāng)。您可以通過(guò)參考別人的做法來(lái)獲得一些啟發(fā)。百度的“ 相關(guān)搜索” ,就是與您的搜索很相似的一系列查詢?cè)~。(3)“ 拼音提示” 功能。如果只知道某個(gè)詞的發(fā)音, 卻不知道怎么寫, 或者嫌某個(gè)詞拼寫輸入麻煩, 這時(shí)百度拼音的提示能夠幫您解決。只要您輸人查詢?cè)~的漢語(yǔ)拼音, 百度就能把最符合要求的對(duì)應(yīng)漢字提示出來(lái)。它事實(shí)上是一個(gè)無(wú)比強(qiáng)大的拼音輸人法。(4)“ 錯(cuò)別字提示” 功能。由于漢字輸人法的局限性, 在搜索時(shí)經(jīng)常會(huì)輸人一些錯(cuò)別字, 導(dǎo)致搜索結(jié)果不佳, 這是百度會(huì)給出錯(cuò)別字糾正提示。錯(cuò)別字提示顯示在搜索結(jié)果上方。(5)“ 英漢互譯詞典” 功能。百度在線英漢互譯詞典, 你隨便輸人一個(gè)英語(yǔ)單詞, 或者輸人一個(gè)漢字詞語(yǔ), 點(diǎn)擊結(jié)果頁(yè)上的“ 詞典” 鏈接, 就可以得到高質(zhì)量的翻譯結(jié)果。百度在線詞典不但能翻譯普通的英語(yǔ)單詞、詞組、漢字詞語(yǔ), 甚至還能翻譯常見(jiàn)的成語(yǔ), 具有直接使用英漢互譯功能。(6)“ 計(jì)算器與度量衡轉(zhuǎn)換” 功能。百度網(wǎng)頁(yè)搜索內(nèi)嵌的計(jì)算器功能, 則能快速高效解決你的計(jì)算需求, 你只需簡(jiǎn)單的在搜索框內(nèi)輸人計(jì)算式,回車即可看到計(jì)算式的結(jié)果。百度的搜索框中, 你也可以做度量衡轉(zhuǎn)換, 當(dāng)你輸人:換算數(shù)量換算前單位=?換算后單位, 回車即可得到換算的結(jié)果。(7)“ 專業(yè)文檔搜索” 功能。百度具有很好的office文檔、Adobe PDF文檔、RTF文檔進(jìn)行了全文搜索。只要你在普通的查詢?cè)~后面, 加一個(gè)“ filetype” 與文檔類型限定。就可快速查看該文檔的網(wǎng)頁(yè)格式內(nèi)容。你也可以通過(guò)百度文檔搜索界面而功, 直接使用專業(yè)文檔搜索功能。(8)“ 股票、列車時(shí)刻表與飛機(jī)航班查詢”功能。你在百度搜索框中輸人股票代碼、列車車次或者飛機(jī)航班號(hào), 就能直接獲得相關(guān)信息。例如, 輸人股票代碼“ 600001” , 搜索結(jié)果上方, 就顯示邯鄲鋼鐵的股票實(shí)時(shí)行情。(9)“ 天氣查詢” 功能。百度可以隨時(shí)查詢天氣預(yù)報(bào), 只要你在百度搜索框中輸人你要查詢的城市名稱加上天氣這個(gè)詞, 您就能獲得該城市當(dāng)天的天氣情況。百度支持全國(guó)多達(dá)400多個(gè)城市與近百個(gè)國(guó)外著名城市的天氣查詢。(10)“ 超鏈分析” 技術(shù)。百度將傳統(tǒng)情報(bào)學(xué)中的引文索引技術(shù)同web中最基本的鏈接技術(shù)相結(jié)合, 通過(guò)分析鏈接網(wǎng)站的多少來(lái)評(píng)價(jià)被鏈接的網(wǎng)站質(zhì)量, 使得在百度搜索時(shí), 越受用戶歡迎的內(nèi)容排名越靠前. 兩大搜索引擎的相關(guān)特點(diǎn)折射出各類搜索引擎的聯(lián)系。它們都有自己服務(wù)理念與目標(biāo),都有強(qiáng)大的功能為用戶服務(wù),并打造自身的技術(shù)特點(diǎn)與專長(zhǎng)。為用戶不斷提供優(yōu)秀的服務(wù)質(zhì)量,并完善自身的技術(shù)與不足,吸引用戶的使用與得到信賴,不斷發(fā)展。google與百度檢索技術(shù)分析評(píng)價(jià)一個(gè)搜索引擎的質(zhì)量, 就需要對(duì)檢索結(jié)果進(jìn)行比較分析, 為此有必要對(duì)google與百度從更新時(shí)間、響應(yīng)速度、查全率、檢準(zhǔn)率、文檔搜索等方面進(jìn)行比較分析。(1) 規(guī)模、內(nèi)容及更新時(shí)間 google多為月更新, 有部分日更新或時(shí)更新,搜索范圍涵蓋了世界各地的網(wǎng)頁(yè), 網(wǎng)頁(yè)數(shù)達(dá)200多億。百度平均為周更新, 中文信息大部分時(shí)更新,有超過(guò)10多億中文網(wǎng)頁(yè), 9千萬(wàn)張圖片, 擁有目前世界上最大的中文信息庫(kù), 并且還在以每天幾十萬(wàn)頁(yè)的速度快速增長(zhǎng), 涵蓋了中國(guó)內(nèi)地、港澳臺(tái)、新加坡等華語(yǔ)地區(qū)及北美、歐洲部分網(wǎng)站。(2)搜索響應(yīng)的速度 google有1.5萬(wàn)臺(tái)服務(wù)器, 200多條T3級(jí)寬帶, 索引功能通過(guò)索引庫(kù) 與排序器來(lái)實(shí)現(xiàn)。百度在中國(guó)各地與美國(guó)均設(shè)有服務(wù)器, 高效的搜索算法與本地服務(wù)器保證最快的響應(yīng)速度。 為了測(cè)試google與百度的響應(yīng)速度, 筆者任意抽取了5個(gè)搜索詞進(jìn)行檢索, 其結(jié)果是google的平均響應(yīng)時(shí)間小于0.13秒, 百度的平均響應(yīng)時(shí)間小于0.06秒(參見(jiàn):搜索響應(yīng)時(shí)間統(tǒng)計(jì)表), 百度的搜索響應(yīng)的速度要快于google。 搜索響應(yīng)時(shí)間統(tǒng)計(jì)衰 搜索詞 google 百度 李文紅 393000條 0.23秒 888000 0.001秒 信息組織學(xué) 1160條 0.05秒 308000 0.089秒 美對(duì)臺(tái)軍售 770000條 0.22秒 88300條 0.082秒 新農(nóng)村文化建設(shè) 4560000條 0.07秒 525000條 0.001秒 網(wǎng)絡(luò)信息資源檢索 3850000條 0.06秒 27300條 0.125秒 平均響應(yīng)時(shí)間 0.13秒 0.06秒 (3)資源查全率 google收取了大概200億的英文搜索頁(yè)面,互聯(lián)網(wǎng)上總的英文網(wǎng)頁(yè)的數(shù)量大概在300億左右,google已經(jīng)覆蓋了英文網(wǎng)頁(yè)數(shù)據(jù)量的60%到70%,在這個(gè)條件下, 所以它的用戶滿意度能達(dá)到60%到70%?;ヂ?lián)網(wǎng)上中文網(wǎng)頁(yè)有效數(shù)量大致在100到150億之間, 而百度與收錄的文網(wǎng)頁(yè)量都在40億到50億之間, 因而, 百度與google的中文網(wǎng)絡(luò)資源查全率一般只能達(dá)到任30一40%。對(duì)西方網(wǎng)絡(luò)信息資源查全率進(jìn)行研究, 百度與google同樣無(wú)與倫比。(4)網(wǎng)絡(luò)信息資源檢準(zhǔn)率 檢準(zhǔn)率是衡量網(wǎng)絡(luò)信息檢索質(zhì)量的標(biāo)準(zhǔn), 也是網(wǎng)絡(luò)信息檢索的一個(gè)突出問(wèn)題。搜索引擎的檢準(zhǔn)率體現(xiàn)在兩個(gè)方面, 一是搜索引擎對(duì)垃圾網(wǎng)頁(yè)的抗干擾能力, 二是搜索引擎對(duì)檢索結(jié)果的排序能力, 它主要取決與搜索引擎采用的排序算法的優(yōu)劣。(5) 文檔搜索應(yīng)用 在互聯(lián)網(wǎng)上除了網(wǎng)頁(yè)資源外, 還如PDF,DOC,RTF,xls,PPT(S)等文檔文件, 這些文檔通常會(huì)包含一些重要的資料, 所以對(duì)這一部分網(wǎng)絡(luò)信息資源的挖掘與利用, 也是搜索引擎的一個(gè)重要功能, 它也是衡量一個(gè)搜索引擎完整與否, 成熟與否的重要指標(biāo)。 Google綜合起來(lái)看是比百度要強(qiáng)大一些,各類搜索引擎之間的技術(shù)決定了搜索引擎公司的強(qiáng)大與否。結(jié)語(yǔ)通過(guò)google與百度二個(gè)無(wú)論從搜索的質(zhì)量與數(shù)量都是世界一流的搜索引擎,能看出各類搜索引擎速度都非常迅速,它們?cè)诟聲r(shí)間與搜索的速度上有著差別,在數(shù)據(jù)庫(kù)規(guī)模、涵蓋范圍與檢準(zhǔn)率, 以及網(wǎng)絡(luò)信息查全率上因各自的技術(shù)不同也有著差別。但是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論