版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
搜索引擎爬蟲外文翻譯文獻(xiàn)搜索引擎爬蟲外文翻譯文獻(xiàn)(文檔含中英文對照即英文原文和中文翻譯)譯文:探索搜索引擎爬蟲隨著網(wǎng)絡(luò)難以想象的急劇擴(kuò)張,從Web中提取知識逐漸成為一種受歡迎的途徑。這是由于網(wǎng)絡(luò)的便利和豐富的信息。通常需要使用基于網(wǎng)絡(luò)爬行的搜索引擎來找到我們需要的網(wǎng)頁。本文描述了搜索引擎的基本工作任務(wù)。概述了搜索引擎與網(wǎng)絡(luò)爬蟲之間的聯(lián)系。關(guān)鍵詞:爬行,集中爬行,網(wǎng)絡(luò)爬蟲導(dǎo)言在網(wǎng)絡(luò)上WWW是一種服務(wù),駐留在鏈接到互聯(lián)網(wǎng)的電腦上,并允許最終用戶訪問是用標(biāo)準(zhǔn)的接口軟件的計算機(jī)中的存儲數(shù)據(jù)。萬維網(wǎng)是獲取訪問網(wǎng)絡(luò)信息的宇宙,是人類知識的體現(xiàn)。搜索引擎是一個計算機(jī)程序,它能夠從網(wǎng)上搜索并掃描特定的關(guān)鍵字,尤其是商業(yè)服務(wù),返回的它們發(fā)現(xiàn)的資料清單,抓取搜索引擎數(shù)據(jù)庫的信息主要通過接收想要發(fā)表自己作品的作家的清單或者通過“網(wǎng)絡(luò)爬蟲”、“蜘蛛”或“機(jī)器人”漫游互聯(lián)網(wǎng)捕捉他們訪問過的頁面的相關(guān)鏈接和信息。網(wǎng)絡(luò)爬蟲是一個能夠自動獲取萬維網(wǎng)的信息程序。網(wǎng)頁檢索是一個重要的研究課題。爬蟲是軟件組件,它訪問網(wǎng)絡(luò)中的樹結(jié)構(gòu),按照一定的策略,搜索并收集當(dāng)?shù)貛熘袡z索對象。本文的其余部分組織如下:第二節(jié)中,我們解釋了Web爬蟲背景細(xì)節(jié)。在第3節(jié)中,我們討論爬蟲的類型,在第4節(jié)中我們將介紹網(wǎng)絡(luò)爬蟲的工作原理。在第5節(jié),我們搭建兩個網(wǎng)絡(luò)爬蟲的先進(jìn)技術(shù)。在第6節(jié)我們討論如何挑選更有趣的問題。調(diào)查網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲幾乎同網(wǎng)絡(luò)本身一樣古老。第一個網(wǎng)絡(luò)爬蟲,馬修格雷瀏覽者,寫于1993年春天,大約正好與首次發(fā)布的OCSAMosaic網(wǎng)絡(luò)同時發(fā)布。在最初的兩次萬維網(wǎng)會議上發(fā)表了許多關(guān)于網(wǎng)絡(luò)爬蟲的文章。然而,在當(dāng)時,網(wǎng)絡(luò)i現(xiàn)在要小到三到四個數(shù)量級,所以這些系統(tǒng)沒有處理好當(dāng)今網(wǎng)絡(luò)中一次爬網(wǎng)固有的縮放問題。顯然,所有常用的搜索引擎使用的爬網(wǎng)程序必須擴(kuò)展到網(wǎng)絡(luò)的實質(zhì)性部分。但是,由于搜索引擎是一項競爭性質(zhì)的業(yè)務(wù),這些抓取的設(shè)計并沒有公開描述。有兩個明顯的例外:股溝履帶式和網(wǎng)絡(luò)檔案履帶式。不幸的是,說明這些文獻(xiàn)中的爬蟲程序是太簡潔以至于能夠進(jìn)行重復(fù)。原谷歌爬蟲(在斯坦福大學(xué)開發(fā)的)組件包括五個功能不同的運行流程。服務(wù)器進(jìn)程讀取一個URL出來然后通過履帶式轉(zhuǎn)發(fā)到多個進(jìn)程。每個履帶進(jìn)程運行在不同的機(jī)器,是單線程的,使用異步I/O采用并行的模式從最多300個網(wǎng)站來抓取數(shù)據(jù)。爬蟲傳輸下載的頁面到一個能進(jìn)行網(wǎng)頁壓縮和存儲的存儲服務(wù)器進(jìn)程。然后這些頁面由一個索引進(jìn)程進(jìn)行解讀,從HTML頁面中提取鏈接并將他們保存到不同的磁盤文件中。一個URL解析器進(jìn)程讀取鏈接文件,并將相對的網(wǎng)址進(jìn)行存儲,并保存了完整的URL到磁盤文件然后就可以進(jìn)行讀取了。通常情況下,因為三到四個爬蟲程序被使用,所有整個系統(tǒng)需要四到八個完整的系統(tǒng)。在谷歌將網(wǎng)絡(luò)爬蟲轉(zhuǎn)變?yōu)橐粋€商業(yè)成果之后,在斯坦福大學(xué)仍然在進(jìn)行這方面的研究。斯坦福WebBase項目組已實施一個高性能的分布式爬蟲,具有每秒可以下載50到100個文件的能力。Cho等人又發(fā)展了文件更新頻率的模型以報告爬行下載集合的增量?;ヂ?lián)網(wǎng)檔案館還利用多臺計算機(jī)來檢索網(wǎng)頁。每個爬蟲程序被分配到64個站點進(jìn)行檢索,并沒有網(wǎng)站被分配到一個以上的爬蟲。每個單線程爬蟲程序讀取到其指定網(wǎng)站網(wǎng)址列表的種子從磁盤到每個站點的隊列,然后用異步I/O來從這些隊列同時抓取網(wǎng)頁。一旦一個頁面下載完畢,爬蟲提取包含在其中的鏈接。如果一個鏈接提到它被包含在頁面中的網(wǎng)站,它被添加到適當(dāng)?shù)恼军c排隊;否則被記錄在磁盤。每隔一段時間,合并成一個批處理程序的具體地點的種子設(shè)置這些記錄“跨網(wǎng)站”的網(wǎng)址,過濾掉進(jìn)程中的重復(fù)項。WebFountian爬蟲程序分享了魔卡托結(jié)構(gòu)的幾個特點:它是分布式的,連續(xù),有禮貌,可配置的。不幸的是,寫這篇文章,WebFountain是在其發(fā)展的早期階段,并尚未公布其性能數(shù)據(jù)。搜索引擎基本類型基于爬蟲的搜索引擎基于爬蟲的搜索引擎自動創(chuàng)建自己的清單。計算機(jī)程序“蜘蛛”建立他們沒有通過人的選擇。他們不是通過學(xué)術(shù)分類進(jìn)行組織,而是通過計算機(jī)算法把所有的網(wǎng)頁排列出來。這種類型的搜索引擎往往是巨大的,常常能取得了大齡的信息,它允許復(fù)雜的搜索范圍內(nèi)搜索以前的搜索的結(jié)果,使你能夠改進(jìn)搜索結(jié)果。這種類型的搜素引擎包含了網(wǎng)頁中所有的鏈接。所以人們可以通過匹配的單詞找到他們想要的網(wǎng)頁。B.人力頁面目錄這是通過人類選擇建造的,即他們依賴人類創(chuàng)建列表。他們以主題類別和科目類別做網(wǎng)頁的分類。人力驅(qū)動的目錄,永遠(yuǎn)不會包含他們網(wǎng)頁所有鏈接的。他們是小于大多數(shù)搜索引擎的。C.混合搜索引擎一種混合搜索引擎以傳統(tǒng)的文字為導(dǎo)向,如谷歌搜索引擎,如雅虎目錄搜索為基礎(chǔ)的搜索引擎,其中每個方案比較操作的元數(shù)據(jù)集不同,當(dāng)其元數(shù)據(jù)的主要資料來自一個網(wǎng)絡(luò)爬蟲或分類分析所有互聯(lián)網(wǎng)文字和用戶的搜索查詢。與此相反,混合搜索引擎可能有一個或多個元數(shù)據(jù)集,例如,包括來自客戶端的網(wǎng)絡(luò)元數(shù)據(jù),將所得的情境模型中的客戶端上下文元數(shù)據(jù)倆認(rèn)識這兩個機(jī)構(gòu)。爬蟲的工作原理網(wǎng)絡(luò)爬蟲是搜索引擎必不可少的組成部分:運行一個網(wǎng)絡(luò)爬蟲是一個極具挑戰(zhàn)的任務(wù)。有技術(shù)和可靠性問題,更重要的是有社會問題。爬蟲是最脆弱的應(yīng)用程序,因為它涉及到交互的幾百幾千個Web服務(wù)器和各種域名服務(wù)器,這些都超出了系統(tǒng)的控制。網(wǎng)頁檢索速度不僅由一個人的自己互聯(lián)網(wǎng)連接速度有關(guān),同時也受到了要抓取的網(wǎng)站的速度。特別是如果一個是從多個服務(wù)器抓取的網(wǎng)站,總爬行時間可以大大減少,如果許多下載是并行完成。雖然有眾多的網(wǎng)絡(luò)爬蟲應(yīng)用程序,他們在核心內(nèi)容上基本上是相同的。以下是應(yīng)用程序網(wǎng)絡(luò)爬蟲的工作過程:下載網(wǎng)頁通過下載的頁面解析和檢索所有的聯(lián)系對于每一個環(huán)節(jié)檢索,重復(fù)這個過程。網(wǎng)絡(luò)爬蟲可用于通過對完整的網(wǎng)站的局域網(wǎng)進(jìn)行抓取。可以指定一個啟動程序爬蟲跟隨在HTML頁中找到所有鏈接。這通常導(dǎo)致更多的鏈接,這之后將再次跟隨,等等。一個網(wǎng)站可以被視為一個樹狀結(jié)構(gòu)看,根本是啟動程序,在這根的HTML頁的所有鏈接是根子鏈接。隨后循環(huán)獲得更多的鏈接。一個網(wǎng)頁服務(wù)器提供若干網(wǎng)址清單給爬蟲。網(wǎng)絡(luò)爬蟲開始通過解析一個指定的網(wǎng)頁,標(biāo)注該網(wǎng)頁指向其他網(wǎng)站頁面的超文本鏈接。然后他們分析這些網(wǎng)頁之間新的聯(lián)系,等等循環(huán)。網(wǎng)絡(luò)爬蟲軟件不實際移動到各地不同的互聯(lián)網(wǎng)上的電腦,而是像電腦病毒一樣通過智能代理進(jìn)行。每個爬蟲每次大概打開大約300個鏈接。這是索引網(wǎng)頁必須的足夠快的速度。一個爬蟲互留在一個機(jī)器。爬蟲只是簡單的將HTTP請求的文件發(fā)送到互聯(lián)網(wǎng)的其他機(jī)器,就像一個網(wǎng)上瀏覽器的鏈接,當(dāng)用戶點擊。所有的爬蟲事實上是自動化追尋鏈接的過程。網(wǎng)頁檢索可視為一個隊列處理的項目。當(dāng)檢索器訪問一個網(wǎng)頁,它提取到其他網(wǎng)頁的鏈接。因此,爬蟲置身于這些網(wǎng)址的一個隊列的末尾,并繼續(xù)爬行到下一個頁面,然后它從隊列前面刪除。資源約束爬行消耗資源:下載頁面的帶寬,支持私人數(shù)據(jù)結(jié)構(gòu)存儲的內(nèi)存,來評價和選擇網(wǎng)址的CPU,以及存儲文本和鏈接以及其他持久性數(shù)據(jù)的磁盤存儲。B.機(jī)器人協(xié)議機(jī)器人文件給出排除一部分的網(wǎng)站被抓取的指令。類似地,一個簡單的文本文件可以提供有關(guān)的新鮮和出版對象的流行信息。對信息允許抓取工具優(yōu)化其收集的數(shù)據(jù)刷新策略以及更換對象的政策。C.元搜索引擎一個元搜索引擎是一種沒有它自己的網(wǎng)頁數(shù)據(jù)庫的搜索引擎。它發(fā)出的搜索支持其他搜索引擎所有的數(shù)據(jù)庫,從所有的搜索引擎查詢并為用戶提供的結(jié)果。較少的元搜索可以讓您深入到最大,最有用的搜索引擎數(shù)據(jù)庫。他們往往返回最小或免費的搜索引擎和其他免費目錄并且通常是小和高度商業(yè)化的結(jié)果。爬行技術(shù)A:主題爬行一個通用的網(wǎng)絡(luò)爬蟲根據(jù)一個URL的特點設(shè)置來收集網(wǎng)頁。凡為主題爬蟲的設(shè)計有一個特定的主題的文件,從而減少了網(wǎng)絡(luò)流量和下載量。主題爬蟲的目標(biāo)是有選擇地尋找相關(guān)的網(wǎng)頁的主題進(jìn)行預(yù)先定義的設(shè)置。指定的主題不使用關(guān)鍵字,但使用示范文件。不是所有的收集和索引訪問的Web文件能夠回答所有可能的特殊查詢,有一個主題爬蟲爬行分析其抓起邊界,找到鏈接,很可能是最適合抓取相關(guān),并避免不相關(guān)的區(qū)域的Web。這導(dǎo)致在硬件和網(wǎng)絡(luò)資源極大地節(jié)省,并有助于于保持在最新狀態(tài)的數(shù)據(jù)。主題爬蟲有三個主要組成部分一個分類器,這能夠判斷相關(guān)網(wǎng)頁,決定抓取鏈接的拓展,過濾器決定過濾器抓取的網(wǎng)頁,以確定優(yōu)先訪問中心次序的措施,以及均受量詞和過濾器動態(tài)重新配置的優(yōu)先的控制的爬蟲。最關(guān)鍵的評價是衡量主題爬行收獲的比例,這是在抓取過程中有多少比例相關(guān)網(wǎng)頁被采用和不相干的網(wǎng)頁是有效地過濾掉,這收獲率最高,否則主題爬蟲會花很多時間在消除不相關(guān)的網(wǎng)頁,而且使用一個普通的爬蟲可能會更好。B:分布式檢索檢索網(wǎng)絡(luò)是一個挑戰(zhàn),因為它的成長性和動態(tài)性。隨著網(wǎng)絡(luò)規(guī)模越來越大,已經(jīng)稱為必須并行處理檢索程序,以完成在合理的時間內(nèi)下載網(wǎng)頁。一個單一的檢索程序,即使在是用多線程在大型引擎需要獲取大量數(shù)據(jù)的快速上也存在不足。當(dāng)一個爬蟲通過一個單一的物理鏈接被所有被提取的數(shù)據(jù)所使用,通過分配多種抓取活動的進(jìn)程可以幫助建立一個可擴(kuò)展的易于配置的系統(tǒng),它具有容錯性的系統(tǒng)。拆分負(fù)載降低硬件要求,并在同一時間增加整體下載速度和可靠性。每個任務(wù)都是在一個完全分布式的方式,也就是說,沒有中央?yún)f(xié)調(diào)器的存在。挑戰(zhàn)更多“有趣”對象的問題搜索引擎被認(rèn)為是一個熱門話題,因為它收集用戶查詢記錄。檢索程序優(yōu)先抓取網(wǎng)站根據(jù)一些重要的度量,例如相似性(對有引導(dǎo)的查詢),返回鏈接數(shù)網(wǎng)頁排名或者其他組合/變化最精Najork等。表明,首先考慮廣泛優(yōu)先搜索收集高品質(zhì)頁面,并提出一種網(wǎng)頁排名。然而,目前,搜索策略是無法準(zhǔn)確選擇“最佳”路徑,因為他們的認(rèn)識僅僅是局部的。由于在互聯(lián)網(wǎng)上可得到的信息數(shù)量非常龐大目前不可能實現(xiàn)全面的索引。因此,必須采用剪裁策略。主題爬行和智能檢索,是發(fā)現(xiàn)相關(guān)的特定主題或主題集網(wǎng)頁技術(shù)。結(jié)論在本文中,我們得出這樣的結(jié)論實現(xiàn)完整的網(wǎng)絡(luò)爬行覆蓋是不可能實現(xiàn),因為受限于整個萬維網(wǎng)的巨大規(guī)模和資源的可用性。通常是通過一種閾值的設(shè)置(網(wǎng)站訪問人數(shù),網(wǎng)站上樹的水平,與主題等規(guī)定),以限制對選定的網(wǎng)站上進(jìn)行抓取的過程。此信息是在搜索引擎可用于存儲/刷新最相關(guān)和最新更新的網(wǎng)頁,從而提高檢索的內(nèi)容質(zhì)量,同時減少陳舊的內(nèi)容和缺頁。原文:DiscussiononWebCrawlersofSearchEngineAbstract-WiththeprecipitousexpansionoftheWeb,extractingknowledgefromtheWebisbecominggraduallyimportantandpopular.ThisisduetotheWeb’sconvenienceandrichnessofinformation.TofindWebpages,onetypicallyusessearchenginesthatarebasedontheWebcrawlingframework.Thispaperdescribesthebasictaskperformedsearchengine.OverviewofhowtheWebcrawlersarerelatedwithsearchengine.KeywordsDistributedCrawling,FocusedCrawling,WebCrawlersⅠ.INTRODUCTIONWWWontheWebisaservicethatresidesoncomputersthatareconnectedtotheInternetandallowsenduserstoaccessdatathatisstoredonthecomputersusingstandardinterfacesoftware.TheWorldWideWebistheuniverseofnetwork-accessibleinformation,anembodimentofhumanknowledge.Searchengineisacomputerprogramthatsearchesforparticularkeywordsandreturnsalistofdocumentsinwhichtheywerefound,especiallyacommercialservicethatscansdocumentsontheInternet.Asearchenginefindsinformationforitsdatabasebyacceptinglistingssentitbyauthorswhowantexposure,orbygettingtheinformationfromtheir“Webcrawlers,””spiders,”or“robots,”programsthatroamtheInternetstoringlinkstoandinformationabouteachpagetheyvisit.WebCrawlerisaprogram,whichfetchesinformationfromtheWorldWideWebinanautomatedmanner.Webcrawlingisanimportantresearchissue.Crawlersaresoftwarecomponents,whichvisitportionsofWebtrees,accordingtocertainstrategies,andcollectretrievedobjectsinlocalrepositories.Therestofthepaperisorganizedas:inSection2weexplainthebackgrounddetailsofWebcrawlers.InSection3wediscussontypesofcrawler,inSection4wewillexplaintheworkingofWebcrawler.InSection5wecoverthetwoadvancedtechniquesofWebcrawlers.IntheSection6wediscusstheproblemofselectingmoreinterestingpages.Ⅱ.SURVEYOFWEBCRAWLERSWebcrawlersarealmostasoldastheWebitself.Thefirstcrawler,MatthewGray’sWanderer,waswritteninthespringof1993,roughlycoincidingwiththefirstreleaseMosaic.SeveralpapersaboutWebcrawlingwerepresentedatthefirsttwoWorldWideWebconference.However,atthetime,theWebwasthreetofourordersofmagnitudesmallerthanitistoday,sothosesystemsdidnotaddressthescalingproblemsinherentinacrawloftoday’sWeb.Obviously,allofthepopularsearchenginesusecrawlersthatmustscaleuptosubstantialportionsoftheWeb.However,duetothecompetitivenatureofthesearchenginebusiness,thedesignsofthesecrawlershavenotbeenpubliclydescribed.Therearetwonotableexceptions:theGoolecrawlerandtheInternetArchivecrawler.Unfortunately,thedescriptionsofthesecrawlersintheliteraturearetootersetoenablereproducibility.TheoriginalGooglecrawler(developedatStanford)consistedoffivefunctionalcomponentsrunningindifferentprocesses.AURLserverprocessreadURLsoutofafileandforwardedthemtomultiplecrawlerprocesses.Eachcrawlerprocessranonadifferentmachine,wassingle-threaded,andusedasynchronousI/Otofetchdatafromupto300Webserversinparallel.ThecrawlerstransmitteddownloadedpagestoasingleStoreServerprocess,whichcompressedthepagesandstoredthemtodisk.Thepagewerethenreadbackfromdiskbyanindexerprocess,whichextractedlinksfromHTMLpagesandsavedthemtoadifferentdiskfile.AURLsresolverprocessreadthelinkfile,relativetheURLscontainedtherein,andsavedtheabsoluteURLstothediskfilethatwasreadbytheURLserver.Typically,threetofourcrawlermachineswereused,sotheentiresystemrequiredbetweenfourandeightmachines.ResearchonWebcrawlingcontinuesatStanfordevenafterGooglehasbeentransformedintoacommercialeffort.TheStanfordWebBaseprojecthasimplementedahighperformancedistributedcrawler,capableofdownloading50to100documentspersecond.Choandothershavealsodevelopedmodelsofdocumentsupdatefrequenciestoinformthedownloadscheduleofincrementalcrawlers.TheInternetArchivealsousedmultiplemachinestocrawltheWeb.Eachcrawlerprocesswasassignedupto64sitestocrawl,andnositewasassignedtomorethanonecrawler.Eachsingle-threadedcrawlerprocessreadalistofseedURLsforitsassignedsitedfromdiskintper-sitequeues,andthenusedasynchronousI/Otofetchpagesfromthesequeuesinparallel.Onceapagewasdownloaded,thecrawlerextractedthelinkscontainedinit.Ifalinkreferredtothesiteofthepageitwascontainedin,itwasaddedtotheappropriatesitequeue;otherwiseitwasloggedtodisk.Periodically,abatchprocessmergedtheselogged“cross-sit”URLsintothesite--specificseedsets,filteringoutduplicatesintheprocess.TheWebFountaincrawlersharesseveralofMercator’scharacteristics:itisdistributed,continuous(theauthorsusetheterm”incremental”),polite,andconfigurable.Unfortunately,asofthiswriting,WebFountainisintheearlystagesofitsdevelopment,anddataaboutitsperformanceisnotyetavailable.Ⅲ.BASICTYPESSOFSEARCHENGINECrawlerBasedSearchEnginesCrawlerbasedsearchenginescreatetheirlistingsautomatically.Computerprograms‘spider’buildthemnotbyhumanselection.Theyarenotorganizedbysubjectcategories;acomputeralgorithmranksallpages.Suchkindsofsearchenginesarehugeandoftenretrievealotofinformation--forcomplexsearchesitallowstosearchwithintheresultsofaprevioussearchandenablesyoutorefinesearchresults.ThesetypesofsearchenginescontainfulltextoftheWebpagestheylinkto.Soonecannfindpagesbymatchingwordsinthepagesonewants;B.HumanPoweredDirectoriesThesearebuiltbyhumanselectioni.e.Theydependonhumanstocreatelistings.Theyareorganizedintosubjectcategoriesandsubjectsdoclassificationofpages.HumanpowereddirectoriesnevercontainfulltextoftheWebpagetheylinkto.Theyaresmallerthanmostsearchengines.C.HybridSearchEngineAhybridsearchenginediffersfromtraditionaltextorientedsearchenginesuchasGoogleoradirectory-basedsearchenginesuchasYahooinwhicheachprogramoperatesbycomparingasetofmetadata,theprimarycorpusbeingthemetadataderivedfromaWebcrawlerortaxonomicanalysisofallinternettext,andausersearchquery.Incontrast,hybridsearchenginemayusethesetwobodiesofmetadatainadditiontooneormoresetsofmetadatathatcan,forexample,includesituationalmetadataderivedfromtheclient’snetworkthatwouldmodelthecontextawarenessoftheclient.Ⅳ.WORKINGOFAWEBCRAWLERWebcrawlersareanessentialcomponenttosearchengines;runningaWebcrawlerisachallengingtask.Therearetrickyperformanceandreliabilityissuesandevenmoreimportantly,therearesocialissues.CrawlingisthemostfragileapplicationsinceitinvolvesinteractingwithhundredsofthousandsofWebserversandvariousnameservers,whichareallbeyondthecontrolofthesystem.Webcrawlingspeedisgovernednotonlybythespeedofone’sownInternetconnection,butalsobythespeedofthesitesthataretobecrawled.Especiallyifoneisacrawlingsitefrommultipleservers,thetotalcrawlingtimecanbesignificantlyreduced,ifmanydownloadsaredoneinparallel.DespitethenumerousapplicationsforWebcrawlers,atthecoretheyareallfundamentallythesame.FollowingistheprocessbywhichWebcrawlerswork:DownloadtheWebpage.Parsethroughthedownloadedpageandretrieveallthelinks.Foreachlinkretrieved,repeattheprocess.TheWebcrawlercanbeusedforcrawlingthroughawholesiteontheInter-/Intranet.Youspecifyastart-URLandtheCrawlerfollowsalllinksfoundinthatHTMLpage.Thisusuallyleadstomorelinks,whichwillbefollowedagain,andsoon.Asitecanbeseenasatree-structure,therootisthestart-URL;alllinksinthatroot-HTMLaredirectsonsoftheroot.Subsequentlinksarethensonsoftheprevioussons.AsingleURLServerserveslistsofURLstoanumberofcrawlers.WebcrawlerstartsbyparsingaspecifiedWebpage,notinganyhypertextlinksonthatpagethatpointtootherWebpages.Theythenparsethosepagesfornewlinks,andsoon,recursively.WebCrawlersoftwaredoesn’tactuallymovearoundtodifferentcomputersontheInternet,asvirusesorintelligentagentsdo.Eachcrawlerkeepsroughly300connectionsopenatonce.ThisisnecessarytoretrieveWebpageatafastenoughpace.Acrawlerresidesonasinglemachine.ThecrawlersimplysendsHTTPrequestsfordocumentstoothermachinesontheInternet,justasaWebbrowserdoeswhentheuserclicksonlinks.Allthecrawlerreallydoesistoautomatetheprocessoffollowinglinks.Webcrawlingcanberegardedasprocessingitemsinaqueue.WhenthecrawlervisitsaWebpage,itextractslinkstootherWebpages.SothecrawlerputstheseURLsattheendofaqueue,andcontinuescrawlingtoaURLthatitremovesfromthefrontofthequeue.ResourceConstraintsCrawlersconsumeresources:networkbandwidthtodownloadpages,memorytomaintainprivatedatastructuresinsupportoftheiralgorithms,CUPtoevaluateandselectURLs,anddiskstoragetostorethetextandlinksoffetchedpagesaswellasotherpersistentdata.B.RobotProtocolTherobot.txtfilegivesdirectivesforexcludingaportionofaWebsitetobecrawled.Analogously,asimpletextfilecanfurnishinformationaboutthefreshnessandpopularityfopublishedobjects.Thisinformationpermitsacrawlertooptimizeitsstrategyforrefreshingcollecteddataaswellasreplacingobjectpolicy.C.MetaSearchEngineAmeta-searchengineisthekindofsearchenginethatdoesnothaveitsowndatabaseofWebpages.Itsendssearchtermstothedatabasesmaintainedbyothersearchenginesandgivesuserstheresultthatcomefromallthesearchenginesqueried.Fewermetasearchersallowyoutodelveintothelargest,mostusefulsearchenginedatabases.Theytendtoreturnresultsfromsmalleradd/orsearchenginesandmiscellaneousfreedirectories,oftensmallandhighlycommercial.Ⅴ.CRAWLINGTECHNIQUESFocusedCrawlingAgeneralpurposeWebcrawlergathersasmanypagesasitcanfromaparticularsetofURL’s.Whereasafocusedcrawlerisdesignedtoonlygatherdocumentsonaspecifictopic,thusreducingtheamountofnetworktrafficanddownloads.Thegoalofthefocusedcrawleristoselectivelyseekoutpagesthatarerelevanttoapredefinedsetoftopics.Thetopicsrespecifiednotusingkeywords,butusingexemplarydocuments.RatherthancollectingandindexingallaccessibleWebdocumentstobeabletoanswerallpossiblead-hocqueries,afocusedcrawleranalyzesitscrawlboundarytofindthelinksthatarelikelytobemostrelevantforthecrawl,andavoidsirrelevantregionsoftheWeb.Thisleadstosignificantsavingsinhardwareandnetworkresources,andhelpskeepthecrawlmoreup-to-date.Thefocusedcrawlerhasthreemaincomponents;:aclassifierwhichmakesrelevancejudgmentsonpages,crawledtodecideonlinkexpansion,adistillerwhichdeterminesameasureofcentralityofcrawledpagestodeterminevisitpriorities,andacrawlerwithdynamicallyreconfigurableprioritycontrolswhichisgovernedbytheclassifieranddistiller.Themostcrucialevaluationoffocusedcrawlingistomeasuretheharvestratio,whichisrateatwhichrelevantpagesareacquiredandirrelevantpagesareeffectivelyfilteredofffromthecrawl.Thisharvestratiomustbehigh,otherwisethefocusedcrawlerwouldspendalotoftimemerelyeliminatingirrelevantpages,anditmaybebettertouseanordinarycrawlerinstead.B.DistributedCrawlingIndexingtheWebisachallengeduetoitsgrowinganddynamicnature.AsthesizeoftheWebsisgrowingithasbecomeimperativetoparallelizethecrawlingprocessinordertofinishdownloadingthepagesinareasonableamountoftime.Asinglecrawlingprocessevenifmultithreadingisusedwillbeinsufficientforlarge-scaleenginesthatneedtofetchl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國學(xué)校家具行業(yè)發(fā)展現(xiàn)狀及前景規(guī)劃研究報告
- 2024-2030年中國嬰兒洗護(hù)用品市場運行動態(tài)及前景趨勢預(yù)測報告
- 2024-2030年中國女性洗液行業(yè)市場營銷模式及發(fā)展前景預(yù)測報告
- 2024-2030年中國多型腔熱流道管坯模具境外融資報告
- 2024年標(biāo)準(zhǔn)簡易個人魚塘承包合同模板版B版
- 梅河口康美職業(yè)技術(shù)學(xué)院《高級語言程序?qū)嵺`》2023-2024學(xué)年第一學(xué)期期末試卷
- 茂名職業(yè)技術(shù)學(xué)院《語文教學(xué)設(shè)計與實施》2023-2024學(xué)年第一學(xué)期期末試卷
- 微專題定量測定型實驗突破策略-2024高考化學(xué)一輪考點擊破
- 呂梁職業(yè)技術(shù)學(xué)院《生物學(xué)科專業(yè)導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年某科技公司與某航空公司關(guān)于機(jī)載娛樂系統(tǒng)的合同
- 德邦物流-第三方物流服務(wù)
- 混凝土冬季施工保溫保濕措施
- 心電監(jiān)護(hù)技術(shù)
- 2024年華潤電力投資有限公司招聘筆試參考題庫含答案解析
- 壟斷行為的定義與判斷準(zhǔn)則
- 模具開發(fā)FMEA失效模式分析
- 聶榮臻將軍:中國人民解放軍的奠基人之一
- 材料化學(xué)專業(yè)大學(xué)生職業(yè)生涯規(guī)劃書
- 乳品加工工(中級)理論考試復(fù)習(xí)題庫(含答案)
- 《教材循環(huán)利用》課件
- 學(xué)生思想政治工作工作證明材料
評論
0/150
提交評論