seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第1頁
seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第2頁
seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第3頁
seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第4頁
seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

S,歡迎訪問搜索引擎工作原理收錄流程1、提交url是一個(gè)被動(dòng)且費(fèi)時(shí)間的行為。2、建立外鏈,外鏈的數(shù)量、質(zhì)量及相關(guān)性左右著錄入時(shí)間,是主動(dòng)的。頁面收錄方式頁面收錄使用的策略,目的是從互聯(lián)網(wǎng)篩選出相對重要的信息。若使用相同抓取策略,在同一站中抓取頁面資源更具效率,那么則會(huì)再網(wǎng)站上停留更長的時(shí)間,收錄的頁面數(shù)自然也就愛更多。廣度優(yōu)先。優(yōu)點(diǎn):優(yōu)先抓取重要的頁面。應(yīng)對策略:將重要信息設(shè)計(jì)在較淺層次的頁面上深度優(yōu)先。優(yōu)點(diǎn):頁面需求的長尾,抓取更多冷門、隱藏的頁面,滿足更多用戶的需求。應(yīng)對策略:重要信息放置在多層次的頁面上。用戶提交。優(yōu)點(diǎn):大大提高頁面收錄效率、數(shù)量和收錄頁面的質(zhì)量。如何避免重復(fù)收錄(頁面重復(fù)、內(nèi)容重復(fù))網(wǎng)站中的重復(fù)信息:轉(zhuǎn)載內(nèi)容、鏡像內(nèi)容。重復(fù)信息的影響:占用硬盤、延長用戶搜素時(shí)間權(quán)重:原創(chuàng)>轉(zhuǎn)載>鏡像(幾乎完全被忽略)轉(zhuǎn)載頁面比較多個(gè)被劃分為N個(gè)區(qū)域頁面的M個(gè)區(qū)域。若M>A(某閥值),則互為轉(zhuǎn)載。通過比較最后修改時(shí)間、頁面權(quán)重等因素判斷哪個(gè)是原創(chuàng)。鏡像頁面比較多個(gè)被劃分為N個(gè)區(qū)域的頁面,若N個(gè)區(qū)域內(nèi)容完全一樣,則認(rèn)為這些頁面互為鏡像頁面。判斷原創(chuàng)如轉(zhuǎn)載一樣。鏡像網(wǎng)站狹義的鏡像網(wǎng)站是指內(nèi)容完全相同的網(wǎng)站。形成原因:1、多個(gè)域名或IP指向同一服務(wù)器的同一個(gè)物理目錄;2、整個(gè)網(wǎng)站內(nèi)容被復(fù)制到使用不同域名或IP的服務(wù)器上。識別源網(wǎng)站是通過判斷這些網(wǎng)站的首頁以及首頁直接鏈接的頁面是否互為鏡像頁面。再綜合多項(xiàng)因素(如網(wǎng)站權(quán)重值、建立時(shí)間等)識別。鏡像網(wǎng)站只收錄極少頁面,甚至不收錄頁面。頁面維護(hù)方式為讓搜索引擎適應(yīng)網(wǎng)站的不斷變化和缺錄。定期抓取周期性針對全部已收錄頁面進(jìn)行維護(hù)。頁面權(quán)重的再分配也是與頁面維護(hù)同步進(jìn)行。適用于頁面較少,內(nèi)容更新慢的網(wǎng)站。缺點(diǎn):由于維護(hù)周期長,是的不能及時(shí)向用戶反映更新期間頁面的變化情況。增量抓取對已抓取的頁面進(jìn)行定時(shí)監(jiān)控,實(shí)現(xiàn)對頁面的更新及維護(hù)。(不現(xiàn)實(shí))基于80/20法則,搜索引擎只針對某些重要頁面網(wǎng)站中部分重要頁面進(jìn)行定時(shí)監(jiān)控,即可獲取網(wǎng)站中相對重要的信息。優(yōu)點(diǎn):對重要頁面的內(nèi)容更新會(huì)及時(shí)發(fā)現(xiàn)新內(nèi)容、新鏈接、并刪除不存在的信息。分類定位抓取根據(jù)頁面的類別或性質(zhì)而制定相應(yīng)更新周期的頁面監(jiān)控方式。新聞資訊周期小于資源下載的周期。大型門戶網(wǎng)站內(nèi)容更新速度比小型快。優(yōu)點(diǎn):大大提高頁面抓取的靈活性和實(shí)時(shí)性。補(bǔ)充:各種抓取方式組合抓取頁面。頁面存儲(chǔ)搜索引擎能否在抓取頁面的過程中獲取到更多有價(jià)值的信息會(huì)直接影響搜索引擎的工作效率及排序結(jié)果的質(zhì)量。所以搜索引擎除了存儲(chǔ)原始頁面外,還會(huì)附加一系列的信息(如文件類型、文件大小、最后修改時(shí)間、rul、ip地址、抓取時(shí)間等),再把這些作為開展某項(xiàng)工作的依據(jù)。網(wǎng)頁分析對原始頁面進(jìn)行一系列的分析、處理,以迎合用戶信息查詢的習(xí)慣。建立關(guān)鍵字索引與反向索引,分配權(quán)值。麗I1E丈信息麗I1E丈信息如圖2訂所示*攪絮引繫肯先對存錯(cuò)的原蠟建立囊弓I*再過瀧飆始網(wǎng)頁的標(biāo)簽宿息丫從中提取出網(wǎng)頁中的正立內(nèi)容:耕后,時(shí)嘟怪藝璽竺甘建立關(guān)醴字絮引『得別了頁面與蕓誕字河的對應(yīng)關(guān)秦tH后時(shí)所有關(guān)錐爭進(jìn)杼j愛8L"肽而軽關(guān)K字與頁面間的對應(yīng)關(guān)系。嚴(yán)0伽貝工的I網(wǎng)頁索引為提高頁面檢索的效率,而對頁面url建立索引。網(wǎng)頁分析網(wǎng)真分析摩擁個(gè)網(wǎng)頁處理中堆更要的壞節(jié)?包柄『網(wǎng)頁正文信息的提取、切調(diào)、建立關(guān)犍字索引列表及關(guān)億字貳組幾令鬣K的步驟.結(jié)果形成了f關(guān)犍字對應(yīng)多個(gè)礙始頁面的關(guān)系?叩搟成了與用戶査詢習(xí)鎖相符合的信息雛低.正文信息提取過濾非正文信息(HTML標(biāo)簽、JS標(biāo)簽、PHP標(biāo)簽)。分詞/切詞通過對過濾出的正文內(nèi)容進(jìn)行切分(該行為就是分詞/切詞),從而形成與用戶查詢條件相匹配的以關(guān)鍵字為單位的信息列表。分詞算法:1、字符串匹配分詞2、統(tǒng)計(jì)分詞。3、關(guān)鍵字索引。記錄了該關(guān)鍵字所在的網(wǎng)頁編號、關(guān)鍵字編號、關(guān)鍵字出現(xiàn)次數(shù)以及關(guān)鍵字在文檔中的位置信息。*2-1關(guān)at字列長關(guān)毬字集號網(wǎng)頁集號eiOh11KI3ALA5*A7id#2:31K32A3”A9IhitpL^WWWJirnjpCWP31K3JA6,AL3.AID41K41\2例如,記錄1中的關(guān)鍵字KlZfjK面中也現(xiàn)門次,對應(yīng)貞面的Al、A5、為7區(qū)域.如圖48所示4、關(guān)鍵字重組。建立以關(guān)鍵字對應(yīng)多個(gè)網(wǎng)頁的方向索引。頁面排序頁面相關(guān)性貢面相關(guān)柱址指訊面內(nèi)奔另用門所株謝的黃鍵了的接近程度,1很;111關(guān)鍵字匹配度、關(guān)鋌字密度、董錐字分布及關(guān)鍵字的權(quán)重標(biāo)零需決罡*1、關(guān)鍵字匹配度?關(guān)域字匹配度關(guān)蝕字匹配度是指貞imp中的內(nèi)獰旨用戶所提交的先錐字k刑的匹配程度?屯耍由兩*悶索決越□史麗F中足吿存在與査詢黃擾字K相匹配的內(nèi)弄,即貞潮內(nèi)容中足沓包含關(guān)機(jī)字IG□黃鍵宇K在頁面卩中出現(xiàn)了多少次*即頁面卩中有務(wù)少牛抉鍵字監(jiān).為了計(jì)薛關(guān)觥字匹配度「捜索引華為薛個(gè)貞面分配?個(gè)娛鍵字匹配佰.該值由關(guān)號字在貞面中出現(xiàn)的次數(shù)贋定.假設(shè)臬關(guān)鍵字在頁啲中出現(xiàn)?次.關(guān)鍵字匹配值為10;那么「如杲集-關(guān)鍵字在頁面中出規(guī)10次,則關(guān)轆字匹配值=】0忙山缺點(diǎn):易被網(wǎng)站所有者操控。還需要結(jié)合關(guān)鍵字密度、關(guān)鍵字分布及關(guān)鍵字的權(quán)重標(biāo)簽等多方面來決定。2、關(guān)鍵字密度關(guān)鍵字密度是關(guān)鍵字詞頻與網(wǎng)頁總詞量的比例。不同密度對應(yīng)不同密度值。假設(shè)貞面屮臬關(guān)犍字的懈度為50%”該頁面的關(guān)燧字犠度值為2%例如+在內(nèi)審屆;reorderbattery的頁面中.cajncorder的關(guān)鍵字臺度該關(guān)41字*該頁面的關(guān)鍵字密度值就趾20.3、關(guān)鍵字分布依據(jù)關(guān)鍵字位置對應(yīng)不同的分布值。4、關(guān)鍵字的權(quán)重標(biāo)簽在網(wǎng)貞中*網(wǎng)貞制作苦利川不同的HTML標(biāo)簽値頁面中相關(guān)的內(nèi)密實(shí)規(guī)不同的視覺效果(如字怵的樣式、字哥、顏色啡),靈活地運(yùn)用各解HTML標(biāo)簽還有助于提高賈面祖關(guān)性"鏈接權(quán)重入度與出度,及其權(quán)值分配。1、內(nèi)部鏈接2、外部鏈接3、默認(rèn)權(quán)重分配用戶行為點(diǎn)擊率關(guān)鍵字查詢在計(jì)算完斷有頁面的權(quán)戳后*搜索常華就町以向川戶規(guī)供信見酉詢冊務(wù).搜索引節(jié)僭詢功鷹的實(shí)現(xiàn)非常頑用戶對返回結(jié)果的時(shí)聞蚩求也菲常高{通常長秒I8)i£在體么短的時(shí)間內(nèi)進(jìn)行這么復(fù)雜的計(jì)算足不現(xiàn)實(shí)的.所以,搜索引繁粘嬰通過一箕高效的機(jī)制處理來自用戶的査卸°主要包括t口化用F哦出fritiJh'j求詢就完成披含詢攤犍字的反向索引而勰勰戲嚴(yán)計(jì)算等工作=□為那些杳訓(xùn)堆頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論