SEO是什么與搜索引擎原理_第1頁(yè)
SEO是什么與搜索引擎原理_第2頁(yè)
SEO是什么與搜索引擎原理_第3頁(yè)
SEO是什么與搜索引擎原理_第4頁(yè)
SEO是什么與搜索引擎原理_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、SEO是什么與搜索引擎原理沈陽(yáng)沈陽(yáng)SEO 目錄1、SEO的含義2、SEO常見(jiàn)方向3、Spider4、內(nèi)容處理、中文分詞和索引5、頁(yè)面去重原理、頁(yè)面去重原理6、用戶(hù)需求分析、用戶(hù)需求分析7 7、內(nèi)容相關(guān)性計(jì)算、內(nèi)容相關(guān)性計(jì)算8 8、連接分析、連接分析9 9、用戶(hù)體驗(yàn)判斷、用戶(hù)體驗(yàn)判斷1010、有效索引和緩存機(jī)制、有效索引和緩存機(jī)制1111、反作弊和人工干預(yù)、反作弊和人工干預(yù)沈陽(yáng)沈陽(yáng)SEO 1、SEO的含義SEO原始定義搜索引擎優(yōu)化,指為了提升網(wǎng)頁(yè)在搜索引擎自然搜索結(jié)果中的收錄數(shù)量及排序位置而做的優(yōu)化行為,這一行為的目的,是為了從搜索引擎中獲得更多的免費(fèi)流量,以及更好的展現(xiàn)網(wǎng)站形象。SEO現(xiàn)實(shí)含義

2、還需要對(duì)搜索流量在網(wǎng)站中整個(gè)行為(PV和轉(zhuǎn)化)負(fù)責(zé)。沈陽(yáng)沈陽(yáng)SEO 思考SEO是忽悠還是技術(shù),策略還是藝術(shù)?面試官問(wèn)“你認(rèn)為SEO是什么?”沈陽(yáng)沈陽(yáng)SEO 2、SEO常見(jiàn)方向原始方向發(fā)發(fā)外鏈,寫(xiě)寫(xiě)文章,堆堆關(guān)鍵詞現(xiàn)實(shí)方向技術(shù),產(chǎn)品,運(yùn)營(yíng)沈陽(yáng)沈陽(yáng)SEO 搜索引擎原理互聯(lián)網(wǎng)Spider內(nèi)容處理分詞索引去重反作弊內(nèi)容相關(guān)性鏈接分析用戶(hù)體驗(yàn)查詢(xún)分析緩存機(jī)制頁(yè)面排序沈陽(yáng)沈陽(yáng)SEO 搜索引擎原理搜索引擎主動(dòng)抓取網(wǎng)頁(yè)進(jìn)行的流程和機(jī)制1、派出Spider,按照一定策略把網(wǎng)頁(yè)抓回到搜索引擎服務(wù)器用戶(hù)進(jìn)行查詢(xún)后,搜索引擎工作流程和機(jī)制2、對(duì)抓回的網(wǎng)頁(yè)進(jìn)行鏈接抽離、內(nèi)容處理,消除噪聲、提取該頁(yè)面文本內(nèi)容3、對(duì)網(wǎng)頁(yè)的

3、文本內(nèi)容進(jìn)行中文分詞、去除停止詞4、判斷該頁(yè)面內(nèi)容與已索引網(wǎng)頁(yè)是否重復(fù),剔除重復(fù)頁(yè),對(duì)剩余網(wǎng)頁(yè)進(jìn)行倒排索引,然后等待用戶(hù)檢索1、對(duì)用戶(hù)所查關(guān)鍵詞進(jìn)行分詞,并根據(jù)用戶(hù)地理位置和歷史檢索特征進(jìn)行用戶(hù)需求分析2、查找緩存中是否有該關(guān)鍵詞的查詢(xún)結(jié)果,如果有,搜索引擎會(huì)根據(jù)當(dāng)下用戶(hù)的各種信息判斷其真正需求,對(duì)緩存中的結(jié)果進(jìn)行微調(diào)或直接呈現(xiàn)給用戶(hù)3、如果用戶(hù)查詢(xún)的關(guān)鍵詞在緩存中不存在,那么就在索引庫(kù)中的網(wǎng)頁(yè)進(jìn)行調(diào)取排名呈現(xiàn),并將該關(guān)鍵詞和對(duì)應(yīng)的搜索結(jié)果加入到緩存中4、網(wǎng)頁(yè)排名是根據(jù)用戶(hù)的搜索詞和搜索需求,對(duì)索引庫(kù)中的網(wǎng)頁(yè)進(jìn)行相關(guān)性、重要性(鏈接權(quán)重分析)和用戶(hù)體驗(yàn)的高低進(jìn)行分析所得出的沈陽(yáng)沈陽(yáng)SEO 3、

4、SpiderSpider也就是大家常說(shuō)的爬蟲(chóng)、蜘蛛或機(jī)器人,是處于整個(gè)搜索引擎最上游的一個(gè)模塊,只有Spider抓回的頁(yè)面或URL才會(huì)被索引和參與排名首先,Spider想要抓取網(wǎng)頁(yè),要發(fā)現(xiàn)網(wǎng)頁(yè)抓取入口,所以要給Spider一些網(wǎng)頁(yè)入口,然后順著入口進(jìn)行爬行抓取,這就涉及抓取策略問(wèn)題其次,網(wǎng)頁(yè)內(nèi)容是有時(shí)效性的,所以Spider對(duì)不同網(wǎng)頁(yè)的抓取頻率也要有一定的策略性,這就涉及再次抓取和更新策略問(wèn)題再次,互聯(lián)網(wǎng)中的網(wǎng)頁(yè)總有一部分是沒(méi)有外部鏈接導(dǎo)入的,也就是常說(shuō)的“暗網(wǎng)”并且這部分網(wǎng)頁(yè)也是需要呈現(xiàn)給網(wǎng)民瀏覽的,這就涉及如何解決暗網(wǎng)問(wèn)題最后,大型搜索引擎的Spider不可能只有一個(gè),為了節(jié)省資源,要保證

5、多個(gè)Spider同時(shí)作業(yè)且抓取頁(yè)面不重復(fù),這就涉及分布抓取策略沈陽(yáng)沈陽(yáng)SEO 3.1Spider分類(lèi)批量型Spider增量型Spider垂直型Spider有明顯的抓取范圍和目標(biāo),設(shè)置抓取時(shí)間限制、抓取數(shù)據(jù)量的限制,或抓取固定范圍內(nèi)頁(yè)面的限制沒(méi)有固定目標(biāo)、范圍和時(shí)間限制,會(huì)無(wú)休止地抓取下去直到把全網(wǎng)的數(shù)據(jù)抓完為止只對(duì)特定主題、特定內(nèi)容或特定行業(yè)的網(wǎng)頁(yè)進(jìn)行抓取,一般都會(huì)聚焦在某一個(gè)限制的范圍內(nèi)進(jìn)行增量型的抓取沈陽(yáng)沈陽(yáng)SEO 3.2Spider的抓取策略Spider眼中的互聯(lián)網(wǎng)頁(yè)面已經(jīng)抓取過(guò)的頁(yè)面待抓取的頁(yè)面可抓取的頁(yè)面暗網(wǎng)中的頁(yè)面123456789已抓取頁(yè)面待抓取頁(yè)面可抓取頁(yè)面暗網(wǎng)中頁(yè)面沈陽(yáng)沈陽(yáng)S

6、EO 3.2Spider的抓取策略Spider的抓取方式深度優(yōu)先策略廣度優(yōu)先策略即一條道走到黑,當(dāng)沿著一個(gè)路徑走到無(wú)路可走時(shí),再返回來(lái)走另一條路Spider在一個(gè)頁(yè)面上發(fā)現(xiàn)多個(gè)連接時(shí),先把這些頁(yè)面抓一遍,然后再抓這些頁(yè)面中提取下來(lái)的鏈接其他策略重要頁(yè)面優(yōu)先抓取策略大站優(yōu)先策略沈陽(yáng)沈陽(yáng)SEO 3.2Spider的抓取策略A1234567891011121314A123456781011121314深度優(yōu)先策略廣度優(yōu)先策略沈陽(yáng)沈陽(yáng)SEO 3.3Spider再次抓取更新策略用戶(hù)體驗(yàn)歷史更新頻率網(wǎng)頁(yè)類(lèi)型搜索引擎會(huì)搜集所有用戶(hù)的搜索請(qǐng)求,然后統(tǒng)計(jì)所有搜索結(jié)果中用戶(hù)可能看到的網(wǎng)頁(yè),繼而進(jìn)行優(yōu)先再次抓取和更

7、新。Spider的再次抓取就是為了發(fā)現(xiàn)已經(jīng)被索引網(wǎng)頁(yè)是否有變化,如果某個(gè)網(wǎng)頁(yè)持續(xù)沒(méi)有變化,搜索引擎就會(huì)降低對(duì)其抓取的頻率不同的網(wǎng)頁(yè)類(lèi)型有不同的更新頻率網(wǎng)頁(yè)權(quán)重網(wǎng)頁(yè)權(quán)重是決定抓取頻率的重要因素沈陽(yáng)沈陽(yáng)SEO 3.4分布式Spider和降權(quán)蜘蛛分布式Spider分布式抓取策略任務(wù)分發(fā)機(jī)制抓取范圍常規(guī)網(wǎng)頁(yè)分類(lèi)站點(diǎn)質(zhì)量等級(jí)分類(lèi)網(wǎng)頁(yè)類(lèi)型分類(lèi)站點(diǎn)或網(wǎng)頁(yè)內(nèi)容所在行業(yè)分類(lèi)沈陽(yáng)沈陽(yáng)SEO 3.5Spider和普通用戶(hù)的區(qū)別Spider可以容易的分辨網(wǎng)頁(yè)中是否有隱藏內(nèi)容,是否被掛了黑鏈,但不能完全了解網(wǎng)頁(yè)的圖片,JS,F(xiàn)lash中的內(nèi)容,普通用戶(hù)卻恰恰相反Spider對(duì)網(wǎng)站的抓取全部都是直接訪問(wèn),而普通用戶(hù)中除了

8、直接訪問(wèn)的用戶(hù)外一般都是有上級(jí)訪問(wèn)路徑的Spider不支持Cookie,但普通用戶(hù)的瀏覽器一般是支持的Spider不會(huì)主動(dòng)注冊(cè)登錄網(wǎng)站,但是普通用戶(hù)是可以的;Spider不會(huì)抓取網(wǎng)站Robots中屏蔽的內(nèi)容,但是普通用戶(hù)是可以訪問(wèn)的Spider對(duì)于有多個(gè)動(dòng)態(tài)參數(shù)網(wǎng)站的抓取,可能會(huì)陷入死循環(huán),但是普通用戶(hù)不會(huì)Spider對(duì)于列表中前幾頁(yè)的新內(nèi)容抓取可能不好,但是感興趣的普通用戶(hù)會(huì)依次瀏覽Spider暫時(shí)還不能真正判斷文章是不是原創(chuàng),但是普通用戶(hù)可以通過(guò)多種方式來(lái)確定是原創(chuàng)還是轉(zhuǎn)載沈陽(yáng)沈陽(yáng)SEO 4、內(nèi)容處理、中文分詞和索引4.1內(nèi)容處理即搜索引擎對(duì)Spider抓取回來(lái)的頁(yè)面進(jìn)行處理步驟要判斷該頁(yè)

9、面的類(lèi)型提取頁(yè)面的文本信息去除頁(yè)面噪聲去除內(nèi)容的停止詞去除內(nèi)容的停止詞沈陽(yáng)沈陽(yáng)SEO 4.2中文分詞中文分詞1、基于詞典匹配2、基于統(tǒng)計(jì)對(duì)大量文字樣本進(jìn)行分析,把相鄰出現(xiàn)次數(shù)多的幾個(gè)字當(dāng)成一個(gè)詞,可以解決搜索引擎詞典更新問(wèn)題,并消除歧義使用搜索引擎自己的詞典對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行拆分正向最大匹配逆向最大匹配最小匹配匹配方式:沈陽(yáng)沈陽(yáng)SEO 4.3索引索引搜索引擎中使用的是倒排索引正向索引結(jié)構(gòu)倒排索引結(jié)構(gòu)沈陽(yáng)沈陽(yáng)SEO 5、頁(yè)面去重原理搜索引擎不想呈現(xiàn)給用戶(hù)的搜索結(jié)果都是相同的內(nèi)容,在抓取這些重復(fù)的頁(yè)面,在一定意義上就是對(duì)搜索引擎自身資源的浪費(fèi),因此去除重復(fù)內(nèi)容的網(wǎng)頁(yè)也成了搜索引擎所面臨的一大問(wèn)題。沈陽(yáng)

10、沈陽(yáng)SEO 6、用戶(hù)需求分析6.1搜索詞分析當(dāng)用戶(hù)向搜索引擎提交查詢(xún)后,搜索引擎首先判斷用戶(hù)所提交的搜索詞的類(lèi)型:是普通的文本搜索、普通文本帶有高級(jí)指令的搜索,還是純高級(jí)指令的搜索。6.2搜索意圖分析當(dāng)用戶(hù)搜索一些比較寬泛的關(guān)鍵詞時(shí),只根據(jù)關(guān)鍵詞本身當(dāng)用戶(hù)搜索一些比較寬泛的關(guān)鍵詞時(shí),只根據(jù)關(guān)鍵詞本身,搜索引擎并不能知道用戶(hù)確切需要什么,此時(shí)就會(huì)嘗試,搜索引擎并不能知道用戶(hù)確切需要什么,此時(shí)就會(huì)嘗試性地分析用戶(hù)的搜索意圖性地分析用戶(hù)的搜索意圖沈陽(yáng)沈陽(yáng)SEO 7、內(nèi)容相關(guān)性計(jì)算相關(guān)性是指內(nèi)容和關(guān)鍵詞的相關(guān)程度?,F(xiàn)在搜索引擎其實(shí)并沒(méi)有真正解決相關(guān)性計(jì)算的問(wèn)題,只是通過(guò)關(guān)鍵詞分詞匹配、關(guān)鍵詞在內(nèi)容中的

11、頻率密度、關(guān)鍵詞字體位置和頁(yè)面外鏈等表面特征來(lái)進(jìn)行內(nèi)容相關(guān)度的計(jì)算。沈陽(yáng)沈陽(yáng)SEO 7.1關(guān)鍵詞匹配1.把用戶(hù)提交的搜索詞分成詞A和詞B2.同時(shí)使用詞A和詞B在索引庫(kù)中進(jìn)行檢索,并提出所有包含詞A或者詞B的文件組成文件集合上L3.在文件集合L中把同時(shí)包含詞A和詞B的文件優(yōu)化提出來(lái)組成文件集合M排在前面,把只包含詞A或詞B的文件排在后面4.繼續(xù)對(duì)文件集合M進(jìn)行分析,把完全包含用戶(hù)搜索詞的文檔提出來(lái)組成文件集合N,并排在前面,把內(nèi)容中沒(méi)有完全匹配搜索詞的文件排在后面5.5.在根據(jù)搜索詞在網(wǎng)頁(yè)中出現(xiàn)的次數(shù)、位置、密度和形式等對(duì)文件集合在根據(jù)搜索詞在網(wǎng)頁(yè)中出現(xiàn)的次數(shù)、位置、密度和形式等對(duì)文件集合N N

12、中中的文件進(jìn)行排序的文件進(jìn)行排序6.搜索引擎還會(huì)分析文件的外鏈數(shù)量、質(zhì)量和錨文本,根據(jù)錨文本輔助分析文件和關(guān)鍵詞的相關(guān)度。外鏈的數(shù)量和質(zhì)量來(lái)確定文件的重要程度,以進(jìn)行排序調(diào)整沈陽(yáng)沈陽(yáng)SEO 7.2語(yǔ)義分析只根據(jù)關(guān)鍵詞匹配和外部鏈接對(duì)網(wǎng)頁(yè)的描述(錨文本),搜索引擎還不能真正理解網(wǎng)頁(yè)的內(nèi)容語(yǔ)義分析技術(shù)其實(shí)就是同各國(guó)對(duì)海量?jī)?nèi)容的分析找出詞匯之間的關(guān)系,當(dāng)兩個(gè)詞或一組詞經(jīng)常出現(xiàn)在同一個(gè)文檔中時(shí),就可以認(rèn)為這些詞之間是語(yǔ)義相關(guān)的沈陽(yáng)沈陽(yáng)SEO 8、連接分析網(wǎng)頁(yè)之間的鏈接關(guān)系在一定程度上反映了每個(gè)網(wǎng)頁(yè)各自的重要程度,理論上重要的網(wǎng)頁(yè)獲得的連接數(shù)量會(huì)比較多。同時(shí)鏈接的屬性中還有錨文本,用來(lái)描述被連接頁(yè)面的內(nèi)

13、容,對(duì)搜索引擎的排名有很大的影響沈陽(yáng)沈陽(yáng)SEO 9、用戶(hù)體驗(yàn)判斷現(xiàn)在的搜索引擎已經(jīng)不是以連接分析為中心了,而是以用戶(hù)體驗(yàn)為中心。在正常的內(nèi)容相關(guān)性判斷和鏈接分析的基礎(chǔ)上,網(wǎng)頁(yè)的用戶(hù)體驗(yàn)對(duì)于搜索排名的影響越來(lái)越大。網(wǎng)站的用戶(hù)體驗(yàn)優(yōu)化(UEO)沈陽(yáng)沈陽(yáng)SEO 9.1正常用戶(hù)體驗(yàn)普通用戶(hù)瀏覽網(wǎng)站時(shí)的用戶(hù)體驗(yàn),可以分以下五大類(lèi):1.感官體驗(yàn):呈現(xiàn)給用戶(hù)視聽(tīng)上的體驗(yàn),強(qiáng)調(diào)舒適性;2.交互體驗(yàn):呈現(xiàn)給用戶(hù)操作上的體驗(yàn),強(qiáng)調(diào)易用、可用性;3.情感體驗(yàn):呈現(xiàn)給用戶(hù)心理上的體驗(yàn),強(qiáng)調(diào)友好性;4.瀏覽體驗(yàn):呈現(xiàn)給用戶(hù)瀏覽上的體驗(yàn),強(qiáng)調(diào)吸引性;5.信任體驗(yàn):呈現(xiàn)給用戶(hù)的信任體驗(yàn),強(qiáng)調(diào)可靠性。沈陽(yáng)沈陽(yáng)SEO 10、有

14、效索引和緩存機(jī)制 10.1有效索引用戶(hù)搜索時(shí),可能會(huì)匹配戶(hù)幾十萬(wàn)上至幾億的網(wǎng)頁(yè),但是大部分用戶(hù)只會(huì)瀏覽前三頁(yè),這樣搜索引擎就沒(méi)有必要相應(yīng)每次搜索時(shí)都對(duì)全部的索引文件進(jìn)行檢索,只需要對(duì)一個(gè)適當(dāng)數(shù)量范圍內(nèi)的索引文件進(jìn)行索引就可以了。百度最多呈現(xiàn)760個(gè)結(jié)果,Google最多呈現(xiàn)1000個(gè)結(jié)果。沈陽(yáng)沈陽(yáng)SEO 10.2緩存機(jī)制緩存就是臨時(shí)文件交換區(qū),是可以進(jìn)行高速數(shù)據(jù)交換的存儲(chǔ)器,它先于內(nèi)存與CPU交換數(shù)據(jù),因此速率極快。緩存淘汰機(jī)制把使用頻率小的搜索結(jié)果剔除,補(bǔ)充進(jìn)來(lái)使用頻率大的搜索結(jié)果,來(lái)保證緩存空間中的內(nèi)容可以相應(yīng)及命中當(dāng)下盡可能多的用戶(hù)搜索請(qǐng)求。緩存更新機(jī)制搜索引擎為了節(jié)約資源,不可能對(duì)緩存中的內(nèi)容進(jìn)行實(shí)時(shí)更新,而是會(huì)選擇搜索請(qǐng)求比較少的時(shí)間段進(jìn)行更新緩存。沈陽(yáng)沈陽(yáng)SEO 11、反作弊和人工干預(yù)自從有搜索引擎以來(lái),就有人不斷研究搜索引擎的排名機(jī)制,進(jìn)而尋找搜索引擎排名的技術(shù)和邏輯漏洞,來(lái)快速提升自己網(wǎng)站的搜索排名。沈陽(yáng)沈陽(yáng)SEO 11.1反作弊算法反作弊就是過(guò)濾環(huán)節(jié)的重要組成部分黑白名單搜索引擎會(huì)根據(jù)網(wǎng)站內(nèi)容的質(zhì)量、權(quán)重、品牌建立白名單,也會(huì)找出明顯作弊嚴(yán)重的網(wǎng)站建立黑名單。作弊特征研究作弊特征研究是現(xiàn)在搜索引擎進(jìn)行反作弊的主要手法。當(dāng)發(fā)現(xiàn)一個(gè)對(duì)搜索結(jié)果影響很大的作弊網(wǎng)站或

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論