給不懂搜索引擎的人講搜索引擎原理的方法

上傳人：瑪*** IP屬地：四川上傳時(shí)間：2022-01-03 格式：DOC 頁(yè)數(shù)：49 大?。?7KB 積分：9.6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩44頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、給不懂搜索引擎的人講搜索引擎原理的方法與關(guān)鍵詞有聯(lián)系的幾個(gè)原理，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2，而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值，采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|)，再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法，和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似，下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握，王族分為兩組，一組謚稱以甲乙為主，一組謚稱以丁為主，兩組互相通

2、婚，輪流繼位執(zhí)政。王位多傳于另一組的下輩，有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式，從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期，接近泊松分布，所以1個(gè)網(wǎng)站長(zhǎng)期不更新，搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布，逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯，在這本書(shū)的最后1章，沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào)，于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)９ゴ藭?shū)，把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái)，計(jì)算詞頻，發(fā)現(xiàn)了尤利西斯包含n個(gè)詞，將這些詞按其出現(xiàn)的頻次遞減地排序，那么序號(hào)r和其出現(xiàn)頻次f之積fr，將近似地為一個(gè)常數(shù)，即fr=b，(式中r

3、=1,2,3.)，又以其他名著驗(yàn)證，結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律，給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重，低頻詞的權(quán)重較高，高頻詞的權(quán)重較低，所謂的關(guān)鍵詞密度亦是據(jù)此，長(zhǎng)尾詞在文章中往往有較高的權(quán)重，重復(fù)出現(xiàn)關(guān)鍵詞，可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的，而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)?？科渌W(wǎng)頁(yè)上的超鏈接，alt屬性，網(wǎng)頁(yè)標(biāo)題，以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu)，即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò)，都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理

4、，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2，而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值，采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|)，再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法，和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似，下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握，王族分為兩組，一組謚稱以甲乙為主，一組謚稱以丁為主，兩組互相通婚，輪流繼位執(zhí)政。王位多傳于另一組的下輩，有時(shí)也傳于同組內(nèi)的同輩

5、。王位以此互傳的方式，從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期，接近泊松分布，所以1個(gè)網(wǎng)站長(zhǎng)期不更新，搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布，逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯，在這本書(shū)的最后1章，沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào)，于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)９ゴ藭?shū)，把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái)，計(jì)算詞頻，發(fā)現(xiàn)了尤利西斯包含n個(gè)詞，將這些詞按其出現(xiàn)的頻次遞減地排序，那么序號(hào)r和其出現(xiàn)頻次f之積fr，將近似地為一個(gè)常數(shù)，即fr=b，(式中r=1,2,3.)，又以其他名著驗(yàn)證，結(jié)論非常近似。后來(lái)搜索引擎引

6、進(jìn)了這一定律，給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重，低頻詞的權(quán)重較高，高頻詞的權(quán)重較低，所謂的關(guān)鍵詞密度亦是據(jù)此，長(zhǎng)尾詞在文章中往往有較高的權(quán)重，重復(fù)出現(xiàn)關(guān)鍵詞，可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的，而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)。靠其他網(wǎng)頁(yè)上的超鏈接，alt屬性，網(wǎng)頁(yè)標(biāo)題，以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu)，即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò)，都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵

7、詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2，而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值，采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|)，再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法，和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似，下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握，王族分為兩組，一組謚稱以甲乙為主，一組謚稱以丁為主，兩組互相通婚，輪流繼位執(zhí)政。王位多傳于另一組的下輩，有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式，從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯

8、坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期，接近泊松分布，所以1個(gè)網(wǎng)站長(zhǎng)期不更新，搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布，逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯，在這本書(shū)的最后1章，沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào)，于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)９ゴ藭?shū)，把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái)，計(jì)算詞頻，發(fā)現(xiàn)了尤利西斯包含n個(gè)詞，將這些詞按其出現(xiàn)的頻次遞減地排序，那么序號(hào)r和其出現(xiàn)頻次f之積fr，將近似地為一個(gè)常數(shù)，即fr=b，(式中r=1,2,3.)，又以其他名著驗(yàn)證，結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律，給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重，低

9、頻詞的權(quán)重較高，高頻詞的權(quán)重較低，所謂的關(guān)鍵詞密度亦是據(jù)此，長(zhǎng)尾詞在文章中往往有較高的權(quán)重，重復(fù)出現(xiàn)關(guān)鍵詞，可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的，而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)。靠其他網(wǎng)頁(yè)上的超鏈接，alt屬性，網(wǎng)頁(yè)標(biāo)題，以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu)，即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò)，都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞

10、的權(quán)重不是11=2，而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值，采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|)，再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法，和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似，下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握，王族分為兩組，一組謚稱以甲乙為主，一組謚稱以丁為主，兩組互相通婚，輪流繼位執(zhí)政。王位多傳于另一組的下輩，有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式，從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期，接近泊

11、松分布，所以1個(gè)網(wǎng)站長(zhǎng)期不更新，搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布，逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯，在這本書(shū)的最后1章，沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào)，于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)９ゴ藭?shū)，把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái)，計(jì)算詞頻，發(fā)現(xiàn)了尤利西斯包含n個(gè)詞，將這些詞按其出現(xiàn)的頻次遞減地排序，那么序號(hào)r和其出現(xiàn)頻次f之積fr，將近似地為一個(gè)常數(shù)，即fr=b，(式中r=1,2,3.)，又以其他名著驗(yàn)證，結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律，給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重，低頻詞的權(quán)重較高，高頻詞的權(quán)重較低，所謂的關(guān)鍵詞密度亦是據(jù)此，長(zhǎng)尾

12、詞在文章中往往有較高的權(quán)重，重復(fù)出現(xiàn)關(guān)鍵詞，可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的，而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)?？科渌W(wǎng)頁(yè)上的超鏈接，alt屬性，網(wǎng)頁(yè)標(biāo)題，以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu)，即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò)，都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2，而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值，

13、采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|)，再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法，和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似，下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握，王族分為兩組，一組謚稱以甲乙為主，一組謚稱以丁為主，兩組互相通婚，輪流繼位執(zhí)政。王位多傳于另一組的下輩，有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式，從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期，接近泊松分布，所以1個(gè)網(wǎng)站長(zhǎng)期不更新，搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布，逐

14、漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯，在這本書(shū)的最后1章，沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào)，于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)９ゴ藭?shū)，把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái)，計(jì)算詞頻，發(fā)現(xiàn)了尤利西斯包含n個(gè)詞，將這些詞按其出現(xiàn)的頻次遞減地排序，那么序號(hào)r和其出現(xiàn)頻次f之積fr，將近似地為一個(gè)常數(shù)，即fr=b，(式中r=1,2,3.)，又以其他名著驗(yàn)證，結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律，給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重，低頻詞的權(quán)重較高，高頻詞的權(quán)重較低，所謂的關(guān)鍵詞密度亦是據(jù)此，長(zhǎng)尾詞在文章中往往有較高的權(quán)重，重復(fù)出現(xiàn)關(guān)鍵詞，可以提高關(guān)鍵詞在頁(yè)面

15、中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的，而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)?？科渌W(wǎng)頁(yè)上的超鏈接，alt屬性，網(wǎng)頁(yè)標(biāo)題，以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu)，即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò)，都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2，而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值，采取向量的夾角余弦公式cos=(a·b)/(|a|&#

16、215;|b|)，再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法，和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似，下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握，王族分為兩組，一組謚稱以甲乙為主，一組謚稱以丁為主，兩組互相通婚，輪流繼位執(zhí)政。王位多傳于另一組的下輩，有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式，從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期，接近泊松分布，所以1個(gè)網(wǎng)站長(zhǎng)期不更新，搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布，逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯

17、83;喬伊斯一本天書(shū)尤利西斯，在這本書(shū)的最后1章，沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào)，于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)９ゴ藭?shū)，把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái)，計(jì)算詞頻，發(fā)現(xiàn)了尤利西斯包含n個(gè)詞，將這些詞按其出現(xiàn)的頻次遞減地排序，那么序號(hào)r和其出現(xiàn)頻次f之積fr，將近似地為一個(gè)常數(shù)，即fr=b，(式中r=1,2,3.)，又以其他名著驗(yàn)證，結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律，給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重，低頻詞的權(quán)重較高，高頻詞的權(quán)重較低，所謂的關(guān)鍵詞密度亦是據(jù)此，長(zhǎng)尾詞在文章中往往有較高的權(quán)重，重復(fù)出現(xiàn)關(guān)鍵詞，可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的，

18、而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)?？科渌W(wǎng)頁(yè)上的超鏈接，alt屬性，網(wǎng)頁(yè)標(biāo)題，以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu)，即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò)，都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2，而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值，采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|)，再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam

19、算法，和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似，下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握，王族分為兩組，一組謚稱以甲乙為主，一組謚稱以丁為主，兩組互相通婚，輪流繼位執(zhí)政。王位多傳于另一組的下輩，有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式，從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期，接近泊松分布，所以1個(gè)網(wǎng)站長(zhǎng)期不更新，搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布，逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯，在這本書(shū)的最后1章，沒(méi)有1個(gè)標(biāo)點(diǎn)符

20、號(hào)，于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)９ゴ藭?shū)，把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái)，計(jì)算詞頻，發(fā)現(xiàn)了尤利西斯包含n個(gè)詞，將這些詞按其出現(xiàn)的頻次遞減地排序，那么序號(hào)r和其出現(xiàn)頻次f之積fr，將近似地為一個(gè)常數(shù)，即fr=b，(式中r=1,2,3.)，又以其他名著驗(yàn)證，結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律，給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重，低頻詞的權(quán)重較高，高頻詞的權(quán)重較低，所謂的關(guān)鍵詞密度亦是據(jù)此，長(zhǎng)尾詞在文章中往往有較高的權(quán)重，重復(fù)出現(xiàn)關(guān)鍵詞，可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的，而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)。靠其他網(wǎng)頁(yè)上的超鏈接，alt屬性

21、，網(wǎng)頁(yè)標(biāo)題，以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu)，即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò)，都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2，而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值，采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|)，再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法，和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的

22、爬行方式與中國(guó)古代商朝的王位繼承制度相似，下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握，王族分為兩組，一組謚稱以甲乙為主，一組謚稱以丁為主，兩組互相通婚，輪流繼位執(zhí)政。王位多傳于另一組的下輩，有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式，從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期，接近泊松分布，所以1個(gè)網(wǎng)站長(zhǎng)期不更新，搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布，逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯，在這本書(shū)的最后1章，沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào)，于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)９ゴ藭?shū)，把書(shū)里所有單詞全部統(tǒng)

23、計(jì)出來(lái)，計(jì)算詞頻，發(fā)現(xiàn)了尤利西斯包含n個(gè)詞，將這些詞按其出現(xiàn)的頻次遞減地排序，那么序號(hào)r和其出現(xiàn)頻次f之積fr，將近似地為一個(gè)常數(shù)，即fr=b，(式中r=1,2,3.)，又以其他名著驗(yàn)證，結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律，給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重，低頻詞的權(quán)重較高，高頻詞的權(quán)重較低，所謂的關(guān)鍵詞密度亦是據(jù)此，長(zhǎng)尾詞在文章中往往有較高的權(quán)重，重復(fù)出現(xiàn)關(guān)鍵詞，可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的，而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)?？科渌W(wǎng)頁(yè)上的超鏈接，alt屬性，網(wǎng)頁(yè)標(biāo)題，以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu)，即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò)，都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理，像HITS，齊普夫定律，向量空間模型，TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2，而是2>權(quán)重&

人人文庫(kù)> 全部分類(lèi)> 應(yīng)用文書(shū) > 年終總結(jié)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

給不懂搜索引擎的人講搜索引擎原理的方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

給不懂搜索引擎的人講搜索引擎原理的方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔