給不懂搜索引擎的人講搜索引擎原理的方法_第1頁(yè)
給不懂搜索引擎的人講搜索引擎原理的方法_第2頁(yè)
給不懂搜索引擎的人講搜索引擎原理的方法_第3頁(yè)
給不懂搜索引擎的人講搜索引擎原理的方法_第4頁(yè)
給不懂搜索引擎的人講搜索引擎原理的方法_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、給不懂搜索引擎的人講搜索引擎原理的方法 與關(guān)鍵詞有聯(lián)系的幾個(gè)原理,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2,而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值,采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|),再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法,和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似,下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握,王族分為兩組,一組謚稱以甲乙為主,一組謚稱以丁為主,兩組互相通

2、婚,輪流繼位執(zhí)政。王位多傳于另一組的下輩,有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式,從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期,接近泊松分布,所以1個(gè)網(wǎng)站長(zhǎng)期不更新,搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布,逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯,在這本書(shū)的最后1章,沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào),于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)9ゴ藭?shū),把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái),計(jì)算詞頻,發(fā)現(xiàn)了尤利西斯包含n個(gè)詞,將這些詞按其出現(xiàn)的頻次遞減地排序,那么序號(hào)r和其出現(xiàn)頻次f之積fr,將近似地為一個(gè)常數(shù),即fr=b,(式中r

3、=1,2,3.),又以其他名著驗(yàn)證,結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律,給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重,低頻詞的權(quán)重較高,高頻詞的權(quán)重較低,所謂的關(guān)鍵詞密度亦是據(jù)此,長(zhǎng)尾詞在文章中往往有較高的權(quán)重,重復(fù)出現(xiàn)關(guān)鍵詞,可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的,而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)??科渌W(wǎng)頁(yè)上的超鏈接,alt屬性,網(wǎng)頁(yè)標(biāo)題,以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu),即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò),都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理

4、,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2,而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值,采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|),再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法,和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似,下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握,王族分為兩組,一組謚稱以甲乙為主,一組謚稱以丁為主,兩組互相通婚,輪流繼位執(zhí)政。王位多傳于另一組的下輩,有時(shí)也傳于同組內(nèi)的同輩

5、。王位以此互傳的方式,從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期,接近泊松分布,所以1個(gè)網(wǎng)站長(zhǎng)期不更新,搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布,逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯,在這本書(shū)的最后1章,沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào),于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)9ゴ藭?shū),把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái),計(jì)算詞頻,發(fā)現(xiàn)了尤利西斯包含n個(gè)詞,將這些詞按其出現(xiàn)的頻次遞減地排序,那么序號(hào)r和其出現(xiàn)頻次f之積fr,將近似地為一個(gè)常數(shù),即fr=b,(式中r=1,2,3.),又以其他名著驗(yàn)證,結(jié)論非常近似。后來(lái)搜索引擎引

6、進(jìn)了這一定律,給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重,低頻詞的權(quán)重較高,高頻詞的權(quán)重較低,所謂的關(guān)鍵詞密度亦是據(jù)此,長(zhǎng)尾詞在文章中往往有較高的權(quán)重,重復(fù)出現(xiàn)關(guān)鍵詞,可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的,而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)。靠其他網(wǎng)頁(yè)上的超鏈接,alt屬性,網(wǎng)頁(yè)標(biāo)題,以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu),即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò),都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵

7、詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2,而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值,采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|),再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法,和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似,下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握,王族分為兩組,一組謚稱以甲乙為主,一組謚稱以丁為主,兩組互相通婚,輪流繼位執(zhí)政。王位多傳于另一組的下輩,有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式,從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯

8、坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期,接近泊松分布,所以1個(gè)網(wǎng)站長(zhǎng)期不更新,搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布,逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯,在這本書(shū)的最后1章,沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào),于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)9ゴ藭?shū),把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái),計(jì)算詞頻,發(fā)現(xiàn)了尤利西斯包含n個(gè)詞,將這些詞按其出現(xiàn)的頻次遞減地排序,那么序號(hào)r和其出現(xiàn)頻次f之積fr,將近似地為一個(gè)常數(shù),即fr=b,(式中r=1,2,3.),又以其他名著驗(yàn)證,結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律,給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重,低

9、頻詞的權(quán)重較高,高頻詞的權(quán)重較低,所謂的關(guān)鍵詞密度亦是據(jù)此,長(zhǎng)尾詞在文章中往往有較高的權(quán)重,重復(fù)出現(xiàn)關(guān)鍵詞,可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的,而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)。靠其他網(wǎng)頁(yè)上的超鏈接,alt屬性,網(wǎng)頁(yè)標(biāo)題,以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu),即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò),都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞

10、的權(quán)重不是11=2,而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值,采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|),再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法,和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似,下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握,王族分為兩組,一組謚稱以甲乙為主,一組謚稱以丁為主,兩組互相通婚,輪流繼位執(zhí)政。王位多傳于另一組的下輩,有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式,從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期,接近泊

11、松分布,所以1個(gè)網(wǎng)站長(zhǎng)期不更新,搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布,逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯,在這本書(shū)的最后1章,沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào),于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)9ゴ藭?shū),把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái),計(jì)算詞頻,發(fā)現(xiàn)了尤利西斯包含n個(gè)詞,將這些詞按其出現(xiàn)的頻次遞減地排序,那么序號(hào)r和其出現(xiàn)頻次f之積fr,將近似地為一個(gè)常數(shù),即fr=b,(式中r=1,2,3.),又以其他名著驗(yàn)證,結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律,給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重,低頻詞的權(quán)重較高,高頻詞的權(quán)重較低,所謂的關(guān)鍵詞密度亦是據(jù)此,長(zhǎng)尾

12、詞在文章中往往有較高的權(quán)重,重復(fù)出現(xiàn)關(guān)鍵詞,可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的,而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)??科渌W(wǎng)頁(yè)上的超鏈接,alt屬性,網(wǎng)頁(yè)標(biāo)題,以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu),即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò),都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2,而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值,

13、采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|),再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法,和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似,下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握,王族分為兩組,一組謚稱以甲乙為主,一組謚稱以丁為主,兩組互相通婚,輪流繼位執(zhí)政。王位多傳于另一組的下輩,有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式,從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期,接近泊松分布,所以1個(gè)網(wǎng)站長(zhǎng)期不更新,搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布,逐

14、漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯,在這本書(shū)的最后1章,沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào),于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)9ゴ藭?shū),把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái),計(jì)算詞頻,發(fā)現(xiàn)了尤利西斯包含n個(gè)詞,將這些詞按其出現(xiàn)的頻次遞減地排序,那么序號(hào)r和其出現(xiàn)頻次f之積fr,將近似地為一個(gè)常數(shù),即fr=b,(式中r=1,2,3.),又以其他名著驗(yàn)證,結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律,給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重,低頻詞的權(quán)重較高,高頻詞的權(quán)重較低,所謂的關(guān)鍵詞密度亦是據(jù)此,長(zhǎng)尾詞在文章中往往有較高的權(quán)重,重復(fù)出現(xiàn)關(guān)鍵詞,可以提高關(guān)鍵詞在頁(yè)面

15、中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的,而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)??科渌W(wǎng)頁(yè)上的超鏈接,alt屬性,網(wǎng)頁(yè)標(biāo)題,以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu),即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò),都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2,而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值,采取向量的夾角余弦公式cos=(a·b)/(|a|&#

16、215;|b|),再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法,和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似,下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握,王族分為兩組,一組謚稱以甲乙為主,一組謚稱以丁為主,兩組互相通婚,輪流繼位執(zhí)政。王位多傳于另一組的下輩,有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式,從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期,接近泊松分布,所以1個(gè)網(wǎng)站長(zhǎng)期不更新,搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布,逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯

17、83;喬伊斯一本天書(shū)尤利西斯,在這本書(shū)的最后1章,沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào),于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)9ゴ藭?shū),把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái),計(jì)算詞頻,發(fā)現(xiàn)了尤利西斯包含n個(gè)詞,將這些詞按其出現(xiàn)的頻次遞減地排序,那么序號(hào)r和其出現(xiàn)頻次f之積fr,將近似地為一個(gè)常數(shù),即fr=b,(式中r=1,2,3.),又以其他名著驗(yàn)證,結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律,給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重,低頻詞的權(quán)重較高,高頻詞的權(quán)重較低,所謂的關(guān)鍵詞密度亦是據(jù)此,長(zhǎng)尾詞在文章中往往有較高的權(quán)重,重復(fù)出現(xiàn)關(guān)鍵詞,可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的,

18、而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)??科渌W(wǎng)頁(yè)上的超鏈接,alt屬性,網(wǎng)頁(yè)標(biāo)題,以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu),即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò),都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2,而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值,采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|),再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam

19、算法,和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的爬行方式與中國(guó)古代商朝的王位繼承制度相似,下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握,王族分為兩組,一組謚稱以甲乙為主,一組謚稱以丁為主,兩組互相通婚,輪流繼位執(zhí)政。王位多傳于另一組的下輩,有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式,從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期,接近泊松分布,所以1個(gè)網(wǎng)站長(zhǎng)期不更新,搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布,逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯,在這本書(shū)的最后1章,沒(méi)有1個(gè)標(biāo)點(diǎn)符

20、號(hào),于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)9ゴ藭?shū),把書(shū)里所有單詞全部統(tǒng)計(jì)出來(lái),計(jì)算詞頻,發(fā)現(xiàn)了尤利西斯包含n個(gè)詞,將這些詞按其出現(xiàn)的頻次遞減地排序,那么序號(hào)r和其出現(xiàn)頻次f之積fr,將近似地為一個(gè)常數(shù),即fr=b,(式中r=1,2,3.),又以其他名著驗(yàn)證,結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律,給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重,低頻詞的權(quán)重較高,高頻詞的權(quán)重較低,所謂的關(guān)鍵詞密度亦是據(jù)此,長(zhǎng)尾詞在文章中往往有較高的權(quán)重,重復(fù)出現(xiàn)關(guān)鍵詞,可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的,而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)。靠其他網(wǎng)頁(yè)上的超鏈接,alt屬性

21、,網(wǎng)頁(yè)標(biāo)題,以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu),即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò),都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2,而是2>權(quán)重>1的一個(gè)動(dòng)態(tài)數(shù)值,采取向量的夾角余弦公式cos=(a·b)/(|a|×|b|),再加上搜索引擎對(duì)堆砌關(guān)鍵詞的anti-spam算法,和現(xiàn)在主流的seo觀點(diǎn)相悖。2.搜索引擎爬蟲(chóng)搜索引擎蜘蛛的

22、爬行方式與中國(guó)古代商朝的王位繼承制度相似,下面是維基百科的介紹。商代政權(quán)由子姓王族所掌握,王族分為兩組,一組謚稱以甲乙為主,一組謚稱以丁為主,兩組互相通婚,輪流繼位執(zhí)政。王位多傳于另一組的下輩,有時(shí)也傳于同組內(nèi)的同輩。王位以此互傳的方式,從而在兩組之間祖孫隔代繼承。3.更新網(wǎng)站斯坦福大學(xué)的2名研究者在2000年得出結(jié)論是網(wǎng)頁(yè)存在半衰期,接近泊松分布,所以1個(gè)網(wǎng)站長(zhǎng)期不更新,搜索引擎爬蟲(chóng)也會(huì)依據(jù)泊松分布,逐漸減少抓取次數(shù)。4.關(guān)鍵詞密度分詞實(shí)現(xiàn)源自20世紀(jì)的詹姆斯·喬伊斯一本天書(shū)尤利西斯,在這本書(shū)的最后1章,沒(méi)有1個(gè)標(biāo)點(diǎn)符號(hào),于是有位哈佛大學(xué)語(yǔ)言學(xué)家齊普夫?qū)9ゴ藭?shū),把書(shū)里所有單詞全部統(tǒng)

23、計(jì)出來(lái),計(jì)算詞頻,發(fā)現(xiàn)了尤利西斯包含n個(gè)詞,將這些詞按其出現(xiàn)的頻次遞減地排序,那么序號(hào)r和其出現(xiàn)頻次f之積fr,將近似地為一個(gè)常數(shù),即fr=b,(式中r=1,2,3.),又以其他名著驗(yàn)證,結(jié)論非常近似。后來(lái)搜索引擎引進(jìn)了這一定律,給每個(gè)詞庫(kù)中的每個(gè)關(guān)鍵詞按照總詞頻給以一定權(quán)重,低頻詞的權(quán)重較高,高頻詞的權(quán)重較低,所謂的關(guān)鍵詞密度亦是據(jù)此,長(zhǎng)尾詞在文章中往往有較高的權(quán)重,重復(fù)出現(xiàn)關(guān)鍵詞,可以提高關(guān)鍵詞在頁(yè)面中的權(quán)重。5.圖片網(wǎng)頁(yè)中的圖片抓取不是一般抓取網(wǎng)頁(yè)的蜘蛛來(lái)抓的,而是由專(zhuān)門(mén)的抓取圖片的爬蟲(chóng)負(fù)責(zé)??科渌W(wǎng)頁(yè)上的超鏈接,alt屬性,網(wǎng)頁(yè)標(biāo)題,以及圖片說(shuō)明來(lái)確定這張圖片是什么畫(huà)面。6.外鏈廣泛度互聯(lián)網(wǎng)模型是鏈接拓?fù)浣Y(jié)構(gòu),即緞帶形狀。不論傳統(tǒng)的互聯(lián)網(wǎng)亦或社交網(wǎng)絡(luò),都是如此。搜索引擎通常從拓?fù)浣Y(jié)構(gòu)的左側(cè)開(kāi)始向右單向爬行抓取。與關(guān)鍵詞有聯(lián)系的幾個(gè)原理,像HITS,齊普夫定律,向量空間模型,TF/IDF等。每個(gè)關(guān)鍵詞的權(quán)重是通過(guò)數(shù)學(xué)公式與語(yǔ)義庫(kù)、網(wǎng)頁(yè)庫(kù)等結(jié)合算出來(lái)的。堆砌關(guān)鍵詞的權(quán)重不是11=2,而是2>權(quán)重&

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論