搜索引擎判定相似文章網(wǎng)頁(yè)的原理大解析_第1頁(yè)
搜索引擎判定相似文章網(wǎng)頁(yè)的原理大解析_第2頁(yè)
搜索引擎判定相似文章網(wǎng)頁(yè)的原理大解析_第3頁(yè)
搜索引擎判定相似文章網(wǎng)頁(yè)的原理大解析_第4頁(yè)
搜索引擎判定相似文章網(wǎng)頁(yè)的原理大解析_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、在上一篇文章中已經(jīng)詳細(xì)的介紹了利用TF-IDF算法自動(dòng)提取文章關(guān)鍵詞的原理。接下來(lái),我們?cè)賮?lái)研究一下另一個(gè)相關(guān)的問(wèn)題。這個(gè)問(wèn)題也是我們做SEO的最關(guān)心的,有些時(shí)候,我們除了要明白如何找到并提取文章關(guān)鍵詞,我們還需要找到與原文章相似的其他文章。比如,我們平時(shí)在搜索引擎的新聞欄目下搜索某條新聞的時(shí)候,在主新聞下方,還提供了多條相似的新聞。如下圖所示::i驚代象專(zhuān)家解釋嚨割:長(zhǎng)期珈水空氣二:P - : I I兩人合撐把傘在雨中打車(chē)”昨天,S城迎來(lái)一場(chǎng)雨央駕”記者陶冉今天杲春分節(jié)代,護(hù) 中到大窖W平原地區(qū)由于氣溫原因以雨夾雪為主”戡至昨喚8點(diǎn).城區(qū)一 =*北京暴雪涌污染京城三月飄窖好預(yù)兆I組圖】WF

2、?|J r II: C - J li I N飛雪迎春襲北京京城今晨或現(xiàn)H堵城;mH北京普降瑞雪銀裝素裹樹(shù)掛景觀成春日美景丨.1 -延慶迎春雪城區(qū)下泥雲(yún)專(zhuān)家稱(chēng)系內(nèi)蒙古沙塵被卷來(lái)丨冷1-3 Mil昨叛北京晉降大雪道路結(jié)冰早峰注意出行安全馬海祥博鑒I廠:- 1: -it 北京春分降雪空氣浄化專(zhuān)家稱(chēng)三月下雪很正常h, iU亠丄:-J J2230520D-0為了找出相似的文章,我們就需要用到另外一個(gè)公式原理了,那就是 余弦相似性(cosine similarity ) ”。一、什么是余弦相似性” ?余弦相似性是指通過(guò)測(cè)量?jī)蓚€(gè)向量?jī)?nèi)積空間的夾角的余弦值來(lái)度量它們之間的相 似性。0度角的余弦值是1,而其他任

3、何角度的余弦值都不大于1;并且其最小值是-1。從而兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量是否大致指向相同的方向。兩個(gè)向量有相同的指向時(shí),余弦相似度的值為 1 ;兩個(gè)向量夾角為90時(shí),余弦相似度的值為 0;兩個(gè)向量指向 完全相反的方向時(shí),余弦相似度的值為-1。在比較過(guò)程中,向量的規(guī)模大小不予考慮,僅僅考慮到向量的指向方向。余弦相似度通常用于兩個(gè)向量的夾角小于90之內(nèi),因此余弦相似度的值為0到1之間。的利用尤為頻繁。 例如在信息檢索中, 每個(gè)詞條擁有不同的度, 一個(gè)文檔是由一個(gè)由有權(quán)值 的特征向量表示的, 權(quán)值的計(jì)算取決于詞條在該文檔中出現(xiàn)的頻率。 余弦相似度因此可以給 出兩篇文檔其主題方面的相似

4、度。二、搜索引擎是如何判定相似文章的?面,馬海祥還是以舉例子的方式來(lái)說(shuō)明如何才能找出相似文章?為了簡(jiǎn)單起見(jiàn),我們先從句子著手。句子 A :我喜歡看電視,不喜歡看電影。句子 B :我不喜歡看電視,也不喜歡看電影。那么我們?cè)鯓硬拍苡?jì)算出上面兩句話的相似程度呢?馬海祥建議的基本思路是:如果這兩句話的用詞越相似, 它們的內(nèi)容就應(yīng)該越相似。因此,可以從詞頻入手,計(jì)算它們的相似程度。第1步:分詞句子 A :我/喜歡/看/電視,不/喜歡/看/電影。句子B :我/不/喜歡/看/電視,也/不/喜歡/看 /電影。第 2 步:列出所有的詞我,喜歡,看,電視,電影,不,也。第 3 步:計(jì)算詞頻句子 A :我1,喜歡2

5、,看2,電視1,電影1,不1,也0。句子 B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。第 4 步:寫(xiě)出詞頻向量句子 A: 1, 2, 2, 1, 1, 1, 0句子 B:1, 2, 2, 1, 1, 2, 1到這里,問(wèn)題就變成了如何計(jì)算這兩個(gè)向量的相似程度。我們可以把它們想象成空間中的兩條線段,都是從原點(diǎn)(0, 0, . )出發(fā),指向不同的方向。兩條線段之間形成一個(gè)夾角,如果夾角為 0 度,意味著方向相同、線段重合;如 果夾角為 90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。 因此, 我們可以通過(guò)夾角的大小, 來(lái)判斷向量的相似程度。 夾角

6、越小, 就代表越相似, 如下圖所示:口2 + &2 _ 嚴(yán)cos9以二維空間為例,上圖的a和b是兩個(gè)向量,我們要計(jì)算它們的夾角 0。余弦定理 告訴我們,可以用下面的公式求得:2at)馬海祥博敦www.mahaixiangxn34假定a向量是x1, y1 , b向量是x2, y2,那么馬海祥覺(jué)得就可以將余弦定理改 寫(xiě)成下面的形式:個(gè)n維向量,A是A1, A2,An , B是B1, B2, ., Bn,則A與B的夾角0的余弦等 于:器Sx艮)cosO 二, ,滬 X)24| X BA-B馬瀆祥博鑒7使用這個(gè)公式,我們就可以得到,句子A與句子B的夾角的余弦,如下圖所示:1X1+2X2+ZX2+1X1

7、+1X1+1X2+OX1COS =C、7” 二VP + 2 + 2 + P + 12 + p + 02 X VP + 2 + 22 + p + p + 2; + p13=0.938馬海祥博家WWW maha i X i a ng cn8余弦值越接近1,就表明夾角越接近 0度,也就是兩個(gè)向量越相似,這就叫“余 弦相似性”。所以,上面的句子 A和句子B是很相似的,事實(shí)上它們的夾角大約為20.3度。由此,我們就得到了“找出相似文章”的一種算法:(1)使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;(2)每篇文章各取出若干個(gè)關(guān)鍵詞(比如20個(gè)),合并成一個(gè)集合,計(jì)算每篇文章對(duì)于這個(gè)集合中的詞的詞頻(為了避免 文章長(zhǎng)度的差異,可以使用相對(duì)詞頻);(3)生成兩篇文章各自的詞頻向量;(4)計(jì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論