




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第二講了解搜索引擎了解搜索引擎1搜索頁面結果google、百度、搜搜雅虎、新浪、搜狐InfoSpace、Dogpile、搜星google學術、百度音樂、搜酷視頻等等1搜索頁面結果自然搜索結果廣告1
.1經(jīng)典搜索結果列表目錄說明鏈接、時間、快照1
.2整合搜索結果涵蓋了垂直搜索結果1.3縮進列表1.4全站鏈接1.5迷你全站鏈接1.6One-box1.7富摘要
2工作原理簡介2.1爬行和抓取蜘蛛通過跟蹤鏈接訪問網(wǎng)頁,獲得HTML代碼存入數(shù)據(jù)庫,完成數(shù)據(jù)收集的任務蜘蛛?yún)f(xié)議:robots.txt,是否允許搜索引擎抓取文件或目錄1.Google爬蟲名稱
1)Googlebot:網(wǎng)站索引和新聞索引中抓取網(wǎng)頁
2)Googlebot-Mobile:移動索引抓取網(wǎng)頁
3)Googlebot-Image:圖片索引抓取網(wǎng)頁
4)Mediapartners-Google:抓取AdSense,在AdSense廣告情況下,Google才會使用此漫游器來抓取您的網(wǎng)站。
5)Adsbot-Google:抓取AdWords目標網(wǎng)頁的質(zhì)量,在GoogleAdWords為你的網(wǎng)站做廣告的情況下,Google才會使用此漫游器。
2.百度(Baidu)爬蟲:Baiduspider3.雅虎(Yahoo)爬蟲:YahooSlurp4.有道(Yodao)蜘蛛:YodaoBot5.搜狗(sogou)蜘蛛:sogouspider6.MSN蜘蛛名稱:Msnbot跟蹤鏈接深度優(yōu)先和廣度優(yōu)先混合使用吸引蜘蛛地址庫建立地址庫:為了防止重復爬行和抓取網(wǎng)址,會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面文件存儲和內(nèi)容檢測文件存儲:搜索引擎抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫,每個Url有個唯一的文件編號復制內(nèi)容檢測:權重低的網(wǎng)頁是否存在大量抄襲內(nèi)容,如果有就可能不再抓取內(nèi)容。2.2預處理預處理:索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用中文分詞中文分詞方法基于詞典匹配:正向匹配和逆向匹配;最大匹配和最小匹配;正向最大匹配和逆向最大匹配基于統(tǒng)計:分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率。該方法反響快速,有利于消除歧義。搜索引擎頁面分詞取決于詞庫的規(guī)模、準確性和分詞算法、而非取決于頁面中文分詞去停止詞:除去“的、得、地”等詞消除噪音:通過區(qū)分頁頭、導航、正文、頁腳、廣告等,排除與頁面內(nèi)容不相關的信息去重:識別和刪除具有相同內(nèi)容頁面中權重較低的頁面。特殊文件處理:PDF、Word、WPS、TXT、PPT等,圖片、視頻等的處理?正向索引記錄每個關鍵詞在頁面出現(xiàn)的頻率、次數(shù)、格式、位置等倒排索引2.3排名用戶輸入關鍵詞后,排名程序調(diào)用索引數(shù)據(jù)庫,計算相關性,然后按一定格式生成搜索結果頁面。搜索詞處理中文分詞去停止詞指令處理:多個關鍵詞時,默認的處理方法是在關鍵詞之間使用“與邏輯”拼寫錯誤矯正文件匹配初始子集的選擇搜索結果并非完全包括所有頁面信息相關性計算對初始子集中頁面計算關鍵詞相關性,影響因素包含:關鍵詞常用程度:戴爾電腦,我們冥王星詞頻及密度:通常認為搜索詞在頁面出現(xiàn)的次數(shù)越多,密度越高關鍵詞位置及形式:標簽、標題、正文、黑體等關鍵詞距離:搜索關鍵詞中分詞間在頁面中出現(xiàn)的距離鏈接分析及頁面權重:錨文字、外部鏈接等排名過濾及調(diào)整在排名大體確定后,進行一些過濾算法,如百度11位、google的負6對有作弊嫌疑的網(wǎng)頁加以懲罰,往后調(diào)整。排名顯示搜索緩存2/8定律,長尾理論,為了節(jié)約資源,搜索引擎會把最常見的搜索詞存入緩存,便于用戶搜索時直接搜索,縮短時間。查詢及點擊日志搜索用戶地址、搜索關鍵詞、搜索時間、點擊頁面等信息3鏈接原理李彥宏超鏈分析專利HITS算法TrustRank算法GooglePRHilltop算法李彥宏超鏈分析專利1997“超鏈文件檢索系統(tǒng)方法”專利申請鏈接詞庫:鏈接錨文字,及其鏈接指向:///netacgi/nph-Parser?patentnumber=5,920,859一個用于檢索查詢相關的文件與索引文件的超鏈接指向那些按照文件的搜索引擎。
遍歷的索引數(shù)據(jù)庫,發(fā)現(xiàn)超文本信息,包括文檔的超鏈接指向的地址和每個超鏈接的錨文本。
該信息存儲在一個倒排索引文件,它也可用于計算各指向一個特定的文檔的超鏈接文件鏈接載體。
當輸入一個查詢,搜索引擎發(fā)現(xiàn)因在其錨文本的查詢字詞的文件所有文件載體。
也是一個查詢向量計算,點查詢的載體,每個文件鏈接向量積的計算方法。
產(chǎn)品的點與特定文件的總結,以確定每個文件的相關性排名。李彥宏超鏈分析專利建立一個鏈接詞庫,記錄鏈接錨文字的一些相關信息,如錨文字中包含哪些關鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數(shù),包含特定關鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關鍵詞原型,也包含同一個詞干的其他衍生關鍵詞。根據(jù)這些鏈接數(shù)據(jù),尤其是錨文字,計算出基于鏈接的文件相關性。在用戶搜索時,將得到的基于鏈接的相關性與基于關鍵詞匹配的傳統(tǒng)相關性綜合使用,得到更準確的排名。李彥宏超鏈分析專利要判斷哪個頁面最具權威性,不能光看頁面自己怎么說,還要看其它頁面怎么評價。當一個關鍵詞被搜索的時候,含有以關鍵詞為鏈接文字的反向鏈接數(shù)目最多的那個文件或網(wǎng)頁,將被作為最相關的結果排在前面HITS算法1997,JonKleinber,Hyperlink-InducedTopicSearch,“超鏈誘導主題搜索”:///netacgi/nph-Parser?patentnumber=6,112,202HITS算法會提煉出兩種比較重要的頁面,也就是樞紐頁面和權威頁面。樞紐頁面本身可能沒有多少導入鏈接,但是有很多導出鏈接指向權威頁面。典型的樞紐頁面就是如雅虎目錄、開放目錄或好123這樣的網(wǎng)站目錄。這種高質(zhì)量的網(wǎng)站目錄作用就在于指向其他權威網(wǎng)站,所以稱為樞紐。權威頁面通常是提供真正相關內(nèi)容的頁面。權威頁面本身可能導出鏈接不多,但是有很多來自樞紐頁面的導入鏈接。而權威頁面有很多導入鏈接,其中包含很多來自樞紐頁面的鏈接。HITS算法樞紐值〔HubScores〕、權威值〔AuthorityScores〕樞紐值:頁面上所有導出鏈接指向頁面的權威值之和。權威值:所有導入鏈接所在頁面的樞紐值之和。缺點:查詢時間長TrustRank算法2004,斯坦福大學和雅虎聯(lián)合研究,2006年專利根本假設:好的網(wǎng)站很少會鏈接到壞的網(wǎng)站如果能挑選出可以百分百信任的網(wǎng)站,這些網(wǎng)站的TrustRank評為最高,這些trustRank最高的網(wǎng)站所連接的網(wǎng)站信任指數(shù)稍微降低,但也會很高。與此類似,第二層別信任的網(wǎng)站鏈接出去的第三層網(wǎng)站,信任度繼續(xù)下降。離第一層網(wǎng)站點擊距離越近,信任指數(shù)越高,反之亦反。挑選種子網(wǎng)站,設定TrustRank值,挑選種子網(wǎng)站有兩種方式:一種是選擇導出鏈接最多的網(wǎng)站;另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站。兩種計算TrustRank隨鏈接關系減少的公式:一是隨鏈接次數(shù)衰減;二是設置一個最低TrustRank值門檻。TrustRank算法影響網(wǎng)站TrustRank的因數(shù)1.域名注冊時間在五年或五年以上;2.網(wǎng)站托管在專用效勞器上;3.網(wǎng)站加載時間快;4.網(wǎng)站內(nèi)容是原創(chuàng)的;5.訪客在每個網(wǎng)頁的停留時間超過90秒;6.網(wǎng)站被多個國際IP段引用;7.網(wǎng)站在其所屬行業(yè)中擁有權威性GooglePRPageRank,網(wǎng)頁排名,又稱網(wǎng)頁級別,Google的創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學創(chuàng)造了這項技術。反向鏈接越多的頁面就越重要。PageRank通過網(wǎng)絡浩瀚的超鏈接關系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源〔甚至來源的來源,即鏈接到A頁面的頁面〕和投票目標的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。GooglePR根本思想:如果網(wǎng)頁T存在一個指向網(wǎng)頁A的連接,那么說明T的所有者認為A比較重要,從而把T的一局部重要性得分賦予A。這個重要性得分值為:PR〔T〕/C(T)其中PR〔T〕為T的PageRank值,C(T)為T的出鏈數(shù),那么A的PageRank值為一系列類似于T的頁面重要性得分值的累加。PR〔A〕=〔1-d〕+d〔PR〔t1〕/C〔t1〕+…+PR〔tn〕/C〔tn〕〕A代表頁面APR〔A〕那么代表頁面A的PR值d為阻尼指數(shù)。通常認為d=0.85t1…tn代表鏈接向頁面A的頁面t1到tnC代表頁面上的到外鏈接數(shù)目。C〔t1〕即為頁面t1上的到外鏈接數(shù)目優(yōu)點:是一個與查詢無關的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。缺乏:人們的查詢具有主題特征,PageRank忽略了主題相關性,導致結果的相關性和主題性降低;另外,PageRank有很嚴重的對新網(wǎng)頁的歧視。GooglePRPR意義和重要性網(wǎng)站收錄深度和總頁面數(shù):蜘蛛爬行深度和廣度的重要因素之一更新頻率:蜘蛛訪問和更新的頻繁程度重復內(nèi)容判定排名初始子集的選擇GooglePR影響GooglePR值的因素Hilltop算法可以簡單理解為與主題相關的PR值。HillTop算法集PageRank,HITs、相關性算法大成于一身,由康柏系統(tǒng)研究中心的KrishnaBharat和多倫多大學的GeorgeA.Mihaila在2001年提出并申請了專利,后授權于Google,2003年12月Google算法更新,其成為Google核心排名算法之一。傳統(tǒng)PR值與特定關鍵詞或主題沒有關聯(lián),只計算鏈接關系。這就有可能出現(xiàn)某種漏洞。如大學網(wǎng)站上出現(xiàn)售貨信息。Hilltop算法就嘗試矯正這種可能出現(xiàn)的疏漏。Hilltop算法同樣是計算鏈接關系,不過它更關注來自主題相關頁面的鏈接權重。在Hilltop算法中把這種主題相關頁面稱為專家文件。Hilltop算法主要包括兩個步驟:專家頁面搜索和目標頁面排序。用戶搜索關鍵詞后,Google先按正常排名算法找到一系列相關頁面并排名,然后計算這些頁面有多少來自專家文件的、與主題相關的鏈接,來自專家文件的鏈接越多,頁面的排名分值越高。優(yōu)點:相關性強,結果準確。缺乏:專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質(zhì)量決定了算法的準確性,而專家頁面的質(zhì)量和公平性難以保證;忽略了大量非專家頁面的影響,不能反響整個Internet的民意;當沒有足夠的專家頁面存在時,返回空,所以Hilltop適合對于查詢排序進行求精。Hilltop算法提示SEOer,建設外部鏈接時更應該關注主題相關的網(wǎng)站Hilltop算法HillTop算法的指導思想和PageRank的是一致的,都是通過網(wǎng)頁被鏈接的數(shù)量和質(zhì)量來確定搜索結果的排序權重。與PageRank的不同之處:僅考慮專家頁面的鏈接。HillTop認為只計算來自具有相同主題的相關文檔鏈接對于搜索者的價值會更大:即主題相關網(wǎng)頁之間的鏈接對于權重計算的奉獻比主題不相關的鏈接價值要更高。如果網(wǎng)站是介紹“服裝”的,有10個鏈接都是從“服裝”相關的網(wǎng)站鏈接過來,那這10個鏈接比另外10個從“電器”相關網(wǎng)站鏈接過來的奉獻要大。英文搜索結果頁面中文搜索結果頁面4用戶瀏覽和點擊搜索結果整合搜索及個人化搜索用戶對搜索引擎返回的10個結果的瀏覽和點擊存在很大差異。研究方法:視線跟蹤〔eye-tracking〕,用特殊設備跟蹤用戶目光在結果頁面上的瀏覽及點擊數(shù)據(jù)。Enquiro中文頁面和英文頁面的差異4用戶瀏覽和點擊搜索結果英文搜索結果頁面%ofclick%time56.3628.4313.4525.089.8214.7248.74.736.023.274.010.353.012.913.881.468.012.652.34
英文搜索結果頁面冪律分布?Why?中文搜索結果頁面
中文搜索結果頁面中文用戶無論是在Google和百度上都花了更長時間找到想要的結果。語言差異?中文搜索比英文搜索結果準確度低?
整合搜索及個人化搜索整合搜索,圖片作用
整合搜索及個人化搜索個人化搜索:更關注熟悉的網(wǎng)站5高級搜索指令5.1雙引號5.2減號5.3星號5.4inurl5.5inanchor5.6intitle5.7allintitle5.8allinurl5.9filetype5.10site5.11link5.12linkdomain5.13related5.14總和使用高級搜索指令5.1雙引號完全匹配搜索5.2減號搜索不包含減號后面的詞5.3inurl命令用inurl搜索命令可以幫你搜索到在URL當中出現(xiàn)你搜索的關鍵詞,很有針對性。
使用格式:inurl:〔+你需要搜索的內(nèi)容〕5.4filetype命令在搜索引擎里面用filetype命令是可以幫助搜到相關的文檔
使用格式:filetype:+文件格式+搜索內(nèi)容
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建省莆田市名校2025年高一下化學期末復習檢測模擬試題含解析
- 2025屆黑龍江省雞西虎林市東方紅林業(yè)局中學高二下化學期末調(diào)研試題含解析
- 臨床分離菌協(xié)同實驗分析-洞察及研究
- 大數(shù)據(jù)金融犯罪識別-洞察及研究
- 靶向基因編輯與合成生物學的交叉研究-洞察闡釋
- 食品區(qū)塊鏈溯源系統(tǒng)開發(fā)與應用-洞察闡釋
- 高安全性會話管理-洞察闡釋
- 廣東湛江市大成中學2025屆高一化學第二學期期末考試試題含解析
- 食用油市場趨勢分析-洞察闡釋
- 農(nóng)村黑臭河道生物修復技術的研究與應用
- 2025年行政執(zhí)法人員執(zhí)法證考試必考多選題庫及答案(共250題)
- 2024年山東夏季高中學業(yè)水平合格考歷史試卷真題(含答案詳解)
- 2022年重慶出版集團有限公司招聘筆試試題及答案解析
- 大豬料配方設計思路課件
- 工程竣工圖章樣式
- 技工序列考評、評聘管理辦法
- 川崎病課件講稿
- 《優(yōu)質(zhì)提問教學法-讓每個學生都參與其中》讀書筆記
- 表11項目管理班子配備情況輔助說明資料
- 叉車日常維護保養(yǎng)檢查記錄表
- 高中英語人教版2019必修二綜合檢測限時試(六)(有答案)
評論
0/150
提交評論