網(wǎng)頁搜索技術(shù)簡介_第1頁
網(wǎng)頁搜索技術(shù)簡介_第2頁
網(wǎng)頁搜索技術(shù)簡介_第3頁
網(wǎng)頁搜索技術(shù)簡介_第4頁
網(wǎng)頁搜索技術(shù)簡介_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)頁搜索技術(shù)簡介20142014年年0909月月0404日日技術(shù)分享季,點(diǎn)亮思維每一季Page number1 搜索引擎概述 搜索引擎關(guān)鍵技術(shù)檢索系統(tǒng)索引系統(tǒng)網(wǎng)絡(luò)爬蟲相關(guān)性 引擎的評(píng)測與改進(jìn)議題Page number2搜索引擎概述 解決的問題:海量數(shù)據(jù)中從查找你想要的數(shù)據(jù) 數(shù)據(jù)來源:網(wǎng)頁抓取,分析 數(shù)據(jù)處理:篩選,去重,排序,存儲(chǔ) 數(shù)據(jù)檢索:分詞,檢索 互聯(lián)網(wǎng)技術(shù)皇冠上的明珠Page number3搜索引擎概述搜索引擎應(yīng)用了哪些技術(shù)? 分布式計(jì)算:用于大規(guī)模離線網(wǎng)頁排序/分析 分布式存儲(chǔ):用于網(wǎng)頁數(shù)據(jù)存儲(chǔ),(url庫,正文庫,anchor庫,倒排,正排,摘要,快照) 自然語言處理(文章分詞/檢

2、索語意分析/檢索樹構(gòu)建),機(jī)器學(xué)習(xí)(相關(guān)性模型調(diào)優(yōu)) 高性能檢索(實(shí)時(shí)檢索服務(wù),IO/CPU/網(wǎng)絡(luò)架構(gòu)) .其他相關(guān)技術(shù)Page number4搜索系統(tǒng)架構(gòu) 通用搜索系統(tǒng)主要是包括四大系統(tǒng):檢索系統(tǒng),索引系統(tǒng),爬蟲系統(tǒng),和相關(guān)性 檢索系統(tǒng):根據(jù)用戶輸入的檢索串,實(shí)時(shí)找出檢索最相關(guān)的內(nèi)容 索引系統(tǒng):離線網(wǎng)頁的倒排/順排構(gòu)建,網(wǎng)頁選取/去重/離線打分,網(wǎng)頁數(shù)據(jù)存儲(chǔ). 爬蟲系統(tǒng):互聯(lián)網(wǎng)數(shù)據(jù)選取/抓取 相關(guān)性:檢索串和文章的相關(guān)度,索引文章選取,網(wǎng)頁抓取的優(yōu)先級(jí),全方位介入到搜索的各個(gè)角落檢索系統(tǒng)索引系統(tǒng)爬蟲系統(tǒng)相關(guān)性Page number5 檢索串分析: 把用戶輸入的檢索串進(jìn)行分詞和語意分析,分解成

3、檢索語法樹中國恒大 (中國 | 中華| china) & 恒大 (中國&恒大) | (中華&恒大)| (china&恒大) 檢索串表示為多個(gè)詞組的交集,如果有同義詞,可以進(jìn)行同義詞擴(kuò)展。 檢索樹其他特性: IDF信息,檢索時(shí)新性判斷,檢索主題分類(體育/新聞/視頻)檢索系統(tǒng)Page number6 檢索: 核心是一個(gè)倒排求交并進(jìn)行排序的過程 倒排表:詞語到文章的映射 (中國&恒大) = doc5 檢索系統(tǒng)Page number7 檢索難點(diǎn): 短時(shí)間內(nèi),完成超長倒排的求交過程。在線檢索系統(tǒng),文章數(shù)量從幾百億到上千億不等。高頻詞,可能在數(shù)10億個(gè)網(wǎng)頁中存在,

4、如何求交?檢索系統(tǒng)Page number8 并行求交: 倒排表進(jìn)行多次拆分,分布到不同的機(jī)器上。求交的時(shí)候下發(fā)語法樹,所有機(jī)器對(duì)同一個(gè)語法樹進(jìn)行求交操作。求交結(jié)果進(jìn)行多次合并排序,最終返回用戶。一次檢索會(huì)涉及到集群的所有機(jī)器,能量開銷大檢索系統(tǒng)Page number9 檢索性能: 檢索開銷巨大,需要優(yōu)化檢索性能到極限(CPU/內(nèi)存/IO)。關(guān)鍵指標(biāo):文章裝機(jī)量,QPS 文章裝機(jī)量:單機(jī)能夠裝載的文章數(shù)。集群在線文章更多,長尾檢索效果更好,但是倒排長度更長,會(huì)降低QPS QPS:單機(jī)能夠承載的檢索次數(shù)上限,制約整個(gè)集群的檢索能力,QPS提高能夠降低檢索成本 求交過程需要進(jìn)行全方位的優(yōu)化,提升求交

5、性能!一次檢索會(huì)涉及到集群的所有機(jī)器,能量開銷大檢索系統(tǒng)Page number10 文章索引優(yōu)化: 繼續(xù)挖掘優(yōu)化: 塊壓縮? 變長編碼,差分編碼. 檢索系統(tǒng)URLURL/zh/%E5%B9%BF%E5%B7%9E%E6%81%92%E5%A4%A7%E6%B7%98%E5%AE%9D%E8%B6%B3%E7%90%83%E4%BF%B1%E4%B9%90%E9%83%A8127 byte127 byteMD51AFAD263ED40EF0716byteu64_t19440975157878412878byteu32_t250022224BytePag

6、e number11 求交過程優(yōu)化:(1)倒排表按照文章質(zhì)量以及和詞語相關(guān)度進(jìn)行了離線排序(2)倒排表進(jìn)行多路歸并,尋找詞語倒排表交集 其他優(yōu)化方法: 建立倒排二級(jí)索引,Bitmap直接表示文章增加單機(jī)文章裝機(jī)量:固態(tài)硬盤,異步IO, CPU綁定,無鎖編程. 檢索系統(tǒng)Page number12 存儲(chǔ): url庫,正文庫,鏈接庫,用戶行為數(shù)據(jù). 計(jì)算:抽取、反垃圾、排重、選取、順排、倒排、鏈接計(jì)算、錨文本計(jì)算 索引選取:從離線存儲(chǔ)庫中的幾千億網(wǎng)頁選取優(yōu)質(zhì)數(shù)據(jù)到在線庫。(幾百億到上千億不等) 順排倒排:對(duì)網(wǎng)頁進(jìn)行分詞,建立倒排表。倒排是詞語到文章的映射,順排是文章到詞語的映射。 索引系統(tǒng)Page

7、number13 計(jì)算:依賴大規(guī)模分布式計(jì)算MR(Infrastructure) http:/ 索引選取計(jì)算:從離線存儲(chǔ)庫中的幾千億網(wǎng)頁選取優(yōu)質(zhì)數(shù)據(jù)進(jìn)入到在線庫。(幾百億到上千億不等) 選取規(guī)則: 黑白名單:命中白名單直接進(jìn)入選擇 分類規(guī)則:網(wǎng)站首頁,用戶點(diǎn)擊或者展現(xiàn)過的頁面,第三方優(yōu)質(zhì)數(shù)據(jù)., 更多細(xì)化的規(guī)則保證選擇優(yōu)質(zhì)數(shù)據(jù) 網(wǎng)頁打分:根據(jù)用戶行為數(shù)據(jù)(點(diǎn)擊/展現(xiàn)/瀏覽日志),網(wǎng)頁權(quán)威度特征(PR,DR)和網(wǎng)頁質(zhì)量進(jìn)行綜合打分 索引系統(tǒng)白黑名單分類規(guī)則網(wǎng)頁打分Page number14打分模型:針對(duì)網(wǎng)頁評(píng)分,建立合適的打分模型 非線性模型:指數(shù)模型,對(duì)數(shù)模型,分段模型 線性模型:value

8、= 權(quán)重* A + 權(quán)重 * B,多數(shù)會(huì)對(duì)權(quán)重和數(shù)據(jù)進(jìn)行歸一化處理,具體的取值可以通過多次訓(xùn)練獲得模型參數(shù):(1)用戶行為數(shù)據(jù)(點(diǎn)擊/展現(xiàn)/瀏覽日志),瀏覽器數(shù)據(jù)非常關(guān)鍵,可以收集到非常長尾的網(wǎng)頁數(shù)據(jù)?。?)網(wǎng)頁質(zhì)量特征:page rank,quality rank(網(wǎng)頁質(zhì)量),domain rank(主站質(zhì)量). (3) 網(wǎng)頁內(nèi)容特征: url深度,分光鏡(內(nèi)容分類),編碼格式. 索引系統(tǒng)Page number15 問題:如何選取1000億網(wǎng)頁中得分前100億的網(wǎng)頁?根據(jù)上一輪網(wǎng)頁打分,可以得出網(wǎng)頁的得分分布狀態(tài)例:在這20篇文章中,找出得分排名前10的文章,可以知道閾值是3 每天都有新的數(shù)

9、據(jù),如何在時(shí)新性和成本達(dá)成妥協(xié)?(1)時(shí)新性數(shù)據(jù)直接實(shí)時(shí)進(jìn)入實(shí)時(shí)索引系統(tǒng)。(2)常規(guī)數(shù)據(jù)每天分批計(jì)算,每天上線1/N數(shù)據(jù),N天完成全量索引更新 索引系統(tǒng)得分1 12 23 34 45 5文章篇數(shù)53345Page number16 網(wǎng)絡(luò)爬蟲是搜索引擎的數(shù)據(jù)源頭,直接決定數(shù)據(jù)質(zhì)量和收錄。它負(fù)責(zé)發(fā)現(xiàn)/下載/更新網(wǎng)頁數(shù)據(jù)。數(shù)據(jù)是搜索質(zhì)量的基礎(chǔ)。 調(diào)度:從Url庫中選擇需要抓取的url 抓取:下載網(wǎng)頁數(shù)據(jù) 抽?。喊严螺d網(wǎng)頁分析為結(jié)構(gòu)化的數(shù)據(jù),URL/正文/錨文本/鏈接庫 網(wǎng)絡(luò)爬蟲SPIDER數(shù)據(jù)倉庫(URL/正文/鏈接庫)SCHEDULE抽取WEBUrl網(wǎng)頁數(shù)據(jù)網(wǎng)頁數(shù)據(jù)Page number17 調(diào)度

10、:下載配額是受到下載機(jī)器/出口帶寬/對(duì)方網(wǎng)站配額等多個(gè)因素制約的,下載能力非常有限。需要從Url庫中選取最有價(jià)值的url進(jìn)行下載 調(diào)度原則:鏈接分類配額 + 配額內(nèi)打分排序 網(wǎng)頁分類:(1)網(wǎng)站首頁:必選(2)新抓頁面:資源傾斜(3)更新索引頁:資源傾斜(4)更新內(nèi)容頁:少量更新 網(wǎng)絡(luò)爬蟲Page number18鏈接打分規(guī)則 新抓頁面:URL外形因子/Page rank/所在網(wǎng)頁目錄質(zhì)量 更新頁面:發(fā)現(xiàn)新鏈接數(shù)/子鏈接數(shù)/頁面變化周期/page rank /url深度 Url外形例子:http:/ 網(wǎng)絡(luò)爬蟲Page number19Page rank:網(wǎng)頁排名,又稱網(wǎng)頁級(jí)別,佩奇排名。一個(gè)網(wǎng)

11、頁排名,又稱網(wǎng)頁級(jí)別,佩奇排名。一個(gè)鏈接的鏈接的page rank排名由指向它的鏈接所決定。整個(gè)網(wǎng)絡(luò)排名由指向它的鏈接所決定。整個(gè)網(wǎng)絡(luò)的的page rank經(jīng)過多次迭代趨向穩(wěn)定經(jīng)過多次迭代趨向穩(wěn)定 Page rank公式:SEO優(yōu)化經(jīng)常關(guān)注到這一點(diǎn),但是大量垃圾網(wǎng)站的相互指向,容易導(dǎo)致整一批網(wǎng)站被判定為垃圾或者作弊,反而導(dǎo)致站點(diǎn)被懲罰性降級(jí)!千萬不要和壞人做朋友! 網(wǎng)絡(luò)爬蟲Page number20網(wǎng)頁抓取:從互聯(lián)網(wǎng)抓取網(wǎng)頁數(shù)據(jù)的過程。 抓取壓力:抓取壓力非常關(guān)鍵,太大的壓力會(huì)導(dǎo)致對(duì)方封禁爬蟲的IP地址。下載壓力原則是做到全天均衡而穩(wěn)定,考慮對(duì)方站點(diǎn)的業(yè)務(wù)狀態(tài)。 如何去估算對(duì)方站點(diǎn)允許的下載壓

12、力?(1)站點(diǎn)Alexa排名(2)站點(diǎn)PV站點(diǎn)壓力是一個(gè)反復(fù)調(diào)整的過程,如果不幸被對(duì)方站點(diǎn)封禁了,就需要轉(zhuǎn)入到匿名下載。 網(wǎng)絡(luò)爬蟲Page number21問題:如果從求交完成的文章中,選出最優(yōu)的10篇文章返回給用戶? 相關(guān)性:對(duì)求交結(jié)果進(jìn)行排序,完成最優(yōu)選擇!介紹的重點(diǎn)。相關(guān)性全面深入到搜索引擎的各個(gè)細(xì)節(jié),query分析,求交排序,離線索引選取,倒排構(gòu)建,爬蟲鏈接選擇,反垃圾等等環(huán)節(jié) 相關(guān)性Page number22求交結(jié)果排序的關(guān)鍵因子:(1)文本相關(guān)性:衡量query和網(wǎng)頁的文本近似度(2)網(wǎng)頁權(quán)威度:考慮網(wǎng)頁和所在站點(diǎn)的權(quán)威性,如百度知道/wiki等所屬頁面會(huì)大幅提權(quán) (3)網(wǎng)頁時(shí)新性

13、:時(shí)新網(wǎng)頁會(huì)有提權(quán),特別對(duì)于新聞?lì)惥W(wǎng)頁(4)點(diǎn)擊模型:用戶點(diǎn)擊數(shù)據(jù)實(shí)際上就是對(duì)網(wǎng)頁進(jìn)行人工標(biāo)注。Query實(shí)際上可以作為網(wǎng)頁的標(biāo)注信息。 相關(guān)性Page number23文本相關(guān)性:不同位區(qū)的文本重要性不同(1)anchor 標(biāo)注文本(2)文章標(biāo)題(3)文章meta字段,注釋信息(4)文章正文SEO優(yōu)化的同學(xué)注意了! 相關(guān)性Page number24(1)錨文本/標(biāo)題完全匹配,可以獲取很高的提權(quán)(2)標(biāo)題部分命中也可能比正文獲得更高的排位(3)文章內(nèi)容其實(shí)沒有你想象的重要 相關(guān)性Page number25 常用的文本相關(guān)性算法: BM25/IR-book/html/htmledition/okapi-bm25-a-non-binary-model-1.html 余弦相似度/wiki/%E4%BD%99%E5%BC%A6%E7%9B%B8%E4%BC%BC%E6%80%A7simhashhttp:/ 在算法基礎(chǔ)上,可以用更多自定義特征來進(jìn)行提權(quán)降權(quán) 相關(guān)性Page number26評(píng)測方法DCG測試 : 針對(duì)一定量query,人工標(biāo)注評(píng)價(jià)和標(biāo)注相關(guān)網(wǎng)頁。通過對(duì)標(biāo)注網(wǎng)頁的召回率和排序的打分,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論