搜索引擎基礎(chǔ)原理課件_第1頁
搜索引擎基礎(chǔ)原理課件_第2頁
搜索引擎基礎(chǔ)原理課件_第3頁
搜索引擎基礎(chǔ)原理課件_第4頁
搜索引擎基礎(chǔ)原理課件_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

搜索引擎基礎(chǔ)搜索引擎基礎(chǔ)搜索引擎工作原理搜索引擎工作主要分為:頁面抓?。ㄐ畔⑹占╉撁娣治觯A(yù)處理)建立索引(預(yù)處理)頁面排序(排名)搜索引擎工作原理搜索引擎工作主要分為:1抓取頁面(信息收集)這個(gè)工作主要由叫做“機(jī)器人(robot)”、“爬蟲(crawler)”或者“蜘蛛(spider)”的程序,根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的網(wǎng)站,并沿著網(wǎng)頁上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站。為保證采集的資料最新,它還會回訪已抓取過的網(wǎng)頁。這個(gè)工作是搜索引擎所有工作的基礎(chǔ)1抓取頁面(信息收集)這個(gè)工作主要由叫做“機(jī)器人(robo頁面抓取的兩種方式頁面抓取的兩種方式吸引蜘蛛網(wǎng)站的權(quán)重和PR值網(wǎng)站的更新頻率頁面的質(zhì)量度頁面的連接數(shù)吸引蜘蛛網(wǎng)站的權(quán)重和PR值頁面存儲搜索引擎在存儲原始頁面時(shí),不單只存儲原始頁面,還會存儲其他的附加信息,例如:文件類型、文件大小、最后修改時(shí)間、URL、IP地址、抓取時(shí)間等頁面存儲搜索引擎在存儲原始頁面時(shí),不單只存儲原始頁面,還會存頁面收錄原理URL列表抓取頁面提取URL存儲原始頁面頁面收錄原理URL列表抓取頁面提取URL存儲原始頁面用戶提交搜索引擎還允許用戶自己提交網(wǎng)站(一般只需要提交首頁或者網(wǎng)站域名即可)百度:搜狗:360:SOSO:Google:Google英文:http:///?continue=/addurl用戶提交搜索引擎還允許用戶自己提交網(wǎng)站(一般只需要提交首頁或2.1頁面分析(預(yù)處理)對頁面內(nèi)容進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等)。主要就是提取用于排名處理的網(wǎng)頁文字。對頁面正文內(nèi)容進(jìn)行“切詞”,為這些詞建立索引,得到頁面和關(guān)鍵字之間的對應(yīng)關(guān)系2.1頁面分析(預(yù)處理)對頁面內(nèi)容進(jìn)行分析,提取相關(guān)網(wǎng)頁信頁面分析(預(yù)處理)頁面分析主要包括:正文信息提?。褐饕菍?biāo)簽和注釋等信息的過濾切詞/分詞:對頁面內(nèi)容進(jìn)行切分,形成與用戶查詢條件相匹配的關(guān)鍵字為單位的信息列表匹配分詞:和預(yù)設(shè)的海量詞匯的“辭典”中的詞比較,如果有匹配的詞,則為命中。統(tǒng)計(jì)分詞:根據(jù)相鄰的2個(gè)或者多個(gè)字(詞)出現(xiàn)的概率判斷這2個(gè)字(詞)是否會形成一個(gè)詞。頁面分析(預(yù)處理)頁面分析主要包括:2.2建立索引(預(yù)處理)關(guān)鍵字索引:在切詞處理后,形成了關(guān)鍵字列表。關(guān)鍵字列表的每條記錄包含:關(guān)鍵字、關(guān)鍵字編號、出現(xiàn)次數(shù)、在網(wǎng)頁中的位置信息等。根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫對抓取回來的網(wǎng)頁建立索引,以實(shí)現(xiàn)對頁面的快速定位;2.2建立索引(預(yù)處理)關(guān)鍵字索引:在切詞處理后,形成了關(guān)建立索引(預(yù)處理)建立索引(預(yù)處理)3頁面排序(排名)結(jié)合頁面的內(nèi)外因素,計(jì)算出頁面與某個(gè)關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁面索引列表,從而確定搜索排名。3頁面排序(排名)結(jié)合頁面的內(nèi)外因素,計(jì)算出頁面與某個(gè)關(guān)鍵3頁面排序(排名)用戶在搜索引擎中輸入查詢條件后,搜索引擎就在數(shù)據(jù)庫中檢索相關(guān)的信息,并將檢索結(jié)果返回給用戶。(對搜索詞進(jìn)行處理)搜索引擎在往用戶端返回?cái)?shù)據(jù)的時(shí)候,并不是隨機(jī)的,而是按照一定的計(jì)算方法進(jìn)行排序的(搜索匹配,相關(guān)性計(jì)算)涉及到排序的因素主要有:頁面相關(guān)性鏈接權(quán)重用戶行為3頁面排序(排名)用戶在搜索引擎中輸入查詢條件后,搜索引擎3.1頁面相關(guān)性頁面相關(guān)性通過對檢索結(jié)果進(jìn)行相關(guān)性排序,搜索引擎的最終目的是將最相關(guān)的網(wǎng)絡(luò)信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分,以改進(jìn)搜索結(jié)果的輸出。雖然各個(gè)搜索引擎中相關(guān)度排序的具體實(shí)現(xiàn)各不相同,但基本上都采用了基于網(wǎng)站內(nèi)容的分析方法,即考慮用戶所查詢的關(guān)鍵詞在文檔網(wǎng)頁中的出現(xiàn)情況,包括關(guān)鍵字匹配度、關(guān)鍵詞密度、關(guān)鍵詞位置、關(guān)鍵字的權(quán)重標(biāo)簽等因素。3.1頁面相關(guān)性頁面相關(guān)性3.1頁面相關(guān)性關(guān)鍵字匹配度:是指網(wǎng)頁中的內(nèi)容與用戶所查詢的關(guān)鍵字之間的匹配程度,主要是2個(gè)因素:頁面中是否包含關(guān)鍵字關(guān)鍵字在頁面中出現(xiàn)的次數(shù)關(guān)鍵字密度:關(guān)鍵字出現(xiàn)的次數(shù)與該網(wǎng)頁總詞匯量的比例.一般是3%-8%3.1頁面相關(guān)性關(guān)鍵字匹配度:是指網(wǎng)頁中的內(nèi)容與用戶所查詢3.1頁面相關(guān)性關(guān)鍵字分布:關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置會影響到關(guān)鍵字的分布值關(guān)鍵字的權(quán)重標(biāo)簽關(guān)鍵字是否使用了HTML標(biāo)簽實(shí)現(xiàn)了不同的視覺效果(如加粗、顏色變換等)頁面相關(guān)性計(jì)算公式:R(relevance)=M(match)+D(density)+P(position)+T(htmlTag)3.1頁面相關(guān)性關(guān)鍵字分布:3.2鏈接權(quán)重什么叫做鏈接?鏈接的原理作用?3.2鏈接權(quán)重什么叫做鏈接?3.2鏈接權(quán)重頁面之間的超鏈接反映了頁面之間的引用關(guān)系(內(nèi)鏈)頁面的相關(guān)程度,頁面被其他站點(diǎn)或其他網(wǎng)頁引用的次數(shù)(外鏈)基本上也反映了該網(wǎng)頁的受歡迎程度或重要性。影響一個(gè)網(wǎng)站排名的三個(gè)要素。內(nèi)部優(yōu)化外部優(yōu)化(鏈接)對新網(wǎng)站和新網(wǎng)頁鏈接的權(quán)重補(bǔ)償(一個(gè)月以內(nèi))3.2鏈接權(quán)重頁面之間的超鏈接反映了頁面之間的引用關(guān)系(內(nèi)3.3用戶行為用戶行為主要包括:搜索:用戶獲得信息的過程,通過這個(gè)用戶行為,學(xué)習(xí)新詞匯,豐富辭典

點(diǎn)擊:用戶對搜索結(jié)果的反應(yīng),被點(diǎn)擊的次數(shù)越多,說明越重要,權(quán)重越高為避免馬太效應(yīng)(好的越好壞的越壞),對排在后面的鏈接的點(diǎn)擊的權(quán)重補(bǔ)償3.3用戶行為用戶行為主要包括:3.3用戶行為用戶的體驗(yàn)

1.頁面的質(zhì)量度,能否切實(shí)解決用戶的需求,滿足用戶的搜索目的。

2.用戶瀏覽的UI體驗(yàn),包含視覺效果、頁面速度、目標(biāo)頁面的尋找。

3.用戶的瀏覽量以及跳出率。3.3用戶行為用戶的體驗(yàn)搜索引擎基礎(chǔ)搜索引擎基礎(chǔ)搜索引擎工作原理搜索引擎工作主要分為:頁面抓?。ㄐ畔⑹占╉撁娣治觯A(yù)處理)建立索引(預(yù)處理)頁面排序(排名)搜索引擎工作原理搜索引擎工作主要分為:1抓取頁面(信息收集)這個(gè)工作主要由叫做“機(jī)器人(robot)”、“爬蟲(crawler)”或者“蜘蛛(spider)”的程序,根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的網(wǎng)站,并沿著網(wǎng)頁上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站。為保證采集的資料最新,它還會回訪已抓取過的網(wǎng)頁。這個(gè)工作是搜索引擎所有工作的基礎(chǔ)1抓取頁面(信息收集)這個(gè)工作主要由叫做“機(jī)器人(robo頁面抓取的兩種方式頁面抓取的兩種方式吸引蜘蛛網(wǎng)站的權(quán)重和PR值網(wǎng)站的更新頻率頁面的質(zhì)量度頁面的連接數(shù)吸引蜘蛛網(wǎng)站的權(quán)重和PR值頁面存儲搜索引擎在存儲原始頁面時(shí),不單只存儲原始頁面,還會存儲其他的附加信息,例如:文件類型、文件大小、最后修改時(shí)間、URL、IP地址、抓取時(shí)間等頁面存儲搜索引擎在存儲原始頁面時(shí),不單只存儲原始頁面,還會存頁面收錄原理URL列表抓取頁面提取URL存儲原始頁面頁面收錄原理URL列表抓取頁面提取URL存儲原始頁面用戶提交搜索引擎還允許用戶自己提交網(wǎng)站(一般只需要提交首頁或者網(wǎng)站域名即可)百度:搜狗:360:SOSO:Google:Google英文:http:///?continue=/addurl用戶提交搜索引擎還允許用戶自己提交網(wǎng)站(一般只需要提交首頁或2.1頁面分析(預(yù)處理)對頁面內(nèi)容進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等)。主要就是提取用于排名處理的網(wǎng)頁文字。對頁面正文內(nèi)容進(jìn)行“切詞”,為這些詞建立索引,得到頁面和關(guān)鍵字之間的對應(yīng)關(guān)系2.1頁面分析(預(yù)處理)對頁面內(nèi)容進(jìn)行分析,提取相關(guān)網(wǎng)頁信頁面分析(預(yù)處理)頁面分析主要包括:正文信息提?。褐饕菍?biāo)簽和注釋等信息的過濾切詞/分詞:對頁面內(nèi)容進(jìn)行切分,形成與用戶查詢條件相匹配的關(guān)鍵字為單位的信息列表匹配分詞:和預(yù)設(shè)的海量詞匯的“辭典”中的詞比較,如果有匹配的詞,則為命中。統(tǒng)計(jì)分詞:根據(jù)相鄰的2個(gè)或者多個(gè)字(詞)出現(xiàn)的概率判斷這2個(gè)字(詞)是否會形成一個(gè)詞。頁面分析(預(yù)處理)頁面分析主要包括:2.2建立索引(預(yù)處理)關(guān)鍵字索引:在切詞處理后,形成了關(guān)鍵字列表。關(guān)鍵字列表的每條記錄包含:關(guān)鍵字、關(guān)鍵字編號、出現(xiàn)次數(shù)、在網(wǎng)頁中的位置信息等。根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫對抓取回來的網(wǎng)頁建立索引,以實(shí)現(xiàn)對頁面的快速定位;2.2建立索引(預(yù)處理)關(guān)鍵字索引:在切詞處理后,形成了關(guān)建立索引(預(yù)處理)建立索引(預(yù)處理)3頁面排序(排名)結(jié)合頁面的內(nèi)外因素,計(jì)算出頁面與某個(gè)關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁面索引列表,從而確定搜索排名。3頁面排序(排名)結(jié)合頁面的內(nèi)外因素,計(jì)算出頁面與某個(gè)關(guān)鍵3頁面排序(排名)用戶在搜索引擎中輸入查詢條件后,搜索引擎就在數(shù)據(jù)庫中檢索相關(guān)的信息,并將檢索結(jié)果返回給用戶。(對搜索詞進(jìn)行處理)搜索引擎在往用戶端返回?cái)?shù)據(jù)的時(shí)候,并不是隨機(jī)的,而是按照一定的計(jì)算方法進(jìn)行排序的(搜索匹配,相關(guān)性計(jì)算)涉及到排序的因素主要有:頁面相關(guān)性鏈接權(quán)重用戶行為3頁面排序(排名)用戶在搜索引擎中輸入查詢條件后,搜索引擎3.1頁面相關(guān)性頁面相關(guān)性通過對檢索結(jié)果進(jìn)行相關(guān)性排序,搜索引擎的最終目的是將最相關(guān)的網(wǎng)絡(luò)信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分,以改進(jìn)搜索結(jié)果的輸出。雖然各個(gè)搜索引擎中相關(guān)度排序的具體實(shí)現(xiàn)各不相同,但基本上都采用了基于網(wǎng)站內(nèi)容的分析方法,即考慮用戶所查詢的關(guān)鍵詞在文檔網(wǎng)頁中的出現(xiàn)情況,包括關(guān)鍵字匹配度、關(guān)鍵詞密度、關(guān)鍵詞位置、關(guān)鍵字的權(quán)重標(biāo)簽等因素。3.1頁面相關(guān)性頁面相關(guān)性3.1頁面相關(guān)性關(guān)鍵字匹配度:是指網(wǎng)頁中的內(nèi)容與用戶所查詢的關(guān)鍵字之間的匹配程度,主要是2個(gè)因素:頁面中是否包含關(guān)鍵字關(guān)鍵字在頁面中出現(xiàn)的次數(shù)關(guān)鍵字密度:關(guān)鍵字出現(xiàn)的次數(shù)與該網(wǎng)頁總詞匯量的比例.一般是3%-8%3.1頁面相關(guān)性關(guān)鍵字匹配度:是指網(wǎng)頁中的內(nèi)容與用戶所查詢3.1頁面相關(guān)性關(guān)鍵字分布:關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置會影響到關(guān)鍵字的分布值關(guān)鍵字的權(quán)重標(biāo)簽關(guān)鍵字是否使用了HTML標(biāo)簽實(shí)現(xiàn)了不同的視覺效果(如加粗、顏色變換等)頁面相關(guān)性計(jì)算公式:R(relevance)=M(match)+D(density)+P(position)+T(htmlTag)3.1頁面相關(guān)性關(guān)鍵字分布:3.2鏈接權(quán)重什么叫做鏈接?鏈接的原理作用?3.2鏈接權(quán)重什么叫做鏈接?3.2鏈接權(quán)重頁面之間的超鏈接反映了頁面之間的引用關(guān)系(內(nèi)鏈)頁面的相關(guān)程度,頁面被其他站點(diǎn)或其他網(wǎng)頁引用的次數(shù)(外鏈)基本上也反映了該網(wǎng)頁的受歡迎程度或重要性。影響一個(gè)網(wǎng)站排名的三個(gè)要素。內(nèi)部優(yōu)化外部優(yōu)化(鏈接)對新網(wǎng)站和新網(wǎng)頁鏈接的權(quán)重補(bǔ)償(一個(gè)月以內(nèi))3.2鏈接權(quán)重頁面之間的超鏈接反映了頁面之間的引用關(guān)系(內(nèi)3.3用戶行為用戶行為主要包括:搜索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論