搜索引擎基礎(chǔ)原理課件

上傳人：c*** IP屬地：貴州上傳時(shí)間：2022-12-13 格式：PPT 頁數(shù)：42 大?。?18.98KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩37頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

搜索引擎基礎(chǔ)搜索引擎基礎(chǔ)搜索引擎工作原理搜索引擎工作主要分為：頁面抓?。ㄐ畔⑹占╉撁娣治觯A(yù)處理）建立索引（預(yù)處理）頁面排序（排名）搜索引擎工作原理搜索引擎工作主要分為：1抓取頁面（信息收集）這個(gè)工作主要由叫做“機(jī)器人（robot）”、“爬蟲（crawler）”或者“蜘蛛（spider）”的程序，根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的網(wǎng)站，并沿著網(wǎng)頁上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁，從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站。為保證采集的資料最新，它還會回訪已抓取過的網(wǎng)頁。這個(gè)工作是搜索引擎所有工作的基礎(chǔ)1抓取頁面（信息收集）這個(gè)工作主要由叫做“機(jī)器人（robo頁面抓取的兩種方式頁面抓取的兩種方式吸引蜘蛛網(wǎng)站的權(quán)重和PR值網(wǎng)站的更新頻率頁面的質(zhì)量度頁面的連接數(shù)吸引蜘蛛網(wǎng)站的權(quán)重和PR值頁面存儲搜索引擎在存儲原始頁面時(shí)，不單只存儲原始頁面，還會存儲其他的附加信息，例如：文件類型、文件大小、最后修改時(shí)間、URL、IP地址、抓取時(shí)間等頁面存儲搜索引擎在存儲原始頁面時(shí)，不單只存儲原始頁面，還會存頁面收錄原理URL列表抓取頁面提取URL存儲原始頁面頁面收錄原理URL列表抓取頁面提取URL存儲原始頁面用戶提交搜索引擎還允許用戶自己提交網(wǎng)站（一般只需要提交首頁或者網(wǎng)站域名即可）百度：搜狗：360：SOSO：Google：Google英文：http:///?continue=/addurl用戶提交搜索引擎還允許用戶自己提交網(wǎng)站（一般只需要提交首頁或2.1頁面分析（預(yù)處理）對頁面內(nèi)容進(jìn)行分析，提取相關(guān)網(wǎng)頁信息（包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等）。主要就是提取用于排名處理的網(wǎng)頁文字。對頁面正文內(nèi)容進(jìn)行“切詞”，為這些詞建立索引，得到頁面和關(guān)鍵字之間的對應(yīng)關(guān)系2.1頁面分析（預(yù)處理）對頁面內(nèi)容進(jìn)行分析，提取相關(guān)網(wǎng)頁信頁面分析（預(yù)處理）頁面分析主要包括：正文信息提?。褐饕菍?biāo)簽和注釋等信息的過濾切詞/分詞：對頁面內(nèi)容進(jìn)行切分，形成與用戶查詢條件相匹配的關(guān)鍵字為單位的信息列表匹配分詞：和預(yù)設(shè)的海量詞匯的“辭典”中的詞比較，如果有匹配的詞，則為命中。統(tǒng)計(jì)分詞：根據(jù)相鄰的2個(gè)或者多個(gè)字（詞）出現(xiàn)的概率判斷這2個(gè)字（詞）是否會形成一個(gè)詞。頁面分析（預(yù)處理）頁面分析主要包括：2.2建立索引（預(yù)處理）關(guān)鍵字索引：在切詞處理后，形成了關(guān)鍵字列表。關(guān)鍵字列表的每條記錄包含：關(guān)鍵字、關(guān)鍵字編號、出現(xiàn)次數(shù)、在網(wǎng)頁中的位置信息等。根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁針對頁面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫對抓取回來的網(wǎng)頁建立索引，以實(shí)現(xiàn)對頁面的快速定位；2.2建立索引（預(yù)處理）關(guān)鍵字索引：在切詞處理后，形成了關(guān)建立索引（預(yù)處理）建立索引（預(yù)處理）3頁面排序（排名）結(jié)合頁面的內(nèi)外因素，計(jì)算出頁面與某個(gè)關(guān)鍵字的相關(guān)程度，從而得到與該關(guān)鍵字相關(guān)的頁面索引列表，從而確定搜索排名。3頁面排序（排名）結(jié)合頁面的內(nèi)外因素，計(jì)算出頁面與某個(gè)關(guān)鍵3頁面排序（排名）用戶在搜索引擎中輸入查詢條件后，搜索引擎就在數(shù)據(jù)庫中檢索相關(guān)的信息，并將檢索結(jié)果返回給用戶。（對搜索詞進(jìn)行處理）搜索引擎在往用戶端返回?cái)?shù)據(jù)的時(shí)候，并不是隨機(jī)的，而是按照一定的計(jì)算方法進(jìn)行排序的（搜索匹配，相關(guān)性計(jì)算）涉及到排序的因素主要有：頁面相關(guān)性鏈接權(quán)重用戶行為3頁面排序（排名）用戶在搜索引擎中輸入查詢條件后，搜索引擎3.1頁面相關(guān)性頁面相關(guān)性通過對檢索結(jié)果進(jìn)行相關(guān)性排序，搜索引擎的最終目的是將最相關(guān)的網(wǎng)絡(luò)信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分，以改進(jìn)搜索結(jié)果的輸出。雖然各個(gè)搜索引擎中相關(guān)度排序的具體實(shí)現(xiàn)各不相同，但基本上都采用了基于網(wǎng)站內(nèi)容的分析方法，即考慮用戶所查詢的關(guān)鍵詞在文檔網(wǎng)頁中的出現(xiàn)情況，包括關(guān)鍵字匹配度、關(guān)鍵詞密度、關(guān)鍵詞位置、關(guān)鍵字的權(quán)重標(biāo)簽等因素。3.1頁面相關(guān)性頁面相關(guān)性3.1頁面相關(guān)性關(guān)鍵字匹配度：是指網(wǎng)頁中的內(nèi)容與用戶所查詢的關(guān)鍵字之間的匹配程度，主要是2個(gè)因素：頁面中是否包含關(guān)鍵字關(guān)鍵字在頁面中出現(xiàn)的次數(shù)關(guān)鍵字密度：關(guān)鍵字出現(xiàn)的次數(shù)與該網(wǎng)頁總詞匯量的比例.一般是3%-8%3.1頁面相關(guān)性關(guān)鍵字匹配度：是指網(wǎng)頁中的內(nèi)容與用戶所查詢3.1頁面相關(guān)性關(guān)鍵字分布：關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置會影響到關(guān)鍵字的分布值關(guān)鍵字的權(quán)重標(biāo)簽關(guān)鍵字是否使用了HTML標(biāo)簽實(shí)現(xiàn)了不同的視覺效果（如加粗、顏色變換等）頁面相關(guān)性計(jì)算公式：R(relevance)=M(match)+D(density)+P(position)+T(htmlTag)3.1頁面相關(guān)性關(guān)鍵字分布：3.2鏈接權(quán)重什么叫做鏈接？鏈接的原理作用？3.2鏈接權(quán)重什么叫做鏈接？3.2鏈接權(quán)重頁面之間的超鏈接反映了頁面之間的引用關(guān)系（內(nèi)鏈）頁面的相關(guān)程度，頁面被其他站點(diǎn)或其他網(wǎng)頁引用的次數(shù)（外鏈）基本上也反映了該網(wǎng)頁的受歡迎程度或重要性。影響一個(gè)網(wǎng)站排名的三個(gè)要素。內(nèi)部優(yōu)化外部優(yōu)化（鏈接）對新網(wǎng)站和新網(wǎng)頁鏈接的權(quán)重補(bǔ)償（一個(gè)月以內(nèi)）3.2鏈接權(quán)重頁面之間的超鏈接反映了頁面之間的引用關(guān)系（內(nèi)3.3用戶行為用戶行為主要包括：搜索：用戶獲得信息的過程，通過這個(gè)用戶行為，學(xué)習(xí)新詞匯，豐富辭典

點(diǎn)擊：用戶對搜索結(jié)果的反應(yīng)，被點(diǎn)擊的次數(shù)越多，說明越重要，權(quán)重越高為避免馬太效應(yīng)(好的越好壞的越壞)，對排在后面的鏈接的點(diǎn)擊的權(quán)重補(bǔ)償3.3用戶行為用戶行為主要包括：3.3用戶行為用戶的體驗(yàn)

1.頁面的質(zhì)量度，能否切實(shí)解決用戶的需求，滿足用戶的搜索目的。

2.用戶瀏覽的UI體驗(yàn)，包含視覺效果、頁面速度、目標(biāo)頁面的尋找。

3.用戶的瀏覽量以及跳出率。3.3用戶行為用戶的體驗(yàn)搜索引擎基礎(chǔ)搜索引擎基礎(chǔ)搜索引擎工作原理搜索引擎工作主要分為：頁面抓?。ㄐ畔⑹占╉撁娣治觯A(yù)處理）建立索引（預(yù)處理）頁面排序（排名）搜索引擎工作原理搜索引擎工作主要分為：1抓取頁面（信息收集）這個(gè)工作主要由叫做“機(jī)器人（robot）”、“爬蟲（crawler）”或者“蜘蛛（spider）”的程序，根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的網(wǎng)站，并沿著網(wǎng)頁上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁，從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站。為保證采集的資料最新，它還會回訪已抓取過的網(wǎng)頁。這個(gè)工作是搜索引擎所有工作的基礎(chǔ)1抓取頁面（信息收集）這個(gè)工作主要由叫做“機(jī)器人（robo頁面抓取的兩種方式頁面抓取的兩種方式吸引蜘蛛網(wǎng)站的權(quán)重和PR值網(wǎng)站的更新頻率頁面的質(zhì)量度頁面的連接數(shù)吸引蜘蛛網(wǎng)站的權(quán)重和PR值頁面存儲搜索引擎在存儲原始頁面時(shí)，不單只存儲原始頁面，還會存儲其他的附加信息，例如：文件類型、文件大小、最后修改時(shí)間、URL、IP地址、抓取時(shí)間等頁面存儲搜索引擎在存儲原始頁面時(shí)，不單只存儲原始頁面，還會存頁面收錄原理URL列表抓取頁面提取URL存儲原始頁面頁面收錄原理URL列表抓取頁面提取URL存儲原始頁面用戶提交搜索引擎還允許用戶自己提交網(wǎng)站（一般只需要提交首頁或者網(wǎng)站域名即可）百度：搜狗：360：SOSO：Google：Google英文：http:///?continue=/addurl用戶提交搜索引擎還允許用戶自己提交網(wǎng)站（一般只需要提交首頁或2.1頁面分析（預(yù)處理）對頁面內(nèi)容進(jìn)行分析，提取相關(guān)網(wǎng)頁信息（包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等）。主要就是提取用于排名處理的網(wǎng)頁文字。對頁面正文內(nèi)容進(jìn)行“切詞”，為這些詞建立索引，得到頁面和關(guān)鍵字之間的對應(yīng)關(guān)系2.1頁面分析（預(yù)處理）對頁面內(nèi)容進(jìn)行分析，提取相關(guān)網(wǎng)頁信頁面分析（預(yù)處理）頁面分析主要包括：正文信息提?。褐饕菍?biāo)簽和注釋等信息的過濾切詞/分詞：對頁面內(nèi)容進(jìn)行切分，形成與用戶查詢條件相匹配的關(guān)鍵字為單位的信息列表匹配分詞：和預(yù)設(shè)的海量詞匯的“辭典”中的詞比較，如果有匹配的詞，則為命中。統(tǒng)計(jì)分詞：根據(jù)相鄰的2個(gè)或者多個(gè)字（詞）出現(xiàn)的概率判斷這2個(gè)字（詞）是否會形成一個(gè)詞。頁面分析（預(yù)處理）頁面分析主要包括：2.2建立索引（預(yù)處理）關(guān)鍵字索引：在切詞處理后，形成了關(guān)鍵字列表。關(guān)鍵字列表的每條記錄包含：關(guān)鍵字、關(guān)鍵字編號、出現(xiàn)次數(shù)、在網(wǎng)頁中的位置信息等。根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁針對頁面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫對抓取回來的網(wǎng)頁建立索引，以實(shí)現(xiàn)對頁面的快速定位；2.2建立索引（預(yù)處理）關(guān)鍵字索引：在切詞處理后，形成了關(guān)建立索引（預(yù)處理）建立索引（預(yù)處理）3頁面排序（排名）結(jié)合頁面的內(nèi)外因素，計(jì)算出頁面與某個(gè)關(guān)鍵字的相關(guān)程度，從而得到與該關(guān)鍵字相關(guān)的頁面索引列表，從而確定搜索排名。3頁面排序（排名）結(jié)合頁面的內(nèi)外因素，計(jì)算出頁面與某個(gè)關(guān)鍵3頁面排序（排名）用戶在搜索引擎中輸入查詢條件后，搜索引擎就在數(shù)據(jù)庫中檢索相關(guān)的信息，并將檢索結(jié)果返回給用戶。（對搜索詞進(jìn)行處理）搜索引擎在往用戶端返回?cái)?shù)據(jù)的時(shí)候，并不是隨機(jī)的，而是按照一定的計(jì)算方法進(jìn)行排序的（搜索匹配，相關(guān)性計(jì)算）涉及到排序的因素主要有：頁面相關(guān)性鏈接權(quán)重用戶行為3頁面排序（排名）用戶在搜索引擎中輸入查詢條件后，搜索引擎3.1頁面相關(guān)性頁面相關(guān)性通過對檢索結(jié)果進(jìn)行相關(guān)性排序，搜索引擎的最終目的是將最相關(guān)的網(wǎng)絡(luò)信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分，以改進(jìn)搜索結(jié)果的輸出。雖然各個(gè)搜索引擎中相關(guān)度排序的具體實(shí)現(xiàn)各不相同，但基本上都采用了基于網(wǎng)站內(nèi)容的分析方法，即考慮用戶所查詢的關(guān)鍵詞在文檔網(wǎng)頁中的出現(xiàn)情況，包括關(guān)鍵字匹配度、關(guān)鍵詞密度、關(guān)鍵詞位置、關(guān)鍵字的權(quán)重標(biāo)簽等因素。3.1頁面相關(guān)性頁面相關(guān)性3.1頁面相關(guān)性關(guān)鍵字匹配度：是指網(wǎng)頁中的內(nèi)容與用戶所查詢的關(guān)鍵字之間的匹配程度，主要是2個(gè)因素：頁面中是否包含關(guān)鍵字關(guān)鍵字在頁面中出現(xiàn)的次數(shù)關(guān)鍵字密度：關(guān)鍵字出現(xiàn)的次數(shù)與該網(wǎng)頁總詞匯量的比例.一般是3%-8%3.1頁面相關(guān)性關(guān)鍵字匹配度：是指網(wǎng)頁中的內(nèi)容與用戶所查詢3.1頁面相關(guān)性關(guān)鍵字分布：關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置會影響到關(guān)鍵字的分布值關(guān)鍵字的權(quán)重標(biāo)簽關(guān)鍵字是否使用了HTML標(biāo)簽實(shí)現(xiàn)了不同的視覺效果（如加粗、顏色變換等）頁面相關(guān)性計(jì)算公式：R(relevance)=M(match)+D(density)+P(position)+T(htmlTag)3.1頁面相關(guān)性關(guān)鍵字分布：3.2鏈接權(quán)重什么叫做鏈接？鏈接的原理作用？3.2鏈接權(quán)重什么叫做鏈接？3.2鏈接權(quán)重頁面之間的超鏈接反映了頁面之間的引用關(guān)系（內(nèi)鏈）頁面的相關(guān)程度，頁面被其他站點(diǎn)或其他網(wǎng)頁引用的次數(shù)（外鏈）基本上也反映了該網(wǎng)頁的受歡迎程度或重要性。影響一個(gè)網(wǎng)站排名的三個(gè)要素。內(nèi)部優(yōu)化外部優(yōu)化（鏈接）對新網(wǎng)站和新網(wǎng)頁鏈接的權(quán)重補(bǔ)償（一個(gè)月以內(nèi)）3.2鏈接權(quán)重頁面之間的超鏈接反映了頁面之間的引用關(guān)系（內(nèi)3.3用戶行為用戶行為主要包括：搜索

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎基礎(chǔ)原理課件

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎基礎(chǔ)原理課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔