版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
搜索引擎工作原理搜索引擎工作主要分為:頁面抓?。ㄐ畔⑹占╉撁娣治觯A處理)建立索引(預處理)頁面排序(
)1
抓取頁面(信息收集)這個工作主要由叫做“機器人(robot)”、“爬蟲(crawler)”或者“蜘蛛(spider)”的程序,根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的一個網(wǎng)頁到另一個網(wǎng)頁,從一個,并沿著網(wǎng)頁上的
從到另一個
。為保證的資料,它還會回訪已抓取過的網(wǎng)頁。這個工作是搜索引擎所有工作的基礎頁面抓取的兩種方式吸引蜘蛛的權重和PR值的更新頻率頁面的質(zhì)量度頁面的連接數(shù)頁面搜索引擎在
原始頁面時,不單只
原始頁面,還會
其他的附加信息,例如:文件類型、文件大小、最后修改時間、URL、IP地址、抓取
時間等頁面收錄原理URL列表抓取頁面提取URL原始頁面用戶提交搜索引擎還允許用戶自己提交交首頁或者 即可)(一般只需要提:htt:ht/search/url_submit.html2.1
頁面分析(預處理)對頁面內(nèi)容進行分析,提取相關網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有、位置、生成時間、大小、與其它網(wǎng)頁的關系等)。主要就是提取用于處理的網(wǎng)頁文字。對頁面正文內(nèi)容進行“切詞”,為這些詞建立索引,得到頁面和關鍵字之間的對應關系頁面分析(預處理)頁面分析主要包括:和注釋等信息的過濾{pc}標正文信息提?。褐饕菍炃性~/分詞:對頁面內(nèi)容進行切分,形成與用戶查詢條件相匹配的關鍵字為單位的信息列表匹配分詞:和預設的海量詞匯的“辭典”中的詞比較,如果有匹配的詞,則為命中。統(tǒng)計分詞:根據(jù)相鄰的2個或者多個
)出現(xiàn)的概率判斷這2個
)是否會形成一個詞。2.2
建立索引(預處理)關鍵字索引:在切詞處理后,形成了關鍵字列表。關鍵字列表的每條記錄包含:關鍵字、關鍵字、出現(xiàn)次數(shù)、在網(wǎng)頁中的位置信息等。根據(jù)一定的相關度算法進行大量復雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個的相關度(或重要性),然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫對抓取回來的網(wǎng)頁建立索引,以實現(xiàn)對頁面的快速定位;建立索引(預處理)3
頁面排序()結(jié)合頁面的內(nèi)外因素,計算出頁面與某個關鍵字的相關程度,從而得到與該關鍵字相關的頁面索引列表,從而確定搜索。3
頁面排序(
)用戶在搜索引擎中輸入查詢條件后,搜索引擎就在數(shù)據(jù)庫中檢索相關的信息,并將檢索結(jié)果返回給用戶。(對搜索詞進行處理)搜索引擎在往用戶端返回數(shù)據(jù)的時候,并不是隨機的,而是按照一定的計算方法進行排序的(搜索匹配,相關性計算)涉及到排序的因素主要有:頁面相關性權重用戶行為3.1
頁面相關性頁面相關性通過對檢索結(jié)果進行相關性排序,搜索引擎的最終目的是將最相關的網(wǎng)絡信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分,以改進搜索結(jié)果的輸出。雖然各個搜索引擎中相關度排序的具體實現(xiàn)各不相同,但基本上都采用了基于內(nèi)容的分析方法,即考慮用在文檔網(wǎng)頁中的出現(xiàn)情況,包括關鍵密度、
位置、關鍵字的權重標戶所查詢的字匹配度、簽等因素。3.1
頁面相關性關鍵字匹配度:是指網(wǎng)頁中的內(nèi)容與用戶所查詢的關鍵字之間的匹配程度,主要是2個因素:頁面中是否包含關鍵字關鍵字在頁面中出現(xiàn)的次數(shù)關鍵字密度:關鍵字出現(xiàn)的次數(shù)與該網(wǎng)頁總詞匯量的比例.一般是3%-8%3.1
頁面相關性關鍵字分布:關鍵字在網(wǎng)頁中出現(xiàn)的位置關鍵字在網(wǎng)頁中出現(xiàn)的位置會影響到關鍵字的分布值關鍵字的權重實現(xiàn)了不同的視覺效果關鍵字是否使用了HTML(如加粗、顏色變換等)頁面相關性計算公式:R(relevance)=M(match)+D(density)+P(position)+T(html
Tag)3.2權重什么叫做
?的原理作用?3.2權重頁面之間的超反映了頁面之間的關系(內(nèi)鏈)頁面的相關程度,頁面被其他站點或其他網(wǎng)頁的次數(shù)(外鏈)基本上也反映了該網(wǎng)頁的受歡迎程度或重要性。影響一個
的三個要素。優(yōu)化外部優(yōu)化(
)對新
和新網(wǎng)頁的權重補償(一個月以內(nèi))3.3
用戶行為用戶行為主要包括:搜索:用戶獲得信息的過程,通過這個用戶行為,學習新詞匯,豐富辭典點擊:用戶對搜索結(jié)果的反應,被點擊的次數(shù)越多,說明越重重越高為避免效應(好的越好壞的越壞),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年行政單位合同業(yè)務流程創(chuàng)新與執(zhí)行監(jiān)督合同3篇
- 體育場館車庫租用合同
- 2024年網(wǎng)絡安全技術產(chǎn)品買賣框架協(xié)議范本3篇
- 制造業(yè)應屆生聘用合同管理
- 鋼鐵廠地面施工協(xié)議
- 箱包行業(yè)節(jié)能減排資源管理辦法
- 木工工程合作協(xié)議
- 水果收購合同
- 城鎮(zhèn)公共場所安全風險評估規(guī)定
- 2024年船舶租賃運輸合同
- 《格林童話》課外閱讀試題及答案
- 重型再生障礙性貧血造血干細胞移植治療課件
- 私立民辦高中學校項目投資計劃書
- 《電機與電氣控制技術》教學設計及授課計劃表
- “銷售技巧課件-讓你掌握銷售技巧”
- 2019北師大版高中英語選修一UNIT 2 單詞短語句子復習默寫單
- 房地產(chǎn)項目保密協(xié)議
- 汽車配件產(chǎn)業(yè)園項目商業(yè)計劃書
- 2023年云南省初中學業(yè)水平考試 物理
- 【安吉物流股份有限公司倉儲管理現(xiàn)狀及問題和優(yōu)化研究15000字(論文)】
- 2023年污水站設備維修 污水處理廠設備維護方案(五篇)
評論
0/150
提交評論