![web搜索引擎優(yōu)化技術(shù)之搜索引擎的定義.doc_第1頁(yè)](http://file.renrendoc.com/FileRoot1/2020-1/11/d40b9ad9-ceb5-4651-886f-0aae83ed4567/d40b9ad9-ceb5-4651-886f-0aae83ed45671.gif)
![web搜索引擎優(yōu)化技術(shù)之搜索引擎的定義.doc_第2頁(yè)](http://file.renrendoc.com/FileRoot1/2020-1/11/d40b9ad9-ceb5-4651-886f-0aae83ed4567/d40b9ad9-ceb5-4651-886f-0aae83ed45672.gif)
![web搜索引擎優(yōu)化技術(shù)之搜索引擎的定義.doc_第3頁(yè)](http://file.renrendoc.com/FileRoot1/2020-1/11/d40b9ad9-ceb5-4651-886f-0aae83ed4567/d40b9ad9-ceb5-4651-886f-0aae83ed45673.gif)
全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,萬(wàn)維網(wǎng)成為巨量信息的載體,如何有效地檢索和利用這些信息成為巨大挑戰(zhàn)。在未知鏈接地址時(shí),用戶要在這種信息海洋里查找信息無(wú)異于大海撈針。搜索引擎(Search Engine)技術(shù)應(yīng)勢(shì)而生,成功地解決了這一難題。搜索引擎為用戶提供信息檢索服務(wù),作為輔助人們檢索信息的工具,是在Web上發(fā)現(xiàn)信息的關(guān)鍵技術(shù),是用戶訪問(wèn)萬(wàn)維網(wǎng)的最佳入口。根據(jù)權(quán)威調(diào)查顯示,搜索引擎的導(dǎo)航服務(wù)已成為非常重要的互聯(lián)網(wǎng)服務(wù),全球80的網(wǎng)站,其訪問(wèn)量70-90都來(lái)自于搜索引擎,因此,讓搜索引擎收錄更多的網(wǎng)頁(yè),就是提高網(wǎng)站訪問(wèn)量的最有效辦法。搜索引擎借助于自動(dòng)搜索網(wǎng)頁(yè)的軟件,在網(wǎng)絡(luò)上通過(guò)各種鏈接獲得大頁(yè)面文檔的信息,并按照一定算法與規(guī)則進(jìn)行歸類整理,形成文檔索引數(shù)據(jù)庫(kù),以備用戶查詢。提供這種服務(wù)的網(wǎng)站便是“搜索引擎”。搜索引擎收集因特網(wǎng)上數(shù)以十億計(jì)的Web文檔,并對(duì)其每術(shù)語(yǔ)即關(guān)鍵詞進(jìn)行索引,建立索引數(shù)據(jù)庫(kù),當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在包含該關(guān)鍵詞的文檔都將作為搜索結(jié)果羅列出來(lái)。這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列顯示。搜索引擎搜索和收集的Web文檔類型有HTML、PDF、博客、FTP文件、圖片、字處理文檔(Word、PPT)、多媒體文件等。本文主要涉及頁(yè)面或Web文檔。商業(yè)運(yùn)作成功的著名搜索引擎有Google、Yahoo、MSN, Ask Jeeves和百度等。1.1.1 搜索引擎的工作原理搜索引擎有兩個(gè)重要組成部分,即離線部分和在線部分。離線部分由搜索引擎定期執(zhí)行,包括下載網(wǎng)站的頁(yè)面集合,并經(jīng)處理把這些頁(yè)面轉(zhuǎn)換成可搜索的索引。在線部分在用戶查詢時(shí)被執(zhí)行,根據(jù)與用戶需求的相關(guān)性,利用索引去選擇候選文檔并排序顯示。搜索引擎的原理基于三段式工作流程,即搜集,預(yù)處理,提供服務(wù)。它以一定的策略在互聯(lián)網(wǎng)中發(fā)現(xiàn)和搜集信息,對(duì)信息進(jìn)行處理和組織,以便為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。因此,搜索引擎的工作原理包括搜索引擎收錄頁(yè)面、建立索引和向用戶提供查詢服務(wù)等。1 網(wǎng)頁(yè)搜集搜索引擎使用軟件按某種策略自動(dòng)獲取文檔,軟件名稱不同,如Robot、Spider、crawler,Wanderer等。Robot直譯為機(jī)器人,crawler直譯為爬行器,spider直譯為網(wǎng)絡(luò)蜘蛛,Wanderer直譯為漫游器,它們是搜索引擎用來(lái)抓取網(wǎng)頁(yè)的工具或自動(dòng)程序。著名搜索引擎的探測(cè)器(Robot):谷歌的為googlebot,百度的為baiduspider,MSN的為MSNbot,Yahoo的為Slurp。搜索引擎將檢索首頁(yè),并根據(jù)其中的鏈接去搜索網(wǎng)站其它頁(yè)面。搜索引擎從Web中抓取頁(yè)面的過(guò)程如同蜘蛛(spider)在蜘蛛網(wǎng)(Web)上爬行(crawl),被稱為Web crawling或Spidering。搜索引擎要從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè),利用其Spider(蜘蛛)自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著網(wǎng)頁(yè)中的URL爬到其它網(wǎng)頁(yè)。搜索引擎將Web看作是一個(gè)有向圖: 搜集過(guò)程從初始網(wǎng)頁(yè)的URL開始,找出其中所有URL并放入隊(duì)列中; 根據(jù)搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL; 重復(fù)上述過(guò)程直到滿足系統(tǒng)的停止條件。 網(wǎng)頁(yè)抓取策略分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會(huì)導(dǎo)致蜘蛛的陷入(trapped)問(wèn)題,目前常見(jiàn)的是廣度優(yōu)先和最佳優(yōu)先方法。Web有兩個(gè)重要特征:信息海量和更新頻率快,這使得Web crawling極其困難。巨量信息意味著在給定時(shí)間蜘蛛只能下載部分Web頁(yè)面,這需要蜘蛛有針對(duì)性地下載??焖俚母骂l率意味著蜘蛛在下載某個(gè)網(wǎng)站的最后一個(gè)頁(yè)面時(shí),說(shuō)不定前面下載的頁(yè)面已經(jīng)被更新了。Crawling Web在某些程度上相似于在晴空萬(wàn)里的夜間觀望天空,你所看到的只是群星在不同時(shí)刻狀態(tài)的反映,因它們的距離不一。蜘蛛所獲取的頁(yè)面集合也非Web的快照,因這不代表任一時(shí)刻的Web。如今,網(wǎng)絡(luò)速度雖然有所提高,但仍然滿足不了處理速度和存儲(chǔ)容量的要求。因此,搜索引擎的Spider一般要定期重新訪問(wèn)所有網(wǎng)頁(yè),時(shí)間間隔因搜索引擎和目標(biāo)網(wǎng)頁(yè)而異,以便更新索引數(shù)據(jù)庫(kù),比較真實(shí)地反映出網(wǎng)頁(yè)內(nèi)容的更新情況,如增加新網(wǎng)頁(yè)信息,去除死鏈接,并根據(jù)網(wǎng)頁(yè)內(nèi)容和鏈接關(guān)系的變化重新排序。從而使得網(wǎng)頁(yè)的具體內(nèi)容及其變化情況比較準(zhǔn)確地體現(xiàn)在用戶的查詢結(jié)果中。2 預(yù)處理預(yù)處理旨在為收集到的Web文檔建立邏輯視圖。在傳統(tǒng)的信息檢索中,文檔邏輯視圖是“bag of words”模型,即文檔被視同為一些單詞的無(wú)序集合。而在Web搜索引擎中,這種視圖被逐步擴(kuò)展了,如用詞頻、權(quán)重、Web文檔的元信息、文檔的權(quán)威性和使用情形等。搜索引擎要處理蜘蛛所搜索到的信息,從中抽取出索引項(xiàng),以便用戶檢索,索引項(xiàng)分為: 內(nèi)容性索引項(xiàng) 元數(shù)據(jù)索引項(xiàng),指文檔的作名、URL、更新時(shí)間、編碼、長(zhǎng)度等 搜索引擎要給索引項(xiàng)賦于權(quán)值,以表示該索引項(xiàng)對(duì)文檔的貢獻(xiàn)程度,用于計(jì)算查詢結(jié)果的相關(guān)性。然后用索引項(xiàng)建立索引表。索引表一般使用某種形式的倒排表(Inversion List)。倒排表由兩部分組成:詞匯及其位置列表。詞匯是所有關(guān)鍵詞的排序列表,對(duì)于詞匯中的每個(gè)關(guān)鍵詞,其在文檔集中的出現(xiàn)的“位置”列表。3 查詢服務(wù)搜索引擎為用戶提供查詢界面,以便用戶通過(guò)瀏覽器提交待查詢的詞語(yǔ)或短語(yǔ)。當(dāng)用戶輸入關(guān)鍵詞后,搜索系統(tǒng)程序從索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè),并根據(jù)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)性排序,相關(guān)性越高,排名越靠前。然后很快返回與用戶輸入內(nèi)容相關(guān)的信息列表,該列表中的每一條目代表一篇網(wǎng)頁(yè),至少有3個(gè)元素,即網(wǎng)頁(yè)的標(biāo)題、地址和摘要。相關(guān)性(Relevance)體現(xiàn)著用戶查詢與查詢結(jié)果文檔的匹配程度。 泰州市君悅信息技術(shù)有限公司 是一家專業(yè)從事互聯(lián)網(wǎng)網(wǎng)站建設(shè)/推廣/維護(hù)服務(wù)的企業(yè)。 主要業(yè)務(wù)為企業(yè)提供專業(yè)化的網(wǎng)站建設(shè)一條龍技術(shù)服務(wù),范圍包括:企業(yè)網(wǎng)站策劃、泰州網(wǎng)頁(yè)設(shè)計(jì)、泰州網(wǎng)站建設(shè)、畫冊(cè)名片LOGO設(shè)計(jì)、泰州百度、泰州網(wǎng)站優(yōu)化、域名注冊(cè)、企業(yè)網(wǎng)維護(hù)、泰州阿里巴巴誠(chéng)信通以及泰州阿里巴巴托管外包、通用網(wǎng)址注冊(cè)、中文域名注冊(cè)、企業(yè)集團(tuán)郵箱提供等。 已成功實(shí)施:一般性企業(yè)、食品、化妝品、機(jī)械制造、政府、教育、IT、醫(yī)療、法律、 汽貿(mào)、化工、房地產(chǎn)、輕工、外貿(mào)、生產(chǎn)性企業(yè)等多個(gè)行業(yè),客戶超過(guò)800家,我們正努力為更多的客戶進(jìn)行優(yōu)質(zhì)實(shí)用高效的網(wǎng)絡(luò)營(yíng)銷及相關(guān)服務(wù)。 公司堅(jiān)持走專業(yè)化發(fā)展道路,力求在網(wǎng)站建設(shè)推廣方面做得更精、更細(xì)、更好,保證產(chǎn)品的質(zhì)量和客戶的滿意度,公司以為客戶提供最好的網(wǎng)絡(luò)營(yíng)銷服務(wù)為目標(biāo),根據(jù)技術(shù)服務(wù)需要經(jīng)常跟蹤的特點(diǎn),建立了完善的售前售后服務(wù)系統(tǒng)。并根據(jù)客戶的實(shí)際情況,提供全程上門服務(wù),客戶只需要撥打一個(gè)電
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京市房屋租賃合同范本
- 上海公寓出租合同范例
- 供熱合同范例封皮
- 2025年垃圾發(fā)電機(jī)項(xiàng)目可行性研究報(bào)告
- 豫劇樂(lè)隊(duì)伴奏十字訣
- 分期付合同范例
- 刷白合同范本
- 公司車輛洗車合同范本
- 代理辦理抵押合同范本
- 2025年白影貼面板項(xiàng)目投資可行性研究分析報(bào)告
- 防洪防汛安全知識(shí)教育課件
- 一年級(jí)科學(xué)石頭
- 部編人教版八年級(jí)語(yǔ)文下冊(cè)全冊(cè)課件
- 新起點(diǎn)英語(yǔ)二年級(jí)下冊(cè)全冊(cè)教案
- 《紅星照耀中國(guó)》整本書閱讀教學(xué)設(shè)計(jì)-統(tǒng)編版語(yǔ)文八年級(jí)上冊(cè)
- 【幼兒園戶外體育活動(dòng)材料投放的現(xiàn)狀調(diào)查報(bào)告(定量論文)8700字】
- 帶狀皰疹與帶狀皰疹后遺神經(jīng)痛(HZ與PHN)
- JC-T 746-2023 混凝土瓦標(biāo)準(zhǔn)規(guī)范
- 漢密爾頓抑郁和焦慮量表
- 前列腺癌的診斷與治療
- 人教版八年級(jí)數(shù)學(xué)初中數(shù)學(xué)《平行四邊形》單元教材教學(xué)分析
評(píng)論
0/150
提交評(píng)論