搜索引擎概述_第1頁
搜索引擎概述_第2頁
搜索引擎概述_第3頁
搜索引擎概述_第4頁
搜索引擎概述_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第1章 搜索引擎概述主要內(nèi)容1.1 搜索引擎的概念搜索引擎的概念1.2 搜索引擎的發(fā)展史搜索引擎的發(fā)展史1.3 搜索引擎的分類搜索引擎的分類1.4 搜索引擎的信息檢索模型搜索引擎的信息檢索模型1.5 建立搜索引擎的關(guān)鍵技術(shù)建立搜索引擎的關(guān)鍵技術(shù)1.6中文搜索引擎的發(fā)展趨勢中文搜索引擎的發(fā)展趨勢1.1 1.1 搜索引擎的概念搜索引擎的概念基本知識搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。真正意義上的搜索引擎,通常指的是收集了Internet上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個關(guān)鍵詞的時候,所有在

2、頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。 搜索引擎的原理 可以分為四步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁、建立索引數(shù)據(jù)庫、在索引數(shù)據(jù)庫中搜索排序、對搜索結(jié)果進(jìn)行處理和排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。搜索引擎的原理建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個網(wǎng)頁針對頁面

3、內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。搜索引擎的原理在索引數(shù)據(jù)庫中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已計(jì)算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。搜索引擎的原理對搜索結(jié)果進(jìn)行處理排序所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)信息在索引庫中都有記錄,只需綜合相關(guān)信息和網(wǎng)頁級別形成相關(guān)度數(shù)值,然后進(jìn)行排序,相關(guān)度越高,排名越靠前。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接

4、地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。1.21.2搜索引擎的發(fā)展史搜索引擎的發(fā)展史1994年初,Washington大學(xué)的學(xué)生 Brian Pinkerton 開始了他的小項(xiàng)目 WebCrawler ( Brian Pinkerton Announces the Availability of WebCrawler )。 1994年1月,第一個既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線。除了網(wǎng)站搜索,它還支持Gopher和Telnet搜索。1994年4月,Stanford University的兩名博士生,美籍華人Jerry Yang(楊致

5、遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo!。 1994年7月20日,數(shù)據(jù)量為54000的Lycos正式發(fā)布。除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個在搜索結(jié)果中使用了網(wǎng)頁自動摘要 。Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一個重要的搜索引擎。Infoseek沿襲Yahoo!和Lycos的概念,它具有友善的用戶界面和大量的附加服務(wù),而使它成為一個強(qiáng)勢搜索引擎。 1995年,第一個元搜索引擎出現(xiàn)。用戶只需提交一次搜索請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后

6、提交給多個預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。1995年12月DEC的 AltaVista登場亮相,大量的創(chuàng)新功能使它迅速到達(dá)當(dāng)時搜索引擎的頂峰。AltaVista是第一個支持自然語言搜索的搜索引擎,AltaVista是第一個實(shí)現(xiàn)高級搜索語法的搜索引擎。1995年9月26日,加州伯克利分校CS助教Eric Brewer 、博士生Paul Gauthier創(chuàng)立了Inktomi。 1998年10月之前,Google只是Stanford大學(xué)的一個小項(xiàng)目BackRub。1995年博士生 Larry Page開始學(xué)習(xí)搜索引擎設(shè)計(jì),于1997年9月1

7、5日注冊了的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供 Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。 1999年5月,挪威科技大學(xué)的Fast公司發(fā)布了自己的搜索引擎AllTheWeb。Fast創(chuàng)立的目標(biāo)是做世界上最大和最快的搜索引擎,F(xiàn)ast(Alltheweb)的網(wǎng)頁搜索可利用ODP 自動分類,支持Flash和pdf搜索,支持多語言搜索 北大天網(wǎng)是國家“九五”重點(diǎn)科技攻關(guān)項(xiàng)目“中文編碼和分布式中英文信息發(fā)現(xiàn)”的研究成果,由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),于

8、1997年10月29日正式在CERNet上提供服務(wù)。 2000年1月,前Infoseek資深工程師李彥宏與好友徐勇在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布B搜索引擎Beta版,2001年10月22日正式發(fā)布Baidu搜索引擎,專注于中文搜索。1.3 1.3 搜索引擎的分類搜索引擎的分類搜索引擎按其工作方式主要可分為3種:全文搜索引擎(Full Text Search Engine)目錄索引類搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Engine)。全文搜索引擎通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫

9、中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。 目錄索引搜索引擎目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。 與全文搜索引擎的區(qū)別在于它是由人工建立的,通過“人工方式”將站點(diǎn)進(jìn)行了分類,不像全文搜索引擎那樣,將網(wǎng)站上的所有文章和信息都收錄進(jìn)去,而是首先將該網(wǎng)站劃分到某個分類下,再記錄一些摘要信息。 元搜索引擎元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、D

10、ogpile、Vivisimo等,中文元搜索引擎中具代表性的有北斗搜索。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。1.4 1.4 搜索引擎的信息檢索模型搜索引擎的信息檢索模型布爾邏輯模型布爾邏輯模型 布爾型信息檢索是最簡單的信息檢索模型,用戶利用布爾邏輯關(guān)系構(gòu)造查詢并提交,搜索引擎根據(jù)事先建立的倒排文件確定查詢結(jié)果。標(biāo)準(zhǔn)布爾邏輯模型為二元邏輯,并可用邏輯符“and”、“or”、“not”來組織關(guān)鍵詞表達(dá)式。布爾型信息檢索模型的查全率高,查準(zhǔn)率低。目前大多搜索引擎均使用布爾邏輯檢索模型,查詢結(jié)果一般不進(jìn)行相關(guān)性

11、排序。模糊邏輯模型這種模型在查詢結(jié)果處理中加入模糊邏輯運(yùn)算,將檢索的數(shù)據(jù)庫文檔信息與用戶的查詢要求進(jìn)行模糊邏輯比較,按照相關(guān)的優(yōu)先次序排列查詢結(jié)果。模糊邏輯模型可以克服布爾型信息檢索模型在查詢中其結(jié)果具有無序性的問題。例如,查詢“搜索引擎”,則出現(xiàn)關(guān)鍵詞“搜索引擎”多的文檔將排列在較前的位置上。向量空間模型向量空間模型用檢索項(xiàng)的向量空間來表示用戶的查詢要求和數(shù)據(jù)庫文檔信息。查詢結(jié)果是根據(jù)向量空間的相似性而排列的。向量空間模型可方便地產(chǎn)生有效的查詢結(jié)果,能提供相關(guān)文檔的文摘,并對查詢結(jié)果進(jìn)行分類,為用戶提供準(zhǔn)確的信息。概率模型基于貝葉斯概率論原理的概率模型利用相關(guān)反饋的歸納學(xué)習(xí)方法,獲取匹配函數(shù)

12、,這是一種較復(fù)雜的檢索模型。1.5 1.5 建立搜索引擎的關(guān)鍵技術(shù)建立搜索引擎的關(guān)鍵技術(shù)信息收集和存儲技術(shù)信息收集和存儲技術(shù) 信息收集和存儲一般分為人工和自動兩種方式。人工方式采用傳統(tǒng)信息收集、分類、存儲、組織和檢索的方法。研究人員對網(wǎng)站進(jìn)行調(diào)查、篩選、分類、存儲。由專業(yè)人員手工建立關(guān)鍵字索引,再將索引信息存入計(jì)算機(jī)相應(yīng)的數(shù)據(jù)庫中。自動方式通常是由網(wǎng)絡(luò)機(jī)器人來完成的?!熬W(wǎng)絡(luò)機(jī)器人”是一種自動運(yùn)行的軟件,其功能是搜索因特網(wǎng)上的網(wǎng)站或網(wǎng)頁。 信息預(yù)處理技術(shù)信息預(yù)處理包括信息格式支持與轉(zhuǎn)換以及信息過濾。目前,因特網(wǎng)上的信息發(fā)布格式多種多樣,這就要求搜索引擎支持多種文件格式。從實(shí)際情況看,所有的搜索引

13、擎都支持HTML格式,而對于其他文件格式的支持則不同的搜索引擎有不同的規(guī)定,最多的能支持200多種文件格式。 信息索引技術(shù)信息索引就是創(chuàng)建文檔信息的特征記錄,以使用戶能夠快速地檢索到所需信息。建立索引主要涉及到幾個以下問題: 信息語詞切分和語詞詞法分析 進(jìn)行詞性標(biāo)注及相關(guān)的自然語言處理 建立檢索項(xiàng)索引 檢索結(jié)果處理技術(shù)1.6 1.6 中文搜索引擎的發(fā)展趨勢中文搜索引擎的發(fā)展趨勢中文搜索引擎的發(fā)展趨勢1支持目錄式分類結(jié)構(gòu)和全文檢索支持目錄式分類結(jié)構(gòu)和全文檢索2檢索方法多樣、查找手段完備檢索方法多樣、查找手段完備3不僅提供受控語言檢索,還支持自然語言檢索不僅提供受控語言檢索,還支持自然語言檢索4提

14、供自動換庫檢索提供自動換庫檢索5提供多媒體檢索功能提供多媒體檢索功能6自動識別多種漢字編碼自動識別多種漢字編碼7能夠區(qū)分搜索結(jié)果的相關(guān)性能夠區(qū)分搜索結(jié)果的相關(guān)性8增加服務(wù)功能,提供全方位的信息服務(wù)增加服務(wù)功能,提供全方位的信息服務(wù)1.7 1.7 主要搜索引擎介紹主要搜索引擎介紹谷歌(Google)搜索 1Google的功能與特點(diǎn)的功能與特點(diǎn)(1)界面簡潔(2)資源豐富、內(nèi)容廣泛(3)相關(guān)性高(4)技術(shù)先進(jìn)、搜索結(jié)果精確、排序公正(5)搜索快速(6)使用方便(7)功能齊全谷歌(Google)搜索2Google的檢索方式的檢索方式(1)簡單搜索(2)高級搜索(3)查詢結(jié)果谷歌(Google)搜索3

15、Google的不足的不足(1)其數(shù)據(jù)的更新速度無法進(jìn)一步提高(2)無法搜索動態(tài)生成的網(wǎng)頁(3)中文狀態(tài)下的Google沒有成人內(nèi)容過濾功能(4)目前對中國的用戶還不支持“OR”和“”等符號的使用雅虎(Yahoo!)搜索 Yahoo!的特點(diǎn):(1)界面簡潔。雅虎的網(wǎng)站簡介相當(dāng)簡練、嚴(yán)格,一般用很少的文字做客觀描述,沒有主觀評論和類似于廣告的夸張語言。網(wǎng)站界面友好,并且很人性化。(2)分類目錄準(zhǔn)確、合理。中文 Yahoo!提供了一份規(guī)范、科學(xué)、層次豐富的中文網(wǎng)站分類目錄,并且是通過一大批工程師手工編制的,使得在歸類方面較其他網(wǎng)站更為準(zhǔn)確、合理。雅虎(Yahoo!)搜索(3)數(shù)據(jù)量大,內(nèi)容豐富。(4

16、)反應(yīng)速度快、查準(zhǔn)率高。由于分類是通過計(jì)算機(jī)專家手工完成的,因此所收錄的網(wǎng)頁經(jīng)過篩選和系統(tǒng)組織,質(zhì)量較高,條理性較強(qiáng),檢索結(jié)果接近用戶的信息需求。 (5)功能齊全。Yahoo!提供了不同的查詢功能。用戶可以單擊“目錄”按鈕,進(jìn)入按目錄查詢的方式,在輸入關(guān)鍵詞后,單擊“搜索”按鈕,即刻就會得到全部相關(guān)網(wǎng)站的目錄。百度(baidu)搜索1核心技術(shù):超鏈分析核心技術(shù):超鏈分析超鏈分析技術(shù),是新一代搜索引擎的關(guān)鍵技術(shù),已為世界各大搜索引擎普遍采用。在學(xué)術(shù)界,一篇論文被引用得越多就說明其越好,學(xué)術(shù)價值就越高。超鏈分析就是通過分析鏈接網(wǎng)站的多少來評價被鏈接的網(wǎng)站質(zhì)量,這保證了用戶在百度搜索時,越受用戶歡迎的內(nèi)容排名越靠前。百度(baidu)搜索2搜索速度更大、更新、更快搜索速度更大、更新、更快百度在中文互聯(lián)網(wǎng)中,支持搜索8億中文網(wǎng)頁,是世界上最大的中文搜索引擎。3為中文用戶度身定做為中文用戶度身定做關(guān)鍵詞自動提示:用戶輸入拼音,就能獲得中文關(guān)鍵詞正確提示。中文搜索自動糾錯;如果用戶誤輸入錯別字,可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論