搜索引擎原理與檢索技巧課件_第1頁(yè)
搜索引擎原理與檢索技巧課件_第2頁(yè)
搜索引擎原理與檢索技巧課件_第3頁(yè)
搜索引擎原理與檢索技巧課件_第4頁(yè)
搜索引擎原理與檢索技巧課件_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、搜索引擎原理與檢索技巧搜索引擎的概念搜索引擎: 就是在Internet上執(zhí)行信息搜索的專門站點(diǎn),它們可以對(duì)主頁(yè)進(jìn)行分類與搜索。如果輸入一個(gè)特定的搜索詞,搜索引擎就會(huì)自動(dòng)進(jìn)入索引清單,將所有與搜索詞相匹配的內(nèi)容找出,并顯示一個(gè)指向存放這些信息的連接清單。搜索引擎的分類搜索引擎按其工作方式主要可分為三種:全文搜索引擎(Full Text Search Engine) 如:Google、Baidu、Yahoo、Bing目錄索引類搜索引擎(Search Index/Directory) 如:搜狐、新浪、網(wǎng)易、Yahoo元搜索引擎(Meta Search Engine) 如:全文搜索引擎工作原理全文搜索

2、引擎是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)而建立的數(shù)據(jù)庫(kù)中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。全文搜索引擎都擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用。全文搜索引擎工作原理搜索引擎的自動(dòng)信息搜集功能分兩種。一種是每天24小時(shí)不間斷地,搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù);另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜

3、索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶查詢。由于近年來(lái)搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。全文搜索引擎工作原理當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。全文搜索引擎工作原理

4、關(guān)于網(wǎng)站搜索的更新頻率: 百度搜索可以設(shè)定網(wǎng)站的更新頻率和時(shí)間,一般對(duì)于大網(wǎng)站更新頻度很快,而且會(huì)專門開設(shè)獨(dú)立的爬蟲進(jìn)行跟蹤,不過百度是比較勤奮的,中小網(wǎng)站一般也會(huì)每天更新。因此,如果你希望自己的網(wǎng)站更新得更快,最好是在大型的分類目錄(例如yahoo sina 網(wǎng)易)中有你的鏈接,或者在百度自己的相關(guān)網(wǎng)站中,有你網(wǎng)站的超鏈接,在或者你的網(wǎng)站就在一些大型網(wǎng)站里面,例如大型網(wǎng)站的blog。全文搜索引擎工作原理關(guān)于采集的深度 百度搜索可以定義采集的深度,就是說不見得百度會(huì)檢索你網(wǎng)站的全部?jī)?nèi)容,有可能只索引你的網(wǎng)站的首頁(yè)的內(nèi)容,尤其對(duì)小型網(wǎng)站來(lái)說。關(guān)于對(duì)時(shí)常不通網(wǎng)站的采集 百度對(duì)于網(wǎng)站的通斷是有專門的

5、判斷的,如果一旦發(fā)現(xiàn)某個(gè)網(wǎng)站不通,尤其是一些中小網(wǎng)站,百度將自動(dòng)停止往這些網(wǎng)站派出爬蟲。谷歌搜索排名技術(shù)對(duì)于搜索來(lái)說,谷歌強(qiáng)于百度,主要的原因就是谷歌更加公正,而百度有很多人為的因素(這也符合我國(guó)的國(guó)情),google之所以公正,源于他的排名技術(shù)Page Rank。很多人知道Page Rank,是網(wǎng)站的質(zhì)量等級(jí),越小表示網(wǎng)站越優(yōu)秀。其實(shí)Page Rank是依靠一個(gè)專門的公式計(jì)算出來(lái)的,當(dāng)我們?cè)趃oogle搜索關(guān)鍵詞的時(shí)候,頁(yè)面等級(jí)小的網(wǎng)頁(yè)排序會(huì)越靠前,這個(gè)公式并沒有人工干預(yù),因此公正。Page Rank的最初想法來(lái)自于論文檔案的管理,我們知道每篇論文結(jié)尾都有參考文獻(xiàn),假如某篇文章被不同論文引用

6、了多次,就可以認(rèn)為這篇文章是篇優(yōu)秀的文章。同理,簡(jiǎn)單的說,PageRank 能夠?qū)W(wǎng)頁(yè)的重要性做出客觀的評(píng)價(jià)。PageRank 并不計(jì)算直接鏈接的數(shù)量,而是將從網(wǎng)頁(yè) A 指向網(wǎng)頁(yè) B 的鏈接解釋為由網(wǎng)頁(yè) A 對(duì)網(wǎng)頁(yè) B 所投的一票。這樣,PageRank 會(huì)根據(jù)網(wǎng)頁(yè) B 所收到的投票數(shù)量來(lái)評(píng)估該頁(yè)的重要性。此外,PageRank 還會(huì)評(píng)估每個(gè)投票網(wǎng)頁(yè)的重要性,因?yàn)槟承┚W(wǎng)頁(yè)的投票被認(rèn)為具有較高的價(jià)值,這樣,它所鏈接的網(wǎng)頁(yè)就能獲得較高的價(jià)值。谷歌搜索排名技術(shù)Page Rank的公式這里省略,說說影響Page Rank的主要因素1、指向你的網(wǎng)站的超鏈接數(shù)量(你的網(wǎng)站被別人引用),這個(gè)數(shù)值越大,表示你

7、的網(wǎng)站越重要,通俗的說,就是其它網(wǎng)站是否友情鏈接,或者推薦鏈接到你的網(wǎng)站; 文章來(lái)源 2、超鏈接你的網(wǎng)站的重要程度,意思就是一個(gè)質(zhì)量好的網(wǎng)站有你的網(wǎng)站的超鏈接,說明你的網(wǎng)站也很優(yōu)秀。3、網(wǎng)頁(yè)特定性因素:包括網(wǎng)頁(yè)的內(nèi)容、標(biāo)題及URL等,也就是網(wǎng)頁(yè)的關(guān)鍵詞及位置。目錄索引工作原理目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。目前,搜索引擎與目錄

8、索引有相互融合滲透的趨勢(shì)。目錄索引工作原理與全文搜索引擎相比,目錄索引有許多不同之處。首先,搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。其次,搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。尤其象Sina這樣的超級(jí)索引,登錄更是困難。目錄索引工作原理此外,在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄(Directory)。最后,

9、搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁(yè)中自動(dòng)提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對(duì)其進(jìn)行調(diào)整,當(dāng)然事先是不會(huì)和你商量的。 主要的全文搜索引擎介紹Google(/)Google成立于1997年,幾年間迅速發(fā)展成為世界范圍內(nèi)規(guī)模最大的搜索引擎。Google數(shù)據(jù)庫(kù)現(xiàn)存有42.8億個(gè)Web文件,每天處理的搜索請(qǐng)求已達(dá)2億次,而且這一數(shù)字還在不斷增長(zhǎng)。Google借用Dmoz(/)的分類目錄提供“網(wǎng)頁(yè)目錄”查詢(/dirhp?hl=zh-CN&tab=wd

10、&ie=UTF-8&oe=UTF-8&q=),但默認(rèn)網(wǎng)站排列順序并非按照字母順序,而是根據(jù)網(wǎng)站PageRank的分值高低排列。百度(/) 百度是國(guó)內(nèi)最早的商業(yè)化(早期為其它門戶網(wǎng)站提供搜索服務(wù),現(xiàn)在的競(jìng)價(jià)排名更是日進(jìn)斗金)全文搜索引擎,擁有自己的網(wǎng)絡(luò)機(jī)器人和索引數(shù)據(jù)庫(kù),專注于中文的搜索引擎市場(chǎng),除有網(wǎng)頁(yè)搜索外,百度還有新聞、MP3、圖片等搜索,并在2003年底推出“貼吧”、按地域搜索等功能。檢索技巧分析檢索的主題選擇合適的搜索引擎抽取適當(dāng)?shù)年P(guān)鍵詞正確構(gòu)造檢索式及時(shí)調(diào)整檢索策略分析檢索的主題了解查詢目的和要求,確定需要的 信息類型(全文、文本、圖像、聲音等) 查詢方式(瀏覽、分類檢索、關(guān)鍵詞檢索

11、等) 查詢范圍(全文、網(wǎng)頁(yè)、標(biāo)題、FTP、軟件、外文等) 查詢時(shí)間選擇合適的搜索引擎 要選擇合適的檢索工具時(shí),就要先了解所要使用的搜索引擎GOOGLE 特點(diǎn):有龐大的數(shù)據(jù)庫(kù),提供全面的結(jié)果信息,例如,文章的日期,大小等等??伤阉魉芯W(wǎng)站,快速有效的搜索到自己所需內(nèi)容,是一個(gè)快速、強(qiáng)大的搜索引擎,它具有足夠的響應(yīng)能力來(lái)處理任何極度復(fù)雜的搜索,用戶界面相當(dāng)好。并且具有一定的大寫、名詞識(shí)別能力的快速搜索引擎,它的數(shù)據(jù)庫(kù)是最大的,能找到別的搜索引擎所不能找到的東西。選擇合適的搜索引擎雅虎 Yahoo! 是一個(gè)涵蓋全球120多億網(wǎng)頁(yè)(其中雅虎中國(guó)為12億)的強(qiáng)大數(shù)據(jù)庫(kù),擁有數(shù)十項(xiàng)技術(shù)專利、精準(zhǔn)運(yùn)算能力,

12、支持38種語(yǔ)言,近10,000臺(tái)服務(wù)器,服務(wù)全球50%以上互聯(lián)網(wǎng)用戶的搜索需求。 選擇合適的搜索引擎百度 百度搜索引擎擁有目前世界上最大的中文搜索引擎,總量超過3億頁(yè)以上,并且還在保持快速的增長(zhǎng)。百度搜索引擎具有高準(zhǔn)確性、高查全率、更新快以及服務(wù)穩(wěn)定的特點(diǎn),在中文搜索方面,百度甚至比GOOGLE更勝一籌。選擇合適的搜索引擎搜狐分類目錄 / 50,000主題分類,500,000優(yōu)選網(wǎng)站,人工精選分類 Google 網(wǎng)頁(yè)目錄 /dirhp?hl=zh-CN&tab=wd Google 的網(wǎng)路目錄內(nèi)容是依據(jù)Open Directory,經(jīng)由全球各地的義務(wù)編輯人員精心挑選,再由 Google 著名的網(wǎng)

13、頁(yè)級(jí)別技術(shù)(專利申請(qǐng)中)分析,讓網(wǎng)頁(yè)依照其重要性先后排列出,并透過網(wǎng)頁(yè)介紹里的橫線長(zhǎng)度,來(lái)標(biāo)明此網(wǎng)頁(yè)的重要程度。 網(wǎng)易搜索分類目錄 / 一個(gè)由網(wǎng)上的志愿人員編輯的分類網(wǎng)站目錄。 新浪搜索分類目錄 / 由新浪搜索專業(yè)編輯挑選和分類的網(wǎng)站結(jié)果。 抽取適當(dāng)?shù)年P(guān)鍵詞如何抽取關(guān)鍵詞:使用名詞或物體做關(guān)鍵詞檢索式中使用2-3個(gè)關(guān)鍵詞要注意同義詞、近義詞、相關(guān)詞或同一術(shù)語(yǔ)的不同表達(dá)方式。如,internet、 web 、www 、the net 對(duì)固定短語(yǔ),用“”括起來(lái)進(jìn)行檢索,以提高檢索的精確度。如,“worle wide web”及時(shí)調(diào)整檢索策略擴(kuò)大檢索范圍:檢索結(jié)果為0或太少時(shí),就需要擴(kuò)大檢索范圍使用

14、同義詞、近義詞或相關(guān)詞減少最不重要的概念詞,或使用較普遍的詞,或改用上位詞。利用某些搜索引擎的自動(dòng)擴(kuò)檢功能進(jìn)行相關(guān)檢索。使用多個(gè)搜索引擎。及時(shí)調(diào)整檢索策略縮小檢索范圍:如果得到的檢索結(jié)果太多,或檢索結(jié)果不相關(guān),則需要縮小檢索范圍。使用布爾邏輯使用詞組檢索使用高級(jí)檢索語(yǔ)法布爾邏輯檢索布爾邏輯: 是指適用AND、OR或NOT等運(yùn)算符查找含有某種詞語(yǔ)或特定組配形式的那些網(wǎng)頁(yè)(記錄)。格式:關(guān)鍵詞A AND(空格)關(guān)鍵詞B 例:查找胰島素治療糖尿病 胰島素AND(空格) 糖尿病 布爾邏輯檢索 格式:關(guān)鍵詞A OR(|)關(guān)鍵詞B(|前面必須有空格) 例:查找電腦 電腦 OR(|)計(jì)算機(jī)格式:關(guān)鍵詞A N

15、OT(-)關(guān)鍵詞B(減號(hào)前面必須有空格) 例:查找佳能的產(chǎn)品(相機(jī)除外) 佳能 NOT(-)相機(jī)詞組檢索使用雙引號(hào)(在輸入法半角的狀態(tài)中輸入) 當(dāng)您輸入較長(zhǎng)的查詢?cè)~時(shí),搜索引擎會(huì)依據(jù)查詢?cè)~的字符串做拆字處理。若您需要得到精確、不拆字的搜索結(jié)果,可在查詢?cè)~前后加上雙引號(hào)。 例如:華南師范大學(xué)考研 與 “華南師范大學(xué)考研” 高級(jí)搜索語(yǔ)法Intitle(在GOOGLE中是allintitle) intitle的意思是所有搜索結(jié)果的網(wǎng)頁(yè)的標(biāo)題中都要包含“關(guān)鍵詞A”。 格式:關(guān)鍵詞B intitle:關(guān)鍵詞A(多個(gè)個(gè)關(guān)鍵詞中最重要的詞放此)只適用在百度中 allintitle:關(guān)鍵詞A用于GOOGLE中

16、例:查找有關(guān)溫總理訪日融冰之旅方面的信息 溫家寶 融冰之旅 與intitle:溫家寶融冰之旅 又例:查找圓明園的歷史 由于“圓明園”這個(gè)詞非常關(guān)鍵,如果選擇”圓明園 歷史“這個(gè)搜索式不如選”歷史 intitle:圓明園“(結(jié)果是:在所有標(biāo)題中包含”圓明園“這個(gè)詞的網(wǎng)頁(yè)中尋找出現(xiàn)”歷史“這個(gè)關(guān)鍵詞的結(jié)果)高級(jí)搜索語(yǔ)法Inurl(在GOOGLE中是allinurl) url是Uniform Resource Locator(統(tǒng)一資源定位符)的縮寫,簡(jiǎn)單地說,就是地址欄里的東西。意思是在url中含有關(guān)鍵詞B的網(wǎng)頁(yè)中,尋找關(guān)于關(guān)鍵詞A的信息。格式:關(guān)鍵詞A inurl:關(guān)鍵詞B(關(guān)鍵詞A與inurl之

17、間要用空格隔開) 例:圖書館 inurl:lib高級(jí)搜索語(yǔ)法SITE site是限定在某個(gè)網(wǎng)站內(nèi)搜索關(guān)鍵詞A格式:關(guān)鍵詞A site:(即某個(gè)域名/網(wǎng)站)例:在新浪網(wǎng)中查找有關(guān)融冰之旅的信息 融冰之旅 site:高級(jí)搜索語(yǔ)法FILETYPE filetype 是限定搜索結(jié)果的文件類型?;ヂ?lián)網(wǎng)上,存在大量非網(wǎng)頁(yè)格式的資料,如word文件、pdf文件等。filetype是專門特定格式文件的。格式:關(guān)鍵詞A filetype:文件格式后綴名例:入黨申請(qǐng)書 filetype:doc,搜索結(jié)果全都是word文件。 Google中的其它功能翻譯:T在線文檔處理 :D搜索引擎的發(fā)展趨勢(shì)一個(gè)好的搜索引擎,不僅

18、數(shù)據(jù)庫(kù)容量要大,更新頻率、檢索速度要快,支持對(duì)多語(yǔ)言的搜索,而且隨著數(shù)據(jù)庫(kù)容量的不斷膨脹,還要能從龐大的資料庫(kù)中精確地找到正確的資料搜索引擎的發(fā)展趨勢(shì)提高搜索引擎對(duì)用戶檢索提問的理解。為了提高搜索引擎對(duì)用戶檢索提問的理解,就必須有一個(gè)好的檢索提問語(yǔ)言。為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語(yǔ)言智能答詢。用戶可以輸入簡(jiǎn)單的疑問句,比如“如何能殺死計(jì)算機(jī)中的病毒”,搜索引擎在對(duì)提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇。自然語(yǔ)言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來(lái)講,如果用關(guān)鍵詞查詢,多半人會(huì)用“病毒”

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論