


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、個(gè)性化搜索引擎關(guān)鍵技術(shù)及應(yīng)用摘要:網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問(wèn)題的最好方法。本文首先介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu),然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器3個(gè)方面進(jìn)行說(shuō)明,并從個(gè)性化搜索引擎的“個(gè)性化”進(jìn)行探討。關(guān)鍵詞:搜索引擎;搜索器;索引器;個(gè)性化信息過(guò)濾0引言搜索引擎(searchengine是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。隨著WWW信息爆炸式生長(zhǎng)和人們對(duì)搜索引擎關(guān)注點(diǎn)的轉(zhuǎn)變(從如何找到更多的信息轉(zhuǎn)移到如何找
2、到準(zhǔn)確、有用的信息),現(xiàn)有搜索引擎越來(lái)越不能滿足人們的查詢要求,搜索引擎技術(shù)面臨著前所未有的挑戰(zhàn)。這就需要人們不斷鉆研新的快速、高效的搜索引擎。搜索引擎一般由信息搜集系統(tǒng)、索引數(shù)據(jù)庫(kù)、檢索器和用戶接口4個(gè)部分組成:信息搜集系統(tǒng):信息搜集系統(tǒng)又稱為搜索器,即各種搜索引擎的蜘蛛、爬蟲,其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;索引數(shù)據(jù)庫(kù)有時(shí)稱索引器,其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表;檢索器:其功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢索文檔,進(jìn)行相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息;用戶接口:用戶接口即傳統(tǒng)的搜索框,其作用
3、是接納用戶查詢、顯示查詢結(jié)果、提供個(gè)性化查詢項(xiàng)。1搜索引擎的構(gòu)成1.1網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人也稱為“網(wǎng)絡(luò)蜘蛛”(Spider),是一個(gè)功能很強(qiáng)的Web掃描程序。它可以在掃描Web頁(yè)面的同時(shí)檢索其內(nèi)的超鏈接并加入掃描隊(duì)列等待以后掃描。蜘蛛的工作職責(zé)是發(fā)現(xiàn)新的網(wǎng)頁(yè)并收集這些網(wǎng)頁(yè)的快照,然后分析該網(wǎng)頁(yè)。蜘蛛以抓取頁(yè)面為主,比如掃描網(wǎng)頁(yè),所有的搜索引擎都能夠?qū)崿F(xiàn)深層檢索和快速檢索。在深層檢索中,蜘蛛可以查找和掃描網(wǎng)頁(yè)內(nèi)的所有內(nèi)容;在快速檢索中,蜘蛛不遵循深層檢索的規(guī)則,只搜索重要的關(guān)鍵詞部分,而不檢查和掃描網(wǎng)頁(yè)里的所有內(nèi)容。大家都知道網(wǎng)站最重要的是快照時(shí)間,也就是說(shuō)蜘蛛爬行和收錄的網(wǎng)頁(yè)速度越快,就說(shuō)明這
4、個(gè)網(wǎng)站在搜索引擎心中越重要,比如新華網(wǎng)和人民網(wǎng),蜘蛛每小時(shí)爬4次以上,有的網(wǎng)站一個(gè)月也不見(jiàn)得能被蜘蛛爬一次??煺盏淖ト〕潭热Q于網(wǎng)站內(nèi)容的流行度、更新速度與網(wǎng)站域名的新舊。在蜘蛛的爬行規(guī)則中,如果有許多外部鏈接指向這個(gè)網(wǎng)站,那就說(shuō)明這個(gè)網(wǎng)站比較重要,所以抓取這個(gè)網(wǎng)站的頻率很高。當(dāng)然,搜索引擎這樣做也是為了省錢,如果都以同樣的頻率爬行所有網(wǎng)站,這樣需要更多的時(shí)間和成本,才能得到更全面的搜索1.2索引與搜索網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中,如果通過(guò)SQL直接查詢信息速度將會(huì)難以忍受。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放,而且索引需要及時(shí)的更新。用戶輸入搜索條件后搜索程
5、序?qū)⑼ㄟ^(guò)索引數(shù)據(jù)庫(kù)進(jìn)行檢索然后把符合查詢要求的數(shù)據(jù)庫(kù)按照一定的策略進(jìn)行分級(jí)排列并且返回給用戶。1.3Web服務(wù)器客戶一般通過(guò)瀏覽器進(jìn)行查詢,這就需要系統(tǒng)提供Web服務(wù)器并且與索引數(shù)據(jù)庫(kù)進(jìn)行連接??蛻粼跒g覽器中輸入查詢條件,Web服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫(kù)中進(jìn)行查詢、排列然后返回給客戶端。2搜索引擎的分類搜索引擎按其工作方式主要可分為3種,分別是全文搜索引擎(FullTextSearchEngine)、目錄索引類搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine。2.1全文搜索引擎全文索引引擎是名副其實(shí)的搜索引擎,國(guó)外代表有Goog
6、le,國(guó)內(nèi)知名的百度搜索。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主),建立起數(shù)據(jù)庫(kù),并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。根據(jù)搜索結(jié)果來(lái)源的不同,全文搜索引擎可分為兩類:一類擁有自己的網(wǎng)頁(yè)抓取、索引、檢索系統(tǒng)(Indexer),有獨(dú)立的“蜘蛛”(Spider)程序、或爬蟲(Crawler)、或“機(jī)器人”(Robot)程序(這三種稱法意義相同),能自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,女口Lycos搜索引擎。2.2目錄搜索引擎實(shí)際上它們算不上是搜索引擎
7、,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過(guò)于大名鼎鼎的Yahoo。其他著名的還有OpenDirectory(DMOZ)、LookSmart、About等。國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。2.3元搜索引擎元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。3搜索引擎技術(shù)的現(xiàn)狀目前的搜索引擎仍然存在不少的局限性。概括起來(lái)主要有信息丟失、檢索結(jié)果中存在著大量垃圾信息、對(duì)自然語(yǔ)言提問(wèn)沒(méi)有理解能力、對(duì)多媒體內(nèi)容的檢索尚不成熟等等。本文認(rèn)為未來(lái)的搜索引擎應(yīng)考慮這
8、樣幾個(gè)方向:智能化搜索、個(gè)性化搜索、結(jié)構(gòu)化搜索、專業(yè)化搜索和本土化搜索等。4個(gè)性化搜索引擎的關(guān)鍵技術(shù)4.1個(gè)性化信息服務(wù)個(gè)性化信息服務(wù)主要包括兩個(gè)方面的含義:第一、個(gè)性化信息是反映人類個(gè)體特性的一切信息,這些信息包括了這個(gè)個(gè)體所具有的各種屬性的描述;第二、個(gè)性化信息是由人類個(gè)體特性所決定的其對(duì)信息的需求的一種信息組合,也就是由人類個(gè)性對(duì)信息需求的決定關(guān)系而產(chǎn)生的一系列對(duì)個(gè)體有用的信息。4.2Agent技術(shù)Agent的概念由Minsky在其1986年出版的思維的社會(huì)一書中提出。Minsky認(rèn)為社會(huì)中的某些個(gè)體經(jīng)過(guò)協(xié)商之后可求得問(wèn)題的解,這些個(gè)體就是Agent。他還認(rèn)為Agent應(yīng)具有社會(huì)交互性和
9、智能性。從此,Agent的概念便被引入人工智能和計(jì)算機(jī)領(lǐng)域,并迅速成為研究熱點(diǎn)。在分布計(jì)算領(lǐng)域,人們通常把在分布式系統(tǒng)中持續(xù)自主發(fā)揮作用的、具有以下特征的活著的計(jì)算實(shí)體稱為Agent。一般認(rèn)為Agent具有如下特征:自主性、交互性、反應(yīng)性、主動(dòng)性。5結(jié)束語(yǔ)目前,國(guó)人已經(jīng)越來(lái)越關(guān)注中文個(gè)性化搜索引擎的開發(fā),雖然現(xiàn)在已經(jīng)有了一定的基礎(chǔ),但它距離成為一個(gè)成熟的產(chǎn)品,道路還很漫長(zhǎng)。搜索引擎的個(gè)性化服務(wù)使搜索引擎能夠分析檢索者的瀏覽行為來(lái)學(xué)習(xí)檢索者的需求,利用搜索引擎的現(xiàn)有服務(wù),有選擇地為用戶提供個(gè)性化服務(wù),達(dá)到向用戶推送他們真正感興趣的信息。而現(xiàn)在,飛速發(fā)展的智能代理技術(shù)以一種完全不同的方式提供智能化的信息獲取和處理手段,能夠滿足用戶的個(gè)性化需求。因此,搜索引擎的發(fā)展應(yīng)是在實(shí)現(xiàn)個(gè)性化的同時(shí),向智能化服務(wù)的方向發(fā)展。參考文獻(xiàn):1 陳根栓,寇敏,宋文中Web搜索引擎技術(shù)及應(yīng)用J.山西電子技術(shù),2000(6).2 莊毅,黎浩宏.搜索引擎發(fā)展現(xiàn)狀
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 七級(jí)地理測(cè)試題及答案
- 肝功能相關(guān)生化檢驗(yàn)考核試題及答案
- 上海一家人逆市營(yíng)銷案例分享
- 2025年有機(jī)肥料及微生物肥料項(xiàng)目建議書
- 司機(jī)職責(zé)培訓(xùn)
- 高管股權(quán)激勵(lì)行權(quán)協(xié)議書(含稅務(wù)籌劃及分紅條款)
- 文化節(jié)慶活動(dòng)宣傳推廣合同
- 食品安全監(jiān)管維護(hù)補(bǔ)充合同
- 濱海棧道防腐木結(jié)構(gòu)安裝與保養(yǎng)合作協(xié)議
- 生物制藥專利技術(shù)許可與知識(shí)產(chǎn)權(quán)保護(hù)合同
- SketchUp (草圖大師) 基礎(chǔ)培訓(xùn)PPT課件
- 病歷書寫基本規(guī)范12021病歷書寫規(guī)范試題.doc
- 《山東省自然科學(xué)基金資助項(xiàng)目年度進(jìn)展報(bào)告》
- 生命線安裝方案
- 電廠保安人員管理制度
- ge核磁共振機(jī)房專用精密空調(diào)機(jī)技術(shù)要求
- 發(fā)展與教育心理學(xué)個(gè)別差異
- 2022年重慶市建筑安全員A證考試近年真題匯總(含答案解析)
- 新干縣人民醫(yī)院血液透析治療患者告知書
- 沸騰爐的設(shè)計(jì)
- 模數(shù)式公路橋梁伸縮縫安裝施工工法
評(píng)論
0/150
提交評(píng)論