版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于Internet個性化信息檢索技術(shù)的分析與研究摘要隨著internet上的信息量急劇增加,如何使用戶獲得有用的信息已成為信息檢索系統(tǒng)急需解決的問題,個性化的信息檢索是解決目前存在問題的關(guān)鍵。本文對目前的個性化檢索的關(guān)鍵技術(shù)進(jìn)展了分類分析,并討論搜索引擎?zhèn)€性化的開展趨勢。關(guān)鍵詞信息檢索;個性化;agent;挖掘;推送1引言網(wǎng)上信息極度膨脹導(dǎo)致查找信息猶如大海撈針,雖然ggle等優(yōu)秀搜索引擎提供了大量的信息資源,但仍需根據(jù)檢索到的地址信息,按照頁面屏幕的提示向下追蹤。特別是對于那些對專業(yè)信息有迫切需求的專業(yè)人士來說,難以迅速、準(zhǔn)確地獲得有價值的網(wǎng)上信息資源因此用戶迫切希望找到一種可以在信息海洋
2、中自動獲取實用、準(zhǔn)確、精煉的信息的工具。為了改善信息檢索與提供信息的質(zhì)量,就必須實現(xiàn)信息檢索的個性化,下面針對實現(xiàn)信息檢索個性化的關(guān)鍵技術(shù)進(jìn)展分析。2個性化信息檢索關(guān)鍵技術(shù)2.1智能代理agent1-6智能代理又稱智能體,它是在用戶沒有明確詳細(xì)要求的情況下,根據(jù)用戶需要,代替用戶進(jìn)展各種復(fù)雜的工作,如信息查詢、挑選及管理,并能推測用戶的意圖,自主制定、調(diào)整和執(zhí)行工作方案。它使用自動獲得的領(lǐng)域模型(如eb知識、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織構(gòu)造)、用戶模型(如用戶背景、興趣、行為、風(fēng)格)知識進(jìn)展信息搜集、索引、過濾(包括興趣過濾和不良信息過濾),并自動地將用戶感興趣的、對用戶有用的
3、信息提交給用戶。智能代理具有了不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動態(tài)變化的才能,從而提供個性化的效勞。從用戶的角度來看,采用智能代理技術(shù)的應(yīng)用效勞系統(tǒng)在不連續(xù)地為他們工作,用戶只在必要時才需要參與。和傳統(tǒng)網(wǎng)絡(luò)效勞的點擊反響方式比擬,這種方式使用戶大幅度進(jìn)步了網(wǎng)絡(luò)使用的效率。從應(yīng)用的角度來看,智能代理就是能自動執(zhí)行用戶委托的任務(wù)的計算實體,它有著極其廣泛的應(yīng)用,如郵件過濾代理、信息獲取代理、桌面自動代理等。從技術(shù)的角度來看,智能代理是以各種技術(shù)為根底,集合了許多實用的應(yīng)用特性,從而能自動執(zhí)行用戶委托的任務(wù)。智能代理的兩個主要特征是代理的智能性和代理性。智能性是指應(yīng)用系統(tǒng)使用推理、學(xué)習(xí)和其他技術(shù)來分析己
4、提交的或剛提交給它的各種信息和知識的才能。代理性是指一個代理感知其環(huán)境并相應(yīng)動作的才能,這其實就是強調(diào)代理的自治才能和感知才能。智能代理有兩個主要技術(shù)特征:智能性(intelligene)和代理才能(ageny).智能性指應(yīng)用系統(tǒng)使用推理、學(xué)習(xí)和其他技術(shù)來分析解釋它已接觸過的或剛提交給它的各種信息和知識的才能。代理才能指一個代理感知其環(huán)境并相應(yīng)動作的才能。智能代理包括四方面的關(guān)鍵技術(shù):機器技術(shù)(ahinery)、內(nèi)容技術(shù)(ntent)、訪問技術(shù)(aess)、平安技術(shù)(seurity)。機器技術(shù):機器是指各種在人工智能領(lǐng)域中開發(fā)的、支持各種程度智能的引擎。這些引擎包括有:各種形式的推理引擎、學(xué)習(xí)
5、引擎、用戶創(chuàng)立修改規(guī)那么和知識的工具、驗證規(guī)那么集的工具和用于開發(fā)代理之間、代理和用戶之間進(jìn)展協(xié)商和協(xié)作所需策略的工具。機器技術(shù)中的核心是推理機和學(xué)習(xí)機,它們提供了智能代理所需的推理才能和學(xué)習(xí)才能。推理機依賴于外部的事件和外部數(shù)據(jù),通過外部接口輸入而進(jìn)展邏輯推理,從而使代理產(chǎn)生各種可能的行為。學(xué)習(xí)機那么提供了修改規(guī)那么,包括增加新規(guī)那么、修改正期的規(guī)那么、增加新的事實和修改無效的事實、修改信任系數(shù)等。事件是指代理檢測到有新的知識或內(nèi)容,對于代理來說,有新的知識或內(nèi)容出現(xiàn)那么標(biāo)志著代理環(huán)境的改變。事件的定義是由用戶和開發(fā)者來完成的,它可以是一天中的某個特定時間、一封eail的到達(dá)、某個數(shù)據(jù)庫中值
6、的改變或用戶表示的一個新目的和參數(shù)選擇。當(dāng)某一事件發(fā)生時,將激發(fā)相應(yīng)的事件開關(guān)而激活機器中的某個引擎,激活的引擎將根據(jù)輸入的事件信息而決定是否要做出響應(yīng)。在代理中,響應(yīng)是通過對應(yīng)用功能的調(diào)用來完成的,并且每一次響應(yīng)都需要機器和應(yīng)用之間進(jìn)展某種形式的綁定。內(nèi)容技術(shù):指機器用于推理和學(xué)習(xí)的數(shù)據(jù),但它不一定就是知識,它主要包括屬于構(gòu)造化知識的規(guī)那么、語法,大量非構(gòu)造化的通用知識和構(gòu)造化的數(shù)據(jù)。內(nèi)容作為代理系統(tǒng)可以內(nèi)核訪問的系統(tǒng)數(shù)據(jù)也存在于核心中,它提供代理系統(tǒng)工作所需要的各種知識和數(shù)據(jù),同時機器也可以直接對其進(jìn)展更新。內(nèi)容技術(shù)與機器技術(shù)是息息相關(guān)的,它是機器技術(shù)中推理機、學(xué)習(xí)機等引擎的基矗內(nèi)容是指機
7、器用于推理和學(xué)習(xí)的數(shù)據(jù),但它不一定就是知識,它主要包括屬于構(gòu)造化知識的規(guī)那么、語法,大量非構(gòu)造化的通用知識和構(gòu)造化的數(shù)據(jù)。規(guī)那么主要是用戶策略選擇參數(shù)的表達(dá),同時也是對現(xiàn)實世界中知識的可解釋的表示。目前,在人工智能領(lǐng)域中己經(jīng)有一整套知識表示的工具,這些表示工具正是機器技術(shù)中的引擎。語法主要用于支撐代理之間和代理和用戶之間的對話,它的開發(fā)和維護(hù)是通過機器技術(shù)中的策略開發(fā)工具來實現(xiàn)。非構(gòu)造化的通用知識通常是以自由的文本形式存儲,可能也會以一些象htl格式的簡單形式存儲。代理必須對這種自由文本形式的知識進(jìn)展處理,因此代理需要不停的使用過濾工具和自然語言工具來別離出構(gòu)造化的信息。構(gòu)造化數(shù)據(jù)不是一種知識
8、,代理可能需要用戶進(jìn)展引導(dǎo)或進(jìn)展明確的解釋才能知道數(shù)據(jù)的意義。這其實就是使代理可以通過對用戶行為的觀察或其他啟發(fā)進(jìn)展學(xué)習(xí)。訪問技術(shù):訪問是指代理與周圍環(huán)境進(jìn)展交互。代理與周圍環(huán)境的交互可以分為代理應(yīng)用之間的交互與代理和用戶的交互。代理應(yīng)用之間的交互又可分為對本地環(huán)境與遠(yuǎn)程環(huán)境的訪問。通常,對于本地環(huán)境,通過將訪問函數(shù)直接結(jié)合到api中,或通過共享內(nèi)存、數(shù)據(jù)庫和文件系統(tǒng)的方法就可以實現(xiàn)代理對環(huán)境的訪問。而對于遠(yuǎn)程環(huán)境,代理就必需使用分布式技術(shù),如消息機制、遠(yuǎn)程過程調(diào)用和其他標(biāo)準(zhǔn)的協(xié)議來實現(xiàn)對遠(yuǎn)程環(huán)境的訪問。對于代理和用戶之間的交互,可以采用會話式的用戶界面來進(jìn)展會話,通常這種會話式的用戶界面由用
9、戶界面代理來運作。用戶界面代理利用自己已有的一些會話上下文來匹配用戶的輸入。另外一種代理與用戶的交互方式就是代理利用用戶的事件和動作來進(jìn)展響應(yīng)的動作。經(jīng)常采用的方法有:重定向用戶界面、重定向客戶效勞機消息、監(jiān)視eail,監(jiān)測用戶與操作系統(tǒng)之間的交互等。而平安機制是為了實現(xiàn)于外界的平安訪問而設(shè)置。外界是代理的交互對象,應(yīng)包括所需要的原始信息源、用戶、代理所屬的應(yīng)用系統(tǒng)、其他代理系統(tǒng)等。當(dāng)智能代理應(yīng)用于網(wǎng)絡(luò)上,幫助用戶找到、發(fā)現(xiàn)信息,或按照用戶的意愿完成某項簡單的任務(wù)時就被稱為信息代理。信息代理采用各種方式來完成用戶賦予它們的任務(wù),對于搜索引擎,信息代理主要有以下幾種:eb搜索代理(ebsearh
10、agents),采用 協(xié)議跟網(wǎng)絡(luò)效勞器進(jìn)展通信,它主要為大量搜索引擎提供資源,有不同的搜索策略,如深度優(yōu)先、寬度優(yōu)先、引用最多的link優(yōu)先、最短的url優(yōu)先等等;信息過濾代理(infratinfilteringagents),提供個性化報紙、個性化計算機新聞、進(jìn)展郵件過濾、新聞組過濾等,并根據(jù)用戶的描繪,自動下載相關(guān)的主頁;通知代理(ntifiatinagents),假如用戶關(guān)注的url內(nèi)容發(fā)生變化,將通知用戶,假如用戶關(guān)注的其他事件發(fā)生,那么提醒用戶;此外還有提供其他效勞的agent,如提供娛樂方面的效勞、提供各種咨詢效勞、提供分類廣告效勞,介紹工作提供商業(yè)信息效勞等等。用于信息效勞的智能
11、agent主要完成以下功能:導(dǎo)航,即告訴用戶所需要的資源在哪里;解惑,即根據(jù)網(wǎng)上資源答復(fù)用戶關(guān)于特定主題的問題;過濾,即按照用戶指定的條件,從流向用戶的大量信息中挑選符合條件的信息,并以不同級別(全文、詳細(xì)摘要、簡單摘要、標(biāo)題)呈現(xiàn)給用戶;整理,即為用戶把已經(jīng)下載的資源進(jìn)展分門別類的組織;發(fā)現(xiàn),即從大量的公共原始數(shù)據(jù)中挑選和提煉有價值的信息,向有關(guān)用戶發(fā)布。這些都是使信息效勞走向個性化主動效勞不可缺少的功能。目前在此方面己經(jīng)有了一些可以使用的系統(tǒng),但智能化的程度還遠(yuǎn)遠(yuǎn)不夠,且主動有余的過濾缺乏己經(jīng)造成了一些負(fù)面的影響,有待盡快開展更先進(jìn)的人工智能技術(shù)予以解決。2.2網(wǎng)絡(luò)信息挖掘(ebining
12、)技術(shù)7-8網(wǎng)絡(luò)信息挖掘源于數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是指從大量數(shù)據(jù)(如數(shù)據(jù)庫)中提取抽象的、潛在的有用信息的過程,它是數(shù)據(jù)庫中知識發(fā)現(xiàn)kdd的核心,為大量數(shù)據(jù)的利用提供了有效的工具。數(shù)據(jù)挖掘的成功使研究人員將數(shù)據(jù)挖掘技術(shù)用于因特網(wǎng),但是由于上的數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù),故產(chǎn)生了一個新的研究方向網(wǎng)絡(luò)信息挖掘。網(wǎng)絡(luò)信息挖掘,又稱為基于eb的數(shù)據(jù)挖掘,是從大量數(shù)據(jù)中抽取處先前未知的、完好的、可信的、新穎的、有效的信息的高級處理過程。它是在數(shù)據(jù)樣本的根底上,通過歸納學(xué)習(xí)、機器學(xué)習(xí)、統(tǒng)計分析等方法得到數(shù)據(jù)對象間的內(nèi)在特性,據(jù)此采用信息過濾技術(shù)在網(wǎng)絡(luò)中提取用戶感興趣的信息或者更高層次的知識和規(guī)律來做關(guān)鍵的決策。網(wǎng)絡(luò)
13、信息挖掘其實就是對文檔的內(nèi)容、要利用資源的使用以及資源之間的關(guān)系進(jìn)展分析。網(wǎng)絡(luò)信息挖掘分為eb日志挖掘、eb內(nèi)容挖掘、eb構(gòu)造挖掘。詳細(xì)而言,eb日志挖掘是通過分析eb效勞器的日志文件,對用戶訪問eb是效勞器方留下的訪問記錄進(jìn)展挖掘,從中可以得出用戶的訪問形式和訪問興趣,丈站點管理員提供各種利于eb站點改良或可以帶來經(jīng)濟(jì)效益的信息。在個性讓效勞模型中,可以利用日志挖掘來“監(jiān)視用戶的訪問習(xí)慣,進(jìn)展個性化分析處理。eb內(nèi)容挖掘包括eb文本挖掘和多媒體信息挖掘:eb文本(包括text、htl等)挖掘的目的是對頁面信息進(jìn)展聚類、分類和關(guān)聯(lián)分析,以及利用eb文檔進(jìn)展趨勢預(yù)測、分析等;多媒體信息挖掘是對多
14、媒體文檔(包括圖像、聲音、圖片等媒體類型)的挖掘。eb構(gòu)造挖掘是對eb頁面超鏈接關(guān)系、文檔內(nèi)部構(gòu)造、文檔url種的目錄途徑構(gòu)造的挖掘。網(wǎng)絡(luò)信息挖掘技術(shù)有著廣泛的應(yīng)用,尤其是eb的全球普及,使得eb上信息量無比豐富。eb上的信息主要是文檔,一般是半構(gòu)造化或者是純自然語言文本,毫無構(gòu)造,因此eb上的開采發(fā)現(xiàn)需要用到不同于常規(guī)數(shù)據(jù)開采的很多技術(shù)。在使用eb獲取信息的過程中,用戶需要不停地從一個eb站點通過超文本鏈接跳轉(zhuǎn)到另一個站點,這種過程存在一定的普通性,發(fā)現(xiàn)此規(guī)律即是eb用戶訪問形式發(fā)現(xiàn)。理解eb上的用戶訪問形式有這些好處:輔助改良分布式網(wǎng)絡(luò)系統(tǒng)的設(shè)計性能,如在有高度相關(guān)的站點間提供快速有效的訪
15、問通道;能幫助更好地組織設(shè)計eb主頁;幫助改善市場營銷決策,如把廣告放在適當(dāng)?shù)膃b頁上或更好地理解客戶的興趣。這項技術(shù)將給信息檢索領(lǐng)域帶來革命性變化。2.3信息推送技術(shù)9-11目前,人們從網(wǎng)上獲取信息通常采用以下三種形式:信息推送(infratinpush),即由信源將信息主動推送給用戶;信息拉取(infratinpull),即由用戶主動從信源拉取信息;推拉結(jié)合(pushandpull),即在信息獲取過程中既有來自信源的推送也有用戶自身的主動拉取.一、信息推送形式,網(wǎng)上信息的推送主要采用下面幾種方式:1.頻道式推送頻道式網(wǎng)絡(luò)播送技術(shù)是目前網(wǎng)上普遍采用的一種推送方式,它將某些網(wǎng)頁定義為閱讀器中的
16、頻道,用戶可以選擇收看感興趣的、通過網(wǎng)絡(luò)播送的信息。2.郵件式推送用電子郵件方式主動將有關(guān)信息發(fā)布給列表中的用戶。3.網(wǎng)頁式推送在特定網(wǎng)頁上將信息提供應(yīng)感興趣的用戶。4.專用式推送通過機密的點對點通信方式,將指定的信息發(fā)送給專門的用戶。信息推送形式及時性好,應(yīng)用面廣,對用戶沒有技術(shù)上的要求,但信息針對性差,難以滿足用戶的個性化需求。二、信息拉取形式網(wǎng)上的信息拉取技術(shù)是數(shù)據(jù)庫查詢、檢索技術(shù)的擴(kuò)展。在因特網(wǎng)應(yīng)用的早期,人們主要是在網(wǎng)上進(jìn)展遨游和閱讀,如今隨著因特網(wǎng)應(yīng)用的日漸深化,人們愈來愈迫切地希望能從因特網(wǎng)中快速獲取自己所需的特定信息,各種“搜索引擎應(yīng)運而生。目前流行的搜索引擎主要有兩類:1.分
17、類式搜索引擎按網(wǎng)站的目錄分類,對站點、網(wǎng)址及摘要信息進(jìn)展搜索2.全文檢索式搜索引擎提供全文檢索功能,用戶利用關(guān)鍵詞可將與該詞相關(guān)的各個網(wǎng)頁的地址及相應(yīng)的一段全文信息提取出來。信息拉取形式針對性強,能滿足用戶的個性化需求,但及時性差,對用戶要求較高。三、信息推拉形式信息推拉技術(shù)是將信息推送與拉取兩種形式結(jié)合,使二者優(yōu)勢互補。根據(jù)推、拉結(jié)合順序及結(jié)合方式的差異,又分以下四種不同推拉形式:1.推后拉先由信源及時推送公共信息,再由用戶有針對性地拉取個性化信息;2.拉后推根據(jù)用戶拉取的信息,信源進(jìn)一步主動推送與之相關(guān)的信息;3.推中有拉在信息推送過程中,允許用戶隨時中斷并定格在感興趣的網(wǎng)頁上,以拉取更有
18、針對性的信息;4.拉中有推根據(jù)用戶搜索(即拉取)過程中所用的關(guān)鍵字,信源主動推送相關(guān)的最新信息。推送技術(shù),就是根據(jù)用戶的需求,有目的性地按時將用戶感興趣的信息主動發(fā)送到用戶的計算機中,即實現(xiàn)“信息找用戶。在推送技術(shù)問世之前,人們往往利用閱讀器在因特網(wǎng)上搜尋,一方面,面對浩如煙海的信息,很多用戶花費相當(dāng)多時間和費用也難以“拉缺到自己所需要的信息;另一方面,信息發(fā)布者希望將信息及時、主動地發(fā)送到感興趣的用戶計算機中,而不是等著用戶來拉齲推送技術(shù)使效勞器可以自動告訴用戶系統(tǒng)中哪些信息是最新更新,并自動搜集用戶可能發(fā)生興趣的信息。通常,在網(wǎng)絡(luò)效勞器上有專門的推送軟件產(chǎn)品可用來制作欲推送出去的信息內(nèi)容,
19、并播送出去。在客戶端那么利用安裝在個人電腦中的軟件,來接收從網(wǎng)絡(luò)上傳來的信息,并顯示出來。當(dāng)有新的信息需要提交時,“推送軟件會以發(fā)送eail、播放一個聲音、在屏幕上顯示一條消息等方式通知用戶。使用push技術(shù),可以進(jìn)步用戶獲取信息的及時性和有效性。目前有兩種根本的推送技術(shù):自動推送技術(shù)和事件驅(qū)動技術(shù)。自動推送即用戶要求發(fā)送方按照預(yù)先約定的時間和定制提交新的信息。詳細(xì)的實現(xiàn)步驟是:首先用戶提出他們對某個特定的eb站點、某個專題感興趣,或要求自動更新軟件、數(shù)據(jù);其次,信息發(fā)送方根據(jù)用戶的懇求,用推送軟件的應(yīng)用程序到特定或需要的eb站點尋找新的內(nèi)容;假如自最近一次傳送后,又輸入了新的內(nèi)容,該內(nèi)容將被傳送到位于推送應(yīng)用程序“接收器中的“頻道內(nèi);最后用戶可以根據(jù)他們的設(shè)置查看自己定制的新內(nèi)容或新鏈接;這種推送技術(shù)類似于現(xiàn)代情報檢索中比擬流行的定題資料選報效勞。事件驅(qū)動技術(shù)以規(guī)那么為根底,這些規(guī)那么由用戶、推送管理員和發(fā)送方在設(shè)置時預(yù)先建立,可以是駐留在效勞器的關(guān)鍵字過濾器,也可以是針對數(shù)據(jù)庫檢索的相關(guān)規(guī)那么,該數(shù)據(jù)規(guī)定在x發(fā)生的情況下,y必須傳送到z(z可以是用戶、效勞器、存儲設(shè)備、 機或?qū)ず魴C)。根本思想是:推送管理方判斷預(yù)先設(shè)置的規(guī)那么是否發(fā)生,如發(fā)生那么將相關(guān)信息或內(nèi)容提交給用戶。自動推送和事件驅(qū)動技術(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋買賣合同的寫作要點3篇
- 房屋買賣合同版格式版格式樣式3篇
- 數(shù)據(jù)保密合同3篇
- 攪拌站分包合同違約責(zé)任3篇
- 旅游導(dǎo)游計件工資提升服務(wù)質(zhì)量3篇
- 按揭合同補充協(xié)議的制定背景3篇
- 工業(yè)罩棚施工合同3篇
- 房屋買賣委托書怎么寫才有效3篇
- 攝影設(shè)備維護(hù)合同3篇
- 授權(quán)委托書合同范本3篇
- 供應(yīng)商大會品質(zhì)報告課件
- 管道安全檢查表
- 國企落實八項規(guī)定實施細(xì)則
- 留置導(dǎo)尿的護(hù)理指南課件
- 菜品作業(yè)指導(dǎo)書-06
- 《醫(yī)學(xué)統(tǒng)計學(xué)》期末試卷
- 電網(wǎng)側(cè)電化學(xué)集裝箱式儲能電站驗收表
- 昌樂縣鎮(zhèn)區(qū)基準(zhǔn)地價更新修正體系匯編(完整版)資料
- 小學(xué)勞動教育調(diào)查報告
- 電動叉車控制系統(tǒng)詳解帶電路圖
- 微生物原生質(zhì)體融合育種課件
評論
0/150
提交評論