基于行為模式進行網(wǎng)絡(luò)搜索信息過濾_第1頁
基于行為模式進行網(wǎng)絡(luò)搜索信息過濾_第2頁
基于行為模式進行網(wǎng)絡(luò)搜索信息過濾_第3頁
基于行為模式進行網(wǎng)絡(luò)搜索信息過濾_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于行為形式進展網(wǎng)絡(luò)搜索信息過濾基于行為形式進展網(wǎng)絡(luò)搜索信息過濾引言論文聯(lián)盟.Ll.隨著互聯(lián)網(wǎng)普及,網(wǎng)絡(luò)搜索成為一種最陜捷、最有效的信息獲得手段,用戶可以通過登錄網(wǎng)絡(luò)搜索平臺,鍵入查詢關(guān)鍵字搜索和搜集需要的信息。在享受網(wǎng)絡(luò)搜索技術(shù)便利的同時,搜索結(jié)果中的大量垃圾信息也給用戶帶來極大的不便,用戶經(jīng)常需要大量點擊搜索結(jié)果來獲得有效信息。利用行為形式技術(shù),搜索平臺通過對垃圾信息統(tǒng)計出的不同行為特征,對搜索結(jié)果信息進展過濾,來增強信息搜索的準(zhǔn)確率。1網(wǎng)絡(luò)搜索引擎技術(shù)1.1搜索器衡量搜索引擎的一條很重要的標(biāo)準(zhǔn),就是搜索到信息的海量性。為了實現(xiàn)這一條標(biāo)準(zhǔn),通常需要一種強大的搜索器作為支撐,一般稱為為網(wǎng)絡(luò)蜘

2、蛛。網(wǎng)絡(luò)蜘蛛即ebSpider,是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站的某一個頁面開場,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。在抓取網(wǎng)頁的時候,網(wǎng)絡(luò)蜘蛛一般有兩種策略深度優(yōu)先、廣度優(yōu)先。通過內(nèi)容提取技術(shù)獲取網(wǎng)頁上文本信息。1.2搜索結(jié)果中垃圾信息在用戶通過定義的關(guān)鍵字施行信息搜索時,經(jīng)常會獲得大量的搜索結(jié)果,從這些海量信息中提取有效信息經(jīng)常會浪費用戶大量的時間和精力。對于用戶來說,沒有利用價值的信息可以認(rèn)為是無效搜索信息,而在這其中還存在很大一局部由于某些網(wǎng)站為增加點擊率而成心篡改信息產(chǎn)生的垃圾信息。

3、搜索引擎Inkti認(rèn)為是垃圾信息的主要內(nèi)容為:隱藏的、欺騙性的、以及與網(wǎng)頁內(nèi)容不相關(guān)的文字;ETA標(biāo)簽中的內(nèi)容并非網(wǎng)頁內(nèi)容的真實描繪;沒有明確的目的有意設(shè)計重新指向的URL;利用程序使得在搜索結(jié)果中出現(xiàn)大量同樣的網(wǎng)頁;有意設(shè)置讓誤解的鏈接;并不反映網(wǎng)站真實內(nèi)容的入門網(wǎng)頁或者隱藏的網(wǎng)頁;自動產(chǎn)生大量無關(guān)的垃圾鏈接。2行為形式識別技術(shù)施行信息過濾2.1行為形式識別技術(shù)行為形式是從大量實際行為中概括出來作為行為的理論抽象、根本框架或標(biāo)準(zhǔn)。行為形式識別技術(shù)的思想是通過基于對大量信息樣本進展的統(tǒng)計、分析和計算,建立行為形式數(shù)學(xué)模型,利用這種具有極高行為特征的模型,對新的信息進展分析斷定。2.2數(shù)據(jù)挖掘數(shù)

4、據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術(shù)。這些信息是可能有潛在價值的,支持決策,可以為企業(yè)帶來利益,或者為科學(xué)研究尋找打破口。對于垃圾信息行為形式進展信息挖掘,主要是針對相關(guān)EB信息的數(shù)據(jù)挖掘。主要包含EB內(nèi)容挖掘,EB構(gòu)造挖掘,EB用法挖掘。EB內(nèi)容挖掘:針對垃圾信息EB的內(nèi)容、數(shù)據(jù)、文檔發(fā)現(xiàn)共同信息,從資源查詢角度挖掘非構(gòu)造化的文檔。EB構(gòu)造挖掘:eb構(gòu)造挖掘的對象是垃圾信息EB的超連接,即對eb文檔的構(gòu)造進展挖掘。對于給定的eb文檔集合,應(yīng)該可以通過算法發(fā)現(xiàn)他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者附屬關(guān)系,引用文檔對被引用文檔的說明往往更

5、客觀、更概括、更準(zhǔn)確。EB用法挖掘:eb使用記錄挖掘,對垃圾信息EB使用記錄數(shù)據(jù)除了效勞器的日志記錄外還包括代理效勞器日志、閱讀器端日志、注冊信息、用戶會話信息、kie中的信息、用戶查詢、鼠標(biāo)點擊流等一切用戶與站點之間可能的交互記錄。來發(fā)現(xiàn)用戶訪問eb頁面的形式,分析垃圾信息EB的規(guī)律。2.3主元分析它是一種對數(shù)據(jù)進展分析的技術(shù),最重要的應(yīng)用是對原有數(shù)據(jù)進展簡化。正如它的名字主元分析,這種方法可以有效的找出數(shù)據(jù)中最主要的元素和構(gòu)造,去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,提醒隱藏在復(fù)雜數(shù)據(jù)背后的簡單構(gòu)造。它的優(yōu)點是簡單,而且無參數(shù)限制,可以方便的應(yīng)用與各個場合。利用主元分析技術(shù)對于垃圾信息的不同

6、行為形式,利用應(yīng)用線形代數(shù)知識進展科學(xué)求解,最大程度去掉冗余和干擾,找到垃圾信息的主要行為形式。2.4基于行為形式的垃圾過濾模型通過行為形式識別技術(shù)對網(wǎng)絡(luò)搜索結(jié)果中的垃圾信息進展過濾,其思想是對大量垃圾信息樣本進展分析,建立垃圾信息行為特征模型,利用這個特征模型對搜索的結(jié)果信息進展分析、判斷,過濾其中的垃圾信息。整個垃圾信息過濾模型,基于信息知識智能理論指導(dǎo),采用數(shù)據(jù)挖掘方法提取垃圾信息的行為規(guī)那么,從而建立垃圾信息過濾模型。信鼠表示事物狀態(tài)變化方式,知識表示事物狀態(tài)變化規(guī)律,智能表示根據(jù)事物變化規(guī)律指定對未知事物檢測的規(guī)那么。智能模型建立步驟:首先大量搜集不同搜索結(jié)果中包含的垃圾信息;根據(jù)I

7、nkti對垃圾信息定義對搜索的信息進展分類整理,并進展垃圾信息預(yù)處理,通過數(shù)據(jù)格式和內(nèi)容調(diào)整使數(shù)據(jù)更符合數(shù)據(jù)挖掘的需要;根據(jù)數(shù)據(jù)挖掘算法對垃圾信息行為形式進展挖掘;利用主元分析理論,對垃圾信息的行為特征進展計算分析,找到數(shù)據(jù)中最主要的元素和構(gòu)造;將垃圾信息的主要行為進展知識表示;從生成的知識中生成求解問題的策略和規(guī)那么;利用生成的策略和規(guī)那么建立垃圾信鼠過濾模型,從而解決所面對的實際問題。建立模型需要解決的關(guān)鍵問題:垃圾信息的搜集是否全面,能否采集到準(zhǔn)確,真實的數(shù)據(jù)來是研究根底;垃圾信息中得到的數(shù)據(jù)適應(yīng)性,是否能對這一類垃圾信息真實全面反響;對垃圾信息的行為形式進展數(shù)據(jù)挖掘時采用的算法;提取垃

8、圾信息各種行為中的主要元素的方法;對垃圾信息的行為形式特征的分析,產(chǎn)生垃圾信息過濾的規(guī)那么集。3信息過濾系統(tǒng)如圖1所示,為信息過濾系統(tǒng)構(gòu)造圖,在原有的網(wǎng)絡(luò)搜索引擎系統(tǒng)中,通過將文本索引中包含的索引信息發(fā)送給過濾效勞器,通過索引信息中鏈接查詢相關(guān)EB,分析該EB的行為特征,與垃圾信息行為特征庫中不同類型的垃圾信息的行為特征進展比擬,清理掉被斷定為垃圾信息的搜索結(jié)果信息,將正常行為信息存入索引數(shù)據(jù)庫。其中,過濾效勞器需要完成4方面的工作,包括信息采樣、行為解析、特征比擬、信息過濾。信息采樣:提取文本索引中的信息,包括鏈接,文本信息等信息。行為解析:對不同信息進展分析,提取主要行為特征。特征比擬:將

9、不同EB中信息的行為特征與垃圾信息的行為特征進展比校。信息過濾:過濾到與垃圾信息的行為特征一樣的信息。4信息過濾系統(tǒng)的特點進步搜索的準(zhǔn)確性:由于垃圾信息和正常信息在特征上存在很多差異,利用行為形式識別技術(shù)實現(xiàn)信息過濾可進步信息搜索的準(zhǔn)確性。系統(tǒng)部署方便:對于文本索引中的信息,進展信息過濾,不改變原有網(wǎng)絡(luò)搜索引論文聯(lián)盟.Ll.擎構(gòu)造,相對獨立,易于晉級維護。搜索結(jié)果相對公平:由于過濾系統(tǒng)相對獨立,可由第三方開發(fā)商設(shè)計指定,防止網(wǎng)絡(luò)搜索提供商出于自身利益等考慮而為用戶提供的搜索結(jié)果。節(jié)省用戶信息搜索時間:由于垃圾信息減少,節(jié)省了用戶需要大量翻開不同鏈接查詢信息的時間。先進的過濾技術(shù):傳統(tǒng)采用內(nèi)容關(guān)鍵字過濾時,由于某些網(wǎng)站隨意修改關(guān)鍵詞內(nèi)容,這樣原有的詞庫不能找到匹配的關(guān)鍵詞,從而無法過濾垃圾信息,而行為形式識別技術(shù)從垃圾信息的特征行為進展斷定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論