數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文_第1頁
數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文_第2頁
數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文_第3頁
數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文 摘要將數(shù)據(jù)挖掘技術(shù)應(yīng)用到 Web言息檢索中,可以使網(wǎng)絡(luò)信 息檢索更加準(zhǔn)確化和智能化。介紹了 Web數(shù)據(jù)挖掘的概念,分析了 Web數(shù)據(jù)挖掘在 Web信息檢索中的應(yīng)用,最后對 Web信息檢索未來發(fā) 展進(jìn)行了展望。 關(guān)鍵詞數(shù)據(jù)挖掘;Webf言息檢索;搜索引擎P209 文獻(xiàn)標(biāo)志碼 A2096-0603 ( xx)29-0033-01Web現(xiàn)已成為一個(gè)巨大的知識(shí)庫、信息庫,Web信息檢索通過搜 索引擎返回給用戶成千上萬個(gè)檢索到的網(wǎng)頁, 但是滿足用戶檢索要求 的網(wǎng)頁卻鳳毛麟角, 用戶無法在第一時(shí)間得到滿足要求的有價(jià)值信息。 因此,Web言息檢索的精度不能為客戶

2、提供準(zhǔn)而精的檢索信息,需要 檢索精度更高的數(shù)據(jù)挖掘技術(shù)。所謂數(shù)據(jù)挖掘( DataMining )就是從海量的原始數(shù)據(jù)中提取信 息和知識(shí)的過程,這些信息和知識(shí)隱含在原始數(shù)據(jù)中,事先,但是對 用戶來說是很有用的。一般的數(shù)據(jù)挖掘?qū)ο笫墙Y(jié)構(gòu)化數(shù)據(jù),而 Web數(shù)據(jù)挖掘的對象是 非結(jié)構(gòu)化數(shù)據(jù),在現(xiàn)有數(shù)據(jù)挖掘研究成果的基礎(chǔ)上, 運(yùn)用Web數(shù)據(jù)挖 掘技術(shù),可以提高信息檢索的精準(zhǔn)率和有效率,Web信息檢索將會(huì)達(dá)到向一個(gè)新的高度。一、Web數(shù)據(jù)挖掘技術(shù)概述Web 數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù), 是從資源上抽取信息 (或知識(shí)) 的過程,是對Web資源中蘊(yùn)涵的的有潛在應(yīng)用價(jià)值的模式的提取 1。 按挖掘?qū)ο髞矸诸悾赪et

3、的數(shù)據(jù)挖掘分為3大類:基于Web內(nèi)容 的挖掘(WebContentMining)、基于 WEB吉構(gòu)的挖掘(WebStructureMining )、基于 WEE使用的挖掘(WebUsageMinin。(一)基于Web內(nèi)容的挖掘基于Web內(nèi)容的挖掘,是在 Web文檔以及相應(yīng)的 Web文檔描述 中獲取知識(shí)。目前,信息資源是網(wǎng)絡(luò)信息資源的主要組成部分,用戶 直接從網(wǎng)上抓取這些資源,并為之建立索引,從而實(shí)現(xiàn)查詢服務(wù),而 那些被隱藏起來的數(shù)據(jù), 用戶無法進(jìn)行有效的檢索, 這就迫使我們把 這些被隱藏的內(nèi)容 (比如數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù), 由用戶的提問而動(dòng)態(tài) 生成的結(jié)果等)挖掘出來。此外,Web的信息內(nèi)容是由文

4、本、音頻、視頻、圖片等非結(jié)構(gòu)化的數(shù)據(jù),因此基于Web內(nèi)容的挖掘也是一種針 對多媒體數(shù)據(jù)的挖掘 2 。(二)基于Web結(jié)構(gòu)的挖掘基于Web結(jié)構(gòu)的挖掘,主要挖掘 Web潛在的鏈接結(jié)構(gòu)模式,是 從網(wǎng)頁上的相互鏈接和萬維網(wǎng)的整體結(jié)構(gòu)中發(fā)現(xiàn)知識(shí)的過程。 這種模 式主要采用網(wǎng)頁歸類技術(shù),在眾多的網(wǎng)頁中獲得不同網(wǎng)頁間的信息, 比如相似度及關(guān)聯(lián)度。Web結(jié)構(gòu)挖掘主要是幫助用戶找到所需要信息 的權(quán)威站點(diǎn),同時(shí)也會(huì)對 Web信息檢索結(jié)果的排序產(chǎn)生影響。(三)基于Web使用的挖掘基于 Web使用的挖掘,也可以稱之為 WebLogMining, Web日志 挖掘,用戶在進(jìn)行網(wǎng)絡(luò)訪問后,會(huì)留下一些重要的第二手?jǐn)?shù)據(jù),它們

5、 是Web使用挖掘的主要對象,從而分析用戶的網(wǎng)絡(luò)行為提供依據(jù)。二、Web數(shù)據(jù)挖掘在 WebB息檢索中的應(yīng)用(一)對Web言息源進(jìn)行挖掘,形成信息源知識(shí)庫對Web言息源內(nèi)容的挖掘,主要是針對中多媒體數(shù)據(jù)等 Web言 息源的內(nèi)容的特征進(jìn)行挖掘,統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、人工 智能是最常使用的方法,通過抽取、分類、聚類網(wǎng)頁內(nèi)容的特征,形 成信息源知識(shí)庫。對Web言息源結(jié)構(gòu)的挖掘,主要通過相關(guān)算法對 WebM面的超 鏈接關(guān)系、URL地址結(jié)構(gòu)的進(jìn)行挖掘,在 Web勺組織結(jié)構(gòu)和鏈接關(guān)系 中發(fā)現(xiàn)知識(shí)。(二)對Web吉構(gòu)進(jìn)行挖掘,形成權(quán)威網(wǎng)頁 搜索引擎的作用主要有兩個(gè),一是搜索與主題相關(guān)的內(nèi)容,二是篩選高

6、水平的相關(guān)網(wǎng)頁, 就是我們所說的權(quán)威網(wǎng)頁。 第二個(gè)作用尤 其重要,因?yàn)橛脩舾M麄冏钚枰男畔⒛茉谧疃痰臅r(shí)間內(nèi)呈現(xiàn)在 他們面前,而不是浪費(fèi)大量的精力和時(shí)間從大量的檢索結(jié)果中找尋最 需要的信息,采用Web結(jié)構(gòu)挖掘的一些經(jīng)典算法就能很好地識(shí)別出權(quán) 威網(wǎng)頁。(三)對用戶的訪問模式進(jìn)行分析,為用戶提供更加人性化的 服務(wù)用戶在進(jìn)行信息檢索時(shí),會(huì)在網(wǎng)站上留下許多信息,比如檢索 的時(shí)間、檢索詞以及瀏覽了哪些檢索結(jié)果等。 基于Web使用的挖掘可 以對其進(jìn)行分析, 采用各種算法對這些日志展開挖掘, 從而延伸出更 有價(jià)值的內(nèi)容, 形成用戶知識(shí)模型, 并對用戶潛在相同的檢索行為模 式進(jìn)行歸納總結(jié), 對這些模式進(jìn)行系統(tǒng)的研究, 對搜索引擎的檢索效 果進(jìn)行反饋,從而改進(jìn)搜索引擎,讓檢索結(jié)果更加智能化,使單個(gè)用 戶感覺使用Web信息檢索更高效??傊?,隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)挖掘的一個(gè)主要應(yīng)用領(lǐng)域就是Web數(shù)據(jù)挖掘,與 Web言息檢索有著密切的關(guān)系,但是又比 Web言息 檢索有著更高的技術(shù)層次,可以使基于 Web的信息檢索發(fā)展到一個(gè)更 高的水平。參考文獻(xiàn):1 韓家煒

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論