網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘類型與應(yīng)用研究_第1頁
網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘類型與應(yīng)用研究_第2頁
網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘類型與應(yīng)用研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)信息資源的數(shù)據(jù)挖掘類型與應(yīng)用研究隨著internet的飛速開展,網(wǎng)絡(luò)信息資源急劇增長,網(wǎng)絡(luò)信息過載問題日益突出,人們越來越多地關(guān)注如何開發(fā)和利用這些資源。然而,目前中英文搜索引擎均存在查準(zhǔn)率、查全率不高的現(xiàn)象,這種現(xiàn)狀無法適應(yīng)用戶對高質(zhì)量的網(wǎng)絡(luò)信息效勞的需求;同時,電子商務(wù)以及各種網(wǎng)絡(luò)信息效勞迅速興起,原有的網(wǎng)絡(luò)信息處理與組織技術(shù)無法趕上這樣的開展趨勢。網(wǎng)絡(luò)信息挖掘就是在這樣的環(huán)境下應(yīng)運(yùn)而生,并迅速成為網(wǎng)絡(luò)信息檢索、信息效勞領(lǐng)域的熱點之一。網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘不僅包括對網(wǎng)頁內(nèi)容本身的挖掘,也包括其鏈接形式,以及用戶訪問、存娶閱讀、發(fā)布、操作等操作行為、訪問行為所產(chǎn)生的信息的挖掘。有效地研究、

2、挖掘、利用網(wǎng)絡(luò)信息可以增強(qiáng)網(wǎng)站的吸引力,有的放矢地吸引用戶群,更有效地利用網(wǎng)絡(luò)資源。一、網(wǎng)絡(luò)信息資源及其特點網(wǎng)絡(luò)信息資源是指放置在英特網(wǎng)上能滿足人們信息需求的信息集合。網(wǎng)絡(luò)信息資源極其豐富,包羅萬象,其內(nèi)容涉及農(nóng)業(yè)、生物、化學(xué)、數(shù)學(xué)、天文學(xué)、航天、氣象、地理、計算機(jī)、醫(yī)療和保險、歷史、法律、音樂和電影等幾乎所有專業(yè)領(lǐng)域,是知識、信息的宏大集合,是人類的資源寶庫。網(wǎng)絡(luò)信息資源是一種新型數(shù)字化資源,與傳統(tǒng)文獻(xiàn)相比有較大的差異。網(wǎng)絡(luò)信息資源具有一下特點:1、數(shù)量大,類型多傳播范圍廣。網(wǎng)絡(luò)信息類型多樣,有文本、數(shù)據(jù)、圖像、圖形、聲頻、視頻信息、多媒體信息等;內(nèi)容既有高質(zhì)量的信息,也有有害信息和虛假信息

3、,有個人信息也有在政府信息。最為特殊的是各種非正式信息被廣泛消費(fèi)與傳播。2、網(wǎng)絡(luò)信息資源沒有統(tǒng)一的管理機(jī)制,信息平安缺乏保障。黑客攻擊、計算機(jī)病毒和色情泛濫成為網(wǎng)絡(luò)的三大痼疾。為防止有害信息消耗了大量的社會資源。3、網(wǎng)絡(luò)信息資源分布零亂無序,信息更新快,壽命短,管理相對困難。信息發(fā)布自由,來源廣泛,內(nèi)容混雜,質(zhì)量不一,控制也比擬困難。4、以網(wǎng)站為信息活動的單位,以網(wǎng)頁為信息發(fā)布和搜集的單元。5、信息利用程度取決于網(wǎng)站軟硬件的技術(shù)程度和效勞才能,網(wǎng)絡(luò)信息提供方式是以網(wǎng)站為基點并可在網(wǎng)站間靈敏鏈接的信息效勞網(wǎng)。6、網(wǎng)絡(luò)創(chuàng)造了多層次的信息交流形式,全面反響了社會生活的各個領(lǐng)域,形成了百科全書式的知識

4、網(wǎng)絡(luò)和傳播功能。二、數(shù)據(jù)挖掘的語言數(shù)據(jù)挖掘語言有助于數(shù)據(jù)挖掘系統(tǒng)平臺的標(biāo)準(zhǔn)化,推動數(shù)據(jù)挖掘應(yīng)用的開展。數(shù)據(jù)挖掘語言根據(jù)功能和側(cè)重點的不同,可分為三種類型:數(shù)據(jù)挖掘查詢語言、數(shù)據(jù)挖掘建模語言、通用數(shù)據(jù)挖掘語言。一數(shù)據(jù)挖掘查詢語言dql數(shù)據(jù)挖掘查詢語言dql由數(shù)據(jù)挖掘原語組成。數(shù)據(jù)挖掘原語用來定義一個數(shù)據(jù)挖掘任務(wù),通過查詢的方式實現(xiàn)與數(shù)據(jù)挖掘系統(tǒng)通信,獲得所需信息。數(shù)據(jù)挖掘查詢語言dql主要有五種根本的數(shù)據(jù)挖掘原語定義:任務(wù)相關(guān)數(shù)據(jù)原語、被挖掘的知識的種類原語、背景知識原語、興趣度測量原語、被發(fā)現(xiàn)形式的表示和可視化原語。dql是基于這五種數(shù)據(jù)挖掘原語設(shè)計的查詢式語言,類似于sql語言的語法,因此很

5、容易與sql關(guān)系查詢語言集成,很容易從關(guān)系數(shù)據(jù)庫中挖掘知識信息。sql是另一個數(shù)據(jù)挖掘查詢語言,由iielinski和virani提出。它使用了類似于sql的語法和sql原語,為了標(biāo)準(zhǔn)規(guī)那么產(chǎn)生和規(guī)那么選擇,提出了被稱作getrule和seltrule的原語。二數(shù)據(jù)挖掘建模語言pl數(shù)據(jù)挖掘建模語言pl全稱預(yù)言模型標(biāo)記語言preditivedelarkuplanguage,是對數(shù)據(jù)挖掘模型進(jìn)展描繪和定義的語言,使數(shù)據(jù)挖掘系統(tǒng)在模型定義和描繪方面有法可依,各種數(shù)據(jù)挖掘系統(tǒng)可以共享模型,又可以在應(yīng)用程序系統(tǒng)中間嵌套數(shù)據(jù)挖掘模型,不需要單獨開發(fā),就能使數(shù)據(jù)挖掘到達(dá)深度挖掘的目的。預(yù)言模型標(biāo)記語言pl是

6、一種基于xl的數(shù)據(jù)挖掘建模語言,利用xl描繪和存儲數(shù)據(jù)挖掘模型,使用標(biāo)準(zhǔn)的xl解析器對pl解析,可以得到預(yù)計的輸入和輸出數(shù)據(jù)類型。pl2.0主要由:標(biāo)題header、數(shù)據(jù)字典dataditinary、數(shù)據(jù)流datafl、挖掘模型iningshea、數(shù)據(jù)轉(zhuǎn)換derivedvalues、statistis、taxny、nralizatin、預(yù)言模型treedel、naivebayes、generalregressin、regressindel、sequenes、generalstruture、assatinrules、neuralnetrk、enteranddistributinbasedlust

7、ering、模型組合定義enseblesfdels、選擇和結(jié)合模型和模型組合的規(guī)那么rulesfrseletingandbiningdelsandenseblesfdels、異常處理的規(guī)那么rulesfrexeptinhandling等九個局部組成。對于復(fù)雜的數(shù)據(jù)挖掘任務(wù),由多個數(shù)據(jù)源和數(shù)據(jù)挖掘模塊,需要在各個模塊之間交換結(jié)果,預(yù)言模型標(biāo)記語言pl的主要組成局部擁有這種靈敏的模型交換才能和數(shù)據(jù)格式轉(zhuǎn)換才能,并實現(xiàn)模型與數(shù)據(jù)和工具局部別離。因pl是基于xl的數(shù)據(jù)挖掘建模語言,合適局部學(xué)習(xí)、元學(xué)習(xí)、分布式學(xué)習(xí)的數(shù)據(jù)挖掘應(yīng)用程序。三通用數(shù)據(jù)挖掘語言ledbfrd通用數(shù)據(jù)挖掘語言ledbfrd是200

8、0年3月微軟公司推出的一個數(shù)據(jù)挖掘語言,目的是為數(shù)據(jù)挖掘行業(yè)提供一個業(yè)界標(biāo)準(zhǔn)。ledbfrd綜合了數(shù)據(jù)挖掘查詢語言dql和數(shù)據(jù)挖掘建模語言pl的特點,既能定義模型,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)展交互的和特殊的數(shù)據(jù)挖掘,實現(xiàn)了數(shù)據(jù)與模型真正別離。ledbfrd是一種基于sql預(yù)言的協(xié)議,擴(kuò)大了sql語言語法,可以輕松地與關(guān)系型數(shù)據(jù)庫集成,可以將不同的數(shù)據(jù)挖掘算法嵌入數(shù)據(jù)挖掘應(yīng)用程序。ledbfrd為了更接近關(guān)系型數(shù)據(jù)庫構(gòu)造,定義了幾個重要的概念。數(shù)據(jù)挖掘模型datainingdel,d:d像數(shù)據(jù)庫中的關(guān)系表,但是它包含了一些特殊的列,這些列被數(shù)據(jù)挖掘中的數(shù)據(jù)訓(xùn)練和預(yù)言制定使用。d既可以用來創(chuàng)立預(yù)言模型,又可以產(chǎn)生預(yù)言。標(biāo)準(zhǔn)的關(guān)系表用來存儲原始數(shù)據(jù)而d存儲被數(shù)據(jù)挖掘算法發(fā)現(xiàn)的形式,對于從事eb挖掘的開發(fā)人員,d所有的構(gòu)造和內(nèi)容都可以用xl字符串表示。預(yù)言聯(lián)接操作prediatinjinperatin:預(yù)言聯(lián)接操作類似于sql語言中的連接操作,在一個訓(xùn)練好的數(shù)據(jù)挖掘模型和輸入數(shù)據(jù)源之間映射一個連接查詢,將能得到符合需求

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論