人工智能 數(shù)據(jù)挖掘_第1頁
人工智能 數(shù)據(jù)挖掘_第2頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘技術(shù)綜述摘要:隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。詢、報(bào)表工具無法滿足挖掘這些信息的需求.因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(Data Mining)技術(shù)由和未來發(fā)展所面臨的一些問題。關(guān)鍵字:數(shù)據(jù)挖掘 數(shù)據(jù)挖掘工具 QUEST DBMiner 網(wǎng)站數(shù)據(jù)挖掘 研究方向 應(yīng)用領(lǐng)域1 引言數(shù)據(jù)是知識(shí)的源泉。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識(shí)完全是兩易存儲(chǔ)大量的數(shù)據(jù)流,但現(xiàn)在還沒有一種成熟的技術(shù)幫助我們分析、理解并使數(shù)把專家經(jīng)驗(yàn)知識(shí)經(jīng)過分析、篩選、比較、綜合、再提取出知識(shí)和規(guī)則.然而,由于知識(shí)工程師所擁有知識(shí)的有局

2、限性 ,所以對(duì)于獲得知識(shí)的可信度就應(yīng)該打個(gè)折扣。目前,傳統(tǒng)的知識(shí)獲取技術(shù)面對(duì)巨型數(shù)據(jù)倉(cāng)庫無能為力,數(shù)據(jù)挖掘技術(shù)就應(yīng)運(yùn)而生。前所擁有的數(shù)據(jù)分析工具很難對(duì)數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。目前,在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來越多的關(guān)注,同時(shí),在實(shí)際問題中,大量成功運(yùn)用數(shù)據(jù)挖掘的實(shí)例說明了數(shù)據(jù)挖掘?qū)莆鎏幚?,以?jié)約時(shí)間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。2 數(shù)據(jù)挖掘技術(shù)2。1 數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息

3、的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等 .它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。12.2 數(shù)據(jù)挖掘的過程2。3 數(shù)據(jù)挖掘的工具下面簡(jiǎn)單介紹兩種種數(shù)據(jù)挖掘工具:1。QUESTQUEST 是 IBM 公司 Almaden 研究中心開發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),2有如下特點(diǎn):(1:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類、決策樹分類、遞增式主動(dòng)開采等。(2)各種開采算法具有近似線性(O(n的數(shù)據(jù)庫。)算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。(為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法.2.DBMine

4、rDBMiner是加拿大 SimonFraser 前身是 面向?qū)傩缘亩嗉?jí)概念為基礎(chǔ)發(fā)現(xiàn)各種知識(shí)。DBMiner系統(tǒng)具有如下特色:)能完成多種知識(shí)的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類規(guī)則、演化知識(shí)、偏離知識(shí)等。)綜合了多種數(shù)據(jù)開采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計(jì)分析、逐級(jí)深化發(fā)現(xiàn)多級(jí)規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法.(實(shí)現(xiàn)了基于客戶/服務(wù)器體系結(jié)構(gòu)的 Unix 和 PC(Windows/NT)版本的系統(tǒng).(提出了一種交互式的類 SQL語言數(shù)據(jù)開采查詢語言 DMQL.2.4 數(shù)據(jù)挖掘技術(shù)的任務(wù)數(shù)據(jù)挖掘技術(shù)主要有四種開采任務(wù):(數(shù)據(jù)總結(jié)是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘是從數(shù)據(jù)泛化的角度來討論數(shù)

5、據(jù)總結(jié)。分類發(fā)現(xiàn)這是一項(xiàng)非常重要的任務(wù),分類是運(yùn)用分類器把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),用于對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)。(聚類是把一組個(gè)體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小,而不同類別的個(gè)體間的距離盡可能的大。(4)關(guān)聯(lián)規(guī)則是指事物之間的聯(lián)系具有多大的支持度和可信度 .有意義的關(guān)聯(lián)規(guī)則必須給定兩個(gè)閾值:最小支持度和最小可信度。3 數(shù)據(jù)挖掘未來的研究方向和熱點(diǎn)3.1 數(shù)據(jù)挖掘未來的研究方向在 70 年代所處的地位,迫切需要類似于關(guān)系模式、DBMS 系統(tǒng)和 SQL 查詢語言等掘的研究還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:(1)尋求數(shù)據(jù)挖

6、掘過程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互;會(huì)像 SQL 語言一樣走向形式化和標(biāo)準(zhǔn)化;(3)研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立數(shù)據(jù)挖掘服務(wù)器,并且與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn) WebMining;3或者是結(jié)構(gòu)比較獨(dú)特.為了處理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時(shí)還會(huì)涉及到為處理這些復(fù)雜或獨(dú)特?cái)?shù)據(jù)所做的費(fèi)時(shí)和復(fù)雜數(shù)據(jù)準(zhǔn)備的一些工具和軟件.文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;(6) 交互式發(fā)現(xiàn)和知識(shí)的維護(hù)更新.3.2 數(shù)據(jù)挖掘未來的熱點(diǎn)sitedatami

7、ning)、生物信息或基因(Bioinformatics/genomics)的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘(Textual mining)。下面就以網(wǎng)站數(shù)據(jù)挖掘(Web site data mining)簡(jiǎn)單介紹。3.2。1 分析隨著Web技術(shù)的發(fā)展,各類電子商務(wù)網(wǎng)站風(fēng)起云涌,建立起一個(gè)電子商務(wù)網(wǎng)站并不困難,困難的是如何讓您的電子商務(wù)網(wǎng)站有效益。要想有效益就必須吸引服務(wù)等任何一個(gè)地方都有可能成為吸引客戶、同時(shí)也可能成為失去客戶的因素。而同時(shí)電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客戶的喜好、站,進(jìn)而增加其競(jìng)

8、爭(zhēng)力,幾乎變得勢(shì)在必行。若想在競(jìng)爭(zhēng)中生存進(jìn)而獲勝,就要比您的競(jìng)爭(zhēng)對(duì)手更了解客戶。3。2。2電子商務(wù)網(wǎng)站數(shù)據(jù)挖掘在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來自于兩個(gè)方面:一方面是客表現(xiàn)數(shù)據(jù)中來推測(cè)客戶的背景信息,進(jìn)而再加以利用。有很大一部分來自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別.因而對(duì)電子商務(wù)網(wǎng)站門用于網(wǎng)站挖掘的軟件。4 數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域mining)都是一個(gè)很時(shí)髦的詞,尤其是在如銀行、電信、保險(xiǎn)、交通、零售(如4超級(jí)市場(chǎng))等商業(yè)領(lǐng)域。數(shù)據(jù)挖掘不僅是面向特定數(shù)據(jù)庫的簡(jiǎn)單檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì),分析,綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚

9、至利用已有的數(shù)據(jù)對(duì)未來的活動(dòng)進(jìn)行預(yù)測(cè).4。1在科學(xué)研究中應(yīng)用從科學(xué)研究方法學(xué)的角度看,科學(xué)研究可分為三類:理論科學(xué)、實(shí)驗(yàn)科學(xué)和使用,如觀測(cè)衛(wèi)星、遙感器、DNA分子技術(shù)等,數(shù)據(jù)量非常大,傳統(tǒng)的數(shù)據(jù)分析工具無能為力,因此必須有強(qiáng)大的智能型自動(dòng)數(shù)據(jù)分析工具才行。數(shù)據(jù)挖掘在天文學(xué)上有一個(gè)非常著名的應(yīng)用系統(tǒng):SKICAT (Sky ImageCatalogingandAnalysisTool).它是美國(guó)加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室(即設(shè)計(jì)火星探測(cè)器漫游者號(hào)的實(shí)驗(yàn)室)與天文科學(xué)家合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體的一個(gè)工具。SKICAT既是第一個(gè)獲得相當(dāng)成功的數(shù)據(jù)挖掘應(yīng)用,文學(xué)家已發(fā)現(xiàn)了16個(gè)新的極

10、其遙遠(yuǎn)的類星體,該項(xiàng)發(fā)現(xiàn)能幫助天文工作者更好地研究類星體的形成以及早期宇宙的結(jié)構(gòu)。數(shù)據(jù)挖掘在生物學(xué)上的應(yīng)用主要集中于分子生物學(xué)特別是基因工程的研究上。基因研究中,有一個(gè)著名的國(guó)際性研究課題人類基因組計(jì)劃.據(jù)報(bào)僅僅是第一步,更重要的是對(duì)基因圖進(jìn)行解釋從而發(fā)現(xiàn)各種蛋白質(zhì)(有10,000多列分析方法,尤其是基因數(shù)據(jù)庫搜索技術(shù)己在基因研究上作出了很多重大發(fā)現(xiàn)。4。2在商業(yè)上的應(yīng)用數(shù)據(jù)量在不斷激增。利用數(shù)據(jù)挖掘技術(shù)可以為經(jīng)營(yíng)管理人員提供正確的決策手段,這樣對(duì)促進(jìn)銷售及提高競(jìng)爭(zhēng)力是大有幫助的。4.3在金融上的應(yīng)用在金融領(lǐng)域,數(shù)據(jù)量是非常巨大的,銀行、證券公司等交易數(shù)據(jù)和存儲(chǔ)量都挖掘?qū)蛻粜抛u(yù)進(jìn)行分析。典型

11、的金融分析領(lǐng)域有投資評(píng)估和股票交易市場(chǎng)預(yù)測(cè)。4。4在醫(yī)學(xué)上的應(yīng)用據(jù)挖掘的手段來提高效率和效益。在藥物合成方面,通過對(duì)藥物分子化學(xué)結(jié)構(gòu)的新藥時(shí),可根據(jù)新藥的分子結(jié)構(gòu)確定該藥將有可能治療哪一種病.數(shù)據(jù)挖掘還可用于工業(yè)、農(nóng)業(yè)、交通、電信、軍事、等其它行業(yè)。5系統(tǒng)(中。數(shù)據(jù)挖掘作為決策支持和分析的工具,可以用于構(gòu)造知識(shí)庫。在DBMS中,數(shù)據(jù)挖掘可以用于語義查詢優(yōu)化、完整性約束和不一致檢驗(yàn)等.5 數(shù)據(jù)挖掘面臨的問題和挑戰(zhàn)二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備,三是數(shù)據(jù)挖掘的各種分析算法。數(shù)據(jù)挖掘的分析算法主要來自于以下兩個(gè)方面:統(tǒng)計(jì)分析和人工智能(機(jī)器學(xué)習(xí)、模式識(shí)別等)。數(shù)據(jù)挖掘研究人員和數(shù)據(jù)挖掘軟件供應(yīng)商,

12、在這一方面所何一種數(shù)據(jù)挖掘的算法,不管是統(tǒng)計(jì)分析方法、神經(jīng)元網(wǎng)絡(luò)、各種樹分析方法,解決。即使對(duì)于同一個(gè)商業(yè)問題,可能有多種算法,這個(gè)時(shí)候,也需要評(píng)估對(duì)于這一特定問題和特定數(shù)據(jù)哪一種算法表現(xiàn)好。做數(shù)據(jù)挖掘研究的人,往往把主要的精力用于改進(jìn)現(xiàn)有算法和研究新算法上。人們都知道數(shù)據(jù)準(zhǔn)備是必不可少的一步,但很少有人去真正花時(shí)間和精力去要的作用.數(shù)據(jù)準(zhǔn)備包含很多方面:一是從多種數(shù)據(jù)源去綜合數(shù)據(jù)挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)的綜合性、易用性、數(shù)據(jù)的質(zhì)量和數(shù)據(jù)的時(shí)效性,這有可能要用到數(shù)據(jù)倉(cāng)庫的思想和技術(shù);另一方面就是如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標(biāo),這主要取決于數(shù)據(jù)挖掘者的分析經(jīng)驗(yàn)和工具的方便性。人們通常把數(shù)據(jù)

13、挖掘工具看得過份神秘,認(rèn)為只要有了一個(gè)數(shù)據(jù)挖掘工具,要對(duì)企業(yè)業(yè)務(wù)的深入了解和數(shù)據(jù)分析經(jīng)驗(yàn).一個(gè)企業(yè)要想在未來的市場(chǎng)中具有競(jìng)的意識(shí),數(shù)據(jù)挖掘和數(shù)據(jù)分析就很難發(fā)揮應(yīng)有的作用,很容易走向兩個(gè)極端,一是認(rèn)為數(shù)據(jù)挖掘沒有用處,二是開始認(rèn)為數(shù)據(jù)挖掘是萬能的。如此得到的結(jié)果往往與初始期望相去太遠(yuǎn)。究還不夠成熟,在應(yīng)用上有很大的局限性。正是這些局限性,促使數(shù)據(jù)挖掘技術(shù)進(jìn)一步的發(fā)展:的數(shù)據(jù)通常十分巨大。(2)數(shù)據(jù)丟失問題;因大部分?jǐn)?shù)據(jù)庫不是為知識(shí)發(fā)現(xiàn)而定做的,那么它就有可能會(huì)存在一些重要的數(shù)據(jù)和屬性丟失的問題。只能處理數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)。 KDD 各自獨(dú)立處理分離數(shù)據(jù)庫的工作方式應(yīng)是可協(xié)作的。(5)個(gè)人隱私問題;(6)與其他系統(tǒng)的集成問題.66 結(jié)束語通過各方面資料的查找,理解了基本的數(shù)據(jù)挖掘概念、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)掘領(lǐng)域的。在未來研究的焦點(diǎn),主要介紹電子商務(wù)中網(wǎng)站數(shù)據(jù)挖掘,研究領(lǐng)域方面,主要集中科學(xué)研究、商業(yè)、金融、醫(yī)學(xué)這幾個(gè)領(lǐng)域的介紹.參考文獻(xiàn)1王軍。數(shù)據(jù)挖掘技術(shù)J .計(jì)算機(jī)世界, 19982朱延劭.科學(xué)研究的好幫手J .計(jì)算機(jī)世界, 19983何新貴。人工智能新進(jìn)展M 。北京:清華大學(xué)出版社, 1994.4陳茵,程雁譯MehmedKantardzic

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論