版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘概述
IntroductiontoDataMining內(nèi)容提綱數(shù)據(jù)挖掘介紹數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘介紹數(shù)據(jù)挖掘的由來數(shù)據(jù)挖掘的應(yīng)用基本概念區(qū)分?jǐn)?shù)據(jù)挖掘基本內(nèi)容數(shù)據(jù)挖掘基本特征數(shù)據(jù)挖掘的其他主題數(shù)據(jù)挖掘的由來
背景網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識貧乏從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化背景人類已進(jìn)入一個嶄新的信息時代數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇膨脹需要從海量數(shù)據(jù)庫和大量繁雜信息中提取有價值的知識,進(jìn)一步提高信息的利用率產(chǎn)生了一個新的研究方向:基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase),以及相應(yīng)的數(shù)據(jù)挖掘(DataMining)理論和技術(shù)的研究隨著大數(shù)據(jù)庫的建立和海量數(shù)據(jù)的不斷涌現(xiàn),必然提出對強(qiáng)有力的數(shù)據(jù)分析工具的迫切需求。但現(xiàn)實(shí)情況往往是“數(shù)據(jù)十分豐富,而信息相當(dāng)貧乏?!笨焖僭鲩L的海量數(shù)據(jù)收集、存放在大型數(shù)據(jù)庫中,沒有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出人的能力。因此,有人稱之為:“數(shù)據(jù)墳?zāi)埂?。由于專家系統(tǒng)工具過分依賴用戶或?qū)<胰斯さ貙⒅R輸入知識庫中,而且分析結(jié)果往往帶有偏差和錯誤,再加上耗時、費(fèi)用高,故不可行。數(shù)據(jù)礦山信息金塊數(shù)據(jù)挖掘工具網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)大量信息在給人們帶來方便的同時也帶來了一大堆問題:信息過量,難以消化信息真假難以辨識信息安全難以保證信息形式不一致,難以統(tǒng)一處理數(shù)據(jù)爆炸但知識貧乏
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化
進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集
(60年代)“過去五年中我的總收入是多少?”計算機(jī)、磁帶和磁盤IBMCDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問
(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS)結(jié)構(gòu)化查詢語言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫決策支持
(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)多維數(shù)據(jù)庫數(shù)據(jù)倉庫PilotComshareArborCognosMicrostrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘
(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法多處理器計算機(jī)海量數(shù)據(jù)庫PilotLockheedIBMSGI其他初創(chuàng)公司提供預(yù)測性的信息數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學(xué)高性能計算人工智能機(jī)器學(xué)習(xí)可視化數(shù)據(jù)挖掘是多學(xué)科的產(chǎn)物數(shù)據(jù)挖掘的應(yīng)用電信
:流失銀行:聚類(細(xì)分),交叉銷售百貨公司/超市:購物籃分析
(關(guān)聯(lián)規(guī)則)保險:細(xì)分,交叉銷售,流失(原因分析)信用卡:
欺詐探測,細(xì)分電子商務(wù):
網(wǎng)站日志分析稅務(wù)部門:偷漏稅行為探測警察機(jī)關(guān):犯罪行為分析醫(yī)學(xué):
醫(yī)療保健英國電信需要發(fā)布一種新的產(chǎn)品,需要通過直郵的方式向客戶推薦這種產(chǎn)品。。。。。。使直郵的回應(yīng)率提高了100%電信GUS日用品零售商店需要準(zhǔn)確的預(yù)測未來的商品銷售量,降低庫存成本。。。。。。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.8%零售商店美國國內(nèi)稅務(wù)局需要提高對納稅人的服務(wù)水平。。。。。。合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準(zhǔn)確的服務(wù)稅務(wù)局銀行金融事務(wù)需要搜集和處理大量的數(shù)據(jù),由于銀行在金融領(lǐng)域的地位、工作性質(zhì)、業(yè)務(wù)特點(diǎn)以及激烈的市場競爭決定了它對信息化、電子化比其它領(lǐng)域有更迫切的要求。利用數(shù)據(jù)挖掘技術(shù)可以幫助銀行產(chǎn)品開發(fā)部門描述客戶以往的需求趨勢,并預(yù)測未來。美國商業(yè)銀行是發(fā)達(dá)國家商業(yè)銀行的典范,許多地方值得我國學(xué)習(xí)和借鑒。
數(shù)據(jù)挖掘在銀行領(lǐng)域的應(yīng)用美國銀行家協(xié)會(ABA)預(yù)測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在美國商業(yè)銀行的應(yīng)用增長率是14.9%。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關(guān)系優(yōu)化;風(fēng)險控制等Mellon銀行使用數(shù)據(jù)挖掘軟件提高銷售和定價金融產(chǎn)品的精確度,如家庭普通貸款。美國Firstar銀行使用數(shù)據(jù)挖掘工具,根據(jù)客戶的消費(fèi)模式預(yù)測何時為客戶提供何種產(chǎn)品。匯豐銀行需要對不斷增長的客戶群進(jìn)行分類,對每種產(chǎn)品找出最有價值的客戶。。。。。。營銷費(fèi)用減少了30%銀行基本概念區(qū)分?jǐn)?shù)據(jù)挖掘與知識發(fā)現(xiàn)數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)挖掘與信息處理數(shù)據(jù)挖掘與聯(lián)機(jī)分析數(shù)據(jù)挖掘與人工智能、統(tǒng)計學(xué)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)
數(shù)據(jù)挖掘(DataMining)從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與之相似的概念稱為知識發(fā)現(xiàn)。
知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases)是用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后隱藏的知識,稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中。從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時就沒必要再清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)解決了。數(shù)據(jù)源數(shù)據(jù)倉庫各分公司數(shù)據(jù)集市分析數(shù)據(jù)集市數(shù)據(jù)挖掘數(shù)據(jù)集市
數(shù)據(jù)挖掘庫可能是數(shù)據(jù)倉庫的一個邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫。但如果數(shù)據(jù)倉庫的計算資源已經(jīng)很緊張,那么最好還是建立一個單獨(dú)的數(shù)據(jù)挖掘庫。
當(dāng)然為了數(shù)據(jù)挖掘也不必非得建立一個數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不是必需的。建立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個或幾個事務(wù)數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在它上面進(jìn)行數(shù)據(jù)挖掘。
數(shù)據(jù)源數(shù)據(jù)挖掘庫數(shù)據(jù)挖掘與信息處理信息處理 信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數(shù)據(jù)庫中的信息。它們不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。數(shù)據(jù)挖掘與聯(lián)機(jī)分析OLAP分析過程在本質(zhì)上是一個演繹推理的過程,是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么(whathappened),OLAP則更進(jìn)一步告訴你下一步會怎么樣(Whatnext)和如果采取這樣的措施又會怎么樣(Whatif)。用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗(yàn)證這個假設(shè)是否正確。數(shù)據(jù)挖掘在本質(zhì)上是一個歸納推理的過程,與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,OLAP工具能起輔助決策作用。而且在知識發(fā)現(xiàn)的早期階段,OLAP工具用來探索數(shù)據(jù),找到哪些是對一個問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都有助于更好地理解數(shù)據(jù),加快知識發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘與人工智能、統(tǒng)計學(xué)數(shù)據(jù)挖掘利用了人工智能和統(tǒng)計分析的進(jìn)步所帶來的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù)。相反,它是統(tǒng)計分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測的準(zhǔn)確度還是令人滿意的,但對使用者的要求很高。而隨著計算機(jī)計算能力的不斷增強(qiáng),我們有可能利用計算機(jī)強(qiáng)大的計算能力只通過相對簡單和固定的方法完成同樣的功能。一些新興的技術(shù)同樣在知識發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹,在足夠多的數(shù)據(jù)和計算能力下,它們幾乎不需人工干預(yù)就能自動完成許多有價值的功能。數(shù)據(jù)挖掘就是充分利用了統(tǒng)計學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。數(shù)據(jù)挖掘與統(tǒng)計學(xué)數(shù)據(jù)挖掘分析海量數(shù)據(jù)許多數(shù)據(jù)庫都不適合統(tǒng)計學(xué)分析需要數(shù)據(jù)挖掘基本內(nèi)容數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的數(shù)據(jù)來源數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘的過程模型數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的主要問題數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識。與數(shù)據(jù)挖掘類似但稍有不同含義的術(shù)語有:從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KnowledgeDiscoveryfrom/inDatabase,KDD)知識提取(Knowledgeextract)數(shù)據(jù)/模式分析(Data/Modelanalysis)。數(shù)據(jù)考古數(shù)據(jù)捕撈技術(shù)上的定義商業(yè)角度的定義
技術(shù)上的定義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。
數(shù)據(jù)挖掘的定義(續(xù))人們給數(shù)據(jù)挖掘下過很多定義,內(nèi)涵也各不相同,目前公認(rèn)的定義是由Fayyad等人提出的。所謂基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。數(shù)據(jù)挖掘的數(shù)據(jù)來源關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級數(shù)據(jù)庫系統(tǒng)和高級數(shù)據(jù)庫應(yīng)用面向?qū)ο髷?shù)據(jù)庫空間數(shù)據(jù)庫時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫異種數(shù)據(jù)庫WWW數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個反復(fù)迭代的人機(jī)交互處理過程。該過程需要經(jīng)歷多個步驟,并且很多決策需要由用戶提供。
從宏觀上看,數(shù)據(jù)挖掘過程主要由三個部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評估。
(1)定義商業(yè)問題要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。否則,很難得到正確的結(jié)果。(2)建立數(shù)據(jù)挖掘庫
數(shù)據(jù)準(zhǔn)備工作大概要花去整個數(shù)據(jù)挖掘項(xiàng)目的50%-90%的時間和精力。一般來說,直接在公司的數(shù)據(jù)倉庫上進(jìn)行數(shù)據(jù)挖掘是不合適的,最好建立一個獨(dú)立的數(shù)據(jù)集。
建立數(shù)據(jù)挖掘庫可分成如下幾個部分:
a)數(shù)據(jù)收集
b)數(shù)據(jù)描述
c)選擇
d)數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理
e)合并與整合
f)構(gòu)建元數(shù)據(jù)
g)加載數(shù)據(jù)挖掘庫
h)維護(hù)數(shù)據(jù)挖掘庫(3)分析數(shù)據(jù)數(shù)據(jù)分析的目的:是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,并決定是否需要定義導(dǎo)出字段。(4)準(zhǔn)備數(shù)據(jù)這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??煞殖?個部分:a)選擇變量;b)選擇記錄;c)創(chuàng)建新變量;d)轉(zhuǎn)換變量。(5)建立模型對建立模型來說要記住的最重要的事是它是一個反復(fù)的過程。需要仔細(xì)考察不同的模型以判斷哪個模型對你的商業(yè)問題最有用。為了保證得到的模型具有較好的精確度和健壯性,需要一個定義完善的“訓(xùn)練—驗(yàn)證”協(xié)議。有時也稱此協(xié)議為帶指導(dǎo)的學(xué)習(xí)。驗(yàn)證方法主要分為:
a)簡單驗(yàn)證法
b)交叉驗(yàn)證法:首先把原始數(shù)據(jù)隨機(jī)平分成兩份,然后用一部分做訓(xùn)練集另一部分做測試集計算錯誤率,做完之后把兩部分?jǐn)?shù)據(jù)交換再計算一次,得到另一個錯誤率,最后再用所有的數(shù)據(jù)建立一個模型,把上面得到的兩個錯誤率進(jìn)行平均作為最后用所有數(shù)據(jù)建立的模型的錯誤率。
c)自舉法:是另一種評估模型錯誤率的技術(shù)。在數(shù)據(jù)量很小時尤其適用。與交叉驗(yàn)證一樣模型是用所有的數(shù)據(jù)建立。(6)評價和解釋
a)模型驗(yàn)證。模型建立好之后,必須評價其結(jié)果、解釋其價值。從測試集中得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準(zhǔn)確率肯定會變化。更重要的是,準(zhǔn)確度自身并不一定是選擇最好模型的正確評價方法。需要進(jìn)一步了解錯誤的類型和由此帶來的相關(guān)費(fèi)用的多少。
b)外部驗(yàn)證。無論我們用模擬的方法計算出來的模型的準(zhǔn)確率有多高,都不能保證此模型在面對現(xiàn)實(shí)世界中真實(shí)的數(shù)據(jù)時能取得好的效果。經(jīng)驗(yàn)證有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含的各種假定。例如,在建立用戶購買模式的模型時,可能沒有考慮通貨膨脹的影響,但實(shí)施模型時通貨膨脹率突然由3%增加為17%,這顯然會對人們的購買意向產(chǎn)生重大影響,因此再用原來的模型來預(yù)測客戶購買情況必然會出現(xiàn)重大失誤。(7)實(shí)施模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法:第一種方法,是提供給分析人員做參考,由他通過察看和分析這個模型之后提出行動方案建議。比如可以把模型檢測到的聚集、模型中蘊(yùn)含的規(guī)則、或表明模型效果的圖表拿給分析人員看。另一種方法:是把此模型應(yīng)用到不同的數(shù)據(jù)集上。模型可以用來標(biāo)示一個事例的類別,給一項(xiàng)申請打分等。還可以用模型在數(shù)據(jù)庫中選擇符合特定要求的記錄,以用OLAP工具做進(jìn)一步的分析。當(dāng)提交一個復(fù)雜的應(yīng)用時,數(shù)據(jù)挖掘可能只是整個產(chǎn)品的一小部分,雖然可能是最關(guān)鍵的一部分。例如,常常把數(shù)據(jù)挖掘得到的知識與領(lǐng)域?qū)<业闹R結(jié)合起來,然后應(yīng)用到數(shù)據(jù)庫中的數(shù)據(jù)。在欺詐檢測系統(tǒng)中可能既包含了數(shù)據(jù)挖掘發(fā)現(xiàn)的規(guī)律,也有人們在實(shí)踐中早已總結(jié)出的規(guī)律。數(shù)據(jù)挖掘功能
數(shù)據(jù)挖掘任務(wù)有兩類:第一類是描述性挖掘任務(wù):刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性;第二類是預(yù)測性挖掘任務(wù):在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。概念/類描述:特征化和區(qū)分概念/類描述(class/conceptdescription):用匯總的、簡潔的、精確的方式描述每個類和概念。數(shù)據(jù)特征化(datacharacterization):是目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總。其中數(shù)據(jù)特征的輸出形式有:餅圖、條圖、曲線、多維數(shù)據(jù)立方體、多維表等。數(shù)據(jù)區(qū)分(Datadiscrimination):是將目標(biāo)類對象的一般特性與一個或多個對比類對象的一般特性比較。關(guān)聯(lián)分析(1)定義:關(guān)聯(lián)分析(associationanalysis):發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示“屬性—值”頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關(guān)聯(lián)規(guī)則(associationrule):“XY”,即
A1A2
AmB1B2
Bn
關(guān)聯(lián)規(guī)則分為兩類:一類是“多維關(guān)聯(lián)規(guī)則”(multi-dimensionalassociationrule);另一類是“單維關(guān)聯(lián)規(guī)則”(single-dimensionalassociationrule)。(2)實(shí)例
age(x,“20..29”)income(X,“20K..29K”)buys(X,“CD_player”)[support=2%,confidence=60%](1)定義分類(classification):是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象的過程。注:導(dǎo)出模型(或函數(shù))是基于對訓(xùn)練數(shù)據(jù)集(即其類標(biāo)記已知的數(shù)據(jù)對象)的分析。(2)分類模型的導(dǎo)出方式
分類規(guī)則(IF-THEN)、決策樹、數(shù)學(xué)公式、神經(jīng)網(wǎng)絡(luò)等。(3)相關(guān)分析(relevanceanalysis)
一般情況下,相關(guān)分析需要在分類和預(yù)測之前進(jìn)行,它試圖識別對于分類和預(yù)測無用的屬性,且這些屬性應(yīng)被排除。分類和預(yù)測(1)定義聚類(clustering):與分類和預(yù)測不同,它主要分析數(shù)據(jù)對象,而不考慮已知的類標(biāo)記。一般情況下,訓(xùn)練數(shù)據(jù)中不提供類標(biāo)記,因?yàn)椴恢缽暮伍_始。聚類可以用于產(chǎn)生這種標(biāo)記。(2)聚類或分組的原則
“最大化類內(nèi)的相似性、最小化類間的相似性”對象的簇(聚類)的形成辦法為:使得在一個簇中的對象具有很高的相似性,而與其它簇中的對象很不相似。所形成的每個簇可以看作一個對象類,由它可以導(dǎo)出規(guī)則。聚類分析(1)定義孤立點(diǎn)(outlier):數(shù)據(jù)庫中的那些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象。大部分?jǐn)?shù)據(jù)挖掘方法將孤立點(diǎn)視為噪聲或異常而將其丟棄,然而,在一些實(shí)際應(yīng)用中(如欺騙檢測、軍事情報分析等),罕見點(diǎn)事件可能比正常出現(xiàn)的那些更有趣。孤立點(diǎn)數(shù)據(jù)分析稱為孤立點(diǎn)挖掘(outliermining)。(2)孤立點(diǎn)的檢測方法第一種方法:統(tǒng)計試驗(yàn)檢測方法。假定一個數(shù)據(jù)分布或概率模型,并使用距離度量,到其它聚類的距離很大的對象被視為孤立點(diǎn)。第二種方法:基于偏差點(diǎn)方法。通過考察一群對象主要特征上的差別識別孤立點(diǎn)。孤立點(diǎn)分析(1)定義數(shù)據(jù)演變分析(evolutionanalysis):描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。演變分析包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)、分類或聚類,最主要有三種演化分析方法:
a)時間序列數(shù)據(jù)分析
b)序列或周期模式匹配
c)基于類似性的數(shù)據(jù)分析演變分析數(shù)據(jù)挖掘過程模型是確保數(shù)據(jù)挖掘工作順利進(jìn)行的關(guān)鍵。典型的過程模型有:(1)SPSS的5A模型——評估(Assess)、訪問(Access)、分析(Analyze)、行動(Act)、自動化(Automate)。
(2)SAS的SEMMA模型——采樣(Sample)、探索(Explore)、修正(Modify)、建模(Model)、評估(Assess)。
(3)跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)CRISP-DM——目前CRISP-DM仍在建立之中。
(4)此外,TwoCrows公司的數(shù)據(jù)挖掘過程模型,它與正在建立的CRISP-DM有許多相似之處。數(shù)據(jù)挖掘過程模型數(shù)據(jù)挖掘基本特征KDD和數(shù)據(jù)挖掘可以應(yīng)用在很多領(lǐng)域中,它們具有如下一些公共特征:
海量數(shù)據(jù)集數(shù)據(jù)利用非常不足在開發(fā)知識發(fā)現(xiàn)系統(tǒng)時,領(lǐng)域?qū)<覍υ擃I(lǐng)域的熟悉程度至關(guān)重要最終用戶專門知識缺乏
有效的知識發(fā)現(xiàn)系統(tǒng)為使知識發(fā)現(xiàn)系統(tǒng)更加有效,有幾個軟、硬件問題需要強(qiáng)調(diào):
為使數(shù)據(jù)服務(wù)更加詳盡,必須研究基礎(chǔ)的體系結(jié)構(gòu)、算法和數(shù)據(jù)結(jié)構(gòu)。
解決存儲管理中的新問題,開發(fā)有效的存儲機(jī)制。高層次的查詢語言成為重要的研究課題。描述多維對象的可視化工具在知識表示中將起重要作用。數(shù)據(jù)挖掘的發(fā)展趨勢視頻和音頻數(shù)據(jù)挖掘科學(xué)和統(tǒng)計數(shù)據(jù)挖掘數(shù)據(jù)挖掘的應(yīng)用探索可伸縮的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫和Web數(shù)據(jù)庫系統(tǒng)的集成數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化可視化數(shù)據(jù)挖掘復(fù)雜數(shù)據(jù)類型挖掘的方法Web挖掘數(shù)據(jù)挖掘中的隱私保護(hù)與信息安全可視化數(shù)據(jù)挖掘數(shù)據(jù)可視化數(shù)據(jù)挖掘結(jié)果可視化數(shù)據(jù)挖掘處理過程可視化交互式的可視化挖掘數(shù)據(jù)可視化數(shù)據(jù)挖掘結(jié)果可視化數(shù)據(jù)挖掘過程可視化數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘系統(tǒng)如何選擇數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)發(fā)展趨勢數(shù)據(jù)挖掘工具目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有:SAS公司的EnterpriseMinerIBM公司的IntelligentMinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的WarehouseStudioRuleQuestResearch公司的See5還有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。
數(shù)據(jù)挖掘過程步驟步驟名稱
描述
1數(shù)據(jù)倉庫DataWarehouse數(shù)據(jù)倉庫管理用于決策支持的數(shù)據(jù)。在該步驟內(nèi),數(shù)據(jù)從操作型系統(tǒng)以及第三方的數(shù)據(jù)源聚集、清洗、以及轉(zhuǎn)換到數(shù)據(jù)倉庫中,供決策分析使用。
2數(shù)據(jù)挖掘DataMining在這個步驟中,數(shù)據(jù)從數(shù)據(jù)倉庫抽取出來,用來產(chǎn)生預(yù)測模型或者規(guī)則集。該步驟可以自動化。
3預(yù)測模型PredictiveModeling在該步驟內(nèi),為了產(chǎn)生一個優(yōu)化的模型,一個或多個預(yù)測模型被選擇或者聯(lián)合。這些預(yù)測模型可能從數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生,也可能從統(tǒng)計模型中產(chǎn)生,或者通過第三方購買。4預(yù)測記分PredictiveScoring在這個步驟中,選擇的預(yù)測模型對操作型數(shù)據(jù)或者交易數(shù)據(jù)進(jìn)行記分(score)
。
數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)據(jù)挖掘系統(tǒng)實(shí)施策略數(shù)據(jù)挖掘系統(tǒng)接口數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)進(jìn)展數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清洗和集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評價圖形用戶接口知識庫數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:這是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫??梢栽跀?shù)據(jù)上進(jìn)行數(shù)據(jù)清理和集成。數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)。知識庫:這是領(lǐng)域知識,用于指導(dǎo)搜索,或評估結(jié)果模式的興趣度。數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)基本的部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。模式評估模塊:使用興趣度度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上。圖形用戶界面:在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘具體任務(wù)。數(shù)據(jù)挖掘系統(tǒng)實(shí)施策略第一代數(shù)據(jù)挖掘系統(tǒng),直接將需要挖掘的數(shù)據(jù)一次性調(diào)入內(nèi)存,這些系統(tǒng)的成功依賴于團(tuán)隊(duì)和數(shù)據(jù)的質(zhì)量如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,因此第二代數(shù)據(jù)挖掘系統(tǒng)是必須的。不幸的是,目前的數(shù)據(jù)倉庫設(shè)計是方便OLAP操作的,而不是數(shù)據(jù)挖掘應(yīng)用。這意味著真正的第二代數(shù)據(jù)挖掘系統(tǒng)必須使用自己專門的數(shù)據(jù)管理系統(tǒng),作為彌補(bǔ)目前數(shù)據(jù)庫及數(shù)據(jù)倉庫管理系統(tǒng)的缺陷,直到數(shù)據(jù)庫和數(shù)據(jù)倉庫廠商對合適的數(shù)據(jù)挖掘原語提供充分的支持。第二代數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能夠產(chǎn)生PMML或者類似PMML的開放格式,使得挖掘結(jié)果能夠與操作型系統(tǒng)集成。實(shí)施策略(續(xù))如果使用多個預(yù)測模型,或者預(yù)測模型需要經(jīng)常修改,那么應(yīng)該選擇正在出現(xiàn)的第三代數(shù)據(jù)挖掘系統(tǒng),以支持這些功能,當(dāng)然第三代系統(tǒng)也能與數(shù)據(jù)庫或者數(shù)據(jù)倉庫集成。第三代數(shù)據(jù)挖掘系統(tǒng)和預(yù)測模型系統(tǒng)的一個重要的優(yōu)點(diǎn)是由數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生的預(yù)測模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)測模塊相聯(lián)合提供決策支持的功能。
目前在公司的日常營運(yùn)中,移動計算越發(fā)顯得重要,第四代數(shù)據(jù)挖掘系統(tǒng)能夠在這兒起關(guān)鍵的作用。將數(shù)據(jù)挖掘和移動計算相結(jié)合是當(dāng)前的一個研究領(lǐng)域。
第一代
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)培訓(xùn)師的職責(zé)與課程設(shè)計
- 二零二四年度體育場館場地租賃及賽事宣傳推廣合同3篇
- 二零二四年度企業(yè)vi設(shè)計合同6篇
- 二零二四年度原礦粗選車間安全生產(chǎn)責(zé)任保險合同3篇
- 二零二四年度公益項(xiàng)目贊助合同范本6篇
- 二零二四年度企業(yè)員工績效評價與激勵機(jī)制優(yōu)化合同3篇
- 二零二四年度冶金行業(yè)斗式提升機(jī)設(shè)備采購合同3篇帶眉腳
- 二零二四年度協(xié)議離婚財產(chǎn)分配與執(zhí)行監(jiān)督合同3篇
- 二零二四年度企業(yè)運(yùn)營管理優(yōu)化顧問合同3篇
- 二零二四年度內(nèi)控制度專項(xiàng)審計及咨詢服務(wù)合同3篇
- 正大天虹方矩管鍍鋅方矩管材質(zhì)書
- 2024年山東魯商集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 山東省泰安市2022年初中學(xué)業(yè)水平考試生物試題
- 受賄案例心得體會
- 人教A版高中數(shù)學(xué)選擇性必修第一冊第二章直線和圓的方程-經(jīng)典例題及配套練習(xí)題含答案解析
- 圖書館學(xué)基礎(chǔ)簡明教程
- 畢業(yè)設(shè)計(論文)-液體藥品灌裝機(jī)的設(shè)計與制造
- 二年級下冊數(shù)學(xué)教案 -《數(shù)一數(shù)(二)》 北師大版
- 銀行內(nèi)部舉報管理規(guī)定
- 平面幾何強(qiáng)化訓(xùn)練題集:初中分冊數(shù)學(xué)練習(xí)題
- 項(xiàng)目獎金分配獎勵制度和方案完整版
評論
0/150
提交評論