DM 1 概述 數(shù)據(jù)預(yù)處理_第1頁(yè)
DM 1 概述 數(shù)據(jù)預(yù)處理_第2頁(yè)
DM 1 概述 數(shù)據(jù)預(yù)處理_第3頁(yè)
DM 1 概述 數(shù)據(jù)預(yù)處理_第4頁(yè)
DM 1 概述 數(shù)據(jù)預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩121頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘概述Dr.Qingyuan

BaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@1References1.ProceedingsinVLDB,AAAI,IJCAI,SIGMOD/SIGPODS,ICDE/ICDT.2.Jiawei

Han(/~hanj/)3.DBLP(rmatik.uni-trier.de/~ley/db/index.html)4.國(guó)內(nèi)外相關(guān)網(wǎng)站/論壇(1)21世紀(jì)人工智能論壇()(2)www.cs.ualberta.ca/~tszhu/webmining/(3)研學(xué)論壇(/index.html)(4)數(shù)據(jù)挖掘討論組()2數(shù)據(jù)挖掘數(shù)據(jù)挖掘是在數(shù)據(jù)大量積累,數(shù)據(jù)豐富,而知識(shí)貧乏,希望從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的方法。集數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能等技術(shù)形成一個(gè)新學(xué)科可處理雜亂的數(shù)據(jù)、定性和定量混合數(shù)據(jù)、模糊數(shù)據(jù)、不確定數(shù)據(jù)和不完整的的數(shù)據(jù)。機(jī)器學(xué)習(xí)、人工智能用各種方法解決了一些方法問(wèn)題,但實(shí)用性不夠(僅在小數(shù)量數(shù)據(jù)實(shí)驗(yàn)可行)。3

數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系

4數(shù)據(jù)挖掘相關(guān)的領(lǐng)域KDD(知識(shí)發(fā)現(xiàn))機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)統(tǒng)計(jì)學(xué)人工智能模糊邏輯方法和粗糙集方法神經(jīng)元網(wǎng)絡(luò)模式識(shí)別可視技術(shù)5數(shù)據(jù)挖掘希望回答的問(wèn)題信貸中信用評(píng)估、信用卡評(píng)級(jí)、信用卡欺詐銷(xiāo)售一個(gè)產(chǎn)品,廣告、材料的郵寄對(duì)象保留何種客戶、爭(zhēng)取潛在客戶,交叉銷(xiāo)售股票違規(guī)操作、欺詐行為

貨架貨物的擺放國(guó)民經(jīng)濟(jì)各指標(biāo)間的關(guān)系疾病、癥狀、藥物、療效之間的關(guān)系DNA序列的相似分析導(dǎo)致各種疾病的特定基因序列模式6數(shù)據(jù)挖掘發(fā)展歷程從80年代中后期,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的方法、技術(shù)和系統(tǒng),從不同角度、不同領(lǐng)域和不同學(xué)科進(jìn)行了研究和實(shí)踐,主要的學(xué)科有數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。由于知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘日益成熟和廣泛發(fā)展,1989年在美國(guó)底特律召開(kāi)的IJCAI會(huì)議上,召開(kāi)KDDworkshop,1991年MIT出版社出版了一本書(shū)“KnowledgeDiscoveryinDatabases”。7此后KDD和DM成為研究的熱點(diǎn),并有很大發(fā)展和進(jìn)步,1994年召開(kāi)了一個(gè)國(guó)際會(huì)議(KDD94),并于1996年由MIT出版社又出版了一本書(shū)“AdvancesinKnowledgeDiscoveryandDataMining”。1996年出第一本專著,97年有6-7本,2006年有幾百本,中文(翻譯,編著)30本以上,國(guó)外各大學(xué)研究生、大學(xué)生均有數(shù)據(jù)挖掘課程。我國(guó)也陸續(xù)出書(shū),開(kāi)設(shè)課程。數(shù)據(jù)挖掘發(fā)展歷程8從1995年正式召開(kāi)第一次國(guó)際KDD會(huì)議(KDD’95)后,每年召一次。前四次均由美國(guó)AAAI組織,1999年提到ACM,成立了SIGKDD。使KDD學(xué)術(shù)上上了一個(gè)檔次。亞太地區(qū)也緊跟世界潮流,1997年在新加坡召開(kāi)了第一次亞太KDD會(huì)議,其中,1999年4月在北京召開(kāi)了第三屆亞太KDD會(huì)議(PAKDD99)。第五屆PAKDD2001年4月16日在我國(guó)香港召開(kāi)。第十五屆(2011)在深圳召開(kāi)。數(shù)據(jù)挖掘發(fā)展歷程9國(guó)外有許多研究小組和機(jī)構(gòu)。自1998年開(kāi)始,我國(guó)許多單位的研究小組開(kāi)展了KDD的研究與開(kāi)發(fā)工作,我國(guó)各大科研資助項(xiàng)目(如“國(guó)家自然科學(xué)基金”,“973”、“863”、“攻關(guān)”)都設(shè)立了KDD的研究課題。一些企業(yè)也有此類(lèi)項(xiàng)目研制和開(kāi)發(fā)。數(shù)據(jù)挖掘發(fā)展歷程10通用工具(非特定領(lǐng)域)SASEnterpriseMinerMinerSPSSClementineSGIMineSetOracleDarwinIBMIntelligentMinerAngoss

KnowledgeSeeker綜合工具BusinessObjectCognosScenarioDataMining工具、軟件、產(chǎn)品11面向應(yīng)用的工具(特定領(lǐng)域)KD1(重點(diǎn)在零售業(yè))Options&Choise(重點(diǎn)在保險(xiǎn)業(yè))HNC(重點(diǎn)在欺詐行為探查)UnicaModel1(重點(diǎn)在市場(chǎng))IntelligentMiner(數(shù)據(jù)挖掘,文本挖掘)MinesetDBminerBODataMining工具、軟件、產(chǎn)品12有許多預(yù)測(cè)機(jī)構(gòu)都看好數(shù)據(jù)挖掘和KDD技術(shù)。權(quán)威預(yù)測(cè)機(jī)構(gòu)Gartner報(bào)告中列舉了在今后3~5年內(nèi)對(duì)工業(yè)將產(chǎn)生重要影響的五項(xiàng)關(guān)鍵技術(shù),其中KDD和人工智能排名第一。世界有名的GartnerGroup咨詢公司預(yù)計(jì):不久的將來(lái)先進(jìn)大型企業(yè)會(huì)設(shè)置“統(tǒng)一數(shù)據(jù)分析專家”,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘一定會(huì)擴(kuò)展開(kāi)來(lái)!微軟專家也認(rèn)為數(shù)據(jù)挖掘會(huì)成為21世紀(jì)的重要技術(shù)之一,也有研究小組。在中國(guó)微軟研究院有相應(yīng)的研究小組。數(shù)據(jù)挖掘的前景與趨勢(shì)13金融業(yè)(銀行信貸、信用評(píng)估、信用卡等級(jí)、保險(xiǎn)、證卷分析、監(jiān)管、預(yù)警,外匯管理……)電信(各通信公司幾乎都啟動(dòng))商場(chǎng)(客戶分析、貨物擺放、交叉銷(xiāo)售…)地稅(異常發(fā)現(xiàn)…)醫(yī)療(醫(yī)院在HIS基礎(chǔ)上除建立全面的電子病例,就是建立數(shù)據(jù)挖掘系統(tǒng))客戶關(guān)系管理(CRM)國(guó)內(nèi)企業(yè)數(shù)據(jù)挖掘項(xiàng)目14數(shù)據(jù)挖掘概述1.KDD定義、過(guò)程、分類(lèi)2.成功因素3.數(shù)據(jù)挖掘技術(shù)4.數(shù)據(jù)挖掘的方法論5.應(yīng)用情況151KDD定義、過(guò)程、分類(lèi)1/7KDD定義KDD過(guò)程KDD分類(lèi)16KDD

(KnowledgeDiscovery

inDatabase,)定義:2/7

KDD是從數(shù)據(jù)集

中識(shí)別

出有效的、新穎的、潛在有用的,以及最終可理解的

模式的非平凡過(guò)程。數(shù)據(jù)挖掘(DM)是KDD中一個(gè)重要環(huán)節(jié)17數(shù)據(jù)集:是一組事實(shí)F(如關(guān)系數(shù)據(jù)庫(kù)中的記錄);模式:是一個(gè)用語(yǔ)言L來(lái)表示的一個(gè)表達(dá)式E,它可用來(lái)描述數(shù)據(jù)集F的某個(gè)子集FE,E作為一個(gè)模式要求它比對(duì)數(shù)據(jù)子集FE的枚舉要簡(jiǎn)潔(所用的描述信息量要少);過(guò)程:是指KDD是一個(gè)多階段的過(guò)程,包括數(shù)據(jù)準(zhǔn)備、模式搜索、知識(shí)評(píng)價(jià),以及上述過(guò)程的反復(fù)求精;該過(guò)程是非平凡的,是指整個(gè)過(guò)程是自動(dòng)的、智能的(如計(jì)算所有數(shù)據(jù)的總和、平均值都不能算作是一個(gè)KDD過(guò)程);KDD定義3/718有效性:是指發(fā)現(xiàn)的模式應(yīng)用于新的數(shù)據(jù)時(shí)要具有一定的可信度;新穎性:要求發(fā)現(xiàn)的模式應(yīng)該是新的、用戶未知的或未預(yù)料到的;潛在有用性:是指發(fā)現(xiàn)的知識(shí)將來(lái)具有實(shí)際效用,如用戶根據(jù)發(fā)現(xiàn)的知識(shí)進(jìn)行商業(yè)決策可以產(chǎn)生一定的經(jīng)濟(jì)效益;最終可理解性:要求所發(fā)現(xiàn)的模式容易被用戶理解。KDD

定義4/7

19KDD過(guò)程5/7

KDD過(guò)程可分為三個(gè)階段:數(shù)據(jù)準(zhǔn)備(datapreparation)、數(shù)據(jù)挖掘,以及

結(jié)果的解釋評(píng)價(jià)(interpretationandevaluation),如圖所示。

可視化用戶界面

數(shù)據(jù)庫(kù)

目標(biāo)數(shù)據(jù)

預(yù)處理好的數(shù)據(jù)

轉(zhuǎn)換后數(shù)據(jù)挖掘出的知識(shí)

有用的知識(shí)

選擇/抽樣

預(yù)處理

數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)挖掘

解釋評(píng)價(jià)

20過(guò)程6/71.數(shù)據(jù)的選擇與抽樣根據(jù)用戶的需要從數(shù)據(jù)庫(kù)中選擇或抽樣的一部分?jǐn)?shù)據(jù)。2.數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)的過(guò)濾:除噪聲去冗余(2)數(shù)據(jù)的添補(bǔ)3.數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換的主要目的是消減數(shù)據(jù)維數(shù)或維數(shù)縮減4.數(shù)據(jù)挖掘:挖掘方法的使用5.結(jié)果的評(píng)價(jià)(1)可視化表示(2)解釋(3)知識(shí)的使用6.循環(huán)21數(shù)據(jù)挖掘分類(lèi)7/7(1)根據(jù)數(shù)據(jù)挖掘任務(wù)分?jǐn)?shù)據(jù)挖掘有如下幾種:分類(lèi)、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類(lèi)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系(或依賴模型發(fā)現(xiàn))、異常和趨勢(shì)發(fā)現(xiàn)等等。(2)根據(jù)數(shù)據(jù)挖掘的數(shù)據(jù)庫(kù)或數(shù)據(jù)源分?jǐn)?shù)據(jù)挖掘有以下幾種:關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、以及萬(wàn)維網(wǎng)(WWW)。(3)根據(jù)數(shù)據(jù)挖掘所采用的技術(shù)分?jǐn)?shù)據(jù)挖掘可大致分為:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。222.成功因素1/2(1)問(wèn)題的明確(2)一定數(shù)量和質(zhì)量的數(shù)據(jù)(3)領(lǐng)域?qū)<业呐浜?結(jié)果的判斷)(4)合適的方法和算法

(5)決策者的決心232.成功因素2/2

問(wèn)題:1、數(shù)據(jù)數(shù)量與質(zhì)量(積累、選擇、清理)2、解決問(wèn)題不明確3、領(lǐng)域?qū)<覅⑴c不夠4、領(lǐng)導(dǎo)決心不夠(多人投入,少數(shù)人使用)難點(diǎn):1、數(shù)據(jù)量大:紀(jì)錄多、分類(lèi)多、屬性多2、大部分是NP-Hard難解問(wèn)題3、找出方法,多為啟發(fā)式方法243.數(shù)據(jù)挖掘所用的技術(shù)1/11數(shù)據(jù)庫(kù)技術(shù):1、海量數(shù)據(jù)的存儲(chǔ)2、海量數(shù)據(jù)的檢索統(tǒng)計(jì)技術(shù):1、相關(guān)分析;2、回歸分析(多元回歸、自回歸等);3、關(guān)聯(lián)規(guī)則;4、貝葉斯分析(貝葉斯分類(lèi),貝葉斯網(wǎng)絡(luò))

5、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)

6、序列分析、時(shí)間序列分析253.數(shù)據(jù)挖掘所用的技術(shù)2/11機(jī)器學(xué)習(xí)技術(shù):

1、歸納學(xué)習(xí):2、神經(jīng)網(wǎng)絡(luò)3、遺傳算法4、基于示例的學(xué)習(xí)(推理)5、聚類(lèi)數(shù)學(xué)方法:

1、粗糙集(RoughSets)2、模糊邏輯方法;搜索與檢索方法:

1、有效的搜索引擎2、有效的文本(信息)檢索可視化技術(shù)WebMining(網(wǎng)絡(luò)挖掘)

TextMining(文本挖掘)

263.數(shù)據(jù)挖掘技術(shù)3/11數(shù)據(jù)預(yù)處理概念描述關(guān)聯(lián)規(guī)則分類(lèi)與預(yù)測(cè)聚類(lèi)技術(shù)文本挖掘Web挖掘27數(shù)據(jù)預(yù)處理4/11數(shù)據(jù)清理:缺值、噪聲(不是真正的數(shù)據(jù))、數(shù)據(jù)不完整(缺數(shù)據(jù))、數(shù)據(jù)不一致(計(jì)量單位不同,符號(hào)不同,同義詞)、數(shù)據(jù)冗余、孤立點(diǎn)(例外,特殊值)數(shù)據(jù)變換:通過(guò)平滑、聚集、概化、規(guī)范化等將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式數(shù)據(jù)集成:通過(guò)數(shù)據(jù)去重、清理、規(guī)范化,按照要求集合成一個(gè)新的數(shù)據(jù)集。數(shù)據(jù)歸約:通過(guò)各種方法使數(shù)據(jù)集變小,有意義。數(shù)據(jù)離散化:離散化是將連續(xù)屬性值化為標(biāo)號(hào)使取值數(shù)量減少,或用一個(gè)區(qū)間代替區(qū)間內(nèi)所有可能的值,雖然離散化失去了細(xì)節(jié)值,但可使概念更清晰。28②概念描述5/11從數(shù)據(jù)分析角度看,數(shù)據(jù)挖掘分描述式數(shù)據(jù)挖掘和預(yù)測(cè)式數(shù)據(jù)挖掘。描述式DM:以簡(jiǎn)潔概要方式描述數(shù)據(jù),并給出數(shù)據(jù)的一般性質(zhì)。預(yù)測(cè)式DM:分析數(shù)據(jù),建立一個(gè)或一組模型,預(yù)測(cè)新數(shù)據(jù)行為。概念描述是描述式DM的最基本形式,它以簡(jiǎn)潔匯總的形式描述給定的任務(wù)相關(guān)數(shù)據(jù)集。概念(類(lèi))描述由特征化和比較(區(qū)分)組成。特征化給出數(shù)據(jù)匯集的簡(jiǎn)潔匯總,有基于立方體的OLAP方法和面向?qū)傩缘臍w納方法。對(duì)比給出兩個(gè)或多個(gè)數(shù)據(jù)匯集的比較,是對(duì)兩組可比較的類(lèi)進(jìn)行概化和特征描述,然后進(jìn)行比較。29③關(guān)聯(lián)規(guī)則6/11通過(guò)各種方法找出一些事物與另一些事物的關(guān)聯(lián),這種關(guān)聯(lián)有一定支持度和一定可信度。如:年收入20萬(wàn),年齡30-40,無(wú)房=>

購(gòu)買(mǎi)汽車(chē),購(gòu)買(mǎi)房子(s=10,c=70)購(gòu)買(mǎi)鞋,蘭球=>

運(yùn)動(dòng)衣,牛奶(s=5,c=50)

X=>Y(s,c)30④分類(lèi)與預(yù)測(cè)7/11用特定的方法把一些數(shù)據(jù)對(duì)象歸于預(yù)先設(shè)定的某一類(lèi),或預(yù)測(cè)某對(duì)象的未來(lái)值或趨勢(shì)。這些特定方法是通過(guò)對(duì)樣本數(shù)據(jù)的學(xué)習(xí)得到模型或函數(shù),樣本數(shù)據(jù)的類(lèi)是給定的。分類(lèi)是有指導(dǎo)的學(xué)習(xí)。分類(lèi)方法有:決策樹(shù),人工神經(jīng)網(wǎng)絡(luò),k-近鄰,貝葉斯方法,案例推理,遺傳算法,粗糙集方法,模糊方法。預(yù)測(cè)方法有:回歸方法(線性,非線性,二元或多元回歸)。31⑤聚類(lèi)技術(shù)8/11按照對(duì)象的特點(diǎn)進(jìn)行歸類(lèi),歸類(lèi)的過(guò)程稱聚類(lèi),得到的類(lèi),稱簇,簇內(nèi)對(duì)象相似性大,簇間相異性大。聚類(lèi)過(guò)程不需要訓(xùn)練,即不需要樣例,是無(wú)指導(dǎo)的學(xué)習(xí)。聚類(lèi)的方法有:分劃方法,分層方法,基于密度方法基于網(wǎng)格方法基于模型方法孤立點(diǎn)分析32⑥文本挖掘9/11對(duì)文本文本分類(lèi)文本摘要文本信息抽取文本特征抽取文本學(xué)習(xí)模型文本自動(dòng)分類(lèi)系統(tǒng)文本自動(dòng)摘要系統(tǒng)對(duì)中文文本分類(lèi):分詞問(wèn)題33⑦Web挖掘10/11基于內(nèi)容挖掘(WebContentsMining)信息過(guò)濾、網(wǎng)頁(yè)分類(lèi)、信息抽取(InformationExtraction)基于結(jié)構(gòu)挖掘(WebStructureMining)確定一個(gè)網(wǎng)絡(luò)范圍、模式集成/匹配基于使用挖掘(WebUsageMining)個(gè)性化服務(wù):信息推薦、用戶行為分析/預(yù)測(cè)文本挖掘是Web挖掘的基礎(chǔ)。34WebContentMiningWebcontentminingdescribestheautomaticsearchofinformationresourceavailableonline,andinvolvesminingwebdatacontents.TheaimistofindtheknowledgefromtheunstructureddataresidinginWebdocuments.TheWebdocumentusuallycontainsseveraltypesofdata,suchastext,image,audio,video,metadataandhyperlinks.Theyareeithersemi-structured,orunstructuredtextdata.35WebStructureMiningThegoalofWebstructureminingistogeneratestructuralsummaryabouttheWebsiteandWebpageandtodiscoverthelinkstructureofthehyperlinksattheinter-documentlevel.Webstructureminingcanalsohaveanotherdirection–discoveringthestructureofWebdocumentitself.Thistypeofstructureminingcanbeusedtorevealthestructure(schema)ofWebpages,thiswouldbegoodfornavigationpurposeandmakeitpossibletointegrateWebpageschemes.36WebUsageMiningWebusageminingtriestodiscoverytheusefulinformationfromthesecondarydataderivedfromtheinteractionsoftheuserswhilesurfingontheWeb.ItfocusesonthetechniquesthatcouldpredictuserbehaviorwhiletheuserinteractswithWeb.Predictionoftheuser’sbehaviorwithinthesite;AdjustmentoftheWebsitetotheinterestsofitsusers.373.數(shù)據(jù)挖掘技術(shù)11/11數(shù)據(jù)挖掘技術(shù)的應(yīng)用同一方法可解決不同問(wèn)題同一問(wèn)題可用不同方法解決多種方法的結(jié)合、融合(多策略方法)38

4數(shù)據(jù)挖掘的方法論1/9目前比較流行的數(shù)據(jù)挖掘方法論1.NCR,SPSS等大公司提出的CRISP-DM(CrossIndustryStandardProcessforDataMining)方法論。2.SAS提出的SEMMA(Sample,Explore,Modify,ModelAccess)方法論3.IBM提出的通用數(shù)據(jù)挖掘方法(Thegenericdataminingmethod)歸納為:KDD的5(6,7)大步驟39CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn))1999年CRISP-DM報(bào)告給出下列步驟:

(1)BusinessUnderstanding(2)DataUnderstanding(3)DataPreparation(4)Modeling(5)Evaluation(6)Deployment這是許多KDD開(kāi)發(fā)者遵循的準(zhǔn)則之一.40(1)BusinessUnderstanding

企務(wù)問(wèn)題理解在數(shù)據(jù)挖掘之前收集與該項(xiàng)目有關(guān)的信息,確定數(shù)據(jù)挖掘要解決那類(lèi)問(wèn)題。資源的評(píng)估:硬件、軟件資源、數(shù)據(jù)資源、人力資源(管理人員、業(yè)務(wù)人員、技術(shù)人員)數(shù)據(jù)評(píng)估:數(shù)據(jù)數(shù)量、數(shù)據(jù)質(zhì)量項(xiàng)目成功估計(jì)、成功后的效益、相應(yīng)人員(分析、維護(hù))的增加。41如:一個(gè)電信領(lǐng)域的數(shù)據(jù)挖掘項(xiàng)目問(wèn)題可為:一些優(yōu)質(zhì)客戶有什么特征?哪些是不良客戶,他們有什么特征?在欠費(fèi)客戶中,哪些是惡意的欠費(fèi)?哪些是善意的欠費(fèi)?哪些客戶可能會(huì)有最好的潛力?通過(guò)什么樣的標(biāo)準(zhǔn)來(lái)細(xì)分客戶?如何來(lái)衡量客戶帶來(lái)的價(jià)值?哪些是高價(jià)值客戶?如何去保住他們。保住一個(gè)客戶比爭(zhēng)取一個(gè)客戶將花較小的代價(jià)。42(2)DataUnderstanding理解數(shù)據(jù)

從哪里進(jìn)行數(shù)據(jù)的收集數(shù)據(jù)來(lái)源有那些各數(shù)據(jù)源數(shù)據(jù)描述:格式、含義數(shù)據(jù)質(zhì)量外來(lái)數(shù)據(jù)有那些對(duì)數(shù)據(jù)的含義一定要有深刻的理解才有可能從中找出(挖掘)規(guī)律和知識(shí)。43(3)DataPreparation準(zhǔn)備數(shù)據(jù)數(shù)據(jù)選擇數(shù)據(jù)清理數(shù)據(jù)重構(gòu)數(shù)據(jù)整合規(guī)格化:定出范圍標(biāo)準(zhǔn)化:解決不一致數(shù)據(jù)準(zhǔn)備會(huì)占用整個(gè)項(xiàng)目50%以上時(shí)間44(4)Modeling建立模型

各種數(shù)據(jù)挖掘方法數(shù)據(jù)匯總概念描述關(guān)聯(lián)規(guī)則相關(guān)分析分類(lèi)與預(yù)測(cè)聚類(lèi)45挖掘結(jié)果(獲得知識(shí)的)評(píng)估挖掘過(guò)程的評(píng)估來(lái)決定是否要反復(fù),KDD是迭代過(guò)程(6)Deployment方案實(shí)施發(fā)布挖掘結(jié)果(獲得知識(shí)的)評(píng)估決定實(shí)施計(jì)劃(5)Evaluation方案評(píng)估

46CRISP-DM各階段占用時(shí)間和重要性

(取自數(shù)據(jù)倉(cāng)庫(kù)及其在電信領(lǐng)域中的應(yīng)用段云峰等著)1%10%方案實(shí)施2%10%建立模型和模型評(píng)估15%50%數(shù)據(jù)準(zhǔn)備3%20%數(shù)據(jù)理解79%10%問(wèn)題理解占項(xiàng)目成功的重要性花費(fèi)時(shí)間47

5.應(yīng)用市場(chǎng)分析、預(yù)測(cè)和管理行銷(xiāo)策略、客戶關(guān)系管理(CRM)、購(gòu)貨籃分析、市場(chǎng)分割風(fēng)險(xiǎn)分析、預(yù)測(cè)和管理風(fēng)險(xiǎn)預(yù)報(bào)、客戶挽留、改進(jìn)的保險(xiǎn)業(yè)、質(zhì)量控制、競(jìng)爭(zhēng)分析欺詐檢測(cè)和管理證券違規(guī)操作、稅務(wù)偷漏、瞞報(bào)、信用卡欺詐行為判斷信用評(píng)估銀行信貸評(píng)估、信用卡評(píng)估485應(yīng)用宏觀經(jīng)濟(jì)(經(jīng)濟(jì)指標(biāo)之間關(guān)聯(lián),經(jīng)濟(jì)指標(biāo)的預(yù)測(cè)、預(yù)警)電信金融情報(bào)(文本挖掘、新聞組、電子郵件、文檔)DNA數(shù)據(jù)分析醫(yī)療診斷中藥配伍規(guī)律零售業(yè)科學(xué)(天氣預(yù)報(bào)、災(zāi)難預(yù)測(cè)…)495應(yīng)用情況

銀行17%生物/基因8%E商務(wù)/Web15%欺詐檢測(cè)8%保險(xiǎn)6%投資/股票4%藥品5%零售業(yè)6%科學(xué)數(shù)據(jù)8%電信11%其他11%50經(jīng)常使用的數(shù)據(jù)挖掘工具調(diào)查51從技術(shù)看數(shù)據(jù)挖掘使用技術(shù)情況[784votestotal](Feb2005)

DecisionTrees/Rules(107)決策樹(shù)

14%Clustering(101)聚類(lèi)

13%Regression(90)回歸

11%Statistics(80)統(tǒng)計(jì)

10%Visualization(63)可視化

8%NeuralNets(61)神經(jīng)網(wǎng)絡(luò)

8%Associationrules(54)關(guān)聯(lián)規(guī)則

7%NearestNeighbor(34)最近鄰

4%SVM(Supportvectormachine)(31)支持向量機(jī)

4%Bayesian(30)貝葉斯

4%Sequence/Timeseriesanalysis(26)序列/時(shí)間序列分析

3%Boosting(25)增強(qiáng)

3%Hybridmethods(23)混合方法

3%Bagging(20)袋裝

3%Geneticalgorithms(19)遺傳算法

2%Other(20)其他

3%52數(shù)據(jù)挖掘系統(tǒng)的典型架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)清理與數(shù)據(jù)集成過(guò)濾

數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)數(shù)據(jù)挖掘引擎模型、模式評(píng)價(jià)可視化用戶界面數(shù)據(jù)挖掘方法庫(kù)其它數(shù)據(jù)源用戶知識(shí)庫(kù)53數(shù)據(jù)挖掘系統(tǒng)的典型架構(gòu)54SAS提出的數(shù)據(jù)挖掘方法論

SEMMA(Sample,Explore,Modify,ModelAccess)1.Sample數(shù)據(jù)取樣2.Explore數(shù)據(jù)特征的探索、分析和預(yù)處理3.Modify問(wèn)題明確化,數(shù)據(jù)調(diào)整和技術(shù)選擇4.Model模型研發(fā)、知識(shí)發(fā)現(xiàn)5.Assess模型和知識(shí)的綜合評(píng)價(jià)55SAS給出數(shù)據(jù)挖掘項(xiàng)目實(shí)施的方法論1.定義業(yè)務(wù)問(wèn)題2.系統(tǒng)環(huán)境評(píng)估3.數(shù)據(jù)準(zhǔn)備4.數(shù)據(jù)挖掘:應(yīng)用SEMMA方法論5.模型實(shí)施6.回顧與評(píng)價(jià)56IBM提出的通用數(shù)據(jù)挖掘方法

(Thegenericdataminingmethod)1.明確地定義商務(wù)問(wèn)題2.確定要使用的數(shù)據(jù)挖掘模型3.按模型的要求確定數(shù)據(jù)源并進(jìn)行數(shù)據(jù)準(zhǔn)備4.評(píng)估數(shù)據(jù)質(zhì)量5.根據(jù)商務(wù)或技術(shù)問(wèn)題的性質(zhì),選擇一種數(shù)據(jù)挖掘技術(shù)或幾種數(shù)據(jù)挖掘技術(shù)組合6.理解挖掘結(jié)果,并從挖掘結(jié)果中檢驗(yàn)新模式7.將挖掘結(jié)果應(yīng)用到具體業(yè)務(wù)中57數(shù)據(jù)挖掘產(chǎn)品(1)IntelligentMiner(IBM)多種數(shù)據(jù)挖掘算法較強(qiáng)的伸縮性工具包:神經(jīng)網(wǎng)絡(luò),統(tǒng)計(jì)方法,數(shù)據(jù)準(zhǔn)備,和數(shù)據(jù)可視化工具與IBMDB2關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的緊密集成EnterpriseMiner(SAS)各種統(tǒng)計(jì)分析工具數(shù)據(jù)倉(cāng)庫(kù)工具和多種挖掘算法Mirosoft

SQLServer2000將DB、OLAP和數(shù)據(jù)挖掘集成在一起支持OLE-DB58數(shù)據(jù)挖掘產(chǎn)品(2)MineSet

(SGI)多種數(shù)據(jù)挖掘算法和高級(jí)統(tǒng)計(jì)工具先進(jìn)的可視化工具Clementine(SPSS)為終端用戶和開(kāi)發(fā)人員提供了集成的數(shù)據(jù)挖掘開(kāi)發(fā)環(huán)境多種數(shù)據(jù)挖掘算法和可視化工具DBMiner(DBMinerTechnologyInc.)多個(gè)數(shù)據(jù)挖掘模塊:發(fā)現(xiàn)驅(qū)動(dòng)的OLAP分析,關(guān)聯(lián)規(guī)則,分類(lèi)和聚類(lèi)高效的關(guān)聯(lián)規(guī)則與序列模式挖掘功能,可視化分類(lèi)工具能對(duì)關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行挖掘59數(shù)據(jù)預(yù)處理Dr.Qingyuan

BaiSchoolofComputerScienceFacultyofMathematicsandComputerScience,FuzhouUniversityEmail:baiqy@60我們受噪聲數(shù)據(jù)、空缺數(shù)據(jù)、不一致數(shù)據(jù)困擾沒(méi)有數(shù)據(jù)的質(zhì)量就沒(méi)有挖掘結(jié)果的質(zhì)量就沒(méi)有信息和知識(shí)的質(zhì)量為提高數(shù)據(jù)質(zhì)量我們要研究數(shù)據(jù)的預(yù)處理Motivation:61數(shù)據(jù)預(yù)處理數(shù)據(jù)表示數(shù)據(jù)質(zhì)量不好的原因數(shù)據(jù)預(yù)處理必要性數(shù)據(jù)預(yù)處理的方法62數(shù)值型:整數(shù)(4,9),實(shí)數(shù)(3.25)文字型:人名,地名,物品,事物類(lèi)別型:球類(lèi)(藍(lán),排,足,乒乓…),顏色(紅,藍(lán)…二值型:性別,通斷,(特殊的類(lèi)別型)連續(xù)型:身高(0.5—2.58)離散型:可為類(lèi)別型,也可為數(shù)字型定量型:產(chǎn)品價(jià)格(20—100元)

定性型:高,矮周期型:股票每周的走勢(shì)。非周期型:暴雨的發(fā)生一種為可度量:尺寸,面積。一種為不可度量:語(yǔ)義型,標(biāo)稱型(顏色)數(shù)據(jù)表示數(shù)據(jù)類(lèi)型63一個(gè)事務(wù)往往有多個(gè)屬性,這樣的一個(gè)事務(wù)稱樣本樣本,有時(shí)也稱元組/對(duì)象/記錄由一組特征或?qū)傩裕ㄗ兞?域)表示:

X=(x1,x2……xn)xi:可為各種數(shù)據(jù)類(lèi)型,可取各種值。如:物品=(編號(hào),名稱,產(chǎn)地,型號(hào),價(jià)格,庫(kù)存量)

張三=(身份證號(hào)碼,性別,年齡,教育程度,職業(yè),收入,有車(chē)……)

天氣=(溫度,濕度,風(fēng)力,氣壓,……)數(shù)據(jù)表示樣本的表示樣本屬性64量大:百萬(wàn)級(jí)以上紀(jì)錄,100GB,TB,PB特征多:千級(jí)特征,文本表示類(lèi)別多:千級(jí)(漢字),萬(wàn)級(jí)漢字,指紋

了解數(shù)據(jù)、樣本的表示以及數(shù)據(jù)的規(guī)模,處理方法就不一樣。選擇數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法要根據(jù)數(shù)據(jù)情況而定。數(shù)據(jù)表示大數(shù)據(jù)集65數(shù)據(jù)預(yù)處理數(shù)據(jù)表示數(shù)據(jù)質(zhì)量不好的原因數(shù)據(jù)預(yù)處理必要性數(shù)據(jù)預(yù)處理的方法66數(shù)據(jù)質(zhì)量不好的原因缺值噪聲數(shù)據(jù)不完整數(shù)據(jù)不一致數(shù)據(jù)冗余例外數(shù)據(jù)(孤立點(diǎn),特殊值)67缺值缺值可能是缺整個(gè)對(duì)象或?qū)ο蟮膶傩詠G失原始數(shù)據(jù)就忘掉了輸入傳輸丟失原來(lái)認(rèn)為不重要,后來(lái)分析時(shí)認(rèn)為需要68噪聲數(shù)據(jù)不正確,數(shù)據(jù)屬性不正確原因:

收集(錄入,設(shè)備)錯(cuò)誤,設(shè)備受干擾,人為錄入錯(cuò)誤。傳輸錯(cuò)誤。69數(shù)據(jù)不完整不同時(shí)間(時(shí)期)的數(shù)據(jù)如1986年經(jīng)濟(jì)指標(biāo)為100項(xiàng)目,2004年為150項(xiàng),或100項(xiàng),已與原來(lái)不一樣了。數(shù)據(jù)來(lái)源不同

各單位報(bào)上的匯總數(shù)據(jù)不一樣。原來(lái)的數(shù)據(jù)用途與現(xiàn)在的用途不一樣。收集數(shù)據(jù)不全面

數(shù)據(jù)收集時(shí)以為不要的數(shù)據(jù)。在分析階段覺(jué)得非常必要。如:病人診斷數(shù)據(jù)、經(jīng)濟(jì)報(bào)表。70數(shù)據(jù)不一致數(shù)據(jù)集成自不同的數(shù)據(jù)源,用的度量不同(米,公分,英尺)不同數(shù)據(jù)源集成,用的編碼不一樣如男,女(M,F;1,0)

名稱的不一樣。計(jì)算機(jī),電腦;磁盤(pán)(磁碟)71數(shù)據(jù)冗余數(shù)據(jù)本身的冗余,記錄完全一樣。屬性冗余:有的樣本,有多個(gè)屬性,一個(gè)屬性包含另一個(gè)屬性,有些屬性是多余的。無(wú)關(guān)屬性:存在某個(gè)屬性,但在處理過(guò)程中,它不起作用。如分析一個(gè)人能力,他的電話號(hào)碼就沒(méi)作用。72噪聲是孤立點(diǎn)孤立點(diǎn)不是噪聲孤立點(diǎn)是真實(shí)數(shù)據(jù)孤立點(diǎn)與常規(guī)數(shù)據(jù)不一樣如:股票交易中的違規(guī)操作,信用卡消費(fèi)的異常,醫(yī)療診斷數(shù)據(jù)中異常癥狀,欺詐行為。這是數(shù)據(jù)挖掘重要研究課題。例外(孤立點(diǎn),特殊值)73數(shù)據(jù)預(yù)處理數(shù)據(jù)表示數(shù)據(jù)質(zhì)量不好的原因數(shù)據(jù)預(yù)處理必要性數(shù)據(jù)預(yù)處理的方法74數(shù)據(jù)預(yù)處理必要性不預(yù)處理,數(shù)據(jù)處理時(shí)結(jié)論會(huì)不正確(不準(zhǔn));不預(yù)處理,數(shù)據(jù)占用空間大,處理時(shí)間長(zhǎng)。75數(shù)據(jù)預(yù)處理數(shù)據(jù)表示數(shù)據(jù)收集、傳輸和處理數(shù)據(jù)預(yù)處理必要性數(shù)據(jù)預(yù)處理的方法76數(shù)據(jù)預(yù)處理方法一數(shù)據(jù)清理二數(shù)據(jù)變換三數(shù)據(jù)集成四數(shù)據(jù)歸約五數(shù)據(jù)離散化和概念分層77一、數(shù)據(jù)清理數(shù)據(jù)清理數(shù)據(jù)要解決下列問(wèn)題:1缺值2含噪聲(不是真正的數(shù)據(jù))3數(shù)據(jù)不完整(缺數(shù)據(jù))4數(shù)據(jù)不一致(計(jì)量單位不同、符號(hào)不同、同義詞)5數(shù)據(jù)冗余6孤立點(diǎn)(例外、特殊值)去除由于不同數(shù)據(jù)源整合,需要對(duì)數(shù)據(jù)進(jìn)行清理。781缺值解決方法忽略(去掉)缺值的元組人工填補(bǔ)用一個(gè)全局性的常數(shù)填上用平均值填上用同類(lèi)元組屬性平均值填補(bǔ)用推導(dǎo)方法得到值(回歸,貝葉斯方法,決策樹(shù),EM算法)//EM(ExpectationMaximization)最大期望方法各種解決缺值的方法雖有一定風(fēng)險(xiǎn),它利用了已有的知識(shí),是可行的。792解決噪聲的方法1)分箱(平滑)用分箱方法,將數(shù)據(jù)平滑了,用平滑值代替一個(gè)箱的值。噪聲被平滑掉了或被淹沒(méi)了。2)聚類(lèi)用聚類(lèi)方法對(duì)數(shù)據(jù)聚成多個(gè)類(lèi),不在類(lèi)中的數(shù)據(jù)認(rèn)為是噪聲。3)回歸用一個(gè)回歸方程來(lái)平滑數(shù)據(jù),把偏得太遠(yuǎn)的數(shù)據(jù)校正過(guò)來(lái)。4)用計(jì)算機(jī)與人工相結(jié)合的方法找出垃圾數(shù)據(jù),對(duì)數(shù)據(jù)設(shè)限(非限內(nèi)數(shù)據(jù)為噪聲數(shù)據(jù))。801)分箱分箱方法

通過(guò)考察“鄰居”(即周?chē)闹担﹣?lái)平滑存儲(chǔ)數(shù)據(jù)的值。存儲(chǔ)的值被分到一些“桶”或箱中,由于分箱方法參考的是臨近的值,稱局部平滑。分箱方法要定義深度分箱方法箱里的值用平滑值代替。分箱方法平滑值由許多方法來(lái)確定:

平均值方法,中值方法,邊界值方法811)分箱一組價(jià)格數(shù)據(jù)排序?yàn)椋簕4,8,9,15,21,21,24,25,26,28,29,34}

分成等深的箱:-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34

用箱平均值平滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29用箱的邊界平滑:-箱1:4,4,4,15-箱2:21,21,21,25-箱3:26,26,26,3482

2)聚類(lèi)

用聚類(lèi)方法聚了許多簇,簇內(nèi)的數(shù)據(jù)為有用數(shù)

據(jù),簇外為孤立點(diǎn)或噪聲。83

3)回歸

回歸主要是對(duì)數(shù)值屬性,用一個(gè)合適的函數(shù)來(lái)平滑數(shù)據(jù),消除噪聲。有線性回歸,多元回歸。

線性回歸

Y=

+X

xyy=x+1X1

y1

y1’用回歸方程算出的值來(lái)替代原來(lái)的值的,如給X1,用Y1’替代Y1.84回歸方程系數(shù)的計(jì)算

線性回歸:

Y=+X其中,,稱回歸系數(shù),可用最小二乘法來(lái)求。

=y

–xx=

y=853解決數(shù)據(jù)不一致在由多數(shù)據(jù)源集成為統(tǒng)一的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)時(shí)就會(huì)出現(xiàn)數(shù)據(jù)不一致問(wèn)題和數(shù)據(jù)冗余。表示不同(不同數(shù)據(jù)源對(duì)同類(lèi)數(shù)據(jù)稱呼不一樣)、度量不同(元,萬(wàn)元)、編碼的不同、幣制的不同、公制和英制不同……等。解決不一致只能靠元數(shù)據(jù),用實(shí)體識(shí)別方法來(lái)處理。如用戶名部處樣本男女客戶名單位事例MF864解決數(shù)據(jù)冗余數(shù)據(jù)冗余有的是數(shù)據(jù)重復(fù),有的是屬性多余。前者去掉數(shù)據(jù),后者去掉屬性。去掉數(shù)據(jù)冗余方法:可用匹配方法,配合上的數(shù)據(jù)說(shuō)明完全一樣,是冗余,可去掉一個(gè)實(shí)體識(shí)別方法,由于不同數(shù)據(jù)源要集成在一起,不同系統(tǒng)一個(gè)實(shí)體可能表示方式不同,但可能是同一件事情,在集成時(shí)要僅保留一個(gè)。實(shí)體識(shí)別一般用元數(shù)據(jù)或一些知識(shí)規(guī)則。去掉屬性冗余方法:可用相關(guān)分析874解決數(shù)據(jù)冗余有些數(shù)據(jù)可以通過(guò)相關(guān)分析,看一個(gè)屬性在多大程度上蘊(yùn)含另一屬性,可用相關(guān)分析,兩個(gè)正相關(guān)性大的屬性,可能是一個(gè)屬性蘊(yùn)含另一個(gè)屬性,可以去掉一個(gè)。屬性A和B相關(guān)由下面公式度量:

n是元組的個(gè)數(shù)分別是A,B的平均值,分別是A,B的標(biāo)準(zhǔn)差A(yù),B的相關(guān)性度量88

上式大于0,為正相關(guān),等于0不相關(guān),小于0,是負(fù)相關(guān)。正相關(guān)性越大,一個(gè)變化(增大)另一個(gè)也跟著變化(增大),一個(gè)蘊(yùn)含另一個(gè)可能性大,可能是數(shù)據(jù)屬性的冗余,可去掉一個(gè)。如一個(gè)是customer_id,另一個(gè)屬性是cust_number,它們相關(guān)性大,確實(shí)是冗余。895孤獨(dú)點(diǎn)問(wèn)題孤獨(dú)點(diǎn)我們定義為異常點(diǎn)??赡転樵肼?,可能為真實(shí)值。有時(shí)要忽略它,有時(shí)要研究它。為此要研究異常點(diǎn)的檢測(cè)方法。統(tǒng)計(jì)方法基于距離的方法基于偏差的方法90二數(shù)據(jù)變換(1/5)將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式,涉及如下內(nèi)容1平滑:排除數(shù)據(jù)中的噪聲。采用前面的分箱、聚類(lèi)和回歸方法。用分箱的平均數(shù)替代整個(gè)箱,用聚類(lèi)值替代實(shí)際值。用回歸線上數(shù)據(jù)替代實(shí)際值2聚集:對(duì)數(shù)據(jù)進(jìn)行匯總和聚集,如可聚集日銷(xiāo)售量為月銷(xiāo)售量、年銷(xiāo)售量等,聚集也常用來(lái)為多粒度分析構(gòu)造數(shù)據(jù)立方體。3概化:用概念分層來(lái)對(duì)數(shù)據(jù)進(jìn)行概化,即用高層次的概念來(lái)替代低層次“原始”數(shù)據(jù),如:用省名替代許多小地方名,用青年、中年、老年替代具體25,27,31歲,48,51歲,67,75歲

平滑是屬于數(shù)據(jù)清理,聚集和概化屬于數(shù)據(jù)歸約。91二數(shù)據(jù)變換(2/5)4.規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如[0.0,1.0]區(qū)間。方法有:最?。畲笠?guī)范化零-均值規(guī)范化小數(shù)定標(biāo)規(guī)范化5.屬性/特征構(gòu)造由給定的屬性構(gòu)造和添加新的屬性92二數(shù)據(jù)變換規(guī)范化(3/5)1)最?。畲笠?guī)范化:對(duì)原始數(shù)據(jù)進(jìn)行線性的變換。假定minA,maxA分別為屬性A的最小、最大值,值區(qū)間為[minA,maxA],將A的值映射到新區(qū)間[new_minA,new_maxA]中的V’。93二數(shù)據(jù)變換規(guī)范化(3/5)如個(gè)人的收入屬性income,minA=12000元,

maxA=98000元收入的區(qū)間[12000,98000].如某人收入為73000元(V),就難看出其狀況?,F(xiàn)在我們規(guī)范化區(qū)間定為[0.0,1.0],用公式計(jì)算為:

V’=[(73000-12000)/(98000-12000)](1.0-0.0)=0.716其收入在最高檔的71%。另外這種處理會(huì)為分析帶來(lái)方便。94二數(shù)據(jù)變換規(guī)范化(4/5)2)零-均值規(guī)范化(z-scorenormalization)屬性A的值基于A的平均值和標(biāo)準(zhǔn)差來(lái)規(guī)范化如的收入屬性income,其平均值為54000標(biāo)準(zhǔn)差為16000,如某人收入為v=73000元

V’=(73000-54000)/16000=1.225.95二數(shù)據(jù)變換規(guī)范化(5/5)3)小數(shù)定標(biāo)規(guī)范化小數(shù)定標(biāo)規(guī)范化是通過(guò)移動(dòng)屬性A的小數(shù)點(diǎn)的位置進(jìn)行規(guī)范化。小數(shù)點(diǎn)的移動(dòng)位數(shù)取決于A的最大值。最大值標(biāo)規(guī)范化后也要小于1。公式中的將j由A的最大值決定。J的選擇使Max()<1如A的最大值為678,則j為3,678就規(guī)范化為0.678j的選擇是取決于A的最大值,大于最大值的最小10的整數(shù)冪。96二數(shù)據(jù)變換屬性/特征構(gòu)造由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解,如我們可能根據(jù)高和寬屬性而添加面積屬性。這有利于分析。屬性的構(gòu)造根據(jù)問(wèn)題和需要而定,不是一個(gè)特定的規(guī)律。97三數(shù)據(jù)集成

來(lái)自不同數(shù)據(jù)源,集成為統(tǒng)一的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)時(shí)就會(huì)出現(xiàn):

1.數(shù)據(jù)不一致

2.數(shù)據(jù)冗余

3.數(shù)據(jù)沖突集成過(guò)程采用上述方法對(duì)不同的數(shù)據(jù)源進(jìn)行了數(shù)據(jù)清理,然后經(jīng)數(shù)據(jù)變換后按照要求集成一個(gè)新的數(shù)據(jù)集或數(shù)據(jù)倉(cāng)庫(kù),供數(shù)據(jù)挖掘用。98四數(shù)據(jù)歸約是當(dāng)數(shù)據(jù)集非常大,在海量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析或數(shù)據(jù)挖掘時(shí)需要非常多的時(shí)間,有時(shí)不現(xiàn)實(shí),甚至是不可能的。將數(shù)據(jù)歸約成小規(guī)模數(shù)據(jù)集,分析和挖掘都可有效進(jìn)行。原數(shù)據(jù)集歸約數(shù)據(jù)集歸約方法99四數(shù)據(jù)歸約數(shù)據(jù)歸約必要性:一個(gè)數(shù)據(jù)倉(cāng)庫(kù)或一個(gè)海量數(shù)據(jù)集可能存儲(chǔ)TG的數(shù)據(jù),在這樣一個(gè)完整的數(shù)據(jù)集上分析和挖掘?qū)⑿枰荛L(zhǎng)時(shí)間。能否把數(shù)據(jù)集變小,但仍接近于保持原數(shù)據(jù)的完整性。用數(shù)據(jù)歸約方法得到數(shù)據(jù)集的歸約表示,它小得多,接近于保持原數(shù)據(jù)的完整性。在歸約后的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘更有效,并能產(chǎn)生相同(或幾乎相同)的分析結(jié)果。

100四數(shù)據(jù)歸約歸約的策略為數(shù)據(jù)立方體聚集維歸約值歸約數(shù)據(jù)壓縮1011數(shù)據(jù)立方體聚集數(shù)據(jù)立方體聚集常常為聯(lián)機(jī)分析用,是實(shí)際上也可為數(shù)據(jù)挖掘服務(wù)。用聚集的數(shù)據(jù)代替細(xì)節(jié)數(shù)據(jù),來(lái)減少數(shù)據(jù)量。年=1999年=1998年=1997季度銷(xiāo)售額Q1224,000Q2408,000Q3350,000Q4586,000年銷(xiāo)售額

1,568,0002,356,0003,594,0001022維(屬性,特征)歸約

維(也就是屬性)有時(shí)數(shù)據(jù)可能包含百計(jì)(甚至千計(jì))的屬性,但在進(jìn)行數(shù)據(jù)挖掘大部分屬性與數(shù)據(jù)挖掘任務(wù)無(wú)關(guān)的,有些是冗余的,有些次要的。利用去掉無(wú)關(guān)屬性和冗余屬性來(lái)減少數(shù)據(jù)規(guī)模,就是維歸約,為了分析一些特定屬性對(duì)某些事務(wù)的影響,去掉非指定的屬性。使分析問(wèn)題更清晰,明了。盡管領(lǐng)域?qū)<铱梢耘袛嘁恍o(wú)關(guān)屬性,但這是困難和費(fèi)時(shí)的,必須給出一些方法來(lái)判斷,來(lái)刪去一些冗余和無(wú)關(guān)屬性。1032維歸約維歸約的方法:

1)去冗余屬性

2)去無(wú)關(guān)屬性

3)去次要屬性

4)決策樹(shù)方法

5)屬性重要性判斷方法

6)特征選擇方法1041)去冗余屬性用前面介紹的相關(guān)性分析方法,可能一個(gè)屬性就另一屬性的冗余。1052)去無(wú)關(guān)屬性特征選擇方法:基于應(yīng)用領(lǐng)域的知識(shí)和數(shù)據(jù)挖掘的目標(biāo),分析者可選擇一個(gè)初始特征子集。認(rèn)為其他屬性無(wú)關(guān)。這種方法有危險(xiǎn)性:可能會(huì)漏掉潛在有用的屬性。1063)去次要屬性(找相關(guān)特征)用特定方法來(lái)判斷屬性的重要性,來(lái)對(duì)屬性排隊(duì),取前面n個(gè)屬性,后面去掉(可定義閾值,或保留個(gè)數(shù))。有一些排隊(duì)方法和選擇策略。1.逐漸向前選擇策略(選好策略)

{A1,A2,A3,A4,A5,A6}{}起點(diǎn){A1}A1最好{A1,A4}{A1,A4,A6}終點(diǎn),歸約屬性集。該方法實(shí)際上是判斷屬性好壞計(jì)算,并有排序或給出閾值。1073)去次要屬性(找相關(guān)特征)2.逐漸向后選擇策略(去差策略)

{A1,A2,A3,A4,A5,A6}{A1,A2,A3,A4,A5,A6}A2差{A1,A3,A4,A5,A6}{A1,A4,A5,A6}{A1,A4,A6}歸約屬性集。該方法實(shí)際上是判斷屬性好壞計(jì)算,并有排序或給出閾值。1084)決策樹(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論