數(shù)據(jù)挖掘基礎(chǔ)技術(shù)及應(yīng)用_第1頁
數(shù)據(jù)挖掘基礎(chǔ)技術(shù)及應(yīng)用_第2頁
數(shù)據(jù)挖掘基礎(chǔ)技術(shù)及應(yīng)用_第3頁
數(shù)據(jù)挖掘基礎(chǔ)技術(shù)及應(yīng)用_第4頁
數(shù)據(jù)挖掘基礎(chǔ)技術(shù)及應(yīng)用_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘技術(shù)及應(yīng)用數(shù)據(jù)挖掘是什么數(shù)據(jù)挖掘(DataMining/Knowledge-DiscoveryinDatabases)是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的幷有潛在價值的信息的過程。數(shù)據(jù)挖掘主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。起源:70年代,信息化管理開始發(fā)展,數(shù)據(jù)開始呈現(xiàn)快速增長的趨勢;發(fā)展:80、90年代,關(guān)系數(shù)據(jù)庫技術(shù)的大量應(yīng)用,數(shù)據(jù)倉庫技術(shù)的發(fā)展;流行:千禧年前后,電子商務(wù)的驅(qū)動下需求越來越強(qiáng)烈;未來:隨著SaaS以及“大數(shù)據(jù)”的潮流,平臺化發(fā)展的可能。數(shù)據(jù)挖掘的任務(wù)種類?味道體積顏色質(zhì)感重量?價錢?形狀基本過程及數(shù)據(jù)流數(shù)據(jù)準(zhǔn)備統(tǒng)計分析、數(shù)據(jù)清洗數(shù)據(jù)降維、特征提取應(yīng)用分析挖掘方法業(yè)務(wù)分析提取結(jié)論、業(yè)務(wù)應(yīng)用爬蟲、日志、系統(tǒng)收集數(shù)據(jù)標(biāo)準(zhǔn)化人工篩選、基于統(tǒng)計分類、聚類、關(guān)聯(lián)規(guī)則等可視化分析結(jié)果提取模型、應(yīng)用業(yè)務(wù)系統(tǒng)知識結(jié)構(gòu)用什么工具?如何挖掘?如何改進(jìn)?為什么可行?Oracle、MySQL、SPSS、clementine、WEKA、mahout等工具……統(tǒng)計分析、特征提取、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析等方法……C++、JAVA等進(jìn)行算法改寫;相關(guān)理論進(jìn)行推導(dǎo)及優(yōu)化微積分基礎(chǔ)、矩陣論、概率論、凸優(yōu)化等相關(guān)理論相關(guān)工具WEKA:為完成數(shù)據(jù)挖掘任務(wù)而設(shè)計的機(jī)器學(xué)習(xí)算法集合,基于GNU許可進(jìn)行開源,使用JAVA開發(fā),內(nèi)置的算法可以直接運用于其預(yù)定義的數(shù)據(jù)集中,也可以在自己的應(yīng)用程序代碼中調(diào)用。WEKA包括一系列數(shù)據(jù)預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則及數(shù)據(jù)可視化的工具。用戶可以根據(jù)需要對內(nèi)置算法進(jìn)行改寫。最新版本的WEKA號稱支持大數(shù)據(jù)處理?;救蝿?wù)/目標(biāo)及工具基礎(chǔ)統(tǒng)計分析1特征提取2分類與預(yù)測3聚類分析4hypothesistesting、estimation、regression……關(guān)聯(lián)分析5fisher、ANN、SVM、decisiontree、bayestheorem……PCA、FFT……k-means、em、DBSCAN、OPTICS……apriori輸入輸出輸入:數(shù)據(jù)集(量化及非量化)輸出:數(shù)據(jù)可視化、計算模型、分析結(jié)論等過程:統(tǒng)計、降維、分類、聚類、關(guān)聯(lián)分析等185662900011884472301111570309612995215940基本任務(wù)/目標(biāo)及工具基礎(chǔ)統(tǒng)計分析1特征提取2分類與預(yù)測3聚類分析4假設(shè)檢驗、參數(shù)估計、回歸分析……關(guān)聯(lián)分析5fisher、ANN、SVM、decisiontree、bayestheorem……PCA、FFT……k-means、em、DBSCAN、OPTICS……apriori基礎(chǔ)統(tǒng)計分析(回歸分析)樣本數(shù)據(jù)預(yù)測數(shù)據(jù)

線性回歸非線性回歸

基礎(chǔ)統(tǒng)計分析(回歸分析)回歸分析輸出找出一條最能夠代表所有觀測數(shù)據(jù)的函數(shù)(回歸估計式)。用此函數(shù)代表因變量和自變量之間的關(guān)系。如果是用于數(shù)據(jù)維度選擇的預(yù)處理中,回歸分析的任務(wù)則是找出與目標(biāo)變量“大致”相關(guān)的維度,可根據(jù)實際場景使用線性或非線性回歸?;貧w分析方法動差法(MethodOfMoment,MOM)最小二乘法(OrdinaryLeastSquareEstimation,OLSE)極大似然法(MaximumLikelihoodEstimation,MLE)基礎(chǔ)統(tǒng)計分析(回歸分析)MYCT:machinecycletimeinnanosecondsMMIN:minimummainmemoryinkilobytesMMAX:maximummainmemoryinkilobytesCACH:cachememoryinkilobytesCHMIN:minimumchannelsinunitsCHMAX:maximumchannelsinunits

在WEKA中使用線性回歸進(jìn)行分析,使用CPU等級預(yù)測數(shù)據(jù)集基本任務(wù)/目標(biāo)及工具基礎(chǔ)統(tǒng)計分析1特征提取2分類與預(yù)測3聚類分析4hypothesistesting、estimation、regression……關(guān)聯(lián)分析5fisher、ANN、SVM、decisiontree、bayestheorem……主成分分析、時頻變換……k-means、em、DBSCAN、OPTICS……apriori特征沒有萬能和精確的定義,特征的精確定義往往由問題或者應(yīng)用類型決定。特征提取最重要的一個特性是“可重復(fù)性”:同一場景的不同數(shù)據(jù)所提取的特征應(yīng)該是相同的。特征提?。ňS度篩選)例如,“蘋果”的特征是:紅色、質(zhì)感光滑、拳頭大小、口感爽脆、味甜;“西瓜”的特征是:綠色、質(zhì)感光滑、籃子大小、汁多、味甜;“檸檬”的特征是:黃色、質(zhì)感粗糙、拳頭大小、口感粗糙汁多、味酸。可見水果的特征包括顏色、質(zhì)感、大小、味道等可以用于明顯區(qū)分類別的屬性。WEKA中數(shù)據(jù)屬性瀏覽窗口特征提取(降維)Fisher判別法:假設(shè)數(shù)據(jù)能“投影”到某個“平面”上,問題可以轉(zhuǎn)化為如何選擇該平面參數(shù),使數(shù)據(jù)集(降維后)不同類別之間的離散度最大、數(shù)據(jù)集(降維后)同類別中的離散度最小。用于降維的“平面”的數(shù)學(xué)表示:

Fisher判別法簡單圖示可見,所謂的平面也是一種線性運算。特征提取(降維)對于兩種類別的數(shù)據(jù)(紅色及藍(lán)色點,二維數(shù)據(jù)),如左圖,把兩類數(shù)據(jù)投影到紅色實線上(注意到投影后變?yōu)橐痪S數(shù)據(jù)),很明顯投影后的數(shù)據(jù)在直線上不能很好的被區(qū)分,數(shù)據(jù)“混合”到一起了,而在右圖的情況下,投影后的數(shù)據(jù)能很好的被區(qū)分,因此右圖的直線可以在保留類別信息的情況下對數(shù)據(jù)進(jìn)行降維。特征提?。ń稻S)可用于降維的直線幷不是唯一的,如上圖,可以看到兩直線都能成功使投影后的數(shù)據(jù)被區(qū)分開來,最優(yōu)方案需要使用數(shù)值方法尋找。特征提?。ń稻S的數(shù)學(xué)小知識)

特征提?。ňS度變換)

在數(shù)字信號處理領(lǐng)域,信號的特征主要表示為“頻率域”,但是信號的采樣通常只能表示為“時間域”。通過“傅里葉變換”可以把“時間域”的表示轉(zhuǎn)換為“頻率域”的表示,這就是一種常見的特征提取方法。而該類方法的輸出通常與輸入不在同一個層面,也就是維度發(fā)生了變換。

特征提?。≒CA)主成分分析(PrincipleComponentAnalysis)是一種維度變換的分析方法,其輸出維度是原數(shù)據(jù)維度的線性組合,幷按重要程度排序。得到變換后的維度后,往往需要結(jié)合具體業(yè)務(wù)分析出新維度背后的意義。

特征提?。≒CA的數(shù)學(xué)小知識)固定資產(chǎn)的產(chǎn)值率凈產(chǎn)值的勞動生產(chǎn)率百元產(chǎn)值的流動資金占用率百元產(chǎn)值的利潤率百元資金的利潤率數(shù)據(jù)分析經(jīng)營能力盈利水平業(yè)務(wù)分析計算協(xié)方差矩陣求矩陣特征向量基本任務(wù)/目標(biāo)及工具基礎(chǔ)統(tǒng)計分析1特征提取2分類與預(yù)測3聚類分析4hypothesistesting、estimation、regression……關(guān)聯(lián)分析5線性判別、神經(jīng)網(wǎng)絡(luò)、SVM、決策樹……PCA、FFT……k-means、em、DBSCAN、OPTICS……apriori分類與預(yù)測問題一般是“監(jiān)督學(xué)習(xí)”問題,也即訓(xùn)練數(shù)據(jù)集中帶有用于訓(xùn)練模型輸出的指示變量。無論是分類還是預(yù)測模型,數(shù)據(jù)的變現(xiàn)形式基本一致,區(qū)別在于分類模型的指示變量為離散數(shù)值,而預(yù)測模型的指示變量一般為連續(xù)數(shù)值。61487235033.60.6275011856629026.60.3513108183640023.30.67232118966239428.10.1672100118844723045.80.551311111570309634.60.5293213126884123539.30.704270899840035.40.3885007196900039.80.451411911980350290.26329129952159424.60.6372101109562113525.20.833230288741953290.22922041519038029.70.29436021006423029.70.3682100131880031.60.7433216104741815629.90.722411

懷孕次數(shù)口服葡萄糖耐量試驗血漿葡萄糖濃度(2小時內(nèi))血壓(mmHg)三頭肌皮膚厚度(mm)胰島素濃度(muU/ml)(2小時內(nèi))體重指數(shù)(kg/m^2)糖尿病家系指數(shù)(?)年齡分類與預(yù)測(基本概念)分類與預(yù)測(基本概念)決策樹Fisher判別準(zhǔn)則貝葉斯分類人工神經(jīng)網(wǎng)絡(luò)Logistic分類支持向量機(jī)……數(shù)據(jù)集計算模型分類與預(yù)測(回歸分析)樣本數(shù)據(jù)預(yù)測數(shù)據(jù)

線性回歸非線性回歸曲線擬合,是一種把現(xiàn)有數(shù)據(jù)透過數(shù)學(xué)方法來代入一條數(shù)式的表示方式。科學(xué)和工程問題可以通過諸如采樣、實驗等方法獲得若干離散的數(shù)據(jù),根據(jù)這些數(shù)據(jù),我們往往希望得到一個連續(xù)的函數(shù)(也就是曲線)或者更加密集的離散方程與已知數(shù)據(jù)相吻合,這過程就叫做擬合(fitting),也能一定程度的成為“預(yù)測”。目標(biāo):輸出樹形數(shù)據(jù)結(jié)構(gòu),葉子節(jié)點為決策結(jié)果,其他節(jié)點為決策準(zhǔn)則,自根節(jié)點向下則是決策的過程。如下例子所示的鳶尾花分類(3個類別)問題,輸入數(shù)據(jù)有2個自變量(維度),分別是花瓣寬度及長度。當(dāng)新數(shù)據(jù)來臨時,從根節(jié)點開始向下執(zhí)行決策,如發(fā)現(xiàn)花瓣寬度為1.3、花瓣長度為5.2,則決策過程如圖中高亮路徑所示,可知該數(shù)據(jù)的分類結(jié)果為“virginica”類型的鳶尾花。分類與預(yù)測(決策樹)1、如花瓣寬度小于等于0.6,則得到結(jié)果為“setosa”,否則繼續(xù)執(zhí)行下個決策;2、如花瓣寬度大于1.7,則得到結(jié)果為“virginica”,否則繼續(xù)執(zhí)行下個決策;3、如花瓣長度小于等于4.9,則得到結(jié)果為“versicolor”,否則繼續(xù)執(zhí)行下個決策;4、如花瓣寬度小于等于1.5,則得到結(jié)果為“virginica”,否則結(jié)果為“versicolor”。

分類與預(yù)測(決策樹的計算示意)信息熵:信息增益:

當(dāng)計算完所有屬性的信息增益后,選擇信息增益最大的屬性進(jìn)行數(shù)據(jù)集的劃分(子節(jié)點),然后進(jìn)行下一層的屬性選擇,直到所有子節(jié)點的數(shù)據(jù)都為同一分類。基礎(chǔ)知識分類與預(yù)測(線性判別)

分類與預(yù)測(線性判別)數(shù)據(jù)分類問題可從幾何角度出發(fā),分類的過程其實就是求點到直線距離的過程,結(jié)果可以通過與0比較而得到。

人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,縮寫ANN),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計算模型。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計算。大多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu),是一種自適應(yīng)系統(tǒng)?,F(xiàn)代神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計性數(shù)據(jù)建模工具,常用來對輸入和輸出間復(fù)雜的關(guān)系進(jìn)行建模,或用來探索數(shù)據(jù)的模式。分類與預(yù)測(ANN)外界刺激作出反應(yīng)回饋輸入調(diào)整強(qiáng)度單層感知機(jī):加權(quán)和→傳遞函數(shù)分類與預(yù)測(ANN)

可見,單層感知機(jī)本質(zhì)就是線性判別法,與Fisher判別法的區(qū)別在于,F(xiàn)isher判別法尋找的是用于投影的直線,而感知機(jī)尋找的是用于劃分的直線,而參數(shù)優(yōu)化的手段也有所區(qū)別,而且感知機(jī)幷沒有確定的公式求出最終結(jié)果。

單層感知機(jī):加權(quán)和→傳遞函數(shù)→反饋輸入分類與預(yù)測(ANN)

單層網(wǎng)絡(luò):線性分類,可使用一條直線把數(shù)據(jù)進(jìn)行分類。分類與預(yù)測(ANN)屬性x屬性y分類-12+-21+2-1-1-2-

分類平面:屬性x屬性y分類過程分類結(jié)果-12+-21+2-1-1-2-線性不可分:無法使用一條直線對數(shù)據(jù)進(jìn)行分類,使用多層網(wǎng)絡(luò)。分類與預(yù)測(ANN)x1x2y110101011000如圖所示,該分類問題無法通過構(gòu)造一條直線解決,神經(jīng)網(wǎng)絡(luò)技術(shù)也曾因此停滯發(fā)展,直到解決該問題的方法——多層網(wǎng)絡(luò)結(jié)構(gòu)的出現(xiàn)??蓸?gòu)造一個2-2-1網(wǎng)絡(luò)解決該問題,該網(wǎng)絡(luò)有第1層有2個輸入、2個輸出,第2層有2個輸入、1個輸出。第1層第2層該網(wǎng)絡(luò)的輸入數(shù)據(jù)集,包括2個維度及1個期望輸出。線性不可分:無法使用一條直線對數(shù)據(jù)進(jìn)行分類,使用多層網(wǎng)絡(luò)。分類與預(yù)測(ANN的計算示意)

多層網(wǎng)絡(luò)本質(zhì)上是非線性映射,理論上可用于擬合任意復(fù)雜的函數(shù)。分類與預(yù)測(ANN)JAVA實現(xiàn)BP網(wǎng)絡(luò)的數(shù)據(jù)擬合實驗圖示,圖中紅色實線為原始數(shù)據(jù),原點為采樣數(shù)據(jù),藍(lán)色實線為擬合數(shù)據(jù)多層網(wǎng)絡(luò)也可擬合多個輸出。分類與預(yù)測(ANN)BP網(wǎng)絡(luò)同時擬合多個輸出數(shù)值實驗示意圖SVM的輸出是一個“超平面”,這個超平面可能是高維的,甚至可能是無限維的。在分類任務(wù)中,SVM的基本理念是將決策面(超平面)放置在一個位置,使兩類中所有點距離這個位置最遠(yuǎn)。考慮兩類線性可分問題,如果要在兩個類之間畫一條線,有多種方法,但按照SVM的理念,會先找兩類之間最大的空白間隔,然后在空白間隔的中點畫一條線,這條線平行于空白間隔。通過核函數(shù),可以使SVM能對非線性可分的任務(wù)進(jìn)行分類。分類與預(yù)測(SVM)算法輸出超平面,使兩類樣本數(shù)據(jù)之間的“空白區(qū)域”最“寬”核函數(shù):對樣本數(shù)據(jù)的維度進(jìn)行擴(kuò)展,如1維數(shù)據(jù)可以擴(kuò)展到2維甚至更高,使樣本數(shù)據(jù)在更高維度的空間中線性可分分類與預(yù)測(SVM)原始數(shù)據(jù)為1維,分布在x軸上,且線性不可分,進(jìn)行平方運算后,數(shù)據(jù)分布在2維空間中,原本無法用超平面分離的數(shù)據(jù)在2維平面中變得線性可分。分類與預(yù)測(SVM)打開WEKA數(shù)據(jù)集文件,切換到classifier面板可選擇不同的分類算法,每種算法均有不同的配置。分類與預(yù)測(SVM)SVM的輸出類似回歸分析,預(yù)測數(shù)據(jù)需要與輸出模型中每個“支撐向量”作內(nèi)積然后加權(quán)求和,“支撐向量”的數(shù)目直接決定了輸出模型的計算規(guī)模。從圖中可見,雖然SVM可解決非線性問題,但其輸出模型的運算仍是以線性為主。WEKA運行SVM的SMO算法計算結(jié)果SVM可視化實驗。分類與預(yù)測(SVM)JAVA實現(xiàn)SVM,左圖為輸入二維數(shù)據(jù),紅色點為正樣本,藍(lán)色點為負(fù)樣本,右圖為分類結(jié)果

分類與預(yù)測(SVM的數(shù)學(xué)小知識)原問題:拉格朗日函數(shù):對偶函數(shù):對偶問題轉(zhuǎn)化:基本任務(wù)/目標(biāo)及工具基礎(chǔ)統(tǒng)計分析1特征提取2分類與預(yù)測3聚類分析4hypothesistesting、estimation、regression……關(guān)聯(lián)分析5fisher、ANN、SVM、decisiontree、bayestheorem……PCA、FFT……k-means、期望最大化、基于密

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論