R語言數(shù)據(jù)建模課件_第1頁
R語言數(shù)據(jù)建模課件_第2頁
R語言數(shù)據(jù)建模課件_第3頁
R語言數(shù)據(jù)建模課件_第4頁
R語言數(shù)據(jù)建模課件_第5頁
已閱讀5頁,還剩119頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第九章數(shù)據(jù)建模9.1

Rattle包9.2聚類模型習(xí)題9.3關(guān)聯(lián)分析模型9.4傳統(tǒng)決策樹模型9.8線性回歸模型9.5隨機(jī)森林決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模9.1Rattle包9.2聚類模型習(xí)題99.1Rattle包第九章數(shù)據(jù)建模install.packages("cairoDevice")install.packages("RGtk2")install.packages("rattle")用上述代碼可以完成rattle包的安裝。在Rstudio命令控制臺(tái)輸入如下腳本載入Rattle包:>library(rattle)在Rstudio命令控制臺(tái)輸入如下腳本啟動(dòng)Rattle:>rattle()Rattle的安裝與啟動(dòng)9.1Rattle包第九章數(shù)據(jù)建模install.pac9.1Rattle包第九章數(shù)據(jù)建模Rattle選項(xiàng)卡介紹9.1Rattle包第九章數(shù)據(jù)建模Rattle選項(xiàng)卡介紹第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.3關(guān)聯(lián)分析模型9.4傳統(tǒng)決策樹模型9.8線性回歸模型9.5隨機(jī)森林決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.3關(guān)聯(lián)分

聚類模型指將物理或抽象對象的集合分組為由類似的對象組成的多個(gè)類的分析過程。聚類是一種把兩個(gè)觀測數(shù)據(jù)根據(jù)它們之間的距離計(jì)算相似度來分組的方法(沒有指導(dǎo)樣本)。已經(jīng)開發(fā)了大量的聚類算法,如K-means、Hierachical、Ewkm和BiCluster,操作界面見下圖。9.2聚類模型第九章數(shù)據(jù)建模聚類模型指將物理或抽象對象的集合分組為由類似的9.2聚類模型第九章數(shù)據(jù)建模(1)算法描述K-means聚類算法屬于非層次聚類法的一種,是最簡單的聚類算法之一,但是運(yùn)用十分廣泛。k-means的計(jì)算方法如下:Step1:隨機(jī)選取k個(gè)中心點(diǎn)。Step2:遍歷所有數(shù)據(jù),將每個(gè)數(shù)據(jù)劃分到最近的中心點(diǎn)中。Step3:計(jì)算每個(gè)聚類的平均值,并作為新的中心點(diǎn)。Step4:重復(fù)Step2-3,直到這k個(gè)中線點(diǎn)不再變化(收斂了),

或執(zhí)行了足夠多的迭代。方法有兩個(gè)特點(diǎn):通常要求已知類別數(shù);只能使用連續(xù)性變量。K-means聚類9.2聚類模型第九章數(shù)據(jù)建模(1)算法描述K-means9.2聚類模型第九章數(shù)據(jù)建模(2)操作實(shí)例數(shù)據(jù)集是weather,K=4時(shí)的聚類結(jié)果,24個(gè)變量中數(shù)值變量有16個(gè),由于沒有選擇聚類變量個(gè)數(shù),默認(rèn)對所有數(shù)值變量聚類。在下圖點(diǎn)擊【Data】按鈕對聚類結(jié)果可視化。K-means聚類9.2聚類模型第九章數(shù)據(jù)建模(2)操作實(shí)例K-means9.2聚類模型第九章數(shù)據(jù)建模(2)操作實(shí)例下圖是對變量MinTemp和Rainfall的可視化展示。K-means聚類9.2聚類模型第九章數(shù)據(jù)建模(2)操作實(shí)例K-means9.2聚類模型第九章數(shù)據(jù)建模參數(shù)IterateClusters允許建立多個(gè)聚類模型,利用度量每個(gè)模型的結(jié)果指導(dǎo)建立多聚類模型。圖9.6顯示了對變量MinTemp和Rainfall建立3個(gè)聚類模型,可視化報(bào)告見圖9.7。K-means聚類實(shí)線表示每個(gè)聚類模型的類內(nèi)數(shù)據(jù)的平方和,虛線表示當(dāng)前聚類模型的類內(nèi)數(shù)據(jù)的平方和與前一個(gè)聚類模型的類內(nèi)數(shù)據(jù)的平方和的差,或改進(jìn)度量。9.2聚類模型第九章數(shù)據(jù)建模參數(shù)IterateClus9.2聚類模型第九章數(shù)據(jù)建模

一旦完成建模,按鈕Stats、DataPlot、Discriminant可用。單擊“Stats”按鈕,將在結(jié)果展示區(qū)顯示每個(gè)聚類簇所有參與模型質(zhì)量評估的統(tǒng)計(jì)量,并比較不同K-means模型。單擊“DataPlot”按鈕輸出數(shù)據(jù)分布可視化圖形,單擊“Discriminant”按鈕輸出判別式坐標(biāo)圖,該圖突出原始數(shù)據(jù)簇與簇之間的關(guān)鍵差異,類似于PCA(principalcomponentsanalysis)。點(diǎn)擊“Discriminant”按鈕判別式坐標(biāo)圖顯示在下圖。

K-means聚類9.2聚類模型第九章數(shù)據(jù)建模一旦完成建模第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.8線性回歸模型9.5隨機(jī)森林決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建?;拘g(shù)語9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模基本術(shù)語9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建?;拘g(shù)語9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模基本術(shù)語9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模Apriori算法9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模Apriori算法9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模通過【Data】選項(xiàng)卡導(dǎo)入數(shù)據(jù)實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模通過【Data】實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模變量ID自動(dòng)選擇Ident角色,但需要改變Item變量的角色為Target。在Associate選項(xiàng)卡,確保參數(shù)Baskets打鉤,單擊“Execute”按鈕建立由關(guān)聯(lián)規(guī)則組成的模型,下圖展示區(qū)顯示相關(guān)分析結(jié)果,支持度=0.1,置信度=0.1的情況下,共挖掘了29條規(guī)則。實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模變量ID自動(dòng)選擇實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模單擊“FreqPlot”按鈕顯示頻繁項(xiàng)直方圖,如下圖所示。實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模單擊“Freq實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模單擊“Plot”按鈕顯示可視化規(guī)則圖,如下圖所示。實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模單擊“Plot”第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回歸模型9.5隨機(jī)森林決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模一般上一般下不是北京人脾氣是北京家住址不溫柔溫柔長相個(gè)頭一般下一般上9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模一般上一般下不是北京人ID3算法Step1:將訓(xùn)練集S分為1......N個(gè)類別。Step2:計(jì)算S的總信息熵INFO(S),改值等于最終類別的各自信息量和概率質(zhì)量函數(shù)的乘積,即每個(gè)類別所占訓(xùn)練集的比例乘以該比例的對數(shù)值取負(fù),然后加和。Step3:確定用來進(jìn)行分類的屬性向量V1,V2....VnStep4:計(jì)算每個(gè)屬性向量對應(yīng)的該屬性向量對訓(xùn)練集的信息熵INFO(S)Vi,比如對應(yīng)的屬性Vi將訓(xùn)練集分為了M類,那么改值等于在該屬性劃分下的某一類值出現(xiàn)的概率乘以對應(yīng)的該值所在的集的信息熵。改值所在的集的信息熵再套公式發(fā)現(xiàn)等于最終分類在Vi屬性劃分下的某一個(gè)類里的概率值乘以該概率值的對數(shù)值取負(fù)。表述的有些復(fù)雜,最好看公式。Step5:在眾多屬性對于訓(xùn)練集的信息熵之中取最小的,這樣信息增益最大。信息增益最大代表著分類越有效。Step6:完成了一次屬性的分裂,之后的遞歸。9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模ID3算法Step1:將訓(xùn)練集S分為1......N個(gè)類C4.5算法C4.5算法既可以處理離散型描述屬性,也可以處理連續(xù)型描述屬性。在選擇某節(jié)點(diǎn)上的分支屬性時(shí),對于離散型描述屬性,C4.5算法的處理方法與ID3相同,按照該屬性本身的取值個(gè)數(shù)進(jìn)行計(jì)算;對于某個(gè)連續(xù)性描述屬性Ac,假設(shè)在某個(gè)節(jié)點(diǎn)上的數(shù)據(jù)集的樣本數(shù)量為total,C4.5算法將做以下處理:將該節(jié)點(diǎn)上的所有數(shù)據(jù)樣本按照連續(xù)型描述的屬性的具體數(shù)值,由小到大進(jìn)行排序,得到屬性值的取值序列為{A1c,A2c,……Atotalc}。在取值序列生成total-1個(gè)分割點(diǎn)。第i(0<i<total)個(gè)分割點(diǎn)的取值設(shè)置為Vi=(Aic+A(i+1)c)/2,它可以將該節(jié)點(diǎn)上的數(shù)據(jù)集劃分為兩個(gè)子集。從total-1個(gè)分割點(diǎn)中選擇最佳分割點(diǎn)。對于每個(gè)分割點(diǎn)劃分?jǐn)?shù)據(jù)集的方式,C4.5算法計(jì)算它的信息增益比,并且從中選擇信息增益比最大的分割點(diǎn)來劃分?jǐn)?shù)據(jù)集。9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模C4.5算法C4.5算法既可以處理離散型描述屬性,也可以處理傳統(tǒng)決策樹9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模傳統(tǒng)決策樹9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模分組匯總

單擊“Draw”按鈕得到可視化的決策樹,如下圖所示9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模分組匯總單擊“Draw”按鈕得到可視化的決策樹第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回歸模型9.4傳統(tǒng)決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.5

隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回

為了克服決策樹容易過度擬合的缺點(diǎn),隨機(jī)森林算法(RandomForests,RF)在變量(列)的使用和數(shù)據(jù)(行)的使用上進(jìn)行隨機(jī)化,生成很多分類樹,再匯總分類樹的結(jié)果。隨機(jī)森林在運(yùn)算量沒有顯著提高的前提下提高了預(yù)測精度,對多元共線性不敏感,可以很好地預(yù)測多達(dá)幾千個(gè)解釋變量的作用,是當(dāng)前最好的算法之一。9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模為了克服決策樹容易過度擬合的缺點(diǎn),隨機(jī)森林算法

(1)隨機(jī)森林的定義

隨機(jī)森林是一個(gè)由決策樹分類器集合{h(x,k),k=1,2……}構(gòu)成的組合分類器模型,其中參數(shù)集{k}是獨(dú)立同分布的隨機(jī)向量,x是輸入向量。當(dāng)給定輸入向量時(shí),每個(gè)決策樹有一票投票權(quán)來選擇最優(yōu)分類結(jié)果。每個(gè)決策樹是由分類回歸樹(CART)算法構(gòu)建的未剪枝的決策樹。(2)隨機(jī)森林的基本思想

隨機(jī)森林是通過自助法(Bootstrap)重復(fù)采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本以生成新的訓(xùn)練集樣本集合,然后根據(jù)自助樣本生成k決策樹組成的隨機(jī)森林。其實(shí)質(zhì)是對決策樹算法的一種改進(jìn),將多個(gè)決策樹合并在一起,每棵樹的建立依賴一個(gè)獨(dú)立抽取的樣本,森林中的每棵樹具有相同的分布,分類誤差取決于每棵樹的分類能力和分類樹之間的相關(guān)性。9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模(1)隨機(jī)森林的定義9.5隨機(jī)森林決策樹模型實(shí)驗(yàn)指導(dǎo)9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模規(guī)則多少?規(guī)則形式如何?規(guī)則由哪個(gè)節(jié)點(diǎn)產(chǎn)生?規(guī)則由哪棵顆樹產(chǎn)生?這些問題由下圖“Rules”按鈕右邊的數(shù)字決定。9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模規(guī)則多少?規(guī)則形式如何?規(guī)則由哪個(gè)節(jié)點(diǎn)產(chǎn)生?規(guī)則由哪棵顆樹產(chǎn)第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回歸模型9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.6

自適應(yīng)選擇決策樹模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回

自適應(yīng)選擇模型包含一批模型,如bagging算法,Boosting算法和adaboost算法,它們是一種把若干個(gè)分類器整合為一個(gè)分類器的方法。首先簡要介紹一下bootstrapping方法和bagging方法。(1)bootstrapping方法的主要過程主要步驟:重復(fù)地從一個(gè)樣本集合D中采樣n個(gè)樣本。②針對每次采樣的子樣本集進(jìn)行統(tǒng)計(jì)學(xué)習(xí),獲得假設(shè)Hi。將若干個(gè)假設(shè)進(jìn)行組合,形成最終的假設(shè)Hfinal。④將最終的假設(shè)用于具體的分類任務(wù)。9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模自適應(yīng)選擇模型包含一批模型,如bagging算(2)bagging方法的主要過程主要思路:

①訓(xùn)練分類器。從整體樣本集合中抽樣n*

<

N個(gè)樣本,針對抽樣的集合訓(xùn)練分類器Ci。②分類器進(jìn)行投票,最終的結(jié)果是分類器投票的優(yōu)勝結(jié)果。9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模(2)bagging方法的主要過程9.6自適應(yīng)決策樹模型第實(shí)驗(yàn)指導(dǎo)9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模單擊“Draw”按鈕,顯示模型的可視化結(jié)果9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模單擊“Draw”按鈕,顯示模型的可視化結(jié)果9.6自適應(yīng)決策第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.6自適應(yīng)選擇決策樹模型9.8線性回歸模型9.7

SVM第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決9.7SVM第九章數(shù)據(jù)建模支持向量機(jī)(Support

Vector

Machine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。傳統(tǒng)的統(tǒng)計(jì)模式識別方法在進(jìn)行機(jī)器學(xué)習(xí)時(shí),強(qiáng)調(diào)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,而單純的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化會(huì)產(chǎn)生“過學(xué)習(xí)問題”,其推廣能力較差。根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論,學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險(xiǎn)由經(jīng)驗(yàn)風(fēng)險(xiǎn)值和置信范圍值兩部分組成。而基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)方法只強(qiáng)調(diào)了訓(xùn)練樣本的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小誤差,沒有最小化置信范圍值,因此其推廣能力較差。9.7SVM第九章數(shù)據(jù)建模支持向量機(jī)(Support

VSVM算法9.7SVM第九章數(shù)據(jù)建模

SVM算法9.7SVM第九章數(shù)據(jù)建模9.7SVM第九章數(shù)據(jù)建模

滿足上述條件,并且使

最小的分類面就叫做最優(yōu)分類面,過兩類樣本中離分類面最近的點(diǎn)且平行于最優(yōu)分類面的超平面H1,H2上的訓(xùn)練樣本點(diǎn)就稱作支持向量(supportvector),因?yàn)樗鼈儭爸С帧绷俗顑?yōu)分類面。

利用Lagrange優(yōu)化方法可以把上述最優(yōu)分類面問題轉(zhuǎn)化為如下這種較簡單的對偶問題,即:在約束條件,下面對

求解下列函數(shù)的最大值:9.7SVM第九章數(shù)據(jù)建模滿足上述條件,并實(shí)驗(yàn)指導(dǎo)9.7SVM第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.7SVM第九章數(shù)據(jù)建模第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.8線性回歸模型9.6自適應(yīng)選擇決策樹模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決

回歸分析(Regression

Analysis)是研究變量之間作用關(guān)系的一種統(tǒng)計(jì)分析方法,其基本組成是一個(gè)(或一組)自變量與一個(gè)(或一組)因變量?;貧w分析研究的目的是通過收集到的樣本數(shù)據(jù)用一定的統(tǒng)計(jì)方法探討自變量對因變量的影響關(guān)系,即原因?qū)Y(jié)果的影響程度。

回歸分析是指對具有高度相關(guān)關(guān)系的現(xiàn)象,根據(jù)其相關(guān)的形態(tài),建立一個(gè)適當(dāng)?shù)臄?shù)學(xué)模型(函數(shù)式),來近似地反映變量之間關(guān)系的統(tǒng)計(jì)分析方法。利用這種方法建立的數(shù)學(xué)模型稱為回歸方程,它實(shí)際上是相關(guān)現(xiàn)象之間不確定、不規(guī)則的數(shù)量關(guān)系的一般化?;貧w分析分類,如圖9.48所示

。9.8線性回歸模型第九章數(shù)據(jù)建?;貧w分析(Regression

Analysi分類9.8線性回歸模型第九章數(shù)據(jù)建模分類9.8線性回歸模型第九章數(shù)據(jù)建模一元線性回歸方法(1)確定回歸模型

由于我們研究的是一元線性回歸,因此其回歸模型可表示為:y=0+1x+。其中,y是因變量;x是自變量;是誤差項(xiàng);0和1稱為模型參數(shù)(回歸系數(shù))。(2)求出回歸系數(shù)

回歸系數(shù)的求解,最常用的一種方法就是最小二乘估計(jì)法,基本原理是,根據(jù)實(shí)驗(yàn)觀測得到的自變量x和因變量y之間的一組對應(yīng)關(guān)系,找出一個(gè)給定類型的函數(shù)y=f(x),使得它所取的值f(x1),f(x2),…,f(xn)與觀測值y1,y2,..,yn在某種尺度下最接近,即在各點(diǎn)處的偏差的平方和達(dá)到最小9.8線性回歸模型第九章數(shù)據(jù)建模一元線性回歸方法(1)確定回歸模型9.8線性回歸模型第九章一元線性回歸方法9.8線性回歸模型第九章數(shù)據(jù)建模一元線性回歸方法9.8線性回歸模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模線性回歸模型提供了兩種策略:Logistic和Probit。下圖顯示了模型回歸模型驗(yàn)證結(jié)果。實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模線性回歸模型提供實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模①正態(tài)性(右上角QQ圖)。如果滿足正規(guī)假設(shè),則圖上的點(diǎn)應(yīng)落在具有45度角的直線上,否則違反正規(guī)性假設(shè)。②如果因變量與自變量線性相關(guān),則殘差值與預(yù)測值不相關(guān)。該圖這暗示著你可能需要對回歸模型加上一個(gè)二次項(xiàng)。③如果相同的方差(齊次性,左下角)滿足不變方差假設(shè),則水平線周圍的點(diǎn)應(yīng)隨機(jī)分布在左下圖中。該圖似乎滿足此假設(shè)。④最后一幅“殘差與杠圖”(右下)提供了你可能關(guān)注的單個(gè)觀測點(diǎn)的信息。圖形可以識別離群點(diǎn)、高杠桿點(diǎn)和強(qiáng)影響點(diǎn)。實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模①正態(tài)性(右上角第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.7

SVM9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.6自適應(yīng)選擇決策樹模型9.8線性回歸模型9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模激活函數(shù)

可以有以下幾種:(1)閾值函數(shù)(2)分段線性函數(shù)神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模激活函數(shù)可以有以神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模(3)sigmoid函數(shù)(4)雙曲正切函數(shù)神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模(3)sigmoi網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模(1)前饋型網(wǎng)絡(luò)。各神經(jīng)元接收前一層的輸入,并輸出給下一層,沒有反饋。節(jié)點(diǎn)分為兩類,即輸入單元和計(jì)算單元,每一計(jì)算單元可有任意個(gè)輸入,但只有一個(gè)輸出(它可耦合到任意多個(gè)其它節(jié)點(diǎn)作為其輸出)。通常前饋網(wǎng)絡(luò)可分為不同的層,第i層的輸入只與第i-1層輸出相連,輸入和輸出節(jié)點(diǎn)與外界相連,而其它中間層則稱為隱層。(2)反饋型網(wǎng)絡(luò)所有節(jié)點(diǎn)都是計(jì)算單元,同時(shí)也可接收輸入,并向外界輸出。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模(1)前饋型工作過程9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模NN的工作過程主要分為兩個(gè)階段:第一個(gè)階段是學(xué)習(xí)期,此時(shí)各計(jì)算單元狀態(tài)不變,各連線上的權(quán)值可通過學(xué)習(xí)來修改;第二階段是工作期,此時(shí)各連接權(quán)固定,計(jì)算單元狀態(tài)變化,以達(dá)到某種穩(wěn)定狀態(tài)。工作過程9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模NN的工作過程主實(shí)驗(yàn)指導(dǎo)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模第一隱藏層權(quán)重實(shí)驗(yàn)指導(dǎo)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模第一隱藏層權(quán)重實(shí)驗(yàn)指導(dǎo)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模第二隱藏層權(quán)重實(shí)驗(yàn)指導(dǎo)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模第二隱藏層權(quán)重實(shí)驗(yàn)指導(dǎo)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模第三隱藏層權(quán)重實(shí)驗(yàn)指導(dǎo)9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模第三隱藏層權(quán)重第九章數(shù)據(jù)建模大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.7

SVM9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.6自適應(yīng)選擇決策樹模型9.8線性回歸模型9.9神經(jīng)網(wǎng)絡(luò)模型習(xí)題9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹1.

中的公式表達(dá)了“過原點(diǎn)的線性回歸模型”。Alm.sol<-lm(y~1+x)Blm.sol<-lm(y~x)Clm.sol<-lm(y~x-1)Dlm.sol<-lm(y~.)2.在線性回歸模型的匯總結(jié)果中,圖中的“***”是表示

。A回歸系數(shù)顯著性檢驗(yàn)通過B回歸方程顯著性檢驗(yàn)通過C回歸系數(shù)顯著性檢驗(yàn)不通過D回歸方程顯著性檢驗(yàn)不通過3.在多元線性回歸中,一般可以使用“逐步回歸”的方法進(jìn)行變量選擇,在R語言中實(shí)現(xiàn)的函數(shù)是

。Aregression()Bstep()Csummary()Dlm()4.分類算法與聚類算法的主要區(qū)別是

。A前者有學(xué)習(xí)集,后者沒有B后者有測試集,前者沒有B后者有學(xué)習(xí)集,前者沒有D前者有測試集,后者沒有5.kmeans算法是

。A聚類算法B回歸算法C分類算法D主成份分析算法習(xí)題:1.中的公式表達(dá)了“過原點(diǎn)的線性回歸模型”6.以下中的

不屬于k-means算法的局限性。A不能處理非球形的簇B容易受到所選擇的初始值影響C離群值可能造成較大干擾D不能處理不同尺寸,不同密度的簇7.命令iris.rp=rpart(Species~.,data=iris,method="class")的作用是對鳶尾花數(shù)據(jù)集建立

。A線性判別模型B神經(jīng)網(wǎng)絡(luò)判別模型Capriori購物籃分析模型D決策樹判別模型8.按照不同標(biāo)準(zhǔn),相關(guān)規(guī)則可以進(jìn)行不同的分類,基于規(guī)則中數(shù)據(jù)的抽象層次可以分為

。A.布爾型和數(shù)值型B.單層相關(guān)和多層相關(guān)

C.單維的和多維D.整型和浮點(diǎn)型9.Apriori算法用于挖掘

頻繁項(xiàng)集的算法。A.布爾相關(guān)規(guī)則B.多維相關(guān)規(guī)則C.單精度相關(guān)規(guī)則D.多層相關(guān)規(guī)則10.下面

算法不是自適應(yīng)選擇模型中包含一批模型?A.bagging算法B.Boosting算法C.adaboost算法D.hessian算法

習(xí)題:6.以下中的不屬于k-means算法的局限感謝聆聽感謝聆聽第九章數(shù)據(jù)建模9.1

Rattle包9.2聚類模型習(xí)題9.3關(guān)聯(lián)分析模型9.4傳統(tǒng)決策樹模型9.8線性回歸模型9.5隨機(jī)森林決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模9.1Rattle包9.2聚類模型習(xí)題99.1Rattle包第九章數(shù)據(jù)建模install.packages("cairoDevice")install.packages("RGtk2")install.packages("rattle")用上述代碼可以完成rattle包的安裝。在Rstudio命令控制臺(tái)輸入如下腳本載入Rattle包:>library(rattle)在Rstudio命令控制臺(tái)輸入如下腳本啟動(dòng)Rattle:>rattle()Rattle的安裝與啟動(dòng)9.1Rattle包第九章數(shù)據(jù)建模install.pac9.1Rattle包第九章數(shù)據(jù)建模Rattle選項(xiàng)卡介紹9.1Rattle包第九章數(shù)據(jù)建模Rattle選項(xiàng)卡介紹第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.3關(guān)聯(lián)分析模型9.4傳統(tǒng)決策樹模型9.8線性回歸模型9.5隨機(jī)森林決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.3關(guān)聯(lián)分

聚類模型指將物理或抽象對象的集合分組為由類似的對象組成的多個(gè)類的分析過程。聚類是一種把兩個(gè)觀測數(shù)據(jù)根據(jù)它們之間的距離計(jì)算相似度來分組的方法(沒有指導(dǎo)樣本)。已經(jīng)開發(fā)了大量的聚類算法,如K-means、Hierachical、Ewkm和BiCluster,操作界面見下圖。9.2聚類模型第九章數(shù)據(jù)建模聚類模型指將物理或抽象對象的集合分組為由類似的9.2聚類模型第九章數(shù)據(jù)建模(1)算法描述K-means聚類算法屬于非層次聚類法的一種,是最簡單的聚類算法之一,但是運(yùn)用十分廣泛。k-means的計(jì)算方法如下:Step1:隨機(jī)選取k個(gè)中心點(diǎn)。Step2:遍歷所有數(shù)據(jù),將每個(gè)數(shù)據(jù)劃分到最近的中心點(diǎn)中。Step3:計(jì)算每個(gè)聚類的平均值,并作為新的中心點(diǎn)。Step4:重復(fù)Step2-3,直到這k個(gè)中線點(diǎn)不再變化(收斂了),

或執(zhí)行了足夠多的迭代。方法有兩個(gè)特點(diǎn):通常要求已知類別數(shù);只能使用連續(xù)性變量。K-means聚類9.2聚類模型第九章數(shù)據(jù)建模(1)算法描述K-means9.2聚類模型第九章數(shù)據(jù)建模(2)操作實(shí)例數(shù)據(jù)集是weather,K=4時(shí)的聚類結(jié)果,24個(gè)變量中數(shù)值變量有16個(gè),由于沒有選擇聚類變量個(gè)數(shù),默認(rèn)對所有數(shù)值變量聚類。在下圖點(diǎn)擊【Data】按鈕對聚類結(jié)果可視化。K-means聚類9.2聚類模型第九章數(shù)據(jù)建模(2)操作實(shí)例K-means9.2聚類模型第九章數(shù)據(jù)建模(2)操作實(shí)例下圖是對變量MinTemp和Rainfall的可視化展示。K-means聚類9.2聚類模型第九章數(shù)據(jù)建模(2)操作實(shí)例K-means9.2聚類模型第九章數(shù)據(jù)建模參數(shù)IterateClusters允許建立多個(gè)聚類模型,利用度量每個(gè)模型的結(jié)果指導(dǎo)建立多聚類模型。圖9.6顯示了對變量MinTemp和Rainfall建立3個(gè)聚類模型,可視化報(bào)告見圖9.7。K-means聚類實(shí)線表示每個(gè)聚類模型的類內(nèi)數(shù)據(jù)的平方和,虛線表示當(dāng)前聚類模型的類內(nèi)數(shù)據(jù)的平方和與前一個(gè)聚類模型的類內(nèi)數(shù)據(jù)的平方和的差,或改進(jìn)度量。9.2聚類模型第九章數(shù)據(jù)建模參數(shù)IterateClus9.2聚類模型第九章數(shù)據(jù)建模

一旦完成建模,按鈕Stats、DataPlot、Discriminant可用。單擊“Stats”按鈕,將在結(jié)果展示區(qū)顯示每個(gè)聚類簇所有參與模型質(zhì)量評估的統(tǒng)計(jì)量,并比較不同K-means模型。單擊“DataPlot”按鈕輸出數(shù)據(jù)分布可視化圖形,單擊“Discriminant”按鈕輸出判別式坐標(biāo)圖,該圖突出原始數(shù)據(jù)簇與簇之間的關(guān)鍵差異,類似于PCA(principalcomponentsanalysis)。點(diǎn)擊“Discriminant”按鈕判別式坐標(biāo)圖顯示在下圖。

K-means聚類9.2聚類模型第九章數(shù)據(jù)建模一旦完成建模第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.8線性回歸模型9.5隨機(jī)森林決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建?;拘g(shù)語9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建?;拘g(shù)語9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建?;拘g(shù)語9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模基本術(shù)語9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模Apriori算法9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模Apriori算法9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模通過【Data】選項(xiàng)卡導(dǎo)入數(shù)據(jù)實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模通過【Data】實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模變量ID自動(dòng)選擇Ident角色,但需要改變Item變量的角色為Target。在Associate選項(xiàng)卡,確保參數(shù)Baskets打鉤,單擊“Execute”按鈕建立由關(guān)聯(lián)規(guī)則組成的模型,下圖展示區(qū)顯示相關(guān)分析結(jié)果,支持度=0.1,置信度=0.1的情況下,共挖掘了29條規(guī)則。實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模變量ID自動(dòng)選擇實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模單擊“FreqPlot”按鈕顯示頻繁項(xiàng)直方圖,如下圖所示。實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模單擊“Freq實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模單擊“Plot”按鈕顯示可視化規(guī)則圖,如下圖所示。實(shí)驗(yàn)指導(dǎo)9.3關(guān)聯(lián)分析模型第九章數(shù)據(jù)建模單擊“Plot”第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回歸模型9.5隨機(jī)森林決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模一般上一般下不是北京人脾氣是北京家住址不溫柔溫柔長相個(gè)頭一般下一般上9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模一般上一般下不是北京人ID3算法Step1:將訓(xùn)練集S分為1......N個(gè)類別。Step2:計(jì)算S的總信息熵INFO(S),改值等于最終類別的各自信息量和概率質(zhì)量函數(shù)的乘積,即每個(gè)類別所占訓(xùn)練集的比例乘以該比例的對數(shù)值取負(fù),然后加和。Step3:確定用來進(jìn)行分類的屬性向量V1,V2....VnStep4:計(jì)算每個(gè)屬性向量對應(yīng)的該屬性向量對訓(xùn)練集的信息熵INFO(S)Vi,比如對應(yīng)的屬性Vi將訓(xùn)練集分為了M類,那么改值等于在該屬性劃分下的某一類值出現(xiàn)的概率乘以對應(yīng)的該值所在的集的信息熵。改值所在的集的信息熵再套公式發(fā)現(xiàn)等于最終分類在Vi屬性劃分下的某一個(gè)類里的概率值乘以該概率值的對數(shù)值取負(fù)。表述的有些復(fù)雜,最好看公式。Step5:在眾多屬性對于訓(xùn)練集的信息熵之中取最小的,這樣信息增益最大。信息增益最大代表著分類越有效。Step6:完成了一次屬性的分裂,之后的遞歸。9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模ID3算法Step1:將訓(xùn)練集S分為1......N個(gè)類C4.5算法C4.5算法既可以處理離散型描述屬性,也可以處理連續(xù)型描述屬性。在選擇某節(jié)點(diǎn)上的分支屬性時(shí),對于離散型描述屬性,C4.5算法的處理方法與ID3相同,按照該屬性本身的取值個(gè)數(shù)進(jìn)行計(jì)算;對于某個(gè)連續(xù)性描述屬性Ac,假設(shè)在某個(gè)節(jié)點(diǎn)上的數(shù)據(jù)集的樣本數(shù)量為total,C4.5算法將做以下處理:將該節(jié)點(diǎn)上的所有數(shù)據(jù)樣本按照連續(xù)型描述的屬性的具體數(shù)值,由小到大進(jìn)行排序,得到屬性值的取值序列為{A1c,A2c,……Atotalc}。在取值序列生成total-1個(gè)分割點(diǎn)。第i(0<i<total)個(gè)分割點(diǎn)的取值設(shè)置為Vi=(Aic+A(i+1)c)/2,它可以將該節(jié)點(diǎn)上的數(shù)據(jù)集劃分為兩個(gè)子集。從total-1個(gè)分割點(diǎn)中選擇最佳分割點(diǎn)。對于每個(gè)分割點(diǎn)劃分?jǐn)?shù)據(jù)集的方式,C4.5算法計(jì)算它的信息增益比,并且從中選擇信息增益比最大的分割點(diǎn)來劃分?jǐn)?shù)據(jù)集。9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模C4.5算法C4.5算法既可以處理離散型描述屬性,也可以處理傳統(tǒng)決策樹9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模傳統(tǒng)決策樹9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模分組匯總

單擊“Draw”按鈕得到可視化的決策樹,如下圖所示9.4傳統(tǒng)決策樹模型第九章數(shù)據(jù)建模分組匯總單擊“Draw”按鈕得到可視化的決策樹第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回歸模型9.4傳統(tǒng)決策樹模型9.6自適應(yīng)選擇決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.5

隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回

為了克服決策樹容易過度擬合的缺點(diǎn),隨機(jī)森林算法(RandomForests,RF)在變量(列)的使用和數(shù)據(jù)(行)的使用上進(jìn)行隨機(jī)化,生成很多分類樹,再匯總分類樹的結(jié)果。隨機(jī)森林在運(yùn)算量沒有顯著提高的前提下提高了預(yù)測精度,對多元共線性不敏感,可以很好地預(yù)測多達(dá)幾千個(gè)解釋變量的作用,是當(dāng)前最好的算法之一。9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模為了克服決策樹容易過度擬合的缺點(diǎn),隨機(jī)森林算法

(1)隨機(jī)森林的定義

隨機(jī)森林是一個(gè)由決策樹分類器集合{h(x,k),k=1,2……}構(gòu)成的組合分類器模型,其中參數(shù)集{k}是獨(dú)立同分布的隨機(jī)向量,x是輸入向量。當(dāng)給定輸入向量時(shí),每個(gè)決策樹有一票投票權(quán)來選擇最優(yōu)分類結(jié)果。每個(gè)決策樹是由分類回歸樹(CART)算法構(gòu)建的未剪枝的決策樹。(2)隨機(jī)森林的基本思想

隨機(jī)森林是通過自助法(Bootstrap)重復(fù)采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本以生成新的訓(xùn)練集樣本集合,然后根據(jù)自助樣本生成k決策樹組成的隨機(jī)森林。其實(shí)質(zhì)是對決策樹算法的一種改進(jìn),將多個(gè)決策樹合并在一起,每棵樹的建立依賴一個(gè)獨(dú)立抽取的樣本,森林中的每棵樹具有相同的分布,分類誤差取決于每棵樹的分類能力和分類樹之間的相關(guān)性。9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模(1)隨機(jī)森林的定義9.5隨機(jī)森林決策樹模型實(shí)驗(yàn)指導(dǎo)9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模規(guī)則多少?規(guī)則形式如何?規(guī)則由哪個(gè)節(jié)點(diǎn)產(chǎn)生?規(guī)則由哪棵顆樹產(chǎn)生?這些問題由下圖“Rules”按鈕右邊的數(shù)字決定。9.5隨機(jī)森林決策樹模型第九章數(shù)據(jù)建模規(guī)則多少?規(guī)則形式如何?規(guī)則由哪個(gè)節(jié)點(diǎn)產(chǎn)生?規(guī)則由哪棵顆樹產(chǎn)第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回歸模型9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.6

自適應(yīng)選擇決策樹模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.8線性回

自適應(yīng)選擇模型包含一批模型,如bagging算法,Boosting算法和adaboost算法,它們是一種把若干個(gè)分類器整合為一個(gè)分類器的方法。首先簡要介紹一下bootstrapping方法和bagging方法。(1)bootstrapping方法的主要過程主要步驟:重復(fù)地從一個(gè)樣本集合D中采樣n個(gè)樣本。②針對每次采樣的子樣本集進(jìn)行統(tǒng)計(jì)學(xué)習(xí),獲得假設(shè)Hi。將若干個(gè)假設(shè)進(jìn)行組合,形成最終的假設(shè)Hfinal。④將最終的假設(shè)用于具體的分類任務(wù)。9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模自適應(yīng)選擇模型包含一批模型,如bagging算(2)bagging方法的主要過程主要思路:

①訓(xùn)練分類器。從整體樣本集合中抽樣n*

<

N個(gè)樣本,針對抽樣的集合訓(xùn)練分類器Ci。②分類器進(jìn)行投票,最終的結(jié)果是分類器投票的優(yōu)勝結(jié)果。9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模(2)bagging方法的主要過程9.6自適應(yīng)決策樹模型第實(shí)驗(yàn)指導(dǎo)9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模單擊“Draw”按鈕,顯示模型的可視化結(jié)果9.6自適應(yīng)決策樹模型第九章數(shù)據(jù)建模單擊“Draw”按鈕,顯示模型的可視化結(jié)果9.6自適應(yīng)決策第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.6自適應(yīng)選擇決策樹模型9.8線性回歸模型9.7

SVM第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決9.7SVM第九章數(shù)據(jù)建模支持向量機(jī)(Support

Vector

Machine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。傳統(tǒng)的統(tǒng)計(jì)模式識別方法在進(jìn)行機(jī)器學(xué)習(xí)時(shí),強(qiáng)調(diào)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,而單純的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化會(huì)產(chǎn)生“過學(xué)習(xí)問題”,其推廣能力較差。根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論,學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險(xiǎn)由經(jīng)驗(yàn)風(fēng)險(xiǎn)值和置信范圍值兩部分組成。而基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)方法只強(qiáng)調(diào)了訓(xùn)練樣本的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小誤差,沒有最小化置信范圍值,因此其推廣能力較差。9.7SVM第九章數(shù)據(jù)建模支持向量機(jī)(Support

VSVM算法9.7SVM第九章數(shù)據(jù)建模

SVM算法9.7SVM第九章數(shù)據(jù)建模9.7SVM第九章數(shù)據(jù)建模

滿足上述條件,并且使

最小的分類面就叫做最優(yōu)分類面,過兩類樣本中離分類面最近的點(diǎn)且平行于最優(yōu)分類面的超平面H1,H2上的訓(xùn)練樣本點(diǎn)就稱作支持向量(supportvector),因?yàn)樗鼈儭爸С帧绷俗顑?yōu)分類面。

利用Lagrange優(yōu)化方法可以把上述最優(yōu)分類面問題轉(zhuǎn)化為如下這種較簡單的對偶問題,即:在約束條件,下面對

求解下列函數(shù)的最大值:9.7SVM第九章數(shù)據(jù)建模滿足上述條件,并實(shí)驗(yàn)指導(dǎo)9.7SVM第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.7SVM第九章數(shù)據(jù)建模第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.7

SVM9.9神經(jīng)網(wǎng)絡(luò)模型9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.8線性回歸模型9.6自適應(yīng)選擇決策樹模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決

回歸分析(Regression

Analysis)是研究變量之間作用關(guān)系的一種統(tǒng)計(jì)分析方法,其基本組成是一個(gè)(或一組)自變量與一個(gè)(或一組)因變量。回歸分析研究的目的是通過收集到的樣本數(shù)據(jù)用一定的統(tǒng)計(jì)方法探討自變量對因變量的影響關(guān)系,即原因?qū)Y(jié)果的影響程度。

回歸分析是指對具有高度相關(guān)關(guān)系的現(xiàn)象,根據(jù)其相關(guān)的形態(tài),建立一個(gè)適當(dāng)?shù)臄?shù)學(xué)模型(函數(shù)式),來近似地反映變量之間關(guān)系的統(tǒng)計(jì)分析方法。利用這種方法建立的數(shù)學(xué)模型稱為回歸方程,它實(shí)際上是相關(guān)現(xiàn)象之間不確定、不規(guī)則的數(shù)量關(guān)系的一般化?;貧w分析分類,如圖9.48所示

。9.8線性回歸模型第九章數(shù)據(jù)建模回歸分析(Regression

Analysi分類9.8線性回歸模型第九章數(shù)據(jù)建模分類9.8線性回歸模型第九章數(shù)據(jù)建模一元線性回歸方法(1)確定回歸模型

由于我們研究的是一元線性回歸,因此其回歸模型可表示為:y=0+1x+。其中,y是因變量;x是自變量;是誤差項(xiàng);0和1稱為模型參數(shù)(回歸系數(shù))。(2)求出回歸系數(shù)

回歸系數(shù)的求解,最常用的一種方法就是最小二乘估計(jì)法,基本原理是,根據(jù)實(shí)驗(yàn)觀測得到的自變量x和因變量y之間的一組對應(yīng)關(guān)系,找出一個(gè)給定類型的函數(shù)y=f(x),使得它所取的值f(x1),f(x2),…,f(xn)與觀測值y1,y2,..,yn在某種尺度下最接近,即在各點(diǎn)處的偏差的平方和達(dá)到最小9.8線性回歸模型第九章數(shù)據(jù)建模一元線性回歸方法(1)確定回歸模型9.8線性回歸模型第九章一元線性回歸方法9.8線性回歸模型第九章數(shù)據(jù)建模一元線性回歸方法9.8線性回歸模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模線性回歸模型提供了兩種策略:Logistic和Probit。下圖顯示了模型回歸模型驗(yàn)證結(jié)果。實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模線性回歸模型提供實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模①正態(tài)性(右上角QQ圖)。如果滿足正規(guī)假設(shè),則圖上的點(diǎn)應(yīng)落在具有45度角的直線上,否則違反正規(guī)性假設(shè)。②如果因變量與自變量線性相關(guān),則殘差值與預(yù)測值不相關(guān)。該圖這暗示著你可能需要對回歸模型加上一個(gè)二次項(xiàng)。③如果相同的方差(齊次性,左下角)滿足不變方差假設(shè),則水平線周圍的點(diǎn)應(yīng)隨機(jī)分布在左下圖中。該圖似乎滿足此假設(shè)。④最后一幅“殘差與杠圖”(右下)提供了你可能關(guān)注的單個(gè)觀測點(diǎn)的信息。圖形可以識別離群點(diǎn)、高杠桿點(diǎn)和強(qiáng)影響點(diǎn)。實(shí)驗(yàn)指導(dǎo)9.8線性回歸模型第九章數(shù)據(jù)建模①正態(tài)性(右上角第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決策樹模型9.5隨機(jī)森林決策樹模型9.7

SVM9.1

Rattle包9.2聚類模型9.3關(guān)聯(lián)分析模型9.6自適應(yīng)選擇決策樹模型9.8線性回歸模型9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材9.4傳統(tǒng)決神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模激活函數(shù)

可以有以下幾種:(1)閾值函數(shù)(2)分段線性函數(shù)神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模激活函數(shù)可以有以神經(jīng)元9.9神經(jīng)網(wǎng)絡(luò)模型第九章數(shù)據(jù)建模(3)sigmoid函數(shù)(4)雙曲正切函

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論