《智能數(shù)據(jù)分析與應(yīng)用》 課件 單元6 數(shù)據(jù)建模_第1頁
《智能數(shù)據(jù)分析與應(yīng)用》 課件 單元6 數(shù)據(jù)建模_第2頁
《智能數(shù)據(jù)分析與應(yīng)用》 課件 單元6 數(shù)據(jù)建模_第3頁
《智能數(shù)據(jù)分析與應(yīng)用》 課件 單元6 數(shù)據(jù)建模_第4頁
《智能數(shù)據(jù)分析與應(yīng)用》 課件 單元6 數(shù)據(jù)建模_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

scikit-learn介紹6scikit-learn數(shù)據(jù)集01機器學(xué)習(xí)基本算法sklearn算法步驟02031scikit-learn數(shù)據(jù)集1scikit-learn數(shù)據(jù)集數(shù)據(jù)集導(dǎo)入函數(shù)適合算法波士頓房價數(shù)據(jù)集load_boston回歸鳶尾花數(shù)據(jù)集load_iris分類糖尿病數(shù)據(jù)集load_diabetes回歸手寫數(shù)字識別數(shù)據(jù)集load_digits分類健身數(shù)據(jù)集load_linnerud回歸乳腺癌數(shù)據(jù)集load_breast_cancer分類2機器學(xué)習(xí)基本算法2機器學(xué)習(xí)基本算法sklearn支持包括分類、回歸、聚類和降維的四大機器學(xué)習(xí)算法,以及特征提取、數(shù)據(jù)處理和模型評估三大模塊。其中,常用的機器學(xué)習(xí)算法分別有:

分類算法:NN、樸素貝葉斯、決策樹、支持向量機分類(SVC)、集成分類(隨機森林、Adaboost、Bagging等)、邏輯回歸。

回歸算法:線性回歸、邏輯回歸、嶺回歸(Ridge)、Lasso回歸、多項式回歸、支持向量機回歸(SVR)。聚類算法:k均值(K-means)、層次聚類(Hierarchicalclustering)、DBSCAN。降維算法:線性判別分析法(LinearDiscriminantAnalysis,LDA)、主成分分析法(PrincipalComponentAnalysis,PCA)。2機器學(xué)習(xí)基本算法算法類名算法類名線性回歸LinearRegression支持向量機SVM嶺回歸Ridge決策樹DecisionTreeLasso回歸Lasso隨機森林RandomForestLogistic回歸LogisticRegression

Sklearn中的監(jiān)督式學(xué)習(xí)算法2機器學(xué)習(xí)基本算法算法類名算法類名主成分分析法PCAk均值算法KMeans線性判別分析法LDADBSCAN算法DBSCAN

Sklearn中的無監(jiān)督式學(xué)習(xí)算法3sklearn算法步驟3sklearn算法步驟加載訓(xùn)練模型所用的數(shù)據(jù)集將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,可以用到sklearn.model_selection模塊中的train_test_split()方法。train_test_split(train_data,train_target,test_size=0.4,random_state=0)初始化模型,比如使用線性回歸,model=LinearRegression()將訓(xùn)練集中的數(shù)據(jù)輸入到模型中進(jìn)行訓(xùn)練,使用model.fit(x,y)如有必要通過交叉驗證等方式確定模型所用的合理參數(shù)將測試集中的數(shù)據(jù)輸入到模型中,得到預(yù)測結(jié)果,使用model.predict(x)ThankYOU!kNN算法6kNN算法基礎(chǔ)01kNN算法的特點021kNN算法基礎(chǔ)1kNN算法基礎(chǔ)基本概念kNN(k-NearestNeighbor,k最近鄰),也稱為k鄰近算法,是分類算法中最簡單的方法之一。所謂k最近鄰,就是每個樣本都可以用它最接近的k個鄰居來代表。kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。1kNN算法基礎(chǔ)算法步驟(1)計算待分類數(shù)據(jù)與其他樣本點的距離;(2)對距離進(jìn)行排序,然后選擇出距離最小的k個樣本點;(3)根據(jù)投票表決規(guī)則將待分類數(shù)據(jù)歸入在k個樣本中占比最高的那一類。1kNN算法基礎(chǔ)投票方式投票決定:少數(shù)服從多數(shù),近鄰中哪個類別的點最多就分為該類。加權(quán)投票決定:根據(jù)距離的遠(yuǎn)近,對近鄰的投票進(jìn)行加權(quán),距離越近則權(quán)重越大(權(quán)重為距離平方的倒數(shù))。。1kNN算法基礎(chǔ)示例說明如果k=1,離紅色圓最近的是藍(lán)色三角形,則判定為藍(lán)色三角形;如果k=3,藍(lán)色三角形有1個,但是紫色正方形有2個,因此判定為紫色正方形;2kNN算法的特點2kNN算法的特點優(yōu)點缺點算法簡單,易于理解和實現(xiàn)。計算量較大,需要計算所有樣本點與新樣本之間的距離??梢杂糜诜蔷€性分類或多分類算法,而且對于類域交叉或重疊較多的樣本集,kNN算法比其他算法效果更好。不同k值算法結(jié)果可能不同,k值較小,會降低分類精度,會增加噪聲數(shù)據(jù)的干擾,k值過大,可能會使得分類效果較差。對異常點不敏感。不能用于處理樣本不均衡的數(shù)據(jù)集,例如當(dāng)某一類數(shù)據(jù)量很大,而其他類的數(shù)據(jù)量較少時,可能會導(dǎo)致當(dāng)輸入一個新樣本時,該樣本的k個鄰居中大容量類的樣本占大多數(shù),而導(dǎo)致分類不準(zhǔn)確。ThankYOU!決策樹算法6決策樹的組成01信息熵和信息增益02ID3算法03C4.5算法04決策樹算法的特點051決策樹的組成1決策樹的組成假設(shè)一個家庭中有5名成員:爺爺、奶奶、媽媽、小男孩和小女孩?,F(xiàn)在想做一個調(diào)查:這5個人中誰喜歡玩游戲?1決策樹的組成決策樹包括:根結(jié)點:包含數(shù)據(jù)集中的所有數(shù)據(jù)的集合。內(nèi)部結(jié)點:每個內(nèi)部節(jié)點為一個判斷條件,并且包含數(shù)據(jù)集中滿足從根節(jié)點到該節(jié)點所有條件的數(shù)據(jù)的集合。葉子結(jié)點:表示一個類,包含在該葉節(jié)點的數(shù)據(jù)屬于該類別。1決策樹的組成決策樹構(gòu)建3個步驟:特征選擇、決策樹生成以及決策樹剪枝。①特征選擇:從訓(xùn)練數(shù)據(jù)的眾多特征中選擇一個特征作為當(dāng)前結(jié)點的分裂標(biāo)準(zhǔn),如何選擇特征有很多不同的量化評估標(biāo)準(zhǔn),例如信息增益、信息增益比、基尼指數(shù)等,從而衍生出不同的決策樹算法,例如ID3、C4.5和CART等。②決策樹生成:根據(jù)選擇的特征評估標(biāo)準(zhǔn),從上而下遞歸地生成子節(jié)點,直到數(shù)據(jù)集不可分則決策樹停止生長。③決策樹剪枝:對已生成的樹自下而上進(jìn)行剪枝,將樹變更簡單,使之具有更好的泛化能力。2信息熵和信息增益2信息熵和信息增益信息熵:決策樹構(gòu)建的主要問題就是內(nèi)部結(jié)點的特征選擇,一般來說哪個特征劃分效果最好就把它放到最前面。特征能力值的衡量標(biāo)準(zhǔn)就是熵,若某事件有n種相互獨立的可能結(jié)果,其取第i個分類結(jié)果的概率是,則熵定義為:2信息熵和信息增益信息增益:信息增益定義為數(shù)據(jù)集在劃分前的信息熵與劃分后的信息熵的差值。假設(shè)劃分前數(shù)據(jù)集為S,并使用特征A對S進(jìn)行劃分,假設(shè)特征A有k個不同取值,則將S劃分為k個子集,則其信息增益為:選擇劃分特征的標(biāo)準(zhǔn):信息增益越大,使得熵值下降的越多,說明使用特征A進(jìn)行劃分的子集越純,越利于將不同樣本分開3ID3算法3ID3算法ID3算法:ID3的英文名稱是迭代兩分器(iterativedichotomiser)版本3的字母縮寫,該算法由Quinlan于1986年提出,是一種根據(jù)數(shù)據(jù)來構(gòu)建決策樹的遞歸過程,使用信息增益作為選擇劃分結(jié)點的標(biāo)準(zhǔn)。3ID3算法算法步驟:①使用數(shù)據(jù)集S計算按照每個特征劃分后的信息熵和信息增益。②使用上一步信息增益最大的特征,將數(shù)據(jù)集S劃分為多個子集。③將該特征作為決策樹的結(jié)點。④在子結(jié)點上使用剩余特征遞歸執(zhí)行步驟①至步驟③。4C4.5算法4C4.5算法

ID3算法只能處理離散型的特征數(shù)據(jù),無法處理連續(xù)型數(shù)據(jù)。ID3算法使用信息增益作為決策結(jié)點選擇的標(biāo)準(zhǔn),導(dǎo)致其偏向選擇具有較多分支的特征,不剪枝容易導(dǎo)致過擬合。

C4.5算法是對ID3算法改進(jìn)而來的,能夠處理連續(xù)型特征和離散型特征的數(shù)據(jù),它通過信息增益率選擇分裂特征。信息增益率等于信息增益與分裂信息的比值。4C4.5算法信息增益率定義:其中分裂信息SplitE(A)表示特征A的分裂信息,若訓(xùn)練集S通過特征A的值劃分為k個子數(shù)據(jù)集,表示第j個子數(shù)據(jù)集中樣本數(shù)量,|S|表示S中樣本總數(shù)量。分裂信息的定義:4C4.5算法算法步驟:①使用數(shù)據(jù)集S計算按照每個特征劃分后的信息熵、分裂信息和信息增益率。②使用上一步信息增益率最大的特征,將數(shù)據(jù)集S劃分為多個子集。③將該特征作為決策樹的結(jié)點。④在子結(jié)點上使用剩余特征遞歸直線步驟①至步驟③。⑤對生成的決策樹進(jìn)行剪枝處理。5決策樹算法的特點5決策樹算法的特點優(yōu)點缺點容易理解和解釋,可視化。容易過擬合。數(shù)據(jù)量不需要太大。對異常值過于敏感。預(yù)測數(shù)據(jù)時的時間復(fù)雜度是用于訓(xùn)練決策樹的數(shù)據(jù)點的對數(shù)。決策樹的結(jié)果可能是不穩(wěn)定的,因為在數(shù)據(jù)中一個很小的變化可能導(dǎo)致生成一個完全不同的樹。能夠處理數(shù)值屬性和對象屬性,可以處理多輸出的問題。樹的每次分裂都減少了數(shù)據(jù)集,可能會潛在地引進(jìn)偏差。ThankYOU!支持向量機6SVM理論基礎(chǔ)01線性可分SVM02線性不可分SVM03非線性SVM04SVM的特點051SVM理論基礎(chǔ)1SVM理論基礎(chǔ)

現(xiàn)在有一個二維平面,平面上有兩種線性可分的不同的數(shù)據(jù),分別用○和×表示,因此可以用一條直線將這兩類數(shù)據(jù)分開,這條直線相當(dāng)于一個超平面,超平面一邊的數(shù)據(jù)點所對應(yīng)的y值全是-1,另一邊所對應(yīng)的y值全是1。1SVM理論基礎(chǔ)

這個超平面可以用分類函數(shù)f(x)=wTx+b表示,當(dāng)f(x)等于0的時候,x便是位于超平面上的點,而f(x)大于0的點對應(yīng)y=1的數(shù)據(jù)點,f(x)小于0的點對應(yīng)y=-1的點。2線性可分SVM2線性可分SVM

當(dāng)數(shù)據(jù)線性可分時,這樣的超平面理論上存在無限多個,直觀地看,直線離直線兩邊的數(shù)據(jù)的間隔最大,則泛化能力最強,效果最好。因此,SVM的主要目的就是尋找有著最大間隔的超平面。SVM模型的求解最大分割超平面的問題就可以表示為以下最優(yōu)化問題:

約束條件為:2線性可分SVMSVM模型的求解最大分割超平面問題又可以表示為以下約束最優(yōu)化問題:約束條件:引入拉格朗日目標(biāo)函數(shù),可以得到以下優(yōu)化問題:約束條件:2線性可分SVM

下圖中間的實線便是得到的最優(yōu)分離超平面,其到兩條虛線邊界的距離相等,這個距離稱為Margin,兩條虛線間隔邊界之間的距離等于2*Margin,而虛線間隔邊界上的點可能是支持向量(當(dāng)數(shù)據(jù)線性可分時,這些點一定在虛線間隔邊界上)3線性不可分SVM3線性不可分SVM

當(dāng)數(shù)據(jù)線性不可分時,約束條件將很難滿足,需要對每個樣本點(,)引入一個松弛變量≥0,最優(yōu)化問題變?yōu)椋杭s束條件:其中,C>0稱為懲罰因子,C值大時對誤分類的懲罰增大,是調(diào)和最大間隔和誤分類點個數(shù)的系數(shù)4非線性SVM4非線性SVM

解決非線性分類問題,可以使用核技巧,將數(shù)據(jù)映射到高維空間來解決在原始空間中線性不可分的問題。常用核函數(shù)有:線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)等。具體的,SVM首先在低維空間中完成計算,然后通過核函數(shù)將輸入空間映射到高維特征空間,最終在高維特征空間中構(gòu)造出最優(yōu)分離超平面,從而把平面上本身不好分的非線性數(shù)據(jù)分開。4非線性SVM通過核函數(shù)將數(shù)據(jù)從二維空間映射到三維空間5SVM的特點5SVM的特點優(yōu)點缺點有堅實的理論基礎(chǔ)。難以處理大規(guī)模訓(xùn)練樣本。可以很自然地使用核技巧。解決多分類問題存在困難。在某種意義上避免了“維數(shù)災(zāi)難”。最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù)。對缺失數(shù)據(jù)敏感,對參數(shù)和核函數(shù)的選擇敏感。泛化能力強。ThankYOU!度量分類模型性能6混淆矩陣01準(zhǔn)確率02精確率和召回率03F1值04ROC和AUC051混淆矩陣1混淆矩陣

混淆矩陣(ConfusionMatrix),又稱為誤差矩陣,是一種特定的用矩陣來呈現(xiàn)算法性能的可視化工具,通常用于監(jiān)督學(xué)習(xí)。其每一行代表的是實際的類別,每一列代表預(yù)測值。這個名字來源于它可以表明多個類別是否有混淆(也就是一個分類被預(yù)測成了另一個分類)。1混淆矩陣案例1:醫(yī)學(xué)模型的混淆矩陣構(gòu)建1)當(dāng)就診者實際患病,且模型判斷為患病時,稱之為真陽性(TruePositive,TP)。2)當(dāng)就診者實際健康,且模型判斷為健康時,稱之為真陰性(TrueNegative,TN)。3)當(dāng)就診者實際患病,但模型判斷為健康時,稱之為假陰性(FalseNegative,F(xiàn)N)。4)當(dāng)就診者實際健康,但模型判斷為患病時,稱之為假陽性(FalsePositive,F(xiàn)P)。判斷為患病判斷為健康患病TPFN健康FPTN2準(zhǔn)確率2準(zhǔn)確率準(zhǔn)確率(Accuracy)是預(yù)測正確的樣本數(shù)量占總樣本數(shù)量的百分比,準(zhǔn)確率可以幫助人們初步判斷一個模型的好壞,預(yù)測的是否準(zhǔn)確。準(zhǔn)確率公式如下:3精確率和召回率3精確率和召回率精確率(Precision)表示在所有預(yù)測為陽性(Guessedpositive)的數(shù)據(jù)中,有多少是真正的陽性。召回率(Recall)表示在所有實際為陽性的數(shù)據(jù)中,預(yù)測對了多少陽性(GuessedPositive)。4F1值4F1值

可以假想一下,如果一個醫(yī)學(xué)模型中召回率很高,意味著該模型能把患病人群有效的找出來,但是如果該模型精確率不夠,就意味著該模型也同樣會把很多健康的人診斷為患病。4F1值

調(diào)和平均數(shù)的特點在于易受極端值的影響,且受極小值的影響更大,因此更適合評價模型的精確率和召回率相差較大的分類問題,可以很好的調(diào)和二者從而得到綜合得分。精確率和召回率的調(diào)和平均數(shù)稱之值F1-score5ROC和AUC5ROC和AUC

受試者工作特征曲線(receiveroperatingcharacteristiccurve,ROC)是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過將連續(xù)變量設(shè)定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo)、(1-特異性)為橫坐標(biāo)繪制成曲線,曲線下面積越大,診斷準(zhǔn)確性越高。5ROC和AUC1)真正例率(TruePositiveRate,TPR):2)假正例率(FalsePositiveRate,F(xiàn)PR):5ROC和AUCFPR和TPR分別作x軸、y軸,構(gòu)成的曲線為ROC曲線;曲線下的面積稱為AUC(AreaUnderROCCurve)ThankYOU!度量回歸模型性能6平均絕對誤差01均方誤差02平均絕對誤差和均方誤差對比03sklearn實現(xiàn)回歸模型性能的度量041平均絕對誤差1平均絕對誤差

平均絕對誤差(MeanAbsoluteError,MAE)是表示同一現(xiàn)象的成對觀測值之間誤差的度量。1平均絕對誤差如圖所示,x軸對應(yīng)房屋面積,y軸對應(yīng)房屋價格,如果有一套250平方米的房子,但是不知道價格,如何預(yù)估該房屋的價格呢?比如有3個選項:200W,300W,450W,如果從這3個價格中選取一個最合適的價格,毫無疑問,應(yīng)該選450W,因為房屋面積越大,房價應(yīng)該越貴。這就是一個最簡單的回歸問題。1平均絕對誤差

機器是怎么通過MeanAbsoluteError指標(biāo)進(jìn)行學(xué)習(xí),從而找到了一個最佳的擬合線段。假設(shè)有一堆點,要求得到一條直線,使得這條直線可以很好的擬合所有點。1平均絕對誤差

因為可能有的點在線段上方,有的點在線段的下方,可能存在誤差是負(fù)值的情況,所以為了不讓正負(fù)相消,需要為誤差加上絕對值,當(dāng)把所有的誤差絕對值相加,再除以點的個數(shù),就是MAE,即:2均方誤差2均方誤差MeanAbsoluteError是點到線段的距離的和相加MeanSquaredError只是把點到線的距離,變成面積再相加3平均絕對誤差和均方誤差對比3平均絕對誤差和均方誤差對比

回歸模型的評價指標(biāo)有MeanAbsoluteError和MeanSquaredError,一個是把點到線的誤差的絕對值相加,另一個是把點到線的面積誤差相加,兩個值都是越小越好。那么二者有什么區(qū)別呢?3平均絕對誤差和均方誤差對比

用一條直線來擬合四個點,那么在A、B、C這3條線段中,哪一條可以更好的擬合圖中的四個點?答案是B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論