《智能數(shù)據(jù)分析與應(yīng)用》課件單元6 數(shù)據(jù)建模

上傳人：q*** IP屬地：山東上傳時間：2024-01-05 格式：PPTX 頁數(shù)：92 大?。?.55MB 積分：20 舉報 版權(quán)申訴

《智能數(shù)據(jù)分析與應(yīng)用》課件單元6 數(shù)據(jù)建模_第2頁

《智能數(shù)據(jù)分析與應(yīng)用》課件單元6 數(shù)據(jù)建模_第3頁

《智能數(shù)據(jù)分析與應(yīng)用》課件單元6 數(shù)據(jù)建模_第4頁

《智能數(shù)據(jù)分析與應(yīng)用》課件單元6 數(shù)據(jù)建模_第5頁

已閱讀5頁，還剩87頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

scikit-learn介紹6scikit-learn數(shù)據(jù)集01機器學(xué)習(xí)基本算法sklearn算法步驟02031scikit-learn數(shù)據(jù)集1scikit-learn數(shù)據(jù)集數(shù)據(jù)集導(dǎo)入函數(shù)適合算法波士頓房價數(shù)據(jù)集load_boston回歸鳶尾花數(shù)據(jù)集load_iris分類糖尿病數(shù)據(jù)集load_diabetes回歸手寫數(shù)字識別數(shù)據(jù)集load_digits分類健身數(shù)據(jù)集load_linnerud回歸乳腺癌數(shù)據(jù)集load_breast_cancer分類2機器學(xué)習(xí)基本算法2機器學(xué)習(xí)基本算法sklearn支持包括分類、回歸、聚類和降維的四大機器學(xué)習(xí)算法，以及特征提取、數(shù)據(jù)處理和模型評估三大模塊。其中，常用的機器學(xué)習(xí)算法分別有：

分類算法：NN、樸素貝葉斯、決策樹、支持向量機分類（SVC）、集成分類（隨機森林、Adaboost、Bagging等）、邏輯回歸。

回歸算法：線性回歸、邏輯回歸、嶺回歸（Ridge）、Lasso回歸、多項式回歸、支持向量機回歸（SVR）。聚類算法：k均值（K-means）、層次聚類（Hierarchicalclustering）、DBSCAN。降維算法：線性判別分析法（LinearDiscriminantAnalysis，LDA）、主成分分析法（PrincipalComponentAnalysis，PCA）。2機器學(xué)習(xí)基本算法算法類名算法類名線性回歸LinearRegression支持向量機SVM嶺回歸Ridge決策樹DecisionTreeLasso回歸Lasso隨機森林RandomForestLogistic回歸LogisticRegression

Sklearn中的監(jiān)督式學(xué)習(xí)算法2機器學(xué)習(xí)基本算法算法類名算法類名主成分分析法PCAk均值算法KMeans線性判別分析法LDADBSCAN算法DBSCAN

Sklearn中的無監(jiān)督式學(xué)習(xí)算法3sklearn算法步驟3sklearn算法步驟加載訓(xùn)練模型所用的數(shù)據(jù)集將數(shù)據(jù)集劃分為訓(xùn)練集和測試集，可以用到sklearn.model_selection模塊中的train_test_split()方法。train_test_split(train_data,train_target,test_size=0.4,random_state=0)初始化模型，比如使用線性回歸，model=LinearRegression()將訓(xùn)練集中的數(shù)據(jù)輸入到模型中進行訓(xùn)練，使用model.fit(x,y)如有必要通過交叉驗證等方式確定模型所用的合理參數(shù)將測試集中的數(shù)據(jù)輸入到模型中，得到預(yù)測結(jié)果，使用model.predict(x)ThankYOU!kNN算法6kNN算法基礎(chǔ)01kNN算法的特點021kNN算法基礎(chǔ)1kNN算法基礎(chǔ)基本概念kNN（k-NearestNeighbor，k最近鄰），也稱為k鄰近算法，是分類算法中最簡單的方法之一。所謂k最近鄰，就是每個樣本都可以用它最接近的k個鄰居來代表。kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。1kNN算法基礎(chǔ)算法步驟（1）計算待分類數(shù)據(jù)與其他樣本點的距離；（2）對距離進行排序，然后選擇出距離最小的k個樣本點；（3）根據(jù)投票表決規(guī)則將待分類數(shù)據(jù)歸入在k個樣本中占比最高的那一類。1kNN算法基礎(chǔ)投票方式投票決定：少數(shù)服從多數(shù)，近鄰中哪個類別的點最多就分為該類。加權(quán)投票決定：根據(jù)距離的遠(yuǎn)近，對近鄰的投票進行加權(quán)，距離越近則權(quán)重越大（權(quán)重為距離平方的倒數(shù)）。。1kNN算法基礎(chǔ)示例說明如果k=1，離紅色圓最近的是藍色三角形，則判定為藍色三角形；如果k=3，藍色三角形有1個，但是紫色正方形有2個，因此判定為紫色正方形；2kNN算法的特點2kNN算法的特點優(yōu)點缺點算法簡單，易于理解和實現(xiàn)。計算量較大，需要計算所有樣本點與新樣本之間的距離。可以用于非線性分類或多分類算法，而且對于類域交叉或重疊較多的樣本集，kNN算法比其他算法效果更好。不同k值算法結(jié)果可能不同，k值較小，會降低分類精度，會增加噪聲數(shù)據(jù)的干擾，k值過大，可能會使得分類效果較差。對異常點不敏感。不能用于處理樣本不均衡的數(shù)據(jù)集，例如當(dāng)某一類數(shù)據(jù)量很大，而其他類的數(shù)據(jù)量較少時，可能會導(dǎo)致當(dāng)輸入一個新樣本時，該樣本的k個鄰居中大容量類的樣本占大多數(shù)，而導(dǎo)致分類不準(zhǔn)確。ThankYOU!決策樹算法6決策樹的組成01信息熵和信息增益02ID3算法03C4.5算法04決策樹算法的特點051決策樹的組成1決策樹的組成假設(shè)一個家庭中有5名成員：爺爺、奶奶、媽媽、小男孩和小女孩?，F(xiàn)在想做一個調(diào)查：這5個人中誰喜歡玩游戲？1決策樹的組成決策樹包括：根結(jié)點：包含數(shù)據(jù)集中的所有數(shù)據(jù)的集合。內(nèi)部結(jié)點：每個內(nèi)部節(jié)點為一個判斷條件，并且包含數(shù)據(jù)集中滿足從根節(jié)點到該節(jié)點所有條件的數(shù)據(jù)的集合。葉子結(jié)點：表示一個類，包含在該葉節(jié)點的數(shù)據(jù)屬于該類別。1決策樹的組成決策樹構(gòu)建3個步驟：特征選擇、決策樹生成以及決策樹剪枝。①特征選擇：從訓(xùn)練數(shù)據(jù)的眾多特征中選擇一個特征作為當(dāng)前結(jié)點的分裂標(biāo)準(zhǔn)，如何選擇特征有很多不同的量化評估標(biāo)準(zhǔn)，例如信息增益、信息增益比、基尼指數(shù)等，從而衍生出不同的決策樹算法，例如ID3、C4.5和CART等。②決策樹生成：根據(jù)選擇的特征評估標(biāo)準(zhǔn)，從上而下遞歸地生成子節(jié)點，直到數(shù)據(jù)集不可分則決策樹停止生長。③決策樹剪枝：對已生成的樹自下而上進行剪枝，將樹變更簡單，使之具有更好的泛化能力。2信息熵和信息增益2信息熵和信息增益信息熵：決策樹構(gòu)建的主要問題就是內(nèi)部結(jié)點的特征選擇，一般來說哪個特征劃分效果最好就把它放到最前面。特征能力值的衡量標(biāo)準(zhǔn)就是熵，若某事件有n種相互獨立的可能結(jié)果，其取第i個分類結(jié)果的概率是，則熵定義為：2信息熵和信息增益信息增益：信息增益定義為數(shù)據(jù)集在劃分前的信息熵與劃分后的信息熵的差值。假設(shè)劃分前數(shù)據(jù)集為S，并使用特征A對S進行劃分，假設(shè)特征A有k個不同取值，則將S劃分為k個子集，則其信息增益為：選擇劃分特征的標(biāo)準(zhǔn)：信息增益越大，使得熵值下降的越多，說明使用特征A進行劃分的子集越純，越利于將不同樣本分開3ID3算法3ID3算法ID3算法：ID3的英文名稱是迭代兩分器（iterativedichotomiser）版本3的字母縮寫，該算法由Quinlan于1986年提出，是一種根據(jù)數(shù)據(jù)來構(gòu)建決策樹的遞歸過程，使用信息增益作為選擇劃分結(jié)點的標(biāo)準(zhǔn)。3ID3算法算法步驟：①使用數(shù)據(jù)集S計算按照每個特征劃分后的信息熵和信息增益。②使用上一步信息增益最大的特征，將數(shù)據(jù)集S劃分為多個子集。③將該特征作為決策樹的結(jié)點。④在子結(jié)點上使用剩余特征遞歸執(zhí)行步驟①至步驟③。4C4.5算法4C4.5算法

ID3算法只能處理離散型的特征數(shù)據(jù)，無法處理連續(xù)型數(shù)據(jù)。ID3算法使用信息增益作為決策結(jié)點選擇的標(biāo)準(zhǔn)，導(dǎo)致其偏向選擇具有較多分支的特征，不剪枝容易導(dǎo)致過擬合。

C4.5算法是對ID3算法改進而來的，能夠處理連續(xù)型特征和離散型特征的數(shù)據(jù)，它通過信息增益率選擇分裂特征。信息增益率等于信息增益與分裂信息的比值。4C4.5算法信息增益率定義：其中分裂信息SplitE(A)表示特征A的分裂信息，若訓(xùn)練集S通過特征A的值劃分為k個子數(shù)據(jù)集，表示第j個子數(shù)據(jù)集中樣本數(shù)量，|S|表示S中樣本總數(shù)量。分裂信息的定義：4C4.5算法算法步驟：①使用數(shù)據(jù)集S計算按照每個特征劃分后的信息熵、分裂信息和信息增益率。②使用上一步信息增益率最大的特征，將數(shù)據(jù)集S劃分為多個子集。③將該特征作為決策樹的結(jié)點。④在子結(jié)點上使用剩余特征遞歸直線步驟①至步驟③。⑤對生成的決策樹進行剪枝處理。5決策樹算法的特點5決策樹算法的特點優(yōu)點缺點容易理解和解釋，可視化。容易過擬合。數(shù)據(jù)量不需要太大。對異常值過于敏感。預(yù)測數(shù)據(jù)時的時間復(fù)雜度是用于訓(xùn)練決策樹的數(shù)據(jù)點的對數(shù)。決策樹的結(jié)果可能是不穩(wěn)定的，因為在數(shù)據(jù)中一個很小的變化可能導(dǎo)致生成一個完全不同的樹。能夠處理數(shù)值屬性和對象屬性，可以處理多輸出的問題。樹的每次分裂都減少了數(shù)據(jù)集，可能會潛在地引進偏差。ThankYOU!支持向量機6SVM理論基礎(chǔ)01線性可分SVM02線性不可分SVM03非線性SVM04SVM的特點051SVM理論基礎(chǔ)1SVM理論基礎(chǔ)

現(xiàn)在有一個二維平面，平面上有兩種線性可分的不同的數(shù)據(jù)，分別用○和×表示，因此可以用一條直線將這兩類數(shù)據(jù)分開，這條直線相當(dāng)于一個超平面，超平面一邊的數(shù)據(jù)點所對應(yīng)的y值全是-1，另一邊所對應(yīng)的y值全是1。1SVM理論基礎(chǔ)

這個超平面可以用分類函數(shù)f(x)=wTx+b表示，當(dāng)f(x)等于0的時候，x便是位于超平面上的點，而f(x)大于0的點對應(yīng)y=1的數(shù)據(jù)點，f(x)小于0的點對應(yīng)y=-1的點。2線性可分SVM2線性可分SVM

當(dāng)數(shù)據(jù)線性可分時，這樣的超平面理論上存在無限多個，直觀地看，直線離直線兩邊的數(shù)據(jù)的間隔最大，則泛化能力最強，效果最好。因此，SVM的主要目的就是尋找有著最大間隔的超平面。SVM模型的求解最大分割超平面的問題就可以表示為以下最優(yōu)化問題：

約束條件為：2線性可分SVMSVM模型的求解最大分割超平面問題又可以表示為以下約束最優(yōu)化問題：約束條件：引入拉格朗日目標(biāo)函數(shù)，可以得到以下優(yōu)化問題：約束條件：2線性可分SVM

下圖中間的實線便是得到的最優(yōu)分離超平面，其到兩條虛線邊界的距離相等，這個距離稱為Margin，兩條虛線間隔邊界之間的距離等于2*Margin，而虛線間隔邊界上的點可能是支持向量（當(dāng)數(shù)據(jù)線性可分時，這些點一定在虛線間隔邊界上）3線性不可分SVM3線性不可分SVM

當(dāng)數(shù)據(jù)線性不可分時，約束條件將很難滿足，需要對每個樣本點(,)引入一個松弛變量≥0，最優(yōu)化問題變?yōu)椋杭s束條件：其中，C>0稱為懲罰因子，C值大時對誤分類的懲罰增大，是調(diào)和最大間隔和誤分類點個數(shù)的系數(shù)4非線性SVM4非線性SVM

解決非線性分類問題，可以使用核技巧，將數(shù)據(jù)映射到高維空間來解決在原始空間中線性不可分的問題。常用核函數(shù)有：線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)等。具體的，SVM首先在低維空間中完成計算，然后通過核函數(shù)將輸入空間映射到高維特征空間，最終在高維特征空間中構(gòu)造出最優(yōu)分離超平面，從而把平面上本身不好分的非線性數(shù)據(jù)分開。4非線性SVM通過核函數(shù)將數(shù)據(jù)從二維空間映射到三維空間5SVM的特點5SVM的特點優(yōu)點缺點有堅實的理論基礎(chǔ)。難以處理大規(guī)模訓(xùn)練樣本。可以很自然地使用核技巧。解決多分類問題存在困難。在某種意義上避免了“維數(shù)災(zāi)難”。最終決策函數(shù)只由少數(shù)的支持向量所確定，計算的復(fù)雜性取決于支持向量的數(shù)目，而不是樣本空間的維數(shù)。對缺失數(shù)據(jù)敏感，對參數(shù)和核函數(shù)的選擇敏感。泛化能力強。ThankYOU!度量分類模型性能6混淆矩陣01準(zhǔn)確率02精確率和召回率03F1值04ROC和AUC051混淆矩陣1混淆矩陣

混淆矩陣（ConfusionMatrix），又稱為誤差矩陣，是一種特定的用矩陣來呈現(xiàn)算法性能的可視化工具，通常用于監(jiān)督學(xué)習(xí)。其每一行代表的是實際的類別，每一列代表預(yù)測值。這個名字來源于它可以表明多個類別是否有混淆（也就是一個分類被預(yù)測成了另一個分類）。1混淆矩陣案例1：醫(yī)學(xué)模型的混淆矩陣構(gòu)建1）當(dāng)就診者實際患病，且模型判斷為患病時，稱之為真陽性（TruePositive，TP）。2）當(dāng)就診者實際健康，且模型判斷為健康時，稱之為真陰性（TrueNegative，TN）。3）當(dāng)就診者實際患病，但模型判斷為健康時，稱之為假陰性（FalseNegative，F(xiàn)N）。4）當(dāng)就診者實際健康，但模型判斷為患病時，稱之為假陽性（FalsePositive，F(xiàn)P）。判斷為患病判斷為健康患病TPFN健康FPTN2準(zhǔn)確率2準(zhǔn)確率準(zhǔn)確率（Accuracy）是預(yù)測正確的樣本數(shù)量占總樣本數(shù)量的百分比，準(zhǔn)確率可以幫助人們初步判斷一個模型的好壞，預(yù)測的是否準(zhǔn)確。準(zhǔn)確率公式如下：3精確率和召回率3精確率和召回率精確率（Precision）表示在所有預(yù)測為陽性（Guessedpositive）的數(shù)據(jù)中，有多少是真正的陽性。召回率（Recall）表示在所有實際為陽性的數(shù)據(jù)中，預(yù)測對了多少陽性（GuessedPositive）。4F1值4F1值

可以假想一下，如果一個醫(yī)學(xué)模型中召回率很高，意味著該模型能把患病人群有效的找出來，但是如果該模型精確率不夠，就意味著該模型也同樣會把很多健康的人診斷為患病。4F1值

調(diào)和平均數(shù)的特點在于易受極端值的影響，且受極小值的影響更大，因此更適合評價模型的精確率和召回率相差較大的分類問題，可以很好的調(diào)和二者從而得到綜合得分。精確率和召回率的調(diào)和平均數(shù)稱之值F1-score5ROC和AUC5ROC和AUC

受試者工作特征曲線（receiveroperatingcharacteristiccurve，ROC）是反映敏感性和特異性連續(xù)變量的綜合指標(biāo)，是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系，它通過將連續(xù)變量設(shè)定出多個不同的臨界值，從而計算出一系列敏感性和特異性，再以敏感性為縱坐標(biāo)、（1-特異性）為橫坐標(biāo)繪制成曲線，曲線下面積越大，診斷準(zhǔn)確性越高。5ROC和AUC1）真正例率（TruePositiveRate，TPR）：2）假正例率（FalsePositiveRate，F(xiàn)PR）：5ROC和AUCFPR和TPR分別作x軸、y軸，構(gòu)成的曲線為ROC曲線；曲線下的面積稱為AUC（AreaUnderROCCurve）ThankYOU!度量回歸模型性能6平均絕對誤差01均方誤差02平均絕對誤差和均方誤差對比03sklearn實現(xiàn)回歸模型性能的度量041平均絕對誤差1平均絕對誤差

平均絕對誤差（MeanAbsoluteError，MAE）是表示同一現(xiàn)象的成對觀測值之間誤差的度量。1平均絕對誤差如圖所示，x軸對應(yīng)房屋面積，y軸對應(yīng)房屋價格，如果有一套250平方米的房子，但是不知道價格，如何預(yù)估該房屋的價格呢？比如有3個選項：200W，300W，450W，如果從這3個價格中選取一個最合適的價格，毫無疑問，應(yīng)該選450W，因為房屋面積越大，房價應(yīng)該越貴。這就是一個最簡單的回歸問題。1平均絕對誤差

機器是怎么通過MeanAbsoluteError指標(biāo)進行學(xué)習(xí)，從而找到了一個最佳的擬合線段。假設(shè)有一堆點，要求得到一條直線，使得這條直線可以很好的擬合所有點。1平均絕對誤差

因為可能有的點在線段上方，有的點在線段的下方，可能存在誤差是負(fù)值的情況，所以為了不讓正負(fù)相消，需要為誤差加上絕對值，當(dāng)把所有的誤差絕對值相加，再除以點的個數(shù)，就是MAE，即：2均方誤差2均方誤差MeanAbsoluteError是點到線段的距離的和相加MeanSquaredError只是把點到線的距離，變成面積再相加3平均絕對誤差和均方誤差對比3平均絕對誤差和均方誤差對比

回歸模型的評價指標(biāo)有MeanAbsoluteError和MeanSquaredError，一個是把點到線的誤差的絕對值相加，另一個是把點到線的面積誤差相加，兩個值都是越小越好。那么二者有什么區(qū)別呢？3平均絕對誤差和均方誤差對比

用一條直線來擬合四個點，那么在A、B、C這3條線段中，哪一條可以更好的擬合圖中的四個點？答案是B

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《智能數(shù)據(jù)分析與應(yīng)用》課件單元6 數(shù)據(jù)建模

文檔簡介

溫馨提示

最新文檔

評論

《智能數(shù)據(jù)分析與應(yīng)用》 課件 單元6 數(shù)據(jù)建模

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

《智能數(shù)據(jù)分析與應(yīng)用》課件單元6 數(shù)據(jù)建模