人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）：模型評估與交叉驗(yàn)證

上傳人：陳*** IP屬地：境外上傳時(shí)間：2024-10-10 格式：DOCX 頁數(shù)：14 大小：27.94KB 積分：6 舉報(bào) 版權(quán)申訴

人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）：模型評估與交叉驗(yàn)證_第2頁

人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）：模型評估與交叉驗(yàn)證_第3頁

人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）：模型評估與交叉驗(yàn)證_第4頁

人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）：模型評估與交叉驗(yàn)證_第5頁

已閱讀5頁，還剩9頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）：模型評估與交叉驗(yàn)證1人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）1.1簡介1.1.1梯度提升機(jī)（GBM）概述梯度提升機(jī)（GradientBoostingMachine,GBM）是一種強(qiáng)大的機(jī)器學(xué)習(xí)算法，廣泛應(yīng)用于分類和回歸任務(wù)中。它基于提升（Boosting）方法，通過迭代地添加弱學(xué)習(xí)器（通常是決策樹）來構(gòu)建一個(gè)強(qiáng)學(xué)習(xí)器。GBM的核心思想是，每次迭代時(shí)，算法會關(guān)注前一輪模型預(yù)測錯(cuò)誤的樣本，通過訓(xùn)練新的弱學(xué)習(xí)器來修正這些錯(cuò)誤，從而逐步提高模型的整體性能。GBM的工作流程如下：1.初始化模型，通常從一個(gè)常數(shù)開始。2.對于每一棵樹：-計(jì)算當(dāng)前模型的負(fù)梯度，作為新的訓(xùn)練目標(biāo)。-使用負(fù)梯度作為目標(biāo)，訓(xùn)練一棵決策樹。-將新樹的預(yù)測結(jié)果乘以學(xué)習(xí)率，然后加到當(dāng)前模型上。-更新模型。3.重復(fù)步驟2，直到達(dá)到預(yù)設(shè)的迭代次數(shù)或模型性能滿足停止條件。1.1.2GBM在分類任務(wù)中的應(yīng)用在分類任務(wù)中，GBM通過構(gòu)建一系列的決策樹來預(yù)測樣本屬于不同類別的概率。每棵樹的訓(xùn)練目標(biāo)是減少前一棵樹的預(yù)測錯(cuò)誤，這種迭代的訓(xùn)練方式使得GBM能夠捕捉到數(shù)據(jù)中的復(fù)雜模式，從而在許多分類問題上表現(xiàn)出色。1.1.2.1示例：使用Python的sklearn庫實(shí)現(xiàn)GBM分類#導(dǎo)入必要的庫

fromsklearn.datasetsimportload_iris

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.metricsimportaccuracy_score

#加載數(shù)據(jù)集

data=load_iris()

X=data.data

y=data.target

#劃分訓(xùn)練集和測試集

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)

#初始化GBM分類器

gbm=GradientBoostingClassifier(n_estimators=100,learning_rate=0.1,max_depth=3,random_state=42)

#訓(xùn)練模型

gbm.fit(X_train,y_train)

#預(yù)測

y_pred=gbm.predict(X_test)

#計(jì)算準(zhǔn)確率

accuracy=accuracy_score(y_test,y_pred)

print(f"模型準(zhǔn)確率:{accuracy}")在這個(gè)例子中，我們使用了sklearn庫中的GradientBoostingClassifier類來實(shí)現(xiàn)GBM分類。數(shù)據(jù)集是經(jīng)典的鳶尾花數(shù)據(jù)集，包含150個(gè)樣本，每個(gè)樣本有4個(gè)特征。我們首先加載數(shù)據(jù)，然后將其劃分為訓(xùn)練集和測試集。接下來，初始化GBM分類器，設(shè)置迭代次數(shù)為100，學(xué)習(xí)率為0.1，樹的最大深度為3。訓(xùn)練模型后，我們對測試集進(jìn)行預(yù)測，并計(jì)算預(yù)測的準(zhǔn)確率。1.2模型評估與交叉驗(yàn)證1.2.1模型評估模型評估是機(jī)器學(xué)習(xí)中一個(gè)關(guān)鍵步驟，用于衡量模型的性能。在分類任務(wù)中，常用的評估指標(biāo)包括準(zhǔn)確率（Accuracy）、精確率（Precision）、召回率（Recall）、F1分?jǐn)?shù)（F1Score）等。這些指標(biāo)可以幫助我們理解模型在不同方面的表現(xiàn)，例如模型對正類的識別能力、模型的泛化能力等。1.2.1.1示例：使用Python的sklearn庫評估GBM分類器#導(dǎo)入評估指標(biāo)

fromsklearn.metricsimportclassification_report

#生成分類報(bào)告

report=classification_report(y_test,y_pred,target_names=data.target_names)

print("分類報(bào)告:\n",report)在這個(gè)例子中，我們使用了classification_report函數(shù)來生成一個(gè)詳細(xì)的分類報(bào)告，報(bào)告中包含了每個(gè)類別的精確率、召回率和F1分?jǐn)?shù)，以及所有類別的加權(quán)平均值。1.2.2交叉驗(yàn)證交叉驗(yàn)證（Cross-Validation）是一種評估模型性能的統(tǒng)計(jì)學(xué)方法，用于確保模型的穩(wěn)定性和泛化能力。在k折交叉驗(yàn)證中，數(shù)據(jù)集被分為k個(gè)子集，模型在k-1個(gè)子集上訓(xùn)練，在剩下的一個(gè)子集上測試，這個(gè)過程重復(fù)k次，每次選擇不同的子集作為測試集。最終，模型的性能通過這k次測試的平均結(jié)果來評估。1.2.2.1示例：使用Python的sklearn庫進(jìn)行k折交叉驗(yàn)證#導(dǎo)入交叉驗(yàn)證模塊

fromsklearn.model_selectionimportcross_val_score

#進(jìn)行5折交叉驗(yàn)證

scores=cross_val_score(gbm,X,y,cv=5)

print("交叉驗(yàn)證得分:",scores)

print("平均得分:",scores.mean())在這個(gè)例子中，我們使用了cross_val_score函數(shù)來進(jìn)行5折交叉驗(yàn)證。cv=5表示將數(shù)據(jù)集分為5個(gè)子集，進(jìn)行5次訓(xùn)練和測試。cross_val_score函數(shù)返回了5次測試的得分，我們可以通過計(jì)算這些得分的平均值來評估模型的性能。通過上述示例，我們可以看到GBM在分類任務(wù)中的強(qiáng)大性能，以及如何使用交叉驗(yàn)證來更準(zhǔn)確地評估模型的泛化能力。在實(shí)際應(yīng)用中，合理選擇評估指標(biāo)和交叉驗(yàn)證策略對于構(gòu)建高效、可靠的機(jī)器學(xué)習(xí)模型至關(guān)重要。2模型評估2.1評估指標(biāo)介紹：準(zhǔn)確率，召回率，F(xiàn)1分?jǐn)?shù)在評估梯度提升機(jī)（GBM）模型的性能時(shí)，選擇正確的評估指標(biāo)至關(guān)重要。下面將詳細(xì)介紹準(zhǔn)確率、召回率和F1分?jǐn)?shù)的計(jì)算方法及其在模型評估中的作用。2.1.1準(zhǔn)確率準(zhǔn)確率（Accuracy）是分類模型中最直觀的評估指標(biāo)，它衡量的是模型正確分類的樣本數(shù)占總樣本數(shù)的比例。準(zhǔn)確率的計(jì)算公式如下：Accuracy其中，TP（TruePositive）表示實(shí)際為正類且被模型正確預(yù)測為正類的樣本數(shù)；TN（TrueNegative）表示實(shí)際為負(fù)類且被模型正確預(yù)測為負(fù)類的樣本數(shù)；FP（FalsePositive）表示實(shí)際為負(fù)類但被模型錯(cuò)誤預(yù)測為正類的樣本數(shù)；FN（FalseNegative）表示實(shí)際為正類但被模型錯(cuò)誤預(yù)測為負(fù)類的樣本數(shù)。2.1.2召回率召回率（Recall）關(guān)注的是模型對正類的識別能力，計(jì)算公式如下：Recall召回率越高，表示模型識別正類的能力越強(qiáng)。2.1.3F1分?jǐn)?shù)F1分?jǐn)?shù)（F1Score）是準(zhǔn)確率和召回率的調(diào)和平均數(shù)，它在準(zhǔn)確率和召回率之間尋找平衡點(diǎn)，計(jì)算公式如下：F1Score其中，Precision（精確率）是TP與所有被預(yù)測為正類的樣本數(shù)（TP+FP）的比例。2.1.4示例代碼假設(shè)我們有以下預(yù)測結(jié)果和實(shí)際結(jié)果：實(shí)際結(jié)果：[1,0,1,1,0,1,0,1,1,1]預(yù)測結(jié)果：[1,0,1,0,0,1,1,1,1,0]fromsklearn.metricsimportaccuracy_score,recall_score,f1_score

#實(shí)際結(jié)果

y_true=[1,0,1,1,0,1,0,1,1,1]

#預(yù)測結(jié)果

y_pred=[1,0,1,0,0,1,1,1,1,0]

#計(jì)算準(zhǔn)確率

accuracy=accuracy_score(y_true,y_pred)

print(f"準(zhǔn)確率:{accuracy}")

#計(jì)算召回率

recall=recall_score(y_true,y_pred)

print(f"召回率:{recall}")

#計(jì)算F1分?jǐn)?shù)

f1=f1_score(y_true,y_pred)

print(f"F1分?jǐn)?shù):{f1}")2.2使用混淆矩陣?yán)斫饽Ｐ托阅芑煜仃嚕–onfusionMatrix）是一種用于描述分類模型性能的表格，它可以幫助我們直觀地理解模型的預(yù)測結(jié)果與實(shí)際結(jié)果之間的關(guān)系?；煜仃囉伤膫€(gè)部分組成：TP、TN、FP、FN。2.2.1示例代碼使用Scikit-learn庫中的confusion_matrix函數(shù)，我們可以生成混淆矩陣。fromsklearn.metricsimportconfusion_matrix

#生成混淆矩陣

cm=confusion_matrix(y_true,y_pred)

#打印混淆矩陣

print(f"混淆矩陣:\n{cm}")混淆矩陣的輸出如下：[[21]

[16]]在這個(gè)矩陣中，左上角的2表示TN，右上角的1表示FP，左下角的1表示FN，右下角的6表示TP。通過混淆矩陣，我們可以清晰地看到模型在不同類別上的預(yù)測表現(xiàn)，進(jìn)而計(jì)算出準(zhǔn)確率、召回率和F1分?jǐn)?shù)等指標(biāo)。2.2.2混淆矩陣的解讀TP（TruePositive）：模型正確預(yù)測為正類的樣本數(shù)。TN（TrueNegative）：模型正確預(yù)測為負(fù)類的樣本數(shù)。FP（FalsePositive）：模型錯(cuò)誤地將負(fù)類預(yù)測為正類的樣本數(shù)。FN（FalseNegative）：模型錯(cuò)誤地將正類預(yù)測為負(fù)類的樣本數(shù)?；煜仃嚥粌H提供了計(jì)算評估指標(biāo)的基礎(chǔ)，還幫助我們理解模型在不同類別上的預(yù)測偏差，是評估分類模型性能的重要工具。3人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）模型評估與交叉驗(yàn)證3.1交叉驗(yàn)證3.1.1K折交叉驗(yàn)證原理K折交叉驗(yàn)證是一種評估機(jī)器學(xué)習(xí)模型性能的統(tǒng)計(jì)方法，尤其適用于數(shù)據(jù)集較小的情況。它將數(shù)據(jù)集分為K個(gè)相等的子集或“折”，然后進(jìn)行K次迭代。在每次迭代中，選擇一個(gè)子集作為測試集，其余K-1個(gè)子集作為訓(xùn)練集。模型在訓(xùn)練集上訓(xùn)練，在測試集上評估。最終，模型的性能通過這K次迭代的平均結(jié)果來衡量，這提供了模型泛化能力的更穩(wěn)定估計(jì)。3.1.1.1優(yōu)點(diǎn)減少過擬合風(fēng)險(xiǎn)。提供模型性能的更可靠估計(jì)。充分利用所有數(shù)據(jù)進(jìn)行訓(xùn)練和測試。3.1.1.2缺點(diǎn)計(jì)算成本較高，因?yàn)樾枰?xùn)練K個(gè)模型。如果數(shù)據(jù)集有時(shí)間序列特性，K折交叉驗(yàn)證可能不適用，因?yàn)樗茐牧藬?shù)據(jù)的時(shí)間順序。3.1.2實(shí)施交叉驗(yàn)證：劃分?jǐn)?shù)據(jù)集與評估3.1.2.1劃分?jǐn)?shù)據(jù)集在實(shí)施K折交叉驗(yàn)證時(shí)，首先需要將數(shù)據(jù)集隨機(jī)劃分成K個(gè)子集。確保每個(gè)子集都包含數(shù)據(jù)的代表性樣本，這對于獲得準(zhǔn)確的模型性能評估至關(guān)重要。3.1.2.2評估模型對于每個(gè)子集，模型在K-1個(gè)子集上訓(xùn)練，在剩下的1個(gè)子集上測試。評估指標(biāo)（如準(zhǔn)確率、AUC-ROC等）在每次迭代后記錄，最后計(jì)算這些指標(biāo)的平均值，以獲得模型的總體性能。3.1.2.3示例代碼：使用Python和scikit-learn進(jìn)行K折交叉驗(yàn)證#導(dǎo)入必要的庫

importnumpyasnp

fromsklearn.model_selectionimportKFold

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearnimportdatasets

fromsklearn.metricsimportaccuracy_score

#加載數(shù)據(jù)集

data=datasets.load_iris()

X=data.data

y=data.target

#定義K折交叉驗(yàn)證

kfold=KFold(n_splits=5,shuffle=True,random_state=42)

#初始化梯度提升機(jī)分類器

gbm=GradientBoostingClassifier(n_estimators=100,learning_rate=1.0,max_depth=1,random_state=0)

#初始化準(zhǔn)確率列表

accuracies=[]

#進(jìn)行K折交叉驗(yàn)證

fortrain_index,test_indexinkfold.split(X):

X_train,X_test=X[train_index],X[test_index]

y_train,y_test=y[train_index],y[test_index]

#訓(xùn)練模型

gbm.fit(X_train,y_train)

#預(yù)測

y_pred=gbm.predict(X_test)

#計(jì)算并記錄準(zhǔn)確率

accuracy=accuracy_score(y_test,y_pred)

accuracies.append(accuracy)

#計(jì)算平均準(zhǔn)確率

mean_accuracy=np.mean(accuracies)

print(f"平均準(zhǔn)確率:{mean_accuracy}")3.1.2.4解釋在上述代碼中，我們首先加載了鳶尾花數(shù)據(jù)集，然后定義了一個(gè)5折的交叉驗(yàn)證。接下來，我們創(chuàng)建了一個(gè)梯度提升機(jī)分類器，并在每次迭代中使用不同的訓(xùn)練和測試集來訓(xùn)練和評估模型。最后，我們計(jì)算了所有迭代中準(zhǔn)確率的平均值，以獲得模型的總體性能。3.1.2.5數(shù)據(jù)樣例鳶尾花數(shù)據(jù)集包含150個(gè)樣本，每個(gè)樣本有4個(gè)特征（萼片長度、萼片寬度、花瓣長度、花瓣寬度）和一個(gè)目標(biāo)標(biāo)簽（鳶尾花的種類）。在這個(gè)例子中，我們使用了整個(gè)數(shù)據(jù)集進(jìn)行K折交叉驗(yàn)證。3.1.2.6結(jié)論通過實(shí)施K折交叉驗(yàn)證，我們能夠更準(zhǔn)確地評估梯度提升機(jī)模型的性能，確保模型不僅在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好，而且在未見過的數(shù)據(jù)上也能保持穩(wěn)定的預(yù)測能力。這種方法對于防止過擬合和提高模型的泛化能力至關(guān)重要。4人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）參數(shù)調(diào)優(yōu)4.1GBM關(guān)鍵參數(shù)解析梯度提升機(jī)(GradientBoostingMachine,GBM)是一種強(qiáng)大的機(jī)器學(xué)習(xí)算法，廣泛應(yīng)用于分類和回歸問題。GBM通過迭代地添加弱學(xué)習(xí)器（通常是決策樹）來構(gòu)建模型，以最小化預(yù)測誤差。理解并調(diào)整GBM的關(guān)鍵參數(shù)對于優(yōu)化模型性能至關(guān)重要。4.1.1學(xué)習(xí)率（LearningRate）學(xué)習(xí)率，也稱為shrinkage，控制著每棵樹對模型的貢獻(xiàn)程度。較小的學(xué)習(xí)率可以提高模型的準(zhǔn)確性，但會增加訓(xùn)練時(shí)間。例如：fromsklearn.ensembleimportGradientBoostingClassifier

gbm=GradientBoostingClassifier(learning_rate=0.1)4.1.2樹的數(shù)量（NumberofTrees）n_estimators參數(shù)決定了GBM中決策樹的數(shù)量。增加樹的數(shù)量可以提高模型的復(fù)雜度，但過量可能會導(dǎo)致過擬合。gbm=GradientBoostingClassifier(n_estimators=100)4.1.3樹的深度（TreeDepth）max_depth參數(shù)控制每棵樹的最大深度。深度較大的樹可以捕獲更復(fù)雜的特征關(guān)系，但同樣容易過擬合。gbm=GradientBoostingClassifier(max_depth=3)4.1.4最小樣本分割（MinimumSampleSplit）min_samples_split參數(shù)定義了節(jié)點(diǎn)可以被進(jìn)一步分割所需的最小樣本數(shù)。這有助于控制樹的復(fù)雜度，防止過擬合。gbm=GradientBoostingClassifier(min_samples_split=2)4.1.5最小樣本葉子（MinimumSampleLeaf）min_samples_leaf參數(shù)定義了葉子節(jié)點(diǎn)上所需的最小樣本數(shù)。增加此值可以減少模型的復(fù)雜度，防止過擬合。gbm=GradientBoostingClassifier(min_samples_leaf=1)4.1.6子采樣（Subsampling）subsample參數(shù)控制每棵樹訓(xùn)練時(shí)使用的樣本比例。子采樣可以增加模型的泛化能力，減少過擬合。gbm=GradientBoostingClassifier(subsample=0.8)4.2網(wǎng)格搜索與隨機(jī)搜索調(diào)參策略4.2.1網(wǎng)格搜索（GridSearch）網(wǎng)格搜索是一種參數(shù)調(diào)優(yōu)方法，通過在預(yù)定義的參數(shù)網(wǎng)格上進(jìn)行窮舉搜索，找到最佳參數(shù)組合。例如，我們可以使用GridSearchCV來尋找最佳的learning_rate和n_estimators組合：fromsklearn.model_selectionimportGridSearchCV

param_grid={

'learning_rate':[0.01,0.1,0.2],

'n_estimators':[50,100,200]

}

grid_search=GridSearchCV(gbm,param_grid,cv=5)

grid_search.fit(X_train,y_train)

print("Bestparametersfound:",grid_search.best_params_)4.2.2隨機(jī)搜索（RandomSearch）隨機(jī)搜索在參數(shù)空間中隨機(jī)選擇參數(shù)組合進(jìn)行評估，相比于網(wǎng)格搜索，它在參數(shù)空間較大的情況下更為高效。例如，我們可以使用RandomizedSearchCV來隨機(jī)搜索max_depth和min_samples_split：fromsklearn.model_selectionimportRandomizedSearchCV

importscipy.statsasst

param_dist={

'max_depth':st.randint(1,10),

'min_samples_split':st.uniform(0.01,0.99)

}

random_search=RandomizedSearchCV(gbm,param_distributions=param_dist,n_iter=10,cv=5)

random_search.fit(X_train,y_train)

print("Bestparametersfound:",random_search.best_params_)通過上述方法，我們可以有效地調(diào)整GBM的參數(shù)，以獲得最佳的模型性能。在實(shí)際應(yīng)用中，結(jié)合交叉驗(yàn)證和調(diào)參策略，可以確保模型不僅在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好，而且在未見過的數(shù)據(jù)上也能保持穩(wěn)定和準(zhǔn)確的預(yù)測能力。5案例分析5.1GBM在真實(shí)數(shù)據(jù)集上的應(yīng)用案例在本節(jié)中，我們將通過一個(gè)具體案例來展示梯度提升機(jī)（GBM）在真實(shí)世界數(shù)據(jù)集上的應(yīng)用。我們將使用Python的scikit-learn庫和xgboost庫來構(gòu)建和評估GBM模型。案例將基于一個(gè)公開的信用評分?jǐn)?shù)據(jù)集，目標(biāo)是預(yù)測客戶是否會違約。5.1.1數(shù)據(jù)準(zhǔn)備首先，我們需要導(dǎo)入必要的庫并加載數(shù)據(jù)集。importpandasaspd

importnumpyasnp

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.preprocessingimportStandardScaler

fromxgboostimportXGBClassifier

fromsklearn.metricsimportaccuracy_score,confusion_matrix,classification_report

#加載數(shù)據(jù)

data=pd.read_csv('credit_data.csv')

#數(shù)據(jù)預(yù)處理

#假設(shè)數(shù)據(jù)集中有數(shù)值特征和一個(gè)二分類目標(biāo)變量

X=data.drop('default',axis=1)

y=data['default']

#劃分?jǐn)?shù)據(jù)集

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)

#特征縮放

scaler=StandardScaler()

X_train=scaler.fit_transform(X_train)

X_test=scaler.transform(X_test)5.1.2模型構(gòu)建與訓(xùn)練接下來，我們將使用xgboost庫中的XGBClassifier來構(gòu)建GBM模型，并使用訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練。#構(gòu)建GBM模型

gbm_model=XGBClassifier(n_estimators=100,max_depth=3,learning_rate=0.1)

#訓(xùn)練模型

gbm_model.fit(X_train,y_train)5.1.3模型評估模型訓(xùn)練完成后，我們將使用測試數(shù)據(jù)集來評估模型的性能。#預(yù)測

y_pred=gbm_model.predict(X_test)

#評估模型

accuracy=accuracy_score(y_test,y_pred)

conf_matrix=confusion_matrix(y_test,y_pred)

class_report=classification_report(y_test,y_pred)

print(f'Accuracy:{accuracy}')

print('ConfusionMatrix:')

print(conf_matrix)

print('ClassificationReport:')

print(class_report)5.2分析與解讀模型評估結(jié)果5.2.1準(zhǔn)確率準(zhǔn)確率（Accuracy）是分類模型中最直觀的評估指標(biāo)，它表示模型正確分類的樣本占總樣本的比例。在我們的案例中，準(zhǔn)確率可以告訴我們模型在預(yù)測客戶是否會違約時(shí)的總體表現(xiàn)。5.2.2混淆矩陣混淆矩陣（ConfusionMatrix）提供了更詳細(xì)的分類結(jié)果信息，包括真正例（TP）、假正例（FP）、真反例（TN）和假反例（FN）。通過混淆矩陣，我們可以計(jì)算出精確率、召回率和F1分?jǐn)?shù)等指標(biāo)。5.2.3分類報(bào)告分類報(bào)告（ClassificationReport）匯總了每個(gè)類別的精確率、召回率和F1分?jǐn)?shù)，以及支持樣本數(shù)。這些指標(biāo)可以幫助我們理解模型在不同類別上的表現(xiàn)，特別是在類別不平衡的數(shù)據(jù)集上。5.2.4交叉驗(yàn)證為了確保模型的穩(wěn)定性和泛化能力，我們還可以使用交叉驗(yàn)證（Cross-Validation）來評估模型。交叉驗(yàn)證通過將數(shù)據(jù)集分成多個(gè)子集，多次訓(xùn)練和測試模型，從而得到更可靠的性能估計(jì)。fromsklearn.model_selectionimportcross_val_score

#交叉驗(yàn)證

cv_scores=cross_val_score(gbm_model,X,y,cv=5)

print(f'Cross-ValidationScores:{cv_scores}')

print(f'MeanCross-ValidationScore:{np.mean(cv_scores)}')通過上述步驟，我們不僅構(gòu)建了一個(gè)GBM模型，還對其性能進(jìn)行了全面的評估，確保了模型的可靠性和實(shí)用性。6梯度提升機(jī)評估與交叉驗(yàn)證總結(jié)6.1模型評估的重要性在機(jī)器學(xué)習(xí)中，模型評估是確保模型性能和泛化能力的關(guān)鍵步驟。對于梯度提升機(jī)（GBM）這類強(qiáng)大的分類算法，評估不僅涉及準(zhǔn)確率，還包括模型的復(fù)雜度、過擬合風(fēng)險(xiǎn)以及在未見數(shù)據(jù)上的表現(xiàn)。交叉驗(yàn)證是一種廣泛采用的技術(shù)，用于更準(zhǔn)確地估計(jì)模型的性能。6.1.1交叉驗(yàn)證的原理交叉驗(yàn)證通過將數(shù)據(jù)集分為多個(gè)互斥的子集，然后在這些子集上輪流進(jìn)行訓(xùn)練和測試，以減少評估偏差。最常見的形式是k折交叉驗(yàn)證，其中數(shù)據(jù)被分為k個(gè)相等的部分，每次使用k-1個(gè)部分進(jìn)行訓(xùn)練，剩下的一個(gè)部分進(jìn)行測試。這一過程重復(fù)k次，每次不同的子集作為測試集，最終模型的性能通過這k次測試結(jié)果的平均值來評估。6.1.2代碼示例：使用Scikit-Learn進(jìn)行k折交叉驗(yàn)證#導(dǎo)入必要的庫

fromsklearn.datasetsimportload_iris

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.model_selectionimportcross_val_score,KFold

#加載數(shù)據(jù)

iris=load_iris()

X=iris.data

y=iris.target

#初始化GBM模型

gbm=GradientBoostingClassifier(n_estimators=100,learning_rate=1.0,max_depth=1,random_state=0)

#設(shè)置k折交叉驗(yàn)證

kfold=KFold(n_splits=5,shuffle=True,random_state=42)

#執(zhí)行交叉驗(yàn)證

scores=cross_val_score(gbm,X,y,cv=kfold)

#輸出結(jié)果

print("Cross-validationscores:",scores)

print("Averagescore:",scores.mean())6.1.3解釋上述代碼中，我們使用了Scikit-Learn庫中的GradientBoostingClassifier來構(gòu)建GBM模型，并通過KFold生成器設(shè)置了5折交叉驗(yàn)證。cross_val_score函數(shù)執(zhí)行了交叉驗(yàn)證過程，返回了在不同測試集上的得分。最后，我們計(jì)算了這些得分的平均值，以獲得模型的總體性能估計(jì)。6.2探索GBM的高級主題與未來趨勢梯度提升機(jī)作為一種迭代的增強(qiáng)算法，其高級主題和未來趨勢主要圍繞如何提高模型的效率、準(zhǔn)確性和魯棒性，以及如何將其應(yīng)用到更廣泛的領(lǐng)域。6.2.1高級主題自適應(yīng)學(xué)習(xí)率：在GBM中，學(xué)習(xí)率是一個(gè)關(guān)鍵參數(shù)，它控制著每一步迭代中模型更新的幅度。自適應(yīng)學(xué)習(xí)率策略可以根據(jù)模型在訓(xùn)練過程中的表現(xiàn)動態(tài)調(diào)整學(xué)習(xí)率，以加速收斂或避免過擬合。正則化技術(shù)：除了傳統(tǒng)的L

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）：模型評估與交叉驗(yàn)證

文檔簡介

溫馨提示

最新文檔

評論

人工智能和機(jī)器學(xué)習(xí)之分類算法：梯度提升機(jī)（GBM）：模型評估與交叉驗(yàn)證

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔