人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度

上傳人：陳*** IP屬地：境外上傳時間：2024-10-10 格式：DOCX 頁數(shù)：19 大小：29.65KB 積分：6 舉報 版權(quán)申訴

人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度_第2頁

人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度_第3頁

人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度_第4頁

人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度_第5頁

已閱讀5頁，還剩14頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度1梯度提升機（GBM）簡介1.1GBM的工作原理梯度提升機（GradientBoostingMachine,GBM）是一種強大的機器學(xué)習(xí)算法，尤其在處理分類和回歸問題時表現(xiàn)出色。GBM的核心思想是通過迭代的方式，構(gòu)建一系列弱學(xué)習(xí)器（通常是決策樹），并將它們組合成一個強學(xué)習(xí)器。這個過程可以概括為以下步驟：初始化模型：通常從一個常數(shù)開始，這個常數(shù)是所有訓(xùn)練樣本的平均目標(biāo)值。計算殘差：對于當(dāng)前模型的預(yù)測結(jié)果，計算殘差（即實際值與預(yù)測值之間的差異）。擬合弱學(xué)習(xí)器：使用殘差作為目標(biāo)，擬合一個弱學(xué)習(xí)器（如決策樹）。更新模型：將新的弱學(xué)習(xí)器添加到模型中，通過學(xué)習(xí)率（learningrate）調(diào)整其貢獻。重復(fù)步驟2-4：直到達到預(yù)設(shè)的迭代次數(shù)或模型性能不再提升。1.1.1示例代碼#導(dǎo)入必要的庫

fromsklearn.datasetsimportload_iris

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.metricsimportaccuracy_score

#加載數(shù)據(jù)集

iris=load_iris()

X=iris.data

y=iris.target

#劃分訓(xùn)練集和測試集

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)

#初始化GBM模型

gbm=GradientBoostingClassifier(n_estimators=100,learning_rate=0.1,max_depth=3,random_state=42)

#訓(xùn)練模型

gbm.fit(X_train,y_train)

#預(yù)測

y_pred=gbm.predict(X_test)

#計算準(zhǔn)確率

accuracy=accuracy_score(y_test,y_pred)

print(f"模型準(zhǔn)確率:{accuracy}")在這個例子中，我們使用了sklearn庫中的GradientBoostingClassifier來構(gòu)建一個GBM模型。數(shù)據(jù)集是經(jīng)典的鳶尾花數(shù)據(jù)集，通過訓(xùn)練模型并預(yù)測測試集，我們計算了模型的準(zhǔn)確率。1.2GBM與隨機森林的比較GBM和隨機森林（RandomForest）都是基于決策樹的集成學(xué)習(xí)方法，但它們在構(gòu)建模型的方式上有著根本的不同：GBM：通過迭代的方式，每次添加一個決策樹來修正當(dāng)前模型的殘差，從而逐步提高模型的預(yù)測能力。GBM對數(shù)據(jù)的擬合能力很強，但容易過擬合，需要通過調(diào)整超參數(shù)（如學(xué)習(xí)率和樹的深度）來控制。隨機森林：通過構(gòu)建多個決策樹，每個樹獨立地從數(shù)據(jù)的隨機子集上進行訓(xùn)練，最后通過投票的方式得出預(yù)測結(jié)果。隨機森林能夠減少過擬合的風(fēng)險，但可能在復(fù)雜數(shù)據(jù)集上的預(yù)測性能不如GBM。1.2.1示例代碼#導(dǎo)入隨機森林分類器

fromsklearn.ensembleimportRandomForestClassifier

#初始化隨機森林模型

rf=RandomForestClassifier(n_estimators=100,max_depth=3,random_state=42)

#訓(xùn)練模型

rf.fit(X_train,y_train)

#預(yù)測

y_pred_rf=rf.predict(X_test)

#計算準(zhǔn)確率

accuracy_rf=accuracy_score(y_test,y_pred_rf)

print(f"隨機森林模型準(zhǔn)確率:{accuracy_rf}")通過比較GBM和隨機森林在相同數(shù)據(jù)集上的表現(xiàn)，我們可以直觀地看到它們在預(yù)測性能上的差異。在實際應(yīng)用中，選擇哪種方法取決于數(shù)據(jù)的特性和問題的復(fù)雜度。以上內(nèi)容詳細介紹了梯度提升機（GBM）的工作原理，并通過代碼示例展示了如何使用GBM進行分類任務(wù)。同時，也對比了GBM與隨機森林在模型構(gòu)建上的不同之處，幫助理解兩種算法的特點和適用場景。2超參數(shù)調(diào)優(yōu)基礎(chǔ)2.1理解超參數(shù)的重要性在機器學(xué)習(xí)模型中，超參數(shù)是那些在訓(xùn)練過程開始前就需要設(shè)定的參數(shù)，它們不能從數(shù)據(jù)中直接學(xué)習(xí)。超參數(shù)的設(shè)置對模型的性能有著至關(guān)重要的影響。例如，在梯度提升機（GBM）中，學(xué)習(xí)率（learningrate）和樹的深度（treedepth）是兩個關(guān)鍵的超參數(shù)。2.1.1學(xué)習(xí)率學(xué)習(xí)率控制著每棵樹對最終預(yù)測結(jié)果的貢獻程度。較低的學(xué)習(xí)率意味著每棵樹的貢獻較小，模型需要更多的樹來達到最佳性能，這通常會導(dǎo)致更長的訓(xùn)練時間。較高的學(xué)習(xí)率則可能使模型過快地收斂，從而可能錯過更優(yōu)解或?qū)е逻^擬合。2.1.2樹的深度樹的深度決定了每棵樹能夠?qū)W習(xí)到數(shù)據(jù)中的復(fù)雜模式的程度。深度較大的樹能夠捕捉到更復(fù)雜的特征關(guān)系，但也更容易過擬合。深度較小的樹則可能無法充分學(xué)習(xí)到數(shù)據(jù)中的模式，導(dǎo)致欠擬合。2.2常見的超參數(shù)調(diào)優(yōu)方法超參數(shù)調(diào)優(yōu)的目標(biāo)是找到一組超參數(shù)，使得模型在驗證集上的性能最優(yōu)。以下是一些常見的超參數(shù)調(diào)優(yōu)方法：2.2.1網(wǎng)格搜索（GridSearch）網(wǎng)格搜索是一種通過遍歷所有可能的超參數(shù)組合來尋找最優(yōu)超參數(shù)的方法。這種方法簡單但計算成本高，尤其是在超參數(shù)空間較大時。2.2.2隨機搜索（RandomSearch）隨機搜索在超參數(shù)空間中隨機選擇超參數(shù)組合進行評估。與網(wǎng)格搜索相比，隨機搜索在相同的時間內(nèi)可以探索更多的超參數(shù)組合，尤其是在超參數(shù)空間中包含連續(xù)變量時。2.2.3貝葉斯優(yōu)化（BayesianOptimization）貝葉斯優(yōu)化是一種基于概率模型的超參數(shù)調(diào)優(yōu)方法。它通過構(gòu)建一個概率模型來預(yù)測不同超參數(shù)組合的性能，然后選擇最有可能產(chǎn)生最優(yōu)性能的超參數(shù)組合進行評估。這種方法可以有效地減少評估的次數(shù)，提高調(diào)優(yōu)的效率。2.2.4交叉驗證（Cross-Validation）無論是網(wǎng)格搜索、隨機搜索還是貝葉斯優(yōu)化，通常都會結(jié)合交叉驗證來評估模型的性能。交叉驗證通過將數(shù)據(jù)集分為多個子集，然后在不同的子集上訓(xùn)練和驗證模型，從而得到更穩(wěn)定的性能評估結(jié)果。2.2.5示例：使用隨機搜索進行超參數(shù)調(diào)優(yōu)假設(shè)我們正在使用梯度提升機（GBM）進行分類任務(wù)，我們將使用隨機搜索來調(diào)優(yōu)學(xué)習(xí)率和樹的深度。#導(dǎo)入必要的庫

importnumpyasnp

fromsklearn.model_selectionimportRandomizedSearchCV

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.datasetsimportload_iris

fromsklearn.model_selectionimporttrain_test_split

#加載數(shù)據(jù)

data=load_iris()

X=data.data

y=data.target

#劃分訓(xùn)練集和測試集

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)

#定義模型

gbm=GradientBoostingClassifier()

#定義超參數(shù)搜索空間

param_dist={"learning_rate":np.logspace(-3,0,10),

"max_depth":range(1,10)}

#創(chuàng)建隨機搜索對象

random_search=RandomizedSearchCV(gbm,param_distributions=param_dist,n_iter=100,cv=5,verbose=2,random_state=42,n_jobs=-1)

#進行隨機搜索

random_search.fit(X_train,y_train)

#輸出最優(yōu)超參數(shù)

print("Bestparametersfound:",random_search.best_params_)在這個例子中，我們首先加載了鳶尾花數(shù)據(jù)集，并將其劃分為訓(xùn)練集和測試集。然后，我們定義了一個梯度提升機模型，并設(shè)置了超參數(shù)的搜索空間。我們使用np.logspace生成了10個在10?3到100之間的學(xué)習(xí)率值，使用range通過這樣的超參數(shù)調(diào)優(yōu)過程，我們可以找到一組使模型在驗證集上性能最優(yōu)的超參數(shù)，從而提高模型的泛化能力。3人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）超參數(shù)調(diào)優(yōu)3.1學(xué)習(xí)率詳解3.1.1學(xué)習(xí)率的概念學(xué)習(xí)率（LearningRate）是梯度提升機（GBM）中一個關(guān)鍵的超參數(shù)，它控制著模型在每次迭代中更新其參數(shù)的速度。在GBM中，學(xué)習(xí)率決定了每棵樹對最終預(yù)測結(jié)果的貢獻程度。較低的學(xué)習(xí)率意味著每棵樹的貢獻較小，模型需要更多的樹來達到相同的性能，但可以得到更穩(wěn)定和更精確的預(yù)測結(jié)果。較高的學(xué)習(xí)率則意味著每棵樹的貢獻較大，模型可能需要較少的樹，但容易過擬合訓(xùn)練數(shù)據(jù)。3.1.2學(xué)習(xí)率對GBM性能的影響學(xué)習(xí)率對GBM的性能有著顯著的影響。當(dāng)學(xué)習(xí)率設(shè)置得過高時，模型可能會快速收斂，但容易陷入局部最優(yōu)解，導(dǎo)致過擬合。相反，當(dāng)學(xué)習(xí)率設(shè)置得過低時，模型可能需要更多的迭代次數(shù)才能收斂，這會增加訓(xùn)練時間，但通常能獲得更好的泛化能力。因此，選擇合適的學(xué)習(xí)率對于平衡模型的訓(xùn)練速度和預(yù)測性能至關(guān)重要。3.1.3如何選擇合適的學(xué)習(xí)率選擇合適的學(xué)習(xí)率通常需要通過交叉驗證（Cross-Validation）來確定。一個常見的策略是使用網(wǎng)格搜索（GridSearch）或隨機搜索（RandomSearch）來嘗試一系列的學(xué)習(xí)率值，觀察模型在驗證集上的表現(xiàn)。通常，學(xué)習(xí)率的范圍可以從0.01到0.3，更小的學(xué)習(xí)率如0.001可能需要非常大的樹的數(shù)量才能收斂，而過大的學(xué)習(xí)率如1.0則可能使模型性能急劇下降。3.1.3.1示例代碼下面是一個使用Python的sklearn庫中的GradientBoostingClassifier來調(diào)整學(xué)習(xí)率的示例。我們將使用一個簡單的數(shù)據(jù)集來演示如何通過交叉驗證來選擇最佳的學(xué)習(xí)率。importnumpyasnp

importpandasaspd

fromsklearn.datasetsimportload_iris

fromsklearn.model_selectionimportGridSearchCV

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.metricsimportaccuracy_score

#加載數(shù)據(jù)集

data=load_iris()

X=data.data

y=data.target

#定義模型和參數(shù)網(wǎng)格

gbm=GradientBoostingClassifier()

param_grid={'learning_rate':[0.01,0.05,0.1,0.2,0.3]}

#使用GridSearchCV進行交叉驗證

grid_search=GridSearchCV(gbm,param_grid,cv=5,scoring='accuracy')

grid_search.fit(X,y)

#輸出最佳參數(shù)和對應(yīng)的準(zhǔn)確率

best_learning_rate=grid_search.best_params_['learning_rate']

best_score=grid_search.best_score_

print(f"最佳學(xué)習(xí)率:{best_learning_rate}")

print(f"對應(yīng)的準(zhǔn)確率:{best_score}")

#使用最佳學(xué)習(xí)率重新訓(xùn)練模型

best_gbm=GradientBoostingClassifier(learning_rate=best_learning_rate)

best_gbm.fit(X,y)

#預(yù)測并評估模型

y_pred=best_gbm.predict(X)

accuracy=accuracy_score(y,y_pred)

print(f"模型在訓(xùn)練集上的準(zhǔn)確率:{accuracy}")3.1.3.2示例解釋在這個示例中，我們首先加載了Iris數(shù)據(jù)集，這是一個常用的分類數(shù)據(jù)集。然后，我們定義了一個GradientBoostingClassifier模型，并設(shè)置了一個包含不同學(xué)習(xí)率值的參數(shù)網(wǎng)格。通過GridSearchCV，我們對這些學(xué)習(xí)率值進行了交叉驗證，以找到在驗證集上表現(xiàn)最佳的學(xué)習(xí)率。最后，我們使用找到的最佳學(xué)習(xí)率重新訓(xùn)練模型，并評估了模型在訓(xùn)練集上的準(zhǔn)確率。通過調(diào)整學(xué)習(xí)率，我們可以控制模型的復(fù)雜度和訓(xùn)練速度，從而在模型性能和訓(xùn)練時間之間找到一個平衡點。在實際應(yīng)用中，選擇合適的學(xué)習(xí)率是GBM模型調(diào)優(yōu)的重要步驟之一。4人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）超參數(shù)調(diào)優(yōu)4.1樹的深度解析4.1.1樹深度的概念在梯度提升機（GradientBoostingMachine,GBM）中，樹深度（max_depth）是指決策樹從根節(jié)點到最遠葉子節(jié)點的最長路徑上的節(jié)點數(shù)減一。樹深度是控制模型復(fù)雜度的關(guān)鍵參數(shù)，它直接影響模型的擬合能力和泛化能力。淺的樹可能無法捕捉到數(shù)據(jù)中的復(fù)雜模式，而過深的樹則容易過擬合，即在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好，但在未見過的數(shù)據(jù)上表現(xiàn)不佳。4.1.2樹深度對GBM模型的影響樹的深度對GBM模型的影響主要體現(xiàn)在兩個方面：模型復(fù)雜度：樹越深，模型越復(fù)雜，能夠?qū)W習(xí)到的數(shù)據(jù)中的細節(jié)越多。但是，過深的樹容易導(dǎo)致過擬合，即模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)過于優(yōu)秀，以至于它學(xué)習(xí)到了數(shù)據(jù)中的噪聲，而不是真正的模式。計算成本：樹的深度增加，計算成本也隨之增加。更深的樹意味著更多的計算資源和時間，特別是在大數(shù)據(jù)集上。4.1.3最佳樹深度的選擇策略選擇最佳樹深度是一個平衡模型復(fù)雜度和泛化能力的過程。以下是一些常用策略：交叉驗證：通過交叉驗證（Cross-Validation）來評估不同深度的樹在驗證集上的表現(xiàn)，選擇表現(xiàn)最佳的深度。學(xué)習(xí)曲線：繪制學(xué)習(xí)曲線，觀察隨著樹深度的增加，訓(xùn)練誤差和驗證誤差的變化。理想情況下，我們希望找到一個點，在這個點上，驗證誤差開始增加，而訓(xùn)練誤差繼續(xù)下降，這通常意味著模型開始過擬合。正則化：使用正則化技術(shù)，如L1或L2正則化，來懲罰模型的復(fù)雜度，從而避免過擬合。早期停止：在訓(xùn)練過程中，如果驗證集上的性能不再提高，可以提前停止訓(xùn)練，避免模型變得過于復(fù)雜。4.1.3.1示例代碼下面是一個使用Python的sklearn庫來調(diào)整GBM中樹深度的示例。我們將使用一個簡單的數(shù)據(jù)集來演示如何通過交叉驗證來選擇最佳的樹深度。importnumpyasnp

fromsklearn.datasetsimportload_iris

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.model_selectionimportGridSearchCV,train_test_split

#加載數(shù)據(jù)

data=load_iris()

X=data.data

y=data.target

#劃分訓(xùn)練集和測試集

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)

#定義模型

gbm=GradientBoostingClassifier(random_state=42)

#定義超參數(shù)網(wǎng)格

param_grid={'max_depth':np.arange(1,11)}

#使用網(wǎng)格搜索和交叉驗證來找到最佳的樹深度

grid_search=GridSearchCV(gbm,param_grid,cv=5)

grid_search.fit(X_train,y_train)

#輸出最佳參數(shù)

print("Bestmax_depth:",grid_search.best_params_['max_depth'])

#使用最佳參數(shù)的模型在測試集上評估

best_gbm=GradientBoostingClassifier(max_depth=grid_search.best_params_['max_depth'],random_state=42)

best_gbm.fit(X_train,y_train)

print("Testaccuracy:",best_gbm.score(X_test,y_test))4.1.3.2示例解釋在這個示例中，我們首先加載了Iris數(shù)據(jù)集，這是一個常用的分類數(shù)據(jù)集。然后，我們將數(shù)據(jù)集劃分為訓(xùn)練集和測試集，以便在訓(xùn)練模型后進行性能評估。接下來，我們定義了一個GBM模型，并設(shè)置了一個超參數(shù)網(wǎng)格，其中包含從1到10的不同樹深度。我們使用GridSearchCV函數(shù)來執(zhí)行交叉驗證，它會自動嘗試網(wǎng)格中的所有參數(shù)組合，并返回在驗證集上表現(xiàn)最佳的參數(shù)。最后，我們使用找到的最佳樹深度來訓(xùn)練模型，并在測試集上評估模型的準(zhǔn)確性。通過這種方式，我們可以確保模型既不過于簡單，也不過于復(fù)雜，從而在新數(shù)據(jù)上具有良好的泛化能力。通過調(diào)整樹深度，我們可以有效地控制GBM模型的復(fù)雜度，避免過擬合，同時保持模型的預(yù)測性能。這需要對數(shù)據(jù)集的特性有深入的理解，并可能需要多次實驗來找到最佳的參數(shù)設(shè)置。5學(xué)習(xí)率與樹深度的交互作用5.1學(xué)習(xí)率與樹深度的關(guān)系梯度提升機（GBM）是一種強大的機器學(xué)習(xí)算法，它通過迭代地添加弱學(xué)習(xí)器（通常是決策樹）來逐步改進模型的預(yù)測能力。在GBM中，有兩個關(guān)鍵的超參數(shù)需要調(diào)整：學(xué)習(xí)率（learningrate）和樹的深度（treedepth）。5.1.1學(xué)習(xí)率學(xué)習(xí)率控制著每棵樹對最終模型預(yù)測結(jié)果的貢獻程度。較低的學(xué)習(xí)率意味著每棵樹的貢獻較小，模型需要更多的樹來達到最佳性能，這通常會導(dǎo)致更長的訓(xùn)練時間。然而，低學(xué)習(xí)率可以減少過擬合的風(fēng)險，因為每棵樹的預(yù)測誤差會被更平滑地修正。5.1.2樹的深度樹的深度決定了決策樹的復(fù)雜度。較深的樹能夠捕捉到更復(fù)雜的特征關(guān)系，但同時也更容易過擬合數(shù)據(jù)。淺的樹則可能無法充分學(xué)習(xí)數(shù)據(jù)中的模式，導(dǎo)致欠擬合。5.1.3交互作用學(xué)習(xí)率和樹深度之間存在密切的交互作用。高學(xué)習(xí)率配合深樹可能會導(dǎo)致模型快速過擬合，而低學(xué)習(xí)率配合淺樹則可能需要更多的樹來達到良好的性能，但能更好地泛化到未見數(shù)據(jù)。因此，找到這兩者之間的平衡是超參數(shù)調(diào)優(yōu)的關(guān)鍵。5.2調(diào)整學(xué)習(xí)率和樹深度的策略5.2.1網(wǎng)格搜索網(wǎng)格搜索是一種系統(tǒng)地調(diào)整超參數(shù)的方法，通過在預(yù)定義的超參數(shù)范圍內(nèi)進行窮舉搜索，找到最佳的參數(shù)組合。對于學(xué)習(xí)率和樹深度，可以設(shè)定一個范圍，例如學(xué)習(xí)率從0.01到0.3，樹深度從3到10，然后在這些組合中尋找最優(yōu)解。5.2.2隨機搜索隨機搜索在超參數(shù)空間中隨機選擇參數(shù)組合進行評估，相比于網(wǎng)格搜索，它在相同的時間內(nèi)可以探索更多的參數(shù)組合，尤其適用于高維超參數(shù)空間。5.2.3交叉驗證無論是網(wǎng)格搜索還是隨機搜索，都應(yīng)該結(jié)合交叉驗證來評估模型的性能。交叉驗證通過將數(shù)據(jù)集分為多個子集，輪流作為測試集，可以更準(zhǔn)確地估計模型在未見數(shù)據(jù)上的表現(xiàn)。5.3案例分析：學(xué)習(xí)率與樹深度的調(diào)優(yōu)假設(shè)我們有一個二分類問題，使用GBM進行建模。我們將通過調(diào)整學(xué)習(xí)率和樹深度來優(yōu)化模型。5.3.1數(shù)據(jù)準(zhǔn)備importpandasaspd

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.datasetsimportload_breast_cancer

#加載數(shù)據(jù)

data=load_breast_cancer()

X=pd.DataFrame(data.data,columns=data.feature_names)

y=pd.Series(data.target)

#劃分訓(xùn)練集和測試集

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)5.3.2模型訓(xùn)練與調(diào)優(yōu)fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.model_selectionimportGridSearchCV

#定義模型

gbm=GradientBoostingClassifier(random_state=42)

#定義超參數(shù)范圍

param_grid={

'learning_rate':[0.01,0.1,0.3],

'max_depth':[3,5,10]

}

#使用網(wǎng)格搜索進行超參數(shù)調(diào)優(yōu)

grid_search=GridSearchCV(gbm,param_grid,cv=5,scoring='accuracy')

grid_search.fit(X_train,y_train)

#輸出最佳參數(shù)

print("Bestparametersfound:",grid_search.best_params_)5.3.3結(jié)果分析在運行上述代碼后，GridSearchCV會輸出最佳的學(xué)習(xí)率和樹深度組合。例如，如果最佳參數(shù)是{'learning_rate':0.1,'max_depth':5}，這意味著在當(dāng)前數(shù)據(jù)集上，使用0.1的學(xué)習(xí)率和深度為5的樹能夠獲得最佳的分類準(zhǔn)確率。5.4使用網(wǎng)格搜索進行超參數(shù)調(diào)優(yōu)網(wǎng)格搜索是一種有效但計算密集型的方法，用于在預(yù)定義的超參數(shù)范圍內(nèi)尋找最佳參數(shù)組合。在GBM中，通過網(wǎng)格搜索調(diào)整學(xué)習(xí)率和樹深度，可以確保模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好，同時在測試數(shù)據(jù)上也具有較強的泛化能力。5.4.1實施步驟定義模型：創(chuàng)建一個GradientBoostingClassifier實例。設(shè)定超參數(shù)范圍：定義一個字典，包含要調(diào)整的超參數(shù)及其可能的值。執(zhí)行網(wǎng)格搜索：使用GridSearchCV進行交叉驗證，遍歷所有可能的參數(shù)組合。評估與選擇：根據(jù)交叉驗證的平均準(zhǔn)確率選擇最佳參數(shù)組合。5.4.2注意事項網(wǎng)格搜索可能非常耗時，尤其是在超參數(shù)范圍較大時?？紤]使用并行處理來加速搜索過程。隨機搜索在某些情況下可能比網(wǎng)格搜索更有效，尤其是在超參數(shù)空間非常大時。通過上述案例分析和策略實施，我們可以更深入地理解學(xué)習(xí)率與樹深度在GBM中的交互作用，并學(xué)會如何有效地調(diào)整這些超參數(shù)以優(yōu)化模型性能。6實踐操作與技巧6.1在Python中使用GBM進行分類梯度提升機(GradientBoostingMachine,GBM)是一種強大的機器學(xué)習(xí)算法，尤其適用于分類和回歸問題。在Python中，我們常用scikit-learn庫中的GradientBoostingClassifier來實現(xiàn)GBM模型。下面是一個使用GBM進行分類的示例：importnumpyasnp

importpandasaspd

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.metricsimportaccuracy_score

#加載數(shù)據(jù)

data=pd.read_csv('data.csv')

X=data.drop('target',axis=1)

y=data['target']

#劃分訓(xùn)練集和測試集

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)

#初始化GBM模型

gbm=GradientBoostingClassifier(n_estimators=100,learning_rate=0.1,max_depth=3,random_state=42)

#訓(xùn)練模型

gbm.fit(X_train,y_train)

#預(yù)測

y_pred=gbm.predict(X_test)

#評估模型

accuracy=accuracy_score(y_test,y_pred)

print(f'Accuracy:{accuracy}')6.1.1代碼解釋數(shù)據(jù)加載：使用pandas庫讀取CSV文件，將數(shù)據(jù)分為特征X和目標(biāo)變量y。數(shù)據(jù)劃分：使用train_test_split函數(shù)將數(shù)據(jù)集分為訓(xùn)練集和測試集。模型初始化：創(chuàng)建GradientBoostingClassifier實例，設(shè)置參數(shù)n_estimators（樹的數(shù)量）、learning_rate（學(xué)習(xí)率）和max_depth（樹的最大深度）。模型訓(xùn)練：使用訓(xùn)練數(shù)據(jù)調(diào)用fit方法訓(xùn)練模型。預(yù)測：使用測試數(shù)據(jù)調(diào)用predict方法進行預(yù)測。模型評估：通過比較預(yù)測結(jié)果和真實結(jié)果，使用accuracy_score計算模型的準(zhǔn)確率。6.2使用Scikit-learn進行超參數(shù)調(diào)優(yōu)超參數(shù)調(diào)優(yōu)是提升GBM模型性能的關(guān)鍵步驟。scikit-learn提供了多種方法進行調(diào)優(yōu)，如GridSearchCV和RandomizedSearchCV。下面使用GridSearchCV來尋找最佳的learning_rate和max_depth：fromsklearn.model_selectionimportGridSearchCV

#定義超參數(shù)網(wǎng)格

param_grid={

'learning_rate':[0.01,0.1,0.2],

'max_depth':[2,3,4]

}

#初始化GBM模型

gbm=GradientBoostingClassifier(n_estimators=100,random_state=42)

#初始化GridSearchCV

grid_search=GridSearchCV(gbm,param_grid,cv=5,scoring='accuracy')

#執(zhí)行網(wǎng)格搜索

grid_search.fit(X_train,y_train)

#獲取最佳參數(shù)

best_params=grid_search.best_params_

print(f'Bestparameters:{best_params}')

#使用最佳參數(shù)重新訓(xùn)練模型

gbm_best=GradientBoostingClassifier(n_estimators=100,learning_rate=best_params['learning_rate'],

max_depth=best_params['max_depth'],random_state=42)

gbm_best.fit(X_train,y_train)

#預(yù)測并評估

y_pred_best=gbm_best.predict(X_test)

accuracy_best=accuracy_score(y_test,y_pred_best)

print(f'Accuracywithbestparameters:{accuracy_best}')6.2.1代碼解釋定義超參數(shù)網(wǎng)格：創(chuàng)建一個字典，包含要搜索的learning_rate和max_depth的不同值。初始化GBM模型：創(chuàng)建GradientBoostingClassifier實例，暫時不設(shè)置learning_rate和max_depth。初始化GridSearchCV：使用param_grid和交叉驗證(cv)初始化GridSearchCV，并指定評估指標(biāo)為accuracy。執(zhí)行網(wǎng)格搜索：使用訓(xùn)練數(shù)據(jù)調(diào)用fit方法，GridSearchCV會自動嘗試所有參數(shù)組合并選擇最佳參數(shù)。獲取最佳參數(shù)：通過best_params_屬性獲取最佳參數(shù)組合。使用最佳參數(shù)重新訓(xùn)練模型：根據(jù)最佳參數(shù)重新初始化GBM模型，并使用訓(xùn)練數(shù)據(jù)進行訓(xùn)練。預(yù)測并評估：使用測試數(shù)據(jù)進行預(yù)測，并計算模型的準(zhǔn)確率。6.3提高GBM模型性能的高級技巧除了基本的超參數(shù)調(diào)優(yōu)，還有其他技巧可以進一步提升GBM模型的性能：6.3.1特征選擇使用特征重要性或相關(guān)性分析來選擇最相關(guān)的特征，減少模型的復(fù)雜度，提高預(yù)測效率。6.3.2正則化通過設(shè)置l1或l2正則化參數(shù)，可以減少模型的過擬合。6.3.3子采樣使用subsample參數(shù)控制每棵樹使用的樣本比例，可以增加模型的泛化能力。6.3.4早停策略通過設(shè)置n_iter_no_change和validation_fraction參數(shù)，可以實現(xiàn)早停策略，避免過擬合。6.3.5自定義損失函數(shù)對于特定問題，可以自定義損失函數(shù)來優(yōu)化模型的性能。6.3.6集成學(xué)習(xí)將多個GBM模型的結(jié)果進行集成，如使用投票或平均策略，可以提高模型的穩(wěn)定性和準(zhǔn)確性。6.3.7參數(shù)微調(diào)使用更精細的網(wǎng)格或隨機搜索策略，對模型的超參數(shù)進行更深入的調(diào)優(yōu)。6.3.8數(shù)據(jù)預(yù)處理對數(shù)據(jù)進行預(yù)處理，如缺失值填充、異常值處理和特征縮放，可以顯著提高模型的性能。6.3.9交叉驗證使用KFold或StratifiedKFold進行交叉驗證，可以更準(zhǔn)確地評估模型的性能。6.3.10學(xué)習(xí)曲線分析通過繪制學(xué)習(xí)曲線，可以觀察模型在不同數(shù)據(jù)量下的性能，幫助識別模型是否過擬合或欠擬合。6.3.11示例：使用正則化和早停策略#初始化GBM模型，使用正則化和早停策略

gbm=GradientBoostingClassifier(n_estimators=100,learning_rate=0.1,max_depth=3,

subsample=0.8,l2_regularization=0.1,random_state=42,

n_iter_no_change=5,validation_fraction=0.2)

#訓(xùn)練模型

gbm.fit(X_train,y_train)

#預(yù)測并評估

y_pred=gbm.predict(X_test)

accuracy=accuracy_score(y_test,y_pred)

print(f'Accuracywithregularizationandearlystopping:{accuracy}')6.3.12代碼解釋正則化：通過設(shè)置l2_regularization參數(shù)，引入了L2正則化，以減少模型的復(fù)雜度。早停策略：通過設(shè)置n_iter_no_change和validation_fraction，實現(xiàn)了早停策略，當(dāng)驗證集上的性能在連續(xù)5次迭代中沒有改善時，訓(xùn)練將停止。通過這些實踐操作和技巧，可以有效地使用GBM進行分類，并通過超參數(shù)調(diào)優(yōu)和高級策略進一步提升模型的性能。7人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度7.1GBM調(diào)優(yōu)總結(jié)在梯度提升機（GradientBoostingMachine,GBM）的超參數(shù)調(diào)優(yōu)過程中，學(xué)習(xí)率（learningrate）和樹的深度（treedepth）是兩個關(guān)鍵參數(shù)，它們直接影響模型的性能和泛化能力。學(xué)習(xí)率決定了每棵樹對最終預(yù)測結(jié)果的貢獻程度，較小的學(xué)習(xí)率可以減少過擬合的風(fēng)險，但會增加訓(xùn)練時間。樹的深度則控制了每棵樹的復(fù)雜度，深度越大，模型的表達能力越強，但也更容易過擬合。7.1.1學(xué)習(xí)率調(diào)優(yōu)學(xué)習(xí)率通常設(shè)置在0到1之間，一個較小的學(xué)習(xí)率（如0.01或0.1）可以使得模型更加穩(wěn)健，但需要更多的樹來達到相同的性能，這會增加訓(xùn)練時間。較大的學(xué)習(xí)率（如0.3）則可以加快訓(xùn)練速度，但模型可能更容易過擬合。調(diào)優(yōu)學(xué)習(xí)率時，可以先從一個較高的值開始，然后逐漸減小，觀察模型在驗證集上的表現(xiàn)。7.1.1.1示例代碼#導(dǎo)入必要的庫

fromsklearn.ensembleimportGradientBoostingClassifier

fromsklearn.model_selectionimportGridSearchCV

fromsklearn.datasetsimportload_iris

#加載數(shù)據(jù)

data=load_iris()

X=data.data

y=data.target

#定義模型

gbm=GradientBoostingClassifier()

#定義要調(diào)優(yōu)的參數(shù)

param_grid={'learning_rate':[0.01,0.1,0.3,1]}

#使用GridSearchCV進行調(diào)優(yōu)

grid_search=GridSearchCV(gbm,param_grid,cv=5)

grid_search.fit(X,y)

#輸出最佳參數(shù)

print("最佳學(xué)習(xí)率:",grid_search.best_params_['learning_rate'])7.1.2樹的深度調(diào)優(yōu)樹的深度決定了每棵樹可以學(xué)習(xí)到的特征組合的復(fù)雜度。深度越大，模型越復(fù)雜，但也更容易過擬合。調(diào)優(yōu)樹的深度時，可以從小深度開始，逐漸增加，直到模型在驗證集上的性能不再顯著提高。7.1.2.1示例代碼#繼續(xù)使用上述代碼中的數(shù)據(jù)和模型定義

#定義要調(diào)優(yōu)的參數(shù)

param_grid={'max_depth':[1,3,5,7,9]}

#使用GridSearchCV進行調(diào)優(yōu)

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度

文檔簡介

溫馨提示

最新文檔

評論

人工智能和機器學(xué)習(xí)之分類算法：梯度提升機（GBM）：超參數(shù)調(diào)優(yōu)：學(xué)習(xí)率與樹的深度

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔