數(shù)據(jù)挖掘（第2版）課件第7章集成學(xué)習(xí)

上傳人：h*** IP屬地：山東上傳時(shí)間：2024-01-05 格式：PPTX 頁(yè)數(shù)：54 大小：3.43MB 積分：15 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘（第2版）課件第7章集成學(xué)習(xí)_第2頁(yè)

數(shù)據(jù)挖掘（第2版）課件第7章集成學(xué)習(xí)_第3頁(yè)

數(shù)據(jù)挖掘（第2版）課件第7章集成學(xué)習(xí)_第4頁(yè)

數(shù)據(jù)挖掘（第2版）課件第7章集成學(xué)習(xí)_第5頁(yè)

已閱讀5頁(yè)，還剩49頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘（第二版）第七章集成學(xué)習(xí)of642高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用

集成學(xué)習(xí)是數(shù)據(jù)挖掘算法的一種，本質(zhì)上是將多個(gè)基學(xué)習(xí)器通過有效融合集成為一個(gè)強(qiáng)學(xué)習(xí)器，從而提高泛化精度。在人臉識(shí)別、NLP等領(lǐng)域有廣泛應(yīng)用。圖像識(shí)別自然語言處理7.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)7.2

Bagging算法與隨機(jī)森林算法7.3

Boosting算法3.1數(shù)據(jù)挖掘概述7.5多樣性習(xí)題7.4結(jié)合策略of643高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例

集成學(xué)習(xí)是在建立基學(xué)習(xí)器的基礎(chǔ)上進(jìn)行有效融合集成形成強(qiáng)學(xué)習(xí)器，其中包括3個(gè)主要階段性工作：一是基學(xué)習(xí)器的構(gòu)建設(shè)計(jì)；二是基學(xué)習(xí)器的集成方法；三是基學(xué)習(xí)器結(jié)果的整合。7.1.1集成學(xué)習(xí)的構(gòu)建of6447.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)

集成學(xué)習(xí)的兩個(gè)主要工作一般可以劃分為訓(xùn)練和檢驗(yàn)兩個(gè)階段。訓(xùn)練階段是訓(xùn)練形成集成模型，主要針對(duì)訓(xùn)練樣本數(shù)據(jù)集，劃分多個(gè)基學(xué)習(xí)器按照一定的融合集成規(guī)則形成一個(gè)強(qiáng)學(xué)習(xí)器；檢驗(yàn)階段是驗(yàn)證調(diào)整集成模型，主要針對(duì)測(cè)試樣本數(shù)據(jù)集，對(duì)多個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果按照一定的集成整合規(guī)則形成集成預(yù)測(cè)結(jié)果。7.1.1集成學(xué)習(xí)的構(gòu)建of6457.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)7.1.1集成學(xué)習(xí)的構(gòu)建of6467.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)同質(zhì)集成學(xué)習(xí)同質(zhì)集成學(xué)習(xí)是指基學(xué)習(xí)器的類型為同一類學(xué)習(xí)器，如都是決策樹的基分類器集成為強(qiáng)決策樹異質(zhì)集成學(xué)習(xí)異質(zhì)集成學(xué)習(xí)是不同類型的基學(xué)習(xí)器的集成，如決策樹與神經(jīng)網(wǎng)絡(luò)的集成，如疊加法（Sta按照基學(xué)習(xí)器的類型異同7.1.1集成學(xué)習(xí)的構(gòu)建of6477.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)根據(jù)基學(xué)習(xí)器的生成順序串行組合經(jīng)典的集成學(xué)習(xí)方法Boosting及其改進(jìn)的AdaBoosting、GDBT（GradientBoostingDecisionTree）并行組合Bagging及在此基礎(chǔ)上的隨機(jī)森林算法混合拓?fù)浣M合兩階段集成學(xué)習(xí)（Two-PhasesEnsembleLeaming，TPEL）是一種先串行后并行7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of6487.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)兼聽則明，偏聽則暗三個(gè)臭皮匠，賽過諸葛亮7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of6497.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)在統(tǒng)計(jì)上的有效性7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64107.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)在計(jì)算上的有效性7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64117.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)在表示上的有效性7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64127.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)的準(zhǔn)確性二分類問題集成學(xué)習(xí)分類正確集成學(xué)習(xí)分類不正確的概率根據(jù)霍夫丁不等式，集成學(xué)習(xí)誤差7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64137.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)的準(zhǔn)確性根據(jù)霍夫丁不等式，集成學(xué)習(xí)誤差集成學(xué)習(xí)誤差上限受到基學(xué)習(xí)器數(shù)量N和基學(xué)習(xí)器誤差

決定，當(dāng)基學(xué)習(xí)器數(shù)量N越多時(shí)，誤差上限越??；當(dāng)基學(xué)習(xí)器誤差

時(shí)，基學(xué)習(xí)器誤差越小，集成學(xué)習(xí)誤差上限越小。結(jié)論7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64147.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)的多樣性結(jié)論基學(xué)習(xí)器從數(shù)據(jù)集正確率樣本1樣本2樣本3C1√√×66.67%C2×√√66.67%C3√×√66.67%C4×√√66.67%集成學(xué)習(xí)EL1={C1、C2、C3}，EL2={C2、C3、C4}，觀察EL1中的C1、C2、C3，兩兩之間的相似度為33.33%，EL2中的C2、C3、C4中，C2與C4的相似度為100%，與C1的相似度為33.33%。

按照大數(shù)原則進(jìn)行集成，EL1在數(shù)據(jù)集的分類精度（正確率）為100%，集成比基學(xué)習(xí)器精度都要高。然而，EL2在數(shù)據(jù)集的分類精度（正確率）為66.67%，與基學(xué)習(xí)器相當(dāng)，集成并沒有提高預(yù)測(cè)效果。7.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)7.1集成學(xué)習(xí)的概念7.3

Boosting算法3.1數(shù)據(jù)挖掘概述7.5多樣性習(xí)題7.4結(jié)合策略of6415高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例of64167.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)Bagging算法是指通過引導(dǎo)程序使用一個(gè)訓(xùn)練集的多個(gè)版本，即放回抽樣，每一個(gè)數(shù)據(jù)集都來訓(xùn)練一個(gè)不同的模型，對(duì)訓(xùn)練模型通過整合輸出形成一個(gè)最終的預(yù)測(cè)結(jié)果。1.基本概念

Bagging算法（引導(dǎo)聚集算法），又稱為裝袋算法。Bagging算法可與其他分類、回歸算法結(jié)合，在提高其在確率、穩(wěn)定性的同時(shí)，通過降低結(jié)果的方差，避免過擬合的發(fā)生。7.2.1Bagging算法基本思想of64177.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)2.數(shù)據(jù)樣本

對(duì)于M個(gè)樣本的數(shù)據(jù)集，按照有放回抽樣方式（BootstrapSample）隨機(jī)抽取m（m≤M）個(gè)樣本，經(jīng)過N次抽樣形成不同的數(shù)據(jù)集，每個(gè)數(shù)據(jù)集按照學(xué)習(xí)算法構(gòu)建基學(xué)習(xí)器，最后按照結(jié)合策略形成強(qiáng)學(xué)習(xí)器，這種強(qiáng)學(xué)習(xí)器就是將基學(xué)習(xí)器的學(xué)習(xí)結(jié)果組合形成最終學(xué)習(xí)結(jié)果。

有放回抽樣方式就是從我們的訓(xùn)練集中采集固定個(gè)數(shù)的樣本，但是每采集一個(gè)樣本后，都將樣本放回。也就是說，之前采集到的樣本在放回后有可能繼續(xù)被采集到。對(duì)于Bagging算法，一般會(huì)隨機(jī)采集和訓(xùn)練集樣本數(shù)M一樣個(gè)數(shù)的樣本m，即設(shè)定m=M。這樣得到的采樣集和訓(xùn)練集樣本的個(gè)數(shù)相同，但是樣本內(nèi)容不同。如果我們對(duì)有m個(gè)樣本訓(xùn)練集做N次的隨機(jī)采樣，則由于隨機(jī)性，N個(gè)采樣集各不相同。

7.2.1Bagging算法基本思想of64187.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)2.數(shù)據(jù)集劃分

對(duì)于M個(gè)樣本數(shù)據(jù)集，會(huì)存在36.8%的樣本不會(huì)被抽取到，這類數(shù)據(jù)可以作為包外數(shù)據(jù)（OutOfBag），可用作驗(yàn)證集對(duì)泛化性能進(jìn)行“包外估計(jì)”。7.2.1Bagging算法基本思想of64197.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)被抽到的訓(xùn)練數(shù)據(jù)包外數(shù)據(jù)數(shù)據(jù)集36.8%1.算法流程

對(duì)于M個(gè)樣本數(shù)據(jù)集，會(huì)存在36.8%的樣本不會(huì)被抽取到，這類數(shù)據(jù)可以作為包外數(shù)據(jù)（OutOfBag），可用作驗(yàn)證集對(duì)泛化性能進(jìn)行“包外估計(jì)”。7.2.2Bagging算法流程of64207.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)2.算法特點(diǎn)

Bagging算法具有控制方差、性能高效、應(yīng)用廣泛等優(yōu)點(diǎn)，通過多個(gè)基學(xué)習(xí)器在樣本抽樣上的多樣性，實(shí)現(xiàn)集成上的方差變小，提升泛化能力；通過并行對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行抽樣構(gòu)建基學(xué)習(xí)器，實(shí)現(xiàn)基學(xué)習(xí)器的并行構(gòu)建，提升集成學(xué)習(xí)模型的構(gòu)建效率，減少構(gòu)建消耗時(shí)間；Bagging算法中多個(gè)基學(xué)習(xí)器學(xué)習(xí)結(jié)果進(jìn)行有效組合，可直接適用于分類問題和回歸預(yù)測(cè)，具有廣泛應(yīng)用場(chǎng)景。從“偏差-方差分解”的角度看，Bagging算法主要關(guān)注降低方差，因此它在不剪枝決策樹、神經(jīng)網(wǎng)絡(luò)等易受樣本擾動(dòng)的學(xué)習(xí)器上效用更為明顯。7.2.2Bagging算法流程of64217.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)1.算法概述

隨機(jī)森林（RandomForest，RF）算法是Bagging算法的一個(gè)擴(kuò)展變體，是在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上，在決策樹的訓(xùn)練過程中進(jìn)一步引入了隨機(jī)屬性選擇。7.2.3隨機(jī)森林算法of64227.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)2.算法特點(diǎn)

隨機(jī)森林算法結(jié)構(gòu)簡(jiǎn)單、容易實(shí)現(xiàn)、計(jì)算開銷小，并且在很多現(xiàn)實(shí)任務(wù)中展現(xiàn)出強(qiáng)大的性能，被譽(yù)為“代表集成學(xué)習(xí)技術(shù)水平的方法”?？梢钥闯觯S機(jī)森林算法對(duì)Bagging集成學(xué)習(xí)只做了小改動(dòng)，但是與Bagging算法中基學(xué)習(xí)器的“多樣性”僅通過樣本擾動(dòng)（通過對(duì)初始訓(xùn)練集采樣）而來不同，隨機(jī)森林算法中基學(xué)習(xí)器的多樣性不僅來自樣本擾動(dòng)，還來自屬性擾動(dòng)，這就使得最終集成的泛化性能可通過個(gè)體學(xué)習(xí)器之間差異度的增加而進(jìn)一步提升。隨機(jī)森林算法可以處理高維數(shù)據(jù)，模型的泛化能力較強(qiáng)，訓(xùn)練模型時(shí)速度快、并行化，可以處理不平衡數(shù)據(jù)，有包外數(shù)據(jù)（OOB）作為驗(yàn)證數(shù)據(jù)集，對(duì)缺失值、異常值不敏感，模型訓(xùn)練結(jié)果準(zhǔn)確度高，具有Bagging算法能夠收斂于更小的泛化誤差等優(yōu)點(diǎn)。當(dāng)數(shù)據(jù)噪聲比較大時(shí)，隨機(jī)森林算法會(huì)產(chǎn)生過擬合現(xiàn)象。7.2.3隨機(jī)森林算法of64237.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)7.3Boosting算法第七章集成學(xué)習(xí)7.1集成學(xué)習(xí)的概念7.2Bagging算法與隨機(jī)森林算法3.1數(shù)據(jù)挖掘概述7.5多樣性習(xí)題7.4結(jié)合策略of6424高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例

Boosting算法也是一種基于數(shù)據(jù)集重抽樣算法，與Bagging算法主要區(qū)別在于，需要?jiǎng)討B(tài)調(diào)整訓(xùn)練樣本中各數(shù)據(jù)權(quán)重，每一次迭代增加不能正確學(xué)習(xí)樣本權(quán)重，相對(duì)地降低了能被正確學(xué)習(xí)的樣本權(quán)重，從而提升在整個(gè)訓(xùn)練樣本數(shù)據(jù)集上的學(xué)習(xí)正確率。of64257.3Boosting算法第七章集成學(xué)習(xí)1.算法流程

Boosting算法第一次構(gòu)建基學(xué)習(xí)器時(shí)給每一個(gè)訓(xùn)練數(shù)據(jù)樣本賦予動(dòng)態(tài)權(quán)重，加強(qiáng)分類錯(cuò)誤樣本權(quán)重。在下一次，基學(xué)習(xí)器采用新的樣本權(quán)重進(jìn)行隨機(jī)抽樣構(gòu)建新的基學(xué)習(xí)器并以此類推構(gòu)建多個(gè)基學(xué)習(xí)器，直到遞進(jìn)生成的基學(xué)習(xí)器精度不再明顯提升或滿足精度需求，最后這多個(gè)基學(xué)習(xí)器形成一個(gè)精度較高的強(qiáng)學(xué)習(xí)器。7.3.1Boosting算法流程of64267.3Boosting算法第七章集成學(xué)習(xí)1.算法流程Boosting算法最典型的是Adaptive

Boosting算法，簡(jiǎn)稱AdaBoost算法，其基本流程描述如下。強(qiáng)學(xué)習(xí)器。7.3.1Boosting算法流程of64277.3Boosting算法第七章集成學(xué)習(xí)2.算法特點(diǎn)為了提升集成模型的差異化，Boosting算法是一個(gè)逐步遞進(jìn)的方法，每一個(gè)學(xué)習(xí)器都是前一個(gè)的通過調(diào)整樣本權(quán)重的改進(jìn)模型，不存在兩個(gè)相同的基學(xué)習(xí)器。從“偏差-方差分解”的角度看，Boosting算法主要提升基學(xué)習(xí)器的準(zhǔn)確率，降低偏差，因此，Boosting算法能基于泛化性能相當(dāng)弱的學(xué)習(xí)器構(gòu)建出很強(qiáng)的集成。Boosting算法問題在于更多關(guān)注不能正確分類樣本數(shù)據(jù)，對(duì)于邊界樣本會(huì)導(dǎo)致權(quán)重失衡，產(chǎn)生“退化問題”。7.3.1Boosting算法流程of64287.3Boosting算法第七章集成學(xué)習(xí)1．BoostingTree算法

BoostingTree算法是以分類樹或回歸樹為基本分類器的提升方法。該方法實(shí)際采用加法模型（基函數(shù)的線性組合）與前向分步算法。對(duì)分類問題決策樹是二叉分類樹，對(duì)回歸問題決策樹是二叉回歸樹。

對(duì)于二分類問題，提升樹分類算法只需將AdaBoost算法中的基本分類器限制為二類分類樹即可，這時(shí)的提升樹分類算法可以說是AdaBoost算法的特殊情況。7.3.2Boosting系列算法of64297.3Boosting算法第七章集成學(xué)習(xí)2．GBDT算法

GBDT（GradientBoostingDecisionTree）又叫MART（MultipleAdditiveRegressionTree），是一種迭代的決策樹算法，該算法由多棵決策樹組成，所有樹的預(yù)測(cè)結(jié)果集成后得到結(jié)論，是Boosting系列算法之一。它在被提出之初就和支持向量機(jī)一起被認(rèn)為是泛化能力較強(qiáng)的算法。

作為GBDT基學(xué)習(xí)器的決策樹是回歸樹，而不是分類樹，GBDT用來做回歸預(yù)測(cè)，調(diào)整后也可以用于分類。

GBDT的核心思想在于，每一棵決策樹學(xué)的是之前所有決策樹結(jié)論和的殘差，這個(gè)殘差就是一個(gè)加預(yù)測(cè)值后能得真實(shí)值的累加量。7.3.2Boosting系列算法of64307.3Boosting算法第七章集成學(xué)習(xí)3．XGBoost算法

XGBoost（eXtremeGradientBoosting）是經(jīng)過優(yōu)化的分布式梯度提升庫(kù)，旨在高效、靈活且可移植。XGBoost是大規(guī)模并行BoostingTree的工具，它是目前最快最好的開源BoostingTree工具包，比常見的工具包快10倍以上。

XGBoost算法和GBDT算法兩者都是Boosting算法，除工程實(shí)現(xiàn)、解決問題上的一些差異外，最大的不同就是目標(biāo)函數(shù)的定義。XGBoost算法的改進(jìn)是在求解損失函數(shù)極值時(shí)使用了牛頓法，將損失函數(shù)泰勒展開到二階，另外損失函數(shù)中加入了正則化項(xiàng)。訓(xùn)練時(shí)的目標(biāo)函數(shù)由兩部分構(gòu)成，第一部分為梯度提升算法損失，第二部分為正則化項(xiàng)。7.3.2Boosting系列算法of64317.3Boosting算法第七章集成學(xué)習(xí)7.4結(jié)合策略第七章集成學(xué)習(xí)7.1集成學(xué)習(xí)的概念7.2Bagging算法與隨機(jī)森林算法7.5多樣性習(xí)題7.3Boosting算法of6432高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例

典型集成學(xué)習(xí)描述了如何通過訓(xùn)練樣本數(shù)據(jù)得到基學(xué)習(xí)器，下面我們關(guān)注集成學(xué)習(xí)的檢驗(yàn)階段，即如何將各基學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行有效整合集成形成集成學(xué)習(xí)預(yù)測(cè)結(jié)果并進(jìn)行檢驗(yàn)?；鶎W(xué)習(xí)器的整合方式可以分為3個(gè)層次，即決策層次輸出、排序?qū)哟屋敵龊投攘繉哟屋敵?。基學(xué)習(xí)器結(jié)果集成屬于決策層次集成，一般包括兩大類集成方法，即投票方法（Voting）和疊加方法（Stacking）。of64337.4結(jié)合策略第七章集成學(xué)習(xí)

投票方法是指對(duì)各基學(xué)習(xí)器的分類結(jié)果按照某種原則進(jìn)行投票表決，得到集成預(yù)測(cè)分類結(jié)果。投票方法可分為普通投票和貝葉斯投票兩種。普通投票方法可以分為均等投票和賦權(quán)投票兩類，賦權(quán)投票是給投票專家賦予不同權(quán)重，均等投票則是以相同權(quán)重進(jìn)行投票，可以將均等投票視作各專家投票權(quán)重的特殊情況。根據(jù)應(yīng)用背景需求，按投票原則又可以分為一票否決、一致表決、大數(shù)原則和閥值表決等。對(duì)于回歸問題，可以通過平均值、加權(quán)求和、中位數(shù)、最大數(shù)等方式進(jìn)行整合。貝葉斯投票是根據(jù)每個(gè)基學(xué)習(xí)器的歷史分類表現(xiàn)通過貝葉斯定理賦予不同的權(quán)重，根據(jù)各基學(xué)習(xí)器的權(quán)重進(jìn)行投票。由于不能覆蓋各基學(xué)習(xí)器的所有樣本空間，且不能正確給出各基學(xué)習(xí)器的先驗(yàn)概率，貝葉斯投票的效能不及普通投票的效能。7.4.1投票方法Votingof64347.4結(jié)合策略第七章集成學(xué)習(xí)

Stacking算法是1992年Worlpert提出的StackedGeneralization的學(xué)習(xí)模型，對(duì)基學(xué)習(xí)器的學(xué)習(xí)結(jié)果進(jìn)行再集成得到集成模型預(yù)測(cè)結(jié)果。往往采用Leave-One-Out的交叉驗(yàn)證（CrossValidation，CV）方法訓(xùn)練基學(xué)習(xí)器，將各基學(xué)習(xí)器的訓(xùn)練結(jié)果和原數(shù)據(jù)集D中的樣本x綜合起來，作為強(qiáng)學(xué)習(xí)器的輸入訓(xùn)練實(shí)例，訓(xùn)練學(xué)習(xí)得到最終預(yù)測(cè)結(jié)果。7.4.2疊加方法Stackingof64357.4結(jié)合策略第七章集成學(xué)習(xí)7.5多樣性第七章集成學(xué)習(xí)7.1集成學(xué)習(xí)的概念7.2Bagging算法與隨機(jī)森林算法7.4結(jié)合策略習(xí)題7.3Boosting算法of6436高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例

基學(xué)習(xí)器的準(zhǔn)確性和相互之間的多樣性，對(duì)于集成學(xué)習(xí)的泛化精度（泛化能力和預(yù)測(cè)精度）具有重要意義。基學(xué)習(xí)器的準(zhǔn)確性高于隨機(jī)猜想（精度高于0.5）即可通過集成得到較好預(yù)測(cè)效果，如何度量和構(gòu)建基學(xué)習(xí)器之間的多樣性則是提升集成學(xué)習(xí)泛化能力的重要途徑和方式。of64377.5多樣性第七章集成學(xué)習(xí)

集成學(xué)習(xí)多樣性是指參與集成的基學(xué)習(xí)器之間的多樣性。多樣性是融合了基學(xué)習(xí)器的差異性、獨(dú)立性和互補(bǔ)性的泛化概念。差異性主要體現(xiàn)在學(xué)習(xí)器的相互區(qū)別獨(dú)立性主要體現(xiàn)在學(xué)習(xí)器間的相互不關(guān)聯(lián)程度互補(bǔ)性體現(xiàn)在集成學(xué)習(xí)器中對(duì)全集的覆蓋程度7.5.1多樣性的概念of64387.5多樣性第七章集成學(xué)習(xí)

學(xué)習(xí)器的差異性主要是學(xué)習(xí)器在數(shù)據(jù)樣本、特征屬性和算法參數(shù)3個(gè)方面的差異性，本質(zhì)是在訓(xùn)練和測(cè)試數(shù)據(jù)樣本上具有的不同預(yù)測(cè)表現(xiàn)。

學(xué)習(xí)器的獨(dú)立性用于描述對(duì)于同一測(cè)試樣本數(shù)據(jù)一組（兩個(gè)或多個(gè)）學(xué)習(xí)器的不關(guān)聯(lián)程度，一般用分類錯(cuò)誤概率的相關(guān)程度來描述。

學(xué)習(xí)器的互補(bǔ)性是指在全體測(cè)試數(shù)據(jù)集上任一樣本數(shù)據(jù)均存在一個(gè)學(xué)習(xí)器能夠正確予以分類。7.5.1多樣性的概念of64397.5多樣性第七章集成學(xué)習(xí)差異性獨(dú)立性互補(bǔ)性

7.5.2多樣性的作用of64407.5多樣性第七章集成學(xué)習(xí)Bias-Variance分解Error-Ambiguity分解

7.5.3多樣性的度量of64417.5多樣性第七章集成學(xué)習(xí)不合度量相關(guān)系數(shù)Q-統(tǒng)計(jì)量

7.5.3多樣性的度量of64427.5多樣性第七章集成學(xué)習(xí)k-統(tǒng)計(jì)量雙次失敗度量基于熵的度量

7.5.3多樣性的度量of64437.5多樣性第七章集成學(xué)習(xí)KW-方差難度度量廣義多樣性度量一致失效多樣性度量7.5.3多樣性的度量of64447.5多樣性第七章集成學(xué)習(xí)7.5.4多樣性的構(gòu)建of64457.5多樣性第七章集成學(xué)習(xí)7.5.4多樣性的構(gòu)建of64467.5多樣性第七章集成學(xué)習(xí)（1）數(shù)據(jù)重抽樣構(gòu)建相異數(shù)據(jù)集。通過在訓(xùn)練數(shù)據(jù)集上的樣本重抽樣方法，如典型的BootstrapSampling方法構(gòu)建數(shù)據(jù)集，并使用敏感學(xué)習(xí)器，如ID3、C4.5等，從而構(gòu)建出多樣性的基學(xué)習(xí)器。采用這種多樣性構(gòu)建的集成學(xué)習(xí)算法包括Bagging、AdaBoost等集成學(xué)習(xí)算法，以及基于Bagging的改進(jìn)算法DECORATE。（2）特征選擇構(gòu)建不同的特征子集。當(dāng)數(shù)據(jù)集特征數(shù)較多時(shí)，如高維數(shù)據(jù)集，可以通過特征選擇方法構(gòu)建多個(gè)不同的特征子集，并據(jù)此構(gòu)建多樣性的基學(xué)習(xí)器、對(duì)于特征選擇構(gòu)建多樣性基學(xué)習(xí)器，一般基學(xué)習(xí)器應(yīng)當(dāng)采用穩(wěn)定的學(xué)習(xí)器，如貝葉斯分類器，聚類算法學(xué)習(xí)器等。（3）構(gòu)建不同結(jié)構(gòu)的基學(xué)習(xí)器。對(duì)于同質(zhì)學(xué)習(xí)器可以使用不同的算法參數(shù)，如分類樹中的深度、剪裁條件等，聚類算法中距離、核等。對(duì)于異質(zhì)學(xué)習(xí)器目前尚缺乏統(tǒng)一多樣性度量和構(gòu)建方法。（4）采用動(dòng)態(tài)的基學(xué)習(xí)器結(jié)合方法。與前述3種方法構(gòu)建多樣性的基學(xué)習(xí)器不同，動(dòng)態(tài)結(jié)合方法是在集成學(xué)習(xí)的基學(xué)習(xí)器結(jié)合階段，

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘（第2版）課件第7章集成學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘（第2版） 課件 第7章 集成學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

數(shù)據(jù)挖掘（第2版）課件第7章集成學(xué)習(xí)