數(shù)據(jù)挖掘(第2版) 課件 第7章 集成學(xué)習(xí)_第1頁(yè)
數(shù)據(jù)挖掘(第2版) 課件 第7章 集成學(xué)習(xí)_第2頁(yè)
數(shù)據(jù)挖掘(第2版) 課件 第7章 集成學(xué)習(xí)_第3頁(yè)
數(shù)據(jù)挖掘(第2版) 課件 第7章 集成學(xué)習(xí)_第4頁(yè)
數(shù)據(jù)挖掘(第2版) 課件 第7章 集成學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘(第二版)第七章集成學(xué)習(xí)of642高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用

集成學(xué)習(xí)是數(shù)據(jù)挖掘算法的一種,本質(zhì)上是將多個(gè)基學(xué)習(xí)器通過有效融合集成為一個(gè)強(qiáng)學(xué)習(xí)器,從而提高泛化精度。在人臉識(shí)別、NLP等領(lǐng)域有廣泛應(yīng)用。圖像識(shí)別自然語言處理7.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)7.2

Bagging算法與隨機(jī)森林算法7.3

Boosting算法3.1數(shù)據(jù)挖掘概述7.5多樣性習(xí)題7.4結(jié)合策略of643高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例

集成學(xué)習(xí)是在建立基學(xué)習(xí)器的基礎(chǔ)上進(jìn)行有效融合集成形成強(qiáng)學(xué)習(xí)器,其中包括3個(gè)主要階段性工作:一是基學(xué)習(xí)器的構(gòu)建設(shè)計(jì);二是基學(xué)習(xí)器的集成方法;三是基學(xué)習(xí)器結(jié)果的整合。7.1.1集成學(xué)習(xí)的構(gòu)建of6447.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)

集成學(xué)習(xí)的兩個(gè)主要工作一般可以劃分為訓(xùn)練和檢驗(yàn)兩個(gè)階段。訓(xùn)練階段是訓(xùn)練形成集成模型,主要針對(duì)訓(xùn)練樣本數(shù)據(jù)集,劃分多個(gè)基學(xué)習(xí)器按照一定的融合集成規(guī)則形成一個(gè)強(qiáng)學(xué)習(xí)器;檢驗(yàn)階段是驗(yàn)證調(diào)整集成模型,主要針對(duì)測(cè)試樣本數(shù)據(jù)集,對(duì)多個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果按照一定的集成整合規(guī)則形成集成預(yù)測(cè)結(jié)果。7.1.1集成學(xué)習(xí)的構(gòu)建of6457.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)7.1.1集成學(xué)習(xí)的構(gòu)建of6467.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)同質(zhì)集成學(xué)習(xí)同質(zhì)集成學(xué)習(xí)是指基學(xué)習(xí)器的類型為同一類學(xué)習(xí)器,如都是決策樹的基分類器集成為強(qiáng)決策樹異質(zhì)集成學(xué)習(xí)異質(zhì)集成學(xué)習(xí)是不同類型的基學(xué)習(xí)器的集成,如決策樹與神經(jīng)網(wǎng)絡(luò)的集成,如疊加法(Sta按照基學(xué)習(xí)器的類型異同7.1.1集成學(xué)習(xí)的構(gòu)建of6477.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)根據(jù)基學(xué)習(xí)器的生成順序串行組合經(jīng)典的集成學(xué)習(xí)方法Boosting及其改進(jìn)的AdaBoosting、GDBT(GradientBoostingDecisionTree)并行組合Bagging及在此基礎(chǔ)上的隨機(jī)森林算法混合拓?fù)浣M合兩階段集成學(xué)習(xí)(Two-PhasesEnsembleLeaming,TPEL)是一種先串行后并行7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of6487.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)兼聽則明,偏聽則暗三個(gè)臭皮匠,賽過諸葛亮7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of6497.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)在統(tǒng)計(jì)上的有效性7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64107.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)在計(jì)算上的有效性7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64117.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)在表示上的有效性7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64127.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)的準(zhǔn)確性二分類問題集成學(xué)習(xí)分類正確集成學(xué)習(xí)分類不正確的概率根據(jù)霍夫丁不等式,集成學(xué)習(xí)誤差7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64137.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)的準(zhǔn)確性根據(jù)霍夫丁不等式,集成學(xué)習(xí)誤差集成學(xué)習(xí)誤差上限受到基學(xué)習(xí)器數(shù)量N和基學(xué)習(xí)器誤差

決定,當(dāng)基學(xué)習(xí)器數(shù)量N越多時(shí),誤差上限越??;當(dāng)基學(xué)習(xí)器誤差

時(shí),基學(xué)習(xí)器誤差越小,集成學(xué)習(xí)誤差上限越小。結(jié)論7.1.2集成學(xué)習(xí)的優(yōu)勢(shì)of64147.1集成學(xué)習(xí)的概念第七章集成學(xué)習(xí)集成學(xué)習(xí)的多樣性結(jié)論基學(xué)習(xí)器從數(shù)據(jù)集正確率樣本1樣本2樣本3C1√√×66.67%C2×√√66.67%C3√×√66.67%C4×√√66.67%集成學(xué)習(xí)EL1={C1、C2、C3},EL2={C2、C3、C4},觀察EL1中的C1、C2、C3,兩兩之間的相似度為33.33%,EL2中的C2、C3、C4中,C2與C4的相似度為100%,與C1的相似度為33.33%。

按照大數(shù)原則進(jìn)行集成,EL1在數(shù)據(jù)集的分類精度(正確率)為100%,集成比基學(xué)習(xí)器精度都要高。然而,EL2在數(shù)據(jù)集的分類精度(正確率)為66.67%,與基學(xué)習(xí)器相當(dāng),集成并沒有提高預(yù)測(cè)效果。7.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)7.1集成學(xué)習(xí)的概念7.3

Boosting算法3.1數(shù)據(jù)挖掘概述7.5多樣性習(xí)題7.4結(jié)合策略of6415高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例of64167.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)Bagging算法是指通過引導(dǎo)程序使用一個(gè)訓(xùn)練集的多個(gè)版本,即放回抽樣,每一個(gè)數(shù)據(jù)集都來訓(xùn)練一個(gè)不同的模型,對(duì)訓(xùn)練模型通過整合輸出形成一個(gè)最終的預(yù)測(cè)結(jié)果。1.基本概念

Bagging算法(引導(dǎo)聚集算法),又稱為裝袋算法。Bagging算法可與其他分類、回歸算法結(jié)合,在提高其在確率、穩(wěn)定性的同時(shí),通過降低結(jié)果的方差,避免過擬合的發(fā)生。7.2.1Bagging算法基本思想of64177.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)2.數(shù)據(jù)樣本

對(duì)于M個(gè)樣本的數(shù)據(jù)集,按照有放回抽樣方式(BootstrapSample)隨機(jī)抽取m(m≤M)個(gè)樣本,經(jīng)過N次抽樣形成不同的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集按照學(xué)習(xí)算法構(gòu)建基學(xué)習(xí)器,最后按照結(jié)合策略形成強(qiáng)學(xué)習(xí)器,這種強(qiáng)學(xué)習(xí)器就是將基學(xué)習(xí)器的學(xué)習(xí)結(jié)果組合形成最終學(xué)習(xí)結(jié)果。

有放回抽樣方式就是從我們的訓(xùn)練集中采集固定個(gè)數(shù)的樣本,但是每采集一個(gè)樣本后,都將樣本放回。也就是說,之前采集到的樣本在放回后有可能繼續(xù)被采集到。對(duì)于Bagging算法,一般會(huì)隨機(jī)采集和訓(xùn)練集樣本數(shù)M一樣個(gè)數(shù)的樣本m,即設(shè)定m=M。這樣得到的采樣集和訓(xùn)練集樣本的個(gè)數(shù)相同,但是樣本內(nèi)容不同。如果我們對(duì)有m個(gè)樣本訓(xùn)練集做N次的隨機(jī)采樣,則由于隨機(jī)性,N個(gè)采樣集各不相同。

7.2.1Bagging算法基本思想of64187.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)2.數(shù)據(jù)集劃分

對(duì)于M個(gè)樣本數(shù)據(jù)集,會(huì)存在36.8%的樣本不會(huì)被抽取到,這類數(shù)據(jù)可以作為包外數(shù)據(jù)(OutOfBag),可用作驗(yàn)證集對(duì)泛化性能進(jìn)行“包外估計(jì)”。7.2.1Bagging算法基本思想of64197.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)被抽到的訓(xùn)練數(shù)據(jù)包外數(shù)據(jù)數(shù)據(jù)集36.8%1.算法流程

對(duì)于M個(gè)樣本數(shù)據(jù)集,會(huì)存在36.8%的樣本不會(huì)被抽取到,這類數(shù)據(jù)可以作為包外數(shù)據(jù)(OutOfBag),可用作驗(yàn)證集對(duì)泛化性能進(jìn)行“包外估計(jì)”。7.2.2Bagging算法流程of64207.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)2.算法特點(diǎn)

Bagging算法具有控制方差、性能高效、應(yīng)用廣泛等優(yōu)點(diǎn),通過多個(gè)基學(xué)習(xí)器在樣本抽樣上的多樣性,實(shí)現(xiàn)集成上的方差變小,提升泛化能力;通過并行對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行抽樣構(gòu)建基學(xué)習(xí)器,實(shí)現(xiàn)基學(xué)習(xí)器的并行構(gòu)建,提升集成學(xué)習(xí)模型的構(gòu)建效率,減少構(gòu)建消耗時(shí)間;Bagging算法中多個(gè)基學(xué)習(xí)器學(xué)習(xí)結(jié)果進(jìn)行有效組合,可直接適用于分類問題和回歸預(yù)測(cè),具有廣泛應(yīng)用場(chǎng)景。從“偏差-方差分解”的角度看,Bagging算法主要關(guān)注降低方差,因此它在不剪枝決策樹、神經(jīng)網(wǎng)絡(luò)等易受樣本擾動(dòng)的學(xué)習(xí)器上效用更為明顯。7.2.2Bagging算法流程of64217.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)1.算法概述

隨機(jī)森林(RandomForest,RF)算法是Bagging算法的一個(gè)擴(kuò)展變體,是在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,在決策樹的訓(xùn)練過程中進(jìn)一步引入了隨機(jī)屬性選擇。7.2.3隨機(jī)森林算法of64227.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)2.算法特點(diǎn)

隨機(jī)森林算法結(jié)構(gòu)簡(jiǎn)單、容易實(shí)現(xiàn)、計(jì)算開銷小,并且在很多現(xiàn)實(shí)任務(wù)中展現(xiàn)出強(qiáng)大的性能,被譽(yù)為“代表集成學(xué)習(xí)技術(shù)水平的方法”??梢钥闯觯S機(jī)森林算法對(duì)Bagging集成學(xué)習(xí)只做了小改動(dòng),但是與Bagging算法中基學(xué)習(xí)器的“多樣性”僅通過樣本擾動(dòng)(通過對(duì)初始訓(xùn)練集采樣)而來不同,隨機(jī)森林算法中基學(xué)習(xí)器的多樣性不僅來自樣本擾動(dòng),還來自屬性擾動(dòng),這就使得最終集成的泛化性能可通過個(gè)體學(xué)習(xí)器之間差異度的增加而進(jìn)一步提升。隨機(jī)森林算法可以處理高維數(shù)據(jù),模型的泛化能力較強(qiáng),訓(xùn)練模型時(shí)速度快、并行化,可以處理不平衡數(shù)據(jù),有包外數(shù)據(jù)(OOB)作為驗(yàn)證數(shù)據(jù)集,對(duì)缺失值、異常值不敏感,模型訓(xùn)練結(jié)果準(zhǔn)確度高,具有Bagging算法能夠收斂于更小的泛化誤差等優(yōu)點(diǎn)。當(dāng)數(shù)據(jù)噪聲比較大時(shí),隨機(jī)森林算法會(huì)產(chǎn)生過擬合現(xiàn)象。7.2.3隨機(jī)森林算法of64237.2Bagging算法與隨機(jī)森林算法第七章集成學(xué)習(xí)7.3Boosting算法第七章集成學(xué)習(xí)7.1集成學(xué)習(xí)的概念7.2Bagging算法與隨機(jī)森林算法3.1數(shù)據(jù)挖掘概述7.5多樣性習(xí)題7.4結(jié)合策略of6424高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例

Boosting算法也是一種基于數(shù)據(jù)集重抽樣算法,與Bagging算法主要區(qū)別在于,需要?jiǎng)討B(tài)調(diào)整訓(xùn)練樣本中各數(shù)據(jù)權(quán)重,每一次迭代增加不能正確學(xué)習(xí)樣本權(quán)重,相對(duì)地降低了能被正確學(xué)習(xí)的樣本權(quán)重,從而提升在整個(gè)訓(xùn)練樣本數(shù)據(jù)集上的學(xué)習(xí)正確率。of64257.3Boosting算法第七章集成學(xué)習(xí)1.算法流程

Boosting算法第一次構(gòu)建基學(xué)習(xí)器時(shí)給每一個(gè)訓(xùn)練數(shù)據(jù)樣本賦予動(dòng)態(tài)權(quán)重,加強(qiáng)分類錯(cuò)誤樣本權(quán)重。在下一次,基學(xué)習(xí)器采用新的樣本權(quán)重進(jìn)行隨機(jī)抽樣構(gòu)建新的基學(xué)習(xí)器并以此類推構(gòu)建多個(gè)基學(xué)習(xí)器,直到遞進(jìn)生成的基學(xué)習(xí)器精度不再明顯提升或滿足精度需求,最后這多個(gè)基學(xué)習(xí)器形成一個(gè)精度較高的強(qiáng)學(xué)習(xí)器。7.3.1Boosting算法流程of64267.3Boosting算法第七章集成學(xué)習(xí)1.算法流程Boosting算法最典型的是Adaptive

Boosting算法,簡(jiǎn)稱AdaBoost算法,其基本流程描述如下。強(qiáng)學(xué)習(xí)器。7.3.1Boosting算法流程of64277.3Boosting算法第七章集成學(xué)習(xí)2.算法特點(diǎn)為了提升集成模型的差異化,Boosting算法是一個(gè)逐步遞進(jìn)的方法,每一個(gè)學(xué)習(xí)器都是前一個(gè)的通過調(diào)整樣本權(quán)重的改進(jìn)模型,不存在兩個(gè)相同的基學(xué)習(xí)器。從“偏差-方差分解”的角度看,Boosting算法主要提升基學(xué)習(xí)器的準(zhǔn)確率,降低偏差,因此,Boosting算法能基于泛化性能相當(dāng)弱的學(xué)習(xí)器構(gòu)建出很強(qiáng)的集成。Boosting算法問題在于更多關(guān)注不能正確分類樣本數(shù)據(jù),對(duì)于邊界樣本會(huì)導(dǎo)致權(quán)重失衡,產(chǎn)生“退化問題”。7.3.1Boosting算法流程of64287.3Boosting算法第七章集成學(xué)習(xí)1.BoostingTree算法

BoostingTree算法是以分類樹或回歸樹為基本分類器的提升方法。該方法實(shí)際采用加法模型(基函數(shù)的線性組合)與前向分步算法。對(duì)分類問題決策樹是二叉分類樹,對(duì)回歸問題決策樹是二叉回歸樹。

對(duì)于二分類問題,提升樹分類算法只需將AdaBoost算法中的基本分類器限制為二類分類樹即可,這時(shí)的提升樹分類算法可以說是AdaBoost算法的特殊情況。7.3.2Boosting系列算法of64297.3Boosting算法第七章集成學(xué)習(xí)2.GBDT算法

GBDT(GradientBoostingDecisionTree)又叫MART(MultipleAdditiveRegressionTree),是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的預(yù)測(cè)結(jié)果集成后得到結(jié)論,是Boosting系列算法之一。它在被提出之初就和支持向量機(jī)一起被認(rèn)為是泛化能力較強(qiáng)的算法。

作為GBDT基學(xué)習(xí)器的決策樹是回歸樹,而不是分類樹,GBDT用來做回歸預(yù)測(cè),調(diào)整后也可以用于分類。

GBDT的核心思想在于,每一棵決策樹學(xué)的是之前所有決策樹結(jié)論和的殘差,這個(gè)殘差就是一個(gè)加預(yù)測(cè)值后能得真實(shí)值的累加量。7.3.2Boosting系列算法of64307.3Boosting算法第七章集成學(xué)習(xí)3.XGBoost算法

XGBoost(eXtremeGradientBoosting)是經(jīng)過優(yōu)化的分布式梯度提升庫(kù),旨在高效、靈活且可移植。XGBoost是大規(guī)模并行BoostingTree的工具,它是目前最快最好的開源BoostingTree工具包,比常見的工具包快10倍以上。

XGBoost算法和GBDT算法兩者都是Boosting算法,除工程實(shí)現(xiàn)、解決問題上的一些差異外,最大的不同就是目標(biāo)函數(shù)的定義。XGBoost算法的改進(jìn)是在求解損失函數(shù)極值時(shí)使用了牛頓法,將損失函數(shù)泰勒展開到二階,另外損失函數(shù)中加入了正則化項(xiàng)。訓(xùn)練時(shí)的目標(biāo)函數(shù)由兩部分構(gòu)成,第一部分為梯度提升算法損失,第二部分為正則化項(xiàng)。7.3.2Boosting系列算法of64317.3Boosting算法第七章集成學(xué)習(xí)7.4結(jié)合策略第七章集成學(xué)習(xí)7.1集成學(xué)習(xí)的概念7.2Bagging算法與隨機(jī)森林算法7.5多樣性習(xí)題7.3Boosting算法of6432高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例

典型集成學(xué)習(xí)描述了如何通過訓(xùn)練樣本數(shù)據(jù)得到基學(xué)習(xí)器,下面我們關(guān)注集成學(xué)習(xí)的檢驗(yàn)階段,即如何將各基學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行有效整合集成形成集成學(xué)習(xí)預(yù)測(cè)結(jié)果并進(jìn)行檢驗(yàn)?;鶎W(xué)習(xí)器的整合方式可以分為3個(gè)層次,即決策層次輸出、排序?qū)哟屋敵龊投攘繉哟屋敵?。基學(xué)習(xí)器結(jié)果集成屬于決策層次集成,一般包括兩大類集成方法,即投票方法(Voting)和疊加方法(Stacking)。of64337.4結(jié)合策略第七章集成學(xué)習(xí)

投票方法是指對(duì)各基學(xué)習(xí)器的分類結(jié)果按照某種原則進(jìn)行投票表決,得到集成預(yù)測(cè)分類結(jié)果。投票方法可分為普通投票和貝葉斯投票兩種。普通投票方法可以分為均等投票和賦權(quán)投票兩類,賦權(quán)投票是給投票專家賦予不同權(quán)重,均等投票則是以相同權(quán)重進(jìn)行投票,可以將均等投票視作各專家投票權(quán)重的特殊情況。根據(jù)應(yīng)用背景需求,按投票原則又可以分為一票否決、一致表決、大數(shù)原則和閥值表決等。對(duì)于回歸問題,可以通過平均值、加權(quán)求和、中位數(shù)、最大數(shù)等方式進(jìn)行整合。貝葉斯投票是根據(jù)每個(gè)基學(xué)習(xí)器的歷史分類表現(xiàn)通過貝葉斯定理賦予不同的權(quán)重,根據(jù)各基學(xué)習(xí)器的權(quán)重進(jìn)行投票。由于不能覆蓋各基學(xué)習(xí)器的所有樣本空間,且不能正確給出各基學(xué)習(xí)器的先驗(yàn)概率,貝葉斯投票的效能不及普通投票的效能。7.4.1投票方法Votingof64347.4結(jié)合策略第七章集成學(xué)習(xí)

Stacking算法是1992年Worlpert提出的StackedGeneralization的學(xué)習(xí)模型,對(duì)基學(xué)習(xí)器的學(xué)習(xí)結(jié)果進(jìn)行再集成得到集成模型預(yù)測(cè)結(jié)果。往往采用Leave-One-Out的交叉驗(yàn)證(CrossValidation,CV)方法訓(xùn)練基學(xué)習(xí)器,將各基學(xué)習(xí)器的訓(xùn)練結(jié)果和原數(shù)據(jù)集D中的樣本x綜合起來,作為強(qiáng)學(xué)習(xí)器的輸入訓(xùn)練實(shí)例,訓(xùn)練學(xué)習(xí)得到最終預(yù)測(cè)結(jié)果。7.4.2疊加方法Stackingof64357.4結(jié)合策略第七章集成學(xué)習(xí)7.5多樣性第七章集成學(xué)習(xí)7.1集成學(xué)習(xí)的概念7.2Bagging算法與隨機(jī)森林算法7.4結(jié)合策略習(xí)題7.3Boosting算法of6436高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用7.6實(shí)戰(zhàn)案例

基學(xué)習(xí)器的準(zhǔn)確性和相互之間的多樣性,對(duì)于集成學(xué)習(xí)的泛化精度(泛化能力和預(yù)測(cè)精度)具有重要意義。基學(xué)習(xí)器的準(zhǔn)確性高于隨機(jī)猜想(精度高于0.5)即可通過集成得到較好預(yù)測(cè)效果,如何度量和構(gòu)建基學(xué)習(xí)器之間的多樣性則是提升集成學(xué)習(xí)泛化能力的重要途徑和方式。of64377.5多樣性第七章集成學(xué)習(xí)

集成學(xué)習(xí)多樣性是指參與集成的基學(xué)習(xí)器之間的多樣性。多樣性是融合了基學(xué)習(xí)器的差異性、獨(dú)立性和互補(bǔ)性的泛化概念。差異性主要體現(xiàn)在學(xué)習(xí)器的相互區(qū)別獨(dú)立性主要體現(xiàn)在學(xué)習(xí)器間的相互不關(guān)聯(lián)程度互補(bǔ)性體現(xiàn)在集成學(xué)習(xí)器中對(duì)全集的覆蓋程度7.5.1多樣性的概念of64387.5多樣性第七章集成學(xué)習(xí)

學(xué)習(xí)器的差異性主要是學(xué)習(xí)器在數(shù)據(jù)樣本、特征屬性和算法參數(shù)3個(gè)方面的差異性,本質(zhì)是在訓(xùn)練和測(cè)試數(shù)據(jù)樣本上具有的不同預(yù)測(cè)表現(xiàn)。

學(xué)習(xí)器的獨(dú)立性用于描述對(duì)于同一測(cè)試樣本數(shù)據(jù)一組(兩個(gè)或多個(gè))學(xué)習(xí)器的不關(guān)聯(lián)程度,一般用分類錯(cuò)誤概率的相關(guān)程度來描述。

學(xué)習(xí)器的互補(bǔ)性是指在全體測(cè)試數(shù)據(jù)集上任一樣本數(shù)據(jù)均存在一個(gè)學(xué)習(xí)器能夠正確予以分類。7.5.1多樣性的概念of64397.5多樣性第七章集成學(xué)習(xí)差異性獨(dú)立性互補(bǔ)性

學(xué)習(xí)器的差異性主要是學(xué)習(xí)器在數(shù)據(jù)樣本、特征屬性和算法參數(shù)3個(gè)方面的差異性,本質(zhì)是在訓(xùn)練和測(cè)試數(shù)據(jù)樣本上具有的不同預(yù)測(cè)表現(xiàn)。

學(xué)習(xí)器的獨(dú)立性用于描述對(duì)于同一測(cè)試樣本數(shù)據(jù)一組(兩個(gè)或多個(gè))學(xué)習(xí)器的不關(guān)聯(lián)程度,一般用分類錯(cuò)誤概率的相關(guān)程度來描述。

7.5.2多樣性的作用of64407.5多樣性第七章集成學(xué)習(xí)Bias-Variance分解Error-Ambiguity分解

7.5.3多樣性的度量of64417.5多樣性第七章集成學(xué)習(xí)不合度量相關(guān)系數(shù)Q-統(tǒng)計(jì)量

7.5.3多樣性的度量of64427.5多樣性第七章集成學(xué)習(xí)k-統(tǒng)計(jì)量雙次失敗度量基于熵的度量

7.5.3多樣性的度量of64437.5多樣性第七章集成學(xué)習(xí)KW-方差難度度量廣義多樣性度量一致失效多樣性度量7.5.3多樣性的度量of64447.5多樣性第七章集成學(xué)習(xí)7.5.4多樣性的構(gòu)建of64457.5多樣性第七章集成學(xué)習(xí)7.5.4多樣性的構(gòu)建of64467.5多樣性第七章集成學(xué)習(xí)(1)數(shù)據(jù)重抽樣構(gòu)建相異數(shù)據(jù)集。通過在訓(xùn)練數(shù)據(jù)集上的樣本重抽樣方法,如典型的BootstrapSampling方法構(gòu)建數(shù)據(jù)集,并使用敏感學(xué)習(xí)器,如ID3、C4.5等,從而構(gòu)建出多樣性的基學(xué)習(xí)器。采用這種多樣性構(gòu)建的集成學(xué)習(xí)算法包括Bagging、AdaBoost等集成學(xué)習(xí)算法,以及基于Bagging的改進(jìn)算法DECORATE。(2)特征選擇構(gòu)建不同的特征子集。當(dāng)數(shù)據(jù)集特征數(shù)較多時(shí),如高維數(shù)據(jù)集,可以通過特征選擇方法構(gòu)建多個(gè)不同的特征子集,并據(jù)此構(gòu)建多樣性的基學(xué)習(xí)器、對(duì)于特征選擇構(gòu)建多樣性基學(xué)習(xí)器,一般基學(xué)習(xí)器應(yīng)當(dāng)采用穩(wěn)定的學(xué)習(xí)器,如貝葉斯分類器,聚類算法學(xué)習(xí)器等。(3)構(gòu)建不同結(jié)構(gòu)的基學(xué)習(xí)器。對(duì)于同質(zhì)學(xué)習(xí)器可以使用不同的算法參數(shù),如分類樹中的深度、剪裁條件等,聚類算法中距離、核等。對(duì)于異質(zhì)學(xué)習(xí)器目前尚缺乏統(tǒng)一多樣性度量和構(gòu)建方法。(4)采用動(dòng)態(tài)的基學(xué)習(xí)器結(jié)合方法。與前述3種方法構(gòu)建多樣性的基學(xué)習(xí)器不同,動(dòng)態(tài)結(jié)合方法是在集成學(xué)習(xí)的基學(xué)習(xí)器結(jié)合階段,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論