各種智能算法的總結(jié)匯總_第1頁
各種智能算法的總結(jié)匯總_第2頁
各種智能算法的總結(jié)匯總_第3頁
各種智能算法的總結(jié)匯總_第4頁
各種智能算法的總結(jié)匯總_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、7.聚類算法7.1 k-means ( k 均算法定義以及原理:定義:k均值聚類算法(k-means clustering algorithm )是一種迭代求解的聚類分析算法,其步驟是隨 機選取K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分 配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類 的聚類中心會根據(jù)聚類中現(xiàn)有的對象被重新計算。這個過程將不斷重復(fù)直到滿足某個終止條件。終止條件 可以是沒有(或最小數(shù)目)對象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中心再發(fā)生變化,誤 差平方和局部最小。原理:K-Means

2、算法是一種無監(jiān)督分類算法,假設(shè)有無標(biāo)簽數(shù)據(jù)集:1X2X該算法的任務(wù)是將數(shù)據(jù)集聚類成K個簇C Ci,Ck,最小化損失函數(shù)為:k2Exii 1 x Ci1)其中i為簇Ci的中心點:(2)K -Means算法使用貪心策略求得一個1 cixCi要找到以上問題的最優(yōu)解需要遍歷所有可能的簇劃分,近似解,具體步驟如下:1)在樣本中隨機選取k個樣本點充當(dāng)各個簇的中心點2)計算所有樣本點與各簇中心之間的距離dist x,然后把樣本點劃入最近的簇中n earest3)根據(jù)簇中已有的樣本點,重新計算簇中心1|cx q(4)重復(fù)2,37.1.2算法特點 優(yōu)點:容易實現(xiàn)。缺點:可能收斂到局部最小值,在大規(guī)模數(shù)據(jù)上收斂較

3、慢。適合數(shù) 據(jù)類型:數(shù)值型數(shù)據(jù)。7.1.3聚類過程創(chuàng)建k個點作為k個簇的起始質(zhì)心(經(jīng)常隨機選擇)。分別計算剩下的元素到k個簇中心的相異度(距離),將這些元素分別劃歸到相異度最低的簇。根據(jù)聚類結(jié)果,重新計算k個簇各自的中心,計算方法是取簇中所有元素各自維度的算術(shù)平均值。將D中全部元素按照新的中心重新聚類。重復(fù)第4步,直到聚類結(jié)果不再變化。最后,輸出聚類結(jié)果。7.1.4算去實現(xiàn) 創(chuàng)建k個點作為K個簇的起始質(zhì)心(經(jīng)常隨機選擇)當(dāng)任意一個點的簇分配結(jié)果發(fā)生 變化時(初始化為True)對數(shù)據(jù)集中的每個數(shù)據(jù)點,重新分配質(zhì)心對每個質(zhì)心計算質(zhì)心到數(shù)據(jù)點之間的距離將數(shù)據(jù)點分配到距其最近的簇對每個簇,計算簇中所有

4、點的均值并將均值作為新的質(zhì)心7.1.5算法總結(jié)與討論雖然K-Means算法原理簡單,但是也有自身的缺陷:首先,聚類的簇數(shù)K值需要事先給定,但在實際中這個K值的選定是非常難以估計的,很多時候,事 先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個類別才最合適。K -Means需要人為地確定初始聚類中心,不同的初始聚類中心可能導(dǎo)致完全不同的聚類結(jié)果,不能保證K -Means算法收斂于全局最優(yōu)解。針對此問題,在K -Means的基礎(chǔ)上提出了二分K-Means算法。該算法首先將所有點看做是一個簇,然后一分為二,找到最小SSE的聚類質(zhì) 心。接著選擇其中一個簇繼續(xù)一分為二,此處哪一個簇需要根據(jù)劃分后的SSE值來判斷。對

5、離群點敏感。(4 )結(jié)果不穩(wěn)定(受輸入順序影響)。(5)時間復(fù)雜度高O (nkt),其中n是對象總數(shù),k是簇數(shù),t是迭代次數(shù)。5)7-16確定K個簇的初始質(zhì)心的方法 選擇批次距離盡可能遠(yuǎn)的K個點首先隨機選擇一個點作為第一個初始類簇中心點,然后選擇距離該 點最遠(yuǎn)的那個點作為第二個初始類簇中心點,然后再選擇距離前兩個點的最近距離最大的點作為第三個初 始類簇的中心點,以此類推,直至選出K個初始類簇中心點。選用層次聚類或者Canopy算法進行初始聚類,然后利用這些類簇的中心點作為K-Means算法初 始類簇中心點。7.2模糊c-均值聚類算法FCM算法的概念模糊c均值聚類算法fuzzy c-means

6、algorithm (FCMA)或稱(FCM )。在介多模糊聚類算法 中,模糊C均值(FCM )算法應(yīng)用最廣泛且較成功,它通過優(yōu)化目標(biāo)函數(shù)得到每個樣本點對所有類中 心的隸屬度,從而決定樣本點的類屬以達到自動對樣本數(shù)據(jù)進行分類的目的。FCM算法原理假定我們有數(shù)據(jù)集X,我們要對X中的數(shù)據(jù)進行分類,如果把這些數(shù)據(jù)劃分成c個類的話,那么對應(yīng)的就有c類中心為Ci,每個樣本Xj屬于某一類Ci的隸屬度定為Uij,那么定義一個FCM目標(biāo)函數(shù)及其約束條件如下:cnmJUpjXjCi(3)Mj1c(4)11目標(biāo)函數(shù)(式3)由相應(yīng)樣本的隸屬度與該樣本到各類中心的距離相乘組成的,式4為約束條件,也就是一個樣本屬于所有

7、類的隸屬度之和要為1。式1中的m是一個隸屬度的因子,一般為2,畑表示“到中心點q的歐式距離。Uij的迭代公式為:cki 晝2mlXiCi的迭代公式:6)NmCjilUij* XiNmi 1uij我們發(fā)現(xiàn)Uij和Ci是相互尖聯(lián)的,彼此包含對方,程序一開始會隨機生成一個Uij,只要數(shù)值滿足條件即可,然后開始迭代,通過Uij計算出Ci,有了 Ci又可以計算出Uij,反反復(fù)復(fù),這個過程中目標(biāo)函數(shù)J 一直在變化,逐漸纟芻向穩(wěn)定。那么當(dāng)J不在變化時就認(rèn)為算法收斂到一個較好 的結(jié)果了。FCM算法步驟確定分類數(shù),指數(shù)m的值,確定迭代次數(shù)。初始化一個隸屬度U (注意條件和為1)。根據(jù)U計算聚類中心C。 這個時候

8、可以計算目標(biāo)函數(shù)J了。根據(jù)C返回去計算U,回到步驟3,一直循環(huán)直到結(jié)束。SOM (自組織映射網(wǎng)絡(luò))SOM的定義它模擬人腦中處于不同區(qū)域的神經(jīng)細(xì)胞分工不同的特點,即不同區(qū)域具有不同的響應(yīng)特征,而且這一過程是自動完成的。自組織映射網(wǎng)絡(luò)通過尋找最優(yōu)參考矢量集合來對輸入模式集合進行分類。 每個參考矢量為一輸出單元對應(yīng)的連接權(quán)向量。與傳統(tǒng)的模式聚類方法相比,它所形成的聚類中心能映射到 一個曲面或平面上,而保持拓?fù)浣Y(jié)構(gòu)不變。對于未知聚類中心的判別問題可以用自組織映射來實現(xiàn)。SOM的特點自組織神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)最富有魅力的研究領(lǐng)域之一,它能夠通過其輸入樣本學(xué)會檢測其規(guī)律性和 輸入樣本相互之間的尖系,并且根據(jù)

9、這些輸入樣本的信息自適應(yīng)調(diào)整網(wǎng)絡(luò),使網(wǎng)絡(luò)以后的響應(yīng)與輸入樣本 相適應(yīng)。競爭型神經(jīng)網(wǎng)絡(luò)的神經(jīng)元通過輸入信息能夠識別成組的相似輸入向量;自組織映射神經(jīng)網(wǎng)絡(luò)通過 學(xué)習(xí)同樣能夠識別成組的相似輸入向量,使那些網(wǎng)絡(luò)層中彼此靠得很近的神經(jīng)元對相似的輸入向量產(chǎn)生響 應(yīng)。與競爭型神經(jīng)網(wǎng)絡(luò)不同的是,自組織映射神經(jīng)網(wǎng)絡(luò)不但能學(xué)習(xí)輸入向量的分布情況,還可以學(xué)習(xí)輸入 向量的拓?fù)浣Y(jié)構(gòu),其單個神經(jīng)元對模式分類不起決定性作用,而要靠多個神經(jīng)元的協(xié)同作用才能完成模式分 類。SOM的工作原理先來了解它是如何工作的,用隨機值或從輸入中隨機采樣對連接權(quán)重進行初始化,網(wǎng)格中的每個神經(jīng)元都被賦予一個位置。數(shù)據(jù)輸入后,測量輸入向量(X)和

10、所有神經(jīng)元權(quán)向量(W )之間的距離,與輸入 數(shù)據(jù)距離最小的神經(jīng)元為勝者(WTU ),距離度量如下:27)djWji xid其中,是神經(jīng)元j的權(quán)重與輸入X之間的距離,最小距離的神經(jīng)元是勝者。第二步,調(diào)整獲勝神經(jīng)元及其鄰域神經(jīng)元的權(quán)重以確保如果下一次是相同的輸入則勝者還是同一個神經(jīng)元。網(wǎng)絡(luò)采用鄰域函數(shù)確定哪些鄰域神經(jīng)元權(quán)重需要修改,通常使用高斯墨西哥帽函數(shù)作為鄰域函數(shù),數(shù)學(xué)表達式如下:8)其中,是隨時間變化的神經(jīng)元影響半徑,d是距離獲勝神經(jīng)元的距離。鄰域函數(shù)的一個重要特性是它的 半徑隨時間而減小,這樣剛開始時較多鄰域神經(jīng)元權(quán)重被修改,但是隨著網(wǎng)絡(luò)的學(xué)習(xí),最終只有少量的神 經(jīng)元的權(quán)重被修改(有時只有

11、一個或沒有)。權(quán)重的改變由下式計算:dWX Wg)按照這個方法繼續(xù)處理輸入,重復(fù)執(zhí)行給定的迭代次數(shù)。在迭代過程中利用一個與迭代次數(shù)相尖的因子來減少學(xué)習(xí)率和影響半徑。8分類算法8.1.k-NN (k 近鄰)8.1.1 KNN算法的概念K近鄰算法,即是給定一個訓(xùn)練數(shù)據(jù)集,對新的輸入實例,在訓(xùn)練數(shù)據(jù)集中找到與該實例最鄰近的K 個實例,這K個實例的多數(shù)屬于某個類,就把該輸入實例分類到這個類中。這就類似于現(xiàn)實生活中少數(shù)服 從多數(shù)的思想。下面通過一個簡單的例子說明一下:如下圖,圖8-1樣本數(shù)據(jù)圖如上圖所示,有兩類不同的樣本數(shù)據(jù),分別用藍(lán)色的小正方形和紅色的小三角形表示,而圖正中間的那 個綠色的圓所標(biāo)示的數(shù)

12、據(jù)則是待分類的數(shù)據(jù)。這也就是我們的目的,來了一個新的數(shù)據(jù)點,我要得到它的 類別是什么?好的,下面我們根據(jù)k近鄰的思想來給綠色圓點進行分類。如果K=3,綠色圓點的最鄰近的3個點是2個紅色小三角形和1個藍(lán)色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點屬于紅色的三角形一類。 如果K=5, 綠色圓點的最鄰近的5個鄰居是2個紅色三角形和3個藍(lán)色的正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計的 方法,判定綠色的這個待分類點屬于藍(lán)色的正方形一類。從上面例子我們可以看出,k近鄰的算法思想非常的簡單,也非常的容易理解,那么我們是不是就到此 結(jié)束了,該算法的原理我們也已經(jīng)懂了,也知道怎么給新來的點如何

13、進行歸類,只要找到離它最近的k個 實例哪個類別最多即可。8.1.2距離的度量在上文中說到 k近鄰算法是在訓(xùn)練數(shù)據(jù)集中找到與該實例最鄰近的個實例的 K個實例,這K 多數(shù)屬于某個類,我們就說預(yù)測點屬于哪個類。定義中所說的最鄰近是如何度量呢?我們怎么知道誰跟測試點最鄰近。這里就會引出我們幾種度量兩個點之間距離的標(biāo)準(zhǔn)。我們可以有以下幾種度量方式:設(shè)特征空間Z是n維實數(shù)向量空間FT,Xi,Xj乙Xi123Xi,Xi,XiXi12xj Xj ,Xj3,Xj ,Xjn ,Xi.Xj的Lp距離定義為LpXi,XjippiiXi Xj1110)這里P 1,當(dāng)P=2時,稱為歐氏距離,即11)l_2Xi,Xj11

14、xj當(dāng)P時,稱為曼哈頓距離,即Li Xi,Xj|Xjxi1112)當(dāng)p時,它是各個坐標(biāo)距離的最大值,即L Xj ,Xj max Xj “其中當(dāng)p=2的時候,就是我們最常見的歐式距離,我們也一般都用歐式距離來衡量我們高維空間中倆點的距離。在實際應(yīng)用中,距離函數(shù)的選擇應(yīng)該根據(jù)數(shù)據(jù)的特性和分析的需要而13) 定,一般選取P=2歐式距離表示。KNN算法KNN算法的思想總結(jié)如下:就是在訓(xùn)練集中數(shù)據(jù)和標(biāo)簽已知的情況下,輸入測試數(shù)據(jù),將測試數(shù)據(jù) 的特征與訓(xùn)練集中對應(yīng)的特征進行相互比較,找到訓(xùn)練集中與之最為相似的前K個數(shù)據(jù),則該測試數(shù)據(jù)對應(yīng) 的類別就是K個數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個分類,其算法的描述為:初始化距

15、離為最大值。 計算未知樣本和每個訓(xùn)練樣本的距離dist,然后對所有的距離進行排序,選擇前k個距離。得到目前K個最臨近樣本中的最大距離maxdist如果dist小于maxdist,則將該訓(xùn)練樣本作為K最近鄰樣本,然后在鄰近樣本空間中選擇最多的類 別。重復(fù)步驟2、3、4,直到未知樣本和所有訓(xùn)練樣本的距離都算完統(tǒng)計K最近鄰樣本中每個類標(biāo)號出現(xiàn)的次數(shù)選擇出現(xiàn)頻率最大的類標(biāo)號作為未知樣本的類標(biāo)號8.2決策樹之ID3算法8.2.1決策樹的基本認(rèn)識 決策樹是一種依托決策而建立起來的一種樹。在機器學(xué)習(xí)中,決策樹是一 種預(yù)測模型,代表的是一種對象屬性與對象值之間的一種映射尖系,每一個節(jié)點代表某個對象,樹中的每

16、一個分叉路徑代表某個可能的屬性值,而每一個葉子節(jié)點則對應(yīng)從根節(jié)點到該葉子節(jié)點所經(jīng)歷的路徑所表示 的對象的值。決策樹僅有單一輸出,如果有多個輸出,可以分別建立獨立的決策樹以處理不同的輸出。8.2.2 ID3算法介紹ID3算法是決策樹的一種,它是基于奧卡姆剃刀原理的,即用盡量用較少的東西做更多的事。ID3算法,即Iterative Dichotomiser 3 ,迭代二叉樹3代,是Ross Quintan發(fā)明的一種決策樹算法,這個算 法的基礎(chǔ)就是上面提到的奧卡姆剃刀原理,越是小型的決策樹越優(yōu)于大的決策樹,盡管如此,也不總是生成 最小的樹型結(jié)構(gòu),而是一個啟發(fā)式算法。在信息論中,期望信息越小,那么信息

17、增益就越大,從而純度就 越高。ID3算法的核心思想就是以信息增益來度量屬性的選擇,選擇分裂后信息增益最大的屬性進行分 裂。該算法采用自頂向下的貪婪搜索遍歷可能的決策空間。8.2.3信息、嫡與信息、增益在信息增益中,重要性的衡量標(biāo)準(zhǔn)就是看特征能夠為分類系統(tǒng)帶來多少信 息,帶來的信息越多,該特征越重要。在認(rèn)識信息增益之前,先來看看信息燔的定義。煙這個概念最早起 源于物理學(xué),在物理學(xué)中是用來度量一個熱力學(xué)系統(tǒng)的無序程度,而在信息學(xué)里面,爛是對不確定性的度 量。在1948年,香農(nóng)引入了信息爛,將其定義為離散隨機事件出現(xiàn)的概率15)一個系統(tǒng)越是有序,信息嫡就越低,反之一個系統(tǒng)越是混亂,它的信息爛就越高。

18、所以信息燔可以被認(rèn) 為是系統(tǒng)有序化程度的一個度量。假如一個隨機變量X的取值為X X1,X2 ,,Xn 每一種取到的概率分別是nPbPi,.5p n,那么X的燔定義為H Xpi log 2 p,這個公式的含義是一個變量的i1變化情況可能越多,那么它攜帶的信息量就越大。對于分類系統(tǒng)來說,類別C是變量,它P Cl ,P C2 P Cn。而這的取值是Cl,C2,.,Cn,而每一個類別出現(xiàn)的概率分別是 里的n就是類別的總數(shù),此時分類系統(tǒng)的嫡就可以表示為:HCPG log2 P Ci A信息增益是針對一個一個特征而言的,就是看一個特征是多少兩者的差值就是這彳、特征給系統(tǒng)帶來的信息量(14) t,系統(tǒng)有它和

19、沒有它時的信息 量各即信息增益。接下來以天氣預(yù)報 的例子來說明。下面是描述天氣數(shù)據(jù)表,學(xué)習(xí)目標(biāo)是play 或者 not play。12345b7hot hot hot mild cool cool coolnonoyesyesyesnoyes圖8-2天氣預(yù)報數(shù)據(jù)例子可以看出,一共14個樣例,包括9個正例和5個負(fù)例。那么當(dāng)前信息的爛計算如下:Entropy S 14件14惱2 現(xiàn)2 940286在決策樹分類問題中,信息增益就是決策樹在進行屬性選擇劃分前和劃分后信息的差值。設(shè)利用屬性O(shè)utlook來分類,那么如下圖:(20)Outlooksunny overcast rainyYesYesNoNo

20、NoYesYesYes yes圖8-3天氣預(yù)報屬性劃分圖這些屬性劃分后,數(shù)據(jù)被分為三部分了,那么各個分支的信息爛計算如下:Entropy sunnv loq2 loq2 0.9709515255En tropyovercast4og2g424En tropyrainy33 Iog2dog 2那么劃分后的信息爛為:Entropy S TsO.970951 414 14YesYesYesNono(16)200log(17)20.970951(18)sO.970951 0.69353614(19)Entropy ST 代表在特征屬性T的條件下樣本的條件燔。那么最終得到特征屬性T帶來的信息增益為:IG

21、 T Entropy S Entropy ST 0.24675信息增益的計算公式如下:(21)IG ST Entropy 8 Entropy?:value T其中s為全部樣本集合,value (T )是屬性T所有取值的集合,v是T的其中一個屬性值,Sv是S中屬性T的值為v的樣例集合,Sv為Sv中所含樣例數(shù)。在決策樹的每一個非葉子結(jié)點劃分之前,先計算每一個屬性所帶來的信息增益,選擇最大信息增益 的屬性來劃分,因為信息增益越大,區(qū)分樣本的能力就越強,越具有代表性,很顯然這是一種自頂向下的貪 心策略。因為信息增益越大,說明有該屬性與無該屬性時的信息爛相差很多。信息增益是有該屬性與無 該屬性之間的差值

22、,信息增益越大說明該屬性的信息爛越大或者說占比很大,含有信息量越大,信息還 有的可能性更多,則區(qū)分樣本的能力越強,易于區(qū)分樣本。8.2.4 ID3算法缺陷抗噪聲性差,如果數(shù)據(jù)樣本數(shù)量太少或噪聲太大,就會產(chǎn)生過擬合的問題。樣本少,其樹的構(gòu)成基本上就是為少數(shù)樣本量身定做的樹,如果噪聲太大,或樣本少且有噪聲的 話,很多樹枝都是噪聲擬合出來的。 在選擇最優(yōu)特征時,很容易傾向于選擇“特征值種類較多”的特征,作為分類特征。舉個極 端點的例子,假設(shè)有100個樣本集,現(xiàn)在有一個特征其數(shù)值種類也是100,如果按該特征分類,就能把這個樣本集分成100份,每份一個樣本。在用ID3算法做決策樹時,肯定會選擇這個特征作

23、為第一個最優(yōu)特征,因為這個特征分出來的樣本集每一個純度都是最高。無法處理特征值為連續(xù)型數(shù)據(jù)的特征。(不過可以考慮把連續(xù)型數(shù)據(jù)轉(zhuǎn)化成離散型數(shù)據(jù)),即, 可以處理像性別特征、boolen特征等離散型特征,但沒法處理特征值在某個區(qū)間內(nèi)可以任意取值的特征, 如身高特征、年齡特征。8.3 C4.58.3.1 C4.5的概念C4.5算法是用于生成決策樹的一種經(jīng)典算法,是ID3算法的一種延伸和優(yōu)化。C4.5算法對ID3算法主要做了一下幾點改進:(1 )通過信息增益率選擇分裂屬性,克服了ID3算法中通過信息增益傾向于選擇擁有多個屬性值的屬性作為分裂屬性的不足;能夠處理離散型和連續(xù)型的屬性類型,即將連續(xù)型的屬性

24、進行離散化處理;構(gòu)造決策樹之后進行剪枝操作;能夠處理具有缺失屬性值的訓(xùn)練數(shù)據(jù)。C4.5算法訓(xùn)練的結(jié)果是一個分類模型,這個分類模型可以理解為一個決策樹,分裂屬性就是一個樹節(jié)點, 分類結(jié)果是樹的結(jié)點。每個節(jié)點都有左子樹和右子樹,結(jié)點無左右子樹。ID3算法通過信息增益假設(shè)以屬性A作為分裂屬性(分Splitinfo aSm Sjslog 2ji -Sis22)8.3.2 C4.5與信息增益率分裂屬性選擇的評判標(biāo)準(zhǔn)是決策樹算法之間的根本區(qū)別。區(qū)別于選擇分裂屬性 C4.5算法通過信息增益率選擇分裂屬性。裂結(jié)點),屬性A的“分裂信息” (split information)如下:其中,訓(xùn)練數(shù)據(jù)集S通過屬性A

25、的屬性值劃分為m個子數(shù)據(jù)集, Sj表示第j個子數(shù)據(jù)集中樣本數(shù)量,|耳表示劃分之前數(shù)據(jù)集屮樣木總數(shù)屋。以上文小的天氣預(yù)報作為示例A是Outlook,則A有三個子數(shù)集分別有5、4、5個樣本。通過屬性A分裂之后樣本集的信息增益為:InfoGain S,A E S EaSa( 23)通過屬性A分裂之后樣本集的信息增益率:InfoGain S,AInfoGainRation S,ASplillnfoA S(24)通過C4.5算法構(gòu)造決策樹時,信息增益率最大的屬性即為當(dāng)前節(jié)點的分裂屬性,隨著遞歸計算,被計算的屬性的信息增益率會變得越來越小,到后期則選擇相對比較大的信息增益率的屬性作為分裂屬性。8.3.3

26、C4.5算法流程如I、圖所示:創(chuàng)建節(jié)點N用后剪枝方法進行剪枝結(jié)束圖8-4 C4.5算法流程8.4隨機森林8.4.1隨機森林的基本概念隨機森林分解開來就是“隨機”和“森林”?!半S機”的含義我們之后講,我們先說“森林”, 森林是由很多棵樹組成的,因此隨機森林的結(jié)果是依賴于多棵決策樹的結(jié)果,這是一種集成學(xué)習(xí)的思想。 森林里新來了一只動物,森林舉辦森林大會,判斷這到底是什么動物,每棵樹都必須發(fā)表意見,票數(shù)最多的 結(jié)果將是最終的結(jié)果。隨機森林最終的模型見下圖示:圖8-5隨機森林模型圖8.4.2隨機森林之如何構(gòu)建每棵樹假設(shè)共有N個樣本,M個特征。這里我們講“隨機”的含義。對于每棵樹都有放回的隨機抽取訓(xùn)練樣

27、本,這里抽取隨機抽取2N /3的樣本作為訓(xùn)練集,再有放回的隨機選取m個特征作為這棵樹的分枝的依據(jù),這里要注意m= M。這就是“隨機”兩層含義,一個是隨機選取樣本, 一個是隨機選取特征。這樣就構(gòu)建出了一棵樹,需要注意的是這里生成的樹都是完全生長的樹(尖于為 什么是要完全生長的樹,我認(rèn)為的原因是便于計算每個特征的重要程度,剪枝的話將無法進行計算)。一 棵樹的構(gòu)建方式如下圖所示:25)圖8-6每棵樹的構(gòu)建方式圖2/3樣本做訓(xùn)練1/3樣本做測試t按照這種方法,可以構(gòu)建出很多棵樹,那么這么多棵樹綜合評判的結(jié)果可以作為最后的結(jié)果嗎?當(dāng)然不是的,隨機森林真正厲害的地方不在于它通過多棵樹進行綜合得出最終結(jié)果,

28、而是在于通過迭代使得森林中的樹不斷變得優(yōu)秀(森林中的樹選用更好的特征進行分枝)。上面的一個森林相當(dāng)于第一次迭代得到的森林。8.4.3選出優(yōu)秀特征的方法隨機森林的思想是構(gòu)建出優(yōu)秀的樹優(yōu)秀的樹需要優(yōu)秀的特征。那我們需要知道各個特征的重要程度。對于每一棵樹都有個特征,要知道某個特征在這個樹中是否起到了作用,可以隨機改變這個特征的 值,使得“這棵樹中有沒有這個特征都無所謂”,之后比較改變前后的測試集誤差率,誤差率的差距作為 該特征在該樹中的重要程度,測試集即為該樹抽取2N/3樣本之后剩余的樣本(袋外樣本)(由袋外樣本做測試集造成的誤差稱為袋外誤差)。在一棵樹中對于m個特征都計算一次,就可以算出m個特征

29、在該樹中的重要程度。我們可以計算出所有樹中 的特征在各自樹中的重要程度。但這只能代表這些特征在樹中的重要程度不能代表特征在整個森林中的重要 程度。那我們怎么計算各特征在森林中的重要程度呢?每個特征在多棵數(shù)中出現(xiàn),取這個特征值在多棵樹中的重要程度的均值即為該特征在森林中的重要程度。如下 式:ntreeMDA AierrooBu errooB t2ntree 11其中ntree表示特征対在森林中出現(xiàn)的次數(shù)。“表示第t棵樹中対屬性值改變之后的袋外誤差,?!皟?表示第t棵樹中正常阿直的袋外誤差??梢杂孟聢D來表示2-営本A:夕eirOOBierrOOBiTree=l1 .圖8-7選出優(yōu)秀特征的方法的圖這

30、樣就得到了所有特征在森林中的重要程度。將所有的特征按照重要程度排序,去除森林中重要程度低的部分特征,得到新的特征集。這時相當(dāng)于我們回到了原點,這算是真正意義上完成了一次迭代。8.4.4選出最優(yōu)秀的森林的方法按照上面的步驟迭代多次,逐步去除相對較差的特征,每次都會生成新的森林,直到剩余的特征數(shù)為 為止。最后再從所有迭代的森林中選出最好的森林。迭代的過程如下圖所示:圖8-8選岀最優(yōu)秀的森林的方法圖得到了每次迭代出的森林之后,我們需要選擇出最優(yōu)秀的森林(隨機森林畢竟是集成學(xué)習(xí),所以最后的森林不一定是最優(yōu)的,一個諸葛亮不一定頂?shù)纳先齻€臭皮匠)。那么我們怎么比較這些森 林的好壞呢?這時我們需要引入一個指

31、標(biāo)OOB來評價一個森林的好壞,上面的OOB用于評價套外樣本在 樹中的誤差率,這里的OOB評價套外樣本在森林中的誤差率。(因為都是利用套外樣本,所以名字都是(outofbag)。每個樣本在多棵樹中是套外樣本,通過多棵樹的預(yù)測這個樣本的結(jié)果。預(yù)測方式如下圖所示:圖8-9預(yù)測方法圖預(yù)測出所有所有樣本的結(jié)果之后與真實值進行比較,就可以得到這個森林的套外誤差率。選擇套外誤 差率最小的森林作為最終的隨機森林模型,即本文的第一張圖。8.4.5隨機森林優(yōu)缺點總結(jié)由于采用了集成算法,本身精度比大多數(shù)單個算法要好,所以準(zhǔn)確性高。在測試集上表現(xiàn)良好,由于兩個隨機性的引入,使得隨機森林不容易陷入過擬合(樣本隨機,特征

32、隨 機)。在工業(yè)上,由于兩個隨機性的引入,使得隨機森林具有一定的抗噪聲能力,對比其他算法具有一定優(yōu) 勢。由于樹的組合,使得隨機森林可以處理非線性數(shù)據(jù),本身屬于非線性分類(擬合)模型它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇,對數(shù)據(jù)集的適應(yīng)能力強:既能 處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無需規(guī)范化訓(xùn)練速度快,可以運用在大規(guī)模數(shù)據(jù)集上可以處理缺省值(單獨作為一類),不用額外處理由于有袋外數(shù)據(jù)(OOB ),可以在模型生成過程中取得真實誤差的無偏估計,且不損失訓(xùn)練數(shù)據(jù)量在訓(xùn)練過程中,能夠檢測到feature間的互相影響,且可以得出feature的重要性,具有(10) 由

33、于每棵樹可以獨立、同時生成,容易做成并行化方法(11)由于實現(xiàn)簡單、精度高、抗過擬合能力強,當(dāng)面對非線性數(shù)據(jù)時,適于作為基準(zhǔn)模型缺點當(dāng)隨機森林中的決策樹個數(shù)很多時,訓(xùn)練時需要的空間和時間會比較大隨機森林中還有許多不好解釋的地方,有點算是黑盒模型。在某些噪音比較大的樣本集上, RF的模型容易陷入過擬合。9相尖性分析9.1典型相矢性分析(CAA) *9.1.1典型相矢分析的概念典型相尖分析(canonical corrrelatioin analysis )就是利用綜合變量對之間的相對尖系來反映兩組指標(biāo)之間的相對尖系來反映兩組指標(biāo)之間的整體相尖性的多元統(tǒng)計分析方法。它的基本原理是:為了從總體上把握

34、兩組指標(biāo)之間的相矢矢系,分別在兩組變量中提取有代表性的兩個綜合變量山和(分別為兩個 變量組中各變量的線性組合),利用這兩個綜合變量之間的相矢矢系來反映兩組指標(biāo)之間的整體相尖性。9.1.2條件:典型相矢分析有助于綜合地描述兩組變量之間的典型的相矢矢系。其條件是,兩組變量都是連續(xù)變量,其資料都必須服從多元正態(tài)分布。9.1.3相尖計算如果我們記兩組變量第一組線性組合為:iY111, 12P11115 21q1Varui ai Var x1 n 1Var Vi 1 Var 八 11221典型相矢分析就是求|和使兩者的相矢系數(shù)達到最大。U1,V1 Cov U1,V11C0V X,Y 11121典型相矢分

35、析希望尋求a和b使得 達到最大,單是由于隨機變量乘以常數(shù)時不改變他們的相尖系數(shù),為了防止不必要的結(jié)果重復(fù)出現(xiàn),最好的限制是令閥,和V.V!(1 )實測變量標(biāo)準(zhǔn)化;(2)求實測變量的相尖陣R;XXxp3)求A和B;AXX1XY1YYYXBYY1YX1XXXY(4)求A和B的特征根及特征向量12LpA關(guān)于i的特征向量3i15ai25.,3ip 求R XXRxxRxyr11MMr1pMrn riqMMMXXXYIIrp1fpprpifpqYXvv1 1niLr1prnLriqMMMMMMLfqprqiLrqqpqpqB尖于i的特征向量(5)計算Vi和WiVibiiXibi2X2. bipXpWi 3

36、i1 Y1 3i2Y2 . SiqYqVi和Wi的第i對典型相尖系數(shù)ri i應(yīng)用典型相尖分析的場合是:可以使用回歸方法,但是兩個或兩個以上的因變量;特別是因變量或準(zhǔn)則變 量相互間有一定的相尖性,無視它們之間相互依賴的尖系而分開處理,研究 就毫無意義。另一種有效用法是 檢驗X變量集合和丫變量集合間的獨立,性。9.1.4典型相尖系數(shù)的檢驗典型相尖分析是否恰當(dāng),應(yīng)當(dāng)取決于兩組原變量之間是否相尖,如果兩組變量之間毫無相另性而言,則不 應(yīng)該作典型相尖分析。用樣本來估計總計的典型相尖系數(shù)是否有誤,需要進行檢驗。在原假設(shè)為真的情況 下,檢驗的統(tǒng)計量為:n 1 p q 1 In o22 22近似服從自由度為p

37、q的2分布。在給定的顯著性水平下,如果22 pq,則拒絕假設(shè),認(rèn)為至少第一對典型變量之間的相尖性顯著。9.2協(xié)方差分析9.2.2協(xié)方差的概念協(xié)方差分析亦稱“共變量(數(shù))分析”。方差分析的引申和擴大?;驹硎菍⒕€性回歸與方差分析結(jié)合起來,調(diào)整各組平均數(shù)和F檢驗的實驗誤差項,檢驗兩個或多個調(diào)整平均數(shù)有無顯著差異,以便控制 在某些約束條件下解出的,便是協(xié)方差模型中參數(shù)向量的最小二乘估計。在實驗中影響實驗效應(yīng)(因變量)而無法人為控制的協(xié)變量(與因變量有密切回歸尖系的變量)在方差 分析中的影響。例如,在研究某種教學(xué)方法(實驗變量)對學(xué)業(yè)成績(實驗效應(yīng))的影響時,被試的原有 知識基礎(chǔ)同時影響學(xué)業(yè)成績,但

38、往往在實驗中難以選取具備相同知識基礎(chǔ)的被試參加實驗,可用協(xié)方差分析 從學(xué)業(yè)成績的總變異中將歸因于被試知識基礎(chǔ)差異的部分劃分出去,便于確切地分析教學(xué)方法對學(xué)業(yè)成績的 影響,其中被試的知識基礎(chǔ)就是協(xié)變量。協(xié)方差是分析是研究方差分析模型與回歸模型的一種線性模型:YXi X2eEeO2De n式中,Xi 是模型的方差分析部分,設(shè)計矩陣Xi中元素一般取值0或1。參數(shù)向量有一定的約束條件:X2是模型的回歸部分,設(shè)計矩陣X2中變量是連續(xù)的。因為含有兩種類型因素(連續(xù)型,屬性型)的混合,故稱之為協(xié)方差分析模型。但是這兩部分不能同等對待,主要的還是方差分析部分,而回歸部分只是因某些變量完全人為地控制而不得已引入

39、的。第一步,由Y X 2 Xi e求出的最小二乘估計T 1TXitXiXitYX2第二步,由Y XiX 2e,求出的最小二乘估計T 1TX2TX2X2TYX1由T 1TXitX2X2tYXiT 1TX2TX2X2TYX19.2.4意義當(dāng)研究者知道有些協(xié)變量會影響應(yīng)變量,卻不能夠控制和不敢興趣時(當(dāng)研究學(xué)習(xí)時間對學(xué)習(xí)績效的 影響,學(xué)生原來的學(xué)習(xí)基礎(chǔ),智力學(xué)習(xí)興趣就是協(xié)變量),可以在實驗處理前予以觀測,然后在統(tǒng)計時運 用協(xié)方差分析來處理。將協(xié)變量對因變量的影響從自變量中分離出去,可以進一步提高實驗精確度和統(tǒng)計檢 驗靈敏度。方差是用來度量單個變量“自身變異大小的總體參數(shù),方差越大,該變量的變異越大:

40、協(xié)方差是用來度量兩個變量之間“協(xié)同變異”大小的總體 參數(shù),即兩個變量相互影響大小的參數(shù),協(xié)方差的絕對值越大,兩個變量相互影響越大。對于僅涉及單個變量 的試驗資料,由于其總變異僅為“自身變異”(如單因素完全隨機設(shè)計試驗資料,“自身變異”是指由處 理和隨機誤差所引起的變異),因而可以用方差分析法進行分析;對于涉及兩個變量的試驗資料,由于每 個變量的總變異既包含“自身變異又包含了 “協(xié)同變異”(是指由另一個變量所引起的變異),須采用協(xié) 方差分析法進行分析,才能得到正確結(jié)論。9.3相矢系數(shù)分析9.3.1相矢系數(shù)的定義相尖性分析可以用來驗證兩個變量間的線性尖系,從相尖系數(shù)r我們可以知道兩個變量是否呈現(xiàn)線

41、性尖 系。線性尖系的強弱,以及是正相尖還是負(fù)相尖。其中線性相尖系數(shù)的定義式:Cov X,YrX,YVar X Var Y其中,Cov (X,Y)為X與丫的協(xié)方差,VarX為X的方差,VarY為丫的方差。9.3.2適用場合當(dāng)你有成對的數(shù)字?jǐn)?shù)據(jù)時;當(dāng)你畫了一張散點圖,發(fā)現(xiàn)數(shù)據(jù)有線性尖系時;當(dāng)你想要用統(tǒng)計的方法測量數(shù)據(jù)是否落在一條線時。9.3.3實施步驟盡管人工可以進行相尖性分析,然而計算機軟件可以使計算更加簡便。按照以下的介紹來使用你的軟 件。分別計算出相尖系數(shù)r,它介于-1到1之間。如果r接近0則兩個變量沒有線性相尖性。當(dāng)r接近或者1,說明兩個變量線性尖系很強;正的r值代表當(dāng)y值很小時x值也很小,當(dāng)丫值很大時r值也很大;負(fù)的r值代表當(dāng)y值很大時x值很小,反之亦然。9.3.4示例下圖一到圖四給出了兩個變量不同尖系時的散點圖。圖一給出了一個近似完美的線性尖r=-0.69;與圖一相比較,數(shù)據(jù)散布在更寬系,r=0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論