版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、模糊隨機(jī)森林piero bonissone a, jos m. cadenas b,*, m. carmen garrido b, r. andrs daz-valladares c摘要:當(dāng)將單個分類器非常合適的組合到一起時候,獲得的分類精度通常會顯著增加。多分類器系統(tǒng)就是幾個單獨(dú)的分類器相組合的結(jié)果。接下來文中提到的breiman研究方法,多分類器系統(tǒng)是建立在模糊決策樹形成的“森林”基礎(chǔ)上的,例如:以提出的模糊隨機(jī)森林為基礎(chǔ)。這種方法結(jié)合了多分類器系統(tǒng)的魯棒性,而且隨機(jī)性增加了樹的多樣化,模糊邏輯和模糊集的靈活性也增強(qiáng)了不完全數(shù)據(jù)的管理能力。本文提出了利用各種組合的方法來獲得多分類器系統(tǒng)最終
2、決策的方法,而且對它們進(jìn)行了比較。其中一部分用組合方法加權(quán),它給多分類器系統(tǒng)(葉子或樹)的不同決策一個權(quán)重。對幾個數(shù)據(jù)集的對比研究說明了提出的多分類器系統(tǒng)和不同組合方法的高效性。多分類器系統(tǒng)具有很好的分類精度,當(dāng)測試普通的數(shù)據(jù)集,可以同最好的分類器相媲美。然而,與其他分類不同的是,當(dāng)測試不完整的數(shù)據(jù)集(有缺失和模糊值),提出的分類器測試精度分類精度也很好。1 引言分類一直是一個具有挑戰(zhàn)性的問題1,14。可用于企業(yè)和個人的信息爆炸,進(jìn)一步加劇了這個問題。目前已經(jīng)有許多技術(shù)和算法解決分類問題。在過去的幾年里,我們還看到了基于各種方法的多分類系統(tǒng)方法的增加,多分類系統(tǒng)方法已經(jīng)被證明比單個分類器的結(jié)果
3、要好27。然而,不完全信息不可避免地會出現(xiàn)在現(xiàn)實(shí)領(lǐng)域和狀況下。當(dāng)測量一個特定的屬性時候,實(shí)驗(yàn)過程中的器材故障或噪音影響可能會導(dǎo)致數(shù)據(jù)信息的不完整。換句話說,如果我們想得到非常準(zhǔn)確的信息,代價會非常昂貴或者根本不可能。此外,有時從專家那里獲得額外的信息可能會很有用,這通常是涉及種類的模糊概念的時候:小,多或少,接近等。大多數(shù)現(xiàn)實(shí)世界的問題,數(shù)據(jù)有一定程度的不精確。有時,這種不精確非常小是可以忽略的。其他時候,不精確的數(shù)據(jù)可以通過一個概率分布建立模型。最后,還第三個問題,不精確是非常明顯而且概率分布不是自然模型的情況。因此,本身存在模糊的數(shù)據(jù),9,28,30,31也存在一些實(shí)際的問題。 因此,有必
4、要用屬性來處理信息,反過來講,分類技術(shù)在知識學(xué)習(xí)和分類方面對信息丟失和值不準(zhǔn)確的研究是有價值的。此外,這種方法可取還因?yàn)樗谔幚碓胍魯?shù)據(jù)的時候具有魯棒性。在本文中,我們將集中討論如何開始多分類器系統(tǒng),使得他它可以和最好的分類器相媲美甚至比最好的分類器分類效果還要好,然后把它擴(kuò)展到不完全信息上面(缺失值和模糊值),使其在處理符號屬性和數(shù)值屬性6,10有噪音的數(shù)據(jù)具有魯棒性。要構(gòu)建多分類器系統(tǒng),我們按照隨機(jī)森林方法8,以及處理不完整信息的方法,我們通過使用模糊決策樹作為基分類器構(gòu)建隨機(jī)森林。因此,我們嘗試綜合使用兩者的魯棒性,一個樹集成和一個模糊決策樹,隨機(jī)性增加了森林中樹的多樣性并增強(qiáng)了模糊邏輯
5、及模糊集管理不完整數(shù)據(jù)的靈活性。多數(shù)投票法是隨機(jī)森林標(biāo)準(zhǔn)組合方法。如果分類器具有不相同的精度,那么當(dāng)使用加權(quán)的多數(shù)投票法,在得到最后決策的時候,給比較有“能力”的分類器大點(diǎn)的權(quán)值是合理的。在這項(xiàng)工作中,我們提出多分類器系統(tǒng)通過不同加權(quán)組合方法獲得最終決策的方法,并對它們進(jìn)行了比較。在第2節(jié)中,我們回顧了構(gòu)成一個多分類器系統(tǒng)的主要元素,對如何將每個分類器的輸出結(jié)合起來產(chǎn)生最終的決策提出了簡明的描述,我們還討論了分類技術(shù)中模糊邏輯組合方面的一些問題。在第3節(jié)中,我們解釋了多分類器系統(tǒng)的學(xué)習(xí)和分類方面問題,多分類器系統(tǒng)我們也把它稱作模糊隨機(jī)森林。在第4節(jié),我們定義了模糊隨機(jī)森林結(jié)合方法。在第5節(jié),我
6、們展示了模糊隨機(jī)森林不同的計(jì)算結(jié)果。最后,在第六節(jié)中給出了結(jié)論。2 多分類器系統(tǒng)和模糊邏輯當(dāng)我們把單獨(dú)的分類器合理組合在一起時,多分類器系統(tǒng)和模糊邏輯,在分類精度上通常能有一個更好的性能或者能夠更快的找到更好的解決方案1。多分類器系統(tǒng)是由幾個單獨(dú)的分類器相組合而成。多分類器系統(tǒng)在基分類器的類型和數(shù)目、每個分類器使用的數(shù)據(jù)集的屬性、最終的決策中每個分類器的決策組合、分類器使用的數(shù)據(jù)集的大小和性質(zhì)等方面有所不同。2.1.基于決策樹的總效果近年來,一些技術(shù)被提出使用在不同的基分類器上。然而,這項(xiàng)工作集中在使用決策樹作為基分類器的集成上。因此,我們在論文中按時間順序說明了這個概念的進(jìn)化。bagging
7、 7可以稱得上是實(shí)現(xiàn)分類器集成的最古老的技術(shù)之一。在bagging方法中,通過使用不同的樣例集建立每個分類器,可以讓分類器多樣化,這些樣例集合是通過放回式重新采樣方法從原始訓(xùn)練集中得到的。bagging之后便利用這些分類器的決策通過使用統(tǒng)一加權(quán)進(jìn)行投票。boosting算法15,32通過一次增加一個分類器實(shí)現(xiàn)集成。第k步加入集成的分類器是從原始數(shù)據(jù)集選擇出的數(shù)據(jù)集中訓(xùn)練出來的。開始樣例分布是均勻的,然后新的數(shù)據(jù)集增加誤判樣例的可能性的例子。因此,分布在每一步都在進(jìn)行修改,在第k步中增加了在第k-1步分類器誤判的樣例的可能性。 ho的隨機(jī)子空間技術(shù)19,在訓(xùn)練集成用的單個分類器時,在可用的屬性中
8、隨機(jī)選擇子集。dietterich 13提出一種方法叫做隨機(jī)化。這種方法中,在集成用的每棵樹的每個結(jié)點(diǎn),定好分裂結(jié)點(diǎn)最好的20個屬性,每一個結(jié)點(diǎn)隨機(jī)的使選擇其中一個。最后,breiman 8提出了隨機(jī)森林集成,其中,隨機(jī)屬性選擇通過串聯(lián)方式使用bagging方法。森林的每棵樹的每個結(jié)點(diǎn),可用屬性的子集是隨機(jī)選取的,結(jié)點(diǎn)選擇這些屬性中可以用的最好的屬性。在每個結(jié)點(diǎn)屬性的數(shù)量隨機(jī)選擇,這個數(shù)量是這個方法的一個參數(shù)。在最近的一篇文章3,banfield等人比較了這些決策樹集成創(chuàng)新技術(shù)。他們提出了在每個數(shù)據(jù)集上用算法的平均排序進(jìn)行評估的方法。2.2.組合方法在24,25的文獻(xiàn)中有一些關(guān)于分類器組合的觀
9、點(diǎn)。在這篇文章中,我們繼續(xù)多分類器系統(tǒng)組合分組方法用于可訓(xùn)練的和不可訓(xùn)練中的觀點(diǎn)。非可訓(xùn)練組合器指的是那些集成中的分類器單獨(dú)訓(xùn)練成之后不再需要訓(xùn)練。可訓(xùn)練組合器指的是在分類器單獨(dú)訓(xùn)練中或訓(xùn)練之后可能還需要訓(xùn)練。在文獻(xiàn)中可訓(xùn)練的組合器也被稱為數(shù)據(jù)依賴的組合器,并分為隱式依賴和顯式依賴。隱式數(shù)據(jù)依賴組包含可訓(xùn)練組合器,在可訓(xùn)練組合器中組合樣例的參數(shù)不依賴目標(biāo)例子。換句話說,在系統(tǒng)用于新的樣例分類之前參數(shù)是訓(xùn)練好的。顯式數(shù)據(jù)依賴組合器使用的參數(shù)是目標(biāo)例子的函數(shù)。2.3.分類技術(shù)中的模糊邏輯雖然決策樹技術(shù)已經(jīng)被證明是可解釋的,高效的,能夠處理大數(shù)據(jù)集,但在訓(xùn)練集中遇到小擾動時卻高度不穩(wěn)定。出于這個原因
10、,模糊邏輯已被納入決策樹建立技術(shù)。憑借其內(nèi)在的彈性,模糊邏輯提供了克服這種不穩(wěn)定性的解決方案。在21-23,26,29中,我們找到一些模糊集及其基本近似推理能力成功地與決策樹相結(jié)合的方法。這種集成保存了兩個組成部分的優(yōu)勢:用可理解性語言變量和決策樹的普及及其簡易來管理不確定。由此產(chǎn)生的樹顯示出對噪聲的魯棒性的增強(qiáng),對模糊和不確定情況進(jìn)行了擴(kuò)展應(yīng)用,并支持樹狀結(jié)構(gòu)的可理解性,這種樹狀結(jié)構(gòu)仍然是產(chǎn)生知識的主要代表。因此,我們以模糊決策樹為基分類器提出隨機(jī)森林。在決策樹為基礎(chǔ)的各種集成技術(shù)之中,我們選擇隨機(jī)森林,是因?yàn)?,如boosting,會產(chǎn)生最好的結(jié)果3。此外,如8中的結(jié)論,隨機(jī)森林比基于boo
11、sting的集成更耐噪音(當(dāng)訓(xùn)練集中類屬性值的一小部分是隨機(jī)改變的)。因此,與單個分類器相比較,我們采用了多分類器系統(tǒng)的結(jié)果,基于隨機(jī)森林的集成使用模糊決策樹作為基分類器而不使用清晰決策樹,增強(qiáng)了抗噪能力。此外,模糊決策樹的使用增加了隨機(jī)森林的優(yōu)勢,我們之前已經(jīng)闡述了這種技術(shù)的類型:用語言變量的可理解性管理不確定性,擴(kuò)展了不確定或模糊的應(yīng)用。3模糊隨機(jī)森林:基于模糊決策樹的集成繼breimans的方法,我們提出了多分類器系統(tǒng),它是一種模糊決策樹形成的隨機(jī)森林。我們將它作為模糊隨機(jī)森林集成,并把它記作frf集成。 在本節(jié)中,我們描述了建立多分類器系統(tǒng)學(xué)習(xí)階段的要求,及其分類階段。在breiman
12、8提出的隨機(jī)森林中,每個樹建造成最大并且不修剪。在每棵樹的建造過程中,每一次結(jié)點(diǎn)需要分裂(即在結(jié)點(diǎn)選擇一次測試),我們只考慮可用屬性全集的一個子集和實(shí)現(xiàn)每次分裂的一個新的隨機(jī)選擇。這個子集的大小是隨機(jī)森林中唯一的重要設(shè)計(jì)參數(shù)。因此,每次分裂時,一些屬性(包括最好的)可能不會被考慮,但在同一個樹中,一次分裂中不包括的屬性在其他分裂中可能會被用到。隨機(jī)森林有兩個隨機(jī)元素8:(1)bagging用來對每個樹的輸入數(shù)據(jù)集的進(jìn)行選擇;及(2)屬性的集合被看成是每個結(jié)點(diǎn)分裂的候選。這些隨機(jī)化增加了樹的多樣性,當(dāng)他們的輸出組合到一起時,整體的預(yù)測精度顯著提高。當(dāng)一個隨機(jī)森林建成,森林中每棵樹約1 /3的樣例
13、的訓(xùn)練集中去除。這些樣例被稱為“走出袋外”(oob)8;每個樹有一組不同的oob樣例。oob例子并不用來建造樹,而是為樹建立一個獨(dú)立的測試樣本8。3.1模糊隨機(jī)森林學(xué)習(xí)我們提出算法1來生成隨機(jī)森林,它的樹是模糊決策樹,因此定義一個基本的的算法來生成frf集成。 frf集成中的每一棵樹沿著指導(dǎo)生成的都是模糊樹,修改它以適應(yīng)frf集成的函數(shù)計(jì)劃。算法2展示了生成算法。算法2可以在建樹的時候不用考慮分裂結(jié)點(diǎn)的所有屬性。我們在每個節(jié)點(diǎn)隨機(jī)選擇可用屬性全集的一個子集,然后選擇最好的一個進(jìn)行分裂。因此一些屬性(包括最好的那個)在每次分裂的時候可能不會被考慮,但是再一次分裂中沒有用到的屬性在這個樹進(jìn)行其他結(jié)
14、點(diǎn)分裂的時候可能會用到。算法2是基于id3的建樹方法,數(shù)值屬性通過模糊劃分離散化。本研究就是用11中提到的對數(shù)值屬性進(jìn)行模糊劃分算法的方法。每個數(shù)值屬性的域用梯形模糊集來表示。所以樹的每一個內(nèi)部結(jié)點(diǎn)的劃分是建立在數(shù)值屬性基礎(chǔ)上的,這將為每一個模糊集的劃分產(chǎn)生一個孩子結(jié)點(diǎn)。每個屬性的模糊劃分保證了完整性(域中沒有點(diǎn)在模糊化分之外),而且是強(qiáng)化分(滿足,它們是劃分的模糊集,它的隸屬函數(shù)是)。此外,算法2使用一個叫做的函數(shù),指的是樣例滿足形成樹的結(jié)點(diǎn)的程度。這個函數(shù)的定義如下:樹中用到的每一個樣例指派了一個初始值1,說明這個例子剛開始的時候只能在樹的根結(jié)點(diǎn)找到。 基于數(shù)值屬性的分裂,根據(jù)樣例屬于不同
15、模糊集劃分的隸屬程度,這個樣例可能屬于一個或者兩個孩子結(jié)點(diǎn),例如,這個樣例到達(dá)孩子結(jié)點(diǎn)的隸屬函數(shù)會大于零(),。 當(dāng)樣例在結(jié)點(diǎn)分裂的屬性有缺失值的時候,樣例通過修改后的值到達(dá)每一個孩子結(jié)點(diǎn)。算法2中的停止原則是(1)結(jié)點(diǎn)樣例是純的,例如結(jié)點(diǎn)包含的例子都是一類。(2)可用屬性集為空(3)結(jié)點(diǎn)允許的樣例的純度最大值已經(jīng)達(dá)到。當(dāng)用上述算法做frf集成的時候,我們獲得了為每一個模糊樹獲得了oob集。通過算法1和算法2,我們在breiman的隨機(jī)森林的設(shè)計(jì)原理中融合了模糊樹的概念。3.2 模糊隨機(jī)森林分類在這部分中,我們闡述了用frf集成如何實(shí)現(xiàn)分類。首先,我們介紹用到的概念。然后,我們定義兩個為目標(biāo)樣
16、例獲得frf集成的主要策略。這些策略的具體樣例將在下一部分中定義,而且我們?yōu)閒rf集成提出了不同的組合方法。3.2.1 表示法 我們介紹一下在frf集成中策略和組合方法用到的需要定義的一些標(biāo)記。 是frf集成中樹的個數(shù)。我們用表示一棵特定的樹。是樹中達(dá)到一個樣例的葉子結(jié)點(diǎn)的數(shù)目。模糊樹中的內(nèi)在刻畫是對一個樣例進(jìn)行分類時,由于構(gòu)成數(shù)值屬性的劃分的模糊集有交集,這個樣例可能會被分到一個或者兩個葉子中去。我們用表示樹中特定的葉子。是類的個數(shù)。我們用表示某個特定的類。是我們用來做訓(xùn)練或者測試的一個樣例。是樣例從樹到葉子結(jié)點(diǎn)滿足的程度,我們在3.1中已經(jīng)說明。對類的支持,在每個葉子結(jié)點(diǎn)可以用來獲得,指的
17、是葉子中屬于類的程度之和,指的是那個葉子中的樣例所有滿足程度的和。 是大小的一個矩陣,其中,矩陣中的每一個元素是大小的一個向量,它包含為每一個樹起作用的葉子每個類提供的支持。矩陣中的一些元素不包含信息,因?yàn)椴皇撬猩种械臉溆袀€可到達(dá)的葉子,因此,矩陣包含frf集成生成的所有信息,當(dāng)它用來對樣例進(jìn)行分類,它用某些組合方法得到?jīng)Q策或者進(jìn)行分類。指的是矩陣的一個元素,表示通過樹的葉子對類的支持程度。假設(shè)矩陣的樣例和,可能有:矩陣中的信息由frf集成的每個模糊樹直接提供。在這個矩陣中,我們通過相同的某種變換得到了新的信息,接下來在一些組合方法中我們還會用到這種變換。我們用到的變換是:變換1,定義變換
18、1為:變換提供信息。每個葉子對多數(shù)類投出一票。例如,如果對之前的矩陣申請這個變換我們會得到下面的矩陣:變換2:定義變換2為:變換提供信息,每一個葉子對多數(shù)類的投票權(quán)重是。例如,如果我們對先前的矩陣使用這個變換,我們得到如下的矩陣: 變換3,變換3定義為:變換提供信息,每一個葉子為每一個類提供支持,用樣例到達(dá)葉子滿足的程度來衡量。例如,如果我們對之前的矩陣提供這個變換,令,我們得到下面的矩陣:是一個大小為的矩陣,它包含每棵樹對每個類別的肯定。當(dāng)提供了一些組合方法矩陣中的元素從葉子的每一個支持類中獲得。矩陣中的元素由表示。是大小的一個向量,表示frf集成對每一類指定的肯定程度。當(dāng)應(yīng)用一些組合方法,
19、矩陣的元素從葉子結(jié)點(diǎn)的類支持中獲得。這個向量的一個元素用表示。3.2.2 frf集成中的模糊分類模塊的策略為了找出frf集成給出的樣例的類別,我們定義模糊分類模塊。模糊分類模塊操作frf集成的模糊樹,使用的是下面兩種可能策略其中的一種:策略1:組合從每棵樹中不同的葉子獲得的信息來得到每個單獨(dú)的樹的決策,然后使用相同或者其他的組合方法來生成frf集成的整體決策。為了組合每棵樹中葉子的信息,我們使用函數(shù)和函數(shù),函數(shù)是用來組合由函數(shù)得到的輸出的。展示了策略。策略2:組合所有樹中可達(dá)葉子的信息來生成frf集成的整體決策。我們使用函數(shù)組合所有葉子生成的信息。展示了這個策略。函數(shù)和定義為在多分類器系統(tǒng)中2
20、4,25頻繁的使用組合方法。在下一節(jié)中,我們將描述定義和函數(shù)的不同方法。策略1是關(guān)于的,策略2是關(guān)于的。在算法3中我們實(shí)現(xiàn)了策略1。算法3中用來獲取矩陣。在這種情況下,整合樹中可達(dá)葉子的信息。之后在每棵樹中獲得值會通過函數(shù)的平均來整合,從而獲得向量。這個算法用到一個目標(biāo)樣例和frf集成,然后生成類值作為frf集成的決策。為了實(shí)現(xiàn)策略2,簡化之前算法3,使它不會向樹里面加入信息,但是卻通過frf集成的不同樹中的樣例直接用到所有可達(dá)葉子的信息,算法4實(shí)現(xiàn)了策略2,并用樣例進(jìn)行分類,用frf集成作為目標(biāo)值,并給出了類值,這個類值是frf集成的決策。整合frf集成中不同樹的所有可達(dá)葉子信息來形成向量。
21、4.模糊隨機(jī)森林集成中的組合方法 在前面的章節(jié)中,我們已給出分類的一般方法,使用這種分類我們得到了模糊隨機(jī)森林集成的最終決策。在這一節(jié),我們將介紹為這兩種策略所設(shè)計(jì)的組合方法的具體例子。 在所有的設(shè)計(jì)方法中,如果是為策略1(算法3)設(shè)計(jì)的方法,我們將描述函數(shù)和,如果是為策略2(算法2)設(shè)計(jì)得方法,我們將只描述,同時意味著我們將使用矩陣或是它的一種變換。 根據(jù)2.2章節(jié)所給出的分類,我們在以下幾組中分列了幾種方法。 不可訓(xùn)練方法:在這組中,我們基于簡單多數(shù)投票給該方法下定義,這種方法在集成分類的單獨(dú)訓(xùn)練之中或之后不需要再訓(xùn)練。這組包含我們稱之為簡單多數(shù)投票的方法,這種方法取決于分類策略,我們用s
22、m1和sm2分別表示策略1和策略2。可訓(xùn)練方法:這組包含一些方法,它們在集成分類的單獨(dú)訓(xùn)練之中或之后需要再訓(xùn)練。在這組將給該方法下定義,通過額外訓(xùn)練,得到某些參數(shù)的值,這些參數(shù)在集成(葉子或樹)各組成部分的決策中起加權(quán)或權(quán)重的作用。在這組中我們使用了顯式數(shù)據(jù)依賴和隱式數(shù)據(jù)依賴。顯式數(shù)據(jù)依賴方法:在替補(bǔ)組中的這種方法需要學(xué)習(xí)一個參數(shù),這個參數(shù)依賴于用于分類的例子(依賴于輸入數(shù)據(jù))并且對于替補(bǔ)組的所有方法而言是很常見的。這個參數(shù)表示在集成中用于分類的例子達(dá)到各葉子的滿足程度。在替補(bǔ)組中我們區(qū)別如下:通過葉子加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,(分別是mwli和mwl2)。則不需要去學(xué)習(xí)任何其它的參
23、數(shù)。通過葉子和樹加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,(分別是mwlt1和mwtl2)。這兩種方法都需要尋找一個額外的參數(shù)來指明集成決策中每個樹的權(quán)重。該權(quán)重由oob數(shù)據(jù)集獲得。通過葉子和局部融合加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,(分別是mwlfus1和mwlfus2)這需要尋找一個額外的參數(shù)。再者,它也是每個樹權(quán)重的參數(shù),而且它用一些和分類樣例相似的樣例(局部融合)通過考慮每個樹的行為來得到。通過葉子和隸屬函數(shù)加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,(分別是mwlf1和mwlf2)。這需要尋找一個額外的參數(shù)來表明集成策略中每個樹的權(quán)重,該參數(shù)通過一組函數(shù)來獲得,而這組函數(shù)用以表明關(guān)于oob數(shù)據(jù)集
24、錯誤率的每個樹的重要性。通過葉子和隸屬函數(shù)最少加權(quán)法應(yīng)用于策略1(miwlf1)。這種方法與上面所提到的mwlf1獲得方法相同,只是以最少投票代替了最多投票。隱式數(shù)據(jù)依賴方法:替補(bǔ)組的方法需要學(xué)習(xí)的所有參數(shù)不依賴于分類例子。通過隸屬函數(shù)加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,(分別是mwf1和mwf2),它只需要尋找一個參數(shù)以表明集成決策中每個樹的權(quán)重,該參數(shù)通過一組函數(shù)來獲得,而這組函數(shù)用以表明關(guān)于oob數(shù)據(jù)集錯誤率的每個樹的重要性。通過隸屬函數(shù)加權(quán)最低投票法應(yīng)用于策略1和策略2,(分別是miwf1和miwf2)。這兩種方法與mwlf1和mwf2獲得方法相同,只是以最低投票代替了最多投票。以上所
25、提到的方法下面有詳細(xì)描述。 4.1非可訓(xùn)練方法在這一組中,我們定義如下的方法:簡單的多數(shù)投票法:在這個組合方法中,變換適用于算法3和算法4中第2步的矩陣,以便每個可達(dá)葉子對多數(shù)類分配一個簡單的投票。我們在使用的策略的基礎(chǔ)上得到這種方法的兩個版本:策略1sm1方法算法3中函數(shù)被定義為:在這個方法中,通過樹中的樣例。每個樹分配一個簡單的投票個可達(dá)葉子中簡單的一票。 算法3中的函數(shù)定義為: 策略2sm2方法在策略2中有必要定義函數(shù)通過樣例組合集成中所有可達(dá)葉子的信息,因此算法4中函數(shù)被定義為:4.2可訓(xùn)練的顯式依賴方法 在這一節(jié)我們定義了如下的方法: 通過葉子加權(quán)多數(shù)投票法:在這些組合方法中,在算法
26、3的第2步中,變換被用在矩陣中,從而使每個可達(dá)葉子給多數(shù)類分配一個加權(quán)的投票。投票用樣例到葉子的滿足程度加權(quán)。再次,我們根據(jù)使用的策略有兩個版本: 策略1-mwl1方法 函數(shù)和定義如下: 策略2-mwl2方法函數(shù)被定義為: 通過葉子和樹加權(quán)多數(shù)投票法:在這種方法中,在算法3和算法4的第2步中,變換被用在矩陣中,使得根據(jù)對多數(shù)類滿足的程度,每一個可達(dá)葉子給出一個加權(quán)投票。 此外,在這種方法中用oob數(shù)據(jù)集訓(xùn)練每個單獨(dú)的樹來獲得每個樹權(quán)重。是分配給每個樹的權(quán)重向量。每個由計(jì)算得到,其中是測試第個樹用到的oob數(shù)據(jù)集時分類正確的樣例的數(shù)量,表示這些數(shù)據(jù)集中樣例的總數(shù)目。 策略1-mwlt1方法 函數(shù)
27、定義如下: 在函數(shù)中用到向量:策略2-mwlt2方法策略2用到權(quán)重向量:通過葉子和局部融合加權(quán)多數(shù)投票:這個組合方法,在算法3和算法4的第2步,變換被用在矩陣中,使每個可達(dá)葉子分配一個加權(quán)票,另外根據(jù)滿足的程度,用在多數(shù)類中。策略1-mwlfus1方法函數(shù)定義如下:另外,對于每一個樹和要分類的樣例,中使用權(quán)重,可以通過下面講的方法獲得。為了獲得這種組合方法,首先,在frf集成的學(xué)習(xí)的過程中,我們從每個生成的樹獲得了額外的一個樹,我們稱作差錯樹。建立和第個樹相關(guān)的差錯樹過程如下:我們用第個樹的訓(xùn)練集建立樹的一個測試。這樣的話,我們用訓(xùn)練數(shù)據(jù)集作為測試集。用這個測試的結(jié)果,我們用相同的數(shù)據(jù)建立一個
28、新的數(shù)據(jù)集(),屬性錯誤說明樣例是否被第個樹正確分類(例如,如果樣例被樹正確分類,約束屬性可以取0,如果沒被正確分類,就是樹產(chǎn)生了錯誤,取1)。用這個新的數(shù)據(jù)集,建立新的樹來學(xué)習(xí)屬性錯誤。 在,是第個樹的訓(xùn)練集,它包含用向量代表的樣例。其中是第個樹的訓(xùn)練集的第個樣例;第個樣例的屬性類的值。這個屬性是frf集成的分類目標(biāo)。是第 個樹相關(guān)的錯誤數(shù)的訓(xùn)練集。它包含一些向量,表示如下: 是第個樹中訓(xùn)練集的第個樣例。是在數(shù)據(jù)集中作為類的屬性。它用值約束屬性。如果用第個樹分類是錯誤的,取值為1。如果用第個樹分類是正確的,取值為0。 一旦frf集成和額外的差錯樹建立起來,對每個樣例我們就會得到向量用來進(jìn)行分
29、類,frf集成的每棵樹用權(quán)重指派給每個樹樣例(局部權(quán))。每個可由獲得,其中指的是第個樹的差錯樹。是錯誤樹中樣例可達(dá)葉子結(jié)點(diǎn)的數(shù)量,是用樣例到達(dá)差錯樹的葉子的滿足程度,是在差錯樹的葉子中0類樣例的劃分(約束屬性錯誤=0的值)。對于局部信息整合的模糊隨機(jī)森林的結(jié)構(gòu)我們想得到并使用這種方法的關(guān)鍵是使用一個局部的權(quán)重或者是一個局部的融合方法5。設(shè)一個新的樣例,我們首先計(jì)算由那些和給定樣例相似的樣例所構(gòu)成的樹的性能,這些相似的樣例來自訓(xùn)練數(shù)據(jù)集合。這些相似的樣例屬于某些差錯樹的葉子結(jié)點(diǎn),而這些差錯樹能夠使得樣例達(dá)到最大廣度。然后,根據(jù)這些樣例的性能,我們就產(chǎn)生一個權(quán)值,這個權(quán)值和這棵樹的決策有關(guān)。最后,
30、函數(shù)由對應(yīng)著每一個的樣例e和樹t所產(chǎn)生的權(quán)重的樹的決策值來定義的。即策略2 mwlfus2方法這種方法使用的是被用于策略2的權(quán)重向量 。主要的權(quán)衡方法是由葉子和隸屬函數(shù)決定的:在這種結(jié)合的方法中,trans2的變換被應(yīng)用于算法3和4的step 2的矩陣l_frf中,因此對于大多數(shù)的分類情況,根據(jù)滿意度,使得每一個最后一層的葉子節(jié)點(diǎn)被分配一個權(quán)重值。策略1 mwlf1方法函數(shù)定義如下:在這種方法中,函數(shù)衡量frf整體的每一棵樹的決策值,使用的是隸屬函數(shù),即,其中: pmax 是frf整體的樹的誤差的最大比值,在一棵樹t中,誤差比值被定義為,其中是樹t中分類錯誤的個數(shù)(把數(shù)據(jù)集看成測試集),是數(shù)據(jù)
31、集的基數(shù)。正如上面指出的一樣,數(shù)據(jù)集的樣例并沒有用于構(gòu)建樹t ,實(shí)際上是作為與樹t 無關(guān)的一個測試集。所以當(dāng)分類數(shù)據(jù)集的樣例時,我們可以用分類的誤差的數(shù)目來衡量樹t 的好壞。 pmin是frf整體的樹的誤差的最小比值。對于決策函數(shù),在frf整體的決策中,所有的樹都有一個權(quán)重值,這個權(quán)重大于零。當(dāng)誤差率增加時權(quán)重值會減小,使得對應(yīng)于最小的誤差率的樹的權(quán)重值等于1。因此,函數(shù)被定義如下:策略2 mwlf2方法在這種方法中,函數(shù)定義為;極小值權(quán)重由葉子和隸屬函數(shù)來決定:在這種結(jié)合的方法中,trans3的變換被應(yīng)用于算法3的step 2的矩陣l_frf中。策略1 miwlf1方法函數(shù)被定義為:包含著權(quán)
32、重的函數(shù)被定義為下式(這個權(quán)重是由前面的模糊隸屬函數(shù)定義的):4.3 可訓(xùn)練的完全依賴方法在這一部分,我們定義下面的方法。主要的權(quán)值依賴于隸屬函數(shù):在這種結(jié)合方法中,trans1的變換被應(yīng)用于算法3和4的step 2的矩陣l_frf中,使得根據(jù)大多數(shù)的分類情況,最后一層的葉子節(jié)點(diǎn)被分配到一個簡單的權(quán)值。策略1 mwf1方法函數(shù)被定義為:。包含著權(quán)重的函數(shù)被定義為下式(這個權(quán)重是由前面的模糊隸屬函數(shù)定義的):。策略2 mwf2方法包含著由前面的模糊隸屬函數(shù)定義的權(quán)重的函數(shù)被定義為下式:。極小值權(quán)重由隸屬函數(shù)來決策。在這種結(jié)合的方法中,沒有任何變形被應(yīng)用于算法3的step 2的矩陣l_frf中。策
33、略1 miwf1方法函數(shù)被定義為:包含著由前面的模糊隸屬函數(shù)定義的權(quán)重的函數(shù)被定義為下式:。5. 實(shí)驗(yàn)和結(jié)果在這一部分,我們給出了幾種實(shí)驗(yàn)結(jié)果,這些結(jié)果反映了提出的frf集成方法的精度。實(shí)驗(yàn)部分安排如下:5.3部分的實(shí)驗(yàn)是用于評價frf集成方法對于那些不完整的和有噪音的數(shù)據(jù)的性能和穩(wěn)定性。換句話說,我們想測試frf集成這種方法的性能,主要是對那些包含著丟失值的數(shù)據(jù)集。這些值由模糊集合產(chǎn)生(模糊值),類別上的噪音或者是異常的樣例。因此,我們進(jìn)行兩組實(shí)驗(yàn):frf集成方法對于那些不完整的數(shù)據(jù)的性能 丟失值 模糊值frf集成方法對于那些有噪音的數(shù)據(jù)的性能 類別上的噪音 異常的樣例5.4部分的實(shí)驗(yàn)是用于
34、比較frf集成方法和其他的分類器和方法。首先,我們比較frf集成方法和其他的方法。和frf集成方法相同,所有的這些方法都是使用相同的基分類器形成的。我們?nèi)匀皇褂胋reiman隨機(jī)森林。其次,我們比較frf集成方法和文獻(xiàn)中提到的其他的分類器和方法。表 2frf集成在不同百分比的丟失數(shù)據(jù)情形下的測試精度5.1.frf集成的數(shù)據(jù)集和參數(shù)我們使用uci數(shù)據(jù)庫2中的一些數(shù)據(jù)集來獲得這些結(jié)果,數(shù)據(jù)集的描述見表1. 表1描述了每個數(shù)據(jù)集中樣例的個數(shù),屬性的個數(shù),和類別的個數(shù). “abbr”表示實(shí)驗(yàn)中每個數(shù)據(jù)集的縮寫. 最終,除了5.4.1中的實(shí)驗(yàn),我們在frf集成中均使用大小為的樹,5.4.1中實(shí)驗(yàn)的描述見
35、表7. 對于一個給定的結(jié)點(diǎn),隨機(jī)抽取的屬性的個數(shù)為,表示當(dāng)前結(jié)點(diǎn)可利用的屬性的個數(shù). frf集成中的每棵樹被構(gòu)造成具有最大規(guī)模(結(jié)點(diǎn)是純的,或可利用屬性集為空),并且沒有被修剪過。 5.2.利用無參數(shù)檢驗(yàn)測試實(shí)驗(yàn)結(jié)果我們使用統(tǒng)計(jì)知識針對每一子部分分析實(shí)驗(yàn)結(jié)果. 根據(jù)16中的方法,我們使用無參數(shù)測試. 我們使用wilcoxon測試來比較兩個方法. 這個測試是通過在兩個方法之間進(jìn)行成對比較的一種無參數(shù)的統(tǒng)計(jì)過程,與無參數(shù)統(tǒng)計(jì)過程中的配對t檢驗(yàn)類似;因此,它用于檢測兩個樣本的期望之間的顯著性差異,即兩個方法的性能的匹配檢驗(yàn). 當(dāng)比較多個方法時,我們使用friedman測試和benjamin-hoch
36、berger程序4作為事后檢驗(yàn)(后者優(yōu)于bonferroni-dunn測試,holm測試和hochberger過程)。friedman測試是利用反復(fù)性方法做方差分析等價的無參數(shù)檢驗(yàn).,等價于在零假設(shè)中定義這些方法,因此拒絕假設(shè)意味著當(dāng)前研究的方法在性能上存在著差異.,接著使用benjamin-hochberger程序判斷提出的方法與其它的方法相比,是否顯示出統(tǒng)計(jì)上的差異.5.3.frf集成處理不完全數(shù)據(jù)和噪音的性能和穩(wěn)定性 5.3.1.不完全數(shù)據(jù)的處理為了往一個包含個樣例,每個樣例包含個屬性(不含類別屬性)的數(shù)據(jù)集中引進(jìn)的不完全數(shù)據(jù),我們從數(shù)據(jù)集中按照均勻分布隨機(jī)選擇個數(shù)據(jù). 針對于每個值,它
37、與某個樣例的某個屬性相對應(yīng),我們修改這個值. 我們在訓(xùn)練集和測試集中都引入不完全數(shù)據(jù). 我們將檢驗(yàn)分成三個實(shí)驗(yàn):1. 第一個實(shí)驗(yàn),我們在包含缺少屬性值數(shù)據(jù)的數(shù)據(jù)集上運(yùn)行frf集成,丟失的數(shù)據(jù)可以是數(shù)值型或者符號型屬性的數(shù)據(jù). 2. 第二個實(shí)驗(yàn),我們在包含模糊的數(shù)值屬性值的數(shù)據(jù)集上運(yùn)行frf集成. 這些模糊值與數(shù)據(jù)集關(guān)于每個數(shù)值屬性進(jìn)行模糊分割所得到的模糊集對應(yīng). 3. 第三個實(shí)驗(yàn),我們往數(shù)據(jù)集中插入許多缺少屬性值和模糊值的數(shù)據(jù). 當(dāng)使用一個模糊值代替數(shù)據(jù)集中的一個樣例的某個數(shù)值屬性值,按如下步驟進(jìn)行:數(shù)值屬性在進(jìn)行模糊分割時被分成幾段,屬性值將會以一定的隸屬度隸屬于一個或兩個分割后模糊集中,
38、我們將模糊集中該樣例的屬性值用可以獲得的最大隸屬度代替. 在這三個實(shí)驗(yàn)中,不完全數(shù)據(jù)占整個數(shù)據(jù)集的百分比分別為5%,15%,和30%1. 在第三個實(shí)驗(yàn)中,不完全數(shù)據(jù)所占的百分比被均等地分成缺少屬性值和模糊值數(shù)據(jù)兩部分. 在這些實(shí)驗(yàn)中,要進(jìn)行五次按不同比例分配的十次交叉驗(yàn)證(510的交叉驗(yàn)證),然后用不完整數(shù)據(jù)集,我們給出了對于f集成方法的平均分類精度的百分比。然而對于不完整的數(shù)據(jù)集,f集成方法的平均分類精度的百分比是下降的,結(jié)合著集成的組合的一些方法,這些方法主要包含著一些數(shù)值(這個符號表明至少有四種方法可以得到那個平均值)。分類平均精度百分比的下降量見表,是用下面的公式計(jì)算的,其中是那些對于
39、含有不完整數(shù)據(jù)的數(shù)據(jù)集的平均分類精度,而是最原始的數(shù)據(jù)中的平均分類精度。在表24中可以看到,fr集成表現(xiàn)出很穩(wěn)定的性質(zhì),即使數(shù)據(jù)集中有很多的不完整數(shù)據(jù)。5.3.2噪音的影響在這一部分,我們分析由于噪音的存在對于fr集成的影響。我們將測試分成兩部分的實(shí)驗(yàn),首先,在還有異常點(diǎn)樣例的數(shù)據(jù)集上我們運(yùn)行frf集成。然后,在接下來的實(shí)驗(yàn)中,我們有噪音的數(shù)據(jù)集上運(yùn)行frf集成,這個噪音主要是類別的屬性值。5.3.2.1 數(shù)據(jù)集上的異常點(diǎn)樣例的說明一種驗(yàn)證數(shù)據(jù)樣例是否是異常點(diǎn)的方法是四分位法。這種方法使用下四分位或者是25個百分比,對于上四分位法或者是75個百分比,對于數(shù)據(jù)集上的每一個屬性(四分位法對應(yīng)著屬性
40、的平均值,而min 和max 分別對應(yīng)著每個屬性的最小和最大值)。我們可以使用這種方法來生成異常點(diǎn)值然后將其嵌入到不同的數(shù)據(jù)集。 我們選取大于為異常點(diǎn)值,其中k 是給定的一個正數(shù),iq 是四分位間距。因此,含有著異常點(diǎn)的數(shù)據(jù)集就按照下面的步驟產(chǎn)生。1. 為每個數(shù)據(jù)集選擇一個數(shù)值屬性.2. 對于每個數(shù)據(jù)集及選擇的屬性,計(jì)算,e是數(shù)據(jù)集中的樣例構(gòu)成的集合,k在集合中取值,屬性的(四分位間距),下四分位(25th 百分位),上四分位數(shù)(75th 百分位)(見圖3). 3. 對于每個數(shù)據(jù)集,我們選擇1%的樣例. 4. 我們定義. 5. 對于每個選擇的樣例,我們從區(qū)間中隨機(jī)選取一個值替換數(shù)值屬性的值.
41、我們可以發(fā)現(xiàn)(見圖4),對于每次替換我們可以獲得三個可能的值,這三個值依賴于. 因此,對于每個數(shù)據(jù)集,我們將獲得三個與對應(yīng)的包含異常點(diǎn)的數(shù)據(jù)集. 這是在訓(xùn)練集上的工作. 我們運(yùn)行三個實(shí)驗(yàn),每個實(shí)驗(yàn)對應(yīng)于選定的和前面部分獲得的每個數(shù)據(jù)集.實(shí)驗(yàn)使用45交叉驗(yàn)證. 表5顯示了關(guān)于不包含異常點(diǎn)的數(shù)據(jù)集的平均分類精度百分比(期望和標(biāo)準(zhǔn)差),和原數(shù)據(jù)與包含異常點(diǎn)的數(shù)據(jù)之間的平均分類錯誤增長的百分比. 另外,表中表明了獲得這些值的組合方法(符號“*”表示值是由多余四個的組合方法獲得的). 如表5所示,平均分類錯誤的增長百分比如下計(jì)算increase error=,表示包含異常點(diǎn)的數(shù)據(jù)集的平均分類錯誤,ce(
42、original)表示原始數(shù)據(jù)集的平均分類錯誤. 并且,標(biāo)示出了組合方法獲得的這些值(符號“*”表示的是這里有多于4種的組合方法來獲得這些值)。表5中的平均分類錯誤增長的百分比通過計(jì)算,其中是數(shù)據(jù)集中有異常點(diǎn)時的平均分類錯誤,是原始數(shù)據(jù)集的平均分類錯誤。當(dāng)我們實(shí)施非參數(shù)統(tǒng)計(jì)測試來對比這4種樣本集時,我們沒有發(fā)現(xiàn)她們在95%的置信水平下沒有明顯的區(qū)別。從這些結(jié)果,我們可以得出下面的結(jié)論:引入的與樣本差別很大的異常點(diǎn)使frf集成的效果與沒有異常點(diǎn)的情況類似。5.3.2.2 在類別屬性中引入噪聲數(shù)據(jù) 我們在同樣的實(shí)驗(yàn)中對比了frf集成的效果和18中報道的最好的技術(shù)。最好的技術(shù)定義為在10字交叉驗(yàn)證中
43、原始數(shù)據(jù)集和帶噪聲的數(shù)據(jù)集分類平均錯誤增長最低的技術(shù)。 帶噪聲的數(shù)據(jù)集通過以下方式獲得:選擇10%的數(shù)據(jù),我們將這些數(shù)據(jù)的類別屬性的值用一個隨機(jī)的其他可能值代替。這只是在訓(xùn)練集上進(jìn)行。并且,噪聲被引入到訓(xùn)練集使用的是nip 1.5 tool12.增長的平均錯誤分類率通過計(jì)算如表6,其中是有噪聲的數(shù)據(jù)集的分類錯誤,是原始數(shù)據(jù)的分類錯誤。實(shí)驗(yàn)結(jié)果如表6。使用wilcoxon測試來對比18中的結(jié)果和frf集成的結(jié)果。我們發(fā)現(xiàn)最明顯的差異達(dá)到了97.3%。根據(jù)這些結(jié)果我們得出,當(dāng)類別屬性中有噪聲時,frf集成方法比18中的方法錯誤增長的要少。5.4對比frf集成方法與其他分類集成方法5.4.1對比fr
44、f集成和其他集成方法使用同樣的基分類器 這部分我們總結(jié)了一系列的實(shí)驗(yàn)來觀察frf集成的效果,當(dāng)它與基分類器及其一些有這些基分類器建立的集分類器:(1)基分類器(2)基于boosting的集分類器(3)基于bagging的集分類器(4)frf集成分類器。我們還對比了frf集成方法和以模糊決策樹為基分類器的方法。每個實(shí)驗(yàn)都使用的是同樣的參數(shù)。在這個實(shí)驗(yàn)中,我們使用4*5的交叉驗(yàn)證。表7展示了獲得的實(shí)驗(yàn)結(jié)果,指示了平均分類精度(均值和標(biāo)準(zhǔn)差)。在這個實(shí)驗(yàn)中獲得的實(shí)驗(yàn)結(jié)果清楚的表明frf集成式是連續(xù)生成最好結(jié)果的集成。在大多情況下bagging比boosting好。當(dāng)我們實(shí)施統(tǒng)計(jì)測試在這些結(jié)果上,我們
45、首先應(yīng)用friedman測試,獲得了一個置信水平為99.9%的空假設(shè)的拒絕域。也就是,它接受存在明顯差別的樣例。當(dāng)我們實(shí)施post-hoc測試,我們得到frf集成與rf,模糊決策樹(ft),boosting,bagging在置信水平為95.98%的情況下有明顯的不同,frf集成式最好的方法。對于其他方法,當(dāng)置信水平為99.9%時,rf,ft和boosting有明顯的不同,其中rf最好;當(dāng)置信水平為99.7%我們得到bagging,ft,boosting明顯不同。5.4.2 和文獻(xiàn)中的其他方法對比在這節(jié)中,我們對比了frf集成操作和文獻(xiàn)中找到的其他分類器和集成方法。在每種情況下,我們都會說明比較
46、式怎么進(jìn)行的。5.4.2.1和其他分類器的對比學(xué)習(xí) 我們已經(jīng)對比了frf集成方法和其它分類器,借鑒20中報道的結(jié)果,在20中,它對比了基于gra的分類器(灰度相關(guān)分析),基于cigra的分類器和其他很知名的分類方法包括mlp(多層感知器),c4.5決策樹,徑向基函數(shù)(rbf),樸素貝葉斯,cart決策樹,基于模糊和遺傳算法結(jié)合的機(jī)器學(xué)習(xí)算法以及模糊決策樹。為了評估frf集成方法的泛化能力,我們使用10*10折交叉驗(yàn)證。我們展示了所有方法的平均分類精度以及frf集成方法和frf集成組合方法的標(biāo)準(zhǔn)差。結(jié)果如表8.當(dāng)我們在這些結(jié)果上實(shí)施統(tǒng)計(jì)分析時,我們首先應(yīng)用friedman測試來獲得置信水平為99
47、.6%的空假設(shè)空間的拒絕域。也就是我們接受明顯的差異的樣本。當(dāng)我們應(yīng)用posthoc分析時,我們得到frf集成和其他方法如在置信水平為98.2%gra,cigra,mlp,c4.5,rbf,bayes,cart以及模糊決策樹時有明顯的差異,與gblm在置信水平為96.9%時有明顯差異。此時frf集成是最好的方法。因此我們得出frf集成式一個有效的分類器而且具有很好的性能。5.4.2.2和其他集成方法的對比學(xué)習(xí) 在18中,我們找到了一個最好的基于數(shù)的集成方法的對比學(xué)習(xí)。我們將對比frf集成的結(jié)果和18中報道的工作。10折交叉驗(yàn)證被使用。然后我們簡單的描述在那篇文章中使用的基于樹的集成方法。使用的
48、集成方法如下:1.剪枝的單一樹(cart)2.有100棵樹的bagging(cart)3.rf:有100棵樹的隨機(jī)森林(屬性的個數(shù)在給出的個節(jié)點(diǎn)中隨機(jī)選擇,其中m是屬性的集合)4.bo:具有100棵和250棵樹的boosting(cart)。分割標(biāo)準(zhǔn):熵,線性組合,nlc:沒有線性組合實(shí)驗(yàn)結(jié)果如表9.在frf集成方法和18中提出的最好的集成方法的對比中,當(dāng)置信水平為95.2%時,這兩種方法有明顯的不同,frf方法最好。6.總結(jié)在這篇文章中,我們提出了一個基于模糊決策樹集成的方法叫做frf集成。我們實(shí)現(xiàn)了隨機(jī)森林和模糊決策樹結(jié)合的方法來訓(xùn)練。提出的這種方法對于處理有瑕疵的數(shù)據(jù)很有優(yōu)勢,對噪聲具有
49、魯棒性并且和其他相對的小型集成相比具有很好的分類率。 我們已經(jīng)定義了各種方法來在組合frf集成方法的基分類器的輸出。這些方法是基于組合的方法,在文獻(xiàn)中被頻繁使用以獲得集成的最后決策。因此我們定義了不可訓(xùn)練方法:在這組中,方法都是基于簡單的投票。可訓(xùn)練的顯示依賴的方法:在這組中的方法使用的是權(quán)重,這個權(quán)重是通過定義分類不同的葉子結(jié)點(diǎn)所達(dá)到的樣本的滿意度以及frf集成樹的權(quán)重來實(shí)現(xiàn)的??捎?xùn)練的隱式依賴的方法:在這組中的方法使用從frf集成樹種學(xué)習(xí)到的權(quán)重。我們已經(jīng)展示了通過應(yīng)用frf集成方法到各種各樣的數(shù)據(jù)集中的各種結(jié)果。總體來說,加權(quán)的結(jié)合方法和典型的基于隨機(jī)森林的集成方法相比達(dá)到較好性能。在這
50、些使用加權(quán)成員關(guān)系函數(shù)的加權(quán)的方法取得了很好的性能,在實(shí)施的所有試驗(yàn)中65%的實(shí)驗(yàn),它的效果最好。盡管這些結(jié)合的方法大多數(shù)有相同的計(jì)算消耗,在這里我們強(qiáng)調(diào)基于局部混合的方法增長的消耗。無論如何,這些最近的方法在類別屬性中有噪音的數(shù)據(jù)集中獲得了很好的性能。特別的,frf集成的方法在有瑕疵的數(shù)據(jù)集上(有丟失和模糊值)獲得的結(jié)果很好。在這些數(shù)據(jù)集上加權(quán)的方法比不加權(quán)的方法性能好。在有異常點(diǎn)的數(shù)據(jù)集上,frf集成方法表現(xiàn)出了很好的性能并且我們可以得出以下結(jié)論:引入的與樣本差別很大的異常點(diǎn)使frf集成方法的性能與沒有噪聲的一樣。當(dāng)我們將分類屬性中引入噪聲,frf集成方法比其他方法表現(xiàn)出了明顯的優(yōu)勢并且m
51、wlfus2結(jié)合方法在大多數(shù)情況下取得了最好的性能。因此frf集成方法對噪聲具有魯棒性。當(dāng)我們將frf集成方法與基分類器進(jìn)行比較時,rf和集成器使用的是同樣的基分類器,frf集成方法獲得了最好的結(jié)果。在將frf集成的結(jié)果與通過一系列的分類器和多分類器的進(jìn)行比較,我們得到frf集成方法是一個有效的分類器并且在大多數(shù)情況下,獲得了最好的結(jié)果。所有的結(jié)論已經(jīng)通過在每個對比實(shí)驗(yàn)中用統(tǒng)計(jì)方法來分析不同的方法或算法得到了驗(yàn)證。references1 h. ahn, h. moon, j. fazzari, n. lim, j. chen, r. kodell, classification by ensembles from random partitions of high dimensional data, computationalstatistics and data analysis 51 (2007) 61666179.2 a. asuncion, d.j. newman, uci machine learning repository, university of california, school of information and computer science, irvine, ca, .3 r.e. ban
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年商業(yè)洗衣店合作經(jīng)營合同
- 花卉行業(yè)面臨的主要挑戰(zhàn)與應(yīng)對策略
- 2024年二手房買賣租賃合同規(guī)范
- 2024年工地瓷磚獨(dú)家供應(yīng)合同
- 2024年5G基站建設(shè)租賃合同
- 2024年專用:機(jī)械設(shè)備購銷合同模板說明
- 碳交易碳資產(chǎn)管理辦法
- 國際學(xué)校場地租賃合同
- 公共綠地草坪養(yǎng)護(hù)項(xiàng)目合同
- 裝修工程招投標(biāo)報名表
- 生產(chǎn)建設(shè)項(xiàng)目水土保持方案編制
- 班會沒有規(guī)矩不成方圓主題班會課件
- 高考英語復(fù)習(xí)讀后續(xù)寫人與自然(4)講義
- 2023版道德與法治教案教學(xué)設(shè)計(jì)專題5第1講 全體人民共同的價值追求
- 南京市鼓樓區(qū)2023-2024學(xué)年八年級上學(xué)期期末英語試卷(含答案解析)
- 降低眼藥水漏滴率品管圈課件
- 小學(xué)綜合實(shí)踐活動課《有趣的紙貼畫》課件
- 當(dāng)代世界文化發(fā)展的趨勢
- 花茶大學(xué)生創(chuàng)新創(chuàng)業(yè)計(jì)劃書
- 《中國近代經(jīng)濟(jì)史》課件
- 九年級道德與法治的知識競賽題
評論
0/150
提交評論