版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、模糊隨機(jī)森林Piero Bonissone a, Jos M. Cadenas b,*, M. Carmen Garrido b, R. Andrs Daz-Valladares c摘要:當(dāng)將單個(gè)分類器非常適宜的組合到一起時(shí)候,獲得的分類精度通常會(huì)顯著增加。多分類器系統(tǒng)就是幾個(gè)單獨(dú)的分類器相組合的結(jié)果。接下來(lái)文中提到的Breiman研究方法,多分類器系統(tǒng)是建立在模糊決策樹形成的“森林根底上的,例如:以提出的模糊隨機(jī)森林為根底。這種方法結(jié)合了多分類器系統(tǒng)的魯棒性,而且隨機(jī)性增加了樹的多樣化,模糊邏輯和模糊集的靈活性也增強(qiáng)了不完全數(shù)據(jù)的管理能力。本文提出了利用各種組合的方法來(lái)獲得多分類器系統(tǒng)最終決
2、策的方法,而且對(duì)它們進(jìn)行了比擬。其中一局部用組合方法加權(quán),它給多分類器系統(tǒng)(葉子或樹)的不同決策一個(gè)權(quán)重。對(duì)幾個(gè)數(shù)據(jù)集的比照研究說(shuō)明了提出的多分類器系統(tǒng)和不同組合方法的高效性。多分類器系統(tǒng)具有很好的分類精度,當(dāng)測(cè)試普通的數(shù)據(jù)集,可以同最好的分類器相媲美。然而,與其他分類不同的是,當(dāng)測(cè)試不完整的數(shù)據(jù)集有缺失和模糊值,提出的分類器測(cè)試精度分類精度也很好。引言分類一直是一個(gè)具有挑戰(zhàn)性的問(wèn)題1,14。可用于企業(yè)和個(gè)人的信息爆炸,進(jìn)一步加劇了這個(gè)問(wèn)題。目前已經(jīng)有許多技術(shù)和算法解決分類問(wèn)題。在過(guò)去的幾年里,我們還看到了基于各種方法的多分類系統(tǒng)方法的增加,多分類系統(tǒng)方法已經(jīng)被證明比單個(gè)分類器的結(jié)果要好27。
3、然而,不完全信息不可防止地會(huì)出現(xiàn)在現(xiàn)實(shí)領(lǐng)域和狀況下。當(dāng)測(cè)量一個(gè)特定的屬性時(shí)候,實(shí)驗(yàn)過(guò)程中的器材故障或噪音影響可能會(huì)導(dǎo)致數(shù)據(jù)信息的不完整。換句話說(shuō),如果我們想得到非常準(zhǔn)確的信息,代價(jià)會(huì)非常昂貴或者根本不可能。此外,有時(shí)從專家那里獲得額外的信息可能會(huì)很有用,這通常是涉及種類的模糊概念的時(shí)候:小,多或少,接近等。大多數(shù)現(xiàn)實(shí)世界的問(wèn)題,數(shù)據(jù)有一定程度的不精確。有時(shí),這種不精確非常小是可以忽略的。其他時(shí)候,不精確的數(shù)據(jù)可以通過(guò)一個(gè)概率分布建立模型。最后,還第三個(gè)問(wèn)題,不精確是非常明顯而且概率分布不是自然模型的情況。因此,本身存在模糊的數(shù)據(jù),9,28,30,31也存在一些實(shí)際的問(wèn)題。 因此,有必要用屬性來(lái)
4、處理信息,反過(guò)來(lái)講,分類技術(shù)在知識(shí)學(xué)習(xí)和分類方面對(duì)信息喪失和值不準(zhǔn)確的研究是有價(jià)值的。此外,這種方法可取還因?yàn)樗谔幚碓胍魯?shù)據(jù)的時(shí)候具有魯棒性。在本文中,我們將集中討論如何開始多分類器系統(tǒng),使得他它可以和最好的分類器相媲美甚至比最好的分類器分類效果還要好,然后把它擴(kuò)展到不完全信息上面缺失值和模糊值,使其在處理符號(hào)屬性和數(shù)值屬性6,10有噪音的數(shù)據(jù)具有魯棒性。要構(gòu)建多分類器系統(tǒng),我們按照隨機(jī)森林方法8,以及處理不完整信息的方法,我們通過(guò)使用模糊決策樹作為基分類器構(gòu)建隨機(jī)森林。因此,我們嘗試綜合使用兩者的魯棒性,一個(gè)樹集成和一個(gè)模糊決策樹,隨機(jī)性增加了森林中樹的多樣性并增強(qiáng)了模糊邏輯及模糊集管理不
5、完整數(shù)據(jù)的靈活性。多數(shù)投票法是隨機(jī)森林標(biāo)準(zhǔn)組合方法。如果分類器具有不相同的精度,那么當(dāng)使用加權(quán)的多數(shù)投票法,在得到最后決策的時(shí)候,給比擬有“能力的分類器大點(diǎn)的權(quán)值是合理的。在這項(xiàng)工作中,我們提出多分類器系統(tǒng)通過(guò)不同加權(quán)組合方法獲得最終決策的方法,并對(duì)它們進(jìn)行了比擬。在第2節(jié)中,我們回憶了構(gòu)成一個(gè)多分類器系統(tǒng)的主要元素,對(duì)如何將每個(gè)分類器的輸出結(jié)合起來(lái)產(chǎn)生最終的決策提出了簡(jiǎn)明的描述,我們還討論了分類技術(shù)中模糊邏輯組合方面的一些問(wèn)題。在第3節(jié)中,我們解釋了多分類器系統(tǒng)的學(xué)習(xí)和分類方面問(wèn)題,多分類器系統(tǒng)我們也把它稱作模糊隨機(jī)森林。在第4節(jié),我們定義了模糊隨機(jī)森林結(jié)合方法。在第5節(jié),我們展示了模糊隨機(jī)
6、森林不同的計(jì)算結(jié)果。最后,在第六節(jié)中給出了結(jié)論。2 多分類器系統(tǒng)和模糊邏輯當(dāng)我們把單獨(dú)的分類器合理組合在一起時(shí),多分類器系統(tǒng)和模糊邏輯,在分類精度上通常能有一個(gè)更好的性能或者能夠更快的找到更好的解決方案1。多分類器系統(tǒng)是由幾個(gè)單獨(dú)的分類器相組合而成。多分類器系統(tǒng)在基分類器的類型和數(shù)目、每個(gè)分類器使用的數(shù)據(jù)集的屬性、最終的決策中每個(gè)分類器的決策組合、分類器使用的數(shù)據(jù)集的大小和性質(zhì)等方面有所不同。2.1.基于決策樹的總效果近年來(lái),一些技術(shù)被提出使用在不同的基分類器上。然而,這項(xiàng)工作集中在使用決策樹作為基分類器的集成上。因此,我們?cè)谡撐闹邪磿r(shí)間順序說(shuō)明了這個(gè)概念的進(jìn)化。Bagging 7可以稱得上是
7、實(shí)現(xiàn)分類器集成的最古老的技術(shù)之一。在bagging方法中,通過(guò)使用不同的樣例集建立每個(gè)分類器,可以讓分類器多樣化,這些樣例集合是通過(guò)放回式重新采樣方法從原始訓(xùn)練集中得到的。Bagging之后便利用這些分類器的決策通過(guò)使用統(tǒng)一加權(quán)進(jìn)行投票。boosting算法15,32通過(guò)一次增加一個(gè)分類器實(shí)現(xiàn)集成。第K步參加集成的分類器是從原始數(shù)據(jù)集選擇出的數(shù)據(jù)集中訓(xùn)練出來(lái)的。開始樣例分布是均勻的,然后新的數(shù)據(jù)集增加誤判樣例的可能性的例子。因此,分布在每一步都在進(jìn)行修改,在第K步中增加了在第K-1步分類器誤判的樣例的可能性。 Ho的隨機(jī)子空間技術(shù)19,在訓(xùn)練集成用的單個(gè)分類器時(shí),在可用的屬性中隨機(jī)選擇子集。D
8、ietterich 13提出一種方法叫做隨機(jī)化。這種方法中,在集成用的每棵樹的每個(gè)結(jié)點(diǎn),定好分裂結(jié)點(diǎn)最好的20個(gè)屬性,每一個(gè)結(jié)點(diǎn)隨機(jī)的使選擇其中一個(gè)。最后,Breiman 8提出了隨機(jī)森林集成,其中,隨機(jī)屬性選擇通過(guò)串聯(lián)方式使用bagging方法。森林的每棵樹的每個(gè)結(jié)點(diǎn),可用屬性的子集是隨機(jī)選取的,結(jié)點(diǎn)選擇這些屬性中可以用的最好的屬性。在每個(gè)結(jié)點(diǎn)屬性的數(shù)量隨機(jī)選擇,這個(gè)數(shù)量是這個(gè)方法的一個(gè)參數(shù)。在最近的一篇文章3,Banfield等人比擬了這些決策樹集成創(chuàng)新技術(shù)。他們提出了在每個(gè)數(shù)據(jù)集上用算法的平均排序進(jìn)行評(píng)估的方法。2.2.組合方法在24,25的文獻(xiàn)中有一些關(guān)于分類器組合的觀點(diǎn)。在這篇文章中
9、,我們繼續(xù)多分類器系統(tǒng)組合分組方法用于可訓(xùn)練的和不可訓(xùn)練中的觀點(diǎn)。非可訓(xùn)練組合器指的是那些集成中的分類器單獨(dú)訓(xùn)練成之后不再需要訓(xùn)練。可訓(xùn)練組合器指的是在分類器單獨(dú)訓(xùn)練中或訓(xùn)練之后可能還需要訓(xùn)練。在文獻(xiàn)中可訓(xùn)練的組合器也被稱為數(shù)據(jù)依賴的組合器,并分為隱式依賴和顯式依賴。隱式數(shù)據(jù)依賴組包含可訓(xùn)練組合器,在可訓(xùn)練組合器中組合樣例的參數(shù)不依賴目標(biāo)例子。換句話說(shuō),在系統(tǒng)用于新的樣例分類之前參數(shù)是訓(xùn)練好的。顯式數(shù)據(jù)依賴組合器使用的參數(shù)是目標(biāo)例子的函數(shù)。2.3.分類技術(shù)中的模糊邏輯雖然決策樹技術(shù)已經(jīng)被證明是可解釋的,高效的,能夠處理大數(shù)據(jù)集,但在訓(xùn)練集中遇到小擾動(dòng)時(shí)卻高度不穩(wěn)定。出于這個(gè)原因,模糊邏輯已被納
10、入決策樹建立技術(shù)。憑借其內(nèi)在的彈性,模糊邏輯提供了克服這種不穩(wěn)定性的解決方案。在21-23,26,29中,我們找到一些模糊集及其根本近似推理能力成功地與決策樹相結(jié)合的方法。這種集成保存了兩個(gè)組成局部的優(yōu)勢(shì):用可理解性語(yǔ)言變量和決策樹的普及及其簡(jiǎn)易來(lái)管理不確定。由此產(chǎn)生的樹顯示出對(duì)噪聲的魯棒性的增強(qiáng),對(duì)模糊和不確定情況進(jìn)行了擴(kuò)展應(yīng)用,并支持樹狀結(jié)構(gòu)的可理解性,這種樹狀結(jié)構(gòu)仍然是產(chǎn)生知識(shí)的主要代表。因此,我們以模糊決策樹為基分類器提出隨機(jī)森林。在決策樹為根底的各種集成技術(shù)之中,我們選擇隨機(jī)森林,是因?yàn)?,如boosting,會(huì)產(chǎn)生最好的結(jié)果3。此外,如8中的結(jié)論,隨機(jī)森林比基于boosting的集成
11、更耐噪音當(dāng)訓(xùn)練集中類屬性值的一小局部是隨機(jī)改變的。因此,與單個(gè)分類器相比擬,我們采用了多分類器系統(tǒng)的結(jié)果,基于隨機(jī)森林的集成使用模糊決策樹作為基分類器而不使用清晰決策樹,增強(qiáng)了抗噪能力。此外,模糊決策樹的使用增加了隨機(jī)森林的優(yōu)勢(shì),我們之前已經(jīng)闡述了這種技術(shù)的類型:用語(yǔ)言變量的可理解性管理不確定性,擴(kuò)展了不確定或模糊的應(yīng)用。3模糊隨機(jī)森林:基于模糊決策樹的集成繼Breimans的方法,我們提出了多分類器系統(tǒng),它是一種模糊決策樹形成的隨機(jī)森林。我們將它作為模糊隨機(jī)森林集成,并把它記作FRF集成。 在本節(jié)中,我們描述了建立多分類器系統(tǒng)學(xué)習(xí)階段的要求,及其分類階段。在Breiman8提出的隨機(jī)森林中,
12、每個(gè)樹建造成最大并且不修剪。在每棵樹的建造過(guò)程中,每一次結(jié)點(diǎn)需要分裂即在結(jié)點(diǎn)選擇一次測(cè)試,我們只考慮可用屬性全集的一個(gè)子集和實(shí)現(xiàn)每次分裂的一個(gè)新的隨機(jī)選擇。這個(gè)子集的大小是隨機(jī)森林中唯一的重要設(shè)計(jì)參數(shù)。因此,每次分裂時(shí),一些屬性包括最好的可能不會(huì)被考慮,但在同一個(gè)樹中,一次分裂中不包括的屬性在其他分裂中可能會(huì)被用到。隨機(jī)森林有兩個(gè)隨機(jī)元素8:1bagging用來(lái)對(duì)每個(gè)樹的輸入數(shù)據(jù)集的進(jìn)行選擇;及2屬性的集合被看成是每個(gè)結(jié)點(diǎn)分裂的候選。這些隨機(jī)化增加了樹的多樣性,當(dāng)他們的輸出組合到一起時(shí),整體的預(yù)測(cè)精度顯著提高。當(dāng)一個(gè)隨機(jī)森林建成,森林中每棵樹約1 /3的樣例的訓(xùn)練集中去除。這些樣例被稱為“走出
13、袋外OOB8;每個(gè)樹有一組不同的OOB樣例。OOB例子并不用來(lái)建造樹,而是為樹建立一個(gè)獨(dú)立的測(cè)試樣本8。3.1模糊隨機(jī)森林學(xué)習(xí)我們提出算法1來(lái)生成隨機(jī)森林,它的樹是模糊決策樹,因此定義一個(gè)根本的的算法來(lái)生成FRF集成。 FRF集成中的每一棵樹沿著指導(dǎo)生成的都是模糊樹,修改它以適應(yīng)FRF集成的函數(shù)方案。算法2展示了生成算法。算法2可以在建樹的時(shí)候不用考慮分裂結(jié)點(diǎn)的所有屬性。我們?cè)诿總€(gè)節(jié)點(diǎn)隨機(jī)選擇可用屬性全集的一個(gè)子集,然后選擇最好的一個(gè)進(jìn)行分裂。因此一些屬性包括最好的那個(gè)在每次分裂的時(shí)候可能不會(huì)被考慮,但是再一次分裂中沒有用到的屬性在這個(gè)樹進(jìn)行其他結(jié)點(diǎn)分裂的時(shí)候可能會(huì)用到。算法2是基于ID3的建
14、樹方法,數(shù)值屬性通過(guò)模糊劃別離散化。本研究就是用11中提到的對(duì)數(shù)值屬性進(jìn)行模糊劃分算法的方法。每個(gè)數(shù)值屬性的域用梯形模糊集來(lái)表示。所以樹的每一個(gè)內(nèi)部結(jié)點(diǎn)的劃分是建立在數(shù)值屬性根底上的,這將為每一個(gè)模糊集的劃分產(chǎn)生一個(gè)孩子結(jié)點(diǎn)。每個(gè)屬性的模糊劃分保證了完整性域中沒有點(diǎn)在模糊化分之外,而且是強(qiáng)化分(滿足,它們是劃分的模糊集,它的隸屬函數(shù)是)。此外,算法2使用一個(gè)叫做的函數(shù),指的是樣例滿足形成樹的結(jié)點(diǎn)的程度。這個(gè)函數(shù)的定義如下:樹中用到的每一個(gè)樣例指派了一個(gè)初始值1,說(shuō)明這個(gè)例子剛開始的時(shí)候只能在樹的根結(jié)點(diǎn)找到。 基于數(shù)值屬性的分裂,根據(jù)樣例屬于不同模糊集劃分的隸屬程度,這個(gè)樣例可能屬于一個(gè)或者兩個(gè)
15、孩子結(jié)點(diǎn),例如,這個(gè)樣例到達(dá)孩子結(jié)點(diǎn)的隸屬函數(shù)會(huì)大于零,。 當(dāng)樣例在結(jié)點(diǎn)分裂的屬性有缺失值的時(shí)候,樣例通過(guò)修改后的值到達(dá)每一個(gè)孩子結(jié)點(diǎn)。算法2中的停止原那么是(1)結(jié)點(diǎn)樣例是純的,例如結(jié)點(diǎn)包含的例子都是一類。(2)可用屬性集為空(3)結(jié)點(diǎn)允許的樣例的純度最大值已經(jīng)到達(dá)。當(dāng)用上述算法做FRF集成的時(shí)候,我們獲得了為每一個(gè)模糊樹獲得了OOB集。通過(guò)算法1和算法2,我們?cè)贐reiman的隨機(jī)森林的設(shè)計(jì)原理中融合了模糊樹的概念。3.2 模糊隨機(jī)森林分類在這局部中,我們闡述了用FRF集成如何實(shí)現(xiàn)分類。首先,我們介紹用到的概念。然后,我們定義兩個(gè)為目標(biāo)樣例獲得FRF集成的主要策略。這些策略的具體樣例將在下
16、一局部中定義,而且我們?yōu)镕RF集成提出了不同的組合方法。 表示法 我們介紹一下在FRF集成中策略和組合方法用到的需要定義的一些標(biāo)記。 是FRF集成中樹的個(gè)數(shù)。我們用表示一棵特定的樹。是樹中到達(dá)一個(gè)樣例的葉子結(jié)點(diǎn)的數(shù)目。模糊樹中的內(nèi)在刻畫是對(duì)一個(gè)樣例進(jìn)行分類時(shí),由于構(gòu)成數(shù)值屬性的劃分的模糊集有交集,這個(gè)樣例可能會(huì)被分到一個(gè)或者兩個(gè)葉子中去。我們用表示樹中特定的葉子。是類的個(gè)數(shù)。我們用表示某個(gè)特定的類。是我們用來(lái)做訓(xùn)練或者測(cè)試的一個(gè)樣例。是樣例從樹到葉子結(jié)點(diǎn)滿足的程度,我們?cè)?.1中已經(jīng)說(shuō)明。對(duì)類的支持,在每個(gè)葉子結(jié)點(diǎn)可以用來(lái)獲得,指的是葉子中屬于類的程度之和,指的是那個(gè)葉子中的樣例所有滿足程度的
17、和。 是大小的一個(gè)矩陣,其中,矩陣中的每一個(gè)元素是大小的一個(gè)向量,它包含為每一個(gè)樹起作用的葉子每個(gè)類提供的支持。矩陣中的一些元素不包含信息,因?yàn)椴皇撬猩种械臉溆袀€(gè)可到達(dá)的葉子,因此,矩陣包含F(xiàn)RF集成生成的所有信息,當(dāng)它用來(lái)對(duì)樣例進(jìn)行分類,它用某些組合方法得到?jīng)Q策或者進(jìn)行分類。指的是矩陣的一個(gè)元素,表示通過(guò)樹的葉子對(duì)類的支持程度。假設(shè)矩陣的樣例和,可能有:矩陣中的信息由FRF集成的每個(gè)模糊樹直接提供。在這個(gè)矩陣中,我們通過(guò)相同的某種變換得到了新的信息,接下來(lái)在一些組合方法中我們還會(huì)用到這種變換。我們用到的變換是:變換1,定義變換1為:變換提供信息。每個(gè)葉子對(duì)多數(shù)類投出一票。例如,如果對(duì)之前
18、的矩陣申請(qǐng)這個(gè)變換我們會(huì)得到下面的矩陣:變換2:定義變換2為:變換提供信息,每一個(gè)葉子對(duì)多數(shù)類的投票權(quán)重是。例如,如果我們對(duì)先前的矩陣使用這個(gè)變換,我們得到如下的矩陣: 變換3,變換3定義為:變換提供信息,每一個(gè)葉子為每一個(gè)類提供支持,用樣例到達(dá)葉子滿足的程度來(lái)衡量。例如,如果我們對(duì)之前的矩陣提供這個(gè)變換,令,我們得到下面的矩陣:是一個(gè)大小為的矩陣,它包含每棵樹對(duì)每個(gè)類別的肯定。當(dāng)提供了一些組合方法矩陣中的元素從葉子的每一個(gè)支持類中獲得。矩陣中的元素由表示。是大小的一個(gè)向量,表示FRF集成對(duì)每一類指定的肯定程度。當(dāng)應(yīng)用一些組合方法,矩陣的元素從葉子結(jié)點(diǎn)的類支持中獲得。這個(gè)向量的一個(gè)元素用表示。
19、 FRF集成中的模糊分類模塊的策略為了找出FRF集成給出的樣例的類別,我們定義模糊分類模塊。模糊分類模塊操作FRF集成的模糊樹,使用的是下面兩種可能策略其中的一種:策略1:組合從每棵樹中不同的葉子獲得的信息來(lái)得到每個(gè)單獨(dú)的樹的決策,然后使用相同或者其他的組合方法來(lái)生成FRF集成的整體決策。為了組合每棵樹中葉子的信息,我們使用函數(shù)和函數(shù),函數(shù)是用來(lái)組合由函數(shù)得到的輸出的。展示了策略。策略2:組合所有樹中可達(dá)葉子的信息來(lái)生成FRF集成的整體決策。我們使用函數(shù)組合所有葉子生成的信息。展示了這個(gè)策略。函數(shù)和定義為在多分類器系統(tǒng)中24,25頻繁的使用組合方法。在下一節(jié)中,我們將描述定義和函數(shù)的不同方法。
20、策略1是關(guān)于的,策略2是關(guān)于的。在算法3中我們實(shí)現(xiàn)了策略1。算法3中用來(lái)獲取矩陣。在這種情況下,整合樹中可達(dá)葉子的信息。之后在每棵樹中獲得值會(huì)通過(guò)函數(shù)的平均來(lái)整合,從而獲得向量。這個(gè)算法用到一個(gè)目標(biāo)樣例和FRF集成,然后生成類值作為FRF集成的決策。為了實(shí)現(xiàn)策略2,簡(jiǎn)化之前算法3,使它不會(huì)向樹里面參加信息,但是卻通過(guò)FRF集成的不同樹中的樣例直接用到所有可達(dá)葉子的信息,算法4實(shí)現(xiàn)了策略2,并用樣例進(jìn)行分類,用FRF集成作為目標(biāo)值,并給出了類值,這個(gè)類值是FRF集成的決策。整合FRF集成中不同樹的所有可達(dá)葉子信息來(lái)形成向量。4.模糊隨機(jī)森林集成中的組合方法 在前面的章節(jié)中,我們已給出分類的一般方
21、法,使用這種分類我們得到了模糊隨機(jī)森林集成的最終決策。在這一節(jié),我們將介紹為這兩種策略所設(shè)計(jì)的組合方法的具體例子。 在所有的設(shè)計(jì)方法中,如果是為策略1算法3設(shè)計(jì)的方法,我們將描述函數(shù)和,如果是為策略2算法2設(shè)計(jì)得方法,我們將只描述,同時(shí)意味著我們將使用矩陣或是它的一種變換。 根據(jù)2.2章節(jié)所給出的分類,我們?cè)谝韵聨捉M中分列了幾種方法。 不可訓(xùn)練方法:在這組中,我們基于簡(jiǎn)單多數(shù)投票給該方法下定義,這種方法在集成分類的單獨(dú)訓(xùn)練之中或之后不需要再訓(xùn)練。這組包含我們稱之為簡(jiǎn)單多數(shù)投票的方法,這種方法取決于分類策略,我們用SM1和SM2分別表示策略1和策略2。可訓(xùn)練方法:這組包含一些方法,它們?cè)诩煞诸?/p>
22、的單獨(dú)訓(xùn)練之中或之后需要再訓(xùn)練。在這組將給該方法下定義,通過(guò)額外訓(xùn)練,得到某些參數(shù)的值,這些參數(shù)在集成葉子或樹各組成局部的決策中起加權(quán)或權(quán)重的作用。在這組中我們使用了顯式數(shù)據(jù)依賴和隱式數(shù)據(jù)依賴。顯式數(shù)據(jù)依賴方法:在替補(bǔ)組中的這種方法需要學(xué)習(xí)一個(gè)參數(shù),這個(gè)參數(shù)依賴于用于分類的例子依賴于輸入數(shù)據(jù)并且對(duì)于替補(bǔ)組的所有方法而言是很常見的。這個(gè)參數(shù)表示在集成中用于分類的例子到達(dá)各葉子的滿足程度。在替補(bǔ)組中我們區(qū)別如下:通過(guò)葉子加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,分別是MWLI和MWL2。那么不需要去學(xué)習(xí)任何其它的參數(shù)。通過(guò)葉子和樹加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,分別是MWLT1和MWTL2。這兩種方
23、法都需要尋找一個(gè)額外的參數(shù)來(lái)指明集成決策中每個(gè)樹的權(quán)重。該權(quán)重由OOB數(shù)據(jù)集獲得。通過(guò)葉子和局部融合加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,分別是MWLFUS1和MWLFUS2這需要尋找一個(gè)額外的參數(shù)。再者,它也是每個(gè)樹權(quán)重的參數(shù),而且它用一些和分類樣例相似的樣例局部融合通過(guò)考慮每個(gè)樹的行為來(lái)得到。通過(guò)葉子和隸屬函數(shù)加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,分別是MWLF1和MWLF2。這需要尋找一個(gè)額外的參數(shù)來(lái)說(shuō)明集成策略中每個(gè)樹的權(quán)重,該參數(shù)通過(guò)一組函數(shù)來(lái)獲得,而這組函數(shù)用以說(shuō)明關(guān)于OOB數(shù)據(jù)集錯(cuò)誤率的每個(gè)樹的重要性。通過(guò)葉子和隸屬函數(shù)最少加權(quán)法應(yīng)用于策略1MIWLF1。這種方法與上面所提到的MWL
24、F1獲得方法相同,只是以最少投票代替了最多投票。隱式數(shù)據(jù)依賴方法:替補(bǔ)組的方法需要學(xué)習(xí)的所有參數(shù)不依賴于分類例子。通過(guò)隸屬函數(shù)加權(quán)多數(shù)投票法應(yīng)用于策略1和策略2,分別是MWF1和MWF2,它只需要尋找一個(gè)參數(shù)以說(shuō)明集成決策中每個(gè)樹的權(quán)重,該參數(shù)通過(guò)一組函數(shù)來(lái)獲得,而這組函數(shù)用以說(shuō)明關(guān)于OOB數(shù)據(jù)集錯(cuò)誤率的每個(gè)樹的重要性。通過(guò)隸屬函數(shù)加權(quán)最低投票法應(yīng)用于策略1和策略2,分別是MIWF1和MIWF2。這兩種方法與MWLF1和MWF2獲得方法相同,只是以最低投票代替了最多投票。以上所提到的方法下面有詳細(xì)描述。 4.1非可訓(xùn)練方法在這一組中,我們定義如下的方法:簡(jiǎn)單的多數(shù)投票法:在這個(gè)組合方法中,變換
25、適用于算法3和算法4中第2步的矩陣,以便每個(gè)可達(dá)葉子對(duì)多數(shù)類分配一個(gè)簡(jiǎn)單的投票。我們?cè)谑褂玫牟呗缘母咨系玫竭@種方法的兩個(gè)版本:策略1SM1方法算法3中函數(shù)被定義為:在這個(gè)方法中,通過(guò)樹中的樣例。每個(gè)樹分配一個(gè)簡(jiǎn)單的投票個(gè)可達(dá)葉子中簡(jiǎn)單的一票。 算法3中的函數(shù)定義為: 策略2SM2方法在策略2中有必要定義函數(shù)通過(guò)樣例組合集成中所有可達(dá)葉子的信息,因此算法4中函數(shù)被定義為:4.2可訓(xùn)練的顯式依賴方法 在這一節(jié)我們定義了如下的方法: 通過(guò)葉子加權(quán)多數(shù)投票法:在這些組合方法中,在算法3的第2步中,變換被用在矩陣中,從而使每個(gè)可達(dá)葉子給多數(shù)類分配一個(gè)加權(quán)的投票。投票用樣例到葉子的滿足程度加權(quán)。再次,我
26、們根據(jù)使用的策略有兩個(gè)版本: 策略1-MWL1方法 函數(shù)和定義如下: 策略2-MWL2方法函數(shù)被定義為: 通過(guò)葉子和樹加權(quán)多數(shù)投票法:在這種方法中,在算法3和算法4的第2步中,變換被用在矩陣中,使得根據(jù)對(duì)多數(shù)類滿足的程度,每一個(gè)可達(dá)葉子給出一個(gè)加權(quán)投票。 此外,在這種方法中用OOB數(shù)據(jù)集訓(xùn)練每個(gè)單獨(dú)的樹來(lái)獲得每個(gè)樹權(quán)重。是分配給每個(gè)樹的權(quán)重向量。每個(gè)由計(jì)算得到,其中是測(cè)試第個(gè)樹用到的OOB數(shù)據(jù)集時(shí)分類正確的樣例的數(shù)量,表示這些數(shù)據(jù)集中樣例的總數(shù)目。 策略1-MWLT1方法 函數(shù)定義如下: 在函數(shù)中用到向量:策略2-MWLT2方法策略2用到權(quán)重向量:通過(guò)葉子和局部融合加權(quán)多數(shù)投票:這個(gè)組合方法,
27、在算法3和算法4的第2步,變換被用在矩陣中,使每個(gè)可達(dá)葉子分配一個(gè)加權(quán)票,另外根據(jù)滿足的程度,用在多數(shù)類中。策略1-MWLFUS1方法函數(shù)定義如下:另外,對(duì)于每一個(gè)樹和要分類的樣例,中使用權(quán)重,可以通過(guò)下面講的方法獲得。為了獲得這種組合方法,首先,在FRF集成的學(xué)習(xí)的過(guò)程中,我們從每個(gè)生成的樹獲得了額外的一個(gè)樹,我們稱作過(guò)失樹。建立和第個(gè)樹相關(guān)的過(guò)失樹過(guò)程如下:我們用第個(gè)樹的訓(xùn)練集建立樹的一個(gè)測(cè)試。這樣的話,我們用訓(xùn)練數(shù)據(jù)集作為測(cè)試集。用這個(gè)測(cè)試的結(jié)果,我們用相同的數(shù)據(jù)建立一個(gè)新的數(shù)據(jù)集(),屬性錯(cuò)誤說(shuō)明樣例是否被第個(gè)樹正確分類例如,如果樣例被樹正確分類,約束屬性可以取0,如果沒被正確分類,就
28、是樹產(chǎn)生了錯(cuò)誤,取1。用這個(gè)新的數(shù)據(jù)集,建立新的樹來(lái)學(xué)習(xí)屬性錯(cuò)誤。 在,是第個(gè)樹的訓(xùn)練集,它包含用向量代表的樣例。其中是第個(gè)樹的訓(xùn)練集的第個(gè)樣例;第個(gè)樣例的屬性類的值。這個(gè)屬性是FRF集成的分類目標(biāo)。是第 個(gè)樹相關(guān)的錯(cuò)誤數(shù)的訓(xùn)練集。它包含一些向量,表示如下: 是第個(gè)樹中訓(xùn)練集的第個(gè)樣例。是在數(shù)據(jù)集中作為類的屬性。它用值約束屬性。如果用第個(gè)樹分類是錯(cuò)誤的,取值為1。如果用第個(gè)樹分類是正確的,取值為0。 一旦FRF集成和額外的過(guò)失樹建立起來(lái),對(duì)每個(gè)樣例我們就會(huì)得到向量用來(lái)進(jìn)行分類,F(xiàn)RF集成的每棵樹用權(quán)重指派給每個(gè)樹樣例局部權(quán)。每個(gè)可由獲得,其中指的是第個(gè)樹的過(guò)失樹。是錯(cuò)誤樹中樣例可達(dá)葉子結(jié)點(diǎn)的數(shù)
29、量,是用樣例到達(dá)過(guò)失樹的葉子的滿足程度,是在過(guò)失樹的葉子中0類樣例的劃分約束屬性錯(cuò)誤=0的值。對(duì)于局部信息整合的模糊隨機(jī)森林的結(jié)構(gòu)我們想得到并使用這種方法的關(guān)鍵是使用一個(gè)局部的權(quán)重或者是一個(gè)局部的融合方法5。設(shè)一個(gè)新的樣例,我們首先計(jì)算由那些和給定樣例相似的樣例所構(gòu)成的樹的性能,這些相似的樣例來(lái)自訓(xùn)練數(shù)據(jù)集合。這些相似的樣例屬于某些過(guò)失樹的葉子結(jié)點(diǎn),而這些過(guò)失樹能夠使得樣例到達(dá)最大廣度。然后,根據(jù)這些樣例的性能,我們就產(chǎn)生一個(gè)權(quán)值,這個(gè)權(quán)值和這棵樹的決策有關(guān)。最后,函數(shù)由對(duì)應(yīng)著每一個(gè)的樣例e和樹t所產(chǎn)生的權(quán)重的樹的決策值來(lái)定義的。即策略2 MWLFUS2方法這種方法使用的是被用于策略2的權(quán)重向
30、量 。主要的權(quán)衡方法是由葉子和隸屬函數(shù)決定的:在這種結(jié)合的方法中,TRANS2的變換被應(yīng)用于算法3和4的Step 2的矩陣L_FRF中,因此對(duì)于大多數(shù)的分類情況,根據(jù)滿意度,使得每一個(gè)最后一層的葉子節(jié)點(diǎn)被分配一個(gè)權(quán)重值。策略1 MWLF1方法函數(shù)定義如下:在這種方法中,函數(shù)衡量FRF整體的每一棵樹的決策值,使用的是隸屬函數(shù),即,其中: pmax 是FRF整體的樹的誤差的最大比值,在一棵樹t中,誤差比值被定義為,其中是樹t中分類錯(cuò)誤的個(gè)數(shù)把數(shù)據(jù)集看成測(cè)試集,是數(shù)據(jù)集的基數(shù)。正如上面指出的一樣,數(shù)據(jù)集的樣例并沒有用于構(gòu)建樹t ,實(shí)際上是作為與樹t 無(wú)關(guān)的一個(gè)測(cè)試集。所以當(dāng)分類數(shù)據(jù)集的樣例時(shí),我們可
31、以用分類的誤差的數(shù)目來(lái)衡量樹t 的好壞。 pmin是FRF整體的樹的誤差的最小比值。對(duì)于決策函數(shù),在FRF整體的決策中,所有的樹都有一個(gè)權(quán)重值,這個(gè)權(quán)重大于零。當(dāng)誤差率增加時(shí)權(quán)重值會(huì)減小,使得對(duì)應(yīng)于最小的誤差率的樹的權(quán)重值等于1。因此,函數(shù)被定義如下:策略2 MWLF2方法在這種方法中,函數(shù)定義為;極小值權(quán)重由葉子和隸屬函數(shù)來(lái)決定:在這種結(jié)合的方法中,TRANS3的變換被應(yīng)用于算法3的Step 2的矩陣L_FRF中。策略1 MIWLF1方法函數(shù)被定義為:包含著權(quán)重的函數(shù)被定義為下式這個(gè)權(quán)重是由前面的模糊隸屬函數(shù)定義的:4.3 可訓(xùn)練的完全依賴方法在這一局部,我們定義下面的方法。主要的權(quán)值依賴于
32、隸屬函數(shù):在這種結(jié)合方法中,TRANS1的變換被應(yīng)用于算法3和4的Step 2的矩陣L_FRF中,使得根據(jù)大多數(shù)的分類情況,最后一層的葉子節(jié)點(diǎn)被分配到一個(gè)簡(jiǎn)單的權(quán)值。策略1 MWF1方法函數(shù)被定義為:。包含著權(quán)重的函數(shù)被定義為下式這個(gè)權(quán)重是由前面的模糊隸屬函數(shù)定義的:。策略2 MWF2方法包含著由前面的模糊隸屬函數(shù)定義的權(quán)重的函數(shù)被定義為下式:。極小值權(quán)重由隸屬函數(shù)來(lái)決策。在這種結(jié)合的方法中,沒有任何變形被應(yīng)用于算法3的Step 2的矩陣L_FRF中。策略1 MIWF1方法函數(shù)被定義為:包含著由前面的模糊隸屬函數(shù)定義的權(quán)重的函數(shù)被定義為下式:。5. 實(shí)驗(yàn)和結(jié)果在這一局部,我們給出了幾種實(shí)驗(yàn)結(jié)果
33、,這些結(jié)果反映了提出的FRF集成方法的精度。實(shí)驗(yàn)局部安排如下:5.3局部的實(shí)驗(yàn)是用于評(píng)價(jià)FRF集成方法對(duì)于那些不完整的和有噪音的數(shù)據(jù)的性能和穩(wěn)定性。換句話說(shuō),我們想測(cè)試FRF集成這種方法的性能,主要是對(duì)那些包含著喪失值的數(shù)據(jù)集。這些值由模糊集合產(chǎn)生模糊值,類別上的噪音或者是異常的樣例。因此,我們進(jìn)行兩組實(shí)驗(yàn):FRF集成方法對(duì)于那些不完整的數(shù)據(jù)的性能 喪失值 模糊值FRF集成方法對(duì)于那些有噪音的數(shù)據(jù)的性能 類別上的噪音 異常的樣例5.4局部的實(shí)驗(yàn)是用于比擬FRF集成方法和其他的分類器和方法。首先,我們比擬FRF集成方法和其他的方法。和FRF集成方法相同,所有的這些方法都是使用相同的基分類器形成的
34、。我們?nèi)匀皇褂肂reiman隨機(jī)森林。其次,我們比擬FRF集成方法和文獻(xiàn)中提到的其他的分類器和方法。表 2FRF集成在不同百分比的喪失數(shù)據(jù)情形下的測(cè)試精度5.1.FRF集成的數(shù)據(jù)集和參數(shù)我們使用UCI數(shù)據(jù)庫(kù)2中的一些數(shù)據(jù)集來(lái)獲得這些結(jié)果,數(shù)據(jù)集的描述見表1. 表1描述了每個(gè)數(shù)據(jù)集中樣例的個(gè)數(shù),屬性的個(gè)數(shù),和類別的個(gè)數(shù). “Abbr表示實(shí)驗(yàn)中每個(gè)數(shù)據(jù)集的縮寫. 最終,除了中的實(shí)驗(yàn),我們?cè)贔RF集成中均使用大小為的樹,5.4.1中實(shí)驗(yàn)的描述見表7. 對(duì)于一個(gè)給定的結(jié)點(diǎn),隨機(jī)抽取的屬性的個(gè)數(shù)為,表示當(dāng)前結(jié)點(diǎn)可利用的屬性的個(gè)數(shù). FRF集成中的每棵樹被構(gòu)造成具有最大規(guī)模(結(jié)點(diǎn)是純的,或可利用屬性集為空
35、),并且沒有被修剪過(guò)。 5.2.利用無(wú)參數(shù)檢驗(yàn)測(cè)試實(shí)驗(yàn)結(jié)果我們使用統(tǒng)計(jì)知識(shí)針對(duì)每一子局部分析實(shí)驗(yàn)結(jié)果. 根據(jù)16中的方法,我們使用無(wú)參數(shù)測(cè)試. 我們使用Wilcoxon測(cè)試來(lái)比擬兩個(gè)方法. 這個(gè)測(cè)試是通過(guò)在兩個(gè)方法之間進(jìn)行成比照擬的一種無(wú)參數(shù)的統(tǒng)計(jì)過(guò)程,與無(wú)參數(shù)統(tǒng)計(jì)過(guò)程中的配對(duì)t檢驗(yàn)類似;因此,它用于檢測(cè)兩個(gè)樣本的期望之間的顯著性差異,即兩個(gè)方法的性能的匹配檢驗(yàn). 當(dāng)比擬多個(gè)方法時(shí),我們使用Friedman測(cè)試和Benjamin-Hochberger程序4作為事后檢驗(yàn)(后者優(yōu)于Bonferroni-Dunn測(cè)試,Holm測(cè)試和Hochberger過(guò)程)。Friedman測(cè)試是利用反復(fù)性方法做方
36、差分析等價(jià)的無(wú)參數(shù)檢驗(yàn).,等價(jià)于在零假設(shè)中定義這些方法,因此拒絕假設(shè)意味著當(dāng)前研究的方法在性能上存在著差異.,接著使用Benjamin-Hochberger程序判斷提出的方法與其它的方法相比,是否顯示出統(tǒng)計(jì)上的差異.5.3.FRF集成處理不完全數(shù)據(jù)和噪音的性能和穩(wěn)定性 .不完全數(shù)據(jù)的處理為了往一個(gè)包含個(gè)樣例,每個(gè)樣例包含個(gè)屬性(不含類別屬性)的數(shù)據(jù)集中引進(jìn)的不完全數(shù)據(jù),我們從數(shù)據(jù)集中按照均勻分布隨機(jī)選擇個(gè)數(shù)據(jù). 針對(duì)于每個(gè)值,它與某個(gè)樣例的某個(gè)屬性相對(duì)應(yīng),我們修改這個(gè)值. 我們?cè)谟?xùn)練集和測(cè)試集中都引入不完全數(shù)據(jù). 我們將檢驗(yàn)分成三個(gè)實(shí)驗(yàn):第一個(gè)實(shí)驗(yàn),我們?cè)诎鄙賹傩灾禂?shù)據(jù)的數(shù)據(jù)集上運(yùn)行FRF
37、集成,喪失的數(shù)據(jù)可以是數(shù)值型或者符號(hào)型屬性的數(shù)據(jù). 第二個(gè)實(shí)驗(yàn),我們?cè)诎:臄?shù)值屬性值的數(shù)據(jù)集上運(yùn)行FRF集成. 這些模糊值與數(shù)據(jù)集關(guān)于每個(gè)數(shù)值屬性進(jìn)行模糊分割所得到的模糊集對(duì)應(yīng). 第三個(gè)實(shí)驗(yàn),我們往數(shù)據(jù)集中插入許多缺少屬性值和模糊值的數(shù)據(jù). 當(dāng)使用一個(gè)模糊值代替數(shù)據(jù)集中的一個(gè)樣例的某個(gè)數(shù)值屬性值,按如下步驟進(jìn)行:數(shù)值屬性在進(jìn)行模糊分割時(shí)被分成幾段,屬性值將會(huì)以一定的隸屬度隸屬于一個(gè)或兩個(gè)分割后模糊集中, 我們將模糊集中該樣例的屬性值用可以獲得的最大隸屬度代替. 在這三個(gè)實(shí)驗(yàn)中,不完全數(shù)據(jù)占整個(gè)數(shù)據(jù)集的百分比分別為5%,15%,和30%1. 在第三個(gè)實(shí)驗(yàn)中,不完全數(shù)據(jù)所占的百分比被均等地分
38、成缺少屬性值和模糊值數(shù)據(jù)兩局部. 在這些實(shí)驗(yàn)中,要進(jìn)行五次按不同比例分配的十次交叉驗(yàn)證510的交叉驗(yàn)證,然后用不完整數(shù)據(jù)集,我們給出了對(duì)于F集成方法的平均分類精度的百分比。然而對(duì)于不完整的數(shù)據(jù)集,F(xiàn)集成方法的平均分類精度的百分比是下降的,結(jié)合著集成的組合的一些方法,這些方法主要包含著一些數(shù)值這個(gè)符號(hào)說(shuō)明至少有四種方法可以得到那個(gè)平均值。分類平均精度百分比的下降量見表,是用下面的公式計(jì)算的,其中是那些對(duì)于含有不完整數(shù)據(jù)的數(shù)據(jù)集的平均分類精度,而是最原始的數(shù)據(jù)中的平均分類精度。在表24中可以看到,F(xiàn)R集成表現(xiàn)出很穩(wěn)定的性質(zhì),即使數(shù)據(jù)集中有很多的不完整數(shù)據(jù)。噪音的影響在這一局部,我們分析由于噪音的存
39、在對(duì)于FR集成的影響。我們將測(cè)試分成兩局部的實(shí)驗(yàn),首先,在還有異常點(diǎn)樣例的數(shù)據(jù)集上我們運(yùn)行FRF集成。然后,在接下來(lái)的實(shí)驗(yàn)中,我們有噪音的數(shù)據(jù)集上運(yùn)行FRF集成,這個(gè)噪音主要是類別的屬性值。.1 數(shù)據(jù)集上的異常點(diǎn)樣例的說(shuō)明一種驗(yàn)證數(shù)據(jù)樣例是否是異常點(diǎn)的方法是四分位法。這種方法使用下四分位或者是25個(gè)百分比,對(duì)于上四分位法或者是75個(gè)百分比,對(duì)于數(shù)據(jù)集上的每一個(gè)屬性四分位法對(duì)應(yīng)著屬性的平均值,而min 和max 分別對(duì)應(yīng)著每個(gè)屬性的最小和最大值。我們可以使用這種方法來(lái)生成異常點(diǎn)值然后將其嵌入到不同的數(shù)據(jù)集。 我們選取大于為異常點(diǎn)值,其中k 是給定的一個(gè)正數(shù),IQ 是四分位間距。因此,含有著異常點(diǎn)
40、的數(shù)據(jù)集就按照下面的步驟產(chǎn)生。為每個(gè)數(shù)據(jù)集選擇一個(gè)數(shù)值屬性.對(duì)于每個(gè)數(shù)據(jù)集及選擇的屬性,計(jì)算,E是數(shù)據(jù)集中的樣例構(gòu)成的集合,k在集合中取值,屬性的(四分位間距),下四分位(25th 百分位),上四分位數(shù)(75th 百分位)(見圖3). 對(duì)于每個(gè)數(shù)據(jù)集,我們選擇1%的樣例. 我們定義. 對(duì)于每個(gè)選擇的樣例,我們從區(qū)間中隨機(jī)選取一個(gè)值替換數(shù)值屬性的值. 我們可以發(fā)現(xiàn)(見圖4),對(duì)于每次替換我們可以獲得三個(gè)可能的值,這三個(gè)值依賴于. 因此,對(duì)于每個(gè)數(shù)據(jù)集,我們將獲得三個(gè)與對(duì)應(yīng)的包含異常點(diǎn)的數(shù)據(jù)集. 這是在訓(xùn)練集上的工作. 我們運(yùn)行三個(gè)實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)對(duì)應(yīng)于選定的和前面局部獲得的每個(gè)數(shù)據(jù)集.實(shí)驗(yàn)使用45
41、交叉驗(yàn)證. 表5顯示了關(guān)于不包含異常點(diǎn)的數(shù)據(jù)集的平均分類精度百分比(期望和標(biāo)準(zhǔn)差),和原數(shù)據(jù)與包含異常點(diǎn)的數(shù)據(jù)之間的平均分類錯(cuò)誤增長(zhǎng)的百分比. 另外,表中說(shuō)明了獲得這些值的組合方法(符號(hào)“*表示值是由多余四個(gè)的組合方法獲得的). 如表5所示,平均分類錯(cuò)誤的增長(zhǎng)百分比方下計(jì)算increase error=,表示包含異常點(diǎn)的數(shù)據(jù)集的平均分類錯(cuò)誤,CE(original)表示原始數(shù)據(jù)集的平均分類錯(cuò)誤. 并且,標(biāo)示出了組合方法獲得的這些值符號(hào)“*表示的是這里有多于4種的組合方法來(lái)獲得這些值。表5中的平均分類錯(cuò)誤增長(zhǎng)的百分比通過(guò)計(jì)算,其中是數(shù)據(jù)集中有異常點(diǎn)時(shí)的平均分類錯(cuò)誤,是原始數(shù)據(jù)集的平均分類錯(cuò)誤。當(dāng)
42、我們實(shí)施非參數(shù)統(tǒng)計(jì)測(cè)試來(lái)比照這4種樣本集時(shí),我們沒有發(fā)現(xiàn)她們?cè)?5%的置信水平下沒有明顯的區(qū)別。從這些結(jié)果,我們可以得出下面的結(jié)論:引入的與樣本差異很大的異常點(diǎn)使FRF集成的效果與沒有異常點(diǎn)的情況類似。在類別屬性中引入噪聲數(shù)據(jù) 我們?cè)谕瑯拥膶?shí)驗(yàn)中比照了FRF集成的效果和18中報(bào)道的最好的技術(shù)。最好的技術(shù)定義為在10字交叉驗(yàn)證中原始數(shù)據(jù)集和帶噪聲的數(shù)據(jù)集分類平均錯(cuò)誤增長(zhǎng)最低的技術(shù)。 帶噪聲的數(shù)據(jù)集通過(guò)以下方式獲得:選擇10%的數(shù)據(jù),我們將這些數(shù)據(jù)的類別屬性的值用一個(gè)隨機(jī)的其他可能值代替。這只是在訓(xùn)練集上進(jìn)行。并且,噪聲被引入到訓(xùn)練集使用的是NIP 1.5 tool12.增長(zhǎng)的平均錯(cuò)誤分類率通過(guò)計(jì)
43、算如表6,其中是有噪聲的數(shù)據(jù)集的分類錯(cuò)誤,是原始數(shù)據(jù)的分類錯(cuò)誤。實(shí)驗(yàn)結(jié)果如表6。使用Wilcoxon測(cè)試來(lái)比照18中的結(jié)果和FRF集成的結(jié)果。我們發(fā)現(xiàn)最明顯的差異到達(dá)了97.3%。根據(jù)這些結(jié)果我們得出,當(dāng)類別屬性中有噪聲時(shí),F(xiàn)RF集成方法比18中的方法錯(cuò)誤增長(zhǎng)的要少。5.4比照FRF集成方法與其他分類集成方法比照FRF集成和其他集成方法使用同樣的基分類器 這局部我們總結(jié)了一系列的實(shí)驗(yàn)來(lái)觀察FRF集成的效果,當(dāng)它與基分類器及其一些有這些基分類器建立的集分類器:1基分類器2基于Boosting的集分類器3基于bagging的集分類器(4)FRF集成分類器。我們還比照了FRF集成方法和以模糊決策樹為
44、基分類器的方法。每個(gè)實(shí)驗(yàn)都使用的是同樣的參數(shù)。在這個(gè)實(shí)驗(yàn)中,我們使用4*5的交叉驗(yàn)證。表7展示了獲得的實(shí)驗(yàn)結(jié)果,指示了平均分類精度均值和標(biāo)準(zhǔn)差。在這個(gè)實(shí)驗(yàn)中獲得的實(shí)驗(yàn)結(jié)果清楚的說(shuō)明FRF集成式是連續(xù)生成最好結(jié)果的集成。在大多情況下bagging比boosting好。當(dāng)我們實(shí)施統(tǒng)計(jì)測(cè)試在這些結(jié)果上,我們首先應(yīng)用Friedman測(cè)試,獲得了一個(gè)置信水平為99.9%的空假設(shè)的拒絕域。也就是,它接受存在明顯差異的樣例。當(dāng)我們實(shí)施post-hoc測(cè)試,我們得到FRF集成與RF,模糊決策樹FT,boosting,bagging在置信水平為95.98%的情況下有明顯的不同,F(xiàn)RF集成式最好的方法。對(duì)于其他方
45、法,當(dāng)置信水平為99.9%時(shí),RF,FT和boosting有明顯的不同,其中RF最好;當(dāng)置信水平為99.7%我們得到bagging,FT,boosting明顯不同。 和文獻(xiàn)中的其他方法比照在這節(jié)中,我們比照了FRF集成操作和文獻(xiàn)中找到的其他分類器和集成方法。在每種情況下,我們都會(huì)說(shuō)明比擬式怎么進(jìn)行的。.1和其他分類器的比照學(xué)習(xí) 我們已經(jīng)比照了FRF集成方法和其它分類器,借鑒20中報(bào)道的結(jié)果,在20中,它比照了基于GRA的分類器灰度相關(guān)分析,基于CIGRA的分類器和其他很知名的分類方法包括MLP多層感知器,C4.5決策樹,徑向基函數(shù)RBF,樸素貝葉斯,Cart決策樹,基于模糊和遺傳算法結(jié)合的機(jī)器
46、學(xué)習(xí)算法以及模糊決策樹。為了評(píng)估FRF集成方法的泛化能力,我們使用10*10折交叉驗(yàn)證。我們展示了所有方法的平均分類精度以及FRF集成方法和FRF集成組合方法的標(biāo)準(zhǔn)差。結(jié)果如表8.當(dāng)我們?cè)谶@些結(jié)果上實(shí)施統(tǒng)計(jì)分析時(shí),我們首先應(yīng)用Friedman測(cè)試來(lái)獲得置信水平為99.6%的空假設(shè)空間的拒絕域。也就是我們接受明顯的差異的樣本。當(dāng)我們應(yīng)用posthoc分析時(shí),我們得到FRF集成和其他方法如在置信水平為98.2%GRA,CIGRA,MLP,C4.5,RBF,Bayes,Cart以及模糊決策樹時(shí)有明顯的差異,與GBLM在置信水平為96.9%時(shí)有明顯差異。此時(shí)FRF集成是最好的方法。因此我們得出FRF集
47、成式一個(gè)有效的分類器而且具有很好的性能。.2和其他集成方法的比照學(xué)習(xí) 在18中,我們找到了一個(gè)最好的基于數(shù)的集成方法的比照學(xué)習(xí)。我們將比照FRF集成的結(jié)果和18中報(bào)道的工作。10折交叉驗(yàn)證被使用。然后我們簡(jiǎn)單的描述在那篇文章中使用的基于樹的集成方法。使用的集成方法如下:1.剪枝的單一樹CART2.有100棵樹的BaggingCART3.RF:有100棵樹的隨機(jī)森林屬性的個(gè)數(shù)在給出的個(gè)節(jié)點(diǎn)中隨機(jī)選擇,其中M是屬性的集合4.BO:具有100棵和250棵樹的boostingCART。分割標(biāo)準(zhǔn):熵,線性組合,NLC:沒有線性組合實(shí)驗(yàn)結(jié)果如表9.在FRF集成方法和18中提出的最好的集成方法的比照中,當(dāng)置
48、信水平為95.2%時(shí),這兩種方法有明顯的不同,F(xiàn)RF方法最好。6.總結(jié)在這篇文章中,我們提出了一個(gè)基于模糊決策樹集成的方法叫做FRF集成。我們實(shí)現(xiàn)了隨機(jī)森林和模糊決策樹結(jié)合的方法來(lái)訓(xùn)練。提出的這種方法對(duì)于處理有瑕疵的數(shù)據(jù)很有優(yōu)勢(shì),對(duì)噪聲具有魯棒性并且和其他相對(duì)的小型集成相比具有很好的分類率。 我們已經(jīng)定義了各種方法來(lái)在組合FRF集成方法的基分類器的輸出。這些方法是基于組合的方法,在文獻(xiàn)中被頻繁使用以獲得集成的最后決策。因此我們定義了不可訓(xùn)練方法:在這組中,方法都是基于簡(jiǎn)單的投票??捎?xùn)練的顯示依賴的方法:在這組中的方法使用的是權(quán)重,這個(gè)權(quán)重是通過(guò)定義分類不同的葉子結(jié)點(diǎn)所到達(dá)的樣本的滿意度以及FR
49、F集成樹的權(quán)重來(lái)實(shí)現(xiàn)的??捎?xùn)練的隱式依賴的方法:在這組中的方法使用從FRF集成樹種學(xué)習(xí)到的權(quán)重。我們已經(jīng)展示了通過(guò)應(yīng)用FRF集成方法到各種各樣的數(shù)據(jù)集中的各種結(jié)果??傮w來(lái)說(shuō),加權(quán)的結(jié)合方法和典型的基于隨機(jī)森林的集成方法相比到達(dá)較好性能。在這些使用加權(quán)成員關(guān)系函數(shù)的加權(quán)的方法取得了很好的性能,在實(shí)施的所有試驗(yàn)中65%的實(shí)驗(yàn),它的效果最好。盡管這些結(jié)合的方法大多數(shù)有相同的計(jì)算消耗,在這里我們強(qiáng)調(diào)基于局部混合的方法增長(zhǎng)的消耗。無(wú)論如何,這些最近的方法在類別屬性中有噪音的數(shù)據(jù)集中獲得了很好的性能。特別的,F(xiàn)RF集成的方法在有瑕疵的數(shù)據(jù)集上有喪失和模糊值獲得的結(jié)果很好。在這些數(shù)據(jù)集上加權(quán)的方法比不加權(quán)的
50、方法性能好。在有異常點(diǎn)的數(shù)據(jù)集上,F(xiàn)RF集成方法表現(xiàn)出了很好的性能并且我們可以得出以下結(jié)論:引入的與樣本差異很大的異常點(diǎn)使FRF集成方法的性能與沒有噪聲的一樣。當(dāng)我們將分類屬性中引入噪聲,F(xiàn)RF集成方法比其他方法表現(xiàn)出了明顯的優(yōu)勢(shì)并且MWLFUS2結(jié)合方法在大多數(shù)情況下取得了最好的性能。因此FRF集成方法對(duì)噪聲具有魯棒性。當(dāng)我們將FRF集成方法與基分類器進(jìn)行比擬時(shí),RF和集成器使用的是同樣的基分類器,F(xiàn)RF集成方法獲得了最好的結(jié)果。在將FRF集成的結(jié)果與通過(guò)一系列的分類器和多分類器的進(jìn)行比擬,我們得到FRF集成方法是一個(gè)有效的分類器并且在大多數(shù)情況下,獲得了最好的結(jié)果。所有的結(jié)論已經(jīng)通過(guò)在每個(gè)
51、比照實(shí)驗(yàn)中用統(tǒng)計(jì)方法來(lái)分析不同的方法或算法得到了驗(yàn)證。References1 H. Ahn, H. Moon, J. Fazzari, N. Lim, J. Chen, R. Kodell, Classification by ensembles from random partitions of high dimensional data, ComputationalStatistics and Data Analysis 51 (2007) 61666179.2 A. Asuncion, D.J. Newman, UCI Machine Learning Repository, University of California, School of Information and Computer Science, Irvine, CA, .3 R.E. Banfield, L.O. Hall,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年員工年度工作計(jì)劃范例(二篇)
- 2024年大學(xué)學(xué)生會(huì)外聯(lián)部工作計(jì)劃(二篇)
- 2024年工會(huì)工作總結(jié)簡(jiǎn)單版(二篇)
- 2024年小學(xué)班主任學(xué)期工作計(jì)劃范本(二篇)
- 2024年小學(xué)六年級(jí)班務(wù)計(jì)劃例文(三篇)
- 2024年工程勞動(dòng)合同參考模板(二篇)
- 2024年員工聘用合同經(jīng)典版(四篇)
- 2024年學(xué)校晨檢報(bào)告制度范文(二篇)
- 2024年土建承包合同標(biāo)準(zhǔn)模板(二篇)
- 2024年幼兒園衛(wèi)生保健管理制度范例(六篇)
- 2024中國(guó)鐵塔校園招聘高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 國(guó)有企業(yè)2024年前三季度思想政治工作情況的報(bào)告范文
- 2024-2030年中國(guó)中低溫煤焦油行業(yè)現(xiàn)狀調(diào)研與發(fā)展前景預(yù)測(cè)分析研究報(bào)告
- 大學(xué)英語(yǔ)六級(jí)語(yǔ)法 田靜-大學(xué)英語(yǔ)四六級(jí)語(yǔ)法
- 北京市東城區(qū)2024屆高三上學(xué)期期末統(tǒng)一檢測(cè)數(shù)學(xué)試題 含解析
- 旅游管理專業(yè)建設(shè)實(shí)施方案
- 2024年中國(guó)打印機(jī)市場(chǎng)探析:數(shù)字化浪潮智能引領(lǐng)打印機(jī)市場(chǎng)-18正式版
- 健康醫(yī)療數(shù)據(jù)平臺(tái)患者信息共享與利用方案
- 2.1.2 種子植物 課件-2024-2025學(xué)年人教版生物七年級(jí)上冊(cè)
- 國(guó)際美容整形外科學(xué)會(huì):2023年度全球美容整形手術(shù)年度調(diào)查報(bào)告(英文版)
- 甘肅省定西市2023-2024學(xué)年八年級(jí)上學(xué)期期中語(yǔ)文試題
評(píng)論
0/150
提交評(píng)論