融合無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)策略生成的多分類決策樹解讀_第1頁(yè)
融合無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)策略生成的多分類決策樹解讀_第2頁(yè)
融合無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)策略生成的多分類決策樹解讀_第3頁(yè)
融合無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)策略生成的多分類決策樹解讀_第4頁(yè)
融合無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)策略生成的多分類決策樹解讀_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2小型微型計(jì)算機(jī)系統(tǒng)2004 年融合無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)策略生成的多分類決策樹邱德紅,陳傳波(華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院湖北武漢430074)摘要:提出了一種融合無(wú)監(jiān)督和監(jiān)督兩種學(xué)習(xí)策略生成決策樹的方法.它首先利用尢監(jiān)仰聚類方法能夠發(fā)現(xiàn)待分類樣本之間的內(nèi)在聯(lián)系和規(guī)律的特點(diǎn),確定出最為符合多類樣本分布特征的決策樹的樹型,繼而利用監(jiān)督學(xué)習(xí)支持向量機(jī)的方法對(duì)樣本進(jìn)行準(zhǔn)確的分類.通過采用核函數(shù)和不對(duì)稱的Lagrangian系數(shù)限制條件,支持向量機(jī)很好的解決J'樣本特征空間上的線性不可分性和決策樹型確定過程中出現(xiàn)的訓(xùn)練樣本不對(duì)稱性的影響.該方法具有較高的計(jì)算效率和準(zhǔn)確性,在實(shí)驗(yàn)中取得比較好的結(jié)

2、果.關(guān)鍵詞:多分類決策樹:無(wú)監(jiān)督聚類:支持向量機(jī)中圖分類號(hào):TP391.41文獻(xiàn)辨識(shí)碼:A文章編號(hào):1000-1200(2001)01-0555-05ConstructionofMulti-classificationDecisionTreeCombiningUnsupervisedandSupervisedLearningStrategyQIUDe-hong,CHENChuan-bofScfiaoCofCoTMiacrandfTtcfinoyofScienceanscfinoy.430074,ckincL)Abstract:Inthispaper,anewmethodwhichcombine

3、sunsupervisedandsupervisedlearningstrategyisputforwardtoconstructthemulti-classificationdecisiontree,Itfirstlyusestheunsupervisedclusteringtodeterminethestructureofthemulti-classificationdecisiontree,whoseeachnodehasabinarybranch.Thexmsupervisedclusteringisabletofindouttherelationshipbetweenthemulit

4、-classes,thereforethedecisiontree,3structuredeterminedbyitisthebestonethatfitstothedistributionofmulit-classesinfeaturespace.Then,asupervisedlearningmethod,i.e.supportvectorrLachine,isusedtoclassifythetwogroupsofsaziplesofeachnodeofthedecisiontree.Mostcasesthemulti-classescannotbeclassifiedbyalinear

5、hypeiplane,kernelfunctionsarethereforeintroducedintotosolveit.Simultaneously,uns>Tiimetricalconstrainso£Lagrangiancoefficientsaresettoovercomethenegativeinfluencesofunbalancedtrainsamples.Theseeffortsguaranteetheefficiencyandaccuracyofthemulti-classificationdecisiontree.Satisfyingresultswere

6、obtainedinexperiment.Keyrordi:multi-classificationdecisiontree;unsupervisedclustersupportvectorrnachine1引言多分類問題是一個(gè)比較常見的問題,機(jī)器學(xué)習(xí)理論和方法的研究在解決二分類問題上取得r比較滿意的結(jié)果:二多分類問題雖然也行研究比,但在理論構(gòu)架和現(xiàn)實(shí)方法上還有相當(dāng)大的困琲.目前解決多分類問題主要運(yùn)用多分類決策數(shù),決策樹上的每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)二分類器,實(shí)際上是利用二分類方法解決多分類問題.生成類分類決策樹的方法有(1)'一對(duì)其余決策樹上s個(gè)節(jié)點(diǎn)對(duì)應(yīng)的二分類器只判斷是某一類還是其余類:(

7、2)'一對(duì)一',決策樹上MRD/2個(gè)節(jié)點(diǎn)對(duì)應(yīng)的二分類器只能對(duì)類中的兩類作出是否判斷:(3)'一半對(duì)一半、即決策樹的節(jié)點(diǎn)對(duì)應(yīng)的二分類器將節(jié)點(diǎn)上的類二等分(允許一類別在兩個(gè)節(jié)點(diǎn)上由現(xiàn),直至葉節(jié)點(diǎn).決策樹上節(jié)點(diǎn)的數(shù)目為.其中為大于或等于log:。)最小整數(shù).這三類方法生成的決策樹雖然具有不同的計(jì)算效率和分類效果,但各自在應(yīng)用中取得r比較好的結(jié)果無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)方法研究的二大策略.無(wú)監(jiān)督學(xué)習(xí)方法如無(wú)監(jiān)督聚類(笈是從樣本的特征向身出發(fā),研究通過某種算法特征比較相似的樣本聚集在一起,從而達(dá)到區(qū)分具有不同特征的樣本的目的.無(wú)監(jiān)督聚類的優(yōu)點(diǎn)是可以發(fā)現(xiàn)樣本中附含的共性和規(guī)律

8、,但是由于沒有專家知識(shí)的監(jiān)督,分類的準(zhǔn)確性有限.監(jiān)督學(xué)習(xí)方法是通過對(duì)已知類別的訓(xùn)練樣本的學(xué)習(xí),實(shí)現(xiàn)而未知樣本的分類判斷.支持向量:機(jī)二是一種主要用于二分類的準(zhǔn)確率比較高的監(jiān)督學(xué)習(xí)方法,其基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則.它在許多領(lǐng)域得到了很好的應(yīng)用必汕.收稿日期,2820805作者荷介,邱謳紅.博士.主要研究方向?yàn)闄C(jī)器學(xué)習(xí)和生物測(cè)定學(xué):陳傳波.教授博士生導(dǎo)師.主要研究方向?yàn)閳D像處 理和計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用.E-本文提出一種將無(wú)監(jiān)督聚類和監(jiān)督學(xué)習(xí)的支持向量機(jī)方法結(jié)合起來(lái)生成多分類決策樹的方法.它的基本思想如下:待方法的多類樣本可以看成是某一宏觀層面之上的剌激機(jī)制激勵(lì)下,或者是在某個(gè)進(jìn)程中產(chǎn)生的

9、.該宏觀層面之下剌激機(jī)制的差異,或者是進(jìn)程中的不同階段杼致不同類的出現(xiàn),差異小的刺激機(jī)制,或者相鄰進(jìn)程階段產(chǎn)生的類別之間的特征較為接近,反之則分散.因而.多類之間雖然具有向異性.但他們?cè)谔卣骺臻g的分布上有內(nèi)在規(guī)律.如果決策樹的樹形結(jié)構(gòu)能夠體現(xiàn)多類之間的內(nèi)在規(guī)律,就可能在計(jì)算效率和準(zhǔn)確性上獲得較好的均衡,從而提高決策樹的性能.本文介紹的方法的目的是通過無(wú)監(jiān)督聚類確定反映多類之間分布規(guī)律的決策樹的樹型,繼而利用監(jiān)督學(xué)習(xí)支持向母機(jī)方法的準(zhǔn)確率高的特點(diǎn)對(duì)分布接近的類別進(jìn)行詳細(xì)分區(qū).使多分類決策樹具療較高的計(jì)算效率和準(zhǔn)確率.2多分類決策樹的樹型確定一個(gè)AQ23)類的多分類問題可以描述為:給定組訓(xùn)練樣本:

10、(心,(布仙),出。0,(3)0,(心力),(心;“),L=L+1:+L為N類訓(xùn)練樣本的總數(shù)目,必£R,i=l,-,L是d維空間上的特征向量,y31,2,X),n=l,N是N類標(biāo)號(hào).多分類問題即函數(shù)F:Y一1,2,不確定待分類向量x的類別標(biāo)號(hào)y.多分類問題可以通過由二分類器為節(jié)點(diǎn)構(gòu)成的決策樹來(lái)解決.由于待分類的N類樣本通常是其形成的刺激機(jī)制在某個(gè)宏觀層面之下的差異.或者是同一進(jìn)程的不同階段形成的,刺激機(jī)制差異的大小和進(jìn)程階段相隔時(shí)間的久遠(yuǎn)導(dǎo)致N類樣本在特征空間上分布有一定的規(guī)律.如圖1所示的*6的多分類問題,左下三類(。、)和右上三類(+、X、*之間的刺激機(jī)制相差較遠(yuǎn),而左下三類口、

11、)之間、右上三類(+、X、約之間的刺激機(jī)制相差較小.如果多分類決策樹型能夠反映出類樣本之間的分布規(guī)律,繼而實(shí)施輕重有別的詳細(xì)區(qū)分.必將能獲得比較優(yōu)秀的性能,為此設(shè)計(jì)以下利用無(wú)監(jiān)督聚類確定決策樹型的方法.Fig.1Distributionofmulti-classessamplesonthefeatxirespace第1步:計(jì)算N類訓(xùn)練樣本共L個(gè)特征向量中的任何兩個(gè)特征向量,比如工彳,力之間的Minkowski距離“XI/一/<5=1>皿'口以p=2/-I第2步:將N類訓(xùn)練樣本共L個(gè)特征向量編號(hào)為1,L號(hào)葉節(jié)點(diǎn),從1號(hào)葉節(jié)點(diǎn)開始在C2個(gè)距離之中找到最小距離,將對(duì)應(yīng)的兩個(gè)葉節(jié)點(diǎn)

12、(比如為對(duì)力,)做個(gè)連接,形成一個(gè)二叉樹枝.將此連接看成為一個(gè)新葉節(jié)點(diǎn),編號(hào)為L(zhǎng)+L該新葉節(jié)點(diǎn)到其余某個(gè)葉節(jié)點(diǎn)MkXr,s(即MX,之外的節(jié)點(diǎn))之間的距離定義為已經(jīng)連接的兩個(gè)葉節(jié)點(diǎn)(益,力)與該節(jié)點(diǎn)之間的最小距離,即cL-i,k=ziin(i.k,d«,i).第3步:按照第2步同樣的規(guī)則,在新生成的葉節(jié)點(diǎn)和其余葉節(jié)點(diǎn)之中繼續(xù)生成一個(gè)新的二叉連接,重災(zāi)直到生成最后一個(gè)二叉連接而成為一棵聚類樹.如圖2所示的一棵聚類樹,它對(duì)應(yīng)于圖1中的60個(gè)樣本.圖2無(wú)賽將聚類生成的聚類樹Fig-2Decisiontreeproducedbyunsupervisedclustering第4步:將第3步中最

13、后生成的一個(gè)二叉連接的左右兩個(gè)分枝連接的最底層的葉節(jié)點(diǎn)(即1,L葉節(jié)點(diǎn)J對(duì)應(yīng)的特征向量劃分到的左右兩個(gè)集介"8中.依次檢查待分類的1,N類樣本的特征向量,如果第n類的L個(gè)特征向量被聚類到左右兩個(gè)集合S/、&.中,數(shù)目分別為1*和1+1*二3則依下情況處理: 如果1大于或等于1右且集含稅中特征向量的個(gè)數(shù)大于則將集合義中對(duì)應(yīng)的k個(gè)特征向班移至集合Sx 如果b大于或等于g但柒含SL中特征向比的個(gè)數(shù)等于則將集合亂中對(duì)應(yīng)的J個(gè)特征向班移至集合義 如果k大于1,且集合/中特征向量:的個(gè)數(shù)大于則將集合亂中對(duì)應(yīng)的L*個(gè)特征向量移至集合義 如果k大于1,但集合/中特征向母的個(gè)數(shù)等于則將集合&a

14、mp;中對(duì)應(yīng)的k個(gè)特征向量移至集合治至此可以確定決策樹上的一個(gè)二叉節(jié)點(diǎn),它的訓(xùn)練樣本是非空的左右兩個(gè)集含、S,將集合,中的特征向量的標(biāo)簽設(shè)定為7,集合Si中的特征向身的標(biāo)簽設(shè)定為乜.它們將用于訓(xùn)練支持向量機(jī)來(lái)生成該節(jié)點(diǎn)對(duì)應(yīng)的二分類器.第5步:分別將左右兩個(gè)集含夕、夕中包含的特征向垃看成一個(gè)新的分類問題,重宴第1步到第4步,直到左右兩個(gè)集合冬、丸中均只包含N類訓(xùn)練樣本中的某一類樣本.從而確定出完整的X分類決策樹的樹型.圖1所示的X=6的分類問虺對(duì)應(yīng)的決策樹型如圖3所示.無(wú)監(jiān)督聚類方法確定決策樹樹型與一對(duì)其余,'一對(duì)一'和'一半對(duì)一半確定決策樹樹型方法上是不一樣.后三者對(duì)于

15、所彳m的多分類問題采用的決策樹型均是固定的,而這4期邱德虹等:網(wǎng)含無(wú)監(jiān)密和監(jiān)督學(xué)習(xí)策略生成的多分類決策樹3超平面即為求(w ,b)使得最小,它等效里介紹的方法將依據(jù)X類樣本之間的聯(lián)系和分布規(guī)律生成相應(yīng)的決策樹型.決策樹型本身在一定的程度上反映fN類樣本之間的差異大小,可以一定程度的降低二分類的難度.以此為基礎(chǔ)的X分類問題的計(jì)算效率將隨決策樹型有所變化.如果假設(shè)這些方法均采用同樣的二分類方法,二分類器的計(jì)算到雜度可大致描述為夕=cnA,其中為系數(shù),n為訓(xùn)練樣本數(shù),X心為發(fā)雜度指數(shù).則對(duì)于N類、樣本總數(shù)為L(zhǎng)的多分類Fig.3Thestructureofdecisiontreeproducedbyu

16、nsupervisedclustering問題,'一對(duì)其余'生成的決策樹的計(jì)算到雜度為NZ/:一對(duì)一'生成的決策樹的計(jì)算發(fā)雜度為0.5cN(N-1)(/,+")Al和L為為應(yīng)兩類的訓(xùn)練樣本的數(shù)目;一半對(duì)一半生成的決策樹的計(jì)算發(fā)雜度約為C(21)(/')2,其中k為大于或等于log:(N)的最小整數(shù),訓(xùn)練樣本數(shù)1'逐步遞減.無(wú)監(jiān)督聚類生成的決策樹的節(jié)點(diǎn)數(shù)小于一半對(duì)一半和一對(duì)一'生成的決策樹,其節(jié)點(diǎn)的訓(xùn)練樣本數(shù)小于'一對(duì)其余'的生成方法,遞減速度大于一半對(duì)一半的生成方法.綜合來(lái)說,無(wú)監(jiān)督聚類生成的決策樹具有比較高的計(jì)算效率.

17、3支持向量機(jī)二分類器無(wú)監(jiān)督聚類生成的決策樹上的每個(gè)二叉節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)二分類器.無(wú)監(jiān)督聚類分類的準(zhǔn)確率有限.這里采用準(zhǔn)確率高的支持向量機(jī)來(lái)生成決策樹上每個(gè)二叉節(jié)點(diǎn)對(duì)應(yīng)的二分類器.它的訓(xùn)練樣本分別是該二叉節(jié)點(diǎn)連接的左右兩個(gè)集合、Sx中的樣本,它們可以統(tǒng)一表示為:(X1,yi),Xi,Rhttp: ics. uci. edu/ al earn MLR Repository, html,yi(+1,-1),訓(xùn)練樣本數(shù)為1.支持向身機(jī)是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法他采用學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小原則”口.其學(xué)習(xí)目的是在所有分割超平面中、確定最優(yōu)超平面H:wx+b=0,該平面到兩類之間的間隔最大

18、,且滿足一下約束條件:wxt+b>+1if=+1卬+b<-1if凡=-1H卬,)=Tj兩類之間的間隔為11"口,因此,確定最優(yōu)分割求解二次優(yōu)化問題,即求Lagrangian系數(shù)。使目標(biāo)函數(shù)W(u)最大:W(a)=1f)2i-l滿足條件。,2,1)和£%匕=0.然后可求i-l得(W,b)為:IW=atyixi,b=-cox+x_/-12X和工分別是兩類向量的支持向量.與它們對(duì)應(yīng)的%>0,其余的a1=0,支持向量機(jī)學(xué)習(xí)確定的分類器為:/(-V)=sign(CDx+b)=sig,(22%乂G,幻+小無(wú)監(jiān)督聚類確定的分類決策樹的二叉節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練樣本往往不具有線性

19、的可分性.此時(shí)可以引入適當(dāng)?shù)暮撕瘮?shù)K(,)=<1)(x06(x0,將將原空間中的向量映射到另一特征內(nèi)積空間中去進(jìn)行分類.此時(shí)目標(biāo)函數(shù)(1)相應(yīng)修正為:j/W(a)=一£%丁/&%)滿足約束條件:引入核函數(shù)''后新特征向fibc的分類器法則如下:f(x)=signZayKa,x)+/Iz核函數(shù)KGi,xj)需要滿足MerceH定理【2】,經(jīng)常采用的核函數(shù)有多項(xiàng)式函數(shù):K(x,y)=(x尸l)d,高斯徑向基函數(shù)K(x,y)=exp-IJ和多層感知器函數(shù):K(x»y)=taiili(Zc(x>)-/)訓(xùn)練樣本中如果存在不可分的樣本(噪音),就需

20、要適度對(duì)待訓(xùn)練誤差.此時(shí),如果過份地強(qiáng)調(diào)減小訓(xùn)練誤差可以導(dǎo)致二分類器的性能惡化.閃為這樣生成的二分類器可能過于頸向訓(xùn)練樣本的個(gè)性特征,而沒行體現(xiàn)出訓(xùn)練樣本整體共性,不利于對(duì)未知樣本的判斷.這時(shí)候需要采用柔性邊界,它依然可以通過求解最大目標(biāo)函數(shù)得到,然而需要將約束條件a10改為0Wa&WC.C可以協(xié)調(diào)訓(xùn)練誤差和分類器的綜含能力,其物小型微型計(jì)算機(jī)系統(tǒng)MINI-MICRO SYSTEMS第25卷第4期2004 年 4Vol.25 No.4Apr.2004理的朝祥可以看成是與參數(shù)九對(duì)應(yīng)的訓(xùn)練樣本為分類邊界的作用力大小的變化范圍.無(wú)監(jiān)督聚類生成的決策樹型時(shí)經(jīng)常會(huì)出現(xiàn)的左右兩個(gè)集合片、Sl中的樣

21、本數(shù)目的不均衡,數(shù)目少的一邊對(duì)分類邊界確定的作用合力的大小往往有限,因而對(duì)分類邊界的確定影響力弱.為此我們對(duì)數(shù)目不等的兩類樣本確定不對(duì)稱的作用力變化范闈,即使0WT,+<C,0WT,WC,G和C與訓(xùn)練樣本數(shù)目相關(guān),以此來(lái)消除訓(xùn)練樣本數(shù)目不均衡性的影響.4實(shí)驗(yàn)結(jié)果我們采用Cleveland心臟病變數(shù)據(jù)來(lái)檢驗(yàn)上文介紹的融含無(wú)監(jiān)督聚類和監(jiān)督學(xué)習(xí)支持向量機(jī)生成的多分類決策樹的Cleveland心臟病變數(shù)據(jù)在一個(gè)知名的有關(guān)機(jī)器學(xué)習(xí)研究的網(wǎng)站1上公布,成為許多分類方法的檢驗(yàn)數(shù)據(jù).這組數(shù)據(jù)包含有303個(gè)樣本,每個(gè)樣本的特征向身的維數(shù)為13.其中有6個(gè)樣本的特征向量不完整,這里將它們從樣本中剔出,因而可

22、使用的樣本數(shù)據(jù)為297個(gè).樣本的特征向量被分為5類,其中心臟沒有病變的正常情況的樣本數(shù)目為160個(gè),標(biāo)號(hào)為0.其余的樣本為心臟彳j病變的特征樣本,標(biāo)號(hào)依此為1、2、3和4,對(duì)應(yīng)的樣本數(shù)目分別為54、35、35和13,標(biāo)號(hào)遞增表示心臟病變的程度越發(fā)歷害.我們對(duì)于每一類樣本,選擇其中的四分之三為訓(xùn)練樣本,數(shù)目共為223個(gè),其余的四分之一用來(lái)驗(yàn)證,數(shù)目共為74個(gè).利用第二節(jié)介紹的無(wú)監(jiān)督聚類方法,首先從224個(gè)訓(xùn)練樣本確定決策樹的樹型,結(jié)果如圖4所示.為平衡樣本特征向母各個(gè)特征值對(duì)決策樹型的影響程度,對(duì)所行樣本的特征向班的每項(xiàng)特征值進(jìn)行了正規(guī)處理,即進(jìn)行了以下運(yùn)算:8=一,-min(e)表示所有樣本特

23、征向量的同max(0)min(0)一項(xiàng)特征值構(gòu)成的列向5L從圖4可見,無(wú)監(jiān)督聚類方法確定的決策樹型明確地反映出Cleveland心臟病變數(shù)據(jù)中幾類樣本之間的關(guān)系,如正常的樣本向量(0)與病變樣本向量首先被區(qū)分開來(lái),嚴(yán)重病變的樣本向身(3、4)將與輕度病變(1、2)的樣本向量區(qū)分開來(lái),最后區(qū)分比較難以區(qū)分的兩類樣本.無(wú)監(jiān)督聚類方法生,成的決策樹型不僅很好的體現(xiàn)/心臟病變這一進(jìn)程中不同階段的特點(diǎn),而且符合人們區(qū)分事物先易后難的習(xí)慣.圖4無(wú)監(jiān)督聚方法生成的Clusland心臟柄變?cè)\斷決策樹型Fig4Thestructureo£decisioatreeofclevelandheart決策樹型

24、確定之后,采用監(jiān)督學(xué)習(xí)支持向無(wú)機(jī)的方法來(lái)生成決策樹中二叉節(jié)點(diǎn)對(duì)應(yīng)的二分類器,采用的是徑向基核函數(shù)和非對(duì)稱的Lagrangian系數(shù)限制條件.調(diào)節(jié)徑向基的寬度和系數(shù)限制條件,可以得到對(duì)應(yīng)決策樹上每個(gè)二叉節(jié)點(diǎn)的性能很好的二分類器.之后用5類共74個(gè)心臟病變樣本的特征向量進(jìn)行/測(cè)武測(cè)試結(jié)果列在表1之中.在表1中還給出J'幾個(gè)其它研究人表1采用不同方法對(duì)Cleveland心臟病變數(shù)據(jù)的處理結(jié)果Table1ExpernientalresultsofClevelandheartdiseasedatausingdifferentclassifer方法準(zhǔn)確率說明cc+svx93.2http: /mw.

25、 ph/s. uni. torun. pl/kmk/projects datasets, h七匚 1本文方法,如果只區(qū)分病變和非病變cc+svxS5.IS本文方法,區(qū)分所有類別INC-NET90.0、病變和非病變分類,文獻(xiàn)13Na1veBaye582.8K±1.3%病變和非病變分類,文獻(xiàn)Mk-XN,VDMS3.6S病變和非病變分類,文獻(xiàn)15GOT5VMS3.5S樹型邊界分類病變和非病變.文獻(xiàn)16員采用不同的研究方法對(duì)Cleveland心臟病變數(shù)據(jù)的分類結(jié)果,更多的有關(guān)該組數(shù)據(jù)的處理結(jié)果可以參閱文獻(xiàn)11力或網(wǎng)站這些結(jié)果準(zhǔn)確率均在85.遙之下,居多方法只區(qū)分樣本特征向量是病變還是非病變,

26、是二分類的研究結(jié)果.從表1的數(shù)據(jù)比較可以看出,本文提出的決策樹型確定和決策樹節(jié)點(diǎn)的二分類器的生成方法一定程度的提高/分類效果.5結(jié)論綜合利用多種學(xué)習(xí)策略來(lái)解決多分類問咫是一種比較好的指導(dǎo)思想,它可以提高解決問題的效率和結(jié)果.本文利用無(wú)監(jiān)督聚類學(xué)習(xí)策略和監(jiān)督學(xué)習(xí)支持向無(wú)機(jī)的方法來(lái)生成多分類決策樹,在實(shí)胎中獲得r比較好的效果.該方法不僅能夠針對(duì)待處理的多分類問題多類之間的內(nèi)在聯(lián)系和分布特點(diǎn),生成相應(yīng)的決策樹型,具有靈活解決問題的能力,而且采用r準(zhǔn)確率高的支持向量機(jī)對(duì)不易區(qū)分的類別進(jìn)行分類,彌補(bǔ)r無(wú)監(jiān)督聚類分類準(zhǔn)確率低的玦陷,實(shí)現(xiàn)r策略之間的優(yōu)勢(shì)互補(bǔ).該方法在解決多分類問虺上體現(xiàn)門問題產(chǎn)生的剌激機(jī)制

27、和人們區(qū)分多種類別時(shí)先易后難的思維習(xí)慣,實(shí)現(xiàn)r比較高的計(jì)算效率和分類效果.References:1. VapmkV.Thenatureofstatisticallearningtheory.NewYork:Sprmser-Verlac,1995.2. VapmkV.StatisticallearningtheoryM.JohnWiley&Sons,XewYork,1993.3. HestonJandWatkins.Xulti-classsupportvectorzuichinesR:.TechnicalReportCSD-TR-9S_01,RoyalHolloway,Universit

28、yofLondon,Departmento£ComputerScience.EBIOL199s.Availableonhttp:/,clrc.diseasedataproducedbyunsupervisedclustering小型微型計(jì)算機(jī)系統(tǒng)5562004 年rhul.ac.ukresearcSVM.pub.zhtsl.4. MurthyS.K.»KasifS.andSalzbereS.,Asysteeforinductiono£obliquedecisiontreesJ.Journalo£ArtificialIntelligenceResearch

29、,1991,(2):1-32.5. BroadleyC.E.andUtco££P.E.,XultivariatedecisiontreesJMachineLearning.1995,(19):4577.6. PlattJ.C.CristianiniN.andShawe-TaylorJ.,Lar:eaarginDAGsforaultxclassclassificationJ.advancesinNeuralInformationProcessinsSystems,2000:517553.7. Chapelle0.,HaffnerP.andVapnikV.,Supportvec

30、toraachinesforhistogram-based:cageclassificationLJJ.IEEETrans.NeuralNetworks,1999,(10):1055-1061.5. AldenderferX.S.andBlashfieldP.K.,ClusteranalysisM.SagePublications.BeverlyHills,USA,19S4.9. CherkasskyV.andXullerF.,Learning£rosxData-Concept,Theoryandmethods翼.JohnWiley&Sons,XY»USA,199S

31、.10. BurgesC.Atutorialonsupportvectormachines£orpatternrecognitionJ.DataXimnsandKnowledseDiscover7>1998(2):121167.11. OsunaE.FreundR.andGiro二iF.,TrainineSupportVectorMachines:Anallicationto£acedetectionC.TheProceedingoflEEEConferenceonComputerVisionandPatternRecognition,Puert。,1997:1301

32、36.12. LiXiaoLi.LxuJiMxnandShiZhonZhi.AChineseWebpajeclassifierbasedonsupportvectorsachmeandunsupervisedclusterins.J.ChineseJournalo£Computers,2001,24(1):62、6s13. JankowskiN.andKadirkamanathanV.,Statisticalcontrolo£growingandpruninginRBF-lxkeneuralnetworksC.InThirdCon£erenceonNeuralNetworksandTheirApplications*Kule,Poland,1997:663"-670.14

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論