版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第3章分類與預(yù)測(cè).主要內(nèi)容分類與決策樹(shù)概述ID3、C4.5與C5.0CART.分類 VS. 預(yù)測(cè)分類和預(yù)測(cè)是兩種數(shù)據(jù)分析方式,用于提取描畫(huà)重要數(shù)據(jù)類或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì) 的模型分類:預(yù)測(cè)類對(duì)象的分類標(biāo)號(hào)或離散值根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類現(xiàn)有數(shù)據(jù),并用來(lái)分類新數(shù)據(jù)預(yù)測(cè):建立延續(xù)函數(shù)值模型比如預(yù)測(cè)空缺值,或者預(yù)測(cè)顧客在計(jì)算機(jī)設(shè)備上的破費(fèi)典型運(yùn)用欺詐檢測(cè)、市場(chǎng)定位、性能預(yù)測(cè)、醫(yī)療診斷分類是一種運(yùn)用非常廣泛的數(shù)據(jù)發(fā)掘技術(shù) 分類與預(yù)測(cè)的區(qū)別:當(dāng)估計(jì)的屬性值是離散值時(shí),這就是分類;當(dāng)估計(jì)的屬性值是延續(xù)值時(shí),這就是預(yù)測(cè)。.分類和預(yù)測(cè)-例如分類銀行貸款員需求分析數(shù)據(jù),來(lái)弄清哪些貸款懇求者是平安
2、的,哪些是有風(fēng)險(xiǎn)的將貸款懇求者分為“平安和“有風(fēng)險(xiǎn)兩類我們需求構(gòu)造一個(gè)分類器來(lái)預(yù)測(cè)類屬編號(hào),比如預(yù)測(cè)顧客屬類預(yù)測(cè)銀行貸款員需求預(yù)測(cè)貸給某個(gè)顧客多少錢是平安的構(gòu)造一個(gè)預(yù)測(cè)器,預(yù)測(cè)一個(gè)延續(xù)值函數(shù)或有序值,常用方法是回歸分析.數(shù)據(jù)分類一個(gè)兩步過(guò)程 (1)第一步,也成為學(xué)習(xí)步,目的是建立描畫(huà)預(yù)先定義的數(shù)據(jù)類或概念集的分類器分類算法經(jīng)過(guò)分析或從訓(xùn)練集“學(xué)習(xí)來(lái)構(gòu)造分類器。訓(xùn)練集由數(shù)據(jù)庫(kù)元組用n維屬性向量表示和他們相對(duì)應(yīng)的類編號(hào)組成;假定每個(gè)元組屬于一個(gè)預(yù)定義的類訓(xùn)練元組:訓(xùn)練數(shù)據(jù)集中的單個(gè)元組學(xué)習(xí)模型可以用分類規(guī)那么、決策樹(shù)或數(shù)學(xué)公式的方式提供.數(shù)據(jù)分類一個(gè)兩步過(guò)程 (2)第二步,運(yùn)用模型,對(duì)未來(lái)的或未知
3、的對(duì)象進(jìn)展分類首先評(píng)價(jià)模型的預(yù)測(cè)準(zhǔn)確率對(duì)每個(gè)測(cè)試樣本,將知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否那么會(huì)出現(xiàn)“過(guò)分?jǐn)M合的情況.第一步建立模型訓(xùn)練數(shù)據(jù)集分類算法IF rank = professorOR years 6THEN tenured = yes 分類規(guī)那么.第二步用模型進(jìn)展分類分類規(guī)那么測(cè)試集未知數(shù)據(jù)(Jeff, Professor, 4)Tenured?.監(jiān)視學(xué)習(xí) VS. 無(wú)監(jiān)視學(xué)習(xí)監(jiān)視學(xué)習(xí)用于分類模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的“指點(diǎn)下進(jìn)展新數(shù)據(jù)運(yùn)用訓(xùn)練數(shù)據(jù)集中得到的規(guī)那么進(jìn)展分類無(wú)監(jiān)視學(xué)
4、習(xí)用于聚類每個(gè)訓(xùn)練樣本的類編號(hào)是未知的,要學(xué)習(xí)的類集合或數(shù)量也能夠是事先未知的經(jīng)過(guò)一系列的度量、察看來(lái)建立數(shù)據(jù)中的類編號(hào)或進(jìn)展聚類.數(shù)據(jù)預(yù)測(cè)的兩步過(guò)程數(shù)據(jù)預(yù)測(cè)也是一個(gè)兩步的過(guò)程,類似于前面描畫(huà)的數(shù)據(jù)分類對(duì)于預(yù)測(cè),沒(méi)有“類標(biāo)號(hào)屬性要預(yù)測(cè)的屬性是延續(xù)值,而不是離散值,該屬性可簡(jiǎn)稱“預(yù)測(cè)屬性E.g. 銀行貸款員需求預(yù)測(cè)貸給某個(gè)顧客多少錢是平安的預(yù)測(cè)器可以看作一個(gè)映射或函數(shù)y=f(X)其中X是輸入;y是輸出,是一個(gè)延續(xù)或有序的值與分類類似,準(zhǔn)確率的預(yù)測(cè),也要運(yùn)用單獨(dú)的測(cè)試集.3.1 決策樹(shù)概述決策樹(shù)(Decision Tree) 一種描畫(huà)概念空間的有效的歸納推理方法?;跊Q策樹(shù)的學(xué)習(xí)方法可以進(jìn)展不相關(guān)
5、的多概念學(xué)習(xí),具有簡(jiǎn)單快捷的優(yōu)勢(shì),曾經(jīng)在各個(gè)領(lǐng)域獲得廣泛運(yùn)用。決策樹(shù)是一種樹(shù)型構(gòu)造,其中每個(gè)內(nèi)部結(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉結(jié)點(diǎn)代表一種類別。.決策樹(shù)學(xué)習(xí)是以實(shí)例為根底的歸納學(xué)習(xí)。從一類無(wú)序、無(wú)規(guī)那么的事物概念中推理出決策樹(shù)表示的分類規(guī)那么。概念分類學(xué)習(xí)算法:來(lái)源于Hunt,Marin和Stone 于1966年研制的CLS學(xué)習(xí)系統(tǒng),用于學(xué)習(xí)單個(gè)概念。1979年, J.R. Quinlan 給出ID3算法,并在1983年和1986年對(duì)ID3 進(jìn)展了總結(jié)和簡(jiǎn)化,使其成為決策樹(shù)學(xué)習(xí)算法的典型。Schlimmer 和Fisher 于1986年對(duì)ID3進(jìn)展改造,在每個(gè)能夠
6、的決策樹(shù)節(jié)點(diǎn)創(chuàng)建緩沖區(qū),使決策樹(shù)可以遞增式生成,得到ID4算法。1988年,Utgoff 在ID4根底上提出了ID5學(xué)習(xí)算法,進(jìn)一步提高了效率。1993年,Quinlan 進(jìn)一步開(kāi)展了ID3算法,改良成C4.5算法。另一類決策樹(shù)算法為CART,與C4.5不同的是,CART的決策樹(shù)由二元邏輯問(wèn)題生成,每個(gè)樹(shù)節(jié)點(diǎn)只需兩個(gè)分枝,分別包括學(xué)習(xí)實(shí)例的正例與反例。其根本思想是以信息熵為度量構(gòu)造一棵熵值下降最快的樹(shù),到葉子節(jié)點(diǎn)處的熵值為零,此時(shí)每個(gè)葉節(jié)點(diǎn)中的實(shí)例都屬于同一類。.決策樹(shù)學(xué)習(xí)采用的是自頂向下的遞歸方法。決策樹(shù)的每一層節(jié)點(diǎn)按照某一屬性值向下分為子節(jié)點(diǎn),待分類的實(shí)例在每一節(jié)點(diǎn)處與該節(jié)點(diǎn)相關(guān)的屬性值進(jìn)
7、展比較,根據(jù)不同的比較結(jié)果向相應(yīng)的子節(jié)點(diǎn)擴(kuò)展,這一過(guò)程在到達(dá)決策樹(shù)的葉節(jié)點(diǎn)時(shí)終了,此時(shí)得到結(jié)論。從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每一條路經(jīng)都對(duì)應(yīng)著一條合理的規(guī)那么,規(guī)那么間各個(gè)部分各個(gè)層的條件的關(guān)系是合取關(guān)系。整個(gè)決策樹(shù)就對(duì)應(yīng)著一組析取的規(guī)那么。決策樹(shù)學(xué)習(xí)算法的最大優(yōu)點(diǎn)是,它可以自學(xué)習(xí)。在學(xué)習(xí)的過(guò)程中,不需求運(yùn)用者了解過(guò)多背景知識(shí),只需求對(duì)訓(xùn)練例子進(jìn)展較好的標(biāo)注,就可以進(jìn)展學(xué)習(xí)。假設(shè)在運(yùn)用中發(fā)現(xiàn)不符合規(guī)那么的實(shí)例,程序會(huì)訊問(wèn)用戶該實(shí)例的正確分類,從而生成新的分枝和葉子,并添加到樹(shù)中。 .樹(shù)是由節(jié)點(diǎn)和分枝組成的層次數(shù)據(jù)構(gòu)造。節(jié)點(diǎn)用于存貯信息或知識(shí),分枝用于銜接各個(gè)節(jié)點(diǎn)。樹(shù)是圖的一個(gè)特例,圖是更普通的數(shù)學(xué)構(gòu)造,
8、如貝葉斯網(wǎng)絡(luò)。決策樹(shù)是描畫(huà)分類過(guò)程的一種數(shù)據(jù)構(gòu)造,從上端的根節(jié)點(diǎn)開(kāi)場(chǎng),各種分類原那么被援用進(jìn)來(lái),并依這些分類原那么將根節(jié)點(diǎn)的數(shù)據(jù)集劃分為子集,這一劃分過(guò)程直到某種約束條件滿足而終了。 根結(jié)點(diǎn)個(gè)子大能夠是松鼠能夠是老鼠能夠是大象在水里會(huì)吱吱叫鼻子長(zhǎng)脖子長(zhǎng)個(gè)子小不會(huì)吱吱叫鼻子短脖子短能夠是長(zhǎng)頸鹿在陸地上能夠是犀牛能夠是河馬.可以看到,一個(gè)決策樹(shù)的內(nèi)部結(jié)點(diǎn)包含學(xué)習(xí)的實(shí)例,每層分枝代表了實(shí)例的一個(gè)屬性的能夠取值,葉節(jié)點(diǎn)是最終劃分成的類。假設(shè)斷定是二元的,那么構(gòu)造的將是一棵二叉樹(shù),在樹(shù)中每回答一個(gè)問(wèn)題就降到樹(shù)的下一層,這類樹(shù)普通稱為CARTClassification And Regression Tr
9、ee。斷定構(gòu)造可以機(jī)械的轉(zhuǎn)變成產(chǎn)生式規(guī)那么??梢越?jīng)過(guò)對(duì)構(gòu)造進(jìn)展廣度優(yōu)先搜索,并在每個(gè)節(jié)點(diǎn)生成“IFTHEN規(guī)那么來(lái)實(shí)現(xiàn)。如圖6-13的決策樹(shù)可以轉(zhuǎn)換成下規(guī)那么: IF “個(gè)子大 THEN IF “脖子短 THEN IF “鼻子長(zhǎng) THEN 能夠是大象方式化表示成 根結(jié)點(diǎn)個(gè)子大能夠是松鼠能夠是老鼠能夠是大象在水里會(huì)吱吱叫鼻子長(zhǎng)脖子長(zhǎng)個(gè)子小不會(huì)吱吱叫鼻子短脖子短能夠是長(zhǎng)頸鹿在陸地上能夠是犀牛能夠是河馬.構(gòu)造一棵決策樹(shù)要處理四個(gè)問(wèn)題:搜集待分類的數(shù)據(jù),這些數(shù)據(jù)的一切屬性應(yīng)該是完全標(biāo)注的。設(shè)計(jì)分類原那么,即數(shù)據(jù)的哪些屬性可以被用來(lái)分類,以及如何將該屬性量化。分類原那么的選擇,即在眾多分類準(zhǔn)那么中,每一
10、步選擇哪一準(zhǔn)那么使最終的樹(shù)更令人稱心。設(shè)計(jì)分類停頓條件,實(shí)踐運(yùn)用中數(shù)據(jù)的屬性很多,真正有分類意義的屬性往往是有限幾個(gè),因此在必要的時(shí)候應(yīng)該停頓數(shù)據(jù)集分裂:該節(jié)點(diǎn)包含的數(shù)據(jù)太少缺乏以分裂,繼續(xù)分裂數(shù)據(jù)集對(duì)樹(shù)生成的目的(例如ID3中的熵下降準(zhǔn)那么)沒(méi)有奉獻(xiàn),樹(shù)的深度過(guò)大不宜再分。通用的決策樹(shù)分裂目的是整棵樹(shù)的熵總量最小,每一步分裂時(shí),選擇使熵減小最大的準(zhǔn)那么,這種方案使最具有分類潛力的準(zhǔn)那么最先被提取出來(lái) .預(yù)測(cè)變量目的變量記錄樣本類標(biāo)號(hào)屬性類別集合:Class=“優(yōu),“良,“差 決策樹(shù)的根本原理 .根節(jié)點(diǎn)葉子節(jié)點(diǎn)分裂屬性分裂謂詞 每一個(gè)葉子節(jié)點(diǎn)都被確定一個(gè)類標(biāo)號(hào) .每一個(gè)節(jié)點(diǎn)都代表了一個(gè)數(shù)據(jù)集。
11、根節(jié)點(diǎn)1代表了初始數(shù)據(jù)集D其它節(jié)點(diǎn)都是數(shù)據(jù)集D的子集。例如,節(jié)點(diǎn)2代表數(shù)據(jù)集D中年齡小于40歲的那部分樣本組成的數(shù)據(jù)集。子節(jié)點(diǎn)是父節(jié)點(diǎn)的子集。 If (年齡40) and (職業(yè)=“學(xué)生 or職業(yè)=“教師) Then 信譽(yù)等級(jí)=“優(yōu)If (年齡40) and (職業(yè)!=“學(xué)生and職業(yè)!=“教師) Then 信譽(yù)等級(jí)=“良If (年齡40) and (月薪3000) Then 信譽(yù)等級(jí)=“優(yōu).決策樹(shù)是指具有以下三個(gè)性質(zhì)的樹(shù):每個(gè)非葉子節(jié)點(diǎn)都被標(biāo)志一個(gè)分裂屬性Ai;每個(gè)分支都被標(biāo)志一個(gè)分裂謂詞,這個(gè)分裂謂詞是分裂父節(jié)點(diǎn)的詳細(xì)根據(jù);每個(gè)葉子節(jié)點(diǎn)都被標(biāo)志一個(gè)類標(biāo)號(hào)CjC。任何一個(gè)決策樹(shù)算法,其中心步
12、驟都是為每一次分裂確定一個(gè)分裂屬性,即終究按照哪一個(gè)屬性來(lái)把當(dāng)前數(shù)據(jù)集劃分為假設(shè)干個(gè)子集,從而構(gòu)成假設(shè)干個(gè)“樹(shù)枝。.熵,是數(shù)據(jù)集中的不確定性、突發(fā)性或隨機(jī)性的程度的度量。當(dāng)一個(gè)數(shù)據(jù)集中的記錄全部都屬于同一類的時(shí)候,那么沒(méi)有不確定性,這種情況下的熵就為0。決策樹(shù)分裂的根本原那么是,數(shù)據(jù)集被分裂為假設(shè)干個(gè)子集后,要使每個(gè)子集中的數(shù)據(jù)盡能夠的“純,也就是說(shuō)子集中的記錄要盡能夠?qū)儆谕粋€(gè)類別。假設(shè)套用熵的概念,即要使分裂后各子集的熵盡能夠的小。3.2 ID3、C4.5與C5.0.數(shù)據(jù)集D被按照分裂屬性“年齡分裂為兩個(gè)子集D1 和D2 信息增益:Gain(D,年齡)= H(D)P(D1)H(D1)+ P
13、(D2)H(D2) .顯然,假設(shè)D1和D2中的數(shù)據(jù)越“純,H(D1)和H(D2)就越小,信息增益就越大,或者說(shuō)熵下降得越多。按照這個(gè)方法,測(cè)試每一個(gè)屬性的信息增益,選擇增益值最大的屬性作為分裂屬性。.信息熵計(jì)算舉例令C1對(duì)應(yīng)“是,C2對(duì)應(yīng)“否。那么C1有9個(gè)樣本,C2有5個(gè)樣本,所以數(shù)據(jù)集D的熵為:.決策樹(shù)歸納戰(zhàn)略 (1)輸入數(shù)據(jù)劃分D是訓(xùn)練元組和對(duì)應(yīng)類標(biāo)號(hào)的集合attribute_list,候選屬性的集合Attribute_selection_method,指定選擇屬性的啟發(fā)性過(guò)程算法步驟樹(shù)以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)N開(kāi)場(chǎng)假設(shè)樣本都在同一個(gè)類,那么該節(jié)點(diǎn)成為樹(shù)葉,并用該類標(biāo)志否那么,算法調(diào)用A
14、ttribute_selection_method,選擇可以最好的將樣本分類的屬性;確定“分裂準(zhǔn)那么,指出“分裂點(diǎn)或“分裂子集。.決策樹(shù)歸納戰(zhàn)略 (2)對(duì)測(cè)試屬性每個(gè)知的值,創(chuàng)建一個(gè)分支,并以此劃分元組算法運(yùn)用同樣的過(guò)程,遞歸的構(gòu)成每個(gè)劃分上的元組決策樹(shù)。一旦一個(gè)屬性出如今一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何子節(jié)點(diǎn)上出現(xiàn)遞歸劃分步驟停頓的條件劃分D在N節(jié)點(diǎn)提供的一切元組屬于同一類沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分元組運(yùn)用多數(shù)表決沒(méi)有剩余的樣本給定分支沒(méi)有元組,那么以D中多數(shù)類創(chuàng)建一個(gè)樹(shù)葉.屬性選擇度量屬性選擇度量是一種選擇分裂準(zhǔn)那么,將給定類標(biāo)號(hào)的訓(xùn)練元組最好的進(jìn)展劃分的方法理想情況,每個(gè)劃分都是“純的
15、,即落在給定劃分內(nèi)的元組都屬于一樣的類屬性選擇度量又稱為分裂準(zhǔn)那么常用的屬性選擇度量信息增益增益率Gini目的.信息增益 (1)S是一個(gè)訓(xùn)練樣本的集合,該樣本中每個(gè)集合的類編號(hào)知。每個(gè)樣本為一個(gè)元組。有個(gè)屬性用來(lái)斷定某個(gè)訓(xùn)練樣本的類編號(hào)假設(shè)S中有m個(gè)類,總共s個(gè)訓(xùn)練樣本,每個(gè)類Ci有si個(gè)樣本(i1,2,3.m),那么恣意一個(gè)樣本屬于類Ci的概率是si / s,那么用來(lái)分類一個(gè)給定樣本的期望信息是:.信息增益 (2)一個(gè)有v個(gè)值的屬性Aa1,a2,.,av可以將S分成v個(gè)子集S1,S2,.,Sv,其中Sj包含S中屬性A上的值為aj的樣本。假設(shè)Sj包含類Ci的sij個(gè)樣本。根據(jù)A的這種劃分的期望
16、信息稱為A的熵A上該劃分的獲得的信息增益定義為:具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以經(jīng)過(guò)計(jì)算S中樣本的每個(gè)屬性的信息增益,來(lái)得到一個(gè)屬性的相關(guān)性的排序。.假設(shè)以“年齡作為分裂屬性,那么產(chǎn)生三個(gè)子集由于該屬性有三個(gè)不同的取值,所以D按照屬性“年齡劃分出的三個(gè)子集的熵的加權(quán)和為:其中有一個(gè)子集的熵為0.同理,假設(shè)以“收入程度為分裂屬性:.假設(shè)以“有固定收入為分裂屬性:假設(shè)以“VIP為分裂屬性:.以“年齡作為分裂屬性,所得信息增益最大。 葉子節(jié)點(diǎn).ID3的主要缺陷ID3算法只能處置分類屬性離散屬性,而不能處置延續(xù)屬性數(shù)值屬性。在處置延續(xù)屬性時(shí),普通要先將延續(xù)屬性劃分為多個(gè)區(qū)
17、間,轉(zhuǎn)化為分類屬性。例如“年齡,要把數(shù)值事先轉(zhuǎn)換為諸如“小于30歲、“30至50歲、“大于50歲這樣的區(qū)間,再根據(jù)年齡值落入了某一個(gè)區(qū)間取相應(yīng)的類別值。通常,區(qū)間端點(diǎn)的選取包含著一定的客觀要素。ID3生成的決策樹(shù)是一棵多叉樹(shù),分支的數(shù)量取決于分裂屬性有多少個(gè)不同的取值。這不利于處置分裂屬性取值數(shù)目較多的情況。因此目前流行的決策樹(shù)算法大多采用二叉樹(shù)模型。.ID3是采用“信息增益來(lái)選擇分裂屬性的。雖然這是一種有效的方法,但其具有明顯的傾向性,即它傾向于選擇具有大量不同取值的屬性,從而產(chǎn)生許多小而純的子集。尤其是關(guān)系數(shù)據(jù)庫(kù)中作為主鍵的屬性,每一個(gè)樣本都有一個(gè)不同的取值。假設(shè)以這樣的屬性作為分裂屬性,
18、那么將產(chǎn)生非常多的分支,而且每一個(gè)分支產(chǎn)生的子集的熵均為0由于子集中只需一個(gè)樣本!。顯然,這樣的決策樹(shù)是沒(méi)有實(shí)踐意義的。因此,Quinlan提出運(yùn)用增益比例來(lái)替代信息增益。 3.2.2 C4.5.設(shè)S代表訓(xùn)練數(shù)據(jù)集,由s個(gè)樣本組成。A是S的某個(gè)屬性,有m個(gè)不同的取值,根據(jù)這些取值可以把S劃分為m個(gè)子集,Si表示第i個(gè)子集i=1,2,m,|Si|表示子集Si中的樣本數(shù)量。那么:稱為“數(shù)據(jù)集S關(guān)于屬性A的熵。 .用來(lái)衡量屬性A分裂數(shù)據(jù)集的廣度和均勻性。樣本在屬性A上的取值分布越均勻,Split_Info(S,A)的值就越大。增益比例的定義為:增益比例消除了選擇那些值較多且均勻分布的屬性作為分裂屬性
19、的傾向性。.延續(xù)屬性的處置 設(shè)屬性Y有m個(gè)不同的取值,按大小順序升序陳列為v1v2, vi將數(shù)據(jù)集劃分為兩個(gè)部分,構(gòu)成兩個(gè)分支。顯然, v1,v2, vm-1就是能夠的閾值的集合,共(m-1)個(gè)元素。把這些閾值一一取出來(lái),并根據(jù)“Yvi和“Y vi把訓(xùn)練數(shù)據(jù)集劃分為兩個(gè)子集,并計(jì)算每一種劃分方案下的信息增益或增益比例,選擇最大增益或增益比例所對(duì)應(yīng)的那個(gè)閾值,作為最優(yōu)的閾值。可以看出,假設(shè)選擇延續(xù)屬性作為分裂屬性,那么分裂后只需兩個(gè)分支,而不象離散屬性那樣能夠會(huì)有多個(gè)分支由離散屬性的取值個(gè)數(shù)決議。 .假設(shè)要計(jì)算“年齡屬性的信息增益,那么首先將不同的屬性值排序20,25,28,40,46,55,5
20、6,58,60,65,70那么能夠的閾值集合為20,25,28,40,46,55,56,58,60,65,70,從中一一取出,并構(gòu)成分裂謂詞,例如取出“20,構(gòu)成謂詞“20和“20,用它們劃分訓(xùn)練數(shù)據(jù)集,然后計(jì)算信息增益或增益比例。 .處置有缺失值的樣本 C4.5并不會(huì)武斷地將一個(gè)有缺失值的樣本丟棄,也不會(huì)隨意地將它分配到某個(gè)類別中去。 “收入程度的值,取為“高的概率為3/12,取為“中的概率為5/12,取為“低的概率為4/12。S1收入程度=“高的樣本數(shù)量為:3+2(3/12); .3.2.4 C5.0算法C5.0是經(jīng)典的決策樹(shù)模型的算法之一,可生成多分支的決策樹(shù),目的變量為分類變量運(yùn)用c5
21、.0算法可以生成決策樹(shù)decision tree或者規(guī)那么集rule sets。C5.0模型根據(jù)可以帶來(lái)最大信息增益information gain的字段拆分樣本。第一次拆分確定的樣本子集隨后再次拆分,通常是根據(jù)另一個(gè)字段進(jìn)展拆分,這一過(guò)程反復(fù)進(jìn)展直到樣本子集不能再被拆分為止。最后,重新檢驗(yàn)最低層次的拆分,那些對(duì)模型值沒(méi)有顯著奉獻(xiàn)的樣本子集被剔除或者修剪。 .C5.0的優(yōu)點(diǎn)優(yōu)點(diǎn):C5.0模型在面對(duì)數(shù)據(jù)脫漏和輸入字段很多的問(wèn)題時(shí)非常穩(wěn)健。C5.0模型通常不需求很長(zhǎng)的訓(xùn)練次數(shù)進(jìn)展估計(jì)。C5.0模型比一些其他類型的模型易于了解,模型推出的規(guī)那么有非常直觀的解釋。C5.0也提供強(qiáng)大的加強(qiáng)技術(shù)以提高分類
22、的精度。C5.0算法選擇分支變量的根據(jù)以信息熵的下降速度作為確定最正確分支變量和分割閥值的根據(jù)。信息熵的下降意味著信息的不確定性下降.舉例:在Clementine中運(yùn)用C5.0這里,以學(xué)生參與某次社會(huì)公益活動(dòng)的數(shù)據(jù)文件名為Students.xls為例,講解C5.0算法的詳細(xì)實(shí)現(xiàn)操作。分析目的是,研討那些要素將顯著影響到學(xué)生參與社會(huì)公益活動(dòng)。 其中,能否參與為輸出變量,除編號(hào)以外的變量均為輸入變量。.數(shù)據(jù)流如下:.一、建立模型 第一步建立數(shù)據(jù)源,第二步選擇Modeling卡中的C5.0節(jié)點(diǎn)并將其銜接到恰當(dāng)位置,鼠標(biāo)右擊該節(jié)點(diǎn),彈出下面窗口。模型稱號(hào)Model name輸出類型Output typ
23、e:此處指定希望最終生成的模型是決策樹(shù)還是規(guī)那么集。群體字符Group symbolics。假設(shè)選擇該選項(xiàng),C5.0會(huì)嘗試將一切與輸出字段格式類似的字符值合并。假設(shè)沒(méi)有選擇該選項(xiàng),C5.0會(huì)為用于拆分母節(jié)點(diǎn)的字符字段的每個(gè)值創(chuàng)建一個(gè)子節(jié)點(diǎn)。運(yùn)用自舉法Use boosting:提高其準(zhǔn)確率。這種方法按序列建立多重模型。第一個(gè)模型以通常的方式建立。隨后,建立第二個(gè)模型,聚焦于被第一個(gè)模型錯(cuò)誤分類的記錄。以此類推,最后運(yùn)用整個(gè)模型集對(duì)樣本進(jìn)展分類,運(yùn)用加權(quán)投票過(guò)程把分散的預(yù)測(cè)合并成綜合預(yù)測(cè)。The Number of trials選項(xiàng)允許控制用于助推的模型數(shù)量。.交叉驗(yàn)證Crossvalidate:
24、假設(shè)選擇了該選項(xiàng),C5.0將運(yùn)用一組基于訓(xùn)練數(shù)據(jù)子集建立的模型,來(lái)估計(jì)基于全部數(shù)據(jù)建立的模型的準(zhǔn)確度。假設(shè)數(shù)據(jù)集過(guò)小,不能拆分成傳統(tǒng)意義上的訓(xùn)練集和測(cè)試集,這將非常有用?;蛴糜诮徊骝?yàn)證的模型數(shù)目。方式Mode:對(duì)于簡(jiǎn)單的訓(xùn)練,絕大多數(shù)C5.0參數(shù)是自動(dòng)設(shè)置。高級(jí)訓(xùn)練方式選項(xiàng)允許對(duì)訓(xùn)練參數(shù)更多的直接控制。.簡(jiǎn)單方式選項(xiàng)simple偏好Favor:在accuracy下,C5.0會(huì)生成盡能夠準(zhǔn)確的決策樹(shù)。在某些情況下,這會(huì)導(dǎo)致過(guò)度擬和。選擇Generality普通化項(xiàng)以運(yùn)用不易受該問(wèn)題影響的算法設(shè)置。期望噪聲百分?jǐn)?shù)Expected noise %:指定訓(xùn)練集中的噪聲或錯(cuò)誤數(shù)據(jù)期望比率。.高級(jí)方式選項(xiàng)
25、修剪純度pruning severity:決議生成決策樹(shù)或規(guī)那么集被修剪的程度。提高純度值將獲得更小,更簡(jiǎn)約的決策樹(shù)。降低純度值將獲得更加準(zhǔn)確的決策樹(shù)。子分支最少記錄數(shù)Minimum records per child branch:子群大小可以用于限制決策樹(shù)任一分支的拆分?jǐn)?shù)。只需當(dāng)兩個(gè)或以上的后序子分支包括來(lái)自訓(xùn)練集的記錄不少于最小記錄數(shù),決策樹(shù)才會(huì)繼續(xù)拆分。默許值為2,提高該值將有助于防止噪聲數(shù)據(jù)的過(guò)度訓(xùn)練。全局修剪Use global pruning: 第一階段:部分建筑 第二階段:全局修剪排除屬性Winnow attributes:假設(shè)選擇了該選項(xiàng),C5.0會(huì)在建立模型前檢驗(yàn)預(yù)測(cè)字段的
26、有用性。被發(fā)現(xiàn)與分析無(wú)關(guān)的預(yù)測(cè)字段將不參與建模過(guò)程。這一選項(xiàng)對(duì)有許多預(yù)測(cè)字段元的模型非常有用,并且有助于防止過(guò)度擬和。 .圖1 指定錯(cuò)誤歸類損失錯(cuò)誤歸類損失允許指定不同類型預(yù)測(cè)錯(cuò)誤之間的相對(duì)重要性。錯(cuò)誤歸類損失矩陣顯示預(yù)測(cè)類和實(shí)踐類每一能夠組合的損失。一切的錯(cuò)誤歸類損失都預(yù)設(shè)設(shè)置為1.0。要輸入自定義損失值,選擇Use misclassification costs,然后把自定義值輸入到損失矩陣中。.詳細(xì)設(shè)置.執(zhí)行結(jié)果.二、預(yù)測(cè)結(jié)果 為觀測(cè)C5.0對(duì)每個(gè)樣本的預(yù)測(cè)結(jié)果,可在流管理器的Models卡中,鼠標(biāo)右擊C5.0模型結(jié)果,選擇彈出菜單中的Add To Stream,并將模型結(jié)果銜接到數(shù)據(jù)流
27、中,然后銜接Table節(jié)點(diǎn)查看預(yù)測(cè)結(jié)果,如以下圖所示:.三、C5.0模型評(píng)價(jià).3.3 CART分類和回歸樹(shù)Classification and Regression Trees,CART,在Clementine中簡(jiǎn)寫(xiě)為C&RTCART算法中的每一次分裂把數(shù)據(jù)分為兩個(gè)子集,每個(gè)子集中的樣本比被劃分之前具有更好的一致性。它是一個(gè)遞歸的過(guò)程,也就是說(shuō),這些子集還會(huì)被繼續(xù)劃分,這個(gè)過(guò)程不斷反復(fù),直到滿足終止準(zhǔn)那么,然后經(jīng)過(guò)修剪和評(píng)價(jià),得到一棵最優(yōu)的決策樹(shù)。.三個(gè)步驟生成最大樹(shù)生成一棵充分生長(zhǎng)的最大樹(shù)樹(shù)的修剪根據(jù)修剪算法對(duì)最大樹(shù)進(jìn)展修剪,生成由許多子樹(shù)組成的子樹(shù)序列子樹(shù)評(píng)價(jià)從子樹(shù)序列中選擇一棵最優(yōu)的子樹(shù)作為最后的結(jié)果。 .3.3.1 生成最大樹(shù)規(guī)范問(wèn)題集 就某個(gè)給定的屬性來(lái)說(shuō),由于屬性的取值能夠有很多個(gè),所以按照這個(gè)屬性來(lái)分裂數(shù)據(jù)集的方式也有很多種,屬性的規(guī)范問(wèn)題集就是一切候選分支方案的集合。延續(xù)屬性的規(guī)范問(wèn)題集離散屬性的規(guī)范問(wèn)題集.雜度 在ID3算法中,用“熵來(lái)度量數(shù)據(jù)集隨機(jī)性的程度。在CART中我們把這種隨機(jī)性的程度稱為“雜度impurity,也稱為“不純度,并且用“吉尼(gini)目的來(lái)衡量它。 .吉尼目的 設(shè)t是決策樹(shù)上的某個(gè)節(jié)點(diǎn),該節(jié)點(diǎn)的數(shù)據(jù)集為S,由s個(gè)樣本組成,其類標(biāo)號(hào)屬性具有m個(gè)不同的取值,即定義了m個(gè)不同的類Cii=1,2,m。設(shè)屬于類Ci的樣本的個(gè)數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年房產(chǎn)營(yíng)銷宣傳品設(shè)計(jì)委托協(xié)議
- 科學(xué)通史課后習(xí)題參考
- 2024年期倉(cāng)庫(kù)租賃臨時(shí)協(xié)議樣本
- 2024年度物業(yè)管理與服務(wù)協(xié)議樣本
- 2024年期職工宿舍建筑施工協(xié)議范本
- 文書(shū)模板-《保潔人員外出干活意外處理協(xié)議書(shū)》
- 2024年建筑工程主體驗(yàn)收勞務(wù)協(xié)議
- 2024年專業(yè)牛只運(yùn)輸服務(wù)協(xié)議模板
- 城市出行汽車租賃正規(guī)協(xié)議樣式2024
- 2024住宅區(qū)保潔員勞務(wù)協(xié)議樣本
- RFJ 006-2021 RFP型人防過(guò)濾吸收器制造與驗(yàn)收規(guī)范(暫行)
- 2024年高中語(yǔ)文學(xué)業(yè)水平過(guò)關(guān)測(cè)試四-名句名篇默寫(xiě)積累過(guò)關(guān)訓(xùn)練(全國(guó)通用)學(xué)生版
- 內(nèi)蒙古的特色美食
- 招投標(biāo)-招投標(biāo)管理
- 售后工程師熱水系統(tǒng)維護(hù)培訓(xùn)
- 項(xiàng)目管理機(jī)構(gòu)及人員配備表
- 空乘大學(xué)生職業(yè)生涯規(guī)劃
- 使用電器安全教育課件
- 動(dòng)物的生長(zhǎng)激素與動(dòng)物發(fā)育
- 《實(shí)名認(rèn)證》課件
- 語(yǔ)文教學(xué)之學(xué)理
評(píng)論
0/150
提交評(píng)論