版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
醫(yī)學(xué)大數(shù)據(jù)分析關(guān)聯(lián)規(guī)則高等教育出版社CONTENTS目錄1基本概念2
Apriori算法3
FP-Growth算法4關(guān)聯(lián)規(guī)則評(píng)估方法1基本概念關(guān)聯(lián)規(guī)則就是在數(shù)據(jù)集中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)?;靖拍罴膊∨c癥狀間的關(guān)聯(lián)規(guī)則疾病并發(fā)癥的關(guān)聯(lián)研究用藥和方劑配方規(guī)則研究病癥-辨證-處方關(guān)聯(lián)研究藥物間相互作用分析、藥品分類和劑型關(guān)聯(lián)分析癥狀與藥物間的關(guān)聯(lián)關(guān)系….在醫(yī)學(xué)領(lǐng)域的應(yīng)用關(guān)聯(lián)規(guī)則支持度項(xiàng)集項(xiàng)的集合?;靖拍钍聞?wù)與事務(wù)集
置信度
關(guān)聯(lián)規(guī)則的支持度
基本概念01
01
關(guān)聯(lián)規(guī)則的置信度
基本概念01
02
最小支持度和最小置信度基本概念0103
頻繁項(xiàng)集基本概念0104強(qiáng)關(guān)聯(lián)規(guī)則05支持度和置信度都大于等于閾值的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則,否則稱為弱關(guān)聯(lián)規(guī)則。Apriori算法該算法主要包含兩個(gè)步驟:第一步找出事務(wù)數(shù)據(jù)庫(kù)中所有大于等于用戶指定的最小支持度的數(shù)據(jù)項(xiàng)集;第二步是利用頻繁項(xiàng)集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。FP-Growth算法該算法采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一顆頻繁模式樹(FP-tree),同時(shí)依然保留其中的相關(guān)信息,隨后再將FP-tree分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。數(shù)據(jù)降維主要有以下兩種方法關(guān)聯(lián)規(guī)則算法2Apriori算法(1)找出所有頻繁項(xiàng)集;(2)有頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。算法基本思想Apriori算法0101
算法步驟Apriori算法0102利用Apriori算法分析疾病之間的聯(lián)系。分析高血壓、糖尿病、腦血栓、肺結(jié)核和風(fēng)濕這幾種疾病是否存在關(guān)聯(lián),初始數(shù)據(jù)如表7-1所示。假設(shè)最小支持度是50%,最小置信度是70%,可以得到哪些關(guān)聯(lián)規(guī)則?算法舉例Apriori算法0103患者編號(hào)患病情況1高血壓、腦血栓、肺結(jié)核2糖尿病、腦血栓、風(fēng)濕3高血壓、糖尿病、腦血栓、風(fēng)濕4糖尿病、風(fēng)濕
算法舉例Apriori算法0103項(xiàng)集支持度計(jì)數(shù)是否頻繁項(xiàng)集{高血壓}2Y{糖尿病}3Y{腦血栓}3Y{肺結(jié)核}1N{風(fēng)濕}3Y
算法舉例Apriori算法0103項(xiàng)集支持度計(jì)數(shù)是否頻繁項(xiàng)集{高血壓,糖尿病}1N{高血壓,腦血栓}2Y{高血壓,風(fēng)濕}1N{糖尿病,腦血栓}2Y{糖尿病,風(fēng)濕}3Y{腦血栓,風(fēng)濕}2Y
算法舉例Apriori算法0103項(xiàng)集支持度計(jì)數(shù)是否頻繁項(xiàng)集{糖尿病,腦血栓,風(fēng)濕}2Y
求置信度Apriori算法0103根據(jù)最小置信度,得到如下規(guī)則:
糖尿病,腦血栓->風(fēng)濕;
腦血栓,風(fēng)濕->糖尿病;算法舉例Apriori算法01033FP-Grown算法將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵頻繁模式樹(FP-tree),該樹仍保留項(xiàng)集的關(guān)聯(lián)信息。然后,把這種壓縮后的數(shù)據(jù)庫(kù)劃分成一組條件數(shù)據(jù)庫(kù)(一種特殊類型的投影數(shù)據(jù)庫(kù)),每個(gè)數(shù)據(jù)庫(kù)關(guān)聯(lián)一個(gè)頻繁項(xiàng)或“模式段”,并分別挖掘每個(gè)條件數(shù)據(jù)庫(kù)。算法基本思想FP-Grown算法0101輸入:事務(wù)數(shù)據(jù)庫(kù)D,最小支持度閾值min_sup。輸出:頻繁模式的完全集。第一步:構(gòu)造FP-tree:第二步:根據(jù)FP-tree挖掘頻繁項(xiàng)集。算法描述FP-Grown算法0102(1)掃描數(shù)據(jù)庫(kù)D一次。收集頻繁項(xiàng)的集合F和它們的支持度。對(duì)F按支持度降序排序,結(jié)果為頻繁項(xiàng)表L;(2)創(chuàng)建FP-Tree的根節(jié)點(diǎn),以“null”標(biāo)記它。對(duì)于D中每個(gè)事物T,執(zhí)行:選擇T中的頻繁項(xiàng),并按L中的次序排序。設(shè)排序后的頻繁項(xiàng)表為[p|P],其中p是第一個(gè)元素,而P是剩余元素的表。調(diào)用insert_tree([p|P],T)。第一步:構(gòu)造FP-treeFP-Grown算法0102
第二步:根據(jù)FP-tree挖掘頻繁項(xiàng)集FP-Grown算法0102利用FP-growth算法分析疾病之間的聯(lián)系。假設(shè)最小支持度計(jì)數(shù)是3,找出高血壓的頻繁集。算法舉例FP-Grown算法0103患者編號(hào)患病情況1風(fēng)濕,腦血栓,糖尿病,高血壓2肺結(jié)核,糖尿病3糖尿病,風(fēng)濕4腦血栓,風(fēng)濕,肺結(jié)核5肺炎,糖尿病,腦血栓,高血壓6腦血栓,高血壓,糖尿病,風(fēng)濕頻繁1-項(xiàng)集算法舉例FP-Grown算法0103患病項(xiàng)目支持計(jì)數(shù)是否頻繁項(xiàng)集糖尿病5Y腦血栓4Y風(fēng)濕4Y高血壓3Y肺結(jié)核2N肺炎1N按照頻繁項(xiàng)次序重新排序后的患病情況算法舉例FP-Grown算法0103患者編號(hào)患病情況1糖尿病,腦血栓,風(fēng)濕,高血壓2糖尿病,肺結(jié)核3糖尿病,風(fēng)濕4腦血栓,風(fēng)濕,肺結(jié)核5糖尿病,腦血栓,高血壓,肺炎6糖尿病,腦血栓,風(fēng)濕,高血壓生成FP-樹FP-Grown算法0103Root糖尿?。?腦血栓:1風(fēng)濕:1高血壓:1Root糖尿?。?腦血栓:1風(fēng)濕:1高血壓:1Root糖尿?。?腦血栓:1風(fēng)濕:1高血壓:1風(fēng)濕:1生成FP-樹FP-Grown算法0103Root糖尿病:5腦血栓:3風(fēng)濕:2高血壓:2高血壓:1腦血栓:1風(fēng)濕:1糖尿?。?
腦血栓:4
風(fēng)濕:4
高血壓:3
風(fēng)濕:1高血壓頻繁模式算法舉例FP-Grown算法0103支持計(jì)數(shù){高血壓}3{糖尿病,高血壓}3{腦血栓,高血壓}3{糖尿病,腦血栓,高血壓}34關(guān)聯(lián)規(guī)則方法評(píng)估
提升度相關(guān)分析0101
如果式lift的值小于1,則A的出現(xiàn)和B的出現(xiàn)是負(fù)相關(guān)的,意味一個(gè)出現(xiàn)可能導(dǎo)致另一個(gè)不出現(xiàn)。如果結(jié)果值大于1,則A和B是正相關(guān)的,意味每一個(gè)的出現(xiàn)都蘊(yùn)涵另一個(gè)的出現(xiàn)。如果結(jié)果值等于1,則A和B是獨(dú)立的,它們之間沒有相關(guān)性。提升度相關(guān)分析0101
使用提升度進(jìn)行相關(guān)分析,分析口罩和面巾紙是否存在負(fù)相關(guān)。提升度舉例相關(guān)分析0102
購(gòu)買口罩沒有購(gòu)買口罩合計(jì)購(gòu)買面巾紙400035007500沒有購(gòu)買面巾紙20005002500合計(jì)6000400010000
提升度舉例相關(guān)分析0102
提升度舉例相關(guān)分析0102數(shù)據(jù)集:
乳腺癌復(fù)發(fā)數(shù)據(jù)集來自O(shè)penML,是由南斯拉夫盧布爾雅那大學(xué)腫瘤研究所的M.Zwitter和M.Soklic于1988年捐贈(zèng)。數(shù)據(jù)集一共有286個(gè)實(shí)例,其中復(fù)發(fā)85例,沒有復(fù)發(fā)的是201例。每個(gè)實(shí)例有10個(gè)屬性關(guān)聯(lián)規(guī)則應(yīng)用案例——分析乳腺癌復(fù)發(fā)數(shù)據(jù),提取有用規(guī)則關(guān)聯(lián)規(guī)則應(yīng)用案例——分析乳腺癌復(fù)發(fā)數(shù)據(jù),提取有用規(guī)則屬性名含義取值范圍age年齡20-29,30-39,40-49,50-59,60-69,70-79menopause絕經(jīng)情況lt40(40歲之前絕經(jīng)),ge40(40歲之后絕經(jīng)),premeno(還未絕經(jīng))tumor-size腫瘤大小0-4,5-9,10-14,15-19,20-24,25-29,30-34,35-39,40-44,45-49,50-54inv-nodes受侵淋巴結(jié)數(shù)0-2,3-5,6-8,9-11,12-14,15-17,18-20node-caps有無結(jié)節(jié)冒yes,nodeg-malig惡性腫瘤程度1,2,3breast腫塊位置left,rightbreast-quad腫塊所在象限left-up,left-low,right-up,right-low,centralirradiat是否放療yes,noClass是否復(fù)發(fā)no-recurrence-events,recurrence-events關(guān)聯(lián)規(guī)則應(yīng)用案例——分析乳腺癌復(fù)發(fā)數(shù)據(jù),提取有用規(guī)則屬性名含義取值范圍age年齡A1,A2,A3,A4,A5,A6menopause絕經(jīng)情況M1,M2,M3tumor-size腫瘤大小T1,T2,T3,T4,T5,T6,T7,T8,T9,T10,T11inv-nodes受侵淋巴結(jié)數(shù)IN1,IN2,IN3,IN4,IN5,IN6,IN7node-caps有無結(jié)節(jié)冒N1,N0deg-malig惡性腫瘤程度D1,D2,D3breast-quad腫塊所在象限BQ1,BQ2,BQ3,BQ4,BQ5irradiat是否放療IR1,IR0Class是否復(fù)發(fā)C0,C1將原始數(shù)據(jù)轉(zhuǎn)換成字符關(guān)聯(lián)規(guī)則應(yīng)用案例——分析乳腺癌復(fù)發(fā)數(shù)據(jù),提取有用規(guī)則顯示前15條規(guī)則THANKS本講結(jié)束高等教育出版社醫(yī)學(xué)大數(shù)據(jù)分析分類方法高等教育出版社CONTENTS目錄1什么是分類2決策樹3隨機(jī)森林算法4樸素貝葉斯分類4分類算法評(píng)估1什么是分類?分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過程,即給定一組輸入的屬性向量及其對(duì)應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類。什么是分類??什么是分類?分類的作用:預(yù)測(cè)分類字段(或離散值)預(yù)測(cè)種類基于訓(xùn)練集形成一個(gè)模型,訓(xùn)練集中的類標(biāo)簽是已知的,使用該模型對(duì)新的數(shù)據(jù)進(jìn)行分類。典型應(yīng)用:信用評(píng)分醫(yī)療診斷性能預(yù)測(cè)分類的特點(diǎn)模型的創(chuàng)建:對(duì)一個(gè)類別已經(jīng)確定的數(shù)據(jù)集創(chuàng)建模型用于創(chuàng)建模型的數(shù)據(jù)集叫:訓(xùn)練集模型的使用:用創(chuàng)建的模型預(yù)測(cè)未來或者類別未知的記錄估計(jì)模型的準(zhǔn)確率使用創(chuàng)建的模型在一個(gè)測(cè)試集上進(jìn)行預(yù)測(cè),并將結(jié)果和實(shí)際值進(jìn)行比較準(zhǔn)確率:正確被模型分類的測(cè)試樣本的百分比測(cè)試集和訓(xùn)練集是獨(dú)立的分類的兩個(gè)步驟訓(xùn)練數(shù)據(jù)分類算法If“年齡”=“31…40”and“收入”=“高”then“信譽(yù)度”=“非常好”模型(分類規(guī)則)分類過程1:模型創(chuàng)建模型(分類規(guī)則)測(cè)試數(shù)據(jù)未知數(shù)據(jù)(李斌,31…40,“高”)信譽(yù)度非常好分類過程1:模型使用獲取數(shù)據(jù)預(yù)處理去除噪聲數(shù)據(jù)數(shù)據(jù)變換數(shù)據(jù)壓縮分類器設(shè)計(jì)劃分?jǐn)?shù)據(jù)集分類器構(gòu)造分類器測(cè)試分類決策對(duì)新數(shù)據(jù)樣本進(jìn)行分類分類的過程2決策樹決策樹(DecisionTree)是一種非參數(shù)的有監(jiān)督學(xué)習(xí)方法,它能夠從一系列有特征和標(biāo)簽的數(shù)據(jù)中總結(jié)出決策規(guī)則,并用樹狀圖的結(jié)構(gòu)來呈現(xiàn)這些規(guī)則,以解決分類和回歸問題,決策樹算法容易理解,適用于各種數(shù)據(jù),在解決各種問題時(shí)都有良好表現(xiàn),尤其是以樹模型為核心的各種集成算法,在各個(gè)行業(yè)和領(lǐng)域都有廣泛的應(yīng)用。決策樹名字體溫表皮覆蓋胎生水生動(dòng)物飛行動(dòng)物右腿冬眠類標(biāo)號(hào)人類恒溫毛發(fā)是否否是否哺乳類鮭魚冷血鱗片否是否否否魚類鯨恒溫毛發(fā)是是否否否哺乳類青蛙冷血無否半否是是兩棲類巨蜥冷血鱗片否否否是否鳥類蝙蝠恒溫毛發(fā)是否是是是哺乳類鴿子恒溫羽毛否否是是否鳥類貓恒溫軟毛是否否是否哺乳類豹紋鯊冷血鱗片是是否否否魚類海龜冷血鱗片否半否是否爬行類企鵝恒溫羽毛否半否是否鳥類豪豬恒溫剛毛是否否是是哺乳類鰻冷血鱗片否是否否否魚類蠑螈冷血無否半否是是兩棲類決策樹名字體溫表皮覆蓋胎生水生動(dòng)物飛行動(dòng)物右腿冬眠類標(biāo)號(hào)人類恒溫毛發(fā)是否否是否哺乳類鮭魚冷血鱗片否是否否否魚類鯨恒溫毛發(fā)是是否否否哺乳類青蛙冷血無否半否是是兩棲類巨蜥冷血鱗片否否否是否鳥類蝙蝠恒溫毛發(fā)是否是是是哺乳類鴿子恒溫羽毛否否是是否鳥類貓恒溫軟毛是否否是否哺乳類豹紋鯊冷血鱗片是是否否否魚類海龜冷血鱗片否半否是否爬行類企鵝恒溫羽毛否半否是否鳥類豪豬恒溫剛毛是否否是是哺乳類鰻冷血鱗片否是否否否魚類蠑螈冷血無否半否是是兩棲類體溫:冷血,體表:帶鱗片,不是胎生類別是什么?決策樹假如我們現(xiàn)在發(fā)現(xiàn)了一種新物種Python,它是冷血?jiǎng)游?,體表帶鱗片,并且不是胎生,通過這棵決策樹判斷它的所屬類別是什么?非哺乳動(dòng)物根節(jié)點(diǎn)體溫恒溫冷血是否胎生非哺乳動(dòng)物哺乳動(dòng)物內(nèi)部節(jié)點(diǎn)葉節(jié)點(diǎn)決策樹在決策過程中,我們一直在對(duì)記錄的特征進(jìn)行提問,最初的問題所在的地方叫做根節(jié)點(diǎn),在得到結(jié)論前的每一個(gè)問題都是中間節(jié)點(diǎn),而得到每一個(gè)結(jié)論都叫葉子節(jié)點(diǎn)。節(jié)點(diǎn)類別:根節(jié)點(diǎn):沒有進(jìn)邊,只有出邊,包含最初的針對(duì)特征的提問中間節(jié)點(diǎn):既有進(jìn)邊也有出邊,進(jìn)邊只有一條,出邊可以有很多條,都是針對(duì)特征的提問。葉子節(jié)點(diǎn):有進(jìn)邊,沒有出邊,每個(gè)葉子節(jié)點(diǎn)都是一個(gè)類別標(biāo)簽。子節(jié)點(diǎn)和父節(jié)點(diǎn):在兩個(gè)相連的節(jié)點(diǎn)中,更接近根節(jié)點(diǎn)的是父節(jié)點(diǎn),另一個(gè)是子節(jié)點(diǎn)。決策樹沒有=1有=2,3=3=1,2>14<=14腫瘤大小腫瘤惡性程度腫瘤惡性程度
是否有結(jié)節(jié)
不復(fù)發(fā)不復(fù)發(fā)復(fù)發(fā)不復(fù)發(fā)復(fù)發(fā)決策樹如何從數(shù)據(jù)表中找到最佳節(jié)點(diǎn)和最佳分枝如何讓決策樹停止生長(zhǎng),防止過擬合決策樹算法要解決的核心問題決策樹生成算法分成兩個(gè)步驟樹的生成開始,數(shù)據(jù)都在根節(jié)點(diǎn)遞歸的進(jìn)行數(shù)據(jù)分片樹的修剪去掉一些可能是噪音或者異常的數(shù)據(jù)決策樹使用:對(duì)未知數(shù)據(jù)進(jìn)行分割按照決策樹上采用的分割屬性逐層往下,直到一個(gè)葉子節(jié)點(diǎn)決策樹算法操作步驟基本算法(貪心算法)自上而下分而治之的方法開始時(shí),所有的數(shù)據(jù)都在根節(jié)點(diǎn)屬性都是種類字段(如果是連續(xù)的,將其離散化)所有記錄用所選屬性遞歸的進(jìn)行分割屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量(如,信息增益)停止分割的條件一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)類別沒有屬性可以再用于對(duì)數(shù)據(jù)進(jìn)行分割-少數(shù)服從多數(shù)決策樹算法
屬性選擇度量設(shè)數(shù)據(jù)分區(qū)D為標(biāo)記類元組的訓(xùn)練集。假定類標(biāo)號(hào)屬性具有m個(gè)不同值,定義了m個(gè)不同的類ci(i=1,…,m)。設(shè)Ci,D
是D中Ci類元組的集合,|D|和|Ci,D|分別是D和Ci,D中元組的個(gè)數(shù)。對(duì)D中元組分類所需要的期望信息(熵):其中Pi=|Ci,D|/|D|(估計(jì)D中任意元組屬于類Ci的概率)信息增益的定義按屬性A對(duì)D的元組分類所需要的期望信息:其中|Dj|/|D|充當(dāng)?shù)趈個(gè)分區(qū)的權(quán)重,Info(Dj)是第j個(gè)分區(qū)分類所需的期望信息。屬性A的信息增益為:信息增益的定義
ID年齡收入學(xué)生信譽(yù)歸類1青高否良不買2青高否優(yōu)不買3中高否良買4老中否良買5老低是良買6老低是優(yōu)不買7中低是優(yōu)買8青中否良不買9青低是良買10老中是良買11青中是優(yōu)買12中中否優(yōu)買13中高是良買14老中否優(yōu)不買使用信息增益進(jìn)行屬性選擇需要計(jì)算每個(gè)屬性的期望信息需求:使用信息增益進(jìn)行屬性選擇ID年齡收入學(xué)生信譽(yù)歸類1青高否良不買2青高否優(yōu)不買3中高否良買4老中否良買5老低是良買6老低是優(yōu)不買7中低是優(yōu)買8青中否良不買9青低是良買10老中是良買11青中是優(yōu)買12中中否優(yōu)買13中高是良買14老中否優(yōu)不買使用信息增益進(jìn)行屬性選擇年齡青中老收入學(xué)生信譽(yù)歸類中否良買低是良買低是優(yōu)不買中是良買中否優(yōu)不買收入學(xué)生信譽(yù)歸類高否良不買高否優(yōu)不買中否良不買低是良買中是優(yōu)買收入學(xué)生信譽(yù)歸類高否良買低是優(yōu)買中否優(yōu)買高是良買樹葉買決策樹根節(jié)點(diǎn)分裂屬性年齡?學(xué)生?信譽(yù)?買青中老否是優(yōu)良不買買買不買輸出決策樹用IF-THEN這種形式來表現(xiàn)規(guī)則每個(gè)葉子節(jié)點(diǎn)都創(chuàng)建一條規(guī)則每個(gè)分割都成為一個(gè)規(guī)則中的一個(gè)條件葉子節(jié)點(diǎn)中的類別就是Then的內(nèi)容規(guī)則對(duì)于人來說更容易理解從決策樹中生成分類規(guī)則IF年齡=“青”AND學(xué)生=“否”THEN購(gòu)買計(jì)算機(jī)=“不買”IF年齡=“青”AND學(xué)生=“是”THEN購(gòu)買計(jì)算機(jī)=“買”IF年齡=“中”THEN購(gòu)買計(jì)算機(jī)=“買”IF年齡=“老”AND信譽(yù)=“優(yōu)”THEN購(gòu)買計(jì)算機(jī)=“不買”IF年齡=“老”AND信譽(yù)=“良”THEN購(gòu)買計(jì)算機(jī)=“買”年齡?學(xué)生?信譽(yù)?買青中老否是優(yōu)良不買買買不買從決策樹中生成分類規(guī)則從根到葉子節(jié)點(diǎn)的路徑產(chǎn)生一個(gè)規(guī)則產(chǎn)生的規(guī)則是互斥的、窮舉的沒有沖突的規(guī)則,每個(gè)元組被覆蓋從決策樹中提取規(guī)則的優(yōu)點(diǎn)過擬合發(fā)生在模型太過偏向訓(xùn)練數(shù)據(jù)時(shí)我們的目標(biāo)是學(xué)習(xí)一個(gè)一般的模型,既要符合訓(xùn)練數(shù)據(jù)也要符合其他數(shù)據(jù)(比如測(cè)試數(shù)據(jù))年齡?學(xué)生?信譽(yù)?買青中老否是優(yōu)良不買買買不買過擬合一棵決策樹可能過分?jǐn)M合訓(xùn)練數(shù)據(jù)由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常,導(dǎo)致分枝太多在進(jìn)行預(yù)測(cè)的時(shí)候準(zhǔn)確率比較差不要太大也不能太深,葉節(jié)點(diǎn)中太少記錄過擬合決策樹的學(xué)習(xí)過程一直會(huì)降低訓(xùn)練誤差但這是不是我們想要的?過擬合即使訓(xùn)練誤差在降低,測(cè)試誤差可能會(huì)升高!過擬合在樹構(gòu)建之后,返回并“修剪”樹,移除樹的底層部分類似于提前停止樹的生長(zhǎng)。阻止過擬合:樹的剪枝先剪枝:提前停止對(duì)樹的構(gòu)建,讓節(jié)點(diǎn)成為葉節(jié)點(diǎn)。在構(gòu)建樹時(shí),設(shè)定信息增益等的閾值,若所有屬性進(jìn)行分裂時(shí),均小于閾值,則停止分裂。選擇一個(gè)合適的閾值很困難后剪枝:從完全生長(zhǎng)的樹剪去分枝。對(duì)于每個(gè)內(nèi)部節(jié)點(diǎn)N,計(jì)算N的子樹的代價(jià)復(fù)雜度和該子樹剪枝后N的子樹的代價(jià)復(fù)雜度。比較這兩個(gè)值,若剪去之后代價(jià)復(fù)雜度變小,則剪掉該子樹。其中樹的復(fù)雜度看做樹節(jié)點(diǎn)個(gè)數(shù)和錯(cuò)誤率的函數(shù)使用獨(dú)立于訓(xùn)練集和測(cè)試集的剪枝集進(jìn)行剪枝。樹剪枝3隨機(jī)森林算法...集成學(xué)習(xí)就是通過構(gòu)建并整合多棵分類樹來完成分類任務(wù)。個(gè)體分類樹1個(gè)體分類樹2個(gè)體分類樹T整合成一棵樹(集成樹)...輸出集成學(xué)習(xí)表1集成性能提升測(cè)試數(shù)據(jù)1測(cè)試數(shù)據(jù)2測(cè)試數(shù)據(jù)3分類樹1
X分類樹2X
分類樹3
X
集成樹
例:在二分類任務(wù)中,假定三棵分類樹在三個(gè)測(cè)試觀測(cè)上的表現(xiàn)如下表所示。其中“
”表示分類正確,“X”表示分類錯(cuò)誤。集成樹通過投票法(即少數(shù)服從多數(shù)的原則)產(chǎn)生預(yù)測(cè)結(jié)果。集成學(xué)習(xí)表2集成不起作用測(cè)試數(shù)據(jù)1測(cè)試數(shù)據(jù)2測(cè)試數(shù)據(jù)3分類樹1
X分類樹2
X分類樹3
X集成樹
X測(cè)試數(shù)據(jù)1測(cè)試數(shù)據(jù)2測(cè)試數(shù)據(jù)3分類樹1
XX分類樹2X
X分類樹3XX
集成樹XXX表3集成起負(fù)作用集成學(xué)習(xí)個(gè)體分類樹應(yīng)該“好而不同”,即個(gè)體分類樹要有一定的“準(zhǔn)確性”,即預(yù)測(cè)性能不能太差,同時(shí)要有“多樣性”,即個(gè)體分類樹之間要有差異。如何獲得好的集成樹?隨機(jī)森林算法是Bagging算法的進(jìn)化版,在Bagging的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了屬性的隨機(jī)選擇,從而達(dá)到對(duì)樹去相關(guān)(decorrelating),實(shí)現(xiàn)對(duì)Bagging算法的改進(jìn)。隨機(jī)森林算法(RandomForest)隨機(jī)森林通過抽取不同的訓(xùn)練集以及隨機(jī)抽取屬性進(jìn)行訓(xùn)練的方式,來達(dá)到增加分類模型間差異的目的,最終結(jié)果由彼此之間并無相關(guān)性的多棵決策樹共同決定,可以很好地避免決策樹分類中的過擬合問題,能夠有效減少單個(gè)分類器的誤差。隨機(jī)森林模型簡(jiǎn)單易懂、便于實(shí)現(xiàn),不需要調(diào)整過多的參數(shù),對(duì)訓(xùn)練樣本數(shù)量的需求和人工干預(yù)均較少。隨機(jī)森林算法具有更高的穩(wěn)定性,預(yù)測(cè)能力好,分類精度高,比決策樹等精度有很大提升。隨機(jī)森林算法對(duì)于大樣本數(shù)據(jù)集具有快速性、高效性、而且能夠很快適應(yīng)高維數(shù)據(jù)應(yīng)用情況。同時(shí)很少發(fā)生過擬合的現(xiàn)象、分類速度很快、抗噪聲能力強(qiáng)。隨機(jī)抽取樣本和隨機(jī)選取屬性值是隨機(jī)森林算法最大的特征之一,因此算法能很好地容忍異常值和缺失值,避免個(gè)別差值對(duì)模型造成過大影響。隨機(jī)森林算法在訓(xùn)練過程中產(chǎn)生的多棵決策樹之間并無關(guān)聯(lián)性,因此算法非常適合在并行環(huán)境下運(yùn)行,加入并行計(jì)算框架可以大大減少大體量數(shù)據(jù)集的訓(xùn)練時(shí)間。隨機(jī)森林算法(RandomForest)(1) 隨機(jī)森林分類的效果受任意兩棵樹的相關(guān)性的影響。樹之間的相關(guān)性越大,分類能力越差。(2) 隨機(jī)森林中單棵樹的分類能力影響整個(gè)隨機(jī)森林的性能,每棵樹的分類能力越強(qiáng),則相應(yīng)的隨機(jī)森林分類能力也就越強(qiáng)。(3) 算法的分類思想是少數(shù)服從多數(shù),因此在面對(duì)類別樣本數(shù)相差懸殊的數(shù)據(jù)集時(shí),容易將少數(shù)類歸為多數(shù)類,造成很高的假分類精度(4) 過多的冗余屬性會(huì)擾亂模型的學(xué)習(xí)能力,導(dǎo)致模型過擬合,限制了模型的普適性。隨機(jī)森
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 重點(diǎn)環(huán)節(jié)應(yīng)急管
- 沈陽(yáng)理工大學(xué)《含能運(yùn)載材料》2023-2024學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《操作系統(tǒng)》2022-2023學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《環(huán)境工程項(xiàng)目管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 海南小產(chǎn)權(quán)房買賣合同
- 2025屆高考數(shù)學(xué)統(tǒng)考二輪復(fù)習(xí)第二部分專題5解析幾何第1講直線與圓教師用書教案理1
- 2024部門經(jīng)理入職發(fā)言部門經(jīng)理入職合同范本
- 2024職工住房抵押借款合同范本
- 2024網(wǎng)絡(luò)安全服務(wù)合同
- 2024水庫(kù)承包合同范本范文
- 2024年浙江杭州錢塘新區(qū)城市發(fā)展集團(tuán)限公司招聘30人公開引進(jìn)高層次人才和急需緊缺人才筆試參考題庫(kù)(共500題)答案詳解版
- 成人住院患者靜脈血栓栓塞癥Caprini、Padua風(fēng)險(xiǎn)評(píng)估量表
- 排球《正面上手發(fā)球》教案
- 股骨粗隆間骨折
- 小班安全我要跟著老師走
- (正式版)JBT 14795-2024 內(nèi)燃機(jī)禁用物質(zhì)要求
- 基于核心素養(yǎng)初中數(shù)學(xué)跨學(xué)科教學(xué)融合策略
- 200TEU 長(zhǎng)江集裝箱船設(shè)計(jì)
- 辦公樓物業(yè)服務(wù)管理的培訓(xùn)
- 智慧能源管理平臺(tái)建設(shè)項(xiàng)目解決方案
- JTG∕T F30-2014 公路水泥混凝土路面施工技術(shù)細(xì)則
評(píng)論
0/150
提交評(píng)論