X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計(jì)決策決策樹關(guān)聯(lián)遺傳_第1頁
X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計(jì)決策決策樹關(guān)聯(lián)遺傳_第2頁
X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計(jì)決策決策樹關(guān)聯(lián)遺傳_第3頁
X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計(jì)決策決策樹關(guān)聯(lián)遺傳_第4頁
X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計(jì)決策決策樹關(guān)聯(lián)遺傳_第5頁
已閱讀5頁,還剩145頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

課程名稱:數(shù)據(jù)挖掘與統(tǒng)計(jì)決策

教師:廖芹

Email:maqliao@問題:如果有60個(gè)因素影響銀行貸款,要判別是否給企業(yè)貸款,如何用少數(shù)主要的若干個(gè)影響因素,建立貸款判別規(guī)則?即如何從一組數(shù)據(jù)提取具有因果關(guān)系的分類判別規(guī)則?

決策樹:通過樣本數(shù)據(jù)對分類類別信息的確定性程度,建立樹結(jié)構(gòu)表示分類因果關(guān)系,以提取分類規(guī)則的分類方法。問題:對下列14個(gè)分類樣本數(shù)據(jù)集,如何建立天氣分類決策樹?五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P150五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P152五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P153在條件V下,減少或五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P153五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P154五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法補(bǔ)充———類似P155(5.6)五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法補(bǔ)充———類似P155(5.7)五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法補(bǔ)充———類似P155(5.7)五、數(shù)據(jù)挖掘方法——決策樹(比特)決策樹-ID3算法P156補(bǔ)充———類似P155(5.8),(5.9),P156(5.10)決策樹-ID3算法P156五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法天氣風(fēng)力濕度有雨

多云P

潮濕N

正常P

有風(fēng)N

無風(fēng)P

可以看到:對樣本需要四個(gè)屬性才能分類的問題,通過決策樹可以用兩個(gè)屬性就可以分類??梢酝ㄟ^決策樹提取分類的判別規(guī)則以應(yīng)用。

問題:少了某因素變量的決策樹是否合理?是否可以應(yīng)用?五、數(shù)據(jù)挖掘方法——決策樹用建立的決策樹檢驗(yàn)第1號樣本:1號樣本:天氣:晴;溫度:熱;濕度:潮濕;風(fēng)力:沒風(fēng);用規(guī)則1:則氣候?qū)儆贜類,與樣本的專家判別結(jié)果一樣結(jié)論:最多用兩個(gè)因素變量(屬性)即可以判別天氣類別。只有一個(gè)因素變量就可以判別五、數(shù)據(jù)挖掘方法——決策樹五、數(shù)據(jù)挖掘方法——決策樹Clementine輔助決策樹五、數(shù)據(jù)挖掘方法——決策樹Clementine輔助決策樹決策樹-C4.5算法P158H(X,a)=I(X,a)=H(X)-H(X|a)決策樹-C4.5算法P154決策樹-C4.5算法P158五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法P158-P159五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法P159五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法補(bǔ)充一、決策樹-C4.5算法補(bǔ)充五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法補(bǔ)充五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法補(bǔ)充五、數(shù)據(jù)挖掘方法——決策樹決策樹-CART算法P159五、數(shù)據(jù)挖掘方法——決策樹決策樹-CART算法P159五、數(shù)據(jù)挖掘方法——決策樹決策樹-CART算法P160五、數(shù)據(jù)挖掘方法——決策樹決策樹-CART算法P160決策樹-CART算法P1612=11311133/130.196決策樹-CART算法P161五、數(shù)據(jù)挖掘方法——決策樹0.196決策樹-CART算法補(bǔ)充五、數(shù)據(jù)挖掘方法——決策樹決策樹P170五、數(shù)據(jù)挖掘方法——決策樹

葉結(jié)點(diǎn)深度是指葉結(jié)點(diǎn)相距根結(jié)點(diǎn)的層數(shù)。如下決策樹,葉結(jié)點(diǎn)數(shù)=2+3+1=6,葉結(jié)點(diǎn)深度和=2*2+3*2+1*1=11決策樹-剪枝算法當(dāng)?shù)竭_(dá)某結(jié)點(diǎn)的樹具有指定的實(shí)例識別率時(shí),停止生長.P171已經(jīng)成長決策樹-剪枝算法P171五、數(shù)據(jù)挖掘方法——決策樹決策樹-剪枝算法P172五、數(shù)據(jù)挖掘方法——決策樹決策樹-剪枝算法P172決策樹-剪枝算法P172五、數(shù)據(jù)挖掘方法——決策樹決策樹-剪枝算法P173五、數(shù)據(jù)挖掘方法——決策樹決策樹-剪枝算法P173決策樹-剪枝算法P174數(shù)據(jù)挖掘軟件Clementine輔助決策樹城市醫(yī)療水平能力綜合評價(jià)分類決策樹建立1、導(dǎo)入評價(jià)樣本數(shù)據(jù)并選擇模型;2、設(shè)置參數(shù)

城市醫(yī)療水平能力綜合評價(jià)分類決策樹建立(類別定性取值情況)10個(gè)樣本如果導(dǎo)入數(shù)據(jù)時(shí)選擇是連續(xù)型取值的范圍,則C5.0方法的決策樹也是兩叉形式,只有選擇離散型的取值時(shí),才有三叉以上的輸出。

當(dāng)修剪嚴(yán)重度為90%、95%時(shí),決策樹分別見下面左與右,左樹的深度減少了一層,右樹的深度減少了兩層。城市醫(yī)療水平能力綜合評價(jià)分類決策樹建立(樣本定性取值情況)樣本不修剪分類正確率修剪90%分類正確率修剪95%分類正確率建模樣本100%90%70%檢驗(yàn)樣本44.44%44.44%33.33%與神經(jīng)網(wǎng)絡(luò)模型預(yù)測誤差相比,檢驗(yàn)樣本誤差增加了。城市醫(yī)療水平能力綜合評價(jià)分類—二叉決策樹建立模型建立:選擇“建?!敝械摹癈&R樹”節(jié)點(diǎn),右鍵設(shè)置模型參數(shù)。分別設(shè)置根以下的層為5,3和2,得到不同的決策樹。模型結(jié)果:

運(yùn)行模型得到?jīng)Q策樹分類結(jié)果,右鍵瀏覽模型結(jié)果:根以下層為5時(shí),表示根以下層數(shù)目不會超過5,結(jié)果如下所示,可以發(fā)現(xiàn),結(jié)果只有3層,也就是說根以下層達(dá)到3時(shí),已經(jīng)對數(shù)據(jù)完全分類。若設(shè)置根以下層為3,結(jié)果也是與下面結(jié)果一致。城市醫(yī)療水平能力綜合評價(jià)分類—二叉決策樹建立(類別定量取值情況)根以下5層與3層決策樹結(jié)果見左圖,根以下2層決策樹結(jié)果見右圖:當(dāng)同節(jié)點(diǎn)的樣本是同類別時(shí),表示已分類完畢。當(dāng)同節(jié)點(diǎn)的樣本不同類別時(shí),以同類樣本占節(jié)點(diǎn)樣本為權(quán)重加權(quán)平均模型檢驗(yàn):

可以看到模型的自檢驗(yàn)的100%準(zhǔn)確的,誤差是0,而檢驗(yàn)樣本檢驗(yàn)的絕對平均誤差是1.778.可以把分類結(jié)果導(dǎo)出,可以看出建模樣本的準(zhǔn)確率是100%,檢驗(yàn)樣本的準(zhǔn)確率是33.33%。

城市醫(yī)療水平能力綜合評價(jià)分類—二叉決策樹建立學(xué)習(xí)樣本病人數(shù)醫(yī)生數(shù)工作人員數(shù)門診所數(shù)死亡率醫(yī)療能力評價(jià)醫(yī)療能力評價(jià)(根以下3層)醫(yī)療能力評價(jià)(根以下2層)上海0.51.51.51.5-1.51.51.51.5北京-0.51.51.51.50.51.51.51.5沈陽-1.5-1.5-1.5-0.50.5-1.5-1.5-1.5武漢0.50.50.5-0.5-1.5-0.5-0.5-0.25哈爾濱1.50.5-0.5-1.5-0.5-0.5-0.5-0.25重慶0.50.5-1.5-1.5-1.5-1.5-1.5-1.5成都-0.50.50.5-0.5-0.5-0.5-0.5-0.25蘭州1.50.5-0.50.51.51.51.51.5青島0.5-1.51.51.5-0.50.50.50.5鞍山0.5-0.5-0.5-1.51.50.50.5-0.25天津-1.50.5-1.50.5-0.5-1.51.51.5廣州-0.50.50.50.5-0.50.51.51.5南京-1.50.50.50.5-0.50.51.51.5西安0.50.5-0.50.50.50.5-0.51.5長春0.50.50.5-0.50.50.51.5-0.25太原1.50.50.50.51.51.5-1.51.5大連-1.5-0.5-1.5-0.50.5-1.51.5-1.5濟(jì)南1.51.51.50.5-0.51.5-1.51.5撫順0.5-1.5-1.5-1.50.5-0.51.5-1.5三層樣本正確率:自檢100%,檢驗(yàn)33%二層樣本正確率:自檢40%,檢驗(yàn)33%城市醫(yī)療水平能力綜合評價(jià)分類—二叉決策樹建立問題:智能功能實(shí)現(xiàn),需要知識規(guī)則和知識推理的支持,決策樹可以支持提取確定性的知識規(guī)則,但實(shí)際中可能出現(xiàn)許多不確定的情況。如何提取不確定性規(guī)則?購物籃問題:超市中每天有大量的購買數(shù)據(jù),這些數(shù)據(jù)中發(fā)現(xiàn)啤酒與尿片的關(guān)系密切,是否需要關(guān)注這種情況而改變超市中這兩種物品的擺放位置,以適應(yīng)顧客的需要?應(yīng)用問題:為了促銷產(chǎn)品,應(yīng)該以什么方案配置才具有激勵(lì)購買積極性的作用?擴(kuò)展問題:未來產(chǎn)品產(chǎn)業(yè)鏈的發(fā)展與什么有關(guān)?發(fā)展速度與增長幅度的可能性如何預(yù)測?思路:可以采用關(guān)聯(lián)分析或時(shí)序關(guān)聯(lián)分析,發(fā)現(xiàn)事物之間同時(shí)出現(xiàn)可能性大的行為模式和規(guī)則,以支持原因之間、原因與結(jié)果之間的推理。六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則分析六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析思路:1、物品或項(xiàng)目出現(xiàn)可能性大的才關(guān)注;2、A出現(xiàn)導(dǎo)致B出現(xiàn)可能性大的規(guī)則才關(guān)注;3、指定期望可能性,大于這一可能性的項(xiàng)目或規(guī)則才關(guān)注。由此定義支持度與置信度。

補(bǔ)充

以不確定性度量關(guān)聯(lián)規(guī)則分析-主要概念=>=>=>=>P189關(guān)聯(lián)規(guī)則分析-主要概念關(guān)聯(lián)規(guī)則分析-Apriori方法P189關(guān)聯(lián)規(guī)則分析-Apriori方法=>P190六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析其中,“過濾”是指判別項(xiàng)目集是否大于最小支持度,如果大于就保留,否則淘汰.六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析補(bǔ)充,類似P191例6.2六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析補(bǔ)充,類似P192例6.2六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析補(bǔ)充,類似P193例6.2問題:除BCE外,還有其它的最大頻繁集嗎?六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析設(shè)有五種物品:A,B,C,D,E,銷售記錄的五項(xiàng)業(yè)務(wù)T為:業(yè)務(wù):T001T002T003T004T005

物品:ACDBCEABCEABCED問題:下面物品中,哪些物品之間被購買有密切關(guān)系?什么物品被買可以導(dǎo)致另一些物品被買?同理可以得到:BC→E,BE→C,CE→B的規(guī)則

六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析B→CConf=1,Supp=3/43/43/3=13/43/43/43/43/41Clementine輔助過程及結(jié)果六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析Clementine輔助過程及結(jié)果六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析Clementine輔助城市醫(yī)療水平影響因素的關(guān)聯(lián)分析學(xué)習(xí)樣本

樣本病人數(shù)醫(yī)生數(shù)工作人員數(shù)門診所數(shù)死亡率醫(yī)療能力評價(jià)

上海0.51.51.51.5-1.51.5

北京-0.51.51.51.50.51.5

沈陽-1.5-1.5-1.5-0.50.5-1.5

武漢0.50.50.5-0.5-1.5-0.5

哈爾濱1.50.5-0.5-1.5-0.5-0.5

重慶0.50.5-1.5-1.5-1.5-1.5

成都-0.50.50.5-0.5-0.5-0.5

蘭州1.50.5-0.50.51.51.5

青島0.5-1.51.51.5-0.50.5

鞍山0.5-0.5-0.5-1.51.50.5

檢驗(yàn)樣本樣本病人數(shù)醫(yī)生數(shù)工作人員數(shù)門診所數(shù)死亡率醫(yī)療能力評價(jià)天津-1.50.5-1.50.5-0.5-1.5廣州-0.50.50.50.5-0.50.5南京-1.50.50.50.5-0.50.5西安0.50.5-0.50.50.50.5長春0.50.50.5-0.50.50.5太原1.50.50.50.51.51.5大連-1.5-0.5-1.5-0.50.5-1.5濟(jì)南1.51.51.50.5-0.51.5撫順0.5-1.5-1.5-1.50.5-0.5Clementine輔助城市醫(yī)療水平影響因素的關(guān)聯(lián)分析1、導(dǎo)入評價(jià)樣本數(shù)據(jù)并選擇模型,其中數(shù)據(jù)集中的取值轉(zhuǎn)換為定性取值:

1.5=V,0.5=g,-0.5=a,-1.5=b2、設(shè)置參數(shù)六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析Clementine輔助城市醫(yī)療水平影響因素的關(guān)聯(lián)分析不同支持度和置信度下的關(guān)聯(lián)規(guī)則數(shù)目最小支持度50%40%30%30%20%最小置信度50%40%50%40%20%規(guī)則數(shù)目223851349最小支持度為30%和最小置信度為50%時(shí)的部分關(guān)聯(lián)規(guī)則后項(xiàng)前項(xiàng)支持度%置信度%醫(yī)生數(shù)=g醫(yī)療能力評價(jià)=a30100病人數(shù)=g死亡率=b30100工作人員數(shù)=v門診所數(shù)=v30100門診所數(shù)=v工作人員數(shù)=v30100病人數(shù)=v工作人員數(shù)=a3067死亡率=v工作人員數(shù)=a3067死亡率=a醫(yī)療能力評價(jià)=aand醫(yī)生數(shù)=g3067門診所數(shù)=a醫(yī)療能力評價(jià)=aand醫(yī)生數(shù)=g3067醫(yī)生數(shù)=g死亡率=band病人數(shù)=g3067醫(yī)療能力評價(jià)=v門診所數(shù)=vand工作人員數(shù)=v3067病人數(shù)=g門診所數(shù)=vand工作人員數(shù)=v3067醫(yī)療能力評價(jià)=a醫(yī)生數(shù)=g5060死亡率=b病人數(shù)=g5060六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析

對最小支持度為30%和最小置信度為50%時(shí)得到的模型,進(jìn)行建模檢驗(yàn)樣本的關(guān)系預(yù)測。建模樣本關(guān)系預(yù)測:對每一樣本,把與樣本匹配前項(xiàng)的后項(xiàng)結(jié)果列示,顯示對應(yīng)的規(guī)則置信度,以及有關(guān)規(guī)則數(shù)。例:醫(yī)療能力評價(jià)=aand醫(yī)生數(shù)=g則有死亡率=a0.67六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析檢驗(yàn)樣本關(guān)系預(yù)測六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析問題1:有多少顧客購買了打印機(jī)后,相隔多長時(shí)間會購買打印紙?其中又有多少顧客相隔多長時(shí)間會購買硒鼓

問題2:顧客購買了A移動銷售方案,相隔多長時(shí)間會轉(zhuǎn)購買B移動銷售方案?

思路:1)對具有時(shí)間特點(diǎn)的顧客行為模式進(jìn)行關(guān)聯(lián)分析,稱為時(shí)序關(guān)聯(lián),挖掘具有時(shí)間先后發(fā)生的判別規(guī)則。2)把同一顧客的先后行為模式轉(zhuǎn)換為具有先后項(xiàng)目順序的序列表示,在序列中求頻繁出現(xiàn)的項(xiàng)目序列。主要概念:例:A顧客:2月購買“打印機(jī),打印紙”,3月購買“打印紙”,7月購買“硒鼓”;

B顧客:1月購買“打印紙”,2月購買“打印機(jī)”,6月購買硒鼓;

C顧客:1月購買“打印機(jī),打印紙,硒鼓”,4月購買“打印紙”,6月購買“打印紙”六、數(shù)據(jù)挖掘方法——時(shí)序關(guān)聯(lián)分析例如打印機(jī)是一項(xiàng)目例如A顧客先買“打印機(jī),打印紙”,再買“硒鼓”是一項(xiàng)目集組成的序列:〈s1,s2〉,其中,s1由“打印機(jī),打印紙”組成,s2由硒鼓組成。問題:有B顧客,先買打印機(jī),再買打印紙有C顧客,買打印機(jī)有D顧客,先買打印機(jī),再買硒鼓問哪一顧客的購買模式被A顧客模式包含?Supp六、數(shù)據(jù)挖掘方法——時(shí)序關(guān)聯(lián)分析8、Conf(<a1,a2,…an>)=Suup(<a1,a2,…an>)P208時(shí)序關(guān)聯(lián)規(guī)則分析——主要問題

六、數(shù)據(jù)挖掘方法——時(shí)序關(guān)聯(lián)分析時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法P208思路:先從事務(wù)數(shù)據(jù)中找大項(xiàng)目集,由大項(xiàng)目集組成可能出現(xiàn)的時(shí)序模式,再求大序列集。時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法大項(xiàng)目集挖掘過程如下:時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法20%時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法

當(dāng)總顧客數(shù)為5時(shí),最少支持度為20%,則項(xiàng)目集支持度要大于1/5=20%,才保留。所以,(30),(40),(70),(90),(40,70)是頻繁集(大項(xiàng)集)時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法顧客號映射如下時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法2/42/4補(bǔ)充時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法補(bǔ)充時(shí)序關(guān)聯(lián)規(guī)則分析-Apriori-G方法六七月份同一日期有識別情況時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助過程時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助過程時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助過程問題:為何沒出現(xiàn)雙箭頭三項(xiàng)的規(guī)則?2/42/4時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助過程把三種后項(xiàng)結(jié)果列示,當(dāng)樣本中出現(xiàn)對應(yīng)T的項(xiàng)與列示的后項(xiàng)被包含在挖掘規(guī)則中時(shí),顯示規(guī)則的置信度為0.5.時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時(shí)序關(guān)聯(lián)問題:城市醫(yī)療建設(shè)過程的影響因素具有哪些時(shí)序發(fā)展關(guān)系?年限樣本基礎(chǔ)建設(shè)醫(yī)生引進(jìn)工作人員引進(jìn)門診所建設(shè)設(shè)備建設(shè)環(huán)境建設(shè)1997上海aaabbb1998上海ggaabb1999上海ggggaa2000上海vvvvgg1997北京aabbba1998北京aaaaba1999北京aggggg2000北京avvvgv1997沈陽bbbagb1998沈陽aabagb1999沈陽babaga2000沈陽bbbagb1997武漢abaabb1998武漢aagabb1999武漢gaaabb2000武漢gggaba1997哈爾濱aaabbb1998哈爾濱agbaba1999哈爾濱ggbaab2000哈爾濱vgabaa年限樣本基礎(chǔ)建設(shè)醫(yī)生引進(jìn)工作人員引進(jìn)門診所建設(shè)設(shè)備建設(shè)環(huán)境建設(shè)1997重慶babbbb1998重慶aaabba1999重慶agaabb2000重慶ggbabb1997成都abbbab1998成都abaaaa1999成都aagaaa2000成都gggaaa1997蘭州abbaab1998蘭州aaaaaa1999蘭州ggagag2000蘭州vgagvv1997青島bbaabb1998青島bbagab1999青島abggaa2000青島abvvag1997鞍山abbbab1998鞍山ababaa1999鞍山gaabga2000鞍山gaabvg1)數(shù)據(jù)預(yù)處理數(shù)據(jù)進(jìn)行處理,使得數(shù)據(jù)具有變量和時(shí)間特征,如下表所示,A-F分別代表各個(gè)標(biāo)量,中間的a,b,v,g為原來變量的取值,1-4代表不同的年份

年限樣本基礎(chǔ)建設(shè)A醫(yī)生引進(jìn)B工作人員引進(jìn)C門診所建設(shè)D設(shè)備建設(shè)E環(huán)境建設(shè)F1997上海Aa1Ba1Ca1Db1Eb1Fb11998上海Ag2Bg2Ca2Da2Eb2Fb21999上海Ag3Bg3Cg3Dg3Ea3Fa32000上海Av4Bv4Cv4Dv4Eg4Fg4…………………………………………時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時(shí)序關(guān)聯(lián)2)時(shí)序關(guān)聯(lián)規(guī)則模型建立時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時(shí)序關(guān)聯(lián)3)模型結(jié)果分析分別設(shè)置不同的置信度和支持度,運(yùn)行時(shí)序規(guī)則模型,規(guī)則數(shù)目如下:最小支持度70%60%50%最小置信度70%60%50%規(guī)則數(shù)目1631

最小支持度為60%和最小置信度為60%時(shí)的有效規(guī)則前項(xiàng)后項(xiàng)支持度%置信度%Cb1Aa260.0100.0Aa1Aa270.085.71Aa1Da270.085.71Fb1Aa290.077.78Fb1Ca290.066.67Fb1Da290.066.67時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時(shí)序關(guān)聯(lián)將提取的規(guī)則轉(zhuǎn)換為文字:規(guī)則1:若工作人員引進(jìn)=b,則第二年基礎(chǔ)建設(shè)=a,支持度為60%,置信度100%規(guī)則2:若基礎(chǔ)建設(shè)=a,則第二年基礎(chǔ)建設(shè)=a,支持度為70%,置信度85.71%規(guī)則3:若基礎(chǔ)建設(shè)=a,則第二年門診所建設(shè)=a,支持度為70%,置信度85.71%規(guī)則4:若環(huán)境建設(shè)=b,則第二年基礎(chǔ)建設(shè)=a,支持度為90%,置信度77.78%規(guī)則5:若環(huán)境建設(shè)=b,則工作人員引進(jìn)=a,支持度為90%,置信度66.67%規(guī)則6:若環(huán)境建設(shè)=b,則第二年門診所建設(shè)=a,支持度為90%,置信度66.67%時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時(shí)序關(guān)聯(lián)若不考慮事務(wù)發(fā)生的時(shí)間間隔性,可將數(shù)據(jù)處理為:年限樣本基礎(chǔ)建設(shè)A醫(yī)生引進(jìn)B工作人員引進(jìn)C門診所建設(shè)D設(shè)備建設(shè)E環(huán)境建設(shè)F1997上海AaBaCaDbEbFb1998上海AgBgCaDaEbFb1999上海AgBgCgDgEaFa2000上海AvBvCvDvEgFg…………………………………………分別設(shè)置不同的置信度和支持度,運(yùn)行時(shí)序規(guī)則模型,在沒有先后時(shí)間條件下,規(guī)則數(shù)目、最小支持度和最小置信度都是60%的有效規(guī)則如下所示:最小支持度80%70%60%50%最小置信度80%70%60%50%規(guī)則數(shù)目73077235前項(xiàng)后項(xiàng)支持度%置信度%FbFa90.0100.0FbAa90.088.89FbCa90.088.89AaCa100.080.0AaFa100.080.0AaAa100.080.0AaDa100.080.0時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時(shí)序關(guān)聯(lián)取值沒有時(shí)間的時(shí)序關(guān)聯(lián),提取規(guī)則的文字表示:規(guī)則1:若環(huán)境建設(shè)=b,則未來環(huán)境建設(shè)=a,支持度為90%,置信度100%規(guī)則2:若環(huán)境建設(shè)=b,則未來基礎(chǔ)建設(shè)=a,支持度為90%,置信度88.89%規(guī)則3:若環(huán)境建設(shè)=b,則未來工作人員引進(jìn)=a,支持度為90%,置信度88.89%規(guī)則4:若基礎(chǔ)建設(shè)=a,則未來工作人員引進(jìn)=a,支持度為100%,置信度80%規(guī)則5:若基礎(chǔ)建設(shè)=a,則未來環(huán)境建設(shè)=a,支持度為100%,置信度80%規(guī)則6:若基礎(chǔ)建設(shè)=a,則未來基礎(chǔ)建設(shè)=a,支持度為100%,置信度80%規(guī)則7:若基礎(chǔ)建設(shè)=a,則未來門診所建設(shè)=a,支持度為100%,置信度80%

時(shí)序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時(shí)序關(guān)聯(lián)取值體現(xiàn)時(shí)間的時(shí)序關(guān)聯(lián),提取規(guī)則的文字表示:規(guī)則1:若工作人員引進(jìn)=b,則第二年基礎(chǔ)建設(shè)=a,支持度為60%,置信度100%規(guī)則2:若基礎(chǔ)建設(shè)=a,則第二年基礎(chǔ)建設(shè)=a,支持度為70%,置信度85.71%規(guī)則3:若基礎(chǔ)建設(shè)=a,則第二年門診所建設(shè)=a,支持度為70%,置信度85.71%規(guī)則4:若環(huán)境建設(shè)=b,則第二年基礎(chǔ)建設(shè)=a,支持度為90%,置信度77.78%規(guī)則5:若環(huán)境建設(shè)=b,則工作人員引進(jìn)=a,支持度為90%,置信度66.67%規(guī)則6:若環(huán)境建設(shè)=b,則第二年門診所建設(shè)=a,支持度為90%,置信度66.67%遺傳算法—基本概念P241七、數(shù)據(jù)挖掘方法——遺傳算法問題:1、如何求一組評價(jià)指標(biāo)值(X1,X2,X3,X4,X5),使醫(yī)療評價(jià)能力最大且醫(yī)療成本最???2、對N個(gè)股票,如何分配投資比例,使收益最大且風(fēng)險(xiǎn)在可接受范圍?3、要使網(wǎng)絡(luò)收益在期望范圍,影響網(wǎng)絡(luò)收益的因素應(yīng)在什么范圍變化?特點(diǎn):隨機(jī)搜索,優(yōu)勝劣汰七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—基本概念P241-242七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—基本概念補(bǔ)充七、數(shù)據(jù)挖掘方法——遺傳算法補(bǔ)充P242七、數(shù)據(jù)挖掘方法——遺傳算法對個(gè)體進(jìn)行選擇復(fù)制按一定概率和定義進(jìn)行變異按一定概率和定義進(jìn)行交叉滿足終止條件對每一個(gè)體計(jì)算適應(yīng)值顯示適應(yīng)值或最優(yōu)解隨機(jī)產(chǎn)生初始種群YN遺傳算法—主要流程P243遺傳算法—編碼設(shè)計(jì)P242七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—編碼設(shè)計(jì)P242七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—適應(yīng)值函數(shù)設(shè)計(jì)P243七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—選擇算子設(shè)計(jì)P244遺傳算法—選擇算子設(shè)計(jì)P244遺傳算法—交叉算子設(shè)計(jì)P245遺傳算法—交叉算子設(shè)計(jì)P246七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—交叉算子設(shè)計(jì)P246七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—交叉算子設(shè)計(jì)P246七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—交叉算子設(shè)計(jì)P246遺傳算法—交叉算子設(shè)計(jì)P246七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—變異算子設(shè)計(jì)P247遺傳算法—變異算子設(shè)計(jì)P247七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用例

P247七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用例

P248遺傳算法應(yīng)用例

P249七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P250遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P250七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P250七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P250七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P251七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P251七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法-模式定理有關(guān)概念

P251七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法-模式定理有關(guān)概念

P252遺傳算法-模式定理有關(guān)概念

P252遺傳算法的模式定理有關(guān)概念

P253七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法的模式定理

P254分析:第二章管理與決策支持的數(shù)據(jù)挖掘方法(三)遺傳算法的模式定理

P2542)遺傳算法的模式定理

P2543)4)遺傳算法的模式定理

P2545)七、數(shù)據(jù)挖掘方法——遺傳算法問題描述在城市醫(yī)療能力評價(jià)中,令X1——病床數(shù),X2——醫(yī)生數(shù),X3——工作人員數(shù),X4——診所數(shù),X5——死亡率,Y——醫(yī)療能力,若設(shè)Xi?[1000,10000],i=1,2,3,X4?[10,100],X5?[0,0.2],Y?[0,1],X=(X1,X2,X3,X4,X5)要求:設(shè)計(jì)遺傳算法,求達(dá)到醫(yī)療能力最好且總成本最小的X(即Xi的最優(yōu)組合)?設(shè)計(jì)包括:(1)定義醫(yī)生、病床、工作人員、診所的成本條件;(2)設(shè)計(jì)編碼、適值函數(shù)、選擇算子、交叉算子和變異算子;其中,適應(yīng)值函數(shù)要求設(shè)計(jì)為一般形式;當(dāng)輸入ai、bi、C、、D時(shí),可以建立不同參數(shù)下的適值函數(shù):

軟件輔助遺傳算法的求解七、數(shù)據(jù)挖掘方法——遺傳算法七、數(shù)據(jù)挖掘方法——遺傳算法

為了能夠使用Matlab里面的遺傳算法工具箱來解決此次問題,需要把Matlab升級到7.10(2012版本)或者以上。打開Matlab之后,直接的窗口中輸入optimtool,然后選擇ga,或者直接輸入gatool,調(diào)用遺傳算法工具箱。如下圖所示:界面分3個(gè)板塊,其中左邊和中間的板塊是遺傳算法參數(shù)的設(shè)置區(qū)域,第三板塊是對于各個(gè)參數(shù)的說明。在使用遺傳算法工具箱之前,需要對之前寫好的適應(yīng)值函數(shù)做小小的修改,以使其能應(yīng)用在遺傳算法工具箱里面。

七、數(shù)據(jù)挖掘方法——遺傳算法利用Matlab的多層感知機(jī)的神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)后提取的模型參數(shù)如下:隱節(jié)點(diǎn)1權(quán)值1:1.3714閾值:0.29542權(quán)值2:3.2134權(quán)值3:1.9193權(quán)值4:0.66217權(quán)值5:1.9782隱節(jié)點(diǎn)2權(quán)值1:-3.4496閾值:-0.0020444權(quán)值2:-1.2138權(quán)值3:1.6277權(quán)值4:-2.7673權(quán)值5:0.043026隱節(jié)點(diǎn)3權(quán)值1:2.8084閾值:0.5038權(quán)值2:-0.93835權(quán)值3:3.205權(quán)值4:2.5387權(quán)值5:2.4553輸出節(jié)點(diǎn)y權(quán)值1:-0.95112閾值:0.10116權(quán)值2:2.5511權(quán)值3:1.8952七、數(shù)據(jù)挖掘方法——遺傳算法適應(yīng)值函數(shù)設(shè)計(jì):functiony=safeval_tel(x)y=cal1([x(1);x(2);x(3);x(4);x(5)])-cal2([x(2);x(3);x(4)]);

其中x為輸入變量,x(i)(i=1,2,3,4,5)為每一維的變量。cal1為醫(yī)療能力計(jì)算函數(shù),cal2為成本函數(shù),綜合適應(yīng)值為前者-后者,因此醫(yī)療能力越大,成本越小,最后的綜合適應(yīng)值就越大。醫(yī)療能力計(jì)算函數(shù):functiony=cal1(x)w=[1.37143.21341.91930.662171.9782-3.4496-1.21381.6277-2.76730.043026;

2.8084-0.938353.2052.53872.4553];b=[-0.951122.55111.8952];

y=w*x+b;fori=1:3y(i)=1/(1+exp(-y(i)));endB=[0.29542-0.00204440.5038];T=[0.10116];y=B*y+T;end

已知成本:1)醫(yī)生數(shù)(平均1萬元/個(gè)),工作人員數(shù)(平均0.6萬元/個(gè)),門診所數(shù)(平均100萬/個(gè))2)醫(yī)生數(shù)(平均2萬元/個(gè)),工作人員數(shù)(平均1萬元/個(gè)),門診所數(shù)(平均150萬/個(gè))

成本計(jì)算函數(shù):(第一種成本)functiony=cal2(x)y=(x(1)+0.6*x(2)+100*x(3)+152.4)/304.8;end(第二種成本)functiony=cal2(x)y=(2*x(1)+x(2)+150*x(3)+229.5)/459;end其中成本得分為歸一化之后的得分七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法工具箱輔助解決醫(yī)療評價(jià)與成本優(yōu)化問題的過程:

1、方法選擇:在優(yōu)化工具箱里面,第一個(gè)是選擇解決問題的模型(辦法),這里我們使用遺傳算法,因此選擇ga;在problem選項(xiàng)卡這里,分別填入剛剛寫好的適應(yīng)值函數(shù)以及自變量的個(gè)數(shù):注意:這里在填寫適應(yīng)值函數(shù)的時(shí)候,前面一定要加@,不然Matlab識別不了,我們此次的醫(yī)療問題里面共有5個(gè)變量,因此下面的空格填寫5。

2、約束條件與變量范圍設(shè)置:在constraints選項(xiàng)卡里面,前4個(gè)空格都是針對問題的線性約束條件,本問題沒有約束,因此可以不填。Bounds是對自變量的取值范圍,分別寫在Lower和Upper里面,由于我們這里最小值為-1.5,最大值為1.5,因此設(shè)定的取值范圍如上圖所示。(Lower和Upper里面都有5維,分別代表5個(gè)自變量)最后一個(gè)空格是填寫非線性約束條件的,本問題也沒有,因此不填。七、數(shù)據(jù)挖掘方法——遺傳算法3、Options設(shè)置:

Options是規(guī)定了算法運(yùn)行時(shí)的參數(shù),包括交叉和變異的概率,采用何種方式進(jìn)化等等,具體表現(xiàn)為一些參數(shù)和函數(shù)的選擇。1)編碼方式設(shè)置:有實(shí)數(shù)編碼和二進(jìn)制編碼,默認(rèn)是doublevector(實(shí)數(shù)編碼),如果選擇二進(jìn)制的話,輸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論