X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計決策決策樹關(guān)聯(lián)遺傳_第1頁
X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計決策決策樹關(guān)聯(lián)遺傳_第2頁
X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計決策決策樹關(guān)聯(lián)遺傳_第3頁
X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計決策決策樹關(guān)聯(lián)遺傳_第4頁
X第三部分?jǐn)?shù)據(jù)挖掘與統(tǒng)計決策決策樹關(guān)聯(lián)遺傳_第5頁
已閱讀5頁,還剩145頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

課程名稱:數(shù)據(jù)挖掘與統(tǒng)計決策

教師:廖芹

Email:maqliao@問題:如果有60個因素影響銀行貸款,要判別是否給企業(yè)貸款,如何用少數(shù)主要的若干個影響因素,建立貸款判別規(guī)則?即如何從一組數(shù)據(jù)提取具有因果關(guān)系的分類判別規(guī)則?

決策樹:通過樣本數(shù)據(jù)對分類類別信息的確定性程度,建立樹結(jié)構(gòu)表示分類因果關(guān)系,以提取分類規(guī)則的分類方法。問題:對下列14個分類樣本數(shù)據(jù)集,如何建立天氣分類決策樹?五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P150五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P152五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P153在條件V下,減少或五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P153五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法P154五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法補充———類似P155(5.6)五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法補充———類似P155(5.7)五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法補充———類似P155(5.7)五、數(shù)據(jù)挖掘方法——決策樹(比特)決策樹-ID3算法P156補充———類似P155(5.8),(5.9),P156(5.10)決策樹-ID3算法P156五、數(shù)據(jù)挖掘方法——決策樹決策樹-ID3算法天氣風(fēng)力濕度有雨

多云P

潮濕N

正常P

有風(fēng)N

無風(fēng)P

可以看到:對樣本需要四個屬性才能分類的問題,通過決策樹可以用兩個屬性就可以分類??梢酝ㄟ^決策樹提取分類的判別規(guī)則以應(yīng)用。

問題:少了某因素變量的決策樹是否合理?是否可以應(yīng)用?五、數(shù)據(jù)挖掘方法——決策樹用建立的決策樹檢驗第1號樣本:1號樣本:天氣:晴;溫度:熱;濕度:潮濕;風(fēng)力:沒風(fēng);用規(guī)則1:則氣候?qū)儆贜類,與樣本的專家判別結(jié)果一樣結(jié)論:最多用兩個因素變量(屬性)即可以判別天氣類別。只有一個因素變量就可以判別五、數(shù)據(jù)挖掘方法——決策樹五、數(shù)據(jù)挖掘方法——決策樹Clementine輔助決策樹五、數(shù)據(jù)挖掘方法——決策樹Clementine輔助決策樹決策樹-C4.5算法P158H(X,a)=I(X,a)=H(X)-H(X|a)決策樹-C4.5算法P154決策樹-C4.5算法P158五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法P158-P159五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法P159五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法補充一、決策樹-C4.5算法補充五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法補充五、數(shù)據(jù)挖掘方法——決策樹決策樹-C4.5算法補充五、數(shù)據(jù)挖掘方法——決策樹決策樹-CART算法P159五、數(shù)據(jù)挖掘方法——決策樹決策樹-CART算法P159五、數(shù)據(jù)挖掘方法——決策樹決策樹-CART算法P160五、數(shù)據(jù)挖掘方法——決策樹決策樹-CART算法P160決策樹-CART算法P1612=11311133/130.196決策樹-CART算法P161五、數(shù)據(jù)挖掘方法——決策樹0.196決策樹-CART算法補充五、數(shù)據(jù)挖掘方法——決策樹決策樹P170五、數(shù)據(jù)挖掘方法——決策樹

葉結(jié)點深度是指葉結(jié)點相距根結(jié)點的層數(shù)。如下決策樹,葉結(jié)點數(shù)=2+3+1=6,葉結(jié)點深度和=2*2+3*2+1*1=11決策樹-剪枝算法當(dāng)?shù)竭_(dá)某結(jié)點的樹具有指定的實例識別率時,停止生長.P171已經(jīng)成長決策樹-剪枝算法P171五、數(shù)據(jù)挖掘方法——決策樹決策樹-剪枝算法P172五、數(shù)據(jù)挖掘方法——決策樹決策樹-剪枝算法P172決策樹-剪枝算法P172五、數(shù)據(jù)挖掘方法——決策樹決策樹-剪枝算法P173五、數(shù)據(jù)挖掘方法——決策樹決策樹-剪枝算法P173決策樹-剪枝算法P174數(shù)據(jù)挖掘軟件Clementine輔助決策樹城市醫(yī)療水平能力綜合評價分類決策樹建立1、導(dǎo)入評價樣本數(shù)據(jù)并選擇模型;2、設(shè)置參數(shù)

城市醫(yī)療水平能力綜合評價分類決策樹建立(類別定性取值情況)10個樣本如果導(dǎo)入數(shù)據(jù)時選擇是連續(xù)型取值的范圍,則C5.0方法的決策樹也是兩叉形式,只有選擇離散型的取值時,才有三叉以上的輸出。

當(dāng)修剪嚴(yán)重度為90%、95%時,決策樹分別見下面左與右,左樹的深度減少了一層,右樹的深度減少了兩層。城市醫(yī)療水平能力綜合評價分類決策樹建立(樣本定性取值情況)樣本不修剪分類正確率修剪90%分類正確率修剪95%分類正確率建模樣本100%90%70%檢驗樣本44.44%44.44%33.33%與神經(jīng)網(wǎng)絡(luò)模型預(yù)測誤差相比,檢驗樣本誤差增加了。城市醫(yī)療水平能力綜合評價分類—二叉決策樹建立模型建立:選擇“建模”中的“C&R樹”節(jié)點,右鍵設(shè)置模型參數(shù)。分別設(shè)置根以下的層為5,3和2,得到不同的決策樹。模型結(jié)果:

運行模型得到?jīng)Q策樹分類結(jié)果,右鍵瀏覽模型結(jié)果:根以下層為5時,表示根以下層數(shù)目不會超過5,結(jié)果如下所示,可以發(fā)現(xiàn),結(jié)果只有3層,也就是說根以下層達(dá)到3時,已經(jīng)對數(shù)據(jù)完全分類。若設(shè)置根以下層為3,結(jié)果也是與下面結(jié)果一致。城市醫(yī)療水平能力綜合評價分類—二叉決策樹建立(類別定量取值情況)根以下5層與3層決策樹結(jié)果見左圖,根以下2層決策樹結(jié)果見右圖:當(dāng)同節(jié)點的樣本是同類別時,表示已分類完畢。當(dāng)同節(jié)點的樣本不同類別時,以同類樣本占節(jié)點樣本為權(quán)重加權(quán)平均模型檢驗:

可以看到模型的自檢驗的100%準(zhǔn)確的,誤差是0,而檢驗樣本檢驗的絕對平均誤差是1.778.可以把分類結(jié)果導(dǎo)出,可以看出建模樣本的準(zhǔn)確率是100%,檢驗樣本的準(zhǔn)確率是33.33%。

城市醫(yī)療水平能力綜合評價分類—二叉決策樹建立學(xué)習(xí)樣本病人數(shù)醫(yī)生數(shù)工作人員數(shù)門診所數(shù)死亡率醫(yī)療能力評價醫(yī)療能力評價(根以下3層)醫(yī)療能力評價(根以下2層)上海0.51.51.51.5-1.51.51.51.5北京-0.51.51.51.50.51.51.51.5沈陽-1.5-1.5-1.5-0.50.5-1.5-1.5-1.5武漢0.50.50.5-0.5-1.5-0.5-0.5-0.25哈爾濱1.50.5-0.5-1.5-0.5-0.5-0.5-0.25重慶0.50.5-1.5-1.5-1.5-1.5-1.5-1.5成都-0.50.50.5-0.5-0.5-0.5-0.5-0.25蘭州1.50.5-0.50.51.51.51.51.5青島0.5-1.51.51.5-0.50.50.50.5鞍山0.5-0.5-0.5-1.51.50.50.5-0.25天津-1.50.5-1.50.5-0.5-1.51.51.5廣州-0.50.50.50.5-0.50.51.51.5南京-1.50.50.50.5-0.50.51.51.5西安0.50.5-0.50.50.50.5-0.51.5長春0.50.50.5-0.50.50.51.5-0.25太原1.50.50.50.51.51.5-1.51.5大連-1.5-0.5-1.5-0.50.5-1.51.5-1.5濟南1.51.51.50.5-0.51.5-1.51.5撫順0.5-1.5-1.5-1.50.5-0.51.5-1.5三層樣本正確率:自檢100%,檢驗33%二層樣本正確率:自檢40%,檢驗33%城市醫(yī)療水平能力綜合評價分類—二叉決策樹建立問題:智能功能實現(xiàn),需要知識規(guī)則和知識推理的支持,決策樹可以支持提取確定性的知識規(guī)則,但實際中可能出現(xiàn)許多不確定的情況。如何提取不確定性規(guī)則?購物籃問題:超市中每天有大量的購買數(shù)據(jù),這些數(shù)據(jù)中發(fā)現(xiàn)啤酒與尿片的關(guān)系密切,是否需要關(guān)注這種情況而改變超市中這兩種物品的擺放位置,以適應(yīng)顧客的需要?應(yīng)用問題:為了促銷產(chǎn)品,應(yīng)該以什么方案配置才具有激勵購買積極性的作用?擴展問題:未來產(chǎn)品產(chǎn)業(yè)鏈的發(fā)展與什么有關(guān)?發(fā)展速度與增長幅度的可能性如何預(yù)測?思路:可以采用關(guān)聯(lián)分析或時序關(guān)聯(lián)分析,發(fā)現(xiàn)事物之間同時出現(xiàn)可能性大的行為模式和規(guī)則,以支持原因之間、原因與結(jié)果之間的推理。六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則分析六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析思路:1、物品或項目出現(xiàn)可能性大的才關(guān)注;2、A出現(xiàn)導(dǎo)致B出現(xiàn)可能性大的規(guī)則才關(guān)注;3、指定期望可能性,大于這一可能性的項目或規(guī)則才關(guān)注。由此定義支持度與置信度。

補充

以不確定性度量關(guān)聯(lián)規(guī)則分析-主要概念=>=>=>=>P189關(guān)聯(lián)規(guī)則分析-主要概念關(guān)聯(lián)規(guī)則分析-Apriori方法P189關(guān)聯(lián)規(guī)則分析-Apriori方法=>P190六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析其中,“過濾”是指判別項目集是否大于最小支持度,如果大于就保留,否則淘汰.六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析補充,類似P191例6.2六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析補充,類似P192例6.2六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析補充,類似P193例6.2問題:除BCE外,還有其它的最大頻繁集嗎?六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析設(shè)有五種物品:A,B,C,D,E,銷售記錄的五項業(yè)務(wù)T為:業(yè)務(wù):T001T002T003T004T005

物品:ACDBCEABCEABCED問題:下面物品中,哪些物品之間被購買有密切關(guān)系?什么物品被買可以導(dǎo)致另一些物品被買?同理可以得到:BC→E,BE→C,CE→B的規(guī)則

六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析B→CConf=1,Supp=3/43/43/3=13/43/43/43/43/41Clementine輔助過程及結(jié)果六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析Clementine輔助過程及結(jié)果六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析Clementine輔助城市醫(yī)療水平影響因素的關(guān)聯(lián)分析學(xué)習(xí)樣本

樣本病人數(shù)醫(yī)生數(shù)工作人員數(shù)門診所數(shù)死亡率醫(yī)療能力評價

上海0.51.51.51.5-1.51.5

北京-0.51.51.51.50.51.5

沈陽-1.5-1.5-1.5-0.50.5-1.5

武漢0.50.50.5-0.5-1.5-0.5

哈爾濱1.50.5-0.5-1.5-0.5-0.5

重慶0.50.5-1.5-1.5-1.5-1.5

成都-0.50.50.5-0.5-0.5-0.5

蘭州1.50.5-0.50.51.51.5

青島0.5-1.51.51.5-0.50.5

鞍山0.5-0.5-0.5-1.51.50.5

檢驗樣本樣本病人數(shù)醫(yī)生數(shù)工作人員數(shù)門診所數(shù)死亡率醫(yī)療能力評價天津-1.50.5-1.50.5-0.5-1.5廣州-0.50.50.50.5-0.50.5南京-1.50.50.50.5-0.50.5西安0.50.5-0.50.50.50.5長春0.50.50.5-0.50.50.5太原1.50.50.50.51.51.5大連-1.5-0.5-1.5-0.50.5-1.5濟南1.51.51.50.5-0.51.5撫順0.5-1.5-1.5-1.50.5-0.5Clementine輔助城市醫(yī)療水平影響因素的關(guān)聯(lián)分析1、導(dǎo)入評價樣本數(shù)據(jù)并選擇模型,其中數(shù)據(jù)集中的取值轉(zhuǎn)換為定性取值:

1.5=V,0.5=g,-0.5=a,-1.5=b2、設(shè)置參數(shù)六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析Clementine輔助城市醫(yī)療水平影響因素的關(guān)聯(lián)分析不同支持度和置信度下的關(guān)聯(lián)規(guī)則數(shù)目最小支持度50%40%30%30%20%最小置信度50%40%50%40%20%規(guī)則數(shù)目223851349最小支持度為30%和最小置信度為50%時的部分關(guān)聯(lián)規(guī)則后項前項支持度%置信度%醫(yī)生數(shù)=g醫(yī)療能力評價=a30100病人數(shù)=g死亡率=b30100工作人員數(shù)=v門診所數(shù)=v30100門診所數(shù)=v工作人員數(shù)=v30100病人數(shù)=v工作人員數(shù)=a3067死亡率=v工作人員數(shù)=a3067死亡率=a醫(yī)療能力評價=aand醫(yī)生數(shù)=g3067門診所數(shù)=a醫(yī)療能力評價=aand醫(yī)生數(shù)=g3067醫(yī)生數(shù)=g死亡率=band病人數(shù)=g3067醫(yī)療能力評價=v門診所數(shù)=vand工作人員數(shù)=v3067病人數(shù)=g門診所數(shù)=vand工作人員數(shù)=v3067醫(yī)療能力評價=a醫(yī)生數(shù)=g5060死亡率=b病人數(shù)=g5060六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析

對最小支持度為30%和最小置信度為50%時得到的模型,進行建模檢驗樣本的關(guān)系預(yù)測。建模樣本關(guān)系預(yù)測:對每一樣本,把與樣本匹配前項的后項結(jié)果列示,顯示對應(yīng)的規(guī)則置信度,以及有關(guān)規(guī)則數(shù)。例:醫(yī)療能力評價=aand醫(yī)生數(shù)=g則有死亡率=a0.67六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析檢驗樣本關(guān)系預(yù)測六、數(shù)據(jù)挖掘方法——關(guān)聯(lián)分析問題1:有多少顧客購買了打印機后,相隔多長時間會購買打印紙?其中又有多少顧客相隔多長時間會購買硒鼓

?

問題2:顧客購買了A移動銷售方案,相隔多長時間會轉(zhuǎn)購買B移動銷售方案?

思路:1)對具有時間特點的顧客行為模式進行關(guān)聯(lián)分析,稱為時序關(guān)聯(lián),挖掘具有時間先后發(fā)生的判別規(guī)則。2)把同一顧客的先后行為模式轉(zhuǎn)換為具有先后項目順序的序列表示,在序列中求頻繁出現(xiàn)的項目序列。主要概念:例:A顧客:2月購買“打印機,打印紙”,3月購買“打印紙”,7月購買“硒鼓”;

B顧客:1月購買“打印紙”,2月購買“打印機”,6月購買硒鼓;

C顧客:1月購買“打印機,打印紙,硒鼓”,4月購買“打印紙”,6月購買“打印紙”六、數(shù)據(jù)挖掘方法——時序關(guān)聯(lián)分析例如打印機是一項目例如A顧客先買“打印機,打印紙”,再買“硒鼓”是一項目集組成的序列:〈s1,s2〉,其中,s1由“打印機,打印紙”組成,s2由硒鼓組成。問題:有B顧客,先買打印機,再買打印紙有C顧客,買打印機有D顧客,先買打印機,再買硒鼓問哪一顧客的購買模式被A顧客模式包含?Supp六、數(shù)據(jù)挖掘方法——時序關(guān)聯(lián)分析8、Conf(<a1,a2,…an>)=Suup(<a1,a2,…an>)P208時序關(guān)聯(lián)規(guī)則分析——主要問題

六、數(shù)據(jù)挖掘方法——時序關(guān)聯(lián)分析時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法P208思路:先從事務(wù)數(shù)據(jù)中找大項目集,由大項目集組成可能出現(xiàn)的時序模式,再求大序列集。時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法大項目集挖掘過程如下:時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法20%時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法

當(dāng)總顧客數(shù)為5時,最少支持度為20%,則項目集支持度要大于1/5=20%,才保留。所以,(30),(40),(70),(90),(40,70)是頻繁集(大項集)時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法顧客號映射如下時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法2/42/4補充時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法補充時序關(guān)聯(lián)規(guī)則分析-Apriori-G方法六七月份同一日期有識別情況時序關(guān)聯(lián)分析案例——Clementine12輔助過程時序關(guān)聯(lián)分析案例——Clementine12輔助過程時序關(guān)聯(lián)分析案例——Clementine12輔助過程問題:為何沒出現(xiàn)雙箭頭三項的規(guī)則?2/42/4時序關(guān)聯(lián)分析案例——Clementine12輔助過程把三種后項結(jié)果列示,當(dāng)樣本中出現(xiàn)對應(yīng)T的項與列示的后項被包含在挖掘規(guī)則中時,顯示規(guī)則的置信度為0.5.時序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時序關(guān)聯(lián)問題:城市醫(yī)療建設(shè)過程的影響因素具有哪些時序發(fā)展關(guān)系?年限樣本基礎(chǔ)建設(shè)醫(yī)生引進工作人員引進門診所建設(shè)設(shè)備建設(shè)環(huán)境建設(shè)1997上海aaabbb1998上海ggaabb1999上海ggggaa2000上海vvvvgg1997北京aabbba1998北京aaaaba1999北京aggggg2000北京avvvgv1997沈陽bbbagb1998沈陽aabagb1999沈陽babaga2000沈陽bbbagb1997武漢abaabb1998武漢aagabb1999武漢gaaabb2000武漢gggaba1997哈爾濱aaabbb1998哈爾濱agbaba1999哈爾濱ggbaab2000哈爾濱vgabaa年限樣本基礎(chǔ)建設(shè)醫(yī)生引進工作人員引進門診所建設(shè)設(shè)備建設(shè)環(huán)境建設(shè)1997重慶babbbb1998重慶aaabba1999重慶agaabb2000重慶ggbabb1997成都abbbab1998成都abaaaa1999成都aagaaa2000成都gggaaa1997蘭州abbaab1998蘭州aaaaaa1999蘭州ggagag2000蘭州vgagvv1997青島bbaabb1998青島bbagab1999青島abggaa2000青島abvvag1997鞍山abbbab1998鞍山ababaa1999鞍山gaabga2000鞍山gaabvg1)數(shù)據(jù)預(yù)處理數(shù)據(jù)進行處理,使得數(shù)據(jù)具有變量和時間特征,如下表所示,A-F分別代表各個標(biāo)量,中間的a,b,v,g為原來變量的取值,1-4代表不同的年份

年限樣本基礎(chǔ)建設(shè)A醫(yī)生引進B工作人員引進C門診所建設(shè)D設(shè)備建設(shè)E環(huán)境建設(shè)F1997上海Aa1Ba1Ca1Db1Eb1Fb11998上海Ag2Bg2Ca2Da2Eb2Fb21999上海Ag3Bg3Cg3Dg3Ea3Fa32000上海Av4Bv4Cv4Dv4Eg4Fg4…………………………………………時序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時序關(guān)聯(lián)2)時序關(guān)聯(lián)規(guī)則模型建立時序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時序關(guān)聯(lián)3)模型結(jié)果分析分別設(shè)置不同的置信度和支持度,運行時序規(guī)則模型,規(guī)則數(shù)目如下:最小支持度70%60%50%最小置信度70%60%50%規(guī)則數(shù)目1631

最小支持度為60%和最小置信度為60%時的有效規(guī)則前項后項支持度%置信度%Cb1Aa260.0100.0Aa1Aa270.085.71Aa1Da270.085.71Fb1Aa290.077.78Fb1Ca290.066.67Fb1Da290.066.67時序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時序關(guān)聯(lián)將提取的規(guī)則轉(zhuǎn)換為文字:規(guī)則1:若工作人員引進=b,則第二年基礎(chǔ)建設(shè)=a,支持度為60%,置信度100%規(guī)則2:若基礎(chǔ)建設(shè)=a,則第二年基礎(chǔ)建設(shè)=a,支持度為70%,置信度85.71%規(guī)則3:若基礎(chǔ)建設(shè)=a,則第二年門診所建設(shè)=a,支持度為70%,置信度85.71%規(guī)則4:若環(huán)境建設(shè)=b,則第二年基礎(chǔ)建設(shè)=a,支持度為90%,置信度77.78%規(guī)則5:若環(huán)境建設(shè)=b,則工作人員引進=a,支持度為90%,置信度66.67%規(guī)則6:若環(huán)境建設(shè)=b,則第二年門診所建設(shè)=a,支持度為90%,置信度66.67%時序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時序關(guān)聯(lián)若不考慮事務(wù)發(fā)生的時間間隔性,可將數(shù)據(jù)處理為:年限樣本基礎(chǔ)建設(shè)A醫(yī)生引進B工作人員引進C門診所建設(shè)D設(shè)備建設(shè)E環(huán)境建設(shè)F1997上海AaBaCaDbEbFb1998上海AgBgCaDaEbFb1999上海AgBgCgDgEaFa2000上海AvBvCvDvEgFg…………………………………………分別設(shè)置不同的置信度和支持度,運行時序規(guī)則模型,在沒有先后時間條件下,規(guī)則數(shù)目、最小支持度和最小置信度都是60%的有效規(guī)則如下所示:最小支持度80%70%60%50%最小置信度80%70%60%50%規(guī)則數(shù)目73077235前項后項支持度%置信度%FbFa90.0100.0FbAa90.088.89FbCa90.088.89AaCa100.080.0AaFa100.080.0AaAa100.080.0AaDa100.080.0時序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時序關(guān)聯(lián)取值沒有時間的時序關(guān)聯(lián),提取規(guī)則的文字表示:規(guī)則1:若環(huán)境建設(shè)=b,則未來環(huán)境建設(shè)=a,支持度為90%,置信度100%規(guī)則2:若環(huán)境建設(shè)=b,則未來基礎(chǔ)建設(shè)=a,支持度為90%,置信度88.89%規(guī)則3:若環(huán)境建設(shè)=b,則未來工作人員引進=a,支持度為90%,置信度88.89%規(guī)則4:若基礎(chǔ)建設(shè)=a,則未來工作人員引進=a,支持度為100%,置信度80%規(guī)則5:若基礎(chǔ)建設(shè)=a,則未來環(huán)境建設(shè)=a,支持度為100%,置信度80%規(guī)則6:若基礎(chǔ)建設(shè)=a,則未來基礎(chǔ)建設(shè)=a,支持度為100%,置信度80%規(guī)則7:若基礎(chǔ)建設(shè)=a,則未來門診所建設(shè)=a,支持度為100%,置信度80%

時序關(guān)聯(lián)分析案例——Clementine12輔助城市醫(yī)療建設(shè)時序關(guān)聯(lián)取值體現(xiàn)時間的時序關(guān)聯(lián),提取規(guī)則的文字表示:規(guī)則1:若工作人員引進=b,則第二年基礎(chǔ)建設(shè)=a,支持度為60%,置信度100%規(guī)則2:若基礎(chǔ)建設(shè)=a,則第二年基礎(chǔ)建設(shè)=a,支持度為70%,置信度85.71%規(guī)則3:若基礎(chǔ)建設(shè)=a,則第二年門診所建設(shè)=a,支持度為70%,置信度85.71%規(guī)則4:若環(huán)境建設(shè)=b,則第二年基礎(chǔ)建設(shè)=a,支持度為90%,置信度77.78%規(guī)則5:若環(huán)境建設(shè)=b,則工作人員引進=a,支持度為90%,置信度66.67%規(guī)則6:若環(huán)境建設(shè)=b,則第二年門診所建設(shè)=a,支持度為90%,置信度66.67%遺傳算法—基本概念P241七、數(shù)據(jù)挖掘方法——遺傳算法問題:1、如何求一組評價指標(biāo)值(X1,X2,X3,X4,X5),使醫(yī)療評價能力最大且醫(yī)療成本最小?2、對N個股票,如何分配投資比例,使收益最大且風(fēng)險在可接受范圍?3、要使網(wǎng)絡(luò)收益在期望范圍,影響網(wǎng)絡(luò)收益的因素應(yīng)在什么范圍變化?特點:隨機搜索,優(yōu)勝劣汰七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—基本概念P241-242七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—基本概念補充七、數(shù)據(jù)挖掘方法——遺傳算法補充P242七、數(shù)據(jù)挖掘方法——遺傳算法對個體進行選擇復(fù)制按一定概率和定義進行變異按一定概率和定義進行交叉滿足終止條件對每一個體計算適應(yīng)值顯示適應(yīng)值或最優(yōu)解隨機產(chǎn)生初始種群YN遺傳算法—主要流程P243遺傳算法—編碼設(shè)計P242七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—編碼設(shè)計P242七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—適應(yīng)值函數(shù)設(shè)計P243七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—選擇算子設(shè)計P244遺傳算法—選擇算子設(shè)計P244遺傳算法—交叉算子設(shè)計P245遺傳算法—交叉算子設(shè)計P246七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—交叉算子設(shè)計P246七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—交叉算子設(shè)計P246七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—交叉算子設(shè)計P246遺傳算法—交叉算子設(shè)計P246七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法—變異算子設(shè)計P247遺傳算法—變異算子設(shè)計P247七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用例

P247七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用例

P248遺傳算法應(yīng)用例

P249七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P250遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P250七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P250七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P250七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P251七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法應(yīng)用-神經(jīng)網(wǎng)絡(luò)權(quán)值優(yōu)化

P251七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法-模式定理有關(guān)概念

P251七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法-模式定理有關(guān)概念

P252遺傳算法-模式定理有關(guān)概念

P252遺傳算法的模式定理有關(guān)概念

P253七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法的模式定理

P254分析:第二章管理與決策支持的數(shù)據(jù)挖掘方法(三)遺傳算法的模式定理

P2542)遺傳算法的模式定理

P2543)4)遺傳算法的模式定理

P2545)七、數(shù)據(jù)挖掘方法——遺傳算法問題描述在城市醫(yī)療能力評價中,令X1——病床數(shù),X2——醫(yī)生數(shù),X3——工作人員數(shù),X4——診所數(shù),X5——死亡率,Y——醫(yī)療能力,若設(shè)Xi?[1000,10000],i=1,2,3,X4?[10,100],X5?[0,0.2],Y?[0,1],X=(X1,X2,X3,X4,X5)要求:設(shè)計遺傳算法,求達(dá)到醫(yī)療能力最好且總成本最小的X(即Xi的最優(yōu)組合)?設(shè)計包括:(1)定義醫(yī)生、病床、工作人員、診所的成本條件;(2)設(shè)計編碼、適值函數(shù)、選擇算子、交叉算子和變異算子;其中,適應(yīng)值函數(shù)要求設(shè)計為一般形式;當(dāng)輸入ai、bi、C、、D時,可以建立不同參數(shù)下的適值函數(shù):

軟件輔助遺傳算法的求解七、數(shù)據(jù)挖掘方法——遺傳算法七、數(shù)據(jù)挖掘方法——遺傳算法

為了能夠使用Matlab里面的遺傳算法工具箱來解決此次問題,需要把Matlab升級到7.10(2012版本)或者以上。打開Matlab之后,直接的窗口中輸入optimtool,然后選擇ga,或者直接輸入gatool,調(diào)用遺傳算法工具箱。如下圖所示:界面分3個板塊,其中左邊和中間的板塊是遺傳算法參數(shù)的設(shè)置區(qū)域,第三板塊是對于各個參數(shù)的說明。在使用遺傳算法工具箱之前,需要對之前寫好的適應(yīng)值函數(shù)做小小的修改,以使其能應(yīng)用在遺傳算法工具箱里面。

七、數(shù)據(jù)挖掘方法——遺傳算法利用Matlab的多層感知機的神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)后提取的模型參數(shù)如下:隱節(jié)點1權(quán)值1:1.3714閾值:0.29542權(quán)值2:3.2134權(quán)值3:1.9193權(quán)值4:0.66217權(quán)值5:1.9782隱節(jié)點2權(quán)值1:-3.4496閾值:-0.0020444權(quán)值2:-1.2138權(quán)值3:1.6277權(quán)值4:-2.7673權(quán)值5:0.043026隱節(jié)點3權(quán)值1:2.8084閾值:0.5038權(quán)值2:-0.93835權(quán)值3:3.205權(quán)值4:2.5387權(quán)值5:2.4553輸出節(jié)點y權(quán)值1:-0.95112閾值:0.10116權(quán)值2:2.5511權(quán)值3:1.8952七、數(shù)據(jù)挖掘方法——遺傳算法適應(yīng)值函數(shù)設(shè)計:functiony=safeval_tel(x)y=cal1([x(1);x(2);x(3);x(4);x(5)])-cal2([x(2);x(3);x(4)]);

其中x為輸入變量,x(i)(i=1,2,3,4,5)為每一維的變量。cal1為醫(yī)療能力計算函數(shù),cal2為成本函數(shù),綜合適應(yīng)值為前者-后者,因此醫(yī)療能力越大,成本越小,最后的綜合適應(yīng)值就越大。醫(yī)療能力計算函數(shù):functiony=cal1(x)w=[1.37143.21341.91930.662171.9782-3.4496-1.21381.6277-2.76730.043026;

2.8084-0.938353.2052.53872.4553];b=[-0.951122.55111.8952];

y=w*x+b;fori=1:3y(i)=1/(1+exp(-y(i)));endB=[0.29542-0.00204440.5038];T=[0.10116];y=B*y+T;end

已知成本:1)醫(yī)生數(shù)(平均1萬元/個),工作人員數(shù)(平均0.6萬元/個),門診所數(shù)(平均100萬/個)2)醫(yī)生數(shù)(平均2萬元/個),工作人員數(shù)(平均1萬元/個),門診所數(shù)(平均150萬/個)

成本計算函數(shù):(第一種成本)functiony=cal2(x)y=(x(1)+0.6*x(2)+100*x(3)+152.4)/304.8;end(第二種成本)functiony=cal2(x)y=(2*x(1)+x(2)+150*x(3)+229.5)/459;end其中成本得分為歸一化之后的得分七、數(shù)據(jù)挖掘方法——遺傳算法遺傳算法工具箱輔助解決醫(yī)療評價與成本優(yōu)化問題的過程:

1、方法選擇:在優(yōu)化工具箱里面,第一個是選擇解決問題的模型(辦法),這里我們使用遺傳算法,因此選擇ga;在problem選項卡這里,分別填入剛剛寫好的適應(yīng)值函數(shù)以及自變量的個數(shù):注意:這里在填寫適應(yīng)值函數(shù)的時候,前面一定要加@,不然Matlab識別不了,我們此次的醫(yī)療問題里面共有5個變量,因此下面的空格填寫5。

2、約束條件與變量范圍設(shè)置:在constraints選項卡里面,前4個空格都是針對問題的線性約束條件,本問題沒有約束,因此可以不填。Bounds是對自變量的取值范圍,分別寫在Lower和Upper里面,由于我們這里最小值為-1.5,最大值為1.5,因此設(shè)定的取值范圍如上圖所示。(Lower和Upper里面都有5維,分別代表5個自變量)最后一個空格是填寫非線性約束條件的,本問題也沒有,因此不填。七、數(shù)據(jù)挖掘方法——遺傳算法3、Options設(shè)置:

Options是規(guī)定了算法運行時的參數(shù),包括交叉和變異的概率,采用何種方式進化等等,具體表現(xiàn)為一些參數(shù)和函數(shù)的選擇。1)編碼方式設(shè)置:有實數(shù)編碼和二進制編碼,默認(rèn)是doublevector(實數(shù)編碼),如果選擇二進制的話,輸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論