第9章RapidminerKMeans聚類、辨別分析V1_第1頁
第9章RapidminerKMeans聚類、辨別分析V1_第2頁
第9章RapidminerKMeans聚類、辨別分析V1_第3頁
第9章RapidminerKMeans聚類、辨別分析V1_第4頁
第9章RapidminerKMeans聚類、辨別分析V1_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

《RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》第9章表96。表9SEQ表\*ARABIC\s16聚類算法輸出結(jié)果分群類別分群1分群2分群3樣本個數(shù)352370218樣本個數(shù)占比37.45%39.36%23.19%聚類中心R18.4772711.3551141198.3034F15.489197.316216429.8898M16.0917410.7110091913.3965以下是繪制的不同客戶分群的概率密度函數(shù)圖,通過這些圖能直觀地比較不同客戶群的價值。圖92分群1的概率密度函數(shù)圖圖93分群2的概率密度函數(shù)圖圖94分群3的概率密度函數(shù)圖客戶價值分析:分群1特點:R主要集中在10~30天之間;消費次數(shù)集中在5~30次;消費金額在1600~2000。分群2特點:R分布在20~45天之間;消費次數(shù)集中在5~25次;消費金額在800~1600。分群3特點:R分布在30~60天之間;消費次數(shù)集中在1~10次;消費金額在200~800。對比分析:分群1時間間隔較短,消費次數(shù)多,而且消費金額較大,是高消費高價值人群。分群2的時間間隔、消費次數(shù)和消費金額處于中等水平。分群3的時間間隔較長,消費次數(shù)和消費金額處于較低水平,是價值較低的客戶群體。聚類分析算法評價聚類分析僅根據(jù)樣本數(shù)據(jù)本身將樣本分組。其目標(biāo)是,組內(nèi)的對象相互之間是相似的(相關(guān)的),而不同組中的對象是不同的(不相關(guān)的)。組內(nèi)的相似性越大,組間差別越大,聚類效果就越好。purity評價法purity方法是極為簡單的一種聚類評價方法,只需計算正確聚類數(shù)占總數(shù)的比例:(9-8)其中,是聚類的集合。表示第k個聚類的集合。表示需要被聚類的集合,表示第個聚類對象。表示被聚類集合對象的總數(shù)。RI評價法實際上這是一種用排列組合原理來對聚類進行評價的手段,RI評價公式如下:(9-10)其中R是指被聚在一類的兩個對象被正確分類了,W是指不應(yīng)該被聚在一類的兩個對象被正確分開了,M指不應(yīng)該放在一類的對象被錯誤的放在了一類,D指不應(yīng)該分開的對象被錯誤的分開了。F值評價法這是基于上述RI方法衍生出的一個方法,F(xiàn)評價公式如下:(9-11)其中,。實際上RI方法就是把準(zhǔn)確率p和召回率r看得同等重要,事實上有時候我們可能需要某一特性更多一點,這時候就適合使用F值方法。9.2實例1—利用K-Means聚類確定患冠心病的高風(fēng)險人群9.2.1背景和概要說明Sonia在一家主要健康保險公司擔(dān)任項目總監(jiān)。最近她一直在閱讀醫(yī)學(xué)刊物和其他文章,并發(fā)現(xiàn)好多文章都在強調(diào)體重、性別和膽固醇對患冠心病的影響。她閱讀的研究文件一次又一次地確認(rèn)這三個變量之間存在關(guān)聯(lián)。盡管人們無法在自己的性別方面下功夫,但無疑可以通過選擇合理的生活方式來改變膽固醇水平和體重。于是她開始提議公司為健康保險客戶提供體重和膽固醇管理項目。在考慮她的工作在哪里開展可能最為有效時,她希望了解是否存在發(fā)生高體重和高膽固醇風(fēng)險最高的自然群體,如果存在,這些群體之間的自然分界線在哪里。9.2.2業(yè)務(wù)理解Sonia的目標(biāo)是確定由公司提供保險服務(wù)且因體重和/或高膽固醇患冠心病的風(fēng)險非常高的人員,并試圖聯(lián)絡(luò)這些人員。她了解患冠心病風(fēng)險較低的人員,即體重和膽固醇水平較低的人員不太可能會參加她提供的項目。她還了解可能存在高體重和低膽固醇、高體重和高膽固醇,以及低體重和高膽固醇的保單持有人。她還認(rèn)識到可能會有許多人介于它們之間。為了實現(xiàn)目標(biāo),她需要在數(shù)以千計的保單持有人中搜索具有類似特征的群體,并制定相關(guān)且對這些不同的群體有吸引力的項目和溝通方式。9.2.3數(shù)據(jù)理解使用該保險公司的索賠數(shù)據(jù)庫,Sonia提取了547個隨機挑選的人員的三個屬性,即受保人最近的體檢表上記錄的體重(單位:磅)、最近一次驗血時測得的膽固醇水平,以及性別。和在許多數(shù)據(jù)集中的典型做法一樣,性別屬性使用0來表示女性,并使用1來表示男性。我們將使用從Sonia公司的數(shù)據(jù)庫中提取的這些樣本數(shù)據(jù)構(gòu)建聚類模型,以便幫助Sonia了解公司的客戶(即健康保險保單持有人)根據(jù)體重、性別和膽固醇水平進行分組的情況。我們應(yīng)切記在構(gòu)建模型時,均值尤其容易受到極端離群點的不當(dāng)影響,因此在使用K均值聚類數(shù)據(jù)挖掘方法時查看是否存在不一致的數(shù)據(jù)至關(guān)重要。9.2.4數(shù)據(jù)準(zhǔn)備將“.K-Means聚類.csv”數(shù)據(jù)集導(dǎo)入到RapidMiner數(shù)據(jù)存儲庫中,保存為//LocalRepository/data/K-Means聚類。我們可以看到先前定義的三個屬性有547個觀察項。我們可以看到三個屬性中的每個屬性的平均值,以及對應(yīng)的標(biāo)準(zhǔn)差和范圍,如圖9.5。其中沒有看起來不一致的值(切記前面關(guān)于使用標(biāo)準(zhǔn)差查找統(tǒng)計離群點的備注)。由于沒有缺失的值要處理,因此數(shù)據(jù)看起來非常干凈,并可直接進行挖掘。圖9.5數(shù)據(jù)基本信息9.2.5操作步驟第一步:對數(shù)據(jù)進行聚類將數(shù)據(jù)拖拽到操作視圖界面,檢索“k-Means”操作符并將其與數(shù)據(jù)進行連接,然后與輸出端口連接,點擊運行,我們可以看到如圖運行結(jié)果,在參數(shù)設(shè)置如圖9.6中,我們可以設(shè)計聚成的k的類數(shù),以及“maxruns”最大循環(huán)迭代的次數(shù)。圖9.6k-Means聚類參數(shù)設(shè)置第二步:結(jié)果集過濾將“FilterExamples”結(jié)果集過濾操作符拖進操作界面,如圖9.7,在參數(shù)設(shè)置中,選擇類別等于類別0,如圖9.8。圖9.7操作符流程視圖圖9.8結(jié)果集過濾參數(shù)設(shè)置第三步:輸出結(jié)果點擊運行,我們可以看到如圖9.9的輸出結(jié)果圖9.9篩選類別后的輸出結(jié)果這樣我們的主人公,就可以根據(jù)顯示輸出的結(jié)果,來重點關(guān)注疾病的高發(fā)人群,從而有針對性的進行服務(wù)。9.3實例2—利用判別分析技術(shù)分類運動員專攻項目9.3.1背景和概要說明Gill運營著一個體育學(xué)院,旨在幫助高中年紀(jì)的運動員最大限度地發(fā)揮其在體育方面的潛力。對于學(xué)院的男生,他側(cè)重于四個主要體育項目,即橄欖球、籃球、棒球和曲棍球。他發(fā)現(xiàn)雖然許多高中運動員在念高中時都喜歡參加多種體育項目,但隨著他們開始考慮在大學(xué)時從事的體育項目,他們將傾向于專攻某一項。通過多年來與運動員之間的合作,Gill整理了一個內(nèi)容非常廣泛的數(shù)據(jù)集。現(xiàn)在他想知道他是否可以使用先前部分客戶的以往成績,為即將到來的高中運動員預(yù)測主攻的體育項目。最終,他希望可以就每個運動員可能最應(yīng)選擇專攻哪個體育項目,向他們提供建議。通過評估每個運動員在一系列測試中的成績,Gill希望我們可以幫助他確定每個運動員在哪個體育項目方面資質(zhì)最高。9.3.2判別分析的含義判別分析(DiscriminantAnalysis,簡稱DA)技術(shù)是由費舍(R.A.Fisher)于1936年提出的。它是根據(jù)觀察或測量到的若干變量值判斷研究對象如何分類的方法。具體地講,就是已知一定數(shù)量案例的一個分組變量(groupingvariable)和這些案例的一些特征變量,確定分組變量和特征變量之間的數(shù)量關(guān)系,建立判別函數(shù)(discriminantfunction),然后便可以利用這一數(shù)量關(guān)系對其他已知特征變量信息、但未知分組類型所屬的案例進行判別分組。沿用多元回歸模型的稱謂,在判別分析中稱分組變量為因變量,而用以分組的其他特征變量稱為判別變量(discriminantvariable)或自變量。判別分析技術(shù)曾經(jīng)在許多領(lǐng)域得到成功的應(yīng)用,例如醫(yī)學(xué)實踐中根據(jù)各種化驗結(jié)果、疾病癥狀、體征判斷患者患的是什么疾病;體育選材中根據(jù)運動員的體形、運動成績、生理指標(biāo)、心理素質(zhì)指標(biāo)、遺傳因素判斷是否選入運動隊繼續(xù)培養(yǎng);還有動物、植物分類,兒童心理測驗,地理區(qū)劃的經(jīng)濟差異,決策行為預(yù)測等。9.3.3業(yè)務(wù)理解Gill的目標(biāo)是對年輕運動員進行考核,并根據(jù)其在一系列指標(biāo)方面的成績來幫助他們決定最適合專攻哪個體育項目。Gill認(rèn)識到他的所有客戶都熱衷于體育運動,并且喜歡參加多種體育項目。他的大多數(shù)客戶都非常年輕、熱愛體育運動、適應(yīng)能力非常強,并且都擅長多種體育項目。多年來,他看到有些人具有極高的天賦,無論選擇專攻任何體育項目都能有杰出的表現(xiàn)。因此他認(rèn)識到,由于此項數(shù)據(jù)挖掘工作的局限,他可能無法使用數(shù)據(jù)來確定運動員的“最佳”體育項目。此外,他還查看了過去的衡量指標(biāo)和評估工作,并發(fā)現(xiàn)先前有些運動員確實在事先選定了某種體育項目,并在專攻該項目后取得了巨大成功。根據(jù)他的行業(yè)經(jīng)驗,他決定嘗試使用數(shù)據(jù)挖掘來了解運動員的資質(zhì),并請我們提供幫助。9.3.4數(shù)據(jù)理解為了開始制定計劃,我們與Gill一起對他的數(shù)據(jù)資產(chǎn)進行了審查。在過去的幾年中,進入Gill學(xué)院的每個運動員都接受了一系列針對多項運動特征和個人特征的測試。雖然學(xué)院對參加多種不同體育項目的男生和女生都進行了這些測試,但在此項初步研究中,我們和Gill決定只查看男生的數(shù)據(jù)。因為學(xué)院已經(jīng)運營了一段時間,所有Gill能夠知道之前有哪些學(xué)員選擇專攻一種體育項目,以及其中每個學(xué)員選擇的是哪種體育項目。通過與Gill密切合作,我們收集了先前所有選擇專攻一種體育項目的客戶在這些測試中的結(jié)果,Gill還添加了其中每個學(xué)員專攻的體育項目,于是我們獲得了一個包含493個觀察項以及以下屬性的數(shù)據(jù)集:年齡:參與者在接受運動特征和個人特征系列測試時的年齡(精確到0.1位),介于13-19歲之間。力量:通過一系列舉重運動測得的參與者的力量,介于0-10分之間,其中0分表示力量有限,10分表示力量足可以毫不費力地進行所有舉重運動。沒有參與者的評分達到8分、9分或10分,但卻有些參與者的評分為0分。反應(yīng)能力:參與者在接受一系列反應(yīng)能力測試后獲得的成績。這些測試記錄參與者在燈光發(fā)出指示后經(jīng)過多長時間才按下按鈕,或蜂器響起后經(jīng)過多長時間才跳起來。反應(yīng)時間被記錄在表中,介于0-6分之間,其中6分表示反應(yīng)非???,0分表示反應(yīng)非常慢。對于此屬性,每個分值都有對應(yīng)的參與者。傷病:一個內(nèi)容為yes(1)/no(0)且非常簡單的列,用于表示年輕運動員是否曾受過與體育運行相關(guān)的傷,并且嚴(yán)重到需要手術(shù)或其他重要醫(yī)療干預(yù)的程度。通過冰敷、休息、舒展肢體等方法治療的常見傷被記錄為0。需要三周以上才能痊愈、需要采取物理療法或需要手術(shù)的傷將被記錄為1。視力:不僅使用視力表按一般的20/20視力等級對運動員進行測試,而且還使用視線跟蹤技術(shù)測試他們用視線跟蹤物體的能力。此項測試要求參與者識別視野內(nèi)快速移動的物體,并估算移動物體的移動速度和方向。此項評分介于0分到4分之間,其中4分表示視力非常好,并能夠很好地識別移動物體。沒有參與者的評分達到滿分(4分),但0分到3分之間都有對應(yīng)的參與者。耐力:參與者接受一系列身體素質(zhì)測試,其中包括跑步、柔軟體操、有氧心肺功能運動和長距離游泳。此項成績介于0-10分之間,其中10分表示能夠在不感到任何疲勞的情況下完成所有任務(wù)。在此項屬性方面,參與者的評分介于0分到6分之間。Gill告訴我們,即使?fàn)顩r再好的專業(yè)運動員在這部分測試中的評分也不能達到10分,因為此項測試旨在測試人類耐力的極限。敏捷性:參與者在接受一系列移動、扭轉(zhuǎn)、轉(zhuǎn)動、跳躍、轉(zhuǎn)向等測試后獲得的評分。此項測試旨在檢查運動員朝各個方向敏捷、精確、有力移動的能力。這是一項綜合指標(biāo),受一些其他指標(biāo)的影響,因為敏捷性通常取決于一個人的力量、速度等。此項屬性的評分介于0分到100分之間。在Gill提供的數(shù)據(jù)集中,此項成績都介于13分和80分之間。決策能力:此部分旨在測試運動員在各種運動狀況中作出決策的過程。讓運動員參與各種模擬情景,以便測試他們在是否揮棒、是否傳球、是否朝運動場上可能有利的位置移動等方面的選擇。此項評分介于0分到100分之間,但Gill表示在完成此項測試的人中,沒有人的評分能夠低于3分,因為只要成功開始并結(jié)束決策測試部分,即可得到3分。Gill知道此數(shù)據(jù)表中的所有493名前運動員都成功開始并結(jié)束了此部分測試,但數(shù)據(jù)表中卻有一些分?jǐn)?shù)低于3分,而且還有一些分?jǐn)?shù)高于100分,因此我們知道后面我們還有一些數(shù)據(jù)準(zhǔn)備工作要做。專攻體育項目:此項屬性是指453名運動員中的每名運動員在離開Gill的學(xué)院后專攻的體育項目。這是Gill希望能夠為目前的客戶預(yù)測的屬性。對于此項研究中的男生,此項屬性將為以下四種體育項目中的其中一種:橄欖球、籃球、棒球和曲棍球。9.3.5數(shù)據(jù)準(zhǔn)備將“辨別分析_Training.csv”數(shù)據(jù)集導(dǎo)入到RapidMiner數(shù)據(jù)存儲庫中,保存為//LocalRepository/data/判別分析_Training。將“辨別分析_Scoring.csv”數(shù)據(jù)集導(dǎo)入到RapidMiner數(shù)據(jù)存儲庫中,保存為//LocalRepository/data/判別分析_Scoring。9.3.6操作過程圖9.10總體流程圖第一步:數(shù)據(jù)清洗通過觀察數(shù)據(jù)集的整體情況,我們發(fā)現(xiàn)在訓(xùn)練數(shù)據(jù)集中,決策能力這一欄的數(shù)據(jù)有一樣,按照規(guī)定,這個數(shù)據(jù)的取值范圍是0-100,并且最少能夠得到3分,而在這里顯示的是0-103,我們需要對數(shù)據(jù)進行處理。另外,我們觀察測試數(shù)據(jù)集的情況,它的決策數(shù)據(jù)值在0-119,同樣也超出的3-100的正常取值范圍,這地方我們在運行的時候也要進行處理。我們調(diào)用“FilterEx

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論