




已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第9章第9章 K-Means 聚類(lèi)、辨別分析9.1 理解聚類(lèi)分析餐飲企業(yè)經(jīng)常會(huì)碰到這樣的問(wèn)題:1) 如何通過(guò)餐飲客戶(hù)消費(fèi)行為的測(cè)量,進(jìn)一步評(píng)判餐飲客戶(hù)的價(jià)值和對(duì)餐飲客戶(hù)進(jìn)行細(xì)分,找到有價(jià)值的客戶(hù)群和需關(guān)注的客戶(hù)群? 2) 如何合理對(duì)菜品進(jìn)行分析,以便區(qū)分哪些菜品暢銷(xiāo)毛利又高,哪些菜品滯銷(xiāo)毛利又低? 餐飲企業(yè)遇到的這些問(wèn)題,可以通過(guò)聚類(lèi)分析解決。9.1.1 常用聚類(lèi)分析算法與分類(lèi)不同,聚類(lèi)分析是在沒(méi)有給定劃分類(lèi)別的情況下,根據(jù)數(shù)據(jù)相似度進(jìn)行樣本分組的一種方法。與分類(lèi)模型需要使用有類(lèi)標(biāo)記樣本構(gòu)成的訓(xùn)練數(shù)據(jù)不同,聚類(lèi)模型可以建立在無(wú)類(lèi)標(biāo)記的數(shù)據(jù)上,是一種非監(jiān)督的學(xué)習(xí)算法。聚類(lèi)的輸入是一組未被標(biāo)記的樣本,聚類(lèi)根據(jù)數(shù)據(jù)自身的距離或相似度將他們劃分為若干組,劃分的原則是組內(nèi)樣本最小化而組間(外部)距離最大化,如圖91所示。圖91 聚類(lèi)分析建模原理常用聚類(lèi)方法見(jiàn)表91。表91常用聚類(lèi)方法類(lèi)別包括的主要算法劃分(分裂)方法K-Means算法(K-平均)、K-MEDOIDS算法(K-中心點(diǎn))、CLARANS算法(基于選擇的算法)層次分析方法BIRCH算法(平衡迭代規(guī)約和聚類(lèi))、CURE算法(代表點(diǎn)聚類(lèi))、CHAMELEON算法(動(dòng)態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、DENCLUE算法(密度分布函數(shù))、OPTICS算法(對(duì)象排序識(shí)別)基于網(wǎng)格的方法STING算法(統(tǒng)計(jì)信息網(wǎng)絡(luò))、CLIOUE算法(聚類(lèi)高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計(jì)學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法常用聚類(lèi)算法見(jiàn)圖92。表92常用聚類(lèi)分析算法算法名稱(chēng)算法描述K-MeansK-均值聚類(lèi)也叫快速聚類(lèi)法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類(lèi)數(shù)K。該算法原理簡(jiǎn)單并便于處理大量數(shù)據(jù)。K-中心點(diǎn)K-均值算法對(duì)孤立點(diǎn)的敏感性,K-中心點(diǎn)算法不采用簇中對(duì)象的平均值作為簇中心,而選用簇中離平均值最近的對(duì)象作為簇中心。系統(tǒng)聚類(lèi)系統(tǒng)聚類(lèi)也叫多層次聚類(lèi),分類(lèi)的單位由高到低呈樹(shù)形結(jié)構(gòu),且所處的位置越低,其所包含的對(duì)象就越少,但這些對(duì)象間的共同特征越多。該聚類(lèi)方法只適合在小數(shù)據(jù)量的時(shí)候使用,數(shù)據(jù)量大的時(shí)候速度會(huì)非常慢。9.1.2 K-Means聚類(lèi)算法K-Means算法是典型的基于距離的非層次聚類(lèi)算法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類(lèi)數(shù)K,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。1. 算法過(guò)程1) 從N個(gè)樣本數(shù)據(jù)中隨機(jī)選取K個(gè)對(duì)象作為初始的聚類(lèi)中心;2) 分別計(jì)算每個(gè)樣本到各個(gè)聚類(lèi)中心的距離,將對(duì)象分配到距離最近的聚類(lèi)中;3) 所有對(duì)象分配完成后,重新計(jì)算K個(gè)聚類(lèi)的中心;4) 與前一次計(jì)算得到的K個(gè)聚類(lèi)中心比較,如果聚類(lèi)中心發(fā)生變化,轉(zhuǎn)2),否則轉(zhuǎn)5);5) 當(dāng)質(zhì)心不發(fā)生變化時(shí)停止并輸出聚類(lèi)結(jié)果。聚類(lèi)的結(jié)果可能依賴(lài)于初始聚類(lèi)中心的隨機(jī)選擇,可能使得結(jié)果嚴(yán)重偏離全局最優(yōu)分類(lèi)。實(shí)踐中,為了得到較好的結(jié)果,通常以不同的初始聚類(lèi)中心,多次運(yùn)行K-Means算法。在所有對(duì)象分配完成后,重新計(jì)算K個(gè)聚類(lèi)的中心時(shí),對(duì)于連續(xù)數(shù)據(jù),聚類(lèi)中心取該簇的均值,但是當(dāng)樣本的某些屬性是分類(lèi)變量時(shí),均值可能無(wú)定義,可以使用K-眾數(shù)方法。2. 數(shù)據(jù)類(lèi)型與相似性的度量(1) 連續(xù)屬性對(duì)于連續(xù)屬性,要先對(duì)各屬性值進(jìn)行零-均值規(guī)范,再進(jìn)行距離的計(jì)算。K-Means聚類(lèi)算法中,一般需要度量樣本之間的距離、樣本與簇之間的距離以及簇與簇之間的距離。度量樣本之間的相似性最常用的是歐幾里得距離、曼哈頓距離和閔可夫斯基距離;樣本與簇之間的距離可以用樣本到簇中心的距離;簇與簇之間的距離可以用簇中心的距離。用個(gè)屬性來(lái)表示個(gè)樣本的數(shù)據(jù)矩陣如下:歐幾里得距離 (9-1)曼哈頓距離 (9-2)閔可夫斯基距離 (9-3)為正整數(shù),時(shí)即為曼哈頓距離;時(shí)即為歐幾里得距離。(2) 文檔數(shù)據(jù)對(duì)于文檔數(shù)據(jù)使用余弦相似性度量,先將文檔數(shù)據(jù)整理成文檔詞矩陣格式,如表93。表93 文檔詞矩陣lostwinteamscoremusichappysadcoach文檔一1428087106文檔二1133411647文檔三967731485兩個(gè)文檔之間的相似度的計(jì)算公式為: (9-4)3. 目標(biāo)函數(shù)使用誤差平方和SSE作為度量聚類(lèi)質(zhì)量的目標(biāo)函數(shù),對(duì)于兩種不同的聚類(lèi)結(jié)果,選擇誤差平方和較小的分類(lèi)結(jié)果。連續(xù)屬性的SSE計(jì)算公式為: (9-5)文檔數(shù)據(jù)的SSE計(jì)算公式為: (9-6)簇的聚類(lèi)中心計(jì)算公式為: (9-7)表94 符號(hào)表符號(hào)含義K聚類(lèi)簇的個(gè)數(shù)第個(gè)簇對(duì)象(樣本)簇的聚類(lèi)中心第個(gè)簇中樣本的個(gè)數(shù)下面結(jié)合具體案例來(lái)實(shí)現(xiàn)本節(jié)開(kāi)始提出問(wèn)題。部分餐飲客戶(hù)的消費(fèi)行為特征數(shù)據(jù)如表95。根據(jù)這些數(shù)據(jù)將客戶(hù)分類(lèi)成不同客戶(hù)群,并評(píng)價(jià)這些客戶(hù)群的價(jià)值。表95消費(fèi)行為特征數(shù)據(jù)IDR(最近一次消費(fèi)時(shí)間間隔)F(消費(fèi)頻率)M(消費(fèi)總金額)1374579235361632510394452211153675216415225756311883757939542111105181086采用K-Means聚類(lèi)算法,設(shè)定聚類(lèi)個(gè)數(shù)K為3,距離函數(shù)默認(rèn)為歐氏距離。執(zhí)行K-Means聚類(lèi)算法輸出的結(jié)果見(jiàn)表96。表96聚類(lèi)算法輸出結(jié)果分群類(lèi)別分群1分群2分群3樣本個(gè)數(shù)352370 218樣本個(gè)數(shù)占比37.45%39.36%23.19%聚類(lèi)中心R18.4772711.3551141198.3034F15.489197.316216429.8898M16.0917410.7110091913.3965以下是繪制的不同客戶(hù)分群的概率密度函數(shù)圖,通過(guò)這些圖能直觀地比較不同客戶(hù)群的價(jià)值。圖92分群1的概率密度函數(shù)圖圖93分群2的概率密度函數(shù)圖圖94分群3的概率密度函數(shù)圖客戶(hù)價(jià)值分析:分群1特點(diǎn):R主要集中在1030天之間;消費(fèi)次數(shù)集中在530次;消費(fèi)金額在16002000。分群2特點(diǎn):R分布在2045天之間;消費(fèi)次數(shù)集中在525次;消費(fèi)金額在8001600。分群3特點(diǎn):R分布在3060天之間;消費(fèi)次數(shù)集中在110次;消費(fèi)金額在200800。對(duì)比分析:分群1時(shí)間間隔較短,消費(fèi)次數(shù)多,而且消費(fèi)金額較大,是高消費(fèi)高價(jià)值人群。分群2的時(shí)間間隔、消費(fèi)次數(shù)和消費(fèi)金額處于中等水平。分群3的時(shí)間間隔較長(zhǎng),消費(fèi)次數(shù)和消費(fèi)金額處于較低水平,是價(jià)值較低的客戶(hù)群體。9.1.3 聚類(lèi)分析算法評(píng)價(jià)聚類(lèi)分析僅根據(jù)樣本數(shù)據(jù)本身將樣本分組。其目標(biāo)是,組內(nèi)的對(duì)象相互之間是相似的(相關(guān)的),而不同組中的對(duì)象是不同的(不相關(guān)的)。組內(nèi)的相似性越大,組間差別越大,聚類(lèi)效果就越好。(1) purity評(píng)價(jià)法purity方法是極為簡(jiǎn)單的一種聚類(lèi)評(píng)價(jià)方法,只需計(jì)算正確聚類(lèi)數(shù)占總數(shù)的比例: (9-8)其中,是聚類(lèi)的集合。表示第k個(gè)聚類(lèi)的集合。 表示需要被聚類(lèi)的集合,表示第個(gè)聚類(lèi)對(duì)象。表示被聚類(lèi)集合對(duì)象的總數(shù)。(2) RI評(píng)價(jià)法實(shí)際上這是一種用排列組合原理來(lái)對(duì)聚類(lèi)進(jìn)行評(píng)價(jià)的手段,RI評(píng)價(jià)公式如下: (9-10)其中R是指被聚在一類(lèi)的兩個(gè)對(duì)象被正確分類(lèi)了,W是指不應(yīng)該被聚在一類(lèi)的兩個(gè)對(duì)象被正確分開(kāi)了,M指不應(yīng)該放在一類(lèi)的對(duì)象被錯(cuò)誤的放在了一類(lèi),D指不應(yīng)該分開(kāi)的對(duì)象被錯(cuò)誤的分開(kāi)了。(3) F值評(píng)價(jià)法這是基于上述RI方法衍生出的一個(gè)方法,F(xiàn)評(píng)價(jià)公式如下: (9-11)其中,。實(shí)際上RI方法就是把準(zhǔn)確率p和召回率r看得同等重要,事實(shí)上有時(shí)候我們可能需要某一特性更多一點(diǎn),這時(shí)候就適合使用F值方法。9.2實(shí)例1利用K-Means 聚類(lèi)確定患冠心病的高風(fēng)險(xiǎn)人群9.2.1 背景和概要說(shuō)明Sonia 在一家主要健康保險(xiǎn)公司擔(dān)任項(xiàng)目總監(jiān)。 最近她一直在閱讀醫(yī)學(xué)刊物和其他文章,并發(fā)現(xiàn)好多文章都在強(qiáng)調(diào)體重、性別和膽固醇對(duì)患冠心病的影響。 她閱讀的研究文件一次又一次地確認(rèn)這三個(gè)變量之間存在關(guān)聯(lián)。盡管人們無(wú)法在自己的性別方面下功夫,但無(wú)疑可以通過(guò)選擇合理的生活方式來(lái)改變膽固醇水平和體重。 于是她開(kāi)始提議公司為健康保險(xiǎn)客戶(hù)提供體重和膽固醇管理項(xiàng)目。 在考慮她的工作在哪里開(kāi)展可能最為有效時(shí),她希望了解是否存在發(fā)生高體重和高膽固醇風(fēng)險(xiǎn)最高的自然群體,如果存在,這些群體之間的自然分界線(xiàn)在哪里。9.2.2業(yè)務(wù)理解Sonia 的目標(biāo)是確定由公司提供保險(xiǎn)服務(wù)且因體重和/或高膽固醇患冠心病的風(fēng)險(xiǎn)非常高的人員,并試圖聯(lián)絡(luò)這些人員。 她了解患冠心病風(fēng)險(xiǎn)較低的人員,即體重和膽固醇水平較低的人員不太可能會(huì)參加她提供的項(xiàng)目。 她還了解可能存在高體重和低膽固醇、高體重 和 高膽固醇,以及低體重和高膽固醇的保單持有人。 她還認(rèn)識(shí)到可能會(huì)有許多人介于它們之間。 為了實(shí)現(xiàn)目標(biāo),她需要在數(shù)以千計(jì)的保單持有人中搜索具有類(lèi)似特征的群體,并制定相關(guān)且對(duì)這些不同的群體有吸引力的項(xiàng)目和溝通方式。9.2.3數(shù)據(jù)理解使用該保險(xiǎn)公司的索賠數(shù)據(jù)庫(kù),Sonia 提取了 547 個(gè)隨機(jī)挑選的人員的三個(gè)屬性,即受保人最近的體檢表上記錄的體重(單位:磅)、最近一次驗(yàn)血時(shí)測(cè)得的膽固醇水平,以及性別。 和在許多數(shù)據(jù)集中的典型做法一樣,性別屬性使用 0 來(lái)表示女性,并使用 1 來(lái)表示男性。 我們將使用從 Sonia 公司的數(shù)據(jù)庫(kù)中提取的這些樣本數(shù)據(jù)構(gòu)建聚類(lèi)模型,以便幫助 Sonia 了解公司的客戶(hù)(即健康保險(xiǎn)保單持有人)根據(jù)體重、性別和膽固醇水平進(jìn)行分組的情況。 我們應(yīng)切記在構(gòu)建模型時(shí),均值尤其容易受到極端離群點(diǎn)的不當(dāng)影響,因此在使用 K 均值聚類(lèi)數(shù)據(jù)挖掘方法時(shí)查看是否存在不一致的數(shù)據(jù)至關(guān)重要。9.2.4數(shù)據(jù)準(zhǔn)備將 “.K-Means聚類(lèi).csv”數(shù)據(jù)集導(dǎo)入到 RapidMiner 數(shù)據(jù)存儲(chǔ)庫(kù)中,保存為/Local Repository/data/K-Means聚類(lèi)。我們可以看到先前定義的三個(gè)屬性有 547 個(gè)觀察項(xiàng)。 我們可以看到三個(gè)屬性中的每個(gè)屬性的平均值,以及對(duì)應(yīng)的標(biāo)準(zhǔn)差和范圍,如圖9.5。 其中沒(méi)有看起來(lái)不一致的值(切記前面關(guān)于使用標(biāo)準(zhǔn)差查找統(tǒng)計(jì)離群點(diǎn)的備注)。 由于沒(méi)有缺失的值要處理,因此數(shù)據(jù)看起來(lái)非常干凈,并可直接進(jìn)行挖掘。圖9.5 數(shù)據(jù)基本信息9.2.5操作步驟第一步:對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)將數(shù)據(jù)拖拽到操作視圖界面,檢索“k-Means”操作符并將其與數(shù)據(jù)進(jìn)行連接,然后與輸出端口連接,點(diǎn)擊運(yùn)行,我們可以看到如圖 運(yùn)行結(jié)果,在參數(shù)設(shè)置如圖9.6 中,我們可以設(shè)計(jì)聚成的k的類(lèi)數(shù),以及“max runs”最大循環(huán)迭代的次數(shù)。圖9.6 k-Means聚類(lèi)參數(shù)設(shè)置第二步:結(jié)果集過(guò)濾將“Filter Examples”結(jié)果集過(guò)濾操作符拖進(jìn)操作界面,如圖9.7,在參數(shù)設(shè)置中,選擇類(lèi)別等于類(lèi)別0,如圖9.8。圖9.7 操作符流程視圖圖9.8 結(jié)果集過(guò)濾參數(shù)設(shè)置第三步:輸出結(jié)果點(diǎn)擊運(yùn)行,我們可以看到如圖9.9的輸出結(jié)果圖9.9 篩選類(lèi)別后的輸出結(jié)果 這樣我們的主人公,就可以根據(jù)顯示輸出的結(jié)果,來(lái)重點(diǎn)關(guān)注疾病的高發(fā)人群,從而有針對(duì)性的進(jìn)行服務(wù)。9.3實(shí)例2利用判別分析技術(shù)分類(lèi)運(yùn)動(dòng)員專(zhuān)攻項(xiàng)目9.3.1背景和概要說(shuō)明Gill 運(yùn)營(yíng)著一個(gè)體育學(xué)院,旨在幫助高中年紀(jì)的運(yùn)動(dòng)員最大限度地發(fā)揮其在體育方面的潛力。 對(duì)于學(xué)院的男生,他側(cè)重于四個(gè)主要體育項(xiàng)目,即 橄欖球、籃球、棒球和曲棍球。 他發(fā)現(xiàn)雖然許多高中運(yùn)動(dòng)員在念高中時(shí)都喜歡參加多種體育項(xiàng)目,但隨著他們開(kāi)始考慮在大學(xué)時(shí)從事的體育項(xiàng)目,他們將傾向于專(zhuān)攻某一項(xiàng)。 通過(guò)多年來(lái)與運(yùn)動(dòng)員之間的合作,Gill 整理了一個(gè)內(nèi)容非常廣泛的數(shù)據(jù)集。現(xiàn)在他想知道他是否可以使用先前部分客戶(hù)的以往成績(jī),為即將到來(lái)的高中運(yùn)動(dòng)員預(yù)測(cè)主攻的體育項(xiàng)目。最終,他希望可以就每個(gè)運(yùn)動(dòng)員可能最應(yīng)選擇專(zhuān)攻哪個(gè)體育項(xiàng)目,向他們提供建議。通過(guò)評(píng)估每個(gè)運(yùn)動(dòng)員在一系列測(cè)試中的成績(jī),Gill 希望我們可以幫助他確定每個(gè)運(yùn)動(dòng)員在哪個(gè)體育項(xiàng)目方面資質(zhì)最高。9.3.2判別分析的含義判別分析(Discriminant Analysis,簡(jiǎn)稱(chēng)DA)技術(shù)是由費(fèi)舍(RAFisher)于1936年提出的。它是根據(jù)觀察或測(cè)量到的若干變量值判斷研究對(duì)象如何分類(lèi)的方法。具體地講,就是已知一定數(shù)量案例的一個(gè)分組變量(grouping variable)和這些案例的一些特征變量,確定分組變量和特征變量之間的數(shù)量關(guān)系,建立判別函數(shù)(discriminant function),然后便可以利用這一數(shù)量關(guān)系對(duì)其他已知特征變量信息、但未知分組類(lèi)型所屬的案例進(jìn)行判別分組。沿用多元回歸模型的稱(chēng)謂,在判別分析中稱(chēng)分組變量為因變量,而用以分組的其他特征變量稱(chēng)為判別變量(discriminant variable)或自變量。判別分析技術(shù)曾經(jīng)在許多領(lǐng)域得到成功的應(yīng)用,例如醫(yī)學(xué)實(shí)踐中根據(jù)各種化驗(yàn)結(jié)果、疾病癥狀、體征判斷患者患的是什么疾??;體育選材中根據(jù)運(yùn)動(dòng)員的體形、運(yùn)動(dòng)成績(jī)、生理指標(biāo)、心理素質(zhì)指標(biāo)、遺傳因素判斷是否選入運(yùn)動(dòng)隊(duì)繼續(xù)培養(yǎng);還有動(dòng)物、植物分類(lèi),兒童心理測(cè)驗(yàn),地理區(qū)劃的經(jīng)濟(jì)差異,決策行為預(yù)測(cè)等。9.3.3業(yè)務(wù)理解Gill 的目標(biāo)是對(duì)年輕運(yùn)動(dòng)員進(jìn)行考核,并根據(jù)其在一系列指標(biāo)方面的成績(jī)來(lái)幫助他們決定最適合專(zhuān)攻哪個(gè)體育項(xiàng)目。 Gill 認(rèn)識(shí)到他的所有客戶(hù)都熱衷于體育運(yùn)動(dòng),并且喜歡參加多種體育項(xiàng)目。 他的大多數(shù)客戶(hù)都非常年輕、熱愛(ài)體育運(yùn)動(dòng)、適應(yīng)能力非常強(qiáng),并且都擅長(zhǎng)多種體育項(xiàng)目。多年來(lái),他看到有些人具有極高的天賦,無(wú)論選擇專(zhuān)攻任何體育項(xiàng)目都能有杰出的表現(xiàn)。 因此他認(rèn)識(shí)到,由于此項(xiàng)數(shù)據(jù)挖掘工作的局限,他可能無(wú)法使用數(shù)據(jù)來(lái)確定運(yùn)動(dòng)員的“最佳”體育項(xiàng)目。 此外,他還查看了過(guò)去的衡量指標(biāo)和評(píng)估工作,并發(fā)現(xiàn)先前有些運(yùn)動(dòng)員確實(shí)在事先選定了某種體育項(xiàng)目,并在專(zhuān)攻該項(xiàng)目后取得了巨大成功。 根據(jù)他的行業(yè)經(jīng)驗(yàn),他決定嘗試使用數(shù)據(jù)挖掘來(lái)了解運(yùn)動(dòng)員的資質(zhì),并請(qǐng)我們提供幫助。9.3.4數(shù)據(jù)理解為了開(kāi)始制定計(jì)劃,我們與 Gill 一起對(duì)他的數(shù)據(jù)資產(chǎn)進(jìn)行了審查。 在過(guò)去的幾年中,進(jìn)入 Gill 學(xué)院的每個(gè)運(yùn)動(dòng)員都接受了一系列針對(duì)多項(xiàng)運(yùn)動(dòng)特征和個(gè)人特征的測(cè)試。 雖然學(xué)院對(duì)參加多種不同體育項(xiàng)目的男生和女生都進(jìn)行了這些測(cè)試,但在此項(xiàng)初步研究中,我們和 Gill 決定只查看男生的數(shù)據(jù)。 因?yàn)閷W(xué)院已經(jīng)運(yùn)營(yíng)了一段時(shí)間,所有 Gill 能夠知道之前有哪些學(xué)員選擇專(zhuān)攻一種體育項(xiàng)目,以及其中每個(gè)學(xué)員選擇的是哪種體育項(xiàng)目。 通過(guò)與 Gill 密切合作,我們收集了先前所有選擇專(zhuān)攻一種體育項(xiàng)目的客戶(hù)在這些測(cè)試中的結(jié)果,Gill 還添加了其中每個(gè)學(xué)員專(zhuān)攻的體育項(xiàng)目,于是我們獲得了一個(gè)包含 493 個(gè)觀察項(xiàng)以及以下屬性的數(shù)據(jù)集:年齡: 參與者在接受運(yùn)動(dòng)特征和個(gè)人特征系列測(cè)試時(shí)的年齡(精確到 0.1 位), 介于13-19 歲之間。力量: 通過(guò)一系列舉重運(yùn)動(dòng)測(cè)得的參與者的力量,介于 0-10 分之間,其中 0 分表示力量有限,10 分表示力量足可以毫不費(fèi)力地進(jìn)行所有舉重運(yùn)動(dòng)。 沒(méi)有參與者的評(píng)分達(dá)到 8 分、9 分或 10 分,但卻有些參與者的評(píng)分為 0 分。反應(yīng)能力: 參與者在接受一系列反應(yīng)能力測(cè)試后獲得的成績(jī)。 這些測(cè)試記錄參與者在燈光發(fā)出指示后經(jīng)過(guò)多長(zhǎng)時(shí)間才按下按鈕,或蜂器響起后經(jīng)過(guò)多長(zhǎng)時(shí)間才跳起來(lái)。 反應(yīng)時(shí)間被記錄在表中,介于 0-6 分之間,其中 6 分表示反應(yīng)非???,0 分表示反應(yīng)非常慢。 對(duì)于此屬性,每個(gè)分值都有對(duì)應(yīng)的參與者。傷?。?一個(gè)內(nèi)容為 yes (1)/no (0) 且非常簡(jiǎn)單的列,用于表示年輕運(yùn)動(dòng)員是否曾受過(guò)與體育運(yùn)行相關(guān)的傷,并且嚴(yán)重到需要手術(shù)或其他重要醫(yī)療干預(yù)的程度。 通過(guò)冰敷、休息、舒展肢體等方法治療的常見(jiàn)傷被記錄為 0。需要三周以上才能痊愈、需要采取物理療法或需要手術(shù)的傷將被記錄為 1。視力: 不僅使用視力表按一般的 20/20 視力等級(jí)對(duì)運(yùn)動(dòng)員進(jìn)行測(cè)試,而且還使用視線(xiàn)跟蹤技術(shù)測(cè)試他們用視線(xiàn)跟蹤物體的能力。 此項(xiàng)測(cè)試要求參與者識(shí)別視野內(nèi)快速移動(dòng)的物體,并估算移動(dòng)物體的移動(dòng)速度和方向。 此項(xiàng)評(píng)分介于 0 分到 4 分之間,其中 4分表示視力非常好,并能夠很好地識(shí)別移動(dòng)物體。 沒(méi)有參與者的評(píng)分達(dá)到滿(mǎn)分(4 分),但 0 分到 3 分之間都有對(duì)應(yīng)的參與者。耐力: 參與者接受一系列身體素質(zhì)測(cè)試,其中包括跑步、柔軟體操、有氧心肺功能運(yùn)動(dòng)和長(zhǎng)距離游泳。 此項(xiàng)成績(jī)介于 0-10 分之間,其中 10 分表示能夠在不感到任何疲勞的情況下完成所有任務(wù)。 在此項(xiàng)屬性方面,參與者的評(píng)分介于 0 分到 6 分之間。 Gill告訴我們,即使?fàn)顩r再好的專(zhuān)業(yè)運(yùn)動(dòng)員在這部分測(cè)試中的評(píng)分也不能達(dá)到 10 分,因?yàn)榇隧?xiàng)測(cè)試旨在測(cè)試人類(lèi)耐力的極限。 敏捷性: 參與者在接受一系列移動(dòng)、扭轉(zhuǎn)、轉(zhuǎn)動(dòng)、跳躍、轉(zhuǎn)向等測(cè)試后獲得的評(píng)分。此項(xiàng)測(cè)試旨在檢查運(yùn)動(dòng)員朝各個(gè)方向敏捷、精確、有力移動(dòng)的能力。 這是一項(xiàng)綜合指標(biāo),受一些其他指標(biāo)的影響,因?yàn)槊艚菪酝ǔHQ于一個(gè)人的力量、速度等。此項(xiàng)屬性的評(píng)分介于 0 分到 100 分之間。在 Gill 提供的數(shù)據(jù)集中,此項(xiàng)成績(jī)都介于 13 分和80 分之間。決策能力: 此部分旨在測(cè)試運(yùn)動(dòng)員在各種運(yùn)動(dòng)狀況中作出決策的過(guò)程。 讓運(yùn)動(dòng)員參與各種模擬情景,以便測(cè)試他們?cè)谑欠駬]棒、是否傳球、是否朝運(yùn)動(dòng)場(chǎng)上可能有利的位置移動(dòng)等方面的選擇。 此項(xiàng)評(píng)分介于 0 分到 100 分之間,但 Gill 表示在完成此項(xiàng)測(cè)試的人中,沒(méi)有人的評(píng)分能夠低于 3 分,因?yàn)橹灰晒﹂_(kāi)始并結(jié)束決策測(cè)試部分,即可得到 3 分。 Gill 知道此數(shù)據(jù)表中的所有 493 名前運(yùn)動(dòng)員都成功開(kāi)始并結(jié)束了此部分測(cè)試,但數(shù)據(jù)表中卻有一些分?jǐn)?shù)低于 3 分,而且還有一些分?jǐn)?shù)高于 100 分,因此我們知道后面我們還有一些數(shù)據(jù)準(zhǔn)備工作要做。專(zhuān)攻體育項(xiàng)目: 此項(xiàng)屬性是指 453 名運(yùn)動(dòng)員中的每名運(yùn)動(dòng)員在離開(kāi) Gill 的學(xué)院后專(zhuān)攻的體育項(xiàng)目。 這是 Gill 希望能夠?yàn)槟壳暗目蛻?hù)預(yù)測(cè)的屬性。 對(duì)于此項(xiàng)研究中的男生,此項(xiàng)屬性將為以下四種體育項(xiàng)目中的其中一種: 橄欖球、籃球、棒球和曲棍球。9.3.5數(shù)據(jù)準(zhǔn)備將 “辨別分析_Training.csv”數(shù)據(jù)集導(dǎo)入到 RapidMiner 數(shù)據(jù)存儲(chǔ)庫(kù)中,保存為/Local Repository/data/判別分析_Training。將 “辨別分析_Scoring.csv”數(shù)據(jù)集導(dǎo)入到 RapidMiner 數(shù)據(jù)存儲(chǔ)庫(kù)中,保存為/Local Repository/data/判別分析_Scoring。9.3
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生產(chǎn)加工項(xiàng)目管理制度
- 生產(chǎn)測(cè)試軟件管理制度
- 生產(chǎn)設(shè)備點(diǎn)檢管理制度
- 生產(chǎn)車(chē)間下單管理制度
- 公園小攤活動(dòng)策劃方案
- yy成員管理制度
- 下層工廠管理制度
- 丙烷倉(cāng)庫(kù)管理制度
- 絲印公司管理制度
- 兩免資金管理制度
- 美麗鄉(xiāng)村建設(shè)項(xiàng)目可行性分析報(bào)告
- 鋼結(jié)構(gòu)焊縫外觀質(zhì)量檢查
- 電工電子學(xué)知到智慧樹(shù)期末考試答案題庫(kù)2025年北京科技大學(xué)
- 人教版七年級(jí)下冊(cè)數(shù)學(xué)11.1.1不等式及其解集(同步課件)
- 深度學(xué)習(xí)的基本概念試題及答案
- 委托撫養(yǎng)孩子協(xié)議書(shū)
- 園藝學(xué):植物嫁接技術(shù)的創(chuàng)新與應(yīng)用
- 2025商丘市輔警考試試卷真題
- 高速公路施工標(biāo)準(zhǔn)化管理指南
- 網(wǎng)絡(luò)支付行業(yè)的發(fā)展趨勢(shì)
- 不動(dòng)產(chǎn)登記代理人《地籍調(diào)查》歷年考試真題及答案(高頻題)
評(píng)論
0/150
提交評(píng)論