




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、北京航空航天大學(xué)應(yīng)用數(shù)理統(tǒng)計(jì)論文NBA球隊(duì)實(shí)力的聚類和判別分析摘 要:本文運(yùn)用SPSS軟件對(duì)NBA30支球隊(duì)的實(shí)力進(jìn)行了聚類分析,根據(jù)本賽季30場(chǎng)常規(guī)賽的數(shù)據(jù)將它們分為4類。并在此根底上建立了判別函數(shù)方程,對(duì)30支球隊(duì)所屬類型進(jìn)行交叉驗(yàn)證判別分析,結(jié)果與聚類分析結(jié)果根本一致。關(guān)鍵詞: SPSS,NBA,聚類分析,判別分析1.引言NBA是世界上最頂級(jí)的籃球聯(lián)賽,美國(guó)四大職業(yè)體育聯(lián)賽之一。NBA是社交媒體上最受歡送的體育聯(lián)盟,聯(lián)盟、球隊(duì)以及球員的社交媒體平臺(tái)擁有超過6億的關(guān)注人群和粉絲。NBA共有30支球隊(duì),東西部各15支,每支球隊(duì)都要經(jīng)歷82場(chǎng)常規(guī)賽,之后東西部各前8名球隊(duì)還要進(jìn)行季后賽的比拼,
2、直到?jīng)Q出冠軍。本賽季每支球隊(duì)都已經(jīng)打了30場(chǎng)常規(guī)賽,球隊(duì)?wèi)?zhàn)績(jī)與上賽季相比也有較大變化。本文通過對(duì)30支球隊(duì)的30場(chǎng)常規(guī)賽數(shù)據(jù)進(jìn)行分析,對(duì)球隊(duì)實(shí)力進(jìn)行分類,對(duì)于球迷了解球隊(duì)實(shí)力、預(yù)測(cè)比賽結(jié)果和季后賽席位有很好的參考價(jià)值。聚類分析是多元統(tǒng)計(jì)分析中研究樣本或指標(biāo)的一種主要的分類方法,其根本思想是把所有待分類事物各自看成獨(dú)立的一類,求出兩兩之間的親疏指標(biāo)值,把關(guān)系最為親密的兩類合并成一個(gè)新類,然后計(jì)算新類與原有各類之間的親疏指標(biāo)值,再把其中關(guān)系最為密切的兩類合并如此反復(fù)進(jìn)行,直到最終所有待分類事物合并成一個(gè)大類為止。樣品數(shù)據(jù)之間的親疏程度主要通過樣品之間的距離、樣品間的相關(guān)系數(shù)來表示。根據(jù)不同的距離定
3、義方法可以測(cè)算出定義在P維空間上樣本之間的距離,并根據(jù)此距離來度量樣本之間的相似程度。聚類分析直接比擬各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差異較大的歸入不同的類。判別分析那么先根據(jù)類別的事物的性質(zhì),利用某種技術(shù)建立函數(shù)式,然后對(duì)未知類別的新事物進(jìn)行判斷以將之歸入類別中。2. 解決問題的方法和計(jì)算結(jié)果2.1 數(shù)據(jù)收集本文采取的數(shù)據(jù)來源于新浪官網(wǎng)的NBA球隊(duì)數(shù)據(jù)庫(kù)。選取30支球隊(duì)的一些數(shù)據(jù)統(tǒng)計(jì)作為聚類分析的依據(jù)。這些統(tǒng)計(jì)包括投籃命中率、三分球命中率、總籃板數(shù)、助攻數(shù)、搶斷數(shù)、失誤數(shù)、犯規(guī)數(shù)、得分和失分以及凈勝分十項(xiàng)指標(biāo),具體數(shù)據(jù)見表2-1。表2-1 2021-2021賽季NBA球隊(duì)常規(guī)賽
4、數(shù)據(jù)統(tǒng)計(jì)球隊(duì)名稱投籃命中率X1三分命中率X2總籃板X3助攻X4搶斷X5失誤X6犯規(guī)X7得分X8失分X9凈勝分X10熱火46.20%35.60%35.919.88.714.420.694.597.7-3.2尼克斯44.80%35.30%39.421.27.114.822.794.6101.4-6.8雄鹿46.40%36.40%40.422.79172399.3100.1-0.8快船47.20%38.30%40.624.47.712.621.1106.3101.15.2老鷹46.70%37.30%40.725.78.514.718.7101.997.34.6騎士46.20%34.70%40.822
5、.77.113.718.1102.299.42.8魔術(shù)45.60%37.70%4119.86.614.920.893.999-5.1森林狼43.50%33.20%41.322.49.115.320.798.5109-10.5猛龍46.40%36.80%41.421.17.411.622108.5100.18.4爵士45.60%33%41.620.16.214.818.896.1100.2-4.176人41.20%29.60%41.819.910.118.92290.8102.6-11.8籃網(wǎng)44.70%33.50%41.820.8714.720.396.599.1-2.6黃蜂43%32.40%
6、4220.55.511.218.695.7100.2-4.5小牛47.70%35.20%42.123.3812.420.3109.5103.26.3灰熊46.30%35.50%42.222.78.112.219.8102.397.64.7太陽(yáng)45.80%36.90%42.3218.315.122.4105.7103.72湖人43.60%35.70%42.620.57.612.321.8102.3109.2-6.9鵜鶘45.70%33.40%42.921.77.612.219.6101.6102-0.4奇才47.20%39%43.425.1814.222100.596.63.9凱爾特人46%32
7、.40%43.525.58.415.221103.3104.4-1.1馬刺46.70%38.20%44.224.47.51519.7102.898.93.9國(guó)王46.10%34.30%44.7206.216.322.6102.6103.9-1.3火箭42.80%34.50%44.8209.117.323.3100.997.33.6活塞41.90%34.10%44.820.57.313.62095.5100.7-5.2勇士47.90%37%45.225.78.91620.1107.498.78.7步行者43.10%33.40%45.320.75.714.321.294.798.5-3.8公牛45
8、.80%36.50%45.5225.714.719.1103.598.74.8掘金43%31.70%4620.76.814.924101.5104.3-2.8雷霆44.40%32.40%46.319.66.715.322.99896.11.9開拓者45.40%37.80%46.623.16.814.119.710496.57.52.2 聚類分析進(jìn)入SPSS17.0分析程序,選擇AnalyzeClassifyHierarchical Cluster,進(jìn)行系統(tǒng)聚類分析Hierarchical Cluster Analysis,采取對(duì)個(gè)案進(jìn)行聚類,即Q型聚類分析。聚類方法使用Wards Method
9、,距離測(cè)量技術(shù)選擇Euclidean distance(歐氏距離),得出以下計(jì)算結(jié)果。 表2-2為分層聚類分析的聚類過程表。表中第一列表示聚類分析的步驟。第二列和第三列表示該步聚類分析中,哪兩個(gè)樣本聚成了一類;如:第一步顯示第8和9兩個(gè)樣本聚成了一類,第七步顯示樣本16和樣本18和第3步聚類形成的新類進(jìn)行了聚類,依次類推,聚類過程共進(jìn)行了29步,所有的樣本聚成了一大類。第四列表示兩個(gè)樣本間的距離,從表中可以看出,距離小的樣本之間先聚類;第五和第六列表示某步聚類分析中,參與聚類的是樣本還是類,0那么表示樣本,數(shù)字n(非零)表示第n步聚類產(chǎn)生的類參與了本步聚類;第七列表示本步聚類結(jié)果在下面聚類的第
10、幾步中用到。表2-2 群組成員聚類過程表聚類表階群集組合系數(shù)首次出現(xiàn)階群集下一階群集 1群集 2群集 1群集 21892.0640012224252.8050020318193.607007413223.75100105563.8820015627303.905009716184.23703178244.6170012927295.07560171013175.62640141112266.591002112286.60081191315216.78500231413286.9541002015578.08450191610148.58400231716278.61079221811208.7
11、960026192510.05812152520132410.3471422221122311.6291102422131611.70420172423101511.97916132524121314.6492122272521016.7111923262621120.1712518272721222.454262428282323.65927029291244.7540280得到的使用Ward聯(lián)結(jié)的樹狀圖如圖2-1,該圖較好地反映了各球隊(duì)類型之間的關(guān)聯(lián)。圖2-1 樹狀圖上面的樹狀圖清晰地表示了聚類的全過程。用逐級(jí)連線的方式連接性質(zhì)相近的個(gè)案和新類,直至并為一類。經(jīng)過SPSS軟件處理,我們選擇
12、的分類范圍最小為3類,最大為5類,分組結(jié)果如表2-3所示。 表2-3 群集成員(3類到5類)群集成員案例5 群集4 群集3 群集1:76人 1112:魔術(shù) 2223:熱火 3334:尼克斯 2225:步行者 2226:活塞 2227:黃蜂 2228:爵士 2229:籃網(wǎng) 22210:雷霆 22211:森林狼 42212:雄鹿 54213:奇才 54214:火箭 22215:掘金 22216:鵜鶘 54217:老鷹 54218:騎士 54219:灰熊 54220:湖人 42221:國(guó)王 22222:馬刺 54223:凱爾特人 54224:公牛 54225:開拓者 54226:太陽(yáng) 54227:快
13、船 54228:勇士 54229:猛龍 54230:小牛 542由聚類分析Ward聯(lián)結(jié)樹狀圖以及群集成員分類表可以看出,我們可以將NBA球隊(duì)按實(shí)力分為4類比擬合理,具體見表2-4。表2-4 分類結(jié)果類別球隊(duì)第一類76人第二類魔術(shù)、尼克斯、步行者、活塞、黃蜂、爵士、籃網(wǎng)、雷霆、森林狼、火箭、掘金、湖人、國(guó)王第三類熱火第四類雄鹿、奇才、鵜鶘、老鷹、騎士、灰熊、馬刺、凱爾特人、公牛、開拓者、太陽(yáng)、快船、勇士、猛龍、小牛第一類里面只有76人一個(gè)隊(duì),這是因?yàn)?6人隊(duì)的投籃命中率、三分命中率、場(chǎng)均得分、凈勝分都是聯(lián)盟最低,助攻數(shù)也很低,而且失誤數(shù)為全聯(lián)盟最高。這與目前76人聯(lián)盟墊底的排名相符,76人也是唯
14、一徹底擺爛的球隊(duì)。第二類中的球隊(duì)投籃命中率較低而失誤較多,場(chǎng)均凈勝分也均為負(fù)值。這些球隊(duì)中除了火箭之外,其余球隊(duì)的排名在聯(lián)盟中都比擬靠后,這一類球隊(duì)是聯(lián)盟中實(shí)力較弱的球隊(duì)?;鸺龖?zhàn)績(jī)高居西部第四,但是卻被歸為實(shí)力較弱的一類,這主要是由于火箭的場(chǎng)均失誤較多,為聯(lián)盟第二;場(chǎng)均犯規(guī)也很多;且投籃命中率較低,僅僅強(qiáng)于76人和活塞。而火箭戰(zhàn)績(jī)出色的原因主要是火箭的進(jìn)攻節(jié)奏很快,進(jìn)攻回合數(shù)多,且火箭是聯(lián)盟罰球次數(shù)最多的球隊(duì),所以得分能力并不差。第三類球隊(duì)只有熱火一支球隊(duì),這是因?yàn)闊峄鸬膱?chǎng)均籃板是聯(lián)盟最少,且比倒數(shù)第二的尼克斯隊(duì)少了足足4個(gè)籃板,助攻數(shù)也不多,進(jìn)攻乏力讓熱火得分僅僅高于76人和魔術(shù)隊(duì)。但是熱火
15、的排名位于聯(lián)盟中游,在東部排到第七,這是因?yàn)闊峄痍?duì)在搶不到籃板的情況下依然將對(duì)手得分控制在97.7分,這是很難做到的,這是靠每個(gè)人的積極防守做到的。熱火這賽季遭遇了傷病困擾,相信如果沒有傷病,在如此防守質(zhì)量下,球隊(duì)的成績(jī)定能更進(jìn)一步,成為聯(lián)盟前幾的隊(duì)伍。第四類球隊(duì)包含了除火箭外聯(lián)盟中排名靠前的隊(duì)伍。這些球隊(duì)籃板、助攻、場(chǎng)均凈勝分都排在聯(lián)盟前列。排名相對(duì)靠后的凱爾特人隊(duì)也進(jìn)入了這一類,這是因?yàn)樵撽?duì)的各項(xiàng)統(tǒng)計(jì)均到達(dá)了該類的平均水平,助攻/失誤比控制的也不錯(cuò)。球隊(duì)?wèi)?zhàn)績(jī)不理想的原因主要是失分太高,這可能是由于隊(duì)員防守不積極造成的,而這在數(shù)據(jù)統(tǒng)計(jì)中并不能直觀反映。2.3 判別分析判別分析是在分類數(shù)目的情
16、況下,根據(jù)一定的指標(biāo)對(duì)不知類別的數(shù)據(jù)進(jìn)行歸類。它是判別樣品所屬類型的一種統(tǒng)計(jì)方法。其主要原理是利用原有的分類信息,得到表達(dá)這種分類的函數(shù)關(guān)系式稱之為判別函數(shù),一般是與分類相關(guān)的假設(shè)干個(gè)指標(biāo)的線形關(guān)系式,然后利用該函數(shù)去判斷未知樣品屬于哪一類。因而是個(gè)學(xué)習(xí)和預(yù)測(cè)的過程。我們常用的判別分析方法有距離判別法、費(fèi)歇爾判別法和貝葉斯判別法等。這里采用的是Fisher 判別法,這種方法是以Fisher 準(zhǔn)那么為標(biāo)準(zhǔn)來評(píng)選判別函數(shù)的。所謂Fisher 準(zhǔn)那么,指的是較優(yōu)的判別函數(shù)應(yīng)該能根據(jù)待判對(duì)象的n 個(gè)指標(biāo)最大限度地將它所屬的類與其他類區(qū)分開來。選用SPSS 19.0軟件中的判別分析方法AnalyzeCl
17、assifyDiscriminant,將各地區(qū)按聚類結(jié)果進(jìn)行分組記為group,選用逐步判別法Use stepwise method,即按照所指定的納入/排出標(biāo)準(zhǔn),以此引入和剔出變量,直到方程穩(wěn)定為止。選用Bayes判別準(zhǔn)那么的Fishers判別函數(shù)。選擇逐步判別分析時(shí)所用的擬合方法為WilkLambda 法該統(tǒng)計(jì)量為組內(nèi)離差平方和與總離差平方和的比值。本文選用Fisher判別法構(gòu)造判別函數(shù)。由于選取的影響因素自變量間可能存在不同程度自相關(guān)性,所以采用逐步進(jìn)入法來進(jìn)行判別分析。使用SPSS,分析結(jié)果如下:表2-5 分析案例處理摘要分析案例處理摘要未加權(quán)案例N百分比有效30100.0排除的缺失或
18、越界組代碼0.0至少一個(gè)缺失判別變量0.0缺失或越界組代碼還有至少一個(gè)缺失判別變量0.0合計(jì)0.0合計(jì)30100.0表2-6 組統(tǒng)計(jì)量組統(tǒng)計(jì)量Average Linkage (Between Groups) 有效的 N列表狀態(tài)未加權(quán)的已加權(quán)的1投籃命中率X111.000三分命中率X211.000總籃板X311.000助攻X411.000搶斷X511.000失誤X611.000犯規(guī)X711.000得分X811.000失分X911.000凈勝分X1011.0002投籃命中率X11313.000三分命中率X21313.000總籃板X31313.000助攻X41313.000搶斷X51313.000失
19、誤X61313.000犯規(guī)X71313.000得分X81313.000失分X91313.000凈勝分X101313.0003投籃命中率X111.000三分命中率X211.000總籃板X311.000助攻X411.000搶斷X511.000失誤X611.000犯規(guī)X711.000得分X811.000失分X911.000凈勝分X1011.0004投籃命中率X11515.000三分命中率X21515.000總籃板X31515.000助攻X41515.000搶斷X51515.000失誤X61515.000犯規(guī)X71515.000得分X81515.000失分X91515.000凈勝分X101515.00
20、0合計(jì)投籃命中率X13030.000三分命中率X23030.000總籃板X33030.000助攻X43030.000搶斷X53030.000失誤X63030.000犯規(guī)X73030.000得分X83030.000失分X93030.000凈勝分X103030.000表2-7 分類處理分類處理摘要已處理的30已排除的缺失或越界組代碼0至少一個(gè)缺失判別變量0用于輸出中30表2-8 組的先驗(yàn)概率組的先驗(yàn)概率Average Linkage (Between Groups) 先驗(yàn)用于分析的案例未加權(quán)的已加權(quán)的1.25011.0002.2501313.0003.25011.0004.2501515.000合
21、計(jì)1.0003030.000表2-9 分類函數(shù)系數(shù)分類函數(shù)系數(shù)Average Linkage (Between Groups) 1234投籃命中率X134.10135.83838.75537.525助攻X47.6299.1917.27210.884搶斷X53.886-.5592.671-.819得分X88.5219.5128.78010.193(常量)-1186.274-1347.228-1395.086-1527.546Fisher 的線性判別式函數(shù)由此表可知,各省份高考成績(jī)相關(guān)性較大,通過對(duì)投籃命中率、助攻數(shù)、搶斷數(shù)、得分四個(gè)因素就能判別30支球隊(duì)所屬的類別。 表2-10 按照案例順序的統(tǒng)
22、計(jì)量按照案例順序的統(tǒng)計(jì)量案例數(shù)目實(shí)際組最高組第二最高組判別式得分預(yù)測(cè)組P(Dd | G=g)P(G=g | D=d)到質(zhì)心的平方 Mahalanobis 距離組P(G=g | D=d)到質(zhì)心的平方 Mahalanobis 距離函數(shù) 1函數(shù) 2函數(shù) 3pdf初始112*.00031.00031.3444.00086.927-5.5521.9551.970222.2243.9974.3754.00317.255-2.010.566-2.083332*.0023.99614.5284.00426.609-2.3012.930-1.830422.8673.983.7284.0179.854-1.655
23、.207-.648522.48131.0002.4714.00023.222-2.137-2.050-.059622.29431.0003.7144.00044.979-3.068-1.1801.275722.34931.0003.2904.00024.297-1.999-2.386-.056822.6093.9911.8274.00912.334-1.262-.179-1.884922.9543.978.3294.0228.935-1.455-.097-.6311022.9093.991.5474.00910.946-1.755-.480-.9301122.17031.0005.0204.0
24、0028.627-1.394.7101.7821244.1103.9746.0362.02612.237.1532.075-.1531344.89631.000.6012.00029.5012.247.826.1621422.35031.0003.2854.00032.112-2.356.5631.3891522.38031.0003.0754.00023.392-1.068-1.861.9151644.5743.9501.9922.0506.861.308.220-.3381744.50631.0002.3362.00036.7732.480.7311.0711844.8623.999.74
25、92.00114.6901.297-.303-.3441944.8223.999.9132.00114.2911.042.741-.1042022.6673.9981.5694.00214.968-1.002-.777.6972122.1233.7405.7714.2608.879.290-.692-1.7522244.97431.000.2232.00029.5462.347-.085.2442344.10231.0006.2162.00037.3312.425.1061.5742444.1423.9995.4482.00118.0591.509-1.932-.6932544.24931.0
26、004.1202.00021.3621.647-1.372.4802644.7083.9941.3882.00610.491.660.621-.1772744.67831.0001.5212.00043.8773.241-.044.2332844.21631.0004.4582.00064.4944.0291.115.7782944.64831.0001.6512.00020.1791.844-.316-.6083044.22631.0004.3492.00046.8033.494.387-.278*. 錯(cuò)誤分類的案例表2-11 分類檢驗(yàn)結(jié)果分類結(jié)果aAverage Linkage (Between Groups) 預(yù)測(cè)組成員合計(jì)1234初始計(jì)數(shù)1010012013001330100140001515%1.0100.0.0.0100.02.0100.0.0.0100.03.0100.0.0.0100.04.0.0.0100.01
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東省威海乳山市2024-2025學(xué)年九年級(jí)上學(xué)期期末化學(xué)試題(含答案)
- 2025年消防設(shè)施操作員之消防設(shè)備基礎(chǔ)知識(shí)基礎(chǔ)試題庫(kù)和答案要點(diǎn)
- 景觀橋分析面試題及答案
- 2023-2024學(xué)年廣東省廣州市越秀區(qū)執(zhí)信中學(xué)七年級(jí)(下)期中數(shù)學(xué)試卷(含答案)
- 廣東省廣州市中大附中2023-2024學(xué)年八年級(jí)下學(xué)期期中物理試題(含答案)
- 采購(gòu)合同范本(2篇)
- 電器知識(shí)技能培訓(xùn)班課件
- 關(guān)于調(diào)整工作時(shí)間與資源配置的通知
- 租賃協(xié)議合同
- 山東省青島萊西市(五四制)2024-2025學(xué)年八年級(jí)上學(xué)期期末生物學(xué)試題(含答案)
- 2025年湖南司法警官職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)必考題
- 數(shù)學(xué)-廣東省2025年深圳市高三年級(jí)第一次調(diào)研考試(深圳一模)試題和答案
- 基于PLC的郵件分揀機(jī)控制系統(tǒng)設(shè)計(jì)
- DB11-T 950-2022水利工程施工資料管理規(guī)程
- 購(gòu)物卡購(gòu)銷合同
- 變配電室巡視檢查記錄
- 現(xiàn)場(chǎng)談單的流程與技巧(學(xué)大教育內(nèi)部培訓(xùn)資料)
- 法人授權(quán)委托書
- 印萌打印平臺(tái)合作協(xié)議VIP
- 中國(guó)建設(shè)銀行信貸業(yè)務(wù)申請(qǐng)書
- 作物栽培學(xué)復(fù)習(xí)資料完整版要點(diǎn)
評(píng)論
0/150
提交評(píng)論