管理統(tǒng)計學課件:第9章01聚類分析_第1頁
管理統(tǒng)計學課件:第9章01聚類分析_第2頁
管理統(tǒng)計學課件:第9章01聚類分析_第3頁
管理統(tǒng)計學課件:第9章01聚類分析_第4頁
管理統(tǒng)計學課件:第9章01聚類分析_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、上節(jié)課內容回顧128.1 回歸分析概述8.2 一元線性回歸8.3 多元線性回歸回歸分析概述回歸分析是在觀測數據的基礎上,以一種確定的函數關系去近似替代比較模糊籠統(tǒng)的相關關系。3一元線性回歸4一元線性回歸方程(y的期望值是x的線性函數 ) :y=a+bx8.2.3 回歸方程的檢驗需要對樣本回歸方程進行各種檢驗(即使一些雜亂無章的散點也可以配出一條直線) 回歸分析中的顯著性檢驗包含三個方面對回歸直線的擬合優(yōu)度檢驗判定系數R2和相關系數對整個方程線性關系的顯著性檢驗F檢驗法對回歸系數的顯著性檢驗t檢驗法 8.3.1 多元線性回歸模型多元線性回歸模型:描述因變量y如何依賴于自變量 方程 多元線性總體回

2、歸方程:8.3.3 多元回歸方程的檢驗和一元回歸方程一樣,多元回歸方程也需要對樣本回歸方程進行各種檢驗(即使一些雜亂無章的散點也可以配出多元方程) 回歸分析中的顯著性檢驗包含兩個方面對回歸方程的擬合優(yōu)度檢驗;對整個方程線性關系的顯著性檢驗F檢驗法對回歸系數的顯著性檢驗t檢驗法對多重共線性的判斷。 多重共線性解決共線性的措施將一個或多個相關的自變量從模型中剔除,使保留的自變量盡可能不相關 檢驗共線性指標指標名稱檢驗標準容差(Tolerance)若某自變量容差小于0.1,則存在共線性問題方差膨脹率(VIF)容差的倒數,越大共線性問題越嚴重特征根(Eigenvalues)若多個維度的特征根等于0,則

3、可能存在共線性問題條件指數(Condition Index)若某個維度的條件指數大于30,則可能存在共線性問題8.3.4 變量的篩選策略多元回歸分析中,被解釋變量會受眾多因素的共同影響,需要由多個解釋變量解釋究竟哪些自變量應該引入模型?哪些自變量不應該引入模型?對自變量進行一定的篩選和控制 希望盡可能用最少的變量來建立模型 解釋變量的篩選三種基本策略 向前篩選向后篩選逐步篩選 篩選策略(續(xù))向前篩選:解釋變量不斷進入回歸方程的過程 (變量逐漸增多)選擇與被解釋變量具有最高線性相關系數的變量進入方程,并進行回歸方程的各種檢驗 在剩余的變量中尋找與解釋變量偏相關系數最高并通過檢驗的變量進入回歸方程

4、,并對新建立的回歸方程進行各種檢驗 一直重復這個過程,直到再也沒有可進入方程的變量為止 向后篩選:變量不斷剔除出回歸方程的過程(變量逐漸減少)所有變量全部引入回歸方程,并對回歸方程進行各種檢驗 在回歸系數顯著性檢驗不顯著的一個或多個變量中,剔除回歸系數檢驗不顯著的變量,并重新建立回歸方程和進行各種檢驗 直到再也沒有可剔除的變量為止 逐步篩選:向前篩選和向后篩選策略的綜合 (變量先進入回歸方程再判斷篩選)在向前篩選策略的基礎上,結合向后篩選策略,在每個變量進入方程后再次判斷是否存在可以剔除方程的變量 在引入變量的每一個階段都提供了再剔除不顯著變量的機會 常用的變量篩選策略 多元線性回歸的SPSS

5、操作調查主管工作總體評價影響因素 選擇了5個調查項目作為可能的解釋變量 變量定義Y對主管工作情況的總體評價X1處理雇員的抱怨X2不允許特權X3學習新知識的機會X4已經工作業(yè)績升職X5對不良表現(xiàn)吹毛求疵主管人員業(yè)績數據 SPSS操作步驟輸入數據,定義變量Y、X1、X2、X3、X4、X5選擇菜單欄中的【分析】【回歸】【線性】命令,彈出【線性回歸】對話框。選擇解釋變量Y進入“因變量”框將X1,X2和X5進入“自變量”框在“方法”下拉欄中選擇“進入”選項單擊“下一張”將X3和X4拉入“自變量”,“方法”選擇“逐步法” 。而X6直接不予考慮在【線性回歸】對話框。中單擊“統(tǒng)計量”按鈕選中“估計”和“模型擬

6、合度”復選框選中“共線性診斷”復選框 單擊OK按鈕 模型擬合度的檢驗結果表回歸分析的結果表擬合結果為Y=0.696X1-0.046X2-0.033X5+18.412 Sig.取值可知,僅X1的系數是有統(tǒng)計學意義的,還需進行共線性檢驗,本模型中不存在共線性問題共線性檢驗結果表特征根均不等于0,則不存在共線性問題,條件指數均小于30,本例中模型不存在共線性的問題。2022/7/1418聚類分析Cluster Analysis9.1 聚類分析9.1 聚類分析基本原理和方法9.2 系統(tǒng)聚類法9.3 K均值聚類法9.4 系統(tǒng)聚類的SPSS應用9.5 K均值聚類法的SPSS應用20什么是聚類分析?聚類分析

7、是根據“物以類聚”的道理,對樣本或指標進行分類的一種多元統(tǒng)計分析方法。聚類分析屬于無監(jiān)督的機器學習方法。聚類分析在沒有標簽信息的情況下,按照合理的樣本屬性,對樣本進行分類。21聚類分析的基本思想基本思想是認為研究的樣本或變量之間存在著程度不同的相似性(親疏關系)。根據一批樣本的多個觀測指標,找出一些能夠度量樣本或變量之間相似程度的統(tǒng)計量,以這些統(tǒng)計量作為分類的依據,把一些相似程度較大的樣本(或指標)聚合為一類,把另外一些相似程度較大的樣本(或指標)聚合為一類,直到把所有的樣本(或指標)都聚合完畢。22聚類分析應用對客戶進行分類,然后對每一類客戶進行精準促銷:喜歡一大早來買酸奶和鮮肉老人老年用品

8、,量大從優(yōu)廣告。購買紙尿褲的用戶有小孩子推薦嬰兒車。喜歡光顧軍事網站,體育網站的同學比較崇尚野性推薦戶外用品。針對潛在客戶的精準營銷比在大街上亂發(fā)傳單命中率更高,成本更低!23聚類分析無處不在信用評估?利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出“黃金客戶”!這樣銀行就可制定更具吸引力的服務,留住客戶!比如:一定額度和期限的免息透支服務!贈送大型超市的貴賓打折卡!在他或她生日的時候送上一個小蛋糕!24聚類的應用領域經濟領域:通過消費行為來刻畫不同的客戶群的特征(用戶畫像)。對住宅區(qū)進行聚類,確定自動提款機ATM的安放位置股票市場板塊分析,找出最具活力的板塊龍頭股企業(yè),個人信用等級分類

9、創(chuàng)業(yè)公司成長性聚類生物學領域推導植物和動物的分類;數據挖掘領域作為其他數學算法的預處理步驟,獲得數據分布狀況,集中對特定的類做進一步的研究。25樣本或變量間親疏程度的測度研究樣本或變量的親疏程度的數量指標有兩種:另一種叫距離,它是將每一個樣本看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應屬于不同的類。一種叫相似系數,性質越接近的變量或樣本,它們的相似系數越接近于1或一l,而彼此無關的變量或樣本它們的相似系數則越接近于0,相似的為一類,不相似的為不同類。26設有n個樣本,每個樣本有p項指標(變量),原始資料矩陣為:親疏程度的測度距離27偏差距離歐式距離

10、明考斯基距離切比雪夫距離常見的距離統(tǒng)計量281. 偏差距離2. 歐氏距離x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0,求兩樣本的偏差距離和歐式距離。293. 明考斯基距離(Minkowski)4. 切比雪夫距離(Chebychev)x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0,求兩樣本的切比雪夫距離。親疏程度的測度相似系數相似系數的計算 (1)夾角余弦設在n維空間的向量: 定義夾角余弦為: x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0,求兩樣本的夾角余弦。(2)相關系數相關系數常用rij表示,這是大家較為熟悉的統(tǒng)計量

11、之一。設 和 是第i和第j個樣品的觀測值,則二者之間的相似測度為: 32聚類的類型根據聚類對象的不同,分為Q型聚類和R型聚類。Q型聚類:樣本之間的聚類即Q型聚類分析,則常用距離來測度樣本之間的親疏程度。R型聚類:變量之間的聚類即R型聚類分析,常用相似系數來測度變量之間的親疏程度。33常見的聚類方法介紹根據聚類方法的不同分為系統(tǒng)聚類和K均值聚類。系統(tǒng)聚類:又稱為層次聚類(hierarchical cluster),是指聚類過程是按照一定層次進行的。K均值聚類( K-means Cluster )34系統(tǒng)聚類基本思想: 在聚類分析的開始,每個樣本(或變量)自成一類;然后,按照某種方法度量所有樣本(

12、或變量)之間的親疏程度,并把最相似的樣本(或變量)首先聚成一小類;接下來,度量剩余的樣本(或變量)和小類間的親疏程度,并將當前最接近的樣本(或變量)與小類聚成一類;再接下來,再度量剩余的樣本(或變量)和小類間的親疏程度,并將當前最接近的樣本(或變量)與小類聚成一類;如此反復,直到所有樣本(或變量)聚成一類為止。35系統(tǒng)聚類法不僅需要度量個體與個體之間的距離,還要度量類與類之間的距離。類間距離被度量出來之后,距離最小的兩個小類將首先被合并成為一類。類間距離計算方法根據系統(tǒng)分類法,第一步將 n個樣品看作n個類,然后合并距離最近的兩類為一個種類。如何計算類與類的距離呢?用D(s,t)表示類s和類t之

13、間的距離,常用的類間距離有以下幾種: 37類間距離的度量方法最短距離法(Nearest Neighbor)最長距離法(Further Neighbor)組間平均連接法(Between-group linkage)組內平均連接法(Within-group linkage)重心法(Centroid clustering)中位數法(Median clustering)38最短距離法(Nearest Neighbor)以兩類中距離最近的兩個個體之間的距離作為類間距離。39x21x12x22x1140最長距離法(Further Neighbor)以兩類中距離最遠的兩個個體之間的距離作為類間距離。41x1

14、1x2142組間平均連接法(Between-group linkage)以兩類個體兩兩之間距離的平均數作為類間距離。43組間平均連接法(Between-group Linkage)44組內平均連接法(Within-group linkage)將兩類個體合并為一類后,以合并后類中所有個體之間的平均距離作為類間距離。45 組內平均連接法(Within-group Linkage)x21x12x22x1146重心法(Centroid clustering)以兩類變量均值(重心)之間的距離作為類間距離。47重心距離:均值點的距離48中位數法(Median clustering)以兩類變量中位數之間的距

15、離作為類間距離。系統(tǒng)聚類法實例:給出6個五維模式樣本,按最小距離準則進行系統(tǒng)聚類分析。x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0 x3: 3, 3, 0, 0, 1x4: 1, 1, 0, 2, 0 x5: 3, 2, 1, 2, 1x6: 4, 1, 1, 1, 0495051525354直接聚類譜系圖最終得出聚類譜系圖X6X5X4X3X2X11235456k-均值聚類K-means ClusterK-均值聚類也叫快速聚類要求事先確定分類數運算速度快(特別是對于大樣本)57k-均值聚類K-means Cluster系統(tǒng)首先選擇k個聚類中心,根據其他觀測值與聚類中心

16、的距離遠近,將所有的觀測值分成k類;再將k個類的中心(均值)作為新的聚類中心,重新按照距離進行分類;,這樣一直迭代下去,直到達到指定的迭代次數或達到中止迭代的判據要求時,聚類過程結束。58聚類分析終止的條件迭代次數:當目前的迭代次數等于指定的迭代次數(SPSS默認為10)時終止迭代。類中心點偏移程度:新確定的類中心點距上個類中心點的最大偏移量小于等于指定的量(SPSS默認為0)時終止聚類。k-均值聚類算法實例假定我們有如下9個點A1(2, 10) A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9)希望分成3個聚類初始化選擇 A1(2, 10), A4(5, 8) ,A7(1, 2)為聚類中心點,兩點距離定義為(a, b) = |x2 x1| + |y2 y1| .59偏差距離60616263圖形化計算過程64第一次迭代結果65第二次迭代結果66直到兩次迭代結果不發(fā)生變化:最終迭代結果聚類分析的SPSS應用系統(tǒng)聚類的SPSS應用K均值聚類法的SPSS應用67系統(tǒng)聚類法的SPSS應用要研究我國主要商業(yè)銀行的綜合競爭力,收集的數據如右表所示。這里選取了中國工商銀行、中國建設銀行、招商銀行、民生銀行。這些商業(yè)銀行的綜合競爭力指標主要有10個如右

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論