多元統(tǒng)計分析及實現(xiàn)_第1頁
多元統(tǒng)計分析及實現(xiàn)_第2頁
多元統(tǒng)計分析及實現(xiàn)_第3頁
多元統(tǒng)計分析及實現(xiàn)_第4頁
多元統(tǒng)計分析及實現(xiàn)_第5頁
已閱讀5頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多元統(tǒng)計分析及實現(xiàn)第1頁,共134頁,2022年,5月20日,23點1分,星期二 多元統(tǒng)計分析方法從研究問題的角度可以分為不同的類,相應有具體解決問題的方法。問題 內容 方法 數(shù)據或結構性化簡 盡可能簡單地表示所研究的現(xiàn)象,但不損失很多有用的信息,并希望這種表示能夠很容易的解釋。 多元回歸分析、聚類分析、主成分分析、因子分析、相應分析、多維標度法、可視化分析 分類和組合 基于所測量到的一些特征,給出好的分組方法,對相似的對象或變量分組。 判別分析、聚類分析、主成分分析、可視化分析 變量之間的相關關系 變量之間是否存在相關關系,相關關系又是怎樣體現(xiàn)。 多元回歸、典型相關、主成分分析、因子分析、相

2、應分析、多維標度法、可視化分析 預測與決策 通過統(tǒng)計模型或最優(yōu)準則,對未來進行預見或判斷。 多元回歸、判別分析、聚類分析、可視化分析 假設的提出及檢驗檢驗由多元總體參數(shù)表示的某種統(tǒng)計假設,能夠證實某種假設條件的合理性。 多元總體參數(shù)估計、假設檢驗 第2頁,共134頁,2022年,5月20日,23點1分,星期二多元統(tǒng)計分析是運用數(shù)理統(tǒng)計方法來研究解決多指標問題的理論和方法。本講重點介紹常用的統(tǒng)計方法。這些方法包括聚類分析、主成分分析、因子分析、判別分析、對應分析、典型相關分析、方差分析、回歸分析等。典型統(tǒng)計賽題:葡萄酒評價(2012年A題)第3頁,共134頁,2022年,5月20日,23點1分,

3、星期二葡萄酒評價(2012年A題)第4頁,共134頁,2022年,5月20日,23點1分,星期二內容提綱1、數(shù)據處理2、描述性統(tǒng)計3、聚類分析4、主成分分析5、因子分析6、判別分析7、方差分析8、回歸分析第5頁,共134頁,2022年,5月20日,23點1分,星期二一、數(shù)據處理SPSS界面介紹建立數(shù)據文件制圖第6頁,共134頁,2022年,5月20日,23點1分,星期二一、數(shù)據處理SPSS界面介紹數(shù)據編輯窗口第7頁,共134頁,2022年,5月20日,23點1分,星期二一、數(shù)據處理SPSS界面介紹結果編輯窗口第8頁,共134頁,2022年,5月20日,23點1分,星期二一、數(shù)據處理建立數(shù)據文件

4、定義變量數(shù)據錄入數(shù)據文件的保存數(shù)據編輯調用其它數(shù)據文件第9頁,共134頁,2022年,5月20日,23點1分,星期二一、數(shù)據處理建立數(shù)據文件:定義變量 單擊數(shù)據編輯窗口左下方的“Variable View”標簽或雙擊題頭(Var),進入變量定義窗口??啥x: 變量名(Name) 變量類型(Type) 變量長度(Width) 小數(shù)點位數(shù)(Decimal) 變量標簽(Label) 變量值標簽(Values) 缺失值的定義方式(Missing) 變量的顯示寬度(Columns) 變量顯示的對齊方式(Align) 變量的測量尺度(Measure)第10頁,共134頁,2022年,5月20日,23點1分

5、,星期二一、數(shù)據處理建立數(shù)據文件:定義變量 定義變量名(Name)時,應注意:(1)變量名可為漢字或英文,英文的第一個字符必須為字母,后面可跟任意字母、數(shù)字、句點或、#、_、$等;(2)變量名不能以句點結尾;(3)定義時應避免最后一個字符為下劃線“_”(因為某些過程運行時自動創(chuàng)建的變量名的最后一個字符有可能為下劃線);(4)變量的長度一般不能超過8個字符;(5)每個變量名必須保證是唯一的,不區(qū)分大小寫。常用的變量類型(Type)包括:數(shù)值型、字符串型、日期格式變量等。第11頁,共134頁,2022年,5月20日,23點1分,星期二一、數(shù)據處理建立數(shù)據文件:數(shù)據錄入直接錄入調入數(shù)據:excel、

6、記事本等第12頁,共134頁,2022年,5月20日,23點1分,星期二一、數(shù)據處理建立數(shù)據文件:保存選擇“File”菜單的“Save”命令,可直接保存為SPSS默認的數(shù)據文件格式(*.sav)。選擇“File”菜單的“Save As”命令,彈出“Save Data As”對話框,可選擇保存為Excel(*.xls)等文件格式。第13頁,共134頁,2022年,5月20日,23點1分,星期二一、數(shù)據處理建立數(shù)據文件:數(shù)據編輯(1)數(shù)據的排序: 數(shù)據排序個案 數(shù)據排列變量 (2)數(shù)據的轉置: 數(shù)據轉置 分割文件、重組、選擇個案等第14頁,共134頁,2022年,5月20日,23點1分,星期二一、

7、數(shù)據處理制圖主要通過“Graph”菜單中的選項來創(chuàng)建圖形第15頁,共134頁,2022年,5月20日,23點1分,星期二二、描述性統(tǒng)計 例2.1:數(shù)據2.1給出了員工代碼、性別、起始薪金、當前薪金等信息:1.利用頻率計算當前薪金的描述性統(tǒng)計量,并繪制帶正態(tài)檢驗的直方圖;2.利用探索性分析不同性別員工當前薪金情況;3.用比率分析比較不同性別員工的薪金增長率是否有較大差異;4.用P-P圖和Q-Q圖檢驗當前薪金是否符合正態(tài)分布第16頁,共134頁,2022年,5月20日,23點1分,星期二二、描述性統(tǒng)計1.利用頻率計算當前薪金的描述性統(tǒng)計量,并繪制帶正態(tài)檢驗的直方圖第17頁,共134頁,2022年,

8、5月20日,23點1分,星期二二、描述性統(tǒng)計1.利用頻率計算當前薪金的描述性統(tǒng)計量,并繪制帶正態(tài)檢驗的直方圖第18頁,共134頁,2022年,5月20日,23點1分,星期二二、描述性統(tǒng)計 2.利用探索性分析不同性別員工當前薪金情況 單擊“分割文件”按鈕,將“性別”指定為分組方式,選中“比較組”,單擊“確定”分析描述統(tǒng)計描述,將“當前薪金”指定為變量,單擊“選項”按鈕,選中所需統(tǒng)計量,單擊“繼續(xù)”,單擊“確定”分析描述統(tǒng)計探索,將“當前薪金”指定為因變量,將“性別”指定為因子,單擊“繪制”,選定“直方圖”,單擊“繼續(xù)”,單擊“確定”第19頁,共134頁,2022年,5月20日,23點1分,星期二

9、二、描述性統(tǒng)計 2.利用探索性分析不同性別員工當前薪金情況p值小于0.05,通過正態(tài)性檢驗,即認為當前薪金分布服從正態(tài)分布第20頁,共134頁,2022年,5月20日,23點1分,星期二二、描述性統(tǒng)計3.用比率分析比較不同性別員工的薪金增長率是否有較大差異分析描述統(tǒng)計比率,將“當前薪金”指定為分子,將“起始薪金”指定為分母,將“性別”指定為組變量,單擊“統(tǒng)計量”,選中:均值、置信區(qū)間、AAD、PRD、COD,單擊“繼續(xù)”,單擊“確定”第21頁,共134頁,2022年,5月20日,23點1分,星期二二、描述性統(tǒng)計3.用比率分析比較不同性別員工的薪金增長率是否有較大差異第22頁,共134頁,202

10、2年,5月20日,23點1分,星期二二、描述性統(tǒng)計 4.用P-P圖和Q-Q圖檢驗當前薪金是否符合正態(tài)分布 Q-Q圖是一種散點圖,對應于正態(tài)分布的QQ圖,就是由標準正態(tài)分布的分位數(shù)為橫坐標,樣本值為縱坐標的散點圖. 要利用QQ圖鑒別樣本數(shù)據是否近似于正態(tài)分布,只需看QQ圖上的點是否近似地在一條直線附近,而且該直線的斜率為標準差,截距為均值. 用QQ圖還可獲得樣本偏度和峰度的粗略信息. P-P圖是根據變量的累積比例與指定分布的累積比例之間的關系所繪制的圖形。通過P-P圖可以檢驗數(shù)據是否符合指定的分布。當數(shù)據符合指定分布時,P-P圖中各點近似呈一條直線。如果P-P圖中各點不呈直線,但有一定規(guī)律,可以

11、對變量數(shù)據進行轉換,使轉換后的數(shù)據更接近指定分布。 P-P圖和Q-Q圖的用途完全相同,只是檢驗方法存在差異第23頁,共134頁,2022年,5月20日,23點1分,星期二聚類分析就是分析如何對樣品(或變量)進行量化分類的問題。 通常聚類分析分為Q型聚類和R型聚類。Q型聚類是對樣品進行分類處理;R型聚類是對變量進行分類處理。三、聚類分析聚類分析的概念及分類第24頁,共134頁,2022年,5月20日,23點1分,星期二 在聚類之前,要首先分析樣品(變量)間的相似性。樣品相似性度量(距離):即兩個樣品間相似程度就可用p維空間中的兩點距離公式來度量。變量相似性度量(夾角余弦、相關系數(shù))相對于數(shù)據的大

12、小,我們更關心變量的方向及相關性三、聚類分析相似性度量第25頁,共134頁,2022年,5月20日,23點1分,星期二三、聚類分析相似性度量幾種距離第26頁,共134頁,2022年,5月20日,23點1分,星期二三、聚類分析相似性度量第27頁,共134頁,2022年,5月20日,23點1分,星期二三、聚類分析相似性度量3距離選擇的原則 一般說來,同一批數(shù)據采用不同的距離公式,會得到不同的分類結果。產生不同結果的原因,主要是由于不同的距離公式的側重點和實際意義都有不同。因此我們在進行聚類分析時,應注意距離公式的選擇。通常選擇距離公式應注意遵循以下的基本原則:(1)要考慮所選擇的距離公式在實際應用

13、中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據的預處理和將要采用的聚類分析方法。如在進行聚類分析之前已經對變量作了標準化處理,則通常就可采用歐氏距離。(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復雜且?guī)в幸欢ㄖ饔^性的問題,我們應根據研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結果進行對比分析,以確定最合適的距離測度方法。第28頁,共134頁,2022年,5月20日,23點1分,星期二三、聚類分析相似性度量第29頁,共134頁,2022

14、年,5月20日,23點1分,星期二 無論是夾角余弦還是相關系數(shù),它們的絕對值都小于1,作為變量近似性的度量工具,我們把它們統(tǒng)記為cij。當cij= 1時,說明變量Xi與Xj完全相似;當cij近似于1時,說明變量Xi與Xj非常密切;當cij = 0時,說明變量Xi與Xj完全不一樣;當cij近似于0時,說明變量Xi與Xj差別很大。 據此,我們把比較相似的變量聚為一類,把不太相似的變量歸到不同的類內。在實際聚類過程中,為了計算方便,我們把變量間相似性的度量公式作一個變換為 dij = 1 cij 或者 dij2 = 1 cij2 來表示變量間的距離遠近,小則先聚成一類,這比較符合人們的一般思維習慣。

15、三、聚類分析相似性度量第30頁,共134頁,2022年,5月20日,23點1分,星期二 A)系統(tǒng)聚類法 B)K均值聚類法三、聚類分析常見聚類方法第31頁,共134頁,2022年,5月20日,23點1分,星期二A)系統(tǒng)聚類法系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。系統(tǒng)聚類過程是:假設總共有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有n類;第二步根據所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n 1類;第三步將“

16、距離”最近的兩個類進一步聚成一類,共聚成n 2類;,以上步驟一直進行下去,最后將所有的樣品(或變量)全聚成一類。為了直觀地反映以上的系統(tǒng)聚類過程,可以把整個分類系統(tǒng)畫成一張譜系圖。所以有時系統(tǒng)聚類也稱為譜系分析。三、聚類分析常見聚類方法第32頁,共134頁,2022年,5月20日,23點1分,星期二系統(tǒng)聚類法與聚類步驟流程圖初始分類:若 與 距離最小,合并為一類no輸出分類結果第33頁,共134頁,2022年,5月20日,23點1分,星期二B)K均值聚類系統(tǒng)聚類法需要計算出不同樣品或變量的距離,還要在聚類的每一步都要計算“類間距離”,相應的計算量自然比較大;特別是當樣本的容量很大時,需要占據非

17、常大的計算機內存空間,這給應用帶來一定的困難。而K均值法是一種快速聚類法,采用該方法得到的結果比較簡單易懂,對計算機的性能要求不高,因此應用也比較廣泛。K均值法是麥奎因(MacQueen,1967)提出的,這種算法的基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法至少包括以下三個步驟:1將所有的樣品分成K個初始類;2通過歐氏距離將某個樣品劃入離中心最近的類中,并對獲得樣品與失去樣品的類,重新計算中心坐標;3重復步驟2,直到所有的樣品都不能再分配時為止。三、聚類分析常見聚類方法第34頁,共134頁,2022年,5月20日,23點1分,星期二K-均值聚類法步驟流程圖尋找k個凝聚點:若

18、 則 ;得計算各類的重心:若 則 ;得計算各類的重心:重心改變輸出分類結果yesno第35頁,共134頁,2022年,5月20日,23點1分,星期二Matlab聚類分析工具箱:cluster三、聚類分析Matlab聚類分析工具箱第36頁,共134頁,2022年,5月20日,23點1分,星期二三、聚類分析SPSS實現(xiàn)例3.1:(數(shù)據3.1)已知全國31個省市的城市小康水平衡量指標值,現(xiàn)要分析各省市城市水平情況及相似程度,采用聚類分析法將31個省市分為3類,并用判別分析法分析城市水平劃分所依據的主要變量,并驗證聚類分析所劃分類別是否合理。第37頁,共134頁,2022年,5月20日,23點1分,星

19、期二三、聚類分析SPSS實現(xiàn)第38頁,共134頁,2022年,5月20日,23點1分,星期二三、聚類分析SPSS實現(xiàn)第39頁,共134頁,2022年,5月20日,23點1分,星期二三、聚類分析SPSS實現(xiàn)第40頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析主要目的多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多,增加了分析問題的復雜性。但在實際問題中,變量之間可能存在一定的相關性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。第41

20、頁,共134頁,2022年,5月20日,23點1分,星期二主成分分析的數(shù)學模型是,設p個變量構成的p維隨機向量為X = (X1,Xp)。對X作正交變換,令Y = TX,其中T為正交陣,要求Y的各分量是不相關的,并且Y的第一個分量的方差是最大的,第二個分量的方差次之,等等。為了保持信息不丟失,Y的各分量方差和與X的各分量方差和相等。四、主成分分析數(shù)學模型第42頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析主成分的性質第43頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析累計貢獻率第44頁,共134頁,2022年,5月20日,23點1分,星期二四、

21、主成分分析具體步驟第45頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析綜合評價第46頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析SPSS實現(xiàn)例4.1:(數(shù)據4.1)汽車參數(shù),用主成分分析和因子分析方法處理該數(shù)據。第47頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析SPSS實現(xiàn)第48頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析SPSS實現(xiàn)該表給出了主成分分析從每個變量提取的信息,可以看出,所有變量都提取了70%以上的信息。第49頁,共134頁,2022年,5月20日,23點1分,星期二四、

22、主成分分析SPSS實現(xiàn) 該表為各主成分解釋原始變量總方差的情況,默認保留了特征值大于1的主成分,前兩個主成分累積解釋了82.057%的方差,效果比較好。第50頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析SPSS實現(xiàn)該表為成分矩陣,即主成分與標準化原始變量之間相關系數(shù)矩陣;標準化原始變量可用所得主成分近似線性表示,同時0.8642+(-0.351)2=0.869即第一個變量被提取的信息的比例。第一列數(shù)據的平方和為第1主成分的特征值。第51頁,共134頁,2022年,5月20日,23點1分,星期二四、主成分分析SPSS實現(xiàn)本例分析從相關矩陣出發(fā)求主成分,該表中的系數(shù)為將

23、原始變量標準化后表示主成分的系數(shù)。標準化主成分1=0.158X引擎+0.131X馬力+(-0.154)X油耗第52頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析因子分析(factor analysis)也是一種降維、簡化數(shù)據的技術。它通過研究眾多變量之間的內部依賴關系,探求觀測數(shù)據中的基本結構,并用少數(shù)幾個“抽象”的變量來表示其基本的數(shù)據結構。這幾個抽象的變量被稱作“因子”,能反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而因子一般是不可觀測的潛在變量。 例如,在商業(yè)企業(yè)的形象評價中,消費者可以通過一系列指標構成的一個評價指標體系,評價百貨商場的各個方面的優(yōu)

24、劣。但消費者真正關心的只是三個方面:商店的環(huán)境、商店的服務和商品的價格。這三個方面除了價格外,商店的環(huán)境和服務質量,都是客觀存在的、抽象的影響因素,都不便于直接測量,只能通過其它具體指標進行間接反映。因子分析就是一種通過顯在變量測評潛在變量,通過具體指標測評抽象因子的統(tǒng)計分析方法。第53頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析 因子分析的內容非常豐富,常用的因子分析類型是 Q型因子分析和R型因子分析。Q型因子分析是對樣品作因子分析,R型的因子分析是對變量作因子分析。側重討論R型因子分析。第54頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析第

25、55頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析第56頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析第57頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析第58頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析前面的因子分析模型中出現(xiàn)了一個概念叫因子載荷矩陣,實際上因子載荷矩陣存在明顯的統(tǒng)計意義。為了對因子分析過程和計算結果做詳細的解釋,我們對因子載荷矩陣的統(tǒng)計意義加以說明。 第59頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析第60頁,共134頁,2022年,5月20日,23點

26、1分,星期二五、因子分析第61頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析第62頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析第63頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析第64頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析具體步驟在實際應用中,因子分析的具體步驟可以歸納為:1、將原始數(shù)據進行標準化處理;2、建立變量的相關系數(shù)矩陣R;3、計算初等載荷矩陣 ,其中相關系數(shù)矩陣R的特征值 ; 和對應的特征向量 ;4、選擇 個主因子。根據初等載荷矩陣計算各個公共因子的貢獻率,并選擇m個主因子5、因

27、子旋轉(正交變換法) ,其中T為正交陣;6、計算因子得分(因子得分估算公式 )。 第65頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn) 可以看出,除馬力和軸距兩個變量的相關系數(shù)較小外,其余各變量的相關系數(shù)都大于0.3,各變量相關性較強。第66頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn)KMO=0.873,該值越接近1,意味著變量間的相關性越強,適合于因子分析:0.9,非常適合;(0.8,0.9)內,適合:(0.7,0.8)內,一般;(0.6,0.7)內,適合度較低,0.6,適合度很低。Bartlett的球形度檢驗,小于0

28、.01,即變量間存在相關慣性系,適合做因子分析。第67頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn)第68頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn)第一個因子主要由引擎、馬力、油耗3個變量決定,這3個變量在第一個主因子上的載荷均在0.8以上,該因子代表汽車的動力情況,與汽車所能達到的最大行駛速度有關。第二個因子主要由軸距、長度兩個變量決定,這兩個變量在該因子上的載荷均在0.9以上,表明該因子代表汽車的外形特征。第69頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn)表5.1是研究消費者對

29、購買牙膏偏好的調查數(shù)據。通過市場的攔截訪問,用7級量表詢問受訪者對以下陳述的認同程度(1表示非常不同意,7表示非常同意)。V1:購買預防蛀牙的牙膏是重要的;V2:我喜歡使牙齒亮澤的牙膏;V3:牙膏應當保護牙齦;V4:我喜歡使口氣清新的牙膏;V5:預防壞牙不是牙膏提供的一項重要利益;V6:購買牙膏時最重要的考慮是富有魅力的牙齒。 第70頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn)表5.1 牙膏屬性評分得分表第71頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn)第72頁,共134頁,2022年,5月20日,23點1分,星期二五

30、、因子分析SPSS實現(xiàn)將表5.1中的數(shù)據通過SPSS進行因子分析,得到相關結果是:1. 特征根和累計貢獻率 表5.2 方差貢獻率表 第73頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn)從表5.2可以看出,提取兩個因子累計方差貢獻率就達到82%,第三個特征根相比下降較快,因此我們選取兩個公共因子。2.因子的含義為了得到意義明確的因子含義,我們將因子載荷陣進行方差最大法旋轉,得到旋轉后的因子載荷矩陣如下表5.3。 表5.73 旋轉后因子載荷矩陣 第74頁,共134頁,2022年,5月20日,23點1分,星期二五、因子分析SPSS實現(xiàn) 從因子載荷陣可以看出:因子1

31、與V1(預防蛀牙),V3(保護牙齦),V5(預防壞牙)相關性強,其中V5的載荷是負數(shù),是由于這個陳述是反向詢問的;因子2與V2(牙齒亮澤),V4(口氣清新),V6(富有魅力)的相關系數(shù)相對較高;因此,我們命名因子1為“護牙因子”,是人們對牙齒的保健態(tài)度;因子2是“美牙因子”,說明人們“通過牙膏美化牙齒影響社交活動”的重視。從這兩方面分析,對牙膏生產企業(yè)開發(fā)新產品都富有啟發(fā)意義。第75頁,共134頁,2022年,5月20日,23點1分,星期二判別分析問題,即根據歷史上劃分類別的有關資料和某種最優(yōu)準則,確定一種判別方法,判定一個新的樣本歸屬哪一類。這類問題用數(shù)學語言來表達,可以敘述如下:設有n個樣

32、本,對每個樣本測得p項指標(變量)的數(shù)據,已知每個樣本屬于k個類別(或總體)G1,G2, ,Gk中的某一類,且它們的分布函數(shù)分別為F1(x),F(xiàn)2(x), ,F(xiàn)k(x)。我們希望利用這些數(shù)據,找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質,能把屬于不同類別的樣本點盡可能地區(qū)別開來,并對測得同樣p項指標(變量)數(shù)據的一個新樣本,能判定這個樣本歸屬于哪一類。六、判別分析第76頁,共134頁,2022年,5月20日,23點1分,星期二判別分析內容很豐富,方法很多。判別分析按判別的總體數(shù)來區(qū)分:兩個總體判別分析、多總體判別分析;按區(qū)分不同總體所用的數(shù)學模型來分:有線性判別、非線性判別;按判別時所處理的

33、變量方法不同:逐步判別、序貫判別;判別分析可以從不同角度提出問題,因此有不同的判別準則,如馬氏距離最小準則、Fisher準則、平均損失最小準則、最小平方準則、最大似然準則、最大概率準則等等,按判別準則的不同又提出多種判別方法。本章僅介紹距離判別法六、判別分析分類第77頁,共134頁,2022年,5月20日,23點1分,星期二距離判別法的基本思想方法:將新樣品判別給與其距離最近的總體六、判別分析距離判別法馬氏距離(馬哈拉諾比斯Mahalanobis, 1936)第78頁,共134頁,2022年,5月20日,23點1分,星期二六、判別分析距離判別法第79頁,共134頁,2022年,5月20日,23

34、點1分,星期二六、判別分析距離判別法第80頁,共134頁,2022年,5月20日,23點1分,星期二從上節(jié)看距離判別法雖然簡單,便于使用。但是該方法也有它明顯的不足之處。第一,判別方法與總體各自出現(xiàn)的概率的大小無關;第二,判別方法與錯判之后所造成的損失無關。六、判別分析距離判別法第81頁,共134頁,2022年,5月20日,23點1分,星期二Matlab判別分析工具箱:classify六、判別分析Matlab判別分析工具箱第82頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析多因素方差分析第83頁,共134頁,2022年,5月20日,23點1分,星期二七、方

35、差分析單因素方差分析 例7.1:(數(shù)據7.1)為檢驗3家工廠生產的機器加工一批原料所需的平均時間是否相同,某化學公司得到了關于加工原料所需時間的數(shù)據,利用這些數(shù)據檢驗3家工廠加工一批原料所需平均時間是否相同。工廠123加工時間202820262619243123222722232821222920各廠的加工效率是否存在差異?哪個廠的加工時間最短?第84頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析方差分析就是通過對水平之間的方差(組間方差)和水平內部的方差(組內方差)進行比較,做出拒絕還是不能拒絕原假設的判斷。方差分析通常要有以下兩個假定: 1.各樣本的獨

36、立性,即各組觀察數(shù)據是從相互獨立的總體中抽取的。 2.要求所有觀察值都是從正態(tài)總體中抽取的,且方差相等。第85頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析因素A的水平觀察值數(shù)據類型第86頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析步驟:提出假設構造檢驗的統(tǒng)計量 顯著性檢驗得到結論第87頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析提出假設: 在單因素方差分析中,要檢驗因素A的k個水平(總體)的均值是否相等,因此提出假設的一般形式為:原假設: 對立假設:第88頁,共134頁,20

37、22年,5月20日,23點1分,星期二七、方差分析單因素方差分析 由于樣本均值 可以作為總體均值 的估計,所以可以借助樣本均值粗略估計一下總體均值的情況。符號說明:總樣本容量第i水平的樣本均值總樣本均值 第89頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析 當 時,有 , 三組的樣本均值各不相等,能否說明三組的總體均值有明顯差異?為什么觀察值之間存在差異?這些差異是由哪些原因造成的?如何來衡量各組之間的差異大小呢?第90頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析 所有觀察值幾乎各不相等,它們的分散程度可以用總平方和

38、來度量。觀察值之間的差異越大,ST 越大。 在單因素實驗中,造成觀察值差異的原因有兩個:一個是由隨機誤差引起的,不可避免;另一個就是由因素的不同水平造成的。 第91頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析 我們定義組間平方和來度量各組之間的差異。 定義組內平方和來度量組內隨機誤差引起的偏差??梢宰C明:第92頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析按照構造統(tǒng)計量的基本原則:統(tǒng)計量具有一定的實際意義統(tǒng)計量要服從某已知分布可以構造單因素方差分析的統(tǒng)計量:服從自由度為 的F分布。第93頁,共134頁,2022年,5

39、月20日,23點1分,星期二七、方差分析單因素方差分析 對給定的顯著性水平 ,當時,應拒絕原假設H0,即認為各水平之間有明顯差異;否則應接受原假設H0,即認為各水平之間無明顯差異。第94頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析第95頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析p值為0.836,在顯著性水平0.05的前期下,通過了方差齊性檢驗,即不同廠的加工時間被認為是來自于相同方差的不同總體,滿足方差分析的前提。第96頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析表中的“*

40、”表示在顯著性水平0.05的情況下,相應的兩組均值之間存在顯著差異。第97頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析單因素方差分析p值近似為0,遠小于顯著性水平0.05,因此有理由拒絕原假設,認為不同工廠對加工時間產生了顯著影響。第98頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析 例7.2:(數(shù)據7.2)某電器公司想知道某產品銷售量與銷售方式及銷售地點是否有關,隨機抽樣得到以下資料,以0.05的顯著性水平進行檢驗。 地點一地點二地點三地點四地點五方式一7786818883方式二9592789689方式三7176688174方式

41、四8084797082第99頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析 以下根據平方和分解的思想來給出檢驗用的統(tǒng)計量的計算公式。先引入下述記號: 其中 i=1,2,r ;j=1,2,s ; 總樣本容量 n=r s m 第100頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析 總偏差平方和ST、因素A的效應平方和SA、因素B的效應平方和SB、交互效應平方和SAB以及誤差平方和SE的計算公式如下:第101頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析第102頁,共134頁,2022年

42、,5月20日,23點1分,星期二七、方差分析多因素方差分析第103頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析 例7.2:某電器公司想知道某產品銷售量與銷售方式及銷售地點是否有關,隨機抽樣得到以下資料,以0.05的顯著性水平進行檢驗。 地點一地點二地點三地點四地點五方式一7786818883方式二9592789689方式三7176688174方式四8084797082第104頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析第105頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析第10

43、6頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析銷售方式的p值為0.003,表明對銷售量的影響存在顯著差異,銷售地點不存在顯著差異。第107頁,共134頁,2022年,5月20日,23點1分,星期二七、方差分析多因素方差分析該均衡子集表中,第一均衡子集包含方式3和方式4,兩均值比較的概率p值為0.162,表明銷售方式3和銷售方式4的銷售量均值之間無明顯差異。第108頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析變量與變量的關系:確定性關系函數(shù)關系U=IRv=gt變量與變量的關系:非確定性關系統(tǒng)計相關(具有統(tǒng)計規(guī)律)Y=f(x1, x

44、2, , xn)+回歸分析方法第109頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析第110頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸回歸分析中的兩類主要變量解釋變量(因變量Dependent variable)記為Y被解釋變量(自變量Independent )記為X1,X2,Xn?;貧w分析 一元回歸分析被解釋變量只有一個多元回歸分析被解釋變量有一個以上第111頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸可以用相關分析或非線性回歸分析畫出兩個變量X和Y的散點圖由X的變化引起的Y的線性變化部分a

45、+bX Y=a+bX+由于其他隨機因素引起的Y的變化部分,N(0,2) 觀察散點是否呈直線趨勢是否建立一元線性回歸模型:Y=a+bX+如何建立方程?最小二乘法根據距離觀測值的各點平方和最小原則確定參數(shù)的方法稱為最小二乘法 第112頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸:最小二乘法最小二乘法就是使實際觀測值的參數(shù)的最小二乘估計與之間的差的平方和取最小值,即要選擇的參數(shù)應滿足使殘差平方和 取最小值。令第113頁,共134頁,2022年,5月20日,23點1分,星期二整理得方程組: 正規(guī)方程組解此正規(guī)方程組得 八、回歸分析一元線性回歸:最小二乘法第114頁

46、,共134頁,2022年,5月20日,23點1分,星期二總離差平方和回歸平方和剩余平方和離差平方和的分解八、回歸分析一元線性回歸:最小二乘法第115頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸:統(tǒng)計檢驗F對回歸模型的顯著性檢驗t對回歸系數(shù)的顯著性檢驗樣本決定系數(shù)R2模型擬合優(yōu)度檢驗對一元線性回歸來說,三種檢驗的等價的,但對多元的則不同。第116頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸:統(tǒng)計檢驗1、回歸方程的擬合優(yōu)度檢驗 檢驗R2越接近于1,回歸方程對實際觀測值的擬合優(yōu)度越高;R2越接近于0,回歸方程對實際觀測值的擬

47、合優(yōu)度越低。 第117頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸:統(tǒng)計檢驗2、回歸方程的顯著性檢驗F檢驗H0:線性關系不顯著 H1:線性關系顯著當H0為真時,檢驗統(tǒng)計量 F(1,n-2) 給定顯著性水平,查表確定臨界點確定拒絕域:,列出方差分析表 第118頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸:統(tǒng)計檢驗方差來源平方和自由度均方差F值回歸平方和剩余平方和SSRSSE1n-2VR=SSRVE=SSE/n-2F=VR/VE總平方和SSTn-1方差分析表第119頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸:統(tǒng)計檢驗3、回歸系數(shù)的顯著性檢驗t檢驗 回歸系數(shù)的顯著性檢驗是檢驗自變量X對因變量Y的影響是否顯著。 如果回歸系數(shù)b=0,總體回歸直線是一條水平線,表明自變量X的變化對因變量Y沒有影響。因此,回歸系數(shù)的顯著性檢驗就是檢驗回歸系數(shù)b與0之間是否有顯著差異。第120頁,共134頁,2022年,5月20日,23點1分,星期二八、回歸分析一元線性回歸:統(tǒng)計檢驗(1) 提出假設

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論