第5講 相關(guān)分析_第1頁
第5講 相關(guān)分析_第2頁
第5講 相關(guān)分析_第3頁
第5講 相關(guān)分析_第4頁
第5講 相關(guān)分析_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5講相關(guān)分析第一節(jié)相關(guān)分析概述統(tǒng)計(jì)研究的主要內(nèi)容:第一部分:總體均值的差異比較第二部分:變量間的統(tǒng)計(jì)關(guān)系的研究

變量和變量之間的關(guān)系可以分為:確定性關(guān)系:變量之間的關(guān)系可以用精確的函數(shù)描述出來。不確定性關(guān)系:變量之間存在某種聯(lián)系,但是這種聯(lián)系是不能用精確的函數(shù)描述出來。如果僅僅研究變量之間的相互關(guān)系的密切程度和變化趨勢(shì),并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)描述。這就是相關(guān)分析。如果要把變量間相互關(guān)系用函數(shù)表達(dá)出來,用一個(gè)或多個(gè)變量的取值來估計(jì)另一個(gè)變量的取值,這就是回歸分析。

可見相關(guān)分析是研究變量間不確定性關(guān)系的一種統(tǒng)計(jì)方法,而回歸分析更傾向于研究變量間的確定性關(guān)系。

【Correlate】子菜單:Bivariate:兩變量相關(guān)分析。Partial:偏相關(guān)分析。Distances:距離分析。第二節(jié)兩變量相關(guān)分析一、兩變量相關(guān)分析簡(jiǎn)介

兩樣本相關(guān)分析即是研究?jī)蓚€(gè)變量之間相關(guān)關(guān)系的統(tǒng)計(jì)方法。它主要由相關(guān)系數(shù)來刻畫。二維隨機(jī)變量(X,Y)的相關(guān)系數(shù)可見,相關(guān)系數(shù)越大,相關(guān)性越強(qiáng)。通常情況下,是未知的,而是用其樣本相關(guān)系數(shù)r來代替?!羲伎迹簽槭裁词俏粗模砍S玫臉颖鞠嚓P(guān)系數(shù)有:

Pearson相關(guān)系數(shù)

Spearman秩相關(guān)系數(shù)

Kendall相關(guān)系數(shù)Pearson相關(guān)系數(shù):用于對(duì)定距變量的數(shù)據(jù)進(jìn)行計(jì)算,即分析兩個(gè)連續(xù)性數(shù)據(jù)之間的關(guān)系。

◆注意:Spearman秩相關(guān)系數(shù):用于描述分類或等級(jí)變量之間、分類或等級(jí)變量與連續(xù)變量之間的相關(guān)關(guān)系。

◆注意:在正態(tài)分布假定下,Spearman秩相關(guān)系數(shù)與Pearson相關(guān)系數(shù)在效率上是等價(jià)的,而對(duì)于非正態(tài)分布或者分布不明的數(shù)據(jù),則采用Spearman秩相關(guān)系數(shù)更合適。

Kendall相關(guān)系數(shù):用于描述分類或等級(jí)變量之間、分類或等級(jí)變量與連續(xù)變量之間的相關(guān)關(guān)系。

例1

從中國30個(gè)省區(qū)抽樣的文盲率(單位:1‰)和各省人均GDP(單位:元),問文盲率與人均GDP之間是否相關(guān)?是正相關(guān)還是負(fù)相關(guān)?(數(shù)據(jù)文件:WM&GDP.sav)二、引例(練習(xí)一)(2)執(zhí)行【Analyze】/【Correlate】/【Bivariate】(1)首先,作出文盲率與GDP之間的散點(diǎn)圖-------初步判斷兩變量是否有相關(guān)關(guān)系及相關(guān)關(guān)系是否成線性。進(jìn)行相關(guān)分析的變量要計(jì)算的相關(guān)系數(shù)對(duì)于連續(xù)性變量分類或等級(jí)變量定義相關(guān)系數(shù)的檢驗(yàn)方法雙側(cè)檢驗(yàn)單側(cè)檢驗(yàn)用*標(biāo)記有統(tǒng)計(jì)學(xué)意義的相關(guān)系數(shù)Options:用于選擇輸出統(tǒng)計(jì)量和定義缺失值的處理方式選擇輸出的統(tǒng)計(jì)量輸出各個(gè)變量的樣本均值及標(biāo)準(zhǔn)差輸出各對(duì)變量的交叉積及協(xié)方差矩陣定義缺失值的處理方式僅當(dāng)數(shù)據(jù)中要分析的變量值缺失時(shí)才剔除該數(shù)據(jù)只要數(shù)據(jù)中有變量值缺失時(shí)就剔除該數(shù)據(jù)結(jié)果解讀:

1、首先利用散點(diǎn)圖確定變量間關(guān)系及該關(guān)系是否呈線性------只有線性關(guān)系確定后才能進(jìn)行下一步分析從圖形上看,兩個(gè)變量存在一定程度的線性相關(guān)關(guān)系。

2、描述性統(tǒng)計(jì)量3、Pearson相關(guān)系數(shù)及其顯著性檢驗(yàn)結(jié)果結(jié)果說明:文盲率與人均GDP的相關(guān)性是顯著的。4、Spearson相關(guān)系數(shù)及其顯著性檢驗(yàn)結(jié)果結(jié)果說明:文盲率與人均GDP的相關(guān)性是高度顯著的。結(jié)論:用Pearson相關(guān)系數(shù)與Spearmon相關(guān)系數(shù)都得到文盲率與人均GDP是負(fù)(線性)相關(guān)的。注:進(jìn)行分析的兩個(gè)變量是處于平等地位的,即X與Y的相關(guān)關(guān)系同Y與X的相關(guān)關(guān)系是一致的。區(qū)別于回歸分析。第三節(jié)偏相關(guān)分析在實(shí)際問題中,兩變量間的相關(guān)關(guān)系往往還要受到其它因素的影響。這些影響有時(shí)候會(huì)使相關(guān)分析的結(jié)果變得不那么可靠。所謂偏相關(guān)分析,即是指在研究?jī)勺兞恐g的相關(guān)關(guān)系的時(shí)候,將與這兩個(gè)變量有聯(lián)系的其它變量控制不變的統(tǒng)計(jì)方法。一、偏相關(guān)分析簡(jiǎn)介

根據(jù)控制變量的個(gè)數(shù),將偏相關(guān)分析分為:零階偏相關(guān)分析:沒有控制變量的相關(guān)分析,這就等同于一般的相關(guān)分析。一階偏相關(guān)分析:有一個(gè)控制變量的相關(guān)分析。二階偏相關(guān)分析:有兩個(gè)控制變量的偏相關(guān)分析,……。

其它高階偏相關(guān)分析都是以此類推。例2已知有某河流的一年月平均流量觀測(cè)數(shù)據(jù)和該河流所在地區(qū)當(dāng)年的月平均雨量和月平均溫度觀測(cè)數(shù)據(jù),如表所示。試分析溫度與河水流量之間的相關(guān)關(guān)系。

(數(shù)據(jù)文件:liuliang.sav)二、引例(練習(xí)二)【Analyze】/【Correlate】/【Partial】進(jìn)行偏相關(guān)分析的變量選擇偏相關(guān)分析中的控制變量定義相關(guān)系數(shù)的檢驗(yàn)方法雙側(cè)檢驗(yàn)單側(cè)檢驗(yàn)選擇是否給出真實(shí)的顯著性水平值選擇輸出的統(tǒng)計(jì)量Options:用于選擇輸出統(tǒng)計(jì)量和定義缺失值的處理方式輸出各個(gè)變量的樣本均值及標(biāo)準(zhǔn)差輸出所有變量(含控制變量)的相關(guān)矩陣僅當(dāng)數(shù)據(jù)中要分析的變量值缺失時(shí)才剔除該數(shù)據(jù)只要數(shù)據(jù)中有變量值缺失時(shí)就剔除該數(shù)據(jù)相關(guān)分析偏相關(guān)分析相關(guān)分析和偏相關(guān)分析結(jié)論相反!結(jié)果解讀第四節(jié)距離分析一、距離分析簡(jiǎn)介距離分析就是用于研究變量是否近似的一種相關(guān)分析方法。在模式識(shí)別之中,為了能劃分模式的類別,必須首先定義模式的相似性測(cè)度,以此來描述各模式之間特征的相似程度。距離分析是用來描述同一變量?jī)?nèi)觀測(cè)值之間或者是多個(gè)變量之間的相似或不相似程度的統(tǒng)計(jì)方法。定距變量的距離測(cè)度

定距變量的相似測(cè)度

分類變量的距離測(cè)度

二元變量的距離測(cè)度其中,a,b,c,d分別表示滿足條件的變量對(duì)個(gè)數(shù)。例3已知有我國六城市2004年各月的日照時(shí)數(shù)數(shù)據(jù)如表所示。請(qǐng)分析各城市日照數(shù)是否近似。(數(shù)據(jù)文件:rizhao.sav)二、引例(練習(xí)三)【Analyze】/【Correlate】/【Distance】進(jìn)行距離分析的變量標(biāo)識(shí)變量,方便閱讀輸出結(jié)果定義距離分析的類型對(duì)變量進(jìn)行距離分析對(duì)觀測(cè)值進(jìn)行距離分析選擇距離分析的測(cè)度類型計(jì)算不相似性測(cè)度計(jì)算相似性測(cè)度【Dissimilarities】對(duì)應(yīng)的【Measures】框:根據(jù)變量或觀測(cè)值數(shù)據(jù)類型的不同,選擇不同的不相似測(cè)度即距離測(cè)度指標(biāo)。計(jì)算定距變量的距離測(cè)度計(jì)算分類變量的距離測(cè)度計(jì)算二元變量的距離測(cè)度定義數(shù)據(jù)標(biāo)準(zhǔn)化的方法定義計(jì)算出來的距離測(cè)度作進(jìn)一步的轉(zhuǎn)化絕對(duì)值轉(zhuǎn)化法變號(hào)轉(zhuǎn)化法將距離測(cè)度轉(zhuǎn)化到(0,1)區(qū)間數(shù)據(jù)標(biāo)準(zhǔn)化方法:(1)None:不變化;(2)Zsores:進(jìn)行Z變換;(3)Range-1to1:將數(shù)據(jù)標(biāo)準(zhǔn)化到-1~1之間;(4)Range0to1:將數(shù)據(jù)標(biāo)準(zhǔn)化到-1~1之間;(5)Maximummagnitudeof1:將數(shù)據(jù)標(biāo)準(zhǔn)化后使其最大值為1;(6)Meanof1:將數(shù)據(jù)標(biāo)準(zhǔn)化后使其均值為1;(7)Standarddeviationof1:將數(shù)據(jù)標(biāo)準(zhǔn)化后其標(biāo)準(zhǔn)差為1.【similarities】對(duì)應(yīng)的【Measures】框:根據(jù)變量或觀測(cè)值數(shù)據(jù)類型的不同,選擇不同的相似測(cè)度。計(jì)算定距變量的相似測(cè)度計(jì)算二元變量的相似測(cè)度結(jié)果解讀:1、變量觀測(cè)值數(shù)及其缺失值情況取值越大說明近似程度越低,反之亦然2、距離分析結(jié)果表要求掌握相關(guān)分析【Correlate】子菜單:1、【Bivariate】過程(兩變量相關(guān)分析)2、【Partial】過程(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論