版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、皮爾遜積矩相關(guān)系數(shù)(Pearsonproduct-momentcorrelationcoefficient)1定義在統(tǒng)計學(xué)中,皮爾遜積矩相關(guān)系數(shù)(Pearsonproduct-momentcorrelationcoefficient),有時也簡稱為PMCC,通常用r或是p表示,是用來度量兩個變量X和Y之間的相互關(guān)系(線性相關(guān))的,取值范圍在-1,+1之間。皮爾遜積矩相關(guān)系數(shù)在學(xué)術(shù)研究中被廣泛應(yīng)用來度量兩個變量線性相關(guān)性的強弱,它是由KarlPearson在19世紀80年代從FrancisGalton介紹的想法基礎(chǔ)發(fā)展起來的,但是發(fā)展后原想法相似但略有不同的,這種相關(guān)系數(shù)常被稱為“Pearson
2、的r”兩個變量之間的皮爾遜積矩相關(guān)系數(shù)定義為這兩個變量的協(xié)方差與二者標準差積的商,即cov(X,Y)E(X一卩)(Y一卩)XLXY上式定義了總體相關(guān)系數(shù),一般用希臘字母p(rho)表示。若用樣本計算的協(xié)方差和標準差代替總體的協(xié)方差和標準差,則為樣本相關(guān)系數(shù),一般用r表示:(X-X)(Y-Y)iii=1另外一個與上式等效的定義相關(guān)系數(shù)的公式是通過標準化以后變量均值的積定義的。假設(shè)樣本可以記為(X,Y),貝9樣本Pearson相關(guān)系數(shù)為iir=1XXiYYin11s丿1s丿i=1XY其中冬二工,X和s分別為標準化變量,樣本均值和樣本標準差。sX2皮爾遜積矩相關(guān)系數(shù)的數(shù)學(xué)特性不論是樣本的還是總體的P
3、earson相關(guān)系數(shù)絕對值均小于等于1,相關(guān)系數(shù)等于1或-1時,所有數(shù)據(jù)的點都精確地落在一條直線上(為樣本相關(guān)系數(shù)的情況),或是兩變量的分布完全由一條直線支撐(為總體相關(guān)系數(shù)的情況)。Pearson相關(guān)系數(shù)具有對稱性,即:corrcorr(X,Y)=corr(Y,X)。Pearson相關(guān)系數(shù)的一個關(guān)鍵的特性就是它并不隨著變量的位置或是大小的變化而變化。也就是說,我們可以把X變?yōu)閍+bX,把Y變?yōu)閏+dY,其中a,b,c和d都是常數(shù),而并不會改變相互之間的相關(guān)系數(shù)(這點對總體和樣本Pearson相關(guān)系數(shù)都成立)。Pearson相關(guān)系數(shù)可以用原點矩的形式表示。因為卩=E(X),2=E(X)X2=E
4、(X2)E2(X),XX對于Y也有相似的表達式。又E(XE(X)E(YE(Y)=E(XY)E(X)E(Y)于是式(1)可寫為E(XY)E(X)E(Y)E(X2)E2(X)E(Y2)E2(Y)上述形式對于樣本的Pearson相關(guān)系數(shù)同樣是可用的,有工xynxyr,iixy(n1)ssxyn工xy工x工、zIn乙x2一(乙xx)2yJin乙y2ii上式提供了一個非常簡單的計算樣本相關(guān)系數(shù)的算法,但是有時受數(shù)據(jù)的影響,可上式可能存在數(shù)值上的不穩(wěn)定性。相關(guān)系數(shù)取值范圍為-1,1。取1時表示變量X和Y之間具有線性變化的關(guān)系,即Y隨著X的增加而增加,而且所有的點都落在一條直線上。取-1時則是所有點落在一條
5、直線上,但是變量Y隨著X的增加而減小。相關(guān)系數(shù)值為0是表示變量之間沒有線性相關(guān)關(guān)系。更一般地,應(yīng)該注意到,只要X和Y落在各自均值的同一側(cè),那么(X-X)(Y-Y)就是大于0iiii的。也就是說,只要X和Y同時趨近于大于或是同時趨近于小于他們各自的均值,那么它們的相關(guān)ii系數(shù)為正。反之,當二者區(qū)于在相反的一邊時,二者相關(guān)系數(shù)為負。幾種的(x,y)點即相應(yīng)的x、y的相關(guān)系數(shù)。可以看出,相關(guān)反映線性關(guān)系分散程度和方向(第一行),但是不能反映線性關(guān)系時的斜率(第二行),也不能反映出非線性關(guān)系的許多方面(最底下一行)。注:圖中第二行第四個小圖的直線斜率是0,在這種情況下,相關(guān)系數(shù)是沒有意義的,因為Y的方
6、差是零。3幾何解釋對于相對中心性的數(shù)據(jù)(例如,一組已經(jīng)通過樣本均值轉(zhuǎn)換為均值為0的數(shù)據(jù)),相關(guān)系數(shù)可以看做是由兩隨機變量樣本繪出的兩個向量之間夾角的余弦值。有些學(xué)者則比較傾向于非中心性(費皮爾遜兼容)的相關(guān)系數(shù)。以下通過一個例子比較二者之間的差異。假設(shè)有5個國家,國民生產(chǎn)總值分別為10億美元、20億美元、30億美元、50億美元和80億美元,而貧困人數(shù)占總?cè)丝诘谋壤謩e為11%、12%、13%、15%和18%。則可令X=(10,20,30,50,80),Y=(0.11,0.12,0.13,0.15,0.18)。有一般的計算兩個向量之間的角度的過程(點乘)可得非中心性相關(guān)系數(shù)為cos0,xyxy2
7、.93而P0.0983,0.920814711應(yīng)該注意到,上述數(shù)據(jù)是特意從完全線性相關(guān)的線性函數(shù)Y=0.10+0.001X中挑選出來的,所以Pearson相關(guān)系數(shù)應(yīng)該精確地為1。將數(shù)據(jù)中心化(將X減去E(X)=38,Y減去E(Y)=0.138),可得X=(-28,-18,-0.8,12,42),Y=(-0.028,-0.018,-0.08,0.012,0.042),并有cos0,xy,3.08,1,pxy(3080J0.00308xy跟期望的一樣。相關(guān)系數(shù)大小與相關(guān)性大小的關(guān)系許多學(xué)者都提出了通過相關(guān)系數(shù)大小判斷變量相關(guān)性的標準。但是正如Cohen(1988)所指出的一樣,這些標準或多或少的有
8、些武斷,不應(yīng)該過于嚴格地遵守。相同相關(guān)系數(shù)對相關(guān)性大小的判斷取決于不同的背景和目的。同樣是0.9的相關(guān)系數(shù),在使用很精確的儀器驗證物理定律的時候可能被認為是很低的,但是社會科學(xué)中,在評定許多復(fù)雜因素的貢獻時,卻可能被認為是很高的相關(guān)性。相關(guān)系數(shù)與相關(guān)性的關(guān)系相關(guān)性負值正值不相關(guān)-0.090.00.00.09低相關(guān)0.30.10.10.3中等相關(guān)0.50.30.30.5顯著相關(guān)1.00.50.51.04對數(shù)據(jù)分布的敏感性存在性總體的Pearson相關(guān)系數(shù)是通過原點矩來定義的,所以二元概率分布的總體協(xié)方差以及變量邊緣總體反差必須是有意義且是非零的。一些概率分布例如柯西(Cauchy)分布的反差就是
9、無意義的,因此在X或Y服從這種分布時,p也是沒有意義的。在一些實際應(yīng)用中,例如那些涉及數(shù)據(jù)在尾部比較集中的情況,考慮這點就是很重要的。但是,相關(guān)系數(shù)的存在性通常不是我們關(guān)注的焦點,因為一般只要分布是有界的,那么p就可以被定義。大樣本性在二元正態(tài)分布中,若已知變量的邊緣分布的均值和標準差,那么由Pearson相關(guān)系數(shù)就可以完全確定該分布的特性。但是對于其它的二元分布,情況就有所不同。然而,不論變量之間的聯(lián)合概率密度函數(shù)是不是正態(tài)的,Pearson相關(guān)系數(shù)都是用來衡量兩個隨機變量之間的線性相關(guān)程度的。對于二元正態(tài)數(shù)據(jù),樣本的相關(guān)系數(shù)是總體相關(guān)系數(shù)的極大似然估計,并且具有漸進無偏性和有效性,也即是說
10、在數(shù)據(jù)來自正態(tài)分布,且樣本大小適中或是足夠大的時候,不可能構(gòu)造一個比樣本相關(guān)相關(guān)系數(shù)更加精確的量來估計變量之間的相關(guān)性。對于非正態(tài)總體,樣本相關(guān)系數(shù)依然是漸進無偏的,但是可能不是有效的估計。只要樣本均值、方差、協(xié)方差是一致的(可以通過應(yīng)用大數(shù)定律來保證),樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一個一致估計量。0.7Samplesize匚0匸常-aj匕00匚oSJIrced圖中顯示了在給定的樣本大小時,在置信水平為0.05時,具有顯著非零Pearson相關(guān)系數(shù)的的最小值。AgraphshowingtheminimumvalueofPearsonscorrelationcoefficientthatissi
11、gnificantlydifferentfromzeroatthe0.05level,foragivensamplesize.5魯棒性(Robustness)與其他一些廣泛應(yīng)用的統(tǒng)計量相同,樣本統(tǒng)計量r是不可靠的,在存在異常值的時候,r的值可能會誤導(dǎo)我們。也就是說,PMCC不僅受變量分布的影響,還隨異常值非常敏感。觀察X、Y之間的散點圖,就可以看出,缺少魯棒性確實是一個很大的問題,在這種情況下,就需要采用更加穩(wěn)健的參量來度量變量的相關(guān)性。但是值得一提的是,無論采用多么穩(wěn)健的參量來度量變量之間的相關(guān)性,都與Pearson相關(guān)系數(shù)在數(shù)值大小保持很好的一致性?;赑earson相關(guān)系數(shù)的統(tǒng)計推斷對數(shù)
12、據(jù)的分布類型是很敏感的。所以只有在數(shù)據(jù)是近似正態(tài)分布的時候,基于Fisher變換的精確檢驗和近似檢驗才能被采用,否則就可能導(dǎo)致錯誤的結(jié)論。在某些情況下,引導(dǎo)可用于構(gòu)造置信區(qū)間,并置換測試可用于進行假設(shè)檢驗。在二元正態(tài)不成立時,非參數(shù)的方法在某些情況下可能會得到更有意義的結(jié)果。但這些方法的標準版本依賴于數(shù)據(jù)的互換性,也就是說,在沒有特定的順序或是數(shù)據(jù)可供分析時,可能影響相關(guān)估計的行為。Spearman秩相關(guān)系數(shù)(Spearmansrankcorrelationcoefficient)Pearson線性相關(guān)系數(shù)只是許多可能中的一種情況,為了使用Pearson線性相關(guān)系數(shù)必須假設(shè)數(shù)據(jù)是成對地從正態(tài)分
13、布中取得的,并且數(shù)據(jù)至少在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。如果這兩條件不符合,一種可能就是采用Spearman秩相關(guān)系數(shù)來代替Pearson線性相關(guān)系數(shù)。Spearman秩相關(guān)系數(shù)是一個非參數(shù)性質(zhì)(與分布無關(guān))的秩統(tǒng)計參數(shù),由Spearman在1904年提出,用來度量兩個變量之間聯(lián)系的強弱(LehmannandDAbrera1998)。Spearman秩相關(guān)系數(shù)可以用于R檢驗,同樣可以在數(shù)據(jù)的分布使得Pearson線性相關(guān)系數(shù)不能用來描述或是用來描述或?qū)е洛e誤的結(jié)論時,作為變量之間單調(diào)聯(lián)系強弱的度量。在統(tǒng)計學(xué)中,Spearman秩相關(guān)系數(shù)或稱為Spearman的p,是由CharlesSpearm
14、an命名的,一般用希臘字母ps(rho)或是rs表示。Spearman秩相關(guān)系數(shù)是一個非參數(shù)的度量兩個變量之間的統(tǒng)計相關(guān)性的指標,用來評估當用單調(diào)函數(shù)來描述是兩個變量之間的關(guān)系有多好。在沒有重復(fù)的數(shù)據(jù)的情況下,如果一個變量是兩外一個變量的嚴格單調(diào)的函數(shù),則二者之間的Spearman秩相關(guān)系數(shù)就是+1或-1,稱變量完全Spearman相關(guān)。Spearman秩相關(guān)系數(shù)通常被認為是排列后的變量之間的Pearson線性相關(guān)系數(shù),在實際計算中,有更簡單的計算Ps的方法。假設(shè)原始的數(shù)據(jù)xi,yi已經(jīng)按從大到小的順序排列,記xi,yi為原xi,yi在排列后數(shù)據(jù)所在的位置,則xi,yi稱為變量xi,yi的秩次
15、,則di=xi-yi為xi,yi的秩次之差。如果沒有相同的秩次,則ps可由下式計算6工d2p=1isn(n2,1)如果有相同的秩次存在,那么就需要計算秩次之間的Pearson的線性相關(guān)系數(shù)工(x-x)(y-y)iiii2一個相同的值在一列數(shù)據(jù)中必須有相同的秩次,那么在計算中采用的秩次就是數(shù)值在按從大到小排列時所在位置的平均值。表1為一個球平均秩次的例子。注意在秩次相同時,用他們在排列后的數(shù)據(jù)中所在的位置的平均值作為秩次。表1有相同數(shù)值時秩次的計算變量X.從大到小排列時的位置秩次x,i0.8551.24(4+3)/2=3.51.23(4+3)/2=3.52.3221811Spearman秩相關(guān)系
16、數(shù)的符號表示X和Y之間聯(lián)系的方向。如果Y隨著X的增加而增加,那么Spearman秩相關(guān)系數(shù)是正的,反之,若果Y隨著X的增加而減小,Spearman秩相關(guān)系數(shù)就是負的。Spearman秩相關(guān)系數(shù)為0表示隨著X的增加,Y沒有增大或減小的趨勢。隨著X和Y越來越接近嚴格單調(diào)的函數(shù)關(guān)系,Spearman秩相關(guān)系數(shù)在數(shù)值上越來越大。當X、Y有嚴格單增的關(guān)系是,它們之間的Spearman秩相關(guān)系數(shù)為1,反之,在X、Y有嚴格單減的關(guān)系時,Spearman秩相關(guān)系數(shù)為-1。嚴格單增的關(guān)系為對于任意的兩對數(shù)據(jù)值Xi,Yi和Xj,Yj,Xi-Yi和Xj-Yj都具有相同的符號。嚴格單減則上述差值在任何時候都具有相反的符號。Spearman秩相關(guān)系數(shù)經(jīng)常被稱為非參數(shù)相關(guān)系數(shù),這具有兩層含義:第一,只要在X和Y具有單調(diào)的函數(shù)關(guān)系的關(guān)系,那么X和Y就是完全Spearman相關(guān)的,這與Pearson相關(guān)性不同,后者只有在變量之間具有線性關(guān)系時才是完全相關(guān)的。另外一個關(guān)于Spearman秩相關(guān)系數(shù)的非參數(shù)性的理解就是樣本之間精確的分布可以在不知道X和Y的聯(lián)合概率密度函數(shù)時獲得。Spearmancorrelational不管變量之間的關(guān)系是不是線性的,只要變量之間具有嚴格的單調(diào)增加的函數(shù)關(guān)系,變量之間的Spearman秩相關(guān)系數(shù)就是1,相同情況
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合作融資合同
- 銷售空調(diào)工作計劃七篇
- 父親節(jié)演講稿14篇
- 退休申請書范文集合8篇
- DB45T 2695-2023 牛羊規(guī)模養(yǎng)殖場疫病防治規(guī)范
- DB45T 2686-2023 青錢柳飲料加工技術(shù)規(guī)程
- 服裝店個人工作計劃
- 中學(xué)九九重陽節(jié)活動總結(jié)
- 2025【各類合同范本】隱名投資協(xié)議范本
- 2025企業(yè)集體合同書范文
- 切割機安全培訓(xùn)
- 拉運污水泄漏應(yīng)急預(yù)案
- 幼兒園大班社會《年的故事》
- 馬術(shù)比賽應(yīng)急處置預(yù)案
- 基于核心素養(yǎng)的初中道德與法治大單元與議題式教學(xué)融合策略 論文
- 土壤檢測報告
- 物業(yè)服務(wù)星級創(chuàng)建活動實施方案
- 食材配送服務(wù)方案投標方案(技術(shù)標)
- 共同撫養(yǎng)兩個子女協(xié)議書范本
- 健身教練理論試題
- 勘查地球化學(xué)-氣體勘查地球化學(xué)
評論
0/150
提交評論