第9章 相關(guān)分析_第1頁(yè)
第9章 相關(guān)分析_第2頁(yè)
第9章 相關(guān)分析_第3頁(yè)
第9章 相關(guān)分析_第4頁(yè)
第9章 相關(guān)分析_第5頁(yè)
已閱讀5頁(yè),還剩70頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第9章普通相關(guān)分析《管理統(tǒng)計(jì)學(xué)》謝湘生廣東工業(yè)大學(xué)管理學(xué)院引例銷(xiāo)售量的差異設(shè)想自己負(fù)責(zé)某公司的銷(xiāo)售部門(mén)。假設(shè)本公司生產(chǎn)某種產(chǎn)品(比方說(shuō)某種食品),這種產(chǎn)品已經(jīng)銷(xiāo)售到了全國(guó)十個(gè)地區(qū)。但是從半年的銷(xiāo)售數(shù)據(jù)觀察到,該產(chǎn)品在這十個(gè)地區(qū)的銷(xiāo)售情況存在明顯的差距。從統(tǒng)計(jì)學(xué)的角度,如何評(píng)價(jià)這樣的銷(xiāo)售情況,如何改變銷(xiāo)售不平均的狀況。不同地區(qū):人均收入人口結(jié)構(gòu)人均GDP不同的通過(guò)相關(guān)分析我們可以了解變量之間是否具有線性相關(guān)關(guān)系,而這種相關(guān)關(guān)系可以用相關(guān)系數(shù)來(lái)測(cè)度。9.1兩個(gè)隨機(jī)變量的總體相關(guān)與樣本相關(guān)9.1.1兩個(gè)隨機(jī)變量的總體(簡(jiǎn)單)相關(guān)系數(shù)定義:X,Y是隨機(jī)變量,已知二維(X,Y)分布,總體相關(guān)系數(shù)為對(duì)總體相關(guān)系數(shù)有如下一些結(jié)果:相關(guān)系數(shù)是區(qū)間[-1,1]之間的一個(gè)量。ρXY=0,則稱X與Y不相關(guān)。若X與Y相互獨(dú)立則必不相關(guān),即ρXY=0。X與Y相互獨(dú)立是指:對(duì)事件而言,P{XY}=P{X}P{Y};對(duì)隨機(jī)變量而言,P{X<x,Y<y}=P{X<x}P{Y<y}。所以上述結(jié)論就是相互獨(dú)立的隨機(jī)變量之間相關(guān)系數(shù)必然為0。相關(guān)系數(shù)為0的兩個(gè)隨機(jī)變量,不一定相互獨(dú)立。相關(guān)系數(shù)為0的兩個(gè)服從正態(tài)分布的隨機(jī)變量,一定相互獨(dú)立。例非獨(dú)立的兩個(gè)隨機(jī)變量Y

%Total01TotalX60025025150012.512.525

300016.6733.3350

Total54.1745.83100

調(diào)查了某城市某行業(yè)的全體員工,用X表示其薪金檔次分為600元、1500元與3000元三檔;而受教育水平用Y表示,Y=0表示未受過(guò)高等教育,Y=1表示受過(guò)高等教育。則,P{X=600}=0.25,P{Y=0}=0.5417,但P{X=600,Y=0}=0.25。故X與Y不相互獨(dú)立。9.1.2樣本相關(guān)定義:設(shè)(X1,Y1),…(Xn,Yn)是(X,Y)的一組樣本(這種表示方法意味著樣本X、Y是配對(duì)的、不可交換次序的),則樣本相關(guān)系數(shù)(或簡(jiǎn)單相關(guān)系數(shù))為在本式中小寫(xiě)的字母x,y表示中心化處理的結(jié)果,即也稱它們是樣本數(shù)據(jù)的離差。通過(guò)這樣定義的相關(guān)系數(shù)刻畫(huà)的相關(guān)關(guān)系稱為Pearson積矩相關(guān)。樣本相關(guān)系數(shù)也是區(qū)間[-1,1]之間的一個(gè)量。在計(jì)算中,簡(jiǎn)單相關(guān)系數(shù)也常使用如下的公式:根據(jù)第5章的討論可知,樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的估計(jì)量。9.1.3樣本相關(guān)系數(shù)的幾何解釋分別將視為n維歐氏空間中的向量。則上面定義的樣本相關(guān)系數(shù)就是θ其中記號(hào)<?,?>表示向量的數(shù)量積,其幾何意義是其中一個(gè)向量的長(zhǎng)度乘以另一向量在該向量上的投影;||?||表示向量的模(長(zhǎng)度)。9.1.4直觀散點(diǎn)圖設(shè)有配對(duì)樣本x1,x2,…,xn與y1,y2,…,yn,則在直角坐標(biāo)平面上用小圓點(diǎn)標(biāo)示出坐標(biāo)為(xi,yi)的點(diǎn),這樣得到的圖形稱為直觀散點(diǎn)圖。xyxy正相關(guān)負(fù)相關(guān)簡(jiǎn)單相關(guān)系數(shù)刻畫(huà)了兩個(gè)變量(兩組數(shù)據(jù))之間的相關(guān)關(guān)系。這種相關(guān)關(guān)系是兩個(gè)變量之間確實(shí)存在的一種關(guān)系,但這種關(guān)系又不象函數(shù)關(guān)系那樣,變量的值之間存在一種確切的對(duì)應(yīng)關(guān)系。對(duì)兩個(gè)變量,它們的相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)程度就越高,它們之間共同變化的趨勢(shì)越明顯。因此相關(guān)系數(shù)測(cè)度了它們相關(guān)的程度。相關(guān)系數(shù)的意義相關(guān)關(guān)系的測(cè)度

(相關(guān)系數(shù)取值及其意義)

r

的取值范圍是[-1,1]|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負(fù)正相關(guān)

r=0,不存在線性相關(guān)關(guān)系-1

r<0,為負(fù)相關(guān)0<r

1,為正相關(guān)|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切相關(guān)關(guān)系的測(cè)度

(相關(guān)系數(shù)取值及其意義)-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無(wú)線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加表10-1我國(guó)人均國(guó)民收入與人均消費(fèi)金額數(shù)據(jù)單位:元年份人均國(guó)民收入人均消費(fèi)金額年份人均國(guó)民收入人均消費(fèi)金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相關(guān)關(guān)系的測(cè)度

(相關(guān)系數(shù)計(jì)算例)【例】在研究我國(guó)人均消費(fèi)水平的問(wèn)題中,把全國(guó)人均消費(fèi)額記為y,把人均國(guó)民收入記為x。我們收集到1981~1993年的樣本數(shù)據(jù)(xi,yi),i=1,2,…,13,數(shù)據(jù)見(jiàn)表,計(jì)算相關(guān)系數(shù)。相關(guān)關(guān)系的測(cè)度

(計(jì)算結(jié)果)解:根據(jù)樣本相關(guān)系數(shù)的計(jì)算公式有人均國(guó)民收入與人均消費(fèi)金額之間的相關(guān)系數(shù)為0.99879.2Spearman等級(jí)相關(guān)9.2.1兩組配對(duì)的順序數(shù)據(jù)的Spearman等級(jí)相關(guān)系數(shù)(又稱秩相關(guān)或名次相關(guān))對(duì)兩組配對(duì)的順序樣本而言,常使用Spearman等級(jí)相關(guān)系數(shù)。設(shè)有配對(duì)順序樣本觀察值x1,x2,…,xn與y1,y2,…,yn。等級(jí)相關(guān)系數(shù)的公式為:式中而分別表示xi,yi的名次(從大到小或從小到大排名均可)相同名次的處理方法見(jiàn)4.2.2小節(jié)。Spearman等級(jí)相關(guān)系數(shù)的一個(gè)等價(jià)的公式為9.2.2刻度級(jí)(Scale)配對(duì)樣本的等級(jí)相關(guān)系數(shù)刻度級(jí)的配對(duì)樣本,也可以排名次,也可以計(jì)算Spearman等級(jí)相關(guān)系數(shù)。計(jì)算公式與順序數(shù)據(jù)的等級(jí)相關(guān)系數(shù)計(jì)算公式完全相同。等級(jí)相關(guān),又稱為非參數(shù)相關(guān)。[例]在肝癌病因研究中,某地調(diào)查了10個(gè)鄉(xiāng)的肝癌死亡率(1/10萬(wàn))X與種子食物中黃曲霉毒素相對(duì)含量(最高含量為10)Y,見(jiàn)下表。試求兩者的等級(jí)相關(guān)系數(shù)。鄉(xiāng)編號(hào)XY10.721.52118.931.714.443.746.55427.365.164.675.546.385.734.295.977.6101055.1鄉(xiāng)編號(hào)XX的秩YY的秩didi^210.7121.532421218.920031.7314.412443.7446.57-3954527.341165.1664.69-3975.5746.361185.7834.253995.9977.6101110101055.1824在excel下進(jìn)行計(jì)算,結(jié)果如下θ=1-(6*sum(g2:g11)/(10(10^2-1)))0.745455*例等級(jí)相關(guān)系數(shù)的計(jì)算.*Spearmancorrelation:.DATALISTFREE/PlaceXY.BEGINDATA.1 0.7 21.52 1 18.93 1.7 14.44 3.7 46.55 4 27.36 5.1 64.67 5.5 46.38 5.7 34.29 5.9 77.610 10 55.1ENDDATA.NONPARCORR/VARIABLES=XY/PRINT=SPEARMANTWOTAILNOSIG.也可以在SPSS下進(jìn)行計(jì)算,通常是先建立數(shù)據(jù)文件,然后在調(diào)用相關(guān)分析的模塊計(jì)算相關(guān)系數(shù),具體過(guò)程見(jiàn)后.也可以直接運(yùn)行下述程序,進(jìn)行計(jì)算.9.3偏相關(guān)所謂偏相關(guān),是指在若干個(gè)相關(guān)的變量中,剔除了(控制了)其中一個(gè)或多個(gè)變量的影響后,兩個(gè)變量之間的相關(guān)關(guān)系。例如年齡、工齡、受教育程度都與工資收入有關(guān),可以剔除年齡和工齡的影響,來(lái)討論工資收入與受教育程度之間的相關(guān)性。在比如剔除其他因素(如銷(xiāo)售能力)的影響,研究銷(xiāo)售量與廣告費(fèi)用之間的關(guān)系。在多個(gè)變量錯(cuò)綜復(fù)雜的關(guān)系中,偏相關(guān)系數(shù)可幫助排除假象相關(guān),找到真實(shí)聯(lián)系最為密切的變量.以在三個(gè)變量X,Y,Z中控制了變量Z的影響后計(jì)算X,Y之間的偏相關(guān)系數(shù)rxy,z為例。XZYZ對(duì)X,Y無(wú)影響,rxy,z=rxyXZYX不與Y直接相關(guān),它們之間的相關(guān)關(guān)系只是由于與Z的協(xié)同作用產(chǎn)生的,rxy,z與0無(wú)差異,但rxy非零。XZYX與Y相關(guān),并且它們與Z之間還存在協(xié)同作用,rxy,z與rxy均非零,但rxy,z≠rxy。9.3.1剔除了一個(gè)變量Z的影響后,兩個(gè)變量X、Y之間的偏相關(guān)系數(shù)此時(shí)偏相關(guān)系數(shù)為9.3.1剔除了兩個(gè)變量Z1、Z2的影響后,兩個(gè)變量X、Y之間的偏相關(guān)系數(shù)9.4相關(guān)系數(shù)異于零的顯著性檢驗(yàn)9.4.1簡(jiǎn)單樣本相關(guān)系數(shù)(Pearson)顯著異于0的T檢驗(yàn)在二維總體(X,Y)服從正態(tài)分布的前提下,F(xiàn)isher給出了檢驗(yàn)簡(jiǎn)單相關(guān)系數(shù)顯著異于0的t統(tǒng)計(jì)量如下:其中n是樣本容量,r是簡(jiǎn)單相關(guān)系數(shù)(Pearson)。檢驗(yàn)假設(shè):H0:r=0,H1:r0。這是一個(gè)雙尾檢驗(yàn)問(wèn)題。9.4.2等級(jí)相關(guān)系數(shù)(Spearman)顯著異于0的T檢驗(yàn)檢驗(yàn)等級(jí)相關(guān)系數(shù)顯著異于0的t統(tǒng)計(jì)量與上面一樣,也是:其中n是樣本容量,r是等級(jí)相關(guān)系數(shù)(Spearman)。檢驗(yàn)假設(shè):H0:r=0,H1:r0。這也是一個(gè)雙尾檢驗(yàn)問(wèn)題。9.4.3偏相關(guān)系數(shù)顯著異于0的T檢驗(yàn)檢驗(yàn)偏相關(guān)系數(shù)顯著異于0的t統(tǒng)計(jì)量為:其中n是樣本容量,r是偏相關(guān)系數(shù),k是被剔除的變量的個(gè)數(shù)。此外對(duì)于這里的T檢驗(yàn)要注意的是:如果要作正負(fù)相關(guān)的雙向檢驗(yàn),就要作雙尾的T檢驗(yàn);如果只作正相關(guān)或負(fù)相關(guān)的檢驗(yàn),就只作單尾的T檢驗(yàn)。雙尾檢驗(yàn)與單尾檢驗(yàn)的臨界值與p值是有區(qū)別的。9.5SPSS對(duì)普通相關(guān)分析的處理例9.5.1你可以觀察到你周?chē)娜?,有的人在抄股。抄股的人有的投入的資金多,有的投入的少。如果你的工作與證券業(yè)務(wù)有關(guān),你可能會(huì)關(guān)心,是什么因素與投資的多少有關(guān)?目的:檢驗(yàn)?zāi)吵鞘心硡^(qū)散戶股民的場(chǎng)外收入與場(chǎng)內(nèi)投資的相關(guān)問(wèn)題。數(shù)據(jù):\管理統(tǒng)計(jì)\CH6CH9CH10證券投資額與依據(jù)操作過(guò)程見(jiàn)教材SPSS操作與結(jié)果說(shuō)明:簡(jiǎn)單相關(guān)系數(shù)顯著相關(guān)的說(shuō)明結(jié)果表明:“證券市場(chǎng)外年收入”與“投入證券市場(chǎng)總資金”的簡(jiǎn)單相關(guān)系數(shù)為0.369,并且在0.01的顯著性水平下,這一相關(guān)系數(shù)是顯著地異于零的。進(jìn)一步,你可能還關(guān)心,“投入證券市場(chǎng)總資金”除了與收入有關(guān)以外是否還與別的因素有關(guān)。接下來(lái)考察“證券市場(chǎng)外年收入”、“投入證券市場(chǎng)總資金”、“受教育程度”及“入市年份”之間的相關(guān)關(guān)系。9.5.2簡(jiǎn)單相關(guān)分析:修改語(yǔ)句的例子目的:在默認(rèn)情形下,SPSS給出所選變量的每對(duì)變量的相關(guān)系數(shù),但可能我們需要獲得某些特定的相關(guān)系數(shù),這里將說(shuō)明如何通過(guò)修改命令語(yǔ)句獲得特定的相關(guān)系數(shù)。在默認(rèn)情形,SPSS給出如下結(jié)果修改SPSS運(yùn)行語(yǔ)句,以獲得特定的相關(guān)系數(shù)的方法:SPSS默認(rèn)的運(yùn)行語(yǔ)句:修改:9.5.3等級(jí)相關(guān)分析(Spearman相關(guān)系數(shù))1.仍利用上面的數(shù)據(jù)文件,分析股民“依據(jù)公司業(yè)績(jī)買(mǎi)入”與“依據(jù)公司業(yè)務(wù)賣(mài)出”之間的相關(guān)性。2.研究小學(xué)生的語(yǔ)文成績(jī)與數(shù)學(xué)成績(jī)之間的相關(guān)性。數(shù)據(jù)文件見(jiàn)《CH9數(shù)學(xué)語(yǔ)文成績(jī)》。注意本例中顯著性檢驗(yàn)的作用。9.5.3偏相關(guān)分析(Paritial)在一組變量中某兩個(gè)變量之間的相關(guān)系數(shù)可能是顯著異于零的,但整體上看,來(lái)考察剔除了其他變量后,這兩個(gè)變量的偏相關(guān)系數(shù),則有可能不顯著異于零!無(wú)謂相關(guān)(nonsensecorrelations)處理相關(guān)時(shí)要?jiǎng)?wù)必小心無(wú)謂相關(guān)的現(xiàn)象。許多相關(guān)系數(shù)具有較大的絕對(duì)值并且在統(tǒng)計(jì)上也是“顯著”的,但未必包含實(shí)際意義和有用的信息。換言之,即便兩個(gè)變量X與Y的相關(guān)系數(shù)顯著地不等于零,也不一定意味著兩者之間存在有意義的相關(guān)關(guān)系,關(guān)鍵需要看兩者之間的協(xié)變是由什么引起的。如果存在一種關(guān)于X與Y聯(lián)合變動(dòng)的理論,相關(guān)系數(shù)的符號(hào)和大小會(huì)增加對(duì)這種理論的支持,這時(shí)相關(guān)系數(shù)才刻畫(huà)了一種有意義的關(guān)系;否則如果不存在或不能提出這樣的理論,則由統(tǒng)計(jì)方法得到的相關(guān)只是無(wú)謂相關(guān)。例如統(tǒng)計(jì)學(xué)家尤樂(lè)(G.UdnyYule)在1926年的一篇論文中統(tǒng)計(jì)了英格蘭和威爾士1866年—1911年間人口死亡率與英格蘭所有婚禮中到教堂舉行結(jié)婚儀式占的比例的年度數(shù)據(jù),發(fā)現(xiàn)兩者的相關(guān)系數(shù)是0.95,在統(tǒng)計(jì)學(xué)上是高度相關(guān)的。但明顯的是,沒(méi)有那個(gè)社會(huì)學(xué)家或政客會(huì)同意以延長(zhǎng)人民壽命為由,建議關(guān)閉英格蘭所有的教堂。英國(guó)的進(jìn)口額數(shù)據(jù)(1955-1969年,按1968年的不變價(jià)計(jì)算,單位:百萬(wàn)英鎊)中國(guó)人均可支配收入數(shù)據(jù)(1985-1999年,按1985年的不變價(jià),單位元)4569478.569654582507.47996244697524.25784784753522.22433735062502.13347075669547.1501155628568.02716635736620.43499175964665.80715936501723.96064976549780.48848086705848.30416597104892.52561267609943.17655581001011.780082例考慮兩組數(shù)據(jù),一組是英國(guó)的進(jìn)口額數(shù)據(jù)(1955-1969年,按1968年的不變價(jià)計(jì)算,單位:百萬(wàn)英鎊);另一組為中國(guó)人均可支配收入數(shù)據(jù)(1985-1999年,按1985年的不變價(jià),單位:元)。計(jì)算這兩組數(shù)據(jù)的相關(guān)系數(shù)得r=0.973并且在1%的顯著性水平下,r顯著異于0。這說(shuō)明什么問(wèn)題?2013年11月6日的Googlecorrelate搜索結(jié)果9.6品質(zhì)相關(guān)與SPSS的處理品質(zhì)數(shù)據(jù)數(shù)據(jù)定量數(shù)據(jù)(數(shù)值型數(shù)據(jù))定性數(shù)據(jù)(品質(zhì)數(shù)據(jù))離散數(shù)據(jù)連續(xù)數(shù)據(jù)列聯(lián)分析多項(xiàng)分布與χ2檢驗(yàn)(擬合度檢驗(yàn))品質(zhì)數(shù)據(jù)常用來(lái)表示研究對(duì)象的某特征的分類,因此收集品質(zhì)數(shù)據(jù)的目的常常是為了分析各個(gè)類中數(shù)據(jù)的分布。例如我們?yōu)榱斯烙?jì)消費(fèi)者中喜歡三種牙膏中每一種的比例,可以統(tǒng)計(jì)購(gòu)買(mǎi)這三種品牌牙膏中每一種的顧客人數(shù)。這相當(dāng)于用牙膏的種類對(duì)顧客進(jìn)行分類。這種分類稱為一維分類(或一向分類)。再如投資商在進(jìn)行顧客的投資調(diào)查,可能不僅考慮顧客的投資傾向而且還會(huì)考慮顧客的職業(yè)類別,就需要按顧客的投資傾向和職業(yè)來(lái)對(duì)顧客分類,這種分類稱為二向分類,相應(yīng)的頻數(shù)分布表成為列聯(lián)表或交叉表。在這樣的分類問(wèn)題中需要通過(guò)樣本來(lái)推斷各類所占的比例。先考慮一向分布的情況。若在一向分類中對(duì)象僅分為兩類。則就是前面(第6章)考慮的二項(xiàng)分布的比例值的推斷問(wèn)題。所以這里考慮對(duì)象分成多類的問(wèn)題。例某商場(chǎng)為了研究顧客對(duì)三種品牌的礦泉水的喜好比例是否存在差異,以便為進(jìn)一步的進(jìn)貨決策提供依據(jù),隨機(jī)地觀察了150名購(gòu)買(mǎi)者,并記錄下他們所購(gòu)買(mǎi)的品牌,統(tǒng)計(jì)出購(gòu)買(mǎi)這三種品牌的人數(shù)如表品牌甲乙丙人數(shù)615336這些數(shù)據(jù)是否說(shuō)明了顧客對(duì)這三種礦泉水的喜好確實(shí)存在差異?3.某個(gè)試驗(yàn)結(jié)果落在某一特定組的概率保持不變,例如試驗(yàn)結(jié)果落在第i組的概率記為pi(),則每次試驗(yàn),結(jié)果落在第i組的概率都是pi;該例中對(duì)象按礦泉水的品牌分為三類,需要采用多項(xiàng)分布進(jìn)行推斷。多項(xiàng)分布是二項(xiàng)分布的推廣,可以看成多項(xiàng)試驗(yàn)的結(jié)果服從的分布。所謂多項(xiàng)試驗(yàn)是指具有以下特點(diǎn)的試驗(yàn):1.多項(xiàng)試驗(yàn)是由n個(gè)相同的試驗(yàn)組成;2.每個(gè)試驗(yàn)的結(jié)果落在k組中的某一組中;4.試驗(yàn)是獨(dú)立的。例如拋擲一個(gè)骰子。特別地,當(dāng)k=2時(shí),就是二項(xiàng)分布。在大多數(shù)實(shí)際問(wèn)題中,k個(gè)可能結(jié)果的概率(比例)p1,p2,…,pk通常是未知的。我們的目的就是根據(jù)n次試驗(yàn)中k個(gè)可能結(jié)果出現(xiàn)的次數(shù)n1,n2,…,nk(n1+n2+…+nk=n),來(lái)估計(jì)這些未知的概率。在上述例子中如果記p1=所有顧客中喜好甲品牌的比例p2=所有顧客中喜好乙品牌的比例p3=所有顧客中喜好丙品牌的比例則我們的目的就是依據(jù)表中的數(shù)據(jù)檢驗(yàn)如下的假設(shè):H0:p1=p2=p3=1/3;H1:至少有一個(gè)比例值超過(guò)1/3。設(shè)在n次試驗(yàn)中,觀察到第i類出現(xiàn)的頻次為ni,則隨機(jī)樣本ni的期望值(期望頻次)為在上述的假設(shè)檢驗(yàn)問(wèn)題中,將使用檢驗(yàn)統(tǒng)計(jì)量KarlPearson證明了,當(dāng)n充分大時(shí),上述χ2統(tǒng)計(jì)量近似服從自由度為k–1的χ2分布。從而對(duì)給定的顯著性水平α,由分布表,可以得到臨界值,當(dāng)χ2>c時(shí),拒絕H0。直觀地,當(dāng)各個(gè)比例值確實(shí)等于假設(shè)值pi時(shí),各ni/n與pi的差,從而ni與E(ni)的差別比較小,于是χ2統(tǒng)計(jì)量也較小。因此當(dāng)χ2較大時(shí),拒絕H0。對(duì)于例子,k=3,n=150,n1=61,n2=53,n3=36而當(dāng)原假設(shè)H0成立時(shí),于是若顯著性水平α=0.05,則臨界值故拒絕H0,認(rèn)為顧客對(duì)三種品牌的礦泉水的喜好存在顯著差異。如果上述例子中各品牌礦泉水購(gòu)買(mǎi)人數(shù)分別是60,53,37,檢驗(yàn)將會(huì)出現(xiàn)何種結(jié)果?(5.56)范例:某教師出了50題有5個(gè)選項(xiàng)的單選題,答案與題數(shù)分別如下,請(qǐng)問(wèn)這位老師是否有特殊的出題偏好?即傾向于出某些答案的題目?

A

B

C

D

E

12

14

9

5

10

具體SPSS數(shù)據(jù)見(jiàn)下面的附件

各類期望值相等

2統(tǒng)計(jì)量的漸近顯著性概率為0.331,因此在5%的顯著性水平應(yīng)不拒絕原假設(shè),即數(shù)據(jù)并不支持教師出題的答案具有特殊偏好的結(jié)論.品質(zhì)相關(guān)檢驗(yàn)下面考慮二向分類問(wèn)題。也就是要根據(jù)兩個(gè)分類(品質(zhì))變量對(duì)對(duì)象進(jìn)行分類。這時(shí)人們關(guān)注的問(wèn)題往往表現(xiàn)為按照兩個(gè)特征進(jìn)行分類的方法之間是否相互關(guān)聯(lián)。這樣的問(wèn)題稱為品質(zhì)相關(guān)問(wèn)題。如房地產(chǎn)商關(guān)心顧客選擇房子的類型是否與其職業(yè)有關(guān);電視廣告商關(guān)心的可能是觀眾對(duì)各類電視廣告的關(guān)注是否與其來(lái)自城市還是身處農(nóng)村有關(guān)等等。這樣的問(wèn)題可以用如下的表格(交叉表或列聯(lián)表,所以相應(yīng)的統(tǒng)計(jì)分析也稱為列聯(lián)表分析)來(lái)描述。品質(zhì)相關(guān)模式概括:Y1……Ys合計(jì)X1n11……n1sn1.…………………………Xknk1……nks

nk.合計(jì)n.1

……n.kn特征變量X特征變量Y特征變量一般是名義級(jí)或順序級(jí)的變量,nij表示特征變量X取第i個(gè)值并且特征變量Y取第j個(gè)值的個(gè)體出現(xiàn)的頻次;分別為特征變量X取第i個(gè)值的個(gè)體的總數(shù)和特征變量Y取第j個(gè)值的個(gè)體的總數(shù)。品質(zhì)相關(guān)問(wèn)題的本質(zhì)品質(zhì)相關(guān)問(wèn)題本質(zhì)上就是通過(guò)兩個(gè)隨機(jī)變量X,Y的頻次樣本數(shù)據(jù)來(lái)檢驗(yàn)兩變量是否相互獨(dú)立的問(wèn)題。設(shè)隨機(jī)變量X,Y的分布函數(shù)和相應(yīng)的邊緣分布分別為F(x,y),F(x),F(y)?,F(xiàn)在的問(wèn)題就是:根據(jù)上表給出的頻次樣本數(shù)據(jù),檢驗(yàn)F(x,y)=F(x)F(y),對(duì)X,Y的所有可能取值x,y成立。設(shè)得到了二維總體(X,Y)的一組容量為n的樣本(X1,Y1;X2,Y2;…;Xn,Yn)。進(jìn)而設(shè)變量X,Y分別取k個(gè)和s個(gè)離散值,而X取第i個(gè)值的概率為pi.;Y取第j個(gè)值的概率為p.j;又X取其第i個(gè)值并且Y取其第j個(gè)值的概率為pij。于是隨機(jī)變量X、Y之間是否相互獨(dú)立的問(wèn)題,就轉(zhuǎn)化為檢驗(yàn):是否成立的問(wèn)題。注:若變量X的取值是連續(xù)的,則在品質(zhì)相關(guān)問(wèn)題中,通常的做法是,將X的取值集合分為k個(gè)區(qū)間,然后考慮X的取值落在第i個(gè)區(qū)間的概率pi.。對(duì)變量Y的處理類似。品質(zhì)相關(guān)的判別方法對(duì)于品質(zhì)相關(guān)檢驗(yàn)問(wèn)題,具體做法是將交叉表“拉直”成一個(gè)k×s的一向分類問(wèn)題,然后利用前面介紹的χ2統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。n11……n1s………………nk1……nks

n11……n1s………………nk1……nks

這時(shí)在H0成立時(shí),有期望頻次因?yàn)閜i.與p.j實(shí)際觀察不到,而采用如下的極大似然估計(jì)量來(lái)估計(jì)因此采用的檢驗(yàn)統(tǒng)計(jì)量實(shí)際上是但是,由于,因此“抵消”了兩個(gè)自由度,這里χ2統(tǒng)計(jì)量的自由度為:?jiǎn)卧駛€(gè)數(shù)-1-待估計(jì)參數(shù)個(gè)數(shù)=ks-(k+s-2)-1=(k-1)(s-1)。對(duì)給定的顯著性水平α,接受H0,因素與狀態(tài)相互獨(dú)立。拒絕H0,因素與狀態(tài)顯著相關(guān)。在統(tǒng)計(jì)學(xué)中這里計(jì)算的統(tǒng)計(jì)量χ2通常稱為Pearsonχ2統(tǒng)計(jì)量.在利用軟件進(jìn)行分析時(shí),往往通過(guò)p值來(lái)判別,但需要注意的是品質(zhì)變量通常是離散變量,而χ2分布是連續(xù)分布,因此實(shí)際上得不到精確的p值.在SPSS中是用漸近的顯著性概率來(lái)代替p值進(jìn)行檢驗(yàn).Fisher判別法如果總體(X,Y)服從二維正態(tài)分布其中參數(shù)均未知,那么X與Y獨(dú)立,等價(jià)于ρ=0。于是相互獨(dú)立的檢驗(yàn)問(wèn)題是:如果r是ρ的極大似然估計(jì)量,則Fisher證明了如下結(jié)果:于是可以通過(guò)t檢驗(yàn)來(lái)完成X與Y的獨(dú)立性檢驗(yàn)。使用該方法進(jìn)行品質(zhì)相關(guān)檢驗(yàn)時(shí),要求X、Y的至少有一組取值的頻次足夠小。(在SPSS中要求至少有個(gè)單元格的期望頻次<5。)

當(dāng)只有一個(gè)自由度(且n<50)時(shí)Yates的矯正方法由于χ2分布是連續(xù)的,而這里處理的是離散問(wèn)題,在自由度為1時(shí),按照公式計(jì)算的統(tǒng)計(jì)量的值就會(huì)與χ2的值產(chǎn)生較大的偏差,特別是當(dāng)n<50時(shí),偏差較大,需要矯正。Yates給出了一個(gè)矯正公式:因此在自由度為1并且n<50時(shí),應(yīng)采用矯正的公式進(jìn)行檢驗(yàn)。對(duì)2×2的表,在SPSS的應(yīng)用中應(yīng)采用Yates矯正公式計(jì)算的結(jié)果。SPSS品質(zhì)相關(guān)分析舉例教材上的例子:步驟與過(guò)程見(jiàn)教材與課堂演示.其中SPSS輸出的結(jié)果為:其中表下的注釋表明:僅對(duì)2×2的表計(jì)算Yates‘correctedchi-square(continuitycorrection)。本例應(yīng)采用該結(jié)果。另一個(gè)注釋則表明:只有0%的單元格(即沒(méi)有單元格)的期望頻次小于5。最小的期望頻次為10.06。因此本例并不適合用Fisher的檢驗(yàn)結(jié)果。如果希望獲得有關(guān)期望頻次的統(tǒng)計(jì)結(jié)果,可以在Crosstabs窗口點(diǎn)擊“Cell”按鈕后進(jìn)行適當(dāng)?shù)倪x擇即可得到有關(guān)結(jié)果。例某教育研究機(jī)構(gòu)想研究大學(xué)畢業(yè)生參加工作后的表現(xiàn)是否與上學(xué)的地區(qū)有關(guān),為此調(diào)查了上一年畢業(yè)后參加工作的大學(xué)生800人。按照東南地區(qū)、西南地區(qū)、西北地區(qū)、東北地區(qū)四個(gè)區(qū)域各200人進(jìn)行調(diào)查,請(qǐng)工作單位對(duì)他們的工作表現(xiàn)進(jìn)行評(píng)價(jià),結(jié)果見(jiàn)下表:不滿意滿意很滿意東北2112158西北1813349東南1014743西南1813844試根據(jù)調(diào)查結(jié)果說(shuō)明工作表現(xiàn)是否與上學(xué)地區(qū)有關(guān)?1按照如下格式建立數(shù)據(jù)文件其中變量的定義為2交叉表的預(yù)處理選擇“Data”→“Weightcases”,進(jìn)入Weightcases對(duì)話框。把“頻次[f]”放入frequency欄中,單擊OK按鈕。3交叉表分析選擇“Analyze”→“Descriptivestatistics”→“Crosstabs”,進(jìn)入Crosstabs對(duì)話框。把“地區(qū)[r]”放入

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論