![區(qū)間估計(jì)與假設(shè)檢驗(yàn)課件_第1頁(yè)](http://file4.renrendoc.com/view/12f0bebe6d5d63454250f09a898e6bb8/12f0bebe6d5d63454250f09a898e6bb81.gif)
![區(qū)間估計(jì)與假設(shè)檢驗(yàn)課件_第2頁(yè)](http://file4.renrendoc.com/view/12f0bebe6d5d63454250f09a898e6bb8/12f0bebe6d5d63454250f09a898e6bb82.gif)
![區(qū)間估計(jì)與假設(shè)檢驗(yàn)課件_第3頁(yè)](http://file4.renrendoc.com/view/12f0bebe6d5d63454250f09a898e6bb8/12f0bebe6d5d63454250f09a898e6bb83.gif)
![區(qū)間估計(jì)與假設(shè)檢驗(yàn)課件_第4頁(yè)](http://file4.renrendoc.com/view/12f0bebe6d5d63454250f09a898e6bb8/12f0bebe6d5d63454250f09a898e6bb84.gif)
![區(qū)間估計(jì)與假設(shè)檢驗(yàn)課件_第5頁(yè)](http://file4.renrendoc.com/view/12f0bebe6d5d63454250f09a898e6bb8/12f0bebe6d5d63454250f09a898e6bb85.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第三章 區(qū)間估計(jì)與假設(shè)檢驗(yàn)3.1 區(qū)間估計(jì)與假設(shè)檢驗(yàn)的基本概念3.2 總體均值的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn)3.3 總體比例的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn)3.4 總體方差的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn)3.5 分布檢驗(yàn)3.1 區(qū)間估計(jì)與假設(shè)檢驗(yàn)的基本概念3.1.1 區(qū)間估計(jì)3.1.2 假設(shè)檢驗(yàn)3.1.1 區(qū)間估計(jì)1. 點(diǎn)估計(jì)和區(qū)間估計(jì) 參數(shù)的估計(jì)方法主要有兩種:點(diǎn)估計(jì)和區(qū)間估計(jì)。 點(diǎn)估計(jì)是用樣本的觀測(cè)值估計(jì)總體未知參數(shù)的值。由于樣本的隨機(jī)性,不同樣本觀測(cè)值計(jì)算得出的參數(shù)的估計(jì)值間存在著差異,因此常用一個(gè)區(qū)間估計(jì)總體的參數(shù),并把具有一定可靠性和精度的估計(jì)區(qū)間稱為置信區(qū)間。利用構(gòu)造的統(tǒng)計(jì)量及樣
2、本觀測(cè)值,計(jì)算得出參數(shù)的置信區(qū)間的方法稱為參數(shù)的區(qū)間估計(jì)。2. 參數(shù)的置信區(qū)間 在區(qū)間估計(jì)中,對(duì)于總體的未知參數(shù),需要求出兩個(gè)統(tǒng)計(jì)量1(X1,X2,.,Xn)和2(X1,X2,.,Xn)來(lái)分別估計(jì)總體參數(shù)的上限和下限,使得總體參數(shù)在區(qū)間(1,2)內(nèi)的概率為P1 2 = 1 其中1 稱為置信水平,而(1,2)稱為的置信區(qū)間,1,2分別稱為置信下限和置信上限。置信水平為1 的含義是隨機(jī)區(qū)間(1,2)以1 的概率包含了參數(shù)。正態(tài)總體參數(shù)的各種置信區(qū)間見(jiàn)表3-1。 其中被估參數(shù)條件樞軸量及其分布參數(shù)的置信區(qū)間兩正態(tài)總體1 -2兩樣本獨(dú)立,12, 22已知兩樣本獨(dú)立,12= 22 = 2 未知兩樣本獨(dú)立
3、,1, 2未知4. 總體比例與比例差的置信區(qū)間 實(shí)際應(yīng)用中經(jīng)常需要對(duì)總體比例進(jìn)行估計(jì),如產(chǎn)品的合格率、大學(xué)生的就業(yè)率和手機(jī)的普及率等。記和P分別表示總體比例和樣本比例,則當(dāng)樣本容量n很大時(shí)(一般當(dāng)nP和n(1 P)均大于5時(shí),就可以認(rèn)為樣本容量足夠大),樣本比例P的抽樣分布可用正態(tài)分布近似。總體比例與比例差的置信區(qū)間如表3-2所示。待估參數(shù)樞軸量及其分布參數(shù)的置信區(qū)間總體比例兩總體比例差1-2其中P1,P2為兩個(gè)樣本比例 2. 假設(shè)檢驗(yàn)的步驟 1) 根據(jù)問(wèn)題確立原假設(shè)H0和備選假設(shè)H1; 2) 確定一個(gè)顯著水平,它是衡量稀有性(小概率事件)的標(biāo)準(zhǔn),常取為0.05; 3) 選定合適的檢驗(yàn)用統(tǒng)計(jì)量
4、W(通常在原假設(shè)中相等成立時(shí),W的分布是已知的),根據(jù)W的分布及的值,確定H0的拒絕域。 4) 由樣本觀測(cè)值計(jì)算出統(tǒng)計(jì)量W的觀測(cè)值W0,如果W0落入H0的拒絕域,則拒絕H0;否則,不能拒絕原假設(shè)H0。 注意:在SAS系統(tǒng)中,是由樣本觀測(cè)值計(jì)算出統(tǒng)計(jì)量W的觀測(cè)值W0和衡量觀測(cè)結(jié)果極端性的p值(p值就是當(dāng)原假設(shè)成立時(shí)得到樣本觀測(cè)值和更極端結(jié)果的概率),然后比較p和作判斷:p ,拒絕原假設(shè)H0;p,不能拒絕原假設(shè)H0。 p值通常由下面公式計(jì)算而得到。 p = P|W| |W0| = 2 P W |W0| (拒絕域?yàn)閮蛇厡?duì)稱的區(qū)域時(shí)) p = minPW W0,PW W0(拒絕域?yàn)閮蛇叿菍?duì)稱區(qū)域時(shí))
5、p = PW W0 (拒絕域?yàn)橛疫厖^(qū)域時(shí)) p = PW W0 (拒絕域?yàn)樽筮厖^(qū)域時(shí)) 只需根據(jù)SAS計(jì)算出的p值,就可以在指定的顯著水平下,作出拒絕或不能拒絕原假設(shè)的決定。3. 正態(tài)總體均值和方差的假設(shè)檢驗(yàn) 對(duì)正態(tài)總體的參數(shù)進(jìn)行假設(shè)檢驗(yàn)是假設(shè)檢驗(yàn)的重要內(nèi)容,如對(duì)單總體均值、方差的檢驗(yàn)、兩總體均值之差的檢驗(yàn)和兩總體方差比的檢驗(yàn)等。正態(tài)總體參數(shù)的各種檢驗(yàn)方法見(jiàn)下表3-3至表3-5。表3-3 單正態(tài)總體N(,2)均值的檢驗(yàn)法檢驗(yàn)名稱條件檢驗(yàn)類(lèi)別H0H1檢驗(yàn)統(tǒng)計(jì)量分布拒絕域Z檢驗(yàn)已知雙邊檢驗(yàn) = 0 0N(0,1)| Z | Z/2左邊檢驗(yàn) 0 0Z Zt檢驗(yàn)未知雙邊檢驗(yàn) = 0 0t(n 1)|
6、t | t/2(n 1)左邊檢驗(yàn) 0 0t t(n 1)表3-4 單正態(tài)總體N(,2)方差2的檢驗(yàn)法或檢驗(yàn)名稱條件檢驗(yàn)類(lèi)別H0H1檢驗(yàn)統(tǒng)計(jì)量分布拒絕域2檢驗(yàn)已知雙邊檢驗(yàn)左邊檢驗(yàn)右邊檢驗(yàn)未知雙邊檢驗(yàn)左邊檢驗(yàn)右邊檢驗(yàn)表3-5 兩正態(tài)總體的均值差與方差比的檢驗(yàn)名稱條件類(lèi)別H0H1檢驗(yàn)統(tǒng)計(jì)量分布拒絕域Z檢驗(yàn)兩樣本獨(dú)立,12=22=2未知雙邊檢驗(yàn)1-2=01-20t(n1 + n2 2)左邊檢驗(yàn)1-201-20t檢驗(yàn)成對(duì)匹配樣本,12,22未知雙邊檢驗(yàn)d=0d0左邊檢驗(yàn)d0d0F檢驗(yàn)兩樣本獨(dú)立,1, 2未知雙邊檢驗(yàn)F(n11,n21)左邊檢驗(yàn)右邊檢驗(yàn)3.2 總體均值的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn)3.2
7、.1 使用INSIGHT模塊3.2.2 使用“分析家”3.2.3 使用TTEST過(guò)程3.2.1 使用INSIGHT模塊1. 總體均值的區(qū)間估計(jì)【例3-1】某藥材生產(chǎn)商要對(duì)其倉(cāng)庫(kù)中的1000箱藥材的平均重量進(jìn)行估計(jì),藥材重量的總體方差未知,隨機(jī)抽取16箱樣本稱重后結(jié)果如表3-7所示。表3-7 16箱藥材重量(單位:千克) 設(shè)藥材重量數(shù)據(jù)存放于數(shù)據(jù)集Mylib.yczl中,其中重量變量名為weight。求該倉(cāng)庫(kù)中每箱藥材平均重量在95%置信水平下的置信區(qū)間。50505651495347525353495355485055 結(jié)果包括一個(gè)名為“95Confidence Intervals(95%置信區(qū)
8、間)”的列表,表中給出了均值、標(biāo)準(zhǔn)差、方差的估計(jì)值(Parameter)、置信下限(LCL)和置信上限(UCL),如圖3-2所示。結(jié)果表明,根據(jù)抽樣樣本,該倉(cāng)庫(kù)中藥材的平均重量以95%的可能性位于50.08千克至52.92千克之間。2. 單樣本總體均值的假設(shè)檢驗(yàn)【例3-2】一家食品廠以生產(chǎn)袋裝食品為主,每天的產(chǎn)量大約為8000袋,每袋重量規(guī)定為100克。為了分析每袋重量是否符合要求,質(zhì)檢部門(mén)經(jīng)常進(jìn)行抽檢?,F(xiàn)從某天生產(chǎn)的一批食品中隨機(jī)抽取了25袋,測(cè)得每袋重量如表3-8所示。表3-8 25袋食品的重量(單位:克)試從抽檢的樣本數(shù)據(jù)出發(fā),檢驗(yàn)變量WEIGHT的均值與100克是否有顯著差異。假定表3
9、-8數(shù)據(jù)存放在數(shù)據(jù)集Mylib.spzl中,重量變量名為WEIGHT。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3 設(shè)變量WEIGHT的均值為,問(wèn)題是希望通過(guò)樣本數(shù)據(jù)檢驗(yàn)變量WEIGHT均值的如下假設(shè): H0: = 100,H1: 100。使用INSIGHT對(duì)均值進(jìn)行檢驗(yàn)的步驟如下: 1) 首先啟動(dòng)INSIGHT,并打開(kāi)數(shù)據(jù)集Mylib.spzl; 2) 選擇菜單“Analyze”“Distribut
10、ion(Y)”; 3) 在打開(kāi)的“Distribution(Y)”對(duì)話框中選定分析變量WEIGHT; 4) 單擊“OK”按鈕,得到變量的描述性統(tǒng)計(jì)量; 5) 選擇菜單“Tables(表)”“Tests for Location(位置檢驗(yàn))”;在彈出的“Tests for Location”對(duì)話框中輸入100,單擊“OK”按鈕得到輸出結(jié)果如圖所示。 結(jié)果顯示,觀測(cè)值不等于100克的觀測(cè)有24個(gè),其中19個(gè)觀測(cè)值大于100。 圖中第一個(gè)檢驗(yàn)為t檢驗(yàn)(Students t),需要假定變量服從正態(tài)分布,檢驗(yàn)的p值為0.0105,這個(gè)檢驗(yàn)在0.05水平下是顯著的,所以可認(rèn)為均值與100克有顯著差異。第二
11、個(gè)檢驗(yàn)(Sign)是叫做符號(hào)檢驗(yàn)的非參數(shù)檢驗(yàn),其p值為0.0066,在0.05水平下也是顯著的,結(jié)論不變。第三個(gè)檢驗(yàn)(Sgned Rank)是叫做符號(hào)秩檢驗(yàn)的非參數(shù)檢驗(yàn),其p值為0.0048,在0.05水平下是顯著的,結(jié)論不變。3. 兩樣本總體均值的比較:成對(duì)匹配樣本 在INSIGHT中比較成對(duì)樣本均值是否顯著差異,可以計(jì)算兩變量的差值變量,再檢驗(yàn)差值變量的均值是否顯著為0?!纠?-3】由10名學(xué)生組成一個(gè)隨機(jī)樣本,讓他們分別采用A和B兩套試卷進(jìn)行測(cè)試,結(jié)果如表3-9所示。表3-9 10名學(xué)生兩套試卷的成績(jī)?cè)噺臉颖緮?shù)據(jù)出發(fā),分析兩套試卷是否有顯著差異。試卷A786372899149687685
12、55試卷B71446184745155607739差值71911517-21316816 2) 然后對(duì)變量d的均值做如下假設(shè): H0:d = 0,H1:d 0。 3) 選擇菜單“Analyze”“Distribution(Y)”;在打開(kāi)的“Distribution(Y)”對(duì)話框中選定分析變量:選擇變量差值d,單擊“Y”按鈕,將變量d移到右上方的列表框中; 4) 單擊“Output”按鈕,在打開(kāi)的對(duì)話框中選中“Tests for Location(位置檢驗(yàn))”復(fù)選框; 5) 兩次單擊“OK”按鈕,得到變量的描述性統(tǒng)計(jì)量; 6) 選擇菜單“Tables(表)”“Tests for Location
13、(位置檢驗(yàn))”;在彈出的“Tests for Location”對(duì)話框中輸入0,單擊“OK”按鈕得到輸出結(jié)果如圖所示。 結(jié)果顯示三個(gè)檢驗(yàn)的結(jié)論都是p值小于0.05,所以應(yīng)拒絕原假設(shè),即總體的均值與0有顯著差異。所以兩套試卷有顯著差異。 雖然SAS給出三個(gè)檢驗(yàn)結(jié)果,其實(shí)作結(jié)論時(shí)只需其中一個(gè)。如果可以認(rèn)為分析變量服從正態(tài)分布只要看t檢驗(yàn)結(jié)果;否則只須看符號(hào)秩檢驗(yàn)結(jié)果。只有在數(shù)據(jù)為兩兩比較的大小結(jié)果而沒(méi)有具體數(shù)值時(shí)符號(hào)檢驗(yàn)才有用。 3) 在打開(kāi)的“One Sample t test for a Mean”對(duì)話框中設(shè)置均值的置信區(qū)間(如圖3-6)。 結(jié)果表明(下圖),根據(jù)抽樣樣本,該倉(cāng)庫(kù)中藥材的平均重
14、量以95%的可能性位于50.08千克至52.92千克之間。 2. 單樣本總體均值的假設(shè)檢驗(yàn)【例3-5】使用“分析家”檢驗(yàn)例3-2中食品重量是否符合要求。希望通過(guò)樣本數(shù)據(jù)檢驗(yàn)變量WEIGHT均值的如下假設(shè): H0: = 100,H1: 100。 由于此時(shí)的方差未知,所以使用t檢驗(yàn)法。步驟如下: 1) 在“分析家”中打開(kāi)數(shù)據(jù)集Mylib.spzl; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“One Sample t test for a Mean(單樣本均值t - 檢驗(yàn))”,打開(kāi)“One Sample t test for a Mean”對(duì)話框
15、; 4)按圖3-8所示設(shè)置均值檢驗(yàn),單擊“OK”按鈕,得到結(jié)果如圖左所示。; 顯示結(jié)果(圖右)表明t統(tǒng)計(jì)量的p值為0.01050.05,所以拒絕原假設(shè),即認(rèn)為總體的均值不等于100。3. 兩樣本總體均值的比較:成對(duì)匹配樣本【例3-6】使用“分析家”對(duì)例3-3中兩套試卷檢驗(yàn)有無(wú)顯著差異。 這是一個(gè)(成對(duì)匹配)雙樣本均值檢驗(yàn)問(wèn)題,若1和2分別表示兩套試卷的平均成績(jī),則檢驗(yàn)的是: H0:1 2 = 0,H1:1 2 0; 分析步驟如下: 1) 在“分析家”中打開(kāi)數(shù)據(jù)集Mylib.sjdf; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“Two Sam
16、ple Paired t - Test for a Mean(均值的成對(duì)雙樣本t - 檢驗(yàn))”; 3) 在打開(kāi)的“Two Sample Paired t - Test for a Mean”對(duì)話框中,按圖左所示設(shè)置雙樣本均值檢驗(yàn),單擊“OK”按鈕,得到結(jié)果如圖右所示 結(jié)果顯示,無(wú)論兩總體的方差是否相等,t統(tǒng)計(jì)量的p值 = 0.0005 0.05,所以在95%的置信水平下,拒絕原假設(shè),兩總體的均值有顯著差異。 結(jié)果表明可以95%的把握認(rèn)為兩套試卷有顯著差異。4. 兩樣本總體均值的比較:獨(dú)立樣本【例3-7】為估計(jì)兩種方法組裝產(chǎn)品所需時(shí)間的差異,分別對(duì)兩種不同的組裝方法各隨機(jī)安排一些個(gè)工人進(jìn)行操作試
17、驗(yàn),每個(gè)工人組裝一件產(chǎn)品所需的時(shí)間如表3-10所示。試以95%的置信水平推斷兩種方法組裝產(chǎn)品所需平均時(shí)間有無(wú)差異。表3-10 兩種方法組裝產(chǎn)品所需的時(shí)間(單位:分鐘) 這是一個(gè)(獨(dú)立)兩樣本均值檢驗(yàn)問(wèn)題,若1和2分別表示兩種方法組裝一件產(chǎn)品所需的平均時(shí)間,則檢驗(yàn)的是:H0:1 2 = 0,H1:1 2 0;方法128.330.129.037.632.128.836.037.238.534.428.030.0方法227.622.231.033.820.030.231.726.032.031.2 假定表3-10數(shù)據(jù)存放在數(shù)據(jù)集Mylib.zzcpsj中,將兩個(gè)樣本中被比較均值的變量的觀測(cè)值記在同一
18、分析變量F下,不同的樣本用一個(gè)分類(lèi)變量g的不同值加以區(qū)分,而且分類(lèi)變量g只能取兩個(gè)值,否則無(wú)法進(jìn)行。 分析步驟如下: 1) 在“分析家”中打開(kāi)數(shù)據(jù)集Mylib.zzcpsj; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“Two Sample t - Test for Mean(兩樣本均值的t - 檢驗(yàn))”; 3) 在打開(kāi)的“Two Sample t - Test for a Mean”對(duì)話框中,按圖3-12所示設(shè)置雙樣本均值檢驗(yàn),單擊“OK”按鈕,得到結(jié)果如圖3-13所示 結(jié)果顯示,由于t統(tǒng)計(jì)量的p值 = 0.0433,所以在95%的置信水平
19、下,應(yīng)該拒絕原假設(shè),即兩種方法所需時(shí)間有差異。表明有95%的把握認(rèn)為兩種方法所需時(shí)間有差異。3.2.3 使用TTEST過(guò)程TTEST過(guò)程可以執(zhí)行單樣本均值的t檢驗(yàn)、配對(duì)數(shù)據(jù)的t檢驗(yàn)以及雙樣本均值比較的t檢驗(yàn)。1. 語(yǔ)法格式PROC TTEST ; CLASS ; VAR ; PAIED ; BY ;RUN; 其中,PROC TTEST和RUN語(yǔ)句是必須的,其余語(yǔ)句都是可選的,而且可調(diào)換順序。 CLASS語(yǔ)句所指定的分組變量是用來(lái)進(jìn)行組間比較的;而B(niǎo)Y語(yǔ)句所指定的分組變量是用來(lái)將數(shù)據(jù)分為若干個(gè)更小的樣本,以便SAS分別在各小樣本內(nèi)進(jìn)行各自獨(dú)立的處理。 VAR語(yǔ)句引導(dǎo)要檢驗(yàn)的所有變量列表,SAS將
20、對(duì)VAR語(yǔ)句所引導(dǎo)的所有變量分別進(jìn)行組間均值比較的t檢驗(yàn)。 PAIED語(yǔ)句用來(lái)指定配對(duì)t檢驗(yàn)中要進(jìn)行比較的變量對(duì),其后所帶的變量名列表一般形式及其產(chǎn)生的效果見(jiàn)表3-11。表3-11 選項(xiàng)及其含義變量名列表形式產(chǎn)生的效果a*ba ba*b c*da b, c d(a b)*(c d)a c, a d, b c, b d(a b)*(c b)a c, a b, b c PROC TTEST語(yǔ)句后可跟的選項(xiàng)及其表示的含義如表3-12所示。表3-12 選項(xiàng)及其含義選項(xiàng)代表的含義data =等號(hào)后為SAS數(shù)據(jù)集名,指定ttest過(guò)程所要處理的數(shù)據(jù)集,默認(rèn)值為最近處理的數(shù)據(jù)集alpha =等號(hào)后為01之間
21、的任何值,指定置信水平,默認(rèn)為0.05ci =等號(hào)后為“equal, umpu, none”中的一個(gè),表示標(biāo)準(zhǔn)差的置信區(qū)間的顯示形式,默認(rèn)為ci = equalcochran有此選項(xiàng)時(shí),ttest過(guò)程對(duì)方差不齊時(shí)的近似t檢驗(yàn)增加cochran近似法h0 =等號(hào)后為任意實(shí)數(shù),表示檢驗(yàn)假設(shè)中對(duì)兩均值差值的設(shè)定,默認(rèn)值為02. 總體均值的置信區(qū)間【例3-8】仍然考慮例3-3中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集sjcj中,兩套試卷得分的變量名分別為A和B。data sjcj; input A B; cards;78 71 63 44 72 61 89 84 91 7449 51 68
22、55 76 60 85 77 55 39;run;【例3-8】仍然考慮例3-3中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集sjcj中,兩套試卷得分的變量名分別為A和B。 使用最簡(jiǎn)代碼求均值、標(biāo)準(zhǔn)差的置信區(qū)間:proc ttest data = sjcj;run; 代碼運(yùn)行結(jié)果給出兩個(gè)變量在95%置信水平下的均值、標(biāo)準(zhǔn)差的置信區(qū)間,以及對(duì)原假設(shè)0= 0所作的t檢驗(yàn)的p值,如圖所示。3. 單樣本總體均值的假設(shè)檢驗(yàn) 在例3-8中增加原假設(shè)選項(xiàng)以及置信水平,代碼如下:proc ttest h0=70 alpha = 0.01 data=sjcj; var A;run; 代碼運(yùn)行結(jié)果除了給出變量
23、A在99%置信水平下的均值、標(biāo)準(zhǔn)差的置信區(qū)間外,還給出對(duì)假設(shè)0 = 70,所作的t-檢驗(yàn)的p值,如圖3-15所示。結(jié)果顯示t統(tǒng)計(jì)量的p值 = 0.5734,不能拒絕(57.34%的把握)原假設(shè):均值 = 70。4. 配對(duì)兩樣本均值的假設(shè)檢驗(yàn) 在例3-8中檢驗(yàn)兩套試卷有無(wú)顯著差異,代碼如下:proc ttest data=sjcj; paired A*B;run; 代碼運(yùn)行結(jié)果給出了對(duì)原假設(shè)1 2 = 0所作的t檢驗(yàn)的p值,如圖3-16所示。結(jié)果顯示t統(tǒng)計(jì)量的p值 = 0.0005 0.05,因此拒絕原假設(shè)。說(shuō)明兩套試卷有顯著差異。5. 獨(dú)立兩樣本均值的假設(shè)檢驗(yàn) 過(guò)程TTEST還可以用于進(jìn)行獨(dú)立
24、雙樣本均值比較的t檢驗(yàn)法。它的用法為PROC TTEST DATA = ; CLASS ; VAR ;RUN; 使用這一格式要求將兩個(gè)樣本中被比較均值的變量的觀測(cè)值記在同一分析變量下,不同的樣本用另一個(gè)分類(lèi)變量的不同值加以區(qū)分,而且分類(lèi)變量只能取兩個(gè)值,否則將報(bào)錯(cuò)?!纠?-9】仍然考慮例3-7中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集zzcpsj中:data zzcpsj; input f g$; cards;28.3 1 27.6 2 30.1 1 22.2 2 29 1 31 237.6 1 33.8 2 32.1 1 20 2 28.8 1 30.2 236 1 31.7 2
25、37.2 1 26 2 38.5 1 32 234.4 1 31.2 2 28 1 30 1;run; 將兩批工人的測(cè)量結(jié)果看作兩個(gè)樣本,但其數(shù)據(jù)都放在一個(gè)數(shù)據(jù)集之中,所需的時(shí)間值是記錄在同一分析變量f之下,而兩種方法的差別是由變量g的值加以區(qū)分的,所以g可作為分類(lèi)變量。檢驗(yàn)代碼如下:proc ttest data=zzcpsj; class g; var f;run;檢驗(yàn)結(jié)果如圖所示。在檢驗(yàn)中,先看其最后關(guān)于方差等式的檢驗(yàn)結(jié)果,檢驗(yàn)方差相等是用的F 統(tǒng)計(jì)量,其數(shù)值為1.29,相應(yīng)的p值為0.67790.05 = ,所以不能拒絕方差相等的假設(shè)。 在方差相等的前提下,檢驗(yàn)均值差異使用Pooled
26、方法,對(duì)應(yīng)統(tǒng)計(jì)量的t值為2.16,相應(yīng)的p值為0.04330.05 = ,所以兩種方法所需的時(shí)間是有顯著差異的。 在異方差的情況下,使用Satterthwaite法檢驗(yàn)均值的差異。3.3 總體比例的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn)3.3.1 總體比例的置信區(qū)間3.3.2 單樣本總體比例的假設(shè)檢驗(yàn)3.3.3 兩總體比例的比較3.3.1 總體比例的置信區(qū)間【例3-10】2004年底北京市私家車(chē)擁有量已達(dá)到129.8萬(wàn)輛,位居全國(guó)之首,據(jù)業(yè)內(nèi)人士分析其中國(guó)產(chǎn)中低檔汽車(chē)的比例較大,為了估計(jì)目前北京市場(chǎng)個(gè)人購(gòu)車(chē)的平均價(jià)格,調(diào)查人員于某日在北京最大的車(chē)市隨機(jī)抽取36位私人消費(fèi)購(gòu)車(chē)者,得到他們所購(gòu)汽車(chē)的價(jià)格,
27、見(jiàn)下表。表3-13 年底購(gòu)車(chē)價(jià)格(單位:萬(wàn)元)根據(jù)以上調(diào)查數(shù)據(jù),試以95的置信水平推斷該地區(qū)購(gòu)買(mǎi)私家車(chē)在15萬(wàn)元以上的消費(fèi)者占有的比例。6.8811.2819.9813.610.614.86.8811.7820.9824.412.314.86.8813.6813.630.314.614.88.2814.9814.79.614.617.49.615.6815.89.612.95.3810.1815.6820.510.614.87.38 設(shè)購(gòu)車(chē)價(jià)格數(shù)據(jù)存放在數(shù)據(jù)集Mylib.gcjg中,價(jià)格變量名為price。這是一個(gè)單樣本比例的區(qū)間估計(jì)問(wèn)題。由于在SAS中只能對(duì)兩水平的分類(lèi)變量作比例的區(qū)間估計(jì)與
28、檢驗(yàn),所以首先要按變量price生成一個(gè)新的分類(lèi)變量。步驟如下: 1) 在“分析家”中打開(kāi)數(shù)據(jù)集Mylib.gcjg; 2) 選擇主菜單“Edit(編輯)”“Mode(模式)”“Edit(編輯)”,使數(shù)據(jù)集可以被編輯(修改); 3) 選擇主菜單“Data(數(shù)據(jù))”“Transform(變換)”“Recode Ranges(重編碼范圍)”,打開(kāi)“Recode Ranges Information”對(duì)話框并按圖3-18(左)設(shè)置有關(guān)內(nèi)容; 4) 單擊“OK”按鈕,打開(kāi)“Recode Ranges”對(duì)話框,按圖3-18右所示生成新變量price_f; 6) 選擇菜單“Statistics(統(tǒng)計(jì))”“
29、Hypothesis Tests(假設(shè)檢驗(yàn))”“One Sample Test for a Proportion(單樣本比例檢驗(yàn))”; 7) 在打開(kāi)的“One Sample Test for a Proportion”對(duì)話框中,按圖3-19設(shè)置比例的置信區(qū)間。 分析結(jié)果中包括變量的置信區(qū)間:按95%的置信水平變量price取值為“15”的比例在區(qū)間(0.109,0.391)范圍中(如圖3-20),即可以95%的概率估計(jì)該地區(qū)所購(gòu)買(mǎi)車(chē)輛在15萬(wàn)元以上的消費(fèi)者所占比例在10.9%39.1%之間。3.3.2 單樣本總體比例的假設(shè)檢驗(yàn)【例3-11】考慮例3-10中的數(shù)據(jù),試檢驗(yàn)總體中購(gòu)買(mǎi)車(chē)輛在15萬(wàn)元
30、以上者所占比例是否超過(guò)30%。 這是一個(gè)單樣本比例檢驗(yàn)問(wèn)題,若表示總體中購(gòu)買(mǎi)車(chē)輛在15萬(wàn)元以上者所占比例,則檢驗(yàn)的是: H0: 0.3,H1: 0.05,所以不能拒絕原假設(shè)。 結(jié)果表明購(gòu)買(mǎi)車(chē)輛在15萬(wàn)元以上者所占比例在95%的置信水平下超過(guò)30%。3.3.3 兩總體比例的比較【例3-12】2004年底很多類(lèi)型的國(guó)產(chǎn)轎車(chē)價(jià)格都比年中有所下降,為了對(duì)比2004年底與年中私家購(gòu)車(chē)族購(gòu)車(chē)價(jià)格的差異,在年中新購(gòu)車(chē)者中隨機(jī)抽取32人,調(diào)查得到的價(jià)格數(shù)據(jù)如表3-14。表3-14 年中購(gòu)車(chē)價(jià)格(單位:萬(wàn)元):綜合表3-13與表3-14的調(diào)查數(shù)據(jù),試以95的置信水平推斷該地區(qū)年底與年中購(gòu)買(mǎi)私家車(chē)在15萬(wàn)元以上的
31、消費(fèi)者占有比例有無(wú)差異。5.3810.7812.8814.718.8830.37.3811.213.61519.9815.287.9811.7813.6515.820.59.999.3811.7814.615.920.989.3610.312.314.71724.48.9911.3810.28 這是一個(gè)雙樣本比例檢驗(yàn)問(wèn)題,若1和2分別表示總體中年底和年中購(gòu)買(mǎi)私家車(chē)在15萬(wàn)元以上的消費(fèi)者所占的比例,則檢驗(yàn)的是假設(shè): H0:1 2 = 0,H1:1 2 0;首先將3-7與表3-8的調(diào)查數(shù)據(jù)存入一個(gè)數(shù)據(jù)集Mylib.gcjgQ中,價(jià)格變量名為price,使用變量period以區(qū)別年中數(shù)據(jù)(2)與年底
32、數(shù)據(jù)(1)。按例3-10中的步驟由price生成兩水平分類(lèi)變量price_F。圖3-23所示即為數(shù)據(jù)集Mylib.gcjgQ中的部分?jǐn)?shù)據(jù)。然后,對(duì)上面假設(shè)進(jìn)行檢驗(yàn),步驟如下: 1) 在分析家中打開(kāi)數(shù)據(jù)集Mylib.gcjgQ后,選擇菜單“Statistics”“Hypothesis Tests”“Two Sample Test for Proportion(雙樣本比例檢驗(yàn))”,在對(duì)話框中,按圖左設(shè)置雙樣本比例檢驗(yàn),分析結(jié)果如圖右所示。結(jié)果顯示,由于Z統(tǒng)計(jì)量的p值為0.5664,所以在95%的置信水平下,不能拒絕原假設(shè)。即該地區(qū)2004年底與年中私家購(gòu)車(chē)價(jià)格在15萬(wàn)元以上者所占比例無(wú)明顯差異。3
33、.4 總體方差的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的SAS實(shí)現(xiàn)3.4.1 總體方差的置信區(qū)間3.4.2 單樣本總體方差的假設(shè)檢驗(yàn)3.4.3 兩樣本總體方差的比較3.4.1 總體方差的置信區(qū)間【例3-13】表3-15所示為某中學(xué)1980年模擬高考數(shù)學(xué)的部分學(xué)生成績(jī),試估計(jì)本次模擬考試成績(jī)的方差。表3-15 部分學(xué)生成績(jī) 假定表3-15數(shù)據(jù)存放在數(shù)據(jù)集Mylib.kscj中,成績(jī)變量名為score。分析步驟如下: 1) 在“分析家”中打開(kāi)數(shù)據(jù)集Mylib.kscj; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Hypothesis Tests(假設(shè)檢驗(yàn))”“One Sample Test for a Vari
34、ance(方差的單樣本檢驗(yàn))”;100969690921001009099921009810097979594100 3) 在打開(kāi)的“One Sample Test for a Variance”對(duì)話框中設(shè)置方差的置信區(qū)間(如圖3-26)。分析結(jié)果中包括方差的置信區(qū)間估計(jì),如圖3-27所示。 結(jié)果表明,本次模擬考試成績(jī)方差在置信水平95%下的置信區(qū)間為(7.1692,28.614)。 3.4.2 單樣本總體方差的假設(shè)檢驗(yàn)【例3-14】考慮例3-13中的模擬考試成績(jī),檢驗(yàn)考試成績(jī)是否太集中。 這是一個(gè)單樣本方差檢驗(yàn)問(wèn)題,若表示總體方差,則檢驗(yàn)的是: H0:2 52,H1:2 52; 步驟如下:
35、1) 選擇菜單“Statistics”“Hypothesis Tests”“One Sample Test for a Variance(單樣本方差檢驗(yàn))”,打開(kāi)“One Sample Test for a Variance”對(duì)話框并按圖設(shè)置; 2) 單擊“OK”按鈕,得到結(jié)果。 結(jié)果(圖左)顯示,樣本方差為12.732,由于2檢驗(yàn)的p值 = 0.9504,所以不能拒絕方差 25的原假設(shè)。 結(jié)果表明有95%的把握可以認(rèn)為該模擬考試的成績(jī)太過(guò)集中。3.4.3 兩樣本總體方差的比較【例3-15】已知兩只股票深發(fā)展(000001)和萬(wàn)科A(000002)在2004年6月21個(gè)交易日的收益率如表3-1
36、6所示。試在0.05的顯著水平下判斷深發(fā)展的風(fēng)險(xiǎn)是否高于萬(wàn)科A?表3-16 深發(fā)展和萬(wàn)科A在2004年6月21個(gè)交易日的收益率day深發(fā)展萬(wàn)科Aday深發(fā)展萬(wàn)科Aday深發(fā)展萬(wàn)科A200406010.00310.009920040610-0.00220.004120040621-0.00220.0131200406020.0301-0.01372004061100.002200406220.00330.02820040603-0.0231-0.013920040614-0.0209-0.012320040623-0.0066-0.014720040604-0.00820.00620040615
37、0.04610.018620040624-0.01440.008520040607-0.0228-0.00820040616-0.0097-0.00220040625-0.0056-0.012720040608-0.02230.00220040617-0.0228-0.042820040628-0.05190.004320040609-0.0109-0.0202200406180.0111-0.0255200406290.02260.0319 這是一個(gè)雙樣本方差檢驗(yàn)問(wèn)題,若1和2分別表示深發(fā)展和萬(wàn)科A兩只股票收益率的方差,則檢驗(yàn)的是: H0:1 2,H1:1 0.15 0.05 = ,所以不能
38、拒絕原假設(shè),可以認(rèn)為變量income總體分布為正態(tài)分布。3.5.3 在“分析家”中研究分布【例3-17】在“分析家”中研究例3-10例3-12中北京市場(chǎng)個(gè)人購(gòu)車(chē)價(jià)格變量price的正態(tài)性。1. 繪制分布擬合圖和QQ圖 首先在“分析家”中打開(kāi)數(shù)據(jù)集Mylib.gcjg; 選擇主菜單“Statistics” “Descriptive” “Distributions”,打開(kāi)“Distributions”對(duì)話框。按圖(上圖)設(shè)置分析選項(xiàng),三次單擊“OK”按鈕,得到直方圖和QQ圖如圖(下圖)所示。 2. 分布檢驗(yàn) 繼續(xù)上述步驟。 在分析家窗口的項(xiàng)目管理器中雙擊“Fitted Distributions
39、of Gcjg”項(xiàng),得到檢驗(yàn)結(jié)果如圖3-443-45所示。 年底數(shù)據(jù)的分布檢驗(yàn)結(jié)果如圖,其含義說(shuō)明如下: 其中第一部分為檢驗(yàn)擬合分布的結(jié)果。首先指明擬合的是正態(tài)分布,均值為13.60556,標(biāo)準(zhǔn)差為5.170595;接著有三種經(jīng)驗(yàn)分布的檢驗(yàn)結(jié)果 三種檢驗(yàn)基本上都認(rèn)為變量price的分布與正態(tài)分布有差異,因此拒絕變量price為正態(tài)分布的假設(shè)。 年中數(shù)據(jù)的分布檢驗(yàn)結(jié)果如圖3-45所示。結(jié)果表明: 均值為13.95031,標(biāo)準(zhǔn)差為5.234664;三種檢驗(yàn)基本上都認(rèn)為變量price的分布與正態(tài)分布無(wú)顯著差異,因此不能拒絕變量price為正態(tài)分布的假設(shè)。 綜上,應(yīng)拒絕年底數(shù)據(jù)中變量price的分布為
40、正態(tài)分布的假設(shè),而不能拒絕年中數(shù)據(jù)中變量price的分布為正態(tài)分布的假設(shè)。 3.5.4 使用UNIVARIATE過(guò)程 在PROC UNIVARIATE語(yǔ)句中加上NORMAL選項(xiàng)可以進(jìn)行正態(tài)性檢驗(yàn)?!纠?-18】檢驗(yàn)例3-1藥材倉(cāng)庫(kù)中的1000箱藥材的重量是否服從正態(tài)分布。 使用如下UNIVARIATE過(guò)程:proc univariate data = Mylib.yczl normal; var weight;run;【例3-18】檢驗(yàn)例3-1藥材倉(cāng)庫(kù)中的1000箱藥材的重量是否服從正態(tài)分布。 結(jié)果(部分)如圖3-46所示。這里給出了weight變量的四種正態(tài)性檢驗(yàn)結(jié)果,其中Shapiro-W
41、ilk檢驗(yàn)是首選的??梢钥吹絧值很大,所以在0.05水平下不能拒絕原假設(shè),即認(rèn)為weight服從正態(tài)分布。第四章 相關(guān)分析與回歸分析4.1 簡(jiǎn)單相關(guān)分析4.2 回歸分析4.3 非線性回歸4.1 簡(jiǎn)單相關(guān)分析4.1.1 相關(guān)分析的基本概念4.1.2 用INSIGHT模塊作相關(guān)分析4.1.3 用“分析家”作相關(guān)分析4.1.1 相關(guān)分析的基本概念1. 散點(diǎn)圖 散點(diǎn)圖是描述變量之間關(guān)系的一種直觀方法。我們用坐標(biāo)的橫軸代表自變量X,縱軸代表因變量Y,每組數(shù)據(jù)(xi,yi)在坐標(biāo)系中用一個(gè)點(diǎn)表示,由這些點(diǎn)形成的散點(diǎn)圖描述了兩個(gè)變量之間的大致關(guān)系,從中可以直觀地看出變量之間的關(guān)系形態(tài)及關(guān)系強(qiáng)度。 圖4-1就
42、是不同形態(tài)的散點(diǎn)圖。 (a) (b) (c) (d) 就兩個(gè)變量而言,如果變量之間的關(guān)系近似地表現(xiàn)為一條直線,則稱為線性相關(guān),如圖4-1(a)和(b);如果變量之間的關(guān)系近似地表現(xiàn)為一條曲線,則稱為非線性相關(guān)或曲線相關(guān);如圖4-1(c);如果兩個(gè)變量的觀測(cè)點(diǎn)很分散,無(wú)任何規(guī)律,則表示變量之間沒(méi)有相關(guān)關(guān)系,如圖4-l(d)。 2. 相關(guān)系數(shù) 相關(guān)系數(shù)是對(duì)變量之間關(guān)系密切程度的度量。若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為;總體相關(guān)系數(shù)的計(jì)算公式為:其中COV(X,Y)為變量X和Y的協(xié)方差,D(X)和D(Y)分別為X和Y的方差。 若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù)
43、(簡(jiǎn)稱為相關(guān)系數(shù)),記為r。樣本相關(guān)系數(shù)的計(jì)算公式為: 一般情況下,總體相關(guān)系數(shù)是未知的,我們通常是將樣本相關(guān)系數(shù)r作為的近似估計(jì)值。 相關(guān)系數(shù)r有如下性質(zhì): 相關(guān)系數(shù)的取值范圍:1 r 1,若0 r 1,表明X與Y之間存在正線性相關(guān)關(guān)系,若1 r 0,表明X與Y之間存在負(fù)線性相關(guān)關(guān)系。 若r = 1,表明X與Y之間為完全正線性相關(guān)關(guān)系;若r = 1,表明X與Y之間為完全負(fù)線性相關(guān)關(guān)系;若r = 0,說(shuō)明二者之間不存在線性相關(guān)關(guān)系。 相關(guān)系數(shù)r有如下性質(zhì): 當(dāng)1 r 1時(shí),為說(shuō)明兩個(gè)變量之間的線性關(guān)系的密切程度,通常將相關(guān)程度分為以下幾種情況:當(dāng)| r | 0.8時(shí),可視為高度相關(guān);0.5 |
44、 r | 0.8時(shí),可視為中度相關(guān);0.3 | r | 0.5時(shí),視為低度相關(guān);當(dāng)| r | 0.3時(shí),說(shuō)明兩個(gè)變量之間的相關(guān)程度極弱,可視為不相關(guān)。但這種解釋必須建立在對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)的基礎(chǔ)之上。3. 相關(guān)系數(shù)的顯著性檢驗(yàn) 相關(guān)系數(shù)的顯著性檢驗(yàn)也就是檢驗(yàn)總體相關(guān)系數(shù)是否顯著為0,通常采用費(fèi)歇爾(Fisher)提出的t分布檢驗(yàn),該檢驗(yàn)可以用于小樣本,也可以用于大樣本。檢驗(yàn)的具體步驟如下: 1) 提出假設(shè):假設(shè)樣本是從一個(gè)不相關(guān)的總體中抽出的,即H0: = 0;H1: 0 1) 提出假設(shè):假設(shè)樣本是從一個(gè)不相關(guān)的總體中抽出的,即H0: = 0;H1: 0 2) 由樣本觀測(cè)值計(jì)算檢驗(yàn)統(tǒng)計(jì)量
45、:的觀測(cè)值t0和衡量觀測(cè)結(jié)果極端性的p值:p = P| t | | t0 | = 2Pt |t0| 3) 進(jìn)行決策:比較p和檢驗(yàn)水平作判斷:p ,拒絕原假設(shè)H0;p ,不能拒絕原假設(shè)H0。4. 置信橢圓 可以生成兩類(lèi)置信橢圓: 均值置信橢圓:預(yù)測(cè)兩變量均值的置信區(qū)域; 預(yù)測(cè)值置信橢圓:預(yù)測(cè)兩變量分布個(gè)別觀測(cè)值的置信區(qū)域。 關(guān)于預(yù)測(cè)值置信橢圓的兩點(diǎn)說(shuō)明: 1) 作為置信曲線,表示數(shù)據(jù)以設(shè)定的百分率(置信水平)落入的橢圓區(qū)域; 2) 作為相關(guān)性指標(biāo)。若兩個(gè)變量不相關(guān),橢圓應(yīng)該為圓;兩個(gè)相關(guān)的變量有拉長(zhǎng)的橢圓,可以用橢圓長(zhǎng)短軸之比來(lái)衡量相關(guān)的程度。4.1.2 用INSIGHT模塊作相關(guān)分析【例4-1
46、】一家大型商業(yè)銀行在多個(gè)地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進(jìn)行基礎(chǔ)設(shè)施建設(shè)、國(guó)家重點(diǎn)項(xiàng)目建設(shè)、固定資產(chǎn)投資等項(xiàng)目的貸款。近年來(lái),該銀行的貸款額平穩(wěn)增長(zhǎng),但不良貸款額也有較大比例的提高,這給銀行業(yè)務(wù)的發(fā)展帶來(lái)較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的辦法。表4-1就是該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù)。表4-1 某商業(yè)銀行2002年的主要業(yè)務(wù)數(shù)據(jù)銀行想知道,不良貸款是否與貸款余額、應(yīng)收貸款、貸款項(xiàng)目的多少、固定資產(chǎn)投資等因素有關(guān)?如果有,是一種什么樣的關(guān)系?關(guān)系強(qiáng)度如何?分行編號(hào)不良貸款(
47、億元)x1各項(xiàng)貸款余額(億元)x2本年累計(jì)應(yīng)收貸款(億元)x3貸款項(xiàng)目個(gè)數(shù)(個(gè))x4本年固定資產(chǎn)投資額(億元)x510.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.2206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1 設(shè)表4-1中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.bldk中。1. 制作散
48、點(diǎn)圖 首先制作變量之間的散點(diǎn)圖,以便判斷變量之間的相關(guān)性。步驟如下: 1) 在INSIGHT模塊中,打開(kāi)數(shù)據(jù)集Mylib.bldk; 2) 選擇菜單“Analyze(分析)”“Scatter Plot (Y X)(散點(diǎn)圖)”; 3) 在打開(kāi)的“Scatter Plot (Y X)”對(duì)話框中選定Y變量:Y;選定X變量:x1、x2、x3、x4; 4) 單擊“OK”按鈕,得到變量的分析結(jié)果。 從各散點(diǎn)圖中可以看出,不良貸款(Y)與貸款余額(x1)、應(yīng)收貸款(x2)、貸款項(xiàng)目多少(x3)、固定資產(chǎn)投資額(x4)之間都具有一定的線性關(guān)系。但從各散點(diǎn)的分布情況看,與貸款余額(x1)的線性關(guān)系比較密切,而與
49、固定資產(chǎn)投資額(x4)之間的關(guān)系最不密切。2. 相關(guān)系數(shù)計(jì)算 1) 在INSIGHT模塊中,打開(kāi)數(shù)據(jù)集Mylib.bldk; 2) 選擇菜單“Analyze(分析)”“Multivariate (Y X)(多變量)”; 3) 在打開(kāi)的“Multivariate (Y X)”對(duì)話框中選定Y變量:Y;選定X變量:x1、x2、x3、x4; 4) 單擊“OK”按鈕,得到分析結(jié)果。結(jié)果顯示各變量的統(tǒng)計(jì)量和相關(guān)(系數(shù))矩陣,從相關(guān)矩陣中可以看出,在不良貸款Y與其他幾個(gè)變量的關(guān)系中,與貸款余額(x1)的相關(guān)系數(shù)最大,而與固定資產(chǎn)投資額(x4)的相關(guān)系數(shù)最小。 5) 為了檢驗(yàn)各總體變量的相關(guān)系數(shù)是否為零,選擇
50、菜單:“Tables”“CORR p-values”,得到相關(guān)系數(shù)為零的原假設(shè)的p值,如圖4-6所示。 基于這些p值,拒絕原假設(shè),即不良貸款與其他幾個(gè)變量之間均存在著顯著的正相關(guān)關(guān)系。3. 置信橢圓 繼續(xù)上述步驟。 6) 選擇菜單:“Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得到不良貸款與其他幾個(gè)變量的散點(diǎn)圖及預(yù)測(cè)值的置信橢圓,如圖所示。變量Y和x1間散點(diǎn)圖上的這個(gè)橢圓被拉得很長(zhǎng),表明變量Y和x1之間有很強(qiáng)的相關(guān)性。4.1.3 用“分析家”作相關(guān)分析【例4-2】通常用來(lái)評(píng)價(jià)商業(yè)中心經(jīng)營(yíng)好壞的一個(gè)綜合指標(biāo)是單位面積的營(yíng)業(yè)額,它是單位時(shí)間內(nèi)
51、(通常為一年)的營(yíng)業(yè)額與經(jīng)營(yíng)面積的比值。對(duì)單位面積營(yíng)業(yè)額的影響因素的指標(biāo)有單位小時(shí)車(chē)流量、日人流量、居民年平均消費(fèi)額、消費(fèi)者對(duì)商場(chǎng)的環(huán)境、設(shè)施及商品的豐富程度的滿意度評(píng)分。這幾個(gè)指標(biāo)中車(chē)流量和人流量是通過(guò)同時(shí)對(duì)幾個(gè)商業(yè)中心進(jìn)行實(shí)地觀測(cè)而得到的。而居民年平均消費(fèi)額、消費(fèi)者對(duì)商場(chǎng)的環(huán)境、設(shè)施及商品的豐富程度的滿意度評(píng)分是通過(guò)隨機(jī)采訪顧客而得到的平均值數(shù)據(jù)。表4-2為從某市隨機(jī)抽取的20個(gè)商業(yè)中心有關(guān)指標(biāo)的數(shù)據(jù),試據(jù)此說(shuō)明變量間的相關(guān)程度。表4-2 20個(gè)商業(yè)中心有關(guān)指標(biāo)的數(shù)據(jù)設(shè)表4-2數(shù)據(jù)已保存在數(shù)據(jù)集Mylib.jyzk中。商業(yè)中心編號(hào)單位面積年?duì)I業(yè)額(萬(wàn)元/平方米)Y每小時(shí)機(jī)動(dòng)車(chē)流量(萬(wàn)輛)x
52、1日人流量 (萬(wàn)人)x2居民年消費(fèi)額(萬(wàn)元)x3對(duì)商場(chǎng)環(huán)境滿意度x4對(duì)商場(chǎng)設(shè)施滿意度x5對(duì)商場(chǎng)商品豐富程度滿意度x612.50.513.901.9479623.20.264.242.8674632.50.724.541.6388743.41.236.981.926101051.80.694.210.7184760.90.362.910.62565152.61.045.531.301079162.71.185.981.28879171.40.611.271.48671183.21.055.772.167109192.91.065.711.74699202.50.584.111.857961. 相
53、關(guān)分析的設(shè)置 在“分析家”中作相關(guān)分析的步驟如下: 1) 在“分析家”中打開(kāi)數(shù)據(jù)集Mylib.jyzk; 2) 選擇主菜單“Statistics”“Descriptive(描述性統(tǒng)計(jì))”“Correlations(相關(guān))”,打開(kāi)“Correlations”對(duì)話框,按圖4-8 設(shè)置分析變量及內(nèi)容。 2. 結(jié)果分析 顯示結(jié)果首先給出各個(gè)變量的描述性統(tǒng)計(jì)量,包括觀測(cè)總數(shù)、各變量的均值及標(biāo)準(zhǔn)差等。然后給出變量的相關(guān)系數(shù)矩陣(分析變量中任兩者之間的相關(guān)系數(shù)),以及原假設(shè)為H0:Rho = 0(即H0: = 0)的檢驗(yàn)結(jié)果(僅給出p值),如圖4-9所示。 從相關(guān)系數(shù)的取值來(lái)看,單位面積營(yíng)業(yè)額(Y)與居民年
54、消費(fèi)額(x3)、日人流量(x2)接近高度相關(guān);單位面積營(yíng)業(yè)額(Y)與每小時(shí)機(jī)動(dòng)車(chē)流量(x1)、對(duì)商場(chǎng)環(huán)境的滿意度(x4)、對(duì)商場(chǎng)設(shè)施的滿意度(x5)為低度相關(guān);單位面積營(yíng)業(yè)額(Y)與商場(chǎng)商品豐富程度滿意度(x6)則屬于中度相關(guān)。 從相關(guān)系數(shù)的假設(shè)檢驗(yàn)結(jié)果來(lái)看,單位面積營(yíng)業(yè)額(Y)與居民年消費(fèi)額(x3)、日人流量(x2)、商場(chǎng)商品的豐富程度滿意度(x6)、對(duì)商場(chǎng)設(shè)施的滿意度(x5)的相關(guān)系數(shù)顯著不為0(p 10即可認(rèn)為模型有很強(qiáng)的共線問(wèn)題。8. 利用回歸方程進(jìn)行預(yù)測(cè) (1) 點(diǎn)預(yù)測(cè) 假設(shè)通過(guò)檢驗(yàn)的“最優(yōu)”回歸方程為當(dāng)自變量的一組新觀測(cè)值x0 = (x01,x02,x0k)對(duì)應(yīng)的因變量的預(yù)測(cè)值為(
55、2) 區(qū)間預(yù)測(cè) 區(qū)間預(yù)測(cè)分為均值的預(yù)測(cè)區(qū)間和個(gè)體的預(yù)測(cè)區(qū)間。 若將 理解為E(y0)的預(yù)測(cè)值,則在給定的顯著水平下,E(y0)的置信區(qū)間為其中, , n為觀測(cè)次數(shù),k為自變量個(gè)數(shù)。 若將 理解為個(gè)體值y0的預(yù)測(cè)值,則在給定的顯著水平下,y0的置信區(qū)間為4.2.2 用INSIGHT模塊作回歸分析【例4-3】根據(jù)例4-1的數(shù)據(jù)集Mylib.bldk,建立不良貸款的預(yù)測(cè)公式。1. 一元線性回歸 建立不良貸款對(duì)貸款余額的回歸方程。(1) 分析 1) 在INSIGHT模塊中打開(kāi)數(shù)據(jù)集Mylib.bldk。選擇菜單“Analyze”“Fit(Y X)”,打開(kāi)“Fit(Y X)”對(duì)話框; 2) 在“Fit(
56、Y X)”對(duì)話框中,將Y設(shè)為響應(yīng)變量,將x1設(shè)為自變量; 3) 單擊“OK”按鈕,得到分析結(jié)果。 顯示的結(jié)果分為若干張表: 第一張表提供關(guān)于擬合模型的一般信息,Y = x1表示這個(gè)分析是以Y為響應(yīng)變量,x1為自變量的線性模型; 第二張表給出回歸方程: 第三張表是帶有回歸直線的散點(diǎn)圖,給出了回歸的圖形表示,如圖; 圖的下面是參數(shù)回歸擬合表(圖4-14)。其中判定系數(shù)R-Square(R2)為模型平方和占總平方和的比例,反映了回歸方程能夠解釋的信息占總信息的比例;第四張表提供擬合的匯總度量(圖4-15):Mean of Response(響應(yīng)變量的均值)是變量Y的平均值,Root MSE(均方殘差
57、平方根)是對(duì)各觀測(cè)點(diǎn)在直線周?chē)稚⒊潭鹊囊粋€(gè)度量值,為隨機(jī)誤差的標(biāo)準(zhǔn)差(也是實(shí)測(cè)值Y的標(biāo)準(zhǔn)差)的無(wú)偏估計(jì)。 第五張方差分析表(圖4-16)包含對(duì)回歸方程的顯著檢驗(yàn):對(duì)一元線性回歸,第六張型檢驗(yàn)表提供與方差分析表一樣的檢驗(yàn),如圖4-17;第七張參數(shù)估計(jì)表給出了回歸直線截距和斜率的估計(jì)值及其顯著性檢驗(yàn)等內(nèi)容。在這個(gè)例子里,截距的p值 = 0.05,表示模型還有改進(jìn)的余地,可以考慮擬合截距為0的回歸直線。斜率的t檢驗(yàn)p值 .150.05,應(yīng)接受原假設(shè),認(rèn)為殘差為正態(tài)性分布。所以,模型 是合適的,用其對(duì)不良貸款進(jìn)行預(yù)測(cè)會(huì)更符合實(shí)際。2. 多元線性回歸【例4-4】引入數(shù)據(jù)集Mylib.BLDK中的所有4
58、個(gè)自變量對(duì)不良貸款建立多元線性回歸。 (1) 分析步驟 在INSIGHT模塊中打開(kāi)數(shù)據(jù)集Mylib.BLDK。 1) 選擇菜單“Analyze”“Fit(Y X)(擬合)”,打開(kāi)“Fit(Y X)”對(duì)話框; 2) 在“Fit(Y X)”對(duì)話框中,選擇變量Y,單擊“Y”按鈕,將Y設(shè)為響應(yīng)變量;選擇變量x1、x2、x3、x4,單擊“X”按鈕,將x1、x2、x3、x4設(shè)為自變量; 3) 單擊“OK”按鈕,得到分析結(jié)果。 在顯示的結(jié)果中可以看到,多元回歸分析的輸出類(lèi)似于一元線性回歸的輸出,同樣分為七張表: 第一張表提供關(guān)于擬合模型的一般信息; 第二張表給出模型方程(即回歸方程),如圖4-26。 可知回
59、歸方程為: 第三張模型擬合匯總表(圖4-27)表明R-Square為0.7976,比一元線性回歸模型有一定提高,但不足以說(shuō)明模型優(yōu)于一元回歸模型,因?yàn)樵谀P椭性黾幼宰兞靠偰芴岣逺-Square。Adj R-Sq(修正R2)考慮了加入模型的變量數(shù),在比較不同多元模型時(shí)用Adj R-Sq更合適。如在這里它為0.7571,而在簡(jiǎn)單模型中為0.6991,說(shuō)明這一模型比一元線性模型更多地說(shuō)明變量Y的變化。 第四張方差分析表中(下圖左),看到p值0.0001,拒絕原假設(shè)并可作出至少有一個(gè)回歸系數(shù)不為零的結(jié)論,說(shuō)明所建模型的線性關(guān)系是顯著的。III型檢驗(yàn)表(上圖右)與參數(shù)估計(jì)表(下圖)給出各個(gè)自變量的回歸系
60、數(shù)為零的假設(shè)檢驗(yàn),各自變量的回歸系數(shù)的F檢驗(yàn)與t檢驗(yàn)在這里是一致的。參數(shù)估計(jì)表(上圖右)包括截距的顯著性檢驗(yàn),還給出了容差(Tolerance)和方差膨脹因子(VIF)。兩表中自變量x2、x3、x4的回歸系數(shù)假設(shè)檢驗(yàn)的p值較大,說(shuō)明這些自變量對(duì)Y的影響不顯著,這種情況可能是這些變量對(duì)預(yù)測(cè)Y值作用不大,也可能是由于這些變量之間的高度相關(guān)性所引起的共線問(wèn)題。如果自變量之間具有高度的共線關(guān)系,則它們所提供的預(yù)測(cè)信息就是重復(fù)的,在參數(shù)(回歸系數(shù))檢驗(yàn)中這些變量的顯著性就可能被隱蔽起來(lái),故應(yīng)考慮剔除一些自變量,重新擬合回歸方程。(本例中x1的方差膨脹系數(shù)較大,說(shuō)明x1與其余自變量有一定的線性關(guān)系)(2)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農(nóng)產(chǎn)品網(wǎng)絡(luò)營(yíng)銷(xiāo)作業(yè)指導(dǎo)書(shū)
- 2025年懷化考從業(yè)資格證貨運(yùn)試題
- 小學(xué)二年級(jí)數(shù)學(xué)上冊(cè)口算題
- 2025年武威貨運(yùn)上崗證模擬考試試題
- 2025年楚雄駕??荚囏涍\(yùn)從業(yè)資格證模擬考試
- 電力調(diào)試合同(2篇)
- 電動(dòng)車(chē)補(bǔ)充協(xié)議書(shū)范文(2篇)
- 2024-2025學(xué)年高中語(yǔ)文課時(shí)作業(yè)4毛澤東詞兩首含解析粵教版必修2
- 六年級(jí)班主任第二學(xué)期工作總結(jié)
- 小學(xué)班主任工作計(jì)劃二年級(jí)
- 2025年中國(guó)山泉水市場(chǎng)前景預(yù)測(cè)及投資規(guī)劃研究報(bào)告
- GB/T 18109-2024凍魚(yú)
- 《榜樣9》觀后感心得體會(huì)二
- 《西安交通大學(xué)》課件
- 小學(xué)二年級(jí)數(shù)學(xué)計(jì)算題共4165題
- 一氧化碳中毒培訓(xùn)
- 初二上冊(cè)好的數(shù)學(xué)試卷
- 廣東省潮州市2024-2025學(xué)年九年級(jí)上學(xué)期期末道德與法治試卷(含答案)
- 突發(fā)公共衛(wèi)生事件衛(wèi)生應(yīng)急
- 部編版2024-2025學(xué)年三年級(jí)上冊(cè)語(yǔ)文期末測(cè)試卷(含答案)
- 門(mén)窗安裝施工安全管理方案
評(píng)論
0/150
提交評(píng)論