數(shù)據(jù)分析試題_第1頁
數(shù)據(jù)分析試題_第2頁
數(shù)據(jù)分析試題_第3頁
數(shù)據(jù)分析試題_第4頁
數(shù)據(jù)分析試題_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2洛第二N北大孽(試卷編號:)

2011?2012學(xué)年第二學(xué)期數(shù)據(jù)分析期末考試卷A卷

姓名:王贊學(xué)號:094860H7班級:09計算A1

題號二三

得分

一、某醫(yī)院管理工作者希望了解病人對醫(yī)院工作的滿意程度y和病人的年齡X1、

病情的嚴(yán)重程度X2和憂慮程度X3之間的關(guān)系,他們隨機(jī)選取了23位病人,得

到下表所列數(shù)據(jù):(本題40分,每小題5分)

i123456789101112

Xi\503640412849424552292943

占2514648444354504862504853

七32.32.32.21.81.82.92.22.42.92.12.42.4

K485766898936465426778967

/1314151617181920212223

%3834533633293355294443

Xi25551544956464951525850

七32.22.32.22.02.51.92.12.42.32.92.3

%4751576679886049775260

(1)擬合y關(guān)于X,X”X3的線性回歸模型,寫出回歸方程;根據(jù)所得的回歸模型

中回歸系數(shù)給出初步的分析結(jié)果;

Anovab

模型平方和df均方FSig.

1回歸4472.72531490.90812.072.0003

殘差2346.57919123.504

總計6819.30422

a.預(yù)測變量:(常量),Xi3,Xil,XI2。

b.因變量:Yi

表一

系數(shù),

非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)

模型B標(biāo)準(zhǔn)誤差試用版tSig.

1(常量)177.44527.8396.374.000

Xil-1.069.326-.514-3.284.004

XI2-.839.887-.212-.947.356

Xi3-13.19313.221-.228-.998.331

a.因變量:Yi

表二

由方差分析看出:F統(tǒng)計量的值為12.072,根據(jù)p值檢驗(yàn)法知F檢驗(yàn)的p

值顯然小于0.0001,因此拒絕原假設(shè),接受對立假設(shè),即因變量與3個自變量之

間具有高度顯著的線性回歸關(guān)系。由表二可以看出,如果顯著水平a為0.05,而

t檢驗(yàn)的3個p值分別為0.004、0356、0.331顯然小于顯著水平,因此拒絕原假

設(shè),接受對立假設(shè),則說明因變量和XII存在著高度顯著的線性回歸關(guān)系,與

XI2、XI3沒有顯著的線性關(guān)系。并且得到回歸方程為:Yi=177.455-1.069Xilo

其意義是在Xi1每增加一個單位,則V減少1.069個單位。

(2)、設(shè)誤差項£,=?=1,2,…,16)獨(dú)立同分布于N(0,/),在a=0.01水平上檢

驗(yàn)回歸關(guān)系的顯著性;(寫出原假設(shè)、對立假設(shè)和檢驗(yàn)統(tǒng)計量)

解:由表1可以看出SSR為4472.725,SSE為2346.579,SST為6619.304;

設(shè)y與Xi,X2,X3的觀測值之間滿足關(guān)系%=鳳+兒/+人陽z+水i=L2……

18)其中%(i=l,218)相互獨(dú)立,均服從正態(tài)分布N(0,<T2),利用SPSS

可得到下列分析結(jié)果。

由此表可知,4的估計值、2=MSE=123.504,MSR=1490.908檢驗(yàn)假設(shè):

Ho:月=四=四=0-Hi:回,尸20至少有一個非零的,統(tǒng)計量F=^^=12.072

MSE

檢驗(yàn)值P從表看幾乎接近于零<a=0.01,則拒絕Ho,此結(jié)果表明Y與Xi,X2,X3

之間存在高度顯著的線性回歸關(guān)系。

(3)、在a=0.05時,檢驗(yàn)各自變量對丫的影響的顯著性;(寫出原假設(shè)、對立

假設(shè)和檢驗(yàn)統(tǒng)計量);

解:假設(shè)檢驗(yàn)為:H°:Pk=bc氏手0,檢驗(yàn)統(tǒng)計量”4

s(4)

t檢驗(yàn)的3個p值分別為0.004、0.356、0.331,顯然XII小于顯著水平0.05,因

此拒絕原假設(shè),接受對立假設(shè),則說明因變量只和XII之間都存在著高度顯著的

線性回歸關(guān)系。

(4)、根據(jù)(2)(3)的結(jié)果解釋由⑴所得到的模型是否合理?為什么?

合理,有表一的結(jié)果可知,三個變量總體和丫具有高度的線性關(guān)系,但是

有表二可知對每一個變量分析時只有XII和Y具有高度現(xiàn)象關(guān)系。

(5)用逐步回歸法來選擇最優(yōu)回歸方程,取?!?。。=0.05;

系數(shù)'

非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)B的95.0%置信區(qū)間

模型B標(biāo)準(zhǔn)誤差試用版tSig.下限上限

1(常量)121.99412.6189.668.00095.753148.235

Xil-1.510.312-.726-4.843.000-2.159-.862

2(常量)157.52718.1828.664.000119.599195.454

Xil-1.111.322-.534-3.453.003-1.782-.440

Xi3-22.3688.970-.386-2.493.022-41.080-3.656

a.因變量:Yi

表三

已排除的變量'

共線性統(tǒng)計量

模型BetaIntSig.偏相關(guān)容差

1XI2?.375"-2.467.023-.483.782

Xi3-.386a-2.493.022-.487.752

2XI2-.212b-.947.356-.212.362

a.模型中的預(yù)測變量:(常量),Xil。

b.模型中的預(yù)測變量:(常量),Xil,Xi3。

c.因變量:Yi

表四

解:根據(jù)表三和表四結(jié)果知道最終的選取的結(jié)果是只有XII保留,也就是變量

XI2和XI3被刪除。根據(jù)t檢驗(yàn)的p值可以看出,最終模型只有變量XH與因變

量之間具有高度顯著的線性相關(guān)關(guān)系。

(6)寫出殘差向量,通過殘差分析來分析模型的合理性;

RES.1為:

-2.82240

-12.99019

.64668

16.08086

1.34021

-5.45738

-15.53577

-3.36804

-5.53378

.24370

14.52278

11.69058

-14.61579

-16.93157

10.58460

-5.42982

16.83504

5.24722

-13.31846

4.84355

4.56127

8.55382

.85289

殘差關(guān)于擬合值的殘差圖如圖1:圖1

20.00000-

-10.00000-

e

n

p

s一

a

a

p

a

z

p一.00000-

e

p

u

s

s

u

n

-10.00000-

■20.00000-

30.0000040.00000500000060.0000070.0000080.0000090.00000

UnstandardizedPredictedValue

從圖1看出,該殘差圖中各點(diǎn)分布近似長條矩形,因此認(rèn)為該線性回歸模型比較

合理。

殘差關(guān)于XII的殘差圖如圖2:

-

e

n

p

w

o

a

P

ZO

p一

e

p

u

5

s

u

n

從圖2看出,該殘差圖中各點(diǎn)分布近似長條矩形,因此說明該模型中不需要添加

該自變量的高階項和交叉項。

殘差關(guān)于XI2的殘差圖如圖3:

20.00000-

10.00000-

rna

p

S一

CUD

p

.00000-

(ND

p

B」

P

U

2

s

u

n-10.00000-

O

O

(7)計算數(shù)據(jù)的標(biāo)準(zhǔn)化殘差,并利用殘差正態(tài)性的頻率檢驗(yàn)法來檢驗(yàn)誤差£,的

正態(tài)性假設(shè)是否合理?

解:數(shù)據(jù)標(biāo)準(zhǔn)化殘差以變量名為ZRE」存儲在數(shù)據(jù)中:

25397

-1.16889

.05819

1.44700

.12060

49107

-1.39795

30307

49794

.02193

1.30680

1.05195

-1.31517

-1.52355

.95243

48859

1.51486

.47216

-1.19843

.43584

.41044

.76970

.07674

落在(-1,1)區(qū)間的概率為14/23=0.61與0.68很接近

落在(-1.5,1.5)區(qū)間的概率為21/23=0.91與0.87很接近

落在(-2,2)區(qū)間的概率為23/23=1.0與0.95很接近

認(rèn)為正態(tài)性假設(shè)是合理的。

(8)對自變量一組新的觀測值(48,50,2.2)、給出丫的預(yù)報值的99%的置信區(qū)

間;

解:置信區(qū)間為:(43.72601,66.25573)。

二、各地區(qū)居民消費(fèi)水平(20XX年)數(shù)據(jù)見附錄中數(shù)據(jù)文件xfsp.sav中,設(shè)對應(yīng)于

全體居民、農(nóng)村居民、城鎮(zhèn)居民的數(shù)據(jù)變量分別記為和4,七,(本大題共40分,

每小題5分)

(1)從樣本協(xié)方差矩陣出發(fā),求出樣本與馬,工3的第一和第二主成分,計算各樣

本主成分的貢獻(xiàn)率;將第一樣本主成分M從小到大排序,并分析排序的實(shí)際含義。

解釋的總方差

初始特征值’提取平方和載人

成份合計方差的%累積%合計方差的%累積%

原始130588315.94298.54998.54930588315.94298.54998.549

2335962.3751.08299.631335962.3751.08299.631

3114484.513.369100.000114484.513.369100.000

重新標(biāo)度130588315.94298.54998.5492.93997.96497.964

2335962.3751.08299.631.0321.07099.034

3114484.513.369100.000.029.966100.000

提取方法:主成份分析。

a.分析協(xié)方差矩陣時,初始特征值在整個原始解和重標(biāo)刻度解中均相同。

表一

成份矩陣'

原始重新標(biāo)度

成份成份

123123

qtjm3927.371319.851-147.964.996.081-.038

ncjm1798.050170.375304.126.982.093.166

czjm3454.141-452.3609.923.992-.130,003

提取方法:主成份。

a.已提取了3個成份。

表二

解:表一的第二列表示相關(guān)系數(shù)矩陣的特征值,第三列表示樣本主成分的

貢獻(xiàn)率,第四列表示樣本的累積貢獻(xiàn)率??梢姷降谝粋€主成分,累積貢獻(xiàn)率已經(jīng)

超過98%以上。根據(jù)表二的數(shù)據(jù)可以很快算出樣本的主成分,每一列分別對應(yīng)除

以口得出對應(yīng)的特征向量。

第一主成分的系數(shù)向量為:(3927.371,1798.050,3454.141)/730588315.94=

(0.71,0.33,0.62)所以第一主成分為:

Y1=0.71*x1+0.33*x2+0.62*x3

從而計算數(shù)據(jù)在第一主成分上的得分為:

西藏7206.00

貴州8296.53

青海8343.05

甘肅8404.29

新疆8528.76

廣西8787.97

江西8819.13

安徽8884.00

云南8920.08

海南9050.48

黑龍江9086.47

陜西9146.91

四川9193.57

山西9253.16

河南9682.78

寧夏9834.55

河北9995.16

吉林10096.79

重慶10218.44

湖北10468.41

內(nèi)蒙古10653.94

湖南10794.94

遼寧11862.07

山東13094.62

福建14232.36

江蘇14664.97

天津16858.35

廣東18322.30

浙江19847.38

北京25907.81

上海32037.40

從得分的結(jié)果來看,作為發(fā)達(dá)城市的上海,北京,浙江,廣東等城市居民消費(fèi)平

均消費(fèi)顯然要比西藏、貴州、青海等地的人均消費(fèi)要多,這個是符合實(shí)際情況的。

(2)從樣本的相關(guān)系數(shù)矩陣出發(fā),求出樣本藥,々"3的第一和第二主成分,計

算各樣本主成分的貢獻(xiàn)率,將第一樣本主成分%從小到大排序,并分析排序的實(shí)

際含義。

解釋的總方差

初始特征值提取平方和載人

成份合計方差的%累積%合計方差的%累積%

12.94598.17598.1752.94598.17598.175

2.0381.27699.450.0381.27699.450

3.016.550100.000.016.550100.000

提取方法:主成份分析。

表一

成份矩陣"

成份

123

qtjm.994-.009-.104

ncjm.989-.133.058

czjm.989.143.047

提取方法:主成份。

a.已提取了3個成份。

表二

解:表一的第二列表示相關(guān)系數(shù)矩陣的特征值,第三列表示樣本主成分的

貢獻(xiàn)率,第四列表示樣本的累積貢獻(xiàn)率。可見到第一個主成分,累積貢獻(xiàn)率己經(jīng)

超過98%以上。根據(jù)表二的數(shù)據(jù)可以很快算出樣本的主成分,每一列分別對應(yīng)除

以反得出對應(yīng)的特征向量。

第一主成分的系數(shù)向量為:(0.994,0.989,0.989)/72.945

(0.579,0,576,0.576)所以第一主成分為:

Y1=O.579*x1+0.576*x2+0.576*x3

從而計算數(shù)據(jù)在第一主成分上的得分為:

西6951.85

貴7864.83

青7983.37

甘8008.04

8123.27

西

8484.22

8536.45

8554.25

西

8613.93

江8714.75

西

8770.57

8778.62

西

8865.35

8871.23

9340.49

9381.10

9621.36

9687.29

北9719.85

10042.46

內(nèi)蒙古10188.98

湖南10413.29

遼寧11393.33

山東12551.96

福建13747.25

江蘇14279.18

天津16095.76

廣東17281.96

浙江19236.75

北京24779.72

上海30806.26

從得分的結(jié)果來看,作為發(fā)達(dá)城市的上海,北京,浙江,廣東等城市居民消費(fèi)平

均消費(fèi)顯然要比西藏、貴州、青海等地的人均消費(fèi)要多,這個是符合實(shí)際情況的。

(3)比較兩種結(jié)果有何差異,試說明哪種結(jié)果更好?并說明你的理由。

兩種結(jié)果差異不大,使用哪種方法都可以,因?yàn)樵紨?shù)據(jù)的量綱相差不

大,幾乎都在同一數(shù)量級,所以使用協(xié)方差和使用相關(guān)系數(shù)都差不多。

(4)本題數(shù)據(jù)是否適合進(jìn)行因子分析?理由是什么?

KM0和Bartlett的檢驗(yàn)

取樣足夠度的Kaiser-Meyer-Olkin度量。.765

Bartlett的球形度檢近似卡方177.109

驗(yàn)df3

Sig..000

相關(guān)矩陣,

qtjmncjmczjm

相關(guān)qtjm1.000.979.977

ncjm.9791.000.962

czjm.977.9621.000

Sig.(單側(cè))qtjm.000.000

ncjm.000.000

czjm.000.000

a.行列式=.002

解:由KM0檢驗(yàn)值0.756(>0.6)和從變量的相關(guān)系數(shù)矩陣可以看出,各變量

間的相關(guān)性很高,因此變量間所表示的信息量有交叉部分,因此可以進(jìn)行因子分

析。

(5)取公共因子數(shù)為1時,對與與馬進(jìn)行因子分析,并進(jìn)行解釋;對公共因子耳

得分從小到大進(jìn)行排序,并進(jìn)行分析解釋。

公因子方差

初始提取

qtjm1.000.989

ncjm1.000.979

czjm1.000.977

提取方法:主成份分析。

選取一個因子,從上表可以看出因子可以解釋qtim,ncjm,czjm,因此本因子的提

取效果是理想的

(6)取公共因子數(shù)為2時,采用方差最大正交旋轉(zhuǎn)進(jìn)行因子分析,對公共因子耳

得分從小到大進(jìn)行排序。再對公共因子4K進(jìn)行解釋。

旋轉(zhuǎn)成份矩陣'

成份

12

qtjm.715.692

ncjm.798.600

czjm.604.796

提取方法:主成份。

旋轉(zhuǎn)法:具有Kaiser標(biāo)準(zhǔn)化的

正交旋轉(zhuǎn)法。

a.旋轉(zhuǎn)在3次迭代后收斂。

因子一只要解釋qtjm,ncjm,因子二主要解釋czjm。

(7)根據(jù)第(5)(6)小題的結(jié)果分析哪種取法更加合理?為什么?

解:(5)的方法更合理,因?yàn)橐粋€因子就可以解釋所有變量了。

(8)簡單說明因子分析中采用正交旋轉(zhuǎn)的目的是什么?

解:為了使一部分變量僅與第一個因子相關(guān),另一部分變量與第二個因子相

關(guān)。

三、各地區(qū)歷年電力消費(fèi)量見附件中數(shù)據(jù)文件dlxf.sav(單位:億千瓦小時);變

量X1-乂6分別代表2000年、20XX年、20XX年、20XX年、20XX年、20XX

年的電力消費(fèi):(本大題共20分,每小題4分)

(1)選擇三種不同的譜系聚類法聚類,并給出這三種方法分3類的結(jié)果;

1、采用最長距離:

群集成員

案例3群集

1:北京1

2:天津1

3:河北2

4:山西1

5:內(nèi)蒙古1

6:遼寧2

7:吉林1

8:黑龍江1

9:上海1

10:江蘇3

11:浙江2

12:安徽1

13:福建1

14:江西1

15:山東3

16:河南2

17:湖北1

18:湖南1

19:廣東3

20:廣西1

21:海南1

22:重慶1

23:四川1

24:貴州1

25:云南1

26:陜西1

27:甘肅1

28:青海1

29:寧夏1

30:新疆1

分類結(jié)果:

第1類:1、2、4、5、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、

28、29、30.

第2類:3、6、11、16,

第3類:10、15、19、

2、最短距離:

群零成員

|3群集

1:北京1

2:天津1

3:河北1

4:山西1

5:內(nèi)蒙古1

6:遼寧1

7:吉林1

8:黑龍江1

9:上海1

10:江蘇2

11:浙江1

12:安徽1

13;福建1

14:江西1

15:山東2

16:河南1

17:湖北1

18湖南1

19:廣東3

20:廣西1

21:海南1

22:重慶1

23:四川1

24:貴州1

25:云南1

26:陜西1

27:甘肅1

28:青海1

29:寧夏1

30:新疆1

分類結(jié)果:

第1類:1,2,、3、4、5、6、7、8、9、11、12、13、14、16、17、18、20、21、22、23、

24、25、26、27、28、9、30.

第2類:10、15。

第3類:19。

3、質(zhì)新法:

群集成員

5:內(nèi)蒙古1

6:遼寧1

7:吉林1

8:黑龍江1

9:上海1

10:江蘇2

11:浙江2

12:安徽1

13:福建1

14:江西1

15:山東2

16:河南2

17:湖北1

18:湖南1

19:廣東3

20:廣西1

21:海南1

22:重慶1

23:四川1

24:貴州1

25:云南1

26:陜西1

27:甘肅1

28:青海1

29:寧夏1

30:新疆1

分類結(jié)果:

第1類:1、2、4、5、6、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、

27、28、29、30.

第2類:3、10、11、15、16o

第3類:19。

(2)用快速聚類法進(jìn)行聚類,分別寫出分3類和4類的結(jié)果;

分為3類為:

聚類成員

案例號地區(qū)聚類距離

1北京2227.373

2天津2197.649

3河北1600.121

4山西1532.452

5內(nèi)蒙古2404.109

6遼寧1192.567

7吉林2180.935

8黑龍江2278.295

9上海1585.090

10江蘇3284.503

11浙江1859.277

12安徽2209.794

13福建2568.947

14江西2209.294

15山東3654.848

16河南1307.871

17湖北2669.441

18湖南2436.859

19廣東3897.880

20廣西281.107

21海南2852.741

22重慶2264.783

23四川1517.956

24貴州267.380

25云南2131.648

26陜西283.849

27甘肅243.459

28青海2585.657

29亍夏2392.516

30新疆2363.615

分類結(jié)果:

第1類:3、4、6、9、11、16、23。

第2類:1、2、5、7、8、12、13、14、17、18、20、21、22、24、25、26、27、28、29、

30.

第3類:10、15、19o

分為四類為:

聚類成員

案例號地區(qū)聚類距離

1北京2292.729

2天津2129.481

3河北1613.015

4山西4101.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論