




已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第五章 主成分分析與經(jīng)驗(yàn)正交分解5.1 主分量分析的數(shù)學(xué)模型當(dāng)存在若干個(gè)隨機(jī)變量時(shí),尋求它們的少量線性組合(即主成分),用以解釋這些隨機(jī)變量,是很必要的。首先我們看一個(gè)例子。幾個(gè)數(shù)據(jù)集1、(1) 身材情況能否用單個(gè)指標(biāo)刻畫(2) 男女身材之間有什么異同 chest waist hips gender chest waist hips gender34 30 32 male 36 24 35 female37 32 37 male 36 25 37 female38 30 36 male 34 24 37 female36 33 39 male 33 22 34 female38 29 33 male 36 26 38 female43 32 38 male 37 26 37 female40 33 42 male 34 25 38 female38 30 40 male 36 26 37 female40 30 37 male 38 28 40 female41 32 39 male 35 23 35 female2、subject maths english history geography chemistry physics1 60 70 75 58 53 422 80 65 66 75 70 763 53 60 50 48 45 434 85 79 71 77 68 795 45 80 80 84 44 463、air pollution in cities in the USA. The following variables were obtained for 1 US cities:SO2: SO2 content of air in micrograms per cubic metre;temp: average annual temperature in degrees Fahrenheit;manu: number of manufacturing enterprises employing 20 or more workers;popul: population size (1970 census) in thousands;wind: average annual wind speed in miles per hour;precip: average annual precipitation in inches;predays: average number of days with precipitation per year.例51 為了調(diào)查學(xué)生的身材狀況,可以測量他們的身高()、體重()、胸圍()和坐高()??墒怯眠@4個(gè)指標(biāo)表達(dá)學(xué)生身材狀況不方便。但若用=3.6356+3.3242+2.4770+2.1650表示學(xué)生身體魁梧程度;用=-3.9739+1.3582+3.7323-1.5729表示學(xué)生胖瘦程度。則這兩個(gè)指標(biāo)(,)很好概括了4個(gè)指標(biāo)(-)。例中,學(xué)生不同,身高()、體重()、胸圍()和坐高()不同;(, , , )是4維隨機(jī)向量;,是他們的2個(gè)線性組合,,能很好表示, , , 的特性。類似的問題在許多地方出現(xiàn):可觀測的隨機(jī)變量很多,需要選出所有所有隨機(jī)變量的少數(shù)線性組合,使之盡可能刻劃全部隨機(jī)變量的特性,選出的線性組合就是諸多隨機(jī)變量的主成分,又稱為主分量。尋求隨機(jī)向量主成分,并加以解釋,稱為主成分分析,又稱為主分量分析。主成分分析在許多學(xué)科中都有應(yīng)用,細(xì)節(jié)可參看張堯廷(1991)、Richard(2003),主成分分析在氣象等科學(xué)中稱為PCA方法,見吳洪寶(2005)。主成分分析的數(shù)學(xué)模型是:對于隨機(jī)向量X,想選一些常數(shù)向量,用盡可能多反映隨機(jī)向量X的主要信息,也即盡量大。但是的??梢詿o限增大,從而使無限變大,這是我們不希望的;于是限定模的大小,而改變各分量的比例,使最大;通常取的模為1最方便。定義5.1 設(shè)隨機(jī)向量二階矩存在,若常數(shù)向量,在條件1下使最大,則稱是X的第一主成分或第一主分量。由定義可見,盡可能多地反映原來p個(gè)隨機(jī)變量變化的信息。但是一個(gè)主成分往往不能完全反映隨機(jī)向量特色,必須建立其它主成分,它們也應(yīng)當(dāng)最能反映隨機(jī)向量變化,而且他們應(yīng)當(dāng)與第一主成分不相關(guān)(不包含的信息)。定義5.2 若常數(shù)向量c=在條件l,下,使最大,則稱是 X的第二主成分;若常數(shù)向量c=在條件l,下,使最大,則稱是 X的第三主成分;。當(dāng)隨機(jī)向量方差已知時(shí),定理5.1給出主成分的計(jì)算公式。定理5.1 設(shè)隨機(jī)向量方差存在為。特征值從大到小為,對應(yīng)的彼此正交單位特征向量為。則X的第j個(gè)主成分為 與X的內(nèi)積,即 (5.1)且證明:任取p維單位向量c,必有。于是,而在條件下,當(dāng),即時(shí),最大,所以X的第一主成分是與X的內(nèi)積。由條件,可得,于是,從而;所以在條件1、下,當(dāng)時(shí),最大,所以X的第2個(gè)主成分為與X的內(nèi)積。對第三,第四主成分同樣可證。例5.2 設(shè),且則=3.87939,=0.293128,-0.84403,-0.449099=1.6527,=0.449099,-0.293128,0.84403=0.467911,=0.84403,0.449099,-0.293128所以第一主成分就是=0.293128-0.84403 -0.449099;第二主成分就是=0.449099-0.293128+0.84403;第三主成分就是=0.84403+0.449099-0.293128。它們的方差貢獻(xiàn)分別是;。5.2 相關(guān)系數(shù)陣和協(xié)方差陣的主分量分析在實(shí)際問題中,X的每一分量可取不同單位,單位取小時(shí)(例如長度單位取毫米,甚至微米)該分量的方差會變大,從而在主成分中變得突出;而單位選取不應(yīng)影響主成分。為了避免量綱對主成分的影響。常常將隨機(jī)變量都標(biāo)化,即令,它就是無量綱量,令再求X*的主成分,即標(biāo)準(zhǔn)化后的主成分。將代入,可求隨機(jī)向量X的主成分。容易證明定理5.2 設(shè)隨機(jī)向量X的相關(guān)陣為,特征值為,對應(yīng)的彼此正交單位特征向量為,則標(biāo)準(zhǔn)化后X的第j個(gè)主成分是。因此,標(biāo)準(zhǔn)化后的主成分稱為由相關(guān)陣決定的主成分。直接由隨機(jī)向量的協(xié)方差陣算出的主成分稱為由協(xié)差陣決定的主成分。同樣一組隨機(jī)變量,用它們的協(xié)差陣和相關(guān)陣求出的主成分是不一樣的。這是因?yàn)閮?yōu)化的準(zhǔn)則(目標(biāo)函數(shù))不同:前者要求=最大,而后者要求=最大,其中。例5.3 (協(xié)差陣和相關(guān)陣決定的主成分不同)設(shè)隨機(jī)變量;其協(xié)方差陣是,特征值和特征向量是, 。因而由協(xié)方差陣決定的主成分是: ,。但隨機(jī)變量標(biāo)準(zhǔn)化后得到;其中 。X*的協(xié)差陣即X的相關(guān)陣是,其特征值和特征向量是,從而由相關(guān)陣決定的主成分是:。由于主成分由方差決定,可以略去常數(shù),因而由相關(guān)陣得到的主成分可寫為:,可見由協(xié)方差陣與相關(guān)陣決定的主成分不同。分別從相關(guān)系數(shù)陣和協(xié)方差陣計(jì)算主成分的例子。該例取自Jolliffe (2002). 該數(shù)據(jù)包含72位病人的八項(xiàng)血液化驗(yàn)指標(biāo)。data blood_corr(type=cov); input rblood plate wblood neut lymph bilir sodium potass;cards; 1.000 0.290 0.202 -0.055 -0.105 -0.252 -0.229 0.0580.290 1.000 0.415 0.285 -0.376 -0.349 -0.164 -0.1290.202 0.415 1.000 0.419 -0.521 -0.441 -0.145 -0.076-0.055 0.285 0.419 1.000 -0.877 -0.076 0.023 -0.131-0.105 -0.376 -0.521 -0.877 1.000 0.206 0.034 0.151-0.252 -0.349 -0.441 -0.076 0.206 1.000 0.192 0.077-0.229 -0.164 -0.145 0.023 0.034 0.192 1.000 0.4230.058 -0.129 -0.076 -0.131 0.151 0.077 0.423 1.000;proc princomp; /*用相關(guān)系數(shù)計(jì)算主成分*/var rblood plate wblood neut lymph bilir sodium potass; run;data blood_cov(type=cov); input rblood plate wblood neut lymph bilir sodium potass;cards; 0.137641000 4.4384103 0.14501277 -0.001571185 -0.002765805 -0.37742720 -0.232107988 0.0063908464.438410270 1701.8100090 33.12719033 0.905297085 -1.101290088 -58.12188799 -18.483324144 -1.5805261890.145012770 33.1271903 3.74422500 0.062428905 -0.071577585 -3.44491339 -0.766530900 -0.043676820-0.001571185 0.9052971 0.06242890 0.005929000 -0.004794559 -0.02362452 0.004838372 -0.002995839-0.002765805 -1.1012901 -0.07157758 -0.004794559 0.005041000 0.05904516 0.006595048 0.003184137-0.377427204 -58.1218880 -3.44491339 -0.023624524 0.059045162 16.29736900 2.117584128 0.092322153-0.232107988 -18.4833241 -0.76653090 0.004838372 0.006595048 2.11758413 7.463824000 0.3432238920.006390846 -1.5805262 -0.04367682 -0.002995839 0.003184137 0.09232215 0.343223892 0.088209000;proc princomp cov; /*用協(xié)方差計(jì)算主成分*/var rblood plate wblood neut lymph bilir sodium potass; run;5.3 主成分個(gè)數(shù)的確定下面討論對變量很多時(shí),選擇多少個(gè)主成分。它稱為第i個(gè)主成分的方差貢獻(xiàn),表示第i個(gè)主成分變化大小,從而反映第i個(gè)主成分提供的信息的大小。定義5.3 稱為主成分的方差貢獻(xiàn)率;稱為前k個(gè)主成分的累計(jì)方差貢獻(xiàn)率;與X第k個(gè)分量的相關(guān)系數(shù)稱為因子負(fù)荷量。當(dāng)某個(gè)主成分的方差貢獻(xiàn)率很小時(shí),認(rèn)為它提供的信息很少,可以略去此主成分。通常取q,使前q個(gè)主成分的累計(jì)方差貢獻(xiàn)率達(dá)到70%-80%,然后只考慮前q個(gè)主分量,用它們解釋隨機(jī)向量X的特性,其余主成分認(rèn)為是觀測誤差等隨機(jī)因素造成的。Jolliffe (2002), Rencher (2002).給出了許多實(shí)例,一些常用的選擇主成分個(gè)數(shù)的法則如下:1. Retain just enough components to explain some speci_ed large percentage of the total variation of the original variables. Values between 70% and 90% are usually suggested, although smaller values might be appropriate as q or n, the sample size, increases.2 . Exclude those principal components whose eigenvalues are less than the average, the average eigenvalue is also the average variance of the original variables. This method then retainsthose components that account for more variance than the average for the observed variables.3. When the components are extracted from the correlation matrix, trace(R) = q, and the average variance is therefore one, so applying the rule in the previous bullet point, components with eigenvalues less than one are excluded. This rule was originally suggested by Kaiser (1958), but Jolliffe (1972), on the basis of a number of simulation studies, proposed that a more appropriate procedure would be to exclude components extracted from a correlation matrix whose associated eigenvalues are less than 0.7.4. Cattell (1966) suggests examination of the plot of the against i, the socalled scree diagram. The number of components selected is the value of I corresponding to anelbowin the curve, i.e., a change of slope fromsteep to shallow. In fact, Cattell was more speci_c than this, recommending to look for a point on the plot beyond which the scree diagram de_nes a more or less straight line, not necessarily horizontal. The _rst point on the straight line is then taken to be the last component to be retained. And it should also be remembered that Cattell suggested the scree diagram in the context of factor analysis rather than applied to principal components analysis.5. A modification of the scree digram described by Farmer (1971) is the log-eigenvalue diagram consisting of a plot of against i.Returning to the results of the principal components analysis of the blood chemistry data given in Section 3.3, we find that the first four components account for nearly 80% of the total variance, but it takes a further two components to push this figure up to 90%. A cutoffb of one for the eigenvalues leads to retaining three components, and with a cuto_ of 0.7 four components are kept. Figure 3.1 shows the scree diagram and log-eigenvalue diagram for the data5.4 樣本主成分實(shí)際問題中隨機(jī)向量的協(xié)差陣、相關(guān)陣都是未知的,只能得到樣品。這時(shí)總用樣本協(xié)差陣與樣本相關(guān)陣代替協(xié)差陣、相關(guān)陣求主成分。定義5.4 樣本協(xié)差陣與樣本相關(guān)陣的特征向量,計(jì)算主成分。所得的主成分稱為樣本主成分。這樣求主成分是有道理的:若總體,的特征值和正交單位特征向量是和;是的極大似然估計(jì),即。的特征值為,相應(yīng)正交單位特征向量為,則可證定理5.3 若X服從正態(tài)分布,則是的極大似然估計(jì);是的極大似然估計(jì)。因此,若X服從正態(tài)分布,應(yīng)當(dāng)用第j個(gè)樣本主成分作為總體主成分的估計(jì)值。從樣本協(xié)差陣或樣本相關(guān)陣出發(fā),做主成分分析,所得樣本主成分通常簡稱為主成分。通常取為樣本協(xié)差陣(的無偏估計(jì)),由或R算出的樣本相關(guān)陣是相同的,所產(chǎn)生(相關(guān)差陣決定)的主成分當(dāng)然相同。而R與有相同的特征向量,R的特征值是特征值的n/(n-1)倍。因而由R與所產(chǎn)生的(協(xié)方差陣決定的)主成分相同。若X不一定服從正態(tài)分布,這時(shí)仍可由樣本協(xié)差陣R或相關(guān)陣出發(fā),計(jì)算主成分。同上節(jié)指出的一樣:樣本相關(guān)陣和樣本協(xié)差陣決定的主成分是不同的。5.5 SAS軟件計(jì)算樣本主成分樣本主成分的計(jì)算量很大,通常用軟件計(jì)算,以下介紹用SAS軟件計(jì)算的基本方法。SAS調(diào)用PRINCOMP過程(即主成分過程)作主成分分析。PROC PRINCOMP 過程對輸入資料文件執(zhí)行主成分分析。其輸入資料文件可以是原始數(shù)據(jù),也可以是一個(gè)相關(guān)系數(shù)矩陣,或是協(xié)方差陣。輸出資料則包括特征根、特征向量及標(biāo)準(zhǔn)化的主成分值。主成分分析是一個(gè)多變量統(tǒng)計(jì)程序,可用來鑒定多個(gè)數(shù)值變量之間的關(guān)系。主成分分析除了用來概述變量之間的關(guān)系外,還可用來削減回歸或集群分析中變量的數(shù)目。它的主要目的是求出一組變量的線性組合(即主成分),這些線性組合就是原變量矩陣的特征向量。每個(gè)向量的內(nèi)積就是該向量對原變量群能解釋的方差百分比。這些特征向量之間應(yīng)該是彼此線性獨(dú)立的。PROC PRINCOMP語法 PROC PRINCOMP DATA= SAS-data-set /*輸入資料文件名稱*/ OUT= SAS-data-set /*輸出資料文件名稱*/ OUTSTAT= SAS-data-set /*輸出資料文件名稱*/ NOINT COVARIANCE(COV) N= n STANDARD(STD) PREFIX= name NOPRINT SINGULAR= value VARDEF= DF|N|WEIGHT|WDF; 或N,或WGT,或WDF) VAR variable-list; /*指明那些數(shù)值變量作主成分分析*/ PARTIAL variable-list; FREQ variable; WEIGHT variable;BY variable-list;調(diào)用PRLNCOMP過程時(shí)常用兩個(gè)語句:即PROC PRINCOMP ,VAR。(1) PROC PRINCOMP語句。一般形式是 PROC PRINCOMP;其功能是調(diào)用PRINCOMP過程。加選項(xiàng)cov指示電腦用協(xié)差陣計(jì)算樣本主成分,不加選項(xiàng)cov則電腦用相關(guān)陣計(jì)算主成分;加選項(xiàng)out=文件名,指示電腦將每個(gè)觀測的主成分得分存入一個(gè)數(shù)據(jù)集,即“文件名”所表示的數(shù)據(jù)集,加選項(xiàng)n=k指示電腦只計(jì)算k個(gè)主成分,不加選項(xiàng)n=k則電腦計(jì)算全部p個(gè)主成分。例如proc princomp data=wang1 out=wang2 n=3;指示電腦對數(shù)據(jù)集wang1中數(shù)據(jù)做主成分分析,求3個(gè)主成分,并將各次觀測的主成分得分存入數(shù)據(jù)集wang2。(2) VAR語句其功能是規(guī)定要分析的變量。例如var x1-x3 u1 v2;表示將變量x1,x2,x3,u1,v作為隨機(jī)向量進(jìn)行主成分分析。 計(jì)算主成分固然重要,解釋主成分的意義更重要。下面我們介紹用SAS作主成分分析的實(shí)例,并對于算出的主成分加以解釋,希望學(xué)者對練習(xí)題中的主成分也試作解釋。 例5.4 北京19511976年冬季的氣溫資料如表5-1,第一列為年度,第二列為該年12月的月平均溫度。第三、四列為次年1、2月的月平均溫度。試做主成分分析。表 5-1 北京19511976年冬季月平均氣溫yearx1x2x319511.0-2.7-4.31952-5.3-5.9-3.51953-2.0-3.4-0.81954-5.7-4.7-1.11955-0.9-3.8-3.11956-5.7-5.3-5.91957-2.1-5.0-1.619580.6-4.3-0.21959-1.7-5.72.01960-3.6-3.61.31961-3.0-3.1-0.819620.1-3.9-1.11963-2.6-3.0-5.21964-1.4-4.9-1.71965-3.9-5.7-2.51966-4.7-4.8-3.31967-6.0-5.6-4.91968-1.7-6.4-5.11969-3.4-5.6-2.01970-3.1-4.2-2.91971-3.8-4.9-3.91972-2.0-4.1-2.41973-1.7-4.2-2.01974-3.6-3.3-2.01975-2.7-3.70.11976-2.4-7.6-2.2解:因?yàn)樗凶兞繂挝幌嗤?,可用協(xié)方差陣求主成分。以變量year Dec Jan Feb分別表示年度、12月、1月、2月的溫度。采用下列程序data temperat; /*建立數(shù)據(jù)集temperat*/input year Dec Jan Feb; /*建立變量year、Dec、Jan和Feb*/cards; /*以下為數(shù)據(jù)體*/1951 1.0 -2.7 -4.31952 -5.3 -5.9 -3.51953 -2.0 -3.4 -0.81954 -5.7 -4.7 -1.11955 -0.9 -3.8 -3.11956 -5.7 -5.3 -5.91957 -2.1 -5.0 -1.61958 0.6 -4.3 -0.21959 -1.7 -5.7 2.01960 -3.6 -3.6 1.31961 -3.0 -3.1 -0.81962 0.1 -3.9 -1.11963 -2.6 -3.0 -5.21964 -1.4 -4.9 -1.71965 -3.9 -5.7 -2.51966 -4.7 -4.8 -3.31967 -6.0 -5.6 -4.91968 -1.7 -6.4 -5.11969 -3.4 -5.6 -2.01970 -3.1 -4.2 -2.91971 -3.8 -4.9 -3.91972 -2.0 -4.1 -2.41973 -1.7 -4.2 -2.01974 -3.6 -3.3 -2.01975 -2.7 -3.7 0.11976 -2.4 -7.6 -2.2; /*空語句,結(jié)束數(shù)據(jù)體*/proc princomp cov; /* 用協(xié)差陣做主成分分析*/var Dec Jan Feb; /* 對變量Dec Jan Feb 作主成分分析*/run; 執(zhí)行上述程序,得到得許多表,主要的是:基本統(tǒng)計(jì)量(Simple Statistic);協(xié)方差矩陣(Covariance Matrix);樣本協(xié)差陣的特陣值表(Eigenvalues of the Covariance Matrix)、方差貢獻(xiàn)、方差貢獻(xiàn)率及累計(jì)方差貢獻(xiàn)率;樣本協(xié)差陣的特征向量表(即主成分的系數(shù)表,Eigenvectors)。這些表及分析如下Eigenvalues Eigenvalue Difference Proportion Cumulative PRIN1 4.79742 2.06927 0.552919 0.55292 PRIN2 2.72815 1.57720 0.314429 0.86735 PRIN3 1.15095 . 0.132652 1.00000上表是樣本協(xié)差陣的特征值表(表頭為Eigenvalues),其中PRIN1、PRIN2、PRIN3表示3個(gè)主成分,上表第2列給出樣本協(xié)差陣的特征值,第4列給出方差貢獻(xiàn),第5列給出方差貢獻(xiàn)累計(jì)百分比。由于前兩個(gè)特陣值方差貢獻(xiàn)累計(jì)百分比等于0.867354,它大于0.7,所以只需取兩個(gè)主成分。 Eigenvectors PRIN1 PRIN2 PRIN3 DEC 0.643587 0.709882 -.286116 JAN 0.213039 0.192899 0.957812 FEB 0.735126 -.677390 -.027085上表是特征向量表(表頭為Eigenvectors)上表給出所考察變量樣本協(xié)差陣的特征向量(0.643587,0.213039,0.735126)、(0.709882,0.192899,-0.677390)和(-0.286116,0.957812,-0.027085)。因此第一、二、三主成分分別是=0.643587Dec+0.213039Jan+0.735126Feb,=0.709882Dec+0.192899Jan-0.677390Feb,=-0.286116Dec+0.957812Jan-0.027085Feb由于第一主成分中Dec,Feb系數(shù)是較大正數(shù),Jan系數(shù)是較小正數(shù),說明第一主成分主要表示冬季氣溫偏高的程度,由于1月分的系數(shù)變化較小,冬季氣溫偏高主要由12月,2月溫度的偏高形成。第二主成分Dec系數(shù)與Feb系數(shù)反號較大,反映第二主成分主要表示12月與2月溫度距平的反差,即12月溫度距平減去2月溫度距平所得值的反差。例55 美國各州犯罪率情況如表5-2。試以murder(謀殺),rape(強(qiáng)奸),robbery(搶劫),assult(斗毆),burglary(夜盜),larceny(偷竊),auto(汽車犯罪)為7元隨機(jī)向量,做主成分分析。表 5-2 美國各州犯罪率(十萬人中犯罪人數(shù))murderraperobberyassultburglarylarcenyautoAlbama14.225.296.8278.31135.51881.9280.7Alaska10.851.696.8284.01331.73369.8753.3Arirona9.534.2138.2312.32346.14467.4439.5Arkansas8.834.2138.2312.32346.14467.4439.5Califonia11.549.4287.0358.02139.43499.8663.5Colorado6.342.0170.7292.91935.23903.2477.1Conecticat4.216.8129.5131.81346.02620.7593.2Delaware6.024.9157.0194.21682.63678.4467.0Florida10.239.6187.9449.11859.93840.5351.4Geogia11.731.1140.5256.51351.12170.2297.9Hawaii7.225.5128.064.11911.53920.4489.4Idaho5.519.439.6172.51050.82599.6237.6Illinois9.921.8211.3209.01085.02828.5528.6Indiana7.426.5123.2153.51086.22498.7377.4Iowa2.310.641.289.8812.52685.1219.9Kansas6.622.0100.7180.51270.42739.3244.3Kentaky10.119.181.1123.3872.21662.1245.4Loisana15.530.9142.9335.51165.52469.9337.7Maine2.413.538.7170.01253.12350.7246.9Maryland8.034.8292.1358.91400.03177.7428.5Masschusetts3.120.8169.1231.61532.22311.31140.1Michigan9.338.9261.9274.61522.73159.0545.5Minnesota2.719.585.985.81134.72559.3343.1Mississippi14.319.665.7189.1915.61239.9144.4Missouri9.628.3189.0233.51318.32424.2378.4Montana5.416.739.2156.8804.92773.2309.3Nebraska3.918.164.7112.7760.02316.1249.1Nevada15.849.1323.1355.02453.14212.6559.2Mew Hampashare3.210.723.276.01041.72343.9293.4New Jersey 5.621.0180.4185.11435.82774.5511.5New Maxico8.839.1109.6343.41418.73008.6259.5New York10.729.4472.6319.11728.02782.0745.8North Carolina10.617.061.3318.31154.12037.8192.1North Dakoda100.99.013.343.8446.11843.0144.7Ohio7.827.3190.5181.11216.02696.8400.4Oklahoma8.629.273.8205.01288.22228.1326.8Oregan4.939.9124.1286.91636.43506.1388.9Pennsyvania5.6 19.0130.3128.0877.51624.1333.2Rhode Island3.610.586.5201.01849.52844.1791.4South Carolina 11.933.0105.9485.31613.62342.4245.1South Dakoda2.013.517.9155.7570.51704.4147.5Tennessee10.129.7145.8203.91259.71776.5314.0Texas13.333.8152.4208.21603.12988.7397.6Utah3.520.368.8147.31171.63004.6334.5Vermont1.415.930.8101.21348.22201.0265.2Virginia9.023.392.1165.7986.22521.2226.7Wasinton4.339.6106.2224.81605.63386.9360.3West Viginia6.013.242.290.9597.41341.7163.3Wiskonsin2.812.952.263.7846.92614.2220.7Wyoming5.421.939.7173.9811.62772.2282.0 解:評估美國各州犯罪率時(shí),用7種犯罪率為7維隨機(jī)向量,以50個(gè)州的統(tǒng)計(jì)數(shù)據(jù)為50次觀測??紤]不同犯罪的犯罪率差異很大,用相關(guān)陣計(jì)算主成分。采用程序data crime; /*建立數(shù)據(jù)集crime*/input state $ 1-15 murder rape robbery assult burglary larceny auto;/*建立變量state murder rape robbery assult burglary larceny auto。state $ 1-15表示前15列存州名。murder rape robbery assult burglary larceny auto 表7種罪的犯罪率*/cards; /*以下為數(shù)據(jù)體*/ Albama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7 Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3 Arirona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5 Arkansas 8.8 34.2 138.2 312.3 2346.1 4467.4 439.5 Califonia 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5 Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1 Conecticat 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2 Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0 Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4 Geogia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9 Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4 Idaho 5.5 19.4 39.6 172.5 105
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/JSSL 0008-2023取用水計(jì)量設(shè)施現(xiàn)場校準(zhǔn)技術(shù)規(guī)范
- T/CSWSL 036-2024N-?;呓z氨酸內(nèi)酯酶
- T/CNCA 052-2023礦用開槽機(jī)通用技術(shù)條件
- T/CIE 211-2024無線信道模擬設(shè)備測試方法
- T/CSES 148-2024水生生物環(huán)境DNA實(shí)驗(yàn)室建設(shè)技術(shù)要求
- 與亞洲有關(guān)的試題及答案
- 拒絕調(diào)崗合同到期解除協(xié)議6篇
- 2025年出口貿(mào)易合同模板6篇
- 小班夏季疾病預(yù)防
- 林地承包合同標(biāo)準(zhǔn)版6篇
- 2025年安全管理員安全培訓(xùn)考試試題帶答案(培優(yōu))
- 【中考真題匯編】專項(xiàng)查漏補(bǔ)缺現(xiàn)代文閱讀-2025年中考語文(含答案)
- 2025年綠色建筑與可持續(xù)發(fā)展考試試題及答案
- 手表質(zhì)押借款協(xié)議書
- 湖北省八校聯(lián)考2025屆高三三模語文試題(含答案)
- 2025四川西南發(fā)展控股集團(tuán)有限公司招聘工作人員65人筆試參考題庫附帶答案詳解
- 危險(xiǎn)化學(xué)品企業(yè)“安全領(lǐng)導(dǎo)力”專題培訓(xùn)指導(dǎo)材料(雷澤佳編制-2025A1)
- (三模)溫州市2025屆高三第三次適應(yīng)性考試英語試卷(含答案)
- 光伏高空作業(yè)施工方案
- 虛擬電廠的智能優(yōu)化與管理研究-第1篇-全面剖析
- 湖北省武漢市2025屆高中畢業(yè)生四月調(diào)研考試數(shù)學(xué)試卷及答案(武漢四調(diào))
評論
0/150
提交評論