的多元統計分析演示文稿_第1頁
的多元統計分析演示文稿_第2頁
的多元統計分析演示文稿_第3頁
的多元統計分析演示文稿_第4頁
的多元統計分析演示文稿_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

的多元統計分析演示文稿當前第1頁\共有35頁\編于星期五\6點(優(yōu)選)第五講的多元統計分析當前第2頁\共有35頁\編于星期五\6點SAS多元統計分析概論現實中的統計對象經常用多個指標來表示,比如人口普查,就可以有姓名、性別、出生年月日、籍貫、婚姻狀況、民族、政治面貌、地區(qū)等,企業(yè)調查,可以有凈資產、負債、盈利、職工人數、還貸情況等等。多個指標(變量)可以分別進行分析,但是,我們往往希望綜合使用這些指標,這時,有主分量分析、因子分析等方法可以把數據的維數降低,同時又盡量不損失數據中的信息。當前第3頁\共有35頁\編于星期五\6點SAS多元統計分析概論I.主分量分析一、理論介紹主分量分析的目的是從原始的多個變量取若干線性組合,能盡可能多地保留原始變量中的信息。從原始變量到新變量是一個正交變換(坐標變換)。設有是一個

維隨機變量,有二階矩,記,??紤]它的線性變換當前第4頁\共有35頁\編于星期五\6點當前第5頁\共有35頁\編于星期五\6點當前第6頁\共有35頁\編于星期五\6點當前第7頁\共有35頁\編于星期五\6點當前第8頁\共有35頁\編于星期五\6點SAS的PRINTCOMP過程有如下功能:完成主分量分析。主分量的個數可以由用戶自己確定,主分量的名字可以用戶自己規(guī)定,主分量得分是否標準化可自己規(guī)定。輸入數據集可以是原始數據集、相關陣、協方差陣或叉積陣。輸入為原始數據時,用戶還可以規(guī)定從協方差陣出發(fā)還是從相關陣出發(fā)進行分析。由協方差陣出發(fā)時方差大的變量在分析中起到更大的作用。計算結果有:簡單統計量,相關陣或協方差陣,從大到小排序的特征值和相應特征向量,每個主分量解釋的方差比例,累計比例等。可生成兩個輸出數據集:一個包含原始數據及主分量得分,另一個包含有關統計量,類型為TYPE=CORR或COV。可揭示變量間的共線關系。若某特征值特別接近0說明變量線性相關,這時用這些變量作回歸自變量可能得到錯誤的結果。當前第9頁\共有35頁\編于星期五\6點PRINCOMP主要使用PROCPRINCOMP語句與VAR語句。PROCPRINCOMP語句用來規(guī)定輸入輸出和一些運行選項,包括:DATA=輸入數據集,可以是原始數據集,也可以是TYPE=CORR,COV的數據集OUT=輸出包含原始數據和主分量得分的數據集OUTSTAT=統計量輸出數據集COV要求從協方差陣出發(fā)計算主分量。缺省為從相關陣出發(fā)計算。N=要計算的主分量個數。缺省時全算。NOINT要求在模型中不使用截距項。這時統計量輸出數據集類型為TYPE=UCORR或UCOV。STD要求在OUT=的數據集中把主分量得分標準化為單位方差。不規(guī)定時方差為相應特征值。用VAR語句指定原始變量。必須為數值型(區(qū)間變量)。當前第10頁\共有35頁\編于星期五\6點三、應用舉例例1.一月和七月平均氣溫的主分量分析在數據集TEMPERAT中存放有美國一些城市一月和七月的平均氣溫。我們希望對這兩個氣溫進行主成分分析,希望用一個統一的溫度來作為總的可比的溫度,所以進行主分量分析。程序如下:SAS多元統計分析概論當前第11頁\共有35頁\編于星期五\6點/*EXAMPLE1*/DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1INDIANAPOLIS27.975.0DESMOINES19.475.1WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC

PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;當前第12頁\共有35頁\編于星期五\6點組成分得分輸出到了數據集PRIN中,在INSIGHT中打開WORK.PRIN,分別繪制JULY對JANUARY、PRIN2對PRIN1的散點圖。從圖可以看出主分量為原始變量的一個正交旋轉。圖1一月、七月氣溫的散點圖和主分量散點圖

一月、七月氣溫的散點圖和主分量散點圖

當前第13頁\共有35頁\編于星期五\6點TheSASSystem02:18Wednesday,October26,20051ThePRINCOMPProcedureObservations64Variables2SimpleStatisticsJULYJANUARYMean75.6078125032.09531250StD5.1276191011.71243309CovarianceMatrixJULYJANUARYJULY26.292477746.8282912JANUARY46.8282912137.1810888TotalVariance163.47356647EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative1154.310607145.1476470.94390.943929.1629600.05611.0000EigenvectorsPrin1Prin2JULY0.3435320.939141JANUARY0.939141-.343532顯示結果如下:當前第14頁\共有35頁\編于星期五\6點輸出中,第一部分為簡單統計量(均值和標準差),第二部分為協方差的特征值(注意我們在過程中用了COV選項,無此選項用相關陣),從這里可以看到貢獻率(Proportion)和累計貢獻率(Cumulative),第三部分為特征向量。按本結果的特征向量值及用COV選項規(guī)定使用協方差陣,我們可以知道兩個主分量如此計算:PRIN1=0.326866(JULY-75.92)+0.945071(JANUARY-32.55)PRIN2=0.945071(JULY-75.92)+(-0.326866)(JANUARY-32.55)如果沒有用COV選項,原始變量還需要除以標準差。由系數可見,第一主分量是兩個月份的加權平均,代表了一個地方的氣溫水平,第二主分量系數一正一負,反應了冬季和夏季的氣溫差別。當前第15頁\共有35頁\編于星期五\6點例2.美國各種類型犯罪的主分量分析在數據集CRIME中有美國各個州的各種類型犯罪的犯罪率數據。希望對這些犯罪率數據進行主分量分析以概括犯罪情況。程序如下:SAS多元統計分析概論當前第16頁\共有35頁\編于星期五\6點/*EXAMPLE2*/DATACRIME;TITLE'各州每十萬人的犯罪率';

INPUTSTATE$1-15MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;CARDS;ALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONA9.534.2138.2312.32346.14467.4439.5ARKANSAS8.827.683.2203.4972.61862.1183.4CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHO5.519.439.6172.51050.82599.6237.6ILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTS3.120.8169.1231.61532.22311.31140.1MICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHCAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODEISLAND3.610.586.5201.01489.52844.1791.4SOUTHCAROLINA11.933.0105.9485.31613.62342.4245.1SOUTHDAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.21603.12988.7397.6UTAH3.520.368.8147.31171.63004.6334.5VERMONT1.415.930.8101.21348.22201.0265.2VIRGINIA9.023.392.1165.7986.22521.2226.7WASHINGTON4.339.6106.2224.81605.63386.9360.3WESTVIRGINIA6.013.242.290.9597.41341.7163.3WISCONSIN2.812.952.263.7846.92614.2220.7WYOMING5.421.939.7173.9811.62772.2282.0;PROC

PRINCOMPOUT=CRIMCOMP;RUN;PROC

SORT;BYPRIN1;PROC

PRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第一主分量作為總犯罪率排列';PROC

SORT;BYPRIN2;PROC

PRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第二主分量作為金錢犯罪與暴力犯罪對比的排列';PROC

GPLOT;PLOTPRIN2*PRIN1=STATE;TITLE2'PLOTOFTHEFIRSTTWOPRINCIPALCOMPONENTS';PROC

GPLOT;PLOTPRIN3*PRIN1=STATE;TITLE2'PLOTOFTHEFIRSTANDTHIRDPRINCIPALCOMPONENTS';RUN;當前第17頁\共有35頁\編于星期五\6點EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN14.114962.876240.5878510.58785PRIN21.238720.512910.1769600.76481PRIN30.725820.409380.1036880.86850PRIN40.316430.058460.0452050.91370PRIN50.257970.035930.0368530.95056PRIN60.222040.097980.0317200.98228PRIN70.12406.0.0177221.00000

EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7MURDER0.300279-.6291740.178245-.2321140.5381230.2591170.267593RAPE0.431759-.169435-.2441980.0622160.188471-.773271-.296485ROBBERY0.3968750.0422470.495861-.557989-.519977-.114385-.003903ASSAULT0.396652-.343528-.0695100.629804-.5066510.1723630.191745BURGLARY0.4401570.203341-.209895-.0575550.1010330.535987-.648117LARCENY0.3573600.402319-.539231-.2348900.0300990.0394060.601690AUTO0.2951770.5024210.5683840.4192380.369753-.0572980.147046

當前第18頁\共有35頁\編于星期五\6點第一主分量貢獻率只有59%,前兩個主分量累計貢獻率達到76%,可以用前兩個主分量。前三個主分量累計貢獻率已達到87%,所以前三個主分量可以表現犯罪率的大部分信息。第一主分量的計算系數都是正數,所以它是一個州的犯罪率的一個加權平均,代表這個州的總的犯罪情況。第二主分量在入室盜竊(BURGLARY)、盜竊罪(LARCENY)、汽車犯罪(AUTO)上有較大的正系數,在謀殺(MURDER)、強奸(RAPE)、攻擊(ASSAULT)上有較大的負系數,所以代表了暴力犯罪與其它犯罪的一種對比。第三主分量為搶劫、汽車犯罪等與盜竊罪、入室盜竊、強奸的對比,其意義不易解釋。當前第19頁\共有35頁\編于星期五\6點為了看出各州按第一主分量和第二主分量由低到高排列的情況,先用SORT過程排了序,然后用PRINT過程打印了結果(結果略)。在按第一主分量排序中,NorthDakota、SouthDakota、WestVirginia排列在前,說明其犯罪率最低,Nevada、California排列在后,說明其犯罪率最高。在按第二主分量排列的結果中,Mississippi排在最前,說明其暴力犯罪最高,Massachusetts最后,說明其暴力犯罪最低。后面用PLOT過程畫了主成分的散點圖。當前第20頁\共有35頁\編于星期五\6點四、用SAS/INSIGHT進行主分量分析 在SAS/INSIGHT中可進行主分量分析。例如,對于上面的WORK.CRIME數據集,在INSIGHT中打開它后,選“Analyze|Multivariate(Y's)”,彈出選擇變量的對話框,把各犯罪率變量都選為Y變量,然后按Output按鈕,選中主分量分析(PrincipalComponentAnalysis)復選框,OK后就得到了多變量分析結果(包括原始變量的簡單統計量、相關陣)和主分量分析的結果(特征值、累計貢獻率、特征向量)。另外還畫了前兩個主分量的散點圖。當前第21頁\共有35頁\編于星期五\6點應用組成分分析的論文討論1.TheEffectofFinancialRatiosonReturnsfromInitialPublicOfferings:AnApplicationofPrincipalComponentsAnalysis2.ConceptualPerspectivesonSelectingthePrincipalVariablesinthePurchasingmanager’sindex當前第22頁\共有35頁\編于星期五\6點因子分析當前第23頁\共有35頁\編于星期五\6點當前第24頁\共有35頁\編于星期五\6點

SAS/STAT的FACTOR過程可以進行因子分析、分量分析和因子旋轉。對因子模型可以使用正交旋轉和斜交旋轉,可以用回歸法計算得分系數,同時把因子得分的估計存貯在輸出數據集中;用FACTOR過程計算的所有主要統計量也能存貯在輸出數據集中。二、FACTOR過程使用當前第25頁\共有35頁\編于星期五\6點FACTOR過程用法很簡單,主要使用如下語句:

PROCFACTORDATA=數據集

選項;VAR原始變量;RUN;輸出結果包括特征值情況、因子載荷、公因子解釋比例,等等。為了計算因子得分,一般在PROCFACTOR語句中加一個SCORE選項和“OUTSTAT=輸出數據集”選項,然后用如下的得分過程計算公因子得分:PROCSCOREDATA=原始數據集SCORE=FACTOR過程的輸出數據集

OUT=得分輸出數據集;VAR用來計算得分的原始變量集合;RUN;當前第26頁\共有35頁\編于星期五\6點三、例子數據集SOCECON為洛杉基12個地區(qū)統計的五個社會經濟指標:人口總數(POP),教育程度(SCHOOL),就業(yè)數(EMPLOY),服務業(yè)人數(SERVICES),中等的房價(HOUSE)。用FACTOR過程可以進行主分量分析。下例中的SIMPLE選項要求計算變量的簡單統計量,CORR要求輸出相關陣。當前第27頁\共有35頁\編于星期五\6點DATASOCECON;TITLE'五個經濟指標的分析';INPUTPOPSCHOOLEMPLOYSERVICESHOUSE;CARDS;570012.8250027025000100010.9600101000034008.81000109000380013.6170014025000400012.816001402500082008.326006012000120011.44001016000910011.533006014000990012.5340018018000960013.736003902500096009.633008012000940011.4400010013000;PROC

FACTORDATA=SOCECONSIMPLECORR;TITLE2'主分量分析';RUN;

當前第28頁\共有35頁\編于星期五\6點12345Eigenvalue2.87331.79670.21480.09990.0153Difference1.07671.58180.11490.0847Proportion0.57470.35930.04300.02000.0031Cumulative0.57470.93400.97700.99691.0000結果給出了五個變量的簡單統計量,相關陣,和相關陣的特征值、累計貢獻:2factorswillberetainedbytheMINEIGENcriterion.

當前第29頁\共有35頁\編于星期五\6點前兩個主分量解釋了93.4%的方差,按照缺省的選擇因子個數的準則MINEIGEN,取大于1的特征值,所以取兩個因子。因子模式陣(factorpattern,或稱因子載荷陣)為最重要的結果之一:

FactorPatternFACTOR1FACTOR2POP0.580960.80

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論