數(shù)學有關SAS統(tǒng)計檢驗的模型_第1頁
數(shù)學有關SAS統(tǒng)計檢驗的模型_第2頁
數(shù)學有關SAS統(tǒng)計檢驗的模型_第3頁
數(shù)學有關SAS統(tǒng)計檢驗的模型_第4頁
數(shù)學有關SAS統(tǒng)計檢驗的模型_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

#稱直線回歸,直線回歸要求變量Y服從正態(tài)分布且方差相等。當變量間不是線性關系時,通常需要進行數(shù)據(jù)變換,再進行線性回歸分析,或直接用原數(shù)據(jù)進行非線性回歸。根據(jù)資料類型,SAS可以進行各類回歸分析:常用SAS過程回歸類型資料類型因變量自變量Reg線性回歸數(shù)值變量數(shù)值變量GLM協(xié)方差模型、一般線性模型數(shù)值變量數(shù)值變量、分類變量LogisticLogistic回歸分類變量數(shù)值變量、分類變量CatmodLogistic\Poisson回歸分類變量數(shù)值變量、分類變量Nlin非線性回歸數(shù)值變量數(shù)值變量4.3.1直線回歸1背景概述多元線性回歸分析簡介假定因變量y與k個解釋變量X],x2,...,Xk具有線性關系,即總體回歸模型:y二b+bx+bx+...+bx+u,卩?n(0,o2),i=l,2,...,ni011i22ikkii/或E(y)=b+bx+bx+...+bxi011i22ikki樣本回歸模型:y-b+bx+bx+...+bxi011i22ikki殘差:e-y一yiii最小二乘法:min£牛=叮辱?!璖i-1總離差平方和的分解式:總平方和=解釋平方和+殘差平方和TSS=ESS+RSS即工(y-亍)2-工(y-jy+工(y-y)2TSS=ESS+RSSiiii判定系數(shù):R判定系數(shù):R2-R2-1-(1-R2)n-1n-k-1回歸模型的顯著性檢驗(F檢驗):Ho:匕電=…=bk=012kHl:b1,b2,…,bk至少有一個不為0。12k檢驗統(tǒng)計量FRSS檢驗統(tǒng)計量FRSS/kESS/(n-k-1)?F(k,n-k-1)變量(如x.)顯著性檢驗(t檢驗):Ho:b=0,H’:b#0i0i1ib-b檢驗統(tǒng)計量t-ii?t(n一k一1)Sb2.reg過程格式:Procreg小8上8=數(shù)據(jù)集名選項;Var可參與建模的變量列表;Model因變量=自變量表/選項;Print輸出結(jié)果;Plot診斷圖形;Run;3?應用舉例【例1】對數(shù)據(jù)集sasuser.class中建立以weight為因變量,height和age為自變量的線性回歸模型,并作簡要回歸分析。思路:先考察weight與height'age間的線性關系,可用散點圖和相關分析,確定有線性關系后再作回歸分析。

Pearson相關丟數(shù),N=當HO:Rho=0時「Prob>r|AgeWeightHeightWeight1.000000.87779<.00010.740890.0003Height0.87779<.00011.000000.81143<.0001Age0.740890.00030.81143<.00011.00000TheREGProcedure

Model:M0DEL1

DependentVariable:WeightNumberofObservationsRead19NumberofObservationsUsed19AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePr>FModel27215.637103607.8185527.23<.0001Error162120.09974132.50623CorrectedTotal189335.73684RootMSE11.51114R-Square0.7729DependentMean100.02632AdjR-Sq0.7445CoeffVar11.50811ParameterEmtimsitegVariableDFParamet亡rEstimgteStandardErrortValuePr>|t|Intercept1-141.2237633.38309-4.230.0006Height13.597030.905463.970.0011Age11.278393.110100.410.6865分析:由散點圖和相關分析可知weight和height,age間有較強的線性關系。A(1)回歸方程為:weight=-141.22376+3.59708height+1.27839age判定系數(shù):R2=0.7729R2=0.7445,說明因變量Y的變異中由模型能解釋的部分占到77.29%,模型擬合效果較好。(2)回歸模型的顯著性檢驗檢驗的零假設Ho:b]=b2=0,由輸出結(jié)果的方差分析表中F統(tǒng)計量為27.23,檢驗的p值小于0.0001,在a=0.05的顯著性水平下,應拒絕H0,說明模型是顯著成立的。(3)變量的顯著性檢驗對變量height而言,檢驗的零假設Ho:b1=0,由輸出結(jié)果的參數(shù)估計部分的t統(tǒng)計量值為3.97,雙邊檢驗p值為0.0011,所以在a=0.05的顯著性水平下,應拒絕H0,說明height變量對weight變量有顯著性影響。類似可得對變量age,t統(tǒng)計量值為-0.41,雙邊檢驗p值為0.6865,在a=0.05的顯著性水平下,應接受H0,說明模型是age變量對weight變量影響不顯著性。說明:(1)如果要自動挑選最優(yōu)變量,可在model語句中增加選項'selection=選擇方法'選擇方法有none(全用,默認)、forward(逐步引入法)、backward(逐步剔除法)、stepwise(逐步篩選法)等。如modelweight=heightage/selection=stepwise;/*逐步回歸*/run;(2)要輸出其它結(jié)果可以print語句,如PrintcliRun;(3)若是一元線性回歸,可以在因變量和自變量的散點圖上加上回歸直線和均值置信界限,程序如下:procregdata=sasuser.class;modelweight=height;plotweight*height/conf95;

run;(4)若是要輸出多元線性回歸中殘差對預測值診斷圖,可用如下語句:plotresidual?*predicted?;run;4.3.2非線性回歸許多情況下變量間呈曲線關系,求解變量間的曲線關系的方程,可以直接擬合所選擇的曲線方程式但有時也可以變量代換成直線方程,再應用直線駕照的方法求解?!纠?】某地大氣中氰化物測定結(jié)果如下:距離污染物距離X(m)50100許多情況下變量間呈曲線關系,求解變量間的曲線關系的方程,可以直接擬合所選擇的曲線方程式但有時也可以變量代換成直線方程,再應用直線駕照的方法求解。【例2】某地大氣中氰化物測定結(jié)果如下:距離污染物距離X(m)50100氰化物濃度Y(mg/m3)0.6870.3981500.22000.1212500.093000.054000.025000.01散點圖分析表明Y和散點圖分析表明Y和X間呈現(xiàn)指數(shù)函數(shù)關系y=10a+bx,現(xiàn)求回歸方程。方法一:TheREGProcedure

Model:MODEL1

DependentVariable:logyNumberofObservationsReadNumberofObservationsUsedSourceDFSumofSquaresMeanSquareTheREGProcedure

Model:MODEL1

DependentVariable:logyNumberofObservationsReadNumberofObservationsUsedSourceDFSumofSquaresMeanSquareFValuePr>FModel12.709602.70960701.70<.0001Error60.023170.00386CorrectedTotal12.73277AnalysisofVarianceRootMSEDependentMeanCoeffVar0.06214R-Square0.9915-1.02814AdjR-Sq0.9901-6.04403VariableDFParameEstimsit已StandardErrortValuePr>|t|Intercept1-0.031840.04356-0.730.4923X1-0.004090.00015430-26.49<.0001ParameterEmtimates分析:logy與x間的直線回歸議程為:logy=—0.03184—0.00409xA代入logy=loglO(y),得指數(shù)方程為:y=10-。①⑻-0.00409x方法二:方法二:Nlinj±程直接作非線性回歸襯-datab2;inputkycards;500.6871000.3981500.22000.1212500.0903000.054000.025000.01run;-procgplot:plotK*y;run;-procnlindata=b2:parmsa=0b=0;modely=10**(a+b*z);run;

IheNL1NHrocedure

DependentVariabley

Method:Gauss-NewtonIterati^ePhaseIterabSumofSquares0005.54411-0.2147-0.000550.72932-0.2021-0.001740.13363-0.0263-0.003490.017940.0638-0.004630.0016350.0810-0.004890.0010760.0823-0.004910.0010670.0824-0.004910.0010680.0S24-0.004910.00106NOTE:Convergenceeriterionmet.EmtimsiticinSummaryMethodGauss-NewtonIterationg8R2.069E-6PPC(a)7.644E-7RPC(a)0.000022Object3.737E-9Obj已utive0.001063ObservationsRead8ObservationsUsed8ObservationsMissing0NOTE:AninterceptwasnotspecifiedforthismodelSourceDFSourceDFModel2Error6Uncorrect胡Totsil8SumofMeanApproxSquaresSquareFValuePr>F0.69510.34751960.85<.00010.001060.0001770.6961ParameterEwtimsiteStdErrorParameterEwtimsiteStdErrora0.08240.0142b-0.004910.000169ApproxApproximate95XConfidenceLimitw0.04760.1172-0.00533-0.00450Approximat亡Approximat亡CorreiationaMatrixba1.0000000a1.0000000b-0.8731961-0.87319611.0000000A分析:指數(shù)方程為A分析:指數(shù)方程為y=100.0824-0.00491x4.3.3二分類變量的Logistic回歸(Logistic過程)引言:有時候會遇到因變量為分類變量,這時可建立Logistic模型,本節(jié)只針對取值只有兩種(發(fā)生或不發(fā)生)的情況。模型簡介:設P為某事件發(fā)生的概率,取值范圍為0~1,1-p為事件不發(fā)生的概率,將比數(shù)p/(l-p)取自然對數(shù)得

ogitP為ln(p/(l-p)),即Logit變換,記為LogitP。則LogitP的取值范圍為-g至到+w。以LogitP為因變量,建立線性回歸模型為:LogitP二b+bx+bx+...+bxez則模型變形為P=i+eez則模型變形為P=i+e;1l+e-z記z=b+bx+bx+...+bx0lli22ikki數(shù)據(jù)要求:因變量為二分類變量,自變量可以是分類變量或等間隔測度的變量。如果為分類變量,則應為二分類或重新編碼為指示變量?!纠??3】數(shù)據(jù)集data09-02.sav是乳腺癌患者的數(shù)據(jù)。變量包括:age(年齡)、time(患病時間)、pathscat(月中瘤擴散等級)、pathsize(腫瘤大?。?、histgrad(腫瘤史)、ln-yesno(癌變部位的淋巴結(jié)是否含有癌細胞)。建立一個Logistic模型,并預測一個腫瘤大小為1cm,腫瘤史為1年,腫瘤擴散等級v2cm患病時間為1個月的60歲人癌變部位的淋巴結(jié)是否含有癌細胞。給定顯著性水平o=0.05輸出:TheLOGISTICProcedureModelInformationDataSetResponseVariableNumberofResponseLeveIsModelOptimizationTechniqueWORK.NEWIruyesno滯巴結(jié)是否含有癌細胞binarylogitFisher?sscoring輸出:TheLOGISTICProcedureModelInformationDataSetResponseVariableNumberofResponseLeveIsModelOptimizationTechniqueWORK.NEWIruyesno滯巴結(jié)是否含有癌細胞binarylogitFisher?sscoringNumberofObservationsReadNumberofObservationsUsed12071207OrderedValueln_yesnoTotalFrequency1092921278ResponseProfiIeProbabiIitymodeIedisln_yesno=0.ModeIFitStatisticsModelConvergenceStatusConvergencecriterion(GC0NVz1E-8)satisfied.CriterionInterceptOnlyandCovariat曲AIC1304.7551247.668SC1309.8511278.243-2LogL1302.7551235.668InterceptTestingGlobalNullHypothesis:BETA=0DFPr>ChiSqLikelihoodRatio67.0873Score68.0813Wald62.5532TestChi-Square<.0001<.0001<.0001ParameterDFEmtimsiteStandardErrorWaldChi-SquarePr>ChiSqIntercept1-0.24240.4130DFPr>ChiSqLikelihoodRatio67.0873Score68.0813Wald62.5532TestChi-Square<.0001<.0001<.0001ParameterDFEmtimsiteStandardErrorWaldChi-SquarePr>ChiSqIntercept1-0.24240.41300.34460.5572age10.02740.0055624.3272<.0001time10.002400.002420.98520.3209psithscat10.56440.108527.0668<.0001psithsize1-0.56560.109126.8750<.0001histgwd10.04510.08050.31400.5753AnalysisofMaximumLikeIihoodEmtimatesOddsRatioEwtimsitewPoint95第WaldEffectEmtimsiteConfidenceLimitsage1.0281.0171.039time1.0020.9981.007psithscat1.7581.4222.175psithsize0.5680.4590.703histgraid1.0460.8931.225TheLOGISTICProcedureAssociaticinandObservedResponsesPercentConcordant65.8Somers5D0.321PercentDiscordant33.7Gamma0.322PercentTied0.6Tau-a0.114Pairs258262c0.660ofPredictedProbabiIitieg結(jié)論:Logistic回歸模型擬合結(jié)果為:LogitP=一0.2424+0.0274xage+0.00240xtime+0.5644xxpathscat—0.5656xpathsize+0.0451xhistgradz=logitP=—0.2424+0.0274x60+0.00240x12+0.5644x1—0.5656x1+0.0451x1=1.4742則P=—^=1一=0.8137>0.51+e—z1+e-1.4742故該病人癌變部位的淋巴結(jié)會含有癌細胞。作業(yè):P15916補充:某調(diào)査中收集了350大學生的數(shù)據(jù)信息,研究戀愛與否(變量V)與年齡(age)、地區(qū)(Location),各科平均成績(score)、性別(sex)及身高(height)等變量的關系。各變量定義如下:戀愛與否(變量V)年齡(age)地區(qū)(Location)各科平均成績(score)性別(sex)身高(height)0:未戀愛單位:歲0:農(nóng)村單位:分0:女單位:厘米1已戀愛1城市1:男假設收集數(shù)據(jù)如下:agelocationscoreheightweightsexv21159318315410191467178185112O155O17717O1O2114141751141O1915O216O98OO21O3611751261O21O595166112112OO4O917814O11222145O17O16O1O2314821681O6OO18OO16O1O6OO2O147517O12O112OO6151651O6OO19154916811O1O試建立Logistic模型,并分析22歲農(nóng)村男生、身高170cm,平均成績?yōu)?60時的戀愛概率。4.4屬性數(shù)據(jù)分析變量分為數(shù)值型變量(連續(xù)型變量)和分類變量(離散型變量),而分類變量又分為名義變量(如性別分為:男、生,種族分為白、黃、黑)和有序變量(年級分為一、二、三、四,成績等級分為優(yōu)、良、中、差)。前面所講到的統(tǒng)計分析是針對數(shù)值型變量,本節(jié)是針對離散型變量,討論單個離散變量分布的擬合優(yōu)度檢驗方法,檢驗兩個離散變量的獨立性殘聯(lián)表檢驗,有序變量的關聯(lián)性度量(不作要求)。4.4.1單個離散變量的擬合優(yōu)度卡方檢驗1?功能:檢驗離散變量的取值規(guī)律是否符合某種給定的比例。Pearson提出的卡方檢驗的零假設為:H:Pr(X=a)=p(i=1,2,...,k)0ii統(tǒng)計量為:X2=X2=丈i=1(n—np)2iinpiDX2(k—1)其中:n.為事件A.的觀測頻數(shù),p.為事件A.的頻率。iiii例1:某工廠近5年來發(fā)生了63次事故,按事故發(fā)生的星期號分類如下:星期-一一二三四五六次數(shù)9101181312問事故的發(fā)生是否與星期幾有關?思路分析:米用擬合優(yōu)度卡方檢驗六種情況發(fā)生的概率是否相等,HO:Pr(X=i)=1/6(i=1,2,…6)。程序為:

235Illi/*擬合優(yōu)度卡方檢驗235Illi/*擬合優(yōu)度卡方檢驗-dataaccident;inputdaytimes;cards;1312run;-procfreqdata=accident;tablesday/chisqtestp=(0.1666670.1666670.1666670.1666670.1666670.166667);weighttimes;頻數(shù)變量*/run;輸出為:FREQ過程day頻數(shù)百分比檢驗百分比累積頻數(shù)累積百分比1914.2916.67914.2921015.8716.671930.1631117.4616.673047.624812.7016.673860.3251320.6316.675180.9561219.0516.6763100.00卡方1.6667自由度5"》卡方0.8931樣本大小=63結(jié)果分析:零假設HO:Pr(X=i)=l/6(i=l,2,...6),由輸出擬合優(yōu)度卡方檢驗的統(tǒng)計量X=1.667,p=0.8991,對于給定的顯著性水平a=0.05,p>a,所以接受H0,說明事故發(fā)生與星期幾沒有關系。注明:檢驗的是等概率情形時,選項testp語句可以省略。4.4.2兩個離散變量的列聯(lián)表獨立性檢驗1.列聯(lián)表的輸入與制表列聯(lián)表的概念:根據(jù)兩個離散變量的交叉分類取值把樣本進行分類,得到每一小類的觀測個數(shù)制成表格的形式稱為列聯(lián)表,如根據(jù)學生的性別和來源把學生分為4組,得到如下統(tǒng)計表:學生性別、來源分布表男生女生本地46外地147輸入方式一:枚舉法—每一行為一個樣本觀測,即一個學生的信息記錄,如:dataclass;inputsnosex$from$;labelsno='編號'sex='性另U'from='來源';cards;1男本地2女外地3男外地/*所有學生的記錄*/;run;然后使用freq過程可以制成列聯(lián)表,使用tables語句指定行變量和列變量,procfreqdata=class;tablesfrom*sex;run;輸入方式二:頻數(shù)表法一一沒有具體每行樣本觀測的信息,只有匯總的頻數(shù)表,則需要設置一個代表觀測頻數(shù)的變量,如/*輸入方式二:頻數(shù)法*/dataclass2;inputfrom$sex$numcell;labelfrom='來源'sex='性另0'numcell='單元格頻數(shù)';cards;本地男4本地女6外地男14外地女7;run;然后用freq過程可以制成列聯(lián)表,使用tables語句指定行變量和列變量,weight語句指定單元格頻數(shù)變量procfreqdata=class2;tablesfrom*sex;weightnumcell;run;兩種方式的輸出結(jié)果一樣,如下圖,每一個格子中有4個數(shù):Frequency(頻數(shù))、percent(百分比)、RowPct(行百分比)、ColPct(列百分比)。在表的右側(cè)有行總計的頻數(shù)及百分比,在表的下側(cè)有列總計的頻數(shù)及百分比。

FREQ過程*sex表頻數(shù)百分比行百分比列百分比男FREQ過程*sex表頻數(shù)百分比行百分比列百分比男合計本地12.9040.0022.2219.3560.0046.151032.26外地1445.1666.6777.7822.5833.3353.852167.74合計1858.061341.9431100.00fmm(來源)「性別F)說明:簡化形式的列聯(lián)表,可以在tables語句中加上nofreq>nopercent>norow、nocol等選項。如/*簡化形式的列聯(lián)表:只有單元格頻數(shù)*/procfreqdata=class2;tablesfrom*sex/nopercentnorownocol;weightnumcell;run;2.列聯(lián)表獨立性檢驗功能:檢驗兩個離散變量的取值是否獨立。檢驗的零假設為HO:離散變量X與變量y相互獨立st(n-nnn)2檢驗統(tǒng)計量X2=£工耳一X2((r-1)(s-1))i=1j=1nnni=1j=1i++jn=工n,

+n=工n,

+jji=1i+jj=1例2:為了探討吸煙與慢性支氣管炎有無關系,調(diào)查了339人,情況如下程序為:輸出結(jié)果的性檢驗的程序為:輸出結(jié)果的性檢驗的患慢性支氣管炎未患慢性支氣管炎吸煙43162不吸煙13121

幾種方法的統(tǒng)計量與p值,第三部分Fisher精確檢驗結(jié)果。FREQ過程smoke爪bron表smoke(吸咽)bron(慢性支氣管炎)頻數(shù)期望值不患病患病合計不吸煙121111.861322.136134吸煙162171.144333.864205合計28356339smoke爪bron表的統(tǒng)計量統(tǒng)計量自由度值槻率卡方17.46880.0063似然比卡方17.92500.0049連續(xù)校正卡方16.67360.0098Mantel-Haenszel卡方17.44670.0064Phi丟數(shù)0.1484列聯(lián)系數(shù)0.1468Cramer的V0.1484Fisher精確檢驗單元格(1,1)頻數(shù)(F)左側(cè)Pr<=F右側(cè)Pr>=F1210.99850.0041表槻率(P)雙側(cè)Pr<=P0.00260.0069樣本犬小=339結(jié)果分析:零假設H0:吸煙與慢性支氣管炎相互獨立,由輸出結(jié)果中peraons卡方獨立性檢驗統(tǒng)計量為X=7.4688,p=0.0063,對于給定的顯著性水平a=0.05,p<a,故拒絕H0,即認為吸煙與患慢性支氣管炎間不是相互獨立的。說明:各種檢驗方法應根據(jù)資料選?。篢――最小的單元格期望頻數(shù),n――總樣本量當T>5且n>40選Person卡方值,它是最常用的檢驗方法。當1VTV5且n>40選連續(xù)校正卡方值;似然比卡方在大樣本下與Person卡方近似。Fisher精確檢驗法適用于2X2的交叉表,n<40或T〈5(有的教材上稱樣本量小于20)。4.4.3兩個離散變量的關聯(lián)度分析引言:對于區(qū)間變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論