世界統(tǒng)計與分析全才sas系統(tǒng)應用指南上、下冊3類別數(shù)據(jù)程序概述_第1頁
世界統(tǒng)計與分析全才sas系統(tǒng)應用指南上、下冊3類別數(shù)據(jù)程序概述_第2頁
世界統(tǒng)計與分析全才sas系統(tǒng)應用指南上、下冊3類別數(shù)據(jù)程序概述_第3頁
世界統(tǒng)計與分析全才sas系統(tǒng)應用指南上、下冊3類別數(shù)據(jù)程序概述_第4頁
世界統(tǒng)計與分析全才sas系統(tǒng)應用指南上、下冊3類別數(shù)據(jù)程序概述_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第14章SAS系統(tǒng)內(nèi)兩種處理類別數(shù)據(jù)程序概 名詞解 簡單的隨機抽樣一個母 分等的簡單隨機抽樣多個母 等值變異數(shù)的檢定一個自變 等值變異數(shù)的檢定兩個或兩個以上自變 第15章類別數(shù)據(jù)的歸納統(tǒng)計程序PROC 名詞解 PROCFREQ程序概 如何撰寫PROCFREQ程 第16章類別數(shù)據(jù)的線性模型統(tǒng)計程序 PROCCATMOD程序概 如何撰寫PROCCATMOD程 第三部類別數(shù)14章SAS兩種分析類別數(shù)據(jù)的程本章介紹兩個可用來分析類別數(shù)據(jù)的統(tǒng)計程序一是PROCFREQ CATMOD現(xiàn)分別簡介其功能如下PROCFREQ程序畫次數(shù)分配表或列聯(lián)表(ContingencyTables)(檢定的)統(tǒng)計值如2檢定費契爾的精確性測試(Fisher'sExactTest)相關(guān)系數(shù)若讀者指定執(zhí)行分等簡單的隨機抽樣(StratifiedSimpleRandomSampling)FREQ程序可算出CMH統(tǒng)計值(Cochran-Man-PROCCATMOD程序?qū)⒏鞣N線性模型(如變異數(shù)分析回歸分析對數(shù)線性分析對數(shù)回歸分析及重復觀察分析)應用在類別數(shù)據(jù)的函數(shù)上[除了以上這兩個統(tǒng)計程序外第19章所介紹的PROBIT以及第20章介紹的LOGISTIC均可用來處理類別的數(shù)據(jù)然而因后者所用的模型屬回歸的線性模型因此歸入第四部分再介紹有的讀者可先行翻閱第1920章以便與PROCFREQPROCCATMOD等分析方法同時考慮]類別變量產(chǎn)生的測量結(jié)果是一些不連貫的數(shù)字這些數(shù)字之間有空隙收集這一類數(shù)字的測量工具可以由最粗淺的名義變量NominalVariable(如) 變量AbsoluteVariable(如家庭人口數(shù)目) 中間涵蓋了次序變量OrdinalVariable(如對某一的看法分不贊成無意見)及區(qū)間變量IntervalVariable(如溫度))當類別數(shù)據(jù)來自觀察體在兩個類別變量上的數(shù)據(jù)時我們可用矩陣的行表示第一(如男女)(如國籍里的中美日)而形成一個二維的列聯(lián)表(ContingencyTable)當類別數(shù)據(jù)來自兩個以上的類別變量時須以的列聯(lián)表表成一個剖面圖(Profile)如下性國1(男1(中2不贊成51(男2(美5很贊成32(女1(中4贊成62(女3(日3無意見4(如1男2女)很少有含小數(shù)的值所以類別數(shù)據(jù)的值之間有空隙并不連貫簡單的隨機抽樣一個母首先讓我們以一個例子來解釋假如你希望知道一般[一個母群(OnePopulation)]對五種口味的喜好程度如何?你從市的簿上隨手翻到兩百個人(樣本)的名字與經(jīng)過一一查詢之后(問"你最喜歡下列那一種口味?")你發(fā)現(xiàn)這兩百人的口味如下(見次頁)北方粵湘川西人數(shù)比從上面的比例看來川菜是最受歡迎的口味其次是粵菜再其次是北方菜然后是計值(或參數(shù)的估計值)假設(shè)我們以1 4與5來代表整個中國對于這五種口味喜好的百分比則樣本統(tǒng)計數(shù)的大小是這五個參數(shù)的函數(shù)統(tǒng)計上稱此函數(shù)分配為多項式分配(MultinomialDistribution)它的函數(shù)表示如下4Prob n5)4

n1!n2!n3! n=n1n2n3n4n5(Binomial分等的簡單隨機抽樣多個母群現(xiàn)在假設(shè)你希望知道的男女(兩個母群)對上述五種口味的喜好程度如何則你必須修改抽樣的計劃取一百位男士與一百位然后他(或她)們最喜好的口(StratifiedSimpleRandomSampling)假如說男女的口味不盡相同我們或許會得到下頁的結(jié)果

北方北方粵湘川西總男5女55總是固定的然而行總數(shù)的值卻不固定其大小視實際結(jié)果而決定若上述的數(shù)量代表實際的結(jié)果則我們可說男士們一般偏愛中國傳統(tǒng)的口味如粵菜與湘菜而們多偏這個問題仍可用同樣的多項式分配來處Prob =每一 都代表母群的參數(shù)n代表樣本大小下標則表示(12)與菜名 5)分等取樣所得的結(jié)果最適用于CATMOD程序的處理特別是當樣本的數(shù)據(jù)夠多時上述的多項式分配可以用常態(tài)分配來取代(這個理論的基礎(chǔ)是極限理論CentralLimit 由此理論基礎(chǔ)可導出統(tǒng)計的檢定值稱為Wald值這個統(tǒng)計檢定的樣本分配 2分配整個母群的觀察與分在這一節(jié)內(nèi)討論整個母群的觀察與分析舉例來說市的某商業(yè)電臺準備對聽眾作所用的方法是邀請聽眾在某個預訂的周六下午主動打到電臺表明他們最喜歡的電臺與他們的沒有來的聽眾則自動放棄參與的機會所以這個的對象就是那些熱心且主動參與這次的所有聽眾從統(tǒng)計的角度來看這些人就是整個母群了綜小說廣心理輔總年長年輕總這類的資料處理通常是用PROCFREQ其統(tǒng)計的模型是超幾何分布(HypergeometricDistribution)在樣本夠大的情況下這個分配可用常態(tài)分配來取代因此最后導出的統(tǒng)計檢定是用卡平方(2)當作隨機的樣本分配但我們所嘗試要回答的問題是聽眾的同樣的可推廣到哈爾濱市 廣州等地區(qū)這么多地區(qū)所共同收集的資料同樣地可利用PROCFREQ來分析其理論基礎(chǔ)是CMH測試(Cochran-Man-HaenszelTest)并且隨機樣本的分析也是利用卡平方分配采用隨機分派的假設(shè)某市立高中把自然科學組的學生分成實驗班與普通班任課的老師們完全一樣唯一不同的是實驗班的教學著重的操作與自我發(fā)現(xiàn)普通班的教法則采用傳統(tǒng)式的授課抄筆記做家庭作業(yè)等所有的學生以抽簽的方式編入這兩班之一經(jīng)過高考之后升總(5044)然而上榜與落榜的人數(shù)則不可預知由于數(shù)據(jù)本身是類別數(shù)據(jù)上述的表格可用PROCFREQ來分析以便探討實驗班的教學方法是否比普通班更有效等值變異數(shù)的檢定一個自變量此種檢定可以用皮爾森的2檢定或用可能比2檢定(LikelihoodRatio2Test)來執(zhí)行上述的兩種2檢定都包含在PROCFREQ統(tǒng)計程序里讀者只須選用CHISQ選項即可現(xiàn)在我們試用上一節(jié)(14.6)的例子來說明等值變異數(shù)的檢定這個例子中有一個自變量即教學法此自變量下分兩級實驗班及普通班我們研究的問題是這兩班學生的上榜人數(shù)是否有顯著的不同?我們的虛無假設(shè)是這兩班學生的上榜人數(shù)是相同的因此DATAINPUTDATAINPUTMETHOD$RESULT$COUNT@@;EXPPASS EXPFAILCTRLPASS CTRLFAIL;PROCWEIGHTTABLESMETHOD*RESULT/結(jié)根據(jù)檢定的結(jié)果2值足以虛無假設(shè)(P0.029)所以我們的結(jié)論是實驗班與普然而在普通班里學生上榜或落榜的比例則完全一樣14.1等值變異數(shù)的檢定一個自變TABLEOFMETHODBYRESULT PercentRowPctColPct | 22 22 |23.40|23.40||50.00|50.00|61.11|37.93 14 36 |14.89|38.30||28.00|72.00|38.89|62.07 STATISTICSFORTABLEOFMETHODBYChi-1LikelihoodChi-1ContinuityAdj.Chi-1 -HaenszelChi-1Fisher'sExactTest(Left)(2-Phi2.39E-3.48E-ContingencyCramer'sSampleSize=等值變異數(shù)的檢定兩個或兩個以上自變假若上述高考的例子推廣至重點與非重點的學校無論公非重點學校均設(shè)置實驗班與普通班則等值變異數(shù)的檢定將牽涉兩個自變量一是教學法(分實驗班及普通班)另一個是學校類別(分重點及非重點)學上榜人落榜人總1非重實驗2非重普通3重實驗4重普通總在這個教學法研究中我們所問題比以前更詳細即這四種班級學生的上榜人數(shù)是否有顯著的不同?以預測如果四班上榜人數(shù)有顯著的不同可能有下列四種原因重點非重點學校之別(最后的這種解釋法又稱為飽和或滿秩的模型因它把所有可能的因素都考慮進去PROCCATMOD的程序上述A-DSAS程DATADATAINPUTSCHOOL$METHOD$PASSFAIL;PRIVATEEXPPRIVATECTRLPUBLICEXPPUBLICCTRL;DATASETRESULT='PASS';RESULT='FAIL';PROCPROCCATMODDATA=B;WEIGHTCOUNT;MODELRESULT=SCHOOLMETHOD結(jié)對截距與教學法(主效果)的2檢定均達到顯著的程度(P<0.10)然而就讀之學?;蚪虒W法與學校的交互作用則未達顯著水準由此可下結(jié)論說數(shù)據(jù)顯示上(落)榜人數(shù)仍多半取決于老師的教學法與學生就讀的學校似乎無關(guān)14.2等值變異數(shù)的檢定兩個或兩個以上自變CATMODResponse: ResponseLevels WeightVariable: DataSet: TotalFrequency POPULATION1234RESPONSE 123411111211--31-1-41--1YSISOFVARIANCEChi-11110..在這一節(jié)里介紹如何利用皮爾森的 2檢定來檢驗一組樣本里兩個類別變量的關(guān)系即這兩個變量到底是獨立無關(guān)或者是互相有關(guān)連的?舉例說我們想知道工出口區(qū)的工人對婦女解放及獨身政策這兩件事的看法是否互相有關(guān)連?我們可抽樣兩百名工人問他們兩個問題問題一您是否贊成婦女解放運動?(是否)問題二您是否認為取消獨身政策?(應該不應該)請讀者注意這一類型的統(tǒng)計檢定一般均無法預知到底有多少人會贊成(或不贊成)婦解運動或獨身政策所以邊際頻率將由抽樣的結(jié)果獲得總?cè)藬?shù)(N=200)是唯一一個可事先控制的數(shù)據(jù)假設(shè)獲得的數(shù)據(jù) 0此例的虛無假設(shè)是工人對這兩件事情的看法是無關(guān)連的現(xiàn)用皮爾森 2檢定來DATAINPUTDATAINPUTLIBERTY$ONECHILD$COUNT;AGREEYESAGREENODISAGREEYESDISAGREENO;PROCWEIGHTTABLES結(jié)2(P<0.001)(絕對值=.80.625)所以根據(jù)數(shù)據(jù)的次數(shù)分布我們可下結(jié)論說贊成婦解的受試者也傾向贊成無條件的墮胎(98人)反之不贊作婦解的受試者也同時不支持無條件的墮胎(80人)14.3獨立性檢TABLEOFLIBERTYBY Frequency| Row Col | 22 98 |11.00|49.00||18.33|81.67|21.57|100.00 DISAGREE 80 0 |40.00 0.00||100.00 0.00|78.43 0.00 STATISTICSFORTABLEOFLIBERTYBYChi-11ContinuityAdj.Chi-1 -HaenszelChi-1Fisher'sExactTest7.26E-(2-1.26E-Phi-ContingencyCramer'sSampleSize=-假如我們設(shè)計一個實驗探討到底是退休婦女還是職業(yè)婦女的生活比較忙碌?利用隨(周一)與最末一天(周六)的中午十二點來取資料每一位受試必須誠實地回答她在那一個時刻累不累?答案是二分的累或不累經(jīng)過兩次不同時日的觀察之后結(jié)果可能如下所示 身份周周累累累不不累不不總?cè)藬?shù)在這個中唯一的自變量是婦女的其因變量是周一的結(jié)果與周六的調(diào)查結(jié)果因有兩個關(guān)系的因變量所以這類的實驗稱為重復觀察的實驗以上的數(shù)據(jù)經(jīng)過PROCCATMOD處理后分析的結(jié)果如下程DATADATAINPUTSTATUS$MONDAY$SATURDAY$COUNT;RETIRETIREDTIRED45WORKTIREDTIRED35RETIRETIREDNOTIRED30WORKTIREDNOTIRED40RETIRENOTIREDTIRED27WORKNOTIREDTIRED55RETIRENOTIREDNOTIRED48WORKNOTIREDNOTIRED;;PROCCATMOD;WEIGHTCOUNT;RESPONSEMARGINALS;MODELMONDAY*SATURDAY=STATUS_RESPONSE_STATUS*_RESPONSE_;REPEATEDTIME2/_RESPONSE_=TIME;結(jié) 明顯的差異最后退休婦女與職業(yè)婦女在周一(或周六)感覺累或不累的百分比近乎相14.4重復觀

Response WeightVariable: DataSet: Total POPULATION RESPONSEe112234 DESIGN Number 111111211--211-1-21--1YSISOFVARIANCEChi-11110..NOTE:_RESPONSE_YSISOFWEIGHTED-LEAST-SQUARES1234-NOTE:_RESPONSE_15章類別數(shù)據(jù)的歸納統(tǒng)計程序PROC首先我們要用一個例子解釋本章常用到的三個名詞類別變量類別及類別數(shù)據(jù)假設(shè)某一個大學有兩百名教員其中一百二十人女性八十人那么 是一個類別變量這個變量下含兩個類別男女若我們以1代表2代表女性 PROCFREQ程序PROCFREQ最適合用來計算類別數(shù)據(jù)出現(xiàn)的次數(shù)以及類別變量之間的關(guān)系一般而言最簡單的統(tǒng)計分析是建立一個次數(shù)分配表(又稱頻率表) 個或多個類別變量所產(chǎn)生下面我們用例子示范如何利用PROCFREQ來建立不同的次 假設(shè)一間大學有教員兩百人他們的四個類別變量分別是 男女) 教育程度EDUC(下分兩個類別即 職位STATUS(下分講師教授三類別)及年篇數(shù)PUB(下分兩個類別三篇及以下三篇以上) 面將分別說明一元二元三元(或三元以上)PROC;PROC;男女PROCPROC男女總數(shù)請讀者注意第一個變量的類別是列第二個變量的類別是行讀者也可以要求執(zhí)行'2'?系則讀者可進一步要求計算它們的相關(guān)程度PROC(四個PROC請讀者注意我們?nèi)杂眯翘栠B接各變量這個程序?qū)a(chǎn)生四個次數(shù)分配表每一個分配表中與教育程度的值均固定在一個值上即男男博士女 女博士而職位(倒數(shù)第二個變量)的類別成列年篇數(shù)(倒數(shù)第一個變量)的類別成行如 男 總數(shù)和上述二元變量的次數(shù)分配表類似的是讀者也可要求在四個二元次數(shù)分配表內(nèi)(即男男博士女女博士的次數(shù)表)執(zhí)行2測試以判斷職位與年篇數(shù)兩最后請讀者注意多元變量的次數(shù)分析極容易產(chǎn)生大量的報表例如假設(shè)有五個變量(每一變量各有十個類別)則這個多元變量次數(shù)分配即可能產(chǎn)生四千多頁的報表到底是不是每一頁輸出資料都是必要的?讀者最好事先想清楚再分析以免浪費時間精如何撰寫PROCFREQ程PROCFREQ含五道指令它們的格式如下PROCPROC TABLES次數(shù)分配表的設(shè)計選項WEIGHT變量名OUTPUTOUT=輸出資料文件名 #1PROCFREQ為輸入文件命名若省略此選項則SASSAS文件對它執(zhí)行分析界定某一變量下各類別的輸出次序當ORDER=FREQ時次序先后依各類別次數(shù)多少而定次數(shù)最多的那一個類別最先次數(shù)第二多的那一類別第二以此類組是第二組當ORDER=DATA時類別次序就是它們在輸入文件內(nèi)出現(xiàn)的順序當ORDER=INTERNAL時類別次序由英文字母先后順序決定如的兩個類別男以MALE代表女以FEMALE代表此選項會定組為第一組男生組為第二組當ORDER=FORMATTED時類別次序由外在格式?jīng)Q定當省略此選項時內(nèi)設(shè)值是ORDER=INTERNAL另外遺漏數(shù)據(jù)總是排在最前面FORMCHAR 指定三個字母用來畫次數(shù)分配表上的各種線段例如讀者選用ABC則分配表的直線將由A(第一個字母)構(gòu)成表上的橫線將由B(第二個字母)構(gòu)成直線與橫線交會的地方由C(第三個字母)構(gòu)成若選用三個空格(即FORMCHAR(127)='']則分配表上沒有線段分隔行與列若省略此選項SAS自動訂FORMCHAR(127)='|-+'FREQ程序每頁只打印一個次數(shù)分配表當不界定此選項時FREQ會考慮指令#2TABLES次數(shù)分配表的設(shè)計選項刪除號(/)以前的次數(shù)分配表設(shè)計指一元二元或多元變量的安排最普通的方法是用星號連接各變量如A*B*C*D*E線(--)來簡化這一部分程序的撰寫如 TABLESA*BTABLES(AB)*(CD);等于TABLESA*CA*DB*CB*D;TABLES(ABC)*D; 等于TABLESA*DB*DC*D;TABLES(A--C)*D; 也等于TABLESA*DB*DC*D; 語意含糊應避免使用 若省略此選項則PROCFREQ(即一元變量若讀者要求一元變量的次數(shù)分配然而未在刪除號(/)后選用任何選項(如TABLES 則PROCFREQ會自動計算該變量(A)下各類別的次數(shù)累積次數(shù)次數(shù)百分比及累積次數(shù)百分比并將這些數(shù)值包括在次數(shù)分配表內(nèi)若讀者要求多元(指二元及以上)變量的次數(shù)分配而且沒有在刪除號()后選用任何選項(如TABLESA*B;) PROCFREQ會自動計算兩變量交集的次數(shù)兩變量交集的次數(shù)百分比(分別以全體總次數(shù)為分母以列次數(shù)為分母以行次數(shù)為分母) 現(xiàn)在我們來談有關(guān)遺漏資料的處理假設(shè)有一輸入文件內(nèi)含兩名受試類別變量是(男=M 在此例中遺漏數(shù)據(jù)的個數(shù)等于1 這個值會印在分配表的下方由于遺漏類別等于F 分配表將不會包括這個遺漏類別所以這個文件的次數(shù)分配表應是 2刪除號(/)以后的選項可分下列五大類討論類選項要求制造次數(shù)分配的數(shù)值第三類選項控制報表的印出第四類選項界定有關(guān)統(tǒng)計分析的細節(jié)第五類選項涵蓋其它選項 要求三個卡平方(2)測試這些測試包括皮爾森的2測試可能比2測試及孟德-(Man-Haenszel)2(CoefficientofContingency)V(Cramer'sV)(Fisher'sExactTest)--只適用于二行乘二列的次數(shù)分配表要求一系列的線性關(guān)系指標以及它們的標準誤這些指標包括皮爾森系數(shù)斯皮爾門系數(shù)甘瑪系數(shù)堪氏系數(shù)(Kendall'stau-b) 史都爾系數(shù)(Stuart'stau-c)素摩爾系數(shù)(Somer'sD)藍姆達系數(shù)(Lambda) 對稱與不對稱的不定系數(shù) 對稱與不對稱的若次數(shù)分配表是二行乘二列的則此指令還包含奇數(shù)比(OddsRatio) 風險率(RiskRatio)以及它們的信賴區(qū)間等要求執(zhí)行克倫-孟德-(Cochran-Man-Haenszel)的統(tǒng)計檢驗這是用來測量行變量與列變量的關(guān)系程度(并同時控制TABLES指令內(nèi)所有其它變量)在二行PROCFREQ(CommonRelativeRisk)以及比斯羅測試(Breslow'sTest)(CHISQMEASURESCMH)要求執(zhí)行費氏的標準測試(Fisher'sExactTest)計算的是根據(jù)Mehta及Pa(1983)的文獻分析的結(jié)果含雙尾以及左右單尾的顯著度以利讀者的解釋若觀察體個數(shù)太多則此選項不太適用決定觀察體個數(shù)的如下n(r-1)(c-

n=r=c=若計算的結(jié)果超過5 則讀者最好不選用此選項若結(jié)果不大于5 使用此選項當讀者另外界定ALL的選項時此選項不包括在內(nèi)須另外界定此選項計算且檢定次數(shù)分類表內(nèi)行分類與列分類吻合的程度此適用于正方的分類表若行列數(shù)均等于2 則此選項自動執(zhí)行麥克內(nèi)碼檢定McNemar’stest若行列數(shù)大于2則此選項執(zhí)行鮑克爾的對稱檢定Bowker’stestofsymmetry除此之外選項AGREE還計算Kappa值及其標準誤后的Kappa值以及其標準誤等有關(guān)這些統(tǒng)計值的定義以及其均等的檢定讀者可參考Agresti(1990)與Fleiss(1981)的文獻 )(實際次數(shù)

期待次數(shù)計算多元關(guān)系系數(shù)PolychoricCorrelationCoefficient這個關(guān)系系數(shù)的統(tǒng)計假設(shè)是行變相值與列變相值的母群分配是一個二元的常態(tài)分配當行列數(shù)等于2時多元關(guān)系系數(shù)也四分關(guān)系系數(shù)(TetrachoricCorrelationCoefficient)若二元常態(tài)分配的假設(shè)成立則多元關(guān)系系數(shù)等于皮爾森系數(shù)的最大可能率估計值此估計值由牛頓-羅福森計算系統(tǒng)來推算推算過程采用循環(huán)式若循環(huán)次數(shù)達到20次內(nèi)設(shè)值或讀者界定的MAXITER=次數(shù)或收斂值小于0.0001內(nèi)設(shè)值或讀者自定的CONVERGE=值則循環(huán)推算的過程完成(指二元變量及以上)促使PROCFREQ印出TABLES指令中全部變量之類別間所有可能的排列組合此選項與LIST選項(見下述)及輸出文件有關(guān) 抑止印出次數(shù)分配表 但允許印出各種統(tǒng)計分析的結(jié)果 CMH及ALL等選項所產(chǎn)生的分析結(jié)果 指明到底對何種數(shù)據(jù)執(zhí)行CMH統(tǒng)計檢驗或計算皮爾遜關(guān)系若 則指的是分配表上行與列的次數(shù)另外三種(RANK MODRIDIT)都是用來做無參數(shù)分析的內(nèi)設(shè)值是SCORES=TABLE RIDIT的定義請見Bross(1958) Mack和Skillings(1980)的參考文獻有關(guān)MODRIDIT請參考Elteren(1960)和Lehmann(1975)的著作此值介于0與1之間內(nèi)設(shè)值是 PLCORR選項聯(lián)用內(nèi)設(shè)值是PLCORR選項聯(lián)用內(nèi)設(shè)值是20 要求PROCFREQ將遺漏數(shù)據(jù)包括在樣本總數(shù)里然后根據(jù)這個總數(shù)來計算次數(shù)要求將多元變量的次數(shù)分配表以條列式表示當PROCFREQ執(zhí)行獨立性檢驗時不能用此選項另外若選用此選項則各細格的期待次數(shù)不會被印出(即使讀者選用了EXPECTED選項)PCT_COLPCT_ROW此選項要求OUT=SAS輸出數(shù)據(jù)文件內(nèi)含各細格的期待次數(shù)#3WEIGHT這個變量的值代表每個觀察體的值(一般而言每個觀察體應只代表一個數(shù)據(jù) 這個變量的值必須是正實數(shù)帶小數(shù)點亦可假一個文件內(nèi)含三個變量種族(RACE) ( )及工作時數(shù)(HRSWORK) 而且假設(shè)種族下有兩個類別白人PROCPROCTABLES 則我們會得到一個二元變量的次數(shù)分配表它告訴我們文件內(nèi)含多少位白人女性白人女性若再加上一道WEIGHT指令其變量為各人的工作小時數(shù)PROCPROCTABLESRACE* WEIGHTHRSWORK;#4BYSAS依據(jù)此指令所列舉的變量將文件分成幾個小的文件然后對每一個小的文件分別執(zhí)行分析當讀者選用此指令時文件內(nèi)的數(shù)據(jù)必須先按照BY變量的值做由小到大的重新排列這個步驟可借PROCSORT達成指令#5OUTPUTOUT=這個指令會產(chǎn)生一個輸出數(shù)據(jù)文件內(nèi)含F(xiàn)REQ程序的分析結(jié)果TABLES指令下的選項如AGREEALLCHISQCMHEXACTMEASURES以及等此外有效數(shù)據(jù)與遺漏數(shù)據(jù)的個數(shù)也可納入此數(shù)據(jù)文件內(nèi)OUTPUT1OUT=輸出數(shù)據(jù)文件名2關(guān)鍵字符下列關(guān)鍵字也代表變量名稱前后 如 其意義如 意 由選項CHISQCMHMEASURES導出的統(tǒng)計值及有效數(shù)據(jù)的個 比斯羅Breslow-Day檢定 三個卡平方檢定值森的x2檢定可能比x2檢定孟德-x2檢定系數(shù)列聯(lián)系數(shù)克爾森的V系數(shù)以及費切爾的正準檢定值 克倫-孟德-韓金關(guān)系系數(shù)相對風險率對數(shù)奇數(shù)比以及糾正過后的奇數(shù) Kappa系數(shù) MEASURES系數(shù)史杜爾系數(shù)索摩爾系數(shù)藍姆達系數(shù)對稱與不對稱的不定系數(shù)對稱與不對稱的等若次數(shù)分配表是二行乘二列的則此關(guān)鍵字尚包括奇數(shù)比風險 值得讀者注意的定這些關(guān)鍵字之前者必TABLES指令下界定其關(guān)系的選項如PLCORR否則這些關(guān)鍵字的值不存在若列聯(lián)表的向度是三元以TABLESA*B*C/KAPPAKappa值是針對每AB*C二元列聯(lián)表導出的因此變量A及其值亦被納OUT=的輸出數(shù)據(jù)文件內(nèi)同理任何By變量及其值亦被納入輸出數(shù)據(jù)文件 九名公務人員參加鑒定考試(EDUC)可大致分成三類1=低2=中高考試的結(jié)果分成六等(16)等級愈高成績愈好讓我們看看這兩個變量間有無關(guān)系由于人數(shù)太少所以指令TABLES后面加Fisher'sExactTest(以選項EXACT表DATADODATADOEDUC=1TODOLEVEL=1TOINPUTWT@@;OUTPUT;PROCFREQ;WEIGHTWT;TABLESEDUC*LEVEL/EXACT;TITLE'FISHER"SEXACTTESTFOR3BY6TABLE';200000012000000121;結(jié)分析的結(jié)果顯示這九名的學歷與他們考試的結(jié)果是息息關(guān)系的(Fisher's測試值的統(tǒng)計顯著度是0.0238) 由于人數(shù)不足所以卡平方的不可靠15.1學歷與公務人員鑒定考試的關(guān)系研FISHER"SEXACTTESTFOR3BY6TABLEOFEDUCBY Percent|RowPctColPct 1 2 3 4 5 6| 1 2 0 0 0 0 0 |22.22 0.00 0.00|0.00 0.00 0.00|100.00 0.00 0.00|0.00 0.00 0.00|100.00 0.00 0.00|0.00 0.00 0.00

2 0 1 2 0 0 0 0.00|11.11|22.22 0.00 0.00 0.00 0.00|33.33|66.67 0.00 0.00 0.00 0.00|100.00|100.00 0.00 0.00 0.00

3 0 0 0 1 2 1 0.00 0.00 0.00|11.11|22.22|11.11 0.00 0.00 0.00|25.00|50.00|25.00 0.00 0.00 0.00|100.00|100.00|100.00

FISHER"SEXACTTESTFOR3BY6TABLESTATISTICSFORTABLEOFEDUCBYLEVELChi-LikelihoodRatioChi- -HaenszelChi-1Fisher'sExactTest(2-2.38E-PhiContingencyCramer'sSampleSize=WARNING:100%ofthecellshaveexpectedcountslessthan5.Chi-Squaremaynotbeavalidtest.例二心臟動脈病的研究本文件由KleinbaumKupper及Morgenstern于1982年提出內(nèi)含五個變量年齡(AGE)大致分兩組55歲以下55歲及以上心電圖的不正常狀況(ECG)YES=不正常NO=正常是否得心臟病(CHD)YES=得病NO=沒得病血脂肪(CAT)YES=高NO=低此例主要在探討CAT與CHD的關(guān)系同時控制受試者的及ECG分析結(jié)果顯示兩者確有關(guān)系(顯著度=0.04)血脂肪高的人比血脂肪低的人更容易得心臟病(1.7倍的PROCFREQPROCFREQDATAINPUTAGE$ECG$$0100701317110900011511;WEIGHTWEIGHTTABLESAGE*ECG*CAT*CHD/NOPRINTTITLE'EXAMPLE17.9FROMKLEINBAUM,KUPPER,ANDMORGENSTERN,結(jié)15.2心臟動脈病的研EXAMPLE17.9FROMKLEINBAUMKUPPERANDMORGENSTERN,P.353SUMMARYSTATISTICSFORCATBYCHDCONTROLLINGFORAGEANDCochran- -HaenszelStatistics(BasedonTableAlternative1Nonzero12RowMeanScores13General1EXAMPLE17.9FROMKLEINBAUMKUPPERANDEstimatesoftheCommonRelativeRiskTypeof Case- -(Odds -(Col1 -(Col2 TheconfidenceboundsfortheM-Hestimatesaretest-EXAMPLE17.9FROMKLEINBAUMKUPPERANDBreslow-DayTestforHomogeneityoftheOddsRatiosChi-Square=0.164 DF=3 Prob=0.983TotalSampleSize=例三22本例旨在示范22次數(shù)分配表的分類一致性數(shù)據(jù)來自17位大學生的學習與背景資DATA子下的MYDATA.DAT文件每一位學生的資料以下列的變項值GPA=1-4 SATV=SATGRADE=前述GPA變項的二分變項GPA≧3時 高 VERBAL=前述SATV變項的二分變項SATV≧500時 高 根據(jù)GRADE與VERBAL二分變項的分數(shù)十七位大學生一一掃入22表中AGREEOPTIONSNODATEOPTIONSNODATETITLE‘EXAMPLE15.3HOWMUCHAGREEMENTESTHEREINA2X2DATAINFILEINPUTID $AGEGPACRITICALPOLPREF$SATV;IFGPA=.ORSATV=.THENDELETE;IFGPAGE3THENGRADE=’HIGH’;IFGPALT3THENGRADE=’LOW’;IFSATVGE500THENVERBAL=’HIGH’;IFSATVLT500THENVERBAL=’LOW’;PROCFREQ結(jié)報表顯示麥克內(nèi)瑪檢定值 其顯著度 分類一致性以Kappa值表=0.459其標差誤0.171以及95%的信賴區(qū)間0.123~0.794均顯示大學生的平 2表的對角線上則Kappa=1.00反之若對角線上兩細格{ Low組}內(nèi)的頻率低于邊際頻率相乘后所導出的期待次數(shù)則Kappa值下跌至0與-1之間有關(guān)Kappa的定義讀者可參閱Cohen1960年的文章報表15.322分配表的分Example15.3Howmuchagreementisthereina2X2 TABLEOFGRADEBYRowPctColRowPctCol60566 35.29STATISTICSFORTABLEOFGRADEBYMcNemar'sStatistic=5.000 DF=1 Prob=0.025SimpleKappaCoefficient95%ConfidenceKappa= ASE= SampleSize= 16章類別數(shù)據(jù)的線性模型統(tǒng)計程序PROCPROCCATMOD程序概CATMODCATegoricaldataMODeling(或作類別數(shù)據(jù)的線性模型所采用的線性模型包括變異數(shù)分析模型回歸分析模型對數(shù)線性分析邏輯斯諦回歸分析以及重復觀察的實驗設(shè)計(亦是變異數(shù)分析的一種)等等各式模型的參數(shù)估計采用下列與對數(shù)有關(guān)的線性模型是用最大可能率( umLikelihoodRatio)的方法來估計一般的線性模型采用最小誤差平方(WeightedLeastSquares)的解法來估計參適用于CATMOD程序的數(shù)據(jù)一般可套入行列式的型態(tài) 列代表樣本行代表因變量下所分的各類別下面是一個典型的例子(類別變量是高考放榜結(jié)果)1.非重點學校實驗班2.非重點學校普通班3.重點學校實驗4.重點學校普通除此之外CATMOD程序也接受正方形的共變異數(shù)矩陣以及長方形的原始數(shù)據(jù)(以個人為單位)為合法的輸入文件形態(tài)下節(jié)中就CATMOD程序分析時所用到的統(tǒng)計模CATMOD程序在分析中所用到的這個模型適用于含因變量(Y1Y2)(X1X2)的實驗設(shè)計下面舉一例說明CATMOD程序的語法PROCPROCWEIGHTWT;MODELY1*Y2=X1X2;根據(jù)這個程序的指令因變量Y1Y2X1X2的主效PROCPROCWEIGHTLOGLINR1|R2R3;根據(jù)這個程序的設(shè)定R1R2R3均為因變量R1|R2R3的意思是模型應考慮三個反應變量的主效果以及R1*R2的二元交互作用CATMOD程序執(zhí)行這種模型時是(R)(X1X2)的實驗設(shè)計下面是PROCPROCWEIGHTWT;DIRECTX1X2;MODELR=X1X2;根據(jù)上面的程序CATMOD程序會以最大可能率法估計這個回歸模型的參數(shù)即RX1X2X1X2可當作連續(xù)變量來處理則讀者最好用LOGISTIC(20章)或PROBIT(19章)程序來分析數(shù)據(jù)顧名思義這一類的模型適用于重復觀察的實驗設(shè)計比方說R1R2R3代表三個不同時間點(TIME)上所收集到的資料它們與TIME以及另一個自變量(A)之間的PROCPROCWEIGHTWT;MODELR1*R2*R3=_RESPONSE_|A;REPEATEDTIME3/_RESPONSE_=TIME;這一類的模型適合用來解釋數(shù)個自變量(如 B)之主效果以及交互效果與因變(Y)(參見下面的程序PROCPROCWEIGHTWT;RESPONSEMEAN;MODELR=A|B;(Y1Y2)(如X1X2)之間的線性關(guān)系下面的程序示范這種模型的應用PROCPROCWEIGHTWT;DIRECTX1X2;MODELR1*R2=X1X2;這種模型適合用來分析次序變量(如R)與續(xù)變量(如A)之間的線性關(guān)系下面PROCPROCWEIGHTWT;MODELR=_RESPONSE_根據(jù)這個程序的指令次序變量(R)的值首先轉(zhuǎn)為累積的對數(shù)奇數(shù)比然后這一類模型適用于實驗組與控制組的配對實驗設(shè)計在下面的程序里我們考慮兩個二分的變量EXP1與EXP2它們分別代表實驗組與控制組對兩種疾病產(chǎn)生反應的頻率差異CATMOD程序利用最大可能率法可估計出這兩種疾病發(fā)病的奇數(shù)比INPUTE1CASEE1CTRLE2CASEE2CTRLCASEEXP1=E1CASEEXP1=E1CASE-E1CTRL;EXP2=E2CASE-PROCCATMOD;WEIGHTPOPULATIONE1CASEE1CTRLE2CASEE2CTRLEXP1EXP2;DIRECTEXP1EXP2;MODELCASE=EXP1EXP2/(10個)(AB)之間的關(guān)系請看下面程序的示范語法PROCPROCRESPONSEREADB1-B10;MODELFACTORSA2B5/_RESPONSE_=A將自變量因變量劃分得非常清楚概率是否同等但不適合用來探討變量間一般線性的獨立關(guān)系由GrizzelStarmer及Koch(ANOVA并不事先區(qū)分何者為自變量何者為因變量主要的功能在于建立模型執(zhí)行適合度檢驗(Goodness-of-Fit) 由 Holland提CATMOD程序的簡介我們可下結(jié)論說CATMOD程序適合處理類別甲線性獨立的關(guān)系乙模型適合度檢定丁回歸模型的有效度隨著以上這幾種分析數(shù)據(jù)的取向CATMOD程序會同時估計以下幾類參數(shù)的值如何撰寫PROCCATMOD程PROCCATMODPROC

反應變量性模型選項串效果名稱串選項自變量名稱類別選項串重復變量名稱...選項串'標名'列的解釋列的解釋...PROCCATMOD以及MODEL這兩個指令是必須的不可省略DIRECT指令則DIRECTMODEL指令之前MODEL必須在CONTRAST指令之前在兩個RUN 指令中間可多次使用RESPONSE和CONTRAST指令其他首先讓我們簡單地說明除PROCCATMOD指令外其他各指令的功能 要求CATMOD程序?qū)⒛承┳宰兞恳暈檫B續(xù)變量其數(shù)值是有意義的 界定實驗設(shè)計的矩陣以及列聯(lián)表(ContingencyTable)的行 CONTRAST界定一個統(tǒng)計假設(shè)POPULATION界定列聯(lián)表的列 #1PROCCATMOD輸入文件之文件名若省略此選項 則SAS會自動找出在此程序之前最后形成的文件對其數(shù)據(jù)執(zhí)行分析 則各類別的次序以其內(nèi)在的排列順序(如字母的先后次序或類別編號的次序)為準#2DIRECT此指令指示PROCCATMOD直接對DIRECT變量的數(shù)值(而非它們所代表的類別或組別)加以處理比方說變量X有五個類別它們之間的差別是以數(shù)量來表示而且這些差別對統(tǒng)計的分析有影響則讀者可用下列的程序來表達PROCPROCDIRECTMODEL這樣的寫法將導致實驗設(shè)計矩陣里自變量X只有一行而非四行CATMOD程序直接利用X的數(shù)值而非 5的類別次PROCDIRECTMODELDIRECT;MODELY=X;若讀者在交談式的環(huán)境下執(zhí)行PROCDIRECTMODELDIRECT;MODELY=X;當CATMOD程序執(zhí)行這個程序時第一個DIRECT指令直接接受X變量的值然后用在MODEL的指令上第二個DIRECT指令并沒有提到X變量的名稱因此CATMOD程序在執(zhí)行第二個MODEL指令時會根據(jù)X(如4)而自動產(chǎn)生等數(shù)目的(如4個)虛無變量(DummyVariable)指令#3MODEL反應變量線性模型選項PROCCATMOD程序要求你必須界定一個MODEL指令所以不可省略但也不可在同一個CATMOD程序里界定一個以上的MODEL指令反應變量可以是一個多個(以星號'*'相聯(lián))或_F__F_是SAS系統(tǒng)內(nèi)內(nèi)設(shè)的變量名稱它代表反應函數(shù)以及其共變異數(shù)矩陣二者都必須經(jīng)由文件輸入除_F_之外一般的反應變量也就是實驗設(shè)計中的因變量其組別數(shù)決定反應的類別數(shù)或列聯(lián)表中的行線性模型的部分說明模型中的主效果(即自變量)或主效果間的交互效果下面是幾MODELR=A MODELRAB (+交互效果MODELRA MODELR=AB; (二元交叉效果亦即ABA*B)MODELR=AB(A=1)B(A=2) MODELR*S=_RESPONSE_; MODELR*S=A_RESPONSE_(A) MODEL 請讀者注意反應變量線型模型這一部分的寫法與讀者心目中的實驗設(shè)計矩陣是息息關(guān)系的若欲深刻了解其理論基礎(chǔ)請參閱本章第16.4節(jié)如何產(chǎn)生實驗設(shè)計的矩陣?現(xiàn)在我們說明實驗設(shè)計矩陣的直接輸入當讀者直接輸入實驗設(shè)計的矩陣時相鄰的兩列應以逗號分開整個矩陣必須有q*s(在此q代表每一樣本所產(chǎn)生的反應函數(shù)s代表樣本的個數(shù))第一組q列是第一個樣本的反應函數(shù)第二組q列是第二個樣本的反應函數(shù)依此類推直到第s個q列為止當讀者直接輸入實驗設(shè)計矩陣時你可以選擇是否要檢定某些組的參數(shù)為零的假設(shè)若選擇執(zhí)行這個檢定則你必須在矩陣輸入之后分號()之前立刻告訴PROCCATMOD你要檢定那些組的參數(shù)在指令的撰寫上請指明矩陣中的行編號后接一個等號再接一個標名(限制在二十母之內(nèi)用單引號括住)如果你要求檢定一組以上的參數(shù)則應以逗號將各組的參數(shù)檢定分開最后用小括號括住每一次的檢定并加上分號MODEL100110111021010101110121--01--11--2)23='GROUPMAIN4='LINEAREFFECTOF如果你直接輸入實驗設(shè)計矩陣但并不想檢定任何參數(shù)則CATMOD程序會自動MODELMEAN23='GROUPMAIN4='LINEAREFFECTOF(23CATMODMODELMEAN(/)第二類選項與計算過程有關(guān)第三類選項與報表打印的抑止有關(guān) 與分析結(jié)果的呈現(xiàn)方式有關(guān)有十個選X'S-1X矩陣也就是正規(guī)方程序(NormalEquations)(CrossSi(8)9)選項中讀者只可選用一項PREDICT印出每一樣本中反應函數(shù)的實值和期待值它們之間的誤差(誤差實值期待值)PRED=PROB當反應函數(shù)值等于通用對數(shù)時選項PRED=PROB內(nèi)的期待概率而PRED=FREQ 與計算過程有關(guān)下分八個選ADDCELL=(每一細格內(nèi)的次數(shù)會自動增加5(或正實數(shù)的值)此選項不會影響最大可能比(ML)的方法但可幫助最小誤差平方的解法(GLS)如當某細格內(nèi)的次數(shù)等于0時這個選項可用來避免0的對數(shù)無解的問題界定兩件事(甲)因變量的結(jié)果是可以用模型表示的(乙)自變量的主要效果是MODEL指令中使用_RESPONSE_選項則AVERAGED選項自動生效MAXITER=此選項決定最大可能比的方法(ML)中循環(huán) tions)分析的次數(shù)內(nèi)設(shè)值EPSILON=此選項規(guī)定最大可能比的方法(ML)中預定的循環(huán)分析停止的標準在循環(huán)分析的過程中當對數(shù)可能比(LogLikelihoodRatio)的改變率小于這個選項的值或當循環(huán)分析的次數(shù)已超過MAXITER=內(nèi)訂的值時循環(huán)分析會停止內(nèi)設(shè)值是10的-8次方要求以最大可能率( umLikelihoodRatio)的方法來估計參數(shù)此選項只可與通用式對數(shù)值(GeneralizedLogits)聯(lián)用GLS(7)這兩個關(guān)鍵字分別代表通用最小平方誤差估計法或最小平方誤差估計法在本GLS與WLS是同義詞WLS或GLS)法應用在除通用的對數(shù)奇數(shù)比(GeneralizedLogit)以外的反應函數(shù)之估計(8) (Profile)(Response_RESPONSE_(只適用于對數(shù)線性模型抑止循環(huán)估計過程里每一步驟的分析結(jié)果(只適用于最大可能率的參數(shù)估計指令#4LOGLIN效果名稱串選這個指令界定對數(shù)線性模型里各式的效果撰寫效果的語法與指令#3MODEL中線性模型的效果部分亦即等號右邊的部分)完全相同故不贅述讀者可回頭參閱MODEL指令的解釋或本章第16.4節(jié)的詳細說明PROCPROCLOGLINA|B|C@2;根據(jù)這個程序的指令對數(shù)線性模型里應含所有的主效果(即A C的效果)以及二元的交互作用(即A*B (/)后的選項有一個介紹如下這個選項界定一個與對數(shù)線性模型相對應的標題(前后用單引號括住) 指令#5FACTORS自變量名稱類 這個指令界定實驗設(shè)計中的各式效果以及決定反應函數(shù)的自變量若自變量是一個文字變量則自變量名稱部分應含"$"符號作為若自變量下只有一個類別則可不必提到類別數(shù)否則必須提到自變量下類別的數(shù)目(/)后的選項有三個分別介紹如下TITLE='FACTORS指令相對應的標題這個選項界定一個與FACTORS指令相對應的標題(前后用單引號括住) (/)前FACTORS指令所提的效果完全相同若省略此選項則CATMOD程序會自動考慮實驗設(shè)計中所有可能的這個選項界定各自變量在反應函數(shù)上的值若刪除號(/)之前FACTORS指令提p個自變量而反應函數(shù)的數(shù)目是q個則PROFILE=所界定的矩陣必須是一個i×p的矩陣在此i是q的分數(shù)(或說q是i的倍數(shù))矩陣的兩列應(十六個字母以內(nèi))或數(shù)值視的性質(zhì)而 不論FACTORS的性質(zhì)如 PROFILE=的設(shè)定應與上PROCRESPONSEREADPROCRESPONSEREADY1-Y4;MODEL_F_=_RESPONSE_;FACTORSAGE;根據(jù)上述的程序反應函數(shù)(Y1-Y4)分別來自四個不同的母群這四個母群的產(chǎn)生是(下分兩組)與(下分兩組)的所有排列組合線性模型的設(shè)定僅含這兩個自變量若讀者認為實驗的效果應屬于定值鑲嵌效果亦即將鑲嵌在變量內(nèi)而且以三十歲作為分組的標準則上述的FACTORS指令可改寫為FACTORSFACTORSAGE$$ (AGE='under(AGE='30&PROFILE=('under30''under30''30&over'Male'30&over'Female);若再進一步假設(shè)實際收集來的數(shù)據(jù)中不含三十歲以下的因此反應函數(shù)的數(shù)目由四減為三CATMOD的程序可PROCPROCRESPONSEREADY2-Y4;MODEL_F_=_RESPONSE_;FACTORSAGE$ $PROFILE=('under30''30&over'Male'30&over'Female);指令#6REPEATED重復變量名稱類 這個指令的語法與前述FACTORS指令的語法完全相同選項的定義也一致唯一不REPEATEDREPEATED指令里讀者可同時界定好幾個重復變量及其類別個數(shù)它們之間以逗號相隔—當因變量不只一個而且MODEL指令中又包括_RESPONSE_這個關(guān)鍵字二當你采用重復觀察的實驗設(shè)計而且因變量就是重復觀察的變量值得讀者注意的是不可同時界定指令#4 (其反應函數(shù)必須是兩個或兩個以上)添加"$"的符號界定上N刪除號(/)后的選項有三個分別介紹如下TITLE='REPEATED指令相對應的標題這個選項界定一個與REPEATED指令相對應的標題(前后用單引號括住)如這個選項所界定的實驗設(shè)計的效果必須與刪除號(/)前REPEATED指令所提的效果完全相同若省略此選項則CATMOD程序會自動考慮實驗中所有有關(guān)REPEATEDTIME2REPEATEDTIME2TRTMENT2REPEATEDTIME2TRTMENT根據(jù)例一的程序CATMOD程序考慮兩個主效果(TIME與TRTMENT)加_RESPONSE_之變異數(shù)的多少然而例二的程序則考慮這三個效果分別對_RESPONSE_的解釋量這個選項界定各重復變量在反應函數(shù)上的值若刪除號(/)之前REPEATED部分提到p個重復變量而反應函數(shù)的數(shù)目是q個則PROFILE=所界定的矩陣必須是一個i×p的矩陣在此iq(或說q是i的倍數(shù))矩陣的兩列應以逗號隔開矩陣中的元素可以是文字(十六個字母以內(nèi))或數(shù)值視REPEATED變量的性質(zhì)而定不論REPEATED變量的性質(zhì)如何PROFILE=的設(shè)定應與上述_RESPONSE_的設(shè)定完全相同下面舉幾個例子說明這個指令假設(shè)有一個重復觀察的實驗每一被試連續(xù)受測三次(以T1 T3表示)并且RESPONSEMARGINAL指令(見指令#9) 因變量含k個類別則CATMOD程序會在每一個時間點上計算(k-1)個反應函數(shù)由于這些反應函數(shù)之間的差異可能與時間有關(guān)我們可用下面的程序PROCPROC PROCCATMODRESPONSEREPEATEDTIME3,READER2/_RESPONSE_=TIMEREADER(TIME)上每一位受試者照一次X光透視其結(jié)果(或影像)由兩位X光專家(READER)PROCCATMODRESPONSEREPEATEDTIME3,READER2/_RESPONSE_=TIMEREADER請讀者注意MODEL(如T1R1)根據(jù)上面的程序CATMOD程序假定六個反應函數(shù)與它們對應的交互作用是TIME類READER類111212321422531632(LogLinearModel)來分析則PROCMODELTIME*READER=_RESPONSE_;PROCMODELTIME*READER=_RESPONSE_;指令#7CONTRAST’標 列的解釋列的解MODELLOGLIN指令中效果是否為零的假設(shè)在此每一個列的解釋包括三部分即@n效果名稱和系數(shù)現(xiàn)在讓我們對這幾個部分及標名分別加以說明列的解釋=@nCONTRASTCONTRAST'AverageoverFunctions'@1A10-@2A11-則就第一個反應函數(shù)而言CATMOD程序檢定A的第一組與第三組的差異就第二個反應函數(shù)而言CATMOD程序檢定A的第一二組之和與第三組之兩倍的差異是MODEL指令中所列的效果之一例如讀者可用INTERCEPT為截距的參數(shù)讀者亦可采用ALL_PARMS來代替模型中所有可能的參數(shù)指用來形成參數(shù)間線性聯(lián)合的系數(shù)若系數(shù)的數(shù)目少于參數(shù)的數(shù)目則不足的那些系數(shù)自動以0補齊假設(shè)有一個自變量A下有四個類別它們相對的參數(shù)為1 3及4在實際的運算過程中PROCCATMOD只利用前三個參數(shù)這是因為第四個參數(shù)4可用 在這種情況下統(tǒng)計假 4可改寫 3 CATMODCONTRASTCONTRASTCONTRAST'1vs.4'A21其中'1vs.4'是標名@n省略A是效果名稱(即A的主效果 系數(shù)串是 用同樣的實驗設(shè)計讓我們另外假設(shè) 2) 2- CONTRASTCONTRASTCONTRAST'1&2vs.3'A11-CONTRAST'1A1-CONTRAST'1&2A33CONTRAST'1&2vs.A22CONTRAST'MAINA01A10A00現(xiàn)在讀者對CONTRAST指令應該有一些概念了讓我們進一步研究這個指令背后所影射的實驗設(shè)計矩陣回頭看第一個統(tǒng)計假設(shè)(即 1= PROCPROCMODELCONTRAST'1vs.4'A21(C矩陣) 在此第一個值(即0)代表因變量的截距如果實驗設(shè)計中有B和A兩個自變量而且B之下分三個類別則統(tǒng)計模型是MODEL 1 4在C矩陣中的表示 在此第一個值(即0)仍然代表因變量的截距第二與第三個0則代表B的參數(shù)接下來讓我們學習利用CONTRAST(或多元)果讓我們再用上例中的兩個變量A與B 假如A有四個類別B有三個則它們之間所可能產(chǎn)生的主要效果有五個(或說自由度=5) CONTRAST'JOINTEFFECTOFA&B'10A01A00B10,B01;值得注意的是上述0 1的形態(tài)與類別是互相配合的類別則由選項ORDER=(見PROCCATMOD指令)來決定CONTRAST'MAINEFFECTOFB'ALL_PARMS01CONTRAST'MAINEFFECTOFB'ALL_PARMS010CONTRAST'MAINEFFECTOFC'ALL_PARMS001CONTRAST'B*C CTION'ALL_PARMS000MODEL00101110111#8POPULATIONMODEL(亦即所有可能的類別排列組合)為準這一個指令有下列兩種功能 當實驗設(shè)計矩陣是讀者自行輸入而且MODEL指令內(nèi)又不含任何自變量 當讀者所用的模型是簡化模型(而非飽和模型)時POPULATION指令可幫助DATADATAINPUTA$B$WT@@;YESYES23YESNO31NOYES47NONO;PROCWEIGHTWT;POPULATIONB;MODELA=(11因為MODEL指令中的因變量A有兩個類別(即YES或NO)每一個樣本應只有一個反應函數(shù)而B變量也有兩個類別所以應該有兩個樣本請讀者注意實驗設(shè)計矩陣的列數(shù)(2)等于反應函數(shù)的總數(shù)故這個MODEL指令是正確的如果我們在上述程序中省略POPULATION指令則我們只有一個樣本及一個反應函數(shù)如此MODEL指令便DATADATAINPUT$BY121212;12MODELY=B上述的程序?qū)е滤膫€樣本(由于自變量A與B各有兩個類別)及下列的實驗設(shè)計效果自由 2 概1111111A1 1B11110PROCWEIGHT根據(jù)前述的分析效果B及A*B均未達到顯著水準(概率均大于.10)所以下一步的分析可以試著簡化MODEL程序使其只包括A的主效果如果現(xiàn)在讀者改寫原PROCWEIGHT那么我們只剩下兩個樣本(因自變量A含兩個類別 2 1 A10(原文件不變PROCPROCWEIGHTWT;POPULATIONAB;MODELY=A;則我們?nèi)詴S兴膫€樣本(它們由指令POPULATION中的A B變量導出) 2 概1111A112(也就是利用POPULATION指令的那個程序)導致四個樣本而前者只產(chǎn)生兩個由于這兩個改寫程序所用的參數(shù)估計法十分接近所以兩指令#9 函數(shù)選項此指令的目的在于界定反應概率的函數(shù)以便進行參數(shù)的檢定讀者可同時使用多個RESPONSE指令每一個指令會導致一個不同的分析法下面就此指令的各部分做詳細的函數(shù)MARGINALMEAN規(guī)定反應函數(shù)以MODEL指令中各因變量的平均數(shù)為代表請注意此選項要求LOGIT是函數(shù)的內(nèi)設(shè)值規(guī)定反應函數(shù)以MODEL指令中各因變量之邊際概率的通用最后一個類別的邊際概率而分子則分別是該因變量所有其他類別的邊際概率因此LOGIT所引出的反應函數(shù)的數(shù)目等于各因變量的自由度CLOGIT規(guī)定反應函數(shù)以MODEL指令中各因變量之累積邊際概率的通用對數(shù)為代表Ck通用對數(shù)仍是取兩個概率比例的對數(shù)值這個比例的分子是第k組的累積概率(以Ck表示) 分母則是(1-Ck) 只有當因變量的組別是循序漸進時(如教育程序從小學畢業(yè)中學畢業(yè)而至大學畢業(yè)) ALOGIT規(guī)定反應函數(shù)以MODEL指令中各因變量之相鄰兩類別的(邊際概率之)對數(shù)k組的邊際概率分子則是第(k+1)組的READ這種設(shè)定的方式是藉著一個輸入文件內(nèi)含所有的反應函數(shù)以及它們的共變異數(shù)矩陣反應函數(shù)的個數(shù)就是READ變量串的個數(shù) 有關(guān)這個語法的示范請參考指令#5FACTORS的選項PROFILE=的說明包括 矩陣運算及矩陣累加運算等它們的定義簡介如 線性組 LOGEXP的運算是顯而易見的在此不贅述但請讀者注意轉(zhuǎn)換的過程中若牽涉到多重運算則CATMOD程序由左到右逐一執(zhí)行若有兩個矩陣運算相鄰且以星號(*)相連則CATMOD程序會自動計算兩者的乘積RESPONSE100,01RESPONSE100,01這個示范表示原數(shù)據(jù)的反應函數(shù)有三組(以P1 P3表之) 陣運算后這三個組就轉(zhuǎn)換成兩個線性獨立的值(以F1F2表之)如下所示 100 01 RESPONSE100 0010在此P1P2與P3代表三組的反應比例而F1與F2代表轉(zhuǎn)換后的函數(shù)值假設(shè)有一種情況每一位學生的美工成品由兩位老師來評分這兩位老師都用上中下三級來審核則這兩位評審老師之間的一致性可用下RESPONSE100 0010

F=P11+P22+P33=[10001000 在此Piji的成績RESPONSE1-1如果牽涉到多重運算CATMODRESPONSE1-1F=[1

LOGLOG最后一種表示法也就是通用對數(shù)(LOGIT)的定義由于只有兩個類別所以RESPONSE1RESPONSE1-1EXP10010110在此P是概率向量A=[1- 而

100011如果上例中的四個反應函數(shù)是由兩個因變量分別導出的(每個因變量各有兩個類 F=P11*P22F=P11*P22-2*2(或百分比)選項串(/)OUT=的誤差下列是輸出文件內(nèi)含的SAS內(nèi)設(shè)的變量名稱及定義變 定 _TYPE_=FUNCTION 反應函數(shù)的預測實際_TYPE_=PROB 反應函(或概率或次數(shù))的編 原數(shù)據(jù)值的標準誤差(Standard 輸入文件中原含BY變因變量 若模型通用對數(shù)線性模型則因變量值就是反應函數(shù)值然_TYPE_='FUNCTION'因變量值自動成為遺漏數(shù) 矩陣它含下列的變量變 定 輸入文件中原含BY變_TYPE_=EST _NAME_=(空白) 當_NAME_=B1B2 代表_TYPE_=COV矩陣中的參B1B2等 _METHOD_=WLS 若參數(shù)估計的方法是最小平方誤差 RESPONSE RESPONSE RESPONSE RESPONSE11 1-1的對數(shù) RESPONSE12 求出三個反應類(123表示)的平均次RESPONSEREADB1- TITLE='RESPONSE指令相對應的標題這個選項界定一個與RESPONSE指令相對應的標題(前后用單引號括住) #10RESTRICTRESTRICTRESTRICTB2=1B4=0B6=-根據(jù)這個程序的限制第二個參數(shù)(即B2)的估計值必須是1 第四個(B4)必須是0 第六個(B6)必須是-1 值得讀者注意的是若你重復界定RESTRICT的指令則在后的參數(shù)值取代的參數(shù)值而且如果你在交談式環(huán)境下執(zhí)行CATMOD程序則新的MODELLOGLIN REPEATED等指令有自動取代舊的RESTRICT指令之效力這個指令只適用于主機上6.06或6.07版#11WEIGHT2*22130AB11121 PROCFREQPROCPROCFREQTABLESSUMMARYAB111221233211PROCCATMODCOUNT的值就代表各PROCPROCCATMODDATA=SUMMARY;WEIGHTCOUNT;MODEL如此讀者當可明白WEIGHT變量的值就代表觀察體的次數(shù)或#12BYPROCCATMOD依據(jù)此指令所列舉的變量將文件分成幾個小的文件然后對每一個BY變量串的值做由小到大的重新排列這個步驟可借PROCSORT達成如何產(chǎn)生實驗設(shè)計的矩實驗設(shè)計矩陣的每一橫列代表一個母群橫列也是所有自變量值的排列組合矩陣的每一直行是由MODELLOGLINFACTORS和REPEATED四道指令的效果決定—線性模型中的效果 FACTORS與REPEATED四道指令中所含的效果部分(以星號*連接)類別變量表之如AA*B類似上述交互的效果但以小括號括住一部分的交互效果如B(A)表示B被鑲嵌在A效果里或C(A*B)或A*B(C*D)C(A*B=1)DIRECT指令中表示如DIRECTXA| @2;表示對數(shù)線性模型中含 C三個主效果以及所二元的交互作用(亦即 如X*Y或X*X*X或X*A*B(C*D=1) 在此X*Y表示直接效果和交互效)PROCCATMOD在詮釋交互效果與鑲嵌效果的變量時CATMOD程序以各變量第一次出現(xiàn)的次序為準比方說MODELMODELR=BAA*BC(A在此因為B出現(xiàn)在A之前故CATMOD程序視交互效果A*B為 另C(AB)就是 故CATMOD程序會將這個鑲嵌效果解釋成界定模型互作用的最高次方請參見上述(e)的示范語|)MODELMODELY=ABCA*BB*CA*C MODELY=A|B|豎號的左右兩方各是一個效果它們的交互效果也是一個效果所以A|B表示三個效果A B和A*B可以在一個程序中使用多個豎號CATMOD程序以由左至右的順序來解釋如CATMODA|B|C[A|B||C即[ABA*B|C也就是ABA*BCA*CA*B*C交互與鑲嵌的變量可以混合著使用比方說A(B)|C(D)代表A*C(BD)以及其重復的變量會被取消比方說A(C)|B(C)表示 而非A*B(C互相抵觸的效果如一個變量若同時造互和鑲嵌的效果則會從模型中剔除比方說A(B)|B(DE)會產(chǎn)生一個效果是A*B(BDE) A|AA(B)|A(B)|B(DB(DA|B(A)|ACA*C二一個樣本產(chǎn)生一個反應函數(shù)MODELNOINT選項或直接輸入實驗設(shè)計矩陣否則實驗設(shè)計矩陣的第一行應該都是'1'它的如果一個自變量A有k個類別則其主要效果有(k-1)個自由度而且它的實驗設(shè)計矩陣有(k-1)行這些行所對應的參數(shù)1 2...k-1與變量的前(k-1)個類別相對照最后一個類別(第k個類別)的參數(shù)則不必寫出因為它與其他所有參數(shù)的值加起來必須等于0此外實驗設(shè)計矩陣中第i行在第i列的值必須是1在最尾列的值必須是-1有關(guān)實驗設(shè)計矩陣與自變量參數(shù)之間的關(guān)系請看下面的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論