




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、屬性數據分析 一屬性變量和屬性數據通常所指屬性數據(categorical data),是說反映事物屬性的數據,也稱為定性數據或類別數據,它是屬性變量取的值。屬性變量可能是表示事物屬性,取值為事物屬性的量反映事物的客觀屬性,例如變量“性別”取值為男,女;又如變量是中醫(yī)所分人的體質,取值為平和,氣虛,陽虛,陰虛,瘀血,痰濕,濕熱,氣郁,特凜。對事物表態(tài)的量表達人們主觀對事物的評論,例如變量是“某人對某個政策的態(tài)度”,取值是贊成,中立和反對;又如變量是“人對醫(yī)療效果的評價”,取值為特好,好,一般,差,很差。區(qū)間值變量取值為多個互不重疊區(qū)間:例如變量是“顧客的購買水平”,取值分為0,100),100
2、,200),200,300)和300以上。 “屬性變量”是反映事物的客觀屬性或對事物表態(tài),以及區(qū)間值變量,它是一種變量,它取的值之間不能做加,減,乘,除等運算,而且所取的值只能是有限個,屬性變量取的值也稱為屬性變量的“水平”。二屬性數據表示形式屬性變量有4種表示形式:原始屬性變量形式、指示變量形式(調查數據常用)、頻數形式和列聯表。例1 某連鎖超市要檢驗商品銷售情況與陳列方式是否相關,隨機抽取了10家門店,分別以共3種方式陳列(即第一個屬性變量是“陳列方式”,取值A、B、C),各門店銷售情況分為 “high”及“l(fā)ow”兩類(即第二個屬性變量是“銷量”,取值“high”和“l(fā)ow”)。這兩個屬
3、性變量的統(tǒng)計資料4種形式如下:屬性變量形式的樣本是把各個屬性變量的1次觀測值排成1行;例如例1中屬性變量“銷量”和“排列方式”的第1個觀測值(第1個門店)的觀測值是“high”和“B”,就把“high”、“B”排在第一行,見下表表 超市數據屬性變量形式 銷量排列方式highBhighBhighBhighAhighClowBhighChighAlowBhighC 指示變量形式是列出各個屬性變量的所有值,對每個值建立一個變量,例如例1中兩個屬性變量取值“high”、“l(fā)ow”、“A”、“B”、“C”;建立5個指示變量:sl,sh,ma,mb,mc.每次觀測中,屬性變量的哪個值出現了,就在對應列中用
4、1表示,否則用0表示;例如對于超市數據建立5個變量后:sh表示變量銷售額高,sl表示變量銷售額低,ma表示排列方式是A,mb并表示排列方式是B,mc表示排列方式是C。第1次觀測中屬性變量的值是“high”和“B”,這時觀測值就是1,0,0,1,0,見下表表 超市數據指示變量形式shslmambmc10010100101001010100100010101010001101000101010001在做調查時(例如對街道行人作調查),通常要求被調查人在調查表上打勾和叉,整理這些調查表,勾和叉分別改為1和0,得到的就是指示變量形式的樣本;大學生舌象體質調查數據就是兩種形式數據混合,使用時必須注意。指
5、示變量形式。把屬性變量形式匯總,同樣觀測數據只記一次,其相同次數稱為頻數,得到的就是頻數形式數據,超市數據頻數形式見下表;例如例1中銷量“high”且排列方式是“A”的門店有3個,頻數就記為3,匯總觀測值記為“high、A、3”,下表中最后一列是頻數。表 超市數據頻數形式銷量排列方式頻數highB3highA2highC3lowB2兩個屬性變量的列聯表就是把頻數形式數據,寫成一個長方形表,其中最左列給出一個屬性變量(行變量)的值,最上面的變量名行給出另一個屬性變量(列變量)的值,頻數填在對應格中,見下表,列聯表能直觀反映數據特點,經常使用。所以有時頻數形式數據也稱為列聯表。2個屬性變量的列聯表
6、最常使用;3,4個屬性變量的頻數形式數據也能排在平面上。屬性變量多于2的列聯表稱為“高維列聯表”。表 超市數據的列聯表排列方式銷量ABChigh233low020三對應分析一般統(tǒng)計書籍只介紹到列聯表及其分析,上世紀70年代以來出現了許多分析屬性數據的方法:對應分析,logistic回歸,廣義線性模型,重復測量模型等等。本次重點介紹對應分析。對應分析是研究屬性變量的值間關系,帶有直觀圖象展示的一種分析方法?!傲新摫怼狈治瞿芙鉀Q屬性變量間是否有聯系的判斷問題,但對于它們是怎樣聯系的卻不能給出具體結論。對應分析要研究屬性變量的取值之間是怎樣聯系的,它把屬性變量取的各個值投影成一幅“地圖”上的點,距離
7、較近的點顯示關系較密切。對應分析分為簡單對應分析和多重對應分析。簡單對應分析分析兩個屬性變量間關系;多重對應分析分析多個屬性變量間關系。(一)簡單對應分析簡單對應分析的主要步驟?;静襟E是:1 輸入數據 對于常用的列聯表數據,將列聯表數據(連同變量名)拷入工作表后,還要增加一列:列變量名,該列按照表中列水平出現順序(從左到右),將它們從上到下安放一列中,這列通常按其含義加變量名“列名”。由于列聯表中通常已包含行名稱,無須另加一列輸入“行名”。2進入簡單對應分析對話框 從“ 統(tǒng)計 多變量 簡單對應分析”入口,就能進入“簡單對應分析”對話框。選定“列聯表的列”,指定列聯表的各列。3 填寫對話框 在
8、對話框的“列名”處填寫列變量名稱所在列,在“行名”處填寫行變量名稱所在列;進入“圖形”框后指定顯示哪些圖(其中“顯示行和列的對稱圖”最重要)。例2某公司在5個地區(qū)銷售4種商品(甲、乙、丙、丁),某年銷售量匯總表如下表。試問銷售量按地區(qū)分布有何規(guī)律?銷售量按商品分布有何規(guī)律,二者有何聯系? 表 某公司5地區(qū)銷售數據(單位:件)1商品地區(qū)甲乙丙丁A160202120A2100253030A3100580200A440135110A5906012020解 1)將表拷入工作表后,為了能在有關圖表中顯示各列名稱,應補充一列。因為商品列C2-C5的變量名從左到右依次為“甲、乙、丙、丁”,將列變量名稱“甲、
9、乙、丙、丁”填入C6列,并將此列命名為“商品”。 2)從“ 統(tǒng)計 多變量 簡單對應分析”入口, 進入“簡單對應分析”對話框。3)在“輸入數據”中,選擇“列聯表的列”,指定為“甲 乙 丙 丁”4列數據,將“行名”指定為“地區(qū)”,將“列名”指定為“商品”,對于“分量數”仍保留為默認的“2” 。4)點擊 “圖形”,彈出“簡單對應分析圖形”對話框,選擇“只顯示行的對稱圖”,“只顯示列的對稱圖”及“顯示行和列的對稱圖”以便得到3幅圖。5)各框點擊“確定(OK)”,即可以得到計算結果和圖形。行對稱圖從行圖中可見A1,A2,地區(qū)銷售情況相似;A3,A4地區(qū)銷售情況相似。(比例相似)列對稱圖從列圖中可見甲乙丙
10、丁銷量不相似行列對稱圖從圖中可見A1,A2兩地賣甲商品較多,A3,A4兩地賣丁商品較多例3設已有大學生舌苔色和BMI決定的胖瘦程度二維列聯表如下,試做對應分析。分析肥胖程度與苔色對應。苔瘦中胖白8623062357黃11736037灰4103黑261 解 將上表考入工作表,最右邊添上一列,變量名為“BMI”,按照從上到下順序填上瘦,中,胖。2)從“ 統(tǒng)計 多變量 簡單對應分析”入口,進入“簡單對應分析”對話框。3)選定“列聯表的列”,將帶數值的列選入“列聯表的列”空格。4)將“苔色”選入行名空格,“BMI”選入列名空格5)點擊“圖形”,彈出“簡單對應分析圖形”對話框,選擇“只顯示行的對稱圖”,
11、“只顯示列的對稱圖”及“顯示行和列的對稱圖”,各框點擊“確定”,即可以得到行對稱圖,列對稱圖,行和列的對稱圖。叢行對稱圖可見:4種苔色無關系。從列的對稱圖看出胖中瘦間無聯系。行和列的對稱圖如下行列對稱圖從行和列的對稱圖可見:體型中的人和苔色發(fā)白的人聯系緊,即苔色發(fā)白的人體型中等(二)多重對應分析“多重對應分析”用于分析多個屬性變量值間的關系,它每次可以同時分析兩個或更多個屬性變量?!岸嘀貙治觥睂υ捒蚰軌蜃x入兩種形式數據:屬性變量形式和指示變量形式數據。無論哪種形式的數據,實施多重對應分析時,工作表中都要加一列,列舉所有屬性變量所取的所有值:讀入指示變量形式的數據時,按照屬性變量值在工作表
12、的“變量名”行出現的先后順序從上到下排列;讀入屬性變量形式的數據時,先按照這些屬性變量在工作表中出現的先后順序,再對每個屬性變量值按照字典序從上到下排列。然后從“ 統(tǒng)計 多變量 多重對應分析”入口, 進入“多重對應分析”對話框,可以實施 “多重對應分析”MINITAB計算“多重對應分析”后輸出的結果中,最重要的是列圖。列圖是一個平面圖形,所有屬性變量的各個值都作為點安放在列圖上,距離較近的點顯示關系較緊密。例4(指示變量形式數據)為了分析人們對某種新家具的看法,請80名顧客對“樣式”、“油漆”、“顏色”、“材料”和“價格”評價:分別給出 “式樣好”、“式樣差”、“油漆好”、“油漆差”、“顏色好
13、”、“顏色差”,“材料好”、“材料差”、 “價格低”、“價格中”、“價格高”的評價。廠商希望從調查數據分析這5個變量的“值”間的關系。數據如下。試畫圖分析顧客對式樣、油漆、顏色、材料和價格的意見間的聯系。表80名顧客對家具的評價樣好 樣劣漆好 漆劣 色好 色劣 料好 料劣 價低價中 價高101010010101010101000110100110010101010101001010101000110100110010101010100010101011010010101010001011001010101001101010010101010100101010100010110010101001
14、100101010011001010101010101010010101010001101010010101010100101001100101010010101101001001101010010101010001101010100011010101000110101001010101010101001010101000110101010001101001100101001101010010101010100101001100101010101000110101010100101010100011010101000110101001010101010100011010101000110101
15、010001010101101000101011010001100101010100110101001010101000110100110010010101101001001101010010101010001101010100011010101000110101010001101010100010101011010010101001010101010100011001101010010100110010解 1)將表拷入工作表,在右邊加上一列,列名為“變量值”,內容為各列的變量名。2)從“ 統(tǒng)計 多變量 多重對應分析”入口, 進入“多重對應分析”對話框。3)選定“需要指示變量的列”將這含有指示
16、變量的11列選入空格。4)將“變量值”選入“屬性名稱”空格。5)點擊“圖形”,彈出“多重對應分析-圖形”對話框,在其中選定“顯示列圖”。6)各框點擊確定。結果分析:由列圖可見:漆好、價高、料好、色好、樣好距離較近,聚為一類,這表明顧客對這批家具評價較好時,也覺得價格較高;另外漆劣、價低距離較近,聚為一類,這表明認為家具價格低廉的顧客認為漆不好;色劣、樣劣聚為一類,也就是說認為這批家具色劣的顧客認為家具式樣低劣;料劣、價中聚為一類,就是說認為價格中等顧客也認為主要問題是材料不好。例5例1為了分析某種疾病成因,考慮是否飲用某種飲料、吃快餐、上網、患病程度、性別這5個項目,把它們作為5個變量,它們分
17、別取一些值(水平),為了分析這些水平間有何對應關系。統(tǒng)計50名以上病人其資料如下表, 試根據這資料作分析,看看哪些水平間關系最密切。表疾病與生活習慣數據病員飲用否吃快餐否性別上網否患病程度1飲用不吃男上網低2飲用不吃男上網低3飲用吃男上網低4飲用吃男不上中5飲用吃男上網高6飲用不吃男上網低7飲用吃男上網低8飲用吃女上網中9飲用不吃男上網低10飲用吃男上網高11飲用吃男上網高12飲用吃男上網高13飲用吃男上網高14不飲吃女不上中15飲用吃男上網高16飲用吃男上網高17飲用吃男上網高18飲用吃女上網中19飲用吃女上網中20飲用吃男上網高21不飲不吃女上網低22飲用吃男上網低23飲用吃男上網高24飲
18、用吃男上網高25飲用吃女上網中26不飲吃女不上中27不飲吃女不上中28不飲不吃女上網低29飲用不吃男上網低30不飲不吃女上網低31飲用吃男上網高32飲用吃男上網高33不飲吃女不上中34飲用吃男不上中35飲用吃男上網高36飲用吃男上網低37飲用吃男上網高38飲用吃男上網高39飲用吃男上網低40飲用吃男上網高41不飲吃女不上中42飲用吃男上網高43不飲不吃女上網低44飲用吃男不上中45飲用吃男不上中46不飲不吃女上網低47飲用吃男上網高48飲用吃女上網中49飲用吃男不上中50飲用吃男上網高解1)將數據拷入工作表(C1-C6)。2)添一列在工作表中(C7),變量名為列名,以下空格順序填寫“不飲,飲用
19、,不吃,吃,女、男,不上網、上網,低,高,中”。3)從“統(tǒng)計 多變量 多重對應分析”入口,進入“多重對應分析”對話窗, 4)在“屬性變量”中指定“飲用否-患病程度”(C2-C6)共5列(描黑后點擊“選擇”),在“類別名稱”中選入“列名”, 在“分量數”仍保留為默認的“2”。5)點擊 “圖形”,彈出“多重對應分析圖形”對話窗,選擇“顯示列圖。6)各窗點擊“確定”,就可以得到計算結果從圖中可見:患病程度高的與飲用該飲料、男性、吃快餐、上網關系密切,女性與不飲用關系密切,也就是說男性希望飲用、吃快餐、上網;女性不希望飲用;不吃快餐的患病程度低;不上網的患病程度中等。(三)SAS作對應分析SAS作對應
20、分析的必要性:功能強大可以考慮頻數,畫圖清晰。1SAS簡介SAS系統(tǒng)可以通過多種方式生成數據集,并通過ASSIST菜單方式和程序方式(執(zhí)行SAS程序方式)實現人機會話。使用ASSIST模塊可實現菜單驅動式人機會話,而無需編程。但采用程序方式實現人機會話,利于初學者掌握和模仿使用,ASSIST菜單方式和MINITAB菜單方式相似,但是用到許多英文專業(yè)詞匯。本次僅介紹程序方式。編寫SAS程序要求很高,除字符串外不能有中文,不能有中文標點符號,必須英文符號。1)SAS窗口SAS系統(tǒng)實現程序方式人機會話主要通過4個窗口: PROGRAM(編輯器)窗口、LOG(日志)窗口、OUTPUT(輸出)窗口和GR
21、APH(圖形)窗口。(1)PROGRAM(編輯器)窗口用于存放給電腦的命令(一般為SAS程序),點擊菜單中跑步的小人為“提交”(submit)的快捷方式。(2) LOG(日志)窗口用于記錄計算過程,當程序有錯誤時,日志窗口將錯誤語句用紅字標出,往往還給出錯誤原因和修改建議。(3) OUTPUT(輸出)窗口用于存放電腦計算的結果。SAS計算結果很多,在輸出窗口形成許多數表,每個數表用表頭區(qū)分。(4) GRAPH(圖形)窗口用于輸出圖形型結果,具有較高分辯率。為得到這些窗口可在屏幕下方找尋,也可在GLOBALS菜單下點擊。在PROGRAM窗口輸入SAS程序,并點擊“提交”(submit)快捷鍵(跑
22、步小人),就可實現人機對話。2.)DATA步語句SAS程序由SAS語句組成。DATA語句以關聯詞DATA開頭,后跟數據集名。功能是:開始數據步;指示SAS產生數據集;指定產生的數據集名。如語句data wang2;指示SAS生成名為wang2的數據集。INPUT語句以關聯詞INPUT開頭,后跟變量名。用于指示SAS輸入數據時,數據對應的變量。字符串型變量后要加$號,以說明是字符串變量。如果字符串型變量長于八個字母或中有空格,可在變量名后加數字說明在哪些列的符號是字符串。如input no name % x1-x4 z;表示數據體的順序是:數值型變量no、字符串變量name、數值型變量x1、數值
23、型變量x2、數值型變量x3、數值型變量x4、數值型變量z。變量名只能用英文表示,字符串變量值可為中文。Datalineshuo或CARDS語句只由關聯詞datalines或,CARDS組成。表示以下為數據體。數據體每行寫一次觀察值,不同變量的值用空格分開不加任何符號,整型數與實型數無區(qū)別。賦值語句由變量+等號+表達式組成,如y=x1+2.5*x2+x3。它的作用是產生新的變量y,其每次觀察值由相應x1,x2,x3觀察值計算??照Z句只由分號組成,表示數據體結束。例 已知某組學生成績如下表,計算每個學生總分和平均成績學號姓名數學語文外語001趙大859287002錢二887797003孫三9288
24、95004李四828684可用如下程序data class1;/建立名為class1的數據集*/input no name$ shuxuue yuwen waiyu;/*建立名為 no 、name(字符串型)、shuxuue、yuwen waiyu*/zongfen= shuxuue +yuwen +waiyu; /*建立名為zongfen的變量,其值為shuxuue +yuwen +waiyu;*/pingjun=zongfen/3;/*建立名為pingjun的變量,其值為zongfen/3*/cards;/*cards語句,以下為數據體*/001 趙大 85 92 87002 錢二 88
25、77 97003 孫三 92 88 95004 李四 82 86 84;/*空語句,結束數據步*/run;所得數椐集有五個變量,分別給出學生的語文,數學,外語,總分和平均成績。為顯示該數據集,在編輯器(PROGRAM)窗口輸入命令proc print data=class1;run;可在輸出窗口看到數據集的內容。3)PROC步語句PROC步調用過程加工數據集。每個過程由若干句子組成,這些句子根據過程的需要而定。最常用的語句形為PROC語句,一般形式是Proc xxx data=yyy,功能是讓SAS調用xxx過程處理數椐集yyy。其他較常用語句有:VAR語句,以關聯詞VAR開頭,用以規(guī)定參與的
26、變量;OUTPUT語句,以關聯詞VAR開頭,用以規(guī)定輸出某個數據集的內容。由于不同問題需要調用不同過程,不同過程PROC步所用語句也不相同4)SAS做對應分析SAS使用CORESP過程作對應分析,在PROC CORESP語句中使用OUTC=選項輸出畫圖所用數據;再使用宏指令%plotit畫出圖形。如果不直接輸入列聯表或BURT表,而是輸入原始數據,則要增加TABLE語句,由原始數據獲取列聯表或BURT表。2 SAS作簡單對應分析可以在數據步把兩個變量的列聯表直接輸入,也可以用原始屬性數據輸入。列聯表直接輸入時,代表每一行的符號“行名”排成一列,作為一個字符串變量的值,代表每一列的符號“列名”作
27、為自變量的符號。在原程序加工步中用VAR語句指定列名變量;ID語句指明行名變量。如果輸入原始變量,要用TABLES語句生成列聯表,不用VAR語句。例5經調查大學生舌色和體質列聯表如下,做對應分析體 質顏色平和氣虛陽虛陰虛瘀血痰濕濕熱氣郁特凜淡紅12424299395241832769223387紅16147147892642134214絳444112221暗628221130青紫614510110邊紅351130109103154尖紅14856123802235153416淡白211216656453解用Co1-co7表示舌頭7種顏色;ph1-ph9表示9種體質程序Data colorph;/
28、*建立數據集,名為colorph*/Input color$ ph1-ph9;/建立10個變量,變量名為color(字符串變量),ph1至ph9*/Cards;/*以下是數據體*/Co112424299395241832769223387Co216147147892642134214Co3444112221Co4628221130Co5614510110Co6351130109103154Co714856123802235153416Co8211216656453;/*數據體結束*/proc corresp outc=wang;/*調用corresp過程,輸出數據集為wang*/ var ph
29、1-ph9;/*9個列變量是ph1-ph9*/ id color;/*行變量是color*/ run;/*執(zhí)行*/%plotit(data=wang, datatype=corresp, plotvars=Dim1 Dim2) /*宏指令,用數據集wang畫對應分析圖*/quit;/*退出畫圖過程*/執(zhí)行后得到圖形中舌色1(淡紅)和體質1(平和)最接近。Co7和ph3最接近,也就是說舌色尖紅的人如果不是平和,就是陽虛。多重對應分析3SAS作多重對應分析為了了解人們對英國政府某項政策的態(tài)度,請被調查人對5個問題打勾:性別(男、女),低于30歲?(低于、高于),年收入8000鎊?(少于、多于),情
30、緒(悲觀、樂觀),贊成否?(贊成、反對);得到5個屬性變量,每個屬性變量各有2個值。整理74人的調查資料為表5-4。對所得數據做多重對應分析。表5-4 人們對英國政府某項政策的態(tài)度性別低于30歲?年收入8000鎊?情緒贊成否?mlowlessoptiyesflowlessoptiyesflowlessoptiyesflowlessoptiyesmhighlessoptiyesmhighlessoptiyesmhighlessoptiyesfhighlessoptiyesfhighlessoptiyesmlowmoreoptiyesmlowmoreoptiyesmhighmoreoptiyesm
31、highmoreoptiyesmhighmoreoptiyesfhighmoreoptiyesmlowlesspessyesmlowlesspessnomlowmorepessyesmlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinomhighlessoptinomhighlessoptinofhighlessoptinofhighlessoptinofhighlessoptinoflowmore
32、optinomhighmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnomlowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspe
33、ssnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnoflowlesspessnomhighlesspessnomhighlesspessnomhighlesspessnomhighlesspessnomhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnofhighlesspessnomlowmorepessnomhighmorepessnomlowmoreoptiyesmlowmoreoptiyes解:
34、被加工的數據集是原始類別資料,需要用table語句生成BURT表新添。以sex age income morale commit表示變量性別,低于30歲?,年收入8000,情緒,贊成否。取的值是m,f;low,high;less,more;pess,opti;yes,no,分別表示:男、女;低于、高于;少于、多于;悲觀、樂觀;贊成、反對。建立程序(程序名“對英國政策的態(tài)度”.sas)data commit;input sex$ age$ income$ morale$ commit$;datalines;mlowless optiyesflowless optiyesflowless opti
35、yesflowlessoptiyesmhighlessoptiyesmhighlessoptiyesmhighlessoptiyesfhighlessoptiyesfhighlessoptiyesmlowmoreoptiyesmlowmoreoptiyesmhighmoreoptiyesmhighmoreoptiyesmhighmoreoptiyesfhighmoreoptiyesmlowlesspressyesmlowlesspressnomlowmorepressyesmlowlessoptinomlowlessoptinomlowlessoptinomlowlessoptinomlowl
36、essoptinoflowlessoptinoflowlessoptinoflowlessoptinoflowlessoptinomhighlessoptinomhighlessoptinofhighlessoptinofhighlessoptinofhighlessoptinoflowmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomhighmoreoptinomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspre
37、ssnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnomlowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnoflowlesspressnomhighlesspressnomhighlesspressnomhighlesspressnomhighles
38、spressnomhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnofhighlesspressnomlowmorepressnomhighmorepressnomlowmoreoptiyesmlowmoreoptiyes;proc corresp mca outc=wang;tables sex age income morale commit; /*由原始屬性變量數據算出burt表,以供對應分析使用*/run;%plotit(data=wang, da
39、tatype=corresp, href=0, vref=0) /*畫對應分析圖,過原點畫縱軸和橫軸*/quit;執(zhí)行程序后得到對應分析圖。從圖中可見“低于”30歲(low)、“少于8000鎊”(less)、“悲觀”(pess)、“反對”(no)距離較近,說明年青和收入少者持悲觀態(tài)度,反對該政策;“贊成”(yes)、“樂觀”(optim)、“高于”(high)距離較近,說明收入高的人持樂觀態(tài)度,贊成該政策;“男”、“女”和“多于”比較孤立,說明對政策的態(tài)度與“性別”無關,年齡大的人對政策的態(tài)度不明朗。4 模糊數據的處理對于每一個個體x屬性變量的值應當是唯一確定的,有時出現模糊值現象。例如一個人
40、的舌色既是淡紅又是舌尖紅。為此常用近似處理方法原始數據No淡紅舌尖紅紅1234100567801023451101357111近似數據No淡紅舌尖紅紅1234100567801023451002345010135710013570101357001精確數據No淡紅舌尖紅紅權12341006567801062345100323450103135710021357010213570012用MINITAB的頻數選項或SAS的weight語句計算四logistic回歸當因變量是屬性變量時,可以用logistic回歸建立預測方程Logistic回歸分析的目的是建立經驗公式,以便由自變量預測因變量概率分布
41、。當因變量僅有兩個“狀態(tài)”時的Logistic回歸就是“二值Logistic回歸”;當因變量的多個“狀態(tài)”(狀態(tài)數多于2)沒有順序關系時就是“名義值Logistic回歸”。使用MINITAB的二進制Logistic回歸對話框、名義Logistic回歸對話框,就能分別完成這2種回歸分析。Logistic回歸的自變量可以是數值變量,也可以是屬性變量。當自變量是屬性變量時,要把它選入“因子”空格,以向MINITAB說明該自變量是屬性變量。實施這些對話框后,得到的結果主要由3張表組成:Logistic回歸表,斜率檢驗表和擬合優(yōu)度檢驗表;它門的表頭分別是“Logistic回歸表”,“檢驗斜率是否為零”和
42、“擬合優(yōu)度檢驗”。Logistic回歸表給出參數的估計值,參數顯著性檢驗的p值(這兩項和線性回歸相同)和自變量的優(yōu)勢比;p值越小,例如小于0.05,自變量越重要,不能刪去;斜率檢驗表給出斜率檢驗的p值,p值越小,例如小于0.05,Logistic所有自變量的效果越好;擬合優(yōu)度檢驗表給出擬合優(yōu)度檢驗的p值,p值越大,例如大于0.05,Logistic回歸方程的效果越好。對這些表我們將結合例題加以介紹。(一)二值Logistic回歸二值Logistic回歸僅考慮因變量是二個狀態(tài)的情形:當用1表示因變量處于某個狀態(tài),用0表示因變量處于另一個狀態(tài)時,因變量取1事件的概率記為p;當因變量的值是英文字符時
43、,英文字符排在后面的事件的概率記為p;當因變量的值是漢字符號時,漢字拼音字母排在后面的事件的概率記為p。二值Logistic回歸方程是其中是已估計出的參數。稱為“優(yōu)勢比”。例 統(tǒng)計1008位顧客購買洗衣粉情況,數據見下表希望了解水質、過去購買否、水溫對于購買哪種品牌是否有影響。 水質品牌是否買過水溫頻數軟甲是高19軟甲是低57軟甲否高29軟甲否低63軟乙是高29軟乙是低49軟乙否高27軟乙否低53中甲是高23中甲是低47中甲否高33中甲否低66中乙是高47中乙是低55中乙否高23中乙否低50硬甲是高24硬甲是低37硬甲否高42硬甲否低68硬乙是高43硬乙是低52硬乙否高30硬乙否低42解 這兒
44、有4個屬性變量:水質、過去購買否、水溫和購買哪種品牌。把被購買洗衣粉的品牌作為因變量,命名為“品牌”,它只取兩個值(甲和乙),適用于二值Logistic回歸。把水質、過去購買否、水溫作為自變量,實施二值Logistic回歸。具體操作如下:先將數表拷入工作表;然后由指令“統(tǒng)計 回歸 二進制Logistic回歸”進入“二值Logistic回歸”對話框;再在“響應”空格中選入 “品牌”;在“頻率(可選)”空格中選入“頻數”;在“模型”空格選入 “水質”、“水溫”和“是否買過”;在“因子”空格選入“水質”、“水溫”和“是否買過”;最后點擊“確定”。在會話窗口得到二進制 Logistic 回歸: 品牌 與 水溫, 是否買過,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學校水井房管理制度
- 學校縫紉室管理制度
- 學校防暴雨管理制度
- 學生托管班管理制度
- 學院樓門衛(wèi)管理制度
- 安康碼項目管理制度
- 安監(jiān)房衛(wèi)生管理制度
- 官渡區(qū)臺賬管理制度
- 實施部日志管理制度
- 寵物寄存室管理制度
- 2025年計算機網絡技術考試試卷及答案
- 2025年天津市河西區(qū)中考二模語文試題
- 教育事業(yè)十五五(2026-2030)發(fā)展規(guī)劃
- 2025年中醫(yī)基礎理論考試試題及答案
- 2025中國鐵路濟南局集團限公司招聘116人(七)易考易錯模擬試題(共500題)試卷后附參考答案-1
- 酒店入股合同協議書范本
- 河南省南陽市2025年七年級英語第二學期期末學業(yè)水平測試模擬試題含答案
- T/CNESA 1003-2020電力儲能系統(tǒng)用電池連接電纜
- 2025年石油天然氣管線鋼管行業(yè)深度研究報告
- 2025榆林能源集團有限公司招聘工作人員(473人)筆試參考題庫附帶答案詳解
- 成人教育代理協議書
評論
0/150
提交評論