SPSS期末復(fù)習(xí)筆記_第1頁
SPSS期末復(fù)習(xí)筆記_第2頁
SPSS期末復(fù)習(xí)筆記_第3頁
SPSS期末復(fù)習(xí)筆記_第4頁
SPSS期末復(fù)習(xí)筆記_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、SPSS四種輸出結(jié)果:樞軸表/輕量表、文本格式、統(tǒng)計圖表、模型SP SS四種窗口:語法窗口、輸出窗口、數(shù)據(jù)窗口、腳本窗口SPSS三種運行方式:命令行方式、批程序方式、菜單對話框SPSS默認(rèn)文件類型:數(shù)據(jù)文件*sa可:此為SPSS軟件默認(rèn)的數(shù)據(jù)文件格式,雙擊可由SPSS直接讀取。命令文件*.sps:可在語法編輯程序(syntax)中先編寫或貼上欲執(zhí)行之分析指令,并將其存 貯起來,供日后重復(fù)使用或檢查之用。輸出文件*.spo:允許直接加以編輯或轉(zhuǎn)貼到其他編輯軟件, 的默認(rèn)格式改為*.spv。數(shù)據(jù)文件清洗SPSS 16.0版之后將輸出文件刪除。數(shù)據(jù)7標(biāo)識重復(fù)個案 問題的答案被稱作變量的取值。“編碼c

2、oding”的過程。 數(shù)據(jù)陣/數(shù)據(jù)文件:n個案例、多余重復(fù)的數(shù)據(jù)篩選清楚,將確實的數(shù)據(jù)補充完整,標(biāo)識異常個案將答案轉(zhuǎn)變成可用于統(tǒng)計分析的數(shù)據(jù),將錯誤的數(shù)據(jù)糾正或需要經(jīng)過一個被稱作m個變量構(gòu)成的陣列SPSS對數(shù)據(jù)的處理是以變量為基礎(chǔ)的。 所以,數(shù)據(jù)錄入前一定先定義變量及其屬性,包括指定名稱、(存儲)類型、 標(biāo)簽、值、缺失、列(寬)、對齊、度量標(biāo)準(zhǔn)和角色。這也被稱作建立數(shù) 變量名必須數(shù)字不可以,其他字符可以是任何字母、數(shù)字或 #、$等符號。變量名中不能有空白字符或其他特殊字符(如“!”.)。寬度、小數(shù)、“? ”、“*”等)一。變量名最后一個字符不能是英文句號(hxh或Hxh對SPSS而言,均被視為

3、同一個變量。在SPSS中不區(qū)分大小寫。例如,HXHSP SS的保留字不能作為變量的名稱,女口WITH等。SPSS中變量有3種基本類型:數(shù)值型、字符型(區(qū)分大小寫)和日期型。 但根據(jù)不同的顯示方式,數(shù)值型又被區(qū)分成:數(shù)值、逗號、圓點、科學(xué)計數(shù)法、美元、 戶)設(shè)定貨幣等6個子類型。不過,只有數(shù)值(N)最為常用。默認(rèn)狀態(tài)下,所有變量的類型均為數(shù)值型,且寬度是8位、小數(shù)位是2位。對話框界面可修改寬度和小數(shù)位,然后“確定”,但寬度必須大于小數(shù)位。變量標(biāo)簽是對變量名的進一步描述,可長達120個字符SPSS有兩類缺失值:系統(tǒng)默認(rèn)缺失值和用戶定義缺失值。 對于數(shù)值型變量值,系統(tǒng)默認(rèn)缺失值為圓點“ 字符串(什么

4、也沒有)。指定“列”實際上是設(shè)定變量的顯示寬度,默認(rèn)為 統(tǒng)計學(xué)中,按照對事物描述的精確程度,將度量標(biāo)準(zhǔn)從低到高區(qū)分為 定類尺度:W總緲)僅能測定類別差,不能比較大小,各類之間沒有順序和等級,只能計算 頻數(shù)頻率百分比,可以使用數(shù)值型變量,也可以是字符型變量。要符合窮盡和互斥的原則。 定序尺度:|d詼n可比較優(yōu)劣或排序,但數(shù)值不代表絕對數(shù)量大小,可以是數(shù)值型變量, 可以是字符型變量??梢杂嬎泐l數(shù)、頻率和累計頻率、累計頻數(shù)。定距尺度:丁/憎士兇1不僅能區(qū)分不同類型并排序,還能指出類別之間的差距是多少,最典型 的是溫度。嚴(yán)格來說只能加減。其0值沒有物理含義,沒有絕對的“0”點,故不能做乘、除運算。AL

5、L、AND BY EQ GE GT、LT、NE NOT ORTO”,而字符型變量值的系統(tǒng)默認(rèn)缺失值為空8個字符的寬度。4種類型:(用定比尺度:弋環(huán)測算兩個測度值之間比值,與定距變量相比差別是有一個固定的絕對 “零 點”。0在定距變量中僅是一個測量值,而定比變量真正表示沒有??梢约訙p乘除。Eg重 量、年齡可以將高層次測量尺度的結(jié)果轉(zhuǎn)換為低層次測量尺度的測量結(jié)果, 高層次的。但不能把低層次的轉(zhuǎn)化為半開放題的處理:指定變量時,可以使用兩個變量,第1個變量中,“其他”作為一個選項; 第2個變量將“其他”中“請注明”的內(nèi)容作為一個單獨的開放題,而將沒有選擇“其他” 一項的案例在此變量上的取值作為系統(tǒng)缺失

6、值。為使得變量名之間具有一定的邏輯聯(lián)系,可以考慮將第二個變量的名稱設(shè)置為由第一個變量名稱后直接加“a”之類的字符。多選題的處理:1多重二分法:編碼時,將每一個選項定義成一個變量,有幾個選項就有幾個變量,且均以取值等于1表示選了該項、以取值等于0表示未選該項。(標(biāo)準(zhǔn)處理方式)2多重分類法:也是利用多個變量來對一個多選題的答案進行編碼。應(yīng)該用多少個變量,取決于實際可能給出的最多答案的數(shù)目而定。這多個變量必須為數(shù)值型變量,所有變量采用同一套取值標(biāo)簽。Excel、txt的文件讀取之后要保存為SPSS的文件。插入終止線時,開始(即0列)處和結(jié)尾(最后一列)處必須插入,否則會少變量F4.0 A1 F是數(shù)值

7、型A是字符串F4.0就是數(shù)值型寬度是4小數(shù)是0什么是固定寬度的,什么是分隔符等分開的? 數(shù)據(jù)管理 轉(zhuǎn)換7變量級別的 計算新變量:pute= =(NTNT上不孑于I IKofKof):):戎j j(NOTNOT):):曠已有變量值的分組合并:recode(重新編碼為不同/相同變量)將度量變量重新分組為序號變量,或者將序號變量、名義變量的不同取值加以歸類合并“重新編碼為相同變量”:對現(xiàn)有變量直接進行編碼,保留該變量,只是根據(jù)設(shè)定的規(guī)則替 換掉原來的取值?!爸匦戮幋a為不同變量”:根據(jù)現(xiàn)有變量的取值生成包括端點!連續(xù)變量的離散化如果想進行的分組是比較有規(guī)律的,例如,等距分組,或等樣本量分組,可以使用

8、供的“可視離散化”過程進行分組。SPSS提供了兩種可視離散化:需用戶自行判斷設(shè)定的可視離散化和基本全自動的最優(yōu)離散化。建議生成分割點的時候先填第一個分割點的位置和個數(shù),然后自動生成寬度。變量的自動重編碼與數(shù)值移動自動重編碼:自動按照原變量取值的大小或字符順序生成新變量,值大小的序號或先后序次。個案排秩:變量的排秩實際上就是根據(jù)某個變量的取值大小來對個案排次序,同時將得到的排序結(jié)果保存到一個新變量中。雖然效果同樣都是基于某個變量對個案進行排序,但“個案排秩”過程比“自動重新編碼”過程更為靈活。結(jié):遇到相同取值如何給序號值默認(rèn)為最常用的秩:新變量的值等于原變量取值的序號,個新變量來保存重新編碼的結(jié)

9、果。SP ss提而新變量的值就是原變量成績 均值 池蠱I唯亠阻轉(zhuǎn)換7轉(zhuǎn)換值“轉(zhuǎn)換”菜單中的其他功能“對個案內(nèi)的值計數(shù)”過程用于標(biāo)識某個變量中是否出現(xiàn)了某個值或某個范圍的值, 計算一組變量中出現(xiàn)特定取值的變量個數(shù)。選擇個案一旦設(shè)定, 除非另行取消,否則將在后續(xù)的數(shù)據(jù)處理和分析中一直有效, 另存在數(shù)據(jù)集里。隨機個案樣本精確后面的兩個框框: 第一個框表示樣本的容量。第二個框表示樣本的范圍,也就是從第一個個案開始到第多少個個案 老師隨機抽選同學(xué)回答問題就是這樣做的。加權(quán)個案給不同個案賦以不同的權(quán)重,以改變個案在統(tǒng)計分析中的重要性。通常兩種情況下會用到這一過程:以頻數(shù)形式錄入的數(shù)據(jù);不等概率樣本數(shù)據(jù)。加

10、權(quán)個案一旦設(shè)定,除非另行取消,否則將在后續(xù)的數(shù)據(jù)處理和分析中一直有效,另存在數(shù)據(jù)集里。 (同樣的還有選擇個案和拆分文件)分類匯總 按指定的分類變量對個案進行分組, 并按分組對變量求指定的描述性統(tǒng)計量,為新數(shù)據(jù)文件,也可以直接(生成新變量)添加到當(dāng)前數(shù)據(jù)文件。 個案數(shù):定義一個新變量,其取值等于每一分組下的個案數(shù)目 上方、下方都是開區(qū)間 內(nèi)部:取值大于等于a且小于等于b外部:取值小于a或大于b分類匯總與拆分文件兩個過程有何異同:分類匯總還對變量做了描述性統(tǒng)計,而拆分文件只是對變量做了分類匯總,對變量進行描述還需要進一步的操作。9090898989898989S7S7數(shù)值移動:35 556 656

11、在SP SS中,5 536 64 4一種方式是以“計算變量”過程利用實現(xiàn)laT函數(shù)是返回之前的,取前面的數(shù)(滯后),在雜項里面; 取后面的數(shù)(提前),但是計算變量里面沒有Lag()函數(shù)、Lead()函數(shù)來lead函數(shù)是返回后面的,-lead函數(shù)了也可以數(shù)據(jù)7文件級別的排序個案用戶所指定的變量被稱作排序變量排序個案V.S.個案排秩 區(qū)別:是否產(chǎn)生新變量;個案相對位置是否變動。拆分文件可以和選擇個案達到同樣的目的按照不同組分別匯總統(tǒng)計結(jié)果“按組組織輸出”拆分文件一旦設(shè)定,除非另行取消, 否則將在后續(xù)的數(shù)據(jù)處理和分析中一直有效, 另存在數(shù)據(jù)集里。選擇個案(篩選) 除了拆分文件的功能,還有并不想對全部

12、個案進行分析, 這也需要用到“選擇個案”過程。過濾掉未選中個案:默認(rèn)未選中個案不包括在分析中, 成名為filter_$的變量加以標(biāo)識,取值1表示被選中, 被選中個案處會標(biāo)以反斜杠。而且會被而只是想對其中的一部分進行分析,但保留在數(shù)據(jù)中;并在數(shù)據(jù)文件中生0表示未被選中;數(shù)據(jù)視圖最左端未而且會被而且會被結(jié)果可以另存數(shù)據(jù)文件的重組(指的是長、寬格式之間的轉(zhuǎn)換)數(shù)據(jù)錄入的默認(rèn)格式每一案例占一行、每一變量占一列。這種數(shù)據(jù)被稱作寬格式某些特殊情況下,比如重復(fù)測量數(shù)據(jù),進行分析時需要采用長格式數(shù)據(jù),即:按照每一觀測(observati on)占一行、同一個案占多行的格式排列的數(shù)據(jù)。(標(biāo)識符變量、索引變量)1

13、長7寬將選定個案重組為變量轉(zhuǎn)換后原文件中的數(shù)據(jù)被直接替換,但文件名沒有變。2寬7長將選定變量重組為個案數(shù)據(jù)文件的合并1縱向拼接/垂直合并添加的是個案2橫向合并/水平合并 添加的是變量若使用關(guān)鍵變量(指定橫向合并時按照什么樣的規(guī)則進行對應(yīng))進行橫向合并,則各數(shù)據(jù)文件都必須事先按照關(guān)鍵變量取值進行升序排列,否則會出錯。為便于以SPSS進行橫向合并,各數(shù)據(jù)文件中,表示不同含義的變量盡量采用不同的變量名稱。單變量描述統(tǒng)計:集中趨勢測量(中心性、中心測量)尺度變量)位數(shù)(只適用于序號、尺度變量,而不適用于名義 變量,序號變量要還原到數(shù)字本來代表的意思,有一半的被調(diào)查對象的在以下/上)均值(均值是數(shù)據(jù)分布

14、的平衡點。 只適用于尺度變量, 而不適用于名義、序號變量。另外,均值對變量的取值大小很敏感,故,對于存在極端值的 情形,均值不宜用作反映變量分布集中趨勢的指標(biāo),更好的選擇是中位數(shù)。) 左偏(負偏態(tài)):均值中位數(shù)眾數(shù)右偏(正偏態(tài)):眾數(shù)中位數(shù)均值(平均數(shù)受偏高數(shù)值影響較大) 若要分析不同城市的中位數(shù)等的結(jié)果,可以先拆分文件再進行分析峰度峰度系數(shù)高窄峰0Jl正態(tài)峰0低闊峰0LJ|統(tǒng)計學(xué)=描述統(tǒng)計+推斷統(tǒng)計(參數(shù)檢驗&非參數(shù)檢驗)推斷統(tǒng)計=參數(shù)估計+假設(shè)檢驗(由樣本來認(rèn)識總體的兩種方式) 參數(shù)估計=點估計 描述統(tǒng)計的目的在于: 水平。數(shù)據(jù)分析的兩個任務(wù):判斷是否正態(tài) (尺度變量)方法一:通過

15、考察偏度和峰度系數(shù) 方法二:通過考察正態(tài)P-P圖7眾數(shù)(適用于任何測量等級的變量:名義、序號和二2S (y -y)丄土_n -1單位是變N離散趨勢測量(尺度統(tǒng)計量)7方差(總體:N樣本:量原始測量單位的平方樣本方差,也被稱作樣本修正方差,它是總體方差的無偏估計。也是為什么需要在計算樣本方差時除以n-1的原因)、標(biāo)準(zhǔn)差、異眾比例例)、范圍(全距/極差)分布形狀測量7峰態(tài)(峰點陡緩程度通過計算峰度 味著群體內(nèi)部存在分化)偏態(tài)(分布是否對稱通過計算偏度kurtosis系數(shù)來測量,(1-眾數(shù)組所占比多峰分布往往意skewness系數(shù)來測量,取值通常在-3到+3之間,其絕對值越大,表明偏斜程度越大。當(dāng)分

16、布呈右偏態(tài)時, 故也稱正偏態(tài);當(dāng)分布為左偏態(tài)時,SKQ故也稱負偏態(tài)。)SK是無量綱的量,SK0,+區(qū)間估計簡化或概括數(shù)據(jù)(信息)。采用何種描述統(tǒng)計工具取決于變量的測量描述樣本推斷總體方法三:通過正態(tài)性非參數(shù)檢驗(分析7非參數(shù)檢驗7單樣本除了考察變量取值分布的集中趨勢、離散趨勢、分布形狀之外,還可以考察一些位置統(tǒng)計量,如:四分位數(shù)、百分位數(shù)等對于尺度變量的描述統(tǒng)計,可以采用分析7描述統(tǒng)計7頻率過程,也可以采用 分析7描述統(tǒng)計7描述過程,還可以用分析7描述統(tǒng)計7探索過程IQR:四分位距=第三四分位數(shù)-第一四分位數(shù)中間50%案例的取值范圍,反映取值分布的離散程度 樣本均值的標(biāo)準(zhǔn)誤SE= 2石標(biāo)準(zhǔn)誤:

17、抽樣分布(若重復(fù)抽樣規(guī)模為n=N的樣本,將所有可能樣本均窮盡,每一個樣本統(tǒng)計量(如均值)的值便構(gòu)成了一個新的分布,叫做抽樣分布)的標(biāo)準(zhǔn)差單總體均值(比例是特殊的均值)的假設(shè)檢驗:tY-血 -卩0-卩0“1)亍 7nJ分析7比較均值7單樣本T檢驗結(jié)論舉例:因為95%!信區(qū)間并未包含0值,故應(yīng)拒絕零假設(shè)。并無足夠證據(jù)支持平均收入 為20000美元的說法,故應(yīng)認(rèn)為收入不等于20000美元。二總體均值差異的假設(shè)檢驗 分析7比較均值7獨立樣本T檢驗 小樣本,總體方差未知,兩個方差不等,非參數(shù)檢驗。小樣本,總體方差未知,但已知兩個方差相等:T檢驗大樣本同樣可以用T檢驗,因為n增大時,t與Z不斷逼近,且更保

18、守。t從一叢)t (nA +% _2)S WAnB兩獨立樣本t檢驗的零假設(shè)為:兩總體均值之間不存在顯著差異,即卩 具體分兩步來完成:第一,利用F檢驗判斷兩總體的方差是否相同【此為進行均值差檢驗的前提條件】 第二,根據(jù)第一步選擇t統(tǒng)計量和自由度計算公式,進而對 結(jié)論舉例:表明男性和女性的收入存在統(tǒng)計上顯著的差別。本觀察到的男性和女性之間收入的差別并非是由隨機抽樣造成的, 實存在著差別。1獨立樣本2配對樣本針對同一樣本收集接受“處置”前后兩個時點上的數(shù)據(jù)。注意,這與前面兩個獨立樣本時情 況不同,這時屬于配對樣本研究。(配對樣本T檢驗)將差值作為新的統(tǒng)計量(兩次觀察來自正態(tài)總體,不要求方差相等),檢

19、驗差值是否為 表明起始薪水與當(dāng)前薪水具有統(tǒng)計上顯著的差別。比例的話編碼應(yīng)該編成0和1,例如均值想表示男性比例,男性就是1;均值想表示女性比例,女性就是1。多總體均值差異的假設(shè)檢驗:F檢驗 方差分析(ANOVA是對T檢驗的一般化因素(factor):要檢驗的對象水平:因素的具體表現(xiàn)線性回歸是方差分析的一般化,方差分析是T檢驗的一般化置信度小,會增大假設(shè)檢驗中犯I類錯誤(棄真錯誤)的風(fēng)險置信水平/置信度/置信系數(shù)95% 99% 90%求置信區(qū)間:探索或者單樣本 置信區(qū)間的含義:通常來說,95%置信區(qū)間的意思是我們估計的目標(biāo)參數(shù)有入某區(qū)間。而傳統(tǒng)的統(tǒng)計和貝葉斯學(xué)派對置信區(qū)間的解釋是有區(qū)別的。前者的準(zhǔn)

20、確的解釋應(yīng)該是重復(fù)抽樣100次,大約有95次所估計的參數(shù)會落入該區(qū)間。而后者對置“使用定制字段分配”)t檢驗CTY1-卩2=0T檢驗的結(jié)論作出判斷。“統(tǒng)計上顯著”的含義: 基于樣 而是總體中兩性間收入確t檢驗95%的可能性落95%置信區(qū)間信區(qū)間的解釋更接近于我們通常的理解。即有 假設(shè)檢驗所依據(jù)就是小概率原理(統(tǒng)計上)而已,比如0.05、0.01等。邏輯上依據(jù)的是反證法。 可以將第一類錯誤記為“錯殺好人”,把第二類錯誤記為“放走壞人” 方差齊性是方差分析ANOVA方法的基本假定之一 方差分析結(jié)果往往意味著:不同組別群體是否來自同一個更大規(guī)模的(正態(tài))總體 應(yīng)用方差分析,因滿足以下假定條件: 被檢

21、驗變量(因變量)為尺度變量 樣本通過隨機抽樣得到(獨立性) 尺度變量在分類變量各類別上服從正態(tài)分布(正態(tài)性)尺度變量在分類變量各類別上具有相同方差(方差齊性) 變異(方差更大) 大) 方差齊性的假設(shè) 方差分析的假設(shè) 原假設(shè)是想反對的Sig=0.139 0.0595%勺可能落入該區(qū)間。,只是把小概率a的標(biāo)準(zhǔn)定得更為具體和數(shù)量化(如果不齊,如存在呈現(xiàn)出更大 的大規(guī)模組,則組內(nèi)變異(WSS會被夸大 后果:犯I類錯誤可能性變H0H0:三地index1的方差相等H1:三地index1的方差不完全相等 :三地的均值相等H1:三地均值不同或不完全相同故接受零假設(shè),即三地居民在消費信心上不存在顯著的差別。單側(cè)檢驗:備擇假設(shè)卩a是左側(cè)檢驗計算出雙側(cè)sig值之后除以備擇假設(shè)卩a是右側(cè)檢驗計算出雙側(cè)sig值之后除以比較 左側(cè)檢驗就是拒絕域在左邊 誤差=隨機誤差(因素的同一水平下各觀測值之間的差異) 觀測值之間的差異)2,再和0.05比較2,再拿1減去這個數(shù),再和0.05+系統(tǒng)誤差(因素的不同水平下各組內(nèi)方差只包括隨機誤差組間方差既包括隨機誤差,也包括系統(tǒng)誤差SST=SSE+SSAL MSA匚/1,.、F - -

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論