SPSS數據的基本統(tǒng)計分析_第1頁
SPSS數據的基本統(tǒng)計分析_第2頁
SPSS數據的基本統(tǒng)計分析_第3頁
SPSS數據的基本統(tǒng)計分析_第4頁
SPSS數據的基本統(tǒng)計分析_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、SPSSSPSS基本統(tǒng)計分析基本統(tǒng)計分析單變量的頻數分析單變量的基本描述統(tǒng)計量的計算多變量的交叉頻數表的編制和分析探索性分析數據的多選項分析通過頻數分析能夠了解變量取值的狀況,把握數據的分布特征,能反映樣本是否具有總體代表性,抽樣是否存在系統(tǒng)偏差等。u(1)程序:分析(analyze)-描述統(tǒng)計(descriptive)-頻數(frequency)u(2)選擇一個或多個頻數分析變量放進變量框中u(3)選中右下角顯示頻數表格u(4)點擊統(tǒng)計量、圖表、格式依次進行設置源變量框源變量框待分析變量待分析變量要求輸出頻數分析表格要求輸出頻數分析表格選擇統(tǒng)計量選擇統(tǒng)計量選擇圖表選擇圖表選擇輸出格式選擇輸出

2、格式 制作頻數分布表(頻數、百分比):以表格形式呈現各個數據的次數分布情況,包括頻數、百分比,有效百分比、累計百分比。 百分位百分位數選項數選項第第2525、5050、7575個百分個百分位數點對位數點對應的變量應的變量值值把數值平均把數值平均分為分為n n份,每份,每個等分位點個等分位點對應的變量對應的變量值值(2n1002n100)指定輸出指定輸出多個百分多個百分位數位數數據分布形態(tài)的偏數據分布形態(tài)的偏斜度和方向斜度和方向數據分布形態(tài)的陡數據分布形態(tài)的陡緩程度緩程度離散離散趨勢趨勢測量測量集中趨勢測量集中趨勢測量對于分組數據,計算百分位數值對于分組數據,計算百分位數值和中位數時,用各組的組

3、中值代和中位數時,用各組的組中值代表各組數據。表各組數據。分位數是變量在不同分位點上的取值,從一個側面清楚地刻畫了變量的取值分布狀態(tài)。分位數差是一種描述數據離散程度的方式。分位數差越大,表示數據在相應分位段上的離散程度越大。 是描述某變量所有取值的分布形態(tài)陡緩程度的統(tǒng)計量,是描述某變量所有取值的分布形態(tài)陡緩程度的統(tǒng)計量,而峰度對陡緩程度的度量是與正態(tài)分布進行比較的結果。如果峰度等于而峰度對陡緩程度的度量是與正態(tài)分布進行比較的結果。如果峰度等于0 0 ,其數據分布的陡緩程度與正態(tài)分布相同;峰度大于其數據分布的陡緩程度與正態(tài)分布相同;峰度大于0 0,其數據分布比正態(tài)分布,其數據分布比正態(tài)分布更陡峭

4、;峰度小于更陡峭;峰度小于0 0,其數據分布比正態(tài)分布更平坦,其數據分布比正態(tài)分布更平坦。是描述數據分布對稱性的統(tǒng)計量,而且也是與正態(tài)分布的是描述數據分布對稱性的統(tǒng)計量,而且也是與正態(tài)分布的對稱性相比較而得到的。如果分布的偏度等于對稱性相比較而得到的。如果分布的偏度等于0 0 ,則其數據分布的對稱性與,則其數據分布的對稱性與正態(tài)分布相同;如果偏度大于正態(tài)分布相同;如果偏度大于0 0,則其分布為正偏或右偏;如果偏度小于,則其分布為正偏或右偏;如果偏度小于0 0,則為負偏或左偏。則為負偏或左偏。集中趨勢Central tendency (一組數據向某一中心靠攏的傾向)離散趨勢Dispersion(

5、一組數據遠離其中心值的程度)定類眾數Mode異眾比率V定序中位數Median四分位差Quartiles定距 定比均值Mean全距 Range方差 Variance標準差Std.deviant不同等級的變量描述性指標不同等級的變量描述性指標均值:均值:某變量所有取值的平均水平,其大小易受到數據中極端值的影響。眾數眾數Mode:是一組數據中出現次數最多的數據。中位數中位數Median:一組數據按升序排序后處于中間位置的數據。均值標準誤差:均值標準誤差:是描述樣本均值與總體均值之間差異程度的統(tǒng)計量。標準差:標準差:反映變量取值距離均值的平均離散程度。其值越大,變量間的差異越大。方差:方差:是標準差的

6、平方,反映變量取值離散程度。其值越大,變量間的差異越大。全距全距range:也稱為極差,是數據最大值與最小值之間的絕對差,也是反映變量取值的離散程度。是用矩形的面積來表示頻數分布變化的圖形。適用于連續(xù)性數據,適用于連續(xù)性數據,即:定距數據適用于離散型數據,適用于離散型數據,即定序、定類和分組后的定距數據。其中,條形圖(bar chart)是用寬度相同的條形的高度或長短來表示頻數分布變化的圖形;餅圖(pie chart)是用圓形或圓內扇形的面積來表示頻數分布變化的圖形。不輸出任何圖形不輸出任何圖形輸出條形圖輸出條形圖輸出餅圖輸出餅圖直方圖直方圖輸出正態(tài)分布曲線輸出正態(tài)分布曲線居民儲蓄調查數據居民

7、儲蓄調查數據分析儲戶的戶口和職業(yè)的基本情況;分析儲戶一次存(?。┛罱痤~的分布,并對城鎮(zhèn)儲戶和農村儲戶進行分析比較。目標一:被調查者的戶口和職業(yè)情況的頻數分布表和統(tǒng)計圖目標一:被調查者的戶口和職業(yè)情況的頻數分布表和統(tǒng)計圖分析儲戶一次存(?。┛罱痤~的分布,并對城鎮(zhèn)儲戶和農村儲戶進行分析比較。分析思路:分析思路:由于存(?。┛罱痤~屬于定距型變量,直接采用頻數分析不利于對分布形態(tài)的把握。 運用數據預處理中的數據分組功能對數據分組后再編制頻數分布表。如:將(?。┛罱痤~重新分成5組:少于500元、500-2000、2000-3500、3500-5000、5000以上。對比城鎮(zhèn)儲戶和農村儲戶情況,可采用數據

8、預處理中的數據拆分并計算樣本存(?。┛罱痤~的四分位數、峰度、偏度等。儲戶一次存(?。┛罱痤~的分布情況:儲戶一次存(?。┛罱痤~的分布情況:被調查者有近一半的儲戶一次存取款金額在500元以下,2000-3500元的最少。從圖形看來,儲戶的存(?。┛罱痤~呈明顯的右偏分布,即一次存取款金額偏低的占較大比例,也有少數金額偏高的儲戶。城鎮(zhèn)和農村居民儲戶一次存(取)款金額的比較:城鎮(zhèn)和農村居民儲戶一次存(?。┛罱痤~的比較:從均值以及四分位數差可以看出城鎮(zhèn)儲戶存取款金額的離散度大于農村儲戶(尤其在高金額區(qū)),且城鎮(zhèn)儲戶的存取款金額高于農村儲戶。一是刻畫集中趨勢的描述統(tǒng)計量;二是刻畫離散程度的描述統(tǒng)計量;三是刻

9、畫分布形態(tài)的描述統(tǒng)計量。通過以上三類統(tǒng)計量能較為準確地把握數據的分布特點。 (1)程序:分析(analyze)-描述統(tǒng)計(descriptive statistics)-描述(descriptive) (2)選擇要描述的一個或多個數值型變量 (3)點擊選項按鈕,做二級對話框設置 (4)選中右下角標準化得分保存為變量可將數據標準化后的取值保存到數據文檔中。對數據標準化對數據標準化 ,并作,并作為新變量保存在文件中。為新變量保存在文件中。uxiiZ居民儲蓄調查數據居民儲蓄調查數據計算存(取)款金額的基本描述統(tǒng)計量,并分別對城鎮(zhèn)儲戶和農村儲戶進行比較;分析儲戶一次存(?。┛罱痤~的數量是否存在不均衡現

10、象。城鎮(zhèn)儲戶的平均存取款金額(2687.2)高于農村儲戶(1944.97);從標準差及全距可看出,城鎮(zhèn)儲戶存取款金額的離散程度低于農村儲戶。從峰度和偏度看來,城鎮(zhèn)和農村儲戶存取款金額的分布均呈現右偏和尖峰分布,只是農村儲戶右偏斜程度及尖峰程度更大;總體而言,城鎮(zhèn)儲戶和農村儲戶中的大部分人一次存取款金額都低于平均水平,且農村儲戶表現得更為明顯。分析儲戶一次存(?。┛罱痤~的數量是否存在不均衡現象是否存在不均衡現象, 可以從分析金額是入手。一般而言,若儲戶存取款金額服從正態(tài)分布,那么根據3準則(3個標準差準則),異常值通常為3個標準差之外的變量值??赏ㄟ^數據的標準化處理來判斷。(先標準化,再依據標準

11、化值分組,后用頻數分析)從頻數分析可得,低異常組占比0%,高異常組占比2.6%。一般認為異常組的總比例大于理論值0.3%,可以認為存取款金額存在一定的不均衡現象。主要包括兩大基本任兩大基本任務務:根據收集到樣本數據產生交叉列聯(lián)表;在交叉列聯(lián)表的基礎上,對兩兩變量間是否存在一定的相關性進行分析。是兩個或兩個以上的變量交叉分組后形成的頻數分布表。分析(analyze)-描述統(tǒng)計(descriptive statistics)-交叉表(cross table)行變量(自變量)的選取行變量(自變量)的選取列變量(因變量)的選取列變量(因變量)的選取顯示每組變量的條形分類圖顯示每組變量的條形分類圖相關統(tǒng)

12、計量的相關統(tǒng)計量的計算計算輸出表格的形式輸出表格的形式表格排列順序表格排列順序分層變量(控制變量)的選取分層變量(控制變量)的選取不輸出列聯(lián)表不輸出列聯(lián)表測量級別相關系數取值范圍PRE意義檢驗方法SPSS程序類-類(類-序)0.12 crosstabs序-序G/ rs-1.1G/rs2T檢驗Crosstabs/correlation類序-距(3)E/E20.1E2F檢驗crosstabs/Oneway/means距-距r-1.1r2T檢驗crosstabs/correlation/linear相關分析的概念相關分析的概念定類變量定類變量定序變量定序變量E E系數系數類距類距G相關相關進行分層卡

13、方檢驗進行分層卡方檢驗得到相對風險測評的得到相對風險測評的OROR值值選中進行配對卡方檢驗選中進行配對卡方檢驗一致性檢驗。(行列變量的數目相一致性檢驗。(行列變量的數目相同)同)當KappaKappa0.750.75時,表明兩者一致性較好;0.750.75Kappa Kappa 0.40.4時,表明一致性一般;KappaKappa2000時,結果以kolmogorov-smimov 為準。測量級別相關系數取值范圍PRE意義檢驗方法SPSS程序類-類(類-序)0.12 crosstabs序-序G/ rs-1.1G/rs2T檢驗Crosstabs/correlation類序-距(3)E/E20.1

14、E2F檢驗crosstabs/Oneway/means距-距r-1.1r2T檢驗crosstabs/correlation/linear相關分析的要點:相關方向、相關程度及線性與否PearsonPearson簡單相關系數:用來度量簡單相關系數:用來度量型變量間的線性相關關系。型變量間的線性相關關系。顯示相應顯著度水平顯示相應顯著度水平Kendall Kendall 相關系數:采用非參數檢驗方相關系數:采用非參數檢驗方法度量法度量型變量間的線性相關關系。型變量間的線性相關關系。SpearmanSpearman等級相關系數:用來度量等級相關系數:用來度量型變量間的線性相關關系。型變量間的線性相關關

15、系。6.1 6.1 兩個變量間的相關性分析兩個變量間的相關性分析程序:程序:分析(analyze)相關(correlate)雙變量(bivariate)剔除正在參與運算的2個變量值是缺失值的觀測量剔除所有參與運算變量中帶有缺失值的觀測量 高??蒲醒芯繑祿Y料搜集了1999年31個省市自治區(qū)部分高校有關社科研究的數據。研究立項課題數(當年)、與投入的具有高級職稱的人數(上年) 、發(fā)表論文數(上年)是否有較強的線性關系;在5%的水平下,當年的立項課題總數將受到上年投入高級職稱的人數、論文數的正向影響運用居民存取款數據分析不同年齡段與收入水平的相關關系。在5%的水平下,收入水平會隨著年齡的增長而增長(二者有較弱的正向相關關系)問題:相關系數本身未必是兩事物間線性相關強弱的正式體現,往往有夸大的趨勢。6.2 6.2 兩個變量間的偏相關性分析兩個變量間的偏相關性分析又稱為凈相關分析凈相關分析,它是在控制其他

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論