




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1 spss的的3個主要窗口個主要窗口 1-1 數(shù)據(jù)編輯器窗口(數(shù)據(jù)編輯器窗口(spss data editor):用來編輯和):用來編輯和 顯示數(shù)據(jù);在此窗口中的文件名稱為顯示數(shù)據(jù);在此窗口中的文件名稱為*. sav。 1-2 程序語句編輯器窗口(程序語句編輯器窗口( spss syntax editor):用來):用來 編寫各種程序;在此窗口中的文件名稱為編寫各種程序;在此窗口中的文件名稱為*. sps。 1-3 結果觀看窗口(結果觀看窗口( spss viewer):顯示統(tǒng)計運算結果;):顯示統(tǒng)計運算結果; 在此窗口中的文件名稱為在此窗口中的文件名稱為*. spo。 2 spss 數(shù)據(jù)編
2、輯器的主要菜單數(shù)據(jù)編輯器的主要菜單 2-1 file 菜單:文件管理菜單:文件管理 new;open;save;save as;exit。 2-2 edit 菜單:編輯菜單:編輯 undo;cut;copy;paste;clear; find; 2-3 view菜單:視圖菜單:視圖 fonts;grid lines;value labels。 2-4 data菜單:數(shù)據(jù)整理菜單:數(shù)據(jù)整理 define variables;insert variables;insert case; go to case;sort case;select case。 2-5 transform菜單:數(shù)據(jù)轉換菜單:
3、數(shù)據(jù)轉換 recode;compute;count。 2-6 statistics菜單:統(tǒng)計菜單:統(tǒng)計 2-7 graphs菜單:統(tǒng)計圖菜單:統(tǒng)計圖 2-8 utilities菜單:工具附件菜單:工具附件 2-9 windows菜單:窗口菜單:窗口 2-10 help菜單:幫助菜單:幫助 1 單變量描述統(tǒng)計介紹單變量描述統(tǒng)計介紹 a變量的尺度: a 定類 category scale:只能計次 b 定序 ordinal scale:計次、排序 c 定距 interval scale:計次、排序、加減 d 定比 ratio scale:計次、排序、加減、乘除 b變量的統(tǒng)計描述: 分布 distr
4、ibution 集中趨勢 central tendency 離散趨勢 dispersion age 8378747066625854504642383430262218 count 60 50 40 30 20 10 0 分布 平均數(shù) 中位數(shù) 眾數(shù) 離散程度離散程度 c分尺度的集中趨勢和離散趨勢 集中趨勢離散趨勢spss命令 定類 眾數(shù)mode (出現(xiàn)最多的數(shù)值) 異眾比 定序 中位數(shù)median (數(shù)值依序排列時居中的數(shù)值) 級差range 四分位數(shù)quartiles frequencies 定距 及 定比 平均數(shù)mean標準差std. deviation 方差 variance descr
5、iptives n x x i n xx ds i 2 2 spss的單變量描述統(tǒng)計命令的單變量描述統(tǒng)計命令 a frequencies: 頻數(shù)統(tǒng)計頻數(shù)統(tǒng)計 statisticssummarizefrequencies 婚姻狀況 14911.911.911.9 102681.881.893.7 151.21.294.9 4.3.395.2 544.34.399.5 6.5.5100.0 1254100.0100.0 未婚 已婚 離婚后未再婚 離婚后再婚 喪偶后未再婚 喪偶后再婚 total frequency percent valid percent cumulative percent 變
6、量值頻數(shù) 百分比 有效百分比 累計百分比 文化程度 473.73.73.7 695.55.59.3 655.25.214.4 30724.524.538.9 39331.331.370.3 18214.514.584.8 17213.713.798.5 161.31.399.8 3.2.2100.0 1254100.0100.0 不識字或識字很少 初小 高小 初中 高中中?;蛑屑?大專 大學本科 研究生以上 未回答 total valid frequencypercentvalid percent cumulative percent 中位數(shù)中位數(shù) 文化程度 473.73.83.8 695.5
7、5.59.3 655.25.214.5 30724.524.539.0 39331.331.470.4 18214.514.585.0 17213.713.798.7 161.31.3100.0 125199.8100.0 3.2 1254100.0 不識字或識字很少 初小 高小 初中 高中中?;蛑屑?大專 大學本科 研究生以上 total valid systemmissing total frequencypercentvalid percent cumulative percent 百分比和有效百分比百分比和有效百分比 b descriptives: 定距變量描述統(tǒng)計定距變量描述統(tǒng)計 s
8、tatisticssummarizedescriptives descriptive statistics 12541888 44.5715.00 1254 age valid n (listwise) nminimum maximum mean std. deviation 變量名 平均數(shù) 標準差 最小值 最大值 1、變量關系概述、變量關系概述 尋找變量間的關系是科學研究的首要目的。變量尋找變量間的關系是科學研究的首要目的。變量 間的關系最簡單的劃分即是有關與無關。間的關系最簡單的劃分即是有關與無關。 在統(tǒng)計學上,我們通常這樣判斷變量之間是否有在統(tǒng)計學上,我們通常這樣判斷變量之間是否有 關:
9、如果一個變量的取值發(fā)生變化,另外一個變關:如果一個變量的取值發(fā)生變化,另外一個變 量的取值也相應發(fā)生變化,則這兩個變量有關。量的取值也相應發(fā)生變化,則這兩個變量有關。 如果一個變量的變化不引起另一個變量的變化則如果一個變量的變化不引起另一個變量的變化則 二者無關。二者無關。 1 通通過過考考試試2 未未通通過過考考試試 1 男男性性40%60% 2 女女性性40%60% 總總計計40%60% 性別與四級英語考試通過率的相關統(tǒng)計性別與四級英語考試通過率的相關統(tǒng)計 表述:統(tǒng)計結果顯示,當性別取值不同時,通過率表述:統(tǒng)計結果顯示,當性別取值不同時,通過率 變量的取值并未發(fā)生變化,因此性別與考試通過率
10、變量的取值并未發(fā)生變化,因此性別與考試通過率 無關。無關。 自變量的不同取值在因變量上無差異,兩變量無關。自變量的不同取值在因變量上無差異,兩變量無關。 自變量的不同取值在因變量上有差異,兩變量有關。自變量的不同取值在因變量上有差異,兩變量有關。 因變量 自變量 每月工資平均數(shù)n 1 男性752.40452 2 女性601.97409 總計680.95861 表述:統(tǒng)計結果顯示,當性別取值不同時,收入變表述:統(tǒng)計結果顯示,當性別取值不同時,收入變 量的取值發(fā)生了變化,因此性別與月收入有關。量的取值發(fā)生了變化,因此性別與月收入有關。 自變量 因變量 2、雙變量關系的統(tǒng)計類型、雙變量關系的統(tǒng)計類型
11、 定類定序定距 定類列聯(lián) cross-tabulate 列聯(lián) cross-tabulate 方差分析(分組平均數(shù)) compare means 定序列聯(lián) cross-tabulate 積差相關 spearman correlation 積差相關 spearman correlation 積矩相關 pearson correlation 定距積矩相關 pearson correlation 回歸 regression 3、列聯(lián)統(tǒng)計、列聯(lián)統(tǒng)計 3-1 列聯(lián)表的格式列聯(lián)表的格式 性 別 * 文 化 程 度 crosstabulation 71163202194630 11.3%25.9%32.1%3
12、0.8%100.0% 39.2%53.1%51.4%52.4%50.4% 5.7%13.0%16.1%15.5%50.4% 110144191176621 17.7%23.2%30.8%28.3%100.0% 60.8%46.9%48.6%47.6%49.6% 8.8%11.5%15.3%14.1%49.6% 1813073933701251 14.5%24.5%31.4%29.6%100.0% 100.0%100.0%100.0%100.0%100.0% 14.5%24.5%31.4%29.6%100.0% count % within 性 別 % within 文 化 程 度 % of t
13、otal count % within 性 別 % within 文 化 程 度 % of total count % within 性 別 % within 文 化 程 度 % of total 男 女 total 高 小 以 下初 中 高 中 中 專 或 中 技大 專 以 上 文 化 程 度 total 自變量 因變量 人數(shù) 行百分比 列百分比 總百分比 邊緣百分比 邊緣百分比 條件百分比 3-2 列聯(lián)分析的原理:列聯(lián)分析的原理: 自變量發(fā)生變化,因變量取值是否也發(fā)生變化。自變量發(fā)生變化,因變量取值是否也發(fā)生變化。 比較邊緣百分比和條件百分比的差別比較邊緣百分比和條件百分比的差別。 4-1
14、) 變量關系強度的含義變量關系強度的含義: 指兩個變量相關程度的高低。統(tǒng)計學中是以準實指兩個變量相關程度的高低。統(tǒng)計學中是以準實 驗的思想來分析變量相關的。通常從以下的角度驗的思想來分析變量相關的。通常從以下的角度 分析:分析: a)兩變量是否相互獨立。)兩變量是否相互獨立。 b)兩變量是否有共變趨勢。)兩變量是否有共變趨勢。 c)一變量的變化多大程度上能由另一變量的變)一變量的變化多大程度上能由另一變量的變 化來解釋?;瘉斫忉?。 4 列聯(lián)變量的關系強度測量列聯(lián)變量的關系強度測量 4-2) 雙變量關系強度測量的主要指標雙變量關系強度測量的主要指標 定類定序定距 定類 卡方類測量卡方類測量 et
15、a 系數(shù) 定序 spearman 相關系數(shù) 同 序 - 異 序 對測量 spearman 相 關系數(shù) 定距 pearson 相關 系數(shù) 4-3)卡方測量的原理:)卡方測量的原理: 卡方測量用來考察兩變量是否獨立(無關)。 其原理是根據(jù)這一概率定理:若兩變量無關,則其原理是根據(jù)這一概率定理:若兩變量無關,則 兩變量中聯(lián)合事件發(fā)生的概率應等于各自獨立發(fā)兩變量中聯(lián)合事件發(fā)生的概率應等于各自獨立發(fā) 生的概率乘積。生的概率乘積。 jiij ppp . 在列聯(lián)表中,這一定理就具體轉化為:在列聯(lián)表中,這一定理就具體轉化為:若兩變量無若兩變量無 關,則兩變量中條件概率應等于各自邊緣的概率乘關,則兩變量中條件概
16、率應等于各自邊緣的概率乘 積。反之,則兩變量有關,或,兩變量不獨立。積。反之,則兩變量有關,或,兩變量不獨立。 示例示例 患肺癌未患肺癌 吸煙 62430% 不吸煙145670% 20%80%100% 1515 65 5 觀察值 邊緣概率邊緣概率 邊緣概率 期望條件 概率 9 9-9 -9 殘差 由此可見,期望值(獨立模型)與觀察值期望值(獨立模型)與觀察值 的差距越大,說明兩變量越不獨立,也就的差距越大,說明兩變量越不獨立,也就 越有相關。越有相關。因此,卡方的表達式如下: 卡方的取值在0之間??ǚ街翟酱螅P 聯(lián)性越強。在spss中,有pearson x2和相 似比卡方(likelihood
17、 ratio x2 )兩種。 ji ij ijij e eo x 2 2 )( 4-4) 的改進標準化系數(shù)的改進標準化系數(shù): 為使 值有一固定的區(qū)間,便于比較, 采用了以下幾個修正: 2 x 2 x a、系數(shù)(phi): (01), 適用于22表。 b、 列聯(lián)系數(shù)(contingency coefficient): (01),適用任意表。 c、 cramer v系數(shù):(01),適用任意表。 d、系數(shù)(lambda): (01),適用任意表。 e、 goodman y(妻子收入妻子收入) y x p(xi, yi) y=k k x y p(xi, yi) )(xxi )(yyi + - - +
18、共變異數(shù)共變異數(shù)(協(xié)方差協(xié)方差)=)(yyxx ii x y + - - + 散點越集中于散點越集中于1、3象限,共變異數(shù)的和正值約大;象限,共變異數(shù)的和正值約大; 散點越集中于散點越集中于2、4象限,共變異數(shù)的和負值約大;象限,共變異數(shù)的和負值約大; 散點越均勻分布于各象限,共變異數(shù)的和越趨近于散點越均勻分布于各象限,共變異數(shù)的和越趨近于0。 )(yyxx ii 3)相關系數(shù)的計算公式:)相關系數(shù)的計算公式: 22 )()( )( )( yy xx yy xx r i i i i 由此公式可看出:由此公式可看出: 1 相關就是共變異數(shù)的標準化。相關就是共變異數(shù)的標準化。 2 相關系數(shù)相關系數(shù)
19、r的取值范圍在(的取值范圍在(-1,+1)之間。)之間。 +1代表完全正相關;代表完全正相關;-1表示完全負相關;表示完全負相關;0 表示無相關。表示無相關。 示例:通過此題來演算相關系數(shù)示例:通過此題來演算相關系數(shù)。 丈夫收入 x 妻子收入 y xxi yyi)()(yyx x i i 2 )(x xi 2 )(yyi 1600580-148-608880219043600 27506002-40-8041600r=0.683 377062022-20-440484400 4810750621106820384412100 581065062106203844100 平均:748640總計:
20、15800300801780023139.23 2 定序定序定序尺度定序尺度 (spearman cor.) 積差相關的公式:積差相關的公式: 積差相關又稱等級相關,用來考察兩個定序變量間積差相關又稱等級相關,用來考察兩個定序變量間 的相關關系。它的公式是由積矩相關轉變而來,的相關關系。它的公式是由積矩相關轉變而來, ) 1( 6 1 2 2 n n d r 其中,d是每一對因變量和自變量的序數(shù)的差值;n是總 的排序的序數(shù)。 示例:示例: 丈夫文化 程度 妻子文化 程度 dd26d2n(n2-1) r 第 1 對1211 第 2 對2111 第 3 對3300 第 4 對4400 第 5 對5
21、500 第 6 對6600 總計2182100.91 3 spss中的相關統(tǒng)計命令中的相關統(tǒng)計命令 statistics-correlate-bivariate 4 相關統(tǒng)計的輸出格式相關統(tǒng)計的輸出格式 correlations 1.000-.079* .020 1254861 -.079*1.000 .020. 861861 pearson correlation sig. (2-tailed) n pearson correlation sig. (2-tailed) n age 現(xiàn)在每月工資 age現(xiàn)在每月工資 correlation is significant at the 0.05
22、 level (2-tailed).*. 相關系數(shù) 人數(shù) 1 回歸的含義:回歸的含義: 回歸(回歸(regression,或,或linear regression)和相)和相 關同樣都用來分析兩個定距變量間的關系,但回關同樣都用來分析兩個定距變量間的關系,但回 歸有明確的因果關系假設。即要假設一個變量為歸有明確的因果關系假設。即要假設一個變量為 自變量,一個為因變量,自變量對因變量的影響自變量,一個為因變量,自變量對因變量的影響 就用回歸表示。如年齡對收入的影響。由于回歸就用回歸表示。如年齡對收入的影響。由于回歸 構建了變量間因果關系的數(shù)學表達,它具有統(tǒng)計構建了變量間因果關系的數(shù)學表達,它具有
23、統(tǒng)計 預測功能。預測功能。 2 回歸的統(tǒng)計原理:回歸的統(tǒng)計原理: 兩個定距變量的回歸是用函數(shù)兩個定距變量的回歸是用函數(shù) y= f(x) 來分析的。我們最常用的是一元回歸方程來分析的。我們最常用的是一元回歸方程 bxay 其中其中x為自變量;為自變量;y為因變量;為因變量;a為截距,即常量;為截距,即常量;b 為回歸系數(shù),表明自變量對因變量的影響程度。為回歸系數(shù),表明自變量對因變量的影響程度。 360 370 380 390 400 410 420 430 440 012345 工齡 工資 y=350+20 x 在統(tǒng)計學中,這一方程中的系數(shù)是靠在統(tǒng)計學中,這一方程中的系數(shù)是靠x與與y變量的變量的
24、 大量數(shù)據(jù)擬合出來的。大量數(shù)據(jù)擬合出來的。 x y y=a+bx (x,y) 由圖中可以看出,回歸直線應該是到所有數(shù)據(jù)點最由圖中可以看出,回歸直線應該是到所有數(shù)據(jù)點最 短距離的直線。該直線的求得即使用短距離的直線。該直線的求得即使用“最小二乘方最小二乘方 法法”,使,使: 0 2 ii yy 在擬合的回歸直線方程中,回歸系數(shù):在擬合的回歸直線方程中,回歸系數(shù): 2 )( )( xx yyxx i ii b 表示表示x每變化一個單位時,每變化一個單位時,x與與y共同變化的程度共同變化的程度 (共變異數(shù))。(共變異數(shù))。 xbya 常數(shù)常數(shù) 上學年數(shù)上學年數(shù) x 工資工資 y)(xxi)(xxi
25、2 )(yyi)(xxi)(yyi 6480-5.126.01-157800.7 6620-5.1 26.01 -1786.7 9600-2.1 4.41 -3777.7 9620-2.1 4.41 -1735.7 9630-2.1 4.41 -714.7 126000.9 0.81 -37-33.3 127000.90.816356.7 166504.924.011363.7 167204.924.0183406.7 167504.9 24.01 113553.7 平均11.1637 總計138.92063 b14.85241 a472.1382 比如通過上學年數(shù)和工資的關系計算得出下列的比
26、如通過上學年數(shù)和工資的關系計算得出下列的 回歸公式:回歸公式: y=472+14.8x 就可知上學年數(shù)每增長就可知上學年數(shù)每增長1年,工資會增加年,工資會增加14.8元;元; 也可推測,上學年數(shù)為也可推測,上學年數(shù)為15年的人,工資收入應為年的人,工資收入應為 472 + 14.8 *15=694元。元。 3 spss線性回歸的統(tǒng)計命令線性回歸的統(tǒng)計命令 statisticsregressionlinear 自變量 因變量 回歸方式 4 spss線性回歸的輸出格式:線性回歸的輸出格式: coefficients a 823.363.54012.958.000 -3.4871.497-.079-
27、2.329.020 (constant) 年齡 model 1 b std. error unstandardized coefficients beta standardized coefficients tsig. dependent variable: 現(xiàn)在每月工資a. 常數(shù) 自變量 回歸系數(shù) 標準化回歸系數(shù) 每月工資每月工資=823.3-3.487年齡年齡 1 推斷統(tǒng)計的一般概念推斷統(tǒng)計的一般概念 1.1 推斷統(tǒng)計的含義及類型:推斷統(tǒng)計的含義及類型: (1)含義:推斷統(tǒng)計是指用概率分布的方法,)含義:推斷統(tǒng)計是指用概率分布的方法, 由由樣本的統(tǒng)計量樣本的統(tǒng)計量推斷推斷總體參數(shù)總體參數(shù)的
28、統(tǒng)計方式。的統(tǒng)計方式。 樣本統(tǒng)計量樣本統(tǒng)計量:樣本中某個變量的統(tǒng)計值。如此次調:樣本中某個變量的統(tǒng)計值。如此次調 查中高中文化程度的人占查中高中文化程度的人占32%。 樣本樣本 32% 總體參數(shù)總體參數(shù):與樣本中某個變量的統(tǒng)計值相對應的:與樣本中某個變量的統(tǒng)計值相對應的 總體中的統(tǒng)計值。如全市人口中高中比例為總體中的統(tǒng)計值。如全市人口中高中比例為38%。 總體總體38 樣本統(tǒng)計量有可能等于總體參數(shù),也有可能不等樣本統(tǒng)計量有可能等于總體參數(shù),也有可能不等 于總體參數(shù),但二者之間有著某種概率關系。于總體參數(shù),但二者之間有著某種概率關系。推推 斷統(tǒng)計就是教會我們如何利用這種概率關系來由斷統(tǒng)計就是教會
29、我們如何利用這種概率關系來由 樣本統(tǒng)計量推估總體參數(shù)。樣本統(tǒng)計量推估總體參數(shù)。 為了區(qū)別樣本和總體的不同,樣本的平均數(shù)用為了區(qū)別樣本和總體的不同,樣本的平均數(shù)用x 來表示,標準差用來表示,標準差用s表示;總體的平均數(shù)用表示;總體的平均數(shù)用表表 示,標準差用示,標準差用表示。因此,推斷統(tǒng)計往往表示。因此,推斷統(tǒng)計往往 可以看作是由可以看作是由 x 推斷推斷。 樣本樣本 32% 總體總體 = ? (2)類型:推斷統(tǒng)計分為)類型:推斷統(tǒng)計分為參數(shù)估計參數(shù)估計和和假設檢驗假設檢驗 兩大類。兩大類。 參數(shù)估計參數(shù)估計:根據(jù)一個隨機樣本的統(tǒng)計值來估計總:根據(jù)一個隨機樣本的統(tǒng)計值來估計總 體參數(shù)。即已知樣本
30、,估計總體。體參數(shù)。即已知樣本,估計總體。 x 假設檢驗假設檢驗:先假定總體參數(shù)為:先假定總體參數(shù)為 ,用一個隨機樣,用一個隨機樣 總體總體 =38% 樣本樣本 32%x 來檢驗總體參數(shù)為來檢驗總體參數(shù)為的假設是否成立。的假設是否成立。本的統(tǒng)計量本的統(tǒng)計量 x ? ? 1.2推斷統(tǒng)計的原理:推斷統(tǒng)計的原理: 參數(shù)估計和假設檢驗都是利用參數(shù)估計和假設檢驗都是利用正態(tài)分布正態(tài)分布的概率特的概率特 征來進行的。征來進行的。 (1)正態(tài)分布正態(tài)分布(,): 正態(tài)分布是一種統(tǒng)計分布,它有如下幾個特征:正態(tài)分布是一種統(tǒng)計分布,它有如下幾個特征: a 單峰對稱;單峰對稱; b 平均數(shù)、中位數(shù)、眾數(shù)合一,都在
31、峰點;平均數(shù)、中位數(shù)、眾數(shù)合一,都在峰點; c 1.96包含了包含了95的面積;的面積; 1.65包含了包含了90的面積;的面積;即面積和標準即面積和標準 差之間有一個固定換算。差之間有一個固定換算。 正態(tài)分布正態(tài)分布 n(,) 1.96 平均數(shù) 170 1.96*10 (170,10) 例:某校同學的身高為正態(tài)分布,平均值為170cm,標準 差為10cm。問: 1)高于平均數(shù)1.5個標準差的同學身高是多少? 2)162cm身高的同學距平均數(shù)有幾個標準差? 3)95%的同學身高會在什么范圍內? 解1:xi=+z*=170+1.5*10=185cm; 解2: z=(xi - )/ =(162-1
32、70)/10=-0.8; 解3: xi = -z * =170-1.96*10=150.4 xi = +z * =170+1.96*10=189.6 (150.4189.6) 由上可得出:由上可得出: i x z 其中其中xi為分布中任何一個值,為分布中任何一個值, 是平均數(shù);是平均數(shù); 是標準差。是標準差。z是是xi距離平均數(shù)距離平均數(shù)的標準差單位,的標準差單位, 又稱又稱z分數(shù),同時也表示分數(shù),同時也表示xi與平均數(shù)與平均數(shù)之間的面之間的面 積。積。 (2)標準正態(tài)分標準正態(tài)分(z分布):分布):n(0,1) 標準化了的正態(tài)分布。即平均數(shù)標準化了的正態(tài)分布。即平均數(shù)=0,標準差,標準差=1
33、 的正態(tài)分布。的正態(tài)分布。 ( 0,1) =1 (3)總體分布總體分布:d( , )總體中某變量的幾)總體中某變量的幾 何分布。有可能是正態(tài)分布,也可能不是正態(tài)分何分布。有可能是正態(tài)分布,也可能不是正態(tài)分 布。布。 age 9383736353433323 age fr eq ue nc y 500 400 300 200 100 0 std. dev = 15.00 mean = 45 n = 1254.00 (4)樣本分布樣本分布: d( x ,s) 樣本中某變量的統(tǒng)計分布,和總體分布一樣,樣本中某變量的統(tǒng)計分布,和總體分布一樣, 它有可能是正態(tài)分布,也可能不是正態(tài)分布。它有可能是正態(tài)分布
34、,也可能不是正態(tài)分布。 age 9383736353433323 age frequency 500 400 300 200 100 0 n x (5)樣本平均數(shù)的抽樣分布:)樣本平均數(shù)的抽樣分布:n( ,) 從總體中多次重復抽取容量為從總體中多次重復抽取容量為n的樣本,每個樣本平的樣本,每個樣本平 均數(shù)的所形成的統(tǒng)計分布。是由多個均數(shù)的所形成的統(tǒng)計分布。是由多個組成的。組成的。 總體分布樣本平均數(shù)的 抽樣分布 d(, ) n(, n ) 樣本平均數(shù)的抽樣分布的特點樣本平均數(shù)的抽樣分布的特點: x i x n b 正態(tài)分布。正態(tài)分布。 c 它的平均數(shù)就等于總體的平均數(shù)它的平均數(shù)就等于總體的平均
35、數(shù),標準差則是標準差則是 a 是由多個是由多個組成,組成, 因此,我們所作的任何一次抽樣的平均數(shù)因此,我們所作的任何一次抽樣的平均數(shù) 都可看作是樣本平均數(shù)的抽樣分布中的一個點。都可看作是樣本平均數(shù)的抽樣分布中的一個點。 它會有它會有95的概率落在的概率落在 1.96 總體標準差總體標準差的的 n 1 倍。即倍。即 的范圍內。的范圍內。 n ,又被稱作又被稱作 標準誤(標準誤(standard error,s . e) 總體分布總體分布( , ) 樣本分布( , s)x 樣本平均數(shù)的抽樣 分布(, ) n 三種分布的關系三種分布的關系 推斷統(tǒng)計的原理就是推斷統(tǒng)計的原理就是: 利用樣本平均數(shù)的抽樣
36、分布的正態(tài)特征,以及利用樣本平均數(shù)的抽樣分布的正態(tài)特征,以及 與與的包含關系,來從樣本統(tǒng)計量推估總體參數(shù)的包含關系,來從樣本統(tǒng)計量推估總體參數(shù) (即參數(shù)估計),或用樣本統(tǒng)計量檢驗有關總體(即參數(shù)估計),或用樣本統(tǒng)計量檢驗有關總體 參數(shù)的假設(假設檢驗)。參數(shù)的假設(假設檢驗)。 由此可見,參數(shù)估計和假設檢驗實際是相同的。由此可見,參數(shù)估計和假設檢驗實際是相同的。 i x 在實際調查中,我們便是利用這一原理,用一次在實際調查中,我們便是利用這一原理,用一次 調查的結果來推斷總體的參數(shù)。我們把某一次調調查的結果來推斷總體的參數(shù)。我們把某一次調 查的結果看作是同樣樣本規(guī)模的無數(shù)次調查中的查的結果看作
37、是同樣樣本規(guī)模的無數(shù)次調查中的 一次,它是樣本平均數(shù)的抽樣分布中的一個點一次,它是樣本平均數(shù)的抽樣分布中的一個點 ,可用來估計總體參數(shù),可用來估計總體參數(shù) 。 i x 2 參數(shù)估計的步驟參數(shù)估計的步驟 1)求出樣本的平均數(shù)、標準差;)求出樣本的平均數(shù)、標準差; 2)求出總體的標準差(如未知,可用樣本的)求出總體的標準差(如未知,可用樣本的 標準差代替)標準差代替) 3)設定參數(shù)估計的)設定參數(shù)估計的置信區(qū)間置信區(qū)間即參數(shù)估計的把即參數(shù)估計的把 握性握性(90%?95%?)的?)的z值(值(1.65? 1.96?) 4)根據(jù)根據(jù) eszxi. 計算出計算出的所在范圍。的所在范圍。 例:已知某學校
38、的學生每天課外活動時間的標準差為例:已知某學校的學生每天課外活動時間的標準差為 15分鐘?,F(xiàn)從學生中隨機抽取分鐘。現(xiàn)從學生中隨機抽取25人,得知他們的課外人,得知他們的課外 活動時間平均為活動時間平均為60分鐘,問該校學生總體平均每天的分鐘,問該校學生總體平均每天的 課外活動時間會是多少?(選擇課外活動時間會是多少?(選擇95%的置信區(qū)間)的置信區(qū)間) 解: x =60 s.e=15 / 25 1/2 z=1.96 eszxi. =605.88606 5466 例:在此次調查中,男性共例:在此次調查中,男性共630人,平均年齡人,平均年齡 為為45歲,標準差為歲,標準差為15;女性共;女性共6
39、20人,平均年人,平均年 齡為齡為44歲,標準差為歲,標準差為14。問:。問: 1)男性與女性各自平均年齡的總體參數(shù)是多)男性與女性各自平均年齡的總體參數(shù)是多 少?(少?(95%的置信區(qū)間)的置信區(qū)間) 解:解: 男性男性 630 15 *96. 145.eszxi =45 1.176 43.82446.176 女性女性: 620 14 *96. 144.eszxi =44 1.142.945.1 2) 從總體上看,男女年齡是否有差異?從總體上看,男女年齡是否有差異? 解:比較男女平均年齡的總體參數(shù)的區(qū)間,解:比較男女平均年齡的總體參數(shù)的區(qū)間, 男 男 (43.8,46.1) 女 女 (42.
40、9,45.1) 二者有交集,故總體年齡在二者有交集,故總體年齡在95%的置信度上的置信度上 沒有差異沒有差異。 答案: 1 611.2895.680 861 82.508 65. 195.680(652.339, 709.561) 98.3395.680 861 82.508 96. 195.680(646.97, 714.93) 2 1036. 094. 5 1211 84. 1 96. 194. 5 (5.8364, 6.0436) 096. 067. 6 1224 73. 1 96. 167. 6 (6.574, 6.766) 113. 094. 7 1119 93. 1 96. 194
41、. 7 (7.827, 8.053) 3 比例數(shù)的參數(shù)估計:比例數(shù)的參數(shù)估計: 當樣本的統(tǒng)計量不是平均數(shù),而是以比例的形式當樣本的統(tǒng)計量不是平均數(shù),而是以比例的形式 出現(xiàn)時,比如,共青團員在調查中占出現(xiàn)時,比如,共青團員在調查中占9.4%,也可,也可 以用以用=xiz*s.e公式的變形:公式的變形: p總 總=pi z*s.e來推斷總體參數(shù)。來推斷總體參數(shù)。 其中,其中, pi為比例數(shù)形式的樣本統(tǒng)計量,為比例數(shù)形式的樣本統(tǒng)計量, n pp es ii )1 ( . 示例: 在此次抽樣調查的在此次抽樣調查的1254人中,共青團員的比例為人中,共青團員的比例為9.4%,求總,求總 體中共青團員的比
42、例參數(shù)(置信度為體中共青團員的比例參數(shù)(置信度為95%)。)。 解:解: p總 總=pi z*s.e 016. 0094. 0 1254 )094. 01 (094. 0 96. 1094. 0 (0.078, 0.11) 總體中共青團員的比例有總體中共青團員的比例有95%的可能性在的可能性在 7.8% 11%的區(qū)間內。的區(qū)間內。 4 假設檢驗的步驟:假設檢驗的步驟: 示例示例: 納稅起征線的規(guī)定是根據(jù)當?shù)鼐用竦钠骄率杖爰{稅起征線的規(guī)定是根據(jù)當?shù)鼐用竦钠骄率杖?制定的。有關部門認為某地的起征線應為制定的。有關部門認為某地的起征線應為800元,元, 因為根據(jù)經(jīng)驗當?shù)鼐用衿骄率杖霊坏陀诖藬?shù)
43、。因為根據(jù)經(jīng)驗當?shù)鼐用衿骄率杖霊坏陀诖藬?shù)。 在當?shù)剡M行的一次在當?shù)剡M行的一次400人的隨機抽樣表明,居民月人的隨機抽樣表明,居民月 收入為收入為790元,標準差為元,標準差為100元,請用此調查結果元,請用此調查結果 在在95的置信水平上檢驗居民月收入為的置信水平上檢驗居民月收入為800元的說元的說 法是否成立。法是否成立。 假設假設 m m =800 800!1.96*5 m m =800,樣本容量為,樣本容量為400 時的樣本平均數(shù)的抽樣分時的樣本平均數(shù)的抽樣分 布:布: n(800,5) 樣本:樣本:x=790 4.1 假設檢驗的分布算法假設檢驗的分布算法 1)確定有關總體參數(shù))確定
44、有關總體參數(shù)m m的假設;如假設總體平均收入為的假設;如假設總體平均收入為 800元;元; 2)確定檢驗此假設的概率標準,即置信區(qū)間為)確定檢驗此假設的概率標準,即置信區(qū)間為p=90? p=95?(?(z1.65? z=1.96?) x (平均數(shù)、標準差、標準誤,即樣本平均數(shù)抽(平均數(shù)、標準差、標準誤,即樣本平均數(shù)抽 樣分布的標準差)。樣分布的標準差)。 4) 以以m m為中心,作出樣本平均數(shù)抽樣分布的給定為中心,作出樣本平均數(shù)抽樣分布的給定 概率區(qū)間。概率區(qū)間。 3) 抽取一個隨機樣本,計算出抽取一個隨機樣本,計算出 、s、s.e 5)看在這一區(qū)間內是否包括了)看在這一區(qū)間內是否包括了x,如
45、果包括,如果包括, 就可以說,在給定的置信區(qū)間中(或在給定的概率條件下),驗就可以說,在給定的置信區(qū)間中(或在給定的概率條件下),驗 證(接受)了原假設;如未包含,則說明原假設在給定的概率水證(接受)了原假設;如未包含,則說明原假設在給定的概率水 平上不成立(被否定),或說原假設在給定的顯著度水平(平上不成立(被否定),或說原假設在給定的顯著度水平(1 給定概率)上被否定。給定概率)上被否定。 解: 1) 確定有關總體參數(shù)的假設確定有關總體參數(shù)的假設 h0 : m m 800; h1 : m m !800; 2) 確定檢驗此假設的概率標準:確定檢驗此假設的概率標準: 置信度為95,顯著度為5,
46、即z1.96 3) 計算樣本的有關統(tǒng)計量計算樣本的有關統(tǒng)計量 790;s100;s.e= =100/20=5 4) 以以m m為中心,作出樣本平均數(shù)抽樣分布的給定概率區(qū)為中心,作出樣本平均數(shù)抽樣分布的給定概率區(qū) 間。間。 ( 8001.965),即(),即(790.2 809.8) 5) 結論:此區(qū)間未包含樣本統(tǒng)計量結論:此區(qū)間未包含樣本統(tǒng)計量790,因此在,因此在5的顯的顯 著水平上推翻原假設。當?shù)鼐用竦钠骄率杖胄∮谥缴贤品僭O。當?shù)鼐用竦钠骄率杖胄∮?00 元。元。 xns 4.2 假設檢驗的公式算法:假設檢驗的公式算法: 從上一算法中可以看出,從上一算法中可以看出,xi距距m
47、m的距離是檢驗假設的的距離是檢驗假設的 關鍵指標:關鍵指標: xi如果落在如果落在m m的的95%的置信區(qū)間之外,這時的置信區(qū)間之外,這時|zxi| z95%,即,即|zxi|1.96。則原假設被否定的概率。則原假設被否定的概率95%, 或者說,原假設成立的概率或者說,原假設成立的概率5%,我們稱為在我們稱為在5% 的顯著水平上否定了原假設。的顯著水平上否定了原假設。 xi如果落在如果落在m m的的95%的置信區(qū)間之內,這時的置信區(qū)間之內,這時|zxi| z95%,即,即|zxi|1.96。我們稱為在我們稱為在5%的顯著水平上的顯著水平上 不能否定原假設。不能否定原假設。因此,可以利用因此,可
48、以利用 n s x z i m 來直接計算出來直接計算出|zxi|是否大于是否大于z95%。 解:解: 1) 確定有關總體參數(shù)的假設確定有關總體參數(shù)的假設 h0 : : m m 800; h1 : : m m !800; ; 2) 確定檢驗此假設的概率標準:確定檢驗此假設的概率標準: 置信度為置信度為95,顯著度為,顯著度為5,即,即z1.96 3)計算)計算zxi 2 5 800790 . es x z i xi 4)判定:)判定:zxi=-2,絕對值大于,絕對值大于z95%,因此在,因此在5%的顯的顯 著水平上否定原假設著水平上否定原假設m m 800。 假設假設 m m =800 樣本樣
49、本1:x1795; s10 m m!1.96s.e 樣本樣本2:x2 790;s10 接受區(qū)95 拒絕區(qū)5 1 雙變量統(tǒng)計關系假設檢驗概述雙變量統(tǒng)計關系假設檢驗概述 變量間關系的統(tǒng)計和變量關系強度的測量也同樣存變量間關系的統(tǒng)計和變量關系強度的測量也同樣存 在統(tǒng)計推斷問題。即從樣本中統(tǒng)計出的變量關系強在統(tǒng)計推斷問題。即從樣本中統(tǒng)計出的變量關系強 度系數(shù)(如度系數(shù)(如x2、各種相關系數(shù))是否在總體上也有、各種相關系數(shù))是否在總體上也有 效。效。 比如:根據(jù)我們的調查比如:根據(jù)我們的調查1254人的統(tǒng)計結果得知性別)人的統(tǒng)計結果得知性別) 與文化程度的卡方值為與文化程度的卡方值為27.89,w19.
50、1與與 w19.2的相的相 關系數(shù)關系數(shù)r=0.367,那么總體上這些變量之間是否也會,那么總體上這些變量之間是否也會 有同樣的相關?有同樣的相關? 這就要依靠變量關系的假設檢驗。這就要依靠變量關系的假設檢驗。 2 雙變量統(tǒng)計關系假設檢驗的步驟雙變量統(tǒng)計關系假設檢驗的步驟 雙變量的假設檢驗和單變量很相似,通常采用以下雙變量的假設檢驗和單變量很相似,通常采用以下 的步驟:的步驟: 1)確定雙變量總體參數(shù)的假設:如假設總體中性別)確定雙變量總體參數(shù)的假設:如假設總體中性別 與文化程度無關,即卡方值與文化程度無關,即卡方值=0;w19.1與與 w19.2不相不相 關,即關,即r=0; 2)確定檢驗此
51、假設的概率標準,即置信區(qū)間為)確定檢驗此假設的概率標準,即置信區(qū)間為95% 或或90%(即顯著度為(即顯著度為0.05或或0.1); 3)抽取一個隨機樣本,計算出樣本中雙變量關系的)抽取一個隨機樣本,計算出樣本中雙變量關系的 統(tǒng)計量,如性別與文化程度的卡方值為統(tǒng)計量,如性別與文化程度的卡方值為27.89, w19.1與與w19.2的相關系數(shù)的相關系數(shù)r=0.367; 4)選擇用來檢驗這些假設的概率分布,如標準正態(tài))選擇用來檢驗這些假設的概率分布,如標準正態(tài) 分布(分布(z分布)、卡方分布、分布)、卡方分布、t分布、分布、f分布等,并根分布等,并根 據(jù)置信區(qū)間或顯著度設立接受原假設的區(qū)間(接受據(jù)
52、置信區(qū)間或顯著度設立接受原假設的區(qū)間(接受 域)或拒絕區(qū)間(拒絕域);域)或拒絕區(qū)間(拒絕域); 5)觀察樣本的統(tǒng)計量的概率值是否落在接受區(qū)內,)觀察樣本的統(tǒng)計量的概率值是否落在接受區(qū)內, 從而判斷是接受從而判斷是接受/拒絕原假設。拒絕原假設。 一般而言,顯著度(即拒絕域)一般都定在一般而言,顯著度(即拒絕域)一般都定在0.05或或 0.10。當檢驗的結果小于此,原假設就落在了拒絕域。當檢驗的結果小于此,原假設就落在了拒絕域 中,因此就可以得出結論:變量間統(tǒng)計關系為中,因此就可以得出結論:變量間統(tǒng)計關系為0的假的假 設在總體上是不成立的;而作出這一結論的顯著性設在總體上是不成立的;而作出這一結
53、論的顯著性 (或者說,犯錯誤的概率)(或者說,犯錯誤的概率)5或或10%;換言之,;換言之, 樣本中變量關系統(tǒng)計不為樣本中變量關系統(tǒng)計不為0的結果在總體上是成立的,的結果在總體上是成立的, 而作出這一結論的顯著性(或者說,犯錯誤的概率)而作出這一結論的顯著性(或者說,犯錯誤的概率) 也同樣也同樣0.05)或拒絕域或拒絕域(p0.05); 5)觀察樣本的統(tǒng)計量的概率值是否落在接受域內,從而)觀察樣本的統(tǒng)計量的概率值是否落在接受域內,從而 判斷是接受判斷是接受/拒絕原假設。從下表看出,樣本統(tǒng)計量拒絕原假設。從下表看出,樣本統(tǒng)計量x2 27.89,概率值(,概率值(significance)=0.0
54、000.05,落在拒,落在拒 絕域,因此,否定絕域,因此,否定h0;接受總體中;接受總體中x227.89的判斷。的判斷。 此判斷犯錯誤的概率)此判斷犯錯誤的概率)=0.0000.05) 或拒絕域或拒絕域(p0.05); 5)觀察樣本的統(tǒng)計量的概率值是否落在接受域內,從而判斷是接受)觀察樣本的統(tǒng)計量的概率值是否落在接受域內,從而判斷是接受/拒絕原假拒絕原假 設。從下表看出,樣本統(tǒng)計量設。從下表看出,樣本統(tǒng)計量f 6.006。 概率值(概率值(significance)=0.0000.05, 落在拒絕域,因此,否定落在拒絕域,因此,否定h0;拒絕總體中;拒絕總體中h0: 12 3 .k 的判斷。的判斷。 即由樣本可以推斷總體,不同的文化程度,收入有差別;文化程度與收入有關。即由樣本可以推斷總體,不同的文化程度,收入有差別;文化程度與收入有關。 report 現(xiàn)在每月工資 302.867137.93 460.2818176.64 773.50221386.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 10的認識(教學設計)-2024-2025學年一年級上冊數(shù)學人教版
- 8《匆匆》教學設計-2023-2024學年統(tǒng)編版語文六年級下冊
- 電梯出租服務合同范本
- 鋼模板加工合同范本
- 人參買賣合同范本
- 6 傳統(tǒng)游戲我會玩2023-2024學年二年級下冊道德與法治同步教學設計(統(tǒng)編版)
- Module 5 Unit 2 Can I come in (教學設計)-2024-2025學年外研版(一起)英語三年級上冊
- 3《桂花雨》教學設計 第二課時(教學設計)2024-2025學年統(tǒng)編版語文五年級上冊
- 承裝合同范本
- 6《工具幫助我》 教學設計-2024-2025學年科學一年級上冊冀人版
- 電子物料基礎知識
- 外科疝氣的個案護理
- 2025屆江蘇省南京市鹽城市高三一??荚囌Z文試題 課件
- 幼兒園保育教育質量自評指導手冊(試行)
- 駕考科目一最完整考試題庫(完整版)包過關
- 青島版(六三制)小學數(shù)學二年級下冊全冊教學設計、教案
- 電力安全工作規(guī)程考試試題題庫
- 2024年糖尿病足診治指南解讀課件
- 兩個人合伙買攪拌車的合同
- 《商務溝通-策略、方法與案例》課件 第一章 商務溝通概論
- ISO9001、ISO14001、ISO45001三標一體內部審核檢查表
評論
0/150
提交評論