資料審核與初步統(tǒng)計課件

上傳人：c*** IP屬地：貴州上傳時間：2022-11-28 格式：PPT 頁數(shù)：168 大?。?18.34KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩163頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

資料審核與初步統(tǒng)計課件1第十二章調(diào)查資料的審核與整理

資料的審核資料的整理統(tǒng)計表

第十二章調(diào)查資料的審核與整理資料的審核2第一節(jié)資料的審核

資料的審核資料的審核是資料處理的第一步工作。它是指研究者對所收集的原始資料(主要是問卷)進行初步的審閱，校正錯填、誤填的答案，剔出亂填、空白和嚴(yán)重缺答的廢卷。其目的是使得原始資料具有較好的準(zhǔn)確性、完整性和真實性，從而為后續(xù)資料整理錄人與統(tǒng)計分析工作打下較好的基礎(chǔ)。資料的審核工作包含兩方面的內(nèi)容：一是檢查出問卷資料中的問題；二是重新向被調(diào)查者核實。資料的審核工作有兩種不同的做法:

邊收集邊審核集中審核

第一節(jié)資料的審核資料的審核3第二節(jié)資料的整理

一、資料整理

資料整理是根據(jù)研究目的將經(jīng)過審核的資料進行分類匯總，使資料更加條理化和系統(tǒng)化，為進一步深入分析提供條件。二、定性資料的整理

整理筆記與建立檔案

資料的編碼

編碼類型：開放式編碼、軸心式編碼選擇式編碼

第二節(jié)資料的整理一、資料整理4三、定量資料的整理

資料的編碼（見下表一）

資料的錄入（見下表二）數(shù)據(jù)清理

有效范圍清理邏輯一致性清理

數(shù)據(jù)質(zhì)量抽查

三、定量資料的整理5編碼手冊列問題號碼變量名稱內(nèi)容說明1-6a1期刊年月編號91年6月第二個個案為9106027a2性別1.男2.女8-9a3年齡如實填寫10a4學(xué)歷1.小學(xué)以下2.中學(xué)3.高中4.中專5.大專6.大學(xué)7.碩士8博士9.其他11-13a5身高cm14-15a6職業(yè)1.工人2.農(nóng)民3.黨政機關(guān)公務(wù)員4.私營企業(yè)主5.離退休人員6,教師醫(yī)生7.公安,司法,軍人8.企業(yè)白領(lǐng)9專業(yè)技術(shù)人員10其他16a7婚姻狀況1.

未婚2離婚3.喪偶4.其他表一編碼手冊列問題號碼變量名稱內(nèi)容說明1-6a1期刊年月編號916擇偶標(biāo)準(zhǔn)調(diào)查數(shù)據(jù)登錄表個案編號A1A2A3A4A5A6A7…1-678-91011-1314-1516…05259210011355176031…05269210022246165042…052792100312771773…05289210041286167092….05299210052318158121…05309210062247155101……………………..…06表二擇偶標(biāo)準(zhǔn)調(diào)查數(shù)據(jù)登錄表個案A1A2A3A4A5A6A7…1-7第三節(jié)統(tǒng)計表一、統(tǒng)計表的結(jié)構(gòu)從外表形式上看，統(tǒng)計表由總標(biāo)題、橫行標(biāo)題、縱欄標(biāo)題、指標(biāo)數(shù)值四部分組成?？倶?biāo)題是表的名稱；橫行標(biāo)題在表的左端，它代表所說明的對象；縱欄標(biāo)題在表的上方，它代表統(tǒng)計指標(biāo)的名稱。它們分別對橫行或縱欄內(nèi)的統(tǒng)計值作出說明。

第三節(jié)統(tǒng)計表一、統(tǒng)計表的結(jié)構(gòu)8二、統(tǒng)計表的種類1.簡單表某村歷年人均收入

年份1977197819791980收入20284045二、統(tǒng)計表的種類1.簡單表年份1977197819791992.簡單分組表

是總體僅按一個標(biāo)志進行分組，即運用簡單分組形成的表格。某村各戶年人均收入統(tǒng)計表年人均收入村百分比（％）60—8080—120120—1605911203842合計20

2.簡單分組表年人均收入村百分比（％）60—80520合計103.復(fù)合分組表

是總體按兩個以上標(biāo)志進行層疊分組的統(tǒng)計表，它又稱為交互分類表，它能表現(xiàn)兩個分組標(biāo)志之間的關(guān)系。

某村家庭規(guī)模和經(jīng)濟情況統(tǒng)計表

經(jīng)濟水平家庭規(guī)模大小合計高低30501201015060合計801302103.復(fù)合分組表經(jīng)濟水平家庭規(guī)模大小合計高30120150合計11第十三章資料的統(tǒng)計分析統(tǒng)計分析方法是一種定量分析。它是進行科學(xué)預(yù)測的重要方法。統(tǒng)計分析的特點：（1）統(tǒng)計分析要以定性分析為基礎(chǔ)；（2）統(tǒng)計分析方法必須和其他分析結(jié)合運用；統(tǒng)計分析有一套專門的方法和技術(shù)。第十三章資料的統(tǒng)計分析統(tǒng)計分析方法是一種定量分析。它是進12觀察調(diào)查實驗12229986489如何使用各種統(tǒng)計表與統(tǒng)計圖來描述一組數(shù)據(jù)的分組與分布情況如何通過一組數(shù)據(jù)計算一些特征數(shù)，簡縮數(shù)據(jù)，進一步顯示與描述一組數(shù)據(jù)的全貌（集中情況、分散情況、分布特征）數(shù)據(jù)如何分組收集方法原始數(shù)據(jù)表達(dá)形式作用分析過程（圖示）觀調(diào)實12229986489如何使用各種統(tǒng)計表與統(tǒng)計13主要內(nèi)容單變量描述統(tǒng)計單變量推論統(tǒng)計相關(guān)與回歸分析雙變量統(tǒng)計分析多變量統(tǒng)計分析主要內(nèi)容14第一節(jié)、單變量描述統(tǒng)計

由一種變量的全部分?jǐn)?shù)或觀察值組成的一組或一批數(shù)據(jù)稱為一個分布。單變量數(shù)據(jù)的描述統(tǒng)計就是對其分布情況進行說明。單變量描述統(tǒng)計包括集中量數(shù)分析、離散量數(shù)分析。第一節(jié)、單變量描述統(tǒng)計由一種變量的全部分?jǐn)?shù)或觀察值組成的一15一.頻數(shù)分布與頻率分布頻數(shù)分布(FrequencyDistribution)，就是指一組數(shù)據(jù)中取不同值的個案的次數(shù)分布情況，它一般以頻數(shù)分布表的形式表達(dá)。

頻率分布(percentagesdistribution)，是一組數(shù)據(jù)中不同取值的頻數(shù)相對于總數(shù)的比率分布情況.常以百分比的形式來表達(dá).

一.頻數(shù)分布與頻率分布頻數(shù)分布(FrequencyDis16

編制頻數(shù)分布表，畫出頻數(shù)分布圖

某中學(xué)初三甲班60人期中英語考試分?jǐn)?shù)

826093938972859768777698564577766146605189437569896080747467858755877191746488578491606159637879889687895289857656545890案例編制頻數(shù)分布表，畫出頻數(shù)分布圖某中學(xué)17某中學(xué)初三甲班60人英語期中考試成績

累積頻數(shù)（頻率）分布表

某中學(xué)初三甲班60人英語期中考試成績

累積頻數(shù)（頻率）分布表18資料審核與初步統(tǒng)計課件19二、集中量數(shù)分析集中量數(shù)就是代表數(shù)據(jù)分布集中趨勢的量數(shù)。集中量數(shù)分析指的是用一個典型值或代表值來反映一組數(shù)據(jù)的一般水平，或者說反映這組數(shù)據(jù)向這個典型值集中的情況。

最常見的集中量數(shù)有算術(shù)平均數(shù)(簡稱平均數(shù)，也稱為均值)、眾數(shù)和中位數(shù)三種。

二、集中量數(shù)分析集中量數(shù)就是代表數(shù)據(jù)分布集中趨勢的量數(shù)。20中位數(shù)（Md）中位數(shù)（Md），又稱中數(shù)，是頻數(shù)分布上50%處的數(shù)值，即將觀察總數(shù)一分為二的變量值。在這個值的兩邊各有相同個數(shù)的數(shù)據(jù)。當(dāng)數(shù)據(jù)的個數(shù)為偶數(shù)時，取分布50%（最中心）處的兩個數(shù)據(jù)的平均數(shù)作為中數(shù)。中位數(shù)（Md）中位數(shù)（Md），又稱中數(shù)，是頻數(shù)分布上50%處21中位數(shù)（Md）中位數(shù)（Md），又稱中數(shù)，是頻數(shù)分布上50%處的數(shù)值，即將觀察總數(shù)一分為二的變量值。在這個值的兩邊各有相同個數(shù)的數(shù)據(jù)。當(dāng)數(shù)據(jù)的個數(shù)為偶數(shù)時，取分布50%（最中心）處的兩個數(shù)據(jù)的平均數(shù)作為中數(shù)。中位數(shù)（Md）中位數(shù)（Md），又稱中數(shù)，是頻數(shù)分布上50%處22幾何平均數(shù)（Mg）

是n個數(shù)據(jù)的連乘積開n次方的根。常用作速率的集中量數(shù)，如學(xué)齡兒童人數(shù)的增加率、學(xué)校經(jīng)費的增加率、閱讀能力的進步率等。

Mg=幾何平均數(shù)（Mg）是n個數(shù)據(jù)的連乘積開n次方的根。常23算術(shù)平均數(shù)通常稱平均數(shù)，又稱均數(shù)或均值。英文為Mean，故以M表示。如果是由變量X計算得來的就記為（讀X杠），現(xiàn)在一般都以表示樣本的平均數(shù)，以U表示總體的平均數(shù)。算術(shù)平均數(shù)就是各個變量值相加求和再除以變量的總次數(shù)。==算術(shù)平均數(shù)通常稱平均數(shù)，又稱均數(shù)或均值。英文為Mean，故以24算術(shù)平均數(shù)的計算方法1、用原始數(shù)據(jù)計算平均數(shù)。當(dāng)一組數(shù)據(jù)個數(shù)不多時，可直接用原始數(shù)據(jù)來計算。如某實驗小組10人的實驗成績?yōu)?1，13，15，16，16，16，17，18，18，20。其平均數(shù)為：===16算術(shù)平均數(shù)的計算方法1、用原始數(shù)據(jù)計算平均數(shù)。當(dāng)一組數(shù)據(jù)個252、用頻數(shù)分布表求平均數(shù)。如果樣本的數(shù)據(jù)很多，達(dá)到數(shù)十個或數(shù)百個，則需編制頻數(shù)分布表，用頻數(shù)分布表求平均數(shù)。=Xc為各組的組中值，f為各組的頻數(shù)，N為總次數(shù)（）

2、用頻數(shù)分布表求平均數(shù)。如果樣本的數(shù)據(jù)很多，達(dá)到數(shù)十個或26某中學(xué)初三甲班60人英語期中考試成績

平均數(shù)、標(biāo)準(zhǔn)差計算表

==73.5

73.5

73.5某中學(xué)初三甲班60人英語期中考試成績

平均數(shù)、標(biāo)準(zhǔn)差計算表27中位術(shù)與平均數(shù)的比較（1）平均數(shù)要求計算所有的數(shù)值,而中位數(shù)只用到數(shù)值的相對位置,一般說來平均數(shù)利用了更多的信息,更全面和準(zhǔn)確.?（2）平均數(shù)容易受到極端值的影響,中位數(shù)則不會受到這種影響.平均數(shù)是一種比中位數(shù)更為穩(wěn)定的量度,它隨樣本的變化比較少.（3）當(dāng)資料是定序,定類測量或者是有開口組的定居測量時,中位數(shù)能夠擬補不足.中位術(shù)與平均數(shù)的比較（1）平均數(shù)要求計算所有的數(shù)值,而中位數(shù)28三.離散量數(shù)分析

離散（中）量數(shù)分析指的是用一個特別的數(shù)值來反映一組數(shù)據(jù)相互之間的離散（中）程度.即各組數(shù)據(jù)相對于平均數(shù)的差異程度（離中程度）。差異程度小，平均數(shù)的代表性高；差異程度大，代表性低。它與集中量數(shù)一起分別從兩個不同的側(cè)面描述和揭示一組數(shù)據(jù)的分布情況.共同反映出資料分布的全面特征,同時它還對現(xiàn)各集中量數(shù)的代表性做出補充說明.常見的離散量數(shù)統(tǒng)計量有全距,標(biāo)準(zhǔn)差,異眾比率,和四分位差.三.離散量數(shù)分析離散（中）量數(shù)分析指的是用一個特別的數(shù)29

示例：某三個班各選5名同學(xué)參加測試.他們的成績分別如下中文系:78,79,80,81.82X=80數(shù)學(xué)系:65,72,80,88,95X=80外語系:35,78,89,98,100X=80如果僅以集中量數(shù)來衡量,這三個隊的水平一樣高,但是很明顯.這80分對中文系隊的同學(xué)代表性最高,而對外語系的同學(xué)代表性最低.示例：301.全距（R）全距也叫極差,它是一組數(shù)據(jù)中,最大值與最小值之差.

它是表示數(shù)據(jù)分布離散程度最簡單的方式，即一組數(shù)據(jù)中最大數(shù)與最小數(shù)差，故稱兩極差。R=Xmax-Xmin當(dāng)數(shù)據(jù)較多時，應(yīng)用頻數(shù)分布表求全距。其方法為：最大組與最小組的組中值之差或最大組上限與最小組下限之差。R=Xcmax-XcminR=Umax-Lmin1.全距（R）全距也叫極差,它是一組數(shù)據(jù)中,最大值與最小值之31R=98（最大值）—43（最小值）

=551.求全距步驟R=98（最大值）—43（最小值）1.求全距步32視數(shù)據(jù)資料的性質(zhì)和數(shù)據(jù)多少而定。組數(shù)不宜太多，如太多不能明顯表示出分布的主要趨勢。但也不宜太少，太少則把很多不同事實歸于一組，其分配的主要特征將因此而被蒙蔽。2.定組數(shù)

分組參考表

n5080100150200300500100020005000分組數(shù)9111214161822303956視數(shù)據(jù)資料的性質(zhì)和數(shù)據(jù)多少而定。組數(shù)不宜太多，如太多不能明顯33組距就是每一組的間距，即每組所包含的單位。組距以“i”表示。3、求組距

組距i

=9.3

i=本例組數(shù)為6，組距一般地，為計算方便，組距取10為宜

組距就是每一組的間距，即每組所包含的單位。組距以“i”表示。34組限是分組的界限，其底數(shù)為下限（L），其頂數(shù)為上限（U）。組限的寫法有很多，有的用上下限表示，有的用組中值表示。如以“10”為組距，一般多用首尾相接，間隔為10的形式表示。即60~70，70~80，80~90。其中每組上限即為下一組的下限，通常將組下限包含在本組中，而不包含在上限所在的組。因為分組的實際界限應(yīng)是這一組的精確界限，如“80~90”這一組的精確界限為“79.5~89.4999……”。4.定組限組限是分組的界限，其底數(shù)為下限（L），其頂數(shù)為上限（U）。組355.求組中值

組中值XC=精確下限L+

如以10為組距，則”80~90”一組的組中值為：組中值=79.5+=84.5

5.求組中值組中值XC=精確下限L+如以10為組36某中學(xué)初三甲班60人英語期中考試成績頻數(shù)分布表6.歸類劃記

某中學(xué)初三甲班60人英語期中考試成績頻數(shù)分布表6.歸類劃372.標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差：一組數(shù)據(jù)對其平均數(shù)的偏差平方的算術(shù)平均數(shù)的平方根。一般以S（或來表示）式中S（樣本統(tǒng)計值）為標(biāo)準(zhǔn)差，X為各學(xué)生的成績分?jǐn)?shù)，為學(xué)生成績的平均數(shù)，x為各學(xué)生成績分?jǐn)?shù)的離差，n為學(xué)生（數(shù)據(jù)）數(shù)。S==2.標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差：一組數(shù)據(jù)對其平均數(shù)的偏差平方的算術(shù)平均38例1：某校三個系各選5名同學(xué)，參加智力競賽，他們的成績分別如下：中文系：7879808182數(shù)學(xué)系：6572808895英語系：35788998100平均成績=80

標(biāo)準(zhǔn)差：一組數(shù)據(jù)對其平均數(shù)的偏差平方的算術(shù)平均數(shù)的平方根。S（中文系）=1.414（分）S（數(shù)學(xué)系）=10.8（分）S（英語系）=23.8（分）S=例1：某校三個系各選5名同學(xué)，參加智力競賽，他們的成績分別如39例2.例：有某生三次數(shù)學(xué)考試的成績分別為70、57、45，三次考試的班平均為70、55、42，標(biāo)準(zhǔn)差分別為8、4、5。如何看待該生的三次考試成績的地位?（如果僅從原始分?jǐn)?shù)看，肯定認(rèn)為第一次最好，其實不然，要計算出各次的標(biāo)準(zhǔn)分?jǐn)?shù)，才能說明問題。）Z1=(70－70)/8=0Z2=（57－55）/4=0.5Z3=（45－42）/5=0.6這說明，原始分?jǐn)?shù)為70，其位置正在平均線上，而原始分?jǐn)?shù)為57的，其位置在平均線上0.5處，而原始分?jǐn)?shù)為45的，其位置在平均線上0.6處。

例2.例：有某生三次數(shù)學(xué)考試的成績分別為70、57、45，三403.異從比率

是指非眾數(shù)的次數(shù)與總體內(nèi)全部總體單位的比率。異眾比率越小，眾數(shù)的代表性越大。4.四分位差

把一組數(shù)據(jù)按大小排列成序列，然后分成四個數(shù)據(jù)數(shù)目相等的段落，各段落分界點上的數(shù)，叫四分位數(shù)。（即每組占25％）

舍去資料中數(shù)值最高的25％和最低的25％，僅就中間50％數(shù)據(jù)求其量數(shù)作為離中量數(shù)，就是四分位差。

四分位差之間的間距越小，中位數(shù)的代表性越大。（1）對定序類資料計算四分位差。 Q=Q3-Q1

（2）對定距類資料計算四分位差。3.異從比率41使用說明：眾數(shù)與異眾比率配合；中位數(shù)與四分位差配合；平均數(shù)與標(biāo)準(zhǔn)差配合。使用說明：眾數(shù)與異眾比率配合；中位數(shù)與四分位差配合；平均數(shù)與42四、相對差異（離散或離中）量數(shù)

1.離散系數(shù)

離散系數(shù)是一種相對的離散量數(shù)統(tǒng)計量，它使我們能夠?qū)ν豢傮w中的兩種不同的離散量數(shù)進行比較，或者對兩個不同總體中的同一離散量數(shù)進行比較。。離散系數(shù)的定義是：標(biāo)準(zhǔn)差與平均數(shù)的比值，用百分比表示。CV=S/XCV=×100CV=×100

四、相對差異（離散或離中）量數(shù)1.離散系數(shù)43例1：一項調(diào)查得到下列結(jié)果，某市人均平均收入為92元，標(biāo)準(zhǔn)差為17元，人均住房面積7.5平方米，標(biāo)準(zhǔn)差為1.8平方米。試比較該市人均收入和人均住房情況哪一個差異程度比較大。[解]人均收入的離散系數(shù)為CV=S/×100%=18.5%人均住房面積的離散系數(shù)為CV=1.8/7.5×100%=24%例2：對廣州和武漢兩地居民生活質(zhì)量調(diào)查發(fā)現(xiàn)，廣州居民平均收入為680元，標(biāo)準(zhǔn)差為120元；武漢居民平均收入為360元，標(biāo)準(zhǔn)差為80元。問廣州居民相互之間的差異程度，與武漢居民相互之間在收入上的差異程度哪一個更大一些？[解]廣州居民收入的離散系數(shù)為CV=120/680×100%=17.6%武漢居民收入的離散系數(shù)為CV=80/360×100%=22.2%例1：一項調(diào)查得到下列結(jié)果，某市人均平均收入為92元，標(biāo)準(zhǔn)差44五、標(biāo)準(zhǔn)分?jǐn)?shù)

是用來描述變量分布中某一分?jǐn)?shù)在整個分布中所處的位置，它是以標(biāo)準(zhǔn)差為單位的相對量數(shù)。其計算公式為：

==從公式可以得知標(biāo)準(zhǔn)分?jǐn)?shù)是一個分?jǐn)?shù)與其平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商。平均數(shù)以上各點的分?jǐn)?shù)為正值，平均數(shù)以下各點的分?jǐn)?shù)為負(fù)值，平均數(shù)的分?jǐn)?shù)為零。五、標(biāo)準(zhǔn)分?jǐn)?shù)是用來描述變量分布中某一分?jǐn)?shù)在整個分布中所處的45例如：某班語文平均考試成績?yōu)?5分，標(biāo)準(zhǔn)差為8.5分。甲生得92分，乙生得70分，問甲乙二生的分?jǐn)?shù)各為多少？

Z甲=Z乙=

=2=-.59據(jù)正態(tài)分布理論可知的取值范圍在-3到+3之間。為了使標(biāo)準(zhǔn)分?jǐn)?shù)變成正值并減少小數(shù)位數(shù)，以便于比較，我們可將標(biāo)準(zhǔn)分?jǐn)?shù)進一步經(jīng)線性轉(zhuǎn)換成標(biāo)準(zhǔn)分?jǐn)?shù)。其計算公式為：T=10Z+50

例如：某班語文平均考試成績?yōu)?5分，標(biāo)準(zhǔn)差為8.5分。甲生得46目前，我國各類學(xué)校招考新生和對學(xué)生進行學(xué)習(xí)成績考查評定的主要手段是考試。而對考試成績的評分一般是用百分制來表示，并用各科成績相加按總分來決定被試者的優(yōu)劣取舍。這種做法開來似乎公平，實際上很不合理。因為各科試題的難易程度不同，造成評分標(biāo)準(zhǔn)的寬嚴(yán)不一，因此各科考試成績的統(tǒng)計量數(shù)，如平均數(shù)、標(biāo)準(zhǔn)差也不相等。我們不能說語文的考分80分等價于數(shù)學(xué)的考分的80分，也不能說英語考分75分等價于物理的考分75分，在這種情況下，把考生的各科考分等量齊觀地相加起來，憑個考生的總分來決定優(yōu)劣取舍，顯然是十分不合理的?？茖W(xué)的方法，就是把考生是各科分?jǐn)?shù)，經(jīng)過一個標(biāo)準(zhǔn)化的轉(zhuǎn)化過程，把每個考生的各科分?jǐn)?shù)變成標(biāo)準(zhǔn)分?jǐn)?shù)，然后再進行相加和比較。目前，我國各類學(xué)校招考新生和對學(xué)生進行學(xué)習(xí)成績考查評47甲乙兩位考生七科分?jǐn)?shù)的標(biāo)準(zhǔn)化表

甲乙兩位考生七科分?jǐn)?shù)的標(biāo)準(zhǔn)化表48練習(xí)1.根據(jù)各小組調(diào)查的問卷，先進行數(shù)據(jù)清理工作，然后對某些問題進行單變量的統(tǒng)計描述，繪制頻數(shù)分布表。2.在一個社區(qū)診所，10天內(nèi)來排隊看病的人數(shù)分別是52，68，39，47，57，32，75，25，31和93，求算術(shù)平均數(shù)和中位數(shù)，以及標(biāo)準(zhǔn)差練習(xí)1.根據(jù)各小組調(diào)查的問卷，先進行數(shù)據(jù)清理工作，然后對某些49

第二節(jié)單變量統(tǒng)計推論

統(tǒng)計推斷，是指根據(jù)樣本所提供的詳細(xì)，運用概率的理論進行分析、論證，在一定的可靠程度上，對總體分布的特征進行估計、推測。具體內(nèi)容包括：

（一）總體參數(shù)的估計（二）假設(shè)檢驗第二節(jié)單變量統(tǒng)計推論統(tǒng)計推斷，是指根據(jù)樣本所提供的50一、區(qū)間估計

以樣本統(tǒng)計量的抽樣分布為理論依據(jù)，按一定概率要求，由樣本統(tǒng)計量的值來估計總體參數(shù)的值所在的范圍，叫做總體參數(shù)的區(qū)間估計。

一、區(qū)間估計以樣本統(tǒng)計量的抽樣分布為理論依據(jù)，按一定概率要511、平均數(shù)抽樣分布與總體均數(shù)的區(qū)間估計從正態(tài)分布中隨機抽取容量為的一切可能樣本的平均數(shù)抽樣分布是以總體平均數(shù)為中心的正態(tài)分布。當(dāng)總體標(biāo)準(zhǔn)差已知時，一切可能樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計量呈標(biāo)準(zhǔn)正態(tài)分布。區(qū)間估計：區(qū)間估計的實質(zhì)就是在一定的可信度（置信度）下，用樣本統(tǒng)計值的某個范圍（置信區(qū)間）來估價總體的參數(shù)值。范圍的大小反映的是這種估計的精確性問題，而可信度高低反映的則是這種估計的可靠性或把握性的問題。1、平均數(shù)抽樣分布與總體均數(shù)的區(qū)間估計從正態(tài)分布中隨機抽取52

其中，表示樣本平均數(shù)的標(biāo)準(zhǔn)分?jǐn)?shù)，表示樣本平均數(shù)，表示總體平均數(shù)，表示平均數(shù)標(biāo)準(zhǔn)誤。

其中，表示樣本平均數(shù)的標(biāo)準(zhǔn)分?jǐn)?shù)，53資料審核與初步統(tǒng)計課件54資料審核與初步統(tǒng)計課件55課堂練習(xí)題例：調(diào)查某廠職工的工資狀況，隨機抽取900名工人做樣本，調(diào)查得到他們的月平均工資為186元，標(biāo)準(zhǔn)差為42元。求95%的置信度下，全廠職工的月平均工資的置信取間是多少？[解]將調(diào)查資料代入總體均值的區(qū)間估計公式得總體均值的置信區(qū)間為183.26-188.74當(dāng)將置信度提高到99%，總體的置信區(qū)間為182.39-189.61元（隨著可靠性的提高，所估計的區(qū)間擴大了，但估計的精確性就相應(yīng)地降低了。例：從某工廠隨機抽取400名工人進行調(diào)查，結(jié)果表明女工的比例為20%。現(xiàn)在要求在90%的置信度下，估計全廠工人中女工比例的置信區(qū)間。[解]帶入總體百分?jǐn)?shù)的區(qū)間估計公式得16.7%-23.%課堂練習(xí)題56小結(jié)：要對總體均數(shù)進行區(qū)間估計，即在一定的可靠程度上求出總體均數(shù)的置信區(qū)間的上下限，首先，要知道與所要估計的參數(shù)相對應(yīng)的樣本統(tǒng)計量的值，以及樣本統(tǒng)計量的抽樣分布；其次，要求出該統(tǒng)計量的標(biāo)準(zhǔn)誤；最后，要明確在多大的可靠度上對總體均數(shù)作估計，再通過查抽樣分布概率分布表，找出與該可靠度所對應(yīng)的該分布在橫軸上記分的臨界值，從而計算出總體均數(shù)的置信區(qū)間。小結(jié)：要對總體均數(shù)進行區(qū)間估計，即在一定的可靠程度上求出總體57二、假設(shè)檢驗利用樣本信息，根據(jù)一定的概率，對總體參數(shù)或分布的某一假設(shè)作出拒絕或保留的決斷，稱為假設(shè)檢驗。二、假設(shè)檢驗利用樣本信息，根據(jù)一定的概率，對總體參數(shù)或分布58當(dāng)對某一總體參數(shù)進行假設(shè)檢驗時，首先從該總體中隨機抽取一個樣本，然后計算統(tǒng)計量的值，并根據(jù)經(jīng)驗對相應(yīng)的總體參數(shù)提出一個假設(shè)值，這個假設(shè)是說這個樣本統(tǒng)計量的值是由這個假設(shè)總體參數(shù)值的一個隨機樣本，即這個樣本來源于這個總體，而樣本統(tǒng)計量的值與總體參數(shù)值之間的差異是由抽樣誤差所致。根據(jù)這一假設(shè)，可以認(rèn)為像這樣的一切可能樣本統(tǒng)計量的值應(yīng)當(dāng)以總體參數(shù)值（假設(shè)的）為中心形成該統(tǒng)計量的一個抽樣分布。如果這個隨機樣本統(tǒng)計量的值在其抽樣分布上出現(xiàn)的概率較大時，就得保留這個假設(shè)，即承認(rèn)這個樣本來自這個總體，而樣本統(tǒng)計量的值與總體參數(shù)值之間的差異是由抽樣誤差所致。此時稱樣本統(tǒng)計量的總體參數(shù)與假設(shè)的總體參數(shù)差異不顯著。否則就拒絕這個假設(shè)，否認(rèn)這個樣本來自這個總體，樣本統(tǒng)計量的總體參數(shù)與總體參數(shù)值之間有顯著差異。當(dāng)對某一總體參數(shù)進行假設(shè)檢驗時，首先從該總體中隨機抽取一個樣59假設(shè)檢驗先對總體的某一參數(shù)作出假設(shè)，然后用樣本的統(tǒng)計量去進行驗證，以決定假設(shè)是否為總體做接受。依據(jù)的概率論中的小概率原理，即“小概率事件在一次觀察中不可能出現(xiàn)”的原理。步驟：（1）建立虛無假設(shè)和研究假設(shè)，通常是將原假設(shè)作為虛無假設(shè)；（2）根據(jù)需要選擇適當(dāng)?shù)娘@著性水平α（即概率的大?。?，通常有α=0.01等；（3）根據(jù)樣本數(shù)據(jù)計算出統(tǒng)計值，并根據(jù)顯著性水平查出對應(yīng)的臨界值；（4）將臨界值與統(tǒng)計值進行比較，若臨界值大于統(tǒng)計值的絕對值，則接受虛無假設(shè)；反之，則接受研究假設(shè)。假設(shè)檢驗60資料審核與初步統(tǒng)計課件61例：某單位職工上月平均收入為210元，標(biāo)準(zhǔn)差為15元。問該單位職工本月平均收入與上月相比是否有變化？[解]建立虛無假設(shè)（H0）和研究假設(shè)H1

H0：μ=210H1：μ≠210選擇顯著性水平a=0.05,帶入樣本數(shù)據(jù)計算統(tǒng)計值Z，得=6.67>1.96所以拒絕虛無假設(shè)，接受研究假設(shè)，即從總體上來說，該單位職工月平均收入與上月相比有變化。例：某單位職工上月平均收入為210元，標(biāo)準(zhǔn)差為15元。問該單62Z檢驗Z檢驗是用正態(tài)分布的理論差異發(fā)生的概率（誤差發(fā)生的概率），從而比較兩個平均數(shù)（樣本平均數(shù)與總體平均數(shù)或兩個樣本平均數(shù)）的差異是否顯著。Z檢驗適用于大樣本（n＞30）Z檢驗可分為單總體檢驗和雙總體檢驗。Z檢驗Z檢驗是用正態(tài)分布的理論差異發(fā)生的概率（誤差發(fā)生的63單總體的檢驗單總體的檢驗64t

檢驗單總體的檢驗

單總體的檢驗是檢驗一個樣本平均數(shù)與一已知的總體平均數(shù)的差異是否顯著。其檢驗統(tǒng)計量的計算公式為：

式中t為檢驗的樣本平均數(shù)與已知總體平均數(shù)的標(biāo)準(zhǔn)離差分?jǐn)?shù)，df為t分布的自由度。

t檢驗單總體的檢驗65例如：某校初中三年級學(xué)生期中英語考試成績平均數(shù)為73分，標(biāo)準(zhǔn)差為17分。期終考試后，從該年級學(xué)生中隨機抽取20人的英語成績，其平均數(shù)為79.4分，問該年級學(xué)生的英語成績是否真有進步？例如：某校初中三年級學(xué)生期中英語考試成績平均數(shù)為73分，標(biāo)準(zhǔn)66第三節(jié)相關(guān)與回歸分析

對兩變量間關(guān)系進行描述，最常用的是相關(guān)量。相關(guān)就是指二列變量之間的相互關(guān)系。如身高和體重、學(xué)習(xí)成績與思想品德等的相互關(guān)系。類型：單相關(guān)、一元回歸與多元相關(guān)、多元回歸；回歸又分為線性與非線性回歸。第三節(jié)相關(guān)與回歸分析對兩變量間關(guān)系進行描述，最常用的是67一種是兩列變量的變動方向相同，即一種變量變動時，另一種變量也發(fā)生或大或小的相同方向的變動，如身高與體重的關(guān)系，一般來說，身高越高，體重越重，這叫正相關(guān)；

另一種相關(guān)情況是當(dāng)一種變量變動時另一種變量是或大或小地向相反方向變動，如身體健康狀況與患病率的關(guān)系，身體越好，患病率越小，這叫負(fù)相關(guān)。

第三種是零相關(guān)，即兩列變量變化方向無一定規(guī)律，一個變量變動時，另一變量的變動方向可能與其相同，也可能與其相反，且相同與相反的機會趨于相等，如人的相貌與其思想品德之間是毫無關(guān)系的零相關(guān)。

一種是兩列變量的變動方向相同，即一種變量變動時68第三節(jié)相關(guān)與回歸分析相關(guān)系數(shù)回歸分析及測定方法第三節(jié)相關(guān)與回歸分析相關(guān)系數(shù)69一、相關(guān)系數(shù)◆相關(guān)系數(shù)是用來表示相關(guān)程度的量的指標(biāo)，用r表示。其數(shù)值范圍在-1至+1之間，◆r的正負(fù)號表示變化的方向，

正號表示變化的方向相同，是正相關(guān)；負(fù)號表示變化的方向相反，是負(fù)相關(guān)。

◆r的絕對值表示兩變量之間的密切程度（強度），

絕對值越接近1，表示兩變量之間的關(guān)系越密切；越接近0，表示兩變量之間的關(guān)系越不密切。◆如r=1表示完全正相關(guān)；r=-1表示完全負(fù)相關(guān)；r=0表示零相關(guān)。一、相關(guān)系數(shù)◆相關(guān)系數(shù)是用來表示相關(guān)程度的量的指標(biāo)，用r表示70計算相關(guān)系數(shù)時，要求二列變量必須成對，而且變量的性質(zhì)不同亦應(yīng)計算不同的相關(guān)系數(shù)，即不同的相關(guān)系數(shù)適用于不同的變量類型?！袢缙栠d積差相關(guān)系數(shù)適用于兩列等距變量；●斯皮爾曼等級相關(guān)系數(shù)適用于兩列等級變量；●點二列相關(guān)系數(shù)適用于反映一等距變量與另一真正二分變量間相關(guān)程度；●二列相關(guān)系數(shù)適用于反映一等距變量與另一人為二分變量間相關(guān)程度，計算相關(guān)系數(shù)時，要求二列變量必須成對，而且變量的性質(zhì)不同亦應(yīng)71積差相關(guān)系數(shù)式中：，，n為成對變量的數(shù)目，SX為X變量的標(biāo)準(zhǔn)差，SY為Y變量的標(biāo)準(zhǔn)差。積差相關(guān)系數(shù)式中：，，n為72若用原始分?jǐn)?shù)直接求r，其計算公式為：若用標(biāo)準(zhǔn)分?jǐn)?shù)計算r，其公式為：

若用原始分?jǐn)?shù)直接求r，其計算公式為：若用標(biāo)準(zhǔn)分?jǐn)?shù)計算r，735名大學(xué)生身高提高相關(guān)系數(shù)計算表5名大學(xué)生身高提高相關(guān)系數(shù)計算表74

不同層次變量的相關(guān)測量與檢驗1.定類變量與定類變量消減誤差比例，指的就是知道X的值時所減少的誤差（E1-E2）與總誤差的比。2.定序變量與定序變量3.定類變量（或定序變量）與定距變量4.定距變量和定距變量兩變量層次相關(guān)系數(shù)取值范圍是否對稱有無消減誤差的比例意義檢驗方法SPSS有無該系數(shù)定類-定類定類-定序λ[0，1]對稱有x2有定序-定序G[-1，1]對稱有Z有定類-定距定序-定距EE2

[0，1]不對稱無有F有定距-定距rr2

[-1，1][0，1]對稱無有F（t檢驗）有不同層次變量的相關(guān)測量與檢驗兩變量層次相關(guān)系數(shù)取值75二、回歸分析及測定方法

相關(guān)系數(shù)是一種廣泛使用的描述統(tǒng)計量，用以描述兩個變量間的關(guān)系，除此以外，它還具有預(yù)測功能，即根據(jù)一個變量的情況去預(yù)測另一個變量。如果我們把存在相關(guān)的兩個變量中的一個作為自變量（預(yù)測變量），另一個作為因變量（標(biāo)準(zhǔn)變量），并且把兩者之間并不十分準(zhǔn)確、穩(wěn)定的關(guān)系用數(shù)學(xué)方程式表達(dá)出來，則可以利用該方程自變量來估計預(yù)測因變量的估計值。這一過程稱為回歸分析。相關(guān)分析的目的在于了解兩個變量間的關(guān)系強度，即用相關(guān)系數(shù)來描述X和Y兩個變量之間的共變特征?；貧w分析則是對相關(guān)關(guān)系的現(xiàn)象，根據(jù)其關(guān)系的形態(tài)找出一個合適的數(shù)學(xué)模型，即建立回歸方程，來近似地表達(dá)變量間的平均變化關(guān)系，以便依據(jù)回歸方程對未知的情況進行估計和預(yù)測。建立回歸方程的基礎(chǔ)是最小二乘法。

二、回歸分析及測定方法相關(guān)系數(shù)是一種廣泛使用的描述統(tǒng)76兩個變量（預(yù)測變量X與標(biāo)準(zhǔn)變量Y）間的回歸分析，是只有一個自變量的線性回歸，也叫一元線性回歸。其回歸方程為：

其中a,b、對一對特定數(shù)據(jù)來說是常數(shù)：

第四節(jié)雙變量統(tǒng)計分析兩個變量（預(yù)測變量X與標(biāo)準(zhǔn)變量Y）間的回歸分析，是只有一個自77例：以前例數(shù)據(jù)計算由（身高）預(yù)測（體重）的回歸方程。有了這一回歸方程后，我們就可以由預(yù)測變量的值經(jīng)回歸方程計算出標(biāo)準(zhǔn)變量的預(yù)測值。如另一名大學(xué)生的身高為170厘米，則其體重的預(yù)測值為65.78公斤。

例：以前例數(shù)據(jù)計算由（身高）預(yù)測（體重）的回歸方程。有了這一78第五節(jié)多變量統(tǒng)計分析一、闡釋模式（elaboration)所關(guān)心的是兩個變量之間的關(guān)系，它是通過引進并控制第三變量，來進一步了解和探討原來兩個變量之間關(guān)系性質(zhì)的統(tǒng)計分析方法。因果分析闡明分析條件分析第五節(jié)多變量統(tǒng)計分析一、闡釋模式（elaboration79因果分析的目標(biāo)是檢定被看作自變量的X與被看作因變量的Y之間，是否確實存在因果關(guān)系。引進若干前置變量（第三變量），以判明X與Y之間的因果關(guān)系是否為虛假的，即二者的關(guān)系是否為前置變量影響的結(jié)果。（例如，住戶的擁擠程度對夫妻間沖突的影響）闡明分析的目標(biāo)則是探討因果關(guān)系的作用方式與作用途徑。條件分析所關(guān)注的則是原關(guān)系在不同條件下是否會有所不同。因果分析的目標(biāo)是檢定被看作自變量的X與被看作因變量的Y之間，80住戶擁擠對夫妻沖突的影響（%）

夫妻沖突住戶擁擠程度高低高低63.8%36.2%41.6%58.4%（n)(599)(401)G=0.423Z=5.333P<0.05住戶擁擠對夫妻沖突的影響（%）

夫妻沖突住戶擁擠程度高低高681控制家庭經(jīng)濟水平后住戶擁擠程度對夫妻沖突的影響（%）

夫妻沖突經(jīng)濟水平高經(jīng)濟水平中經(jīng)濟水平低擁擠程度擁擠程度擁擠程度高低高低高低高低61.462.238.637.881.080.719.019.310.69.689.490.4(n)(220)(90)(294)(85)(197)(114)G=-0.018G=0.008G=0.052Z=0.099(不顯著）Z=0.040(不顯著）Z=0.171(不顯著）控制家庭經(jīng)濟水平后住戶擁擠程度對夫妻沖突的影響（%）

經(jīng)濟水82二、復(fù)相關(guān)分析復(fù)相關(guān)分析是一種以一個統(tǒng)計值來簡化多個自變量與一個因變量之間關(guān)系的統(tǒng)計分析方法。要求所有的變量都是定距以上層次的變量三、多元回歸分析Y=b1x1+b2x2+…+bkxk+aB值稱為凈回歸系數(shù)，它表示的是在控制了其他自變量以后，某一變量對因變量的單獨效果。二、復(fù)相關(guān)分析復(fù)相關(guān)分析是一種以一個統(tǒng)計值來簡化多個自變量與83資料審核與初步統(tǒng)計課件84資料審核與初步統(tǒng)計課件85第十二章調(diào)查資料的審核與整理

資料的審核資料的整理統(tǒng)計表

第十二章調(diào)查資料的審核與整理資料的審核86第一節(jié)資料的審核

邊收集邊審核集中審核

第一節(jié)資料的審核資料的審核87第二節(jié)資料的整理

一、資料整理

整理筆記與建立檔案

資料的編碼

編碼類型：開放式編碼、軸心式編碼選擇式編碼

第二節(jié)資料的整理一、資料整理88三、定量資料的整理

資料的編碼（見下表一）

資料的錄入（見下表二）數(shù)據(jù)清理

有效范圍清理邏輯一致性清理

數(shù)據(jù)質(zhì)量抽查

三、定量資料的整理89編碼手冊列問題號碼變量名稱內(nèi)容說明1-6a1期刊年月編號91年6月第二個個案為9106027a2性別1.男2.女8-9a3年齡如實填寫10a4學(xué)歷1.小學(xué)以下2.中學(xué)3.高中4.中專5.大專6.大學(xué)7.碩士8博士9.其他11-13a5身高cm14-15a6職業(yè)1.工人2.農(nóng)民3.黨政機關(guān)公務(wù)員4.私營企業(yè)主5.離退休人員6,教師醫(yī)生7.公安,司法,軍人8.企業(yè)白領(lǐng)9專業(yè)技術(shù)人員10其他16a7婚姻狀況1.

未婚2離婚3.喪偶4.其他表一編碼手冊列問題號碼變量名稱內(nèi)容說明1-6a1期刊年月編號9190擇偶標(biāo)準(zhǔn)調(diào)查數(shù)據(jù)登錄表個案編號A1A2A3A4A5A6A7…1-678-91011-1314-1516…05259210011355176031…05269210022246165042…052792100312771773…05289210041286167092….05299210052318158121…05309210062247155101……………………..…06表二擇偶標(biāo)準(zhǔn)調(diào)查數(shù)據(jù)登錄表個案A1A2A3A4A5A6A7…1-91第三節(jié)統(tǒng)計表一、統(tǒng)計表的結(jié)構(gòu)從外表形式上看，統(tǒng)計表由總標(biāo)題、橫行標(biāo)題、縱欄標(biāo)題、指標(biāo)數(shù)值四部分組成?？倶?biāo)題是表的名稱；橫行標(biāo)題在表的左端，它代表所說明的對象；縱欄標(biāo)題在表的上方，它代表統(tǒng)計指標(biāo)的名稱。它們分別對橫行或縱欄內(nèi)的統(tǒng)計值作出說明。

第三節(jié)統(tǒng)計表一、統(tǒng)計表的結(jié)構(gòu)92二、統(tǒng)計表的種類1.簡單表某村歷年人均收入

年份1977197819791980收入20284045二、統(tǒng)計表的種類1.簡單表年份19771978197919932.簡單分組表

2.簡單分組表年人均收入村百分比（％）60—80520合計943.復(fù)合分組表

是總體按兩個以上標(biāo)志進行層疊分組的統(tǒng)計表，它又稱為交互分類表，它能表現(xiàn)兩個分組標(biāo)志之間的關(guān)系。

某村家庭規(guī)模和經(jīng)濟情況統(tǒng)計表

經(jīng)濟水平家庭規(guī)模大小合計高低30501201015060合計801302103.復(fù)合分組表經(jīng)濟水平家庭規(guī)模大小合計高30120150合計95第十三章資料的統(tǒng)計分析統(tǒng)計分析方法是一種定量分析。它是進行科學(xué)預(yù)測的重要方法。統(tǒng)計分析的特點：（1）統(tǒng)計分析要以定性分析為基礎(chǔ)；（2）統(tǒng)計分析方法必須和其他分析結(jié)合運用；統(tǒng)計分析有一套專門的方法和技術(shù)。第十三章資料的統(tǒng)計分析統(tǒng)計分析方法是一種定量分析。它是進96觀察調(diào)查實驗12229986489如何使用各種統(tǒng)計表與統(tǒng)計圖來描述一組數(shù)據(jù)的分組與分布情況如何通過一組數(shù)據(jù)計算一些特征數(shù)，簡縮數(shù)據(jù)，進一步顯示與描述一組數(shù)據(jù)的全貌（集中情況、分散情況、分布特征）數(shù)據(jù)如何分組收集方法原始數(shù)據(jù)表達(dá)形式作用分析過程（圖示）觀調(diào)實12229986489如何使用各種統(tǒng)計表與統(tǒng)計97主要內(nèi)容單變量描述統(tǒng)計單變量推論統(tǒng)計相關(guān)與回歸分析雙變量統(tǒng)計分析多變量統(tǒng)計分析主要內(nèi)容98第一節(jié)、單變量描述統(tǒng)計

由一種變量的全部分?jǐn)?shù)或觀察值組成的一組或一批數(shù)據(jù)稱為一個分布。單變量數(shù)據(jù)的描述統(tǒng)計就是對其分布情況進行說明。單變量描述統(tǒng)計包括集中量數(shù)分析、離散量數(shù)分析。第一節(jié)、單變量描述統(tǒng)計由一種變量的全部分?jǐn)?shù)或觀察值組成的一99一.頻數(shù)分布與頻率分布頻數(shù)分布(FrequencyDistribution)，就是指一組數(shù)據(jù)中取不同值的個案的次數(shù)分布情況，它一般以頻數(shù)分布表的形式表達(dá)。

頻率分布(percentagesdistribution)，是一組數(shù)據(jù)中不同取值的頻數(shù)相對于總數(shù)的比率分布情況.常以百分比的形式來表達(dá).

一.頻數(shù)分布與頻率分布頻數(shù)分布(FrequencyDis100

編制頻數(shù)分布表，畫出頻數(shù)分布圖

某中學(xué)初三甲班60人期中英語考試分?jǐn)?shù)

826093938972859768777698564577766146605189437569896080747467858755877191746488578491606159637879889687895289857656545890案例編制頻數(shù)分布表，畫出頻數(shù)分布圖某中學(xué)101某中學(xué)初三甲班60人英語期中考試成績

累積頻數(shù)（頻率）分布表

某中學(xué)初三甲班60人英語期中考試成績

累積頻數(shù)（頻率）分布表102資料審核與初步統(tǒng)計課件103二、集中量數(shù)分析集中量數(shù)就是代表數(shù)據(jù)分布集中趨勢的量數(shù)。集中量數(shù)分析指的是用一個典型值或代表值來反映一組數(shù)據(jù)的一般水平，或者說反映這組數(shù)據(jù)向這個典型值集中的情況。

最常見的集中量數(shù)有算術(shù)平均數(shù)(簡稱平均數(shù)，也稱為均值)、眾數(shù)和中位數(shù)三種。

二、集中量數(shù)分析集中量數(shù)就是代表數(shù)據(jù)分布集中趨勢的量數(shù)。104中位數(shù)（Md）中位數(shù)（Md），又稱中數(shù)，是頻數(shù)分布上50%處的數(shù)值，即將觀察總數(shù)一分為二的變量值。在這個值的兩邊各有相同個數(shù)的數(shù)據(jù)。當(dāng)數(shù)據(jù)的個數(shù)為偶數(shù)時，取分布50%（最中心）處的兩個數(shù)據(jù)的平均數(shù)作為中數(shù)。中位數(shù)（Md）中位數(shù)（Md），又稱中數(shù)，是頻數(shù)分布上50%處105中位數(shù)（Md）中位數(shù)（Md），又稱中數(shù)，是頻數(shù)分布上50%處的數(shù)值，即將觀察總數(shù)一分為二的變量值。在這個值的兩邊各有相同個數(shù)的數(shù)據(jù)。當(dāng)數(shù)據(jù)的個數(shù)為偶數(shù)時，取分布50%（最中心）處的兩個數(shù)據(jù)的平均數(shù)作為中數(shù)。中位數(shù)（Md）中位數(shù)（Md），又稱中數(shù)，是頻數(shù)分布上50%處106幾何平均數(shù)（Mg）

Mg=幾何平均數(shù)（Mg）是n個數(shù)據(jù)的連乘積開n次方的根。常107算術(shù)平均數(shù)通常稱平均數(shù)，又稱均數(shù)或均值。英文為Mean，故以M表示。如果是由變量X計算得來的就記為（讀X杠），現(xiàn)在一般都以表示樣本的平均數(shù)，以U表示總體的平均數(shù)。算術(shù)平均數(shù)就是各個變量值相加求和再除以變量的總次數(shù)。==算術(shù)平均數(shù)通常稱平均數(shù)，又稱均數(shù)或均值。英文為Mean，故以108算術(shù)平均數(shù)的計算方法1、用原始數(shù)據(jù)計算平均數(shù)。當(dāng)一組數(shù)據(jù)個數(shù)不多時，可直接用原始數(shù)據(jù)來計算。如某實驗小組10人的實驗成績?yōu)?1，13，15，16，16，16，17，18，18，20。其平均數(shù)為：===16算術(shù)平均數(shù)的計算方法1、用原始數(shù)據(jù)計算平均數(shù)。當(dāng)一組數(shù)據(jù)個1092、用頻數(shù)分布表求平均數(shù)。如果樣本的數(shù)據(jù)很多，達(dá)到數(shù)十個或數(shù)百個，則需編制頻數(shù)分布表，用頻數(shù)分布表求平均數(shù)。=Xc為各組的組中值，f為各組的頻數(shù)，N為總次數(shù)（）

2、用頻數(shù)分布表求平均數(shù)。如果樣本的數(shù)據(jù)很多，達(dá)到數(shù)十個或110某中學(xué)初三甲班60人英語期中考試成績

平均數(shù)、標(biāo)準(zhǔn)差計算表

==73.5

73.5

73.5某中學(xué)初三甲班60人英語期中考試成績

平均數(shù)、標(biāo)準(zhǔn)差計算表111中位術(shù)與平均數(shù)的比較（1）平均數(shù)要求計算所有的數(shù)值,而中位數(shù)只用到數(shù)值的相對位置,一般說來平均數(shù)利用了更多的信息,更全面和準(zhǔn)確.?（2）平均數(shù)容易受到極端值的影響,中位數(shù)則不會受到這種影響.平均數(shù)是一種比中位數(shù)更為穩(wěn)定的量度,它隨樣本的變化比較少.（3）當(dāng)資料是定序,定類測量或者是有開口組的定居測量時,中位數(shù)能夠擬補不足.中位術(shù)與平均數(shù)的比較（1）平均數(shù)要求計算所有的數(shù)值,而中位數(shù)112三.離散量數(shù)分析

示例：某三個班各選5名同學(xué)參加測試.他們的成績分別如下中文系:78,79,80,81.82X=80數(shù)學(xué)系:65,72,80,88,95X=80外語系:35,78,89,98,100X=80如果僅以集中量數(shù)來衡量,這三個隊的水平一樣高,但是很明顯.這80分對中文系隊的同學(xué)代表性最高,而對外語系的同學(xué)代表性最低.示例：1141.全距（R）全距也叫極差,它是一組數(shù)據(jù)中,最大值與最小值之差.

=551.求全距步驟R=98（最大值）—43（最小值）1.求全距步116視數(shù)據(jù)資料的性質(zhì)和數(shù)據(jù)多少而定。組數(shù)不宜太多，如太多不能明顯表示出分布的主要趨勢。但也不宜太少，太少則把很多不同事實歸于一組，其分配的主要特征將因此而被蒙蔽。2.定組數(shù)

分組參考表

n5080100150200300500100020005000分組數(shù)9111214161822303956視數(shù)據(jù)資料的性質(zhì)和數(shù)據(jù)多少而定。組數(shù)不宜太多，如太多不能明顯117組距就是每一組的間距，即每組所包含的單位。組距以“i”表示。3、求組距

組距i

=9.3

i=本例組數(shù)為6，組距一般地，為計算方便，組距取10為宜

組距就是每一組的間距，即每組所包含的單位。組距以“i”表示。118組限是分組的界限，其底數(shù)為下限（L），其頂數(shù)為上限（U）。組限的寫法有很多，有的用上下限表示，有的用組中值表示。如以“10”為組距，一般多用首尾相接，間隔為10的形式表示。即60~70，70~80，80~90。其中每組上限即為下一組的下限，通常將組下限包含在本組中，而不包含在上限所在的組。因為分組的實際界限應(yīng)是這一組的精確界限，如“80~90”這一組的精確界限為“79.5~89.4999……”。4.定組限組限是分組的界限，其底數(shù)為下限（L），其頂數(shù)為上限（U）。組1195.求組中值

組中值XC=精確下限L+

如以10為組距，則”80~90”一組的組中值為：組中值=79.5+=84.5

5.求組中值組中值XC=精確下限L+如以10為組120某中學(xué)初三甲班60人英語期中考試成績頻數(shù)分布表6.歸類劃記

某中學(xué)初三甲班60人英語期中考試成績頻數(shù)分布表6.歸類劃1212.標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差：一組數(shù)據(jù)對其平均數(shù)的偏差平方的算術(shù)平均數(shù)的平方根。一般以S（或來表示）式中S（樣本統(tǒng)計值）為標(biāo)準(zhǔn)差，X為各學(xué)生的成績分?jǐn)?shù)，為學(xué)生成績的平均數(shù)，x為各學(xué)生成績分?jǐn)?shù)的離差，n為學(xué)生（數(shù)據(jù)）數(shù)。S==2.標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差：一組數(shù)據(jù)對其平均數(shù)的偏差平方的算術(shù)平均122例1：某校三個系各選5名同學(xué)，參加智力競賽，他們的成績分別如下：中文系：7879808182數(shù)學(xué)系：6572808895英語系：35788998100平均成績=80

標(biāo)準(zhǔn)差：一組數(shù)據(jù)對其平均數(shù)的偏差平方的算術(shù)平均數(shù)的平方根。S（中文系）=1.414（分）S（數(shù)學(xué)系）=10.8（分）S（英語系）=23.8（分）S=例1：某校三個系各選5名同學(xué)，參加智力競賽，他們的成績分別如123例2.例：有某生三次數(shù)學(xué)考試的成績分別為70、57、45，三次考試的班平均為70、55、42，標(biāo)準(zhǔn)差分別為8、4、5。如何看待該生的三次考試成績的地位?（如果僅從原始分?jǐn)?shù)看，肯定認(rèn)為第一次最好，其實不然，要計算出各次的標(biāo)準(zhǔn)分?jǐn)?shù)，才能說明問題。）Z1=(70－70)/8=0Z2=（57－55）/4=0.5Z3=（45－42）/5=0.6這說明，原始分?jǐn)?shù)為70，其位置正在平均線上，而原始分?jǐn)?shù)為57的，其位置在平均線上0.5處，而原始分?jǐn)?shù)為45的，其位置在平均線上0.6處。

例2.例：有某生三次數(shù)學(xué)考試的成績分別為70、57、45，三1243.異從比率

是指非眾數(shù)的次數(shù)與總體內(nèi)全部總體單位的比率。異眾比率越小，眾數(shù)的代表性越大。4.四分位差

舍去資料中數(shù)值最高的25％和最低的25％，僅就中間50％數(shù)據(jù)求其量數(shù)作為離中量數(shù)，就是四分位差。

四分位差之間的間距越小，中位數(shù)的代表性越大。（1）對定序類資料計算四分位差。 Q=Q3-Q1

（2）對定距類資料計算四分位差。3.異從比率125使用說明：眾數(shù)與異眾比率配合；中位數(shù)與四分位差配合；平均數(shù)與標(biāo)準(zhǔn)差配合。使用說明：眾數(shù)與異眾比率配合；中位數(shù)與四分位差配合；平均數(shù)與126四、相對差異（離散或離中）量數(shù)

1.離散系數(shù)

四、相對差異（離散或離中）量數(shù)1.離散系數(shù)127例1：一項調(diào)查得到下列結(jié)果，某市人均平均收入為92元，標(biāo)準(zhǔn)差為17元，人均住房面積7.5平方米，標(biāo)準(zhǔn)差為1.8平方米。試比較該市人均收入和人均住房情況哪一個差異程度比較大。[解]人均收入的離散系數(shù)為CV=S/×100%=18.5%人均住房面積的離散系數(shù)為CV=1.8/7.5×100%=24%例2：對廣州和武漢兩地居民生活質(zhì)量調(diào)查發(fā)現(xiàn)，廣州居民平均收入為680元，標(biāo)準(zhǔn)差為120元；武漢居民平均收入為360元，標(biāo)準(zhǔn)差為80元。問廣州居民相互之間的差異程度，與武漢居民相互之間在收入上的差異程度哪一個更大一些？[解]廣州居民收入的離散系數(shù)為CV=120/680×100%=17.6%武漢居民收入的離散系數(shù)為CV=80/360×100%=22.2%例1：一項調(diào)查得到下列結(jié)果，某市人均平均收入為92元，標(biāo)準(zhǔn)差128五、標(biāo)準(zhǔn)分?jǐn)?shù)

是用來描述變量分布中某一分?jǐn)?shù)在整個分布中所處的位置，它是以標(biāo)準(zhǔn)差為單位的相對量數(shù)。其計算公式為：

==從公式可以得知標(biāo)準(zhǔn)分?jǐn)?shù)是一個分?jǐn)?shù)與其平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商。平均數(shù)以上各點的分?jǐn)?shù)為正值，平均數(shù)以下各點的分?jǐn)?shù)為負(fù)值，平均數(shù)的分?jǐn)?shù)為零。五、標(biāo)準(zhǔn)分?jǐn)?shù)是用來描述變量分布中某一分?jǐn)?shù)在整個分布中所處的129例如：某班語文平均考試成績?yōu)?5分，標(biāo)準(zhǔn)差為8.5分。甲生得92分，乙生得70分，問甲乙二生的分?jǐn)?shù)各為多少？

Z甲=Z乙=

例如：某班語文平均考試成績?yōu)?5分，標(biāo)準(zhǔn)差為8.5分。甲生得130目前，我國各類學(xué)校招考新生和對學(xué)生進行學(xué)習(xí)成績考查評定的主要手段是考試。而對考試成績的評分一般是用百分制來表示，并用各科成績相加按總分來決定被試者的優(yōu)劣取舍。這種做法開來似乎公平，實際上很不合理。因為各科試題的難易程度不同，造成評分標(biāo)準(zhǔn)的寬嚴(yán)不一，因此各科考試成績的統(tǒng)計量數(shù)，如平均數(shù)、標(biāo)準(zhǔn)差也不相等。我們不能說語文的考分80分等價于數(shù)學(xué)的考分的80分，也不能說英語考分75分等價于物理的考分75分，在這種情況下，把考生的各科考分等量齊觀地相加起來，憑個考生的總分來決定優(yōu)劣取舍，顯然是十分不合理的?？茖W(xué)的方法，就是把考生是各科分?jǐn)?shù)，經(jīng)過一個標(biāo)準(zhǔn)化的轉(zhuǎn)化過程，把每個考生的各科分?jǐn)?shù)變成標(biāo)準(zhǔn)分?jǐn)?shù)，然后再進行相加和比較。目前，我國各類學(xué)校招考新生和對學(xué)生進行學(xué)習(xí)成績考查評131甲乙兩位考生七科分?jǐn)?shù)的標(biāo)準(zhǔn)化表

甲乙兩位考生七科分?jǐn)?shù)的標(biāo)準(zhǔn)化表132練習(xí)1.根據(jù)各小組調(diào)查的問卷，先進行數(shù)據(jù)清理工作，然后對某些問題進行單變量的統(tǒng)計描述，繪制頻數(shù)分布表。2.在一個社區(qū)診所，10天內(nèi)來排隊看病的人數(shù)分別是52，68，39，47，57，32，75，25，31和93，求算術(shù)平均數(shù)和中位數(shù)，以及標(biāo)準(zhǔn)差練習(xí)1.根據(jù)各小組調(diào)查的問卷，先進行數(shù)據(jù)清理工作，然后對某些133

第二節(jié)單變量統(tǒng)計推論

（一）總體參數(shù)的估計（二）假設(shè)檢驗第二節(jié)單變量統(tǒng)計推論統(tǒng)計推斷，是指根據(jù)樣本所提供的134一、區(qū)間估計

一、區(qū)間估計以樣本統(tǒng)計量的抽樣分布為理論依據(jù)，按一定概率要1351、平均數(shù)抽樣分布與總體均數(shù)的區(qū)間估計從正態(tài)分布中隨機抽取容量為的一切可能樣本的平均數(shù)抽樣分布是以總體平均數(shù)為中心的正態(tài)分布。當(dāng)總體標(biāo)準(zhǔn)差已知時，一切可能樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計量呈標(biāo)準(zhǔn)正態(tài)分布。區(qū)間估計：區(qū)間估計的實質(zhì)就是在一定的可信度（置信度）下，用樣本統(tǒng)計值的某個范圍（置信區(qū)間）來估價總體的參數(shù)值。范圍的大小反映的是這種估計的精確性問題，而可信度高低反映的則是這種估計的可靠性或把握性的問題。1、平均數(shù)抽樣分布與總體均數(shù)的區(qū)間估計從正態(tài)分布中隨機抽取136

其中，表示樣本平均數(shù)的標(biāo)準(zhǔn)分?jǐn)?shù)，表示樣本平均數(shù)，表示總體平均數(shù)，表示平均數(shù)標(biāo)準(zhǔn)誤。

其中，表示樣本平均數(shù)的標(biāo)準(zhǔn)分?jǐn)?shù)，137資料審核與初步統(tǒng)計課件138資料審核與初步統(tǒng)計課件139課堂練習(xí)題例：調(diào)查某廠職工的工資狀況，隨機抽取900名工人做樣本，調(diào)查得到他們的月平均工資為186元，標(biāo)準(zhǔn)差為42元。求95%的置信度下，全廠職工的月平均工資的置信取間是多少？[解]將調(diào)查資料代入總體均值的區(qū)間估計公式得總體均值的置信區(qū)間為183.26-188.74當(dāng)將置信度提高到99%，總體的置信區(qū)間為182.39-189.61元（隨著可靠性的提高，所估計的區(qū)間擴大了，但估計的精確性就相應(yīng)地降低了。例：從某工廠隨機抽取400名工人進行調(diào)查，結(jié)果表明女工的比例為20%。現(xiàn)在要求在90%的置信度下，估計全廠工人中女工比例的置信區(qū)間。[解]帶入總體百分?jǐn)?shù)的區(qū)間估計公式得16.7%-23.%課堂練習(xí)題140小結(jié)：要對總體均數(shù)進行區(qū)間估計，即在一定的可靠程度上求出總體均數(shù)的置信區(qū)間的上下限，首先，要知道與所要估計的參數(shù)相對應(yīng)的樣本統(tǒng)計量的值，以及樣本統(tǒng)計量的抽樣分布；其次，要求出該統(tǒng)計量的標(biāo)準(zhǔn)誤；最后，要明確在多大的可靠度上對總體均數(shù)作估計，再通過查抽樣分布概率分布表，找出與該可靠度所對應(yīng)的該分布在橫軸上記分的臨界值，從而計算出總體均數(shù)的置信區(qū)間。小結(jié)：要對總體均數(shù)進行區(qū)間估計，即在一定的可靠程度上求出總體141二、假設(shè)檢驗利用樣本信息，根據(jù)一定的概率，對總體參數(shù)或分布的某一假設(shè)作出拒絕或保留的決斷，稱為假設(shè)檢驗。二、假設(shè)檢驗利用樣本信息，根據(jù)一定的概率，對總體參數(shù)或分布142當(dāng)對某一總體參數(shù)進行假設(shè)檢驗時，首先從該總體中隨機抽取一個樣本，然后計算統(tǒng)計量的值，并根據(jù)經(jīng)驗對相應(yīng)的總體參數(shù)提出一個假設(shè)值，這個假設(shè)是說這個樣本統(tǒng)計量的值是由這個假設(shè)總體參數(shù)值的一個隨機樣本，即這個樣本來源于這個總體，而樣本統(tǒng)計量的值與總體參數(shù)值之間的差異是由抽樣誤差所致。根據(jù)這一假設(shè)，可以認(rèn)為像這樣的一切可能樣本統(tǒng)計量的值應(yīng)當(dāng)以總體參數(shù)值（假設(shè)的）為中心形成該統(tǒng)計量的一個抽樣分布。如果這個隨機樣本統(tǒng)計量的值在其抽樣分布上出現(xiàn)的概率較大時，就得保留這個假設(shè)，即承認(rèn)這個樣本來自這個總體，而樣本統(tǒng)計量的值與總體參數(shù)值之間的差異是由抽樣誤差所致。此時稱樣本統(tǒng)計量的總體參數(shù)與假設(shè)的總體參數(shù)差異不顯著。否則就拒絕這個假設(shè)，否認(rèn)這個樣本來自這個總體，樣本統(tǒng)計量的總體參數(shù)與總體參數(shù)值之間有顯著差異。當(dāng)對某一總體參數(shù)進行假設(shè)檢驗時，首先從該總體中隨機抽取一個樣143假設(shè)檢驗先對總體的某一參數(shù)作出假設(shè)，然后用樣本的統(tǒng)計量去進行驗證，以決定假設(shè)是否為總體做接受。依據(jù)的概率論中的小概率原理，即“小概率事件在一次觀察中不可能出現(xiàn)”的原理。步驟：（1）建立虛無假設(shè)和研究假設(shè)，通常是將原假設(shè)作為虛無假設(shè)；（2）根據(jù)需要選擇適當(dāng)?shù)娘@著性水平α（即概率的大?。?，通常有α=0.01等；（3）根據(jù)樣本數(shù)據(jù)計算出統(tǒng)計值，并根據(jù)顯著性水平查出對應(yīng)的臨界值；（4）將臨界值與統(tǒng)計值進行比較，若臨界值大于統(tǒng)計值的絕對值，則接受虛無假設(shè)；反之，則接受研究假設(shè)。假設(shè)檢驗144資料審核與初步統(tǒng)計課件145例：某單位職工上月平均收入為210元，標(biāo)準(zhǔn)差為15元。問該單位職工本月平均收入與上月相比是否有變化？[解]建立虛無假設(shè)（H0）和研究假設(shè)H1

H0：μ=210H1：μ≠210選擇顯著性水平a=0.05,帶入樣本數(shù)據(jù)計算統(tǒng)計值Z，得=6.67>1.96所以拒絕虛無假設(shè)，接受研究假設(shè)，即從總體上來說，該單位職工月平均收入與上月相比有變化。例：某單位職工上月平均收入為210元，標(biāo)準(zhǔn)差為15元。問該單146Z檢驗Z檢驗是用正態(tài)分布的理論差異發(fā)生的概率（誤差發(fā)生的概率），從而比較兩個平均數(shù)（樣本平均數(shù)與總體平均數(shù)或兩個樣本平均數(shù)）的差異是否顯著。Z檢驗適用于大樣本（n＞30）Z檢驗可分為單總體檢驗和雙總體檢驗。Z檢驗Z檢驗是用正態(tài)分布的理論差異發(fā)生的概率（誤差發(fā)生的147單總體的檢驗單總體的檢驗148t

檢驗單總體的檢驗

單總體的檢驗是檢驗一個樣本平均數(shù)與一已知的總體平均數(shù)的差異是否顯著。其檢驗統(tǒng)計量的計算公式為：

式中t為檢驗的樣本平均數(shù)與已知總體平均數(shù)的標(biāo)準(zhǔn)離差分?jǐn)?shù)，df為t分布的自由度。

t檢驗單總體的檢驗149例如：某校初中三年級學(xué)生期中英語考試成績平均數(shù)為73分，標(biāo)準(zhǔn)差為17分。期終考試后，從該年級學(xué)生中隨機抽取20人的英語成績，其平均數(shù)為79.4分，問該年級學(xué)生的英語成績是否真有進步？例如：某校初中三年級學(xué)生期中英語考試成績平均數(shù)為73分，標(biāo)準(zhǔn)150第三節(jié)相關(guān)與回歸分析

對兩變量間關(guān)系進行描述，最常用的是相關(guān)量。相關(guān)就是指二列變量之間的相互關(guān)系。如身高和體重、學(xué)習(xí)成績與思想品德等的相互關(guān)系。類型：單相關(guān)、一元回歸與多元相關(guān)、多元回歸；回歸又分為線性與非線性回歸。第三節(jié)相關(guān)與回歸分析對兩變量間關(guān)系進行描述，最常用的是151一種是兩列變量的變動方向相同，即一種變量變動時，另一種變量也發(fā)生或大或小的相同方向的變動，如身高與體重的關(guān)系，一般來說，身高越高，體重越重，這叫正相關(guān)；

一種是兩列變量的變動方向相同，即一種變量變動時152第三

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

資料審核與初步統(tǒng)計課件

文檔簡介

溫馨提示

最新文檔

評論

資料審核與初步統(tǒng)計課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔