版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、1知識點:兩個維度七個統(tǒng)計量數(shù)眾值中位數(shù)均值集集中中趨趨勢勢異眾比率四分位差方差與標準差離離散散程程度度數(shù)數(shù)據(jù)據(jù)的的簡簡化化第1頁/共67頁2學習要求1、集中趨勢各測量法的計算方法;、集中趨勢各測量法的計算方法;2、集中趨勢各測量法的特點和應用;、集中趨勢各測量法的特點和應用;3、離散程度各測量法的計算方法;、離散程度各測量法的計算方法;4、離散程度各測量法的特點與應用;、離散程度各測量法的特點與應用; 第2頁/共67頁3單變量描述統(tǒng)計 在統(tǒng)計分析中,是否可以找出一個有代表性的數(shù)值來說明變量的分布,反映資料的集中或差異情況? 集中趨勢測量,就是以一個數(shù)值來代表變量的資料分布,反映的是變量值向中
2、心值聚集的程度,也就是說以這一個數(shù)值(或稱典型值)來估計或預測每一個研究對象的數(shù)值時發(fā)生的錯誤總數(shù)在理論上是最小的。 離散趨勢測量(Measures of dispersion)就是用一個值表示數(shù)據(jù)之間的差異情況。 離散趨勢測量法和集中趨勢測量法具有互補作用。在進行統(tǒng)計分析時,既要測量變量的集中趨勢,也要測量離散趨勢。 第3頁/共67頁4集中趨勢測量/分析集中趨勢測量:用某一個典型的變量值或特征值來代表全體變量的問題,這個典型的變量值或特征值就稱作集中值或集中趨勢。 眾值(Mode) 定類層次 中位值(Median)定序層次 均值(Mean) 定距層次第4頁/共67頁5一、眾數(shù)(mode)1、
3、出現(xiàn)頻次最多的變量值;、出現(xiàn)頻次最多的變量值;2、眾數(shù)的不唯一性;、眾數(shù)的不唯一性;3、主要應用于定類變量,當然也可、主要應用于定類變量,當然也可以應用于定序和定距變量以應用于定序和定距變量第5頁/共67頁6眾數(shù)的特點:不唯一性 原始數(shù)據(jù):4、5、7、8、19(無眾值) 原始數(shù)據(jù):4、5、7、5、5、16(一個眾值) 原始數(shù)據(jù):4、4、5、7、7、9(兩個眾值)第6頁/共67頁7例例1:非連續(xù)取值:非連續(xù)取值第7頁/共67頁8例2 分組數(shù)據(jù)收入收入(元元)fCfCf500-6991010550700-8996575540900-10991262114751100-129915836933913
4、00-14991415101811500-16994055040總數(shù)總數(shù) 550第8頁/共67頁9從分布來看,眾數(shù)是具有明顯集中趨勢點從分布來看,眾數(shù)是具有明顯集中趨勢點的數(shù)值,一組數(shù)據(jù)分布的最高峰點所對應的數(shù)值,一組數(shù)據(jù)分布的最高峰點所對應的數(shù)值及為眾數(shù)的數(shù)值及為眾數(shù)。第9頁/共67頁10二、中位值(Median)1、把一組數(shù)據(jù)按順序排列,處于中間位置的那個數(shù)值就是中位值。2、主要應用于定序變量,也可用于定距變量,但不可用于定類變量。Md第10頁/共67頁11(1)未分組數(shù)據(jù)求中位數(shù):)未分組數(shù)據(jù)求中位數(shù): Md位置位置= (2)中位數(shù))中位數(shù)=中間位置的值中間位置的值注意:先找位置,再找中
5、位數(shù)注意:先找位置,再找中位數(shù)將各個個將各個個案由低至高排列案由低至高排列起來,居序列中央起來,居序列中央位置的個案值就是中位值。位置的個案值就是中位值。12n第11頁/共67頁12(1)、個案數(shù)為奇數(shù)【例1】:甲地的5戶人家的人數(shù)為:2,4,3,6,8,求中位值。 解:Md的位置 321N215排序2,3,4,6,8中位值Md=4第12頁/共67頁13(2)個案數(shù)為偶數(shù)【例2】:乙地的6戶人家的人數(shù)為:2,4,3,6,8,5求中位值。 解:Md的位置 21N216排序2,3,4, 5, 6,8Md254第13頁/共67頁14(3)頻數(shù)分布表【例3】根據(jù)下表求中位值。解:Md位置 中位值Md乙
6、成成績績 頻頻次次 累累計計頻頻次次c cf f 甲 85 500 乙 195 415 丙 210 220 丁 10 10 N 500 500 21N21500第14頁/共67頁152、分組數(shù)據(jù) 根據(jù)統(tǒng)計表中的累積百分比,找出含有50%的區(qū)間 找出含有50%區(qū)間的上界值U,下界值L,上界累計百分數(shù)U%,下界累計百分數(shù)L%以及組距等信息 根據(jù)線段對應成比例的原理,計算出累計百分比為50%的變量值第15頁/共67頁162ncfMdLwfL:中位數(shù)組的下限:中位數(shù)組的下限f:中位數(shù)組的頻數(shù):中位數(shù)組的頻數(shù)w:中位數(shù)組的組:中位數(shù)組的組距(距(U-L)cf:低于中位數(shù)組:低于中位數(shù)組下限的累加次數(shù)下限
7、的累加次數(shù)n:全部個案數(shù):全部個案數(shù)Md位置位置=n/2 (上(上下各下各50%的位置)的位置)第16頁/共67頁17例:分組數(shù)據(jù):首先將各組的次數(shù)累加起首先將各組的次數(shù)累加起來來求中位數(shù)的位置:求中位數(shù)的位置:Md位置位置=n/2 =212/2=106第第106個位置在個位置在 25-35之之間間第17頁/共67頁18 分組變量看作是一組連續(xù)的數(shù)值259435124?106103012第18頁/共67頁19【例【例4】:】:根據(jù)下表數(shù)據(jù)求中位值。根據(jù)下表數(shù)據(jù)求中位值。解:解:Md位置位置50;從累積頻數(shù)從累積頻數(shù)cf欄找到中位數(shù)欄找到中位數(shù)位置所在組為位置所在組為“300400”引入公式:引
8、入公式:收入收入(元元) 職工數(shù)職工數(shù) Cf 100200 10 10 200300 20 30 300400 40 70 400500 30 100 合計合計 N 100 =35050 30300100402fwNcfMd L 第19頁/共67頁20三、均值1、均值的定義:總體各單位取值之和除以總體單位數(shù)目。2、僅適用于定距變量,不適用于定類和定序;第20頁/共67頁211、未分組數(shù)據(jù)(1)簡單原始資料求均值xXn第21頁/共67頁22均值的計算未分組數(shù)據(jù)【例5】某班10名學生年齡分別為20、21、19、19、20、20、21、22、18、20歲,求他們的平均年齡。解:根據(jù)平均數(shù)的計算公式有
9、:歲2010200NXX第22頁/共67頁23(2)、加權平均數(shù)某個變項值重復出現(xiàn)多次,可以先統(tǒng)計每個值(x)的次數(shù)(f),再求次數(shù)與相應變量值的乘積(fx),利用各乘積之和求出均值。(f也稱為權數(shù),f/n稱為權重)公式:fxXn第23頁/共67頁24未分組數(shù)據(jù)加權平均數(shù)【例【例6】調(diào)查某年】調(diào)查某年120名名學生的年齡,結果如下學生的年齡,結果如下表,求平均年齡。表,求平均年齡。解:根據(jù)公式得歲年齡 人數(shù) 17 20 18 25 19 35 20 20 21 20 N 120 nxfnXX12020212017第24頁/共67頁252、分組資料求均值:根據(jù)組中值求均值先求出組中值先求出組中值
10、組中值組中值=(上限(上限+下限)下限)/2計算組中值的和計算組中值的和計算分組數(shù)據(jù)的均值計算分組數(shù)據(jù)的均值1599.417mfxXn組中值第25頁/共67頁26眾值、中位數(shù)和均值的比較1數(shù)數(shù)據(jù)據(jù)類類型型和和所所適適用用的的集集中中趨趨勢勢測測量量值值 數(shù)數(shù)據(jù)據(jù)類類型型 定定類類 定定序序 定定距距 眾眾值值 眾眾值值 眾眾值值 中中位位值值 中中位位值值 測測度度值值 均均值值 注:注: 表示該數(shù)據(jù)類型最適合用的測度值表示該數(shù)據(jù)類型最適合用的測度值第26頁/共67頁27眾數(shù)、中位數(shù)和平均值的比較 眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。但在社會調(diào)查中眾數(shù)的代表性較小第27頁/共67頁28中位數(shù)和
11、平均數(shù)的比較 計算平均數(shù)時用到數(shù)據(jù)中所有的數(shù)值,而求中位數(shù)時只用到數(shù)值的相對位置,平均數(shù)比中位數(shù)利用了更多的有關數(shù)據(jù)的信息 平均數(shù)容易受到極端值的影響,而中位數(shù)則不會受這種影響。當樣本中數(shù)據(jù)值的分布是高度傾斜的,中位數(shù)一般比平均數(shù)更適合一些如100,200,400,500,600,均值為360,中位數(shù)為400100,200,400,500,1000,均值為440,中位數(shù)為400第28頁/共67頁29 對隨機抽樣調(diào)查來說,平均數(shù)比中位數(shù)更穩(wěn)定,它隨樣本的變化比較小 平均數(shù)比中位數(shù)更容易進行算術運算。第29頁/共67頁30眾數(shù)、中位數(shù)、均值比較2但兩種情況不宜用均值: (1)(1)分組數(shù)據(jù)的極端組
12、沒有組限。 (2)(2)個別數(shù)值非常特殊。第30頁/共67頁31第31頁/共67頁32練習: 求下表求下表(單項數(shù)列單項數(shù)列)所示數(shù)據(jù)的算術平均數(shù)所示數(shù)據(jù)的算術平均數(shù) 。人口數(shù)(人口數(shù)(X)戶數(shù)戶數(shù)(f)頻率頻率(P)23456785816106410.100.160.320.200.120.080.02合計合計501.00第32頁/共67頁33 求下表所示數(shù)據(jù)的的算術平均數(shù)求下表所示數(shù)據(jù)的的算術平均數(shù) f XfX間距頻數(shù)(f) 組中值(X)148152152156156160160164164168168172172176176180180184184188188192192196 1 2
13、51019251712 5 3 0 1 150154158162166170174178182186190194合計 100 第33頁/共67頁34n 求54,65,78,66,43這些數(shù)字的中位數(shù)。n求54,65,78,66,43,38 這些數(shù)字的中位數(shù)。第34頁/共67頁35 某年級學生身高如下,求中位數(shù)某年級學生身高如下,求中位數(shù)第35頁/共67頁36人口數(shù)(人口數(shù)(X)戶數(shù)戶數(shù)(f)頻率頻率(P)23456785816106410.100.160.320.200.120.080.02合計合計501.00求下表中的眾數(shù)第36頁/共67頁37求下表中的眾數(shù)求下表中的眾數(shù)第37頁/共67頁3
14、8 城鎮(zhèn)自殺率的分組次數(shù)分布 自殺率自殺率 次數(shù)次數(shù)真實組限真實組限組中值組中值向上累積次數(shù)向上累積次數(shù)3-5126-8359-118112-145215-173018-20721-23924-263合計合計229第38頁/共67頁39第五講第五講 單變量的單變量的描述統(tǒng)計(描述統(tǒng)計(2) 離散趨勢離散趨勢測量測量第39頁/共67頁40離散趨勢測量(Measures of dispersion) 反映的是各變量值偏離其中心值的程度,是個案與個案之間的差異情況。 這種測量法,與前面所講的集中趨勢測量法具有相互補充的作用。 集中趨勢求出的是一個最能代表變量所有資料的值,但是集中趨勢值代表性的高低還
15、要看各個個案之間的差異情況。第40頁/共67頁41舉例:某校3個系各選5名同學參加智力競賽,他們的成績?nèi)缦拢褐形南担?8,79,80,81,82 ( 80)數(shù)學系:65,72,80,88,95 ( 80)英語系:35,78,89,98,100 ( 80)如果僅從集中趨勢測量(平均分數(shù))來看,這三個系的成績都一致,不存在什么差別。但從直觀上可看出,三個系選手之間的差距程度(離散程度)很不一樣?XXX第41頁/共67頁42 異眾比率/離異比率(Variation ratio) 定類層次 四分位差(Interquartile range)定序層次 方差 (Variance) 標準差 (Standar
16、d deviation)定距層次第42頁/共67頁43一、異眾比率(Variation ratio) 1、異眾比率(簡寫Vr) :指非眾值在總數(shù)中所占的比率。表示以眾數(shù)來預測一組數(shù)據(jù)時,所犯錯誤的大小.即Vr值越大,則眾值的代表性就越小. Vr值越小,則眾值的代表性就越大.2、計算公式:NfNrVOM:眾值的頻次眾值的頻次oMf第43頁/共67頁44異眾比率(先找出眾值.找到眾值的頻次分布)【例例1】:根據(jù)表根據(jù)表1中的數(shù)據(jù),計算眾中的數(shù)據(jù),計算眾值和異眾比率。值和異眾比率。解:解:眾值眾值Mo “核心家庭核心家庭”異眾比率異眾比率507. 0213010502130rV第44頁/共67頁45
17、例2:眾數(shù)和異眾比率的比較表表2 甲乙兩校學生的父親職甲乙兩校學生的父親職業(yè)業(yè)甲乙兩校學生的父親甲乙兩校學生的父親職業(yè)的眾數(shù)都為職業(yè)的眾數(shù)都為“農(nóng)農(nóng)民民”甲校甲校乙校乙校眾數(shù)的代表性中甲校眾數(shù)的代表性中甲校小于乙校,甲校中有小于乙校,甲校中有47.6%非農(nóng)民,乙校非農(nóng)民,乙校只有只有38.5%.550 2880.476550v480 2950.386480v第45頁/共67頁46異眾比率&眾值 異眾比率是眾值的補充。取值范圍是0,1。 不屬于眾數(shù)的個案所占的比例愈大,就表示眾數(shù)的代表性愈小,以之作估計或預測時所犯的錯誤也就愈大。當 Vr 0,說明變量只有一個值,那就是眾值;當 Vr 0
18、,說明資料比較集中,眾值的代表性比較高;當 Vr 1,說明資料比較分散,眾值的代表性低。第46頁/共67頁47二、四分位差(Interquartile range) 將數(shù)據(jù)由低至高排列,然后分為四等分(即每個等分包括25的數(shù)據(jù)),第一個四分位置的值( Q1 )與第三個四分位置的值(Q3)的差異,就是四分位差(簡寫為Q)。Q1Q2Q3Q425%25%25%25%第47頁/共67頁481.離散程度的測度值之一2.也稱為內(nèi)距或四分間距3.上四分位數(shù)與下四分位數(shù)之差4.反映了中間50%數(shù)據(jù)的離散程度5.不受極端值的影響6.用于衡量中位數(shù)的代表性第48頁/共67頁49基本公式 求位置,找出4分位對應的數(shù)
19、值 Q1= Q3=四分位差Q Q3 Q1。14n 3(1)4n第49頁/共67頁501、根據(jù)原始未分組資料求四分位差解:解: Q1 的位置的位置 Q3的位置的位置 那么那么 Q1 不滿意;不滿意; Q3 一一般般Q Q3 Q1 一般不滿意一般不滿意結論,有一半的家庭對住房評結論,有一半的家庭對住房評價在不滿意到一般之間。價在不滿意到一般之間。表 甲城市家庭對住房狀況評價的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)累計頻數(shù)累計頻數(shù) 非常不滿意 不滿意 一般 滿意 非常滿意2410894443024132226270300合計300【例【例3 3】求下表的四分位差】求下表的四分位差41
20、n4) 13 n(第50頁/共67頁51例4:調(diào)查甲乙兩村的家庭人數(shù) 其中甲村有11戶人家,每戶人數(shù)為 2,2,3,4,6,9,10,10,11,13,15 乙村有8戶人家,每戶人口數(shù)為 2,3,4,7,9,10,12,12則甲村中:Q1 位置=(n+1)/4=(11+1)/4=3, Q1 =3 Q3位置=3(n+1)/4=9, Q3=11 Q=Q3-Q1=11-3=8則乙村中: Q1 位置=(n+1), Q1 Q3位置=3(, Q3 Q=Q3-Q1 甲的離散程度低于乙村,以中位置估計甲乙兩村的人口數(shù)時,在甲村犯的錯誤小于乙村第51頁/共67頁522、根據(jù)分組資料求四分位差有四步: 計算向上累
21、加次數(shù) 求出Q1 和Q3的位置 Q1= Q3= 參考累加次數(shù)分布,決定Q1和Q3屬于哪一組 從所屬組中,計算Q1位置和Q3位置的數(shù)值。4n34n第52頁/共67頁53公式如下:L1=Q1屬組之屬組之真實真實下限下限L3=Q3屬組之屬組之真實真實下限下限f1=Q1屬組之次數(shù)屬組之次數(shù)f3=Q3屬組之次數(shù)屬組之次數(shù)cf1=低于低于Q1屬組之累屬組之累計次數(shù)計次數(shù)cf3=低于低于Q3屬組之累屬組之累計次數(shù)計次數(shù)w1=Q1屬組之組距屬組之組距w3=Q3屬組之組距屬組之組距n=全部個案數(shù)目全部個案數(shù)目3333334ncfQLwf111114ncfQLwf第53頁/共67頁54四分位差&中位數(shù) 四
22、分位差反映的是中位數(shù)的代表性 差距越大,中位數(shù)的代表性越小,用中位數(shù)估計變量時所犯的錯誤越大;反之,中位數(shù)的代表性越大,用中位數(shù)作估計犯的錯誤越小。第54頁/共67頁55三、方差和標準差1.離散程度的測度值之一2.最常用的測度值3.反映了數(shù)據(jù)的分布4.反映了各變量值與均值的平均差異5.根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差第55頁/共67頁56三、方差與標準差 所謂方差(Variance) ,觀察值與其均值之差的平方和除以全部觀察總數(shù)N。 方差的平方根就是標準差(Standard deviation),用 或S221()NiiXXN21()NiiXX
23、N第56頁/共67頁57 表示以均值作代表值時引起的偏差或錯誤,也就是說用均值來估計或預測各個個案的數(shù)值,所犯的錯誤( )平均是 標準差是用得最多,也是最重要的離散量數(shù)的統(tǒng)計量; 方差是統(tǒng)計學上的一個重要概念,在以后的統(tǒng)計方法學習過程中會進一步了解; 只適用于定距層次的變量;XX第57頁/共67頁58總體方差和標準差未分組數(shù)據(jù):221()Kmif XXNNXXNii122)(NXXNii12)(21()Kmif X XN第58頁/共67頁59樣本方差和標準差2211()1kminf xxSn1)(1221nxxSniin1)(121nxxSniin211()1kminf xxSn未分組數(shù)據(jù)第59頁/共67頁60樣本方差的自由度(degree of freedom)(degree of freedom)一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)當樣本數(shù)據(jù)的個數(shù)為 n 時,若樣本均值 x 確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值例如,樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022年哈姆雷特讀書總結范本
- 《人防巡查維護方案》
- 中國裝配式基建行業(yè)市場運營態(tài)勢及投資前景研判報告
- 李小華競聘復習測試卷
- (2024)清明祭英烈活動方案
- 《保肝藥物分類》課件
- 工程水暖安裝合同模板
- 《王老吉品牌定位》課件
- 如何做好課件-powerpoint動畫制作
- 工廠紙箱采購合同范例
- 年生產(chǎn)10000噸鵪鶉養(yǎng)殖基地項目可行性研究報告寫作模板-備案審批
- 2024年全國職業(yè)院校技能大賽中職組(養(yǎng)老照護賽項)考試題庫-下(判斷題)
- 書法(校本)教學設計 2024-2025學年統(tǒng)編版語文九年級上冊
- 阿米巴經(jīng)營知識競賽考試題庫(濃縮300題)
- 《積極心理學(第3版)》 課件 第10章 感恩
- 中華優(yōu)+秀傳統(tǒng)文化智慧樹知到答案2024年浙江金融職業(yè)學院
- 走進紅色新聞歷史現(xiàn)場智慧樹知到答案2024年延安大學
- 08D800-8民用建筑電氣設計與施工防雷與接地
- 食品配送服務 投標方案(技術方案)
- 科學的體育鍛煉課件(圖文)
- 六年級上冊英語教案-Unit 8 We shouldn't waste water Period 2 湘少版(三起)
評論
0/150
提交評論