版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、PAGE PAGE 98第一章 統(tǒng)計和度量的基本概念統(tǒng)計 (Statistics) 指組織,總結和解釋信息的一整套方法和規(guī)則。總體(population)- 特定研究所關注的所有個體的集合。樣本 (sample)- 從總體中選擇出的個體的集合,應該能代表研究的總體。參數(shù)(parameter)- 描述總體的數(shù)值。參數(shù)可以從一次測量中獲得,或者從總體的一系列測量中推論得到統(tǒng)計量 (statistic)描述樣本的數(shù)值。統(tǒng)計量可以從一次測量中獲得,或者從樣本的一系列測量中推論得到。數(shù)據(jù)(Data) 測量或觀察所得。描述統(tǒng)計(Descriptive statistics) 總結,組織,和使數(shù)據(jù)簡單化統(tǒng)計
2、程序。推論統(tǒng)計(Inferential statistics) 使我們能夠通過對樣本的研究將其結果推廣于總體。取樣誤差(Sampling error)樣本統(tǒng)計量與相應的總體參數(shù)之間的差距。隨機取樣 (random sampling) 從總體抽取樣本的一種策略,要求總體中的每一個體被抽到的機會均等。用隨機取樣法得到的樣本叫做隨機樣本.變量(variable) 是一種特征或條件,其本身是變化的或?qū)Σ煌膫€體有不同的值。常數(shù)(constant)是一種特征或條件,其本身是不變的且對不同的個體的值也相同。自變量(independent variable) 被研究者操縱的變量. 在行為科學研究中,自變量常
3、常包括兩個(或更多)的處理條件。因變量(dependent variable) 被觀測的變量,其變化被用來評價處理的效果。相關法(correlational method)看兩個變量是否有某種特定關系。實驗法(experimental method) 操縱一個變量,觀測另外一個變量的變化。用以建立兩個變量間的因果關系。實驗法用隨機分組和控制其他變量恒定的方法,試圖消除其他因素的影響或使之減為最小。準實驗法(quasi-experimental method) 考察已有的各組被試間的差別(如性別差異)或在不同時間所采集數(shù)據(jù)的差異(如, 處理前和處理后). 這里的分組變量稱準自變量, 每個被試的分
4、數(shù)稱因變量??刂平M(control group) 是自變量的一種處理方法,此組被試不接受任何實驗處理. 有時控制組被試接受一種中性處理或安慰劑。其目的是提供一個與實驗組對照的基線水平。實驗組(experimental group)此組被試接受某種實驗處理。混淆變量(confounding variable) 未能控制的變量,與自變量有非預期的系統(tǒng)性關系。假設(hypothesis) 對實驗結果的預測。 在實驗研究中, 假設就是對操縱自變量會如何影響因變量的預測。構念(Constructs) 指假設的概念,用于理論中,按其內(nèi)部機制來組織觀察。操作定義(operational definition
5、) 用具體的操作或程序以及由此產(chǎn)生的測量指標來定義構念。因此, 一個操作定義包含兩個成分:1)它描述了度量一個構念的一系列操作或程序;2)它用度量的結果來定義構念。命名量表(nominal scale) 由一系列具不同名稱的范疇所組成。命名量表的度量將觀察所得標定并分類, 但不會對觀察所得作任何數(shù)量化的區(qū)分(無大小之分) 。順序量表(ordinal scale)由一系列按順序排列的范疇所組成。順序量表的度量將觀察所得按其大小或數(shù)量排定秩次(rank)。等距量表 (interval scale)由一系列按順序排列的范疇所組成,且每兩個鄰近范疇之間的距離都是相等的。在等距量表中,加減運算反映數(shù)目的
6、大小差距. 但是,乘除運算沒有任何意義。比例量表 (ratio scale) 是具有絕對零點的等距量表. 在比例量表中,乘除運算反映數(shù)量間的比例關系。離散型變量(discrete variable) 由分離的,不可分割的范疇組成。在鄰近范疇之間沒有值存在。連續(xù)型變量(continuous variable) 在任何兩個觀測值之間都存在無限多個可能值。連續(xù)型變量可以分割成無限多個組成部分。統(tǒng)計中常用的符號求和符號 summation N = 群體大小 (參數(shù))n = 樣本容量(統(tǒng)計量)第二章 次數(shù)分布次數(shù)分布綜述次數(shù)分布表次數(shù)分布圖次數(shù)分布的形狀莖和葉圖百分位數(shù),百分位等級,插值法次數(shù)分布綜述描
7、述統(tǒng)計的目的:簡化和整理數(shù)據(jù)的表達。次數(shù)分布表和次數(shù)分布圖就是表達一組數(shù)據(jù)是如何在某一度量上分布的。次數(shù)分布:是指一批數(shù)據(jù)在某一量度的每一個類目所出現(xiàn)的次數(shù)情況組織此類數(shù)據(jù)的第一種方法是:建立次數(shù)分布表次數(shù)分布表次數(shù)分布表的要素變量的值? -填充x列每個值出現(xiàn)多少次(發(fā)生次數(shù))? -填充f列觀察的總數(shù)?將次數(shù)行求和, 將得到 f = N變量的總值?最簡單的方法就是求(X) 和 (f) 的乘積列, 然后將結果求和 (Xf )例1:對于下面的次數(shù)分布表:此分布中共有幾個分數(shù) (N = ?)對這些分數(shù)求和 Xxf42342513例2: 某個班的26個學生在一次測驗中的分數(shù)如下(10分為滿分):9,2
8、,3,8,10,9,9,2,1,2,9,8,2,5,2,9,9,3,2,5,7,2,10,1,2,9將這些分數(shù)作成一個次數(shù)分布表xf比例 (相對次數(shù);Proportions). 全組中有多大比例取值為X? p = f / N (N = 觀察的總數(shù)).百分比 (Percentages). 全組中有多大比例取值為X? p * 100分組次數(shù)分布表常常以區(qū)間的形式出現(xiàn), 而不是某一特定值. 例如學生成績, (A = 90-100, B = 80-89, .).編制分組次數(shù)分布表的步驟求全距定組數(shù)定組距寫出區(qū)間上下限統(tǒng)計每個區(qū)間的次數(shù)建構這些區(qū)間有一系列的“慣常法則”(rules of thumbs)
9、分組次數(shù)分布表應該有大約10個區(qū)間,目的是使這組數(shù)據(jù)易于直觀感受和理解組距應該是個比較簡單的數(shù)字,如2,5,10,20每個區(qū)間開始的分數(shù)應該是組距的倍數(shù)所有區(qū)間的寬度應該相等次數(shù)分布圖次數(shù)分布的數(shù)據(jù)可以用圖簡明地概括直方圖 (histogram):用一些垂直條畫在每個分數(shù)之上垂直條的高度代表次數(shù)垂直條的寬度代表分數(shù)的精確區(qū)間.只有數(shù)據(jù)是等距或等比量度時,才能用直方圖注意:對于一個連續(xù)變量, 每個分數(shù)實際對應一段組距. 分割這些組距的界限叫做精確界限(real limits). 分割兩個鄰近分數(shù)的精確界限位于兩個分數(shù)的中間。每個分數(shù)有兩個精確界限, 一個在組距的頂端,稱為精確上限(upper r
10、eal limit), 另一個在組距的底端,稱為精確下限(lower real limit).注意一個組距的精確上限也是高一個組距的精確下限。例3:繪制一個直方圖來表達例2的分布水平軸 - X 軸 (abscissa) - X 的值垂直軸 - Y 軸 (ordinate) - 次數(shù)棒圖(條形圖;bar graph): 用一些垂直條畫在每個分數(shù)(或類別)之上垂直條的寬度代表分數(shù)的精確區(qū)間.垂直條的高度代表次數(shù)每個垂直條之間有一段空間。只有數(shù)據(jù)是命名或順序量度時,才能用棒圖- 作全班同學家鄉(xiāng)地區(qū)的棒圖次數(shù)分布的形狀用3個特征可以完整地描述一個分布: 形狀(shape), 集中趨勢(central
11、tendency), 和變異性(variability).對稱分布(symmetrical distribution): 可以畫一條垂直線穿過分布的中央,使得分布的一邊恰是另一邊的鏡象。偏態(tài)分布(skewed distribution)中, 分數(shù)堆積在分布的一端,而另一端成為比較尖細的尾端(tail)。偏態(tài)分布尾端向右的稱為正偏態(tài)(positively skewed )(因為其尾端指向正數(shù))偏態(tài)分布尾端向左的稱為負偏態(tài)(negatively skewed).如何描述例2-例3分布的形狀?從整體上說,這個班的學生測驗情況怎么樣?大部分分數(shù)是偏高還是偏低?測驗容易還是簡單?雙峰分布莖和葉圖莖和葉圖
12、 (stem and leaf display)- 將每一數(shù)字分解為左邊部分(稱為莖)和右邊部分(稱為葉). 如果數(shù)字是兩位數(shù), 左邊的一位就是莖,右邊的一位就是葉.例4:考察下列莖和葉圖:8765432271458630241693265以10為組距寬度,作相應的分組次數(shù)分布表以10為組距寬度,作相應的次數(shù)分布直方圖如果給定分組次數(shù)分布表,能否作出莖和葉圖?為什么?百分位數(shù)以上是描述觀察的整體,而我們也可用次數(shù)分布來描述某一個別點在一個集合中的位置一個分數(shù)的等級(rank) 或百分位數(shù)等級(percentile rank): 某一分布中分數(shù)在某一值之下或等于該值的個體所占的百分比.例4:此表
13、是一次詞匯測驗的分數(shù):_Xf p%cfc%52.05540100410.25253895316.4040287028.2020123014.1010410cf = 累積次數(shù)(cumulative frequency)c% = 累積百分比(cumulative percentage)95百分位數(shù)等級的所對應的測驗分數(shù)是多少?如果你在測驗中得到4分, 你的百分位數(shù)等級是多少?如何確定百分位數(shù)注意: 對于連續(xù)型數(shù)據(jù), 必須考慮其精確上限和精確下限-對于分數(shù)4, 其對應的累積百分比是 95%.但注意:分數(shù)4意味著一個人得分在3.5 和 4.5之間. 累積百分比表明組距的精確上限。因此,95 的百分位數(shù)
14、是與4.5 相對應(而不是 4.0).找出分布中4分的精確上限和精確下限的累積次數(shù).- 對于分數(shù)4.5, 其對應的累積百分比是95對于分數(shù)3.5, 其對應的累積百分比是70對于分數(shù)4.0, 其對應的累積百分比是多少呢?插值法(Interpolation) - 有時你所感興趣的值并未出現(xiàn)在表內(nèi)。此時你需要做基于經(jīng)驗的猜測. 其中的一個方法是插值法。早上8:00 溫度是20度,到中午12:00溫度是28度上午9:00是多少度呢?步驟:找出兩個量數(shù)組距的寬度如, 時間 8 到 12點;溫度60 到68 度4 小時; 8 度找出組距中已知值的位置=已知值與組距頂端的距離/ 組距寬度= 12:00 -
15、9:00 = 3小時 / 4 小時 = .753) 用所得位置 (分數(shù)) 來確定另一量表中對應的所求值與組距頂端的距離= (分數(shù)) X (另一量表組距寬度)= .75 X 8 度 = 6 度再求得插入值- 28 - 6 = 22 度 (9:00的溫度)例4:_Xf p%cfc%52.05540100410.25253895316.4040287028.2020123014.1010410- 對于分數(shù)4.5, 其對應的累積百分比是95對于分數(shù)3.5, 其對應的累積百分比是70對于分數(shù)4.0, 其對應的累積百分比是X?第三章 集中趨勢(Central Tendency)內(nèi)容均值 (mean)中數(shù)
16、(median)眾數(shù) (mode)選擇適當?shù)募辛繑?shù)集中趨勢與分布形狀學習目標學會計算均值,中數(shù)和眾數(shù)對于給定的分數(shù)分布,確定如何選用適宜的集中量數(shù)集中趨勢目的:選擇一個最能代表整個分布的數(shù)值三種集中趨勢量數(shù)1均值 (Mean)算術平均數(shù)(arithmetic average)總體的均值公式: = X/ N樣本的均值公式: x = X /n如何計算分布的均值:公式: = X / N =均值具有下列特征:1) 如果改變一個給定的分數(shù),增加一個被試, 或減少一個被試, 均值應當有變化.2) 如果對每一個分數(shù)都加上 (或減去) 一個常數(shù), 均值也會加上 (或減去) 這個常數(shù)。3) 如果對每一個分數(shù)都
17、乘以 (或除以) 一個常數(shù), 均值也會加上 (或減去) 這個常數(shù)。2中數(shù)(median)中數(shù)(median) 是將分數(shù)分布均分為兩部分的那個分數(shù). 分布有50% 的個體等于或小于中數(shù). 中數(shù)等價于百分位數(shù)(percentile)是50.如何計算中數(shù)?1)如果分數(shù)的個數(shù)是奇數(shù)個,將其按從小到大的順序排列. 找出中間的分數(shù)2)如果分數(shù)的個數(shù)是偶數(shù)個,將其按從小到大的順序排列.然后找出中間的兩個分數(shù)。將其相加后再除以23)當分布的中間分數(shù)有相等的分數(shù)時,用中間分數(shù)的精確上下限作插值法例:計算下列連續(xù)型變量的中數(shù)8, 10, 12, 15, 18, 19, 608, 10, 12, 15, 16, 1
18、8, 19, 608, 10, 12, 15, 15, 15, 18, 18, 19, 60_X f%c%60110100191108018220701533060?50121103010110208110103. 眾數(shù) (mode)在次數(shù)分布中, 眾數(shù)是具有最多次數(shù)的那個分數(shù)或類目。眾數(shù)是 5注意:一個次數(shù)分布可能有多個眾數(shù).眾數(shù)是2 和 8如何選擇適當?shù)募辛繑?shù)?均值:是首選, 它考慮了分布中的每一個分數(shù), 與分布的變異性也有關系。 但在下列情況它未必適合:眾數(shù):對于命名型量表無法計算均值和中數(shù), 只能用眾數(shù)作集中量數(shù)。中數(shù):在下列情況中數(shù)最為適合:在分布中有少數(shù)極端值 (有長尾的偏態(tài)分布
19、)有未確定的值所考察分布是 open-ended - (如. 問卷中有個選項 5個或更多)4) 如果數(shù)據(jù)是順序量表.分布形狀與集中趨勢量數(shù)的關系對稱分布?正偏態(tài)分布?負偏態(tài)分布?對稱的雙峰分布?第四章 差異量數(shù)(Variability)分布的第三個特征 變異性(Variability).變異數(shù)是對于分布的延伸和聚類狀態(tài)程度的定量化描述變異數(shù)越高,表明分數(shù)間的差別大, 變異數(shù)越高,表明分數(shù)間越近似.三種變異數(shù): 全距 (range), 標準差 (standard deviation), 和四分位距(interquartile range).全距 (range)-全距是分布分數(shù)最大值(maximu
20、m) X的精確上限與分布分數(shù)最小值(minimum) X 的精確下限的差值。注意:如果分數(shù)是連續(xù)型,必須用精確上下限。_Xfcfc%10225100982392841560761144645205114若 X是離散型:range =?若 X是連續(xù)型:range =?用全距描述分數(shù)變異性的局限:- 該統(tǒng)計量只依據(jù)分布中的兩個極端值,未利用到分布的大部分信息.四分位距(interquartile range)度量變異數(shù)的另一種方法.- 50%,25%和75%的百分位數(shù)代表什么?- 用50%,25%和75%的百分位數(shù)分布被分成4部分_X f%c%7412.5 1006412.5 87.55412.5
21、75825 62.53412.5 37.52412.5251412.5 12.5四分位距就是75%百分位數(shù)與25%百分位數(shù)間的距離. 它代表分布中間50%的距離.如果上例是連續(xù)型變量,median = Q2 = 4.0 - 用插入法 25%tile = Q1 = 2.5 - 區(qū)間2 的精確上限75%tile = Q3 = 5.5 - 區(qū)間5 的精確上限四分位距 (IQR) = 5.5 - 2.5 = 3.0semi-interquartile range:四分位距的一半(interquartile range).SIQR = (Q3 - Q1)2第四講 標準差和 Z分數(shù)學習重點方差/標準差的邏
22、輯步驟和方的定義公式和計算公式總體和樣本的方差總體和樣本的標準差自由度計算Z分數(shù)根據(jù) Z分數(shù)推知原始分數(shù)標準分布及其應用標準差 (standard deviation)量度了分布中的每一個個體與某一標準偏移的距離,這個標準就是均值。最重要,最常用的差異量數(shù).考慮了分布中的所有信息方差/標準差的邏輯步驟1.離差X - = 離差分數(shù)(deviation score)例: 全班男同學的體重 (公斤)69, 67, 72, 74, 63, 67, 64, 61, 69, 65, 70, 60, 75, 73, 63, 63, 69, 65, 64, 69, 65mean = = 67 (X - ) =
23、 (69 - 67) + (67 - 67) + + 65 - 67) = ?= 2+ 0 +5 +7+ -4 +0+ -3 +-6 +2 + -2 +3 + -7 + 8 +6 + -4 + -4 +2 + -2 + -3 +2 + -2 = 0注意:如果分數(shù)的值大于均值,離差是正數(shù)如果分數(shù)的值小于均值,離差是負數(shù)離差的和必定為0。因此,要去掉符號. 將離差平方,再取其和的平方根。2 . 和方和方的操作定義:SS = (X - )2xX -(X -)269246700SS = 362和方的計算公式為:SS = X2 - (X)2N此二者為等價。計算公式的優(yōu)點為 可直接利用 X 值。上例中:X
24、X21643876 X= X2 =SS = X2 - (X)2N注意:以下方差/標準差部分,總體和樣本有區(qū)別3總體方差和標準差總體方差(Population Variance): 和方的平均, 即和方除以總體的容量.總體方差= 2 = SS/N總體標準差:將總體方差求平方根。standard deviation = sqroot(variance) = sqroot(SS/N) = sqroot()上例中:2 = ? = ?求總體標準差步驟:step 1: 計算和方 SS- 可用定義公式或計算公式step 2: 確定方差- 計算均方- 將 SS 除以 Nstep 3: 確定標準差取方差的平方根
25、樣本的方差和標準差注意與總體標準差的不同:s =樣本的標準差(sample SD)用 (不是 ) 來計算SS需要考慮樣本常常比其所屬的總體較少變異性,標準差的計算需做校正.- 如果樣本有代表性, 那么樣本與總體的就會非常近似, 兩個分布的形狀也應該近似。但是, 樣本的變異程度仍然低于總體的變異程度.- 因此,樣本方差的分母是n - 1 而不是 nsample variance = s2 = _SS _n - 1- 對于樣本標準差也是同樣sample standard deviation = s = sqroot(SS/(n - 1)用n-1 作分母,意思是利用自由度來校正樣本離差,以利于對總體
26、參數(shù)的無1偏差估計。自由度n - 1意思是除了一個值,其余都可變化。如: sample mean =5,如果前4 個分數(shù)是: 5, 4, 6, 2 最后一個是什么?5 + 4 + 6 + 2 + X = 25X = 8X必須固定在8。例1:求標準差: 1, 2, 3, 4, 4, 5, 6, 7第一步: 計算和方列表:第二步: 確定樣本方差sample variance = s2 = _SS_n - 1= 28/(8-1) = 28/7 = 4.0第三步: 確定樣本的標準差standard deviation= sqroot(SS/(n - 1)= sqroot(28/(8 - 1)= sqr
27、oot 4.0 = 2.0粗略估計均值和標準差 = ? = ?標準差的性質(zhì)1) 對分布中的每一個分數(shù)加上一個常數(shù)不會改變其標準差.2) 對分布中的每一個分數(shù)乘上一個常數(shù),所得分布的標準差是原分布的標準差乘上這個常數(shù).比較三種離中量數(shù)極端分數(shù): 全距(range) 受影響最大, IQR 受影響最小樣本大小: 全距(range) 可能隨n 的增加而增加 , IQR & s 不會樣本選取:從同一總體中多次取不同樣本,全距(range) 沒有穩(wěn)定的值, 但 IQR 和 S 是穩(wěn)定的,不應波動很大。- 對于有不確定值的分布, 全距 或 S 都無法求得, IQR (或SIQR) 是唯一的選擇。Z 分數(shù)(Z
28、-Scores): 分數(shù)的位置和標準分布Z 分數(shù)的目標:對分布中的每一個原始分數(shù),描述其在分布中的位置。參照點:均值用離差(x - ) 或 (x - )描述分數(shù)的位置當只涉及一個分布時, 用離差是簡便易行的. 但當我們需要比較兩個不同分布中的分數(shù)的相對位置, 用離差就不夠了.用Z 分數(shù)描述分數(shù)的位置例: 你參加了ACT和SAT 兩種測驗. ACT:26 SAT:620。 申請學校只需任選寄送其中一種,你會送哪一種?直接的比較不可能,因為兩個分數(shù)分布的均值和標準差不同.看分布圖,將兩個分數(shù)定位再試圖比較還是很困難計算百分位數(shù)等級(percentile ranks)計算標準差要比較兩個分布,一個方
29、法就是將兩個分布都轉換成標準分布。標準分布(standardized distribution)由轉換分數(shù)組成, 和 已經(jīng)確定,而無論其原始分數(shù)如何. 其作用是使不同的分布有可比性。可將其轉換為Z分數(shù). 這里需要做的是將每個分數(shù)轉換為z-score, 從而將整個分布標準化.標準分數(shù)(standard score) is 是一種轉換分數(shù)提供其分布位置的信息. Z 分數(shù)是標準分數(shù)的一種。z-score 指出了每個X 值在分布中的精確位置。z-score 的符號(+ 或 -) 表明其比均值大或小. z-score 的數(shù)值部分用X 與 .間標準差個數(shù)的形式指出了其與均值的距離。對于Z分數(shù)分布, mea
30、n = 0,standard deviation =1.Z分數(shù)為 1, 表示數(shù)據(jù)點恰位于均值的一個標準差之上。Z分數(shù)為 -1, 表示數(shù)據(jù)點恰位于均值的一個標準差之下。如何轉換?populationsampleZ = deviation=standard deviation=如果總體/樣本的均值和標準差已知,分布中的所有原始分數(shù)都可轉換為 Z分數(shù)。如果分布中的總體/樣本的均值和標準差已知,Z分數(shù)也可轉換回原始分數(shù)。Z = (X - ) - (Z)( ) = (X - ) - X = (Z)( ) + 如果某人說他的SAT 分數(shù)高于均值 2 SD。他得了多少分?Z分數(shù)分布的屬性形狀 - Z分數(shù)分布
31、的形狀與原始分數(shù)分布完全相同。每個分數(shù)所在的相對位置亦完全相同。均值- 當原始分數(shù)轉換成Z分數(shù), mean = 0.標準差 -當原始分數(shù)轉換成Z分數(shù), standard deviation = 1.轉換程序?qū)嶋H上是對分布軸的一種重新標定。- 將X 軸中心重新標定為0,再將每個SD 間隔標定為1.例: 美國男人的身高和體重personheight weight166203 2711743742234691755701446742197731848692379692041075237sum7102000height2 weight24356 412095041 302765476497294761
32、3062549002073654764796153293385647615616947614161656255616950,486 408,346height = 710 / 10 = 71.0SS = 50486 - (710)2 / 10 = 76.0 = 2.8weight = 2000 / 10 = 200.0SS = 408346 - (2000)2 / 10 = 8346.0 = 28.9Z = (X - ) Z1 = (66 - 71)/2.8 = -1.8 Z2 = (71 - 71)/2.8 = 0 Z3 = (74 - 71)/2.8 = 1.1 Z4 = (69 - 71
33、)/2.8 = -0.7 Z5 = (70 - 71)/2.8 = -0.4 Z6 = (74 - 71)/2.8 = 1.1 Z7 = (73 - 71)/2.8 = 0.7 Z8 = (69 - 71)/2.8 = -0.7 Z9 = (69 - 71)/2.8 = -0.7 Z10 = (75 - 71)/2.8 = 1.4Z = (X - ) Z1 = (203 - 200)/28.9 = 0.1 Z2 = (174 - 200)/28.9 = -0.9 Z3 = (223 - 200)/28.9 = 0.8 Z4 = (175 - 200)/28.9 = -0.9 Z5 = (144
34、 - 200)/28.9 = -1.9 Z6 = (219 - 200)/28.9 = 0.7 Z7 = (184 - 200)/28.9 = -0.6 Z8 = (237 - 200)/28.9 = 1.3 Z9 = (204 - 200)/28.9 = 0.1 Z10 = (237 - 200)/28.9 = 1.3the sums of the z-scores = 0 ; mean of the z-scores = 0the standard deviations = 1這樣我們可以比較每個人身高和體重各自的相對位置Person #4: Person # 8:第六講: 概率(Prob
35、ability)概率簡介概率與正態(tài)分布百分位點和百分位等級概率與二項分布概率(Probability)推論統(tǒng)計所必需的概念, 根據(jù)樣本的信息對總體作出判斷。在可能有幾種后果發(fā)生的情況下,概率被定義為某一種后果發(fā)生的可能性大小. 如果幾種后果分別是A, B, C, D, 等等,那么:概率 of A = A后果的次數(shù) = f / N所有可能后果次數(shù)的總和為獲得正確定義的概率, 個體的選取 (取樣) 一定要通過隨機取樣隨機取樣應滿足以下兩個條件:總體中的每個個體有同樣的機會被選擇如果樣本中要選擇多于一個的個體,每次選擇的概率應當恒定回置取樣(Sampling with replacement) -
36、一種取樣方法, 在選擇下一個個體(下次取樣之前),將每個已選擇個體放回總體之中次數(shù)分布與概率的關系_Xf_p_52 .05410.25316.4028.2014.10此表中比率欄與概率相同. 此比率對應這些間隔中曲線下方的面積。選擇到3的概率是多少?p (3) = f / N = 16 / 40 = .40選擇到5的概率是多少?p(5) = f / N = 2 / 40 = .05選擇到大于2的值的概率是多少?p(X 2) = ?.05 + .25 + .40 = .70選擇到小于5的值的概率是多少?p(X X 1) = ?.20 + .40 = .60概率與正態(tài)分布(Normal Distr
37、ibution)正態(tài)分布是最常見的分布, 單峰和具對稱性. 它可定義為下列方程:Y = 正態(tài)分布的注意點并非所有的單峰,對稱曲線都是正態(tài)分布,但很多是在本課程中, 無須擔心所研究分布與正態(tài)分布有多接近, 在本課程所遇到的問題中,多數(shù)情況下,分布是正態(tài)上述的平滑的曲線 是指密度曲線 (而并非次數(shù)曲線)曲線下方的面積總和必定為1. 因為 曲線下方的面積相當于概率 (或比率)總概率 應當?shù)扔?1.正態(tài)分布常常轉換為 z分數(shù).對于一個正態(tài)分布:34.13% 的分數(shù)會落入均值與一個標準差之間.13.59% 的分數(shù)會落入第一個標準差與第二個標準差之間。2.28% 的分數(shù)會落入第二個標準差與第三個標準差之間
38、。一個重要的工具是正態(tài)分布表. 在大部分教科書的附錄中 (pg. 414). 利用此表可查到曲線下方的面積(亦即抽樣的概率) 與曲線縱高 (以 z-分數(shù)位為單位).正態(tài)分布表的應用:(A)z0.000.01 : 0.300.31: 1.00:(B) 主體的比例0.50000.5040 : 0.61790.6217: 0.8413:(C) 尾端的比例0.50000.4960 : 0.38210.3783: 0.1587:注意 z = 1.0 = .5000 + .3413 = median + 34.13%正態(tài)分布表可以將z-分數(shù)轉換成概率和從概率查到相應的 z-分數(shù).建議: 畫出分布圖,目測距
39、離 .1)用正態(tài)分布表由z分數(shù)查概率的步驟:step 1: 畫出分布圖, 標出均值和標準差step 2: 標出所要查的分數(shù)點, 查核其與均值的相對位置以及到均值的粗略距離step 3: 重讀一次題目看清你所需要的分數(shù)區(qū)間概率. 將圖中的相應面積涂為陰影. step 4: 將 X 分數(shù) 轉換為 Z-分數(shù)step 5: 在正態(tài)分布表中使用正確的欄目 (以及符號) 找出概率例1:IQ為 130或以上的 概率是多少?p(X 130)?IQ: = 100, =15z = (130 - 100)/15 = 2.0-查表- p = 0.0228IQ為 70或以下的 概率是多少?p(X z = 1.65故 X
40、 = (1.65)(15) + 100 = 124.753)找出X落在兩個分數(shù)之間概率step 1: 繪出曲線將所需的區(qū)域涂上陰影step 2: 將兩個分數(shù)轉換成 Z-分數(shù)step 3: 查表求這兩個 z-分數(shù)的概率step 4: 將兩個概率相加或相減例3:在SAT 中得到300 到650 的概率是多少?SAT: = 500, =100p(z (650 - 500) = p(z 1.5) = 0.9332100p(z (300 - 500) = p(z -2.0) = 0.0228100p(300 z (650- 500) = p(z 1.5) = 0.0668100p(z (300 - 50
41、0) = p(z -2.0) = 0.0228100p(300 z 7)的樣本的概率是多少?考察樣本均值的分布, 我們發(fā)現(xiàn) 16 個當中有1個 a其均值大于 7.實際情況比上例復雜的多。我們必須借助樣本均值的一些特性.形狀:樣本均值的分布形狀一定是正態(tài)分布.當 n 較大時(30 以上),樣本均值的分布幾乎是完全的正態(tài)分布. 如果在同一總體中選擇一組樣本, 大部分均值應當堆積在總體均值 附近(如果不是這樣,取樣一定有偏差)均值:這些樣本均值的平均應該等于總體均值. 樣本均值的平均 叫做 的期望值. 期望值的意思因為這個值會在總體均值 的附近.在上例中, 的期望值(一組樣本均值的均值) 是:2 +
42、 3 + 4 + 5 + 3 + 4 + 5 + 6 + 4 + 5 + 6 + 7 + 5 + 6 + 7 + 8 = 80 = 5。016 16注意: 如果 n 足夠大, 那么分布是正態(tài), 也一定是對稱和單峰, 則mean = median = mode方差: 樣本均值分布的標準差 叫做 的標準誤 (standard error of ;SE) 的標準誤= = 與 的標準距離.這個統(tǒng)計量描述了與均值的標準(或稱典型,平均)距離. 在這里,它也是樣本 均值 和 總體均值 的差值.這個統(tǒng)計量的主要目的和用途是 告訴我們樣本均值對總體均值的估計是否準確. 換言之,取樣誤差是多大.標準誤的數(shù)值取決
43、于兩個特征: 總體方差和樣本容量1) 總體方差 - 總體方差越大, 樣本均值的方差越大.總體方差大與 總體均值的差異大 總體方差小與 總體均值的差異小2) 樣本容量 - 樣本容量(n) 越大,樣本越能準確地代表總體. 這個規(guī)律叫做大數(shù)定律(law of large numbers) .假定總體是1,000個學生. 欲知總體的SAT 分數(shù).- 如果隨機抽取1個學生,用這個學生的分數(shù)預測總體分數(shù)的準確性怎樣?-如果隨機抽取5個學生. 會不會更準確些?-如果隨機抽取100個學生呢?將這兩個特征合并起來,就是標準誤的定義公式. 的標準誤= = 中心極限定律 (Central Limit Theorem
44、)中包含所有這些特性 (形狀, 均值, 方差)中心極限定律(Central Limit Theorem): 對于任何均值為 ,標準差為的總體, 樣本容量為n的樣本均值的分布,隨著n 趨近無窮大時,會趨近均值為,標準差為 的正態(tài)分布因此,當 n 足夠大時(30或以上): N ( , )三樣本分布與概率例 1:一位老師對班上學生的IQ感興趣. 她班上有9位學生,她認為他們都很聰明. 這班學生IQ 的均值大于等于 112的概率是多少?IQ test: = 100, = 15首先我們需要知道樣本的分布 (注意: 即使n 小于 30,我們?nèi)匀患俣ㄕ龖B(tài)分布.) N (, ) = N(100, 5)我們需要
45、知道對應這個樣本均值的z分數(shù): Z = P( 112) = P(Z (112 - 100)/ 5 ) = P(Z 2.4) = 0.0082這個答案是否合理?- 最初看起來似乎不對- 應當大于 z = 1對應的概率, 因為 115 對應于z = 1- 但是, 必須注意這不是正確的分布, 我們需要考察樣本均值的分布-我們知道樣本均值分布的標準誤是5 和均值是 100.- 所以 112 應當位于 z 2 之外例 2: 如果班上有25位學生,如果讓其均值位于頂端 10%的IQ 分布,均值應該有多大?首先我們需要知道樣本的分布 (注意: 即使n 小于 30,我們?nèi)匀患俣ㄕ龖B(tài)分布.) N (, ) =
46、N (100, 3)然后我們需要找出對應于這個全距的均值:這個公式與我們從前遇到的很類似 := Z * + = (= Z)() +step 1: 查正態(tài)分布表:90% 概率對應的 Z 分數(shù)是1.28step 2: = 1.28 * + 100 = (1.28)(3)+100 = 103.84所以, 對于 25 個人的樣本, 他們的均值必須在103.84 以上才能位于分布頂端的10%假定上例中樣本較小, n = 16? 答案會不會改變?step 1: l查正態(tài)分布表:90% 概率對應的 Z 分數(shù)step 2: =1.28*(15/sqrt(16)+100=(1.28)(3.75)+100 =10
47、4.80所以, 對于 25 個人的樣本, 他們的均值必須在104.80以上才能位于分布頂端的10%對于不同的樣本容量:n=9,=1.28*(15/sqrt(9))+100 =(1.28)(5)+ 100=106.40n=4,=1.28 * + 100 = (1.28)(7.5) + 100 = 109.60n=1,=1.28 * + 100 = (1.28)(15) + 100 = 119.20注意: 如果 n = 1, 標準誤等于總體標準差所以, 樣本容量越小, 取樣誤差 (標準誤, ) 越大.四標準誤的解釋:取樣誤差: 任何一個樣本可能大于或小于估計值。標準誤: 大部分均值會與相當接近 ,
48、 但也有一些會非常不同. 樣本均值的方差代表和 之間的標準距離。它的定義是樣本容量和 代表的準確程度間的關系.C) 信度: 標準誤變小時,我們用作為的估計值的信心增加。-信度大略是指同一總體的不同樣本 (具同樣的樣本容量) 彼此間的近似程度. 如果大部分樣本 具有相似的統(tǒng)計量(e.g., 均值, 標準差), 那么其信度就高。如果大部分樣本具有不同的統(tǒng)計量, 其信度就低.- 從上面的例子中可以看出, 當 n 增大時,樣本 統(tǒng)計量能更好地對總體參數(shù)進行估計. 因此, 多次重復取樣, 且樣本容量相對較大,我們會得到相近的統(tǒng)計量(都在總體參數(shù)附近).D) 穩(wěn)定性: 標準誤越小, 添加或去掉一個分數(shù)或改
49、變某一 分數(shù)會改變 的估計值.- 我們已經(jīng)討論過添加或去掉一個分數(shù)或改變某一 分數(shù)對總體均值和標準差的影響,而對標準誤的影響又如何呢?總體 X N(50, 10) = 50; = 10比較這兩個樣本:樣本 1: 1 = 50, n = 4= = 10/2 = 5樣本 2: 2 = 50, n = 100= = 10/10 = 1假定我們在每個樣本中添加一個新的分數(shù) 20.樣本 1: 新的均值是:50 * 4 = 200 - (200 + 20)/5 = 44樣本2: 新的均值是:50 * 100 = 5000 - 5020/101 = 49.7所以樣本 2 比樣本 1 穩(wěn)定. 一般說,標準誤越
50、小,樣本越穩(wěn)定.二項分布(Binomial Distribution)二項分布:如果在某種特定的情境下,只有兩種可能的結果. 其結果就形成一個二項分布。例如, 投擲硬幣得到正面或反面, 對是否題的回答, 一個人的生或死等等。二項分布表示為: B(n,p), 其方程非常復雜。如果 n 足夠大,二項分布可以近似為正態(tài)分布。二項分布的概率兩個類目: A 和 Bp = p(A) = A 的概率q = p(B) = B 的概率p + q = ? n =樣本中所包含個體(或觀察)的數(shù)目 X =樣本中事件類目 A 發(fā)生的數(shù)目二項分布表達了與從X = 0 到 X = n 的每一個X值有關的概率。例:彩票:設每
51、張彩票能贏 100 萬元。每張彩票要花一元。100 萬次中有1次贏的機會, 則P(a) = 1/1,000,000 ,P(b) = 999,999/1,000,000.故贏的概率是.000001輸?shù)母怕适?.999999考慮買多少張彩票中彩的機會比較大 .n (買多少張彩票) 1101001,00010,000100,0001,000,000P (贏至少1次)0.0000010.000010.00010.00099500.009950170.095162630.63212074注意即使你花100 萬元買彩票,你能贏 100 萬元的機會也只有大約 63%.例 2擲硬幣. A = 正面; B =
52、反面sp = p(A) = 1/2q = p(B) = 1/2假設 n = 2 (即, 將硬幣擲 2 次), 有多少可能的結果 B(2, 0.5)? -4第 1次第 2次 正面次數(shù)正面正面2正面反面1反面正面1反面反面0兩次擲到正面的概率是多少?擲不到正面的概率是多少?只一次擲到正面的概率是多少?至少一次擲到正面的概率是多少?假設 n = 6.有多少可能的結果? 64 種 (公式是: 2n)t1t2t3t4t5t6#正面正面正面正面正面正面正面 6正面正面正面正面正面反面 5正面正面正面正面反面正面 5正面正面正面正面反面反面 4: : : : : : :反面反面反面反面反面反面 0什么條件下
53、,二項分布可以近似為正態(tài)分布?看n = 6 時的情況 (pn = .5*6 = 3).當 n 足夠大 (pn 10) 和(qn 10),二項分布可以近似位正態(tài)分布.Mean: = pnStandard deviation: = z = 利用正態(tài)分布表.注意:正態(tài)分布中X 的值是一段, 而并非一點, 所以當二項分布近似為正態(tài)分布時,需要考慮精確上下限。因為我們是在用連續(xù)型分布 (正態(tài)) 來估計離散型分布的值.例1: 有時學生入學后會中途退學. 如果每個人中途退出的概率是0.10, 在100人的班上,有多于15個學生概率的概率是多少?n = 100p = 0.10q = 0.90np = .10*
54、100 = 10 nq = 90 x = pn = 10 x = = sqroot (100*.10*.90) = sqroot (9) = 3p(X 15的精確下限)= P(X 14.5)= P(Z 14.5-10)3.0= P(z 1.5)= 0.0668例2 :假設你參加一個48道題的多項選擇題測驗, 只有4種可能的答案. 你全憑猜測作答. 猜對14 道題的概率是多少?p = P(正確) = 1/4q = P(錯誤) = 3/4pn = (1*48)/4 = 12qn = (3*48)/4 = 36注意這里 pn 和qn 都大于10,所以可以假定分布近似正態(tài). 注意這里分數(shù) 14 其實是
55、對應 從 13.5 到 14.5 之間這段距離.m = pn = 12 = sqroot (pqn) = sqr(48*.25*.75) = sqroot (9) = 3查表X - = 13.5 - 12.0 = 0.50 - 0.3085 3X - = 14.5 - 12.0 = 0.83 - 0.2033 3兩個 z分數(shù)間的面積是: 0.3085 - 0.2033 = 0.1052假設檢驗初步 (II)假設檢驗顯著性水平:顯著性水平規(guī)定了當虛無假設正確時,樣本結果非常不可能出現(xiàn)的概率值。當實驗產(chǎn)生非常不可能(以alpha為標準)的數(shù)據(jù)時, 我們就會拒絕虛無假設.所以, alpha 水平 也
56、規(guī)定了I 類錯誤的概率 - 即, 當H0事實上正確時,拒絕H0的概率。在心理學中, 通常定在0.05。看下列樣本均值分布圖. =發(fā)生 I 類錯誤概率一般性備擇假設H0: 無差異H1: 有差異雙尾考驗 = 0.05在每個尾端有0.0250.025 + 0.025 = 0.05具體的備擇假設H0: 無差異H1:有差異, 新的一組的均值更高單尾考驗 = 0.05這一尾端有0.05 。如何解釋這些圖?如果樣本均值落入陰影區(qū)域之內(nèi),那么我們就拒絕 H0.如果樣本均值落在陰影區(qū)域之外, 那么我們可能不會拒絕H0.這些陰影區(qū)域叫做臨界區(qū)域。臨界區(qū)域由極端的樣本值組成,如果虛無假設正確的話,不大可能得到。臨界
57、區(qū)域的大小是由alpha 水平?jīng)Q定的。 落入臨界區(qū)域之內(nèi)的樣本數(shù)據(jù)會使得虛無假設被拒絕。有方向性的假設檢驗單尾考驗總體 分布 總體 = 65 , = 10.假定 抽取樣本n = 25, 對其進行處理后得到= 69.處理有沒有效果? 會影響總體中的個體嗎?我們應該考察那一個分布?總體分布?樣本均值分布?樣本均值的樣本 應該考察樣本均值.在樣本中找到樣本均值.查該樣本得到大于等于這個均值的概率假定 = 0.05再假定我們的備擇假設是-處理應當提高操作成績 (使均值提高)現(xiàn)在我們需要求標準誤.= = 10/5 = 2這里的臨界區(qū)域是什么? 這是個單尾考驗.所以,查正態(tài)分布表, 得到對應 = 0.05
58、的區(qū)域z = 1.65 (保守的, 實際是 1.645)將其轉換為樣本 均值= Z + = (1.65)(2)+65 = 68.3因此,對于X = 69, 應當拒絕H0處理這一問題的另一個辦法是應用 z分數(shù).因為我們知道對應于臨界區(qū)域的z分數(shù)是 1.65, 這樣我們 只需要計算對應于這一樣本均值的 z分數(shù),來看它是否 is 大于或小于這一臨界z分數(shù).Z = = (69 - 65) / 2 = 2.0 因為 Z臨界, 那么,我們可以拒絕 H0在這個例子中, 我們假設處理會在某一特定方向上造成差異 (即,處理會使均值增加).但是,假設檢驗最提出的方式是作一個更一般的假設:處理應當改變均值, 或增加
59、或減少.雙尾考驗總體 樣本 總體 = 65, = 10. 假定抽取一個樣本 n = 25, 對其進行處理后得到 = 69.處理有沒有效果? 會影響總體中的個體嗎?應當考察哪個樣本? 還是總體?還是樣本均值?樣本 均值 的樣本應該考察 樣本均值.在樣本中找到樣本均值.查該樣本得到等于或大于這個均值的概率假定 = 0.05再假定我們的備擇假設是-處理應當改變操作成績,所以我們要作 雙尾考驗?,F(xiàn)在我們需要求標準誤.= = 10/5 = 2這里的臨界區(qū)域是什么? 這是個雙尾考驗.所以,查正態(tài)分布表, 得到對應 = 0.05的區(qū)域z = 1.96將其轉換為樣本 均值= Z + = (1.96)(2)+6
60、5 = 68.9因此,對于X = 69, 應當拒絕H0假設檢驗的前提1) 隨機樣本 - 樣本必須對總體有代表性。隨機取樣有助于確保取樣的代表性.2) 獨立觀察 也與樣本代表性有關, 每個觀察應該與所有其它觀察是獨立的。一個特定的觀察的概率應當保持恒定. 3) 已知且保持恒定 - 原總體的標準差必須保持恒定. 為什么? 一般的說,處理就是假定對總體中的每一個個體都加上(或減去) 一個常數(shù)。所以總體的均值可能因處理而導致變化。但是, 記住對每一個個體都加上(或減去)一個常數(shù) 并不改變其標準差. 4)取樣樣本是相對正態(tài)的 或者因為原始觀察的樣本是相對正態(tài)的, 或者因為中心極限定理(或二者都有).違反
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年北京市高考政治試卷(含答案逐題解析)
- 2024購買房產(chǎn)合同樣本
- 2024安置房買賣合同范本
- 2024年工程設備長期租賃協(xié)議書
- 2024教室租賃合同
- 2024年大型預拌混凝土購銷合同
- 2024年大型工程機械設備租賃與運輸合同
- 2024商店加盟連鎖商店加盟合同
- 2024年企業(yè)并購合同:并購細節(jié)與權益分配
- 2024年工程承包協(xié)議書
- 部編版三年級上冊語文 期中檢測卷(一)
- 腳手架工程危險源辨識及對策措施
- GB∕T 39402-2020 面向人機協(xié)作的工業(yè)機器人設計規(guī)范
- 圖靈機與現(xiàn)代計算機PPT教案
- 鋼筋策劃思路指引
- 皮膚科——粉刺痤瘡
- T∕ACSC 01-2022 輔助生殖醫(yī)學中心建設標準(高清最新版)
- 75t汽車吊起重性能表
- 中國圍棋競賽規(guī)則(2002)
- 光伏系統(tǒng)的安裝工程監(jiān)理實施細則
- 標準作業(yè)組合票--自動生成
評論
0/150
提交評論