




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、PAGE PAGE 98第一章 統(tǒng)計(jì)和度量的基本概念統(tǒng)計(jì) (Statistics) 指組織,總結(jié)和解釋信息的一整套方法和規(guī)則??傮w(population)- 特定研究所關(guān)注的所有個(gè)體的集合。樣本 (sample)- 從總體中選擇出的個(gè)體的集合,應(yīng)該能代表研究的總體。參數(shù)(parameter)- 描述總體的數(shù)值。參數(shù)可以從一次測(cè)量中獲得,或者從總體的一系列測(cè)量中推論得到統(tǒng)計(jì)量 (statistic)描述樣本的數(shù)值。統(tǒng)計(jì)量可以從一次測(cè)量中獲得,或者從樣本的一系列測(cè)量中推論得到。數(shù)據(jù)(Data) 測(cè)量或觀察所得。描述統(tǒng)計(jì)(Descriptive statistics) 總結(jié),組織,和使數(shù)據(jù)簡單化統(tǒng)計(jì)
2、程序。推論統(tǒng)計(jì)(Inferential statistics) 使我們能夠通過對(duì)樣本的研究將其結(jié)果推廣于總體。取樣誤差(Sampling error)樣本統(tǒng)計(jì)量與相應(yīng)的總體參數(shù)之間的差距。隨機(jī)取樣 (random sampling) 從總體抽取樣本的一種策略,要求總體中的每一個(gè)體被抽到的機(jī)會(huì)均等。用隨機(jī)取樣法得到的樣本叫做隨機(jī)樣本.變量(variable) 是一種特征或條件,其本身是變化的或?qū)Σ煌膫€(gè)體有不同的值。常數(shù)(constant)是一種特征或條件,其本身是不變的且對(duì)不同的個(gè)體的值也相同。自變量(independent variable) 被研究者操縱的變量. 在行為科學(xué)研究中,自變量常
3、常包括兩個(gè)(或更多)的處理?xiàng)l件。因變量(dependent variable) 被觀測(cè)的變量,其變化被用來評(píng)價(jià)處理的效果。相關(guān)法(correlational method)看兩個(gè)變量是否有某種特定關(guān)系。實(shí)驗(yàn)法(experimental method) 操縱一個(gè)變量,觀測(cè)另外一個(gè)變量的變化。用以建立兩個(gè)變量間的因果關(guān)系。實(shí)驗(yàn)法用隨機(jī)分組和控制其他變量恒定的方法,試圖消除其他因素的影響或使之減為最小。準(zhǔn)實(shí)驗(yàn)法(quasi-experimental method) 考察已有的各組被試間的差別(如性別差異)或在不同時(shí)間所采集數(shù)據(jù)的差異(如, 處理前和處理后). 這里的分組變量稱準(zhǔn)自變量, 每個(gè)被試的分
4、數(shù)稱因變量??刂平M(control group) 是自變量的一種處理方法,此組被試不接受任何實(shí)驗(yàn)處理. 有時(shí)控制組被試接受一種中性處理或安慰劑。其目的是提供一個(gè)與實(shí)驗(yàn)組對(duì)照的基線水平。實(shí)驗(yàn)組(experimental group)此組被試接受某種實(shí)驗(yàn)處理?;煜兞浚╟onfounding variable) 未能控制的變量,與自變量有非預(yù)期的系統(tǒng)性關(guān)系。假設(shè)(hypothesis) 對(duì)實(shí)驗(yàn)結(jié)果的預(yù)測(cè)。 在實(shí)驗(yàn)研究中, 假設(shè)就是對(duì)操縱自變量會(huì)如何影響因變量的預(yù)測(cè)。構(gòu)念(Constructs) 指假設(shè)的概念,用于理論中,按其內(nèi)部機(jī)制來組織觀察。操作定義(operational definition
5、) 用具體的操作或程序以及由此產(chǎn)生的測(cè)量指標(biāo)來定義構(gòu)念。因此, 一個(gè)操作定義包含兩個(gè)成分:1)它描述了度量一個(gè)構(gòu)念的一系列操作或程序;2)它用度量的結(jié)果來定義構(gòu)念。命名量表(nominal scale) 由一系列具不同名稱的范疇所組成。命名量表的度量將觀察所得標(biāo)定并分類, 但不會(huì)對(duì)觀察所得作任何數(shù)量化的區(qū)分(無大小之分) 。順序量表(ordinal scale)由一系列按順序排列的范疇所組成。順序量表的度量將觀察所得按其大小或數(shù)量排定秩次(rank)。等距量表 (interval scale)由一系列按順序排列的范疇所組成,且每兩個(gè)鄰近范疇之間的距離都是相等的。在等距量表中,加減運(yùn)算反映數(shù)目的
6、大小差距. 但是,乘除運(yùn)算沒有任何意義。比例量表 (ratio scale) 是具有絕對(duì)零點(diǎn)的等距量表. 在比例量表中,乘除運(yùn)算反映數(shù)量間的比例關(guān)系。離散型變量(discrete variable) 由分離的,不可分割的范疇組成。在鄰近范疇之間沒有值存在。連續(xù)型變量(continuous variable) 在任何兩個(gè)觀測(cè)值之間都存在無限多個(gè)可能值。連續(xù)型變量可以分割成無限多個(gè)組成部分。統(tǒng)計(jì)中常用的符號(hào)求和符號(hào) summation N = 群體大小 (參數(shù))n = 樣本容量(統(tǒng)計(jì)量)第二章 次數(shù)分布次數(shù)分布綜述次數(shù)分布表次數(shù)分布圖次數(shù)分布的形狀莖和葉圖百分位數(shù),百分位等級(jí),插值法次數(shù)分布綜述描
7、述統(tǒng)計(jì)的目的:簡化和整理數(shù)據(jù)的表達(dá)。次數(shù)分布表和次數(shù)分布圖就是表達(dá)一組數(shù)據(jù)是如何在某一度量上分布的。次數(shù)分布:是指一批數(shù)據(jù)在某一量度的每一個(gè)類目所出現(xiàn)的次數(shù)情況組織此類數(shù)據(jù)的第一種方法是:建立次數(shù)分布表次數(shù)分布表次數(shù)分布表的要素變量的值? -填充x列每個(gè)值出現(xiàn)多少次(發(fā)生次數(shù))? -填充f列觀察的總數(shù)?將次數(shù)行求和, 將得到 f = N變量的總值?最簡單的方法就是求(X) 和 (f) 的乘積列, 然后將結(jié)果求和 (Xf )例1:對(duì)于下面的次數(shù)分布表:此分布中共有幾個(gè)分?jǐn)?shù) (N = ?)對(duì)這些分?jǐn)?shù)求和 Xxf42342513例2: 某個(gè)班的26個(gè)學(xué)生在一次測(cè)驗(yàn)中的分?jǐn)?shù)如下(10分為滿分):9,2
8、,3,8,10,9,9,2,1,2,9,8,2,5,2,9,9,3,2,5,7,2,10,1,2,9將這些分?jǐn)?shù)作成一個(gè)次數(shù)分布表xf比例 (相對(duì)次數(shù);Proportions). 全組中有多大比例取值為X? p = f / N (N = 觀察的總數(shù)).百分比 (Percentages). 全組中有多大比例取值為X? p * 100分組次數(shù)分布表常常以區(qū)間的形式出現(xiàn), 而不是某一特定值. 例如學(xué)生成績, (A = 90-100, B = 80-89, .).編制分組次數(shù)分布表的步驟求全距定組數(shù)定組距寫出區(qū)間上下限統(tǒng)計(jì)每個(gè)區(qū)間的次數(shù)建構(gòu)這些區(qū)間有一系列的“慣常法則”(rules of thumbs)
9、分組次數(shù)分布表應(yīng)該有大約10個(gè)區(qū)間,目的是使這組數(shù)據(jù)易于直觀感受和理解組距應(yīng)該是個(gè)比較簡單的數(shù)字,如2,5,10,20每個(gè)區(qū)間開始的分?jǐn)?shù)應(yīng)該是組距的倍數(shù)所有區(qū)間的寬度應(yīng)該相等次數(shù)分布圖次數(shù)分布的數(shù)據(jù)可以用圖簡明地概括直方圖 (histogram):用一些垂直條畫在每個(gè)分?jǐn)?shù)之上垂直條的高度代表次數(shù)垂直條的寬度代表分?jǐn)?shù)的精確區(qū)間.只有數(shù)據(jù)是等距或等比量度時(shí),才能用直方圖注意:對(duì)于一個(gè)連續(xù)變量, 每個(gè)分?jǐn)?shù)實(shí)際對(duì)應(yīng)一段組距. 分割這些組距的界限叫做精確界限(real limits). 分割兩個(gè)鄰近分?jǐn)?shù)的精確界限位于兩個(gè)分?jǐn)?shù)的中間。每個(gè)分?jǐn)?shù)有兩個(gè)精確界限, 一個(gè)在組距的頂端,稱為精確上限(upper r
10、eal limit), 另一個(gè)在組距的底端,稱為精確下限(lower real limit).注意一個(gè)組距的精確上限也是高一個(gè)組距的精確下限。例3:繪制一個(gè)直方圖來表達(dá)例2的分布水平軸 - X 軸 (abscissa) - X 的值垂直軸 - Y 軸 (ordinate) - 次數(shù)棒圖(條形圖;bar graph): 用一些垂直條畫在每個(gè)分?jǐn)?shù)(或類別)之上垂直條的寬度代表分?jǐn)?shù)的精確區(qū)間.垂直條的高度代表次數(shù)每個(gè)垂直條之間有一段空間。只有數(shù)據(jù)是命名或順序量度時(shí),才能用棒圖- 作全班同學(xué)家鄉(xiāng)地區(qū)的棒圖次數(shù)分布的形狀用3個(gè)特征可以完整地描述一個(gè)分布: 形狀(shape), 集中趨勢(shì)(central
11、tendency), 和變異性(variability).對(duì)稱分布(symmetrical distribution): 可以畫一條垂直線穿過分布的中央,使得分布的一邊恰是另一邊的鏡象。偏態(tài)分布(skewed distribution)中, 分?jǐn)?shù)堆積在分布的一端,而另一端成為比較尖細(xì)的尾端(tail)。偏態(tài)分布尾端向右的稱為正偏態(tài)(positively skewed )(因?yàn)槠湮捕酥赶蛘龜?shù))偏態(tài)分布尾端向左的稱為負(fù)偏態(tài)(negatively skewed).如何描述例2-例3分布的形狀?從整體上說,這個(gè)班的學(xué)生測(cè)驗(yàn)情況怎么樣?大部分分?jǐn)?shù)是偏高還是偏低?測(cè)驗(yàn)容易還是簡單?雙峰分布莖和葉圖莖和葉圖
12、 (stem and leaf display)- 將每一數(shù)字分解為左邊部分(稱為莖)和右邊部分(稱為葉). 如果數(shù)字是兩位數(shù), 左邊的一位就是莖,右邊的一位就是葉.例4:考察下列莖和葉圖:8765432271458630241693265以10為組距寬度,作相應(yīng)的分組次數(shù)分布表以10為組距寬度,作相應(yīng)的次數(shù)分布直方圖如果給定分組次數(shù)分布表,能否作出莖和葉圖?為什么?百分位數(shù)以上是描述觀察的整體,而我們也可用次數(shù)分布來描述某一個(gè)別點(diǎn)在一個(gè)集合中的位置一個(gè)分?jǐn)?shù)的等級(jí)(rank) 或百分位數(shù)等級(jí)(percentile rank): 某一分布中分?jǐn)?shù)在某一值之下或等于該值的個(gè)體所占的百分比.例4:此表
13、是一次詞匯測(cè)驗(yàn)的分?jǐn)?shù):_Xf p%cfc%52.05540100410.25253895316.4040287028.2020123014.1010410cf = 累積次數(shù)(cumulative frequency)c% = 累積百分比(cumulative percentage)95百分位數(shù)等級(jí)的所對(duì)應(yīng)的測(cè)驗(yàn)分?jǐn)?shù)是多少?如果你在測(cè)驗(yàn)中得到4分, 你的百分位數(shù)等級(jí)是多少?如何確定百分位數(shù)注意: 對(duì)于連續(xù)型數(shù)據(jù), 必須考慮其精確上限和精確下限-對(duì)于分?jǐn)?shù)4, 其對(duì)應(yīng)的累積百分比是 95%.但注意:分?jǐn)?shù)4意味著一個(gè)人得分在3.5 和 4.5之間. 累積百分比表明組距的精確上限。因此,95 的百分位數(shù)
14、是與4.5 相對(duì)應(yīng)(而不是 4.0).找出分布中4分的精確上限和精確下限的累積次數(shù).- 對(duì)于分?jǐn)?shù)4.5, 其對(duì)應(yīng)的累積百分比是95對(duì)于分?jǐn)?shù)3.5, 其對(duì)應(yīng)的累積百分比是70對(duì)于分?jǐn)?shù)4.0, 其對(duì)應(yīng)的累積百分比是多少呢?插值法(Interpolation) - 有時(shí)你所感興趣的值并未出現(xiàn)在表內(nèi)。此時(shí)你需要做基于經(jīng)驗(yàn)的猜測(cè). 其中的一個(gè)方法是插值法。早上8:00 溫度是20度,到中午12:00溫度是28度上午9:00是多少度呢?步驟:找出兩個(gè)量數(shù)組距的寬度如, 時(shí)間 8 到 12點(diǎn);溫度60 到68 度4 小時(shí); 8 度找出組距中已知值的位置=已知值與組距頂端的距離/ 組距寬度= 12:00 -
15、9:00 = 3小時(shí) / 4 小時(shí) = .753) 用所得位置 (分?jǐn)?shù)) 來確定另一量表中對(duì)應(yīng)的所求值與組距頂端的距離= (分?jǐn)?shù)) X (另一量表組距寬度)= .75 X 8 度 = 6 度再求得插入值- 28 - 6 = 22 度 (9:00的溫度)例4:_Xf p%cfc%52.05540100410.25253895316.4040287028.2020123014.1010410- 對(duì)于分?jǐn)?shù)4.5, 其對(duì)應(yīng)的累積百分比是95對(duì)于分?jǐn)?shù)3.5, 其對(duì)應(yīng)的累積百分比是70對(duì)于分?jǐn)?shù)4.0, 其對(duì)應(yīng)的累積百分比是X?第三章 集中趨勢(shì)(Central Tendency)內(nèi)容均值 (mean)中數(shù)
16、(median)眾數(shù) (mode)選擇適當(dāng)?shù)募辛繑?shù)集中趨勢(shì)與分布形狀學(xué)習(xí)目標(biāo)學(xué)會(huì)計(jì)算均值,中數(shù)和眾數(shù)對(duì)于給定的分?jǐn)?shù)分布,確定如何選用適宜的集中量數(shù)集中趨勢(shì)目的:選擇一個(gè)最能代表整個(gè)分布的數(shù)值三種集中趨勢(shì)量數(shù)1均值 (Mean)算術(shù)平均數(shù)(arithmetic average)總體的均值公式: = X/ N樣本的均值公式: x = X /n如何計(jì)算分布的均值:公式: = X / N =均值具有下列特征:1) 如果改變一個(gè)給定的分?jǐn)?shù),增加一個(gè)被試, 或減少一個(gè)被試, 均值應(yīng)當(dāng)有變化.2) 如果對(duì)每一個(gè)分?jǐn)?shù)都加上 (或減去) 一個(gè)常數(shù), 均值也會(huì)加上 (或減去) 這個(gè)常數(shù)。3) 如果對(duì)每一個(gè)分?jǐn)?shù)都
17、乘以 (或除以) 一個(gè)常數(shù), 均值也會(huì)加上 (或減去) 這個(gè)常數(shù)。2中數(shù)(median)中數(shù)(median) 是將分?jǐn)?shù)分布均分為兩部分的那個(gè)分?jǐn)?shù). 分布有50% 的個(gè)體等于或小于中數(shù). 中數(shù)等價(jià)于百分位數(shù)(percentile)是50.如何計(jì)算中數(shù)?1)如果分?jǐn)?shù)的個(gè)數(shù)是奇數(shù)個(gè),將其按從小到大的順序排列. 找出中間的分?jǐn)?shù)2)如果分?jǐn)?shù)的個(gè)數(shù)是偶數(shù)個(gè),將其按從小到大的順序排列.然后找出中間的兩個(gè)分?jǐn)?shù)。將其相加后再除以23)當(dāng)分布的中間分?jǐn)?shù)有相等的分?jǐn)?shù)時(shí),用中間分?jǐn)?shù)的精確上下限作插值法例:計(jì)算下列連續(xù)型變量的中數(shù)8, 10, 12, 15, 18, 19, 608, 10, 12, 15, 16, 1
18、8, 19, 608, 10, 12, 15, 15, 15, 18, 18, 19, 60_X f%c%60110100191108018220701533060?50121103010110208110103. 眾數(shù) (mode)在次數(shù)分布中, 眾數(shù)是具有最多次數(shù)的那個(gè)分?jǐn)?shù)或類目。眾數(shù)是 5注意:一個(gè)次數(shù)分布可能有多個(gè)眾數(shù).眾數(shù)是2 和 8如何選擇適當(dāng)?shù)募辛繑?shù)?均值:是首選, 它考慮了分布中的每一個(gè)分?jǐn)?shù), 與分布的變異性也有關(guān)系。 但在下列情況它未必適合:眾數(shù):對(duì)于命名型量表無法計(jì)算均值和中數(shù), 只能用眾數(shù)作集中量數(shù)。中數(shù):在下列情況中數(shù)最為適合:在分布中有少數(shù)極端值 (有長尾的偏態(tài)分布
19、)有未確定的值所考察分布是 open-ended - (如. 問卷中有個(gè)選項(xiàng) 5個(gè)或更多)4) 如果數(shù)據(jù)是順序量表.分布形狀與集中趨勢(shì)量數(shù)的關(guān)系對(duì)稱分布?正偏態(tài)分布?負(fù)偏態(tài)分布?對(duì)稱的雙峰分布?第四章 差異量數(shù)(Variability)分布的第三個(gè)特征 變異性(Variability).變異數(shù)是對(duì)于分布的延伸和聚類狀態(tài)程度的定量化描述變異數(shù)越高,表明分?jǐn)?shù)間的差別大, 變異數(shù)越高,表明分?jǐn)?shù)間越近似.三種變異數(shù): 全距 (range), 標(biāo)準(zhǔn)差 (standard deviation), 和四分位距(interquartile range).全距 (range)-全距是分布分?jǐn)?shù)最大值(maximu
20、m) X的精確上限與分布分?jǐn)?shù)最小值(minimum) X 的精確下限的差值。注意:如果分?jǐn)?shù)是連續(xù)型,必須用精確上下限。_Xfcfc%10225100982392841560761144645205114若 X是離散型:range =?若 X是連續(xù)型:range =?用全距描述分?jǐn)?shù)變異性的局限:- 該統(tǒng)計(jì)量只依據(jù)分布中的兩個(gè)極端值,未利用到分布的大部分信息.四分位距(interquartile range)度量變異數(shù)的另一種方法.- 50%,25%和75%的百分位數(shù)代表什么?- 用50%,25%和75%的百分位數(shù)分布被分成4部分_X f%c%7412.5 1006412.5 87.55412.5
21、75825 62.53412.5 37.52412.5251412.5 12.5四分位距就是75%百分位數(shù)與25%百分位數(shù)間的距離. 它代表分布中間50%的距離.如果上例是連續(xù)型變量,median = Q2 = 4.0 - 用插入法 25%tile = Q1 = 2.5 - 區(qū)間2 的精確上限75%tile = Q3 = 5.5 - 區(qū)間5 的精確上限四分位距 (IQR) = 5.5 - 2.5 = 3.0semi-interquartile range:四分位距的一半(interquartile range).SIQR = (Q3 - Q1)2第四講 標(biāo)準(zhǔn)差和 Z分?jǐn)?shù)學(xué)習(xí)重點(diǎn)方差/標(biāo)準(zhǔn)差的邏
22、輯步驟和方的定義公式和計(jì)算公式總體和樣本的方差總體和樣本的標(biāo)準(zhǔn)差自由度計(jì)算Z分?jǐn)?shù)根據(jù) Z分?jǐn)?shù)推知原始分?jǐn)?shù)標(biāo)準(zhǔn)分布及其應(yīng)用標(biāo)準(zhǔn)差 (standard deviation)量度了分布中的每一個(gè)個(gè)體與某一標(biāo)準(zhǔn)偏移的距離,這個(gè)標(biāo)準(zhǔn)就是均值。最重要,最常用的差異量數(shù).考慮了分布中的所有信息方差/標(biāo)準(zhǔn)差的邏輯步驟1.離差X - = 離差分?jǐn)?shù)(deviation score)例: 全班男同學(xué)的體重 (公斤)69, 67, 72, 74, 63, 67, 64, 61, 69, 65, 70, 60, 75, 73, 63, 63, 69, 65, 64, 69, 65mean = = 67 (X - ) =
23、 (69 - 67) + (67 - 67) + + 65 - 67) = ?= 2+ 0 +5 +7+ -4 +0+ -3 +-6 +2 + -2 +3 + -7 + 8 +6 + -4 + -4 +2 + -2 + -3 +2 + -2 = 0注意:如果分?jǐn)?shù)的值大于均值,離差是正數(shù)如果分?jǐn)?shù)的值小于均值,離差是負(fù)數(shù)離差的和必定為0。因此,要去掉符號(hào). 將離差平方,再取其和的平方根。2 . 和方和方的操作定義:SS = (X - )2xX -(X -)269246700SS = 362和方的計(jì)算公式為:SS = X2 - (X)2N此二者為等價(jià)。計(jì)算公式的優(yōu)點(diǎn)為 可直接利用 X 值。上例中:X
24、X21643876 X= X2 =SS = X2 - (X)2N注意:以下方差/標(biāo)準(zhǔn)差部分,總體和樣本有區(qū)別3總體方差和標(biāo)準(zhǔn)差總體方差(Population Variance): 和方的平均, 即和方除以總體的容量.總體方差= 2 = SS/N總體標(biāo)準(zhǔn)差:將總體方差求平方根。standard deviation = sqroot(variance) = sqroot(SS/N) = sqroot()上例中:2 = ? = ?求總體標(biāo)準(zhǔn)差步驟:step 1: 計(jì)算和方 SS- 可用定義公式或計(jì)算公式step 2: 確定方差- 計(jì)算均方- 將 SS 除以 Nstep 3: 確定標(biāo)準(zhǔn)差取方差的平方根
25、樣本的方差和標(biāo)準(zhǔn)差注意與總體標(biāo)準(zhǔn)差的不同:s =樣本的標(biāo)準(zhǔn)差(sample SD)用 (不是 ) 來計(jì)算SS需要考慮樣本常常比其所屬的總體較少變異性,標(biāo)準(zhǔn)差的計(jì)算需做校正.- 如果樣本有代表性, 那么樣本與總體的就會(huì)非常近似, 兩個(gè)分布的形狀也應(yīng)該近似。但是, 樣本的變異程度仍然低于總體的變異程度.- 因此,樣本方差的分母是n - 1 而不是 nsample variance = s2 = _SS _n - 1- 對(duì)于樣本標(biāo)準(zhǔn)差也是同樣sample standard deviation = s = sqroot(SS/(n - 1)用n-1 作分母,意思是利用自由度來校正樣本離差,以利于對(duì)總體
26、參數(shù)的無1偏差估計(jì)。自由度n - 1意思是除了一個(gè)值,其余都可變化。如: sample mean =5,如果前4 個(gè)分?jǐn)?shù)是: 5, 4, 6, 2 最后一個(gè)是什么?5 + 4 + 6 + 2 + X = 25X = 8X必須固定在8。例1:求標(biāo)準(zhǔn)差: 1, 2, 3, 4, 4, 5, 6, 7第一步: 計(jì)算和方列表:第二步: 確定樣本方差sample variance = s2 = _SS_n - 1= 28/(8-1) = 28/7 = 4.0第三步: 確定樣本的標(biāo)準(zhǔn)差standard deviation= sqroot(SS/(n - 1)= sqroot(28/(8 - 1)= sqr
27、oot 4.0 = 2.0粗略估計(jì)均值和標(biāo)準(zhǔn)差 = ? = ?標(biāo)準(zhǔn)差的性質(zhì)1) 對(duì)分布中的每一個(gè)分?jǐn)?shù)加上一個(gè)常數(shù)不會(huì)改變其標(biāo)準(zhǔn)差.2) 對(duì)分布中的每一個(gè)分?jǐn)?shù)乘上一個(gè)常數(shù),所得分布的標(biāo)準(zhǔn)差是原分布的標(biāo)準(zhǔn)差乘上這個(gè)常數(shù).比較三種離中量數(shù)極端分?jǐn)?shù): 全距(range) 受影響最大, IQR 受影響最小樣本大小: 全距(range) 可能隨n 的增加而增加 , IQR & s 不會(huì)樣本選?。簭耐豢傮w中多次取不同樣本,全距(range) 沒有穩(wěn)定的值, 但 IQR 和 S 是穩(wěn)定的,不應(yīng)波動(dòng)很大。- 對(duì)于有不確定值的分布, 全距 或 S 都無法求得, IQR (或SIQR) 是唯一的選擇。Z 分?jǐn)?shù)(Z
28、-Scores): 分?jǐn)?shù)的位置和標(biāo)準(zhǔn)分布Z 分?jǐn)?shù)的目標(biāo):對(duì)分布中的每一個(gè)原始分?jǐn)?shù),描述其在分布中的位置。參照點(diǎn):均值用離差(x - ) 或 (x - )描述分?jǐn)?shù)的位置當(dāng)只涉及一個(gè)分布時(shí), 用離差是簡便易行的. 但當(dāng)我們需要比較兩個(gè)不同分布中的分?jǐn)?shù)的相對(duì)位置, 用離差就不夠了.用Z 分?jǐn)?shù)描述分?jǐn)?shù)的位置例: 你參加了ACT和SAT 兩種測(cè)驗(yàn). ACT:26 SAT:620。 申請(qǐng)學(xué)校只需任選寄送其中一種,你會(huì)送哪一種?直接的比較不可能,因?yàn)閮蓚€(gè)分?jǐn)?shù)分布的均值和標(biāo)準(zhǔn)差不同.看分布圖,將兩個(gè)分?jǐn)?shù)定位再試圖比較還是很困難計(jì)算百分位數(shù)等級(jí)(percentile ranks)計(jì)算標(biāo)準(zhǔn)差要比較兩個(gè)分布,一個(gè)方
29、法就是將兩個(gè)分布都轉(zhuǎn)換成標(biāo)準(zhǔn)分布。標(biāo)準(zhǔn)分布(standardized distribution)由轉(zhuǎn)換分?jǐn)?shù)組成, 和 已經(jīng)確定,而無論其原始分?jǐn)?shù)如何. 其作用是使不同的分布有可比性??蓪⑵滢D(zhuǎn)換為Z分?jǐn)?shù). 這里需要做的是將每個(gè)分?jǐn)?shù)轉(zhuǎn)換為z-score, 從而將整個(gè)分布標(biāo)準(zhǔn)化.標(biāo)準(zhǔn)分?jǐn)?shù)(standard score) is 是一種轉(zhuǎn)換分?jǐn)?shù)提供其分布位置的信息. Z 分?jǐn)?shù)是標(biāo)準(zhǔn)分?jǐn)?shù)的一種。z-score 指出了每個(gè)X 值在分布中的精確位置。z-score 的符號(hào)(+ 或 -) 表明其比均值大或小. z-score 的數(shù)值部分用X 與 .間標(biāo)準(zhǔn)差個(gè)數(shù)的形式指出了其與均值的距離。對(duì)于Z分?jǐn)?shù)分布, mea
30、n = 0,standard deviation =1.Z分?jǐn)?shù)為 1, 表示數(shù)據(jù)點(diǎn)恰位于均值的一個(gè)標(biāo)準(zhǔn)差之上。Z分?jǐn)?shù)為 -1, 表示數(shù)據(jù)點(diǎn)恰位于均值的一個(gè)標(biāo)準(zhǔn)差之下。如何轉(zhuǎn)換?populationsampleZ = deviation=standard deviation=如果總體/樣本的均值和標(biāo)準(zhǔn)差已知,分布中的所有原始分?jǐn)?shù)都可轉(zhuǎn)換為 Z分?jǐn)?shù)。如果分布中的總體/樣本的均值和標(biāo)準(zhǔn)差已知,Z分?jǐn)?shù)也可轉(zhuǎn)換回原始分?jǐn)?shù)。Z = (X - ) - (Z)( ) = (X - ) - X = (Z)( ) + 如果某人說他的SAT 分?jǐn)?shù)高于均值 2 SD。他得了多少分?Z分?jǐn)?shù)分布的屬性形狀 - Z分?jǐn)?shù)分布
31、的形狀與原始分?jǐn)?shù)分布完全相同。每個(gè)分?jǐn)?shù)所在的相對(duì)位置亦完全相同。均值- 當(dāng)原始分?jǐn)?shù)轉(zhuǎn)換成Z分?jǐn)?shù), mean = 0.標(biāo)準(zhǔn)差 -當(dāng)原始分?jǐn)?shù)轉(zhuǎn)換成Z分?jǐn)?shù), standard deviation = 1.轉(zhuǎn)換程序?qū)嶋H上是對(duì)分布軸的一種重新標(biāo)定。- 將X 軸中心重新標(biāo)定為0,再將每個(gè)SD 間隔標(biāo)定為1.例: 美國男人的身高和體重personheight weight166203 2711743742234691755701446742197731848692379692041075237sum7102000height2 weight24356 412095041 302765476497294761
32、3062549002073654764796153293385647615616947614161656255616950,486 408,346height = 710 / 10 = 71.0SS = 50486 - (710)2 / 10 = 76.0 = 2.8weight = 2000 / 10 = 200.0SS = 408346 - (2000)2 / 10 = 8346.0 = 28.9Z = (X - ) Z1 = (66 - 71)/2.8 = -1.8 Z2 = (71 - 71)/2.8 = 0 Z3 = (74 - 71)/2.8 = 1.1 Z4 = (69 - 71
33、)/2.8 = -0.7 Z5 = (70 - 71)/2.8 = -0.4 Z6 = (74 - 71)/2.8 = 1.1 Z7 = (73 - 71)/2.8 = 0.7 Z8 = (69 - 71)/2.8 = -0.7 Z9 = (69 - 71)/2.8 = -0.7 Z10 = (75 - 71)/2.8 = 1.4Z = (X - ) Z1 = (203 - 200)/28.9 = 0.1 Z2 = (174 - 200)/28.9 = -0.9 Z3 = (223 - 200)/28.9 = 0.8 Z4 = (175 - 200)/28.9 = -0.9 Z5 = (144
34、 - 200)/28.9 = -1.9 Z6 = (219 - 200)/28.9 = 0.7 Z7 = (184 - 200)/28.9 = -0.6 Z8 = (237 - 200)/28.9 = 1.3 Z9 = (204 - 200)/28.9 = 0.1 Z10 = (237 - 200)/28.9 = 1.3the sums of the z-scores = 0 ; mean of the z-scores = 0the standard deviations = 1這樣我們可以比較每個(gè)人身高和體重各自的相對(duì)位置Person #4: Person # 8:第六講: 概率(Prob
35、ability)概率簡介概率與正態(tài)分布百分位點(diǎn)和百分位等級(jí)概率與二項(xiàng)分布概率(Probability)推論統(tǒng)計(jì)所必需的概念, 根據(jù)樣本的信息對(duì)總體作出判斷。在可能有幾種后果發(fā)生的情況下,概率被定義為某一種后果發(fā)生的可能性大小. 如果幾種后果分別是A, B, C, D, 等等,那么:概率 of A = A后果的次數(shù) = f / N所有可能后果次數(shù)的總和為獲得正確定義的概率, 個(gè)體的選取 (取樣) 一定要通過隨機(jī)取樣隨機(jī)取樣應(yīng)滿足以下兩個(gè)條件:總體中的每個(gè)個(gè)體有同樣的機(jī)會(huì)被選擇如果樣本中要選擇多于一個(gè)的個(gè)體,每次選擇的概率應(yīng)當(dāng)恒定回置取樣(Sampling with replacement) -
36、一種取樣方法, 在選擇下一個(gè)個(gè)體(下次取樣之前),將每個(gè)已選擇個(gè)體放回總體之中次數(shù)分布與概率的關(guān)系_Xf_p_52 .05410.25316.4028.2014.10此表中比率欄與概率相同. 此比率對(duì)應(yīng)這些間隔中曲線下方的面積。選擇到3的概率是多少?p (3) = f / N = 16 / 40 = .40選擇到5的概率是多少?p(5) = f / N = 2 / 40 = .05選擇到大于2的值的概率是多少?p(X 2) = ?.05 + .25 + .40 = .70選擇到小于5的值的概率是多少?p(X X 1) = ?.20 + .40 = .60概率與正態(tài)分布(Normal Distr
37、ibution)正態(tài)分布是最常見的分布, 單峰和具對(duì)稱性. 它可定義為下列方程:Y = 正態(tài)分布的注意點(diǎn)并非所有的單峰,對(duì)稱曲線都是正態(tài)分布,但很多是在本課程中, 無須擔(dān)心所研究分布與正態(tài)分布有多接近, 在本課程所遇到的問題中,多數(shù)情況下,分布是正態(tài)上述的平滑的曲線 是指密度曲線 (而并非次數(shù)曲線)曲線下方的面積總和必定為1. 因?yàn)?曲線下方的面積相當(dāng)于概率 (或比率)總概率 應(yīng)當(dāng)?shù)扔?1.正態(tài)分布常常轉(zhuǎn)換為 z分?jǐn)?shù).對(duì)于一個(gè)正態(tài)分布:34.13% 的分?jǐn)?shù)會(huì)落入均值與一個(gè)標(biāo)準(zhǔn)差之間.13.59% 的分?jǐn)?shù)會(huì)落入第一個(gè)標(biāo)準(zhǔn)差與第二個(gè)標(biāo)準(zhǔn)差之間。2.28% 的分?jǐn)?shù)會(huì)落入第二個(gè)標(biāo)準(zhǔn)差與第三個(gè)標(biāo)準(zhǔn)差之間
38、。一個(gè)重要的工具是正態(tài)分布表. 在大部分教科書的附錄中 (pg. 414). 利用此表可查到曲線下方的面積(亦即抽樣的概率) 與曲線縱高 (以 z-分?jǐn)?shù)位為單位).正態(tài)分布表的應(yīng)用:(A)z0.000.01 : 0.300.31: 1.00:(B) 主體的比例0.50000.5040 : 0.61790.6217: 0.8413:(C) 尾端的比例0.50000.4960 : 0.38210.3783: 0.1587:注意 z = 1.0 = .5000 + .3413 = median + 34.13%正態(tài)分布表可以將z-分?jǐn)?shù)轉(zhuǎn)換成概率和從概率查到相應(yīng)的 z-分?jǐn)?shù).建議: 畫出分布圖,目測(cè)距
39、離 .1)用正態(tài)分布表由z分?jǐn)?shù)查概率的步驟:step 1: 畫出分布圖, 標(biāo)出均值和標(biāo)準(zhǔn)差step 2: 標(biāo)出所要查的分?jǐn)?shù)點(diǎn), 查核其與均值的相對(duì)位置以及到均值的粗略距離step 3: 重讀一次題目看清你所需要的分?jǐn)?shù)區(qū)間概率. 將圖中的相應(yīng)面積涂為陰影. step 4: 將 X 分?jǐn)?shù) 轉(zhuǎn)換為 Z-分?jǐn)?shù)step 5: 在正態(tài)分布表中使用正確的欄目 (以及符號(hào)) 找出概率例1:IQ為 130或以上的 概率是多少?p(X 130)?IQ: = 100, =15z = (130 - 100)/15 = 2.0-查表- p = 0.0228IQ為 70或以下的 概率是多少?p(X z = 1.65故 X
40、 = (1.65)(15) + 100 = 124.753)找出X落在兩個(gè)分?jǐn)?shù)之間概率step 1: 繪出曲線將所需的區(qū)域涂上陰影step 2: 將兩個(gè)分?jǐn)?shù)轉(zhuǎn)換成 Z-分?jǐn)?shù)step 3: 查表求這兩個(gè) z-分?jǐn)?shù)的概率step 4: 將兩個(gè)概率相加或相減例3:在SAT 中得到300 到650 的概率是多少?SAT: = 500, =100p(z (650 - 500) = p(z 1.5) = 0.9332100p(z (300 - 500) = p(z -2.0) = 0.0228100p(300 z (650- 500) = p(z 1.5) = 0.0668100p(z (300 - 50
41、0) = p(z -2.0) = 0.0228100p(300 z 7)的樣本的概率是多少?考察樣本均值的分布, 我們發(fā)現(xiàn) 16 個(gè)當(dāng)中有1個(gè) a其均值大于 7.實(shí)際情況比上例復(fù)雜的多。我們必須借助樣本均值的一些特性.形狀:樣本均值的分布形狀一定是正態(tài)分布.當(dāng) n 較大時(shí)(30 以上),樣本均值的分布幾乎是完全的正態(tài)分布. 如果在同一總體中選擇一組樣本, 大部分均值應(yīng)當(dāng)堆積在總體均值 附近(如果不是這樣,取樣一定有偏差)均值:這些樣本均值的平均應(yīng)該等于總體均值. 樣本均值的平均 叫做 的期望值. 期望值的意思因?yàn)檫@個(gè)值會(huì)在總體均值 的附近.在上例中, 的期望值(一組樣本均值的均值) 是:2 +
42、 3 + 4 + 5 + 3 + 4 + 5 + 6 + 4 + 5 + 6 + 7 + 5 + 6 + 7 + 8 = 80 = 5。016 16注意: 如果 n 足夠大, 那么分布是正態(tài), 也一定是對(duì)稱和單峰, 則mean = median = mode方差: 樣本均值分布的標(biāo)準(zhǔn)差 叫做 的標(biāo)準(zhǔn)誤 (standard error of ;SE) 的標(biāo)準(zhǔn)誤= = 與 的標(biāo)準(zhǔn)距離.這個(gè)統(tǒng)計(jì)量描述了與均值的標(biāo)準(zhǔn)(或稱典型,平均)距離. 在這里,它也是樣本 均值 和 總體均值 的差值.這個(gè)統(tǒng)計(jì)量的主要目的和用途是 告訴我們樣本均值對(duì)總體均值的估計(jì)是否準(zhǔn)確. 換言之,取樣誤差是多大.標(biāo)準(zhǔn)誤的數(shù)值取決
43、于兩個(gè)特征: 總體方差和樣本容量1) 總體方差 - 總體方差越大, 樣本均值的方差越大.總體方差大與 總體均值的差異大 總體方差小與 總體均值的差異小2) 樣本容量 - 樣本容量(n) 越大,樣本越能準(zhǔn)確地代表總體. 這個(gè)規(guī)律叫做大數(shù)定律(law of large numbers) .假定總體是1,000個(gè)學(xué)生. 欲知總體的SAT 分?jǐn)?shù).- 如果隨機(jī)抽取1個(gè)學(xué)生,用這個(gè)學(xué)生的分?jǐn)?shù)預(yù)測(cè)總體分?jǐn)?shù)的準(zhǔn)確性怎樣?-如果隨機(jī)抽取5個(gè)學(xué)生. 會(huì)不會(huì)更準(zhǔn)確些?-如果隨機(jī)抽取100個(gè)學(xué)生呢?將這兩個(gè)特征合并起來,就是標(biāo)準(zhǔn)誤的定義公式. 的標(biāo)準(zhǔn)誤= = 中心極限定律 (Central Limit Theorem
44、)中包含所有這些特性 (形狀, 均值, 方差)中心極限定律(Central Limit Theorem): 對(duì)于任何均值為 ,標(biāo)準(zhǔn)差為的總體, 樣本容量為n的樣本均值的分布,隨著n 趨近無窮大時(shí),會(huì)趨近均值為,標(biāo)準(zhǔn)差為 的正態(tài)分布因此,當(dāng) n 足夠大時(shí)(30或以上): N ( , )三樣本分布與概率例 1:一位老師對(duì)班上學(xué)生的IQ感興趣. 她班上有9位學(xué)生,她認(rèn)為他們都很聰明. 這班學(xué)生IQ 的均值大于等于 112的概率是多少?IQ test: = 100, = 15首先我們需要知道樣本的分布 (注意: 即使n 小于 30,我們?nèi)匀患俣ㄕ龖B(tài)分布.) N (, ) = N(100, 5)我們需要
45、知道對(duì)應(yīng)這個(gè)樣本均值的z分?jǐn)?shù): Z = P( 112) = P(Z (112 - 100)/ 5 ) = P(Z 2.4) = 0.0082這個(gè)答案是否合理?- 最初看起來似乎不對(duì)- 應(yīng)當(dāng)大于 z = 1對(duì)應(yīng)的概率, 因?yàn)?115 對(duì)應(yīng)于z = 1- 但是, 必須注意這不是正確的分布, 我們需要考察樣本均值的分布-我們知道樣本均值分布的標(biāo)準(zhǔn)誤是5 和均值是 100.- 所以 112 應(yīng)當(dāng)位于 z 2 之外例 2: 如果班上有25位學(xué)生,如果讓其均值位于頂端 10%的IQ 分布,均值應(yīng)該有多大?首先我們需要知道樣本的分布 (注意: 即使n 小于 30,我們?nèi)匀患俣ㄕ龖B(tài)分布.) N (, ) =
46、N (100, 3)然后我們需要找出對(duì)應(yīng)于這個(gè)全距的均值:這個(gè)公式與我們從前遇到的很類似 := Z * + = (= Z)() +step 1: 查正態(tài)分布表:90% 概率對(duì)應(yīng)的 Z 分?jǐn)?shù)是1.28step 2: = 1.28 * + 100 = (1.28)(3)+100 = 103.84所以, 對(duì)于 25 個(gè)人的樣本, 他們的均值必須在103.84 以上才能位于分布頂端的10%假定上例中樣本較小, n = 16? 答案會(huì)不會(huì)改變?step 1: l查正態(tài)分布表:90% 概率對(duì)應(yīng)的 Z 分?jǐn)?shù)step 2: =1.28*(15/sqrt(16)+100=(1.28)(3.75)+100 =10
47、4.80所以, 對(duì)于 25 個(gè)人的樣本, 他們的均值必須在104.80以上才能位于分布頂端的10%對(duì)于不同的樣本容量:n=9,=1.28*(15/sqrt(9))+100 =(1.28)(5)+ 100=106.40n=4,=1.28 * + 100 = (1.28)(7.5) + 100 = 109.60n=1,=1.28 * + 100 = (1.28)(15) + 100 = 119.20注意: 如果 n = 1, 標(biāo)準(zhǔn)誤等于總體標(biāo)準(zhǔn)差所以, 樣本容量越小, 取樣誤差 (標(biāo)準(zhǔn)誤, ) 越大.四標(biāo)準(zhǔn)誤的解釋:取樣誤差: 任何一個(gè)樣本可能大于或小于估計(jì)值。標(biāo)準(zhǔn)誤: 大部分均值會(huì)與相當(dāng)接近 ,
48、 但也有一些會(huì)非常不同. 樣本均值的方差代表和 之間的標(biāo)準(zhǔn)距離。它的定義是樣本容量和 代表的準(zhǔn)確程度間的關(guān)系.C) 信度: 標(biāo)準(zhǔn)誤變小時(shí),我們用作為的估計(jì)值的信心增加。-信度大略是指同一總體的不同樣本 (具同樣的樣本容量) 彼此間的近似程度. 如果大部分樣本 具有相似的統(tǒng)計(jì)量(e.g., 均值, 標(biāo)準(zhǔn)差), 那么其信度就高。如果大部分樣本具有不同的統(tǒng)計(jì)量, 其信度就低.- 從上面的例子中可以看出, 當(dāng) n 增大時(shí),樣本 統(tǒng)計(jì)量能更好地對(duì)總體參數(shù)進(jìn)行估計(jì). 因此, 多次重復(fù)取樣, 且樣本容量相對(duì)較大,我們會(huì)得到相近的統(tǒng)計(jì)量(都在總體參數(shù)附近).D) 穩(wěn)定性: 標(biāo)準(zhǔn)誤越小, 添加或去掉一個(gè)分?jǐn)?shù)或改
49、變某一 分?jǐn)?shù)會(huì)改變 的估計(jì)值.- 我們已經(jīng)討論過添加或去掉一個(gè)分?jǐn)?shù)或改變某一 分?jǐn)?shù)對(duì)總體均值和標(biāo)準(zhǔn)差的影響,而對(duì)標(biāo)準(zhǔn)誤的影響又如何呢?總體 X N(50, 10) = 50; = 10比較這兩個(gè)樣本:樣本 1: 1 = 50, n = 4= = 10/2 = 5樣本 2: 2 = 50, n = 100= = 10/10 = 1假定我們?cè)诿總€(gè)樣本中添加一個(gè)新的分?jǐn)?shù) 20.樣本 1: 新的均值是:50 * 4 = 200 - (200 + 20)/5 = 44樣本2: 新的均值是:50 * 100 = 5000 - 5020/101 = 49.7所以樣本 2 比樣本 1 穩(wěn)定. 一般說,標(biāo)準(zhǔn)誤越
50、小,樣本越穩(wěn)定.二項(xiàng)分布(Binomial Distribution)二項(xiàng)分布:如果在某種特定的情境下,只有兩種可能的結(jié)果. 其結(jié)果就形成一個(gè)二項(xiàng)分布。例如, 投擲硬幣得到正面或反面, 對(duì)是否題的回答, 一個(gè)人的生或死等等。二項(xiàng)分布表示為: B(n,p), 其方程非常復(fù)雜。如果 n 足夠大,二項(xiàng)分布可以近似為正態(tài)分布。二項(xiàng)分布的概率兩個(gè)類目: A 和 Bp = p(A) = A 的概率q = p(B) = B 的概率p + q = ? n =樣本中所包含個(gè)體(或觀察)的數(shù)目 X =樣本中事件類目 A 發(fā)生的數(shù)目二項(xiàng)分布表達(dá)了與從X = 0 到 X = n 的每一個(gè)X值有關(guān)的概率。例:彩票:設(shè)每
51、張彩票能贏 100 萬元。每張彩票要花一元。100 萬次中有1次贏的機(jī)會(huì), 則P(a) = 1/1,000,000 ,P(b) = 999,999/1,000,000.故贏的概率是.000001輸?shù)母怕适?.999999考慮買多少張彩票中彩的機(jī)會(huì)比較大 .n (買多少張彩票) 1101001,00010,000100,0001,000,000P (贏至少1次)0.0000010.000010.00010.00099500.009950170.095162630.63212074注意即使你花100 萬元買彩票,你能贏 100 萬元的機(jī)會(huì)也只有大約 63%.例 2擲硬幣. A = 正面; B =
52、反面sp = p(A) = 1/2q = p(B) = 1/2假設(shè) n = 2 (即, 將硬幣擲 2 次), 有多少可能的結(jié)果 B(2, 0.5)? -4第 1次第 2次 正面次數(shù)正面正面2正面反面1反面正面1反面反面0兩次擲到正面的概率是多少?擲不到正面的概率是多少?只一次擲到正面的概率是多少?至少一次擲到正面的概率是多少?假設(shè) n = 6.有多少可能的結(jié)果? 64 種 (公式是: 2n)t1t2t3t4t5t6#正面正面正面正面正面正面正面 6正面正面正面正面正面反面 5正面正面正面正面反面正面 5正面正面正面正面反面反面 4: : : : : : :反面反面反面反面反面反面 0什么條件下
53、,二項(xiàng)分布可以近似為正態(tài)分布?看n = 6 時(shí)的情況 (pn = .5*6 = 3).當(dāng) n 足夠大 (pn 10) 和(qn 10),二項(xiàng)分布可以近似位正態(tài)分布.Mean: = pnStandard deviation: = z = 利用正態(tài)分布表.注意:正態(tài)分布中X 的值是一段, 而并非一點(diǎn), 所以當(dāng)二項(xiàng)分布近似為正態(tài)分布時(shí),需要考慮精確上下限。因?yàn)槲覀兪窃谟眠B續(xù)型分布 (正態(tài)) 來估計(jì)離散型分布的值.例1: 有時(shí)學(xué)生入學(xué)后會(huì)中途退學(xué). 如果每個(gè)人中途退出的概率是0.10, 在100人的班上,有多于15個(gè)學(xué)生概率的概率是多少?n = 100p = 0.10q = 0.90np = .10*
54、100 = 10 nq = 90 x = pn = 10 x = = sqroot (100*.10*.90) = sqroot (9) = 3p(X 15的精確下限)= P(X 14.5)= P(Z 14.5-10)3.0= P(z 1.5)= 0.0668例2 :假設(shè)你參加一個(gè)48道題的多項(xiàng)選擇題測(cè)驗(yàn), 只有4種可能的答案. 你全憑猜測(cè)作答. 猜對(duì)14 道題的概率是多少?p = P(正確) = 1/4q = P(錯(cuò)誤) = 3/4pn = (1*48)/4 = 12qn = (3*48)/4 = 36注意這里 pn 和qn 都大于10,所以可以假定分布近似正態(tài). 注意這里分?jǐn)?shù) 14 其實(shí)是
55、對(duì)應(yīng) 從 13.5 到 14.5 之間這段距離.m = pn = 12 = sqroot (pqn) = sqr(48*.25*.75) = sqroot (9) = 3查表X - = 13.5 - 12.0 = 0.50 - 0.3085 3X - = 14.5 - 12.0 = 0.83 - 0.2033 3兩個(gè) z分?jǐn)?shù)間的面積是: 0.3085 - 0.2033 = 0.1052假設(shè)檢驗(yàn)初步 (II)假設(shè)檢驗(yàn)顯著性水平:顯著性水平規(guī)定了當(dāng)虛無假設(shè)正確時(shí),樣本結(jié)果非常不可能出現(xiàn)的概率值。當(dāng)實(shí)驗(yàn)產(chǎn)生非常不可能(以alpha為標(biāo)準(zhǔn))的數(shù)據(jù)時(shí), 我們就會(huì)拒絕虛無假設(shè).所以, alpha 水平 也
56、規(guī)定了I 類錯(cuò)誤的概率 - 即, 當(dāng)H0事實(shí)上正確時(shí),拒絕H0的概率。在心理學(xué)中, 通常定在0.05??聪铝袠颖揪捣植紙D. =發(fā)生 I 類錯(cuò)誤概率一般性備擇假設(shè)H0: 無差異H1: 有差異雙尾考驗(yàn) = 0.05在每個(gè)尾端有0.0250.025 + 0.025 = 0.05具體的備擇假設(shè)H0: 無差異H1:有差異, 新的一組的均值更高單尾考驗(yàn) = 0.05這一尾端有0.05 。如何解釋這些圖?如果樣本均值落入陰影區(qū)域之內(nèi),那么我們就拒絕 H0.如果樣本均值落在陰影區(qū)域之外, 那么我們可能不會(huì)拒絕H0.這些陰影區(qū)域叫做臨界區(qū)域。臨界區(qū)域由極端的樣本值組成,如果虛無假設(shè)正確的話,不大可能得到。臨界
57、區(qū)域的大小是由alpha 水平?jīng)Q定的。 落入臨界區(qū)域之內(nèi)的樣本數(shù)據(jù)會(huì)使得虛無假設(shè)被拒絕。有方向性的假設(shè)檢驗(yàn)單尾考驗(yàn)總體 分布 總體 = 65 , = 10.假定 抽取樣本n = 25, 對(duì)其進(jìn)行處理后得到= 69.處理有沒有效果? 會(huì)影響總體中的個(gè)體嗎?我們應(yīng)該考察那一個(gè)分布?總體分布?樣本均值分布?樣本均值的樣本 應(yīng)該考察樣本均值.在樣本中找到樣本均值.查該樣本得到大于等于這個(gè)均值的概率假定 = 0.05再假定我們的備擇假設(shè)是-處理應(yīng)當(dāng)提高操作成績 (使均值提高)現(xiàn)在我們需要求標(biāo)準(zhǔn)誤.= = 10/5 = 2這里的臨界區(qū)域是什么? 這是個(gè)單尾考驗(yàn).所以,查正態(tài)分布表, 得到對(duì)應(yīng) = 0.05
58、的區(qū)域z = 1.65 (保守的, 實(shí)際是 1.645)將其轉(zhuǎn)換為樣本 均值= Z + = (1.65)(2)+65 = 68.3因此,對(duì)于X = 69, 應(yīng)當(dāng)拒絕H0處理這一問題的另一個(gè)辦法是應(yīng)用 z分?jǐn)?shù).因?yàn)槲覀冎缹?duì)應(yīng)于臨界區(qū)域的z分?jǐn)?shù)是 1.65, 這樣我們 只需要計(jì)算對(duì)應(yīng)于這一樣本均值的 z分?jǐn)?shù),來看它是否 is 大于或小于這一臨界z分?jǐn)?shù).Z = = (69 - 65) / 2 = 2.0 因?yàn)?Z臨界, 那么,我們可以拒絕 H0在這個(gè)例子中, 我們假設(shè)處理會(huì)在某一特定方向上造成差異 (即,處理會(huì)使均值增加).但是,假設(shè)檢驗(yàn)最提出的方式是作一個(gè)更一般的假設(shè):處理應(yīng)當(dāng)改變均值, 或增加
59、或減少.雙尾考驗(yàn)總體 樣本 總體 = 65, = 10. 假定抽取一個(gè)樣本 n = 25, 對(duì)其進(jìn)行處理后得到 = 69.處理有沒有效果? 會(huì)影響總體中的個(gè)體嗎?應(yīng)當(dāng)考察哪個(gè)樣本? 還是總體?還是樣本均值?樣本 均值 的樣本應(yīng)該考察 樣本均值.在樣本中找到樣本均值.查該樣本得到等于或大于這個(gè)均值的概率假定 = 0.05再假定我們的備擇假設(shè)是-處理應(yīng)當(dāng)改變操作成績,所以我們要作 雙尾考驗(yàn)?,F(xiàn)在我們需要求標(biāo)準(zhǔn)誤.= = 10/5 = 2這里的臨界區(qū)域是什么? 這是個(gè)雙尾考驗(yàn).所以,查正態(tài)分布表, 得到對(duì)應(yīng) = 0.05的區(qū)域z = 1.96將其轉(zhuǎn)換為樣本 均值= Z + = (1.96)(2)+6
60、5 = 68.9因此,對(duì)于X = 69, 應(yīng)當(dāng)拒絕H0假設(shè)檢驗(yàn)的前提1) 隨機(jī)樣本 - 樣本必須對(duì)總體有代表性。隨機(jī)取樣有助于確保取樣的代表性.2) 獨(dú)立觀察 也與樣本代表性有關(guān), 每個(gè)觀察應(yīng)該與所有其它觀察是獨(dú)立的。一個(gè)特定的觀察的概率應(yīng)當(dāng)保持恒定. 3) 已知且保持恒定 - 原總體的標(biāo)準(zhǔn)差必須保持恒定. 為什么? 一般的說,處理就是假定對(duì)總體中的每一個(gè)個(gè)體都加上(或減去) 一個(gè)常數(shù)。所以總體的均值可能因處理而導(dǎo)致變化。但是, 記住對(duì)每一個(gè)個(gè)體都加上(或減去)一個(gè)常數(shù) 并不改變其標(biāo)準(zhǔn)差. 4)取樣樣本是相對(duì)正態(tài)的 或者因?yàn)樵加^察的樣本是相對(duì)正態(tài)的, 或者因?yàn)橹行臉O限定理(或二者都有).違反
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)星遙感數(shù)據(jù)分析師崗位面試問題及答案
- 2025屆湖南省瀏陽一中、株洲二中等湘東五校高二下化學(xué)期末教學(xué)質(zhì)量檢測(cè)試題含解析
- 2025屆遼寧省本溪市高一化學(xué)第二學(xué)期期末教學(xué)質(zhì)量檢測(cè)模擬試題含解析
- 2025屆廣東省河源市連平縣連平中學(xué)高一下化學(xué)期末教學(xué)質(zhì)量檢測(cè)試題含解析
- 2025屆河北省石家莊市新樂培英中學(xué)高一化學(xué)第二學(xué)期期末綜合測(cè)試試題含解析
- 園區(qū)管理辦法教案小班
- 機(jī)場(chǎng)應(yīng)急預(yù)案管理辦法
- 智能投顧技術(shù)演進(jìn)-洞察及研究
- 建筑文明施工方案
- 發(fā)票管理辦法發(fā)票使用
- 地方病防治技能理論考核試題
- 建筑工程混凝土工程技術(shù)交底1
- 人教版高一下學(xué)期期末考試數(shù)學(xué)試卷與答案解析(共五套)
- DB43-T 2927-2024 中醫(yī)護(hù)理門診建設(shè)與管理規(guī)范
- 公安流動(dòng)人口管理課件
- 老人失能評(píng)估培訓(xùn)課件
- 油浸式變壓器操作規(guī)程培訓(xùn)
- 工作匯報(bào)技巧培訓(xùn)課件
- 護(hù)理用藥安全與管理61176課件
- 生活垃圾滲濾液處理工藝及運(yùn)行成本分析
- 機(jī)電設(shè)備技術(shù)服務(wù)合同
評(píng)論
0/150
提交評(píng)論