甘怡群教授心理統(tǒng)計(jì)講義

上傳人：共*** IP屬地：四川上傳時(shí)間：2022-09-16 格式：DOCX 頁數(shù)：98 大小：385.79KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩93頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、PAGE PAGE 98第一章統(tǒng)計(jì)和度量的基本概念統(tǒng)計(jì) (Statistics) 指組織，總結(jié)和解釋信息的一整套方法和規(guī)則?？傮w（population）- 特定研究所關(guān)注的所有個(gè)體的集合。樣本（sample）- 從總體中選擇出的個(gè)體的集合，應(yīng)該能代表研究的總體。參數(shù)（parameter）- 描述總體的數(shù)值。參數(shù)可以從一次測(cè)量中獲得，或者從總體的一系列測(cè)量中推論得到統(tǒng)計(jì)量（statistic）描述樣本的數(shù)值。統(tǒng)計(jì)量可以從一次測(cè)量中獲得，或者從樣本的一系列測(cè)量中推論得到。數(shù)據(jù)（Data）測(cè)量或觀察所得。描述統(tǒng)計(jì)（Descriptive statistics）總結(jié)，組織，和使數(shù)據(jù)簡單化統(tǒng)計(jì)

2、程序。推論統(tǒng)計(jì)（Inferential statistics）使我們能夠通過對(duì)樣本的研究將其結(jié)果推廣于總體。取樣誤差（Sampling error）樣本統(tǒng)計(jì)量與相應(yīng)的總體參數(shù)之間的差距。隨機(jī)取樣（random sampling）從總體抽取樣本的一種策略，要求總體中的每一個(gè)體被抽到的機(jī)會(huì)均等。用隨機(jī)取樣法得到的樣本叫做隨機(jī)樣本.變量（variable）是一種特征或條件，其本身是變化的或?qū)Σ煌膫€(gè)體有不同的值。常數(shù)（constant）是一種特征或條件，其本身是不變的且對(duì)不同的個(gè)體的值也相同。自變量（independent variable）被研究者操縱的變量. 在行為科學(xué)研究中，自變量常

3、常包括兩個(gè)（或更多）的處理?xiàng)l件。因變量（dependent variable）被觀測(cè)的變量，其變化被用來評(píng)價(jià)處理的效果。相關(guān)法（correlational method）看兩個(gè)變量是否有某種特定關(guān)系。實(shí)驗(yàn)法（experimental method）操縱一個(gè)變量，觀測(cè)另外一個(gè)變量的變化。用以建立兩個(gè)變量間的因果關(guān)系。實(shí)驗(yàn)法用隨機(jī)分組和控制其他變量恒定的方法，試圖消除其他因素的影響或使之減為最小。準(zhǔn)實(shí)驗(yàn)法（quasi-experimental method）考察已有的各組被試間的差別（如性別差異）或在不同時(shí)間所采集數(shù)據(jù)的差異(如, 處理前和處理后). 這里的分組變量稱準(zhǔn)自變量, 每個(gè)被試的分

4、數(shù)稱因變量?？刂平M（control group）是自變量的一種處理方法，此組被試不接受任何實(shí)驗(yàn)處理. 有時(shí)控制組被試接受一種中性處理或安慰劑。其目的是提供一個(gè)與實(shí)驗(yàn)組對(duì)照的基線水平。實(shí)驗(yàn)組（experimental group）此組被試接受某種實(shí)驗(yàn)處理?；煜兞浚╟onfounding variable）未能控制的變量，與自變量有非預(yù)期的系統(tǒng)性關(guān)系。假設(shè)（hypothesis）對(duì)實(shí)驗(yàn)結(jié)果的預(yù)測(cè)。在實(shí)驗(yàn)研究中, 假設(shè)就是對(duì)操縱自變量會(huì)如何影響因變量的預(yù)測(cè)。構(gòu)念（Constructs）指假設(shè)的概念，用于理論中，按其內(nèi)部機(jī)制來組織觀察。操作定義（operational definition

5、）用具體的操作或程序以及由此產(chǎn)生的測(cè)量指標(biāo)來定義構(gòu)念。因此, 一個(gè)操作定義包含兩個(gè)成分：1）它描述了度量一個(gè)構(gòu)念的一系列操作或程序；2）它用度量的結(jié)果來定義構(gòu)念。命名量表（nominal scale）由一系列具不同名稱的范疇所組成。命名量表的度量將觀察所得標(biāo)定并分類, 但不會(huì)對(duì)觀察所得作任何數(shù)量化的區(qū)分（無大小之分）。順序量表（ordinal scale）由一系列按順序排列的范疇所組成。順序量表的度量將觀察所得按其大小或數(shù)量排定秩次（rank）。等距量表（interval scale）由一系列按順序排列的范疇所組成，且每兩個(gè)鄰近范疇之間的距離都是相等的。在等距量表中，加減運(yùn)算反映數(shù)目的

6、大小差距. 但是，乘除運(yùn)算沒有任何意義。比例量表（ratio scale）是具有絕對(duì)零點(diǎn)的等距量表. 在比例量表中，乘除運(yùn)算反映數(shù)量間的比例關(guān)系。離散型變量（discrete variable）由分離的，不可分割的范疇組成。在鄰近范疇之間沒有值存在。連續(xù)型變量（continuous variable）在任何兩個(gè)觀測(cè)值之間都存在無限多個(gè)可能值。連續(xù)型變量可以分割成無限多個(gè)組成部分。統(tǒng)計(jì)中常用的符號(hào)求和符號(hào) summation N = 群體大小（參數(shù)）n = 樣本容量（統(tǒng)計(jì)量）第二章次數(shù)分布次數(shù)分布綜述次數(shù)分布表次數(shù)分布圖次數(shù)分布的形狀莖和葉圖百分位數(shù)，百分位等級(jí)，插值法次數(shù)分布綜述描

7、述統(tǒng)計(jì)的目的：簡化和整理數(shù)據(jù)的表達(dá)。次數(shù)分布表和次數(shù)分布圖就是表達(dá)一組數(shù)據(jù)是如何在某一度量上分布的。次數(shù)分布：是指一批數(shù)據(jù)在某一量度的每一個(gè)類目所出現(xiàn)的次數(shù)情況組織此類數(shù)據(jù)的第一種方法是：建立次數(shù)分布表次數(shù)分布表次數(shù)分布表的要素變量的值? -填充x列每個(gè)值出現(xiàn)多少次（發(fā)生次數(shù)）? -填充f列觀察的總數(shù)？將次數(shù)行求和, 將得到 f = N變量的總值？最簡單的方法就是求(X) 和 (f) 的乘積列，然后將結(jié)果求和 (Xf )例1：對(duì)于下面的次數(shù)分布表：此分布中共有幾個(gè)分?jǐn)?shù) （N = ？）對(duì)這些分?jǐn)?shù)求和 Xxf42342513例2：某個(gè)班的26個(gè)學(xué)生在一次測(cè)驗(yàn)中的分?jǐn)?shù)如下（10分為滿分）：9，2

8、，3，8，10，9，9，2，1，2，9，8，2，5，2，9，9，3，2，5，7，2，10，1，2，9將這些分?jǐn)?shù)作成一個(gè)次數(shù)分布表xf比例 (相對(duì)次數(shù)；Proportions). 全組中有多大比例取值為X? p = f / N （N = 觀察的總數(shù)）.百分比 (Percentages). 全組中有多大比例取值為X? p * 100分組次數(shù)分布表常常以區(qū)間的形式出現(xiàn), 而不是某一特定值. 例如學(xué)生成績, (A = 90-100, B = 80-89, .).編制分組次數(shù)分布表的步驟求全距定組數(shù)定組距寫出區(qū)間上下限統(tǒng)計(jì)每個(gè)區(qū)間的次數(shù)建構(gòu)這些區(qū)間有一系列的“慣常法則”（rules of thumbs）

9、分組次數(shù)分布表應(yīng)該有大約10個(gè)區(qū)間，目的是使這組數(shù)據(jù)易于直觀感受和理解組距應(yīng)該是個(gè)比較簡單的數(shù)字，如2，5，10，20每個(gè)區(qū)間開始的分?jǐn)?shù)應(yīng)該是組距的倍數(shù)所有區(qū)間的寬度應(yīng)該相等次數(shù)分布圖次數(shù)分布的數(shù)據(jù)可以用圖簡明地概括直方圖 (histogram）:用一些垂直條畫在每個(gè)分?jǐn)?shù)之上垂直條的高度代表次數(shù)垂直條的寬度代表分?jǐn)?shù)的精確區(qū)間.只有數(shù)據(jù)是等距或等比量度時(shí)，才能用直方圖注意：對(duì)于一個(gè)連續(xù)變量, 每個(gè)分?jǐn)?shù)實(shí)際對(duì)應(yīng)一段組距. 分割這些組距的界限叫做精確界限（real limits）. 分割兩個(gè)鄰近分?jǐn)?shù)的精確界限位于兩個(gè)分?jǐn)?shù)的中間。每個(gè)分?jǐn)?shù)有兩個(gè)精確界限, 一個(gè)在組距的頂端，稱為精確上限（upper r

10、eal limit）, 另一個(gè)在組距的底端，稱為精確下限（lower real limit）.注意一個(gè)組距的精確上限也是高一個(gè)組距的精確下限。例3：繪制一個(gè)直方圖來表達(dá)例2的分布水平軸 - X 軸（abscissa） - X 的值垂直軸 - Y 軸（ordinate） - 次數(shù)棒圖（條形圖；bar graph）: 用一些垂直條畫在每個(gè)分?jǐn)?shù)(或類別)之上垂直條的寬度代表分?jǐn)?shù)的精確區(qū)間.垂直條的高度代表次數(shù)每個(gè)垂直條之間有一段空間。只有數(shù)據(jù)是命名或順序量度時(shí)，才能用棒圖- 作全班同學(xué)家鄉(xiāng)地區(qū)的棒圖次數(shù)分布的形狀用3個(gè)特征可以完整地描述一個(gè)分布：形狀（shape）, 集中趨勢(shì)（central

11、tendency）, 和變異性（variability）.對(duì)稱分布（symmetrical distribution）：可以畫一條垂直線穿過分布的中央，使得分布的一邊恰是另一邊的鏡象。偏態(tài)分布（skewed distribution）中, 分?jǐn)?shù)堆積在分布的一端，而另一端成為比較尖細(xì)的尾端（tail）。偏態(tài)分布尾端向右的稱為正偏態(tài)（positively skewed ）(因?yàn)槠湮捕酥赶蛘龜?shù))偏態(tài)分布尾端向左的稱為負(fù)偏態(tài)（negatively skewed）.如何描述例2-例3分布的形狀？從整體上說，這個(gè)班的學(xué)生測(cè)驗(yàn)情況怎么樣？大部分分?jǐn)?shù)是偏高還是偏低？測(cè)驗(yàn)容易還是簡單？雙峰分布莖和葉圖莖和葉圖

12、（stem and leaf display）- 將每一數(shù)字分解為左邊部分（稱為莖）和右邊部分（稱為葉）. 如果數(shù)字是兩位數(shù)，左邊的一位就是莖，右邊的一位就是葉.例4：考察下列莖和葉圖：8765432271458630241693265以10為組距寬度，作相應(yīng)的分組次數(shù)分布表以10為組距寬度，作相應(yīng)的次數(shù)分布直方圖如果給定分組次數(shù)分布表，能否作出莖和葉圖？為什么？百分位數(shù)以上是描述觀察的整體，而我們也可用次數(shù)分布來描述某一個(gè)別點(diǎn)在一個(gè)集合中的位置一個(gè)分?jǐn)?shù)的等級(jí)（rank）或百分位數(shù)等級(jí)（percentile rank）：某一分布中分?jǐn)?shù)在某一值之下或等于該值的個(gè)體所占的百分比.例4：此表

13、是一次詞匯測(cè)驗(yàn)的分?jǐn)?shù):_Xf p%cfc%52.05540100410.25253895316.4040287028.2020123014.1010410cf = 累積次數(shù)（cumulative frequency）c% = 累積百分比（cumulative percentage）95百分位數(shù)等級(jí)的所對(duì)應(yīng)的測(cè)驗(yàn)分?jǐn)?shù)是多少?如果你在測(cè)驗(yàn)中得到4分, 你的百分位數(shù)等級(jí)是多少?如何確定百分位數(shù)注意: 對(duì)于連續(xù)型數(shù)據(jù), 必須考慮其精確上限和精確下限-對(duì)于分?jǐn)?shù)4, 其對(duì)應(yīng)的累積百分比是 95%.但注意：分?jǐn)?shù)4意味著一個(gè)人得分在3.5 和 4.5之間. 累積百分比表明組距的精確上限。因此，95 的百分位數(shù)

14、是與4.5 相對(duì)應(yīng)（而不是 4.0）.找出分布中4分的精確上限和精確下限的累積次數(shù).- 對(duì)于分?jǐn)?shù)4.5, 其對(duì)應(yīng)的累積百分比是95對(duì)于分?jǐn)?shù)3.5, 其對(duì)應(yīng)的累積百分比是70對(duì)于分?jǐn)?shù)4.0, 其對(duì)應(yīng)的累積百分比是多少呢？插值法（Interpolation） - 有時(shí)你所感興趣的值并未出現(xiàn)在表內(nèi)。此時(shí)你需要做基于經(jīng)驗(yàn)的猜測(cè). 其中的一個(gè)方法是插值法。早上8:00 溫度是20度，到中午12:00溫度是28度上午9:00是多少度呢?步驟：找出兩個(gè)量數(shù)組距的寬度如, 時(shí)間 8 到 12點(diǎn)；溫度60 到68 度4 小時(shí)； 8 度找出組距中已知值的位置=已知值與組距頂端的距離/ 組距寬度= 12：00 -

15、9:00 = 3小時(shí) / 4 小時(shí) = .753) 用所得位置 (分?jǐn)?shù)) 來確定另一量表中對(duì)應(yīng)的所求值與組距頂端的距離= (分?jǐn)?shù)) X (另一量表組距寬度)= .75 X 8 度 = 6 度再求得插入值- 28 - 6 = 22 度（9:00的溫度）例4：_Xf p%cfc%52.05540100410.25253895316.4040287028.2020123014.1010410- 對(duì)于分?jǐn)?shù)4.5, 其對(duì)應(yīng)的累積百分比是95對(duì)于分?jǐn)?shù)3.5, 其對(duì)應(yīng)的累積百分比是70對(duì)于分?jǐn)?shù)4.0, 其對(duì)應(yīng)的累積百分比是X？第三章集中趨勢(shì)（Central Tendency）內(nèi)容均值 (mean)中數(shù)

16、(median)眾數(shù) (mode)選擇適當(dāng)?shù)募辛繑?shù)集中趨勢(shì)與分布形狀學(xué)習(xí)目標(biāo)學(xué)會(huì)計(jì)算均值，中數(shù)和眾數(shù)對(duì)于給定的分?jǐn)?shù)分布，確定如何選用適宜的集中量數(shù)集中趨勢(shì)目的：選擇一個(gè)最能代表整個(gè)分布的數(shù)值三種集中趨勢(shì)量數(shù)1均值（Mean）算術(shù)平均數(shù)（arithmetic average）總體的均值公式: = X/ N樣本的均值公式: x = X /n如何計(jì)算分布的均值：公式: = X / N =均值具有下列特征:1) 如果改變一個(gè)給定的分?jǐn)?shù)，增加一個(gè)被試, 或減少一個(gè)被試, 均值應(yīng)當(dāng)有變化.2) 如果對(duì)每一個(gè)分?jǐn)?shù)都加上 (或減去) 一個(gè)常數(shù), 均值也會(huì)加上 (或減去) 這個(gè)常數(shù)。3) 如果對(duì)每一個(gè)分?jǐn)?shù)都

17、乘以 (或除以) 一個(gè)常數(shù), 均值也會(huì)加上 (或減去) 這個(gè)常數(shù)。2中數(shù)（median）中數(shù)（median）是將分?jǐn)?shù)分布均分為兩部分的那個(gè)分?jǐn)?shù). 分布有50% 的個(gè)體等于或小于中數(shù). 中數(shù)等價(jià)于百分位數(shù)（percentile）是50.如何計(jì)算中數(shù)?1)如果分?jǐn)?shù)的個(gè)數(shù)是奇數(shù)個(gè),將其按從小到大的順序排列. 找出中間的分?jǐn)?shù)2)如果分?jǐn)?shù)的個(gè)數(shù)是偶數(shù)個(gè),將其按從小到大的順序排列.然后找出中間的兩個(gè)分?jǐn)?shù)。將其相加后再除以23)當(dāng)分布的中間分?jǐn)?shù)有相等的分?jǐn)?shù)時(shí)，用中間分?jǐn)?shù)的精確上下限作插值法例：計(jì)算下列連續(xù)型變量的中數(shù)8, 10, 12, 15, 18, 19, 608, 10, 12, 15, 16, 1

18、8, 19, 608, 10, 12, 15, 15, 15, 18, 18, 19, 60_X f%c%60110100191108018220701533060？50121103010110208110103. 眾數(shù) （mode）在次數(shù)分布中, 眾數(shù)是具有最多次數(shù)的那個(gè)分?jǐn)?shù)或類目。眾數(shù)是 5注意：一個(gè)次數(shù)分布可能有多個(gè)眾數(shù).眾數(shù)是2 和 8如何選擇適當(dāng)?shù)募辛繑?shù)？均值：是首選, 它考慮了分布中的每一個(gè)分?jǐn)?shù), 與分布的變異性也有關(guān)系。但在下列情況它未必適合：眾數(shù)：對(duì)于命名型量表無法計(jì)算均值和中數(shù), 只能用眾數(shù)作集中量數(shù)。中數(shù)：在下列情況中數(shù)最為適合:在分布中有少數(shù)極端值 (有長尾的偏態(tài)分布

19、)有未確定的值所考察分布是 open-ended - (如. 問卷中有個(gè)選項(xiàng) 5個(gè)或更多)4) 如果數(shù)據(jù)是順序量表.分布形狀與集中趨勢(shì)量數(shù)的關(guān)系對(duì)稱分布？正偏態(tài)分布？負(fù)偏態(tài)分布？對(duì)稱的雙峰分布？第四章差異量數(shù)（Variability）分布的第三個(gè)特征變異性（Variability）.變異數(shù)是對(duì)于分布的延伸和聚類狀態(tài)程度的定量化描述變異數(shù)越高，表明分?jǐn)?shù)間的差別大, 變異數(shù)越高，表明分?jǐn)?shù)間越近似.三種變異數(shù)：全距（range）, 標(biāo)準(zhǔn)差（standard deviation）, 和四分位距（interquartile range）.全距（range）-全距是分布分?jǐn)?shù)最大值(maximu

20、m) X的精確上限與分布分?jǐn)?shù)最小值(minimum) X 的精確下限的差值。注意：如果分?jǐn)?shù)是連續(xù)型，必須用精確上下限。_Xfcfc%10225100982392841560761144645205114若 X是離散型:range =？若 X是連續(xù)型:range =？用全距描述分?jǐn)?shù)變異性的局限：- 該統(tǒng)計(jì)量只依據(jù)分布中的兩個(gè)極端值，未利用到分布的大部分信息.四分位距（interquartile range）度量變異數(shù)的另一種方法.- 50%，25%和75%的百分位數(shù)代表什么？- 用50%，25%和75%的百分位數(shù)分布被分成4部分_X f%c%7412.5 1006412.5 87.55412.5

21、75825 62.53412.5 37.52412.5251412.5 12.5四分位距就是75%百分位數(shù)與25%百分位數(shù)間的距離. 它代表分布中間50%的距離.如果上例是連續(xù)型變量，median = Q2 = 4.0 - 用插入法 25%tile = Q1 = 2.5 - 區(qū)間2 的精確上限75%tile = Q3 = 5.5 - 區(qū)間5 的精確上限四分位距 (IQR) = 5.5 - 2.5 = 3.0semi-interquartile range：四分位距的一半（interquartile range）.SIQR = (Q3 - Q1)2第四講標(biāo)準(zhǔn)差和 Z分?jǐn)?shù)學(xué)習(xí)重點(diǎn)方差/標(biāo)準(zhǔn)差的邏

22、輯步驟和方的定義公式和計(jì)算公式總體和樣本的方差總體和樣本的標(biāo)準(zhǔn)差自由度計(jì)算Z分?jǐn)?shù)根據(jù) Z分?jǐn)?shù)推知原始分?jǐn)?shù)標(biāo)準(zhǔn)分布及其應(yīng)用標(biāo)準(zhǔn)差 (standard deviation)量度了分布中的每一個(gè)個(gè)體與某一標(biāo)準(zhǔn)偏移的距離，這個(gè)標(biāo)準(zhǔn)就是均值。最重要，最常用的差異量數(shù).考慮了分布中的所有信息方差/標(biāo)準(zhǔn)差的邏輯步驟1.離差X - = 離差分?jǐn)?shù)（deviation score）例: 全班男同學(xué)的體重（公斤）69, 67, 72, 74, 63, 67, 64, 61, 69, 65, 70, 60, 75, 73, 63, 63, 69, 65, 64, 69, 65mean = = 67 (X - ) =

23、 (69 - 67) + (67 - 67) + + 65 - 67) = ?= 2+ 0 +5 +7+ -4 +0+ -3 +-6 +2 + -2 +3 + -7 + 8 +6 + -4 + -4 +2 + -2 + -3 +2 + -2 = 0注意：如果分?jǐn)?shù)的值大于均值，離差是正數(shù)如果分?jǐn)?shù)的值小于均值，離差是負(fù)數(shù)離差的和必定為0。因此，要去掉符號(hào). 將離差平方，再取其和的平方根。2 . 和方和方的操作定義：SS = (X - )2xX -(X -)269246700SS = 362和方的計(jì)算公式為:SS = X2 - (X)2N此二者為等價(jià)。計(jì)算公式的優(yōu)點(diǎn)為可直接利用 X 值。上例中:X

24、X21643876 X= X2 =SS = X2 - (X)2N注意：以下方差/標(biāo)準(zhǔn)差部分，總體和樣本有區(qū)別3總體方差和標(biāo)準(zhǔn)差總體方差（Population Variance）：和方的平均，即和方除以總體的容量.總體方差= 2 = SS/N總體標(biāo)準(zhǔn)差:將總體方差求平方根。standard deviation = sqroot(variance) = sqroot(SS/N) = sqroot()上例中:2 = ？ = ？求總體標(biāo)準(zhǔn)差步驟:step 1: 計(jì)算和方 SS- 可用定義公式或計(jì)算公式step 2: 確定方差- 計(jì)算均方- 將 SS 除以 Nstep 3: 確定標(biāo)準(zhǔn)差取方差的平方根

25、樣本的方差和標(biāo)準(zhǔn)差注意與總體標(biāo)準(zhǔn)差的不同:s =樣本的標(biāo)準(zhǔn)差（sample SD）用（不是）來計(jì)算SS需要考慮樣本常常比其所屬的總體較少變異性，標(biāo)準(zhǔn)差的計(jì)算需做校正.- 如果樣本有代表性, 那么樣本與總體的就會(huì)非常近似, 兩個(gè)分布的形狀也應(yīng)該近似。但是, 樣本的變異程度仍然低于總體的變異程度.- 因此，樣本方差的分母是n - 1 而不是 nsample variance = s2 = _SS _n - 1- 對(duì)于樣本標(biāo)準(zhǔn)差也是同樣sample standard deviation = s = sqroot(SS/(n - 1)用n-1 作分母，意思是利用自由度來校正樣本離差，以利于對(duì)總體

26、參數(shù)的無1偏差估計(jì)。自由度n - 1意思是除了一個(gè)值，其余都可變化。如: sample mean =5，如果前4 個(gè)分?jǐn)?shù)是: 5, 4, 6, 2 最后一個(gè)是什么?5 + 4 + 6 + 2 + X = 25X = 8X必須固定在8。例1：求標(biāo)準(zhǔn)差: 1, 2, 3, 4, 4, 5, 6, 7第一步: 計(jì)算和方列表：第二步: 確定樣本方差sample variance = s2 = _SS_n - 1= 28/(8-1) = 28/7 = 4.0第三步: 確定樣本的標(biāo)準(zhǔn)差standard deviation= sqroot(SS/(n - 1)= sqroot(28/(8 - 1)= sqr

27、oot 4.0 = 2.0粗略估計(jì)均值和標(biāo)準(zhǔn)差 = ? = ?標(biāo)準(zhǔn)差的性質(zhì)1) 對(duì)分布中的每一個(gè)分?jǐn)?shù)加上一個(gè)常數(shù)不會(huì)改變其標(biāo)準(zhǔn)差.2) 對(duì)分布中的每一個(gè)分?jǐn)?shù)乘上一個(gè)常數(shù)，所得分布的標(biāo)準(zhǔn)差是原分布的標(biāo)準(zhǔn)差乘上這個(gè)常數(shù).比較三種離中量數(shù)極端分?jǐn)?shù): 全距（range）受影響最大, IQR 受影響最小樣本大小: 全距（range）可能隨n 的增加而增加 , IQR & s 不會(huì)樣本選?。簭耐豢傮w中多次取不同樣本，全距（range）沒有穩(wěn)定的值, 但 IQR 和 S 是穩(wěn)定的，不應(yīng)波動(dòng)很大。- 對(duì)于有不確定值的分布, 全距或 S 都無法求得, IQR (或SIQR) 是唯一的選擇。Z 分?jǐn)?shù)（Z

28、-Scores）: 分?jǐn)?shù)的位置和標(biāo)準(zhǔn)分布Z 分?jǐn)?shù)的目標(biāo)：對(duì)分布中的每一個(gè)原始分?jǐn)?shù)，描述其在分布中的位置。參照點(diǎn)：均值用離差(x - ) 或 (x - )描述分?jǐn)?shù)的位置當(dāng)只涉及一個(gè)分布時(shí)，用離差是簡便易行的. 但當(dāng)我們需要比較兩個(gè)不同分布中的分?jǐn)?shù)的相對(duì)位置, 用離差就不夠了.用Z 分?jǐn)?shù)描述分?jǐn)?shù)的位置例：你參加了ACT和SAT 兩種測(cè)驗(yàn). ACT：26 SAT：620。申請(qǐng)學(xué)校只需任選寄送其中一種，你會(huì)送哪一種？直接的比較不可能，因?yàn)閮蓚€(gè)分?jǐn)?shù)分布的均值和標(biāo)準(zhǔn)差不同.看分布圖，將兩個(gè)分?jǐn)?shù)定位再試圖比較還是很困難計(jì)算百分位數(shù)等級(jí)（percentile ranks）計(jì)算標(biāo)準(zhǔn)差要比較兩個(gè)分布，一個(gè)方

29、法就是將兩個(gè)分布都轉(zhuǎn)換成標(biāo)準(zhǔn)分布。標(biāo)準(zhǔn)分布（standardized distribution）由轉(zhuǎn)換分?jǐn)?shù)組成，和已經(jīng)確定,而無論其原始分?jǐn)?shù)如何. 其作用是使不同的分布有可比性?？蓪⑵滢D(zhuǎn)換為Z分?jǐn)?shù). 這里需要做的是將每個(gè)分?jǐn)?shù)轉(zhuǎn)換為z-score, 從而將整個(gè)分布標(biāo)準(zhǔn)化.標(biāo)準(zhǔn)分?jǐn)?shù)（standard score） is 是一種轉(zhuǎn)換分?jǐn)?shù)提供其分布位置的信息. Z 分?jǐn)?shù)是標(biāo)準(zhǔn)分?jǐn)?shù)的一種。z-score 指出了每個(gè)X 值在分布中的精確位置。z-score 的符號(hào)(+ 或 -) 表明其比均值大或小. z-score 的數(shù)值部分用X 與 .間標(biāo)準(zhǔn)差個(gè)數(shù)的形式指出了其與均值的距離。對(duì)于Z分?jǐn)?shù)分布， mea

30、n = 0，standard deviation =1.Z分?jǐn)?shù)為 1, 表示數(shù)據(jù)點(diǎn)恰位于均值的一個(gè)標(biāo)準(zhǔn)差之上。Z分?jǐn)?shù)為 -1, 表示數(shù)據(jù)點(diǎn)恰位于均值的一個(gè)標(biāo)準(zhǔn)差之下。如何轉(zhuǎn)換?populationsampleZ = deviation=standard deviation=如果總體/樣本的均值和標(biāo)準(zhǔn)差已知，分布中的所有原始分?jǐn)?shù)都可轉(zhuǎn)換為 Z分?jǐn)?shù)。如果分布中的總體/樣本的均值和標(biāo)準(zhǔn)差已知，Z分?jǐn)?shù)也可轉(zhuǎn)換回原始分?jǐn)?shù)。Z = (X - ) - (Z)( ) = (X - ) - X = (Z)( ) + 如果某人說他的SAT 分?jǐn)?shù)高于均值 2 SD。他得了多少分?Z分?jǐn)?shù)分布的屬性形狀 - Z分?jǐn)?shù)分布

31、的形狀與原始分?jǐn)?shù)分布完全相同。每個(gè)分?jǐn)?shù)所在的相對(duì)位置亦完全相同。均值- 當(dāng)原始分?jǐn)?shù)轉(zhuǎn)換成Z分?jǐn)?shù), mean = 0.標(biāo)準(zhǔn)差 -當(dāng)原始分?jǐn)?shù)轉(zhuǎn)換成Z分?jǐn)?shù), standard deviation = 1.轉(zhuǎn)換程序?qū)嶋H上是對(duì)分布軸的一種重新標(biāo)定。- 將X 軸中心重新標(biāo)定為0，再將每個(gè)SD 間隔標(biāo)定為1.例: 美國男人的身高和體重personheight weight166203 2711743742234691755701446742197731848692379692041075237sum7102000height2 weight24356 412095041 302765476497294761

32、3062549002073654764796153293385647615616947614161656255616950,486 408,346height = 710 / 10 = 71.0SS = 50486 - (710)2 / 10 = 76.0 = 2.8weight = 2000 / 10 = 200.0SS = 408346 - (2000)2 / 10 = 8346.0 = 28.9Z = (X - ) Z1 = (66 - 71)/2.8 = -1.8 Z2 = (71 - 71)/2.8 = 0 Z3 = (74 - 71)/2.8 = 1.1 Z4 = (69 - 71

33、)/2.8 = -0.7 Z5 = (70 - 71)/2.8 = -0.4 Z6 = (74 - 71)/2.8 = 1.1 Z7 = (73 - 71)/2.8 = 0.7 Z8 = (69 - 71)/2.8 = -0.7 Z9 = (69 - 71)/2.8 = -0.7 Z10 = (75 - 71)/2.8 = 1.4Z = (X - ) Z1 = (203 - 200)/28.9 = 0.1 Z2 = (174 - 200)/28.9 = -0.9 Z3 = (223 - 200)/28.9 = 0.8 Z4 = (175 - 200)/28.9 = -0.9 Z5 = (144

34、 - 200)/28.9 = -1.9 Z6 = (219 - 200)/28.9 = 0.7 Z7 = (184 - 200)/28.9 = -0.6 Z8 = (237 - 200)/28.9 = 1.3 Z9 = (204 - 200)/28.9 = 0.1 Z10 = (237 - 200)/28.9 = 1.3the sums of the z-scores = 0 ； mean of the z-scores = 0the standard deviations = 1這樣我們可以比較每個(gè)人身高和體重各自的相對(duì)位置Person #4: Person # 8:第六講: 概率（Prob

35、ability）概率簡介概率與正態(tài)分布百分位點(diǎn)和百分位等級(jí)概率與二項(xiàng)分布概率（Probability）推論統(tǒng)計(jì)所必需的概念, 根據(jù)樣本的信息對(duì)總體作出判斷。在可能有幾種后果發(fā)生的情況下，概率被定義為某一種后果發(fā)生的可能性大小. 如果幾種后果分別是A, B, C, D, 等等，那么:概率 of A = A后果的次數(shù) = f / N所有可能后果次數(shù)的總和為獲得正確定義的概率, 個(gè)體的選取 (取樣) 一定要通過隨機(jī)取樣隨機(jī)取樣應(yīng)滿足以下兩個(gè)條件:總體中的每個(gè)個(gè)體有同樣的機(jī)會(huì)被選擇如果樣本中要選擇多于一個(gè)的個(gè)體，每次選擇的概率應(yīng)當(dāng)恒定回置取樣（Sampling with replacement） -

36、一種取樣方法，在選擇下一個(gè)個(gè)體（下次取樣之前），將每個(gè)已選擇個(gè)體放回總體之中次數(shù)分布與概率的關(guān)系_Xf_p_52 .05410.25316.4028.2014.10此表中比率欄與概率相同. 此比率對(duì)應(yīng)這些間隔中曲線下方的面積。選擇到3的概率是多少?p (3) = f / N = 16 / 40 = .40選擇到5的概率是多少?p(5) = f / N = 2 / 40 = .05選擇到大于2的值的概率是多少?p(X 2) = ?.05 + .25 + .40 = .70選擇到小于5的值的概率是多少?p(X X 1) = ?.20 + .40 = .60概率與正態(tài)分布（Normal Distr

37、ibution）正態(tài)分布是最常見的分布，單峰和具對(duì)稱性. 它可定義為下列方程:Y = 正態(tài)分布的注意點(diǎn)并非所有的單峰，對(duì)稱曲線都是正態(tài)分布，但很多是在本課程中, 無須擔(dān)心所研究分布與正態(tài)分布有多接近, 在本課程所遇到的問題中，多數(shù)情況下，分布是正態(tài)上述的平滑的曲線是指密度曲線 (而并非次數(shù)曲線)曲線下方的面積總和必定為1. 因?yàn)?曲線下方的面積相當(dāng)于概率 (或比率)總概率應(yīng)當(dāng)?shù)扔?1.正態(tài)分布常常轉(zhuǎn)換為 z分?jǐn)?shù).對(duì)于一個(gè)正態(tài)分布:34.13% 的分?jǐn)?shù)會(huì)落入均值與一個(gè)標(biāo)準(zhǔn)差之間.13.59% 的分?jǐn)?shù)會(huì)落入第一個(gè)標(biāo)準(zhǔn)差與第二個(gè)標(biāo)準(zhǔn)差之間。2.28% 的分?jǐn)?shù)會(huì)落入第二個(gè)標(biāo)準(zhǔn)差與第三個(gè)標(biāo)準(zhǔn)差之間

38、。一個(gè)重要的工具是正態(tài)分布表. 在大部分教科書的附錄中 (pg. 414). 利用此表可查到曲線下方的面積(亦即抽樣的概率) 與曲線縱高 (以 z-分?jǐn)?shù)位為單位).正態(tài)分布表的應(yīng)用：(A)z0.000.01 : 0.300.31: 1.00:(B) 主體的比例0.50000.5040 : 0.61790.6217: 0.8413:(C) 尾端的比例0.50000.4960 : 0.38210.3783: 0.1587:注意 z = 1.0 = .5000 + .3413 = median + 34.13%正態(tài)分布表可以將z-分?jǐn)?shù)轉(zhuǎn)換成概率和從概率查到相應(yīng)的 z-分?jǐn)?shù).建議: 畫出分布圖，目測(cè)距

39、離 .1）用正態(tài)分布表由z分?jǐn)?shù)查概率的步驟:step 1: 畫出分布圖, 標(biāo)出均值和標(biāo)準(zhǔn)差step 2: 標(biāo)出所要查的分?jǐn)?shù)點(diǎn), 查核其與均值的相對(duì)位置以及到均值的粗略距離step 3: 重讀一次題目看清你所需要的分?jǐn)?shù)區(qū)間概率. 將圖中的相應(yīng)面積涂為陰影. step 4: 將 X 分?jǐn)?shù) 轉(zhuǎn)換為 Z-分?jǐn)?shù)step 5: 在正態(tài)分布表中使用正確的欄目 (以及符號(hào)) 找出概率例1:IQ為 130或以上的概率是多少?p(X 130)?IQ： = 100, =15z = (130 - 100)/15 = 2.0-查表- p = 0.0228IQ為 70或以下的概率是多少?p(X z = 1.65故 X

40、 = (1.65)(15) + 100 = 124.753）找出X落在兩個(gè)分?jǐn)?shù)之間概率step 1: 繪出曲線將所需的區(qū)域涂上陰影step 2: 將兩個(gè)分?jǐn)?shù)轉(zhuǎn)換成 Z-分?jǐn)?shù)step 3: 查表求這兩個(gè) z-分?jǐn)?shù)的概率step 4: 將兩個(gè)概率相加或相減例3:在SAT 中得到300 到650 的概率是多少？SAT: = 500, =100p(z (650 - 500) = p(z 1.5) = 0.9332100p(z (300 - 500) = p(z -2.0) = 0.0228100p(300 z (650- 500) = p(z 1.5) = 0.0668100p(z (300 - 50

41、0) = p(z -2.0) = 0.0228100p(300 z 7)的樣本的概率是多少?考察樣本均值的分布, 我們發(fā)現(xiàn) 16 個(gè)當(dāng)中有1個(gè) a其均值大于 7.實(shí)際情況比上例復(fù)雜的多。我們必須借助樣本均值的一些特性.形狀:樣本均值的分布形狀一定是正態(tài)分布.當(dāng) n 較大時(shí)(30 以上),樣本均值的分布幾乎是完全的正態(tài)分布. 如果在同一總體中選擇一組樣本, 大部分均值應(yīng)當(dāng)堆積在總體均值附近(如果不是這樣，取樣一定有偏差)均值:這些樣本均值的平均應(yīng)該等于總體均值. 樣本均值的平均叫做的期望值. 期望值的意思因?yàn)檫@個(gè)值會(huì)在總體均值的附近.在上例中，的期望值(一組樣本均值的均值) 是:2 +

42、 3 + 4 + 5 + 3 + 4 + 5 + 6 + 4 + 5 + 6 + 7 + 5 + 6 + 7 + 8 = 80 = 5。016 16注意: 如果 n 足夠大, 那么分布是正態(tài), 也一定是對(duì)稱和單峰, 則mean = median = mode方差: 樣本均值分布的標(biāo)準(zhǔn)差叫做的標(biāo)準(zhǔn)誤（standard error of ；SE）的標(biāo)準(zhǔn)誤= = 與的標(biāo)準(zhǔn)距離.這個(gè)統(tǒng)計(jì)量描述了與均值的標(biāo)準(zhǔn)(或稱典型，平均)距離. 在這里，它也是樣本均值和總體均值的差值.這個(gè)統(tǒng)計(jì)量的主要目的和用途是告訴我們樣本均值對(duì)總體均值的估計(jì)是否準(zhǔn)確. 換言之，取樣誤差是多大.標(biāo)準(zhǔn)誤的數(shù)值取決

43、于兩個(gè)特征: 總體方差和樣本容量1) 總體方差 - 總體方差越大, 樣本均值的方差越大.總體方差大與總體均值的差異大總體方差小與總體均值的差異小2) 樣本容量 - 樣本容量(n) 越大,樣本越能準(zhǔn)確地代表總體. 這個(gè)規(guī)律叫做大數(shù)定律（law of large numbers） .假定總體是1,000個(gè)學(xué)生. 欲知總體的SAT 分?jǐn)?shù).- 如果隨機(jī)抽取1個(gè)學(xué)生，用這個(gè)學(xué)生的分?jǐn)?shù)預(yù)測(cè)總體分?jǐn)?shù)的準(zhǔn)確性怎樣?-如果隨機(jī)抽取5個(gè)學(xué)生. 會(huì)不會(huì)更準(zhǔn)確些?-如果隨機(jī)抽取100個(gè)學(xué)生呢？將這兩個(gè)特征合并起來，就是標(biāo)準(zhǔn)誤的定義公式. 的標(biāo)準(zhǔn)誤= = 中心極限定律（Central Limit Theorem

44、）中包含所有這些特性 (形狀, 均值, 方差)中心極限定律（Central Limit Theorem）: 對(duì)于任何均值為，標(biāo)準(zhǔn)差為的總體, 樣本容量為n的樣本均值的分布，隨著n 趨近無窮大時(shí)，會(huì)趨近均值為，標(biāo)準(zhǔn)差為的正態(tài)分布因此，當(dāng) n 足夠大時(shí)(30或以上): N ( , )三樣本分布與概率例 1:一位老師對(duì)班上學(xué)生的IQ感興趣. 她班上有9位學(xué)生，她認(rèn)為他們都很聰明. 這班學(xué)生IQ 的均值大于等于 112的概率是多少?IQ test: = 100, = 15首先我們需要知道樣本的分布 (注意: 即使n 小于 30，我們?nèi)匀患俣ㄕ龖B(tài)分布.) N (, ) = N(100, 5)我們需要

45、知道對(duì)應(yīng)這個(gè)樣本均值的z分?jǐn)?shù): Z = P( 112) = P(Z (112 - 100)/ 5 ) = P(Z 2.4) = 0.0082這個(gè)答案是否合理?- 最初看起來似乎不對(duì)- 應(yīng)當(dāng)大于 z = 1對(duì)應(yīng)的概率, 因?yàn)?115 對(duì)應(yīng)于z = 1- 但是, 必須注意這不是正確的分布, 我們需要考察樣本均值的分布-我們知道樣本均值分布的標(biāo)準(zhǔn)誤是5 和均值是 100.- 所以 112 應(yīng)當(dāng)位于 z 2 之外例 2: 如果班上有25位學(xué)生，如果讓其均值位于頂端 10%的IQ 分布，均值應(yīng)該有多大?首先我們需要知道樣本的分布 (注意: 即使n 小于 30，我們?nèi)匀患俣ㄕ龖B(tài)分布.) N (, ) =

46、N (100, 3)然后我們需要找出對(duì)應(yīng)于這個(gè)全距的均值：這個(gè)公式與我們從前遇到的很類似 := Z * + = (= Z)() +step 1: 查正態(tài)分布表：90% 概率對(duì)應(yīng)的 Z 分?jǐn)?shù)是1.28step 2: = 1.28 * + 100 = (1.28)(3)+100 = 103.84所以, 對(duì)于 25 個(gè)人的樣本, 他們的均值必須在103.84 以上才能位于分布頂端的10%假定上例中樣本較小, n = 16? 答案會(huì)不會(huì)改變?step 1: l查正態(tài)分布表：90% 概率對(duì)應(yīng)的 Z 分?jǐn)?shù)step 2: =1.28*（15/sqrt(16)+100=(1.28)(3.75)+100 =10

47、4.80所以, 對(duì)于 25 個(gè)人的樣本, 他們的均值必須在104.80以上才能位于分布頂端的10%對(duì)于不同的樣本容量：n=9，=1.28*（15/sqrt(9)）+100 =(1.28)(5)+ 100=106.40n=4，=1.28 * + 100 = (1.28)(7.5) + 100 = 109.60n=1，=1.28 * + 100 = (1.28)(15) + 100 = 119.20注意: 如果 n = 1, 標(biāo)準(zhǔn)誤等于總體標(biāo)準(zhǔn)差所以，樣本容量越小, 取樣誤差 (標(biāo)準(zhǔn)誤, ) 越大.四標(biāo)準(zhǔn)誤的解釋:取樣誤差: 任何一個(gè)樣本可能大于或小于估計(jì)值。標(biāo)準(zhǔn)誤: 大部分均值會(huì)與相當(dāng)接近 ,

48、但也有一些會(huì)非常不同. 樣本均值的方差代表和之間的標(biāo)準(zhǔn)距離。它的定義是樣本容量和代表的準(zhǔn)確程度間的關(guān)系.C) 信度: 標(biāo)準(zhǔn)誤變小時(shí),我們用作為的估計(jì)值的信心增加。-信度大略是指同一總體的不同樣本 (具同樣的樣本容量) 彼此間的近似程度. 如果大部分樣本具有相似的統(tǒng)計(jì)量(e.g., 均值, 標(biāo)準(zhǔn)差)，那么其信度就高。如果大部分樣本具有不同的統(tǒng)計(jì)量, 其信度就低.- 從上面的例子中可以看出，當(dāng) n 增大時(shí),樣本統(tǒng)計(jì)量能更好地對(duì)總體參數(shù)進(jìn)行估計(jì). 因此, 多次重復(fù)取樣, 且樣本容量相對(duì)較大，我們會(huì)得到相近的統(tǒng)計(jì)量(都在總體參數(shù)附近).D) 穩(wěn)定性: 標(biāo)準(zhǔn)誤越小, 添加或去掉一個(gè)分?jǐn)?shù)或改

49、變某一分?jǐn)?shù)會(huì)改變的估計(jì)值.- 我們已經(jīng)討論過添加或去掉一個(gè)分?jǐn)?shù)或改變某一分?jǐn)?shù)對(duì)總體均值和標(biāo)準(zhǔn)差的影響，而對(duì)標(biāo)準(zhǔn)誤的影響又如何呢?總體 X N(50, 10) = 50; = 10比較這兩個(gè)樣本:樣本 1: 1 = 50, n = 4= = 10/2 = 5樣本 2: 2 = 50, n = 100= = 10/10 = 1假定我們?cè)诿總€(gè)樣本中添加一個(gè)新的分?jǐn)?shù) 20.樣本 1: 新的均值是：50 * 4 = 200 - (200 + 20)/5 = 44樣本2: 新的均值是：50 * 100 = 5000 - 5020/101 = 49.7所以樣本 2 比樣本 1 穩(wěn)定. 一般說，標(biāo)準(zhǔn)誤越

50、小,樣本越穩(wěn)定.二項(xiàng)分布（Binomial Distribution）二項(xiàng)分布：如果在某種特定的情境下，只有兩種可能的結(jié)果. 其結(jié)果就形成一個(gè)二項(xiàng)分布。例如, 投擲硬幣得到正面或反面, 對(duì)是否題的回答, 一個(gè)人的生或死等等。二項(xiàng)分布表示為: B(n,p), 其方程非常復(fù)雜。如果 n 足夠大，二項(xiàng)分布可以近似為正態(tài)分布。二項(xiàng)分布的概率兩個(gè)類目: A 和 Bp = p(A) = A 的概率q = p(B) = B 的概率p + q = ? n =樣本中所包含個(gè)體（或觀察）的數(shù)目 X =樣本中事件類目 A 發(fā)生的數(shù)目二項(xiàng)分布表達(dá)了與從X = 0 到 X = n 的每一個(gè)X值有關(guān)的概率。例：彩票：設(shè)每

51、張彩票能贏 100 萬元。每張彩票要花一元。100 萬次中有1次贏的機(jī)會(huì), 則P(a) = 1/1,000,000 ，P(b) = 999,999/1,000,000.故贏的概率是.000001輸?shù)母怕适?.999999考慮買多少張彩票中彩的機(jī)會(huì)比較大 .n (買多少張彩票) 1101001,00010,000100,0001,000,000P (贏至少1次)0.0000010.000010.00010.00099500.009950170.095162630.63212074注意即使你花100 萬元買彩票，你能贏 100 萬元的機(jī)會(huì)也只有大約 63%.例 2擲硬幣. A = 正面; B =

52、反面sp = p(A) = 1/2q = p(B) = 1/2假設(shè) n = 2 (即, 將硬幣擲 2 次), 有多少可能的結(jié)果 B(2, 0.5)? -4第 1次第 2次正面次數(shù)正面正面2正面反面1反面正面1反面反面0兩次擲到正面的概率是多少?擲不到正面的概率是多少?只一次擲到正面的概率是多少?至少一次擲到正面的概率是多少?假設(shè) n = 6.有多少可能的結(jié)果? 64 種（公式是: 2n）t1t2t3t4t5t6#正面正面正面正面正面正面正面 6正面正面正面正面正面反面 5正面正面正面正面反面正面 5正面正面正面正面反面反面 4: : : : : : :反面反面反面反面反面反面 0什么條件下

53、，二項(xiàng)分布可以近似為正態(tài)分布？看n = 6 時(shí)的情況 (pn = .5*6 = 3).當(dāng) n 足夠大 (pn 10) 和(qn 10),二項(xiàng)分布可以近似位正態(tài)分布.Mean: = pnStandard deviation: = z = 利用正態(tài)分布表.注意：正態(tài)分布中X 的值是一段, 而并非一點(diǎn), 所以當(dāng)二項(xiàng)分布近似為正態(tài)分布時(shí)，需要考慮精確上下限。因?yàn)槲覀兪窃谟眠B續(xù)型分布 (正態(tài)) 來估計(jì)離散型分布的值.例1: 有時(shí)學(xué)生入學(xué)后會(huì)中途退學(xué). 如果每個(gè)人中途退出的概率是0.10, 在100人的班上，有多于15個(gè)學(xué)生概率的概率是多少?n = 100p = 0.10q = 0.90np = .10*

54、100 = 10 nq = 90 x = pn = 10 x = = sqroot (100*.10*.90) = sqroot (9) = 3p(X 15的精確下限)= P(X 14.5)= P(Z 14.5-10)3.0= P(z 1.5)= 0.0668例2 :假設(shè)你參加一個(gè)48道題的多項(xiàng)選擇題測(cè)驗(yàn), 只有4種可能的答案. 你全憑猜測(cè)作答. 猜對(duì)14 道題的概率是多少?p = P(正確) = 1/4q = P(錯(cuò)誤) = 3/4pn = (1*48)/4 = 12qn = (3*48)/4 = 36注意這里 pn 和qn 都大于10，所以可以假定分布近似正態(tài). 注意這里分?jǐn)?shù) 14 其實(shí)是

55、對(duì)應(yīng) 從 13.5 到 14.5 之間這段距離.m = pn = 12 = sqroot (pqn) = sqr(48*.25*.75) = sqroot (9) = 3查表X - = 13.5 - 12.0 = 0.50 - 0.3085 3X - = 14.5 - 12.0 = 0.83 - 0.2033 3兩個(gè) z分?jǐn)?shù)間的面積是: 0.3085 - 0.2033 = 0.1052假設(shè)檢驗(yàn)初步（II）假設(shè)檢驗(yàn)顯著性水平：顯著性水平規(guī)定了當(dāng)虛無假設(shè)正確時(shí)，樣本結(jié)果非常不可能出現(xiàn)的概率值。當(dāng)實(shí)驗(yàn)產(chǎn)生非常不可能（以alpha為標(biāo)準(zhǔn)）的數(shù)據(jù)時(shí), 我們就會(huì)拒絕虛無假設(shè).所以, alpha 水平也

56、規(guī)定了I 類錯(cuò)誤的概率 - 即, 當(dāng)H0事實(shí)上正確時(shí)，拒絕H0的概率。在心理學(xué)中，通常定在0.05?？聪铝袠颖揪捣植紙D. =發(fā)生 I 類錯(cuò)誤概率一般性備擇假設(shè)H0: 無差異H1: 有差異雙尾考驗(yàn) = 0.05在每個(gè)尾端有0.0250.025 + 0.025 = 0.05具體的備擇假設(shè)H0: 無差異H1:有差異，新的一組的均值更高單尾考驗(yàn) = 0.05這一尾端有0.05 。如何解釋這些圖?如果樣本均值落入陰影區(qū)域之內(nèi)，那么我們就拒絕 H0.如果樣本均值落在陰影區(qū)域之外, 那么我們可能不會(huì)拒絕H0.這些陰影區(qū)域叫做臨界區(qū)域。臨界區(qū)域由極端的樣本值組成，如果虛無假設(shè)正確的話，不大可能得到。臨界

57、區(qū)域的大小是由alpha 水平?jīng)Q定的。落入臨界區(qū)域之內(nèi)的樣本數(shù)據(jù)會(huì)使得虛無假設(shè)被拒絕。有方向性的假設(shè)檢驗(yàn)單尾考驗(yàn)總體分布總體 = 65 ， = 10.假定抽取樣本n = 25, 對(duì)其進(jìn)行處理后得到= 69.處理有沒有效果? 會(huì)影響總體中的個(gè)體嗎?我們應(yīng)該考察那一個(gè)分布?總體分布?樣本均值分布?樣本均值的樣本應(yīng)該考察樣本均值.在樣本中找到樣本均值.查該樣本得到大于等于這個(gè)均值的概率假定 = 0.05再假定我們的備擇假設(shè)是-處理應(yīng)當(dāng)提高操作成績 (使均值提高)現(xiàn)在我們需要求標(biāo)準(zhǔn)誤.= = 10/5 = 2這里的臨界區(qū)域是什么? 這是個(gè)單尾考驗(yàn).所以，查正態(tài)分布表, 得到對(duì)應(yīng) = 0.05

58、的區(qū)域z = 1.65 (保守的, 實(shí)際是 1.645)將其轉(zhuǎn)換為樣本均值= Z + = (1.65)(2)+65 = 68.3因此，對(duì)于X = 69, 應(yīng)當(dāng)拒絕H0處理這一問題的另一個(gè)辦法是應(yīng)用 z分?jǐn)?shù).因?yàn)槲覀冎缹?duì)應(yīng)于臨界區(qū)域的z分?jǐn)?shù)是 1.65, 這樣我們只需要計(jì)算對(duì)應(yīng)于這一樣本均值的 z分?jǐn)?shù)，來看它是否 is 大于或小于這一臨界z分?jǐn)?shù).Z = = (69 - 65) / 2 = 2.0 因?yàn)?Z臨界, 那么，我們可以拒絕 H0在這個(gè)例子中，我們假設(shè)處理會(huì)在某一特定方向上造成差異 (即，處理會(huì)使均值增加).但是,假設(shè)檢驗(yàn)最提出的方式是作一個(gè)更一般的假設(shè)：處理應(yīng)當(dāng)改變均值, 或增加

59、或減少.雙尾考驗(yàn)總體樣本總體 = 65， = 10. 假定抽取一個(gè)樣本 n = 25, 對(duì)其進(jìn)行處理后得到 = 69.處理有沒有效果? 會(huì)影響總體中的個(gè)體嗎?應(yīng)當(dāng)考察哪個(gè)樣本? 還是總體?還是樣本均值?樣本均值的樣本應(yīng)該考察樣本均值.在樣本中找到樣本均值.查該樣本得到等于或大于這個(gè)均值的概率假定 = 0.05再假定我們的備擇假設(shè)是-處理應(yīng)當(dāng)改變操作成績，所以我們要作雙尾考驗(yàn)?，F(xiàn)在我們需要求標(biāo)準(zhǔn)誤.= = 10/5 = 2這里的臨界區(qū)域是什么? 這是個(gè)雙尾考驗(yàn).所以，查正態(tài)分布表, 得到對(duì)應(yīng) = 0.05的區(qū)域z = 1.96將其轉(zhuǎn)換為樣本均值= Z + = (1.96)(2)+6

60、5 = 68.9因此，對(duì)于X = 69, 應(yīng)當(dāng)拒絕H0假設(shè)檢驗(yàn)的前提1) 隨機(jī)樣本 - 樣本必須對(duì)總體有代表性。隨機(jī)取樣有助于確保取樣的代表性.2) 獨(dú)立觀察也與樣本代表性有關(guān), 每個(gè)觀察應(yīng)該與所有其它觀察是獨(dú)立的。一個(gè)特定的觀察的概率應(yīng)當(dāng)保持恒定. 3) 已知且保持恒定 - 原總體的標(biāo)準(zhǔn)差必須保持恒定. 為什么? 一般的說,處理就是假定對(duì)總體中的每一個(gè)個(gè)體都加上(或減去) 一個(gè)常數(shù)。所以總體的均值可能因處理而導(dǎo)致變化。但是, 記住對(duì)每一個(gè)個(gè)體都加上(或減去)一個(gè)常數(shù) 并不改變其標(biāo)準(zhǔn)差. 4)取樣樣本是相對(duì)正態(tài)的或者因?yàn)樵加^察的樣本是相對(duì)正態(tài)的, 或者因?yàn)橹行臉O限定理(或二者都有).違反

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

甘怡群教授心理統(tǒng)計(jì)講義

文檔簡介

溫馨提示

最新文檔

評(píng)論

甘怡群教授心理統(tǒng)計(jì)講義

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔