愛上統(tǒng)計學_學習筆記_第1頁
愛上統(tǒng)計學_學習筆記_第2頁
愛上統(tǒng)計學_學習筆記_第3頁
愛上統(tǒng)計學_學習筆記_第4頁
愛上統(tǒng)計學_學習筆記_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第I部分耶!我喜歡統(tǒng)計學1. 統(tǒng)計學還是虐待學?由你決定統(tǒng)計學簡史計數是非常好的創(chuàng)意;一旦數字成為語言的組成部分,接下來就是將數字和結果結合在一起。17世紀早期開始收集與人口相關的數據,達爾文兄弟采用“相關系數”(第五章)回答了家庭成員智力一致性的基本問題;最簡單的用于比較兩個群體的均值差異的檢驗方法在20世紀初取得首次進展。如果想更好的了解統(tǒng)計歷史:http:/www.*統(tǒng)計學:是什么(不是什么)描述性統(tǒng)計,可以學到收集、整理和匯總數據;推論性統(tǒng)計,學會解釋數據什么是描述性統(tǒng)計(descriptive statistics)用于整理、描述所收集數據的特征:如眾數、均值什么是推論統(tǒng)計(infe

2、rential statistics)樣本推論總體。我在統(tǒng)計課堂上做什么使用本書的十種方式關于那些符號練習時間第II部分西格瑪弗洛伊德和描述統(tǒng)計第2章討論集中趨勢的測量,以及如何計算多種平均數中的一種以便更好地代表一組數據。第3章介紹用于描述一組數據的離散型的工具,標準差和方差。第4章描述不同的數據分布或不同數據集間的差異,以及這種差異的意義。第5章處理變量之間的關系,相關關系。2. 計算和理解平均數平均數(average),也叫做集中趨勢量數(measures of central tendency),三種形式:均值、中位數和眾數計算均值均值(mean),數組中所有數值加和除以該數組的數值的

3、個數需要記憶的內容均值有時也用M表示,也叫做典型平均數或中心值。小寫字母n表示從中計算均值的樣本的規(guī)模,大寫N表示總體規(guī)模;均值對極值非常敏感;均值也指算數平均數(arithmetic mean)。計算加權平均數,樣本中同樣的數值不止出現(xiàn)一次的情況下,即每一數值乘以出現(xiàn)頻數,累計加和除以頻數總和。計算中位數中位數(median),一系列數據的中點,如果數值有偶數個,中位數是中間兩個數的均值,最重要特性是對極值不敏感。需要記憶的內容均值是一系列數值的中間點,而中位數是一系列個體的中間點。計算眾數眾數(mode)就是出現(xiàn)次數最多的數值。如果數據分布中,有多個數值的出現(xiàn)頻數相同,成為多峰分布。何時用

4、什么一般來說,定性、類別和定類數據的集中趨勢只能使用眾數來描述。中位數和均值適用于定量數據。公平的說,均值比中位數精確,中位數比眾數精確,即在同等條件下,優(yōu)先選擇均值、中位數。應用計算機并計算描述統(tǒng)計值3. 理解變異性為什么理解變異性很重要變異性(variability,也叫做散布或離散度)反應數據之間的不同。計算極差極差(range),最籠統(tǒng)的變異性測量,數據分布中的最大值-最小值分為:不包含極差(如上),另外是包含極差為r=h-l+1。計算標準差字面含義,標準化了的與某個值的偏差。標準差(standard deviation,縮寫為s或SD),表示一個數組中變異性的平均數量。實際的含義是與

5、均值的平均距離。其中,開方的原因是平方后的操作需要單位的回歸統(tǒng)一;采用n-1,而不是n,答案是s是總體標準差的估計,但只有在n-1的情況下才是無偏估計。把分母-1會使得標準差大于實際的大小。因為好的科學家都是保守的,及如果我們不得不出錯,也是由于高估了總體的標準差,除以較小的分母可以達到這樣的目的。需要記憶的內容標準差是偏離均值的平均距離計算的;對極值非常敏感計算方差方差(variance),是標準差的平方。在文章雜志中很少提到,因為方差值很難解釋一組數據。但卻很重要,因為它不只是一個概念。與標準差的區(qū)別:1)標準差以最初的計算單位存在,而方差以平方單位存在使用計算機計算變異性量數4. 一圖千

6、言萬語為什么要用圖表說明數據好圖表的十個方面首先是建立頻數分布組距確定的一般原則:選擇一個包含2、5、10或20個點的組距;1020個組距就可以覆蓋所有的數據;最大的組距處在頻數分布的頂端。圖形密度:建立直方圖扁平和細長的頻數分布數據分布之間,在四個方面不同:平均值、變異性、偏度和峰度;偏度(skewness),是對數據分布對稱性缺失,就是分布的一個尾巴比另一個長。例如,一個數據分布的右側尾比左側尾長,即分布的大數據值一端的發(fā)生次數較小,這是正偏度分布。反之則為負偏度分布(即中位數大于均值)。峰度(kurtosis)簡單的偏度計算公式=均值-中位數,>0表示正偏度分布;還有更復雜的偏度計

7、算公式,而且不是相對的,能相互比較,SK-皮爾遜偏度量數。其他的圖表數據的絕妙方法使用計算機圖示數據5. 計算相關系數相關系數到底是什么相關系數(correlation coefficient)是反映兩個變量之間線性關系的數值型指標,值域范圍是-1到1。兩個變量的相關有時也叫二元相關。本章大部分討論的相關類型是皮爾遜積聚相關(Pearson product-moment correlation)*注:皮爾遜相關系數考察兩個變量之間的關系,但這些變量的屬性是連續(xù)的。但大多數其他變量是不連續(xù)的,這時要用到點二列相關,隨后討論。還有其他類型的相關系數用于測量兩個以上變量之間的關系,留到下一個統(tǒng)計課程

8、。相關系數的類型:選擇1和選擇2。相關反映變量間關系的動態(tài)性質。如果變量變化方向相同,相關時直接相關或正相關(direct correlation或positive correlation)。如果方向相反,相關時間接相關或負相關(indirect correlation或negative correlation)。需要記憶的內容相關系數的值域范圍(-1,1);絕對值反映相關的強度;相關總是反映每個案例至少有兩個數據點(或變量)的狀況;皮爾遜積聚相關系數用小寫字母r表示,r的下標表示相關的兩個變量計算簡單相關系數變量X和Y的簡單皮爾遜積聚相關系數=以上兩個公式等價。不是所有的相關都是用直線表明X

9、和Y的關系的線性相關。相關可能不是線性的,如人的年齡和智力,這是曲線相關。如果有多個變量,可以采用相關矩陣。理解相關系數的含義不成文的解釋:我們還選擇更加精確的方法,如下內容決定性的努力:相關系數平方更精確的解釋相關系數的方法是計算決定系數。決定系數(coefficient of determination)是一個變量的方差可以被另一個變量的方差解釋的百分比。例如,如果平均成績和學習時間的之間的相關系數是.7,那么決定系數是.49,這意味著平均成績方差的49%可以被學習時間的方差解釋。但即使如此,還是有51%無法被解釋,因此即使是.7的強相關,也存在很多無法解釋的原因導致變量之間的差異。需要牢

10、記一點:相關和因果沒關系(冰激凌的消費量與犯罪率強相關,是因為夏天的原因,這是他們共享的條件,但不會因為強制冰激凌的消費,而消滅犯罪)。其他重要的相關使用計算機計算相關系數第III部分抓住那些有趣也有利的機會6. 你和假設:檢驗你的問題也許你想成為一個科學家假設(hypothesis)基本上是“學術猜測”。假設最重要的角色是表示一般問題的陳述,或在最初的時候促使人們去探索研究的問題。一個好的假設將問題陳述或研究問題轉化為更適合于檢驗的形式。在討論如何建立好的假設前,先討論下樣本和總體的差異,因為假設檢驗用于樣本,然后才將結論一般化到更大的總體。接著將注意力轉向假設的兩個主要類型(零假設和研究假

11、設)。樣本和總體:從加大的群體(總體population)中選擇的較小群體就是樣本(sample)。測量樣本和總體特征近似程度的量數叫做抽樣誤差(sampling error),是樣本統(tǒng)計值和總體參數之間的差異。如果樣本確實代表了總體,就可以說研究結論有很高的一般化水平。零假設采用總體中的一個樣本來檢驗我們的研究假設,首先建立零假設(null hypothesis)。如果零假設能講話,一定會說類似這樣的話“我代表你們正在研究的兩個變量無關”。零假設的目的:零假設即是研究起點也是測量實際的研究結果的基準?,F(xiàn)在詳細討論每一個目的:首先,零假設是研究的起點,因為在沒有其他信息的情況下零假設就被看做可

12、接受的真實狀態(tài)。換句話說,直到你能證明存在差異,否則你只能研究沒有差異;進一步講,如果兩個群體之間存在任何差異,你必須假定這些差異是出于偶然!在沒有任何其他信息前,這種解釋都是對的、有吸引力的。零假設的第二個目的:提供與觀察到得結果進行比較的基準,進而分析是否由于其他因素引起這些差異。研究假設研究假設(research hypothesis)是變量間有關系的明確陳述。研究假設有共同的方面-不等價陳述,即假定變量間存在一定的關系(有方向研究假設-“多于”、“少于”和無方向研究假設-“不同于”)。無方向研究假設(nondirectional research hypothesis)反映群體間的差異

13、,但是差異的方向是不確定的。可以用下面的式子表示其中H1表示第一個(可能有幾個研究假設)研究假設的符號;右邊表示兩個變量不相同的關系;有方向研究假設(directional research hypothesis)反映群體間的差異,而且差異的方向是確定的。其中的大于號,表示第一個變量大于第二個變量的關系研究假設的目的是什么?直接檢驗的研究假設是研究過程中的重要一步。通過比較檢驗的結果與隨機預期的結果(也就是零假設)來確定這兩個中哪一個是你觀察到得群體間差異的更好的解釋。討論有方向和無方向假設的另一種方式是討論單位和雙尾檢驗。單尾檢驗(one-tailed test反映有方向假設)假定了特定方向

14、的差異,如我們假設群體1的得分比群體2高。雙尾檢驗(two-tailed test反映無方向假設)假定差異沒有特定的方向。如果你想檢驗不同類型的假設(單尾和雙尾的檢驗),建立拒絕或接受零假設的概率水平,這個區(qū)別就十分重要。在第十章更多討論。研究假設和零假設的一些區(qū)別:首先,零假設表示兩個變量之間沒有關系(相等),而另一個表示有關系(不相等);其次,零假設總是對應總體,而研究假設總是對應樣本;第三,零假設只能間接檢驗,而研究假設能夠被直接檢驗;第四,零假設常用希臘字母表達,而研究假設常用羅馬字母表達。好假設的標準是什么假設是學術猜測-進一步研究的起點。案例說明,這項研究是考察為工作到很晚的身為父

15、母的員工提供的放學后兒童照料對父母工作適應性的影響。下面是一個很好的假設:讓自己的孩子加入放學后兒童照料計劃的父母一年之內的耽誤的工作日會減少,同時依據工作態(tài)度調查的測量,工作態(tài)度也會比沒有讓自己的孩子加入計劃的父母更積極。下面是標準:首先,一個好的假設以陳述句的形式出現(xiàn)而不是以問題出現(xiàn)。其次,一個好的假設提出變量間預期的關系。案例中清楚的描述了放學后兒童照料、父母的態(tài)度和缺勤率間的關系。第三,假設反映他們建立的理論和文獻基礎。第四,假設應該簡短并切中要點,第五,好的假設可檢驗的假設。7. 你的曲線是正態(tài)的嗎-概率和概率的重要性為什么學習概率學習概率是理解正態(tài)曲線的基礎,也是理解推論統(tǒng)計的基礎

16、。為什么?首先,正態(tài)曲線給我們提供了理解任何可能結果的概率的基礎。其次,概率研究是決定我們在陳述特定的發(fā)現(xiàn)是“真”時所具有的可信度的基礎。或者更好的說法是,某個結果沒有出現(xiàn)是由于偶然因素。一旦把對零假設和研究假設的理解和概率基礎的想法結合在一起,我們就可以討論特定結果出現(xiàn)的可能性。正態(tài)曲線正態(tài)曲線(normal curve)具備三個特征的數據分布的形象表示正態(tài)曲線表示均值、中位數、眾數相等的數值分布;正態(tài)曲線以均值為中心完全對稱;正態(tài)曲線的雙尾是漸近的(曲線的雙尾越來越逼近橫軸,但是永遠不會與橫軸相交)。我們希望接下來的問題是:“但是有許多數據集的分布不是正態(tài)的,對吧?”是的,但當我們處理大樣

17、本數據集,而且重復的從總體中抽取樣本時,曲線的數值就接近正態(tài)曲線的形狀,這很重要,因為我們討論的通過樣本推論總體時所作的大部分工作都是基于這樣的假設總體中抽取的樣本時正態(tài)分布的。而且事實是大體上許多事物的分布特征就是我們所說的正態(tài)分布。也就是說大多數事件或發(fā)生次數正好在數據分布的中間,而兩端卻較少。更正態(tài)的曲線101如果深入討論,能夠發(fā)現(xiàn)均值為100,標準差為10的正態(tài)分布表示的數值范圍是70到130;有關正態(tài)分布、均值和標準差的一個重要事實:對任何數值分布來說(不論均值和標準差的具體數值),如果數值是正態(tài)分布的,幾乎100%的數值處于均值的-3到3個標準差范圍內。如果數值分布是正態(tài)的,我們也

18、可以說數值會落在x軸的不同數據點之間。實際上數值分布中大約34%(實際是34.13%)的數值落在了一個均值和均值以上1個標準差(即110)的范圍內。我們最鐘意的標準值:z值在一般的研究中,我們會發(fā)現(xiàn)所處理的分布相當不同,但是我們需要對他們進行相互比較,而進行這樣的比較我們需要一定的標準。這就是標準值(standard scores),這些值以標準差為單位進行了標準化所以是可以比較的。例如,均值為50,標準差為10的分布的標準值與均值為100,標準差為5的分布的標準值都是1;雖然還有其他類型的標準值,但是學習統(tǒng)計學過程中最長看到的是z值(z scores):原始數據于數據分布均值的差除以標準差。

19、換句話說,z值就是偏離均值的標準差的個數。這是一個很好的想法,可以不用考慮不同數據分布的均值數值,單獨來看各自分布中的相對位置來進行相互比較。Z值表示什么:特定的z值表示一個原始數值,也表示數據分布在x軸上的特定位置。而且z越大,距離均值越遠。當z為非整數時,需要使用微積分來計算x軸上每一個可能的值對應的曲線面積z值真正表示什么:統(tǒng)計游戲的另一個作用是能估計某個結果的概率。我們使用一些標準來判斷我們考慮的事件的發(fā)生是高于還是低于我們預期的隨機概率水平。研究假設提出了預期事件發(fā)生的命題,我們使用統(tǒng)計工具來估計事件發(fā)生的概率。比如說,一朋友給你一枚硬幣,并讓你決定是否真幣也就是拋十次,可以得到5次

20、正面、5次反面?,F(xiàn)在的問題是出現(xiàn)多少次正面會確認這枚硬幣是偽造的?“5%”,是統(tǒng)計學家們使用的標準,如果事件(正面出現(xiàn)的次數、一次考試的成績、兩個數據組的舉止的差)發(fā)生的概率是極值(極值的定義為出現(xiàn)次數小于5%),那么就是不可能出現(xiàn)的結果,在這個案例中就是不正當的結果。10次隨機拋幣,所有的結果的組合是2的10次方,即1024種:我們的定義標準也是5%,如果觀察到得結果的概率小于5%,我們可以斷定這是不可能的,除非有非概率事件出現(xiàn)我們的結論就是“非概率事件”是偽造的硬幣。從上表中可以看到,觀察到8、9、10次正面的結果都小于5%,因此,如果10次的結果是8、9、10次正面,結論是這枚硬幣不是真

21、的。(當然出現(xiàn)0、1、2次也能得出相同結論,反面亦然)。在z值中,1.65是該臨界點,即1.65以下包含了曲線覆蓋的95%區(qū)域。使用計算機計算z值第IV部分顯著性差異-使用推論統(tǒng)計8. 顯著性的顯著顯著性的概念研究案例,“單親母親家庭中母親的職業(yè)和青少年的日常經驗”。特別的是他們調查了母親有工作和沒工作的青少年在態(tài)度上是否存在差異,近一步,在是否存在差異的討論中增加顯著性,因此我們的研究假設類似如下的陳述:“依據情緒狀態(tài)的測量,母親工作和不工作的青少年對母親就業(yè)的態(tài)度具有顯著性差異”。顯著性的含義是指兩個群體的態(tài)度之間的任何差異是由于系統(tǒng)因素的影響而不是偶然性因素。在這個案例中,影響因素是母親

22、是否工作,我們假定控制了可能影響兩個群體之間差異的所有其他因素,因此,余下的解釋青少年態(tài)度差異的唯一因素就是母親是否工作。這是正確的解釋,但還不完全。是否只有我們是完美的:我們的世界并不完美,所以我們在一定程度上確信我們確定的引起群體間差異的那些因素時要留有余地。在大多數涉及假設檢驗的科學研究中一定存在一定數量的不能控制的誤差-這也是前幾章討論過的偶然性因素。你愿意承擔的風險水平或者概率水平就是顯著水平。顯著水平(significance level)是不能100%確信試驗中觀察到的結果是由于處理因素或需要檢驗的因素引起的-在案例中是母親是否工作-所要承擔的風險。如果你看到的陳述式顯著性結論是

23、在.05概率水平下(或更專業(yè)的說p<.05),換句話說,就是20次中有1次所發(fā)現(xiàn)的任何差異不是由于假定的原因,而是由于其他未知的原因引起的。你的工作就是盡可能減少這種可能性,消除所有可能引起觀察到的任何差異的其他原因。沒有可能完全消除,所以,必須分配一定的概率水平,并謹慎的陳述結論。總之,研究者定義了他原因承擔的風險水平。如果結果落在這個范圍內,也就是說這不是偶然出現(xiàn)的-而是由其他因素在產生影響。研究這就知道零假設不是觀察到得結果的最有利的解釋,相反研究假設是可選擇的解釋。另一個案例,這是假設的案例。研究者有興趣了解參與學前項目的孩子與沒有參與的孩子在學習成績上是否存在差異。零假設是“兩

24、個群體的學習成績相等“;研究假設是“參與學前項目的孩子的平均成績高于沒有參與項目的孩子的平均成績”。作為一個優(yōu)秀的研究者,你的工作就是表明(盡你所能)兩個群體之間存在任何差異僅僅是由于學前項目的影響,但可以絕對確定嗎?不。如果推斷考試成績的差異是由于經歷的不同,就得接受一定的風險,實際上風險水平就是你愿意執(zhí)行的顯著性水平。統(tǒng)計顯著性(statistical significance)是指零假設為真的情況下拒絕零假設所有承擔的風險水平。就上面的例子來說,在找的數據證據下,群體成員的身份似乎對學習成績有影響,但是在真實的世界中卻可能沒有差異。如果你拒絕了零假設,就犯了一個錯誤。犯此類錯誤你可能承擔

25、的風險(或者說顯著水平)就是人們熟知的第一類錯誤。世界上最重要的表格:格子2表示嚴重的錯誤,拒絕了零假設,而零假設實際上是真實的,就是人們常說的第一類錯誤,也就是顯著水平;格子3也是一種嚴重錯誤,接受了虛假的零假設,這就是第二類錯誤?;仡櫟谝活愬e誤:第一類錯誤或者說顯著水平具有特定的值,而且與任何零假設檢驗中定義的你愿意承擔的風險聯(lián)系在一起。一般設置的顯著水平是在.01與.05之間。例如,如果顯著水平是.01,這意味著在任何一個零假設檢驗中,只有1%的可能性是零假設為真,而你拒絕了零假設,并且在群體之間實際沒有差異的情況下得出群體之間有差異的結論。換句話說,拒絕零假設,犯錯的概率只有1%,99

26、%的可能是我的拒絕是正確的,即實際中群體之間確實有差異。顯著性的意義對研究者來說,有趣的狀況是發(fā)現(xiàn)實驗的結果在統(tǒng)計上是顯著的(拒絕零假設在一定的顯著水平)。-研究在統(tǒng)計上成功了,而且零假設不是發(fā)現(xiàn)結果的合理解釋(即事實上是不是由于偶然因素導致的差異)。但是統(tǒng)計顯著性的值和其重要性或意義必須認真考慮。例如,我們面對的情況是將規(guī)模非常大文盲青年分A、B組分別接受電腦、課堂閱讀訓練,得出的閱讀測驗平均成績是75.6和75.7,兩組的方差數量幾乎相等。但是對獨立均值的顯著性進行t檢驗時,結果在.01的水平是顯著的,表明電腦學習者比教室學習者學的更好。兩組之間0.1的差異實際上是統(tǒng)計顯著的,但是是否有意

27、義?考試成績0.1分的提高是否能夠為花費3000000美元建立這個項目提供充分的合理解釋?統(tǒng)計顯著性的重要性結論:統(tǒng)計顯著性本身或內部是無意義的;統(tǒng)計顯著性不能脫離發(fā)生的背景獨立地解釋;統(tǒng)計學重要但不是終極目標。推論統(tǒng)計介紹描述統(tǒng)計是用于描述樣本的特征,而推論統(tǒng)計是基于樣本特征推斷總體的某些特征。先了解推論方法應用的邏輯,下面是研究項目的一般步驟,仍以青少年對母親工作的態(tài)度為案例:下面是事件可能發(fā)生的次序:1. 研究者從母親工作的青少年和母親不工作的青少年中選擇代表性樣本。樣本選擇方式是樣本能夠代表從中選擇的總體;2. 每一個青少年要進行一次測試來評價她的態(tài)度。接著計算群體的均值并使用一些檢驗

28、方法來比較;3. 可以得出的結論是成績之間的差異是由于偶然性因素引起,或是由于群體之間“真實的”以及統(tǒng)計顯著的差異引起(也就是母親工作)4. 可以得出的結論是從中選擇樣本的總體中母親就業(yè)和青少年態(tài)度之間的關系。換句話說,基于樣本數據分析所得結論進行的推論是關于青少年總體的。如何選擇用于檢驗的方法:上面的3讓我們提出這樣的問題“我如何選擇恰當的統(tǒng)計檢驗來確定群體之間的差異是否存在?”,檢驗方法太多了,你必須決定使用哪一種已經如何使用(而這需要的是經驗)。為了實現(xiàn)我們目的并開始學習,我們建立了各種工具的簡易流程表。顯著性檢驗介紹推論統(tǒng)計的優(yōu)勢就是可以依據樣本的信息得出關于總體的結論。進行推論的最有

29、用的工具之一就是統(tǒng)計顯著性檢驗,顯著性檢驗可以依據所提問題的性質和零假設的形式而應用于不同的情形。如何進行顯著性檢驗:計劃:顯著性檢驗是基于這樣的事實,每一類型的零假設都與特定的統(tǒng)計類型聯(lián)系在一起。而每一種統(tǒng)計類型與特定的分布聯(lián)系在一起,你要比較從樣本獲得的數據的分布。依據樣本特征與檢驗的分布特征的比較你可以推斷樣本特征是否不同于預期的隨機分布特征。下面是任何零假設進行統(tǒng)計檢驗時需要采用的一般步驟。1. 零假設的陳述;2. 設置零假設的風險水平(顯著水平,或第一類錯誤);3. 選擇恰當的檢驗統(tǒng)計量。每一個零假設伴隨著特定的檢驗統(tǒng)計量;在本書的這部分你可以知道什么樣的檢驗與什么樣的問題類型相聯(lián)系

30、;4. 計算檢驗統(tǒng)計值。檢驗統(tǒng)計值(也叫實際值)是特定的統(tǒng)計檢驗的結果。例如,兩個群體的平均值之間差異的顯著性,都需要進行統(tǒng)計檢驗,得到一個具體的數值。5. 使用特定統(tǒng)計量的統(tǒng)計臨界值表確定拒絕零假設需要的值。每一個檢驗統(tǒng)計量(同時考慮群體規(guī)模和愿意承擔的風險)都有相應的臨界值。這個值是零假設,是真實的情況下你預期的拒絕零假設的統(tǒng)計檢驗值;6. 比較實際值和臨界值,就是比較通過檢驗統(tǒng)計量獲得的值與你預期的隨機的情況下對應的值(臨界值);7. 如果實際值大于臨界值,不能接受零假設。即,零假設的等式陳述(反映偶然性)不是我們發(fā)現(xiàn)的差異的最有力的解釋。這也是推論方法表現(xiàn)出其優(yōu)點的地方。8. 如果實際

31、值沒有超過臨界值,零假設是最有力的解釋。一張圖勝過千言萬語:1. 整個曲線表示基于特定零假設-如兩個群體之間的差異或相關系數的顯著性-的所有可能的結果;2. 臨界值是這樣的點,即超過這個點的實際結果如此稀少,因此可以推斷實際結果不是由于偶然因素而是由于其他因素引起的。在這個案例中,我們定義的稀少程度是發(fā)生的可能性不足5%;3. 如果結果表示實際值落在臨界值的左邊(就是小于極值),結論就是零假設是觀察到的任何差異的最有力的解釋。4. 如果實際值落在臨界值的右邊(就是大于極值),結論就是研究假設是觀察到得任何差異的最有力的解釋。9. 兩個群體的t檢驗-不同群體的均值檢驗獨立樣本t檢驗介紹研究人員對

32、297個澳大利亞大學生和249個印度大學生進行飲食態(tài)度測試和肥胖恐懼量表測試,然后比較群體得分,就澳大利亞學生和印度學生的均值比較而言,印度學生的兩個測試得分都高于澳大利亞學生。飲食態(tài)度測試的結果是t(545)=-4.19,p<.0001,肥胖恐懼量的測試結果是t(545)=-7.64,p<.0001。結果意味著什么?為什么t檢驗用于獨立均值?研究者的興趣在于發(fā)現(xiàn)兩個相互獨立的群體在一個(或多個)變量的平均值上是否有差異。研究者采用獨立均值的t檢驗,依據對每一個結果變量得出的結論,兩個群體之間的差異在等于和小于.0001的顯著性水平下是顯著的。這么小的第一類錯誤意味著兩個群體得分的

33、差異是由群體成員本身之外的因素引起的幾率非常小。幾乎每一個統(tǒng)計檢驗都有特定的假設支持檢驗的使用。例如,t檢驗的一個主要的假設是兩個群體中每個群體的變化的量是相等的。這是方差齊性假定。如果樣本規(guī)模足夠大就會破壞這個假定。計算檢驗統(tǒng)計量如下公式是計算獨立均值t檢驗中t值的公式。公式的分子式均值之間的差。群體內和群體之間的變化的數量構成分母。下面的數據是一個案例去說明如何使用t檢驗:老年癡呆患者日常生活秩序不同能夠記住單詞的數量,群體1使用視覺教學,群體2使用視覺教學和發(fā)生訓練。下面是著名的八個步驟和t檢驗統(tǒng)計量的計算。1. 零假設和研究假設的表述:零假設表示群體1和群體2的均值之間沒有差異,就我們

34、的目的而言,研究假設表示兩個群體的均值之間有差異。研究假設是雙側的無方向假設,因為研究假設只是表示差異存在,而沒有特定的方向。零假設:研究假設:2. 設置零假設的風險水平(或顯著水平,或第一類錯誤),此處設為.05,完全由研究者決定;3. 選擇合適的檢驗統(tǒng)計量。使用之前的流程圖,我們確定合適的檢驗方法是獨立均值的t檢驗。因為這兩個群體相互獨立,所以不是非獨立均值的t檢驗;4. 計算檢驗統(tǒng)計值(也叫實際值)。按書中例子計算的t=-.14。要記住一點,即使檢驗是無方向的,而且任何差異都是假定的,差異的符號也是無意義的。5. 使用特定的統(tǒng)計量的臨界值分布表確定拒絕零假設需要的值。第一個任務是確定自由

35、度(degrees of freedom,df),自由度近似于樣本規(guī)模。對于目前選定的檢驗統(tǒng)計量來說自由度是n1-1+n2-1。在這個案例中是58。這是這類檢驗統(tǒng)計量的自由度,但不是對其他統(tǒng)計量也合適。使用這個數字(58),你愿意承擔的風險水平(早先定義的.05)以及雙側檢驗,你就可以使用t檢驗表來查找臨界值。哦,表中沒有自由度為58的值,又該如何?如果選擇自由度為55的值,你會顯得保守,因為你使用了小于現(xiàn)有規(guī)模的樣本對應的值(臨界值t會變大);反之,選擇自由度60的值,但相對于58更為隨意一些。雖然統(tǒng)計學家的看法不同,我們通常選擇最接近實際樣本規(guī)模的值。因此選了60對應的臨界值2.001;6

36、. 比較實際值和臨界值。實際值是-.14,拒絕零假設也就是群體1與群體2取得的成績沒有差異的臨界值是2.001.7. 做出決定。如果實際值大于臨界值就不能接受零假設。否則,零假設就是最有力的解釋。在這個案例中,實際值小于臨界值,我們只能選擇接受零假設。那么如何解釋:t表示我們所使用的檢驗統(tǒng)計量;58是樣本自由度-.14是實際值p>.05,表示對零假設的任何檢驗來說,兩個群體的差異是由于隨機因素的可能性大于5%。特殊效果:差異是真實的嗎如果已經知道群體之間具有顯著性差異,但是投入64000美元的問題不僅僅是差異是否顯著,而且是否有意義的問題。我們的問題是代表不同群體的數據分布之間的差異是否

37、足以說明你觀察到的差異,以及你檢驗的差異是真實的差異!好吧,現(xiàn)在進入效應量的討論。效應量是對兩個群體之間如何相互不同的測量-也是對處理規(guī)模的測量。類似于多大才算大。而且計算效應量特別有趣的二方面是不考慮樣本規(guī)模。計算效應量并且對效應量做出判斷是理解顯著性結果的全新的維度?,F(xiàn)在看下面的案例。研究者檢驗的問題是參與社區(qū)自助服務是否提高了美國老年人的生活質量(從1到10分等級)。下面是統(tǒng)計結果。而且結論是在風險水平.034下差異是顯著的(也就是p<.05)。現(xiàn)在,差異是顯著的,但是差異的規(guī)模是多大?科亨的書可以指導研究者就差異和變量之間的關系提出的不同問題計算效應量。下面是具體介紹。計算和理解

38、效應量與其他統(tǒng)計技術一樣,計算效應量(effect size)的方式也有多種。我們會介紹最簡單、直接的方法:以均值之間的差除以任何一個群體的標準差。這樣做有一定的風險-因為這是假定了兩個群體的標準差相等。結果等于.366,意味著什么?科亨等人非常重要的一點是效應量的大、中、小的范圍:l 小效應量范圍:0.0.20;l 中等效應量范圍:.20.50;l 大效應量范圍:.5以上。案例中的.366屬于中等規(guī)模。但實際上意味著什么?效應量給我們這樣的認識,即每個群體相對于另一個群體的位置。例如,效應量=0,意味著兩個群體非常的相似而且?guī)缀跬耆丿B-兩個數值分布之間沒有差異。另一方面,效應量為1意味著兩

39、個群體大約有45%重疊,而且效應量越大意味著兩個群體重疊的部分越少。項立交更多效應量的信息,參看行為科學的統(tǒng)計檢定力分析。當然,簡單而更合適的消應力公式,分母可以使用綜合的方差:10. 兩個群體的t檢驗-兩個相關群體的均值檢驗非獨立樣本t檢驗介紹如何給孩子提供最好的教育是個大問題,孩子之間差異太大,所以不得不在滿足整體的基本需求和保證特殊的孩子(差異連續(xù)體的兩端)得到他們需要的機會之間尋求平衡。教授研究閱讀資料和常規(guī)教學對有學習障礙的孩子的閱讀能力的影響,研究發(fā)現(xiàn),大體上來說,對閱讀資料和課堂教學給予一年的日常知道在閱讀成績提高方面沒有差異。通過對閱讀資料這一組前測試和后測試的特定比較,他們發(fā)

40、現(xiàn)t34=1.23,p>.05。在項目初,閱讀資料組孩子的閱讀成績是85.5;項目最后,為88.5-有差異,但是差異不顯著。為什么用非獨立均值檢驗?非獨立均值檢驗表明是相同的群體在兩種不同的條件下進行相同的研究。在這個案例中,條件是實驗前和實驗結束后。首要的原因是相同的孩子測試兩次,所以我們使用非獨立均值檢驗。依據上面的結果你可以知道,項目前后閱讀成績沒有差異。t值(1.23)非常小,沒有落在我們拒絕零假設的值域范圍之外。換句話說,變化太小,我們不能說變化時由隨機因素之外的因素引起的。知識和智識路徑:下面介紹如何使用流程表選擇合適的統(tǒng)計檢驗,也就是非獨立均值的t檢驗。計算檢驗統(tǒng)計量非獨立

41、均值t檢驗包含每一個群體均值的比較,而且重點是不同數值之間的差異。如下公式,兩次測試的差異總和構成分子,表示群體之間的差異。下面是著名的8步驟和t檢驗統(tǒng)計量的計算:1. 零假設和研究假設的表述:“零假設”-前測試和后測試的閱讀成績均值之間沒有差異;“研究假設”-單側、有方向的假設,因為研究假設假定后測試成績高于前測試成績。零假設:研究假設:2. 設置零假設的風險水平=.05;3. 選擇合適的檢驗統(tǒng)計量,采用之間的工具圖,選定合適的檢驗方法是非獨立均值的t檢驗。因為兩個群體相互不獨立,所以不是獨立均值的t檢驗。實際上,這兩個群體不是參與者群體而是相同參與者的兩組成績,兩組之間相互依賴。非獨立均值

42、t檢驗的另一個名稱是“配對樣本的t檢驗”,或相關樣本的t檢驗。你會在第13章看到兩組成績之間相關關系的顯著性檢驗和我們這里計算的t值之間有很大關系。4. 計算檢驗統(tǒng)計值,帶入公式計算得到實際t值2.45;項目前測試成績的均值是6.32,項目測試后測試成績的均值是7.52。5. 使用特定統(tǒng)計量的臨界值分布表確定拒絕零假設需要的臨界值?,F(xiàn)在我們需要查閱與第9章相同的t值表。首先是確定自由度,自由度近似于樣本規(guī)模。對現(xiàn)在選定的檢驗統(tǒng)計量來說,自由度是n-1,此處為24;使用自由度為24,風險水平為.05及單側檢驗,拒絕零假設的臨界值是1.711;6. 比較實際值和臨界值。實際值是2.45,大于拒絕零

43、假設值需要的臨界值;7. 做出決定。實際值大于臨界值就不能接受零假設。我們可以說,前測試成績和后測試成績的差異的確是由于隨機因素之外的因素引起的。如果實驗安排正確,那么是什么因素影響結果?很簡單-是日常閱讀項目的引入。那么如何解釋t(24)=2.45,p<.05;l T表示我們所用的檢驗統(tǒng)計量l 24是自由度數值;l 2.45是實際值,l p<.05表示對零假設的任何檢驗來說,后測成績的均值大于前測成績的均值是由于隨機因素的可能性小于5%。11. 兩個群體是否太多?-嘗試進行方差分析方差分析介紹什么心理技能對于成為一個成功的運動員是必需的?研究者對運動員應對技能量表的有效性進行了檢

44、驗。作為研究的一部分,他們使用簡單的方差分析(或ANOVA)檢驗假設,也就是某項運動的訓練年數與應對技能(或運動員應對技能量表的得分)的關系。因為需要檢驗兩個以上的群體,并比較這些群體的平均成績,所以使用方差分析。具體的說,群體1是訓練年數在6年之內的運動員,群體2是訓練了710年的運動員,群體3是訓練年數在10年以上的運動員。方差分析的檢驗統(tǒng)計量是F值(以這個統(tǒng)計量的建立者命名),結果是F(2.110)=13.08,p<.01。三個群體的壓力下巔峰表現(xiàn)子量表測試成績的均值兩兩不同。換句話說測試成績的不同是由于在運動方面的訓練年數的不同,而不是可能影響成績的隨機因素。下面介紹如何使用常用

45、的知識和智識路徑:l 我們檢驗不同群體之間的差異,在這個案例中是檢驗運動員巔峰成績的差異;l 每一個運動員只接受一次測試;l 有三個群體;l 合適的檢驗統(tǒng)計是簡單方差分析方差分析的不同類型:方差分析有許多不同的形式,最簡單的是簡單方差分析(simple analysis of variance),也是本章的重點,只分析一個因素或者一個處理變量(如群體身份),而有兩個以上的群體受到這個因素的影響。簡單方差分析也叫做一元方差分析(one-way analysis of variance),因為只有一個分組維度。實際上,方差分析在許多情況下類似于t檢驗。在這兩項檢驗中都需要計算均值之間的差異。但方差

46、分析要處理兩個以上的均值。例如,我們調查每個星期呆在預備學校5、10、20個小時對語言發(fā)展的影響。每個孩子所屬的組別就是處理變量,或者就是分組因素。語言發(fā)展是被解釋變量或者是結果。實驗設計如下所示:更復雜的方差分析是析因設計(factorial design),是分析一個以上的處理變量。下面的案例是研究參加預備學校的時間所產生的效應,但是性別差異產生的效應也是研究的內容。實驗設計類似如下所示:這是3*2的析因設計。3表示分組因素有三個層級,2表示其他分組因素有兩個層級(男、女)。綜合起來就有6種不同的可能性。析因設計遵循和簡單方差分析一樣的基本邏輯和原則,但是析因設計更為復雜,需要同時檢驗一個

47、以上的因素的影響以及因素綜合的影響。不用擔心-接下來的一章會全面學習析因設計。計算檢驗統(tǒng)計量簡單方差分析檢驗兩個以上的群體在一個因素或一個維度上的均值差異。例如,你可能想知道四個群體(20、2、30、35歲的年齡群體)對私人學校的公共財政支持的態(tài)度?;蛘吣阆胫?個不同年級(2、4、6、8、10)的學生群體的父母參與學?;顒拥乃绞欠裼胁町悺H魏畏治鼋Y果:l 只有一個維度或者一個處理變量;l 分組因素有兩個以上的層級;l 關注不同群體在平均成績上的差異就使用簡單方差分析。F值是檢驗假設也就是群體之間有差異的檢驗統(tǒng)計量,計算公式如公式11.1所示。就方差分析而言這是最簡單的公式,但是對于前幾章學

48、習的其他檢驗統(tǒng)計量來說需要花費更多精力來結算。這個比率背后的邏輯是這樣。如果組內完全沒有變化(所有的成績都相同),那么組之間的任何差異都有意義,對吧?可能如此。方差分析公式比較組間的變化量(由于分組因素產生)與組內的變化量(由于隨機因素產生)。如果比值為1,那么組內的差異產生的變化量等于組間差異產生的變化量,而且組間的任何差異都不顯著。如果組間差異的平均值變大,F(xiàn)值也變大,如果F值變大,在所有的F值分布中就會更趨向于極值,也就是更可能由于隨機因素之外的因素影響。下面給出一些數據并初步的計算來說明F值如何計算。例子,假定這是三個預備學校參與者群體和他們的語言測試成績。下面是著名的8個步驟和F檢驗

49、統(tǒng)計量的計算1. 零假設和研究假設的表述。零假設11.2表示三個不同的群體沒有差異;方差分析,也叫F檢驗(因為計算得出的是F統(tǒng)計量或F比值),尋求不同群體之間的差異;F檢驗不是分析配對差異,如群體1和群體2之間的差異。我們需要另一項統(tǒng)計技術進行配對差異分析,本章后面會討論。公式11.3所示的是研究假設,表示三個群體的均值之間相互差異。要注意的是所有的差異之間沒有方向,這是因為所有的F值都是無方向的。到現(xiàn)在為止,我們已經討論了單側和雙側檢驗,在討論方差分析時不需要確定單側還是雙側,因為要檢驗兩個以上的群體,而且F檢驗是綜合的檢驗(也就是檢驗均值之間所有差異),討論特定差異的方向沒有意義。2. 設

50、置零假設的風險水平。.05,研究者自行決定3. 選擇合適的檢驗統(tǒng)計量。使用流程圖,確定合適的檢驗方法是簡單方差分析;4. 計算檢驗統(tǒng)計值(也叫實際值)?,F(xiàn)在我們代入具體的值并進行計算。需要很多計算。l F值是組間差異和組內差異的比值,要計算這些值,首先我們要計算每一種差異-組間、組內和總的差異的平方和。l 組間差異平方和=所有值的均值和每一個群體的均值之差平方然后求和。這意味著每一群體的均值和總的均值的差異的大小;l 組內差異平方和=群體內每一個具體的值和該群體的均值之間的差異平方然后求和。這意味著群體內每一個值和這個群體的均值的差異的大?。籰 總的差異平方和=組間差異平方和與組內平方和的總和

51、;現(xiàn)在我們計算這些值:首先計算“組間平方和”、“組內平方和”、“總平方和”;其次,我們需要計算平方和的均值,也就是簡單的平方和的平均值。我們是以近似的自由度(df)去除每一個平方和。自由度是樣本規(guī)?;蛘呷后w規(guī)模的近似值。對方差分析來說我們需要兩類自由度。對組間估計來說,自由都市k-1,其中k等于群體的數量(在該案例中,有3個群體,自由度是2),對組內估計來說,我們需要的自由度是N-k,其中N是總體樣本規(guī)模(也就是說自由度是30-3=27)。而且F比率是組間差異平方和均值與組內平方和均值的簡單比值=566.54/64.39=8.799,這就是實際的F值。要計算一個小小的F值確實挺麻煩的呀!你已經

52、了解t檢驗,所以想知道t值(總是用于兩個群體的均值差異的檢驗)和F值(總是用于兩個以上的群體)之間的關系。有趣的是,兩個群體的F值等于兩個群體的t值的平方。5. 使用特定統(tǒng)計量的臨界值分布表確定拒絕零假設需要的值。由于F(2,27)=8.7999,在顯著水平.05、分子自由度為2、分母自由度為27情況下臨界值是3.36.6. 比較實際值與臨界值。8.799大于3.367. 做出決定,不能接受零假設,也就是說,三個群體之間的兩兩差異不是由于隨機因素引起的。如果實驗過程正確,可以說是在預備學校的時間,引起的差異。那么如何解釋F(2,27)=8.7999,p<.05l F表示我們使用的是F統(tǒng)計

53、檢驗量;l 2,27是組間估計和組內估計的自由度數值;l 8.799是實際值;l P<.05,表示對零假設的任何檢驗來說,每個群體語言技能的平均成績相互不同的原因是由于隨機因素而不是實驗變量的影響造成的可能性小于5%。結論就是,三個群體之間存在顯著差異。12. 兩個因素-析因方差分析析因方差分析介紹人們如何做出決策已經成為迷惑心理學者幾十年的問題.研究者研究積極參與決策過程(在一系列的條件下)的經驗和年齡如何對道德歸因產生影響。研究樣本由148個裁判構成-56個足球裁判、55個籃球裁判以及37個手球裁判。他們的年齡范圍是1750歲,性別不是考慮的重要變量。在整個樣本中,大約8%沒有社會、

54、政治或運動領域全面參與決策制定過程的任何經驗,大約53%表現(xiàn)積極但沒有全面參與,大約39%既表現(xiàn)積極,又全面參與一些組織中的決策制定。二院方差分析(在第17章可以更多了解多元方差分析)可以展現(xiàn)經驗和年齡對道德歸因和參評的目標定位的交互影響。什么是二元方差分析?很容易-有兩個獨立因素,第一個是經驗水平,第二個是年齡。與每一個方差分析程序類似,包括:1. 對年齡的主效應的檢驗;2. 對經驗的主效應的檢驗;3. 對經驗和年齡的交互效應的檢驗(結果可能是顯著的)。在檢驗一個以上因素或者獨立變量時就體現(xiàn)出方差分析的一個重要特點,也就是研究者可以分析每一個因素的效應,同時可以通過交互效應分析兩者共同的效應

55、。知識和智識路徑:下面介紹如何使用那張圖選擇方差分析(現(xiàn)在處理一個以上的因素)作為合適的檢驗統(tǒng)計。1. 我們檢驗不同群體的數值之間的差異,在這個案例中是檢驗經驗水平和年齡之間的差異;2. 參與者接受一次測試;3. 我們檢驗兩個或多個群體;4. 我們處理不止一個因素或獨立變量;5. 合適的檢驗統(tǒng)計是析因方差分析。方差分析的新類型:析因方差分析(factorial analysis of variance),一個簡單的包含兩個因素的案例:性別(男和女)和處理變量(不同類型的訓練項目-高強度和低強度),以及結果-體重減少的數量,這個案例的實驗設計類似于:接著我們來看什么是主效應和交互效應。就析因分析

56、來說可以提出并回答三個問題:1. 不同的而訓練項目層級也就是高強度和低強度之間是否有差異;2. 不同性別-男性和女性之間是否有差異?3. 高強度或低強度項目是否對男性或女性有不同的效應?問題1和問題2確定主效應是否存在,問題3確定兩個因素之間是否有交互效應。主要方面:析因方差分析的主效應你應該記得方差分析的最初目標是檢驗兩個或兩個以上群體之間的差異.如果數據分析表明某個因素的不同層級之間存在差異,我們就會說存在主效應(main effect).現(xiàn)在來看一個例子,上面給出的案例中共有四個群體,每個群體10個參與者。下面給出可能的分析結果(使用SPSS計算得出),得到一個表叫做源表(source

57、table)。結論是,性別有主效應(p=.000),而處理變量沒有主效應(p=.091),而且這兩個主要因素之間沒有交互效應(p=.665)。因此,在高強度組或低強度組隊減少體重來說并不重要,但是性別是最重要的影響因素。而且處理因素和性別之間沒有交互效應,所以不同的強度對性別沒有差異性影響。更有趣的方面:交互效應現(xiàn)在開始討論交互效應,先看一組新數據的源表,這些數據表明男性和女性受到處理變量的影響,也就是存在交互效應(interaction effect)。而且你還可以看到一些非常有趣的分析結果。處理變量和性別沒有主效應(分別為p=.127,p=.176),但是存在交互效應(p=.004),這是一個非常有意思的結果。實際上,你是在高強度項目或者你是男性或者女性都不重要,但是處理變量對于男性和女性的體重減少有不同的影響。如何理解這個結果?解釋非常簡單:訓練類型沒有主效應,性別沒有主效應;處理變量和性別之間有明顯的交互效應,也就是說在高強度項目中女性減少的體重比男性減少的體重多,而在低強度項目中男性減少的體重比女性減少的多。需要記憶的內

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論