檢驗(yàn)有單樣本t檢驗(yàn)_第1頁
檢驗(yàn)有單樣本t檢驗(yàn)_第2頁
檢驗(yàn)有單樣本t檢驗(yàn)_第3頁
檢驗(yàn)有單樣本t檢驗(yàn)_第4頁
檢驗(yàn)有單樣本t檢驗(yàn)_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

檢驗(yàn)有單樣本t檢驗(yàn)

1.檢驗(yàn)有單樣本t檢驗(yàn),配對t檢驗(yàn)和兩樣本t檢驗(yàn)。

2.單樣本t檢驗(yàn):是用樣本均數(shù)代表的未知總體均數(shù)和已知總體均數(shù)進(jìn)行比較,來觀

察此組樣本與總體的差異性。

3.配對t檢驗(yàn):是采用配對設(shè)計(jì)方法觀察以下幾種情形,1,兩個同質(zhì)受試對象分別接

受兩種不同的處理:2,同一受試對象接受兩種不同的處理;3,同一受試對象處理前后。

4.F檢驗(yàn)又叫方差齊性檢驗(yàn)。在兩樣本t檢驗(yàn)中要用到F檢驗(yàn)。從兩研究總體中隨機(jī)

抽取樣本,要對這兩個樣本進(jìn)行比較的時候,首先要判斷兩總體方差是否相同,即方差齊

性。若兩總體方差相等,則直接用t檢驗(yàn),若不等,可采用t'檢驗(yàn)或變量變換或秩和檢驗(yàn)

等方法。其中要判斷兩總體方差是否相等,就可以用F檢驗(yàn)。2.t檢驗(yàn)和方差分析的前

提條件及應(yīng)用誤區(qū)用于比較均值的t檢驗(yàn)可以分成三類,第?類是針對單組設(shè)計(jì)定量資料

的;第二類是針對配對設(shè)計(jì)定量資料的;第三類則是針對成組設(shè)計(jì)定量資料的。后兩種設(shè)

計(jì)類型的區(qū)別在于事先是否將兩組研究對象按照某一個或幾個方面的特征相似配成對子。

無論哪種類型的t檢驗(yàn),都必須在滿足特定的前提條件下應(yīng)用才是合理的。若是單組設(shè)

計(jì),必須給出一個標(biāo)準(zhǔn)值或總體均值,同時,提供一組定量的觀測結(jié)果,應(yīng)用t檢驗(yàn)的前

提條件就是該組資料必須服從正態(tài)分布;若是配對設(shè)計(jì),每對數(shù)據(jù)的差值必須服從正態(tài)分

布;若是成組設(shè)計(jì),個體之間相互獨(dú)立,兩組資料均取自正態(tài)分布的總體,并滿足方差齊

性。之所以需要這些前提條件,是因?yàn)楸仨氃谶@樣的前提下所計(jì)算出的t統(tǒng)計(jì)量才服從t

分布,而t檢驗(yàn)正是以t分布作為其理論依據(jù)的檢驗(yàn)方法。值得注意的是,方差分析與

成組設(shè)計(jì)t檢驗(yàn)的前提條件是相同的,即正態(tài)性和方差齊性。

5.t檢驗(yàn)是目前醫(yī)學(xué)研究中使用頻率最高,醫(yī)學(xué)論文中最常見到的處理定量資料的假設(shè)

檢驗(yàn)方法。t檢驗(yàn)得到如此廣泛的應(yīng)用,究其原因,不外乎以下幾點(diǎn):現(xiàn)有的醫(yī)學(xué)期刊多

在統(tǒng)計(jì)學(xué)方面作出了要求,研究結(jié)論需要統(tǒng)計(jì)學(xué)支持;傳統(tǒng)的醫(yī)學(xué)統(tǒng)計(jì)教學(xué)都把t檢驗(yàn)作

為假設(shè)檢驗(yàn)的入門方法進(jìn)行介紹,使之成為廣大醫(yī)學(xué)研究人員最熟悉的方法;t檢驗(yàn)方法

簡單,其結(jié)果便于解釋。簡單、熟悉加上外界的要求,促成了t檢驗(yàn)的流行。但是,由于

某些人對該方法理解得不全面,導(dǎo)致在應(yīng)用過程中出現(xiàn)不少問題,有些甚至是非常嚴(yán)重的

錯誤,直接影響到結(jié)論的可靠性。將這些問題歸類,可大致概括為以下兩種情況:不考慮

t檢驗(yàn)的應(yīng)用前提,對兩組的比較一律用t檢驗(yàn);將各種實(shí)驗(yàn)設(shè)計(jì)類型一律視為多個單因

素兩水平設(shè)計(jì),多次用t檢驗(yàn)進(jìn)行均值之間的兩兩比較。以上兩種情況,均不同程度地增

加了得出錯誤結(jié)論的風(fēng)險(xiǎn)。而且,在實(shí)驗(yàn)因素的個數(shù)大于等于2時,無法研究實(shí)驗(yàn)因素之

間的交互作用的大小。

CSDNJM

資訊

論匕

博客

卜戰(zhàn)

搜索

目錄視圖

摘要視圖

訂閱

安裝Chrome瀏覽器下載資源送30個下載分!2011中國移動開發(fā)者大會門票超低價團(tuán)

購!2011移動開發(fā)者大會亮點(diǎn)之二:七大論壇神秘嘉賓閃亮登場!提交原創(chuàng)APP,20萬

等你贏

t檢驗(yàn)與F檢驗(yàn)/統(tǒng)計(jì)常識/統(tǒng)計(jì)學(xué)筆記(2)一隨機(jī)抽樣與統(tǒng)計(jì)推斷的邏輯

2008-05-0421:296581人閱讀評論(2)收藏舉報(bào)

bT檢驗(yàn)和F檢驗(yàn)的由來

一般而言,為了確定從樣本(sample)統(tǒng)計(jì)結(jié)果推論至總體時所犯錯的概率,我們會利用

統(tǒng)計(jì)學(xué)家所開發(fā)的一些統(tǒng)計(jì)方法,進(jìn)行統(tǒng)計(jì)檢定。

通過把所得到的統(tǒng)計(jì)檢定值,與統(tǒng)計(jì)學(xué)家建立了一些隨機(jī)變量的概率分布(probability

distribution)進(jìn)行比較,我們可以知道在多少%的機(jī)會下會得到目前的結(jié)果。倘若經(jīng)比較

后發(fā)現(xiàn),出現(xiàn)這結(jié)果的機(jī)率很少,亦即是說,是在機(jī)會很少、很罕有的情況下才出現(xiàn);那

我們便可以有信心的說,這不是巧合,是具有統(tǒng)計(jì)學(xué)上的意義的(用統(tǒng)計(jì)學(xué)的話講,就是

能夠拒絕虛無假設(shè)nullhypothesis,Ho)?相反,若比較后發(fā)現(xiàn),出現(xiàn)的機(jī)率很高,并不

罕見;那我們便不能很有信心的直指這不是巧合,也許是巧合,也許不是,但我們沒能確

定。

F值和t值就是這些統(tǒng)計(jì)檢定值,與它們相對應(yīng)的概率分布,就是F分布和t分布。統(tǒng)

計(jì)顯著性(sig)就是出現(xiàn)目前樣本這結(jié)果的機(jī)率。

2,統(tǒng)計(jì)學(xué)意義(P值或sig值)

結(jié)果的統(tǒng)計(jì)學(xué)意義是結(jié)果真實(shí)程度(能夠代表總體)的一種估計(jì)方法。專業(yè)上,P值為

結(jié)果可信程度的一個遞減指標(biāo),P值越大,我們越不能認(rèn)為樣本中變量的關(guān)聯(lián)是總體中各

變量關(guān)聯(lián)的可靠指標(biāo)。P值是將觀察結(jié)果認(rèn)為有效即具有總體代表性的犯錯概率。如

P=0.05提示樣本中變量關(guān)聯(lián)有5%的可能是由于偶然性造成的。即假設(shè)總體中任意變量間

均無關(guān)聯(lián),我們重復(fù)類似實(shí)驗(yàn),會發(fā)現(xiàn)約20個實(shí)驗(yàn)中有一個實(shí)驗(yàn),我們所研究的變量關(guān)

聯(lián)將等于或強(qiáng)于我們的實(shí)驗(yàn)結(jié)果。(這并不是說如果變量間存在關(guān)聯(lián),我們可得到5%或

95%次數(shù)的相同結(jié)果,當(dāng)總體中的變量存在關(guān)聯(lián),重復(fù)研究和發(fā)現(xiàn)關(guān)聯(lián)的可能性與設(shè)計(jì)的

統(tǒng)計(jì)學(xué)效力有關(guān)。)在許多研究領(lǐng)域,0.05的p值通常被認(rèn)為是可接受錯誤的邊界水平。

3,T檢驗(yàn)和F檢驗(yàn)

至於具體要檢定的內(nèi)容,須看你是在做哪一個統(tǒng)計(jì)程序。

舉一個例子,比如,你要檢驗(yàn)兩獨(dú)立樣本均數(shù)差異是否能推論至總體,而行的t檢驗(yàn)。

兩樣本(如某班男生和女生)某變量(如身高)的均數(shù)并不相同,但這差別是否能推論至總

體,代表總體的情況也是存在著差異呢?

會不會總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數(shù)值不同?為

此,我們進(jìn)行t檢定,算出?個t檢定值。

與統(tǒng)計(jì)學(xué)家建立的以「總體中沒差別」作基礎(chǔ)的隨機(jī)變量t分布進(jìn)行比較,看看在多

少%的機(jī)會(亦即顯著性sig值)下會得到目前的結(jié)果。

若顯著性sig值很少,比如<0.05(少於5%機(jī)率),亦即是說,「如果」總體「真的」沒

有差別,那麼就只有在機(jī)會很少(5%)、很罕有的情況下,才會出現(xiàn)目前這樣本的情況。雖

然還是有5%機(jī)會出錯(1-0.05=5%),但我們還是可以「比較有信心」的說:目前樣本中這

情況(男女生出現(xiàn)差異的情況)不是巧合,是具統(tǒng)計(jì)學(xué)意義的,「總體中男女生不存差異」

的虛無假設(shè)應(yīng)予拒絕,簡言之,總體應(yīng)該存在著差異。

每一種統(tǒng)計(jì)方法的檢定的內(nèi)容都不相同,同樣是t-檢定,可能是上述的檢定總體中是否

存在差異,也同能是檢定總體中的單一值是否等於0或者等於某一?個數(shù)值。

至於F-檢定,方差分析(或譯變異數(shù)分析,AnalysisofVariance),它的原理大致也是

上面說的,但它是透過檢視變量的方差而進(jìn)行的。它主要用于:均數(shù)差別的顯著性檢驗(yàn)、

分離各有關(guān)因素并估計(jì)其對總變異的作用、分析因素間的交互作用、方差齊性(Equality

ofVariances)檢驗(yàn)等情況。

4,T檢驗(yàn)和F檢驗(yàn)的關(guān)系

t檢驗(yàn)過程,是對兩樣本均數(shù)(mean)差別的顯著性進(jìn)行檢驗(yàn)。惟t檢驗(yàn)須知道兩個總體

的方差(Variances)是否相等;t檢驗(yàn)值的計(jì)算會因方差是否相等而有所不同。也就是說,

t檢驗(yàn)須視乎方差齊性(EqualityofVariances)結(jié)果。所以,SPSS在進(jìn)行t-testfor

EqualityofMeans的同時,也要做Levene'sTestforEqualityofVariances。

1.

在Levene'sTestforEqualityofVariances—欄中F值為2.36,Sig.為.128,表

示方差齊性檢驗(yàn)「沒有顯著差異」,即兩方差齊(EqualVariances),故下面t檢驗(yàn)的結(jié)

果表中要看第一排的數(shù)據(jù),亦即方差齊的情況下的t檢驗(yàn)的結(jié)果。

2.

在t-testforEqualityofMeans中,第一排(Variances=Equal)的情況:t=8.892,

df=84,2-TailSig=.000,MeanDifference=22.99

既然Sig=.000,亦即,兩樣本均數(shù)差別有顯著性意義!

3.

到底看哪個Levene'sTestforEqualityofVariances一欄中sig,還是看t-test

forEqualityofMeans中那個Sig.(2-tailed)???

答案是:兩個都要看。

先看Levene'sTestforEqualityofVariances,如果方差齊性檢驗(yàn)「沒有顯著差

異」,即兩方差齊(EqualVariances),故接著的t檢驗(yàn)的結(jié)果表中要看第一排的數(shù)據(jù),

亦即方差齊的情況下的t檢驗(yàn)的結(jié)果。

反之,如果方差齊性檢驗(yàn)「有顯著差異」,即兩方差不齊(UnequalVariances),故接

著的t檢驗(yàn)的結(jié)果表中要看第二排的數(shù)據(jù),亦即方差不齊的情況下的t檢驗(yàn)的結(jié)果。

4.

你做的是T檢驗(yàn),為什么會有F值呢?

就是因?yàn)橐u估兩個總體的方差(Variances)是否相等,要做Levene'sTestfor

EqualityofVariances,要檢驗(yàn)方差,故所以就有F值。

另?種解釋:

t檢驗(yàn)有單樣本t檢驗(yàn),配對t檢驗(yàn)和兩樣本t檢驗(yàn)。

單樣本t檢驗(yàn):是用樣本均數(shù)代表的未知總體均數(shù)和已知總體均數(shù)進(jìn)行比較,來觀察此

組樣本與總體的差異性。

配對t檢驗(yàn):是采用配對設(shè)計(jì)方法觀察以下幾種情形,1,兩個同質(zhì)受試對象分別接受

兩種不同的處理;2,同一受試對象接受兩種不同的處理;3,同一受試對象處理前后。F

檢驗(yàn)又叫方差齊性檢驗(yàn)。在兩樣本t檢驗(yàn)中要用到F檢驗(yàn)。

從兩研究總體中隨機(jī)抽取樣本,要對這兩個樣本進(jìn)行比較的時候,首先要判斷兩總體方

差是否相同,即方差齊性。若兩總體方差相等,則直接用t檢驗(yàn),若不等,可采用t'檢驗(yàn)

或變量變換或秩和檢驗(yàn)等方法。

其中要判斷兩總體方差是否相等,就可以用F檢驗(yàn)。

若是單組設(shè)計(jì),必須給出-個標(biāo)準(zhǔn)值或總體均值,同時,提供一組定量的觀測結(jié)果,應(yīng)

用t檢驗(yàn)的前提條件就是該組資料必須服從正態(tài)分布;若是配對設(shè)計(jì),每對數(shù)據(jù)的差值必

須服從正態(tài)分布;若是成組設(shè)計(jì),個體之間相互獨(dú)立,兩組資料均取自正態(tài)分布的總體,

并滿足方差齊性。之所以需要這些前提條件,是因?yàn)楸仨氃谶@樣的前提下所計(jì)算出的t統(tǒng)

計(jì)量才服從t分布,而t檢驗(yàn)正是以t分布作為其理論依據(jù)的檢驗(yàn)方法。

簡單來說就是實(shí)用T檢驗(yàn)是有條件的,其中之一就是要符合方差齊次性,這點(diǎn)需要F檢

驗(yàn)來驗(yàn)證。

1、問:自由度是什么?怎樣確定?

答:(定義)構(gòu)成樣本統(tǒng)計(jì)量的獨(dú)立的樣本觀測值的數(shù)目或自由變動的樣本觀測值的數(shù)

目。用df表示。

自由度的設(shè)定是出于這樣一個理由:在總體平均數(shù)未知時,用樣本平均數(shù)去計(jì)算離差

(常用小s)會受到一個限制——要計(jì)算標(biāo)準(zhǔn)差(小s)就必須先知道樣本平均數(shù),而樣

本平均數(shù)和n都知道的情況下,數(shù)據(jù)的總和就是一個常數(shù)了。所以,“最后一個”樣本數(shù)

據(jù)就不可以變了,因?yàn)樗亲?,總和就變了,而這是不允許的。至于有的自由度是n—2

什么的,都是同樣道理。

在計(jì)算作為估計(jì)量的統(tǒng)計(jì)量時,引進(jìn)一個統(tǒng)計(jì)量就會失去一個自由度。

通俗點(diǎn)說,一個班上有50個人,我們知道他們語文成績平均分為80,現(xiàn)在只需要知道

49個人的成績就能推斷巾剩下那個人的成績。你可以隨便報(bào)出49個人的成績,但是最后

一個人的你不能瞎說,因?yàn)槠骄忠呀?jīng)固定下來了,自由度少個了。

簡單點(diǎn)就好比你有一百塊,這是固定的,已知的,假設(shè)你打算買五件東西,那么前四件

你可以隨便買你想買的東西,只要還有錢的話,比如說你可以吃KFC可以買筆,可以買衣

服,這些花去的錢數(shù)目不等,當(dāng)你只剩2塊錢時,或許你最多只能買一瓶可樂了,當(dāng)然也

可以買一個肉松蛋卷,但無論怎么花,你都只有兩塊錢,而這在你花去98塊那時就已經(jīng)

定下來了。(這個例子舉的真不錯!?。?/p>

2、問:X方檢驗(yàn)中自由度問題

答:在正態(tài)分布檢驗(yàn)中,這里的M(三個統(tǒng)計(jì)量)為N(總數(shù))、平均數(shù)和標(biāo)準(zhǔn)差。

因?yàn)槲覀冊谧稣龖B(tài)檢驗(yàn)時,要使用到平均數(shù)和標(biāo)準(zhǔn)差以確定該正態(tài)分布形態(tài),此外,要

計(jì)算出各個區(qū)間的理論次數(shù),我們還需要使用到N。

所以在正態(tài)分布檢驗(yàn)中,自由度為K-3。(這一條比較特別,要記?。。?/p>

在總體分布的配合度檢驗(yàn)中,自由度為K—1。

在交叉表的獨(dú)立性檢驗(yàn)和同質(zhì)性檢驗(yàn)中,自由度為(r-1)X(c-1)?

3、問:t檢驗(yàn)和方差分析有何區(qū)別答:t檢驗(yàn)適用于兩個變量均數(shù)間的差異檢驗(yàn),多于

兩個變量間的均數(shù)比較要用方差分析。用于比較均值的t檢驗(yàn)可以分成三類,第一類是

針對單組設(shè)計(jì)定量資料的;第二類是針對配對設(shè)計(jì)定量資料的;第三類則是針對成組設(shè)計(jì)

定量資料的。后兩種設(shè)計(jì)類型的區(qū)別在于事先是否將兩組研究對象按照某一個或兒個方面

的特征相似配成對子。無論哪種類型的t檢驗(yàn),都必須在滿足特定的前提條件下應(yīng)用才是

合理的。

若是單組設(shè)計(jì),必須給出一個標(biāo)準(zhǔn)值或總體均值,同時,提供一組定量的觀測結(jié)果,應(yīng)

用t檢驗(yàn)的前提條件就是該組資料必須服從正態(tài)分布;若是配對設(shè)計(jì),每對數(shù)據(jù)的差值必

須服從正態(tài)分布;若是成組設(shè)計(jì),個體之間相互獨(dú)立,兩組資料均取自正態(tài)分布的總體,

并滿足方差齊性。之所以需要這些前提條件,是因?yàn)楸仨氃谶@樣的前提下所計(jì)算出的t統(tǒng)

計(jì)量才服從t分布,而t檢驗(yàn)正是以t分布作為其理論依據(jù)的檢驗(yàn)方法。

值得注意的是,方差分析與成組設(shè)計(jì)t檢驗(yàn)的前提條件是相同的,即正態(tài)性和方差齊

性。t檢驗(yàn)是目前醫(yī)學(xué)研究中使用頻率最高,醫(yī)學(xué)論文中最常見到的處理定量資料的假設(shè)

檢驗(yàn)方法。t檢驗(yàn)得到如此廣泛的應(yīng)用,究其原因,不外乎以下幾點(diǎn):現(xiàn)有的醫(yī)學(xué)期刊多

在統(tǒng)計(jì)學(xué)方面作出了要求,研究結(jié)論需要統(tǒng)計(jì)學(xué)支持;傳統(tǒng)的醫(yī)學(xué)統(tǒng)計(jì)教學(xué)都把t檢驗(yàn)作

為假設(shè)檢驗(yàn)的入門方法進(jìn)行介紹,使之成為廣大醫(yī)學(xué)研究人員最熟悉的方法;t檢驗(yàn)方法

簡單,其結(jié)果便于解釋。簡單、熟悉加上外界的要求,促成了t檢驗(yàn)的流行。但是,由于

某些人對該方法理解得不全面,導(dǎo)致在應(yīng)用過程中出現(xiàn)不少問題,有些甚至是非常嚴(yán)重的

錯誤,直接影響到結(jié)論的可靠性。將這些問題歸類,可大致概括為以下兩種情況:不考慮

t檢驗(yàn)的應(yīng)用前提,對兩組的比較一律用t檢驗(yàn);將各種實(shí)驗(yàn)設(shè)計(jì)類型一律視為多個單因

素兩水平設(shè)計(jì),多次用t檢驗(yàn)進(jìn)行均值之間的兩兩比較。以上兩種情況,均不同程度地增

加了得出錯誤結(jié)論的風(fēng)險(xiǎn)。而且,在實(shí)驗(yàn)因素的個數(shù)大于等于2時,無法研究實(shí)驗(yàn)因素之

間的交互作用的大小。

問:統(tǒng)計(jì)學(xué)意義(P值)

答:結(jié)果的統(tǒng)計(jì)學(xué)意義是結(jié)果真實(shí)程度(能夠代表總體)的一種估計(jì)方法。專業(yè)上,P

值為結(jié)果可信程度的一個遞減指標(biāo),P值越大,我們越不能認(rèn)為樣本中變量的關(guān)聯(lián)是總體

中各變量關(guān)聯(lián)的可靠指標(biāo)。P值是將觀察結(jié)果認(rèn)為有效即具有總體代表性的犯錯概率。如

P=0.05提示樣本中變量關(guān)聯(lián)有5%的可能是由于偶然性造成的。即假設(shè)總體中任意變量間

均無關(guān)聯(lián),我們重復(fù)類似實(shí)驗(yàn),會發(fā)現(xiàn)約20個實(shí)驗(yàn)中有一個實(shí)驗(yàn),我們所研究的變量關(guān)

聯(lián)將等于或強(qiáng)于我們的實(shí)驗(yàn)結(jié)果。(這并不是說如果變量間存在關(guān)聯(lián),我們可得到5%或

95%次數(shù)的相同結(jié)果,當(dāng)總體中的變量存在關(guān)聯(lián),重復(fù)研究和發(fā)現(xiàn)關(guān)聯(lián)的可能性與設(shè)計(jì)的

統(tǒng)計(jì)學(xué)效力有關(guān)。)在許多研究領(lǐng)域,0.05的P值通常被認(rèn)為是可接受錯誤的邊界水平。

4、問:如何判定結(jié)果具有真實(shí)的顯著性

答:在最后結(jié)論中判斷什么樣的顯著性水平具有統(tǒng)計(jì)學(xué)意義,不可避免地帶有武斷性。

換句話說,認(rèn)為結(jié)果無效而被拒絕接受的水平的選擇具有武斷性。實(shí)踐中,最后的決定通

常依賴于數(shù)據(jù)集比較和分析過程中結(jié)果是先驗(yàn)性還是僅僅為均數(shù)之間的兩兩》比較,依賴

于總體數(shù)據(jù)集里結(jié)論一致的支持性證據(jù)的數(shù)量,依賴于以往該研究領(lǐng)域的慣例。通常,許

多的科學(xué)領(lǐng)域中產(chǎn)生P值的結(jié)果W0.05被認(rèn)為是統(tǒng)計(jì)學(xué)意義的邊界線,但是這顯著性水平

還包含了相當(dāng)高的犯錯可能性。結(jié)果0.052P>0.01被認(rèn)為是具有統(tǒng)計(jì)學(xué)意義,而

0.01>P>0.001被認(rèn)為具有高度統(tǒng)計(jì)學(xué)意義。但要注意這種分類僅僅是研究基礎(chǔ)上非正規(guī)

的判斷常規(guī)。

5、問:所有的檢驗(yàn)統(tǒng)計(jì)都是正態(tài)分布的嗎?

答:并不完全如此,但大多數(shù)檢驗(yàn)都直接或間接與之有關(guān),可以從正態(tài)分布中推導(dǎo)出

來,如t檢驗(yàn)、F檢驗(yàn)或卡方檢驗(yàn)。這些檢驗(yàn)一般都要求:所分析變量在總體中呈正態(tài)分

布,即滿足所謂的正態(tài)假設(shè)。許多觀察變量的確是呈正態(tài)分布的,這也是正態(tài)分布是現(xiàn)實(shí)

世界的基本特征的原因。當(dāng)人們用在正態(tài)分布基礎(chǔ)上建立的檢驗(yàn)分析非正態(tài)分布變量的數(shù)

據(jù)時問題就產(chǎn)生了,(參閱非參數(shù)和方差分析的正態(tài)性檢驗(yàn))。這種條件下有兩種方法:

一是用替代的非參數(shù)檢驗(yàn)(即無分布性檢驗(yàn)),但這種方法不方便,因?yàn)閺乃峁┑慕Y(jié)

論形式看,這種方法統(tǒng)計(jì)效率低下、不靈活?。另一種方法是:當(dāng)確定樣本量足夠大的情況

下,通常還是可以使用基于正態(tài)分布前提下的檢驗(yàn)。后一種方法是基于一個相當(dāng)重要的原

則產(chǎn)生的,該原則對正態(tài)方程基礎(chǔ)上的總體檢驗(yàn)有極其重要的作用。即,隨著樣本量的增

加,樣本分布形狀趨于正態(tài),即使所研究的變量分布并不呈正態(tài)。

6、問:假設(shè)檢驗(yàn)的內(nèi)涵及步驟

答:在假設(shè)檢驗(yàn)中,由于隨機(jī)性我們可能在決策上犯兩類錯誤,一類是假設(shè)正確,但我

們拒絕了假設(shè),這類錯誤是“棄真”錯誤,被稱為第一類錯誤;一類是假設(shè)不正確,但我

們沒拒絕假設(shè),這類錯誤是“取偽”錯誤,被稱為第二類錯誤。一般來說,在樣本確定的

情況下,任何決策無法同時避免兩類錯誤的發(fā)生,即在避免第一類錯誤發(fā)生機(jī)率的同時,

會增大第二類錯誤發(fā)生的機(jī)率;或者在避免第二類錯誤發(fā)生機(jī)率的同時,會增大第?類錯

誤發(fā)生的機(jī)率。人們往往根據(jù)需要選擇對那類錯誤進(jìn)行控制,以減少發(fā)生這類錯誤的機(jī)

率。大多數(shù)情況下,人們會控制第一類錯誤發(fā)生的概率。發(fā)生第一類錯誤的概率被稱作

顯著性水平,一般用a表示,在進(jìn)行假設(shè)檢驗(yàn)時,是通過事先給定顯著性水平a的值而

來控制第一類錯誤發(fā)生的概率。在這個前提下,假設(shè)檢驗(yàn)按下列步驟進(jìn)行:

1)、確定假設(shè);

2)、進(jìn)行抽樣,得到一定的數(shù)據(jù);

3)、根據(jù)假設(shè)條件下,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,并根據(jù)抽樣得到的數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量在這

次抽樣中的具體值;

4)、依據(jù)所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量的抽樣分布,和給定的顯著性水平,確定拒絕域及其臨

界值;

5)、比較這次抽樣中檢驗(yàn)統(tǒng)計(jì)量的值與臨界值的大小,如果檢驗(yàn)統(tǒng)計(jì)量的值在拒絕域

內(nèi),則拒絕假設(shè);

到這一步,假設(shè)檢驗(yàn)已經(jīng)基本完成,但是由于檢驗(yàn)是利用事先給定顯著性水平的方法來

控制犯錯概率的,所以對于兩個數(shù)據(jù)比較相近的假設(shè)檢驗(yàn),我們無法知道那一個假設(shè)更容

易犯錯,即我們通過這種方法只能知道根據(jù)這次抽樣而犯第一類錯誤的最大概率(即給定

的顯著性水平),而無法知道具體在多大概率水平上犯錯。計(jì)算P值有效的解決了這個問

題,P值其實(shí)就是按照抽樣分布計(jì)算的一個概率值,這個值是根據(jù)檢驗(yàn)統(tǒng)計(jì)量計(jì)算出來

的。通過直接比較P值與給定的顯著性水平a的大小就可以知道是否拒絕假設(shè),顯然這

就代替了比較檢驗(yàn)統(tǒng)計(jì)量的值與臨界值的大小的方法。而且通過這種方法,我們還可以知

道在P值小于a的情況下犯第一類錯誤的實(shí)際概率是多少,p=0.03<a=0.05,那么拒絕

假設(shè),這一決策可能犯錯的概率是0.03。需要指出的是,如果P>a,那么假設(shè)不被拒

絕,在這種情況下,第一類錯誤并不會發(fā)生。

7、問:卡方檢驗(yàn)的結(jié)果,值是越大越好,還是越小越好?

答:與其它檢驗(yàn)一樣,所計(jì)算出的統(tǒng)計(jì)量越大,在分布中越接近分布的尾端,所對應(yīng)的

概率值越小。

如果試驗(yàn)設(shè)計(jì)合理、數(shù)據(jù)正確,顯著或不顯著都是客觀反映。沒有什么好與不好。

8、問:配對樣本的T檢驗(yàn)和相關(guān)樣本檢驗(yàn)有何差別?

答:配對樣本有同源配對(如動物實(shí)驗(yàn)中雙胞胎)、條件配對(如相同的環(huán)境)、自身

配對(如醫(yī)學(xué)實(shí)驗(yàn)中個體的用藥前后)等。(好像沒有解釋清楚啊,同問這個,到底什么

區(qū)別呢?)

9、問:在比較兩組數(shù)據(jù)的率是否相同時;二項(xiàng)分布和卡方檢驗(yàn)有什么不同?

答:卡方分布主要用于多組多類的比較,是檢驗(yàn)研究對象總數(shù)與某一類別組的觀察頻數(shù)

和期望頻數(shù)之間是否存在顯著差異,要求每格中頻數(shù)不小于5,如果小于5則合并相鄰

組。二項(xiàng)分布則沒有這個要求。

如果分類中只有兩類還是采用二項(xiàng)檢驗(yàn)為好。

如果是2*2表格可以用fisher精確檢驗(yàn),在小樣本下效果更好。

10、問:如何比較兩組數(shù)據(jù)之間的差異性

答:從四個方面來回答,

1).設(shè)計(jì)類型是完全隨機(jī)設(shè)計(jì)兩組數(shù)據(jù)比較,不知道數(shù)據(jù)是否是連續(xù)性變量?

2).比較方法:如果數(shù)據(jù)是連續(xù)性數(shù)據(jù),且兩組數(shù)據(jù)分別服從正態(tài)分布&方差齊(方差

齊性檢驗(yàn)),則可以采用t檢驗(yàn),如果不服從以上條件可以采用秩和檢驗(yàn)。

3).想知道兩組數(shù)據(jù)是否有明顯差異?不知道這個明顯差異是什么意思?是問差別有無

統(tǒng)計(jì)學(xué)意義(即差別的概率有多大)還是兩總體均數(shù)差值在哪個范圍波動?如果是前者則

可以用第2步可以得到P值,如果是后者,則是用均數(shù)差值的置信區(qū)間來完成的。當(dāng)然兩

者的結(jié)果在SPSS中均可以得到。

11、問:回歸分析和相關(guān)分析的聯(lián)系和區(qū)別

答:回歸分析(Regression):Dependantvariableisdefinedandcanbe

forecastedby

independentvariable.相關(guān)分析(Correlation):Therelationshipbtwtwo

variables.---AdosenotdefineordetermineB.

回歸更有用自變量解釋因變量的意思,有一點(diǎn)點(diǎn)因果關(guān)系在里面,并且可以是線性或者

非線形關(guān)系;

相關(guān)更傾向于解釋兩兩之間的關(guān)系,但是一般都是指線形關(guān)系,特別是相關(guān)指數(shù),有時

候圖像顯示特別強(qiáng)二次方圖像,但是相關(guān)指數(shù)仍然會很低,而這僅僅是因?yàn)閮烧唛g不是線

形關(guān)系,并不意味著兩者之間沒有關(guān)系,因此在做相關(guān)指數(shù)的時候要特別注意怎么解釋數(shù)

值,特別建議做出圖像觀察先。

不過,無論回歸還是相關(guān),在做因果關(guān)系的時候都應(yīng)該特別注意,并不是每一個顯著的

回歸因子或者較高的相關(guān)指數(shù)都意味著因果關(guān)系,有可能這些因素都是受第三,第四因素

制約,都是另外因素的因或果。

對于此二者的區(qū)別,我想通過下面這個比方很容易理解:

對于兩個人關(guān)系,相關(guān)關(guān)系只能知道他們是戀人關(guān)系,至于他們誰是主導(dǎo)者,誰說話算

數(shù),誰是跟隨者,一個打個噴嚏,另一個會有什么反應(yīng),相關(guān)就不能勝任,而回歸分析則

能很好的解決這個問題

回端未必有因果彳系?;囟说闹饕卸阂皇墙忉專皇菧y。在於利用已知的自建艱

^^未知的依燮數(shù)。相H羽系數(shù),主要在了解雨他燮數(shù)的共建情形。如果有因果1^彳系,通常

畬暹行路彳至分析(pathanalysis)或是^性結(jié)橫取出系模式。

我覺得應(yīng)該這樣看,我們做回歸分析是在一定的理論和直覺下,通過自變量和因變量的

數(shù)量關(guān)系探索是否有因果關(guān)系。樓上這位仁兄說“回歸未必有因果關(guān)系……如果有因果關(guān)

系,通常進(jìn)行路徑分析或線性結(jié)構(gòu)關(guān)系模式”有點(diǎn)值得商榷吧,事實(shí)上,回歸分析可以看

成是線性結(jié)構(gòu)關(guān)系模式的一個特例啊。

我覺得說回歸是探索因果關(guān)系的并沒錯,因?yàn)閷?shí)際上最后我們并不是完全依據(jù)統(tǒng)計(jì)的結(jié)

果來判斷因果性,只有在統(tǒng)計(jì)結(jié)果和理論及現(xiàn)實(shí)比較吻合的基礎(chǔ)上我們才肯定這種因果關(guān)

系。任何統(tǒng)計(jì)方法只是一種工具,但是不能完全依賴于這種工具。即使是SEM,我們也不

能說完全認(rèn)定其準(zhǔn)確性,因?yàn)榧词狗椒ㄊ呛玫?,但是變量的?fù)雜關(guān)系呈現(xiàn)的方式也是多種

多樣的,可能統(tǒng)計(jì)只能告訴你一個方向上的最優(yōu)解,可未必是最符合實(shí)際的,更何況抽樣

數(shù)據(jù)的質(zhì)量好壞也會使得結(jié)果不符合事實(shí),從而導(dǎo)致人們懷疑統(tǒng)計(jì)方法的準(zhǔn)確性。

統(tǒng)計(jì)只說明統(tǒng)計(jì)關(guān)聯(lián)。

不證明因素關(guān)系。

回歸有因果關(guān)系,相關(guān)未必。

回歸分析是處理兩個及兩個以上變量間線性依存關(guān)系的統(tǒng)計(jì)方法。此類問題很普遍,如

人頭發(fā)中某種金屬元素的含量與血液中該元素的含量有關(guān)系,人的體表面積與身高、體重

有關(guān)系;等等?;貧w分析就是用于說明這種依存變化的數(shù)學(xué)關(guān)系。

任何事物的存在都不是孤立的,而是相互聯(lián)系、相互制約的。身高與體重、體溫與脈

搏、年齡與血壓等都存在一定的聯(lián)系。說明客觀事物相互間關(guān)系的密切程度并用適當(dāng)?shù)慕y(tǒng)

計(jì)指標(biāo)表示出來,這個過程就是相關(guān)分析.

統(tǒng)計(jì)學(xué)筆記(2)一隨機(jī)抽樣與統(tǒng)計(jì)推斷的邏輯

前天麥小兜問我怎樣構(gòu)造置信區(qū)間,在電話里我似乎沒有解釋清楚,這里重新整理出一

份筆記。同時有感于在國內(nèi)做課題時,同行們的窘態(tài)歷歷在目(他們不知道如何去檢驗(yàn)一

個變量是否符合正態(tài)分布),故記之,以勉勵自己盡力思考清楚所學(xué)所用之物。

學(xué)過統(tǒng)計(jì)學(xué)的人都知道可以對一個未知總體(population)進(jìn)行隨機(jī)抽樣,通過對樣本

(sample)的描述、計(jì)算(例如計(jì)算樣本均值、樣本方差),進(jìn)而推斷總體的一些特征

(對某些假設(shè)進(jìn)行檢驗(yàn),構(gòu)造置信區(qū)間等等)。當(dāng)然,很多現(xiàn)代的推斷方法都是“菜譜

(cookbook)”性質(zhì)的,不需要非專業(yè)人士進(jìn)行詳細(xì)掌握,例如,搞經(jīng)濟(jì)學(xué)的人往往在

不知道什么是F分布的情況下也能知道如何檢驗(yàn)F統(tǒng)計(jì)量并對結(jié)論進(jìn)行解釋,甚至不用親

手計(jì)算F統(tǒng)計(jì)量。但是,如果仔細(xì)思考一下其中的關(guān)系,可以看到這種隨機(jī)抽樣一推斷中

包含著某種哲學(xué),而這種哲學(xué)在某些地方的確顯式出了人類的智慧。

本質(zhì)上,這種方法是用一組我們掌握了100%信息的數(shù)據(jù)(樣本),對一組我們幾乎不掌

握信息或只掌握部分信息的數(shù)據(jù)(總體),進(jìn)行擬合的過程。換句話說,以有知推未知的

過程。因?yàn)槭菍Α拔粗钡耐茢?,我們不可能?00%的把握,但同時是用“有知”的數(shù)

據(jù),所以我們不會一點(diǎn)把握都沒有。也許通過一個極為簡單例子我們可以看到背后的這種

思維。下面就開始這個練習(xí)。

[例子]:假設(shè)一個學(xué)校有20000名學(xué)生,從中隨機(jī)抽取1000名學(xué)生,問,這個學(xué)校

20000名學(xué)生的某門課的平均成績是否為70/100?注意,這里并沒有作巾有關(guān)總體的分布

的假設(shè)。

[問題1L我們能夠用樣本進(jìn)行統(tǒng)計(jì)推斷了嗎?

似乎還不可以,邏輯上缺一步。這里值得注意的是,所抽取的1000學(xué)生是否是“隨機(jī)

樣木”?答窠是否定的。

隨機(jī)抽樣的思想是:抽出來的樣本(sample)的分布是和總體(population)的分布是

一致的,這一點(diǎn)對于每一個觀測值而言,能夠成立。但隨機(jī)樣本還要求每個觀測值

(observation)相互獨(dú)立(independent),在這里狹義的理解便是,每一個觀察值被取

到的概率是相同的。但是在上面例子里,這個條件顯然并不能被滿足(很多阿冏的學(xué)者往

往忽略這個條件)。如果你收集了1000個學(xué)生的成績單,那么這1000個學(xué)生的成績被抽

到概率取決于其被取到的順序。由于一次抽取1000個學(xué)生的成績,每個學(xué)生被抽到的次

數(shù)只是一次,不能被重復(fù)抽樣。于是,樣本中第一個學(xué)生被抽到的概率是1/20000,第二

個學(xué)生被抽到的概率則是1/19999,第三個學(xué)生是1/19998,……第1000個學(xué)生為

1/19000。也就是說,在?些學(xué)生被抽走之后,下一個學(xué)生被抽到的概率絕對不會等于

l/20000o只有在有放回(withreplacement)的抽樣中,我們才能說每個學(xué)生被抽中的

概率是1/20000,也才能保證,我們抽取的是隨機(jī)樣本(randomsample)o但是那樣的

話,我們又很可能抽不到1000個樣本,因?yàn)橐粋€學(xué)生被抽到大于一次重復(fù)的可能性不是

零。

幸運(yùn)的是,注意到這一千個概率值相差并不大(因?yàn)榭傮w值夠大),那么,可以近似地認(rèn)

為這1000個學(xué)生的成績是隨機(jī)樣本(randomsample)。在做了這樣的近似之后,我們方

可以進(jìn)行統(tǒng)計(jì)推斷。這種近似在統(tǒng)計(jì)學(xué)中很普遍。例如,中心極限定理(centrallimit

Theorem)說的是,大多數(shù)分布可以近似的看作正態(tài)(normal)分布,這使得正態(tài)分布在統(tǒng)

計(jì)學(xué)中占有極為重要的地位。這些分布的一個重要特征便是,變量可以看成是觀測值的和

(的函數(shù)),例如,二項(xiàng)分布可以看成是一組伯努里試驗(yàn)(bernollitiral)結(jié)果的和。

另外,例如泊松(poisson)分布可以看成是二項(xiàng)(binomial)分布,而后者又可近似看作

正態(tài)分布。

但是,完成了這個近似,我們還需要更多的假設(shè)才能進(jìn)行統(tǒng)計(jì)推斷和檢驗(yàn)(inference

andtest)。例如,我們必須了解總體的分布情況,即使不知道所有參數(shù)的具體值。(目

前假設(shè)我們只討論參數(shù)(parametric)方法)

[情形一]:我們確切知道這20000學(xué)生的成績符合(正態(tài))分布,均值未知(unkown

mean)但是方差已知(knownvariance)o

[問題2]對于符合任意分布的樣本,樣本均值和樣本方差符合什么樣的規(guī)律?

利用簡單的數(shù)學(xué)期望的性質(zhì)可以得到如下關(guān)系:

(1)樣本均值的期望=總體均值。

(2)樣本均值的方差=總體方差/樣本數(shù)(樣本均值的波動沒有單個觀測值變化大)通

過這些變量,我們可以構(gòu)造統(tǒng)計(jì)量Z:

(3)Z=(樣本均值-總體均值)/根號(總體方差/樣本數(shù))。根據(jù)(1)(2)和中心極

限定理,對于任何總體,Z統(tǒng)計(jì)量符合標(biāo)準(zhǔn)正態(tài)分布。值得注意的是,對于這個Z統(tǒng)計(jì)

量,我們掌握了大量的信息。例如,對于任意給定的A值,我們完全可以計(jì)算出符合

(4)Pr(Z<|z|)=A%的z值。

但是由于Z是變量,我們并未掌握100%的信息。

注意(3)和(4)式的含義,由于我們可以算出樣本均值和樣本方差,總體方差,那么

z便是由總體均值唯一決定的函數(shù)。于是,我們可以反算出總體均值的函數(shù)表達(dá)式,因?yàn)?/p>

總體均值僅僅是z的反函數(shù)。給定A,我們知道z的取值范圍,也就知道了總體均值的變

化范圍。這個變化范圍就是我們所說的置(自)信區(qū)間(confidenceinterval),例如Pr

(cl〈總體均值<c2)=90%,cl是5%百分位(percentile)的數(shù)值,c2是95%百分位的數(shù)

值。也就是說,總體均值落在cl,c2區(qū)間的概率是90%。

于是我們可以進(jìn)行假設(shè)檢驗(yàn):H0:總體均值=70VSHl:notH0。

(assume:size=10%)。

這個時候,我們知道Pr(cl<總體均值<c2)=90%,那么只要總體均值〈cl或者總體均

值>。2我們就可以在10%的水平上推翻H0。

[情形二]我們不知道總體方差,也不知道總體均值。

再看式子(3),我們知道不能用正態(tài)分布來進(jìn)行推斷了,于是得用新的方法,即t分

布。根據(jù)定義,樣本方差=$1101(觀測值i-樣本均值)~2;i=l,2,1000。

樣本均(lk=sum(觀測值i)/樣本數(shù)i=l,2,....1000o

可以證明(過程復(fù)雜,需要用到正交矩陣運(yùn)算),(樣本方差/總體方差)符合(樣本

值T)個自由度的代方(chi-squared)分布。同時,樣本方差和樣本均值是獨(dú)立變量。

那么構(gòu)造新的t變量:t=Z/根號(卡方/自由度)。

值得注意,分子分母各是?個分式,各自的分母都帶有一個未知數(shù),即總體方差。但幸

運(yùn)的是,這兩者互相銷去。于是,t只是由總體均值唯一決定的函數(shù)。

那么我們又可以進(jìn)行構(gòu)造置信區(qū)間的練習(xí)。這里需要指出的是,(i)對于符合任意分

布的總體而言,Z符合標(biāo)準(zhǔn)正態(tài)分布,因?yàn)闃颖揪凳撬杏^測值的“和”(乘以一個常

數(shù)),只要樣本數(shù)夠大,中心極限定理保證了其近似于標(biāo)準(zhǔn)正態(tài)分布。(ii)但是,如果

總體不符合正態(tài)部分,那么我們無法進(jìn)行t檢驗(yàn)。因?yàn)闊o法保證樣本方差符合卡方分布,

于是也就無法保證t符合t分布。

總結(jié)一下這里的哲學(xué)。我們用了一個掌握了100%信息的樣本,計(jì)算了幾個值(樣本均

值,樣本方差)。然后構(gòu)造出了一個我們掌握了很大信息的統(tǒng)計(jì)量Z,或t。再用這些信

息去了解我們掌握了少數(shù)信息的總體。耐人尋味的地方在于,這個符合標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)

計(jì)量Z,和3其中的信息一些來自樣本,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論