數(shù)理統(tǒng)計基礎(chǔ)_第1頁
數(shù)理統(tǒng)計基礎(chǔ)_第2頁
數(shù)理統(tǒng)計基礎(chǔ)_第3頁
數(shù)理統(tǒng)計基礎(chǔ)_第4頁
數(shù)理統(tǒng)計基礎(chǔ)_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)理統(tǒng)計基礎(chǔ)第一頁,共一百頁,編輯于2023年,星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第二頁,共一百頁,編輯于2023年,星期三概率論的起源與初步發(fā)展1657年,荷蘭數(shù)學(xué)家惠更斯(C.Huyens,

1629-1695)發(fā)表了《論賭博中的計算》,這是最早的概率論著作。這些數(shù)學(xué)家的著述中所出現(xiàn)的第一批概率論概念與定理,標(biāo)志著概率論的誕生。而概率論最終成為一門獨立的數(shù)學(xué)分支,真正的奠基人是伯努利(JacobBernoulli,1654-1705)。他的主要貢獻(xiàn)是建立了概率論中的第一個極限定理我們稱為“伯努利大數(shù)定律”。即“在多次重復(fù)試驗中,頻率有越趨穩(wěn)定的趨勢”。這一定理是在他去世后,即1713年,發(fā)表在他的遺著《猜度術(shù)》中。第三頁,共一百頁,編輯于2023年,星期三19世紀(jì)概率論朝著建立完整的理論體系和更廣泛的應(yīng)用方向發(fā)展.其中為之作出較大貢獻(xiàn)的代表性人物有:法國數(shù)學(xué)家拉普拉斯(PierreSimonLaplace,1749~1826)德國數(shù)學(xué)家高斯(C.F.Gauss,1777.4.30~1855.2.23)法國物理學(xué)家泊松(S.D.Poisson,1781~1840)等.特別是數(shù)學(xué)家拉普拉斯,他是嚴(yán)密的、系統(tǒng)的科學(xué)概率論的最卓越的創(chuàng)建者,在1812年出版的《概率的分析理論》中,拉普拉斯以強(qiáng)有力的分析工具處理了概率論的基本內(nèi)容,實現(xiàn)了從組合技巧向分析方法的過渡,以往零散的結(jié)果系統(tǒng)化,開辟了概率論發(fā)展的新時期。

泊松則推廣了大數(shù)定理,提出了著名的泊松分布。俄國數(shù)學(xué)家切比雪夫(Chebyshev,1821~1894)建立了關(guān)于獨立隨機(jī)變量序列的大數(shù)定律,推廣了棣莫弗—拉普拉斯的極限定理。第四頁,共一百頁,編輯于2023年,星期三

高斯從描述天文觀測的誤差而引進(jìn)正態(tài)分布,并使用最小二乘法作為參數(shù)的估計方法,是近代數(shù)理統(tǒng)計學(xué)發(fā)展初期的重大事件。

英國生物學(xué)家高爾頓(F.Galton,1822~1911)在回歸方面的先驅(qū)性工作,也是這個時期中的主要發(fā)展,他在遺傳研究中為了弄清父子兩輩特征的相關(guān)關(guān)系,揭示了統(tǒng)計方法在生物學(xué)研究中的應(yīng)用,他引進(jìn)回歸直線、相關(guān)系數(shù)的概念,創(chuàng)始了回歸分析。高爾頓的學(xué)生皮爾遜(K.Pearson,1856~1936)在1900年提出了檢驗擬合優(yōu)度的統(tǒng)計量。他還提出了矩估計法。

皮爾遜的學(xué)生英國醫(yī)生戈塞特(W.S.Gosset,筆student1876~1937)于1908年導(dǎo)出了t的精確分布,開了小樣本理論的先河。英國實驗遺傳學(xué)家兼統(tǒng)計學(xué)家費歇爾(1890~1962),是將數(shù)理統(tǒng)計作為一門數(shù)學(xué)學(xué)科的奠基者,在樣本相關(guān)系數(shù)的分布、方差分析、實驗設(shè)計等方面的研究中做出了重要貢獻(xiàn)。第五頁,共一百頁,編輯于2023年,星期三統(tǒng)計描述統(tǒng)計分析統(tǒng)計推斷假設(shè)檢驗參數(shù)估計區(qū)間估計點估計統(tǒng)計指標(biāo)集中趨勢指標(biāo)離散趨勢指標(biāo)統(tǒng)計圖表

總體抽樣推斷樣本第六頁,共一百頁,編輯于2023年,星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第七頁,共一百頁,編輯于2023年,星期三1、隨機(jī)現(xiàn)象、隨機(jī)事件與隨機(jī)變量

隨機(jī)現(xiàn)象:某些現(xiàn)象發(fā)生的結(jié)果在一次觀察中具有不確定性,而在大量的重復(fù)觀察中表現(xiàn)出某種規(guī)律性。

隨機(jī)事件:進(jìn)行隨機(jī)試驗時,某事件在一定條件下可能出現(xiàn)也可能不出現(xiàn),其結(jié)果事先不能肯定,該事件則是隨機(jī)事件。

隨機(jī)變量:用來代表隨機(jī)事件的變量。2、概率與頻率

頻率:某變量值出現(xiàn)的次數(shù)(頻數(shù))/重復(fù)觀察的總次數(shù)。對一個隨機(jī)事件重復(fù)觀察時,盡管每進(jìn)行n次試驗,所得到的頻率可能各不相同,但隨著n的增大,頻率會逐漸穩(wěn)定在某個常數(shù)附近波動。頻率的穩(wěn)定性說明隨機(jī)事件發(fā)生的可能性大小是事件本身固有的一種客觀屬性。

概率:表示隨機(jī)事件發(fā)生可能性大小的數(shù)值。(用P表示)通常由頻率的穩(wěn)定值反映。確定性事件:(1)必然事件P=1,(2)不可能事件P=0;隨機(jī)性事件:概率取值介于0~1之間。概率越接近0,表明事件發(fā)生的可能性越小。概率越接近1,表明事件發(fā)生的可能性越大。第八頁,共一百頁,編輯于2023年,星期三概率和頻率有區(qū)別:

頻率是已經(jīng)進(jìn)行試驗的結(jié)果,描述的是樣本中事件出現(xiàn)的可能性大?。颖拘畔ⅲ?,樣本不同,其值也不同,具有偶然性;

概率刻畫的則是總體中隨機(jī)事件出現(xiàn)的可能性大?。傮w信息),是一種客觀存在,是個確定數(shù)值,具有必然性。3、小概率原理:概率很小的隨機(jī)事件在一次或少量實際觀察中是不可能發(fā)生的(盡管理論上有發(fā)生的可能)小概率:P≤0.05或P≤0.01

4、總體和個體

在統(tǒng)計學(xué)中,常把所研究對象的全體稱為總體,而把組成總體的每個元素叫做個體??傮w:指同質(zhì)的觀察單位某種變量值的集合;(同質(zhì)是指被研究指標(biāo)的主要影響因素相同)總體根據(jù)有無時間和空間的限制又分為有限總體和無限總體第九頁,共一百頁,編輯于2023年,星期三5、樣本抽樣:

為了推斷總體的性態(tài)而從總體中抽取部分個體的過程。簡單隨機(jī)抽樣:

抽取的個體是相互獨立的隨機(jī)變量且都與總體同分布的抽樣。由簡單隨機(jī)抽樣所得樣本(X1,X2,…,Xn)稱為簡單隨機(jī)樣本。從總體X中隨機(jī)抽取n個個體X1,X2,Xn所組成的一個個體組(X1,X2,,Xn),稱為總體X的一個樣本,個體的數(shù)目n稱為樣本容量。通過試驗對樣本(X1,X2,,Xn)進(jìn)行觀測,得到的n個確定的實驗數(shù)據(jù)(x1,x2,,xn),稱為樣本(X1,X2,,Xn)的一個觀察值,簡稱樣本值,也稱為樣本的一次實現(xiàn)。第十頁,共一百頁,編輯于2023年,星期三6、變異與抽樣誤差

同質(zhì)條件:都是鼻咽癌患者都用相同治療方法變異現(xiàn)象:療效各不相同

變異:指同質(zhì)事物間的差異。是客觀存在的現(xiàn)象,可分為以下兩類:(1)個體變異:指同一特征或同一條件下個體間的差異。(2)隨機(jī)測量變異:指同一個體重復(fù)觀測結(jié)果未必相等的現(xiàn)象。第十一頁,共一百頁,編輯于2023年,星期三7、抽樣隨機(jī)抽樣:在抽樣過程中,要使總體中的每一個觀察對象都有同等機(jī)會被抽中成為樣本。抽樣研究的目的:利用樣本信息估計或推斷總體特征。樣本要具備以下兩個條件:(1)可靠性:樣本中的每一個個體均來自既定的同一總體(2)代表性:樣本要由隨機(jī)抽樣獲得;并且要抽取一定的數(shù)量;分層抽樣。第十二頁,共一百頁,編輯于2023年,星期三8、統(tǒng)計資料的類型(1)、數(shù)值變量資料(計量資料)用定量的方法(儀器、實驗)對觀察對象的某項指標(biāo)進(jìn)行測量所得到的數(shù)值(有度量單位、可以是小數(shù)、連續(xù)性資料)。(2)、分類變量資料:是將觀察單位按某種屬性或類別分組,然后清點各組觀察單位的個數(shù)所得的數(shù)據(jù)(無度量單位、整數(shù)、離散性資料)

分類變量又可分為有序分類和無序分類兩種情況:①、無序分類變量資料(計數(shù)資料)

二項分類:按屬性或類別分組時,分成對立的兩種屬性或類別;如陽性與陰性、有效與無效多項分類:按屬性或類別分組時,分成互不相容的幾種屬性或類別;如血型A型、B型、O型、AB型②、有序分類變量資料(等級資料):將觀察單位按某種屬性的不同程度、檔次或等級分類,然后清點各等級類別所得的觀察單位數(shù)。*有序分類變量資料與多項分類資料的區(qū)別:各等級類別有程度上的差別(這種差別按順序排列,任何兩類別的排序不能替換)*多項分類資料根據(jù)分析需要:各類變量資料之間可以互相轉(zhuǎn)化第十三頁,共一百頁,編輯于2023年,星期三如:9、統(tǒng)計量純粹由樣本而構(gòu)成(不含其它未知參數(shù))的函數(shù)g(X1,X2,,Xn)稱為統(tǒng)計量。

注:統(tǒng)計量通常也是隨機(jī)變量。10、切比雪夫不等式(Chebyshev’sinequality)對于任一隨機(jī)變量X,若EX與DX均存在,則對任意ε>0,恒有P{|X-EX|>=ε}<=DX/ε^2或P{|X-EX|<ε}>=1-DX/ε^2①、如果一組數(shù)據(jù)不是對稱分布,經(jīng)驗法則就不再使用,這時可使用切比雪夫不等式,它對任何分布形狀的數(shù)據(jù)都適用②、切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”③、K=2=>75%K=3=>89%K=4=>94%,第十四頁,共一百頁,編輯于2023年,星期三11、幾種基本的統(tǒng)計量15設(shè)(X1,X2,,Xn)為總體X的樣本,樣本均值樣本k階(原點)矩樣本k階中心矩注

1)以上統(tǒng)計量又稱為樣本的數(shù)字特征;另外在不混淆的情況下,對于總體X的期望E(X)和方差D(X)也分別稱為均值和方差,分別記為,2.

2)樣本方差S2稍不同于樣本的2階中心矩M2’。3)稱為樣本的偏差平方和性質(zhì):設(shè)總體X的期望為,方差為2,則與相互獨立.第十五頁,共一百頁,編輯于2023年,星期三12、頻數(shù)表:

頻數(shù)(f):相同觀察值(或觀察結(jié)果)出現(xiàn)的次數(shù)觀察值及其相應(yīng)的頻數(shù)按一定順序排列的表格.頻數(shù)表編制步驟如下:1、找極值:即找出最大值(Xmax=19.84)和最小值(Xmin=9.23)2、求全距(R):本例R=Xmax-Xmin=10.613、定組段與組數(shù):組段指各組的起止范圍;組數(shù)指組段的個數(shù)(用k)表示;頻數(shù)表一般設(shè)10~15個組段,這里取k=10。4、求組距(i):等距分組時i=R/(k-1)本例i=10.61/10=1.061≈15、列組限:(1)每個組段的起點為下限,終止點為上限(2)第一組段下限取等于或略小于Xmin的整數(shù),其余各個組段依次累加i作下限6、劃記歸組:二、頻數(shù)圖:在頻數(shù)表的基礎(chǔ)上,以直方的面積大小表示頻數(shù)的多少,以直方的面積占總面積的比例表示頻率大小的圖形第十六頁,共一百頁,編輯于2023年,星期三120例正常成年人血清銅含量頻數(shù)表第十七頁,共一百頁,編輯于2023年,星期三頻數(shù)分布特征(兩方面特征)1、集中趨勢:14~組段(居中組段)頻數(shù)最多,其它組段的頻數(shù)分布向其靠攏.2、離散趨勢:居中組段兩側(cè)的頻數(shù)逐漸減少頻數(shù)分布的類型1、對稱分布:集中位置居中,兩側(cè)基本對稱的頻數(shù)分布頻數(shù)表的用途1、揭示資料的分布類型

2、反映頻數(shù)的集中趨勢和離散趨勢3、便于發(fā)現(xiàn)某些特大或特小的可疑值4、便于進(jìn)一步計算統(tǒng)計指標(biāo)和作統(tǒng)計處理第十八頁,共一百頁,編輯于2023年,星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第十九頁,共一百頁,編輯于2023年,星期三集中趨勢(centraltendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數(shù)據(jù)一般水平的代表值/中心值不同類型的數(shù)據(jù)用不同的集中趨勢測度值集中趨勢只是數(shù)據(jù)分布的一個特征,它所反映的是總體各單位變量值向其中心值聚集的程度。集中趨勢特征值:均數(shù)、中位數(shù)、眾數(shù)第二十頁,共一百頁,編輯于2023年,星期三1、平均數(shù)指標(biāo)體系:反映一組觀察值的集中位置或平均水平;常用的有均數(shù)、幾何均數(shù)、中位數(shù)(1)、算術(shù)均數(shù)(均數(shù)):特點:對觀察值進(jìn)行數(shù)量上的平均,適用于均勻分布或近似正態(tài)分布的資料。各變量值與平均數(shù)的離差之和等于零均值是統(tǒng)計分布的均衡點各變量值與平均數(shù)的離差平方和最小

計算均數(shù)時,應(yīng):①、應(yīng)做正態(tài)性假設(shè)檢驗②、均數(shù)受極端值影響較大(2)、幾何均數(shù):n個數(shù)值連乘的n次方根特點:是比例或倍數(shù)上的平均,適用于成比例(或成倍數(shù))關(guān)系的資料。主要用于計算平均增長率、平均發(fā)展速度第二十一頁,共一百頁,編輯于2023年,星期三(3)、切尾均值(trimmedmean)去掉大小兩端的若干數(shù)值后計算中間數(shù)據(jù)的均值在電視大獎賽、體育比賽及需要人們進(jìn)行綜合評價的比賽項目中已得到廣泛應(yīng)用。計算公式為n

表示觀察值的個數(shù);α表示切尾系數(shù)性質(zhì):①、α=0,切尾均值就是算數(shù)平均數(shù)②、α≈1/2,切尾均值就是中位數(shù)③、改變α的值可以選擇集中趨勢的測度值④、切尾均值是結(jié)合了均值利用數(shù)據(jù)信息充分和中位數(shù)不受極端值影響的兩個有點而形成的新型統(tǒng)計量第二十二頁,共一百頁,編輯于2023年,星期三2、中位數(shù)(Median):將一組觀察值按大小順序排列,位次居中的數(shù)值;特點:序數(shù)上的平均

適用(1)偏態(tài)分布資料(2)一端或兩端無確切界值的開口資料。中位數(shù)的性質(zhì):①、不受極端值的影響,具有穩(wěn)?。ǚ€(wěn)定)性特點②、各變量值與中位數(shù)的離差絕對值之和最小,即注意事項①、對于偏態(tài)分布資料,中位數(shù)不受兩端特大值和特小值的影響,只和位置居中的觀察值有關(guān)。而均數(shù)受特大值和特小值的影響,會偏大或者偏小,所以對于偏態(tài)分布的資料,均數(shù)的代表性差,不適合描述偏態(tài)分布的集中趨勢。②、中位數(shù)適合于任何分布類型的資料③、與變異指標(biāo)結(jié)合使用,才能全面反映資料特征(集中和離散趨勢)④、同質(zhì)(同類)事物方能計算平均數(shù)。⑤、如果數(shù)據(jù)大量重復(fù)某一數(shù)值,此時中位數(shù)未必準(zhǔn)確,在解釋時要特別小心⑥、主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)

第二十三頁,共一百頁,編輯于2023年,星期三3、眾數(shù)(mode):①、一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值②、分布最高峰點所對應(yīng)的數(shù)值即眾數(shù)③、一種位置代表值,不受極端值的影響,應(yīng)用場合有限④、一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)⑤、主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)下限公式:上限公式:第二十四頁,共一百頁,編輯于2023年,星期三眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系左偏分布均值

中位數(shù)

眾數(shù)對稱分布

均值=中位數(shù)=

眾數(shù)右偏分布眾數(shù)

中位數(shù)均值取決于數(shù)據(jù)分布狀況對稱分布時,中位數(shù)、眾數(shù)和算術(shù)平均數(shù)合而為一,即:Me=M0=X在非對稱分布的情況下,中位數(shù)、眾數(shù)和算術(shù)平均數(shù)之間存在一定的差別。右偏,則三者之間的關(guān)系是:M0<Me<X;左偏,則三者之間的關(guān)系是:M0>Me>X。無論是右偏還是左偏,中位數(shù)總是介于算術(shù)平均數(shù)和眾數(shù)之間。第二十五頁,共一百頁,編輯于2023年,星期三眾數(shù)、中位數(shù)、平均數(shù)的特點和應(yīng)用眾數(shù)優(yōu)點:不受極端值影響缺點:具有不惟一性偏態(tài)分布且有明顯峰值時應(yīng)用比均值好中位數(shù)優(yōu)點:不受極端值影響數(shù)據(jù)偏態(tài)分布時應(yīng)用比均值好平均數(shù)優(yōu)點:數(shù)學(xué)性質(zhì)優(yōu)良缺點:易受極端值影響數(shù)據(jù)對稱分布或接近對稱分布時應(yīng)用數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值※眾數(shù)※中位數(shù)※平均數(shù)眾數(shù)眾數(shù)中位數(shù)第二十六頁,共一百頁,編輯于2023年,星期三離散程度數(shù)據(jù)分布的另一個重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度)從另一個側(cè)面說明了集中趨勢測度值的代表程度變量值變異大,離散程度就大,均值的代表性就小。反之亦然。反映離散程度相關(guān)的統(tǒng)計量主要有下面幾個:分類數(shù)據(jù):異眾比率順序數(shù)據(jù):四分位差數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差相對位置度量:離散系數(shù)第二十七頁,共一百頁,編輯于2023年,星期三1、異眾比率(variationratio)①、對分類數(shù)據(jù)離散程度的測度②、非眾數(shù)組的頻數(shù)占總頻數(shù)的比例③、用于衡量眾數(shù)的代表性④、計算公式為2、內(nèi)距(inter-quartilerange,IQR)①、也稱四分位差,是兩個四分位數(shù)之差②、內(nèi)距=上四分位數(shù)-下四分位數(shù)=Q3-Q1=QU-QL=P75-P25③、極差容易受極端值影響,內(nèi)距基本不受極端值影響④、內(nèi)距反映的是中間50%數(shù)值大小的差異Q的主要用途:①、Q適用于任何分布的資料,結(jié)果比極差穩(wěn)定,尤其適用于大樣本偏態(tài)分布的資料。②、與M共同描述偏態(tài)分布資料的分布特征,簡寫成M(Q);③、計算參考值范圍(百分位數(shù)P2.5,P97.5的范圍)方法1:定義算法方法2:較準(zhǔn)確算法第二十八頁,共一百頁,編輯于2023年,星期三3、極差(range):用于反映個體變異的范圍①、離散程度的最簡單測度值②、易受極端值影響,數(shù)據(jù)越多,R可能越大。(不穩(wěn)定)③、未考慮數(shù)據(jù)的分布,未顧及全部數(shù)據(jù)間的變異④、計算公式為4、平均差(meandeviation)①、各變量值與其平均數(shù)離差絕對值的平均數(shù)②、能全面反映一組數(shù)據(jù)的離散程度③、數(shù)學(xué)性質(zhì)較差,實際中應(yīng)用較少④、計算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)第二十九頁,共一百頁,編輯于2023年,星期三5.方差:①、數(shù)據(jù)離散程度的最常用測度值②、反映了各變量值與均值的平均差異③、根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標(biāo)準(zhǔn)差,記為2();根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標(biāo)準(zhǔn)差,記為s2(s)

方差的重要性質(zhì):①、②、若每一個變量值加上一個常數(shù),方差和標(biāo)準(zhǔn)差不變③、變量對算術(shù)平均數(shù)的方差,小于對任意常數(shù)的方差第三十頁,共一百頁,編輯于2023年,星期三6、標(biāo)準(zhǔn)差與平均差①、標(biāo)準(zhǔn)差與平均差雖都是變量值與均值的平均離差,但不同的是平均差所平均的是離差絕對值,而標(biāo)準(zhǔn)差平均的是離差平方。②、標(biāo)準(zhǔn)差徹底解決了正負(fù)離差不能相加的問題。它在抽樣調(diào)查、相關(guān)分析中應(yīng)用較多,所以標(biāo)準(zhǔn)差是應(yīng)用較為廣泛的一種離中趨勢的測度值。③、平均差和標(biāo)準(zhǔn)差其數(shù)值大小,不僅決定于各標(biāo)志值的差異程度,還決定于數(shù)列平均水平的高低,同時它們具有與標(biāo)志值相同的名數(shù)。7、自由度(degreeoffreedom)①、自由度是指附加給獨立的觀測值的約束或限制的個數(shù)②、從字面涵義來看,自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù)③、當(dāng)樣本數(shù)據(jù)的個數(shù)為n時,若樣本平均數(shù)確定后,則附加給n個觀測值的約束個數(shù)就是1個,因此只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)不能自由取值④、按著這一邏輯,如果對n個觀測值附加的約束個數(shù)為k個,自由度則為n-k⑤、為什么樣本方差的自由度是n-1呢?因為在計算離差平方和時,必須先求出樣本均值x

,而x則是附加給離差平方和的一個約束,因此,計算離差平方和時只有n-1個獨立的觀測值,而不是n個⑥、樣本方差用自由度去除,其原因可從多方面解釋,從實際應(yīng)用角度看,在抽樣估計中,當(dāng)用樣本方差s2去估計總體方差σ2時,它是σ2的無偏估計量第三十一頁,共一百頁,編輯于2023年,星期三平均差系數(shù)8、離散系數(shù)(coefficientofvariation)對于具有不同平均水平和不同計量單位的數(shù)列,就不能直接利用標(biāo)準(zhǔn)差等來比較其標(biāo)志變動程度的大小,而需要用變異系數(shù),以消除不同數(shù)列水平的影響。①、對數(shù)據(jù)相對離散程度的測度②、消除了數(shù)據(jù)水平高低和計量單位的影響③、用于對不同組別數(shù)據(jù)離散程度的比較④、離散系數(shù)包括:

變異系數(shù)(CV):一組觀察值的s與均數(shù)的百分比。CV的主要用途:①、比較度量單位不同或均數(shù)相差懸殊時幾組樣本資料的離散性;②、評價精密度。第三十二頁,共一百頁,編輯于2023年,星期三9、標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore)①、也稱標(biāo)準(zhǔn)化值②、對某一個值在一組數(shù)據(jù)中相對位置的度量③、可用于判斷一組數(shù)據(jù)是否有離群點④、用于對變量的標(biāo)準(zhǔn)化處理⑤、計算公式為性質(zhì):①、均值等于0②、方差等于1第三十三頁,共一百頁,編輯于2023年,星期三箱線圖(boxplot)①、用于顯示未分組的原始數(shù)據(jù)的分布②、由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成③、繪制方法首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分位數(shù)畫出箱子,再將兩個極值點與箱子相連接該箱線圖也稱為Median/Quart./Range箱線圖

中位數(shù)4681012QUQLX最大值X最小值Median/Quart./Range箱線圖第三十四頁,共一百頁,編輯于2023年,星期三應(yīng)用變異指標(biāo)的注意事項①、極差適用于任何分布的資料,用于資料的粗略分析。②、標(biāo)準(zhǔn)差適用于正態(tài)分布或近似正態(tài)分布的資料。③、四分位數(shù)間距適用于偏態(tài)分布的資料。④、變異系數(shù)適用于度量單位不同的指標(biāo)間的比較以及均數(shù)相差比較懸殊的變異程度的比較。第三十五頁,共一百頁,編輯于2023年,星期三偏態(tài)及其測度偏態(tài)系數(shù)計算方法有很多,比較常用的是:

是對分布偏斜方向及程度的測度。偏態(tài)利用眾數(shù)、中位數(shù)和均值之間的關(guān)系判斷分布的偏斜方向利用偏態(tài)系數(shù)既可以判斷分布的偏斜方向,還可測度偏斜的程度皮爾遜測定法動差測定法第三十六頁,共一百頁,編輯于2023年,星期三在計算偏態(tài)系數(shù)時,如果公式中的眾數(shù)不易計算,可用中位數(shù)代替已知

偏態(tài)系數(shù)實際上是以標(biāo)準(zhǔn)差為單位的算術(shù)平均數(shù)與眾數(shù)的離差,因而其數(shù)值的變動范圍,一般應(yīng)在0與+3及0與-3之間;

偏態(tài)系數(shù)為0表示對稱分布,+3表示極右偏,-3表示極左偏。測定分布的偏度:偏度系數(shù)SK=0SK>0SK<0(對稱分布)正偏態(tài)分布(右)負(fù)偏態(tài)分布(左)第三十七頁,共一百頁,編輯于2023年,星期三

所以,m3可以測定偏度。為消除量綱,轉(zhuǎn)變?yōu)橄禂?shù),再除以σ3。<0負(fù)偏態(tài)=0對稱分布>0正偏態(tài)偏度系數(shù)

(m3——三階中心矩)

在偏斜適度(微偏)的情況下,不論左偏還是右偏,則有如下的經(jīng)驗公式:

第三十八頁,共一百頁,編輯于2023年,星期三偏度系數(shù)

第三十九頁,共一百頁,編輯于2023年,星期三峰度及其測度峰度系數(shù)計算方法有很多,比較常用的是:

是對分布集中趨勢高峰的形狀的測度。峰度大量的客觀事物的統(tǒng)計規(guī)律都呈現(xiàn)鐘型分布,但其分布曲線的陡峭程度卻有所不同,峰度正是測度數(shù)據(jù)分布與正態(tài)分布相比尖峭或扁平的程度

當(dāng)頻數(shù)分布中的頻數(shù)比較集中于眾數(shù)的位置,使頻數(shù)分布曲線較正態(tài)分布曲線更為隆起,稱為尖頂峰度當(dāng)頻數(shù)分布中的頻數(shù),對眾數(shù)來說比較分散,使頻數(shù)分布曲線較正態(tài)分布曲線更為平滑,稱為平頂峰度峰度的測定方法,是以四階中心距為基礎(chǔ)。將四階中心距的期望除以б4,化為相對數(shù),即為峰度的測定值。第四十頁,共一百頁,編輯于2023年,星期三峰度測度通常是與正態(tài)分布相比較而言,可分為尖峰分布平峰分布正態(tài)分布在歸化到同一方差時,若分布的形狀比正態(tài)分布更矮更胖,則稱為平峰分布在歸化到同一方差時,若分布的形狀比正態(tài)分布更瘦更高,則稱為尖峰分布第四十一頁,共一百頁,編輯于2023年,星期三三、應(yīng)用舉例第四十二頁,共一百頁,編輯于2023年,星期三思考:從圖中我們能分析出什么結(jié)論?第四十三頁,共一百頁,編輯于2023年,星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第四十四頁,共一百頁,編輯于2023年,星期三1、概率分布的分位數(shù)(分位點)定義對總體X和給定的(0<<1),若存在x,使P{X≥x}=,如圖.P{X≥x}=則稱x為X分布的上側(cè)分位數(shù)或上側(cè)臨界值.xoyx若存在數(shù)1、2,使P{X≥1}=P{X≤2}

則稱1、2為X分布的雙側(cè)分位數(shù)或雙側(cè)臨界值.oyx

21第四十五頁,共一百頁,編輯于2023年,星期三雙側(cè)分位數(shù)或雙側(cè)臨界值的特例當(dāng)X的分布關(guān)于y軸對稱時,則稱為X分布的雙側(cè)分位數(shù)或雙側(cè)臨界值.如圖.若存在使yxO第四十六頁,共一百頁,編輯于2023年,星期三2、正態(tài)分布

①、特征:是一種重要的連續(xù)型分布。具有集中性、對稱性和均勻變動性。表現(xiàn)為以均數(shù)為中心,高峰位于中央,兩側(cè)逐漸下降并完全對稱,曲線兩端永遠(yuǎn)不與橫軸相交②、正態(tài)分布的密度函數(shù):

③、標(biāo)準(zhǔn)正態(tài)密度函數(shù)④、u0.05=1.645,u0.01=2.326u0.025=1.96,u0.005=2.575第四十七頁,共一百頁,編輯于2023年,星期三

定義設(shè)總體,是的一個樣本,則稱統(tǒng)計量服從自由度為n的分布,記作自由度是指獨立隨機(jī)變量的個數(shù),3、2分布n大分布的密度函數(shù)為

其圖形隨自由度的不同而有所改變.第四十八頁,共一百頁,編輯于2023年,星期三上分位點則稱點t為2(n)分布的上分位點,記為2(n)。當(dāng)n≤45時,可查表;其中Z

是N(0,1)的上分位點。對于給定的正數(shù)(0<<1),若存在點t使得當(dāng)n>45時,有近似公式:特性:E(Y)=n,D(Y)=2n;可加性:若Y1~

2(n1),Y2~2(n2),且Y1,Y2相互獨立,則Y1+

Y2~2(n1+n2)第四十九頁,共一百頁,編輯于2023年,星期三定義設(shè)隨機(jī)變量X~N(0,1),Y~2(n)

,且X與Y相互獨立,則稱統(tǒng)計量服從自由度為n的t分布或?qū)W生氏分布,記作T

~t(n).定義:若隨機(jī)變量T的概率密度函數(shù)為4、t—分布T服從自由度為n的t分布(俗稱學(xué)生分布),記為T~t(n)特點:

當(dāng)n∞時,t(n)N(0,1)第五十頁,共一百頁,編輯于2023年,星期三上分位點t(n)注意:t1-(n)=-t(n)n≤45時,可查表求得;n>45時,t(n)≈z

雙側(cè)分位點

即:對于給定的正數(shù)(0<<1),使得P{|T|>u}=

的點u.(相當(dāng)于:使得P{T>t}=/2

的點t.)注:正態(tài)分布、2分布等也都有雙側(cè)分位點

對較小的n值,t分布與標(biāo)準(zhǔn)正態(tài)分布之間有較大差異.且P{|T|≥t0}≥P{|X|≥t0},其中X~N(0,1),即在t分布的尾部比在標(biāo)準(zhǔn)正態(tài)分布的尾部有著更大的概率.設(shè)T~t

(n),則E(T)=0,D(T)=第五十一頁,共一百頁,編輯于2023年,星期三定理設(shè)(X1,X2,…,Xn)為來自正態(tài)總體

X~N(,2)的樣本,則統(tǒng)計量定理

設(shè)(X1,X2,…,Xn1)和(Y1,Y2,…,Yn2)分別是來自正態(tài)總體N(1

,2)和N(2

,2)的樣本,且它們相互獨立,則統(tǒng)計量其中、分別為兩總體的樣本方差.第五十二頁,共一百頁,編輯于2023年,星期三設(shè)隨機(jī)變量X~2(n1)、Y~2(n2),且相互獨立,則稱隨機(jī)變量服從第一自由度為n1,第二自由度為n2的F分布,記作F~F(n1,n2).F

的概率密度函數(shù)為:

其中:5、F—分布定義第五十三頁,共一百頁,編輯于2023年,星期三上分位點F(n1,n2)

F分布的性質(zhì):

F1-(n1,n2)

=F(n2,n1)1F(n1,n2)F1-(n1,n2)

性質(zhì):若X~F(n1,n2),則~F(n2,n1).f(y)xO

/2

/2為F分布的上分位數(shù);為F分布的上分位數(shù);第五十四頁,共一百頁,編輯于2023年,星期三設(shè)為正態(tài)總體的樣本容量和樣本方差;定理為正態(tài)總體的樣本容量和樣本方差;且兩個樣本相互獨立,則統(tǒng)計量第五十五頁,共一百頁,編輯于2023年,星期三6、設(shè)總體X~N(,2),(X1,X2,…Xn)為樣本,則7、若兩個總體X與Y相互獨立,且X~N(1,12),Y~N(2,22),

(X1,X2,…Xn1),(Y1,Y2,…Yn2)分別為取自總體X,Y的樣本,則1>當(dāng)12=22時2>一般情況時有第五十六頁,共一百頁,編輯于2023年,星期三8、樣本均數(shù)的抽樣分布具有如下特點:①各樣本均數(shù)未必等于總體均數(shù);②各樣本均數(shù)間存在差異;③樣本均數(shù)的分布為中間多,兩邊少,左右基本對稱。④樣本均數(shù)的變異范圍較之原變量的變異范圍大大縮小。標(biāo)準(zhǔn)誤:是統(tǒng)計量的標(biāo)準(zhǔn)差,描述的是樣本統(tǒng)計量的離散程度(即抽樣誤差的大小)。標(biāo)準(zhǔn)誤的意義:標(biāo)準(zhǔn)誤的值越大,反映樣本統(tǒng)計量的離散程度越大,通過一次抽樣得到的某個樣本統(tǒng)計量與總體參數(shù)(是個定值)相差也越大。第五十七頁,共一百頁,編輯于2023年,星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第五十八頁,共一百頁,編輯于2023年,星期三統(tǒng)計推斷與假設(shè)檢驗統(tǒng)計推斷:統(tǒng)計推斷中存在兩種分布,一是樣本分布,一是總體分布。從一個或一系列樣本所得的統(tǒng)計量去推斷總體的結(jié)果,稱為統(tǒng)計推斷。統(tǒng)計推斷包括假設(shè)檢驗和參數(shù)估計兩個基本點。假設(shè)檢驗:①、比較兩總體的平均值是否相同,或一個總體平均數(shù)是否等于某個值的問題。②、比較兩個樣本的方差,或樣本方差與總體方差的一致性問題。③、差異產(chǎn)生的原因,一是純粹的由于隨機(jī)誤差引起的,二是結(jié)果本身存在著實質(zhì)性的差異,即有系統(tǒng)誤差存在。第五十九頁,共一百頁,編輯于2023年,星期三假設(shè)檢驗與兩類錯誤1、假設(shè)檢驗:先對總體的參數(shù)或分布作出某種假設(shè),然后用適當(dāng)?shù)姆椒ǜ鶕?jù)樣本對總體提供的信息,運用“小概率原理”推斷假設(shè)是否成立。2、兩類錯誤:Ⅰ型錯誤:拒絕實際成立的H0(棄真)Ⅱ型錯誤:不拒絕實際不成立的H0(存?zhèn)危?)由假設(shè)檢驗可知,假設(shè)檢驗實際是在假定H0的前提下抽樣觀察,出現(xiàn)當(dāng)前樣本現(xiàn)象的可能性大?。ǜ怕蔖)來進(jìn)行推斷的(2)假設(shè)檢驗的結(jié)論是概率性結(jié)論,無論是拒絕H0還是不拒絕H0,都有犯錯誤的可能。檢驗(顯著性)水平當(dāng)我們對原假設(shè)H0是否為真作出判斷時有可能會犯錯誤,這就是要冒風(fēng)險,為了控制這一風(fēng)險,首先需要用一個概率去表示這一風(fēng)險,這個概率便是“H0為真但被拒絕”的概率,這個概率又稱為顯著性水平,記為α。顯著性(檢驗)水平LevelofSignificance①、定義如果零假設(shè)成立樣本統(tǒng)計量不可能的取值區(qū)間,稱為樣本分布的拒絕域Rejectionregionofsamplingdistribution②、用α表示,典型值為0.01,0.05,0.10③、由研究人員在開始時選定第六十頁,共一百頁,編輯于2023年,星期三兩類錯誤

第一類錯誤:原假設(shè)H0為真,但由于樣本的隨機(jī)性,使樣本觀察值落入拒絕域W,這時所下的判斷便是拒絕H0,這類錯誤稱為第一類錯誤,其發(fā)生的概率稱為犯第一類錯誤的概率,也稱為拒真概率,該錯誤后果嚴(yán)重,它便是顯著性水平α。第二類錯誤:原假設(shè)H0為假,但由于樣本的隨機(jī)性,使樣本觀察值落入接受域A,這時所犯下的判斷便是接受H0,這類錯誤稱為第二類錯誤,其發(fā)生的概率稱為犯第二類錯誤的概率,也稱為取偽概率,記為β。好的檢驗法則總希望犯兩類錯誤的概率α與β都很小,但這在一般場合下很難實現(xiàn)。接受原假設(shè)拒絕原假設(shè)假設(shè)實際為真符合(1-α)棄真錯誤α假設(shè)實際不真取偽錯誤β符合(1-β)第六十一頁,共一百頁,編輯于2023年,星期三檢驗決策結(jié)果

DecisionResultsH0:無罪陪審團(tuán)裁決0檢驗實際情況實際情況裁決無罪有罪決策H0為真H0為假無罪正確錯誤不拒絕H0置信度1-α第二類錯誤()有罪錯誤正確拒絕H0第一類錯誤()檢驗?zāi)芰?1-)第六十二頁,共一百頁,編輯于2023年,星期三拒絕原假設(shè)的推斷的基本思想?yún)?shù)的假設(shè)檢驗:已知總體的分布類型,對分布函數(shù)或密度函數(shù)中的某些參數(shù)提出假設(shè),并檢驗。基本原則——小概率事件在一次試驗中是不可能發(fā)生的。思想:如果原假設(shè)成立,那么某個分布已知的統(tǒng)計量在某個區(qū)域內(nèi)取值的概率應(yīng)該較小,如果一次觀測樣本的數(shù)值落在這個小概率區(qū)域內(nèi),則原假設(shè)不正確,所以拒絕原假設(shè);否則,接受原假設(shè)。

拒絕域檢驗水平第六十三頁,共一百頁,編輯于2023年,星期三(一)假設(shè)檢驗的兩類問題1、參數(shù)假設(shè)檢驗總體分布已知,參數(shù)未知,由觀測值x1,…,xn檢驗假設(shè)H0:=0;H1:≠02、非參數(shù)假設(shè)檢驗總體分布未知,由觀測值x1,…,xn檢驗假設(shè)H0:F(x)=F0(x;);H1:F(x)≠F0(x;)

第六十四頁,共一百頁,編輯于2023年,星期三拒絕域的幾點說明1.拒絕域在兩邊的是雙邊(側(cè))檢驗,拒絕域在一邊的是單邊(側(cè))檢驗。3.提防犯棄真錯誤或取偽錯誤。2.不同的檢驗水平對應(yīng)不同的拒絕域??梢栽龃髽颖救萘炕蚨嗾?guī)讉€樣本作檢驗。雙邊檢驗單邊檢驗(右)單邊檢驗(左)第六十五頁,共一百頁,編輯于2023年,星期三正態(tài)總體均值與方差的假設(shè)檢驗一、單個總體參數(shù)的檢驗二、兩個總體參數(shù)的檢驗三、基于成對數(shù)據(jù)的檢驗(t

檢驗)四、小結(jié)第六十六頁,共一百頁,編輯于2023年,星期三一、單個正態(tài)總體均值與方差的檢驗對于給定的檢驗水平由標(biāo)準(zhǔn)正態(tài)分布分位數(shù)定義知,因此,檢驗的拒絕域為

其中為統(tǒng)計量U的觀測值。這種利用U來檢驗的方法稱為U檢驗法。第六十七頁,共一百頁,編輯于2023年,星期三第六十八頁,共一百頁,編輯于2023年,星期三在實際中,正態(tài)總體的方差常為未知,所以我們常用t

檢驗法來檢驗關(guān)于正態(tài)總體均值的檢驗問題.上述利用t

統(tǒng)計量得出的檢驗法稱為t檢驗法.由t分布分位數(shù)的定義知第六十九頁,共一百頁,編輯于2023年,星期三

dataread;inputL@@;datalines;10.410.610.110.410.510.310.310.210.910.610.810.510.710.210.7;Run;Procttestdata=readh0=10.5;Varl;Run;單變量均值檢驗程序1第七十頁,共一百頁,編輯于2023年,星期三

dataread;inputL@@;L=L-10.5;Datalines;10.410.610.110.410.510.310.310.210.910.610.810.510.710.210.7;Run;Procmeansdata=readnmeanstdvarmaxminstderrlclmuclmrangetprobt;Run;單變量均值檢驗程序2第七十一頁,共一百頁,編輯于2023年,星期三

dataread;inputscorecount@@;datalines;402472522261192252354391261481142221421342332181151291412441511431272462281491311281541451;Run;Procttestdata=readh0=30;Varscore;Freqcount;Run;單變量均值檢驗編程及結(jié)果顯示第七十二頁,共一百頁,編輯于2023年,星期三要檢驗假設(shè):根據(jù)第七十三頁,共一百頁,編輯于2023年,星期三指它們的和集拒絕域為:第七十四頁,共一百頁,編輯于2023年,星期三二、兩個正態(tài)總體均值與方差的檢驗1.已知方差時兩正態(tài)總體均值的檢驗需要檢驗假設(shè):上述假設(shè)可等價的變?yōu)?/p>

利用u檢驗法檢驗.第七十五頁,共一百頁,編輯于2023年,星期三第七十六頁,共一百頁,編輯于2023年,星期三故拒絕域為由標(biāo)準(zhǔn)正態(tài)分布分位數(shù)的定義知第七十七頁,共一百頁,編輯于2023年,星期三2.未知方差時兩正態(tài)總體均值的檢驗

利用t檢驗法檢驗具有相同方差的兩正態(tài)總體均值差的假設(shè).第七十八頁,共一百頁,編輯于2023年,星期三第七十九頁,共一百頁,編輯于2023年,星期三對給定的故拒絕域為第八十頁,共一百頁,編輯于2023年,星期三需要檢驗假設(shè):3.兩正態(tài)總體方差的檢驗第八十一頁,共一百頁,編輯于2023年,星期三第八十二頁,共一百頁,編輯于2023年,星期三為了計算方便,習(xí)慣上取檢驗問題的拒絕域為上述檢驗法稱為F檢驗法.第八十三頁,共一百頁,編輯于2023年,星期三成組法T檢驗計算程序如下:datayild;inputstrain$yield@@;cards;a69a97a106a51a97a65a73a83a79a41a92b32b61b50b46b73b43b80b61b56b60b29b38b48b26b23b61b46;

procttestdata=yild;varyield;classstrain;title'grouped-comparisonsttest';run;

第八十四頁,共一百頁,編輯于2023年,星期三三、基于配對數(shù)據(jù)的檢驗(t檢驗)

有時為了比較兩種產(chǎn)品,兩種儀器,或兩種試驗方法等的差異,我們常常在相同的條件下做對比試驗,得到一批成對(配對)的觀測值,然后對觀測數(shù)據(jù)進(jìn)行分析。作出推斷,這種方法常稱為配對分析法。

比較甲,乙兩種橡膠輪胎的耐磨性,今從甲,乙兩種輪胎中各隨機(jī)地抽取8個,其中各取一個組成一對。再隨機(jī)選擇8架飛機(jī),將8對輪胎隨機(jī)地

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論