數(shù)理統(tǒng)計基礎(chǔ)

上傳人：卓*** IP屬地：廣東上傳時間：2023-06-10 格式：PPT 頁數(shù)：100 大小：5.12MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩95頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)理統(tǒng)計基礎(chǔ)第一頁，共一百頁，編輯于2023年，星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第二頁，共一百頁，編輯于2023年，星期三概率論的起源與初步發(fā)展1657年，荷蘭數(shù)學(xué)家惠更斯（C.Huyens,

1629-1695)發(fā)表了《論賭博中的計算》，這是最早的概率論著作。這些數(shù)學(xué)家的著述中所出現(xiàn)的第一批概率論概念與定理，標(biāo)志著概率論的誕生。而概率論最終成為一門獨立的數(shù)學(xué)分支，真正的奠基人是伯努利(JacobBernoulli,1654-1705)。他的主要貢獻(xiàn)是建立了概率論中的第一個極限定理我們稱為“伯努利大數(shù)定律”。即“在多次重復(fù)試驗中，頻率有越趨穩(wěn)定的趨勢”。這一定理是在他去世后，即1713年，發(fā)表在他的遺著《猜度術(shù)》中。第三頁，共一百頁，編輯于2023年，星期三19世紀(jì)概率論朝著建立完整的理論體系和更廣泛的應(yīng)用方向發(fā)展．其中為之作出較大貢獻(xiàn)的代表性人物有：法國數(shù)學(xué)家拉普拉斯(PierreSimonLaplace,1749~1826)德國數(shù)學(xué)家高斯(C.F.Gauss,1777.4.30~1855.2.23)法國物理學(xué)家泊松(S.D.Poisson,1781~1840)等．特別是數(shù)學(xué)家拉普拉斯，他是嚴(yán)密的、系統(tǒng)的科學(xué)概率論的最卓越的創(chuàng)建者，在1812年出版的《概率的分析理論》中，拉普拉斯以強(qiáng)有力的分析工具處理了概率論的基本內(nèi)容，實現(xiàn)了從組合技巧向分析方法的過渡，以往零散的結(jié)果系統(tǒng)化，開辟了概率論發(fā)展的新時期。

泊松則推廣了大數(shù)定理，提出了著名的泊松分布。俄國數(shù)學(xué)家切比雪夫(Chebyshev,1821~1894)建立了關(guān)于獨立隨機(jī)變量序列的大數(shù)定律，推廣了棣莫弗—拉普拉斯的極限定理。第四頁，共一百頁，編輯于2023年，星期三

高斯從描述天文觀測的誤差而引進(jìn)正態(tài)分布，并使用最小二乘法作為參數(shù)的估計方法，是近代數(shù)理統(tǒng)計學(xué)發(fā)展初期的重大事件。

英國生物學(xué)家高爾頓（F.Galton,1822~1911）在回歸方面的先驅(qū)性工作，也是這個時期中的主要發(fā)展，他在遺傳研究中為了弄清父子兩輩特征的相關(guān)關(guān)系，揭示了統(tǒng)計方法在生物學(xué)研究中的應(yīng)用，他引進(jìn)回歸直線、相關(guān)系數(shù)的概念，創(chuàng)始了回歸分析。高爾頓的學(xué)生皮爾遜(K.Pearson,1856~1936)在1900年提出了檢驗擬合優(yōu)度的統(tǒng)計量。他還提出了矩估計法。

皮爾遜的學(xué)生英國醫(yī)生戈塞特(W.S.Gosset,筆student1876~1937)于1908年導(dǎo)出了t的精確分布，開了小樣本理論的先河。英國實驗遺傳學(xué)家兼統(tǒng)計學(xué)家費歇爾(1890~1962)，是將數(shù)理統(tǒng)計作為一門數(shù)學(xué)學(xué)科的奠基者，在樣本相關(guān)系數(shù)的分布、方差分析、實驗設(shè)計等方面的研究中做出了重要貢獻(xiàn)。第五頁，共一百頁，編輯于2023年，星期三統(tǒng)計描述統(tǒng)計分析統(tǒng)計推斷假設(shè)檢驗參數(shù)估計區(qū)間估計點估計統(tǒng)計指標(biāo)集中趨勢指標(biāo)離散趨勢指標(biāo)統(tǒng)計圖表

總體抽樣推斷樣本第六頁，共一百頁，編輯于2023年，星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第七頁，共一百頁，編輯于2023年，星期三1、隨機(jī)現(xiàn)象、隨機(jī)事件與隨機(jī)變量

隨機(jī)現(xiàn)象：某些現(xiàn)象發(fā)生的結(jié)果在一次觀察中具有不確定性，而在大量的重復(fù)觀察中表現(xiàn)出某種規(guī)律性。

隨機(jī)事件：進(jìn)行隨機(jī)試驗時，某事件在一定條件下可能出現(xiàn)也可能不出現(xiàn)，其結(jié)果事先不能肯定，該事件則是隨機(jī)事件。

隨機(jī)變量：用來代表隨機(jī)事件的變量。2、概率與頻率

頻率：某變量值出現(xiàn)的次數(shù)（頻數(shù)）/重復(fù)觀察的總次數(shù)。對一個隨機(jī)事件重復(fù)觀察時，盡管每進(jìn)行n次試驗，所得到的頻率可能各不相同，但隨著n的增大，頻率會逐漸穩(wěn)定在某個常數(shù)附近波動。頻率的穩(wěn)定性說明隨機(jī)事件發(fā)生的可能性大小是事件本身固有的一種客觀屬性。

概率：表示隨機(jī)事件發(fā)生可能性大小的數(shù)值。（用P表示）通常由頻率的穩(wěn)定值反映。確定性事件：（1）必然事件P=1，（2）不可能事件P=0；隨機(jī)性事件：概率取值介于0～1之間。概率越接近0，表明事件發(fā)生的可能性越小。概率越接近1，表明事件發(fā)生的可能性越大。第八頁，共一百頁，編輯于2023年，星期三概率和頻率有區(qū)別：

頻率是已經(jīng)進(jìn)行試驗的結(jié)果，描述的是樣本中事件出現(xiàn)的可能性大?。颖拘畔ⅲ?，樣本不同，其值也不同，具有偶然性；

概率刻畫的則是總體中隨機(jī)事件出現(xiàn)的可能性大?。傮w信息），是一種客觀存在，是個確定數(shù)值，具有必然性。3、小概率原理：概率很小的隨機(jī)事件在一次或少量實際觀察中是不可能發(fā)生的（盡管理論上有發(fā)生的可能）小概率：P≤0.05或P≤0.01

4、總體和個體

在統(tǒng)計學(xué)中，常把所研究對象的全體稱為總體，而把組成總體的每個元素叫做個體?？傮w：指同質(zhì)的觀察單位某種變量值的集合；（同質(zhì)是指被研究指標(biāo)的主要影響因素相同）總體根據(jù)有無時間和空間的限制又分為有限總體和無限總體第九頁，共一百頁，編輯于2023年，星期三5、樣本抽樣：

為了推斷總體的性態(tài)而從總體中抽取部分個體的過程。簡單隨機(jī)抽樣：

抽取的個體是相互獨立的隨機(jī)變量且都與總體同分布的抽樣。由簡單隨機(jī)抽樣所得樣本(X1,X2,…,Xn)稱為簡單隨機(jī)樣本。從總體X中隨機(jī)抽取n個個體X1,X2,Xn所組成的一個個體組（X1,X2,,Xn），稱為總體X的一個樣本，個體的數(shù)目n稱為樣本容量。通過試驗對樣本(X1,X2,,Xn)進(jìn)行觀測，得到的n個確定的實驗數(shù)據(jù)(x1,x2,,xn)，稱為樣本(X1,X2,,Xn)的一個觀察值，簡稱樣本值，也稱為樣本的一次實現(xiàn)。第十頁，共一百頁，編輯于2023年，星期三6、變異與抽樣誤差

同質(zhì)條件：都是鼻咽癌患者都用相同治療方法變異現(xiàn)象：療效各不相同

變異：指同質(zhì)事物間的差異。是客觀存在的現(xiàn)象，可分為以下兩類：（1）個體變異：指同一特征或同一條件下個體間的差異。（2）隨機(jī)測量變異：指同一個體重復(fù)觀測結(jié)果未必相等的現(xiàn)象。第十一頁，共一百頁，編輯于2023年，星期三7、抽樣隨機(jī)抽樣：在抽樣過程中，要使總體中的每一個觀察對象都有同等機(jī)會被抽中成為樣本。抽樣研究的目的：利用樣本信息估計或推斷總體特征。樣本要具備以下兩個條件：（1）可靠性：樣本中的每一個個體均來自既定的同一總體（2）代表性：樣本要由隨機(jī)抽樣獲得；并且要抽取一定的數(shù)量;分層抽樣。第十二頁，共一百頁，編輯于2023年，星期三8、統(tǒng)計資料的類型（1）、數(shù)值變量資料（計量資料）用定量的方法（儀器、實驗）對觀察對象的某項指標(biāo)進(jìn)行測量所得到的數(shù)值（有度量單位、可以是小數(shù)、連續(xù)性資料）。（2）、分類變量資料：是將觀察單位按某種屬性或類別分組，然后清點各組觀察單位的個數(shù)所得的數(shù)據(jù)（無度量單位、整數(shù)、離散性資料）

分類變量又可分為有序分類和無序分類兩種情況：①、無序分類變量資料（計數(shù)資料）

二項分類：按屬性或類別分組時，分成對立的兩種屬性或類別；如陽性與陰性、有效與無效多項分類：按屬性或類別分組時，分成互不相容的幾種屬性或類別；如血型A型、B型、O型、AB型②、有序分類變量資料（等級資料）：將觀察單位按某種屬性的不同程度、檔次或等級分類，然后清點各等級類別所得的觀察單位數(shù)。*有序分類變量資料與多項分類資料的區(qū)別：各等級類別有程度上的差別（這種差別按順序排列，任何兩類別的排序不能替換）*多項分類資料根據(jù)分析需要：各類變量資料之間可以互相轉(zhuǎn)化第十三頁，共一百頁，編輯于2023年，星期三如：9、統(tǒng)計量純粹由樣本而構(gòu)成（不含其它未知參數(shù)）的函數(shù)g(X1,X2,,Xn）稱為統(tǒng)計量。

注：統(tǒng)計量通常也是隨機(jī)變量。10、切比雪夫不等式(Chebyshev’sinequality)對于任一隨機(jī)變量X,若EX與DX均存在,則對任意ε＞0,恒有P{|X-EX|>=ε}<=DX/ε^2或P{|X-EX|<ε}>=1-DX/ε^2①、如果一組數(shù)據(jù)不是對稱分布，經(jīng)驗法則就不再使用，這時可使用切比雪夫不等式，它對任何分布形狀的數(shù)據(jù)都適用②、切比雪夫不等式提供的是“下界”，也就是“所占比例至少是多少”③、K=2=>75%K=3=>89%K=4=>94%，第十四頁，共一百頁，編輯于2023年，星期三11、幾種基本的統(tǒng)計量15設(shè)（X1,X2,,Xn）為總體X的樣本，樣本均值樣本k階(原點)矩樣本k階中心矩注

1)以上統(tǒng)計量又稱為樣本的數(shù)字特征;另外在不混淆的情況下,對于總體X的期望E(X)和方差D(X)也分別稱為均值和方差,分別記為,2.

2)樣本方差S2稍不同于樣本的2階中心矩M2’。3)稱為樣本的偏差平方和性質(zhì):設(shè)總體X的期望為，方差為2，則與相互獨立.第十五頁，共一百頁，編輯于2023年，星期三12、頻數(shù)表:

頻數(shù)(f):相同觀察值(或觀察結(jié)果)出現(xiàn)的次數(shù)觀察值及其相應(yīng)的頻數(shù)按一定順序排列的表格.頻數(shù)表編制步驟如下:1、找極值:即找出最大值(Xmax=19.84)和最小值(Xmin=9.23)2、求全距(R):本例R=Xmax－Xmin=10.613、定組段與組數(shù):組段指各組的起止范圍;組數(shù)指組段的個數(shù)(用k)表示;頻數(shù)表一般設(shè)10～15個組段,這里取k=10。4、求組距(i):等距分組時i=R/(k－1)本例i=10.61/10=1.061≈15、列組限:(1)每個組段的起點為下限,終止點為上限(2)第一組段下限取等于或略小于Xmin的整數(shù),其余各個組段依次累加i作下限6、劃記歸組:二、頻數(shù)圖:在頻數(shù)表的基礎(chǔ)上,以直方的面積大小表示頻數(shù)的多少,以直方的面積占總面積的比例表示頻率大小的圖形第十六頁，共一百頁，編輯于2023年，星期三120例正常成年人血清銅含量頻數(shù)表第十七頁，共一百頁，編輯于2023年，星期三頻數(shù)分布特征(兩方面特征)1、集中趨勢:14～組段(居中組段)頻數(shù)最多,其它組段的頻數(shù)分布向其靠攏.2、離散趨勢:居中組段兩側(cè)的頻數(shù)逐漸減少頻數(shù)分布的類型1、對稱分布:集中位置居中,兩側(cè)基本對稱的頻數(shù)分布頻數(shù)表的用途1、揭示資料的分布類型

2、反映頻數(shù)的集中趨勢和離散趨勢3、便于發(fā)現(xiàn)某些特大或特小的可疑值4、便于進(jìn)一步計算統(tǒng)計指標(biāo)和作統(tǒng)計處理第十八頁，共一百頁，編輯于2023年，星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第十九頁，共一百頁，編輯于2023年，星期三集中趨勢(centraltendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數(shù)據(jù)一般水平的代表值/中心值不同類型的數(shù)據(jù)用不同的集中趨勢測度值集中趨勢只是數(shù)據(jù)分布的一個特征，它所反映的是總體各單位變量值向其中心值聚集的程度。集中趨勢特征值：均數(shù)、中位數(shù)、眾數(shù)第二十頁，共一百頁，編輯于2023年，星期三1、平均數(shù)指標(biāo)體系：反映一組觀察值的集中位置或平均水平；常用的有均數(shù)、幾何均數(shù)、中位數(shù)(1)、算術(shù)均數(shù)（均數(shù)）：特點：對觀察值進(jìn)行數(shù)量上的平均，適用于均勻分布或近似正態(tài)分布的資料。各變量值與平均數(shù)的離差之和等于零均值是統(tǒng)計分布的均衡點各變量值與平均數(shù)的離差平方和最小

計算均數(shù)時，應(yīng)：①、應(yīng)做正態(tài)性假設(shè)檢驗②、均數(shù)受極端值影響較大(2)、幾何均數(shù)：n個數(shù)值連乘的n次方根特點：是比例或倍數(shù)上的平均，適用于成比例（或成倍數(shù)）關(guān)系的資料。主要用于計算平均增長率、平均發(fā)展速度第二十一頁，共一百頁，編輯于2023年，星期三（3）、切尾均值(trimmedmean)去掉大小兩端的若干數(shù)值后計算中間數(shù)據(jù)的均值在電視大獎賽、體育比賽及需要人們進(jìn)行綜合評價的比賽項目中已得到廣泛應(yīng)用。計算公式為n

表示觀察值的個數(shù)；α表示切尾系數(shù)性質(zhì)：①、α=0，切尾均值就是算數(shù)平均數(shù)②、α≈1/2，切尾均值就是中位數(shù)③、改變α的值可以選擇集中趨勢的測度值④、切尾均值是結(jié)合了均值利用數(shù)據(jù)信息充分和中位數(shù)不受極端值影響的兩個有點而形成的新型統(tǒng)計量第二十二頁，共一百頁，編輯于2023年，星期三2、中位數(shù)（Median）：將一組觀察值按大小順序排列，位次居中的數(shù)值；特點：序數(shù)上的平均

適用(1)偏態(tài)分布資料(2)一端或兩端無確切界值的開口資料。中位數(shù)的性質(zhì)：①、不受極端值的影響，具有穩(wěn)?。ǚ€(wěn)定）性特點②、各變量值與中位數(shù)的離差絕對值之和最小，即注意事項①、對于偏態(tài)分布資料，中位數(shù)不受兩端特大值和特小值的影響，只和位置居中的觀察值有關(guān)。而均數(shù)受特大值和特小值的影響，會偏大或者偏小，所以對于偏態(tài)分布的資料，均數(shù)的代表性差，不適合描述偏態(tài)分布的集中趨勢。②、中位數(shù)適合于任何分布類型的資料③、與變異指標(biāo)結(jié)合使用，才能全面反映資料特征（集中和離散趨勢）④、同質(zhì)（同類）事物方能計算平均數(shù)。⑤、如果數(shù)據(jù)大量重復(fù)某一數(shù)值，此時中位數(shù)未必準(zhǔn)確，在解釋時要特別小心⑥、主要用于順序數(shù)據(jù)，也可用數(shù)值型數(shù)據(jù)，但不能用于分類數(shù)據(jù)

第二十三頁，共一百頁，編輯于2023年，星期三3、眾數(shù)（mode）：①、一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值②、分布最高峰點所對應(yīng)的數(shù)值即眾數(shù)③、一種位置代表值，不受極端值的影響，應(yīng)用場合有限④、一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)⑤、主要用于分類數(shù)據(jù)，也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)下限公式：上限公式：第二十四頁，共一百頁，編輯于2023年，星期三眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系左偏分布均值

中位數(shù)

眾數(shù)對稱分布

均值=中位數(shù)=

眾數(shù)右偏分布眾數(shù)

中位數(shù)均值取決于數(shù)據(jù)分布狀況對稱分布時，中位數(shù)、眾數(shù)和算術(shù)平均數(shù)合而為一，即：Me=M0=X在非對稱分布的情況下，中位數(shù)、眾數(shù)和算術(shù)平均數(shù)之間存在一定的差別。右偏，則三者之間的關(guān)系是:M0＜Me＜X；左偏，則三者之間的關(guān)系是:M0＞Me＞X。無論是右偏還是左偏，中位數(shù)總是介于算術(shù)平均數(shù)和眾數(shù)之間。第二十五頁，共一百頁，編輯于2023年，星期三眾數(shù)、中位數(shù)、平均數(shù)的特點和應(yīng)用眾數(shù)優(yōu)點：不受極端值影響缺點：具有不惟一性偏態(tài)分布且有明顯峰值時應(yīng)用比均值好中位數(shù)優(yōu)點：不受極端值影響數(shù)據(jù)偏態(tài)分布時應(yīng)用比均值好平均數(shù)優(yōu)點：數(shù)學(xué)性質(zhì)優(yōu)良缺點：易受極端值影響數(shù)據(jù)對稱分布或接近對稱分布時應(yīng)用數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值※眾數(shù)※中位數(shù)※平均數(shù)眾數(shù)眾數(shù)中位數(shù)第二十六頁，共一百頁，編輯于2023年，星期三離散程度數(shù)據(jù)分布的另一個重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度)從另一個側(cè)面說明了集中趨勢測度值的代表程度變量值變異大，離散程度就大，均值的代表性就小。反之亦然。反映離散程度相關(guān)的統(tǒng)計量主要有下面幾個：分類數(shù)據(jù)：異眾比率順序數(shù)據(jù)：四分位差數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差相對位置度量：離散系數(shù)第二十七頁，共一百頁，編輯于2023年，星期三1、異眾比率(variationratio)①、對分類數(shù)據(jù)離散程度的測度②、非眾數(shù)組的頻數(shù)占總頻數(shù)的比例③、用于衡量眾數(shù)的代表性④、計算公式為2、內(nèi)距（inter-quartilerange，IQR）①、也稱四分位差，是兩個四分位數(shù)之差②、內(nèi)距=上四分位數(shù)-下四分位數(shù)=Q3-Q1=QU－QL=P75-P25③、極差容易受極端值影響，內(nèi)距基本不受極端值影響④、內(nèi)距反映的是中間50%數(shù)值大小的差異Q的主要用途：①、Q適用于任何分布的資料，結(jié)果比極差穩(wěn)定，尤其適用于大樣本偏態(tài)分布的資料。②、與M共同描述偏態(tài)分布資料的分布特征，簡寫成M（Q）；③、計算參考值范圍（百分位數(shù)P2.5，P97.5的范圍）方法1：定義算法方法2：較準(zhǔn)確算法第二十八頁，共一百頁，編輯于2023年，星期三3、極差(range)：用于反映個體變異的范圍①、離散程度的最簡單測度值②、易受極端值影響，數(shù)據(jù)越多，R可能越大。（不穩(wěn)定）③、未考慮數(shù)據(jù)的分布，未顧及全部數(shù)據(jù)間的變異④、計算公式為4、平均差(meandeviation)①、各變量值與其平均數(shù)離差絕對值的平均數(shù)②、能全面反映一組數(shù)據(jù)的離散程度③、數(shù)學(xué)性質(zhì)較差，實際中應(yīng)用較少④、計算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)第二十九頁，共一百頁，編輯于2023年，星期三5.方差:①、數(shù)據(jù)離散程度的最常用測度值②、反映了各變量值與均值的平均差異③、根據(jù)總體數(shù)據(jù)計算的，稱為總體方差或標(biāo)準(zhǔn)差，記為2()；根據(jù)樣本數(shù)據(jù)計算的，稱為樣本方差或標(biāo)準(zhǔn)差，記為s2(s)

方差的重要性質(zhì)：①、②、若每一個變量值加上一個常數(shù)，方差和標(biāo)準(zhǔn)差不變③、變量對算術(shù)平均數(shù)的方差，小于對任意常數(shù)的方差第三十頁，共一百頁，編輯于2023年，星期三6、標(biāo)準(zhǔn)差與平均差①、標(biāo)準(zhǔn)差與平均差雖都是變量值與均值的平均離差，但不同的是平均差所平均的是離差絕對值，而標(biāo)準(zhǔn)差平均的是離差平方。②、標(biāo)準(zhǔn)差徹底解決了正負(fù)離差不能相加的問題。它在抽樣調(diào)查、相關(guān)分析中應(yīng)用較多，所以標(biāo)準(zhǔn)差是應(yīng)用較為廣泛的一種離中趨勢的測度值。③、平均差和標(biāo)準(zhǔn)差其數(shù)值大小，不僅決定于各標(biāo)志值的差異程度，還決定于數(shù)列平均水平的高低，同時它們具有與標(biāo)志值相同的名數(shù)。7、自由度(degreeoffreedom)①、自由度是指附加給獨立的觀測值的約束或限制的個數(shù)②、從字面涵義來看，自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù)③、當(dāng)樣本數(shù)據(jù)的個數(shù)為n時，若樣本平均數(shù)確定后，則附加給n個觀測值的約束個數(shù)就是1個，因此只有n-1個數(shù)據(jù)可以自由取值，其中必有一個數(shù)據(jù)不能自由取值④、按著這一邏輯，如果對n個觀測值附加的約束個數(shù)為k個，自由度則為n-k⑤、為什么樣本方差的自由度是n-1呢？因為在計算離差平方和時，必須先求出樣本均值x

，而x則是附加給離差平方和的一個約束，因此，計算離差平方和時只有n-1個獨立的觀測值，而不是n個⑥、樣本方差用自由度去除，其原因可從多方面解釋，從實際應(yīng)用角度看，在抽樣估計中，當(dāng)用樣本方差s2去估計總體方差σ2時，它是σ2的無偏估計量第三十一頁，共一百頁，編輯于2023年，星期三平均差系數(shù)8、離散系數(shù)(coefficientofvariation)對于具有不同平均水平和不同計量單位的數(shù)列，就不能直接利用標(biāo)準(zhǔn)差等來比較其標(biāo)志變動程度的大小，而需要用變異系數(shù)，以消除不同數(shù)列水平的影響。①、對數(shù)據(jù)相對離散程度的測度②、消除了數(shù)據(jù)水平高低和計量單位的影響③、用于對不同組別數(shù)據(jù)離散程度的比較④、離散系數(shù)包括：

變異系數(shù)（CV）：一組觀察值的s與均數(shù)的百分比。CV的主要用途：①、比較度量單位不同或均數(shù)相差懸殊時幾組樣本資料的離散性；②、評價精密度。第三十二頁，共一百頁，編輯于2023年，星期三9、標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore)①、也稱標(biāo)準(zhǔn)化值②、對某一個值在一組數(shù)據(jù)中相對位置的度量③、可用于判斷一組數(shù)據(jù)是否有離群點④、用于對變量的標(biāo)準(zhǔn)化處理⑤、計算公式為性質(zhì)：①、均值等于0②、方差等于1第三十三頁，共一百頁，編輯于2023年，星期三箱線圖(boxplot)①、用于顯示未分組的原始數(shù)據(jù)的分布②、由一組數(shù)據(jù)的5個特征值繪制而成，它由一個箱子和兩條線段組成③、繪制方法首先找出一組數(shù)據(jù)的5個特征值，即最大值、最小值、中位數(shù)Me和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分位數(shù)畫出箱子，再將兩個極值點與箱子相連接該箱線圖也稱為Median/Quart./Range箱線圖

中位數(shù)4681012QUQLX最大值X最小值Median/Quart./Range箱線圖第三十四頁，共一百頁，編輯于2023年，星期三應(yīng)用變異指標(biāo)的注意事項①、極差適用于任何分布的資料，用于資料的粗略分析。②、標(biāo)準(zhǔn)差適用于正態(tài)分布或近似正態(tài)分布的資料。③、四分位數(shù)間距適用于偏態(tài)分布的資料。④、變異系數(shù)適用于度量單位不同的指標(biāo)間的比較以及均數(shù)相差比較懸殊的變異程度的比較。第三十五頁，共一百頁，編輯于2023年，星期三偏態(tài)及其測度偏態(tài)系數(shù)計算方法有很多，比較常用的是：

是對分布偏斜方向及程度的測度。偏態(tài)利用眾數(shù)、中位數(shù)和均值之間的關(guān)系判斷分布的偏斜方向利用偏態(tài)系數(shù)既可以判斷分布的偏斜方向，還可測度偏斜的程度皮爾遜測定法動差測定法第三十六頁，共一百頁，編輯于2023年，星期三在計算偏態(tài)系數(shù)時，如果公式中的眾數(shù)不易計算，可用中位數(shù)代替已知

偏態(tài)系數(shù)實際上是以標(biāo)準(zhǔn)差為單位的算術(shù)平均數(shù)與眾數(shù)的離差，因而其數(shù)值的變動范圍，一般應(yīng)在0與+3及0與-3之間;

偏態(tài)系數(shù)為0表示對稱分布，+3表示極右偏，-3表示極左偏。測定分布的偏度:偏度系數(shù)SK=0SK>0SK<0(對稱分布)正偏態(tài)分布（右）負(fù)偏態(tài)分布(左）第三十七頁，共一百頁，編輯于2023年，星期三

所以，m3可以測定偏度。為消除量綱，轉(zhuǎn)變?yōu)橄禂?shù)，再除以σ3。<0負(fù)偏態(tài)=0對稱分布>0正偏態(tài)偏度系數(shù)

(m3——三階中心矩)

在偏斜適度（微偏）的情況下，不論左偏還是右偏，則有如下的經(jīng)驗公式：

第三十八頁，共一百頁，編輯于2023年，星期三偏度系數(shù)

第三十九頁，共一百頁，編輯于2023年，星期三峰度及其測度峰度系數(shù)計算方法有很多，比較常用的是：

是對分布集中趨勢高峰的形狀的測度。峰度大量的客觀事物的統(tǒng)計規(guī)律都呈現(xiàn)鐘型分布，但其分布曲線的陡峭程度卻有所不同，峰度正是測度數(shù)據(jù)分布與正態(tài)分布相比尖峭或扁平的程度

當(dāng)頻數(shù)分布中的頻數(shù)比較集中于眾數(shù)的位置，使頻數(shù)分布曲線較正態(tài)分布曲線更為隆起，稱為尖頂峰度當(dāng)頻數(shù)分布中的頻數(shù)，對眾數(shù)來說比較分散，使頻數(shù)分布曲線較正態(tài)分布曲線更為平滑，稱為平頂峰度峰度的測定方法，是以四階中心距為基礎(chǔ)。將四階中心距的期望除以б4，化為相對數(shù)，即為峰度的測定值。第四十頁，共一百頁，編輯于2023年，星期三峰度測度通常是與正態(tài)分布相比較而言，可分為尖峰分布平峰分布正態(tài)分布在歸化到同一方差時，若分布的形狀比正態(tài)分布更矮更胖，則稱為平峰分布在歸化到同一方差時，若分布的形狀比正態(tài)分布更瘦更高，則稱為尖峰分布第四十一頁，共一百頁，編輯于2023年，星期三三、應(yīng)用舉例第四十二頁，共一百頁，編輯于2023年，星期三思考：從圖中我們能分析出什么結(jié)論？第四十三頁，共一百頁，編輯于2023年，星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第四十四頁，共一百頁，編輯于2023年，星期三1、概率分布的分位數(shù)(分位點)定義對總體X和給定的(0<<1)，若存在x，使P{X≥x}=，如圖.P{X≥x}=則稱x為X分布的上側(cè)分位數(shù)或上側(cè)臨界值.xoyx若存在數(shù)1、2，使P{X≥1}=P{X≤2}

則稱1、2為X分布的雙側(cè)分位數(shù)或雙側(cè)臨界值.oyx

21第四十五頁，共一百頁，編輯于2023年，星期三雙側(cè)分位數(shù)或雙側(cè)臨界值的特例當(dāng)X的分布關(guān)于y軸對稱時，則稱為X分布的雙側(cè)分位數(shù)或雙側(cè)臨界值.如圖.若存在使yxO第四十六頁，共一百頁，編輯于2023年，星期三2、正態(tài)分布

①、特征：是一種重要的連續(xù)型分布。具有集中性、對稱性和均勻變動性。表現(xiàn)為以均數(shù)為中心，高峰位于中央，兩側(cè)逐漸下降并完全對稱，曲線兩端永遠(yuǎn)不與橫軸相交②、正態(tài)分布的密度函數(shù)：

③、標(biāo)準(zhǔn)正態(tài)密度函數(shù)④、u0.05=1.645，u0.01=2.326u0.025=1.96，u0.005=2.575第四十七頁，共一百頁，編輯于2023年，星期三

定義設(shè)總體，是的一個樣本,則稱統(tǒng)計量服從自由度為n的分布，記作自由度是指獨立隨機(jī)變量的個數(shù)，3、2分布n大分布的密度函數(shù)為

其圖形隨自由度的不同而有所改變.第四十八頁，共一百頁，編輯于2023年，星期三上分位點則稱點t為2(n)分布的上分位點,記為2(n)。當(dāng)n≤45時，可查表；其中Z

是N(0,1)的上分位點。對于給定的正數(shù)(0<<1),若存在點t使得當(dāng)n>45時，有近似公式：特性：E(Y)=n,D(Y)=2n;可加性：若Y1～

2(n1)，Y2～2(n2)，且Y1，Y2相互獨立，則Y1+

Y2～2(n1+n2)第四十九頁，共一百頁，編輯于2023年，星期三定義設(shè)隨機(jī)變量X～N(0，1)，Y～2(n)

，且X與Y相互獨立，則稱統(tǒng)計量服從自由度為n的t分布或?qū)W生氏分布，記作T

～t(n).定義：若隨機(jī)變量T的概率密度函數(shù)為4、t—分布T服從自由度為n的t分布（俗稱學(xué)生分布），記為T～t（n）特點：

當(dāng)n∞時，t(n)N(0,1)第五十頁，共一百頁，編輯于2023年，星期三上分位點t(n)注意：t1-（n）=-t（n）n≤45時，可查表求得；n>45時,t（n）≈z

雙側(cè)分位點

即：對于給定的正數(shù)(0<<1)，使得P{|T|>u}=

的點u.(相當(dāng)于：使得P{T>t}=/2

的點t.)注：正態(tài)分布、2分布等也都有雙側(cè)分位點

對較小的n值，t分布與標(biāo)準(zhǔn)正態(tài)分布之間有較大差異.且P{|T|≥t0}≥P{|X|≥t0}，其中X～N(0，1)，即在t分布的尾部比在標(biāo)準(zhǔn)正態(tài)分布的尾部有著更大的概率.設(shè)T～t

(n)，則E(T)=0，D(T)=第五十一頁，共一百頁，編輯于2023年，星期三定理設(shè)(X1，X2，…，Xn)為來自正態(tài)總體

X～N(，2)的樣本，則統(tǒng)計量定理

設(shè)(X1，X2，…，Xn1)和(Y1，Y2，…，Yn2)分別是來自正態(tài)總體N(1

，2)和N(2

，2)的樣本，且它們相互獨立，則統(tǒng)計量其中、分別為兩總體的樣本方差.第五十二頁，共一百頁，編輯于2023年，星期三設(shè)隨機(jī)變量X～2(n1)、Y～2(n2)，且相互獨立，則稱隨機(jī)變量服從第一自由度為n1，第二自由度為n2的F分布，記作F～F(n1，n2).F

的概率密度函數(shù)為：

其中：5、F—分布定義第五十三頁，共一百頁，編輯于2023年，星期三上分位點F(n1,n2)

F分布的性質(zhì)：

F1-（n1，n2）

=F（n2，n1）1F（n1，n2）F1-（n1，n2）

性質(zhì)：若X～F(n1，n2)，則～F(n2，n1).f(y)xO

/2為F分布的上分位數(shù)；為F分布的上分位數(shù)；第五十四頁，共一百頁，編輯于2023年，星期三設(shè)為正態(tài)總體的樣本容量和樣本方差；定理為正態(tài)總體的樣本容量和樣本方差；且兩個樣本相互獨立，則統(tǒng)計量第五十五頁，共一百頁，編輯于2023年，星期三6、設(shè)總體X～N(，2),(X1,X2，…Xn)為樣本,則7、若兩個總體X與Y相互獨立,且X～N(1,12),Y～N(2,22),

(X1,X2,…Xn1),(Y1,Y2,…Yn2)分別為取自總體X,Y的樣本,則1>當(dāng)12=22時2>一般情況時有第五十六頁，共一百頁，編輯于2023年，星期三8、樣本均數(shù)的抽樣分布具有如下特點：①各樣本均數(shù)未必等于總體均數(shù)；②各樣本均數(shù)間存在差異；③樣本均數(shù)的分布為中間多，兩邊少，左右基本對稱。④樣本均數(shù)的變異范圍較之原變量的變異范圍大大縮小。標(biāo)準(zhǔn)誤：是統(tǒng)計量的標(biāo)準(zhǔn)差，描述的是樣本統(tǒng)計量的離散程度（即抽樣誤差的大小）。標(biāo)準(zhǔn)誤的意義：標(biāo)準(zhǔn)誤的值越大，反映樣本統(tǒng)計量的離散程度越大，通過一次抽樣得到的某個樣本統(tǒng)計量與總體參數(shù)（是個定值）相差也越大。第五十七頁，共一百頁，編輯于2023年，星期三培訓(xùn)大綱

一、發(fā)展簡史

二、數(shù)理統(tǒng)計的基本知識

三、隨機(jī)變量的數(shù)字特征

四、分布

五、假設(shè)檢驗第五十八頁，共一百頁，編輯于2023年，星期三統(tǒng)計推斷與假設(shè)檢驗統(tǒng)計推斷：統(tǒng)計推斷中存在兩種分布，一是樣本分布，一是總體分布。從一個或一系列樣本所得的統(tǒng)計量去推斷總體的結(jié)果，稱為統(tǒng)計推斷。統(tǒng)計推斷包括假設(shè)檢驗和參數(shù)估計兩個基本點。假設(shè)檢驗：①、比較兩總體的平均值是否相同，或一個總體平均數(shù)是否等于某個值的問題。②、比較兩個樣本的方差，或樣本方差與總體方差的一致性問題。③、差異產(chǎn)生的原因，一是純粹的由于隨機(jī)誤差引起的，二是結(jié)果本身存在著實質(zhì)性的差異，即有系統(tǒng)誤差存在。第五十九頁，共一百頁，編輯于2023年，星期三假設(shè)檢驗與兩類錯誤1、假設(shè)檢驗：先對總體的參數(shù)或分布作出某種假設(shè)，然后用適當(dāng)?shù)姆椒ǜ鶕?jù)樣本對總體提供的信息，運用“小概率原理”推斷假設(shè)是否成立。2、兩類錯誤：Ⅰ型錯誤：拒絕實際成立的H0（棄真）Ⅱ型錯誤：不拒絕實際不成立的H0（存?zhèn)危?）由假設(shè)檢驗可知，假設(shè)檢驗實際是在假定H0的前提下抽樣觀察，出現(xiàn)當(dāng)前樣本現(xiàn)象的可能性大?。ǜ怕蔖）來進(jìn)行推斷的（2）假設(shè)檢驗的結(jié)論是概率性結(jié)論，無論是拒絕H0還是不拒絕H0，都有犯錯誤的可能。檢驗（顯著性）水平當(dāng)我們對原假設(shè)H0是否為真作出判斷時有可能會犯錯誤，這就是要冒風(fēng)險，為了控制這一風(fēng)險，首先需要用一個概率去表示這一風(fēng)險，這個概率便是“H0為真但被拒絕”的概率，這個概率又稱為顯著性水平，記為α。顯著性（檢驗）水平LevelofSignificance①、定義如果零假設(shè)成立樣本統(tǒng)計量不可能的取值區(qū)間，稱為樣本分布的拒絕域Rejectionregionofsamplingdistribution②、用α表示，典型值為0.01,0.05,0.10③、由研究人員在開始時選定第六十頁，共一百頁，編輯于2023年，星期三兩類錯誤

第一類錯誤：原假設(shè)H0為真，但由于樣本的隨機(jī)性，使樣本觀察值落入拒絕域W，這時所下的判斷便是拒絕H0，這類錯誤稱為第一類錯誤，其發(fā)生的概率稱為犯第一類錯誤的概率，也稱為拒真概率，該錯誤后果嚴(yán)重，它便是顯著性水平α。第二類錯誤：原假設(shè)H0為假，但由于樣本的隨機(jī)性，使樣本觀察值落入接受域A，這時所犯下的判斷便是接受H0，這類錯誤稱為第二類錯誤，其發(fā)生的概率稱為犯第二類錯誤的概率，也稱為取偽概率，記為β。好的檢驗法則總希望犯兩類錯誤的概率α與β都很小，但這在一般場合下很難實現(xiàn)。接受原假設(shè)拒絕原假設(shè)假設(shè)實際為真符合（1-α）棄真錯誤α假設(shè)實際不真取偽錯誤β符合（1-β）第六十一頁，共一百頁，編輯于2023年，星期三檢驗決策結(jié)果

DecisionResultsH0:無罪陪審團(tuán)裁決0檢驗實際情況實際情況裁決無罪有罪決策H0為真H0為假無罪正確錯誤不拒絕H0置信度1-α第二類錯誤()有罪錯誤正確拒絕H0第一類錯誤()檢驗?zāi)芰?1-)第六十二頁，共一百頁，編輯于2023年，星期三拒絕原假設(shè)的推斷的基本思想?yún)?shù)的假設(shè)檢驗：已知總體的分布類型，對分布函數(shù)或密度函數(shù)中的某些參數(shù)提出假設(shè)，并檢驗。基本原則——小概率事件在一次試驗中是不可能發(fā)生的。思想：如果原假設(shè)成立，那么某個分布已知的統(tǒng)計量在某個區(qū)域內(nèi)取值的概率應(yīng)該較小，如果一次觀測樣本的數(shù)值落在這個小概率區(qū)域內(nèi)，則原假設(shè)不正確，所以拒絕原假設(shè)；否則，接受原假設(shè)。

拒絕域檢驗水平第六十三頁，共一百頁，編輯于2023年，星期三(一)假設(shè)檢驗的兩類問題1、參數(shù)假設(shè)檢驗總體分布已知,參數(shù)未知,由觀測值x1,…,xn檢驗假設(shè)H0：=0；H1：≠02、非參數(shù)假設(shè)檢驗總體分布未知,由觀測值x1,…,xn檢驗假設(shè)H0：F(x)=F0(x;);H1：F(x)≠F0(x;)

第六十四頁，共一百頁，編輯于2023年，星期三拒絕域的幾點說明1.拒絕域在兩邊的是雙邊（側(cè)）檢驗，拒絕域在一邊的是單邊（側(cè)）檢驗。3.提防犯棄真錯誤或取偽錯誤。2.不同的檢驗水平對應(yīng)不同的拒絕域?？梢栽龃髽颖救萘炕蚨嗾?guī)讉€樣本作檢驗。雙邊檢驗單邊檢驗（右）單邊檢驗（左）第六十五頁，共一百頁，編輯于2023年，星期三正態(tài)總體均值與方差的假設(shè)檢驗一、單個總體參數(shù)的檢驗二、兩個總體參數(shù)的檢驗三、基于成對數(shù)據(jù)的檢驗(t

檢驗)四、小結(jié)第六十六頁，共一百頁，編輯于2023年，星期三一、單個正態(tài)總體均值與方差的檢驗對于給定的檢驗水平由標(biāo)準(zhǔn)正態(tài)分布分位數(shù)定義知，因此，檢驗的拒絕域為

其中為統(tǒng)計量U的觀測值。這種利用U來檢驗的方法稱為U檢驗法。第六十七頁，共一百頁，編輯于2023年，星期三第六十八頁，共一百頁，編輯于2023年，星期三在實際中,正態(tài)總體的方差常為未知,所以我們常用t

檢驗法來檢驗關(guān)于正態(tài)總體均值的檢驗問題.上述利用t

統(tǒng)計量得出的檢驗法稱為t檢驗法.由t分布分位數(shù)的定義知第六十九頁，共一百頁，編輯于2023年，星期三

dataread;inputL@@;datalines;10.410.610.110.410.510.310.310.210.910.610.810.510.710.210.7;Run;Procttestdata=readh0=10.5;Varl;Run;單變量均值檢驗程序1第七十頁，共一百頁，編輯于2023年，星期三

dataread;inputL@@;L=L-10.5;Datalines;10.410.610.110.410.510.310.310.210.910.610.810.510.710.210.7;Run;Procmeansdata=readnmeanstdvarmaxminstderrlclmuclmrangetprobt;Run;單變量均值檢驗程序2第七十一頁，共一百頁，編輯于2023年，星期三

dataread;inputscorecount@@;datalines;402472522261192252354391261481142221421342332181151291412441511431272462281491311281541451;Run;Procttestdata=readh0=30;Varscore;Freqcount;Run;單變量均值檢驗編程及結(jié)果顯示第七十二頁，共一百頁，編輯于2023年，星期三要檢驗假設(shè):根據(jù)第七十三頁，共一百頁，編輯于2023年，星期三指它們的和集拒絕域為:第七十四頁，共一百頁，編輯于2023年，星期三二、兩個正態(tài)總體均值與方差的檢驗1.已知方差時兩正態(tài)總體均值的檢驗需要檢驗假設(shè):上述假設(shè)可等價的變?yōu)?/p>

利用u檢驗法檢驗.第七十五頁，共一百頁，編輯于2023年，星期三第七十六頁，共一百頁，編輯于2023年，星期三故拒絕域為由標(biāo)準(zhǔn)正態(tài)分布分位數(shù)的定義知第七十七頁，共一百頁，編輯于2023年，星期三2.未知方差時兩正態(tài)總體均值的檢驗

利用t檢驗法檢驗具有相同方差的兩正態(tài)總體均值差的假設(shè).第七十八頁，共一百頁，編輯于2023年，星期三第七十九頁，共一百頁，編輯于2023年，星期三對給定的故拒絕域為第八十頁，共一百頁，編輯于2023年，星期三需要檢驗假設(shè):3.兩正態(tài)總體方差的檢驗第八十一頁，共一百頁，編輯于2023年，星期三第八十二頁，共一百頁，編輯于2023年，星期三為了計算方便,習(xí)慣上取檢驗問題的拒絕域為上述檢驗法稱為F檢驗法.第八十三頁，共一百頁，編輯于2023年，星期三成組法T檢驗計算程序如下：datayild;inputstrain$yield@@;cards;a69a97a106a51a97a65a73a83a79a41a92b32b61b50b46b73b43b80b61b56b60b29b38b48b26b23b61b46;

procttestdata=yild;varyield;classstrain;title'grouped－comparisonsttest';run;

第八十四頁，共一百頁，編輯于2023年，星期三三、基于配對數(shù)據(jù)的檢驗（t檢驗）

有時為了比較兩種產(chǎn)品，兩種儀器，或兩種試驗方法等的差異，我們常常在相同的條件下做對比試驗，得到一批成對（配對）的觀測值，然后對觀測數(shù)據(jù)進(jìn)行分析。作出推斷，這種方法常稱為配對分析法。

例

比較甲，乙兩種橡膠輪胎的耐磨性，今從甲，乙兩種輪胎中各隨機(jī)地抽取8個，其中各取一個組成一對。再隨機(jī)選擇8架飛機(jī)，將8對輪胎隨機(jī)地

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)理統(tǒng)計基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

數(shù)理統(tǒng)計基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔