統(tǒng)計學基礎詳解演示文稿_第1頁
統(tǒng)計學基礎詳解演示文稿_第2頁
統(tǒng)計學基礎詳解演示文稿_第3頁
統(tǒng)計學基礎詳解演示文稿_第4頁
統(tǒng)計學基礎詳解演示文稿_第5頁
已閱讀5頁,還剩114頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

統(tǒng)計學基礎詳解演示文稿當前第1頁\共有119頁\編于星期日\11點(優(yōu)選)統(tǒng)計學基礎當前第2頁\共有119頁\編于星期日\11點一、總體

根據(jù)研究目的確定的同質(zhì)研究對象的全體(集合)。是由具有某些共同特質(zhì)(characteristic)的元素(element)或個體所組成的群體,是研究人員所要研究觀察對象的全體集合。EX1:評估大學生的身體素質(zhì)

浙江工商大學的全體學生

浙江大學所有大學生EX2:考察菜地土壤重金屬污染狀況

杭州市郊菜園土浙江省的菜園土3當前第3頁\共有119頁\編于星期日\11點總體容量:即總體所包含的個體數(shù)目(N)

有限總體無限總體

總體特點:同質(zhì)性(CommonCharacteristic)變異性(Variationbetweenelements)大量性(Inhugenumbers)研究方法:全面普查(耗資巨大、破壞性)

抽樣調(diào)查(具有代表性)

4當前第4頁\共有119頁\編于星期日\11點樣本:從總體中抽取的一部分個體組成的集合。抽樣要求:樣本對總體具有代表性樣本容量:即樣本所包含的個體數(shù)目(n)大樣本:n≥30小樣本:n<30二.樣本?5當前第5頁\共有119頁\編于星期日\11點三、隨機抽樣

randomsampling為了保證樣本的可靠性和代表性,需要采用隨機的方法抽取樣本。隨機抽取的要求:在總體中每個個體具有相同的機會被抽到。6當前第6頁\共有119頁\編于星期日\11點隨機抽樣保證樣本的代表性與可靠性總體與樣本的關系抽樣Sampling推論inferencePopulationsample試驗設計任務7當前第7頁\共有119頁\編于星期日\11點總體與樣本的屬性數(shù)量屬性測試、調(diào)查的對象具有可度量或計數(shù)的性質(zhì)。水體中細菌的數(shù)量、飲料中固形物的含量質(zhì)量屬性有些觀察調(diào)查對象的一些屬性能觀察而不能度量。醬油的顏色、感覺的喜好程度(不喜歡=-1、無所謂=0、喜歡=1)8當前第8頁\共有119頁\編于星期日\11點誤差與錯誤錯誤在試驗過程中由于工作出錯造成的觀測值與真值的差異誤差隨機誤差系統(tǒng)誤差9當前第9頁\共有119頁\編于星期日\11點精密度和準確度

誤差表示測量的不精密度和不準確度,即不確定度.精密度和準確度是兩個不同的概念.精密度表示一組測定數(shù)據(jù)相互接近的程度或分散的程度,它的大小完全決定于偶然誤差.在分析化學中,常用重復性(repeatability)和再現(xiàn)性(reproducibility)來表示精密度.重復性是指在完全相同條件下,即同一操作者、同一儀器、同一實驗室,在較短時間內(nèi)分析同一樣品所得結果的精密度;再現(xiàn)性是指在不同的條件下,即不同的操作者、非同一臺儀器、不同的實驗室、不同的時間,但是用相同的分析方法和分析相同樣品所得結果的精密度.準確度表示測量值與真值的偏離程度,它由系統(tǒng)誤差和偶然誤差共同決定.

如由4個學生用濃度準確為0.1mol/L的鹽酸滴定濃度準確為0.1mol/L的氫氧化鈉,氫氧化鈉的體積準確為10.00ml.每個學生重復測量5次,其結果示于表1.1.10當前第10頁\共有119頁\編于星期日\11點學生結果(ml)注釋

A

B

C

D10.0810.1110.0910.1010.12

9.8810.1410.029.8010.21

10.199.799.6910.059.78

10.049.9810.029.9710.04

精密但不準確

準確但不精密

不準確也不精密

準確而且精密

由表1.1可見,學生A盡管測試結果重復性較好,即精密,但是準確性較差(A的均值為10.10),所有結果均偏高.這是由于系統(tǒng)誤差所致.學生B的測試落到準確值(即真值)的兩側,其均值為10.01.此結果較準確,但精密度較差,主要受到了偶然誤差的影響.學生C測量中既有偶然誤差的影響,又有系統(tǒng)誤差的影響,所以既不精密,也不準確.只有學生D測試結果比較精密(范圍為9.97-10.04ml),又比較準確(均值為10.01).表1.1用鹽酸進行氫氧化鈉的滴定結果11當前第11頁\共有119頁\編于星期日\11點第二節(jié)描述統(tǒng)計一、統(tǒng)計特征數(shù)二、次數(shù)分布12當前第12頁\共有119頁\編于星期日\11點一、統(tǒng)計特征數(shù)

反映數(shù)據(jù)資料的集中性趨勢或分散程度的一些特征數(shù)字,統(tǒng)稱為統(tǒng)計特征數(shù)。參數(shù):用于描述總體集中性趨勢或分散程度的統(tǒng)計特征數(shù)。如總體平均數(shù)μ,總體標準差。統(tǒng)計數(shù):用于描述樣本集中性趨勢或分散程度的統(tǒng)計特征數(shù)。如樣本平均數(shù),樣本標準差s。13當前第13頁\共有119頁\編于星期日\11點(一)平均數(shù)

描述數(shù)據(jù)資料的集中性趨勢的統(tǒng)計特征數(shù)。反映資料的一般水平及中心位置,并可作為資料的代表跟其它資料比較。

14當前第14頁\共有119頁\編于星期日\11點1、平均數(shù)類型及Excel插入函數(shù)計算名稱定義插入函數(shù)算術平均數(shù)AVERAGE(x1,x2,xn)幾何平均數(shù)GEOMEAN(x1,x2,xn)眾數(shù)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值MODE(x1,x2,xn)調(diào)和平均數(shù)HARMEAN(x1,x2,xn)中數(shù)一組數(shù)據(jù)由大到小排列,位于中間位置的數(shù)據(jù);當樣本容量為偶數(shù)時居中的兩個數(shù)據(jù)的平均值。MEDIAN(x1,x2,xn)15當前第15頁\共有119頁\編于星期日\11點(1)算術平均數(shù)的性質(zhì)離均差的總和為0

離均差的平方和最小16當前第16頁\共有119頁\編于星期日\11點17算數(shù)平均數(shù)的作用指出一組數(shù)據(jù)資料的中心位置,標志著資料所代表形狀的數(shù)量水平和質(zhì)量水平可作為樣本或資料的代表數(shù)與其他資料進行比較當前第17頁\共有119頁\編于星期日\11點(2)幾何平均數(shù)可以反映對數(shù)正態(tài)分布或近似對數(shù)分布資料以及等比級數(shù)資料的集中趨勢感官評價中感覺強度的統(tǒng)計表征,例如:三點檢驗或是閾值測定中,平均值的求解18當前第18頁\共有119頁\編于星期日\11點(3)調(diào)和平均數(shù)應用于當掌握資料不完全,但又需要計算平均數(shù)的情況。19f為不同權重當前第19頁\共有119頁\編于星期日\11點20工廠廢水處理率(%)廢水量甲1830000乙2325000丙3018000甲、乙、丙三個工廠的實際廢水量和廢水處理率列于表1.3-1,試計算平均處理率。表1.3-1三個工廠的廢水量和廢水處理率當前第20頁\共有119頁\編于星期日\11點(4)中位數(shù)在科學研究中收集的數(shù)據(jù),有時會比較分散,個別離群偏遠,這時往往要用中位數(shù)來表征平均特征。謂中位數(shù)是指觀測值由大到小或由小到大依次排序,居于中間位置的數(shù)據(jù),記作Me。一般來說,有21當前第21頁\共有119頁\編于星期日\11點(5)眾數(shù)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值為眾數(shù),記作Mo,也就是頻率最大的值,在一組數(shù)據(jù)中眾數(shù)可能不止一個。一般用于統(tǒng)計調(diào)查表的分析中22當前第22頁\共有119頁\編于星期日\11點(二)變異數(shù)

用于描述數(shù)據(jù)資料的變異程度變異程度的統(tǒng)計特征數(shù)。

23當前第23頁\共有119頁\編于星期日\11點1、變異數(shù)類型及Excel插入函數(shù)計算名稱定義插入函數(shù)樣本標準差STDEV(x1,x2,xn)總體標準差STDEVP(x1,x2,xn)樣本方差VAR(x1,x2,xn)總體方差VARP(x1,x2,xn)變異系數(shù)24當前第24頁\共有119頁\編于星期日\11點(1)極差極差是一組數(shù)據(jù)的最大值(ymax.)與最小值(ymin.)之差,反映數(shù)據(jù)資料的最大變異幅度,也稱變幅記作R,即:用極差反映數(shù)據(jù)資料的變異程度,方便直觀,但它只利用了數(shù)據(jù)資料的兩個極端值,而其余數(shù)據(jù)的變異信息無從表達,因而極差是一種較粗放的表示變異程度的指標。特別是樣本容量n較大時,這種缺陷就更為突出。主要用于數(shù)據(jù)歸一化處理25當前第25頁\共有119頁\編于星期日\11點(2)方差方差是度量資料變異程度的最常用的指標之一。26當前第26頁\共有119頁\編于星期日\11點(3)標準差為彌補方差與原始數(shù)據(jù)的數(shù)值單位不同,無法進行比較的缺陷,設計將方差進行開方:27當前第27頁\共有119頁\編于星期日\11點(4)變異系數(shù)變異系數(shù)亦稱離散系數(shù),它是樣本標準差S與樣本平均數(shù)之比的百分數(shù),記作CV:變異系數(shù)表示相對變異程度,它常用于:(1)比較平均數(shù)相差懸殊的幾組資料的變異程度;(2)比較度量單位不同的幾組資料的變異程度。28當前第28頁\共有119頁\編于星期日\11點某地豐產(chǎn)田小麥產(chǎn)量平均為400公斤/666.7平方米,標準差為30公斤/666.7平方米,一般大田平均產(chǎn)量250公斤/666.7平方米,標準差28公斤/666.7平方米,試比較豐產(chǎn)田與一般大田產(chǎn)量的變異系數(shù)?豐產(chǎn)田產(chǎn)量的變異系數(shù)為:CV(=30/400100=7.5%一般大田產(chǎn)量的變異系數(shù)為:CV(%)=28/250100=11.2%29當前第29頁\共有119頁\編于星期日\11點2、自由度DegreeofFreedom記作df指樣本內(nèi)獨立而能自由變動的觀察數(shù)個數(shù)。某一統(tǒng)計量的自由度df等于樣本容量n減約束條件數(shù)k。例如:求樣本方差(或標準差)的自由度受的約束,即k=1,所以:

df=n-130當前第30頁\共有119頁\編于星期日\11點(三)Excel分析工具

——“描述統(tǒng)計”應用操作:Excel主菜單:工具→分析工具:描述統(tǒng)計輸入選項:①輸入?yún)^(qū)域②分組方式:單擊“行”或“列”③標志位于第一行/列輸出選項:①均值置信度:②第K個最大值③第K個最小值:④輸出區(qū)域⑤新工作表⑥新工作簿⑦匯總統(tǒng)計:31當前第31頁\共有119頁\編于星期日\11點匯總統(tǒng)計輸出內(nèi)容:平均值標準誤差(即樣本平均值的標準誤)中值,眾數(shù)樣本標準差,樣本方差、峰值,偏斜度極差(全距)

最小值,最大值總和,總個數(shù)置信度:(置信半徑=t標準誤)32當前第32頁\共有119頁\編于星期日\11點例1.測得10個樣本的甜菜塊根蔗糖含量結果如下表,試采用Excel插入函數(shù)計算各樣本的統(tǒng)計數(shù):平均數(shù)、標準差、方差及變異系數(shù)。利用“描述統(tǒng)計”工具計算各樣本的統(tǒng)計特征數(shù)。33當前第33頁\共有119頁\編于星期日\11點=AVERAGE(B2:K2)=STDEV(B2:K2)=VAR(B2:K2)=M2/L2*100第一行:后9行:選定第一行數(shù)字,使填充柄出現(xiàn)“實線十字”再下拉即可1、插入函數(shù)計算:34當前第34頁\共有119頁\編于星期日\11點2、統(tǒng)計描述工具計算:35當前第35頁\共有119頁\編于星期日\11點輸出結果行1行2行3行4行5行6行7行8行9行10平均11.711.314.112.513.812.011.811.812.710.8標準誤差0.81.10.80.70.30.91.00.80.70.7中位數(shù)12.411.914.312.813.712.112.813.112.811.4標準差2.53.62.42.31.12.73.12.62.12.1方差6.413.05.85.21.17.49.97.04.64.6峰度-1.440.12-0.48-1.26-1.551.17-1.05-0.71-0.930.30偏度0.01-0.54-0.46-0.38-0.12-0.75-0.75-0.75-0.52-0.95區(qū)域7.212.37.66.62.99.48.685.76.9最小值8.54.49.68.612.16.36.579.46.5最大值15.716.717.215.21515.715.11515.113.4求和116.9112.5140.8125137.5120.2117.9118.4127.2107.7觀測數(shù)10101010101010101010經(jīng)整理36當前第36頁\共有119頁\編于星期日\11點二、次數(shù)分布

(一)次數(shù)分布表將一群觀測值的變異范圍劃分為互不相容的若干區(qū)間;記數(shù)屬于各區(qū)間的觀測值次數(shù)。由各組的組限(或組中值)及相應次數(shù)構成的表格稱為次數(shù)分布表。37當前第37頁\共有119頁\編于星期日\11點38200株水稻主莖葉片SPAD值列號(j)行號(i)12345678910133.541.439.737.538.436.438.937.938.137.0238.237.838.936.037.640.537.637.536.736.4336.736.240.638.738.936.437.139.539.533.6439.334.140.235.638.440.038.337.338.535.7538.334.438.134.438.338.838.737.838.639.3637.937.536.440.137.537.239.037.136.739.6737.438.137.937.136.537.738.941.239.536.8839.938.336.937.136.935.837.937.236.336.2939.438.439.638.337.740.736.339.036.238.21039.038.436.838.739.338.737.538.339.034.71136.636.539.239.538.136.539.536.737.336.21239.638.639.538.941.539.735.339.140.337.81338.837.842.137.939.039.438.139.537.239.01438.137.443.136.837.438.338.637.637.438.71537.235.638.439.036.636.737.738.036.438.21634.738.437.637.938.636.636.139.838.935.81736.039.237.137.838.039.440.535.139.537.81837.539.337.240.535.737.940.141.838.836.71936.438.139.539.038.836.538.238.338.438.82036.537.235.036.138.038.037.435.539.037.2當前第38頁\共有119頁\編于星期日\11點次數(shù)分布表制作步驟:1.求變幅R:R=YMax.-Ymin.R=43.1-33.5=9.62.選擇組數(shù)K:采用Sturge公式估計:K=1+3.3logN(N為總體或樣本容量)K=1+3.3log200=8.6≈9(選9組)3.確定組距C:即每組上下限之差由C=R/K來估計C=9.6/9≈1.07(取1.0)4.決定組限和組中值:最小組的下限L11=Ymin-1/2C(小數(shù)位數(shù)比觀測值多一位)L11=33.5-0.5=33(取33)最小組的上限L12=L11+CL12=33+1=34后一組的下限即前一組的上限,各組上限即本組下限加組距Li2=Li1+C(i=1,2,3,……,K)5.觀測值歸組記數(shù)39當前第39頁\共有119頁\編于星期日\11點200株水稻主莖葉片SPAD值次數(shù)分布表40組號組上限次數(shù)累積百分率(%)13421.0023553.5336108.54373526.05384749.56395677.57403092.5841997.0942499.01043199.5011441100.0當前第40頁\共有119頁\編于星期日\11點(二)次數(shù)分布圖為更形象直觀表示次數(shù)分布特征可將次數(shù)分布表作成次數(shù)分布圖,包括:1.直方圖:以組限或組中值為橫坐標,以次數(shù)為縱坐標,由許多直方柱構成的分布圖。2.多邊形圖:以組中值為橫坐標,以次數(shù)、累積次數(shù)或累積頻率為縱坐標,由折線連接而成的分布圖。41當前第41頁\共有119頁\編于星期日\11點42當前第42頁\共有119頁\編于星期日\11點(三)利用Excel“直方圖”工具制作次數(shù)分布表與次數(shù)分布圖

點擊:工具→數(shù)據(jù)分析→直方圖43當前第43頁\共有119頁\編于星期日\11點(1)點擊:工具→數(shù)據(jù)分析→直方圖;(2)輸入?yún)^(qū)域:引用“100株甜菜塊根蔗糖含量數(shù)據(jù)”;接收區(qū)域:不引用(3)選定輸出選項;(4)點擊“確定”。自動生成的次數(shù)分布表及分布圖44當前第44頁\共有119頁\編于星期日\11點(1)點擊:工具→數(shù)據(jù)分析→直方圖;(2)輸入?yún)^(qū)域:引用“100個蔗糖含量數(shù)據(jù)”;接收區(qū)域:“引用事先設定的組限”;(3)選定輸出選項;(4)點擊“確定”。45當前第45頁\共有119頁\編于星期日\11點按設定組限生成的次數(shù)分布表及分布圖頻率:次數(shù)累積:累積頻率46當前第46頁\共有119頁\編于星期日\11點第三節(jié)概率分布與抽樣分布一、隨機事件二、概率分布三、抽樣分布47當前第47頁\共有119頁\編于星期日\11點隨機事件確定性的事件指一定條件下必然發(fā)生或不發(fā)生的現(xiàn)象;反之,則為在一定條件下必然不發(fā)生的現(xiàn)象。在一個大氣壓下水加熱到100℃必定沸騰;同性電荷會排斥不確定性的即偶然性的事件在一定條件下可能發(fā)生也可能不發(fā)生的現(xiàn)象,也稱隨機現(xiàn)象或隨機事件一粒水稻種子播種后可能發(fā)芽也不發(fā)芽某種農(nóng)藥對防治作物病害可能見效也可能不見效投擲硬幣,國徽還是字朝上48當前第48頁\共有119頁\編于星期日\11點頻率與概率設隨機事件A在n次試驗中出現(xiàn)了m次,則比值叫做n次試驗中隨機事件A的頻率,記作W(A),即W(A)=由于m的取值區(qū)間為[0,n],因此,W(A)取值區(qū)間為[0,1],即任何事件的頻率都介于0到1之間。49當前第49頁\共有119頁\編于星期日\11點50為考察一批小麥種子的發(fā)芽情況,分別從中抽取5粒,10粒,50粒,100粒,300粒,600粒,1000粒,在相同的條件下進行發(fā)芽試驗。供試種子數(shù)(n)510501003006001000發(fā)芽數(shù)(m)584689272541900發(fā)芽率(m/n)1.0000.8000.9200.8900.9070.9020.9001.隨著觀察次數(shù)的增大,發(fā)芽率的波動幅度逐漸減小,并趨向于一個穩(wěn)定值(0.900),頻率的這種穩(wěn)定值就是隨機事件的概率2.概率是能夠對隨機事件發(fā)生可能性進行度量當前第50頁\共有119頁\編于星期日\11點(一)概率分布概念隨機變量:用于描述隨機事件結果的變量描述種子發(fā)芽時,選擇的種子的數(shù)量什么是概率分布表示隨機變量取值的概率規(guī)律。即隨機變量取哪些值以及取得這些值的相應概率。當前第51頁\共有119頁\編于星期日\11點2.概率分布的表示方法(1)分布律:表示離散型隨機變量取值的概率規(guī)律①表格表示:

②公式表示:P(X=xi)=pi

P(X=xi)=0.89(xi=89,i=100)

52供試種子數(shù)(n)510501003006001000發(fā)芽數(shù)(m)584689272541900發(fā)芽率(m/n)1.0000.8000.9200.8900.9070.9020.900當前第52頁\共有119頁\編于星期日\11點(2)分布函數(shù)(累積概率函數(shù)):表示隨機變量X取得小于或等于某一實數(shù)值的概率,記作:

F(xi)=P(X≤xi)

根據(jù)分布函數(shù)可以計算隨機變量取某一區(qū)間值的概率

P(x1≤X≤x2)=F(x2)-F(x1)=P(X≤x2)-P(X≤x1)53當前第53頁\共有119頁\編于星期日\11點(3)概率密度函數(shù):若隨機變量X的分布函數(shù)分布函數(shù)F(x)可導,則其一階導函數(shù)f(x)=F(x)′稱為X的概率密度函數(shù),簡稱密度函數(shù)。概率密度:指概率分布曲線的縱高

54當前第54頁\共有119頁\編于星期日\11點利用隨機變量X的密度函數(shù),可以計算隨機變量取某一區(qū)間值的

55當前第55頁\共有119頁\編于星期日\11點(二)幾個常用概率分布及概率計算名稱概率密度函數(shù)參數(shù)Excel插入函數(shù)概率密度函數(shù)累積概率函數(shù)給定左側概率的正態(tài)變量臨界值二項分布pq=1-pBINOMDIST(r,n,p,0)BINOMDIST(r,n,p,1)泊松分布μ=npPOISSON(r,μ,0)POISSON(r,μ,1)正態(tài)分布μ,NORMDIST(X,μ,,0)NORMDIST(X,μ,,1)NORMINV(,μ,)-為左側概率標準正態(tài)分布μ=0

=1NORMSDIST(z)NORMSINV(Probability)56當前第56頁\共有119頁\編于星期日\11點二項分布條件包含了n個相同的試驗。每次試驗相互獨立。每次試驗只有兩個可能的結果?!俺晒Α被颉笆 ?。每次出現(xiàn)“成功”的概率P相同,“失敗”的概率也相同,為1-P。試驗“成功”或“失敗”可以計數(shù),即試驗結果對應于一個離散型隨機變量。57案例:種子發(fā)芽,硬幣投擲當前第57頁\共有119頁\編于星期日\11點二項分布概率計算實例例1從發(fā)芽率為0.9的一批種子中隨機抽取5粒,觀察發(fā)芽總數(shù),求各種可能結果的概率。Pn(r)

P(X≤r)

58當前第58頁\共有119頁\編于星期日\11點泊松分布描述大量試驗中,稀有事件的發(fā)生概率59案例:顯微鏡下,微生物的數(shù)量;

一個售貨員接待的顧客數(shù)量;當前第59頁\共有119頁\編于星期日\11點泊松分布概率計算實例例2某稀有事件的概率為0.02,問在300次試驗中,該稀有事件出現(xiàn)2次的概率為多少?∴P(r=2)=0.04461753960當前第60頁\共有119頁\編于星期日\11點正態(tài)分布正態(tài)分布是最重要的概率分布試驗誤差的分布一般服從正態(tài)分布,許多生物現(xiàn)象的計量資料均近似服從正態(tài)分布物產(chǎn)量各種經(jīng)濟性狀指標61當前第61頁\共有119頁\編于星期日\11點正態(tài)分布圖62當前第62頁\共有119頁\編于星期日\11點標準正態(tài)分布63當前第63頁\共有119頁\編于星期日\11點正態(tài)分布概率計算實例例3已知甜菜塊根蔗糖含量X服從平均數(shù)=12.2%,標準差=2.26%的正態(tài)分布,求甜菜塊根蔗糖含量X大于10.0%,小于14.0%的概率?64當前第64頁\共有119頁\編于星期日\11點二、抽樣分布從特定總體中按一定容量隨機抽取所有可能的樣本,這些樣本的某種統(tǒng)計數(shù)將組成新的總體,其概率分布稱為抽樣分布。例如樣本平均數(shù)的分布、兩樣本平均數(shù)差數(shù)分布、t分布等等。65當前第65頁\共有119頁\編于星期日\11點一、樣本平均數(shù)的分布隨機抽樣容量為n的

所有樣本原始總體

X~(μ,σ2)樣本平均數(shù)總體66當前第66頁\共有119頁\編于星期日\11點1.樣本平均數(shù)分布的特征(1)參數(shù):樣本平均數(shù)總體的平均數(shù)等于原始總體平均數(shù)。樣本平均數(shù)總體的方差等于原始總體方差除以樣本容量。

(2)分布性質(zhì):若原始總體服從正態(tài)分布,則樣本平均數(shù)也服從正態(tài)分布;若原始總體的分布不呈正態(tài),樣本平均數(shù)的分布隨樣本容量n的增大逐漸趨近正態(tài)。67當前第67頁\共有119頁\編于星期日\11點2.樣本平均數(shù)分布的驗證抽樣驗證(以有限總體為例)原始總體:(2,4,6)N=3μ=4σ2=8/3隨機抽取容量為n的樣本,則所有可能的樣本數(shù)M=NnA.隨機抽取n=2的樣本(返置抽樣)M=32=968當前第68頁\共有119頁\編于星期日\11點B.隨機抽取n=4的樣本M=34=81C.隨機抽取n=8的樣本M=38=656169當前第69頁\共有119頁\編于星期日\11點70當前第70頁\共有119頁\編于星期日\11點樣本平均數(shù)總體參數(shù)名詞:標準誤差:(樣本)標準誤:標準差:總體標準差σ

樣本標準差s71當前第71頁\共有119頁\編于星期日\11點正態(tài)總體及從中抽取容量n=5和n=10的樣本平均數(shù)分布曲線n愈大曲線愈高窄集中X~N(10,22)~N(10,0.892)~N(10,0.632)72當前第72頁\共有119頁\編于星期日\11點3.樣本平均數(shù)的概率計算例:設從X~N(3,0.7072)的總體中隨機抽取容量n=4的樣本,求樣本平均數(shù)落在區(qū)間(2.5,3.5)的概率。解:73當前第73頁\共有119頁\編于星期日\11點原始總體:X~N(3,0.7072)樣本平均數(shù):~N(3,0.35352)0.84280.92140.0786樣本平均數(shù)總體74當前第74頁\共有119頁\編于星期日\11點二、樣本平均數(shù)差數(shù)的分布原始總體X1x11x12x13

……..(μ1,σ12)原始總體X2

x21x22x23……(μ2,σ22)樣本平均數(shù)

樣本平均數(shù)

樣本平均數(shù)差數(shù)總體

n1n275當前第75頁\共有119頁\編于星期日\11點(1)參數(shù)A、樣本平均數(shù)差數(shù)總體的平均數(shù)等于兩個原始總體平均數(shù)之差。B、樣本平均數(shù)差數(shù)總體的方差等于兩個原始總體方差除以各自樣本容量之和。1.樣本平均數(shù)差數(shù)總體分布特征76當前第76頁\共有119頁\編于星期日\11點1.樣本平均數(shù)差數(shù)總體分布特征(2)分布性質(zhì)A、若兩個原始總體服從正態(tài)分布,則樣本平均數(shù)差數(shù)總體也服從正態(tài)分布;B、若兩個原始總體的分布不呈正態(tài),則樣本平均數(shù)差數(shù)總體的分布隨樣本容量n1,n2的增大逐漸趨近正態(tài)。77當前第77頁\共有119頁\編于星期日\11點2.樣本平均數(shù)差數(shù)的概率計算例1.5-2已知甜菜塊根蔗糖含量X服從平均數(shù)=12.2%,標準差=2.26%的正態(tài)分布,若從該總體隨機抽取容量n1=4的樣本,再從該總體抽取容量n2=6的樣本,問這兩個樣本的甜菜塊根蔗糖含量平均數(shù)之差大于-1且小于1的概率是多大?

已知:1=2==12.2;1=2==2.26,則樣本平均數(shù)差數(shù)總體的參數(shù)分別為:=NORMDIST(1,0,1.46,1)-NORMDIST(-1,0,1.46,1)=0.75-0.25=0.50兩個樣本的甜菜塊根蔗糖含量平均數(shù)之差大于-1且小于1的概率為50%。當n1=90,n2=120???78當前第78頁\共有119頁\編于星期日\11點1.t定義2.t分布概率密度函數(shù)3.t分布平均數(shù)t和方差t2三、t分布(Gosset1908)79當前第79頁\共有119頁\編于星期日\11點隨機抽樣容量為n的所有樣本原始總體

X~(μ,σ2)t總體標準正態(tài)曲線與不同自由度的t分布曲線比較80當前第80頁\共有119頁\編于星期日\11點t分布與Z分布曲線居中點高度(縱高)比較:

df=5t=0f(t)=0.3796;

df=30t=0f(t)=0.3965;

df=1000t=0f(t)=0.3989

=f(Z)n=30t分布接近標準正態(tài)分布n趨向無窮大t分布趨近標準正態(tài)分布81當前第81頁\共有119頁\編于星期日\11點4.t分布性質(zhì)(1)分布曲線左右對稱,并以t=0為中心向兩側遞降;(2)分布受自由度df=n-1制約;每一個df都有一條t分布曲線;(3)t分布曲線形狀與標準正態(tài)分布相似,但t分布曲線頂部比標準正態(tài)曲線低,兩尾比標準正態(tài)曲線高。

當df>30,t分布與標準正態(tài)曲線接近;當df,t分布與標準正態(tài)曲線重合。

82當前第82頁\共有119頁\編于星期日\11點5.給定兩尾概率的臨界t值(1)一般教科書查臨界t值表當自由度為df,兩尾概率等于P時的臨界t值,記作tα(df)t0.05(10)=2.23P(t<-2.23或t>2.23)=0.05t0.01(5)=4.032P(t<-4.032或t>4.032)=0.01t0.05(10)=2.23示意圖tf(t)00.0250.025-2.232.2383當前第83頁\共有119頁\編于星期日\11點5.給定兩尾概率的臨界t值

(2)Excel插入函數(shù)求t分布臨界值或兩尾概率TINV(Probability,Deg_freedom):給出自由度為Deg_freedom的t分布中,劃分雙尾概率為指定值Probability的臨界t值;TDIST(X,Deg_freedom,Tails):給出自由度為Deg_freedom的t分布中,t取值大于某指定正值X(tails=1)或t取值的絕對大于某指定正值X(tails=2)的概率。例如:TINV(0.05,10)=2.23表示在自由度為10的t分布中

P(t<-2.23和t>2.23)=P(t>2.23)=0.05TDIST(3,8,1)=0.0085,表示在自由度為8的t分布中

P(t<-3)=0.0085或P(t>3)=0.0085TDIST(3,8,2)=0.0171,表示在自由度為8的t分布中,

P(t<-3和t>3)=P(t

>3)=0.017184當前第84頁\共有119頁\編于星期日\11點85已知甜菜塊根蔗糖含量X服從正態(tài)分布,平均數(shù)=12.2%,若從該總體隨機抽取一個容量n=5的樣本,若該樣本的標準差S=2.4%,問該樣本平均數(shù)取得區(qū)間[11,13]值的概率?解:由于未知,而已知S=2.4%,n=5,df=5-1=4,則所以可利用t統(tǒng)計數(shù)的分布計算樣本平均數(shù)P(11<<13)=P(<t<)=P(-1.12<t<0.75)

=1-(TDIST(0.75,4,1)+TDIST(1.12,4,1))=1-(0.25+0.16)=0.59當前第85頁\共有119頁\編于星期日\11點1.定義:對于抽自正態(tài)總體X~N(μ,σ2)樣本:x1,x2,x3,……,xn

令(1)n個獨立正態(tài)離差的平方和定義為2:

(2)用代替μ,四、2分布則自由度df=n-1自由度df=n86當前第86頁\共有119頁\編于星期日\11點原始總體X~N(μ,2)或隨機抽樣容量為n的所有樣本87當前第87頁\共有119頁\編于星期日\11點2.

2分布概率密度函數(shù)3.2分布性質(zhì)(1)分布曲線形狀決定于自由度df,df愈小愈左偏;(2)2的定義域為(0,∞)88當前第88頁\共有119頁\編于星期日\11點4.給定右尾概率的臨界2值(1)一般教科書查臨界2值(附表3P305)

自由度為df,給定右尾概率為α時的臨界

2值,記作2α(df)20.05(3)=7.815P(2>7.815)=0.0520.01(3)=11.345P(2>11.345)=0.0120.05(20)=31.410P(2>31.410)=0.0520.01(20)=37.566P(2>37.566)=0.0189當前第89頁\共有119頁\編于星期日\11點4.給定右尾概率的臨界2值(2)Excel插入函數(shù)求臨界2值或右尾概率CHIINV(Probability,Deg_freedom):給出特定自由度Deg_freedom的2分布中,劃分右尾概率為指定值Probability的臨界2值;CHIDIST(X,Deg_freedom):給出特定自由度Deg_freedom的2分布中,2取值大于指定值X的概率。例如:CHIINV(0.05,12)=21.03,表示在自由度為12的2分布中,P(2>21.03)=0.05CHIDIST(20,12)=0.029,表示在自由度為12的2分布中,P(2>20)=0.029。90當前第90頁\共有119頁\編于星期日\11點f(2)20.05(8)=CHIINV(0.05,8)=15.51示意圖20.0515.1591當前第91頁\共有119頁\編于星期日\11點1.F定義:

原始:

兩個抽自同一正態(tài)總體的樣本2除以各自的自由度之比值

引申:

兩個抽自同一正態(tài)總體的樣本方差s2之比值。五、F分布X~N(,2)樣本1n1,df1樣本2n2,df292當前第92頁\共有119頁\編于星期日\11點2.F分布特征(1)概率密度函數(shù)(2)參數(shù):df1=n1-1分子方差自由度

df2=n2-1分母方差自由度

(3)形狀:左偏(決定于自由度,自由度越小越左偏)93當前第93頁\共有119頁\編于星期日\11點94當前第94頁\共有119頁\編于星期日\11點3.給定右尾概率的臨界F值——F(df1,df2)(1)一般教科書查臨界臨界F值表(附表4,P306)

分子、分母方差的自由度為df1,df2

右尾概率分別為0.25,0.10,0.05,0.01時的臨界F值記作:F(df1,df2)F0.05(3,3)=9.28P(F>9.28)=0.05F0.01(3,3)=29.46P(F>29.46)=0.01Excel粘貼函數(shù)

FINV(Probability,df1,df2)95當前第95頁\共有119頁\編于星期日\11點3.給定右尾概率的臨界F值——F(df1,df2)(2)Excel插入函數(shù)求臨界F值及右尾概率FINV(Probability,Deg_freedom1,Deg_freedom2):給出在特定自由度Deg_freedom1和Deg_freedom2的F分布中,劃分右概率為指定值Probability的臨界F值FDIST(X,Deg_freedom1,Deg_freedom2):給出在特定自由度Deg_freedom1和Deg_freedom2的F分布中,F(xiàn)取值大于某指定正值X的概率。例如,F(xiàn)INV(0.05,3,10)=3.71:表示在自由度df1=3和df2=10的F分布中,

P(F>3.713)=0.05FDIST(5,2,6)=0.053,表示在自由度df1=2和df2=3的F分布中,

P(F>5)=0.053。96當前第96頁\共有119頁\編于星期日\11點f(F)FDIST(2.6,

5,10)=0.093示意圖F0.0932.697當前第97頁\共有119頁\編于星期日\11點名稱定義臨界值概率樣本平均數(shù)NORMINV(,,

)NORMDIST(X,,,1)兩樣本平均數(shù)差數(shù)tTINV(,df)兩尾概率TDIST(X,df,1)單側概率TDIST(X,df,2)雙側概率2CHIINV(,df)右尾概率CHIDIST(X,df)右尾概率FFINV((,df1,df2)右尾概率FDIST(X,df1,df2)右尾概率抽樣分布概率計算插入函數(shù)匯總98當前第98頁\共有119頁\編于星期日\11點第四節(jié)統(tǒng)計假設檢驗原理

一、試驗結果直觀分析及存在問題5種添加劑對蛋糕品質(zhì)影響試驗結果99當前第99頁\共有119頁\編于星期日\11點直觀分析結論:添加劑4>添加劑3>添加劑2>添加劑1>添加劑5

直觀分析存在問題:處理平均數(shù)間變異:

Max./Min=7/3=2.33(倍)相同處理重復間變異:

Max./Min=9/3=3(倍)相同處理重復間變異程度>處理平均數(shù)間變異程度直觀分析結論可靠性不足!100當前第100頁\共有119頁\編于星期日\11點1、試驗數(shù)據(jù)波動原因1.處理效應—試驗處理(條件)不同造成的試驗數(shù)據(jù)波動

——表現(xiàn)為處理平均數(shù)間的變異2.試驗誤差—試驗過程中的未控因素及偶然因素造成的試驗數(shù)據(jù)波動

——表現(xiàn)為:處理內(nèi)部觀測值間的變異處理平均數(shù)間的變異處理內(nèi)部觀測值間的變異程度

——反映了試驗誤差大小處理平均數(shù)間的變異程度

——反映了處理效應與試驗誤差大小101當前第101頁\共有119頁\編于星期日\11點2、統(tǒng)計假設檢驗的任務根據(jù)試驗(樣本)數(shù)據(jù),采用各種統(tǒng)計分析方法,判別處理效應是否存在—顯著性

統(tǒng)計假設檢驗——顯著性檢驗102當前第102頁\共有119頁\編于星期日\11點二統(tǒng)計假設檢驗的原理與方法一、統(tǒng)計假設檢驗的原理——小概率原理人們在長期的實踐中總結出一個原理:一個事件如果發(fā)生的概率很小的話,那么可認為它在一次實驗中是不會發(fā)生的。數(shù)學上稱之小概率原理

把小概率事件在一次試驗中看成是實際不可能發(fā)生的事件。

小概率事件的實際不可能性原理。103當前第103頁\共有119頁\編于星期日\11點EX1據(jù)歷年資料,已知某小麥品種的千粒重平均為36g,標準差為2g。若在小麥灌漿期噴施KH2PO4作根外追肥,收獲后測得9個樣品的平均千粒重為37g,問根外追肥對提高小麥千粒重是否有效?直觀判斷:

樣本平均:37g總體平均:36gKH2PO4根外追肥增產(chǎn):37-36=1g結論:小麥灌漿期KH2PO4根外追肥,使小麥千粒重增加1克104當前第104頁\共有119頁\編于星期日\11點小麥總體(千粒重)=36g,=2g獲得該樣本的概率多大?假定:根外追肥無效

37-36=1屬于抽樣誤差來自原總體的1個樣本105當前第105頁\共有119頁\編于星期日\11點抽樣分布情形:

已知:小麥千粒重總體:X~N(μ=36,σ=2)

隨機抽取n=9的所有樣本,則:樣本平均數(shù)總體:

Excell插入函數(shù):

NORMINV(0.025,36,0.6667)=34.7NORMINV(0.975,36,0.6667)=37.3106當前第106頁\共有119頁\編于星期日\11點95%372.5%2.5%平均數(shù)為37的樣本是原總體大概率樣本107當前第107頁\共有119頁\編于星期日\11點

樣本平均數(shù)37-總體平均數(shù)36=1克這1g之差屬于抽樣誤差,而非跟外追肥的效應

推斷:試條件下,小麥灌漿期進行KH2PO4根外追肥對提高小麥千粒重的效應并不顯著。

108當前第108頁\共有119頁\編于星期日\11點EX2據(jù)歷年資料,已知某小麥品種的千粒重平均為36g,標準差為2g。若在小麥灌漿期噴施KH2PO4作根外追肥,收獲后測得9個樣品的平均千粒重為37.6g,問根外追肥對提高小麥千粒重是否有效?樣本平均數(shù)37.6-總體平均數(shù)36=1.6克這1.6g之差屬于抽樣誤差的概率小于0.05,根據(jù)小概率原理,推斷:根外追肥的對提高小麥千粒重的效應顯著109當前第109頁\共有119頁\編于星期日\11點95%37.62.5%2.5%平均數(shù)為37.6的樣本是原總體小概率樣本110當前第110頁\共有119頁\編于星期日\11點二、統(tǒng)計假設檢驗的一般步驟1.提出無效假設H0及備擇假設HA無效假設H0:試驗實得差異系隨機誤差備擇假設HA:跟無效假設H0對立,在H0被否定時準備接受的假設

例:H0:μ=36,H

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論