統(tǒng)計學(xué)的基礎(chǔ)知識演示文稿_第1頁
統(tǒng)計學(xué)的基礎(chǔ)知識演示文稿_第2頁
統(tǒng)計學(xué)的基礎(chǔ)知識演示文稿_第3頁
統(tǒng)計學(xué)的基礎(chǔ)知識演示文稿_第4頁
統(tǒng)計學(xué)的基礎(chǔ)知識演示文稿_第5頁
已閱讀5頁,還剩106頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計學(xué)的基礎(chǔ)知識演示文稿本文檔共111頁;當(dāng)前第1頁;編輯于星期三\14點41分優(yōu)選統(tǒng)計學(xué)的基礎(chǔ)知識本文檔共111頁;當(dāng)前第2頁;編輯于星期三\14點41分統(tǒng)計學(xué)—statistics統(tǒng)計學(xué)是收集、分析、解釋與報告數(shù)據(jù)資料的一門科學(xué)?!癮sciencedealingwiththecollection,analysis,interpretationandpresentationofmassesofnumericaldata”.

----Webster國際大辭典本文檔共111頁;當(dāng)前第3頁;編輯于星期三\14點41分第一節(jié)統(tǒng)計學(xué)的一些基本概念1.總體與樣本2.變量與隨機(jī)變量3.同質(zhì)與變異4.參數(shù)與統(tǒng)計量5.誤差與錯誤6.準(zhǔn)確性與精確性本文檔共111頁;當(dāng)前第4頁;編輯于星期三\14點41分1.總體與樣本

Populationandsample樣本:從總體中隨機(jī)抽取的部分觀察單位。如某單位男士的身高總體:根據(jù)研究目的確定的同質(zhì)研究對象的全體(集合)。如成年人的身高。分有限總體與無限總體本文檔共111頁;當(dāng)前第5頁;編輯于星期三\14點41分從總體中得到樣本的方法:抽樣。(抽樣方法與樣本量)從樣本推論總體的方法:統(tǒng)計推斷(區(qū)間估計,假設(shè)檢驗等)抽樣與推斷本文檔共111頁;當(dāng)前第6頁;編輯于星期三\14點41分變量——可以測量的任何特征或?qū)傩浴nycharacteristicorattributethatcanbemeasured。如熱量值、蛋白質(zhì)含量、碳水化合物含量。隨機(jī)變量——在概率論中稱變量為隨機(jī)變量2、變量與隨機(jī)變量Variableandrandomvariable本文檔共111頁;當(dāng)前第7頁;編輯于星期三\14點41分3、變量(隨機(jī)變量)的分類離散型變量(discretevariable):

計數(shù)資料(15,17,24,…)連續(xù)性變量(continuousvariable):

計量資料(1.65,1.73,1.77,…)有序變量(ordinalvariable):

等級資料(優(yōu)、良、中、差)本文檔共111頁;當(dāng)前第8頁;編輯于星期三\14點41分4.參數(shù)與統(tǒng)計量Parameterandstatistic參數(shù):總體的統(tǒng)計指標(biāo),如總體均數(shù)、標(biāo)準(zhǔn)差,采用希臘字母分別記為μ、σ。通常是固定的常數(shù)。總體樣本抽樣

統(tǒng)計量

參數(shù)

推斷統(tǒng)計量:樣本的統(tǒng)計指標(biāo),如樣本均數(shù)、標(biāo)準(zhǔn)差,采用拉丁字母分別記為。參數(shù)附近波動的隨機(jī)變量。本文檔共111頁;當(dāng)前第9頁;編輯于星期三\14點41分誤差與錯誤

Errorandmistake誤差:試驗中不可控因素所引起的實際觀察值與客觀真實值(真值)之差系統(tǒng)誤差systematicerror隨機(jī)誤差randomerror錯誤:試驗過程中,人為作用引起的差錯如藥品稱量錯誤,數(shù)據(jù)錄入錯誤等本文檔共111頁;當(dāng)前第10頁;編輯于星期三\14點41分誤差(Error)測量值=真值+隨機(jī)誤差+非隨機(jī)誤差

Xi=i+i

1.隨機(jī)誤差(抽樣誤差):影響因素眾多,變化無方向性,不可避免,但可用統(tǒng)計方法進(jìn)行分析。

2.系統(tǒng)誤差受確定因素影響,大小變化有方向性。

3.非系統(tǒng)誤差(錯誤)研究者偶然失誤而造成的誤差。偏差bias可以避免本文檔共111頁;當(dāng)前第11頁;編輯于星期三\14點41分6.

準(zhǔn)確性與精確性準(zhǔn)確度(accuracy)或真實性(validity):觀察值與真值的接近程度,受系統(tǒng)誤差的影響(常用指標(biāo):如靈敏度、特異性)。精密度(precision)、也稱可靠度(reliability)或重復(fù)性(repeatability):重復(fù)觀察時觀察值與其均值的接近程度,受隨機(jī)誤差的影響(常用指標(biāo):一致百分率、Kappa值)。本文檔共111頁;當(dāng)前第12頁;編輯于星期三\14點41分系統(tǒng)誤差使數(shù)據(jù)偏離了其理論值,影響數(shù)據(jù)的準(zhǔn)確度。隨機(jī)誤差使數(shù)據(jù)相互分散,影響了數(shù)據(jù)的精密度。準(zhǔn)確度和精密度都好準(zhǔn)確度差、精密度好準(zhǔn)確度?精密度差準(zhǔn)確度和精密度都差本文檔共111頁;當(dāng)前第13頁;編輯于星期三\14點41分第二節(jié)計量資料的統(tǒng)計描述

連續(xù)型變量(可測量的變量)頻數(shù)表與頻數(shù)分布平均指標(biāo)(算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)、眾數(shù))變異指標(biāo)(極差、百分位數(shù)與四分位間距、方差、標(biāo)準(zhǔn)差、變異系數(shù))本文檔共111頁;當(dāng)前第14頁;編輯于星期三\14點41分一、頻數(shù)表與頻數(shù)分布

(frequencytableandfrequencydistribution)本文檔共111頁;當(dāng)前第15頁;編輯于星期三\14點41分160名正常成年女子的

血清甘油三酯(mmol/L)

編號血清甘油三脂編號血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77本文檔共111頁;當(dāng)前第16頁;編輯于星期三\14點41分組段(1)劃記(2)頻數(shù),f(3)組中值,X(4)0.5~

30.550.6~正90.650.7~正正120.750.8~正正130.850.9~正正正170.951.0~正正正181.051.1~正正正正201.151.2~正正正181.251.3~正正正171.351.4~正正131.451.5~正91.551.6~正81.651.7~1.8

合計

31.75160本文檔共111頁;當(dāng)前第17頁;編輯于星期三\14點41分男子血清總膽固醇水平(mmol/L)Stem-and-LeafPlotFrequencyStem&Leaf5.002.7899934.003.555555556666666677777888899999999935.004.5555555556666666667777788888889999910.005.55556778994.006.0022Stemwidth:1.00Eachleaf:1case(s)莖葉圖本文檔共111頁;當(dāng)前第18頁;編輯于星期三\14點41分二.平均指標(biāo)總稱為平均數(shù)(average)反映了資料的集中趨勢(centraltendency)。常用的有:

1.算術(shù)均數(shù)(arithmeticmean),簡稱均數(shù)(mean)

2.幾何均數(shù)(geometricmean)

3.中位數(shù)(median)

4.眾數(shù)(mode)

5.調(diào)和均數(shù)(harmonicmean)

6.截尾平均值(5%trimmedmean)本文檔共111頁;當(dāng)前第19頁;編輯于星期三\14點41分1.均數(shù)(mean)適用條件:資料呈正態(tài)或近似正態(tài)分布的資料本文檔共111頁;當(dāng)前第20頁;編輯于星期三\14點41分2.幾何均數(shù)(geometricmean)本文檔共111頁;當(dāng)前第21頁;編輯于星期三\14點41分幾何均數(shù)的適用條件與實例適用條件:呈倍數(shù)關(guān)系的等比資料或?qū)?shù)正態(tài)分布(正偏態(tài))資料;如增長速度、抗體滴度資料抗體的效價滴度的倒數(shù)分別為:10、100、1000、10000、100000,求幾何均數(shù)。此例的算術(shù)均數(shù)為22222,顯然不能代表滴度的平均水平。對于同一資料,幾何均數(shù)<均數(shù)本文檔共111頁;當(dāng)前第22頁;編輯于星期三\14點41分3.中位數(shù)(median)

中位數(shù)是將一批數(shù)據(jù)從小至大排列后位次居中的數(shù)據(jù)值,符號為Md,反映一批觀察值在位次上的平均水平。

適用條件:適合各種類型的資料。尤其適合于①大樣本偏態(tài)分布的資料;②資料有不確定數(shù)值;③資料分布不明等。

本文檔共111頁;當(dāng)前第23頁;編輯于星期三\14點41分中位數(shù)計算公式與實例先將觀察值按從小到大順序排列,再按以下公式計算:特點:僅僅利用了中間的1~2個數(shù)據(jù)本文檔共111頁;當(dāng)前第24頁;編輯于星期三\14點41分例隨機(jī)抽查了9名中學(xué)生某月的到校天數(shù)分別為12,13,14,14,15,15,15,17,

19天,求其中位數(shù)。本文檔共111頁;當(dāng)前第25頁;編輯于星期三\14點41分4.眾數(shù)(mode)出現(xiàn)次數(shù)(或頻數(shù))最多的觀察值;在頻數(shù)分布圖中對應(yīng)于高峰所在位置的觀察值。適用于大樣本;較粗糙。本文檔共111頁;當(dāng)前第26頁;編輯于星期三\14點41分均數(shù)、中位數(shù)、眾數(shù)三者關(guān)系正態(tài)分布時:均數(shù)=中位數(shù)=眾數(shù)正偏態(tài)分布時:均數(shù)>中位數(shù)>眾數(shù)負(fù)偏態(tài)分布時:均數(shù)<中位數(shù)<眾數(shù)本文檔共111頁;當(dāng)前第27頁;編輯于星期三\14點41分5、調(diào)和平均數(shù)

資料中各觀測值倒數(shù)的算術(shù)平均數(shù)的倒數(shù),稱為調(diào)和平均數(shù),記為H,即

調(diào)和平均數(shù)主要用于反映變量不同階段的平均增長率或平均規(guī)模。本文檔共111頁;當(dāng)前第28頁;編輯于星期三\14點41分某種轉(zhuǎn)基因魚不同世代魚群保種的規(guī)模分別為:F0代200尾,F(xiàn)1代400尾,F(xiàn)2代600尾;F3代900尾,F(xiàn)4代1500尾,試求其平均規(guī)模。本文檔共111頁;當(dāng)前第29頁;編輯于星期三\14點41分對于同一資料:算術(shù)平均數(shù)>幾何平均數(shù)>調(diào)和平均數(shù)上述五種平均數(shù),最常用的是算術(shù)平均數(shù)。幾種平均數(shù)之間的關(guān)系本文檔共111頁;當(dāng)前第30頁;編輯于星期三\14點41分5%trimmedmean:將一組數(shù)中去掉最小的5%數(shù)值,再去掉最大的5%,然后將剩余的90%計算平均值得出的數(shù)值。減小了極端值的影響。

截尾平均值本文檔共111頁;當(dāng)前第31頁;編輯于星期三\14點41分三.變異(variation)指標(biāo)反映數(shù)據(jù)的離散度(Dispersion)。即個體觀察值的變異程度。常用的指標(biāo)有:

1.極差(Range)

(全距)

2.百分位數(shù)與四分位數(shù)間距

PercentileandQuartilerange

3.方差

Variance

4.標(biāo)準(zhǔn)差StandardDeviation

5.變異系數(shù)

CoefficientofVariation

本文檔共111頁;當(dāng)前第32頁;編輯于星期三\14點41分1.極差(Range)(全距)優(yōu)點:簡便缺點:1.只利用了兩個極端值

2.n大,R也會大

3.不穩(wěn)定本文檔共111頁;當(dāng)前第33頁;編輯于星期三\14點41分

1.6m1.8m2.百分位數(shù)與四分位數(shù)間距

Percentileandquartilerange百分位數(shù):數(shù)據(jù)從小到大排列,在百分尺度下,所占百分比對應(yīng)的值。記為Px。四分位間距Quartilerange:QR=P75-P25四分位半間距Quartiledeviation:QD=QR/2XFrequency

25%75%本文檔共111頁;當(dāng)前第34頁;編輯于星期三\14點41分3.方差

方差(variance)也稱均方差(meansquaredeviation),樣本觀察值的離均差平方和的均值。表示一組數(shù)據(jù)的平均離散情況。本文檔共111頁;當(dāng)前第35頁;編輯于星期三\14點41分4.標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差(Standarddeviation,Std,SD)即方差的正平方根;其單位與原變量X的單位相同??傮w標(biāo)準(zhǔn)差本文檔共111頁;當(dāng)前第36頁;編輯于星期三\14點41分樣本方差為什么要除以(n-1)與自由度(degreesoffreedom)有關(guān)。自由度是數(shù)學(xué)名詞,在統(tǒng)計學(xué)中,n個數(shù)據(jù)如不受任何條件的限制,則n個數(shù)據(jù)可取任意值,稱為有n個自由度。若受到k個條件的限制,就只有(n-k)個自由度了。例如一個有5個觀察值的樣本,因為受到統(tǒng)計數(shù)的約束,在5個離均差中,只有4個數(shù)值可以在一定范圍內(nèi)自由變動取值,而第五個離均差必須滿足這一限制條件。本文檔共111頁;當(dāng)前第37頁;編輯于星期三\14點41分基本概念:樣本容量及樣本個數(shù)

樣本容量(n):指一個樣本所包含的單位數(shù)。

一般將樣本單位數(shù)不少于三十個(50?)的樣本稱為大樣本,樣本單位數(shù)不到三十個的樣本稱為小樣本。

樣本個數(shù)(g):又稱樣本可能數(shù)目,是指從一個總體中抽取了多少個樣本。本文檔共111頁;當(dāng)前第38頁;編輯于星期三\14點41分基本概念:抽樣誤差

抽樣誤差:指按照隨機(jī)原則抽樣時,樣本指標(biāo)與總體指標(biāo)之間存在的誤差。主要包括:

總體平均數(shù)和樣本平均數(shù)的誤差;總體標(biāo)準(zhǔn)差和樣本標(biāo)準(zhǔn)差的誤差。本文檔共111頁;當(dāng)前第39頁;編輯于星期三\14點41分基本概念:抽樣平均誤差

為什么要研究抽樣平均誤差?

未知

實際誤差未知:

即使知道,由于樣本均值是隨機(jī)的,每次的誤差也不一樣。本文檔共111頁;當(dāng)前第40頁;編輯于星期三\14點41分均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤例如,從總體均數(shù)μ=4.136mmol/L、標(biāo)準(zhǔn)差σ=0.817mmol/L的正態(tài)分布總體N(4.136,0.8172)中,隨機(jī)抽取n人為一個樣本(n=5,10,20,30),并計算該樣本的均數(shù)、標(biāo)準(zhǔn)差。如此重復(fù)抽取1000次(g=1000),可得到1000份樣本,可得到1000份均數(shù)和標(biāo)準(zhǔn)差S。本文檔共111頁;當(dāng)前第41頁;編輯于星期三\14點41分1000份樣本的均數(shù)和標(biāo)準(zhǔn)差均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤本文檔共111頁;當(dāng)前第42頁;編輯于星期三\14點41分將這1000份樣本的均數(shù)看成新變量值,按頻數(shù)分布方法,得到這1000份樣本均數(shù)的直方圖。隨機(jī)抽樣所得1000份樣本均數(shù)的分布當(dāng)n=5時本文檔共111頁;當(dāng)前第43頁;編輯于星期三\14點41分當(dāng)n=10時本文檔共111頁;當(dāng)前第44頁;編輯于星期三\14點41分當(dāng)n=20時本文檔共111頁;當(dāng)前第45頁;編輯于星期三\14點41分當(dāng)n=30時本文檔共111頁;當(dāng)前第46頁;編輯于星期三\14點41分

1000份樣本均數(shù)的抽樣分布特點樣本含量均數(shù)均數(shù)標(biāo)準(zhǔn)差

nmeansd54.140300.36305

104.140390.25024204.138590.17849304.141730.14954

總體均數(shù)μ=4.136總體標(biāo)準(zhǔn)差σ=0.817本文檔共111頁;當(dāng)前第47頁;編輯于星期三\14點41分

1000份樣本均數(shù)的抽樣分布特點:①

1000份樣本均數(shù)中,各樣本均數(shù)間存在差異,但各樣本均數(shù)在總體均數(shù)周圍波動。②

樣本均數(shù)的分布曲線為中間高,兩邊低,左右對稱,近似服從正態(tài)分布。③

隨著樣本量增加,樣本均數(shù)的標(biāo)準(zhǔn)差明顯變?。罕疚臋n共111頁;當(dāng)前第48頁;編輯于星期三\14點41分4個抽樣實驗結(jié)果比較通過增加樣本含量n來降低抽樣誤差。本文檔共111頁;當(dāng)前第49頁;編輯于星期三\14點41分5.變異系數(shù)(Coefficientofvariation,CV)適用條件:①觀察指標(biāo)單位不同,如身高、體重②同單位資料,但均數(shù)相差懸殊均數(shù)標(biāo)準(zhǔn)差變異系數(shù)青年男子身高170cm6cm3.5%體重60kg7kg11.7%本文檔共111頁;當(dāng)前第50頁;編輯于星期三\14點41分6.數(shù)據(jù)的標(biāo)準(zhǔn)得分假定兩個水平類似的班級(一班和二班)上同一門課,但是由于兩個任課老師的評分標(biāo)準(zhǔn)不同,使得兩個班成績的均值和標(biāo)準(zhǔn)差都不一樣(SPSS數(shù)據(jù):grade.sav)。

分?jǐn)?shù)的均值標(biāo)準(zhǔn)差CV一班78.539.4312%二班70.197.0010%那么得到90分的一班的張穎是不是比得到82分的二班的劉濤成績更好呢?怎么比較才能合理呢?本文檔共111頁;當(dāng)前第51頁;編輯于星期三\14點41分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)得分均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進(jìn)行標(biāo)準(zhǔn)化,然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù)。一個標(biāo)準(zhǔn)化的方法是把原始觀測值(亦稱得分,score)和均值之差除以標(biāo)準(zhǔn)差;得到的度量稱為標(biāo)準(zhǔn)得分(standardscore,又稱為z-score)。即:本文檔共111頁;當(dāng)前第52頁;編輯于星期三\14點41分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)得分然后可以比較來自不同樣本的標(biāo)準(zhǔn)得分。這樣:張穎的標(biāo)準(zhǔn)得分為

劉濤的標(biāo)準(zhǔn)得分為

顯然如果兩個班級水平差不多,劉濤的成績應(yīng)該優(yōu)于張穎的成績;這是在標(biāo)準(zhǔn)化之前的數(shù)據(jù)中不易看到的。本文檔共111頁;當(dāng)前第53頁;編輯于星期三\14點41分原始數(shù)據(jù)是在各自的均值附近,散布也不一樣。但它們的標(biāo)準(zhǔn)得分則在0周圍散布,而且散布也差不多。實際上,任何樣本經(jīng)過這樣的標(biāo)準(zhǔn)化后,就都變換成均值為0、方差為1的樣本。標(biāo)準(zhǔn)化后不同樣本觀測值的比較只有相對意義,沒有絕對意義。本文檔共111頁;當(dāng)前第54頁;編輯于星期三\14點41分第三節(jié)計數(shù)資料的統(tǒng)計描述本文檔共111頁;當(dāng)前第55頁;編輯于星期三\14點41分按年齡(2歲一組)與職業(yè)整理年齡工人管理人員農(nóng)民商業(yè)服務(wù)無知識分子總計18

2

0

0

0

3

0

520

9

2

610

18

0

452228

71024

70111502450342852153443612650432545133703662834351034

78572483011141122

39171143214

2

314

24

3

6034

4

2

5

3

12

2

2836

2

1

1

4

5

1

1438

3

1

1

0

2

1

840

0

0

2

0

0

0

2合計

207

1411022085372061401本文檔共111頁;當(dāng)前第56頁;編輯于星期三\14點41分統(tǒng)計軟件的種類SPSS:這是一個很受歡迎的統(tǒng)計軟件;容易操作,輸出漂亮,功能齊全;對于非統(tǒng)計工作者是很好的選擇。

Excel:作為數(shù)據(jù)表格軟件,有一定統(tǒng)計計算功能;對于簡單分析比較方便;對于較復(fù)雜的分析,需要使用函數(shù),甚至根本沒有相應(yīng)的方法了。多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。本文檔共111頁;當(dāng)前第57頁;編輯于星期三\14點41分統(tǒng)計軟件的種類SAS:功能非常齊全的軟件;某些美國政府機(jī)構(gòu)認(rèn)可;需要一定的訓(xùn)練才可以使用,對于非專業(yè)統(tǒng)計人員不那么方便。

S-plus:統(tǒng)計學(xué)家喜愛的軟件;其功能齊全,具有強(qiáng)大的編程功能;專業(yè)統(tǒng)計人員可以編制自己的程序來實現(xiàn)自己的理論和方法。本文檔共111頁;當(dāng)前第58頁;編輯于星期三\14點41分統(tǒng)計軟件的種類Statistica:容易操作;統(tǒng)計資料分析、圖表、資料管理;應(yīng)用程序開發(fā)。Origin:容易操作;輸出圖形的清晰度高(很多雜志要求)。本文檔共111頁;當(dāng)前第59頁;編輯于星期三\14點41分第三節(jié)常見的概率分布

一概率的有關(guān)概念二概率分布概述三離散型隨機(jī)變量的概率分布四正態(tài)分布五常用的抽樣分布本文檔共111頁;當(dāng)前第60頁;編輯于星期三\14點41分一概率的有關(guān)概念

本文檔共111頁;當(dāng)前第61頁;編輯于星期三\14點41分

樣本的實際發(fā)生率稱為頻率。設(shè)在相同條件下,獨立重復(fù)進(jìn)行n次試驗,事件A出現(xiàn)f次,則事件A出現(xiàn)的頻率為f/n。

概率:隨機(jī)事件發(fā)生的可能性大小,用大寫的P表示;取值[0,1]。

樣本含量n越大,頻率的波動幅度越小,頻率越接近概率。頻率與概率

frequencyandprobability本文檔共111頁;當(dāng)前第62頁;編輯于星期三\14點41分必然事件P=1隨機(jī)事件0<P<1不可能事件P=0

P≤0.05(5%)或P≤0.01(1%)稱為小概率事件(習(xí)慣),統(tǒng)計學(xué)上認(rèn)為不大可能發(fā)生。隨機(jī)事件

RandomeventsCertainImpossible0.501本文檔共111頁;當(dāng)前第63頁;編輯于星期三\14點41分

概率分布:描述隨機(jī)變量值xi及這些值對應(yīng)概率P(X=xi)的表格、公式或圖形。

離散型隨機(jī)變量概率分布連續(xù)型隨機(jī)變量概率分布二概率分布概述本文檔共111頁;當(dāng)前第64頁;編輯于星期三\14點41分1.離散型隨機(jī)變量的概率分布本文檔共111頁;當(dāng)前第65頁;編輯于星期三\14點41分離散型隨機(jī)變量的概率分布(例一)抗體滴度人數(shù),x比例,f(x)1:10

1:201:401:801:1601:3201:6401:1280

合計431010111514269.058.043.145.145.159.217.203.0291.000f(x)本文檔共111頁;當(dāng)前第66頁;編輯于星期三\14點41分離散型隨機(jī)變量的概率分布(例二)N=10,π=0.2如新手上路某事件出錯的概率是0.2,連續(xù)進(jìn)行10次這樣的事件,出現(xiàn)0~10次錯誤的概率分布:本文檔共111頁;當(dāng)前第67頁;編輯于星期三\14點41分2.連續(xù)型隨機(jī)變量的概率分布與離散型變量不同的是連續(xù)型變量的取值充滿整個數(shù)值區(qū)間,無法一一列出其每一個可能值。一般將連續(xù)型隨機(jī)變量整理成頻數(shù)表,對頻數(shù)作直方圖,直方圖的每個矩形頂端連接的階梯形曲線來描述連續(xù)型變量的頻數(shù)分布。本文檔共111頁;當(dāng)前第68頁;編輯于星期三\14點41分本文檔共111頁;當(dāng)前第69頁;編輯于星期三\14點41分如果樣本量很大,組段很多,矩形頂端組成的階梯型曲線可變成光滑的分布曲線。

大多數(shù)情況下,可采用一個函數(shù)擬合這一光滑曲線。這種函數(shù)稱為概率密度函數(shù)(Probabilitydensityfunction,Pdf)。xxxfff本文檔共111頁;當(dāng)前第70頁;編輯于星期三\14點41分如果連續(xù)型隨機(jī)變量X的概率密度函數(shù)記為:則在區(qū)間[x1,x2]范圍內(nèi)的概率可由微積分函數(shù)定義本文檔共111頁;當(dāng)前第71頁;編輯于星期三\14點41分三離散型隨機(jī)變量的概率分布

離散型隨機(jī)變量的分布

1、二項分布

2、泊松分布

連續(xù)型隨機(jī)變量的分布

正態(tài)分布本文檔共111頁;當(dāng)前第72頁;編輯于星期三\14點41分毒性試驗:白鼠死亡——生存臨床試驗:病人治愈——未愈臨床化驗:血清陽性——陰性任一事件成功(A)——失?。ǚ茿)這類“成功─失敗型”試驗稱為Bernoulli試驗。1、二項分布

Binomialdistribution本文檔共111頁;當(dāng)前第73頁;編輯于星期三\14點41分Bernoulli試驗序列n次Bernoulli試驗構(gòu)成了Bernoulli試驗序列。其特點(如拋硬幣)如下:(1)每次試驗結(jié)果,只能是兩個互斥的結(jié)果之一(A或非A)。(2)每次試驗的條件不變。即每次試驗中,結(jié)果A發(fā)生的概率不變,均為π。(3)各次試驗獨立。即一次試驗出現(xiàn)什么樣的結(jié)果與前面已出現(xiàn)的結(jié)果無關(guān)。本文檔共111頁;當(dāng)前第74頁;編輯于星期三\14點41分成功次數(shù)的概率分布——二項分布例設(shè)某毒理試驗采用白鼠共3只,它們有相同的死亡概率π,相應(yīng)存活概率為1-π。記試驗后白鼠死亡的例數(shù)為X,分別求X=0、1、2和3的概率本文檔共111頁;當(dāng)前第75頁;編輯于星期三\14點41分3只白鼠各種試驗結(jié)果及其發(fā)生概率本文檔共111頁;當(dāng)前第76頁;編輯于星期三\14點41分本文檔共111頁;當(dāng)前第77頁;編輯于星期三\14點41分二項分布的概率計算=BINOMDIST(1,3,0.4,0)本文檔共111頁;當(dāng)前第78頁;編輯于星期三\14點41分π=0.5,正態(tài)π<0.5,右偏(指峰在左邊,右邊有較長的尾巴)π>0.5,左偏二項分布的特點本文檔共111頁;當(dāng)前第79頁;編輯于星期三\14點41分2、泊松分布當(dāng)二項分布中n很大,π很小時,二項分布就變成為Poisson分布,所以Poisson分布實際上是二項分布的極限分布。由二項分布的概率函數(shù)可得到泊松分布的概率函數(shù)為:本文檔共111頁;當(dāng)前第80頁;編輯于星期三\14點41分全部右偏μ越大越趨于正態(tài)PPoisson分布概率的特點本文檔共111頁;當(dāng)前第81頁;編輯于星期三\14點41分Poisson分布與

正態(tài)分布及二項分布的關(guān)系當(dāng)較小時,Poisson分布呈偏態(tài)分布,隨著增大,迅速接近正態(tài)分布,當(dāng)20時,可以認(rèn)為近似正態(tài)分布。Poisson分布是二項分布的特例,某現(xiàn)象的發(fā)生率很小,而樣本例數(shù)n很大時,則二項分布接近于Piosson分布。=n

(應(yīng)用:Poisson替代二項分布)本文檔共111頁;當(dāng)前第82頁;編輯于星期三\14點41分四正態(tài)分布

正態(tài)分布(Normaldistribution)也叫高斯分布(Gaussiandistribution),是最常見、最重要的一種連續(xù)型分布。

1、正態(tài)分布的數(shù)學(xué)形式

2、正態(tài)曲線

3、標(biāo)準(zhǔn)正態(tài)分布

4、曲線下面積本文檔共111頁;當(dāng)前第83頁;編輯于星期三\14點41分1、數(shù)學(xué)形式本文檔共111頁;當(dāng)前第84頁;編輯于星期三\14點41分2、正態(tài)曲線(normalcurve)圖形特點:鐘型中間高兩頭低左右對稱最高處對應(yīng)于X軸的值就是均數(shù)曲線下面積為1標(biāo)準(zhǔn)差決定曲線的形狀Xf(X)m本文檔共111頁;當(dāng)前第85頁;編輯于星期三\14點41分N(μ,0.52)、N(μ,12)、N(μ,22)

N(μ1

,σ2)、N(μ2

,σ2)

正態(tài)分布曲線由兩個參數(shù)決定,即總體均數(shù)μ和總體標(biāo)準(zhǔn)差σ。在σ不變的情況下,函數(shù)曲線形狀不變,若μ變大時,曲線位置向右移;若變小時,曲線位置向左移,故稱μ為位置參數(shù)。在μ不變的情況下,函數(shù)曲線位置不變,若σ變大時,曲線形狀變的越來越“胖”和“矮”;若σ變小時,曲線形狀變的越來越“瘦”和“高”,故稱σ為形態(tài)參數(shù)或變異度參數(shù)。本文檔共111頁;當(dāng)前第86頁;編輯于星期三\14點41分3、標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)離差標(biāo)準(zhǔn)正態(tài)分布:N(0,1)正態(tài)分布:本文檔共111頁;當(dāng)前第87頁;編輯于星期三\14點41分標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)實質(zhì)上就是正態(tài)分布的概率密度函數(shù)中μ=0,σ=1的情形。實質(zhì)上是作了一個坐標(biāo)軸的平移和尺度變換,使正態(tài)分布具有平均數(shù)為μ=0,標(biāo)準(zhǔn)差σ=1。這種變換稱為標(biāo)準(zhǔn)化正態(tài)變換。因此將這種具有平均數(shù)為μ=0,標(biāo)準(zhǔn)差σ=1的正態(tài)分布稱為標(biāo)準(zhǔn)正態(tài)分布,記為N(0,1)。本文檔共111頁;當(dāng)前第88頁;編輯于星期三\14點41分

4、曲線下面積u-∞累計概率分布函數(shù):本文檔共111頁;當(dāng)前第89頁;編輯于星期三\14點41分曲線下面積分布規(guī)律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%本文檔共111頁;當(dāng)前第90頁;編輯于星期三\14點41分正態(tài)分布的特征,歸納起來有兩點:對稱性(symmetry)正態(tài)峰(mesokurtosis)

偏度系數(shù)和峰度系數(shù)

skewnessandkurtosis本文檔共111頁;當(dāng)前第91頁;編輯于星期三\14點41分偏度skewness正態(tài)分布時,mean、median、mode相等本文檔共111頁;當(dāng)前第92頁;編輯于星期三\14點41分偏度系數(shù)(skewness):若分布是以平均值對稱的,則偏度=0;若分布是右偏的,則偏度系數(shù)>0;若分布是左偏的,則偏度系數(shù)<0。本文檔共111頁;當(dāng)前第93頁;編輯于星期三\14點41分峰度系數(shù)是描述隨機(jī)變量陡峭度的參數(shù),分為:正態(tài)峰、平闊峰、尖峭峰。峰度kurtosisa.尖峭峰

b.正態(tài)峰

c.平闊峰

本文檔共111頁;當(dāng)前第94頁;編輯于星期三\14點41分峰度系數(shù)(kurtosis):Skewness=.088kurtosis=-0.2215血清總膽固醇.sav本文檔共111頁;當(dāng)前第95頁;編輯于星期三\14點41分正態(tài)分布在橫軸上方均數(shù)處最高。正態(tài)分布以均數(shù)μ為中心,左右對稱。正態(tài)分布由參數(shù)μ和σ確定。

μ是位置參數(shù),當(dāng)σ不變時,μ越大,則曲線沿橫軸越向右移動;反之,μ越小,曲線沿橫軸越向左移動

σ是變異度參數(shù),當(dāng)μ不變時,σ越大,表示數(shù)據(jù)越分散,曲線越平坦;σ越小,表示數(shù)據(jù)越集中,曲線越陡峭標(biāo)準(zhǔn)正態(tài)分布曲線與X軸所圍成的面積為1。在μ±σ的區(qū)間內(nèi)占總面積的68.27%,在μ±1.96σ的區(qū)間內(nèi)占總

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論