中國(guó)礦業(yè)數(shù)理統(tǒng)計(jì)課件_第1頁(yè)
中國(guó)礦業(yè)數(shù)理統(tǒng)計(jì)課件_第2頁(yè)
中國(guó)礦業(yè)數(shù)理統(tǒng)計(jì)課件_第3頁(yè)
中國(guó)礦業(yè)數(shù)理統(tǒng)計(jì)課件_第4頁(yè)
中國(guó)礦業(yè)數(shù)理統(tǒng)計(jì)課件_第5頁(yè)
已閱讀5頁(yè),還剩101頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章數(shù)理統(tǒng)計(jì)的基本概念§2.1

引言§2.2總體、樣本與統(tǒng)計(jì)模型§2.3統(tǒng)計(jì)量和抽樣分布§2.4

χ2分布、t分布和F分布§2.5

次序統(tǒng)計(jì)量§2.6

描述性統(tǒng)計(jì)分析—總體特征的識(shí)別§2.1引言數(shù)理統(tǒng)計(jì)問(wèn)題可以分為兩大類(lèi):■如何科學(xué)地安排試驗(yàn),以獲取有效的隨機(jī)數(shù)據(jù)?!枋鼋y(tǒng)計(jì)學(xué)。如:試驗(yàn)設(shè)計(jì)、抽樣方法?!鲅芯咳绾畏治鏊@得的隨機(jī)數(shù)據(jù),對(duì)所研究的問(wèn)題進(jìn)行科學(xué)的、合理的估計(jì)和推斷,盡可能地為采取一定的決策提供依據(jù),作出精確而可靠的結(jié)論.——推斷統(tǒng)計(jì)學(xué)。如:參數(shù)估計(jì)、假設(shè)檢驗(yàn)等?!?.1引言應(yīng)用數(shù)理統(tǒng)計(jì)方法解決實(shí)際問(wèn)題的基本步驟:(1)確定研究對(duì)象、研究目的;(2)數(shù)據(jù)收集與整理;(3)數(shù)據(jù)分析;(4)應(yīng)用數(shù)據(jù)分析結(jié)果解決實(shí)際問(wèn)題?!?.2總體、樣本與統(tǒng)計(jì)模型1.總體研究對(duì)象的某項(xiàng)數(shù)量指標(biāo)值的全體稱(chēng)為總體。總體中每個(gè)研究對(duì)象(元素)稱(chēng)為樣本。例如:◆咱們班男生的身高;

◆人的體溫;

◆徐州地區(qū)下個(gè)月的氣溫;

◆徐州地區(qū)下個(gè)月的降雨量;

………………總體有限總體無(wú)限總體總體可以用一個(gè)隨機(jī)變量X

及其分布來(lái)描述。此總體就可以用隨機(jī)變量X或其分布函數(shù)例如,研究某批燈泡的壽命時(shí),這批燈泡中每個(gè)燈泡的壽命是我們所關(guān)心的指標(biāo).表示.2.樣本樣本:在總體中抽取的部分個(gè)體。樣本容量:樣本中所含個(gè)體的數(shù)目n。定義為了準(zhǔn)確地進(jìn)行判斷,對(duì)抽樣有所要求:①代表性:樣本的每個(gè)分量與總體X有相同的分布函數(shù);②獨(dú)立性:為相互獨(dú)立的隨機(jī)變量,滿足以上條件的樣本稱(chēng)為來(lái)自總體X的容量為n的一個(gè)簡(jiǎn)單隨機(jī)樣本(簡(jiǎn)稱(chēng)樣本)。樣本的一次具體實(shí)現(xiàn)稱(chēng)為樣本值。聯(lián)合分布函數(shù)為聯(lián)合概率密度為§2.3

統(tǒng)計(jì)量和抽樣分布定義1設(shè)

是來(lái)自總體X的一個(gè)樣本,為一實(shí)值連續(xù)函數(shù),其不包含任何未知參數(shù),則稱(chēng)為一個(gè)統(tǒng)計(jì)量。為的觀測(cè)值。注:仍為隨機(jī)變量。是一個(gè)數(shù)。例如總體是一個(gè)樣本,則均為統(tǒng)計(jì)量。當(dāng)未知時(shí),均不是統(tǒng)計(jì)量。當(dāng)已知時(shí),均為統(tǒng)計(jì)量。幾個(gè)常用的統(tǒng)計(jì)量1.樣本均值2.樣本方差設(shè)是來(lái)自總體X的一個(gè)樣本,3.樣本標(biāo)準(zhǔn)差4.樣本k

階原點(diǎn)矩5.樣本k

階中心矩它們的觀察值分別為:其樣本為例2

設(shè)總體X服從參數(shù)為λ的泊松分布,X的樣本為求例1

設(shè)總體X的數(shù)學(xué)期望和方差分別為是來(lái)自總體例3設(shè)的一樣本,總體的階矩存在,證明(1)(2)證

獨(dú)立且與同分布獨(dú)立且與同分布由辛欽大數(shù)定律,知§2.4

幾個(gè)常用的分布記為定義

設(shè)相互獨(dú)立,都服從正態(tài)分布N(0,1),則稱(chēng)隨機(jī)變量所服從的分布為自由度為

n

的分布.分布1.分布的概率密度為其中伽瑪函數(shù)定理1證明

當(dāng)x>0時(shí),依定義有作球坐標(biāo)變換其中該變換的Jacobi行列式為其中是的函數(shù),與r無(wú)關(guān)其中由得顯然,當(dāng)x<0時(shí),所以ξ的概率密度為相互獨(dú)立,都服從標(biāo)準(zhǔn)正態(tài)證明例1

設(shè)分布證明因?yàn)樗杂諼1,X2,…,Xn相互獨(dú)立,也相互獨(dú)立。由的定義可知且X1,X2相這個(gè)性質(zhì)叫分布的可加性。(1)

設(shè)互獨(dú)立,則分布的性質(zhì)E(X)=n,D(X)=2n(2)

若證明則所以則c

2分布的分位點(diǎn)稱(chēng)滿足條件分位點(diǎn).為分布的上的點(diǎn)對(duì)于給定的正數(shù)記作T~t(n)。所服從的分布為自由度為n的t分布.設(shè)X~N(0,1),Y~則稱(chēng)變量,且X與Y相互獨(dú)立,2.t分布t分布的概率密度為(1)設(shè)T~t(n),則(2)t分布的概率密度關(guān)于x=0對(duì)稱(chēng)t分布的性質(zhì)E(T)=0,D(T)=n/(n-2),n>2當(dāng)n充分大時(shí),其圖形類(lèi)似于標(biāo)準(zhǔn)正態(tài)分布概率密度的圖形。但對(duì)于較小的n,t分布與N(0,1)分布相差很大。(3)

t

分布的分位點(diǎn)對(duì)于給定的正數(shù),稱(chēng)滿足條件分位點(diǎn)。為分布的上的點(diǎn)設(shè)X與Y相互獨(dú)立,則稱(chēng)服從自由度為3.F

分布n1及n2的F分布,記作F~F(n1,n2)。(2)若X~F(n1,n2),則

n2>2(1)

由定義可知,~F(n2,n1)性質(zhì)n2>4(3)F

分布的分位點(diǎn)對(duì)于給定的正數(shù)稱(chēng)滿足條件分位點(diǎn).分布的上的點(diǎn)為證明:

設(shè)由定義又因?yàn)楣世?

設(shè)總體X,Y

相互獨(dú)立其樣本為試求統(tǒng)計(jì)量服從什么分布?解

由已知得所以例2

設(shè)總體X服從正態(tài)分布,其樣本為解

由已知得所以故例3

已知總體X

服從自由度為n的t

分布,求證:解

由已知得其中故所以還能得§2.5

正態(tài)總體的統(tǒng)計(jì)量的分布1.單個(gè)正態(tài)總體的統(tǒng)計(jì)量的分布定理1設(shè)X1,X2,…,Xn是取自正態(tài)總體的樣本,分別為樣本均值和樣本方差,則有⑴⑵⑶相互獨(dú)立定理2

設(shè)總體X

服從正態(tài)分布是X的樣本,分別為樣本均值和樣本方差,則有⑴⑵證明

因?yàn)槭菢颖镜木€性組合,故,標(biāo)準(zhǔn)化后可得又因?yàn)橄嗷オ?dú)立,所以也相互獨(dú)立,則由t分布的定義得2.兩個(gè)正態(tài)總體的統(tǒng)計(jì)量的分布定理3設(shè)X1,X2,…,Xn1與Y1,Y2,…,Yn2分別是來(lái)自正態(tài)總體的樣本,并且這兩個(gè)樣本相互獨(dú)立,記則有⑴⑵當(dāng)時(shí)其中例4

設(shè)總體X服從正態(tài)分布,其樣本為解

由已知得,得例5

設(shè)總體X服從正態(tài)分布,其樣本為解

由已知得查表例6

設(shè)總體X服從正態(tài)分布,其樣本為解

因?yàn)槔?

設(shè)總體X服從正態(tài)分布,其樣本為解

由已知得所以標(biāo)準(zhǔn)化得又因?yàn)楣世?

設(shè)總體X,Y

相互獨(dú)立其樣本為試求以下概率解

由已知得則所以例9一個(gè)樣本,求設(shè)是來(lái)自正態(tài)總體的(1)(2)由定理2知解

例9一個(gè)樣本,求設(shè)是來(lái)自正態(tài)總體的(1)(2)查表可得2.5次序統(tǒng)計(jì)量稱(chēng)為樣本的次序統(tǒng)計(jì)量.特別地,注稱(chēng)為極差說(shuō)明:定理1

設(shè)獨(dú)立同分布,

為其次序統(tǒng)計(jì)量,則

若F(x)具有概率密度f(wàn)(x),則X(k)的概率密度為例解樣本的分布1)樣本的頻數(shù)分布將n個(gè)樣本值按從小到大排列,把相同的數(shù)合并,并指出其頻數(shù)(樣本中各數(shù)出現(xiàn)的次數(shù))

x頻數(shù)頻率2)樣本的經(jīng)驗(yàn)分布函數(shù)樣本值

樣本值小于或等于x的個(gè)數(shù),作---樣本的經(jīng)驗(yàn)分布函數(shù)給出了在n次獨(dú)立重復(fù)試驗(yàn)中,事件出現(xiàn)的頻率,具有分布函數(shù)的一切性質(zhì)。如:非降,右連續(xù);由頻數(shù)分布知若樣本為n維r.v,那么對(duì)于每一樣本值就可作一個(gè)經(jīng)驗(yàn)分布函數(shù),故是隨機(jī)變量---n次獨(dú)立重復(fù)試驗(yàn)中,事件發(fā)生的頻率。由伯努利大數(shù)定律,這就是我們可以由樣本推斷總體的基本理論依據(jù).格列汶科進(jìn)一步證明了:當(dāng)n→∞時(shí),F(xiàn)n(x)以概率1關(guān)于x一致收斂于F(x),即這就是著名的格列汶科定理.定理告訴我們,當(dāng)樣本容量n足夠大時(shí),對(duì)所有的x,

Fn(x)與F(x)之差的絕對(duì)值都很小,這件事發(fā)生的概率為1.2.6描述性統(tǒng)計(jì)分析—總體特征的識(shí)別2.6.1描述統(tǒng)計(jì)量1、中心位置的描述2、變異性的描述3、樣本偏度系數(shù)和峰度系數(shù)■所謂描述性統(tǒng)計(jì)分析,就是對(duì)一組數(shù)據(jù)的各種特征進(jìn)行分析,以便于描述測(cè)量樣本的各種特征及其所代表的總體的特征?!雒枋鲂越y(tǒng)計(jì)分析的項(xiàng)目很多,常用的如平均數(shù)、標(biāo)準(zhǔn)差、中位數(shù)、極差、偏態(tài)程度等等。這些分析是復(fù)雜統(tǒng)計(jì)分析的基礎(chǔ)。數(shù)據(jù)分布的特征集中趨勢(shì)

(位置)偏態(tài)和峰態(tài)(形狀)離中趨勢(shì)

(分散程度)數(shù)據(jù)分布特征的測(cè)度數(shù)據(jù)特征的測(cè)度分布的形狀集中趨勢(shì)離散程度眾數(shù)中位數(shù)均值離散系數(shù)方差和標(biāo)準(zhǔn)差峰態(tài)四分位差異眾比率偏態(tài)1.中心位置的描述(1)分類(lèi)數(shù)據(jù):眾數(shù)(2)順序數(shù)據(jù):中位數(shù)和分位數(shù)(3)數(shù)值型數(shù)據(jù):均值(4)眾數(shù)、中位數(shù)和均值的比較(1)眾數(shù)(mode)■出現(xiàn)次數(shù)最多的變量值■不受極端值的影響■一組數(shù)據(jù)可能沒(méi)有眾數(shù)或有幾個(gè)眾數(shù)■主要用于分類(lèi)數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)眾數(shù)(不唯一性)■無(wú)眾數(shù)

原始數(shù)據(jù):10591268■一個(gè)眾數(shù)

原始數(shù)據(jù):659855■多于一個(gè)眾數(shù)

原始數(shù)據(jù):252828

364242(2)中位數(shù)(median)■排序后處于中間位置上的值Me50%50%■不受極端值的影響■主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類(lèi)數(shù)據(jù)■各變量值與中位數(shù)的離差絕對(duì)值之和最小,即樣本中位數(shù)定義其觀測(cè)值為(3)數(shù)值型數(shù)據(jù)的中位數(shù)

(9個(gè)數(shù)據(jù)的算例)【例】:9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排

序:75078085096010801250150016302000位置:123456789中位數(shù)

1080

(4)數(shù)值型數(shù)據(jù)的中位數(shù)(10個(gè)數(shù)據(jù)的算例)【例】:10個(gè)家庭的人均月收入數(shù)據(jù)排

序:

660

75078085096010801250150016302000位置:12345678910

(5)四分位數(shù)(quartile)排序后處于25%和75%位置上的值不受極端值的影響主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類(lèi)數(shù)據(jù)QLQMQU25%25%25%25%數(shù)值型數(shù)據(jù)的四分位數(shù)(9個(gè)數(shù)據(jù)的算例)【例】:9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):

15007507801080850960200012501630排

序:

75078085096010801250150016302000位置:123456789

數(shù)值型數(shù)據(jù)的四分位數(shù)(10個(gè)數(shù)據(jù)的算例)【例】:10個(gè)家庭的人均月收入數(shù)據(jù)排

序:

660

75078085096010801250150016302000位置:1234

5678910

均值(mean)集中趨勢(shì)的最常用測(cè)度值一組數(shù)據(jù)的均衡點(diǎn)所在體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響用于數(shù)值型數(shù)據(jù),不能用于分類(lèi)數(shù)據(jù)和順序數(shù)據(jù)簡(jiǎn)單均值與加權(quán)均值設(shè)一組數(shù)據(jù)為:x1,x2,…,xn各組的組中值為:M1,M2,…,Mk

相應(yīng)的頻數(shù)為:f1,f2,…,fk簡(jiǎn)單均值加權(quán)均值已改至此??!某電腦公司銷(xiāo)售量數(shù)據(jù)分組表按銷(xiāo)售量分組組中值(Mi)頻數(shù)(fi)Mi

fi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合計(jì)—12022200加權(quán)均值

(例題分析)加權(quán)均值(權(quán)數(shù)對(duì)均值的影響)

甲乙兩組各有10名學(xué)生,他們的考試成績(jī)及其分布數(shù)據(jù)如下

甲組:

考試成績(jī)(x): 020100

人數(shù)分布(f):118

乙組:考試成績(jī)(x): 020100

人數(shù)分布(f):811均值

(數(shù)學(xué)性質(zhì))1. 各變量值與均值的離差之和等于零

2.各變量值與均值的離差平方和最小2、變異性的描述數(shù)據(jù)分布的另一個(gè)重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度)從另一個(gè)側(cè)面說(shuō)明了集中趨勢(shì)測(cè)度值的代表程度不同類(lèi)型的數(shù)據(jù)有不同的離散程度測(cè)度值四分位差

(quartiledeviation)對(duì)順序數(shù)據(jù)離散程度的測(cè)度也稱(chēng)為內(nèi)距或四分間距上四分位數(shù)與下四分位數(shù)之差

QD

=QU–QL反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性極差(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡(jiǎn)單測(cè)度值易受極端值影響未考慮數(shù)據(jù)的分布7891078910

R

=max(xi)-min(xi)計(jì)算公式為方差和標(biāo)準(zhǔn)差

(varianceandstandarddeviation)數(shù)據(jù)離散程度的最常用測(cè)度值反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的,稱(chēng)為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱(chēng)為樣本方差或標(biāo)準(zhǔn)差4681012

x=8.3樣本方差和標(biāo)準(zhǔn)差

(simplevarianceandstandarddeviation)方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式3、樣本偏度系數(shù)和峰度系數(shù)偏度系數(shù)定義為

峰度系數(shù)定義為峰度系數(shù)主要用來(lái)反映分布的偏倚性.對(duì)于所有3階矩存在的對(duì)稱(chēng)分布,偏度系數(shù)為0.

偏度系數(shù)和峰度系數(shù)常用來(lái)衡量分布與正態(tài)分布的差異.正態(tài)分布的峰度系數(shù)都是0.樣本偏度系數(shù)和峰度系數(shù)分別定義為偏度(skewness)統(tǒng)計(jì)學(xué)家Pearson于1895年首次提出數(shù)據(jù)分布偏斜程度的測(cè)度

偏度系數(shù)=0為對(duì)稱(chēng)分布

偏度系數(shù)>0為右偏分布偏度系數(shù)<0為左偏分布偏態(tài)與峰態(tài)

(從直方圖上觀察)按銷(xiāo)售量分組(臺(tái))結(jié)論:1.為右偏分布

2.峰態(tài)適中140150210某電腦公司銷(xiāo)售量分布的直方圖190200180160170頻數(shù)(天)25201510530220230240峰度(kurtosis)統(tǒng)計(jì)學(xué)家Pearson于1905年首次提出數(shù)據(jù)分布扁平程度的測(cè)度峰度系數(shù)=0扁平峰度適中峰度系數(shù)<0為扁平分布峰度系數(shù)>0為尖峰分布扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!2.6.2總體特征的樣本表現(xiàn)1、總體分布的常見(jiàn)形態(tài)2、直方圖3、莖葉圖4、箱線圖眾數(shù)、中位數(shù)和均值的關(guān)系左偏分布均值

中位數(shù)

眾數(shù)對(duì)稱(chēng)分布

均值=中位數(shù)=

眾數(shù)右偏分布眾數(shù)

中位數(shù)均值1、總體分布的常見(jiàn)形態(tài)2、直方圖(histogram)

直方圖是利用觀測(cè)樣本對(duì)一元總體(即單個(gè)變量)的常用描述方法。當(dāng)樣本比較大時(shí),我們可以把變量的取值范圍劃分成若干個(gè)區(qū)間,計(jì)算觀測(cè)值中落入每個(gè)區(qū)間的頻率列成表格并畫(huà)出直方圖,用來(lái)推測(cè)總體分布的形。具體步驟參見(jiàn)書(shū)本例2.6.3。用矩形的寬度和高度來(lái)表示頻數(shù)分布的圖形,實(shí)際上是用矩形的面積來(lái)表示各組的頻數(shù)分布。在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖。直方圖下的總面積等于1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論