統(tǒng)計(jì)學(xué)基本概念與方法課件_第1頁
統(tǒng)計(jì)學(xué)基本概念與方法課件_第2頁
統(tǒng)計(jì)學(xué)基本概念與方法課件_第3頁
統(tǒng)計(jì)學(xué)基本概念與方法課件_第4頁
統(tǒng)計(jì)學(xué)基本概念與方法課件_第5頁
已閱讀5頁,還剩129頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2.參數(shù)估計(jì)1.預(yù)備知識(shí)3.假設(shè)檢驗(yàn)4.方差分析5.回歸分析2.參數(shù)1.預(yù)備知識(shí)3.假設(shè)4.方差5.回歸1

統(tǒng)計(jì)學(xué)(Statistics)是一門收集與分析數(shù)據(jù),并且根據(jù)數(shù)據(jù)進(jìn)行推斷的藝術(shù)與科學(xué)。

————《大英百科全書》(數(shù)理)統(tǒng)計(jì)學(xué)中的數(shù)據(jù)都是隨機(jī)數(shù)據(jù)。統(tǒng)計(jì)學(xué)的任務(wù)就是在隨機(jī)性中去尋找規(guī)律。

統(tǒng)計(jì)學(xué)理論主要包含三個(gè)部分:1.數(shù)據(jù)收集,2.數(shù)據(jù)分析,3.由數(shù)據(jù)做出決策。統(tǒng)計(jì)學(xué)(Statistics)是一門收集與分2(一).統(tǒng)計(jì)學(xué)的基本概念

統(tǒng)計(jì)學(xué)中把所研究的對(duì)象全體稱為總體,總體中的每一個(gè)元素稱為一個(gè)個(gè)體??傮w與個(gè)體都用數(shù)量指標(biāo)來表示1.總體與個(gè)體(population)

即使面臨的是一個(gè)定性的實(shí)際問題,也必須把有關(guān)的資料定量化。一.預(yù)備知識(shí)(一).統(tǒng)計(jì)學(xué)的基本概念統(tǒng)計(jì)學(xué)中把所研究的3

但同時(shí)在直觀上又認(rèn)為、或者希望做到:抽取出的每個(gè)個(gè)體(樣本)都充分蘊(yùn)涵總體信息。

從總體中取出一個(gè)個(gè)體,稱為從總體中得到一個(gè)樣本。2.樣本(sample)統(tǒng)計(jì)學(xué)的目的就是從樣本去得出總體的信息。

由于各種原因與實(shí)際條件的限制,不可能得到一個(gè)總體中所有個(gè)體的數(shù)據(jù)。即樣本總是總體的一小部分。但同時(shí)在直觀上又認(rèn)為、或者希望做到:從4被研究的對(duì)象全體具有代表性的部分個(gè)體總體樣本……..被研究的對(duì)象全體具有代表性的總體樣本……..5

獨(dú)立同分布的樣本稱為簡單隨機(jī)樣本。

總體被認(rèn)為是一個(gè)服從某種概率分布F

的隨機(jī)變量。

樣本是和總體隨機(jī)變量有相同分布F

的隨機(jī)變量,樣本的個(gè)數(shù)稱為樣本容量,n??傮w分布F可以是未知的,非參數(shù)統(tǒng)計(jì)學(xué)

總體分布F的類型已知,但是含有一些未知的參數(shù)。參數(shù)估計(jì)獨(dú)立同分布的樣本稱為簡單隨機(jī)樣本??傮w被認(rèn)為是6(二).數(shù)理統(tǒng)計(jì)學(xué)的主要內(nèi)容1.抽樣理論:介紹如何收集數(shù)據(jù)。主要抽樣方法,樣本容量的確定,抽樣誤差,敏感問題等2.參數(shù)估計(jì):如何根據(jù)數(shù)據(jù)得到總體參數(shù)信息。點(diǎn)估計(jì)、區(qū)間估計(jì),Bayes估計(jì)等3.假設(shè)檢驗(yàn):如何對(duì)關(guān)于總體的一些假設(shè)做出決策。正態(tài)總體參數(shù)的檢驗(yàn),分布擬合檢驗(yàn),秩檢驗(yàn),列聯(lián)表,統(tǒng)計(jì)決策等理論(二).數(shù)理統(tǒng)計(jì)學(xué)的主要內(nèi)容1.抽樣理論:介紹如何74.方差分析與回歸分析:變量之間的效應(yīng)關(guān)系。方差分析—分類變量與數(shù)值變量的效應(yīng)關(guān)系回歸分析—研究數(shù)值變量之間的效應(yīng)關(guān)系5.多元分析:研究若干個(gè)變量之間的關(guān)系聚類分析、判別分析、主成分分析、因子分析、典型相關(guān)分析等等4.方差分析與回歸分析:變量之間的效應(yīng)5.多元分析:8例1.1希望了解某所高校學(xué)生月消費(fèi)情況。解決方法:從這所大學(xué)里隨機(jī)地調(diào)查有代表性的一些學(xué)生,根據(jù)收集到的數(shù)據(jù)去得出這所大學(xué)學(xué)生每個(gè)月支出費(fèi)用的有關(guān)信息。1.如何得到樣本?

不同家庭背景學(xué)生的比例應(yīng)該各占多少?樣本容量應(yīng)該取多少才合適?被調(diào)查者拒絕調(diào)查怎么辦?抽樣調(diào)查例1.1希望了解某所高校學(xué)生月消費(fèi)情況。解決方法:92.如何確定總體的分布?

這里的總體是這所大學(xué)的學(xué)生月支出費(fèi)用,我們不妨認(rèn)為學(xué)生月支出費(fèi)用是一個(gè)服從正態(tài)分布的隨機(jī)變量。

根據(jù)經(jīng)驗(yàn)或者是所討論的問題的實(shí)際背景,總體的分布類型一般可以事先確定下來。(不同學(xué)校對(duì)應(yīng)的這兩個(gè)參數(shù)也就不相同)

即,總體隨機(jī)變量X~N(,2),而這個(gè)學(xué)校相應(yīng)的兩個(gè)參數(shù)與

2

是未知的。2.如何確定總體的分布?這里的總體是這所大10Remark

當(dāng)不知道或者難以確定總體的分布類型時(shí),在統(tǒng)計(jì)學(xué)中常常采用下面兩種辦法來近似得到總體分布的有關(guān)信息。(1).直方圖的方法只適用連續(xù)總體,得到的是總體密度函數(shù)近似。

把收集到的n

個(gè)數(shù)據(jù)x1,x2

,…,xn

從小到大排列:x(1)≤

x(2)

≤…≤

x(n)

;其次取區(qū)間(a,b),包含全部數(shù)據(jù)a

x(1)

,x(n)<

b

;Remark(1).直方圖的方法只適用連續(xù)11把(a,b)等分成若干小區(qū)間,計(jì)算每個(gè)小區(qū)間中包含的數(shù)據(jù)的頻率。x(1)

x(n)

根據(jù)這些頻率做出相應(yīng)的小區(qū)間上的矩形,則當(dāng)n

充分大時(shí),這些小區(qū)間上矩形的面積將近似于總體的概率密度函數(shù)下曲邊梯形的面積。把(a,b)等分成x(1)12(2).經(jīng)驗(yàn)分布函數(shù)的方法

構(gòu)造一個(gè)分布函數(shù),得到的是總體分布函數(shù)F(x)的近似。

Fn(x)=0,

x

x(1)—,x(k)<

x

x(k+1)1,x

x(n)

這個(gè)函數(shù)實(shí)際上是觀察值x1,…,xn中小于x

的頻率,即

Fn(x)={x1,…,xn中小于x

的個(gè)數(shù)}/nk

n(2).經(jīng)驗(yàn)分布函數(shù)的方法構(gòu)造一個(gè)分布13Oxy○○x(1)x(2)x(3)1/n2/n

可以證明,經(jīng)驗(yàn)分布函數(shù)Fn(x)將依概率、甚至是幾乎處處收斂到F(x)。…Oxy○○x(1)x(2)x(3)1/n2/n可以143.如何從樣本得出總體的信息?

樣本是一組與總體獨(dú)立、同分布的隨機(jī)變量,我們得到的數(shù)據(jù)是樣本觀察值,而不是樣本。

調(diào)查一個(gè)學(xué)生得到了一個(gè)數(shù)據(jù),相當(dāng)于對(duì)總體分布做了一次隨機(jī)試驗(yàn)而觀察到了這個(gè)隨機(jī)變量的具體取值。

一共有n個(gè)數(shù)據(jù),相當(dāng)于對(duì)總體分布做了n次獨(dú)立重復(fù)試驗(yàn),而得到了這個(gè)總體隨機(jī)變量在這些試驗(yàn)中的具體取值。3.如何從樣本得出總體的信息?樣本是一組與總體獨(dú)15利用樣本觀察值去估計(jì)出總體的未知參數(shù)直觀上可以利用調(diào)查到的n個(gè)學(xué)生的月支出

x1

,x2

,…,xn

的算術(shù)平均:去估計(jì)這所學(xué)校學(xué)生的平均月支出費(fèi)用。它的合理性在哪?還有沒有其它的辦法?這些不同的方法各有什么樣的優(yōu)缺點(diǎn)?數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一參數(shù)估計(jì)利用樣本觀察值去估計(jì)出總體的未知參數(shù)直觀上可以利用調(diào)查到的16

事先提出一個(gè)假設(shè),利用樣本觀察值去檢驗(yàn)這個(gè)假設(shè)是否可以被接受假設(shè)檢驗(yàn)

假定學(xué)校要制定相關(guān)一些政策,如獎(jiǎng)學(xué)金、貸款、勤工儉學(xué)等;或者后勤服務(wù)、商業(yè)經(jīng)營的價(jià)格等等。共同關(guān)心的一些問題,比如說:

>0

?這里0

是一個(gè)已知的常數(shù)。數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一事先提出一個(gè)假設(shè),利用樣本觀察值去檢驗(yàn)這個(gè)假設(shè)17應(yīng)該如何去做這個(gè)檢驗(yàn)?

一種想法是:既然已經(jīng)通過參數(shù)估計(jì)得到了這個(gè)學(xué)校學(xué)生月平均支出(即總體的參數(shù)

)的估計(jì)值,自然就可以用它代替假設(shè)里的

去做檢驗(yàn):

當(dāng)估計(jì)值比0

大就接受這個(gè)假設(shè),否則就拒絕

但是這樣的風(fēng)險(xiǎn)很大:樣本總是隨機(jī)得到的,因此估計(jì)值與真實(shí)值之間不可避免地存在著隨機(jī)誤差。

傳統(tǒng)的方法是:給出一個(gè)區(qū)域(拒絕域),如果估計(jì)值落在這個(gè)區(qū)域內(nèi),就拒絕原來的假設(shè),否則就接受。應(yīng)該如何去做這個(gè)檢驗(yàn)?一種想法是:既然已經(jīng)通過參數(shù)18

除了對(duì)總體參數(shù)的檢驗(yàn)外,還有一些重要的假設(shè)檢驗(yàn)問題,例如:關(guān)于總體分布的檢驗(yàn)

檢驗(yàn)得到的樣本數(shù)據(jù)是不是來自于某個(gè)事先給出的總體獨(dú)立性的檢驗(yàn)

檢驗(yàn)一些分類變量之間是否是獨(dú)立的,例如:抽煙與肺癌,睡覺打鼾與心臟病…分布擬合檢驗(yàn)除了對(duì)總體參數(shù)的檢驗(yàn)外,還有一些重要的假設(shè)19關(guān)于數(shù)據(jù)差異的檢驗(yàn)

主要希望了解兩組或多組數(shù)據(jù)間的差異究竟是來自于隨機(jī)性,還是總體間的確存在差異?例如:小兒麻痹癥、SARS疫苗的研制,越戰(zhàn)期間美國的征兵計(jì)劃,

…以及我們?cè)诳茖W(xué)研究、工程實(shí)踐、社會(huì)調(diào)查等等得到的數(shù)據(jù)關(guān)于數(shù)據(jù)差異的檢驗(yàn)主要希望了解兩組或多組數(shù)據(jù)間的差20討論數(shù)值變量之間的效應(yīng)關(guān)系問題比如說,想了解兒子身高與父親身高之間的關(guān)系。在每個(gè)被調(diào)查的家庭中同時(shí)獲得這兩個(gè)變量的觀察值,分析它們是否有某種(函數(shù))關(guān)系,…一元線性回歸多元線性回歸

例如,鋼的去碳量與不同礦石、融化時(shí)間、煉鋼爐體積等等是否有關(guān)?關(guān)系如何?…數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一回歸與相關(guān)分析討論數(shù)值變量之間的效應(yīng)關(guān)系問題比如說,想了解兒子身高與父親身21討論分類變量與數(shù)值變量之間的關(guān)系

比如說產(chǎn)品質(zhì)量與不同操作人員之間的關(guān)系。是否某些人生產(chǎn)出的產(chǎn)品質(zhì)量偏高?如果偏高,這種差異是否是純屬偶然原因,…單因素方差分析數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一方差分析雙因素方差分析

希望了解操作人員和設(shè)備這兩個(gè)因素聯(lián)合對(duì)質(zhì)量的關(guān)系。各自單獨(dú)是否有影響?交互效應(yīng)如何?…討論分類變量與數(shù)值變量之間的關(guān)系比如說產(chǎn)品質(zhì)量與不同操作22簡單的說,從概率論的角度出發(fā),可以把上述數(shù)理統(tǒng)計(jì)學(xué)的過程理解成:有一個(gè)含有未知信息的概率分布F針對(duì)F做了n次獨(dú)立重復(fù)的試驗(yàn)與觀察,得到n個(gè)獨(dú)立同分布于F的隨機(jī)變量的取值根據(jù)樣本的具體觀察值,去推斷出總體F所包含的未知信息,或作出進(jìn)一步的決策等簡單的說,從概率論的角度出發(fā),有一個(gè)含有未知信息的概率分布23例1.2.如何分析與處理變量的關(guān)系?分類變量:如性別、信仰、職業(yè)等等,順序變量:如名次(第一、第二,…),數(shù)值變量:如收入、比例、產(chǎn)量等等簡單復(fù)雜Remark

可以把復(fù)雜的變量簡化為簡單變量,反之不行數(shù)值變量順序變量分類變量例1.2.如何分析與處理變量的關(guān)系?分類變量:如性別24變量組合與相應(yīng)的統(tǒng)計(jì)分析方法因變量y

自變量x

分類變量順序變量數(shù)值變量分類變量卡方分析回歸與相關(guān)順序變量秩方法數(shù)值變量方差分析回歸與相關(guān)變量組合與相應(yīng)的統(tǒng)計(jì)分析方法因變量y25把兩個(gè)變量分別作為橫軸和縱軸描出散點(diǎn)

散點(diǎn)圖(Scatterplot)

散點(diǎn)圖在簡化數(shù)據(jù)的同時(shí),能夠保留原始數(shù)據(jù)的信息。(三).變量的統(tǒng)計(jì)圖表示把兩個(gè)變量分別作為橫軸和縱軸描出散點(diǎn)散點(diǎn)圖(Scatter26例1.3.

下面是24對(duì)夫妻的數(shù)據(jù),有兩個(gè)變量:結(jié)婚時(shí)間和一年內(nèi)的吵架次數(shù)。結(jié)婚年數(shù)524136583739爭吵次數(shù)10201615968510786

結(jié)婚年數(shù)101513201625221415191720爭吵次數(shù)534241334332例1.3.結(jié)婚年數(shù)524127結(jié)婚時(shí)間與吵架次數(shù)的散點(diǎn)圖結(jié)婚時(shí)間與吵架次數(shù)的散點(diǎn)圖28(2).時(shí)間序列圖特殊散點(diǎn)圖,以時(shí)間作為橫軸的變量

時(shí)間序列圖能夠反映出一個(gè)變量隨著時(shí)間而變化的趨勢(shì)。(2).時(shí)間序列圖特殊散點(diǎn)圖,以時(shí)間作為橫軸的變量29蘇格蘭羊蘇格蘭羊30

總體X的分布函數(shù)F含有未知的參數(shù),所有可能的取值范圍稱為“參數(shù)空間”,記為。從這個(gè)總體中抽取了一組樣本X1,…,Xn,相應(yīng)的樣本觀察值是

x1,…,xn。應(yīng)該如何估計(jì)出的具體數(shù)值?

點(diǎn)估計(jì)就是利用樣本構(gòu)造一個(gè)合理的統(tǒng)計(jì)量:

g(X1,…,Xn);用它的觀察值g(x1,…,xn)

去作為作為的估計(jì)值。

二.參數(shù)估計(jì)總體X的分布函數(shù)F含有未知的參數(shù)31

你可以用這組數(shù)據(jù)中的任何一個(gè),或者樣本均值,或者是樣本中位數(shù)等,作為的估計(jì)值。例2.1甲同學(xué)在一個(gè)體重儀上稱她的體重,假定這個(gè)體重儀沒有系統(tǒng)誤差,每次稱量的結(jié)果是真實(shí)重量加上一個(gè)隨機(jī)誤差k。一般認(rèn)為

k~N(0,2),因此n

次稱量的結(jié)果

Xk

=

+k~N(,2)你可以用這組數(shù)據(jù)中的任何一個(gè),或者樣本例2.1甲32矩估計(jì):用樣本的有關(guān)矩去作為總體有關(guān)矩的估計(jì)。即樣本均值作為總體期望的估計(jì);樣本方差作為總體方差的估計(jì);樣本中位數(shù)

(或眾數(shù))作為總體中位數(shù)(或眾數(shù))的估計(jì)等。極大似然估計(jì):所有情況中“看起來最象”的那個(gè)估計(jì)常用的點(diǎn)估計(jì)方法矩估計(jì):用樣本的有關(guān)矩去作為總體有關(guān)矩的極大似然估計(jì):常用33例2.2.假定盒子里黑、白球共5個(gè),但是不知道黑球具體數(shù)目?,F(xiàn)在隨機(jī)有放回抽取

3個(gè)小球,發(fā)現(xiàn)是兩個(gè)黑球和一個(gè)白球。問盒子里最可能有幾個(gè)黑球?解:盒子里黑白球所有的可能有六種:

5白,4白1黑、3白2黑,2白3黑,1白4黑,5黑

以p記盒子里黑球所占的比例,則p全部可能的值是:

{0,—,—,—,—,1}

1234

5

555例2.2.假定盒子里黑、白球共5個(gè),但是解:34

定義三個(gè)統(tǒng)計(jì)量X1,X2,X3表示抽樣結(jié)果:取到黑球記為1,否則記為0。因此X1,X2,X3獨(dú)立同分布于參數(shù)p

的兩點(diǎn)分布。例題中的三個(gè)樣本觀察值x1,x2,x3有兩個(gè)取值是1,一個(gè)取值為0。而樣本的聯(lián)合分布律顯然是L(x,

p)=px1+x2+x3(1-p)3-x1-x2-x3=p2(1-p)定義三個(gè)統(tǒng)計(jì)量X1,X2,X3表示抽樣結(jié)果:而樣35

它的含義是:當(dāng)盒中黑球比例為p

時(shí),隨機(jī)事件“有放回取出的三個(gè)小球中有兩個(gè)黑球、一個(gè)白球”的概率。

對(duì)應(yīng)于參數(shù)空間中不同的p

,樣本分布L(x,

p)=p2(1-p)所對(duì)應(yīng)的這些概率是:它的含義是:當(dāng)盒中黑球比例為p時(shí),36□

p

0,—,—,—,—,1L(x,p)0,—,—,—,—,0

1234

5

555

4121816

125

125125125

既然“三個(gè)小球中包含兩個(gè)黑球”是已經(jīng)發(fā)生了的隨機(jī)事件,因此使得這個(gè)事件發(fā)生概率取最大的那個(gè)值就是未知參數(shù)p

最有可能的取值。即p

的極大似然估計(jì)就是3/5?!鮬0,—,—,37三.假設(shè)檢驗(yàn)(一).假設(shè)檢驗(yàn)的思想它是如下的一種統(tǒng)計(jì)推斷:

對(duì)于一個(gè)統(tǒng)計(jì)模型,我們提出一個(gè)假設(shè),根據(jù)抽取到的樣本,來作出是接受還是拒絕這個(gè)假設(shè)。小概率事件在一次試驗(yàn)中不應(yīng)該發(fā)生。三.假設(shè)檢驗(yàn)(一).假設(shè)檢驗(yàn)的思想它是如下的一種統(tǒng)計(jì)38

有一種飲料由Tea和Milk混合而成,按照順序的不同,分為TM、MT兩種,有位女士聲稱她有能力品嘗出是TM還是MT。

為了檢驗(yàn)她的說法是否可信,準(zhǔn)備8杯飲料,TM和MT各一半,并且把這一點(diǎn)告訴她。現(xiàn)在隨機(jī)的讓這位女士品嘗,指出哪些是TM,最終的結(jié)果是她全部說對(duì)了。女士品茶有一種飲料由Tea和Milk混合而39R.A.Fisher的推理過程如下:引進(jìn)一個(gè)假設(shè),H0

:這位女士沒有鑒別能力

如果H0

是正確的,她只能隨機(jī)從8杯飲料中猜測(cè)4杯說是TM。全部猜對(duì)的概率為:

—=—≈0.014

現(xiàn)在她正確的說出了全部的TM,要解釋這種現(xiàn)象,只能有下面兩種可能:

11

C8470R.A.Fisher的推理過程如下:引進(jìn)一個(gè)假設(shè),H40H0

不成立,即:她的確有鑒別能力;(2)H0

成立,意味著一件概率為0.014的隨機(jī)事件在一次試驗(yàn)中發(fā)生了。Fisher認(rèn)為,隨機(jī)試驗(yàn)的結(jié)果(或樣本)構(gòu)成不利于假設(shè)H0

的顯著性證據(jù),因此應(yīng)該否定H0

。這種推理過程就稱為:顯著性檢驗(yàn)

顯著性是統(tǒng)計(jì)意義上的顯著,意思是一個(gè)小概率事件是否發(fā)生。

一個(gè)概率不到2%的隨機(jī)事件在一次試驗(yàn)中發(fā)生了,這是比較稀奇或者說不太可能的。H0不成立,即:她的確有鑒別能力;Fisher41思考假如這位女士只說對(duì)了3杯?

一個(gè)人純粹靠隨機(jī)的猜測(cè),能夠說對(duì)至少3杯的概率(即H0

成立的情況下,出現(xiàn)這種試驗(yàn)結(jié)果的可能性):

————=—≈0.243

顯然我們不會(huì)對(duì)一個(gè)概率接近25%的隨機(jī)事件在一次試驗(yàn)中發(fā)生而感到驚訝。試驗(yàn)結(jié)果并沒有提供不利于H0

的顯著性證據(jù),因此不能否定零假設(shè),而應(yīng)該接受H0

,即應(yīng)該認(rèn)為這位女士沒有鑒別能力。

1+C43C4117

C8470思考假如這位女士只說對(duì)了3杯?42(二).假設(shè)檢驗(yàn)的基本過程例3.2.當(dāng)包裝機(jī)器正常工作時(shí),每袋葡萄糖的重量應(yīng)該是一個(gè)服從均值0.5kg,標(biāo)準(zhǔn)差

0.015kg的隨機(jī)變量。有一天隨機(jī)地抽取了

9袋包裝好的產(chǎn)品,測(cè)量出它們的平均重量是0.511kg,問這臺(tái)包裝機(jī)器是否正常工作?(假定即使工作異常標(biāo)準(zhǔn)差也不會(huì)改變)(二).假設(shè)檢驗(yàn)的基本過程例3.2.當(dāng)包裝機(jī)器正常431.提出一個(gè)統(tǒng)計(jì)假設(shè)

根據(jù)題意每袋產(chǎn)品重量X~N(,0.0152),如果機(jī)器正常工作,應(yīng)該是

=0.5,反之應(yīng)該是≠0.5。因此首先提出統(tǒng)計(jì)假設(shè):

假設(shè)檢驗(yàn)的任務(wù)就是要根據(jù)抽取出的樣本,來決定是接受零假設(shè),還是拒絕零假設(shè)(接受對(duì)立假設(shè))。H0:

=0

(=0.5

)

H1:

0

(≠0.5

)1.提出一個(gè)統(tǒng)計(jì)假設(shè)根據(jù)題意每袋產(chǎn)品重量X442.選取一個(gè)合適的檢驗(yàn)統(tǒng)計(jì)量

它的分布當(dāng)零假設(shè)成立時(shí)應(yīng)該是已知的,而且一般是從待檢驗(yàn)的總體參數(shù)的良好的點(diǎn)估計(jì)中去尋找。

在例題中需要檢驗(yàn)的是總體期望

,因此考慮樣本均值,零假設(shè)成立時(shí)(=0.5

)則有:2.選取一個(gè)合適的檢驗(yàn)統(tǒng)計(jì)量它的分布當(dāng)零假設(shè)成453.利用零假設(shè)成立時(shí)檢驗(yàn)統(tǒng)計(jì)量的分布構(gòu)造出一個(gè)小概率事件

這個(gè)小概率就是給定的顯著性水平(也稱檢驗(yàn)水平),而這個(gè)小概率事件就是零假設(shè)的拒絕域,并且拒絕域必須和對(duì)立假設(shè)有關(guān):零假設(shè)的拒絕域相當(dāng)于對(duì)立假設(shè)的接受域。

在例題中由于樣本均值是總體期望

的一個(gè)良好的點(diǎn)估計(jì),因此零假設(shè)成立(=0.5)時(shí),偏差應(yīng)該比較小,不能夠太大。3.利用零假設(shè)成立時(shí)檢驗(yàn)統(tǒng)計(jì)量的這個(gè)46

而如果比較大時(shí),自然我們會(huì)認(rèn)為零假設(shè)不成立,所以應(yīng)該接受對(duì)立假設(shè)。所以零假設(shè)(=0.5)的拒絕域的形式就是:根據(jù)檢驗(yàn)統(tǒng)計(jì)量的分布,有:這個(gè)常數(shù)z0

就可以取為u/2

統(tǒng)計(jì)量|

z|=>某個(gè)常數(shù)z0而如果比較大時(shí)474.代入樣本觀察值,如果使得這個(gè)小概率事件發(fā)生,就否定零假設(shè)而去接受對(duì)立假設(shè)。否則說明樣本沒有提供否定零假設(shè)的顯著性證據(jù),因此應(yīng)該接受零假設(shè)。

在這個(gè)例題里,檢驗(yàn)統(tǒng)計(jì)量

|z|=————=2.2,

H0:

=0

(=0.5

)

H1:

0

(≠0.5

)的顯著水平的拒絕域就是{2.2>u/2}。

3×0.0110.015假設(shè)檢驗(yàn)?zāi)J(rèn)的顯著水平是

=0.054.代入樣本觀察值,如果使得這個(gè)小概率在這個(gè)例48(1)如果取

=0.05,則2.2>常數(shù)z0=1.96,說明一個(gè)概率為0.05的隨機(jī)事件發(fā)生了,樣本提供了機(jī)器異常的顯著證據(jù),應(yīng)該否定零假設(shè);(2)如果取

=0.01,則2.2<常數(shù)z0=2.575,說明一個(gè)概率0.01的隨機(jī)事件沒有發(fā)生,樣本沒有提供機(jī)器異常的顯著證據(jù),應(yīng)該接受零假設(shè)。

在不同的顯著水平下,可以導(dǎo)致最終得出的檢驗(yàn)結(jié)論完全不同。這個(gè)現(xiàn)象說明了顯著水平對(duì)于H0的保護(hù):越小越不容易否定零假設(shè)?!?1)如果取=0.05,則2.2>常數(shù)z0=49(三).卡方

檢驗(yàn)

如果一組樣本X1,…,Xn

來自分布F,需要檢驗(yàn)是如下問題:

H0:F=F0H1:F≠F0

從理論上來說無論F

是離散還是連續(xù)分布,卡方檢驗(yàn)都可以處理;不過它更適用于離散的總體,對(duì)于連續(xù)的總體F

,采用Kolmogrov檢驗(yàn)更好。(三).卡方檢驗(yàn)如果一組樣本X1,…,50K.Pearson的擬合優(yōu)度檢驗(yàn)思想

在實(shí)數(shù)軸上取m

個(gè)點(diǎn)把R1

分成m+1個(gè)部分,以vi

表示落在第i個(gè)區(qū)間里的樣本個(gè)數(shù),pi是總體隨機(jī)變量X

在這個(gè)區(qū)間中的概率:

x

t1

t2

t3…tm

x(1)……x(n)

K.Pearson的擬合優(yōu)度檢驗(yàn)思想在實(shí)數(shù)軸上取51當(dāng)零假設(shè)H0:F=F0成立時(shí)pi

可以計(jì)算出:

pi=F0(ti

)-F0(ti-1

),1≤

i

m+1;這里F0(t0

)=0,F(xiàn)0(tm+1

)=1

n

充分大時(shí),頻率vi/n

與概率pi

應(yīng)該相當(dāng)接近,因此如果零假設(shè)成立則統(tǒng)計(jì)量:應(yīng)該偏小,反之則可以否定零假設(shè)H0:F=F0。

1900年K.Pearson證明了極限分布K2

2(m),因此H0

的一個(gè)水平

拒絕域近似為K2

>2(m)。當(dāng)零假設(shè)H0:F=F0成立時(shí)pi可以計(jì)算出:應(yīng)該52

總體X

只可能取有限個(gè)值ai

,1≤

i

k

。相應(yīng)地,樣本X1,…,Xn中取值為ai

的個(gè)數(shù)為vi

,1≤

i

k

。需要檢驗(yàn):

H0:P{X=ai}=pi

,1≤

i

k

取檢驗(yàn)統(tǒng)計(jì)量:

則H0

的一個(gè)水平

檢驗(yàn)的拒絕域?yàn)镵2

>2(k-

1)總體X只可能取有限個(gè)值ai,1≤i53例3.3.Mendel的遺傳學(xué)例子Mendel研究豌豆時(shí)發(fā)現(xiàn)豌豆有兩種特性:圓與皺、黃與綠,他觀察了556顆豌豆:圓黃皺黃圓綠皺綠(總數(shù))31510110832(556)

而根據(jù)他的遺傳學(xué)理論,Mendel認(rèn)為這些組合關(guān)系應(yīng)該有理論上的概率:圓黃皺黃圓綠皺綠(概率)9/163/163/161/16(1)例3.3.Mendel的遺傳學(xué)例子Me54解.總體分布的k=4,對(duì)應(yīng)K2

統(tǒng)計(jì)量為:□

0.052(3)=7.815,0.902(3)=0.584,0.952(3)=0.352

甚至在水平0.90下都可以接受零假設(shè),即認(rèn)為Mendel的遺傳學(xué)理論是正確的。

從p-值的角度擬合優(yōu)度p=P{2(3)

>0.47}這個(gè)值是0.9254,理論分布與實(shí)際數(shù)據(jù)相當(dāng)吻合。解.總體分布的k=4,對(duì)應(yīng)K2統(tǒng)計(jì)量為:□55四.方差分析

方差分析針對(duì)方差相同的多個(gè)正態(tài)總體,檢驗(yàn)它們的均值是否相同。即,

同時(shí)判斷多組數(shù)據(jù)均值之間差異是否顯著

方差分析(AnalysisofVariance,ANOVA):研究一個(gè)(或多個(gè))分類自變量如何影響一個(gè)數(shù)值因變量的統(tǒng)計(jì)分析方法。四.方差分析方差分析針對(duì)方差相同的多個(gè)正56方差分析的特點(diǎn)①方差分析與一般的假設(shè)檢驗(yàn)不同要比較均值是否相同,可以使用第三章假設(shè)檢驗(yàn)的方法,但是只能處理兩個(gè)均值。方差分析處理的是多個(gè)均值的情況。方差分析的目的①.判斷某些因素對(duì)于我們感興趣的因變量是否具有“顯著”的影響,②.如果因素間有交互效應(yīng),尋找最佳搭配方案。方差分析的特點(diǎn)方差分析的目的57常見的方差分析主要有:單因素方差分析,雙因素方差分析,多因素方差分析。②方差分析與回歸、相關(guān)分析不同回歸與相關(guān)處理的是兩個(gè)數(shù)值變量的問題,相應(yīng)的散點(diǎn)在x

軸上具有順序(從小到大),而方差分析的數(shù)據(jù)在x

軸上可以任意交換位置。常見的方差分析主要有:②方差分析與回歸、相關(guān)分析不同58考察小麥產(chǎn)量(y)對(duì)于品種和施肥量的關(guān)系。Fisher的農(nóng)業(yè)試驗(yàn)

選擇了:兩個(gè)不同的小麥品種,三個(gè)不同的施肥等級(jí);一共2×3=6種搭配做試驗(yàn),建立模型??疾煨←湲a(chǎn)量(y)對(duì)于品種和施肥量的關(guān)系。Fisher59

y11=0+1+1+11

y12=0+1+2+12y13=0+1+3+13

y21=0+2+1+21

y22=0+2+2+22

y23=0+2+3+23

yij

是小麥產(chǎn)量,1、2

是品種效應(yīng),1、2、3

是施肥等級(jí)的效應(yīng),0

是其它因素的平均效應(yīng)。

ij

是隨機(jī)誤差,i.i.d~N(0,2)

品種是否對(duì)產(chǎn)量有影響H01:1=2

施肥量是否對(duì)產(chǎn)量有影響H02:1=2=3

y11=0+1+1+11yi60把這個(gè)模型寫成矩陣的形式:Y=X+

在方差分析中,同一個(gè)因素的不同水平看成是模型里的不同變量,而不能看成是同一個(gè)自變量在不同試驗(yàn)里的取值。(否則需要y對(duì)x

有線性相依關(guān)系)把這個(gè)模型寫成矩陣的形式:Y=X+在方61五.回歸與相關(guān)分析

回歸與相關(guān)分析是用于討論數(shù)值變量之間關(guān)系的統(tǒng)計(jì)分析方法。

回歸分析研究一個(gè)(或多個(gè))自變量的變化如何影響因變量,相關(guān)分析研究這兩個(gè)數(shù)值變量的相關(guān)程度。五.回歸與相關(guān)分析回歸與相關(guān)分析是用于討論數(shù)62Regressiony=33.73+0.516x(單位:英寸)Regressiony=33.73+0.516x63

直觀上在一個(gè)總體中有兩個(gè)特征(X,Y),觀察了n

次得到平面上的

n

個(gè)點(diǎn)(x1,y1),…,(xn,yn)。xyo

如果一條曲線y=f(x)基本上通過這些點(diǎn),或者這些點(diǎn)的大多數(shù)與這條曲線偏離很小,則稱曲線是對(duì)觀察值的擬合曲線,或者稱為是y

對(duì)于x

的回歸曲線。“回歸”的含義直觀上在一個(gè)總體中xyo如果一條曲線64

在理論上,假定(X,Y)有聯(lián)合分布,二階矩存在,則當(dāng)X

取某個(gè)值x

時(shí)Y

有一個(gè)確定的條件分布F(·|x),這個(gè)分布的數(shù)學(xué)期望即條件期望

E(Y|x)存在,E(Y|x)就稱為Y

對(duì)于x

的回歸(函數(shù))

如果X

是一維隨機(jī)變量,則E(Y|x)就稱為一元回歸函數(shù)(主要是回歸直線);當(dāng)X

是多維隨機(jī)變量時(shí)就是多元回歸(曲面)Remark

采用條件期望E(Y|x)而不是其它的函數(shù)y=g(x)作為Y

對(duì)于x

的回歸,原因是在均方誤差的意義下條件期望是最優(yōu)的。在理論上,假定(X,Y)有聯(lián)合分布,二階65

如果E(Y|x)就是x

的線性函數(shù),即:

E(Y|x)=0+x11+…+xkk,線性回歸模型就定義成:

yi=0+1xi1+…+k

xik+i,1≤

i

n

i獨(dú)立同分布于

N(0,2)y=0+x11+…+xkk

就稱為是回歸方程

這時(shí)不再把x

看成是隨機(jī)變量X

的觀察值,而看成是一般的數(shù)量變量,因此線性回歸模型也是一種線性模型:Y=X+,E=0如果E(Y|x)就是x的線性函數(shù),即:66QfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6A-x*u$qZnVkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6Fx(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A+x*u$qZnWgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbKC1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL92B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7C0z)v&s#pXmUiRfOcK9H6E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t$qYnVjSgPdL6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRf8G5D2A-x*u$qZnVkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9I6E3B+y$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(uQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F672.參數(shù)估計(jì)1.預(yù)備知識(shí)3.假設(shè)檢驗(yàn)4.方差分析5.回歸分析2.參數(shù)1.預(yù)備知識(shí)3.假設(shè)4.方差5.回歸68

統(tǒng)計(jì)學(xué)(Statistics)是一門收集與分析數(shù)據(jù),并且根據(jù)數(shù)據(jù)進(jìn)行推斷的藝術(shù)與科學(xué)。

————《大英百科全書》(數(shù)理)統(tǒng)計(jì)學(xué)中的數(shù)據(jù)都是隨機(jī)數(shù)據(jù)。統(tǒng)計(jì)學(xué)的任務(wù)就是在隨機(jī)性中去尋找規(guī)律。

統(tǒng)計(jì)學(xué)理論主要包含三個(gè)部分:1.數(shù)據(jù)收集,2.數(shù)據(jù)分析,3.由數(shù)據(jù)做出決策。統(tǒng)計(jì)學(xué)(Statistics)是一門收集與分69(一).統(tǒng)計(jì)學(xué)的基本概念

統(tǒng)計(jì)學(xué)中把所研究的對(duì)象全體稱為總體,總體中的每一個(gè)元素稱為一個(gè)個(gè)體??傮w與個(gè)體都用數(shù)量指標(biāo)來表示1.總體與個(gè)體(population)

即使面臨的是一個(gè)定性的實(shí)際問題,也必須把有關(guān)的資料定量化。一.預(yù)備知識(shí)(一).統(tǒng)計(jì)學(xué)的基本概念統(tǒng)計(jì)學(xué)中把所研究的70

但同時(shí)在直觀上又認(rèn)為、或者希望做到:抽取出的每個(gè)個(gè)體(樣本)都充分蘊(yùn)涵總體信息。

從總體中取出一個(gè)個(gè)體,稱為從總體中得到一個(gè)樣本。2.樣本(sample)統(tǒng)計(jì)學(xué)的目的就是從樣本去得出總體的信息。

由于各種原因與實(shí)際條件的限制,不可能得到一個(gè)總體中所有個(gè)體的數(shù)據(jù)。即樣本總是總體的一小部分。但同時(shí)在直觀上又認(rèn)為、或者希望做到:從71被研究的對(duì)象全體具有代表性的部分個(gè)體總體樣本……..被研究的對(duì)象全體具有代表性的總體樣本……..72

獨(dú)立同分布的樣本稱為簡單隨機(jī)樣本。

總體被認(rèn)為是一個(gè)服從某種概率分布F

的隨機(jī)變量。

樣本是和總體隨機(jī)變量有相同分布F

的隨機(jī)變量,樣本的個(gè)數(shù)稱為樣本容量,n??傮w分布F可以是未知的,非參數(shù)統(tǒng)計(jì)學(xué)

總體分布F的類型已知,但是含有一些未知的參數(shù)。參數(shù)估計(jì)獨(dú)立同分布的樣本稱為簡單隨機(jī)樣本??傮w被認(rèn)為是73(二).數(shù)理統(tǒng)計(jì)學(xué)的主要內(nèi)容1.抽樣理論:介紹如何收集數(shù)據(jù)。主要抽樣方法,樣本容量的確定,抽樣誤差,敏感問題等2.參數(shù)估計(jì):如何根據(jù)數(shù)據(jù)得到總體參數(shù)信息。點(diǎn)估計(jì)、區(qū)間估計(jì),Bayes估計(jì)等3.假設(shè)檢驗(yàn):如何對(duì)關(guān)于總體的一些假設(shè)做出決策。正態(tài)總體參數(shù)的檢驗(yàn),分布擬合檢驗(yàn),秩檢驗(yàn),列聯(lián)表,統(tǒng)計(jì)決策等理論(二).數(shù)理統(tǒng)計(jì)學(xué)的主要內(nèi)容1.抽樣理論:介紹如何744.方差分析與回歸分析:變量之間的效應(yīng)關(guān)系。方差分析—分類變量與數(shù)值變量的效應(yīng)關(guān)系回歸分析—研究數(shù)值變量之間的效應(yīng)關(guān)系5.多元分析:研究若干個(gè)變量之間的關(guān)系聚類分析、判別分析、主成分分析、因子分析、典型相關(guān)分析等等4.方差分析與回歸分析:變量之間的效應(yīng)5.多元分析:75例1.1希望了解某所高校學(xué)生月消費(fèi)情況。解決方法:從這所大學(xué)里隨機(jī)地調(diào)查有代表性的一些學(xué)生,根據(jù)收集到的數(shù)據(jù)去得出這所大學(xué)學(xué)生每個(gè)月支出費(fèi)用的有關(guān)信息。1.如何得到樣本?

不同家庭背景學(xué)生的比例應(yīng)該各占多少?樣本容量應(yīng)該取多少才合適?被調(diào)查者拒絕調(diào)查怎么辦?抽樣調(diào)查例1.1希望了解某所高校學(xué)生月消費(fèi)情況。解決方法:762.如何確定總體的分布?

這里的總體是這所大學(xué)的學(xué)生月支出費(fèi)用,我們不妨認(rèn)為學(xué)生月支出費(fèi)用是一個(gè)服從正態(tài)分布的隨機(jī)變量。

根據(jù)經(jīng)驗(yàn)或者是所討論的問題的實(shí)際背景,總體的分布類型一般可以事先確定下來。(不同學(xué)校對(duì)應(yīng)的這兩個(gè)參數(shù)也就不相同)

即,總體隨機(jī)變量X~N(,2),而這個(gè)學(xué)校相應(yīng)的兩個(gè)參數(shù)與

2

是未知的。2.如何確定總體的分布?這里的總體是這所大77Remark

當(dāng)不知道或者難以確定總體的分布類型時(shí),在統(tǒng)計(jì)學(xué)中常常采用下面兩種辦法來近似得到總體分布的有關(guān)信息。(1).直方圖的方法只適用連續(xù)總體,得到的是總體密度函數(shù)近似。

把收集到的n

個(gè)數(shù)據(jù)x1,x2

,…,xn

從小到大排列:x(1)≤

x(2)

≤…≤

x(n)

;其次取區(qū)間(a,b),包含全部數(shù)據(jù)a

x(1)

,x(n)<

b

;Remark(1).直方圖的方法只適用連續(xù)78把(a,b)等分成若干小區(qū)間,計(jì)算每個(gè)小區(qū)間中包含的數(shù)據(jù)的頻率。x(1)

x(n)

根據(jù)這些頻率做出相應(yīng)的小區(qū)間上的矩形,則當(dāng)n

充分大時(shí),這些小區(qū)間上矩形的面積將近似于總體的概率密度函數(shù)下曲邊梯形的面積。把(a,b)等分成x(1)79(2).經(jīng)驗(yàn)分布函數(shù)的方法

構(gòu)造一個(gè)分布函數(shù),得到的是總體分布函數(shù)F(x)的近似。

Fn(x)=0,

x

x(1)—,x(k)<

x

x(k+1)1,x

x(n)

這個(gè)函數(shù)實(shí)際上是觀察值x1,…,xn中小于x

的頻率,即

Fn(x)={x1,…,xn中小于x

的個(gè)數(shù)}/nk

n(2).經(jīng)驗(yàn)分布函數(shù)的方法構(gòu)造一個(gè)分布80Oxy○○x(1)x(2)x(3)1/n2/n

可以證明,經(jīng)驗(yàn)分布函數(shù)Fn(x)將依概率、甚至是幾乎處處收斂到F(x)?!璒xy○○x(1)x(2)x(3)1/n2/n可以813.如何從樣本得出總體的信息?

樣本是一組與總體獨(dú)立、同分布的隨機(jī)變量,我們得到的數(shù)據(jù)是樣本觀察值,而不是樣本。

調(diào)查一個(gè)學(xué)生得到了一個(gè)數(shù)據(jù),相當(dāng)于對(duì)總體分布做了一次隨機(jī)試驗(yàn)而觀察到了這個(gè)隨機(jī)變量的具體取值。

一共有n個(gè)數(shù)據(jù),相當(dāng)于對(duì)總體分布做了n次獨(dú)立重復(fù)試驗(yàn),而得到了這個(gè)總體隨機(jī)變量在這些試驗(yàn)中的具體取值。3.如何從樣本得出總體的信息?樣本是一組與總體獨(dú)82利用樣本觀察值去估計(jì)出總體的未知參數(shù)直觀上可以利用調(diào)查到的n個(gè)學(xué)生的月支出

x1

,x2

,…,xn

的算術(shù)平均:去估計(jì)這所學(xué)校學(xué)生的平均月支出費(fèi)用。它的合理性在哪?還有沒有其它的辦法?這些不同的方法各有什么樣的優(yōu)缺點(diǎn)?數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一參數(shù)估計(jì)利用樣本觀察值去估計(jì)出總體的未知參數(shù)直觀上可以利用調(diào)查到的83

事先提出一個(gè)假設(shè),利用樣本觀察值去檢驗(yàn)這個(gè)假設(shè)是否可以被接受假設(shè)檢驗(yàn)

假定學(xué)校要制定相關(guān)一些政策,如獎(jiǎng)學(xué)金、貸款、勤工儉學(xué)等;或者后勤服務(wù)、商業(yè)經(jīng)營的價(jià)格等等。共同關(guān)心的一些問題,比如說:

>0

?這里0

是一個(gè)已知的常數(shù)。數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一事先提出一個(gè)假設(shè),利用樣本觀察值去檢驗(yàn)這個(gè)假設(shè)84應(yīng)該如何去做這個(gè)檢驗(yàn)?

一種想法是:既然已經(jīng)通過參數(shù)估計(jì)得到了這個(gè)學(xué)校學(xué)生月平均支出(即總體的參數(shù)

)的估計(jì)值,自然就可以用它代替假設(shè)里的

去做檢驗(yàn):

當(dāng)估計(jì)值比0

大就接受這個(gè)假設(shè),否則就拒絕

但是這樣的風(fēng)險(xiǎn)很大:樣本總是隨機(jī)得到的,因此估計(jì)值與真實(shí)值之間不可避免地存在著隨機(jī)誤差。

傳統(tǒng)的方法是:給出一個(gè)區(qū)域(拒絕域),如果估計(jì)值落在這個(gè)區(qū)域內(nèi),就拒絕原來的假設(shè),否則就接受。應(yīng)該如何去做這個(gè)檢驗(yàn)?一種想法是:既然已經(jīng)通過參數(shù)85

除了對(duì)總體參數(shù)的檢驗(yàn)外,還有一些重要的假設(shè)檢驗(yàn)問題,例如:關(guān)于總體分布的檢驗(yàn)

檢驗(yàn)得到的樣本數(shù)據(jù)是不是來自于某個(gè)事先給出的總體獨(dú)立性的檢驗(yàn)

檢驗(yàn)一些分類變量之間是否是獨(dú)立的,例如:抽煙與肺癌,睡覺打鼾與心臟病…分布擬合檢驗(yàn)除了對(duì)總體參數(shù)的檢驗(yàn)外,還有一些重要的假設(shè)86關(guān)于數(shù)據(jù)差異的檢驗(yàn)

主要希望了解兩組或多組數(shù)據(jù)間的差異究竟是來自于隨機(jī)性,還是總體間的確存在差異?例如:小兒麻痹癥、SARS疫苗的研制,越戰(zhàn)期間美國的征兵計(jì)劃,

…以及我們?cè)诳茖W(xué)研究、工程實(shí)踐、社會(huì)調(diào)查等等得到的數(shù)據(jù)關(guān)于數(shù)據(jù)差異的檢驗(yàn)主要希望了解兩組或多組數(shù)據(jù)間的差87討論數(shù)值變量之間的效應(yīng)關(guān)系問題比如說,想了解兒子身高與父親身高之間的關(guān)系。在每個(gè)被調(diào)查的家庭中同時(shí)獲得這兩個(gè)變量的觀察值,分析它們是否有某種(函數(shù))關(guān)系,…一元線性回歸多元線性回歸

例如,鋼的去碳量與不同礦石、融化時(shí)間、煉鋼爐體積等等是否有關(guān)?關(guān)系如何?…數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一回歸與相關(guān)分析討論數(shù)值變量之間的效應(yīng)關(guān)系問題比如說,想了解兒子身高與父親身88討論分類變量與數(shù)值變量之間的關(guān)系

比如說產(chǎn)品質(zhì)量與不同操作人員之間的關(guān)系。是否某些人生產(chǎn)出的產(chǎn)品質(zhì)量偏高?如果偏高,這種差異是否是純屬偶然原因,…單因素方差分析數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一方差分析雙因素方差分析

希望了解操作人員和設(shè)備這兩個(gè)因素聯(lián)合對(duì)質(zhì)量的關(guān)系。各自單獨(dú)是否有影響?交互效應(yīng)如何?…討論分類變量與數(shù)值變量之間的關(guān)系比如說產(chǎn)品質(zhì)量與不同操作89簡單的說,從概率論的角度出發(fā),可以把上述數(shù)理統(tǒng)計(jì)學(xué)的過程理解成:有一個(gè)含有未知信息的概率分布F針對(duì)F做了n次獨(dú)立重復(fù)的試驗(yàn)與觀察,得到n個(gè)獨(dú)立同分布于F的隨機(jī)變量的取值根據(jù)樣本的具體觀察值,去推斷出總體F所包含的未知信息,或作出進(jìn)一步的決策等簡單的說,從概率論的角度出發(fā),有一個(gè)含有未知信息的概率分布90例1.2.如何分析與處理變量的關(guān)系?分類變量:如性別、信仰、職業(yè)等等,順序變量:如名次(第一、第二,…),數(shù)值變量:如收入、比例、產(chǎn)量等等簡單復(fù)雜Remark

可以把復(fù)雜的變量簡化為簡單變量,反之不行數(shù)值變量順序變量分類變量例1.2.如何分析與處理變量的關(guān)系?分類變量:如性別91變量組合與相應(yīng)的統(tǒng)計(jì)分析方法因變量y

自變量x

分類變量順序變量數(shù)值變量分類變量卡方分析回歸與相關(guān)順序變量秩方法數(shù)值變量方差分析回歸與相關(guān)變量組合與相應(yīng)的統(tǒng)計(jì)分析方法因變量y92把兩個(gè)變量分別作為橫軸和縱軸描出散點(diǎn)

散點(diǎn)圖(Scatterplot)

散點(diǎn)圖在簡化數(shù)據(jù)的同時(shí),能夠保留原始數(shù)據(jù)的信息。(三).變量的統(tǒng)計(jì)圖表示把兩個(gè)變量分別作為橫軸和縱軸描出散點(diǎn)散點(diǎn)圖(Scatter93例1.3.

下面是24對(duì)夫妻的數(shù)據(jù),有兩個(gè)變量:結(jié)婚時(shí)間和一年內(nèi)的吵架次數(shù)。結(jié)婚年數(shù)524136583739爭吵次數(shù)10201615968510786

結(jié)婚年數(shù)101513201625221415191720爭吵次數(shù)534241334332例1.3.結(jié)婚年數(shù)524194結(jié)婚時(shí)間與吵架次數(shù)的散點(diǎn)圖結(jié)婚時(shí)間與吵架次數(shù)的散點(diǎn)圖95(2).時(shí)間序列圖特殊散點(diǎn)圖,以時(shí)間作為橫軸的變量

時(shí)間序列圖能夠反映出一個(gè)變量隨著時(shí)間而變化的趨勢(shì)。(2).時(shí)間序列圖特殊散點(diǎn)圖,以時(shí)間作為橫軸的變量96蘇格蘭羊蘇格蘭羊97

總體X的分布函數(shù)F含有未知的參數(shù),所有可能的取值范圍稱為“參數(shù)空間”,記為。從這個(gè)總體中抽取了一組樣本X1,…,Xn,相應(yīng)的樣本觀察值是

x1,…,xn。應(yīng)該如何估計(jì)出的具體數(shù)值?

點(diǎn)估計(jì)就是利用樣本構(gòu)造一個(gè)合理的統(tǒng)計(jì)量:

g(X1,…,Xn);用它的觀察值g(x1,…,xn)

去作為作為的估計(jì)值。

二.參數(shù)估計(jì)總體X的分布函數(shù)F含有未知的參數(shù)98

你可以用這組數(shù)據(jù)中的任何一個(gè),或者樣本均值,或者是樣本中位數(shù)等,作為的估計(jì)值。例2.1甲同學(xué)在一個(gè)體重儀上稱她的體重,假定這個(gè)體重儀沒有系統(tǒng)誤差,每次稱量的結(jié)果是真實(shí)重量加上一個(gè)隨機(jī)誤差k。一般認(rèn)為

k~N(0,2),因此n

次稱量的結(jié)果

Xk

=

+k~N(,2)你可以用這組數(shù)據(jù)中的任何一個(gè),或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論