大學(xué)課件現(xiàn)代統(tǒng)計(jì)分析方法概述_第1頁
大學(xué)課件現(xiàn)代統(tǒng)計(jì)分析方法概述_第2頁
大學(xué)課件現(xiàn)代統(tǒng)計(jì)分析方法概述_第3頁
大學(xué)課件現(xiàn)代統(tǒng)計(jì)分析方法概述_第4頁
大學(xué)課件現(xiàn)代統(tǒng)計(jì)分析方法概述_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、現(xiàn)代統(tǒng)計(jì)分析方法概述現(xiàn)代統(tǒng)計(jì)分析方法概述 http:/ 現(xiàn)代統(tǒng)計(jì)分析方法介紹 從高斯(c. f. gauss)描述天文觀測(cè)的誤差而引進(jìn)正態(tài)分布,并使用最小二乘法作為一種估計(jì)方法至今,現(xiàn)代統(tǒng)計(jì)的發(fā)展已有200多年的歷史。統(tǒng)計(jì)學(xué)在分析數(shù)據(jù)、探索數(shù)據(jù)規(guī)律性、研究現(xiàn)實(shí)問題中已形成許多各具特點(diǎn)的思想方法。從研究問題的角度,可將現(xiàn)代統(tǒng)計(jì)分析方法分為四大類:分類分析方法、結(jié)構(gòu)簡(jiǎn)化方法、相關(guān)分析方法、預(yù)測(cè)決策方法。 http:/ 對(duì)統(tǒng)計(jì)分析方法的應(yīng)用應(yīng)從實(shí)際問題出發(fā),明確具體問題和目標(biāo),然后確定理論以及相應(yīng)的指標(biāo),在收集和整理數(shù)據(jù)的基礎(chǔ)上構(gòu)造滿足需求的模型并進(jìn)行統(tǒng)計(jì)計(jì)算,在對(duì)模型進(jìn)行檢驗(yàn)的基礎(chǔ)上,對(duì)模型加以推

2、廣應(yīng)用。 http:/ 回歸分析方差分析http:/ 正態(tài)分布(normal distribution)又名高斯分布(gaussian distribution),是一個(gè)在數(shù)學(xué)、物理及工程等領(lǐng)域都非常重要的概率分布,在統(tǒng)計(jì)學(xué)的許多方面有著重大的影響力。因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。 其數(shù)學(xué)定義如下:若隨機(jī)變量x的密度函數(shù)為則稱x服從正態(tài)分布,稱x為正態(tài)變量,記作()xn。正態(tài)分布()n的分布函數(shù)為22()21( )2txf xedt22()21( ),2xp xex http:/ 正態(tài)分布最早是棣莫佛在1734年發(fā)表的一篇關(guān)于二項(xiàng)分布文章中提出的。拉普拉斯在1812年發(fā)表的分析

3、概率論(theorie analytique des probabilites)中對(duì)棣莫佛的結(jié)論作了擴(kuò)展?,F(xiàn)在這一結(jié)論通常被稱為棣莫佛拉普拉斯定理。 拉普拉斯在誤差分析試驗(yàn)中使用了正態(tài)分布。勒讓德于1805年引入最小二乘法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,并通過假設(shè)誤差服從正態(tài)分布給出了嚴(yán)格的證明。http:/ 正態(tài)分布是很多統(tǒng)計(jì)方法的理論基礎(chǔ),正態(tài)分布在現(xiàn)實(shí)中的應(yīng)用也是最為廣泛的,包含自動(dòng)控制、質(zhì)量管理、醫(yī)學(xué)管理、經(jīng)濟(jì)分析及評(píng)價(jià)、風(fēng)險(xiǎn)評(píng)估等多個(gè)方面。 正態(tài)分布在自動(dòng)控制、優(yōu)化設(shè)計(jì)、包裝或加工零件的精度等方面有著廣泛的應(yīng)用。正態(tài)分布的均值就是自動(dòng)控制的設(shè)定值,方差就是自

4、動(dòng)控制的精度;方差越小,精度越高,系統(tǒng)的性能越好 質(zhì)量控制方面,為了控制實(shí)驗(yàn)中的測(cè)量(或?qū)嶒?yàn))誤差,常以3作為上、下警戒值,以3作為上、下控制值。這樣做可以保證正常情況下測(cè)量(或?qū)嶒?yàn))誤差服從正態(tài)分布 醫(yī)學(xué)應(yīng)用方面,某些醫(yī)學(xué)現(xiàn)象,如同質(zhì)群體的身高、紅細(xì)胞數(shù)、血紅蛋白量,以及實(shí)驗(yàn)中的隨機(jī)誤差,呈現(xiàn)為正態(tài)或近似正態(tài)分布;有些指標(biāo)(變量)雖服從偏態(tài)分布,但經(jīng)數(shù)據(jù)轉(zhuǎn)換后的新變量可服從正態(tài)或近似正態(tài)分布,可按正態(tài)分布規(guī)律處理 經(jīng)濟(jì)分析及風(fēng)險(xiǎn)評(píng)估方面,正態(tài)分布在投入產(chǎn)出、經(jīng)濟(jì)分析、風(fēng)險(xiǎn)收益、風(fēng)險(xiǎn)價(jià)值度量等諸多方面的應(yīng)用越來越廣泛,為經(jīng)濟(jì)分析、經(jīng)濟(jì)評(píng)價(jià)以及風(fēng)險(xiǎn)評(píng)估提供了多樣的方法選擇,使評(píng)估結(jié)果更加科學(xué) h

5、ttp:/ 參數(shù)的區(qū)間估計(jì)和假設(shè)檢驗(yàn)是兩種最重要的統(tǒng)計(jì)推斷形式,掌握這兩種方法對(duì)做出正確的統(tǒng)計(jì)推斷至關(guān)重要 區(qū)間估計(jì)區(qū)間估計(jì) 1nxx,1()llnxx,1()uunxx,lu,lu設(shè)是總體的一個(gè)參數(shù),是樣本,所謂區(qū)間估計(jì)就是要找兩個(gè)統(tǒng)計(jì)量和,使得,在得到樣本觀測(cè)值之后,就把估計(jì)在區(qū)間內(nèi) 假設(shè)檢驗(yàn)假設(shè)檢驗(yàn) 假設(shè)檢驗(yàn)是用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。其基本原理是先對(duì)總體的特征做出某種假設(shè),然后通過抽樣研究的統(tǒng)計(jì)推理,對(duì)此假設(shè)應(yīng)該被拒絕還是接受做出推斷 http:/ 1nxx,(01) 1()llnxx,1()uunxx,()1lup ,lu1設(shè)

6、是總體的一個(gè)參數(shù),其參數(shù)空間為,是來自該總體的樣本,若有兩個(gè)統(tǒng)計(jì)量和若對(duì)任意的,有,則稱隨機(jī)區(qū)間為 的置信水平的置信區(qū)間 對(duì)給定的一個(gè)為置信水平置信水平1的頻率解釋:的頻率解釋:,lu在大量重復(fù)使用的置信區(qū)間時(shí),每次得到的樣本觀測(cè)值是不同的, 從而每次得到的區(qū)間估計(jì)值也是不一樣的,對(duì)一次具體的觀測(cè)值而言,可能在 ,lu內(nèi),也可能不在。平均而言,在這大量的區(qū)間估計(jì)觀測(cè)值中,至少有 100(1)%包含http:/ 假設(shè)檢驗(yàn)的基本思想是小概率反證法思想。小概率思想是指小概率事件(p0.01或p0.05)在一次試驗(yàn)中基本上不會(huì)發(fā)生。反證法思想是先提出假設(shè)(檢驗(yàn)假設(shè)h0),再用適當(dāng)?shù)慕y(tǒng)計(jì)方法確定假設(shè)成立

7、的可能性大小,如可能性小,則認(rèn)為假設(shè)不成立,若可能性大,則還不能認(rèn)為假設(shè)不成立 假設(shè)檢驗(yàn)的一般步驟:假設(shè)檢驗(yàn)的一般步驟:應(yīng)注意的問題應(yīng)注意的問題 1、做假設(shè)檢驗(yàn)之前,應(yīng)注意資料本身是否有可比性。 2、當(dāng)差別有統(tǒng)計(jì)學(xué)意義時(shí)應(yīng)注意這樣的差別在實(shí)際應(yīng)用中有無意義。 3、根據(jù)資料類型和特點(diǎn)選用正確的假設(shè)檢驗(yàn)方法。 4、根據(jù)專業(yè)及經(jīng)驗(yàn)確定是選用單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn)。 5、當(dāng)檢驗(yàn)結(jié)果為拒絕無效假設(shè)時(shí),應(yīng)注意有發(fā)生i類錯(cuò)誤的可能性,即錯(cuò)誤地拒絕了本身成立的h0,發(fā)生這種錯(cuò)誤的可能性預(yù)先是知道的,即檢驗(yàn)水準(zhǔn)那么大;當(dāng)檢驗(yàn)結(jié)果為不拒絕無效假設(shè)時(shí),應(yīng)注意有發(fā)生ii類錯(cuò)誤的可能性,即仍有可能錯(cuò)誤地接受了本身就不成立

8、的h0,發(fā)生這種錯(cuò)誤的可能性預(yù)先是不知道的,但與樣本含量和i類錯(cuò)誤的大小有關(guān)系。 6、判斷結(jié)論時(shí)不能絕對(duì)化,應(yīng)注意無論接受或拒絕檢驗(yàn)假設(shè),都有判斷錯(cuò)誤的可能性。 7、報(bào)告結(jié)論時(shí)是應(yīng)注意說明所用的統(tǒng)計(jì)量,檢驗(yàn)的單雙側(cè)及p值的確切范圍。 http:/ 參數(shù)的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的關(guān)系參數(shù)的區(qū)間估計(jì)與參數(shù)的假設(shè)檢驗(yàn)雖然提法不同,但解決問題的途徑是相通的,統(tǒng)計(jì)推斷的思想方法是一樣的,都是基于樣本信息來推斷總體的性質(zhì),即用部分來推斷總體。它們都是選取一個(gè)統(tǒng)計(jì)量,然后使這個(gè)統(tǒng)計(jì)量落在某個(gè)已知區(qū)間上的概率很小由此得到的結(jié)果 1、參數(shù)估計(jì)解決的是多少(或范圍)問題,假設(shè)檢驗(yàn)則判斷結(jié)論是否成立。前者解決的是定量問

9、題,后者解決的是定性問題。2、兩者的要求各不相同。區(qū)間估計(jì)確定在一定概率保證程度下給出未知參數(shù)的范圍。而假設(shè)檢驗(yàn)確定在一定的置信水平下,未知參數(shù)能否接受已給定的值。3、兩者對(duì)問題的了解程度各不相同。進(jìn)行區(qū)間估計(jì)之前不了解未知參數(shù)的有關(guān)信息,而假設(shè)檢驗(yàn)對(duì)未知參數(shù)的信息有所了解,但做出某種判斷無確切把握。因而在實(shí)際應(yīng)用中,究竟選擇哪種方法進(jìn)行統(tǒng)計(jì)推斷,需要根據(jù)實(shí)際問題的情況確定相應(yīng)的處理方法 二者之間的聯(lián)系二者之間的區(qū)別http:/ 回歸分析的概念及分類回歸分析的概念及分類 回歸分析(regression analysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣

10、泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析 回歸分析提出的背景回歸分析提出的背景 早在19世紀(jì),英國(guó)生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓在研究父與子身高的遺傳問題時(shí),觀察了1078對(duì)父與子,用x表示父親身高,y表示成年兒子的身高,發(fā)現(xiàn)將(x, y)點(diǎn)在直角坐標(biāo)系中,這1078個(gè)點(diǎn)基本在一條直線附近,并

11、求出了該直線的方程,這便是子代的平均高度有向中心回歸的意思,使得一段時(shí)間內(nèi)人的身高相對(duì)穩(wěn)定。之后回歸分析的思想滲透到數(shù)理統(tǒng)計(jì)的其他分支中。隨著計(jì)算機(jī)的發(fā)展,各種統(tǒng)計(jì)軟件的出現(xiàn),回歸分析的應(yīng)用越來越廣泛 http:/ 回歸分析的應(yīng)用:回歸分析的應(yīng)用: 應(yīng)用回歸分析模型可以探求出兩個(gè)變量之間的影響關(guān)系,最初時(shí)在身高遺傳問題上應(yīng)用一元線性回歸分析模型,隨著社會(huì)的不斷發(fā)展,系統(tǒng)的復(fù)雜性不斷增加,應(yīng)用一元線性回歸分析已經(jīng)不能滿足需求,于是出現(xiàn)了多元線性回歸分析以及多元非線性回歸分析模型。這些分析模型在分析復(fù)雜系統(tǒng)下一種現(xiàn)象的影響因素方面有很好的應(yīng)用性,目前研究的方面包括臨床統(tǒng)計(jì)數(shù)據(jù)分析、多因素影響下的回

12、歸分析、經(jīng)濟(jì)增長(zhǎng)下的多因素影響分析等,涉及到經(jīng)濟(jì)社會(huì)發(fā)展的多個(gè)方面 http:/ 所謂一元線性回歸分析,就是研究具有線性關(guān)系的兩個(gè)變量相關(guān)關(guān)系的方法。在實(shí)際預(yù)測(cè)時(shí),選取與預(yù)測(cè)量(y)關(guān)系最緊密的一個(gè)影響因素作為自變量(x),建立回歸方程擬合回歸曲線,對(duì)參數(shù)進(jìn)行統(tǒng)計(jì)檢驗(yàn),對(duì)預(yù)測(cè)值進(jìn)行精度檢驗(yàn)和置信區(qū)間的估計(jì)。在預(yù)測(cè)量(y)的眾多影響因素中選取一個(gè)關(guān)系最密切的因素作為自變量(x)。得到回歸方程常見回歸分析模型12iiiyx12i其中, 和 為待估參數(shù),稱為隨機(jī)誤差(指除x對(duì)y的線性影響外的其他各因素對(duì)y的影響)。如果隨機(jī)誤差總體服從正態(tài)分布 2(0,)n我們可在x與y的觀測(cè)樣本下以最小二乘法擬合回

13、歸曲線。這樣的回歸曲線且相互獨(dú)立,滿足殘差平方和, 2212iiiiiyyyxhttp:/ 方差分析(analysis of variance,簡(jiǎn)稱anova)是將總變異分裂為各個(gè)因素的相應(yīng)變異,做出其數(shù)量估計(jì),從而發(fā)現(xiàn)各個(gè)因素在變異中所占的重要程度,而且除了可控制因素所引起的變異后,其剩余變異又可提供試驗(yàn)誤差的準(zhǔn)確而無偏的估計(jì),作為統(tǒng)計(jì)假設(shè)測(cè)驗(yàn)的依據(jù) 方差分析是判斷多組數(shù)據(jù)( k3 )之間平均數(shù)差異是否顯著的一種假設(shè)測(cè)驗(yàn)方法。2個(gè)樣本平均數(shù)可用 t 或u測(cè)驗(yàn)的方法來評(píng)定其差數(shù)的顯著性。如果有k個(gè)平均數(shù),且k3,若仍然用兩兩比較的方法來測(cè)驗(yàn),則需要作k(k-1)/2次測(cè)驗(yàn),如果k10,則需要4

14、5次測(cè)驗(yàn),不但測(cè)驗(yàn)程序繁瑣,而且在理論上,其顯著水平已經(jīng)擴(kuò)大了。因此,對(duì)于多樣本平均數(shù)的假設(shè)測(cè)驗(yàn),需采用一種更為合適的統(tǒng)計(jì)方法,即方差分析法(fisher, 1923) http:/ 方差分析主要有單因素方差分析、多因素方差分析以及協(xié)方差分析三種 單因素方差分析是用來研究一個(gè)控制變量的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。這里,由于僅研究單個(gè)因素對(duì)觀測(cè)變量的影響,因此稱為單因素方差分析 單因素方差分析在觀測(cè)變量總離差平方和中,如果組間離差平方和所占比例較大,則說明觀測(cè)變量的變動(dòng)主要是由控制變量引起的,可以主要由控制變量來解釋,控制變量給觀測(cè)變量帶來了顯著影響;反之,如果組間離差平方和所占比例小

15、,則說明觀測(cè)變量的變動(dòng)不是主要由控制變量引起的,不可以主要由控制變量來解釋,控制變量的不同水平?jīng)]有給觀測(cè)變量帶來顯著影響,觀測(cè)變量值的變動(dòng)是由隨機(jī)變量因素引起的 單因素方差分析原理:http:/ 2、選擇檢驗(yàn)統(tǒng)計(jì)量:方差分析采用的檢驗(yàn)統(tǒng)計(jì)量是f統(tǒng)計(jì)量,即f值檢驗(yàn)。 3、計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率p值:該步驟的目的就是計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和相應(yīng)的概率p值。 4、給定顯著性水平,并做出決策 單因素方差分析的進(jìn)一步分析:在完成上述單因素方差分析的基本分析后,可得到關(guān)于控制變量是否對(duì)觀測(cè)變量造成顯著影響的結(jié)論,接下來還應(yīng)做其他幾個(gè)重要分析,主要包括方差齊性檢驗(yàn)、多重比較檢驗(yàn)。 方差齊性檢驗(yàn)是對(duì)控制

16、變量不同水平下各觀測(cè)變量總體方差是否相等進(jìn)行檢驗(yàn)。spss單因素方差分析中,方差齊性檢驗(yàn)采用了方差同質(zhì)性(homogeneity of variance)檢驗(yàn)方法,其原假設(shè)是:各水平下觀測(cè)變量總體的方差無顯著差異。 多重比較檢驗(yàn)利用了全部觀測(cè)變量值,實(shí)現(xiàn)對(duì)各個(gè)水平下觀測(cè)變量總體均值的逐對(duì)比較。由于多重比較檢驗(yàn)問題也是假設(shè)檢驗(yàn)問題,因此也遵循假設(shè)檢驗(yàn)的基本步驟。 http:/ 基本思想:多因素方差分析用來研究?jī)蓚€(gè)及兩個(gè)以上控制變量是否對(duì)觀測(cè)變量產(chǎn)生顯著影響。這里,由于研究多個(gè)因素對(duì)觀測(cè)變量的影響,因此稱為多因素方差分析。多因素方差分析不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響,更能夠分析多個(gè)控制因素的交互作用能否對(duì)觀測(cè)變量的分布產(chǎn)生顯著影響,進(jìn)而最終找到利于觀測(cè)變量的最優(yōu)組合 分析不同品種、不同施肥量對(duì)農(nóng)作物產(chǎn)量的影響時(shí),可將農(nóng)作物產(chǎn)量作為觀測(cè)變量,品種和施肥量作為控制變量。利用多因素方差分析方法,研究不同品種、不同施肥量是如何影響農(nóng)作物產(chǎn)量的,并進(jìn)一步研究哪種品種與哪種水平的施肥量是提高農(nóng)作物產(chǎn)量的最優(yōu)組合。 例子:在spss中,利用多因素方差分析功能還能夠?qū)Ω骺刂谱兞坎煌较掠^測(cè)變量的均值是否存在顯著差異進(jìn)行比較,實(shí)現(xiàn)方式有兩種,即多重比較檢驗(yàn)和對(duì)多重比較檢驗(yàn)和對(duì)比檢驗(yàn)比檢驗(yàn)。多重比較檢驗(yàn)的方法與單因素方差分析類似。對(duì)比檢驗(yàn)采用的是單樣本t檢驗(yàn)的方法,它將控制變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論