




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、應用統(tǒng)計分析復習筆記BY 東海 2009年12月1日星期二第一章 導論1、統(tǒng)計學是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結論的科學。內(nèi)容:收集數(shù)據(jù)(取得數(shù)據(jù));處理數(shù)據(jù)(整理與圖表展示);分析數(shù)據(jù)(利用統(tǒng)計方法分析數(shù)據(jù));數(shù)據(jù)解釋(結果的講明);得到結論(從數(shù)據(jù)分析中得出客觀結論)。2、統(tǒng)計研究的循環(huán)過程:實際問題收集數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)數(shù)據(jù)解釋實際問題。統(tǒng)計方法描述統(tǒng)計推斷統(tǒng)計參數(shù)可能假設檢驗點可能區(qū)間可能4、描述統(tǒng)計:研究數(shù)據(jù)收集、整理和描述的統(tǒng)計學分支。內(nèi)容:收集數(shù)據(jù);整理數(shù)據(jù);展示數(shù)據(jù);描述性分析。目的:描述數(shù)據(jù)特征;找出數(shù)據(jù)的差不多規(guī)律。5、推斷統(tǒng)計:研究如何利用樣本數(shù)據(jù)來推斷總體
2、特征的統(tǒng)計學分支。內(nèi)容:參數(shù)可能;假設檢驗。目的:對總體特征做出推斷。6、描述統(tǒng)計與推斷統(tǒng)計的關系:反映客觀現(xiàn)象的數(shù)據(jù)總體內(nèi)在的數(shù)量規(guī)律性推斷統(tǒng)計(利用樣本信息和概率論對總體的數(shù)量特征進行可能和檢驗等)概率論(分布理論、大數(shù)定律和中心極限定理等)描述統(tǒng)計(數(shù)據(jù)的收集、整理、顯示和分析等)總體數(shù)據(jù)樣本數(shù)據(jù)7、統(tǒng)計數(shù)據(jù)的類型(1)按計量層次:分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù)(2)按收集方法:觀測數(shù)據(jù)和實驗數(shù)據(jù)(3)按時刻狀況:截面數(shù)據(jù)和時刻序列數(shù)據(jù)8、總體:所研究的全部個體(數(shù)據(jù)) 的集合,其中的每一個個體也稱為元素。分為有限總體和無限總體。樣本:從總體中抽取的一部分元素的集合。構成樣本的元素的數(shù)目
3、稱為樣本容量或樣本量。9、參數(shù):描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值。所關懷的參數(shù)要緊有總體均值()、標準差()、總體比例()等。總體參數(shù)通常用希臘字母表示。10、統(tǒng)計量:用來描述樣本特征的概括性數(shù)字度量,它是依照樣本數(shù)據(jù)計算出來的一些量,是樣本的函數(shù)。所關懷的樣本統(tǒng)計量有樣本均值()、樣本標準差(s)、樣本比例(p)等。樣本統(tǒng)計量通常用小寫英文字母來表示。變量:講明現(xiàn)象某種特征的概念,如商品銷售額、受教育程度、產(chǎn)品的質量等級等。變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù)變量能夠分為:(1)分類變量(講明事物類不的名稱)、順序變量(講明事物有序類不的名稱)和數(shù)值型變量(講明事
4、物數(shù)字特征的名稱)。其中數(shù)值型變量又分離散變量(取有限個值)和連續(xù)變量(能夠取無窮多個值)。(2)經(jīng)驗變量(所描述的是我們周圍能夠觀看到的事物)和理論變量(由統(tǒng)計學家用數(shù)學方法所構造出來的一些變量,比如,z 統(tǒng)計量、t 統(tǒng)計量、2統(tǒng)計量、F 統(tǒng)計量等)。(3)隨機變量和非隨機變量。11、隨機現(xiàn)象的一個特點是:不確定性。隨機現(xiàn)象也存在其固有的量的規(guī)律性,人們把這一規(guī)律性稱為隨機現(xiàn)象的統(tǒng)計規(guī)律性。 對隨機現(xiàn)象的觀看稱為隨機試驗,并簡稱試驗,用以研究隨機現(xiàn)象的統(tǒng)計規(guī)律性。隨機試驗的特點:可重復性、可觀看性和隨機性。統(tǒng)計中的抽樣過程事實上確實是一次隨機試驗。因而能夠利用概率論的技巧來分析推斷統(tǒng)計方法。
5、而樣本領實上確實是隨機變量。12、常見分布:二項分布、幾何分布、指數(shù)分布、正態(tài)分布。13、統(tǒng)計學中泛稱統(tǒng)計量(或樞軸量)的分布為抽樣分布。討論抽樣分布的途經(jīng)有兩種:1)精確地求出抽樣分布,并稱相應地統(tǒng)計推斷為小樣本統(tǒng)計推斷;2) 讓樣本容量趨于無窮,并求出抽樣分布的極限分布。以極限分布作為抽樣分布的近似分布,來對未知參數(shù)進行統(tǒng)計推斷,稱相應的推斷為大樣本統(tǒng)計推斷。14、典型的統(tǒng)計軟件:SPSS、MINITAB、STATISTICA、Excel和SAS。第二章 參數(shù)可能1、可能量:用于可能總體參數(shù)的隨機變量。如樣本均值,樣本比例、樣本方差等。例如:樣本均值確實是總體均值的一個可能量。參數(shù)用 表示
6、,可能量用表示??赡苤担嚎赡軈?shù)時計算出來的統(tǒng)計量的具體值。假如樣本均值=80,則80確實是的可能值。2、可能方法:點可能和區(qū)間可能。其中點可能的方法包括矩可能法、順序統(tǒng)計量法、最大似然法、最小二乘法。3、點可能:用樣本的可能量的某個取值直接作為總體參數(shù)的可能值,例如:用樣本均值直接作為總體均值的可能。一個點可能量的可靠性是由它的抽樣標準誤差來衡量的,這表明一個具體的點可能值無法給出可能的可靠性的度量。4、評價可能量的標準:無偏性(可能量抽樣分布的數(shù)學期望等于被可能的總體參數(shù))、有效性(對同一總體參數(shù)的兩個無偏點可能量,有更小標準差的可能量更有效)和一致性(隨著樣本容量的增大,可能量的值越來越
7、接近被可能的總體參數(shù))。5、區(qū)間可能:在點可能的基礎上,給出總體參數(shù)可能的一個區(qū)間范圍,該區(qū)間由樣本統(tǒng)計量加減可能誤差而得到。依照樣本統(tǒng)計量的抽樣分布能夠對樣本統(tǒng)計量與總體參數(shù)的接近程度給出一個概率度量。7、置信水平:將構造置信區(qū)間的步驟重復專門多次,置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平。表示為,為是總體參數(shù)未在區(qū)間內(nèi)的比例,常用的置信水平值有99%, 95%, 90%,相應的為0.01,0.05,0.10。8、置信區(qū)間:由樣本統(tǒng)計量所構造的總體參數(shù)的可能區(qū)間稱為置信區(qū)間。用一個具體的樣本所構造的區(qū)間是一個特定的區(qū)間,我們無法明白那個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值我們只
8、能是希望那個區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個,但它也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個。9、阻礙區(qū)間寬度的因素:(1)總體數(shù)據(jù)的離散程度,用 來測度。(2)樣本容量n,。(3)置信水平,阻礙 z 的大小。10總體均值的區(qū)間可能(大樣本)1.假定條件總體服從正態(tài)分布, 且方差() 已知假如不是正態(tài)分布,可由正態(tài)分布來近似 (n 30)使用正態(tài)分布統(tǒng)計量 z 總體均值 在1- 置信水平下的置信區(qū)間為總體均值的區(qū)間可能(正態(tài)總體、未知、小樣本)1.假定條件總體服從正態(tài)分布,但方差() 未知小樣本 (n ”或“”的假設檢驗,稱為單側檢驗或單尾檢驗(one-tailed test)。備擇
9、假設的方向為“”,稱為右側檢驗。7、假設檢驗中的兩類錯誤:第類錯誤(棄真錯誤),原假設為正確時拒絕原假設,第類錯誤的概率記為;第類錯誤(取偽錯誤),原假設為錯誤時未拒絕原假設,第類錯誤的概率記為。和 的關系就像翹翹板,小 就大, 大 就小,要同時減少兩類錯誤的惟一方法是增加樣本容量。由于犯第類錯誤的概率是能夠由研究者操縱的,因此在假設檢驗中,人們往往先操縱第類錯誤的發(fā)生概率。8、阻礙 錯誤的因素:總體參數(shù)的真值;顯著性水平;總體標準差 ;樣本容量 n。9、檢驗能力:正確拒絕一個錯誤的原假設的能力。 是指沒有拒絕一個錯誤的原假設的概率。這也確實是講,1- 則是指拒絕一個錯誤的原假設的概率,那個概
10、率被稱為檢驗能力,也被稱為檢驗的勢或檢驗的功效。10、顯著性水平:表示總體中某一類數(shù)據(jù)出現(xiàn)的經(jīng)常程度。是一個概率值,原假設為真時,拒絕原假設的概率,即抽樣分布的拒絕域。表示為 ,常用的 值有0.01, 0.05, 0.10,由研究者事先確定。11、拒絕原假設,表示如此的樣本結果并不是偶然得到的;不拒絕原假設(拒絕原假設的證據(jù)不充分) ,則表示如此的樣本結果只是偶然得到的。12、檢驗統(tǒng)計量:依照樣本觀測結果計算得到的,并據(jù)以對原假設和備擇假設做出決策的某個樣本統(tǒng)計量。13、P 值被稱為觀看到的(或實測的)顯著性水平。決策規(guī)則:若p值, 拒絕 H0。14、P 值決策與統(tǒng)計量的比較:用P值進行檢驗比
11、依照統(tǒng)計量檢驗提供更多的信息;統(tǒng)計量檢驗是我們事先給出的一個顯著性水平,以此為標準進行決策,無法明白實際的顯著性水平究竟是多少。15、假設檢驗步驟:(1)陳述原假設和備擇假設(2)從所研究的總體中抽出一個隨機樣本(3)確定一個適當?shù)臋z驗統(tǒng)計量,并利用樣本數(shù)據(jù)算出其具體數(shù)值(4)確定一個適當?shù)娘@著性水平,并計算出其臨界值,指定拒絕域(5)將統(tǒng)計量的值與臨界值進行比較,做出決策第四章 非參數(shù)檢驗1、無需假定總體分布的具體形式,僅僅依靠于數(shù)據(jù)觀測值的相對大小(秩)或零假設下等可能的概率等和數(shù)據(jù)本身的具體總體分布無關的性質進行的檢驗都稱為非參數(shù)檢驗。參數(shù)檢驗與非參數(shù)檢驗的比較:在總體分布形式已知時,非
12、參數(shù)檢驗不如傳統(tǒng)方法效率高。這是因為非參數(shù)方法利用的信息要少些。往往在傳統(tǒng)方法能夠拒絕零假設的情況,非參數(shù)檢驗無法拒絕。但非參數(shù)統(tǒng)計在總體未知時效率要比傳統(tǒng)方法要高,有時要高專門多。是否用非參數(shù)統(tǒng)計方法,要依照對總體分布的了解程度來確定。2. 單樣本非參數(shù)檢驗的方法(1)卡方檢驗卡方擬合優(yōu)度檢驗的原理與計算步驟原理:推斷樣本觀看頻數(shù)(Observed frequency)與理論(期望)頻數(shù)(Expected frequency )之差是否由抽樣誤差所引起。計算步驟:(1) :樣本的總體分布與該理論分布無區(qū)不 :樣本與該理論分布有區(qū)不 (2)列出各組的實際頻數(shù)與理論頻數(shù) (3) Pearson
13、統(tǒng)計量 自由度 v = k-1-(計算理論分布時所用參數(shù)的個數(shù))(4) 確定概率并作出統(tǒng)計推論。擬合優(yōu)度卡方檢驗的問題分組不同,擬合的結果可能不同。需要有足夠的樣本含量。關于連續(xù)型變量的擬合優(yōu)度,卡方檢驗并不是理想的方法。 (2)二項分布檢驗(3)K-S檢驗查找最大距離(Distance),因此常簡稱為D法。適用于大樣本。具體做法: 比較實際頻數(shù)與理論頻數(shù)的累積概率間的差距,找出最大距離D,依照D值來推斷實際頻數(shù)分布是否服從理論頻數(shù)分布。2、單樣本非參檢驗方法的比較:(1)卡方檢驗一般要求待檢驗樣本有較大的樣本容量,比較適合于分析實際頻數(shù)與某理論頻數(shù)是否相符。(2)二項分布檢驗只能作二項分布檢
14、驗。(3)單樣本K-S檢驗比較適合于連續(xù)型數(shù)據(jù)的分析,其檢驗功效比較強。二、關于隨機性的游程檢驗(run test) 游程檢驗方法是檢驗一個取兩個值的變量的這兩個值的出現(xiàn)是否是隨機的。假定下面是由0和1組成的一個這種變量的樣本:0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0其中相同的0(或相同的1)在一起稱為一個游程(單獨的0或1也算)。那個數(shù)據(jù)中有4個0組成的游程和3個1組成的游程。一共是R=7個游程。其中0的個數(shù)為m=15,而1的個數(shù)為n=10。 3、兩個獨立樣本的非參數(shù)檢驗:在對總體分布不了解的情況下,通過分析樣本數(shù)據(jù),推斷樣本來自的兩
15、個獨立總體的分布是否存在顯著差異,一般推斷兩個獨立總體的均值或中位數(shù)是否存在顯著差異。方法:(1)Wilcoxon-Mann-Whitney U檢驗 (2)兩獨立樣本的KS檢驗(3)兩獨立樣本的游程檢驗(Wald-Wolfwitz Runs)(4)兩獨立樣本的極端反應檢驗(Moses Extreme Reactions)4、多個獨立樣本的非參數(shù)檢驗:在對總體分布不了解的情況下,通過分析樣本數(shù)據(jù),推斷樣本來自的多個獨立總體的分布是否存在顯著差異,一般推斷多個獨立總體的均值或中位數(shù)是否存在顯著差異。方法:(1)KW檢驗(2)中位數(shù)檢驗 (3)Jonkheere-Terpstra檢驗5、兩配對樣本的
16、非參數(shù)檢驗:在對總體分布不了解的情況下,通過分析樣本數(shù)據(jù),推斷樣本來自的兩個相關配對總體的分布是否存在顯著差異。方法:(1)McNcmar變化顯著性檢驗:將研究對象自身作為對比者,檢驗其“前后”的變化是否顯著。要求樣本數(shù)據(jù)是二值。(2)符號檢驗(3)Wilcoxon符號平均秩檢驗列聯(lián)表6、相關系數(shù):22 列聯(lián)表中數(shù)據(jù)的相關程度,絕對值在 01之間。列聯(lián)相關系數(shù):大于 22 列聯(lián)表中數(shù)據(jù)的相關程度,0 C 1。V 相關系數(shù):V 的取值范圍為 0 V 1,V = 0 表明列聯(lián)表的兩個變量獨立,V1 則表明兩個變量完全相關。第五章 方差分析1、方差分析是通過對誤差的分析,檢驗多個總體均值是否相等的一
17、種統(tǒng)計方法。它分為單因素方差分析和雙因素方差分析。方差分析通過對數(shù)據(jù)誤差來源的分析推斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數(shù)據(jù)誤差的來源。2、兩類誤差:隨機誤差和系統(tǒng)誤差。3、組內(nèi)平方和:因素的同一水平下數(shù)據(jù)誤差的平方和,只包含隨機誤差。組間平方和:因素的不同水平之間數(shù)據(jù)誤差的平方和,既包括隨機誤差,也包括系統(tǒng)誤差。均方:平方和除以相應的自由度。4、方差分析的差不多假定:(1)每個總體都應服從正態(tài)分布(2)各個總體的方差必須相同(3)觀看值是獨立的5、單因素方差分析步驟:(1)提出假設(2)構造檢驗統(tǒng)計量(3)統(tǒng)計決策6、構造統(tǒng)計量需要計算:水平的均值;全部觀看值的總均值;誤
18、差平方和;均方。7、變量間關系的強度用自變量平方和(SSA) 占總平方和(SST)的比例大小來反映,記為R2。其平方根R就能夠用來測量兩個變量之間的關系強度。8、多重比較(通過對總體均值之間的配對比較來進一步檢驗到底哪些均值之間存在差異)的步驟:(1)提出假設。(2)計算檢驗的統(tǒng)計量()。(3)計算LSD。(4)做成決策決策。9、雙因素方差分析:按兩個因素對試驗結果的阻礙是否相互獨立分為無交互作用的雙因素方差分析或無重復雙因素方差分析和有交互作用的雙因素方差分析或可重復雙因素方差分析。第七章 相關分析與回歸分析1、變量之間的兩類關系:確定性關系(函數(shù)關系)和非確定性關系(相關關系)。相關關系分
19、為:線性相關和非線性相關;完全相關和不相關。線性相關和完全相關又可分為正相關和負相關。2、在進行相關分析時,對總體有以下兩個要緊假定:兩個變量之間是線性關系和兩個變量差不多上隨機變量。3、相關系數(shù)(correlation coefficient):度量變量之間關系強度的一個統(tǒng)計量。對兩個變量之間線性相關強度的度量稱為簡單相關系數(shù)。若相關系數(shù)是依照總體全部數(shù)據(jù)計算的,稱為總體相關系數(shù),記為。若相關系數(shù)是依照樣本數(shù)據(jù)計算的,則稱為樣本相關系數(shù),簡稱為相關系數(shù),記為 r,也稱為線性相關系數(shù)(linear correlation coefficient) 或稱為Pearson相關系數(shù) (Pearson
20、s correlation coefficient) 。4、相關系數(shù)的性質(1)r 的取值范圍是 -1,1,|r|越趨于1表示關系越強;|r|越趨于0表示關系越弱,r = 0,不存在線性相關關系。(2)r具有對稱性。即x與y之間的相關系數(shù)和y與x之間的相關系數(shù)相等,即rxy= ryx。(3)r數(shù)值大小與x和y原點及尺度無關,即改變x和y的數(shù)據(jù)原點及計量尺度,并不改變r數(shù)值大小。(4)僅僅是x與y之間線性關系的一個度量,它不能用于描述非線性關系。這意味著, r=0只表示兩個變之間不存在線性相關關系,并不講明變量之間沒有任何關系。(5)r盡管是兩個變量之間線性關系的一個度量,卻不一定意味著x與y一
21、定有因果關系。5、相關系數(shù)的經(jīng)驗解釋:|r|0.8時,可視為兩個變量之間高度相關;0.5|r|0.8時,可視為中度相關;0.3|r|0.5時,視為低度相關;|r|t,拒絕H0;若tF ,拒絕H0;若FF ,不拒絕H0)。第九、十章 主成分分析和因子分析1、主成分分析是把各變量之間互相關聯(lián)的復雜關系進行簡化分析的方法?;谙嚓P系數(shù)矩陣依舊基于協(xié)方差矩陣做主成分分析。假如變量有不同的量綱,則必須基于相關系數(shù)矩陣進行主成分分析。不同的是計算得分時應采納標準化后的數(shù)據(jù)。主成分應滿足如下的條件:(1)每個主成分的系數(shù)平方和為1。(2)主成分之間相互獨立,即無重疊的信息。(3)主成分的方差依次遞減,重要性依次遞減。主成分的性質一、均值二、方差為所有特征根之和 講明主成分分析把P個隨機變量的總方差分解成為P個不相關的隨機變量的方差之和。 協(xié)方差矩陣的對角線上的元素之和等于特征根之和。2、主成分個數(shù)的選?。海?)累積貢獻率達到85%以上(2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吊頂材料合同范例
- 衛(wèi)生用品合同范本
- 下水管改造合同范本
- eve快遞合同范本
- 合作開賓館合同范本
- 衛(wèi)浴倉庫用工合同范本
- 區(qū)域包干合同范本
- 住戶拆遷補償合同范例
- 鹵菜素菜采購合同范本
- 制沙機合同范本
- 2024解析:第八章牛頓第一定律、二力平衡-基礎練(解析版)
- 《傳媒法的原則》課件
- 2024解析:第十三章內(nèi)能-基礎練(解析版)
- 2024年網(wǎng)格員考試題庫含答案
- GB/Z 44047-2024漂浮式海上風力發(fā)電機組設計要求
- (完整)2019年風廉政建設主體責任落實情況監(jiān)督檢查記錄表
- 《selenium安裝教程》課件
- 2024年遼寧省中考數(shù)學真題卷及答案解析
- 絕句遲日江山麗說課稿
- 物業(yè)員工安全知識教育培訓
- 動物性食品衛(wèi)生檢驗教案2
評論
0/150
提交評論