統(tǒng)計學第六版-人大版-復習筆記0001_第1頁
統(tǒng)計學第六版-人大版-復習筆記0001_第2頁
統(tǒng)計學第六版-人大版-復習筆記0001_第3頁
統(tǒng)計學第六版-人大版-復習筆記0001_第4頁
統(tǒng)計學第六版-人大版-復習筆記0001_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、統(tǒng)計學原理期末考試試題類型及結構1、單項選擇題: 30 分??己藢靖拍畹睦斫夂陀嬎惴椒ǖ膽谩?、判斷題: 10 分。考核對基本理論、基本概念的記憶和理解。3、簡答題: 30 分??己藢靖拍睢⒒纠碚?、基本方法的理解和掌握情況。4、計算題: 30 分??己藢居嬎惴椒ǖ睦斫?、掌握程度及綜合應用能力。二、期末考試形式及答題時限期末考試形式為閉卷筆試;答題時限為 90 分鐘;可以攜帶計算器。三、各章復習內容期末復習資料:教材、學習指導書習題、作業(yè)第一章 統(tǒng)計總論1. 理解統(tǒng)計學的含義 答:收集、處理、分析、解釋數據并從數據中得出結論的科學(收集數據:取得數據;處理數 據:整理與圖表展

2、示; 分析數據:利用統(tǒng)計方法分析數據 ;數據解釋:結果的說明; 得到結論: 從數據分析中得出客觀結論)第二章 數據的搜集1. 數據的來源答:( 1)數據的間接來源: 系統(tǒng)外部的數據( 統(tǒng)計部門和政府部門公布的有關資料,如各類統(tǒng) 計年鑒、各類經濟信息中心、信息咨詢機構、專業(yè)調查機構等提供的數據、各類專業(yè)期刊、報 紙、書籍所提供的資料、各種會議,如博覽會、展銷會、交易會及專業(yè)性、學術性研討會上交 流的有關資料、從互聯網或圖書館查閱到的相關資料) 系統(tǒng)內部的數據 (業(yè)務資料,如與業(yè)務 經營活動有關的各種單據,記錄、經營活動過程中的各種統(tǒng)計報表、各種財務,會計核算和分 析資料等) (2) 數據的直接來

3、源 (原始數據 ) 調查數據 實驗數據2. 收集數據的基本方法:調查的數據(自填式、面訪式、電話式) ;實驗的數據3. 抽樣誤差:由于抽樣的隨機性所帶來的誤差;所有樣本可能的結果與總體真值之間的平均 性差異;影響抽樣誤差的大小的因素(樣本量的大小、總體的變異性)重點 :數據來源、數據搜集方法、抽樣誤差第三章 數據的圖表展示重點:熟悉條形圖、直方圖、餅圖、環(huán)形圖、箱線圖、線圖等品質數據數據類型數值型數據匯總表 原始數據 分組數據 時序數據多元數據線圖1. 對分類數據和順序數據主要是作分類整理;對數值型數據則主要是作分組整理2. 適合于低層次數據的整理和顯示方法也適合于高層次的數據; 但適合于高層

4、次數據的整理和顯 示方法并不適合于低層次的數據3. 分類數據的圖示條形圖: 用寬度相同的條形的高度或長短來表示各類別數據的圖形; 有單式 條形圖、 復式條形圖等形式; 主要用于反映分類數據的頻數分布, 繪制時,各類別可以放在縱軸, 稱為條形圖,也可以放在橫軸,稱為柱形圖4. 分類數據的圖示帕累托圖: 按各類別數據出現的頻數多少排序后繪制的柱形圖; 主要用于展 示分類數據的分布5. 分類數據的圖示餅圖:也稱圓形圖,是用圓形及圓內扇形的角度來表示數值大小的圖形;主 要用于表示樣本或總體中各組成部分所占的比例,用于研究結構性問題;繪制圓形圖時,樣本或 總體中各部分所占的百分比用圓內的各個扇形角度表示

5、, 這些扇形的中心角度, 按各部分數據百 分比乘以 360 度確定。6. 環(huán)形圖: 中間有一個 “空洞”,樣本或總體中的每一部分數據用環(huán)中的一段表示; 與餅圖類似, 但又有區(qū)別 (餅圖只能顯示一個總體各部分所占的比例; 環(huán)形圖則可以同時繪制多個樣本或總體 的數據系列,每一個樣本或總體的數據系列為一個環(huán)) ;用于結構比較研究;用于展示分類和順 序數據7. 數值型數據 A組距分組:將變量值的一個區(qū)間作為一組;適合于連續(xù)變量;適合于變量值較多的情況;需要 遵循“不重不漏”的原則;可采用等距分組,也可采用不等距分組B直方圖:用于展示分組數據分布的一種圖形;用矩形的寬度和高度來表示頻數分布(本質上是 用

6、矩形的面積來表示頻數分布) ;在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率, 各組與相應的頻數就形成了一個矩形,即直方圖。C 直方圖與條形圖的區(qū)別 :條形圖是用條形的長度 ( 橫置時 ) 表示各類別頻數的多少,其寬度 ( 表 示類別 ) 則是固定的;直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或百 分比,寬度則表示各組的組距,其高度與寬度均有意義;直方圖的各矩形通常是連續(xù)排列,條形 圖則是分開排列;條形圖主要用于展示分類數據,直方圖則主要用于展示數值型數據。 D未分組數據莖葉圖:用于顯示未分組的原始數據的分布;由“莖”和“葉”兩部分構成,其 圖形是由數字組成的;以該組數

7、據的高位數值作樹莖,低位數字作樹葉;樹葉上只保留最后一位 數字;莖葉圖類似于橫置的直方圖,但又有區(qū)別(直方圖可觀察一組數據的分布狀況,但沒有給 出具體的數值、莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的 信息、直方圖適用于大批量數據,莖葉圖適用于小批量數據)E未分組數據箱線圖: 用于顯示未分組的原始數據的分布; 由一組數據的 5 個特征值繪制而成, 它由一個箱子和兩條線段組成; 繪制方法(首先找出一組數據的 5個特征值,即最大值、 最小值、 中位數 Me和兩個四分位數 ( 下四分位數 QL和上四分位數 QU)連接兩個四分位數畫出箱子,再將 兩個極值點與箱子相連接)F時

8、間序列數據線圖:表示時間序列數據趨勢的圖形;時間一般繪在橫軸,數據繪在縱軸;圖 形的長寬比例大致為 10 : 7第四章 數據的概括性度量(計算章節(jié))重點 : 眾數、中位數、分位數、平均數、方差(計算) ;自由度、偏態(tài)、峰態(tài)等1. 離中趨勢:數據分布的另一個重要特征;反映各變量值遠離其中心值的程度(離散程度 );從另一個側面說明了集中趨勢測度值的代表程度;不同類型的數據有不同的離散程度測度值。2. 自由度: 自由度是指數據個數與附加給獨立的觀測值的約束或限制的個數之差;從字面涵義 來看,自由度是指一組數據中可以自由取值的個數;當樣本數據的個數為n 時,若樣本平均數確定后,則附加給 n 個觀測值的

9、約束個數就是 1 個,因此只有 n-1 個數據可以自由取值,其中 必有一個數據不能自由取值;按著這一邏輯,如果對 n 個觀測值附加的約束個數為 k 個,自由 度則為 n-k3. 偏態(tài):統(tǒng)計學家 Pearson 于 1895 年首次提出;數據分布偏斜程度的測度;偏態(tài)系數=0 為對稱分布、偏態(tài)系數 0 為右偏分布、偏態(tài)系數 0 為左偏分布、偏態(tài)系數大于 1 或小于 -1 ,被 稱為高度偏態(tài)分布;偏態(tài)系數在 0.51 或-1-0.5 之間,被認為是中等偏態(tài)分布;偏態(tài)系數 越接近 0,偏斜程度就越低。4. 峰態(tài):統(tǒng)計學家 Pearson 于 1905 年首次提出;數據分布扁平程度的測度;峰態(tài)系數=0

10、扁平峰度適中、峰態(tài)系數 0 為尖峰分布。數據分布 特征第五章 概率與概率分布 重點:概率的性質、 概率的加法法則、 條件概率與獨立事件、期望、方差、正態(tài)分布 加法公式P ( AB ) = P ( A ) + P ( B ) - P ( AB ) 乘積公式: P(AB)=P(B)P(A|B) ,或 P(AB)=P(A)P(B|A) 獨立公式: P(AB)=P(A)P(B)(1) 概率的性質1. 非負性 a) 對任意事件 A,有 0 P(A) 12. 規(guī)范性a) 必然事件的概率為 1;不可能事件的概率為 0。即 P () = 1 ; P () = 03. 可加性a) 若A與B互斥,則 P ( AB

11、 ) = P ( A ) + P ( B )b) 推廣到多個兩兩互斥事件 A1,A2, An,有 P( A1A2 An) = P( A1) + P (A2 ) + + P (An )(2) 條件概率:在事件 B已經發(fā)生的條件下,求事件 A發(fā)生的概率,稱這種概率為事件 B發(fā) 生條件下事件 A發(fā)生的條件概率,記為 P(A|B) =P(AB)P(B)(3) 事件的獨立性:一個事件的發(fā)生與否并不影響另一個事件發(fā)生的概率,則稱兩個事件獨立;若事件 A與 B獨立,則 P(B|A)=P(B), P(A| B)= P( A) ;此時概率的乘法公式可簡 化為 P( AB)= P( A) P( B) 推廣到 n個

12、獨立事件,有 P(A1 A2 An)= P( A1 ) P( A2) P(An)4) 離散型隨機變量的數學期望 : 在離散型隨機變量 X 的一切可能取值的完備組中, 各可能 取值 xi 與其取相對應的概率 pi 乘積之和 ; 描述離散型隨機變量取值的集中程度 ; 計算公 式為5) 離散型隨機變量的方差 : 隨機變量 X 的每一個取值與期望值的離差平方和的數學期望, 記為 D(X); 描述離散型隨機變量取值的分散程度 ; 計算公式為6) 正態(tài)分布函數的性質 : 概率密度函數在 x 的上方,即 f ( x)0; 正態(tài)曲線的最高點在均值 ,它也是分布的中位數和眾數 ; 正態(tài)分布是一個分布族,每一特定

13、正態(tài)分布通過均值 和標準差 來區(qū)分。 決定了圖形的中心位置 , 決定曲線的平緩程度,即寬度 ; 曲線 f(x) 相對于均值 對稱,尾端向兩個方向無限延伸, 且理論上永遠不會與橫軸相交 ; 正態(tài) 曲線下的總面積等于 1; 隨機變量的概率由曲線下的面積給出( 描述連續(xù)型隨機變量的 最重要的分布)第 六 章 統(tǒng)計量及其抽樣分布重點: 統(tǒng)計量, 2分布,t 分布,F 分布1. 統(tǒng)計量:設 X1,X2,Xn是從總體 X中抽取的容量為 n 的一個樣本,如果由此樣本構造一個函 數 T(X1, X2, ,Xn) ,不依賴于任何未知參數,則稱函數T(X1, X2, ,Xn)是一個統(tǒng)計量(樣本均值、樣本比例、樣本

14、方差等都是統(tǒng)計量)統(tǒng)計量是樣本的一個函數; 統(tǒng)計量是統(tǒng)計推斷的基礎2. 2 分布:由阿貝 (Abbe) 于 1863 年首先給出,后來由海爾墨特 (Hermert) 和卡皮爾遜 (KPearson) 分別于 1875 年和 1900 年推導出來; 分布的變量值始終為正; 分布的形狀取決 于其自由度 n 的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱;期望 為:E( 2)= n,方差為: D( 2)=2 n( n為自由度 )3. t 分布:高塞特 (W.S.Gosset) 于 1908 年在一篇以“ Student ”(學生 ) 為筆名的論文中首次提 出; t 分布是類似正態(tài)分布

15、的一種對稱分布,它通常要比正態(tài)分布平坦和分散;一個特定的 分布依賴于稱之為自由度的參數。隨著自由度的增大,分布也逐漸趨于正態(tài)分布。4. F 分布:由統(tǒng)計學家費希爾 (R.A.Fisher) 提出的,以其姓氏的第一個字母來命名。5. 中心極限定理:從均值為 ,方差為 2的一個任意總體中抽取容量為 n的樣本,當 n 充分大 時,樣本均值的抽樣分布近似服從均值為、方差為 2/ n 的正態(tài)分布。第 七 章 參數估計重點:置信區(qū)間1. 置信水平:將構造置信區(qū)間的步驟重復很多次,置信區(qū)間包含總體參數真值的次數所占的比 例稱為置信水平 ;表示為 (1 - a) %(a 為是總體參數未在區(qū)間內的比例 )常用的

16、置信水 平值有 99%, 95%, 90% (相應的 a 為 0.01 , 0.05 , 0.10 )2. 置信區(qū)間:由樣本統(tǒng)計量所構造的總體參數的估計區(qū)間稱為置信區(qū)間;統(tǒng)計學家在某種程度 上確信這個區(qū)間會包含真正的總體參數,所以給它取名為置信區(qū)間;用一個具體的樣本所構 造的區(qū)間是一個特定的區(qū)間,我們無法知道這個樣本所產生的區(qū)間是否包含總體參數的真值 我們只能是希望這個區(qū)間是大量包含總體參數真值的區(qū)間中的一個,但它也可能是少數幾個不包含參數真值的區(qū)間中的一個; 總體參數以一定的概率落在這一區(qū)間的表述是錯誤的3. 常用置信水平 Za/2 值置信水平Aa/2Za/2900.10.051.64595

17、0.050.0251.96990.010.0052.58第 八 章 假設檢驗 重點:原假設、備擇假設、假設檢驗的流程、均值檢驗等1. 原假設: 待檢驗的假設, 又稱“0 假設”;研究者想收集證據予以反對的假設; 總是有等號 =, 或 3 表示為 H0( H0: m = 某一數值 ;指定為 = 號,即 或 3;例如, H 0:m = 3190 (克)2. 備擇假設:與原假設對立的假設,也稱“研究假設”;研究者想收集證據予以支持的假設總 是有不等號 : 1, 表示為 H1 H1:m 某一數值 例如, H1:m 3910( 克) 。3. 假設檢驗中的兩類錯誤: 1. 第一類錯誤(棄真錯誤) 原假設為

18、真時拒絕原假設;會產生一 系列后果;第一類錯誤的概率為 a; 被稱為顯著性水平 2. 第二類錯誤(取偽錯誤); 原假 設為假時接受原假設;第二類錯誤的概率為 b (Beta)4. 假設檢驗的流程: 提出假設、確定適當的檢驗統(tǒng)計量、規(guī)定顯著性水平、計算檢驗統(tǒng)計量的 值、做出統(tǒng)計決策。5. 顯著性水平 a:1. 是一個概率值;原假設為真時,拒絕原假設的概率;被稱為抽樣分布的拒 絕域;表示為 a (alpha) ;常用的 a 值有 0.01, 0.05, 0.10 ;由研究者事先確定6. 總體均值的檢驗:(選擇題:已知 -Z 統(tǒng)計量;未知 -T 統(tǒng)計量)第 九 章 分類數據分析重點:列聯表、相關系數

19、1. 列聯表:由兩個以上的變量交叉分類的頻數分布表 ;行變量的類別用 r 表示, r i 表示第 i 個類別 ;列變量的類別用 c 表示, cj 表示第 j 個類別 ;每種組合的觀察頻數用 f ij 表示 ; 表中列出了行變量和列變量的所有可能的組合,所以稱為列聯表; 一個 r 行 c 列的列聯表稱為 r c 列聯表2. 列聯表中的相關測量: 品質相關 -對品質數據 (分類和順序數據 ) 之間相關程度的測度; 列聯表 相關測量的統(tǒng)計量主要有( 相關系數、列聯相關系數、 V 相關系數)3. 相關系數:測度 2 2 列聯表中數據相關程度;對于 2 2 列聯表, 系數的值在 01 之間4. 列聯相關

20、系數: C 的取值范圍是 0 CFa 則拒絕原假設 HO 結論:表明有顯著差異第 11 章 一元線性回歸重點:相關系數、回歸方程相關系數 :度量變量之間關系強度的一個統(tǒng)計量 ;對兩個變量之間線性相關強度的度量稱為簡單 相關系數 ;若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為 ;若是根據樣本 數據計算的,則稱為樣本相關系數,簡稱為相關系數,記為 r相關系數的性質: r 的取值范圍是 -1,1 |r |=1 ,為完全相關 r =1,為完全正相關r =-1,為完全負正相關 r = 0,不存在 線性相關關系 -1 r 0,為負相關 0 r 1,為正相關 | r | 越趨于 1 表示關系越

21、強; | r|越趨于 0 表示關系越弱回歸方程: 描述 y 的平均值或期望值如何依賴于 x 的方程稱為回歸方程 一元線性回歸方程的形式如下E( y ) = 0+ 1 x? 方程的圖示是一條直線,也稱為直線回歸方程? 0 是回歸直線在 y 軸上的截距,是當 x=0 時 y 的期望值? 1 是直線的斜率,稱為回歸系數,表示當x 每變動一個單位時, y 的平均變動值第 12 章 多元線性回歸重點:多重共線性、回歸方程1. 多重共線性:回歸模型中兩個或兩個以上的自變量彼此相關;多重共線性帶來的問題有:可 能會使回歸的結果造成混亂, 甚至會把分析引入歧途; 可能對參數估計值的正負號產生影響, 特別是各回歸系數的正負號有可能同預期的正負號相反2. 多重共線性情況:模型中各對自變量之間顯著相關;當模型的線性關系(F 檢驗)顯著時,幾乎所有回歸系數的 t 檢驗卻不顯著;回歸系數的正負號與預期的相反時間序列分析和預測第 13 章重點 :時間序列類別、成分、預測方法1. 時間序列分類2. 時間序列的成分3. 預測方法的選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論