




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、統(tǒng)計學(xué)筆記 統(tǒng)計學(xué)筆記(精修版) 緒論 第一節(jié)統(tǒng)計學(xué)的含義和作用 一、什么是統(tǒng)計學(xué) 1. 統(tǒng)計學(xué)的含義 統(tǒng)計學(xué)是有效收集、處理、分析和解釋數(shù)據(jù), 發(fā)現(xiàn)規(guī)律,以便更好決策的一門方法論學(xué)科。 ? 2.分析數(shù)據(jù)的方法有描述統(tǒng)計、推斷統(tǒng)計。 描述統(tǒng)計 描述統(tǒng)計是將所收集的數(shù)據(jù)處理后,用數(shù)值、 表格或圖形形式表現(xiàn)的有用信息。 描述統(tǒng)計是基礎(chǔ),它為推斷統(tǒng)計、統(tǒng)計咨詢、 統(tǒng)計決策提供必要 推斷統(tǒng)計就是根據(jù)樣本數(shù)據(jù)特征去估計或檢 驗總體的數(shù)據(jù)特征。 二、統(tǒng)計學(xué)的作用和重要性 1. 統(tǒng)計學(xué)的作用 人們用數(shù)據(jù)發(fā)現(xiàn)的規(guī)律做出更好的決策。 2. 要發(fā)現(xiàn)規(guī)律,對統(tǒng)計數(shù)據(jù)通常有要求:客觀性、 適用性、準(zhǔn)確性和及時性。 三
2、、統(tǒng)計學(xué)是如何解決實際問題的? 統(tǒng)計學(xué)解決實際問題的基本思路是: 提出與統(tǒng)計有關(guān)的實際問題; 建立有效的指標(biāo)體系; 收集數(shù)據(jù); 選用或創(chuàng)造有效的統(tǒng)計方法處理、顯 示所收集數(shù)據(jù)的特征; 根據(jù)所收集數(shù)據(jù)的特征、結(jié)合定性、 定量知識作出總體特征的合理推斷; 根據(jù)推斷給出更好決策的建議; 不解決問題時,重復(fù)第-步。 第二節(jié)統(tǒng)計學(xué)的基本概念 ? 一、總體、單位和樣本 1. 總體 統(tǒng)計總體是根據(jù)一定目的確定的,由客觀存在 的、具有某種同質(zhì)性的許多個別事物構(gòu)成的整 體。 同質(zhì)性是確定統(tǒng)計總體的基本標(biāo)準(zhǔn), 它是根據(jù) 統(tǒng)計的研究目的而定的。研究目的不同,所確定 的總體也不同,其同質(zhì)性的意義也隨之變化。 統(tǒng)計總體
3、還應(yīng)具備大量性,即統(tǒng)計總體應(yīng)應(yīng)該 由足夠數(shù)量的同質(zhì)性單位構(gòu)成。 2. 總體單位(簡稱單位)是組成總體的各個個體。 如典型案例1中英軍的每架戰(zhàn)機(jī);事例4中的每 個居民。 3. 由總體的部分單位組成的集合稱為樣本 (又稱 子樣)。構(gòu)成樣本的單位稱為樣品,樣本中樣品 的數(shù)目稱為樣本容量。 4. 統(tǒng)計學(xué)解決問題的目的是認(rèn)識總體的數(shù)據(jù)特 征。但是,當(dāng)調(diào)查是破壞性的,或者出于成本、 時間等因素考慮時, 不必要或不可能對構(gòu)成總體 的所有單位都進(jìn)行調(diào)查。 ? 二、標(biāo)志、指標(biāo) ( 參數(shù) ) 和統(tǒng)計量 1. 標(biāo)志: (1) 總體單位普遍具有的屬性或特征稱為標(biāo)志。 (2) 標(biāo)志按其表現(xiàn)分為品質(zhì)標(biāo)志和數(shù)量標(biāo)志兩 種。
4、 ? 品質(zhì)標(biāo)志表明 單位屬性方面 的特征 , 品質(zhì)標(biāo) 志的表現(xiàn) 只能用非數(shù)值來描述 . (如:典型案例 1 中英軍戰(zhàn)機(jī)的類型,事例 4中 每個居民的性別。 ) ? 數(shù)量標(biāo)志表明單位數(shù)量方面的特征 , 其表現(xiàn) 用數(shù)值來描述 (如: 典型案例 1 中英軍戰(zhàn)機(jī)的彈孔位置,事例 4 中每個居民的收入。 ) 2. 參數(shù)(標(biāo)志) 統(tǒng)計總體具有的數(shù)量特征的概念和數(shù)值稱為 統(tǒng)計指標(biāo),也稱為參數(shù)。 統(tǒng)計指標(biāo)由兩項基本要素構(gòu)成,即指標(biāo)的概念 和指標(biāo)的取值。 (指標(biāo)的概念是對所研究現(xiàn)象本質(zhì)的抽象概括, 也是對總體數(shù)量特征的質(zhì)的規(guī)定性。) (例如事例4中居民人口數(shù)100萬人,總收入31.4 億元。) 統(tǒng)計指標(biāo)按表示形
5、式可以分為數(shù)量指標(biāo)和質(zhì) 量指標(biāo) 凡是反映現(xiàn)象總規(guī)模、總水平的統(tǒng)計指標(biāo)稱為 數(shù)量指標(biāo),用絕對數(shù)來表示。例如事例4中居民 總數(shù)100萬人、總收入31.4億元等, 凡是反映現(xiàn)象相對水平和工作質(zhì)量的統(tǒng)計指 標(biāo)稱為質(zhì)量指標(biāo),用相對數(shù)或平均數(shù)來表示例 如企業(yè)職工平均工資5000元、工人出勤率93% 等。質(zhì)量指標(biāo)是總量指標(biāo)的派生指標(biāo),以反映現(xiàn) 象之間的內(nèi)在聯(lián)系和對比關(guān)系。 單個指標(biāo)不能反映總體的全貌,這便需要設(shè)立 指標(biāo)體系。統(tǒng)計指標(biāo)體系是由一系列相互聯(lián)系的 統(tǒng)計指標(biāo)組成的有機(jī)整體,用以反映所研究現(xiàn)象 各方面相互依存相互制約的關(guān)系。 3. 統(tǒng)計量 統(tǒng)計量是樣本觀測量的一個已知函數(shù) , 用來說 明樣本的特征。是
6、樣本觀測量的一個已知函數(shù) , 用來說明樣本的特征。 抽取的樣本不同,統(tǒng)計量的觀測值也就不同。 如樣本平均數(shù)、樣本方差、樣本比例是統(tǒng)計量 , 抽取樣本后 , 人們通常用與總體參數(shù)對應(yīng)的統(tǒng)計 量觀測值 , 作為總體參數(shù)的估計 . ( 如某汽車制造企業(yè)從生產(chǎn)的一批轎車中抽取了 16 輛轎車,用這些轎車的平均行駛里程值、合 格率值分別作為該批轎車平均行駛里程、 合格率 的估計。 ) 三、數(shù)據(jù) ? (一)變量與變量值 1. 即說明現(xiàn)象的某一事實或數(shù)量的特征稱為變 量,將上述標(biāo)志、 指標(biāo)和統(tǒng)計量的名稱進(jìn)行歸納 就是變量。 2. 變量的具體表現(xiàn)是變量值, 數(shù)據(jù)就是變量及其 表現(xiàn),也可稱為反映客觀事物的事實或
7、數(shù)量依 據(jù)。 如: 收入是一個變量,收入的表現(xiàn)是變量值。 3. 將 在特定研究過程中收集的所有數(shù)據(jù)集合在 一起,稱為數(shù)據(jù)集。 4. 根據(jù)變量值的確定與否, 變量分為確定性變量 (受確定性因素影響, 因素是明確的,可解釋, 可控制的)與隨機(jī)變量(受許多不確定因素影 響,如員工的起床時間) 。 (二)數(shù)據(jù)的計量尺度 收集數(shù)據(jù)時需要用到以下四種由低到高的計量 尺度:定類尺度、定序尺度、定距尺度和定比尺 度,計量尺度的不同決定了不同的數(shù)據(jù)分析與處 理方法。 1. 定類尺度是說明客觀現(xiàn)象無序類別的計量。 定 類尺度的主要數(shù)學(xué)特征是“=”或“工”.如居民 的性別是男、女計量 , 戰(zhàn)機(jī)的類型是戰(zhàn)斗機(jī)、轟 炸
8、機(jī)、偵察機(jī)等計量, 這一場合的所使用的數(shù)值 只作為 無序分類 的代碼。 2. 定序尺度是說明客觀現(xiàn)象有序類別的非數(shù)值 計量。定序尺度的主要數(shù)學(xué)特征是 “”. 例如 , 對居民的滿意度計量可以分為非常滿意、 滿意、一般、不滿意、非常不滿意五類。這一場 合的所使用的數(shù)值只作為有序分類的代碼。 3. 定距尺度是說明客觀現(xiàn)象數(shù)值間距有意義的 計量。其用確切的數(shù)值反映現(xiàn)象之間在量方面的 差異,定距尺度的主要數(shù)學(xué)特征是“ +”“-”, 如總量指標(biāo)是定距尺度計量的。 (0不代表不存在) 4. 定比尺度是說明客觀現(xiàn)象兩個數(shù)值比有意義 的計量。定比尺度的主要數(shù)學(xué)特征是“ x ”“ /” 如質(zhì)量指標(biāo)中的相對數(shù)、平
9、均數(shù)是定比尺度計量 的(0代表不存在) 5數(shù)據(jù)分類 定類尺度,定序尺度的數(shù)據(jù)統(tǒng)稱為定性數(shù)據(jù)。 定性變量是指帶有定性數(shù)據(jù)的變量。 定距尺度,定比尺度的數(shù)據(jù)統(tǒng)稱為為定量數(shù) 據(jù)。定量變量是指帶有定量數(shù)據(jù)的變量。 根據(jù)定量變量值連續(xù)出現(xiàn)與否,定量變量分為 連續(xù)性變量與離散型變量。 連續(xù)型變量是指變量在某一區(qū)域內(nèi)的取值是 連續(xù)不斷的,無法一一列舉。如:軍機(jī)的彈孔位 置,產(chǎn)品的壽命等。 離散型變量是指變量的取值是間斷的,可以一 一列舉。例如,產(chǎn)品數(shù)等。 (三)數(shù)據(jù)的類型 根據(jù)對客觀現(xiàn)象觀察的角度不同,統(tǒng)計數(shù)據(jù)可分 為:橫截面數(shù)據(jù)、時間序列數(shù)據(jù)和面板數(shù)據(jù)。 1. 橫截面數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù), 它是指在同一時
10、間對同一總體內(nèi)不同單位進(jìn)行觀察而獲得的數(shù) 據(jù)。例如, 2014 年全國各省、市、自治區(qū)的居 民收入總值就屬于橫截面數(shù)據(jù)。 2. 時間序列數(shù)據(jù)又稱為動態(tài)數(shù)據(jù), 它是指在某一 段時期內(nèi)按時間順序?qū)ν豢傮w進(jìn)行觀察而獲 得的數(shù)據(jù)。例如,“十二五”期間我國按年份順 序的居民收入總值就屬于時間序列數(shù)據(jù) 3 . 面板數(shù)據(jù)則是同時在時間和截面空間上取得 的二維數(shù)據(jù)。例如 2005-2014 年 30 個企業(yè)的總 產(chǎn)值數(shù)據(jù)。面板數(shù)據(jù)則由 30個企業(yè) 10 年的數(shù)據(jù) 組成,共有 300 個觀測值。從某一年份看,它是 由 30 個企業(yè)總產(chǎn)值數(shù) 第二章 收集數(shù)據(jù) 第一節(jié)統(tǒng)計調(diào)查方案設(shè)計 調(diào)查方案設(shè)計是指導(dǎo)整個調(diào)查過
11、程的綱領(lǐng)性文 件,其主要內(nèi)容主要包括以下幾個方面: 一、確定調(diào)查目的 1. 調(diào)查要達(dá)到的具體目標(biāo) 2. 回答“為什么調(diào)查?” 3. 調(diào)查之前必須明確 二、確定調(diào)查對象和調(diào)查單位 1. 調(diào)查對象:調(diào)查研究的總體或調(diào)查范圍 2. 調(diào)查單位: 需要對之進(jìn)行調(diào)查的單位。 可以 是調(diào)查對象的全部單位(全面調(diào)查) ,也可 以是調(diào)查對象中的一部分單位(非全面調(diào) 查) 3. 回答“向誰調(diào)查? 三 、選擇合適的調(diào)查方式、調(diào)查方法 1. 調(diào)查方式是指調(diào)查的組織方式, 主要有:普查、 抽樣調(diào)查、典型調(diào)查、重點(diǎn)調(diào)查和統(tǒng)計報表制 度 2. 調(diào)查方法是指收集統(tǒng)計資料的方法,主要有: 問卷法、訪談法、觀察法和實驗法 四、設(shè)
12、計調(diào)查項目和調(diào)查表 1. 調(diào)查項目:調(diào)查的具體內(nèi)容 2. 調(diào)查表:表現(xiàn)調(diào)查項目的表格或問卷。 有單一 表和一覽表兩種形式。 3. 回答“調(diào)查什么?” 五、確定調(diào)查時間 統(tǒng)計調(diào)查時間包括兩種涵義: 調(diào)查時間和調(diào)查期 限 1. 調(diào) 查時間:調(diào)查資料的所屬時間(時期或時 點(diǎn))。 2. 調(diào)查期限:進(jìn)行調(diào)查工作的時間, 包括搜集資 料和報送資料的整個工作所需要的時間 六、調(diào)查報告的撰寫 調(diào)查報告的撰寫包括: 調(diào)查過程的描述、 依據(jù)調(diào) 查數(shù)據(jù)所做的決策、對調(diào)查結(jié)果的評價 【在調(diào)查方案中, 應(yīng)給出: 提交調(diào)查報告的具體 時間,并對調(diào)查的精度、費(fèi)用等提出具體要求】 七、制訂調(diào)查工作的組織實施計劃 第二節(jié) 數(shù)據(jù)
13、收集來源 一、 數(shù)據(jù)收集的來源 1. 原始數(shù)據(jù):必須要求調(diào)研者親自收集 2. 二手?jǐn)?shù)據(jù):調(diào)研者需要識別和評估二手?jǐn)?shù)據(jù)的 有效性 二、二手?jǐn)?shù)據(jù)的收集 1. 二手?jǐn)?shù)據(jù)的來源 內(nèi)部二手?jǐn)?shù)據(jù) 外部二手?jǐn)?shù)據(jù) 2. 二手?jǐn)?shù)據(jù)收集的特點(diǎn) 優(yōu)點(diǎn):快捷、成本低、易獲取 缺點(diǎn):相關(guān)性差、時效性差、可靠性低 四、 二手?jǐn)?shù)據(jù)收集的注意事項 二手?jǐn)?shù)據(jù)的評估主要包括: 1. 研究目的的評估調(diào)研的目的是什么 2. 二手?jǐn)?shù)據(jù)來源評估誰收集了這些資料 3. 研究內(nèi)容評估收集了一些什么樣的資料 4. 調(diào)查方式、方法評估這些資料如何獲得的 5. 二手?jǐn)?shù)據(jù)相關(guān)性評估這些資料與其他資 料的一致程度如何 6. 二 手?jǐn)?shù)據(jù)時效性評估這些資
14、料是何時收 集的 第三節(jié) 原始數(shù)據(jù)的收集 一、 數(shù)據(jù)收集的分類 1. 按數(shù)據(jù)收集的組織方式不同, 分為統(tǒng)計報表和 專門調(diào)查 統(tǒng)計報表:按照國家有關(guān)法規(guī)的規(guī)定,自上而 下地統(tǒng)一布置、 自下而上地逐級填報的一種調(diào) 查組織方式。 專門調(diào)查:為了某一特定目的或?qū)iT問題而專 門組織的調(diào)查 2. 按數(shù)據(jù)收集對象包括范圍的大小不同, 分為全 面調(diào)查和非全面調(diào)查 全面調(diào)查:對構(gòu)成調(diào)查對象中的所有黨委進(jìn)行 一一不漏的調(diào)查 非全面調(diào)查: 是在統(tǒng)計調(diào)查過程中, 僅對調(diào)查中 的一部分單位進(jìn)行調(diào)查。 包括:抽樣調(diào)查、重 點(diǎn)調(diào)查、典型調(diào)查和非全面統(tǒng)計報表 3. 按數(shù)據(jù)收集的登記時間是否連續(xù), 分為經(jīng)常性 調(diào)查和一次性調(diào)查
15、 經(jīng)常性調(diào)查: 又稱連續(xù)性調(diào)查, 它是為了觀察社 會經(jīng)濟(jì)現(xiàn)象在一定時期內(nèi)的數(shù)量變化所進(jìn)行的 調(diào)查登記或數(shù)據(jù)收集 一次性調(diào)查: 又稱不連續(xù)性調(diào)查, 它是對所研究 的社會經(jīng)濟(jì)現(xiàn)象間隔一段時間所進(jìn)行的調(diào)查登 記或數(shù)據(jù)收集 4. 按數(shù)據(jù)收集實施主體的不同, 分為政府統(tǒng)計調(diào) 查和民間統(tǒng)計調(diào)查 ? 二、數(shù)據(jù)收集的調(diào)查方式 數(shù)據(jù)收集的調(diào)查方式, 按照組織方式主要有: 普 查、抽樣調(diào)查、典型調(diào)查、重點(diǎn)調(diào)查和統(tǒng)計報表 制度 1. 普查:專門組織的一次性全面調(diào)查 普查的特點(diǎn): 通常是一次性調(diào)查,周期性強(qiáng) 全面性調(diào)查,收集的資料全面、系統(tǒng)、準(zhǔn)確 普查的點(diǎn)多面廣,工作量大,投入多 普查應(yīng)遵循以下原則: 時間統(tǒng)一性原則
16、 登記工作的規(guī)范性原則 普查項目統(tǒng)一規(guī)定原則 同類普查同周期性原則 2. 抽樣調(diào)查:從總體中隨機(jī)抽取一部分單位作為 樣本進(jìn)行調(diào)查,并根據(jù)樣本數(shù)據(jù)推斷總體數(shù)量 特征的一種非全面調(diào)查。 概率抽樣:根據(jù)隨機(jī)原則從總體中抽選樣 本,并根據(jù)樣本信息對總體的某些特征做出估 計推斷,對推斷可能出現(xiàn)的誤差可以從概率意 義上加以控制 非概率抽樣: 調(diào)查組根據(jù)自己的方便或主觀判 斷抽取樣本的方法 抽樣調(diào)查優(yōu)勢:經(jīng)濟(jì)性、時效性、準(zhǔn)確性 幾種具體的抽樣方式: 簡單隨機(jī)抽樣是指從總體 N 個 單位中隨機(jī)抽取n個單位作為樣本,使每個可 能的樣本被抽中的概率相等的一種抽樣方式。 分層抽樣主要特征分層按比例抽 樣,主要使用于
17、總體中的個體有明顯差異。 共同 點(diǎn): 每個個體被抽到的概率都相等 N/M。 整群抽樣是將總體中各單位歸并 成若干個互不交叉、 互不重復(fù)的集合, 稱之為群 ; 然后以群為抽樣單位抽取樣本的一種抽樣方式。 【應(yīng)用整群抽樣時,要求各群有較好的代表性, 即群內(nèi)各單位的差異要大,群間差異要小】 等距抽樣首先將總體各單位按一 定順序排列,更具樣本容量大小確定抽選間隔, 然后隨機(jī)抽取一個進(jìn)入樣本, 直到滿足要求為止 的一種抽樣方式 多階段抽樣是指將抽樣過程分階 段進(jìn)行, 每個階段使用的抽樣方法往往不同, 即 將各種抽樣方法結(jié)合使用, 其在大型流行病學(xué)調(diào) 查中常用。 第一階段,將總體分為若干個一級抽樣單位,
18、從中抽選若干個一級抽樣單位入樣 ; 第二階段,將入樣的每個一級單位分成若干個 二級抽樣單位, 從入樣的每個一級單位中各抽選 若干個二級抽樣單位入樣,依此類推,直到 獲得最終樣本 3. 典型調(diào)查: 從調(diào)查對象的全部單位中選擇少數(shù)典型單位進(jìn) 行調(diào)查。目的是描述和揭示事物的本質(zhì)特征和規(guī) 律。調(diào)查結(jié)果不能用于推斷總體 4. 重點(diǎn)調(diào)查: 從調(diào)查對象的全部單位中選擇少數(shù)重點(diǎn)單位進(jìn) 行調(diào)查。調(diào)查結(jié)果不能用于推斷總體 5. 統(tǒng)計報表制度:按照國家有關(guān)法規(guī)的規(guī)定, 自上而下地統(tǒng)一布置、 自下而上地逐級填報的一 種調(diào)查組織方式。 統(tǒng)計報表內(nèi)容:報表目錄、報表表式、填表說 明 統(tǒng)計報表的資料來源:原始記錄、統(tǒng)計臺賬
19、、 企業(yè)內(nèi)部報表 三、數(shù)據(jù)收集的方法 1. 問卷法 : 郵寄調(diào)查、 電話調(diào)查、 電腦輔助電話 調(diào)查、網(wǎng)絡(luò)調(diào)查 2. 訪談法 優(yōu)點(diǎn):廣泛地認(rèn)識客觀現(xiàn)象、深入地研究問題、 資料收集可靠和應(yīng)用面很廣 缺點(diǎn):必須依賴具有較高素質(zhì)的訪問員、 直接交 談會對獲取資料的客觀性產(chǎn)生負(fù)面影響、 在不便 詢問時訪談無法實施、調(diào)查費(fèi)用大、時間長,可 能會碰到意料不到的困難 集體訪談: 將一組被調(diào)查者集中在調(diào)查現(xiàn)場, 讓 他們對調(diào)查的主題發(fā)表意見以獲得資料 【常用的有:頭腦風(fēng)暴法、德爾非法(專家意見 法)、深度訪談法】 個別訪談:調(diào)查者對每一名受訪者進(jìn)行一對一單 獨(dú)訪談。 3. 觀察法: 就調(diào)查對象的行動和意識, 調(diào)
20、查人員邊觀察邊記 錄以收集所需信息 調(diào)查人員不是強(qiáng)行介入 能夠在被調(diào)查者不察覺的情況下獲得資料 4. 實驗法 在設(shè)定的特殊實驗場所、 特殊狀態(tài)下, 對調(diào)查對 象進(jìn)行實驗以獲得所需資料。 有室內(nèi)實驗法和市 場實驗法 第四節(jié) 統(tǒng)計數(shù)據(jù)的質(zhì)量 一、統(tǒng)計數(shù)據(jù)的誤差 統(tǒng)計調(diào)查誤差分為登記性誤差和代表性誤差 1) 登記性誤差:由于調(diào)查者或被調(diào)查者的人為因 素所造成的誤差。理論上講可以消除 2) 代表性誤差:用樣本數(shù)據(jù)進(jìn)行推斷時所產(chǎn)生的 誤差。通常無法消除, 但事先可以進(jìn)行控制和 計算 第三章 整理和顯示數(shù)據(jù) 第一節(jié) 數(shù)據(jù)的整理與顯示問題的提出 1. 根據(jù)解決問題的目的確定分組的變量, 如典型 案例 4 中
21、分組的變量為收入。 2. 確定組數(shù)等,如典型案例 4 中,收入由貧到富 分為 5 組,連續(xù)型變量如收入還涉及到確定每組 組距、上限和下限。 3. 按不重不漏的原則對數(shù)據(jù)進(jìn)行分組, 確定各組 頻數(shù)、頻率,典型案例 4 還涉及到每組的收入值 等。 4.用表、圖顯示整理的數(shù)據(jù),如表 3-1、圖 3-1 第二節(jié) 定量數(shù)據(jù)的整理與顯示 ? 一、定量數(shù)據(jù)的整理 1主要采用統(tǒng)計分組來整理。 數(shù)據(jù)分組后, 把每組的個數(shù)稱為頻數(shù)。 每組個數(shù)所占比例稱為 頻率。 2統(tǒng)計分組就是指根據(jù)統(tǒng)計研究的目的和 客觀現(xiàn)象的內(nèi)在特點(diǎn), 按某個變量(或幾個變量) 把被研究的總體劃分成為若干個不同性質(zhì)的組, 然后再統(tǒng)計出各組的頻數(shù)
22、,就形成了一張頻數(shù)分 布表。 3. 統(tǒng)計分組方法:單變量值分組和組距分 組 1)單變量值分組就是將一個變量值作為一組, 適 合變量值較少的情況。 比如居民家庭按照人口數(shù)進(jìn)行分組,可分為 1 口人家庭、2 口人家庭、3 口人家庭、4 口人 家庭、5 口人以上家庭的組別。 2)組距式分組是將變量值的一個區(qū)間作為一組, 適合于連續(xù)變量和變量值較多的離散型變量 情況。組距式分組可采用等距分組, 也可采用 不等距分組。 等距分組是指每組組距相等。 等距分組的基本步驟有: 第一步:確定組數(shù):一般情況下,一批數(shù)據(jù)所分 的組數(shù)不應(yīng)少于5組且不多于15組。在實際分 組時,可以參考經(jīng)驗公式來確定組數(shù)K,即 空 1
23、賓 第二步:確定組距:組距是一組的上限與下限之 差 組距=(最大值-最小值)*組數(shù) 第三步:統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布 表。 【統(tǒng)計各組頻數(shù)時要注意遵循不重不漏的原 則。為解決不重的問題,統(tǒng)計分組時習(xí)慣規(guī)定“上 組限不在組內(nèi)”比如100這一數(shù)值不能算在 “90100”這一組,而是算在“ 100110”這一 組內(nèi)?!?閉口組:有上、下限值 開口組:“XX以下”及“XX以上” 組中值常用作各組的代表值: 下限與上限之 間的中點(diǎn)值,即: 組中性下限値+上限俏 缺下限的開口組的組中條上限值-警 (100以下,缺下限) 缺上限的開口組的組中值 =下限值+ 鄰組組距 2 (90以上,缺上限) 21
24、不等距分組是指并非所有組距都相等。 二、定量數(shù)據(jù)的圖示 定量數(shù)據(jù)常用的統(tǒng)計圖主要有直方圖、莖葉 圖、曲線圖、散點(diǎn)圖等。 三、頻數(shù)分布圖的類型 頻數(shù)分布圖則屬于其中一種統(tǒng)計圖,其主要類型 有如下三種。 鐘型分布:“兩頭小,中間大”即中間變量值分 布的頻數(shù)多,兩端分布頻數(shù)少, (皿)中,其分布特征是以變量的平均數(shù)為對稱 軸,左右兩側(cè)對稱分布 (I) (U)中為非對稱分布,(I)是右偏分布 (U)是左偏分布, U型分布:“兩頭大,中間小”即中間的變量值 分布頻數(shù)少,兩端的變量值分布頻數(shù)多,與鐘型 分布剛好相反 J型分布:有兩種類型,一種是正 J型,即頻數(shù) 隨著變量的增大而增多;另一種則呈反J型,即
25、頻數(shù)隨著變量的增大而減少 第三節(jié)品質(zhì)數(shù)據(jù)的整理與顯示 一、定類數(shù)據(jù)的整理與圖示 (一)定類數(shù)據(jù)的整理 定類數(shù)據(jù)整理主要用頻數(shù)分布表進(jìn)行。 (二)定類數(shù)據(jù)的圖示 定類數(shù)據(jù)的圖示主要有條形圖、餅圖等 二、定序數(shù)據(jù)的整理與圖示 (一)定序數(shù)據(jù)的整理 定序數(shù)據(jù)也是采用頻數(shù)分析表進(jìn)行整理。 還可以計算累計頻數(shù)和累計頻率,累計方法有兩 種:向上累計和向下累計。 (二)定序數(shù)據(jù)的圖示 定序型數(shù)據(jù)的統(tǒng)計圖主要有累計頻數(shù)分布圖和 統(tǒng)計學(xué)筆記 環(huán)形圖。( P50-51 ) 第四節(jié) 圖表的合理使用 一、鑒別圖形優(yōu)劣的準(zhǔn)則 (一)一張好的圖形應(yīng)具有的特征 1. 反映數(shù)據(jù)分布特征和規(guī)律。 2. 便于比較。 3. 有對圖
26、形的描述和文字說明。 (二)鑒別圖形優(yōu)劣的準(zhǔn)則 1. 是否有助于真實、 準(zhǔn)確洞察問題的實 質(zhì)。 2. 是否提供完整的信息量, 是否使復(fù)雜 的觀點(diǎn)簡單化。 二 、統(tǒng)計表的設(shè)計 (一)統(tǒng)計表的概念和結(jié)構(gòu) 1. 概念 統(tǒng)計表是表現(xiàn)統(tǒng)計資料的一種形式 2. 結(jié)構(gòu) 23 統(tǒng)計學(xué)筆記 從形式上看,由四部分構(gòu)成: A、總標(biāo)題:是表的名稱,概括統(tǒng)計表中要說明 的內(nèi)容; B、橫行標(biāo)題:是各組的名稱,反映總體各組成 部分; C縱覽標(biāo)題:是分組標(biāo)志或指標(biāo)的名稱,說明 縱行所列各項資料的內(nèi)容; D指標(biāo)數(shù)值:也稱數(shù)字資料,是統(tǒng)計表的具體 內(nèi)容。 從內(nèi)容上看, 由主詞和賓詞兩個部分組成。 主詞 是統(tǒng)計表所說明的總體, 總
27、體的各組或各組的名 稱。賓詞是用于說明主詞的各種指標(biāo)。通常,統(tǒng) 計表的主詞列在表的左方,賓詞列在表的右方, 如表 3-10 所示( P52) (二)統(tǒng)計表的種類 統(tǒng)計表按照總體分組情況不同, 可分為簡單表、 分組表和復(fù)合表三類。 (三)統(tǒng)計表的編制 1. 統(tǒng)計表線條的繪制。 通常統(tǒng)計表的上下端以粗線繪制,表內(nèi)縱橫 線以細(xì)線繪制。表格的左右不封口。 2. 合計欄的設(shè)置。 統(tǒng)計表各縱列需要合計時,可將合計列放在 最后一行, 各橫行若需要合計時, 可將合計列放 在最前一欄或最后一欄。 3. 標(biāo)題的設(shè)計。 統(tǒng)計表的標(biāo)題要簡明扼要,以簡練而準(zhǔn)確的 文字來概括統(tǒng)計資料的內(nèi)容、 資料所屬時間、 空 間等。
28、4. 計量單位的列法。 指標(biāo)數(shù)值一般要有計量單位,若只有一種計 量單位時, 可在表右上端注明。 如果計量單位不 統(tǒng)一,可專設(shè)計量單位欄。 5. 標(biāo)志值的書寫。 標(biāo)志值應(yīng)該填寫整齊,對準(zhǔn)位數(shù)。當(dāng)數(shù)值太 小可忽略不計時, 寫上“0”;當(dāng)缺失某項資料時, 用符號“”表示;不應(yīng)有數(shù)字時,用符號“-” 表示。 6. 注解或資料來源的標(biāo)明。 一般而言,統(tǒng)計表下方應(yīng)該注明資料來源, 以便查考。 第四章 數(shù)據(jù)分布的數(shù)字特征 第一節(jié) 數(shù)據(jù)集中趨勢的測定 一、集中趨勢測定問題的提出和作用 (一)問題的提出 對于總體中的個體數(shù)據(jù),有時會呈現(xiàn) 出在一定范圍內(nèi)以某個數(shù)據(jù)為中心上下波動的 分布特征,即數(shù)據(jù)有時具有它分布的
29、中心,我們 稱之為數(shù)據(jù)分布的集中趨勢。該如何測定一組數(shù) 據(jù)的集中趨勢呢? 二)集中趨勢測定的作用 1. 集中趨勢指標(biāo)的分類 畀術(shù)平均數(shù) 數(shù)值T韻數(shù) 調(diào)和平均數(shù) .兒何平均數(shù) 眾數(shù) 位覽代表值 中位數(shù) 2. 集中趨勢指標(biāo)的作用 (1)可以反映一組數(shù)據(jù)分布的中心或一般水平; (2)可以反映同一現(xiàn)象在不同時間或空間條件 下的發(fā)展趨勢或差異; (3)可以用來分析現(xiàn)象之間的依存關(guān)系; (4)樣本平均數(shù)是統(tǒng)計推斷的一個重要統(tǒng)計量。 ?二、集中趨勢的測定 (一)數(shù)值平均數(shù) 數(shù)值平均數(shù)只適用于定量數(shù)據(jù)(數(shù)值型數(shù) 據(jù)),而不適用于定性數(shù)據(jù)。 ? 1.算術(shù)平均數(shù) (1)簡單算術(shù)平均數(shù) 簡單算術(shù)平均數(shù)是根據(jù)未分組數(shù)
30、據(jù)(原始數(shù) 據(jù))計算的一種平均數(shù),它是將所有的原始數(shù)據(jù) 相加再除以數(shù)據(jù)總個數(shù)得到的。 樣本計算的簡單算術(shù)平均數(shù)的計算公 式是: - 總體數(shù)據(jù)計算的簡單算術(shù)平均數(shù)的 計算公式為: 1 (2)加權(quán)算術(shù)平均數(shù) 加權(quán)算術(shù)平均數(shù)是根據(jù)分組數(shù)據(jù)計算的一 種平均數(shù)。設(shè)樣本被分為k組,各組的頻數(shù)為 f i樣本計算的加權(quán)算術(shù)平均數(shù)的計算公式為: 其中,Xi有兩種情況:在單變量值分組中, Xi 代表各組的變量值;在組距式分組中,Xi代表 f 各組的組中值,稱作權(quán)重(頻率)。 總體數(shù)據(jù)計算的加權(quán)算術(shù)平均數(shù) 的計算公 Z i=l 式為: i 3二濟(jì) 1=1 (3)算術(shù)平均數(shù)的主要數(shù)學(xué)性質(zhì) 各變量值與其算術(shù)平均數(shù)的離差
31、之和等于零 口仃園-耳血返)爲(wèi)-印=0 即: 各變量值與其算術(shù)平均數(shù)的離差平方和最小 即: 工(舛- a) =-x)/, =min (=1 2. 調(diào)和平均數(shù) 調(diào)和平均數(shù)加權(quán)算術(shù)平均數(shù)的一種變形。 調(diào)和平均數(shù)與加權(quán)算術(shù)平均數(shù)的關(guān)系是: 若已知各組變量值 及其標(biāo)志總量m (mi=xif i),而缺乏fi的數(shù)據(jù)時,則加權(quán)算術(shù) 平均數(shù)可通過變形得到fi(fi=m/xi)后,再以 m為權(quán)數(shù)的調(diào)和平均數(shù)形式來計算。 3. 幾何平均數(shù) 幾何平均數(shù)是n個變量值連乘積的n次方根 (1)簡單幾何平均數(shù) 當(dāng)樣本數(shù)據(jù)中各變量值出現(xiàn)的次數(shù)都相同 時,用簡單幾何平均數(shù)公式。 II a 式中,Xi代表各變量值,n為樣本容量
32、,為連 乘符號 (2)加權(quán)幾何平均數(shù) 當(dāng)樣本數(shù)據(jù)中各變量值出現(xiàn)的次數(shù)不全相 同時,用加權(quán)幾何平均數(shù)公式。 式中,Xi代表各變量值,n為樣本容量,為連 乘符號 【如果獲得一組總體數(shù)據(jù),根據(jù)總體數(shù)據(jù)計算的 幾何平均數(shù)的公式與樣本數(shù)據(jù)的基本相同?!?需要注意的是: 當(dāng)數(shù)據(jù)中出現(xiàn)零或負(fù)值時不宜計算幾何平均數(shù) ; 幾何平均數(shù)是一種適用于特殊數(shù)據(jù)的平均數(shù), 當(dāng) 變量值之間具有連乘積關(guān)系時,采用幾何平均數(shù) 更加合理; 現(xiàn)實生活中,幾何平均數(shù)主要用于計算現(xiàn)象的平 均增長率和平均發(fā)展速度(詳見本書第九章)。 (二)位置代表值 ? 1.眾數(shù) 1)眾數(shù)(Mode是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最多的變 量值,通常用符號 表示。
33、 2)眾數(shù)代表的是最常見、最普遍的情況。眾數(shù)不 僅可以度量定性數(shù)據(jù)的集中趨勢,還可以度量 定量數(shù)據(jù)的集中趨勢。 3)眾數(shù)的特點(diǎn): 眾數(shù)是位置型平均數(shù),它只與位置有關(guān),不 受數(shù)據(jù)中極端值的影響; 從分布形態(tài)上看,眾數(shù)是一組數(shù)據(jù)分布最高 峰點(diǎn)所對應(yīng)的變量值; 眾數(shù)具有不唯一性(可以有一個或多個或沒 有) 4)組距式分組數(shù)據(jù)中眾數(shù)的求解較為復(fù)雜。在組 距式分組數(shù)據(jù)中,求解眾數(shù)的步驟: 先要確定眾數(shù)所在組; 如果是等距分組數(shù)據(jù),那么次數(shù)最多的那一 組就為眾數(shù)組;如果是不等距分組數(shù)據(jù),那么組 密度(組頻率/組距)最大的組就為眾數(shù)組。 之后再按照下列公式求解眾數(shù)的近似值。計 算公式如下: 他J爲(wèi)也畑 下限
34、公式: 詔U小川 xd 或上限公式:,: 上一眾數(shù)所在組的卜限 戸一偸灼所任組的上限 人一眾數(shù)師圧組的坎數(shù) 一眾數(shù)所在爼前 誼的;t壯 在組后一組的抉 敵 d 點(diǎn)散所在組的組亦 ? 2.中位數(shù) 1)中位數(shù)是一組數(shù)據(jù)從小到大排序后位于中間 位置上的變量值,通常用符號表示。 2)由于中位數(shù)和位置有關(guān),所以中位數(shù)只能度量 定序數(shù)據(jù)和數(shù)值型數(shù)據(jù)的集中趨勢; 3)求解中位數(shù)的步驟: 首先,對數(shù)據(jù)進(jìn)行排序; 其次,確定中位數(shù)的位置,即中間位置; 最后,計算中間位置上的變量值。 4)中位數(shù)的位置計算公式為: 數(shù)據(jù)個數(shù)n為奇數(shù), 中位數(shù)為: 數(shù)據(jù)個數(shù)n為偶數(shù) 分組數(shù)據(jù)中位數(shù)的求解 對于分組數(shù)據(jù)而言,不需要再另
35、外排序,直接按 照分組的順序即可。 分組數(shù)據(jù)中位數(shù)的位置計算公式: 求出中位數(shù)位置后,按照下列公式求解中位數(shù)的 近似值 下限公式: 。 fiS Sm 1 Me L2d( 4.13) fm 或上限公式: fi s Sm 1 Me U 2d( 4.14) fm(看例題P68) 5)中位數(shù)特點(diǎn)及應(yīng)用 中位數(shù)是位置型度量值,其特點(diǎn)是不受極端 值的影響,因此具有穩(wěn)定性; 在實際運(yùn)用中,當(dāng)數(shù)據(jù)的偏斜程度較大時, 用中位數(shù)作為該組數(shù)據(jù)一般水平的代表值比 較合適。 6)分位數(shù) 實際上,測度數(shù)據(jù)在特定位置上的水平,還 可以計算四分位數(shù)、十分位數(shù)和百分位數(shù)等, 我們統(tǒng)稱它們?yōu)榉治粩?shù)。 四分位數(shù)的計算方法: A.四
36、分位數(shù):定義:一組數(shù)據(jù)由小到大排序后位 于25%位置和75%位置處的變量值。 【位于在25%位置處的變量值(即下四分位數(shù), 用符號Q表示)和處在75%位置處的變量值(即 上四分位數(shù),用符號 Q表示),上、下四分位數(shù) 之間恰好包含了 50%的數(shù)據(jù)?!?B.求解四分位數(shù)的步驟 a)先排序; b)然后確定上、下四分位數(shù)的位置; C)最后,求相應(yīng)位置上的變量值。(看例題P69) 7)箱線圖 將中位數(shù)、四分位數(shù)和其他指標(biāo)結(jié)合起來,可以 更詳細(xì)的反應(yīng)數(shù)據(jù)的分布特征。箱線圖是由一組 數(shù)據(jù)的最小值(Xmin)、最大值(Xnax)、下四分位 數(shù)(Q)、上四分位數(shù)(Q)和中位數(shù)(M)這五 個特征值構(gòu)成。通過箱線圖
37、,可以觀察數(shù)據(jù)的中 心位置、離散程度及對稱性等特征,同時還可以 進(jìn)行多組數(shù)據(jù)分布的比較。 X. Qu 臥 Ql 一 X時 ? (三)算術(shù)平均數(shù)、 眾數(shù)和中位數(shù)三者的比較 與應(yīng)用 (1)算術(shù)平均數(shù)屬于數(shù)值型平均數(shù),它是根據(jù) 全部數(shù)據(jù)計算的集中趨勢測度值, 因此可以綜合 反映全部數(shù)據(jù)的信息; 眾數(shù)和中位數(shù)屬于位置型 代表值,它們是根據(jù)數(shù)據(jù)分布的特定位置確定出 的集中趨勢測度值, 因此不能概括全部數(shù)據(jù)的信 息 (2)算術(shù)平均數(shù)和中位數(shù)在任何一組數(shù)據(jù)中都 存在且具有唯一性, 但不一定所有數(shù)據(jù)都存在眾 數(shù),且眾數(shù)也不具有唯一性。一般情況下,在數(shù) 據(jù)量充分大并且具有明顯集中趨勢時, 計算眾數(shù) 才有意義;
38、(3)算術(shù)平均數(shù)只適用于定量數(shù)據(jù),中位數(shù)適 用于定序數(shù)據(jù)和定量數(shù)據(jù), 眾數(shù)則適用于所有數(shù) 據(jù),即定性數(shù)據(jù)和定量數(shù)據(jù)均可; (4)算術(shù)平均數(shù)受極端值的影響,因此,當(dāng)數(shù) 據(jù)偏斜程度較大時(數(shù)據(jù)中存在極端值) ,不宜 用算術(shù)平均數(shù)來代表數(shù)據(jù)的一般水平。 眾數(shù)和中 位數(shù)不受極端值的影響, 因此,當(dāng)數(shù)據(jù)偏斜程度 較大時,可以考慮用眾數(shù)或中位數(shù)來代表數(shù)據(jù)的 一般水平; (5)算術(shù)平均數(shù)可以估計或推斷總體特征值。 而眾數(shù)和中位數(shù)不宜用作此類推斷 (6)算術(shù)平均數(shù)和眾數(shù)、中位數(shù)的數(shù)量關(guān)系主 要取決于數(shù)據(jù)分布的偏斜程度(非對稱程度) 艮對于呈現(xiàn)單峰分布的數(shù)據(jù),如果數(shù)據(jù)的分布 是對稱的,則眾數(shù) M、中位數(shù)Me和算
39、術(shù)平均 數(shù)X三者相等,即 M=M=X 如果數(shù)據(jù)呈現(xiàn)左偏(負(fù)偏)分布,說明數(shù)據(jù) 中存在極小值 從而略使中位數(shù)偏小,而眾數(shù)則完全不受極小值 大小和位置的影響,因此一般情況下,三者的關(guān) 如果數(shù)據(jù)呈現(xiàn)右偏(正偏)分布,則一般有: Mg Me0時,表明分布是右偏分布(正偏分 布); 當(dāng)S0時,表明分布是左偏分布(負(fù)偏分 布)。SK的數(shù)值越大,表明數(shù)據(jù)的偏斜程度越 大。 四、峰度 1峰度(kurtosis )是指數(shù)據(jù)分布曲線的陡峭或 扁平的程度。 2. 對峰度的度量通常以正態(tài)分布曲線為標(biāo)準(zhǔn)進(jìn) 行比較。如果比正態(tài)分布曲線更加尖峭,稱為 尖峰分布;如果比正態(tài)分布曲線更加扁平,稱 為扁平分布。 3. 測度峰度的
40、統(tǒng)計量是峰度系數(shù),記作 K。 對于分組數(shù)據(jù),峰度系數(shù)K的計算公式為: 54空為樣車標(biāo)at堆的叫次方a 4. 峰態(tài)系數(shù)性質(zhì): 當(dāng)K=0時,說明分布為正態(tài)分布; 當(dāng)K0時,說明曲線是尖峰(陡峭)分布, 即數(shù)據(jù)比正態(tài)分布更集中,K的數(shù)值越大,則 曲線越陡峭; 當(dāng)K0時,說明曲線是扁平分布,即數(shù)據(jù)比 正態(tài)分布更分散,K的數(shù)值越小,則曲線越 平緩。 第五章 抽樣分布 第一節(jié)抽樣分布基本概念 一、樣本容量和樣本個數(shù) 1. 總體是研究的所有個體構(gòu)成的集合,常用 表示 2. 從中隨機(jī)抽取部分個體構(gòu)成一個樣本,構(gòu)成樣 本的個體的數(shù)目,常用n表示,稱為樣本容量, 也稱樣本量。 二、參數(shù)和統(tǒng)計量 1. 參數(shù)是用來描
41、述總體數(shù)量特征的,如總體均值 a、總體比例n、總體方差62等 2. 統(tǒng)計量是用來描述樣本數(shù)量特征的,是由樣本 構(gòu)造的函數(shù),如樣本均值 X、樣本比例P、樣 本方差S等 3. 由于總體是唯一的、固定不變的,故參數(shù)往往 是一個未知的常數(shù);而樣本不唯一,且一旦抽 取出來,就成為已知,故統(tǒng)計量是隨機(jī)變量, 其取值隨著樣本的變化而改變。 4. 抽樣的目的就是要根據(jù)樣本統(tǒng)計量去估計或 推斷總體參數(shù)。 三、抽樣分布 1. 統(tǒng)計量是隨機(jī)變量。抽樣分布就是統(tǒng)計量的概 率分布 2. 樣本均值的概率分布、樣本比例的概率分布、 樣本方差的概率分布等都稱為抽樣分布。 3. 現(xiàn)實世界中,我們面對的總體往往很大,進(jìn)而 樣本數(shù)
42、目將很可觀,不可能將所有的樣本都抽 取出來。因此抽樣分布實質(zhì)上是一種理論分 布。它可能是精確的某已知分布,也可能是以 某已知分布為極限的極限分布。 4. 抽樣分布理論在推斷統(tǒng)計中具有重要的作用, 它是后續(xù)參數(shù)估計和假設(shè)檢驗的 理論依據(jù)和基礎(chǔ)。 四、抽樣分布的數(shù)字特征 (一)樣本均值的數(shù)字特征 1. 設(shè)總體的平均數(shù)為卩,方差為b 2,采取重復(fù) 抽樣的方式,從中抽取獨(dú)立同分布 的樣本:X,,。根據(jù)數(shù)學(xué)期望和方差的 性質(zhì),可推出樣本均值X數(shù)學(xué)期望(平均數(shù))、 方差與總體的平均數(shù)、方差之間的關(guān)系 X!Q 1520 25 30 354045 50 PI1 542 F 例題:密巧25 芒 玉 152、丁
43、去 樣本均值的平均數(shù) 17|750 =10 x- + 15x + . + SOx- = = 30 總體均值 i x (10 + 20 + 30 + 40 + 50) = 30 樣本均值的方差 心朋卜珊)卜1酬-酬=100 總體方差 0,則稱X服從參 數(shù)為卩和6的正態(tài)分布,記作 X N(u,6 2)。 b)正態(tài)分布的概率密度曲線是一條對稱的鐘型 曲線。卩決定了圖形的中位置,6決定了圖形 中曲線的陡峭程度。 當(dāng)參數(shù)卩=0,6 =1時,這樣的正態(tài)分布為標(biāo)準(zhǔn) 正態(tài)分布,記為N (0,1 ),其概率密度函數(shù)為: 爐: (-00 x) P 2)總體服從非正態(tài)分布 獨(dú)立同分布中心極限定理表明:無論總體服 從
44、何種分布,只要其平均數(shù)和方差 存在,那么從中抽取的獨(dú)立同分布樣本 Xi, X,其均值在當(dāng)n很大時,就會近似 服從正態(tài)分布XN( ,a 2) 111 ”卜 /|j 大樣本:nA 30 二|卜I二也少卜/|1 Z 大樣本小扌羊本 總結(jié): 卄JT僉分伯 ?二、樣本比例的抽樣分布 1. 樣本比例是一種特殊的樣本均值。從而,根據(jù) 樣本均值的抽樣分布理論可得樣本比例的抽 樣分布 2. 大樣本:同時滿足np5和n (1-p ) A 5 3. 當(dāng)樣本容量很大時,樣本比例 P的抽樣分布 為: PN , n 4. 在不重復(fù)抽樣情形下,當(dāng)樣本容量很大時,樣 本比例的抽樣分布為: 需要修正:對于有限總體,要用修正系數(shù)
45、修正 不需要修正:無限總體/此時N很大而抽樣比 n 5%時,修正系數(shù)趨于1,方差可以按重復(fù)抽 樣情形時(即不用修正)的公式計算 ?三、樣本方差的抽樣分布(不考) 樣本方差S 稱亠亞 服從自由度為n-1的X2分布(卡方分 布)。 卡方分布的數(shù)字特征,可得: (S2) = cr* n-1 2 cr21 2V 和 在不重復(fù)抽樣情形下,方差為: 四、t分布和F分布 1. t分布 2 設(shè)XN1), Y (n),且X與丫相互獨(dú)立,則稱 的抽樣分布,就是采取重復(fù)抽樣的方 式,選取容量為n的所有樣本,由樣本方差 S2 的所有可能的取值形成的概率分布。 設(shè)總體服從均值為卩,方差S的正態(tài)分布,X, %為來自該總體
46、的樣本,則樣本方差 S2的抽樣 分布為: n 2S2 2n 1 X 隨機(jī)變量服從自由度為n的t分布,記作 t t (n)。 t分布概率密度函數(shù)曲線是以縱軸為對稱軸的 單峰對稱圖形。自由度n越大,分布越趨近 于標(biāo)準(zhǔn)正態(tài)分布,當(dāng)n 時,分布與標(biāo)準(zhǔn)正 態(tài)分布完全一致。 t分布的數(shù)字特征為: 總體平均數(shù))= 3) D(t) 方差 2. F分布 若f,丫2n2且X與丫相互獨(dú)立,則隨機(jī)變 量F 服從自由度為ni, n2的F分布記作F 丫 / n 2 F n 1, n2。其中,n 1稱為第一自由度,n2稱為第二 自由度 F分布的數(shù)字特征為2) n2 2 總體平均數(shù): 2 2n2(m n2 2) 2 “ D(
47、X)需皆飛(n2 4) 方差 第六章參數(shù)估計 養(yǎng)計方法 芋數(shù)詁計靈設(shè)社殮 第一節(jié)點(diǎn)估計 1點(diǎn)估計的相關(guān)概念 1)點(diǎn)估計是用對應(yīng)的估計量?的某個取值直接作 為相應(yīng)總體參數(shù)B的估計值。 【如:我們用樣本均值作為總體均值的估計, 用 樣本比例作為總體比例的估計,用樣本方差作為 總體方差的估計等】 2)估計量:用于估計總體參數(shù)的隨機(jī)變量 3)估計值:估計參數(shù)時計算出來的統(tǒng)計量的具體 值【如果樣本均值x =80,則80就是 的 估計值】 2. 點(diǎn)估計的求解方法 矩估計法 用樣本原點(diǎn)矩作為總體原點(diǎn)矩的估計。 設(shè)k個參數(shù) (“2, k),求k個參數(shù)?(?,?2,?) 矩估計 需要建立k個方程,方法是: 設(shè)總
48、體的一個樣本觀測值是(Xi,X2,,Xn),其I階原 點(diǎn)矩A - n X;,總體觀測量 X的I階原點(diǎn)矩 n i i m ex;) m(),用樣本原點(diǎn)矩A作為總體原點(diǎn)矩 m的估計,得出k個方程A m(3(i i,. k),解此 方程組得出的即為參數(shù)B的矩估計。 【例6-1】設(shè)總體X的均值卩及方差b 2都存在但 均未知,設(shè)來自總體X的一個樣本是 (Xi,X2, ,Xn),求 a,b 的矩估計?,?。 解:是兩個參數(shù),故需要建立兩個方程 因為 m2 = EX1 =+(X)2 = ct2 + z/2 令A(yù) ? A2?2?2 ? 得?2 A2 結(jié)論:總體均值的矩估計是樣本均值,而總體 方差(即總體的二階
49、中心矩)矩估計是樣本二 階中心矩【求總體均值與方差的矩估計無需知 道總體服從什么分布?!?最大似然估計法 固定樣本觀測值(Xl,X2, ,Xn),在可能的取值中, 挑選使似然函數(shù)L( ?)達(dá)到最大(從而概率p達(dá) 到最大)的作為參數(shù)e的估計。這樣得到的? 稱之為參數(shù)B的最大似然估計。因此,求參數(shù) e的最大似然估計問題就轉(zhuǎn)化為求似然函數(shù) m的最大值問題了。 1 d = 7p鳶(旳-疔 rn t=i 求總體均值與方差的最大似然估計需要知道 總體分布。 3. 估計量的優(yōu)良性標(biāo)準(zhǔn) 參數(shù)估計量的評價標(biāo)準(zhǔn):無偏性、有效性和一 致性,我們稱之為估計量的優(yōu)良性標(biāo)準(zhǔn)。 1)無偏性 設(shè) 為總體參數(shù), 為 的一個估計
50、量,如果 E(),則稱是的無偏估計量。即是重心, 與的距離最近。 2) 有2效性D( 1) D( 2),比2有效 設(shè)為e的兩個無偏估計量,如果 有:,則稱。即 對于同一總體參數(shù)的兩個無偏估計量來說,方差 越小的估計量越有效。 3) 一致性 設(shè) 為e的一個估計量,若當(dāng)時,依 概率收斂于e,則稱為e的一致估計量。此 即隨著樣本容量n的增大,點(diǎn)估計量 越來越接 近被估總體參數(shù)e x 估計量樣本平均 、樣本比例p、樣本方差S2 分別是總體平均卩、總體比例n、總體方差b 的無偏、有效、一致估計量。即滿足優(yōu)良性標(biāo) 準(zhǔn)。 點(diǎn)估計的優(yōu)點(diǎn)是簡潔明了,給出了具體的估計 值;缺點(diǎn)是無法提供估計的精度和估計的可靠 程
51、度 ?第二節(jié)區(qū)間估計 圍繞點(diǎn)估計值構(gòu)造總體參數(shù)的一個區(qū)間,這就 是區(qū)間估計 1.區(qū)間估計的概念(?, ?) 1)區(qū)間估計就是總體參數(shù)B落在區(qū)間估計量 (?, ?) 內(nèi)的概率為1- a,即p ?2 1 。稱區(qū)間 為總體參數(shù)B的置信度為1- a的置信區(qū)間。 2)包含總體參數(shù)真值的區(qū)間所占的比例稱為置 信水平,表示為(1- a ) 3)a是未包含總體參數(shù)的區(qū)間所占的比例 4)常用的置信水平值有99%, 95%, 90% 【相應(yīng)的a為0.01 , 0.05 , 0.10】 5)由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間 稱為置信區(qū)間。其中區(qū)間的最小值稱為置信下 限,最大值稱為置信上限。 6)統(tǒng)計學(xué)家在某種
52、程度上確信這個區(qū)間會包含 真正的總體參數(shù),所以給它取名為置信區(qū)間。 7)用一個具體的樣本所構(gòu)造的區(qū)間是一個特定 的區(qū)間,我們無法知道這個樣本所產(chǎn)生的區(qū)間 是否包含總體參數(shù)的真值。 8)構(gòu)造參數(shù)的區(qū)間估計時,要權(quán)衡以下兩個方 面,一是估計量的精度要求,二是估計量的可 靠性程度。 9)精度要求就是要把估計誤差控制在一定的范 圍內(nèi),我們用極限誤差寧來反映。越 小,表示估計的精度越高;越大,表示估計 的精度越低。 10)可靠性是指區(qū)間估計結(jié)果正確的概率保證。 用置信度來反映。 11)在其它條件不變的情況下,置信度與精度二 者呈反方向變化,要想提高置信度,置信區(qū)間 就會增大,精度就會下降;要想提高精度,
53、置 信度就會下降。 12)在實際中,通常根據(jù)實際問題和研究的需 要,選擇合適的置信度和精度,再確定樣本量 總體參數(shù) 符號表示 樣本統(tǒng)計量 均值 X 比例 7T P 方差 S2 2.總體均值的區(qū)間估計【分四種情況來討論?!?總體服從正態(tài)分布,總體方差a 2已知 2 根據(jù)正態(tài)分布再生定理,樣本均值X N(,),將 7n ? x標(biāo)準(zhǔn)化,記z N(o,1)。 對于概率可靠程度1- a,有:p z z 21 將z 每代入上式,經(jīng)過不等式的等價變形,得: X z 2 、n 1 i1 !總體均值a在置信度1- a下的置信區(qū)間為: L_X_z亠十其蟲:為抽樣極限誤 差。 影響極限誤差的因素:總體數(shù)據(jù)的離散程度
54、,用 來測度 樣本容量, 置信水平(1 - a ),影 響z的大小 置信水平的;匚值,查標(biāo)準(zhǔn)正態(tài)分布表得到。 I; 例如:1- a =95% L則:a =0.05 丄二a 丿2=1-0.025=0.975 找到0.975,其對應(yīng)的橫+豎的值,為我們 所求的z 2值 對于總體分布未知,大樣本(n30),總體 63 統(tǒng)計學(xué)筆記 方差。2已知 根據(jù)中心極限定理,樣本均值近似服從N(,), 因而同樣可以用式(6.3)得出估計區(qū)間。 總體分布未知,大樣本,方差2未知 運(yùn)用中心極限定理,總體均值卩在置信度 1- a下的置信區(qū)間為: 總體服從正態(tài)分布,小樣本,總體方差/ 未知 總體均值卩在置信度 1- a下
55、的置信區(qū)間 77 為: t 2(n 1)n 使用t分布 置信水平的t a/2 (n-1 )值,查t分布表得到: 例如:1- a =95% n=16 貝y:a =0.05a /2=0.025 , n-1=15 找到a=0.025 ,V=T5,其對應(yīng)的值;為我們 所求的t a/2 (n-1 )值 三、總體比例的區(qū)間估計 總體比例,是指總體中,具有某種特征的單位 個數(shù)與全部單位數(shù)之比,記為n 樣本比例,是指樣本中,具有某種特征的單位 個數(shù)與樣本容量之比,記為P 總體比例是一種特殊的總體均值 當(dāng)樣本量 充分大(叩5和 n(1 P)5 )時,近 似服從正態(tài)分布 總體比例n在置信度1- a下的置信區(qū)間為:
56、 p z (1 ) P Z 2: n 總體比例n是未知的, 來代替總體比例n 通常用樣本比例P p zP(1p) Pn ?總體方差的區(qū)間估計 【不考】 第七章假設(shè)檢驗 第一節(jié) 假設(shè)檢驗的基本原理 假設(shè)檢驗的基本原理 用t分布、區(qū)間估計中區(qū)間事件的余集是小概率事件和小概率原理,得出了檢驗統(tǒng)計量t的 數(shù)值及拒絕域,在樣本有代表性時,用統(tǒng)計量 t和拒絕域可得出檢驗的更好決策。該方法稱 為t檢驗使產(chǎn)品質(zhì)量檢驗由大樣本被小樣本 替代 一、假設(shè)檢驗的概念 假設(shè)檢驗依據(jù)的是小概率原理,即小概率事件在 一次試驗中是幾乎不可能發(fā)生的,如果小概率事 件發(fā)生了,我們拒絕H0,即H成立;否則,我們 不能拒絕H0。將t
57、稱為檢驗統(tǒng)計量,a稱為顯著 性水平,水平,t t /2(n 1)稱為拒絕域 二、假設(shè)檢驗的基本步驟 以Pl12為例 1. 建立假設(shè)Ho :卩=卩0=5 H1 :卩工卩0= 5, x s -n 0.4/ .25 04.55 2. 確定檢驗統(tǒng)計量,并計算檢驗統(tǒng)計量值 6. 25 3.給定顯著水平a 率事件) t t /2(n 1)2.064 =0.05,查表得拒絕域(小概 4.判 t=-6.25 落入拒絕域,拒絕H0,即此次 抽樣認(rèn)為該廠生產(chǎn)的筆記本電腦不符合規(guī)定標(biāo) 準(zhǔn) 補(bǔ)充:檢驗規(guī)則有兩種臨界值規(guī)則和 P- 值規(guī)則, 計算機(jī)軟件中通常用P-值規(guī)則。 三、假設(shè)檢驗中的兩類錯誤 第I類錯誤是指原假設(shè)
58、H0為真,卻拒絕H0的 錯誤,也叫棄真錯誤或a錯誤。 第口類錯誤是指原假設(shè)H0為假,卻接受H0的 錯誤,也叫取偽錯誤或B錯誤。 對于這兩類錯誤,人們總是希望a和B、越小 越好。但當(dāng)樣本容量 n 一定時, 不能同時做到 a和3都很小,若減少犯第一類錯誤的概率, 則犯第二類錯誤的概率往往增大,即此時a 和3反向變化。 若要使犯兩類錯誤的概率都減 小,只能增加樣本容量。 在假設(shè)檢驗中, 人們往往認(rèn)為犯第一類錯誤后 果更嚴(yán)重,而犯第二類錯誤后果的嚴(yán)重性會低 一些。因此在實際檢驗中, 犯第一類錯誤的概 率總是優(yōu)先加以控制。 第二節(jié) 一個總體參數(shù)的檢驗 兩種檢驗方式: t 檢驗 (1) 建立假設(shè)H。:卩=
59、卩0 H1 :卩工卩0, 雙 側(cè)檢驗 卩三卩0卩卩0, 右單側(cè)檢驗 卩卩0卩卩0 , 左單側(cè)檢驗 (2) 確定檢驗統(tǒng)計量,并計算檢驗統(tǒng)計量值 t J S n 根據(jù)前面兩步可確定是雙側(cè)檢驗,是右單側(cè) 檢驗,是左單側(cè)檢驗 (3) 給定顯著水平a,求得拒絕域(小概率事件) t t a /2(門-1) (雙側(cè)檢驗) t t a (n-1) (右單側(cè)檢 驗) t 30) 總體標(biāo)準(zhǔn)差未知時,用 Z檢驗 總體標(biāo)準(zhǔn)差/已知時,用Z檢驗 二、總體成數(shù)(或總體比例)的檢驗 總體中只有兩種結(jié)果可用正態(tài)分布來近似。 服從二項分布 抽得大樣本情況下,即滿足:n 0 5“1 0) 5 對于雙側(cè)檢驗,單側(cè)檢驗有如下檢驗步驟
60、: 1.建立假設(shè)H。:0 H 0 1:卩工卩0 卩卩0 0 yVy 0 2.確定檢驗統(tǒng)計量,并計算檢驗統(tǒng)計量值 X 根據(jù)前面兩步可確定是雙側(cè)檢驗,是右單 側(cè)檢驗,是左單側(cè)檢驗 3. 給定顯著水平a,拒絕域(小概率事件) z z /2 (雙側(cè)檢驗) (右單側(cè)檢驗) z z (左單側(cè)檢驗) 4. 判斷,如果z落入拒絕域,拒絕H);如果z不 落入拒絕域,則不能拒絕 H0。 三、總體方差的檢驗(不考) 第八章 相關(guān)與回歸分析 第一節(jié) 相關(guān)分析 一、函數(shù)關(guān)系與相關(guān)關(guān)系 1. 相關(guān)關(guān)系的定義 變量之間有確定的關(guān)系,稱為函數(shù)關(guān)系。 如銷 售額與價格、銷售量的關(guān)系 變量之間有關(guān)系,但不確定,稱為相關(guān)關(guān)系 如
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同之二手車場地租賃合同
- 有機(jī)農(nóng)產(chǎn)品認(rèn)證咨詢服務(wù)協(xié)議
- 股份制公司運(yùn)營方案
- 體育健身行業(yè)私教課程運(yùn)動傷害免責(zé)協(xié)議
- 勞務(wù)安全責(zé)任合同
- 高效率會議組織及策劃方案
- 心理咨詢師個人咨詢免責(zé)協(xié)議書
- 股權(quán)出讓居間協(xié)議書
- 第六單元《生日》教學(xué)設(shè)計-2024-2025學(xué)年四年級下冊數(shù)學(xué)北師大版
- 第1課時 億以內(nèi)數(shù)的認(rèn)識(教學(xué)設(shè)計)-2024-2025學(xué)年四年級上冊數(shù)學(xué)人教版
- 2025年房屋交易代持策劃協(xié)議書
- 2025年上半年贛州市于都縣招聘城管協(xié)管員易考易錯模擬試題(共500題)試卷后附參考答案
- 中考數(shù)學(xué)總復(fù)習(xí)第一章第3課時二次根式課件
- 天然氣脫硫完整版本
- 2025年中國電子煙行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告
- 貨物學(xué)基礎(chǔ) 課件 項目一 任務(wù)一 貨物的基本概念
- 無人機(jī)法律法規(guī)與安全飛行 第2版空域管理
- 我的小學(xué)生活
- 《商務(wù)溝通-策略、方法與案例》課件 第三章 書面溝通
- 2024具身大模型關(guān)鍵技術(shù)與應(yīng)用報告-哈爾濱工業(yè)大學(xué)
- 提高瓦屋面太陽能板安裝一次驗收合格率
評論
0/150
提交評論