應用抽樣技術 李金昌 課件.ppt_第1頁
應用抽樣技術 李金昌 課件.ppt_第2頁
應用抽樣技術 李金昌 課件.ppt_第3頁
應用抽樣技術 李金昌 課件.ppt_第4頁
應用抽樣技術 李金昌 課件.ppt_第5頁
免費預覽已結束,剩余97頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2020/8/2,統計學專業(yè)必修課3學分,1,抽樣理論與方法,統計學本科 專業(yè)必修課3學分 主講教師:劉愛芹,2020/8/2,統計學專業(yè)必修課3學分,2,目 錄,第一、二章 概述 第三章 簡單隨機抽樣 第四章 分層隨機抽樣 第五章 比率與回歸估計 第六章 不等概抽樣 第七章 整群抽樣 第八章 系統抽樣 第九章 多階段抽樣 第十章 二重抽樣 第十一章 非抽樣誤差,2020/8/2,統計學專業(yè)必修課3學分,3,CH1-2 抽樣基礎知識介紹,4課時,2020/8/2,統計學專業(yè)必修課3學分,4,內容體系,學習目的:在學習具體的抽樣技術之前,對抽樣理論與方法涉及的基礎問題有大致的了解和認識 1 抽樣

2、技術基本問題介紹,介紹抽樣技術/抽樣的概念、作用 重點:區(qū)分概率抽樣和非概率抽樣,了解非概率抽樣的基本方法,把握抽樣調查的基本程序 2 抽樣技術的基本概念 重點:抽樣框、估計量方差、偏倚與均方誤差、抽樣誤差與非抽樣誤差 3 樣本設計 重點:掌握樣本設計的內容、設計原則和設計效果測定方法,2020/8/2,統計學專業(yè)必修課3學分,5,1 抽樣技術(CH1-1),抽樣技術就是抽樣推斷采用的技術,包括抽樣、調查和推斷三個環(huán)節(jié)的技術。 抽樣技術、抽樣推斷、抽樣調查等概念經?;煊?一、抽樣技術的含義 (一)概率抽樣 (二)非概率抽樣 重點: 掌握概率抽樣的含義和特點,與非概率抽樣的區(qū)分 了解幾種非概率抽

3、樣方法 二、抽樣調查的基本程序 三、抽樣技術的作用,2020/8/2,統計學專業(yè)必修課3學分,6,一、抽樣技術/抽樣調查的含義,2020/8/2,統計學專業(yè)必修課3學分,7,統計信息的重要性舉例,20世紀五、六十年代,美國蓋洛普公司(Gallup)曾經作過一項關于美國汽車需求情況的調查 發(fā)現:很多家庭更青睞小型省油的汽車 但是,當時并沒有引起美國汽車制造商的重視,仍把研發(fā)重點放在生產豪華的車型上 后果:到了20世紀七、八十年代,在世界汽車市場上,日本的中小型汽車占據了很大的份額,連美國本土也大量進口日本汽車 美國開始重視小型省油車型的研發(fā),但是從研發(fā)到投產需要一段較長的時間,這使美國的汽車業(yè)失

4、去了一個很好的機遇 這個例子從反面說明了信息的重要性,2020/8/2,統計學專業(yè)必修課3學分,8,調查是獲取統計信息的方式,調查的重要性是獲得公認的 “知己知彼,百戰(zhàn)不殆”孫子謀攻篇 “沒有調查,就沒有發(fā)言權” 、“實事求是”、“實踐是檢驗真理的唯一標準” 毛澤東 調查是一系列獲取信息的方式和活動 使用明確的概念、方法和程序 有專門設計的調查方案的指導 從一個總體全部或部分單元中搜集感興趣的指標信息 并將這些信息綜合整理成數據系列,調查的結果表現為搜集到的數據,是有策劃、有方法、有程序的活動,2020/8/2,統計學專業(yè)必修課3學分,9,統計學原理: 抽樣推斷的含義和特點,Nn,樣本統計量,

5、均值,方差,參數估計,抽樣平 均誤差,抽樣極 限誤差,按隨機原則抽樣,推斷總體的 數量特征,抽樣誤差可以計算 并加以控制,2020/8/2,統計學專業(yè)必修課3學分,10,抽樣調查(Survey Sampling),運用抽樣技術進行的調查即抽樣調查 抽樣調查分廣義和狹義兩個范疇 廣義的含義: 一切非全面的統計調查都是抽樣調查,即從研究對象的全體(總體)中抽取部分單位作為樣本,根據對所抽取的樣本進行調查,獲得有關總體目標量的了解 顧客買米,召開座談會了解情況等 狹義的含義: 即概率抽樣 從總體抽取樣本的方法看,抽樣可分為: 非概率抽樣(nonprobability sampling) 概率抽樣(p

6、robability sampling),必須正確區(qū)分這對概念,2020/8/2,統計學專業(yè)必修課3學分,11,2020/8/2,統計學專業(yè)必修課3學分,12,(一)非概率抽樣(non-probability sampling) 非隨機抽樣/有目的抽樣/判斷抽樣,1、含義與基本方法 非概率抽樣與概率抽樣相對應,無嚴格定義。主要特征是:抽樣時并不依據隨機原則,各單位被抽中的概率事先未知或難以確定 如我國所謂的典型調查和重點調查,西方國家稱為有目的抽樣(purposive s)或判斷抽樣(judgment s)或有代表性抽樣(representative s) 市場調查中通常采用的配額抽樣(quo

7、ta sampling)、方便抽樣(convenience sampling) 社會調查中的滾雪球抽樣、網上進行調查時的自愿樣本等,2020/8/2,統計學專業(yè)必修課3學分,13,(1)隨意/任意/方便抽樣,抽樣者遵循簡便性原則隨意地、任意地或按其方便性從總體中抽取樣本,比如 實驗人員從籠子里抓取最靠近籠門的小白鼠做實驗 節(jié)目主持人從放在玻璃缸里的眾多觀眾來信中隨手抽出幾封來宣讀內容或頒獎 每年“3.15”前后,中央電視臺、中國消費者協會和國家技術監(jiān)督局組織國家新聞單位開展“質量萬里行”活動,到全國各地了解市場商品質量,打擊假冒偽劣商品,其中很多都是在街頭向行人了解對商品質量的反映 簡便易行成

8、本低 但樣本偏差往往較大,調查或推斷的結論不具有一般意義,2020/8/2,統計學專業(yè)必修課3學分,14,(2)判斷/有目的/有代表性抽樣,抽樣者根據自己的知識、經驗和判斷從N中挑選出“典型的”或“有代表性的”單位來組成樣本 常用于企業(yè)管理水平調查、市場商品消費結構調查、居民家庭收入調查等,比如 調查企業(yè)管理水平,可以按經驗分別選取管理水平高、管理水平一般、管理水平較差等不同類型作為調查樣本,以調查結果為依據,綜合評價企業(yè)管理工作中的經驗和問題劃類選典式 編制市場物價指數時,常采用判斷抽樣法選取商品目錄和地區(qū)樣本 優(yōu)缺點: 可以充分發(fā)揮主觀能動性和利用已有信息 但樣本單位的“代表性”很有限,且

9、無法衡量,2020/8/2,統計學專業(yè)必修課3學分,15,(3)定額/配額/計劃抽樣,美國蓋洛普公司發(fā)明使用的,目的是增進判斷抽樣的樣本代表性 做法:抽樣者按照規(guī)定的定額獲得一個在某些特征上與總體結構大致成比例的樣本 單變量配額,即獨立控制配額 多變量配額,即交叉控制配額 這種抽樣具有一定的科學性,因而在市場調查、民意測驗等方面有較廣泛的應用 但判斷抽樣的缺點它同樣難以克服,2020/8/2,統計學專業(yè)必修課3學分,16,(4)流動總體抽樣/捕獲再捕獲抽樣(sampling of mobile population)/(capture-tag-recapture),一般用于流動總體的總體總量的

10、推算 做法: 抽樣者先從總體(比如水庫中的魚)中獲取部分單位(如300尾魚),加以標記后再放回總體,過段時間再獲取部分單位(如1000尾魚),然后根據再獲取單位中有標記單位的比例來推算總體的數量 適用性: 這種抽樣適用于事先對總體缺乏認識而調查單位又處于流動狀態(tài)的研究對象,2020/8/2,統計學專業(yè)必修課3學分,17,2、非概率抽樣的特點及優(yōu)缺點,樣本的抽選不是按照隨機原則,而是根據主觀判斷,有目的、有意識或根據方便的原則進行 優(yōu)點:可充分利用已知信息,人為地選擇較為典型的樣本,從而可以縮小抽樣范圍,節(jié)約調查時間、人員和經費 缺點:采用非概率抽樣方法獲得的數據不能計算抽樣誤差,也不能從概率的

11、意義上控制誤差并保證推斷的可靠性。所以,它雖然重視樣本與總體的關系,即也可以從樣本特征推斷總體特征,但這種推論缺乏理論上的科學依據, 其效果的好壞在很大程度上依賴于抽樣者的主觀判斷能力和經驗,因此其可靠程度也只能由調查人員主觀評定,而不能客觀衡量,2020/8/2,統計學專業(yè)必修課3學分,18,3、適用性,為了快速得到總體一般性質方面的信息 對某突發(fā)事件的現場調查 為進一步深入調查研究而作的前期預備性實驗性調查等 非概率抽樣法在市場調查中得到了廣泛的應用,2020/8/2,統計學專業(yè)必修課3學分,19,(二)概率抽樣/隨機抽樣本課程內容 (probability sampling)/(rand

12、om sampling),概率抽樣是嚴格意義上的抽樣調查,即“狹義的”抽樣調查 按照隨機原則抽取樣本,使總體中每個單位都有一個事先已知的非零概率被抽中 總體各單位被抽中的概率可以通過樣本設計(sample design)來規(guī)定,并通過某種隨機化(randomization)操作來實現 常用的概率抽樣的方式: 簡單隨機抽樣(srs: simple random sampling) 分層抽樣(st: stratified sampling) 系統抽樣(sy: systematic sampling) 整群抽樣(cl: cluster sampling) 多階段抽樣(ms: multi-stage

13、sampling),2020/8/2,統計學專業(yè)必修課3學分,20,概率抽樣的特點(重點掌握),(1)樣本的抽取遵循隨機原則 按隨機原則取樣 抽取樣本時排除主觀上有意識地抽取,某個單位是否被抽中完全由客觀的隨機化程序來決定 隨機化程序即抽樣組織方式,體現了統計學家的抽樣技術研究成果 主觀只能決定選擇哪種隨機化程序,即決定怎樣抽,而不能決定抽哪個 每個單位都按照一定的、事先已知或可以計算出的概率被抽中,兩個核心點,2020/8/2,統計學專業(yè)必修課3學分,21,對“隨機”的理解,可將按隨機原則取樣的過程看成是進行一次隨機試驗的過程,隨機化程序給出了隨機取樣的實現過程 隨機試驗的特點包括: 試驗可

14、以重復進行 可能結果不止一個,但可以列示 每次試驗取到哪個結果不知道 咬文嚼字: “隨”,包含有“隨從”、“因應變化”之意 “機”,包含有”機遇”、”機會”、“可能”、“說不清的因由”之意 “隨機”的意思是指:結果任由天定,過程中要避免任何可能帶來系統性或趨勢性影響的人為干預,具有不確定性和難以預測性 所以,隨機抽樣就是以一定的概率抽取樣本的一種方法,這種方法“各種結果的可能性都不能排除,人們事先不能確知結果”,2020/8/2,統計學專業(yè)必修課3學分,22,理解:每個單元被抽中的概率是已知的,或是可以計算出來的,比如,簡單隨機抽樣srs,1000個單元中抽100個 比如,分層隨機抽樣str,

15、1/2,1/10,1/20,又如,PPS抽樣,2個企業(yè)中取1個,1000萬元,500萬元,2/3,1/3,凈利潤,入樣概率,甲,乙,擴展,入樣概率,2020/8/2,統計學專業(yè)必修課3學分,23,關于“入樣概率”的注意事項,“入樣概率”必須是“非0概率” 估計量的形式與入樣概率有關,即,用樣本資料估計總體目標量時,要考慮該樣本(或每個樣本單元)被抽中的概率,也就是說,估計量不僅與樣本單元的觀測值有關,也與其入樣概率有關 如果各單元入樣概率均相等 簡單估計 比如srs及其他復雜抽樣的特殊情況 如果入樣概率不等 加權估計 比如str、pps等,2020/8/2,統計學專業(yè)必修課3學分,24,2、可

16、運用概率估計的方法推斷總體的數量特征,大數定律和中心極限定理通過抽樣分布規(guī)律描述了樣本和總體的內在聯系 根據這種內在聯系,運用概率估計的方法,就可以對總體數量特征做出具有一定概率保證程度的推斷,2020/8/2,統計學專業(yè)必修課3學分,25,3、抽樣誤差可以計算并加以控制,抽樣調查是非全面調查,比如存在誤差 抽樣誤差是由樣本抽取的隨機性所引起的 抽樣誤差的大小反映了抽樣推斷的效果 抽樣分布規(guī)律給出了計算和控制抽樣誤差的依據,2020/8/2,統計學專業(yè)必修課3學分,26,注意:,注意區(qū)分: 概率抽樣與非概率抽樣 等概率抽樣與不等概率抽樣 問題: 概率抽樣是等概率抽樣嗎? 非概率抽樣是不等概率抽

17、樣嗎? 解答關鍵點: 概率抽樣既有等概率抽樣,也有不等概率抽樣 非概率抽樣中沒有入樣概率這一概念,也就談不上抽樣是等概率還是不等概率,2020/8/2,統計學專業(yè)必修課3學分,27,二、抽樣調查的基本程序,首先要確定調研問題、明確研究對象等 1、設計抽樣方案 2、編制抽樣框和設計調查表 3、試抽樣調查 4、正式抽樣調查 5、數據處理 6、推斷分析 7、總結評估,2020/8/2,統計學專業(yè)必修課3學分,28,抽樣調查基本程序,確定調研問題,抽樣否,否,抽樣方案設計,問卷/調查表 設計,實施抽樣,實施調查,數據整理分析,撰寫調研報告,研究環(huán)節(jié),實施環(huán)節(jié),如何抽樣,抽多少,數據怎樣搜集,試/預調查

18、,正式調查,2020/8/2,統計學專業(yè)必修課3學分,29,確定調研問題,確定調研問題即確定調查目的 調查目的決定了調查的內容和方法,體現了科學性和可行性的結合 確定調研問題的關鍵: 關鍵是明確定義問題,包括對整個問題的敘述以及確定研究問題的具體組成部分 回答“要做什么樣的調查研究”以及“為什么要做這項調查研究” 調研人員需要做的工作: 考慮研究的目的,相關的背景資料,所需信息,以及這些信息進行分析時如何使用 需要與有關部門的決策者進行反復多輪次的認真討論,訪問有關行業(yè)專家,分析二手資料,必要時還需要進行如座談會那樣的定性調查,2020/8/2,統計學專業(yè)必修課3學分,30,例1:1994年某

19、市居民住宅消費調查,總研究目的的表述: “通過對某市部分居民的收入水平、住房現狀、住宅消費與購房意向、存貸款觀念等方面的實地調查,分析金融機構開展住宅儲蓄以及購房抵押貸款業(yè)務的市場需求與潛力,為銀行在這兩項業(yè)務上推出新舉措提供客觀可靠的參考依據” 總研究目的的具體化: 被調查者及其家庭的基本情況 被調查者家庭的住房現狀及改善意向 被調查者的儲蓄觀念 被調查者對住宅存、貸款業(yè)務的看法 部分企事業(yè)單位對其職員住房問題的計劃等,2020/8/2,統計學專業(yè)必修課3學分,31,例2:五次人口普查,第一次,1953年7月1日0時。目的:配合召開全國人大,確定選民及人大代表名額的需要,并為國家制定一五計劃

20、提供確實的人口數字,所以調查項目有:姓名、與戶主關系、年齡、性別、民族、本戶住址等6個項目 第二次,1964年7月1日0時。在第一次基礎上增加了:本人成分、文化程度、職業(yè)等 第三次,1982年7月1日0時。目的:為配合社會主義現代化建設,統籌安排人民的物質和文化生活,為制定人口政策和規(guī)劃,提供準確的人口數字資料,所以搞了13項人記錄項目,6項戶記錄項目 第四次,1990年7月1日0時。目的:為研究近五年改革開放后的人口流動和遷移狀況,所以在1982年的基礎上又增加了2項人記錄項目 第五次,2000年11月1日0時,普查項目比90年增加了一倍多,且首次增加了住房內容,2020/8/2,統計學專業(yè)

21、必修課3學分,32,1、設計抽樣方案 (重點掌握框架),明確規(guī)定調查目的及目標總體,確定所要估計的目標量 確定搜集哪些資料以及搜集的方法 確定抽樣組織方式,即如何抽樣,兼顧科學性和可行性 編制抽樣框,要根據抽樣方法和數據收集方法的不同來編制 規(guī)定要達到的精度、確定n、經費核算等問題 給出與抽樣設計相匹配的總體參數的估計量,并考察估計量的性質 對非抽樣誤差的預防和控制辦法,比如對拒訪等的處理方法,2020/8/2,統計學專業(yè)必修課3學分,33,2、調查表/問卷設計,對調查項目的要求 問卷的項目應當有確切的含義和統一的解釋 應該列入能取得確切資料的項目 問題間要具有邏輯關系 形式 易填易答,便于計

22、算機處理。一個形式繁瑣的問卷會使被訪者難以忍受,從而易出現錯答、拒答或不完全回答、隨意回答的情況 提問技巧 問卷開頭的設計 各種問題的提問技巧 答案設計技巧 監(jiān)控手段的使用,2020/8/2,統計學專業(yè)必修課3學分,34,Nielsen電視收視率調查中的有關定義,是否擁有汽車:私家車 家庭成員數: 一周內有五天或以上吃住于該家庭住址內的所有成員 家庭月總收入: 每個家庭成員每月的收入總和,包括匯款及其他任何形式的收入,2020/8/2,統計學專業(yè)必修課3學分,35,問卷中敏感性問題不能太多,某高校關于考風考紀的調查 你在以往的歷次期末考試中有沒有作弊?(有,沒有) 如果你作弊了,作弊的門次數大

23、約為(1次,2-3次,4-6次,6次以上) 你主要在以下哪種性質的課程中作弊?(通識教育課、學科共同基礎課、專業(yè)必修課、專業(yè)選修課) 選學科共同基礎課的同學請回答:你主要在以下哪些課程中作弊了? ,2020/8/2,統計學專業(yè)必修課3學分,36,問卷的開頭,_女士/小姐/先生: 您好!我是中國人民大學調查技術研究所的訪問員,我們正在進行一項有關公眾醫(yī)療保險意識的調查,目的是想了解人們對醫(yī)療保險的看法和意見。您的回答無所謂對錯,只要是您真實的情況和看法,都將有益于改善公眾醫(yī)療保險方面的服務,我們都將十分珍視。同時我們再次鄭重向您做出承諾:對您的回答和個人情況將完全保密,既不泄露給第三者,也不會公

24、開發(fā)表,除非您本人完全愿意。可能要耽誤您15分鐘左右的時間,請您配合,謝謝您的支持! 摘自公眾醫(yī)療保險意識調查問卷,2020/8/2,統計學專業(yè)必修課3學分,37,提問技術,問題1:你是否經??措娪?? 改為:你上個月看了幾次電影? 問題2:調查工人的勞動定額是否合理,如果直接向每個工人提問:您覺得本公司的勞動定額制定的是否合理? 改為:您覺得對于大多數工人來說,勞動定額制定的是否合理? 這樣的提問可能回獲得較為客觀的資料,2020/8/2,統計學專業(yè)必修課3學分,38,“撒胡椒面”的做法控制作弊,問卷上撒上一些檢查用的問題,這些問題與問卷中的某些題是高度相關甚至是完全相同的,不注意就是出現矛盾

25、 固定接駁電視錄影機與家庭錄像機 被訪者名單上安插一些“檢查員”,可能是調查公司或委托客戶公司中的工作人員,2020/8/2,統計學專業(yè)必修課3學分,39,3、實施調查過程,關鍵:保證原始數據質量 調查實施前,需要對調查員進行技術培訓,使調查員熟悉調查問卷,掌握訪談技巧,增強責任心 調查過程中,加強質量檢驗,出現問題及時總結,及時補救。如果調查項目比較大,又是第一次進行,或者對問卷設計的把握不夠大,在正式調查實施前,還應當進行一次預調查(試調查),以檢驗各方面的工作是否完善 調查后,復查、驗收調查員工作,2020/8/2,統計學專業(yè)必修課3學分,40,專業(yè)調研公司的工作手冊,專業(yè)性調研公司對每

26、一部分的工作一般都會制定詳細的工作手冊或工作流程 調查員的基本條件 調查員的培訓手冊 督導員工作手冊 一審要求及問卷、二審要求及問卷 復查規(guī)則 調查員評價標準等,2020/8/2,統計學專業(yè)必修課3學分,41,4、數據處理分析,首先要對經過調查獲得的原始數據進行檢查、核對 對驗收合格的調查問卷進行編碼和錄入 進行數據的預處理,為統計分析做好準備 錄入數據的再編碼,它是對原編碼的補充和調整 對缺失值進行插補,以構造出完整的數據集 變量的轉換,比如標準化處理,使不同單位或不同量綱、不同量表的變量在分析中具有可比性 計算目標量的估計值、方差及變異系數的估計值等 必要時還需要結合研究目的進行深入的統計

27、處理與分析,2020/8/2,統計學專業(yè)必修課3學分,42,數據的分析,背景分析 原因分析 目標市場特征分析 途徑分析等 分析的基礎上來推斷總體 不同抽樣方法下推斷方式不盡相同,2020/8/2,統計學專業(yè)必修課3學分,43,5、撰寫調查報告/總結評估,(1)主題 (2)范圍 (3)調查對象 (4)資料收集方法 (5)調查期、參考期和報告期 (6)抽樣設計和估計程序 (7)結論的描述 (8)精確度 (9)責任 (10)參考文獻,2020/8/2,統計學專業(yè)必修課3學分,44,三、抽樣技術/抽樣調查的作用,一般性掌握 與統計學原理相關知識銜接,2020/8/2,統計學專業(yè)必修課3學分,45,(一

28、)從研究對象的角度來說,1.對那些不可能進行全面觀察或普查而又需要了解全面情況的客觀對象(總體),只能抽樣調查 所研究的總體是無限的 破壞性測試 2.適用于大規(guī)模的社會經濟調查和民意測驗等 這類調查的總體雖然是有限的,理論上可以進行普查,但實際難以操作。普查耗資巨大,而且也不必得到確切的結論。比如: 對居民的家庭收支狀況或消費情況調查 各類市場調查 居民電視節(jié)目的收視率調查等等,2020/8/2,統計學專業(yè)必修課3學分,46,(二)有時全面調查、抽樣調查都可用,用抽樣調查有以下優(yōu)點,1.節(jié)約費用,特別是當總體較大時 2.時效性強 對時效性要求比較強的調查,都普遍采用抽樣調查方法及時取得信息 重

29、大事件新聞輿論調查 西方國家反映總統競選過程的調查 大多數市場及消費行為調查 季節(jié)性農作物產量調查以準備組織調運 3.有助于提高調查數據的質量,2020/8/2,統計學專業(yè)必修課3學分,47,調查中的誤差來源,調查中的誤差按產生的原因來分,工作性誤差 (登記性誤差),代表性誤差,是調查登記、匯總計算中的差錯 無法計算,可采取措施盡量避免,抽樣誤差。隨機抽樣特有的,不是差錯,不可避免,但可以計算并控制,違反隨機原則抽樣導致的,可以盡可能地避免,樣本不足以代表總體而產生的誤差,非抽樣誤差,2020/8/2,統計學專業(yè)必修課3學分,48,思考:P17 1.11.6,注: 此類題目沒有標準答案,只有參

30、考的思路 原因是: 不同時間、空間、背景下可能有差異,1結束,2020/8/2,統計學專業(yè)必修課3學分,49,2 基本概念(CH2-1/2/3),一、總體與樣本 二、估計量與抽樣分布 三、抽樣誤差與置信區(qū)間,2020/8/2,統計學專業(yè)必修課3學分,50,一、總體與樣本,(一)總體:目標總體與調查總體 (二)調查單位與抽樣單位 (三)抽樣框 (四)樣本 (五)總體指標與樣本指標,2020/8/2,統計學專業(yè)必修課3學分,51,目標總體(target population),簡稱為總體,即研究對象的全體,由研究對象中所有性質相同的個體組成 總體中包含的基本單元數用N表示 在一項調查中,要對目標總

31、體的范圍做出具體規(guī)定,目標總體的劃分有時容易,有時不太容易,要注意統計口徑 比如,對山東財政學院的教工調查 教師、教工、教職工、教職員工 比如,家庭常住人口數 有時,目標總體非常復雜,尤其在社會經濟調查中,想得到一個包括目標總體全部單位的框架往往很難,只能用一個接近目標總體,且容易取得和便于操作的框架來代替 抽樣框/抽樣總體/調查總體(sampled population),總體單元 或單位unit,2020/8/2,統計學專業(yè)必修課3學分,52,調查總體/抽樣總體(sampled population),是指從中抽取樣本的總體,是抽樣框包含的總體范圍 理論上,抽樣總體應與目標總體完全一致,否

32、則就可能產生偏差抽樣框誤差 但實踐中兩者不一致的情況卻時常發(fā)生 比如進行濟南市個體商業(yè)調查,目標總體是濟南市的所有個體商業(yè)經營單位,抽樣總體是什么呢? 可以有多種選擇,比如 營業(yè)執(zhí)照可能是不錯的選擇,即把濟南市工商局個體商業(yè)的營業(yè)執(zhí)照注冊記錄作為抽樣總體,從中抽取樣本 但是,有些人雖持有營業(yè)執(zhí)照,但早已不再從事商品交易活動,他們已不屬于目標總體范圍,但卻出現在抽樣總體當中 還有一些人無照經營,他們應屬于目標總體范圍,卻沒有出現在抽樣總體之中 這表明,要保證抽樣總體和目標總體完全一致,不是一件容易的事情,2020/8/2,統計學專業(yè)必修課3學分,53,樣本(sample),樣本從總體中按一定程序

33、抽出的部分單元的集合 樣本容量樣本中包含的基本單元的個數,n 抽樣比f (sampling fraction) 樣本的抽取方式 重復抽樣和不重復抽樣之分 等概率抽樣和不等概率抽樣之分 可能的樣本數目m,概率抽樣中,就是隨機化程序,2020/8/2,統計學專業(yè)必修課3學分,54,抽樣框/抽樣總體(sampling frame),1、含義(重點掌握) 從中抽取樣本的一個框架,是抽樣總體的具體表現 其作用就是將無形的總體變成有形的事物,以便進行實際地抽取 通常,抽樣框是一份包含所有抽樣單元的名單,給每一個抽樣單元編上一個號碼,就可以按一定的隨機化程序進行抽樣 抽樣框的具體表現形式:名單、區(qū)域/地圖、

34、時間等 2、對抽樣框的基本要求(重點掌握) (1)與目標總體盡可能保持一致 (2)應盡可能地提供抽樣單元的名稱和地理位置、聯系方式等信息 (3)還應盡可能多地提供與研究的目標量有關的輔助信息,以便調查人員利用這些輔助信息搞好抽樣設計,提高抽樣估計的效率,復雜抽樣方式和估計方法的條件,2020/8/2,統計學專業(yè)必修課3學分,55,抽樣單元(sampling unit),是構成抽樣框的基本要素 抽樣單元與總體單元的關系: 1、抽樣單元=總體單元 srs、str、sy 在N不大且比較集中,一般是從總體單元中直接抽取若干單元形成樣本,這時抽樣單元與總體單元一致 2、抽樣單元=總體單元的集合 在N很大

35、,抽樣比較復雜時,一般不直接從總體中抽取單元 通常的抽樣方法有兩種: 抽取若干總體單元的集合(cl) 通過幾個階段來抽取總體單元(ms) 這時,抽樣單元與總體的基本單元往往是不一致的 此時,抽樣框就是抽樣單元的名單,2020/8/2,統計學專業(yè)必修課3學分,56,舉例:多階段抽樣/多級抽樣 (MS:Multi-stage sampling),抽取樣本單元的過程分兩個或兩個以上的階段來完成 比如,我國城市居民住戶調查采用三或四階段抽樣 第一階段:抽選調查城市 抽樣框即所有城市的名單 第二階段:從抽中城市中抽選居委會(或抽街道辦事處再抽居委會) 抽樣框即抽中城市的所有居委會(或街道辦事處然后再居委

36、會)的名單 第三階段:從抽中的基層單位中抽取調查戶 抽樣框即所抽中居委會的所有居民戶的名單,2020/8/2,統計學專業(yè)必修課3學分,57,調查單位,調查單位是調查項目的承擔者,即我們想通過調查取得其觀測值的單位 通常是構成總體的基本單位 比如,城市居民住戶調查的三/四階段抽樣中,盡管各階段抽樣單位不同,第一階段抽城市,第二階段抽街道辦事處/居委會,第三階段才抽調查戶,但最終對抽中的居民戶進行調查,2020/8/2,統計學專業(yè)必修課3學分,58,總體參數/總體指標,總體指標通常是調查的目標量,是所要研究的總體中某種特征的數量表現 這些指標值客觀存在,人們很關心但又未知,抽樣調查的目的就是獲得對

37、這些目標量的估計 問題:為什么又稱為總體參數?,2020/8/2,統計學專業(yè)必修課3學分,59,總體指標的類型(P24:2.12.5),設總體有N個基本單元,Y1,Y2,YN為各單元數值 根據數學處理方式的不同,總體指標分為四種: 1、總體總量/總體總和(population total) 2、總體均值/總體平均數(population mean) 3、總體比例(population proportion) 4、總體方差(population variance) 5、總體比率(population ratio) 問題:為什么將總體指標歸結為這幾種類型?,2020/8/2,統計學專業(yè)必修課3學分

38、,60,樣本指標/樣本統計量(P25:2.62.10),用樣本中n個基本單元的數據構造的形式,作為對總體目標量的估計,也叫樣本估計量 問題:為什么稱為樣本統計量而非參數? 它是樣本的函數,隨抽取樣本的不同而不同,其結果取決于抽樣設計和每次抽樣所選中的樣本 所以,樣本統計量是隨機變量 樣本指標是構造總體指標估計量的基礎和依據 研究統計量的數學期望和方差,是抽樣理論所討論的主要問題,2020/8/2,統計學專業(yè)必修課3學分,61,二、估計量與抽樣分布,2020/8/2,統計學專業(yè)必修課3學分,62,估計量的優(yōu)良標準 評價估計量的標準,所謂優(yōu)良估計量,是從總體上來評價的 對于總體的同一參數,可以有不

39、同的估計量。例如,估計總體均值,可以用樣本均值,也可以用樣本中位數,用哪種估計量更好呢? 希望選擇一個相對優(yōu)良、估計效果更好的估計量。 什么樣的估計量才算是一個好的估計量呢? 這就需要有一定的評價標準。統計學家給出了評價估計量的一些標準 一個優(yōu)良估計量主要需要符合下面三個標準:無偏性、有效性、一致性,2020/8/2,統計學專業(yè)必修課3學分,63,無偏性(unbiasedness),估計量(隨機變量)的數學期望等于被估計的總體參數 中心極限定理證明了:樣本平均數、樣本成數都滿足無偏性,2020/8/2,統計學專業(yè)必修課3學分,64,有效性(efficiency),對同一總體參數的兩個無偏點估計

40、量,有更小標準差的估計量更有效,樣本平均數比中位數更有效,2020/8/2,統計學專業(yè)必修課3學分,65,一致性(consistency),隨著樣本容量的增大,估計量的值越來越接近被估計的總體參數 大數定律已經證明了:樣本平均數和樣本成數都滿足一致性,2020/8/2,統計學專業(yè)必修課3學分,66,復雜估計量有偏,但比簡單估計量更有效P26,簡單估計量/直接估計量 直接以調查變量的樣本指標作為總體指標的估計量 是線性估計量(樣本觀測值的線性組合),也是無偏估計量 復雜估計量/間接估計量 在調查變量的樣本指標的基礎上,再結合輔助變量構造一個新估計量,作為總體指標的估計量 常用的:比率估計量(ra

41、tio estimator),回歸估計量(regression estimator) 是有偏的、非線性的,但是通常更有效(CH5),2020/8/2,統計學專業(yè)必修課3學分,67,估計量的分布抽樣分布的意義 (sampling distribution),樣本是隨機的 樣本統計量是隨機變量 不同的樣本給出不同的估計值 有必要討論:不同估計值之間的差異有多大?各估計值出現的概率有多大? 估計量的概率分布,即抽樣分布 研究抽樣分布的目的就是為了通過探討估計量的分布規(guī)律,找到控制抽樣誤差的依據,2020/8/2,統計學專業(yè)必修課3學分,68,抽樣分布的形式與特征,抽樣分布是估計量的概率分布,由估計量

42、的可能取值與之對應的概率組成 抽樣分布的期望與方差反映了抽樣分布的特征 研究統計量的數學期望和方差,是抽樣理論所討論的主要問題,估計量的性質,2020/8/2,統計學專業(yè)必修課3學分,69,估計量方差V、偏差B、均方誤差MSE,重點理解并掌握:三個概念的含義和基本關系,2020/8/2,統計學專業(yè)必修課3學分,70,估計量方差(V:Variance) 抽樣誤差的測度指標,樣本統計量作為目標量的估計量,是一個隨機變量 某個樣本的估計值與總體待估參數間存在著差異離差,這是個別樣本的抽樣誤差 但是,個別樣本的抽樣誤差不能代表某一個抽樣方案的優(yōu)劣 一個抽樣方案的優(yōu)劣要用所有可能樣本的平均離差來衡量,這

43、就是抽樣誤差 在無偏估計量的前提下用估計量方差 來表征,它從平均意義上說明估計值與 待估參數的差異狀況,2020/8/2,統計學專業(yè)必修課3學分,71,抽樣方案選擇1,離散度相同 但2是無偏估計,2020/8/2,統計學專業(yè)必修課3學分,72,抽樣方案選擇2,都無偏 但1比2離散度更小,2020/8/2,統計學專業(yè)必修課3學分,73,抽樣方案選擇3,2無偏但離散度更大,1有偏但 更集中,2020/8/2,統計學專業(yè)必修課3學分,74,舉例,將每個抽樣方案的結果比喻成一次打靶的結果 四個圖分別表示四個射手的打靶情況,可以比喻成四種抽樣方案;紅色靶心代表總體真值 每個點代表某抽樣方案下某一個樣本的

44、估計值,2020/8/2,統計學專業(yè)必修課3學分,75,:著彈點均勻分布在靶心周圍,而且比較密集 無系統性偏差,而且抽樣誤差較小,是比較理想的抽樣方案 :著彈點均勻分布在靶心周圍,但較分散 雖然也沒有系統性偏差,但比較分散說明抽樣誤差較大 、:都偏向一側;的著彈點分布比較密集,而著彈點分散 雖然有系統偏差,但抽樣標準誤還比較??;而不僅有系統偏差,而且抽樣標準誤較大 結論:純粹從技術水平的角度講,和水平相當,和 水平相當;但、的槍或者眼睛出了問題,或者當時有偏于一側的風向 問題:相互比較時,如何選擇最佳方案呢? 和,和 , 和,2020/8/2,統計學專業(yè)必修課3學分,76,偏差(B:Bias)

45、,按某一抽樣方案進行反復抽樣,其所有可能樣本估計值 的均值(即數學期望)與總體真值 之間的離差即偏差,即非抽樣誤差,2020/8/2,統計學專業(yè)必修課3學分,77,均方誤差(MSE:Mean Square Error),為了推斷總體真值,在沒有偏差的情況下,用樣本統計量對目標量進行估計,要求估計量的抽樣標準誤越小越好,也就是估計量的方差越小越好 如果存在偏差,單純追求抽樣誤差越小越好就不合理了 上例中的、號靶,沒有偏差但抽樣標準誤比較大,抽樣標準誤比較小但有偏差。究竟哪一個更好呢?,所以,需要同時測量抽樣誤差和偏差。這就提出了“均方誤差”這一概念,2020/8/2,統計學專業(yè)必修課3學分,78

46、,MSE的定義,MSE指所有可能樣本的估計值 與總體真值 之間離差平方的均值,MSE與估計量方差的形式有什么不同?,2020/8/2,統計學專業(yè)必修課3學分,79,MSE與抽樣方差V和偏差B的關系,結論:MSE=V+B2,交叉項為0,如果B為零,即估計量為無偏估計量,其均方誤差即估計量方差,2020/8/2,統計學專業(yè)必修課3學分,80,MSE與V和B的關系,MSE=V+B2,2020/8/2,統計學專業(yè)必修課3學分,81,偏差與抽樣誤差對應,所屬的誤差種類不同 偏差是偏于某一方向的帶有系統性的誤差 而抽樣誤差是一種隨機誤差,是偶然性的代表性誤差,沒有系統性 誤差大小與樣本容量的關系不同 抽樣

47、誤差隨樣本容量的增加而減少 而大多數的偏差并不隨著樣本容量的增大而減小,有時甚至隨n增大而增大,2020/8/2,統計學專業(yè)必修課3學分,82,偏差產生的原因,(1)估計量本身有偏(系統性的代表性誤差) 這時,估計量的數學期望與總體參數不一致 (2)非抽樣誤差因素的影響(工作性誤差) 抽樣框誤差 無回答誤差 計量誤差 所以,偏差即非抽樣誤差,2020/8/2,統計學專業(yè)必修課3學分,83,抽樣中的誤差構成,重點理解,2020/8/2,統計學專業(yè)必修課3學分,84,調查中的誤差來源,調查中的誤差按產生的原因來分,工作性誤差 (登記性誤差),代表性誤差,是調查登記、匯總計算中的差錯 無法計算,可采

48、取措施盡量避免,抽樣誤差。隨機抽樣特有的,不是差錯,不可避免,但可以計算并控制,違反隨機原則抽樣導致的,可以盡可能地避免,樣本不足以代表總體而產生的誤差,非抽樣誤差,2020/8/2,統計學專業(yè)必修課3學分,85,1、抽樣誤差,抽樣的隨機性引起的,不可避免(無法消除),但是可以計量并加以控制 計量指標或表現形式有:估計量方差、抽樣標準誤(抽樣平均誤差)、抽樣極限誤差等 主要的控制辦法:增大樣本容量 理由:抽樣標準誤差與樣本容量的平方根大致呈反比關系,2020/8/2,統計學專業(yè)必修課3學分,86,2非抽樣誤差,相對于抽樣誤差而言的,非抽樣誤差不是由于抽樣的隨機性引起的 按非抽樣誤差的來源劃分為

49、:抽樣框誤差、無回答誤差、計量誤差等 一般不能通過增大n的方式減少非抽樣誤差,有時增大n反而會增大非抽樣誤差,2結束,2020/8/2,統計學專業(yè)必修課3學分,87,3 樣本設計,一、樣本設計的內容 二、樣本設計的原則 三、樣本設計效果的測定,2020/8/2,統計學專業(yè)必修課3學分,88,一、樣本設計的內容,樣本設計是抽樣方案設計的核心部分 樣本設計是圍繞抽樣目的,對抽樣方式、方法和估計量選擇所作的系統安排,即樣本設計要規(guī)定: 入樣單元的產生方式和途徑 n的大小 圍繞總體要做出怎樣的估計等 樣本設計的內容: 如何選樣 如何估計,2020/8/2,統計學專業(yè)必修課3學分,89,二、樣本設計的原

50、則,1、保證抽樣的目的性原則 2、保證實現抽樣的隨機性原則 3、保證實現抽樣的最大效果原則 4、保證實現抽樣的可計量性原則,即樣本資料能夠量化,估計效果能夠衡量,2020/8/2,統計學專業(yè)必修課3學分,90,最大效果原則,抽樣的最大效果就是對總體做出最好的估計。怎樣算是最好?這要從抽樣費用與估計精度的關系中來理解 一個好的抽樣方案應該兼顧精度和費用;同時,精度和費用也是評價一個抽樣設計方案優(yōu)劣的準則 所以,最優(yōu)設計就是: 在核定的總費用內達到最高的精度 或者在達到精度要求的前提下使總費用最少 或者在精度和費用之間找到一個可以接受的平衡點 注意:精度并非越高越好,對不同的研究對象,精度的要求也會有所不同 比如,產品檢驗的抽樣方案的精度要求;調查電視節(jié)目收視率的精度要求,2020/8/2,統計學專業(yè)必修課3學分,91,圖 費用與精度關系示意圖,2020/8/2,統計學專業(yè)必修課3學分,92,三、樣本設計效果的測定 Deff因子(Design effect),LKish提出的 目的:比較不同抽樣方案的效率 前提條件:n相同的兩個抽樣方案間的效率比較 定義式:,擴展式:,分母:worsrs簡單估計量的方差 分子:某抽樣設計同n條件下的估計量方差,2020/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論