統(tǒng)計學:02 數(shù)據(jù)的搜集_第1頁
統(tǒng)計學:02 數(shù)據(jù)的搜集_第2頁
統(tǒng)計學:02 數(shù)據(jù)的搜集_第3頁
統(tǒng)計學:02 數(shù)據(jù)的搜集_第4頁
統(tǒng)計學:02 數(shù)據(jù)的搜集_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第2章數(shù)據(jù)的搜集統(tǒng)計學第2章數(shù)據(jù)的搜集§2.1數(shù)據(jù)的來源§2.2調(diào)查數(shù)據(jù)§2.3實驗數(shù)據(jù)§2.4數(shù)據(jù)的誤差§2.5數(shù)據(jù)文件§2.1數(shù)據(jù)的來源一.數(shù)據(jù)的間接來源二.數(shù)據(jù)的直接來源統(tǒng)計數(shù)據(jù)的來源的主要渠道一是來源于使用者自己的調(diào)查或?qū)嶒?,對使用者來說,這是統(tǒng)計數(shù)據(jù)的直接來源,我們稱之為第一手數(shù)據(jù)或直接的統(tǒng)計數(shù)據(jù);二是來源于別人調(diào)查或?qū)嶒灥臄?shù)據(jù),對使用者來說,這是統(tǒng)計數(shù)據(jù)的間接來源,我們稱之為第二手數(shù)據(jù)或間接的統(tǒng)計數(shù)據(jù)。

數(shù)據(jù)的間接來源:定義:如果與研究內(nèi)容有關(guān)的原信息已經(jīng)存在,我們只是對這些原信息重新加工、整理,使之成為我們進行統(tǒng)計分析可以使用的數(shù)據(jù),則我們把它們稱為間接來源的數(shù)據(jù)。分類:從搜集的范圍看,這些數(shù)據(jù)可以取自系統(tǒng)外部,也可以取自系統(tǒng)內(nèi)部。統(tǒng)計數(shù)據(jù)的間接來源系統(tǒng)外部的數(shù)據(jù)Internet中國統(tǒng)計年鑒2001中國人口統(tǒng)計年鑒中國市場統(tǒng)計年鑒世界發(fā)展報告世界經(jīng)濟年檢工業(yè)普查數(shù)據(jù)中國統(tǒng)計出版社1.統(tǒng)計部門和政府部門公布的有關(guān)資料,如各類統(tǒng)計年鑒2.各類經(jīng)濟信息中心、信息咨詢機構(gòu)、專業(yè)調(diào)查機構(gòu)等提供的數(shù)據(jù)3.各類專業(yè)期刊、報紙、書籍所提供的資料4.各種會議,如博覽會、展銷會、交易會及專業(yè)性、學術(shù)性研討會上交流的有關(guān)資料5.從互聯(lián)網(wǎng)或圖書館查閱到的相關(guān)資料系統(tǒng)內(nèi)部的數(shù)據(jù)中國統(tǒng)計年鑒2001中國人口統(tǒng)計年鑒中國市場統(tǒng)計年鑒世界發(fā)展報告世界經(jīng)濟年檢工業(yè)普查數(shù)據(jù)中國統(tǒng)計出版社1.業(yè)務(wù)資料,如與業(yè)務(wù)經(jīng)營活動有關(guān)的各種單據(jù),記錄2.經(jīng)營活動過程中的各種統(tǒng)計報表3.各種財務(wù),會計核算和分析資料等二手數(shù)據(jù)的特點1.搜集容易,采集成本低2.作用(1)分析所要研究的問題(2)提供研究問題的背景(3)幫助研究者更好地定義問題(4)檢驗和回答某些疑問和假設(shè)(5)尋找研究問題的思路和途徑3.在研究中應(yīng)優(yōu)先考慮搜集二手資料二手數(shù)據(jù)的評估1.數(shù)據(jù)是誰搜集的?主要考察數(shù)據(jù)搜集者的實力和社會信譽度。如,對于全國性的宏觀數(shù)據(jù),與某個專業(yè)性的調(diào)查機構(gòu)相比,政府公布的數(shù)據(jù)可靠性更高。2.為什么目的而搜集的?如為了某個集團的利益而搜集的數(shù)據(jù)是值得懷疑的。3.數(shù)據(jù)是怎樣搜集的?不同方法所采集的數(shù)據(jù)解釋力與說服力是不同的。數(shù)據(jù)的質(zhì)量來源于生產(chǎn)過程。4.什么時候搜集的?過時的數(shù)據(jù)其說服力自然受到懷疑。數(shù)據(jù)的直接來源通過調(diào)查的方法和實驗的方法可以直接獲得第一手資料。通過調(diào)查的方法獲得的數(shù)據(jù)稱為調(diào)查數(shù)據(jù),通過實驗的方法獲得的數(shù)據(jù)稱為實驗數(shù)據(jù)。統(tǒng)計數(shù)據(jù)的直接來源數(shù)據(jù)的直接來源

(原始數(shù)據(jù))1.調(diào)查數(shù)據(jù)(1)通過調(diào)查方法獲得的數(shù)據(jù)(2)通常是對社會現(xiàn)象而言(3)通常取自有限總體2.實驗數(shù)據(jù)(1)通過實驗方法得到的數(shù)據(jù)(2)通常是對自然現(xiàn)象而言

(3)也被廣泛運用到社會科學中如心理學、教育學、社會學、經(jīng)濟學、管理學等

§2.2調(diào)查數(shù)據(jù)1.概率抽樣與非概率抽樣2.搜集數(shù)據(jù)的基本方法概率抽樣和非概率抽樣在數(shù)據(jù)采集階段,統(tǒng)計學家們面臨的一個關(guān)鍵問題是如何選出一個好的樣本。好的樣本的含義:

1.針對研究的問題而言的。

2.針對調(diào)查費用與估計精度的關(guān)系而言的。要求要有高的性價比。抽樣的方式:概率抽樣和非概率抽樣概率抽樣

(probabilitysampling)也稱隨機抽樣,是指遵循隨機原則進行的抽樣,總體中每個單位都有一定的機會被選入樣本。特點(1)按一定的概率以隨機原則抽取樣本(隨便與隨機的區(qū)別)隨機原則是在抽取樣本時排除主觀上有意識地抽取調(diào)查單位,使每個單位都有一定的機會被抽中。(2)每個單位被抽中的概率是已知的,或是可以計算出來的。(3)當用樣本對總體目標量進行估計時,要考慮到每個樣本單位被抽中的概率。就是講,估計量不僅與樣本單位的觀測值有關(guān),也與入樣概率有關(guān)。抽樣框1.進行概率抽樣需要抽樣框,而抽樣框通常包括所有總體單位的信息,如企業(yè)名錄(抽選企業(yè))、學生名冊(抽選學生)或住戶門牌號碼(抽選住戶)等。2.抽樣框的作用不僅在于提供各備選單位的名單以供抽選,它還是計算各個單位入樣的依據(jù)。簡單隨機抽樣

(simplerandomsampling)1.簡單隨機抽樣就是從包括總體N個單位的抽樣框中隨機地、一個一個地抽取n個單位作為樣本,每個單位入樣的概率是相等的。最基本的抽樣方法,是其它抽樣方法的基礎(chǔ)2.特點簡單、直觀,在抽樣框完整時,可直接從中抽取樣本因為抽樣概率相同,用樣本統(tǒng)計量對目標量進行估計及計算估計量誤差比較方便3.局限性(1)當N很大時,不易構(gòu)造抽樣框(2)抽出的單位很分散,給實施調(diào)查增加了困難(3)沒有利用其它輔助信息以提高估計的效率分層抽樣

(stratifiedsampling)1.分層抽樣是將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本。將各層的樣本結(jié)合起來,對總體的目標量進行估計。2.優(yōu)點(1)保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計的精度(2)組織實施調(diào)查方便(3)既可以對總體參數(shù)進行估計,也可以對各層的目標量進行估計整群抽樣

(clustersampling)1.整群抽樣是指將總體中若干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位全部實施調(diào)查。2.特點(1)抽樣時只需群的抽樣框,可簡化工作量(2)調(diào)查的地點相對集中,節(jié)省調(diào)查費用,方便調(diào)查的實施(3)缺點是估計的精度較差系統(tǒng)抽樣

(systematicsampling)1.系統(tǒng)抽樣是指將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其它樣本單位。典型的系統(tǒng)抽樣是先從數(shù)字1到k之間隨機抽取一個數(shù)字r作為初始單位,以后依次取r+k,r+2k…。故可以把系統(tǒng)抽樣看成是將總體內(nèi)的單位按順序分成k群,用相同的概率抽取出一群的方法。2.優(yōu)點:操作簡便,可提高估計的精度3.缺點:對估計量方差的估計比較困難多階段抽樣

(multi-stagesampling)1.先抽取群,但并不是調(diào)查群內(nèi)的所有單位,而是再進行一步抽樣,從選中的群中抽取出若干個單位進行調(diào)查。這里群是初級抽樣單位,第二階段抽取的是最終抽樣單位,將該方法推廣,使抽樣的段數(shù)增多,就稱為多階段抽樣。2.多階段抽樣具有整群抽樣的優(yōu)點,保證樣本相對集中,節(jié)約調(diào)查費用;不需要包含所有低階段抽樣單位的抽樣框;同時由于實行了再抽樣,使調(diào)查單位在更廣泛的范圍內(nèi)展開;在大規(guī)模的抽樣調(diào)查中,經(jīng)常被采用的方法。非概率抽樣

(non-probabilitysampling)1.非概率抽樣是相對于概率抽樣而言的,指抽取樣本時不是依據(jù)隨機原則,而是根據(jù)研究目的對數(shù)據(jù)的要求,采用某種方式從總體中抽出部分單位對其實施調(diào)查。2.抽樣方式有方便抽樣、判斷抽樣、自愿樣本、滾雪球抽樣、配額抽樣等方式方便抽樣1.方便抽樣是指調(diào)查過程中由調(diào)查員依據(jù)方便的原則,自行確定入抽樣本的單位。如(1)調(diào)查員在街頭、公園、商店等公共場所進行攔截調(diào)查

(2)廠家在出售產(chǎn)品柜臺前對路過顧客進行的調(diào)查2.優(yōu)點:容易實施,調(diào)查的成本低3.缺點:樣本單位的確定帶有隨意性,樣本無法代表有明確定義的總體,調(diào)查結(jié)果不宜推斷總體,但在科學研究中,使用方便樣本可以產(chǎn)生一些想法,對研究內(nèi)容有個初步認識。判斷抽樣1.判斷抽樣是指研究人員根據(jù)經(jīng)驗、判斷和對研究對象的了解,有目的地選擇一些單位作為樣本。根據(jù)不同目的分為重點抽樣,典型抽樣,代表抽樣等方式2.判斷抽樣是主觀的,樣本選擇的好壞取決于調(diào)研者的判斷、經(jīng)驗、專業(yè)程度和創(chuàng)造性3.優(yōu)點:抽樣成本比較低,容易操作4.缺點:樣本是人為確定的,沒有依據(jù)隨機的原則,調(diào)查結(jié)果不能用于對推斷總體自愿樣本1.自愿樣本指被調(diào)查者自愿參加,成為樣本中的一分子,向調(diào)查人員提供有關(guān)信息。如,參與報刊上和互聯(lián)網(wǎng)上刊登的調(diào)查問卷活動,向某類節(jié)目撥打熱線電話等,都屬于自愿樣本2.自愿樣本與抽樣的隨機性無關(guān)(1)樣本是有偏的(2)不能依據(jù)樣本的信息推斷總體滾雪球抽樣1.先選擇一組調(diào)查單位,對其實施調(diào)查之后,再請他們提供另外一些屬于研究總體的調(diào)查對象,調(diào)查人員根據(jù)所提供的線索,進行此后的調(diào)查。這個過程持續(xù)下去,就會形成滾雪球效應(yīng)如對冬泳愛好者進行某項調(diào)查。2.適合于對稀少群體和特定群體研究3.優(yōu)點:容易找到那些屬于特定群體的被調(diào)查者,調(diào)查的成本也比較低配額抽樣1.配額抽樣類似于概率抽樣中的分層抽樣,在市場調(diào)查中有廣泛的應(yīng)用。它是先將總體中的所有單位按一定的標志(變量)分為若干類,然后在每個類中采用方便抽樣或判斷抽樣的方式選取樣本單位。2.優(yōu)點:操作簡單,可以保證總體中不同類別的單位都能包括在所抽的樣本之中,使得樣本的結(jié)構(gòu)和總體的結(jié)構(gòu)類似。3.缺點:抽取具體樣本單位時,不是依據(jù)隨機原則,屬于非概率抽樣。為保證樣本的分布均勻,常采用交叉變量配額來控制。抽樣方法簡單隨機抽樣分層抽樣整群抽樣系統(tǒng)抽樣多階段抽樣概率抽樣方便抽樣判斷抽樣自愿樣本滾雪球抽樣配額抽樣非概率抽樣抽樣方式概率抽樣與非概率抽樣的比較1.概率抽樣依據(jù)隨機原則抽選樣本樣本統(tǒng)計量的理論分布存在可根據(jù)調(diào)查的結(jié)果推斷總體2.非概率抽樣不是依據(jù)隨機原則抽選樣本樣本統(tǒng)計量的分布是不確定的無法使用樣本的結(jié)果推斷總體搜集數(shù)據(jù)的基本方法自填式面訪式電話式調(diào)查的數(shù)據(jù)實驗的數(shù)據(jù)搜集數(shù)據(jù)的基本方法自填式問卷調(diào)查1.自填式指在沒有調(diào)查員協(xié)助的情況下由被調(diào)查者自己填寫,完成調(diào)查問卷。問卷遞送方法有:調(diào)查員分發(fā)、郵寄、網(wǎng)絡(luò)、媒體2.要求:調(diào)查問卷結(jié)構(gòu)嚴謹,有清楚的說明3.弱點(1)問卷的返回率比較低(2)不適合結(jié)構(gòu)復(fù)雜的問卷(3)調(diào)查周期比較長(4)數(shù)據(jù)搜集過程中出現(xiàn)的問題難于及時采取調(diào)改措施

面訪式問卷調(diào)查1.面訪式是指現(xiàn)場調(diào)查中調(diào)查員與被調(diào)查者面對面,調(diào)查員提問、被調(diào)查者回答的調(diào)查方式2.優(yōu)點可提高調(diào)查的回答率可提高調(diào)查數(shù)據(jù)的質(zhì)量能調(diào)節(jié)數(shù)據(jù)搜集所花費的時間3.弱點調(diào)查的成本較高調(diào)查過程的質(zhì)量控制有一定難度電話式問卷調(diào)查您好!我是××調(diào)查公司的調(diào)查員…1.電話式是指調(diào)查人員通過打電話的方式向被調(diào)查者實施調(diào)查。2.特點速度快,能在短時間內(nèi)完成調(diào)適合于樣本單位十分分散的情況3.局限(1)如果被調(diào)查者沒有電話,調(diào)查將無法實施(2)訪問的時間不能太長(3)使用的問卷需要簡單(4)被訪者不愿意接受調(diào)查時,難以說服觀察式調(diào)查觀察式調(diào)查指調(diào)查人員通過直接觀察的方法獲取信息。如利用安置在超市中的錄像設(shè)備觀察顧客挑選商品的表情;在十字路口通過計數(shù)的方法估計車流量等。數(shù)據(jù)搜集方法的選擇1.抽樣框中的有關(guān)信息抽樣框中的有關(guān)信息是影響方法選擇的一個因素。如果抽樣框中沒有通訊地址,就不能將自填式問卷寄給被調(diào)查者;如果沒有計算機隨機撥號系統(tǒng),又沒有電話號碼的抽樣框,電話調(diào)查的概率樣本就難以產(chǎn)生,電話訪問方式就無法使用。數(shù)據(jù)搜集方法的選擇2.目標總體特征目標總體的特征也影響數(shù)據(jù)搜集方法。目標總體的特征表現(xiàn)在多個方面。如總體的識字率低,對問卷的理解有困難,就不宜使用自填式方式;樣本的地理分布也很重要,如果樣本單位分布很廣,地域跨度大,進行面訪的交通費用就會很高,而且調(diào)查過程的管理和質(zhì)量監(jiān)控也不容易。數(shù)據(jù)搜集方法的選擇3.調(diào)查問題的內(nèi)容調(diào)查問題的內(nèi)容也會影響數(shù)據(jù)搜集。對于比較復(fù)雜的問題,面訪調(diào)查比較適合,因為調(diào)查員可以在現(xiàn)場對模糊的問題進行解釋和澄清,并判斷被訪者對問題是否真正理解,調(diào)查問卷的設(shè)計也可采用更多技術(shù),如跳答、轉(zhuǎn)答等技術(shù),使搜集的數(shù)據(jù)滿足研究的需要。而如果調(diào)查的問題涉及一些敏感性問題,那么設(shè)置匿名的數(shù)據(jù)搜集方法,如自填式或電話調(diào)查可能更適合。數(shù)據(jù)搜集方法的選擇4.有形輔助物的使用有形輔助物的使用對調(diào)查常常是有幫助或是必要的,例如在調(diào)查期間顯示產(chǎn)品、產(chǎn)品的樣本、廣告或促銷演示等,在一些市場調(diào)查中,有時還需要被調(diào)查者試用產(chǎn)品,然后接受調(diào)查。在這些情況下,面訪式是最合適的方法。通過郵寄問卷的自填式也可有一些效果,因為可以隨問卷同時郵寄有關(guān)調(diào)查內(nèi)容的圖片。但電話調(diào)查對有形輔助物的使用就受到限制。數(shù)據(jù)搜集方法的選擇5.實施調(diào)查的資源實施調(diào)查的資源會對搜集數(shù)據(jù)方法產(chǎn)生重大影響。這些資源包括經(jīng)費預(yù)算、人員、調(diào)查設(shè)備和調(diào)查所需時間。面訪調(diào)查的費用是最高的,需要支付調(diào)查員的勞務(wù)費、調(diào)查交通費、被訪者的禮品費等,還要找到能夠滿足調(diào)查需要的一定數(shù)量的調(diào)查員。如果使用計算機輔助電話調(diào)查,就需要有必要的計算機設(shè)備和CATI操作系統(tǒng)。數(shù)據(jù)搜集方法的選擇6.管理和控制有些數(shù)據(jù)搜集方法比另一些方法更容易管理。例如,在電話調(diào)查中,調(diào)查員通常集中在調(diào)查中心一起工作,因此,管理和控制相對簡單。而面訪調(diào)查中調(diào)查員是分散、獨立地進行工作,對他們的管理和控制就有一定困難。數(shù)據(jù)搜集方法的選擇7.質(zhì)量要求質(zhì)量要求也是確定數(shù)據(jù)搜集方法的一個重要因素。如果調(diào)查員是經(jīng)過考核選拔出來的,有較好的素質(zhì)和責任心,并經(jīng)過專門的培訓,這時面訪調(diào)查就能夠有效地減小被訪者的回答誤差。一般來講,面訪式的回答率最高,而自填式的回答率最低。但面訪式的調(diào)查成本最高,而自填式的調(diào)查成本最低。各調(diào)查方法的比較自填式面訪式電話式調(diào)查時間慢中等快捷調(diào)查費用低高低問卷難度要求容易可以復(fù)雜要求容易有形輔助物的使用中等利用充分利用無法利用調(diào)查過程控制簡單復(fù)雜容易調(diào)查員作用的發(fā)揮無法發(fā)揮充分發(fā)揮一般發(fā)揮回答率最低較高一般§2.3實驗數(shù)據(jù)實驗數(shù)據(jù)是指在實驗中控制實驗對象而搜集到的變量的數(shù)據(jù)。一.實驗組和對照組二.實驗中的若干問題三.實驗中的統(tǒng)計四.實驗法案例一.實驗組和對照組1.將研究對象分為兩組:實驗組和對照組實驗組是指隨機抽選的實驗對象的子集,在這個子集中,每個單位接受某種特別的處理。對照組是指每個單位不接受實驗組成員所接受的某種特別的處理。2.實驗組和對照組的產(chǎn)生應(yīng)遵循隨機原則,而且應(yīng)該匹配。所謂匹配指對實驗單位的背景材料進行分析比較,將情況類似的每對單位分別隨機地分配到實驗組和對照組。二.實驗中的若干問題1.人的意愿研究的對象是人的時候,在劃分實驗組和對照組時的隨機原則將面臨挑戰(zhàn)。2.心理問題

人們對被研究非常敏感,這使得他們更加注意自我,從而走到事物的另一個極端。3.道德問題

當某種實驗涉及道德問題時,人們會處于進退兩難的尷尬境地。

三.實驗中的統(tǒng)計1.實驗設(shè)計本身就是一個統(tǒng)計問題2.確定進行實驗所需要的單位的個數(shù),以保證實驗可以達到統(tǒng)計顯著的結(jié)果3.將統(tǒng)計的思想融入到實驗設(shè)計中,使實驗設(shè)計符合統(tǒng)計分析的標準4.對實驗數(shù)據(jù)進行分析時,統(tǒng)計可以提供最恰當?shù)姆治龇椒?/p>

§2.4數(shù)據(jù)的誤差一.抽樣誤差二.非抽樣誤差三.誤差的控制抽樣誤差

(samplingerror)1.抽樣誤差是由于抽樣的隨機性引起的樣本結(jié)果與總體真值之間的誤差。2.所有樣本可能的結(jié)果與總體真值之間的平均性差異3.影響抽樣誤差的大小的因素樣本量的大小總體的變異性非抽樣誤差

(non-samplingerror)1.非抽樣誤差是相對抽樣誤差而言的,是指除抽樣誤差之外的,由于其他原因引起的樣本觀察結(jié)果與總體真值之間的差異。2.非抽樣誤差存在于所有的調(diào)查之中概率抽樣,非概率抽樣,全面性調(diào)查3.非抽樣誤差有抽樣框誤差、回答誤差、無回答誤差、調(diào)查員誤差、測量誤差非抽樣誤差

(non-samplingerror)1.抽樣框誤差是指由于抽樣框的不完善造成的誤差。2.回答誤差是指被調(diào)查者在接受調(diào)查時給出的回答與真實情況不符。主要有(1)理解誤差—恰當設(shè)計問卷措辭。

(2)記憶誤差—縮短調(diào)查涉及的時間范圍。

(3)有意識誤差—調(diào)查人員做好被調(diào)查者的思想工作,打消顧慮;調(diào)查人員遵守職業(yè)道德,為被調(diào)查者保密;調(diào)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論