統(tǒng)計學-數(shù)據(jù)的收集課件_第1頁
統(tǒng)計學-數(shù)據(jù)的收集課件_第2頁
統(tǒng)計學-數(shù)據(jù)的收集課件_第3頁
統(tǒng)計學-數(shù)據(jù)的收集課件_第4頁
統(tǒng)計學-數(shù)據(jù)的收集課件_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1統(tǒng)計學Statistics2第 2 章 數(shù)據(jù)的收集 2.1 數(shù)據(jù)收集的主要方法 2.2 幾種基本的抽樣方法 2.3 數(shù)據(jù)收集的誤差 2.4 小結(jié)3第 2 章 數(shù)據(jù)的收集2.1 數(shù)據(jù)收集的主要方法4數(shù)據(jù)收集的主要方法根據(jù)研究的目的和要求,采用科學的方法,有組織、有計劃地收集數(shù)據(jù)信息資料的過程,稱之為統(tǒng)計調(diào)查(statistical survey)。實踐中,數(shù)據(jù)來源通常有兩個主要渠道:一是直接進行調(diào)查或?qū)嶒?,獲得“一手數(shù)據(jù)”;二是通過他人調(diào)查或?qū)嶒灥慕Y(jié)果整理得到“二手數(shù)據(jù)”。5數(shù)據(jù)收集的主要方法在社會經(jīng)濟領(lǐng)域,專門調(diào)查是直接獲取數(shù)據(jù)的重要手段,包括了一國政府組織的各種普查、抽樣調(diào)查、統(tǒng)計報表制度

2、等,也包括了企業(yè)、機構(gòu)、部門甚至個人為了特定目的而進行的各種市場調(diào)查、產(chǎn)品測試、民意調(diào)研等。調(diào)查數(shù)據(jù)一般是客觀上已經(jīng)存在的,但需要通過觀察或詢問的方式才能收集匯總得到。顯然,調(diào)查數(shù)據(jù)大多與時間有關(guān),是特定時期或時點上的變量結(jié)果,因此,這類數(shù)據(jù)也會隨著時間的變化而改變,理論上無法重復觀察。6數(shù)據(jù)收集的主要方法此外,調(diào)查的對象通常以人為主體,即使調(diào)查對象是其他的客觀事物(如一塊土地),調(diào)查的結(jié)果(如產(chǎn)量)也往往與人的活動有關(guān)。這就使得要收集高質(zhì)量的調(diào)查數(shù)據(jù),必須將人為因素的干擾盡可能控制在最低限度,而這也恰恰是收集調(diào)查數(shù)據(jù)的難點所在。科學實驗則是收集自然科學數(shù)據(jù)的常用手段。與調(diào)查數(shù)據(jù)不同,實驗數(shù)據(jù)

3、是在控制一個或多個因素的前提下,觀察感興趣的變量結(jié)果,實驗的次數(shù)也可以是無限的,并且可以通過改變控制因素,觀察變量結(jié)果的變化情況。7數(shù)據(jù)收集的主要方法相較于專門調(diào)查,通過科學實驗收集數(shù)據(jù)在一定程度上能更為有效地控制數(shù)據(jù)質(zhì)量,但也更加專業(yè),受到的技術(shù)甚至法律、道德等因素的制約更多,從而應用的領(lǐng)域不及專門調(diào)查廣泛。值得一提的是,隨著計算機技術(shù)和電子商務的快速發(fā)展,很多數(shù)據(jù)被自動收集保存到特定的數(shù)據(jù)庫當中,成為當今“大數(shù)據(jù)”的主要來源。如果能夠根據(jù)研究目的,“量身定制”調(diào)查或?qū)嶒灧桨?,直接收集“一手?shù)據(jù)”,當然是最好的。但對于大多數(shù)使用者來說,受各方面因素的限制,設(shè)計、實施一項調(diào)查或?qū)嶒炌遣惶F(xiàn)

4、實的,能夠獲得的數(shù)據(jù)量也較為有限。因此,人們更多的是通過收集整理他人調(diào)查或?qū)嶒灥慕Y(jié)果來間接獲取“二手數(shù)據(jù)”。8數(shù)據(jù)收集的主要方法政府、企業(yè)、機構(gòu)等公開出版或發(fā)布的數(shù)據(jù),各類媒體公開報道的數(shù)據(jù),都是十分重要的間接數(shù)據(jù)來源。對于使用者來說,“二手數(shù)據(jù)”的收集顯然更加快捷、經(jīng)濟而便利,并且能夠突破直接數(shù)據(jù)收集在時間上的約束,觀察變量在較長一段時期內(nèi)的變化趨勢。但是,需要注意的是,由于“二手數(shù)據(jù)”是他人調(diào)查或?qū)嶒灥慕Y(jié)果,并非根據(jù)使用者自身的研究目的設(shè)計、實施的,很難完全吻合使用者的研究需要,因此,對于數(shù)據(jù)的篩選、檢查、核實等預處理工作就顯得尤為重要,避免誤用或濫用。9第 2 章 數(shù)據(jù)的收集2.2 幾種

5、基本的抽樣方法10幾種基本的抽樣方法如果在抽樣的過程中,總體中的每個個體都有一個已知的機會(概率)被選中,那么依據(jù)這樣的抽樣方案得到的樣本就是一個隨機樣本(random sample)。按照一定的概率,依據(jù)隨機原則從總體中抽取部分單元的抽樣方法就稱為隨機抽樣(random sampling)或概率抽樣(probability sampling)。隨機抽樣最主要的優(yōu)點是,由于每個總體單元都是隨機抽取的,而且能夠計算出每個單元被抽中的概率,因此能夠計算出數(shù)據(jù)收集過程中的抽樣誤差,從而得到樣本估計結(jié)果的可靠程度。11幾種基本的抽樣方法假設(shè)總體一共有N個單元,從中隨機地抽取n個單元組成最后的樣本,并且

6、總體中每個單元被抽中的概率是相等的,這就是簡單隨機抽樣(simple random sampling)。采用簡單隨機抽樣時,如果每抽取一個單元記錄下數(shù)據(jù)后,再把這個單元放回到原來的總體中參與下一次的抽選,稱為有放回抽樣或重復抽樣(sampling with replacement)。如果被抽中的單元不再放回到總體中,每次抽樣都僅從剩余的單元中隨機抽取,就稱為無放回抽樣或不重復抽樣(sampling without replacement)。12幾種基本的抽樣方法簡單隨機抽樣是一種最基本的概率抽樣方法,也是其他抽樣方法的基礎(chǔ)。這種方法簡單直觀,尤其在計算機技術(shù)發(fā)達的今天,可以方便地利用計算機從總

7、體中抽取簡單隨機樣本。但是,簡單隨機抽樣在實際應用時也存在一些局限性。首先,要獲得包含總體所有單元的名單可能是不現(xiàn)實的;其次,如果總體單元某方面的特征(如性別)有可能對研究變量(如身高)產(chǎn)生影響,抽樣時就需要借助這些輔助信息合理安排樣本構(gòu)成比例,提高估計的效率。因此,根據(jù)研究問題和研究對象的不同,人們往往會將簡單隨機抽樣與其他抽樣方法結(jié)合起來使用。13幾種基本的抽樣方法分層抽樣(stratified sampling)是在抽樣之前先將總體單元按照某種特征或某種規(guī)則劃分成不同的層,然后從不同的層中獨立、隨機地抽取一定數(shù)量的單元組成樣本。分層抽樣可以借助總體單元的某些輔助信息,確保不同特征的總體單

8、元都能以一定的數(shù)量被包含到樣本中,避免了一次簡單隨機抽樣可能抽中的具有相同特征的總體單元過于集中的偏差,使樣本結(jié)構(gòu)在一定程度上更加接近總體結(jié)構(gòu),提高估計的精度。此外,由于分層抽樣不僅可以收集樣本數(shù)據(jù)估計總體的目標變量,還可以提供不同層的估計結(jié)果,因此便于比較不同特征的總體單元之間的差異。14幾種基本的抽樣方法整群抽樣(cluster sampling)是在抽樣之前先按照某種規(guī)則將總體單元劃分為不同的群,然后隨機抽取部分群,被抽中的群中所有的單元都入選到樣本中,沒有被抽中的群則不做調(diào)查。整群抽樣與分層抽樣看似相近的地方是,在抽樣之前都會按照某種規(guī)則將總體單元進行分類,但其實質(zhì)作用則不盡相同。15

9、幾種基本的抽樣方法分層抽樣中對總體單元的分層,目的是為了保障每個層內(nèi)都有一定數(shù)量的單元被抽中,其假設(shè)前提是不同層的總體單元之間存在較大的差異,而同一層內(nèi)的單元較為相似。而整群抽樣主要是通過群的劃分,大大簡化編制總體所有單元名單的工作量(有的時候可能是無法獲得的),并且群的劃分規(guī)則往往是以地理位置鄰近或隸屬于同一系統(tǒng)為標準,從而組織實施調(diào)查會相對便利,節(jié)省了調(diào)查費用。因此,理論上來說,只有當不同群的總體單元之間較為相似,抽取若干群就足以代表所有群的總體特征,而被抽中的群內(nèi)不同單元之間又存在顯著差異時,整群抽樣的效果才會比較理想。16幾種基本的抽樣方法系統(tǒng)抽樣(systematic samplin

10、g)是將總體中的所有單元按照一定的順序排列,在規(guī)定的范圍內(nèi)隨機抽取一個單元作為起點,然后按照事先確定的規(guī)則依次抽取其他的單元,直至達到樣本量的要求。系統(tǒng)抽樣操作簡便,如果有輔助信息,可以事先對總體單元進行合理的排列,有效地提高抽樣的精確度。但是,如果總體單元排列的順序(如按日期排列)可能導致研究變量(如銷售額)存在某種內(nèi)在的變化規(guī)律(如淡季旺季的周期性),由于抽樣起點和抽樣間隔確定的隨機性,也可能導致抽取的樣本數(shù)據(jù)具有某些趨同的特征(如抽取的都是淡季或旺季數(shù)據(jù)),增加抽樣誤差。17幾種基本的抽樣方法【例2-1】表2-1是60家金融類上市公司股票代碼和股票名稱,抽取10家公司組成一個隨機樣本。序

11、號股票代碼股票名稱序號股票代碼股票名稱序號股票代碼股票名稱1000001平安銀行21601128常熟銀行41601555東吳證券2600000浦發(fā)銀行22600926杭州銀行42002736國信證券3600016民生銀行23601229上海銀行43000686東北證券4600036招商銀行24603323吳江銀行44600909華安證券5600015華夏銀行25002839張家港行45000776廣發(fā)證券6601988中國銀行26601838成都銀行46000728國元證券7601398工商銀行27601628中國人壽47600061國投資本8601166興業(yè)銀行28601318中國平安486

12、00155寶碩股份9601998中信銀行29601601中國太保49601901方正證券10601328交通銀行30601336新華保險50600864哈投股份11002142寧波銀行31601198東興證券51601788光大證券12601009南京銀行32601375中原證券52601377興業(yè)證券13601169北京銀行33002797第一創(chuàng)業(yè)53601211國泰君安14601939建設(shè)銀行34002670國盛金控54600705中航資本15601288農(nóng)業(yè)銀行35002500山西證券55000783長江證券16601818光大銀行36601688華泰證券56600369西南證券1760

13、0919江蘇銀行37601881中國銀河57000750國海證券18601997貴陽銀行38002673西部證券58600837海通證券19002807江陰銀行39600109國金證券59600999招商證券20600908無錫銀行40600958東方證券60600030中信證券表2-1 60家金融類上市公司股票代碼和股票名稱18幾種基本的抽樣方法解:首先將表2-1中的60家公司的序號、股票代碼和股票名稱分別錄入到Excel工作表中的三列單元格中(A2:A61;B2:B61;C2:C61),然后按照如下步驟進行隨機抽樣。第1步:在Excel工作表界面中點擊【數(shù)據(jù)】【數(shù)據(jù)分析】。第2步:在彈出的

14、對話框中選擇【抽樣】,單擊【確定】按鈕,如圖2-1所示。第3步:在彈出的對話框【輸入?yún)^(qū)域】中輸入60家上市公司的序號(非數(shù)值型數(shù)據(jù)不能直接參與抽樣);【抽樣方法】中選擇【隨機】,并在【樣本數(shù)】后面輸入需要抽取的樣本量;在【輸出選項】中選擇抽樣結(jié)果顯示的方式(【輸出區(qū)域】可在當前工作表中指定區(qū)域顯示,也可以選擇其他兩個選項將結(jié)果保存為新工作表組或新工作簿);最后單擊【確定】按鈕。19第 2 章 數(shù)據(jù)的收集2.3 數(shù)據(jù)收集的誤差20數(shù)據(jù)收集的誤差在數(shù)據(jù)收集的過程中,即使條件允許能夠?qū)傮w中每個單元進行統(tǒng)計調(diào)查(例如我國定期開展的人口普查,或者對本校選修統(tǒng)計學課程的所有同學進行問卷調(diào)查),記錄下來的

15、數(shù)據(jù)結(jié)果與真實的情況也不一定會百分之百地吻合,這就是數(shù)據(jù)收集的誤差。導致數(shù)據(jù)收集誤差產(chǎn)生的因素有很多,尤其是抽樣調(diào)查過程中,抽樣誤差、未響應誤差和響應誤差是我們必須知道并盡力控制在研究可接受限度內(nèi)的三個重要方面。21數(shù)據(jù)收集的誤差統(tǒng)計調(diào)查的隨機性決定了,不同的樣本會產(chǎn)生不同的數(shù)據(jù),從而很難期望某一個特定的樣本估計結(jié)果能夠恰好與總體的真實情況完全一致,這就是抽樣誤差(sampling error)。只要采用抽樣調(diào)查,抽樣誤差就不可避免,它并不是一個“錯誤”的誤差。抽樣誤差的大小依賴于抽樣的方式和樣本量的大小。22數(shù)據(jù)收集的誤差在其他條件相同的情況下,樣本量越大,抽樣誤差越小。抽樣誤差與樣本量的平

16、方根大致呈反比關(guān)系,如圖所示。23數(shù)據(jù)收集的誤差實踐中,即使按照合理的方法設(shè)計統(tǒng)計調(diào)查方案,將抽樣誤差事先控制在可接受的范圍內(nèi),但出于各種原因,仍然可能無法獲得每一個被選入到樣本中的總體單元的數(shù)據(jù),而這部分數(shù)據(jù)的缺失所造成的樣本估計結(jié)果與總體真實情況之間的偏差就是未響應誤差(nonresponse error)。經(jīng)驗表明,如果在最初選中的抽樣對象中,未響應者占到的比例并不高,例如只有20%甚至更低,那么大多數(shù)情況下,只要抽樣方案合理,最終的樣本量足夠大,可以在一定程度上假定未響應者和響應者并無太大差別,響應者的回答足以代表其他未響應者。但是,如果響應率很低,例如不超過50%,那么此時的未響應誤

17、差可能會較為顯著,影響到樣本的代表性,需要謹慎使用。24數(shù)據(jù)收集的誤差造成受訪者未響應的原因有很多,包括由于對調(diào)查不感興趣或?qū)φ{(diào)查人員不夠信任等主觀原因造成的拒訪,也包括由于時間沖突、身體狀況不佳等客觀原因造成的無法接受調(diào)查等。一方面可以通過一些預防性的措施有針對性地提高響應率。另一方面,分析未響應者的基本特征,盡可能降低隨機因素之外的其他因素可能帶來的響應者與未響應者之間的差別,將未響應誤差控制在可接受的范圍內(nèi)。最后,必要時還應對存在未響應的數(shù)據(jù)進行調(diào)整,達到糾偏、校正的補救效果。25數(shù)據(jù)收集的誤差如果受訪者的回答與真實情況并不吻合,就會直接導致樣本數(shù)據(jù)估計結(jié)果與總體真實情況之間的偏差,這就是響應誤差(response error)。引起響應誤差的因素同樣十分廣泛。第一個方面是調(diào)查問卷設(shè)計不周可能帶來的誤差。另一個方面是受訪者自身因素可能帶來的誤差。此外,調(diào)查人員也是可能引起響應誤差的重要因素之一。26第 2 章 數(shù)據(jù)的收集2.4 小結(jié)27小結(jié)實踐中,人們可以通過直接進行調(diào)查或?qū)嶒炇占耙皇謹?shù)據(jù)”,也可以利用他人調(diào)查或?qū)嶒灥慕Y(jié)果整理得到“二手數(shù)據(jù)”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論