小數(shù)據(jù)時代的隨機采樣_第1頁
小數(shù)據(jù)時代的隨機采樣_第2頁
小數(shù)據(jù)時代的隨機采樣_第3頁
小數(shù)據(jù)時代的隨機采樣_第4頁
小數(shù)據(jù)時代的隨機采樣_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

小數(shù)據(jù)時代的隨機采樣從政府到企業(yè)政府一直都試圖通過收集信息來管理國民。小企業(yè)和個人也可以擁有大規(guī)模收集和分類數(shù)據(jù)的能力。人口普查古代埃及曾進(jìn)行過人口普查,《舊約》和《新約》中對此都有所提及。1086年英國皇家委員穿越整個國家,對當(dāng)時的人口、土地和財產(chǎn)做了一個前所未有的全面記載。當(dāng)時收集的信息也只是一個大概情況,不可能準(zhǔn)確記錄下每個人的信息?!叭丝谄詹椤边@個詞來源于拉丁語的censere,本意就是推測、估算。人口普查人口普查具有其復(fù)雜性以及耗時耗費的特點。古羅馬在擁有數(shù)十萬人口的時候每5年普查一次。美國憲法規(guī)定每10年進(jìn)行一次人口普查。到19世紀(jì)末,即使這樣不頻繁的人口普查依然很困難,因為數(shù)據(jù)變化的速度超過了人口普查局統(tǒng)計分析的能力。統(tǒng)計雛形三百多年前,英國縫紉用品商約翰·格朗特提出一個方法,來推算出鼠疫時期倫敦的人口數(shù),利用少量有用的樣本信息來獲取人口的整體情況,這就是后來的統(tǒng)計學(xué)。樣本分析法一直都有較大的漏洞,因此,無論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用清點的方法。新中國的人口普查新中國建立后,先后于1953年、1964年和1982年舉行過3次人口普查。根據(jù)《中華人民共和國統(tǒng)計法實施細(xì)則》和國務(wù)院的決定以及國務(wù)院2010年頒布的《全國人口普查條例》規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度。兩次普查之間進(jìn)行一次簡易人口普查。2O2O年為第七次全國人口普查時間。第一次人口普查的標(biāo)準(zhǔn)時間新中國第一次人口普查的標(biāo)準(zhǔn)時間是1953年6月30日24時。人口普查的標(biāo)準(zhǔn)時間,就是規(guī)定一個時間點,無論普查員人戶登記在哪一天進(jìn)行,登記的人口及其各種特征都是反映那個時間點上的情況。根據(jù)上述規(guī)定,不管普查員在哪天進(jìn)行人戶登記,普查對象所申報的都應(yīng)該是標(biāo)準(zhǔn)時間的情況。通過這個標(biāo)準(zhǔn)時間,所有普查員普查登記完成后,經(jīng)過匯總就可以得到全國人口的總數(shù)和各種人口狀況的數(shù)據(jù)。1953年11月1日發(fā)布了人口普查的主要數(shù)據(jù),當(dāng)時全國人口總數(shù)為601938035人。第六次人口普查的標(biāo)準(zhǔn)時間第六次人口普查的標(biāo)準(zhǔn)時間是2010年11月1日零時。2011年4月,發(fā)布了第六次全國人口普查主要數(shù)據(jù),此次人口普查登記的全國總?cè)丝跒?339724852人。與2000年第五次人口普查相比,10年增加7390萬人,增長5.84%,年平均增長0.57%,比1990-2000年年均1.07%的增長率下降了0.5個百分點。美國1880年的人口普查美國在1880年進(jìn)行的人口普查,耗時8年才完成數(shù)據(jù)匯總,因此,他們獲得的很多數(shù)據(jù)都是過時的。1890年進(jìn)行的人口普查,預(yù)計要花費13年的時間來匯總數(shù)據(jù)。稅收分?jǐn)偤蛧鴷砣藬?shù)確定都是建立在人口的基礎(chǔ)上的,必須獲得正確且及時的數(shù)據(jù),人們當(dāng)時已有的數(shù)據(jù)處理工具已經(jīng)難以應(yīng)付了。美國人口普查局委托發(fā)明家赫爾曼·霍爾瑞斯(被稱為現(xiàn)代自動計算之父)用他的穿孔卡片制表機來完成1890年的人口普查?;魻柸鹚蛊詹闄C經(jīng)過大量的工作,霍爾瑞斯成功地在1年時間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這在當(dāng)時簡直就是一個奇跡,它標(biāo)志著自動處理數(shù)據(jù)的開端,也為后來IBM公司的成立奠定了基礎(chǔ)。將其作為收集處理大數(shù)據(jù)的方法依然過于昂貴,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計。隨機采樣被用來監(jiān)管商品質(zhì)量在商業(yè)領(lǐng)域,隨機采樣被用來監(jiān)管商品質(zhì)量。使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費也更少。隨機采樣讓大數(shù)據(jù)問題變得更加切實可行。隨機采樣的利弊隨機采樣取得了巨大的成功,成為現(xiàn)代社會、現(xiàn)代測量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機性,但是實現(xiàn)采樣的隨機性非常困難。一旦

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論