下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)時代下統(tǒng)計學(xué)的挑戰(zhàn)與發(fā)展 一、大數(shù)據(jù)時代下統(tǒng)計學(xué)概念概述 教科書上對統(tǒng)計學(xué)給出了這樣的定義“有效搜集整理分析 隨機性數(shù)據(jù), 對考察問題給出推斷與預(yù)測, 最終為行動提供數(shù)據(jù) 支持”,這就是統(tǒng)計學(xué)。從根本上看,統(tǒng)計學(xué)是一門與數(shù)據(jù)有關(guān) 的學(xué)科。眾所周知, 美國總統(tǒng)奧巴馬通過數(shù)據(jù)團隊的幫助得到連 任的機會,阿里巴巴的馬云很早就把大數(shù)據(jù)作為企業(yè)發(fā)展戰(zhàn)略。 隨著我們走進大數(shù)據(jù)時代, 網(wǎng)絡(luò)科技給搜集數(shù)據(jù)帶來方便, 傳統(tǒng) 的設(shè)備已經(jīng)無法容納大量的數(shù)據(jù), 我們對其進行更新, 通過對大 數(shù)據(jù)的分析,我們?yōu)樯鐣鬟f出有效的、有價值的信息,這一切 為社會的發(fā)展起到了不可替代的推動作用。 統(tǒng)計是社會各界乃至各環(huán)節(jié)
2、不可或缺的因素, 在商品交換過 程中,統(tǒng)計有先導(dǎo)作用,市場經(jīng)濟信息也需要統(tǒng)計學(xué)的幫助,大 數(shù)據(jù)時代, 我們的統(tǒng)計數(shù)據(jù)不再局限于隨機抽樣調(diào)查, 電話調(diào)查 等高成本的搜集方式, 通過互聯(lián)網(wǎng)及移動終端, 我們可以獲得更 多數(shù)據(jù)樣本, 可以說我們的社會進入高速發(fā)展的時期, 大數(shù)據(jù)時 代下的統(tǒng)計學(xué)也進入全新的發(fā)展階段。 二、統(tǒng)計學(xué)在大數(shù)據(jù)時代影響下的變革 1. 從樣本的角度看,樣本概念得到深化 我們知道統(tǒng)計學(xué)離不開樣本,有效的樣本能夠正確反映情 況,大數(shù)據(jù)時代樣本概念與傳統(tǒng)不再相同, 通常我們得到諸多網(wǎng) 絡(luò)數(shù)據(jù),一種為靜態(tài),即直接在客戶端創(chuàng)建的數(shù)據(jù),無需提取即 可使用,成本低,另一種為動態(tài)數(shù)據(jù),即數(shù)據(jù)隨
3、著時間的推移而 變化, 最終表現(xiàn)為所有數(shù)據(jù)的總和, 可見此時的樣本不局限于隨 機抽樣,直接可以做選定分析。 2. 從類型方面看,呈擴大之勢 在過去數(shù)據(jù)通常指結(jié)構(gòu)化數(shù)據(jù), 有固定的標準, 大數(shù)據(jù)時代 數(shù)據(jù)不僅局限于固定的結(jié)構(gòu), 還有異構(gòu)數(shù)據(jù), 再有存儲方式也發(fā) 生了改變, 大數(shù)據(jù)可以直接將探測的信號容納進去, 由網(wǎng)絡(luò)系統(tǒng) 作為工具,可以識別各類結(jié)構(gòu)或非結(jié)構(gòu)的數(shù)據(jù)并進行快速存儲。 3. 收集概念得到擴展 傳統(tǒng)的統(tǒng)計過程中,我們有目的的進行數(shù)據(jù)收集,效率低, 成本高,隨著大數(shù)據(jù)時代來臨,我們將收集步驟化,第一預(yù)先處 理好數(shù)據(jù)的識別與處理,第二做好分析,提煉出所需要的信息, 最后做好存儲,就這么簡單。
4、面對大量的數(shù)據(jù),我們的分析、識 別等都需要注意, 大數(shù)據(jù)不代表萬能, 我們還是要注意數(shù)據(jù)的安 全性,盡量控制收集成本。 4. 數(shù)據(jù)來源較傳統(tǒng)不同 曾經(jīng)我們根據(jù)研究目的去做統(tǒng)計收集數(shù)據(jù), 這些數(shù)據(jù)源都是 已知的,在核對方面相對容易。大數(shù)據(jù)時代,我們得到數(shù)據(jù)變得 容易,但通過互聯(lián)網(wǎng)收集數(shù)據(jù)后,目的性變?nèi)?,大多?shù)記錄沒有 源頭,很難識別記錄身份,可見,大數(shù)據(jù)時代做好數(shù)據(jù)來源登記 開始變得重要。 5. 量化方式也發(fā)生變化 對于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù), 量化方式是成熟的, 可以將收集到 數(shù)據(jù)直接分析得出結(jié)果, 大數(shù)據(jù)時代, 很多異化結(jié)構(gòu)數(shù)據(jù)幾乎無 法做直接分析取得結(jié)論, 當下, 很多結(jié)算及專家在研究處理非機
5、構(gòu)化數(shù)據(jù),力爭將大數(shù)據(jù)時代統(tǒng)計推向新的高端。 6. 分析思維發(fā)生改變 從分析過程看,傳統(tǒng)分析需要進行三步走,即定性、定量, 最終定性。大數(shù)據(jù)時代, 統(tǒng)計分析過程僅需要兩步即定量、 定性; 從證實分析方面看,傳統(tǒng)思路為假設(shè)、驗證,事實證明傳統(tǒng)證實 分析有很大誤差,而大數(shù)據(jù)時代,我們的思維為發(fā)現(xiàn),總結(jié),這 是整合,發(fā)現(xiàn)最終定論的過程,在此過程中會有很多發(fā)現(xiàn)。 7. 統(tǒng)計軟件變得越來越多 傳統(tǒng)統(tǒng)計學(xué)中,我們比較熟悉的軟件有 SPSS、SAS、 STATA 等,大數(shù)據(jù)時代,我們分析技術(shù)為非關(guān)系型,主要以數(shù)據(jù)中心為 基礎(chǔ),將軟件與大數(shù)據(jù)結(jié)合,分析過程得到很大簡化。綜上,大 數(shù)據(jù)時代給了我們更多的主動權(quán),
6、 這些更促使我們推動大數(shù)據(jù)時 代統(tǒng)計的發(fā)展進步。 三、大數(shù)據(jù)時代下統(tǒng)計學(xué)面臨的挑戰(zhàn) 大數(shù)據(jù)時代給我們帶來了更多的好處, 統(tǒng)計學(xué)的大數(shù)據(jù)化是 大勢所趨, 但傳統(tǒng)與更新的交錯間還有一些不相容的方面, 對于 革新我們還是要從各個方面做謹慎考慮與慎重調(diào)整。 首先從樣本標準的角度看, 大數(shù)據(jù)時代我們可以輕松得到很 多樣本,此量大到可以視為總體,隨著互聯(lián)網(wǎng)科技的不斷發(fā)展, 大樣本標準也應(yīng)隨著發(fā)展,傳統(tǒng)統(tǒng)計學(xué)將界限定在30,大于 30 為大樣本,小于 30 為小樣本,大數(shù)據(jù)時代這個界限略顯低,沒 辦法清除干凈干擾信息,這會影響分析結(jié)果,因此,加強數(shù)據(jù)來 源的同時還要更新大樣本標準, 將更大規(guī)模的樣本數(shù)量代替
7、舊有 的數(shù)量,以適應(yīng)大數(shù)據(jù)時代的要求。 其次從樣本選取與形式的角度看, 傳統(tǒng)統(tǒng)計學(xué)固定結(jié)構(gòu)化數(shù) 據(jù)內(nèi)藏著一定的統(tǒng)計規(guī)律, 盡管我們能夠發(fā)現(xiàn)研究對象的數(shù)量關(guān) 系,但并不是所有的事物都有量化指標, 一些被量化的指標也不 一定能夠清楚的解讀研究對象,目前大數(shù)據(jù)采集數(shù)據(jù)超過80%為 有結(jié)構(gòu)數(shù)據(jù), 傳統(tǒng)的統(tǒng)計數(shù)據(jù)庫沒有辦法對這些數(shù)據(jù)做很好的處 理,而大數(shù)據(jù)通過建立非結(jié)構(gòu)數(shù)據(jù)庫,對數(shù)據(jù)做有效轉(zhuǎn)化,發(fā)揮 多元化分析作用, 無形中降低了樣本的選取標準, 將統(tǒng)計范圍擴 大化。 最后統(tǒng)計軟件的開發(fā)是一項挑戰(zhàn)。 我們常用的統(tǒng)計軟件主要 以構(gòu)建模型之間的變量與數(shù)量關(guān)系的方式分析研究對象, 如我們 熟悉的SPSS等。大
8、數(shù)據(jù)時代,我們很多以數(shù)據(jù)為基礎(chǔ)做非關(guān)系 分析技術(shù),谷歌利用MAPREDUCE了月處理400PB數(shù)據(jù)的工作 量,雅虎也利用云計算平臺實現(xiàn)了 100PB的存儲工作,未來大量 的數(shù)據(jù)處理需要更快捷更科學(xué)的軟件, 對于軟件的研發(fā)與升級將 是一種挑戰(zhàn)。 四、大數(shù)據(jù)時代下統(tǒng)計學(xué)的發(fā)展與機遇 1. 大數(shù)據(jù)時代下統(tǒng)計質(zhì)量更高 從國際數(shù)據(jù)標準SDD6中得到的統(tǒng)計質(zhì)量標準可以看到,適 用、準確、時效、平衡是統(tǒng)計質(zhì)量的內(nèi)涵。其中適用是指統(tǒng)計信 息符合要求, 統(tǒng)計信息最大化的滿足客戶的用途, 大數(shù)據(jù)的覆蓋 很大程度上促進適用功能的提升; 傳統(tǒng)角度我們說時效性主要指 統(tǒng)計的時間更短, 讓客戶及時了解統(tǒng)計信息, 大數(shù)據(jù)時
9、代網(wǎng)絡(luò)化 完全滿足時效性各類要求; 準確是指估值與真值之間的差別, 數(shù) 據(jù)中存在誤差在一定范圍內(nèi)屬于正常, 大數(shù)據(jù)時代我們的全面性 最大程度包容了誤差,也縮小的了誤差,統(tǒng)計更加真實可信;平 衡性也被稱之為協(xié)調(diào)性, 大數(shù)據(jù)時代, 數(shù)據(jù)結(jié)果的核對與檢驗都 經(jīng)得起客戶的不斷核查,可以使數(shù)據(jù)的平衡性得到很大提升。 2. 大數(shù)據(jù)時代統(tǒng)計成本降低 首先,從數(shù)據(jù)收集角度看, 大數(shù)據(jù)時代可以不再依靠人力做 電話調(diào)查或問卷調(diào)查, 甚至有些普查動用全國力量, 耗費大量人 力財力,通過互聯(lián)網(wǎng)、移動通信等,我們大大降低人力成本,數(shù) 據(jù)收集快,成本低,準確性也高;其次從數(shù)據(jù)利用角度看,傳統(tǒng) 統(tǒng)計過程中, 一旦資料過期就需要再起啟動抽樣分析過程, 對外 公布手段也有局限性,大數(shù)據(jù)時代,我們收集數(shù)據(jù)更輕松,且數(shù) 據(jù)可多次被利用,綜合比算,數(shù)據(jù)的成本大大降低。 3. 大數(shù)據(jù)時代統(tǒng)計學(xué)作用范圍擴大 傳統(tǒng)統(tǒng)計學(xué)有各種局限性,比如受成本、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年定制化抵押車輛融資合同樣本3篇
- 2025版酒店客房租賃及買賣合同3篇
- 2025年度大型數(shù)據(jù)中心網(wǎng)絡(luò)安全保障服務(wù)合同
- 2024年度大學(xué)生實習(xí)期間人身安全保障合同3篇
- 2025年工業(yè)定制電源合作協(xié)議書
- 旅游網(wǎng)站課程設(shè)計
- 2024年瑪雅社區(qū)房屋租賃與社區(qū)設(shè)施租賃合同3篇
- 2024年版標準格式協(xié)議模板細則版B版
- 承德醫(yī)學(xué)院《郵輪服務(wù)與管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 成都職業(yè)技術(shù)學(xué)院《展示與陳設(shè)》2023-2024學(xué)年第一學(xué)期期末試卷
- 博士能數(shù)碼望遠鏡118326使用說明書
- cad自定義線型、形定義線型、cad斜坡線學(xué)習(xí)
- 任上線立塔架線施工專項方案
- 139.華師《管理溝通》期末考試復(fù)習(xí)資料精簡版
- 膽囊結(jié)石合并急性膽囊炎臨床路徑表單
- 電力建設(shè)安全工作規(guī)程解析(線路部分)課件
- 小學(xué)英語不規(guī)則動詞表
- VIC模型PPT課件
- AQL2.5抽檢標準
- 宣傳廣告彩頁制作合同
- 征信知識測試題及答案
評論
0/150
提交評論