版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)(shj)時(shí)代的統(tǒng)計(jì)學(xué)摘要(zhiyo):本文(bnwn)主要圍繞“大數(shù)據(jù)”展開(kāi)話題,結(jié)合“統(tǒng)計(jì)學(xué)”專業(yè),論述了什么是大數(shù)據(jù),什么是統(tǒng)計(jì)學(xué),在對(duì)概念的了解基礎(chǔ)上掌握大數(shù)據(jù)的發(fā)展歷程以及統(tǒng)計(jì)學(xué)的發(fā)展歷程。從中找出大數(shù)據(jù)與統(tǒng)計(jì)學(xué)的聯(lián)系,然后進(jìn)一步了解在大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)所處的地位以及大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)的變化和發(fā)展。在前人的研究基礎(chǔ)上,我們進(jìn)一步的發(fā)現(xiàn)問(wèn)題并探討問(wèn)題,運(yùn)用統(tǒng)計(jì)學(xué)方法去解決大數(shù)據(jù)時(shí)代下的一些問(wèn)題,并提出自己的看法。關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)學(xué);數(shù)據(jù)挖掘;數(shù)據(jù)分析引言本文寫作的目的在于闡述大數(shù)據(jù)的定義、歷史發(fā)展及趨勢(shì)、運(yùn)用領(lǐng)域等有關(guān)大數(shù)據(jù)的問(wèn)題,以及闡述統(tǒng)計(jì)學(xué)的定義、發(fā)展趨勢(shì)、運(yùn)用領(lǐng)域等
2、有關(guān)統(tǒng)計(jì)方面的問(wèn)題。在此基礎(chǔ)上探析大數(shù)據(jù)時(shí)代下的統(tǒng)計(jì)學(xué)發(fā)生的變化,帶來(lái)的影響,以及所導(dǎo)致的統(tǒng)計(jì)學(xué)的發(fā)展趨勢(shì)。有關(guān)大數(shù)據(jù)的文獻(xiàn)很多,涉及的領(lǐng)域也相當(dāng)廣泛,如互聯(lián)網(wǎng)、天文學(xué)、大氣科學(xué)、基因組學(xué)、大規(guī)模電子商務(wù)等等,都離不開(kāi)計(jì)算機(jī)作為載體,它們都成為了大數(shù)據(jù)的來(lái)源。本文寫作主要基于運(yùn)用統(tǒng)計(jì)學(xué)知識(shí)去處理大數(shù)據(jù)所涉及問(wèn)題,而運(yùn)用統(tǒng)計(jì)方法分析問(wèn)題所涉及的范圍也相當(dāng)廣泛。對(duì)于大數(shù)據(jù)的到來(lái),對(duì)于統(tǒng)計(jì)學(xué)來(lái)說(shuō)是福音,因?yàn)樗鼮榇髷?shù)據(jù)時(shí)代處理大數(shù)據(jù)問(wèn)題帶來(lái)了有效的解決方法。本文所引用文獻(xiàn)主要來(lái)自于2011年到2015年的國(guó)內(nèi)外有關(guān)大數(shù)據(jù)的期刊文獻(xiàn),從不同角度描述了大數(shù)據(jù)對(duì)當(dāng)今時(shí)代的影響,尤其是對(duì)本文的另一位主角-統(tǒng)計(jì)
3、學(xué)的影響。而對(duì)于一個(gè)統(tǒng)計(jì)學(xué)專業(yè)出身的人,對(duì)于大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)的發(fā)展有喜有憂,大數(shù)據(jù)時(shí)代的到來(lái)在一定程度上促進(jìn)了統(tǒng)計(jì)學(xué)的發(fā)展,同樣的也帶來(lái)了巨大的挑戰(zhàn)。這些都需要我們一步步的解決并完善。正文1 大數(shù)據(jù)的來(lái)源與發(fā)展歷程“大數(shù)據(jù)”這個(gè)(zh ge)術(shù)語(yǔ)最早期的引用可追溯到apache HYPERLINK /lemma/ShowInnerLink.htm?lemmaId=83387424&ss_c=ssc.citiao.link t _blank org的開(kāi)源(ki yun)項(xiàng)目Nutch。當(dāng)時(shí),大數(shù)據(jù)用來(lái)描述為更新網(wǎng)絡(luò)搜索索引需要(xyo)同時(shí)進(jìn)行 HYPERLINK /lemma/ShowInn
4、erLink.htm?lemmaId=711993 t _blank 批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和Google File System (GFS)的發(fā)布,大數(shù)據(jù)不再僅用來(lái)描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度1-5。不過(guò),大約從2009年開(kāi)始,“163大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的 HYPERLINK /lemma/ShowInnerLink.htm?lemmaId=356071&ss_c=ssc.citiao.link t _blank 流行詞匯。美國(guó) HYPERLINK /lemma/ShowInnerLink.htm?lemmaId=15373&ss_c=
5、ssc.citiao.link t _blank 互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯銓?HYPERLINK /lemma/ShowInnerLink.htm?lemmaId=7929715&ss_c=ssc.citiao.link t _blank 翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無(wú)數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、運(yùn)動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。就這樣,“大數(shù)據(jù)”在不知不覺(jué)中進(jìn)入了我們的生活,無(wú)論哪里都有著它的影子
6、,這說(shuō)明“大數(shù)據(jù)時(shí)代”已經(jīng)到來(lái)。我們可以這樣來(lái)定義“大數(shù)據(jù)時(shí)代”,大數(shù)據(jù)時(shí)代是建立在通過(guò)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等現(xiàn)代網(wǎng)絡(luò)渠道廣泛大量數(shù)據(jù)資源收集基礎(chǔ)上的數(shù)據(jù)存儲(chǔ)、價(jià)值提煉、智能處理和展示的信息時(shí)代。在這個(gè)時(shí)代,人們幾乎能夠從任何數(shù)據(jù)中獲得可轉(zhuǎn)換為推動(dòng)人們生活方式變化的有價(jià)值的知識(shí)22。“大數(shù)據(jù)時(shí)代”的到來(lái)引起了業(yè)界和學(xué)界的廣泛關(guān)注,大量研究成果不斷涌現(xiàn)。那么什么是大數(shù)據(jù)呢?大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助 HYPERLINK /lemma/ShowInnerLink.htm?lemmaId
7、=71613623&ss_c=ssc.citiao.link t _blank 企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)是一種大規(guī)模數(shù)據(jù)的管理和利用的商業(yè)模式和技術(shù)平臺(tái)的泛指,它與傳統(tǒng)的海量數(shù)據(jù)不同的是,它除了數(shù)據(jù)規(guī)模呈現(xiàn)幾何級(jí)數(shù)增長(zhǎng)的特征之外,還包括所有數(shù)據(jù)類型的采集、分類、處理、分析和展現(xiàn)等多個(gè)方面,從而最終實(shí)現(xiàn)從大數(shù)據(jù)挖掘潛在巨大價(jià)值的目的18。到目前為止對(duì)于大數(shù)據(jù)還沒(méi)有統(tǒng)一的定義。對(duì)于大數(shù)據(jù),其特點(diǎn)18在于:(1)數(shù)據(jù)體量大。普遍認(rèn)為PB級(jí)的數(shù)據(jù)為大數(shù)據(jù)的起點(diǎn)。(2)數(shù)據(jù)類型繁多。既可以是傳統(tǒng)的有因果關(guān)系的結(jié)構(gòu)化數(shù)據(jù)如關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù),但更多的是諸如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等的半
8、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。(3)價(jià)值密度低。大數(shù)據(jù)蘊(yùn)藏的價(jià)值雖然巨大,價(jià)值密度卻很低,往往需要對(duì)海量的數(shù)據(jù)進(jìn)行挖掘分析才能得到真正有用的信息,從而產(chǎn)生價(jià)值。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅有一兩秒。(4) 處理速度快。大數(shù)據(jù)時(shí)代更強(qiáng)調(diào)實(shí)時(shí)分析,而不是批量分析,奉行 1秒定律。即一般要在秒級(jí)時(shí)間范圍內(nèi)給出分析結(jié)果,時(shí)間太長(zhǎng)就失去價(jià)值?;诮y(tǒng)計(jì)學(xué)的角度,我們應(yīng)該如何理解(lji)“大數(shù)據(jù)”呢?李金昌認(rèn)為,大數(shù)據(jù)不是基于人工設(shè)計(jì)、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)與工具可以自動(dòng)記錄、儲(chǔ)存和連續(xù)擴(kuò)充的、大大超出傳統(tǒng)統(tǒng)計(jì)記錄與儲(chǔ)存能力的一切類
9、型的數(shù)據(jù)20。2 統(tǒng)計(jì)學(xué)的發(fā)展(fzhn)歷程由于人類的統(tǒng)計(jì)實(shí)踐是隨著計(jì)數(shù)活動(dòng)而產(chǎn)生的,因此,統(tǒng)計(jì)發(fā)展史可以追溯到遠(yuǎn)古的原始社會(huì),也就是說(shuō)距今足有五千多年的漫長(zhǎng)歲月。但是,能使人類的統(tǒng)計(jì)實(shí)踐上升到理論上予以概括總結(jié)(zngji)的程度,即開(kāi)始成為一門系統(tǒng)的學(xué)科統(tǒng)計(jì)學(xué),卻是近代的事情,距今只有三百余年的短暫歷史。統(tǒng)計(jì)學(xué)發(fā)展的概貌,大致可劃分為古典記錄統(tǒng)計(jì)學(xué)、近代描述統(tǒng)計(jì)學(xué)和現(xiàn)代推斷統(tǒng)計(jì)學(xué)三種形態(tài)18-20。古典記錄統(tǒng)計(jì)學(xué)形成期間大致在十七世紀(jì)中葉至十九世紀(jì)中葉。統(tǒng)計(jì)學(xué)在這個(gè)興起階段,還是一門意義和范圍不太明確的學(xué)問(wèn),在它用文字或數(shù)字如實(shí)記錄與分析國(guó)家社會(huì)經(jīng)濟(jì)狀況的過(guò)程中,初步建立了統(tǒng)計(jì)研究的方法
10、和規(guī)則。到概率論被引進(jìn)之后,才逐漸成為一項(xiàng)較成熟的方法。最初卓有成效地把古典概率論引進(jìn)統(tǒng)計(jì)學(xué)的是法國(guó)天文學(xué)家、數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家拉普拉斯(P.S. Laplace,17491827)。因此,后來(lái)比利時(shí)大統(tǒng)計(jì)學(xué)家凱特勒指出,統(tǒng)計(jì)學(xué)應(yīng)從拉普拉斯開(kāi)始。近代描述統(tǒng)計(jì)學(xué)形成期間大致在十九世紀(jì)中葉至二十世紀(jì)上半葉。由于這種“描述”特色由一批原是研究生物進(jìn)化的學(xué)者們提煉而成,因此歷史上稱他們?yōu)樯锝y(tǒng)計(jì)學(xué)派。生物統(tǒng)計(jì)學(xué)派的創(chuàng)始人是英國(guó)的高爾登(F. Galton,18221911),主將是高爾登的學(xué)生畢爾生(K.Pearson,18571936)?,F(xiàn)代推斷統(tǒng)計(jì)學(xué)形成期間大致是二十世紀(jì)初葉至二十世紀(jì)中葉。人類歷史
11、進(jìn)入二十世紀(jì)后,無(wú)論社會(huì)領(lǐng)域還是自然領(lǐng)域都向統(tǒng)計(jì)學(xué)提出更多的要求。各種事物與現(xiàn)象之間繁雜的數(shù)量關(guān)系以及一系列未知的數(shù)量變化,單靠記錄或描述的統(tǒng)計(jì)方法已難以奏效。因此,相繼產(chǎn)生“推斷”的方法來(lái)掌握事物總體的真正聯(lián)系以及預(yù)測(cè)未來(lái)的發(fā)展。從描述統(tǒng)計(jì)學(xué)到推斷統(tǒng)計(jì)學(xué),這是統(tǒng)計(jì)發(fā)展過(guò)程中的一個(gè)大飛躍。統(tǒng)計(jì)學(xué)發(fā)展中的這場(chǎng)深刻變革是在農(nóng)業(yè)(nngy)田間試驗(yàn)領(lǐng)域中完成的。因此,歷史上稱之為農(nóng)業(yè)試驗(yàn)學(xué)派。對(duì)現(xiàn)代推斷統(tǒng)計(jì)的建立貢獻(xiàn)最大的是英國(guó)統(tǒng)計(jì)學(xué)家哥塞特(W.S. Gosset,18761937)和費(fèi)雪(R.A. Fisher,18901962)。在大數(shù)據(jù)時(shí)代,對(duì)統(tǒng)計(jì)學(xué)來(lái)說(shuō)既是機(jī)遇又是挑戰(zhàn),機(jī)遇在于大數(shù)據(jù)的分析
12、主要建立在統(tǒng)計(jì)學(xué)的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行處理、分析,從而使得大數(shù)據(jù)“可視化”,而挑戰(zhàn)在于,當(dāng)下傳統(tǒng)統(tǒng)計(jì)學(xué)的方法(fngf)對(duì)于大數(shù)據(jù)的不適用,這需要我們進(jìn)一步對(duì)統(tǒng)計(jì)學(xué)進(jìn)行發(fā)展與創(chuàng)新。3大數(shù)據(jù)(shj)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的影響統(tǒng)計(jì)學(xué)是一門古老的學(xué)科,已經(jīng)有三百多年的歷史,在自然科學(xué)和人文社會(huì)科學(xué)的發(fā)展中起到了舉足輕重的作用; 統(tǒng)計(jì)學(xué)又是一門生命力及其旺盛的學(xué)科,他海納百川又博采眾長(zhǎng),隨著各門具體學(xué)科的發(fā)展不斷壯大。毫不例外,大數(shù)據(jù)時(shí)代的到來(lái),給統(tǒng)計(jì)學(xué)科帶來(lái)了發(fā)展壯大機(jī)會(huì)的同時(shí),也使得統(tǒng)計(jì)學(xué)科面臨著重大的挑戰(zhàn)。怎樣深刻地認(rèn)識(shí)和把握這一發(fā)展契機(jī),怎樣更好地理解和應(yīng)對(duì)這一重大挑戰(zhàn),這就迫使我們需要澄清大數(shù)據(jù)的概念
13、明確大數(shù)據(jù)的特征; 重新審視統(tǒng)計(jì)的工作過(guò)程提出新的統(tǒng)計(jì)思想理念22。3.1 大數(shù)據(jù)對(duì)樣本和總體的影響統(tǒng)計(jì)利用大數(shù)據(jù)的目的6是為了推斷經(jīng)濟(jì)總體或社會(huì)總體,經(jīng)濟(jì)或社會(huì)指標(biāo)的平均數(shù)或分位數(shù)等情況。統(tǒng)計(jì)學(xué)強(qiáng)調(diào)的是樣本的代表性,而代表性這一要求一般是通過(guò)概率抽樣來(lái)滿足的。大數(shù)據(jù)雖然有著海量的樣本量,能夠提供豐富的信息,但是嚴(yán)格來(lái)說(shuō),大數(shù)據(jù)并不是一個(gè)抽樣樣本,相反大數(shù)據(jù)樣本會(huì)存在缺乏代表性、信息冗余、存在噪聲等諸多問(wèn)題,這種情況下很容易帶來(lái)分析結(jié)果的系統(tǒng)偏差26。如果說(shuō),傳統(tǒng)統(tǒng)計(jì)(tngj)研究的數(shù)據(jù)是有意收集的結(jié)構(gòu)化的樣本數(shù)據(jù),那么現(xiàn)在我們面對(duì)的數(shù)據(jù)則是一切可以記錄和存儲(chǔ)、源源不斷(yun yun b
14、dun)擴(kuò)充、超大容量(rngling)的各種類型的數(shù)據(jù)。樣本數(shù)據(jù)與大數(shù)據(jù)的這種區(qū)別,具有什么樣的統(tǒng)計(jì)學(xué)意義? 我們知道,樣本數(shù)據(jù)是按照特定研究目的、依據(jù)抽樣方案獲得的格式化的數(shù)據(jù),不僅數(shù)據(jù)量有限,而且如果過(guò)程偏離方案,數(shù)據(jù)就不能滿足要求。基于樣本數(shù)據(jù)所進(jìn)行的分析,其空間十分有限通常無(wú)法滿足多層次、多角度的需要,若遇到抽樣方案事先未曾考慮到的問(wèn)題,數(shù)據(jù)的不可擴(kuò)充性缺點(diǎn)就暴露無(wú)疑。而大數(shù)據(jù)是一切可以通過(guò)現(xiàn)代信息技術(shù)記錄和量化的數(shù)據(jù),不僅所蘊(yùn)含的信息量巨大,而且不受各種框框的限制任何種類的數(shù)據(jù)都來(lái)者不拒、也無(wú)法抵拒。不難發(fā)現(xiàn),大數(shù)據(jù)相比于樣本數(shù)據(jù)的最大優(yōu)點(diǎn)是,具有巨大的數(shù)據(jù)選擇空間,可以進(jìn)行多維、
15、多角度的數(shù)據(jù)分析。更為重要的是,由于大數(shù)據(jù)的大體量與多樣性,樣本不足以呈現(xiàn)的某些規(guī)律,大數(shù)據(jù)可以體現(xiàn); 樣本不足以捕捉的某些弱小信息,大數(shù)據(jù)可以覆蓋; 樣本中被認(rèn)為異常的值,大數(shù)據(jù)得以認(rèn)可。這將極大地提高我們認(rèn)識(shí)現(xiàn)象的能力,避免丟失很多重要的信息,避免失去很多決策選擇的機(jī)會(huì)20。所以說(shuō),在大數(shù)據(jù)時(shí)代下,大數(shù)據(jù)既是樣本,也是總體。由于計(jì)算機(jī)處理技術(shù)發(fā)生著日新月異的變化,人們處理大規(guī)模復(fù)雜數(shù)據(jù)的能力日益增強(qiáng),從大規(guī)模數(shù)據(jù)中提取有價(jià)值信息的能力日益提高,人們將會(huì)迅速進(jìn)入大數(shù)據(jù)時(shí)代。數(shù)據(jù)時(shí)代,不僅會(huì)帶來(lái)人類自然科學(xué)技術(shù)和人文社會(huì)科學(xué)的發(fā)展變革,還會(huì)給人們的生活和工作方式帶來(lái)煥然一新的變化22。3.2
16、相關(guān)分析變化大數(shù)據(jù)時(shí)代的到來(lái)使得相關(guān)分析需要達(dá)到的要求更高,針對(duì)傳統(tǒng)統(tǒng)計(jì)分析中的相關(guān)測(cè)量法存在的缺陷,大數(shù)據(jù)時(shí)代的相關(guān)分析首先滿足“通用性”和“均等性”兩個(gè)準(zhǔn)則,相關(guān)分析的結(jié)果應(yīng)該只與變量之間連動(dòng)性的緊密程度有關(guān),而不應(yīng)受變量間相關(guān)形式的影響29-30。近些年,國(guó)外已經(jīng)有很多學(xué)者開(kāi)始注意到大數(shù)據(jù)時(shí)代相關(guān)分析方法的重要性,對(duì)如何改進(jìn)相關(guān)分析方法進(jìn)行了研究。Reshef等學(xué)者(2011)基于信息論中關(guān)于兩個(gè)事件集合的相關(guān)性信息度量提出了一種關(guān)于相關(guān)性分析的改進(jìn)方法-最大信息系數(shù)(Maximal InformationCoefficient,MIC)的,可以對(duì)變量間的非函數(shù)相關(guān)關(guān)系進(jìn)行(jnxng)
17、有效的識(shí)別。David Lopea-Paz等學(xué)者(2013)運(yùn)用 Copula 轉(zhuǎn)換(zhunhun)提出了隨機(jī)相關(guān)系數(shù)(Randomized Dependence Coefficient,RDC),并與MIC方法進(jìn)行了對(duì)比,證明前者的時(shí)間復(fù)雜度更低。Hoang V.Nguyen等學(xué)者(2014)根據(jù)MIC方法,提出了更一般化的相關(guān)(xinggun)分析方法-最大相關(guān)分析(Maximal Correlation Analy-sis,MAC),擴(kuò)展了MIC方法的運(yùn)用范圍,可以對(duì)兩組變量之間的非函數(shù)相關(guān)關(guān)系進(jìn)行準(zhǔn)確的測(cè)量27。新興的相關(guān)分析方法在最近幾年涌現(xiàn),一方面是由于國(guó)內(nèi)外學(xué)者看到了大數(shù)據(jù)分析
18、中傳統(tǒng)統(tǒng)計(jì)相關(guān)分析存在的缺陷,運(yùn)用傳統(tǒng)統(tǒng)計(jì)方法已經(jīng)無(wú)法滿足大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的需求;更重要的在于,國(guó)內(nèi)外學(xué)者們都看到了大數(shù)據(jù)時(shí)代相關(guān)分析思維的重要性,看到了相關(guān)分析在特征選擇、變量依賴關(guān)系識(shí)別中的實(shí)用性27。大數(shù)據(jù)時(shí)代,相關(guān)分析的運(yùn)用范圍之廣、重要性之大是我們不能忽略的,也是傳統(tǒng)相關(guān)分析所面臨的巨大機(jī)遇。如何以相關(guān)分析思路為起點(diǎn)探究新的分析方法,使統(tǒng)計(jì)相關(guān)分析方法能夠更順應(yīng)時(shí)代的變化,體現(xiàn)出傳統(tǒng)統(tǒng)計(jì)思維的經(jīng)典與先進(jìn),在大數(shù)據(jù)下能夠發(fā)揮作用,即是傳統(tǒng)相關(guān)分析面臨的挑戰(zhàn)也是機(jī)遇7。3.3 因果分析的變化隨著大數(shù)據(jù)時(shí)代的到來(lái),經(jīng)濟(jì)中,對(duì)于數(shù)據(jù)的分析發(fā)生了很大的變化,從原來(lái)的注重因果分析到如今對(duì)相關(guān)分
19、析的看重。人們不再過(guò)多的關(guān)注“為什么”。而更加的想知道“是什么”4 大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)面臨的機(jī)遇和挑戰(zhàn)4.1 大數(shù)據(jù)(shj)時(shí)代下統(tǒng)計(jì)學(xué)面臨的機(jī)遇一個(gè)新生事物的出現(xiàn)將必定(bdng)導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命。數(shù)碼照相機(jī)的出現(xiàn)導(dǎo)致傳統(tǒng)相片膠卷和影像業(yè)的已近消亡。如果大數(shù)據(jù)包含了所有父親和兒子的身高數(shù)據(jù),只要計(jì)算給定的父親身高下所有兒子的平均身高就可以預(yù)測(cè)其兒子身高了。模型不再重要,當(dāng)年統(tǒng)計(jì)學(xué)最得意的回歸預(yù)測(cè)方法將被淘汰。大數(shù)據(jù)的到來(lái)將對(duì)傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行考驗(yàn)。統(tǒng)計(jì)學(xué)會(huì)不會(huì)象科學(xué)哲學(xué)那樣,只佩戴著歷史的光環(huán),而不再主導(dǎo)(zhdo)和引領(lǐng)人們分析和利用大數(shù)據(jù)資源?,F(xiàn)在其他學(xué)科和行業(yè)涌入大數(shù)據(jù)的熱潮
20、,如果統(tǒng)計(jì)學(xué)不抓緊參與的話,將面臨著被邊緣化的危險(xiǎn)8-12?,F(xiàn)今統(tǒng)計(jì)學(xué)的目標(biāo)是通過(guò)獲取數(shù)據(jù)和分析數(shù)據(jù)發(fā)現(xiàn)真理( 總體的參數(shù)和性質(zhì)) ,統(tǒng)計(jì)方法和理論對(duì)數(shù)據(jù)有過(guò)高的要求。而大數(shù)據(jù)充滿了各種隨機(jī)的、非隨機(jī)的誤差和偏倚,不能滿足這些苛刻的要求。按照波普的科學(xué)劃界準(zhǔn)則,只要我們能從大數(shù)據(jù)中提煉出具有可證偽的結(jié)論,那么這個(gè)結(jié)論還是科學(xué)的,可以用于知識(shí)積累。這些可證偽的大數(shù)據(jù)結(jié)論可作為進(jìn)一步科學(xué)研究的假說(shuō),以數(shù)據(jù)驅(qū)動(dòng)研究24。4.2 大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的挑戰(zhàn)大數(shù)據(jù)時(shí)代并不會(huì)自動(dòng)生成,總是需要不斷地提出和解決大數(shù)據(jù)發(fā)展所遇到的問(wèn)題和矛盾,才會(huì)有切實(shí)的進(jìn)步。事物發(fā)展的不同階段有不同的“時(shí)務(wù)”,需要不同的應(yīng)對(duì)
21、。統(tǒng)計(jì)數(shù)據(jù)的搜集方面,傳統(tǒng)的統(tǒng)計(jì)抽樣調(diào)查不再適用,這需要我們結(jié)合大數(shù)據(jù)的來(lái)源來(lái)搜集數(shù)據(jù);數(shù)據(jù)整理方面,不再是傳統(tǒng)的計(jì)算機(jī)所能運(yùn)行的,它需要更大的存儲(chǔ)以及計(jì)算機(jī)處理數(shù)據(jù)的能力;數(shù)據(jù)分析方面,很多傳統(tǒng)的統(tǒng)計(jì)方法不再有效,利用這些方法對(duì)數(shù)據(jù)進(jìn)行分析,未必能得到我們想要的結(jié)果,這就需要我們對(duì)統(tǒng)計(jì)方法的創(chuàng)新與發(fā)展做進(jìn)一步的努力。對(duì)統(tǒng)計(jì)工作者而言,這種改變不僅意味著拓寬了統(tǒng)計(jì)研究的范疇豐富了統(tǒng)計(jì)研究的內(nèi)容增強(qiáng)了統(tǒng)計(jì)學(xué)的生命力,還意味著統(tǒng)計(jì)工作及統(tǒng)計(jì)研究的四個(gè)轉(zhuǎn)變22:(1) 轉(zhuǎn)變統(tǒng)計(jì)研究過(guò)程。傳統(tǒng)的統(tǒng)計(jì)研究過(guò)程包括統(tǒng)計(jì)設(shè)計(jì)、收集數(shù)據(jù)、整理與分析和統(tǒng)計(jì)資料的積累、開(kāi)發(fā)與應(yīng)用等四個(gè)基本環(huán)節(jié)。大數(shù)據(jù)時(shí)代,由于數(shù)
22、據(jù)規(guī)模巨大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜等特點(diǎn),以及整理數(shù)據(jù)可能損壞原有數(shù)據(jù)中有價(jià)值信息,針對(duì)大數(shù)據(jù)的統(tǒng)計(jì)研究過(guò)程僅包括數(shù)據(jù)整理與分析和數(shù)據(jù)的積累、開(kāi)發(fā)與應(yīng)用兩個(gè)基本環(huán)節(jié)。進(jìn)一步的分析表明,大數(shù)據(jù)整理與分析過(guò)程僅指數(shù)據(jù)儲(chǔ)存工作??偟恼f(shuō)來(lái),大數(shù)據(jù)統(tǒng)計(jì)研究過(guò)程包括數(shù)據(jù)儲(chǔ)存和數(shù)據(jù)的積累、開(kāi)發(fā)與應(yīng)用兩個(gè)環(huán)節(jié)。(2)轉(zhuǎn)變統(tǒng)計(jì)研究方法。傳統(tǒng)的統(tǒng)計(jì)研究方法,如建立回歸方程、估計(jì)模型參數(shù)、檢驗(yàn)參數(shù)估計(jì)結(jié)果等因?yàn)榇髷?shù)據(jù)(shj)的特點(diǎn)而無(wú)法實(shí)施,對(duì)大數(shù)據(jù)的統(tǒng)計(jì)分析是以相關(guān)關(guān)系為基礎(chǔ)展開(kāi)的。但針對(duì)大數(shù)據(jù)的相關(guān)關(guān)系分析不同于傳統(tǒng)的相關(guān)關(guān)系的分析,傳統(tǒng)的相關(guān)分析基本是線性相關(guān)分析,大數(shù)據(jù)研究的相關(guān)關(guān)系分析的不僅是線性相關(guān),更多的是非
23、線性相關(guān)以及不明確函數(shù)形式的線性關(guān)系。(3)轉(zhuǎn)變統(tǒng)計(jì)研究目的。傳統(tǒng)統(tǒng)計(jì)研究的目的主要是為了探尋現(xiàn)象( 或變量) 間的相關(guān)關(guān)系、因果關(guān)系以及建立在相關(guān)關(guān)系或因果關(guān)系基礎(chǔ)上的預(yù)測(cè)分析(fnx)。大數(shù)據(jù)由于數(shù)據(jù)規(guī)模巨大和數(shù)據(jù)結(jié)構(gòu)復(fù)雜以及要求數(shù)據(jù)處理速度快等特點(diǎn),因果(yngu)分析往往不可行。大數(shù)據(jù)時(shí)代統(tǒng)計(jì)研究分析的目的主要是研究現(xiàn)象間的相關(guān)關(guān)系以及建立在相關(guān)分析基礎(chǔ)上的預(yù)測(cè)分析。(4)轉(zhuǎn)變統(tǒng)計(jì)研究工作思想。傳統(tǒng)統(tǒng)計(jì)研究工作中,囿于計(jì)算技術(shù)的限制,總是希望用盡量少的數(shù)據(jù)和相對(duì)復(fù)雜的模型盡量獲取有價(jià)值的信息。傳統(tǒng)的統(tǒng)計(jì)抽樣調(diào)查方法雖然在小數(shù)據(jù)時(shí)代有助于節(jié)省費(fèi)用、了解總體信息,但可能存在抽樣框不穩(wěn)定、調(diào)
24、查樣本片面、調(diào)查結(jié)果經(jīng)不起細(xì)分以及糾偏成本高昂的缺陷。在大數(shù)據(jù)時(shí)代,樣本即總體,由于計(jì)算機(jī)超前的數(shù)據(jù)處理能力,可以通過(guò)分析處理大數(shù)據(jù)了解總體各方面的信息。另外,還需將傳統(tǒng)統(tǒng)計(jì)質(zhì)量管理控制中的事后檢驗(yàn)轉(zhuǎn)變?yōu)槭孪阮A(yù)測(cè),以及轉(zhuǎn)變盡量利用復(fù)雜模型的思想為巧用簡(jiǎn)單模型的思想。結(jié)論從統(tǒng)計(jì)學(xué)角度(jiod)定義,大數(shù)據(jù)不是基于人工設(shè)計(jì)、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)與工具可以自動(dòng)記錄、儲(chǔ)存和連續(xù)擴(kuò)充的、大大超出(choch)傳統(tǒng)統(tǒng)計(jì)記錄與儲(chǔ)存能力的一切類型的數(shù)據(jù)(shj)。大數(shù)據(jù)時(shí)代下,統(tǒng)計(jì)學(xué)發(fā)生了很多的變化,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法已經(jīng)不能夠很好的處理大數(shù)據(jù)問(wèn)題
25、。這要求我們必須改變傳統(tǒng)的統(tǒng)計(jì)學(xué)分析思維,從數(shù)據(jù)獲取、處理、分析方面找到更加適合大數(shù)據(jù)的一套完整的統(tǒng)計(jì)分析方法。對(duì)于每一位統(tǒng)計(jì)工作者來(lái)說(shuō),這既是機(jī)遇,有是挑戰(zhàn)。機(jī)遇在于,在大數(shù)據(jù)時(shí)代下,統(tǒng)計(jì)學(xué)的地位不容忽視,它是處理大數(shù)據(jù)問(wèn)題的有效途徑。挑戰(zhàn)在于,要得到一套適合大數(shù)據(jù)的統(tǒng)計(jì)分析方法實(shí)屬不易,這需要我們每一位統(tǒng)計(jì)學(xué)者和工作者的不懈努力。參考文獻(xiàn)1Radosaw Bandomir, Mariusz Krawczyk, Jacek Namienik. HYPERLINK /Detail/SJDJ_U/SJDJ13012100437546 t _blank A New Analyzer Based o
26、n Pellistor Sensor with Neural Network Data Postprocessing for Measurement of Hydrocarbons in Lower Explosive Limit RangeJ.Journal of Automated Methods & Management in Chemistry, 2005, 2005(2).2S. G. Wesnousky. HYPERLINK /Detail/SJCRKZ_U/SJCR14052200431760 t _blank Possibility of Biases in the Estim
27、ation of Earthquake Recurrence and Seismic Hazard from Geologic DataJ.Bulletin of the Seismological Society of America, 2010, 100(5A).3Patricia L. Mabry. HYPERLINK /Detail/SJCRKZ_U/SJCR14051601151434 t _blank Making Sense of the Data ExplosionJ.American Journal of Preventive Medicine, 2011, 40(5).4V
28、. Letouzey, S. Huberlant, P. Mares et al. HYPERLINK /Detail/SJES_U/SJES13011300347455 t _blank Assessment of Quality of Life of Patients Supported for Genital Prolapse Surgery: Feasibility of a Computerized Data CollectionJ.The Journal of Minimally Invasive Gynecology, 2011, 18(6).5Patricia L. Mabry
29、. HYPERLINK /Detail/SJES_U/SJES13012100244847 t _blank Making Sense of the Data ExplosionJ.American Journal of Preventive Medicine, 2011, 40(5).6盧敏,劉學(xué).大數(shù)據(jù)(shj)-任務(wù)(rn wu)并不簡(jiǎn)單J.軟件和信息(xnx)服務(wù),2011,11:44-52.7姜奇平.大數(shù)據(jù)時(shí)代到來(lái)J.互聯(lián)網(wǎng)周刊,2012,01:6.8Hang Yang, Simon Fong, Guangmin Sun et al. HYPERLINK /Detail/SJCRKZ
30、_U/SJCR14050502246688 t _blank A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor NetworkJ.International Journal of Distributed Sensor Networks, 2012, 2012.9B. Zhu, L. Xu, D. Faries et al. HYPERLINK /Detail/SJES_U/SJES130113009410
31、66 t _blank PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing DataJ.Value in Health, 2012, 15(4).10W. Aigner, A. Rind, S. Hoffmann. HYPERLINK /Detail/SJCRKZ_U/SJCR
32、14050500718574 t _blank Comparative Evaluation of an Interactive Time-Series Visualization that Combines Quantitative Data with Qualitative AbstractionsJ.Computer Graphics Forum, 2012, 31(3pt2).11Ahmed M. Abdel-Khalek, Mostafa A. Elseifi, Kevin Gaspard et al. HYPERLINK /Detail/SJCRKZ_U/SJCR140505010
33、27475 t _blank Model to Estimate Pavement Structural Number at Network Level with Rolling Wheel Deflectometer DataJ.Transportation Research Record: Journal of the Transportation Research Board, 2012, 2304(-1).12B. Zhu, L. Xu, D. Faries et al. HYPERLINK /Detail/SJCRKZ_U/SJCR14050501788785 t _blank PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophre
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 有創(chuàng)意的年終總結(jié)
- 物料盤點(diǎn)標(biāo)準(zhǔn)化流程:精確管理
- 數(shù)碼店外墻涂料施工合同
- 工業(yè)園區(qū)外圍墻施工協(xié)議
- 城市商業(yè)中心停車場(chǎng)施工合同
- 旅游景區(qū)運(yùn)營(yíng)招投標(biāo)合同模板
- 五金交電招投標(biāo)管理要點(diǎn)
- 保險(xiǎn)公司辦公費(fèi)用內(nèi)控機(jī)制
- 校園消防演練方案
- 2022年大學(xué)海洋科學(xué)專業(yè)大學(xué)物理下冊(cè)月考試題-含答案
- 家用暖通合同范本
- 電工基礎(chǔ)知識(shí)培訓(xùn)課程
- 廣東省2024-2025學(xué)年高三上學(xué)期10月份聯(lián)考?xì)v史試卷 - 副本
- 2024年長(zhǎng)春二道區(qū)公益性崗位招聘133名工作人員歷年高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 工會(huì)采購(gòu)管理制度
- 統(tǒng)編版六年級(jí)語(yǔ)文上冊(cè)《字音辨析》專項(xiàng)測(cè)試題帶答案
- 期中試卷(1~4單元)(試題)-2024-2025學(xué)年五年級(jí)上冊(cè)數(shù)學(xué)人教版
- module-5劍橋BEC商務(wù)英語(yǔ)-中級(jí)-課件-答案-詞匯講課教案
- 專題03立體幾何中的動(dòng)點(diǎn)問(wèn)題和最值問(wèn)題(原卷版+解析)
- 中圖版2024-2025學(xué)年八年級(jí)地理上冊(cè)期中卷含答案
- 2025屆湖北省黃岡市黃岡市高三上學(xué)期9月調(diào)研考試一模英語(yǔ)試題(含答案解析)
評(píng)論
0/150
提交評(píng)論