大數(shù)據(jù)時代的統(tǒng)計學(xué)(共11頁)_第1頁
大數(shù)據(jù)時代的統(tǒng)計學(xué)(共11頁)_第2頁
大數(shù)據(jù)時代的統(tǒng)計學(xué)(共11頁)_第3頁
大數(shù)據(jù)時代的統(tǒng)計學(xué)(共11頁)_第4頁
大數(shù)據(jù)時代的統(tǒng)計學(xué)(共11頁)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)(shj)時代的統(tǒng)計學(xué)摘要(zhiyo):本文(bnwn)主要圍繞“大數(shù)據(jù)”展開話題,結(jié)合“統(tǒng)計學(xué)”專業(yè),論述了什么是大數(shù)據(jù),什么是統(tǒng)計學(xué),在對概念的了解基礎(chǔ)上掌握大數(shù)據(jù)的發(fā)展歷程以及統(tǒng)計學(xué)的發(fā)展歷程。從中找出大數(shù)據(jù)與統(tǒng)計學(xué)的聯(lián)系,然后進一步了解在大數(shù)據(jù)時代下統(tǒng)計學(xué)所處的地位以及大數(shù)據(jù)時代下統(tǒng)計學(xué)的變化和發(fā)展。在前人的研究基礎(chǔ)上,我們進一步的發(fā)現(xiàn)問題并探討問題,運用統(tǒng)計學(xué)方法去解決大數(shù)據(jù)時代下的一些問題,并提出自己的看法。關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計學(xué);數(shù)據(jù)挖掘;數(shù)據(jù)分析引言本文寫作的目的在于闡述大數(shù)據(jù)的定義、歷史發(fā)展及趨勢、運用領(lǐng)域等有關(guān)大數(shù)據(jù)的問題,以及闡述統(tǒng)計學(xué)的定義、發(fā)展趨勢、運用領(lǐng)域等

2、有關(guān)統(tǒng)計方面的問題。在此基礎(chǔ)上探析大數(shù)據(jù)時代下的統(tǒng)計學(xué)發(fā)生的變化,帶來的影響,以及所導(dǎo)致的統(tǒng)計學(xué)的發(fā)展趨勢。有關(guān)大數(shù)據(jù)的文獻很多,涉及的領(lǐng)域也相當(dāng)廣泛,如互聯(lián)網(wǎng)、天文學(xué)、大氣科學(xué)、基因組學(xué)、大規(guī)模電子商務(wù)等等,都離不開計算機作為載體,它們都成為了大數(shù)據(jù)的來源。本文寫作主要基于運用統(tǒng)計學(xué)知識去處理大數(shù)據(jù)所涉及問題,而運用統(tǒng)計方法分析問題所涉及的范圍也相當(dāng)廣泛。對于大數(shù)據(jù)的到來,對于統(tǒng)計學(xué)來說是福音,因為它為大數(shù)據(jù)時代處理大數(shù)據(jù)問題帶來了有效的解決方法。本文所引用文獻主要來自于2011年到2015年的國內(nèi)外有關(guān)大數(shù)據(jù)的期刊文獻,從不同角度描述了大數(shù)據(jù)對當(dāng)今時代的影響,尤其是對本文的另一位主角-統(tǒng)計

3、學(xué)的影響。而對于一個統(tǒng)計學(xué)專業(yè)出身的人,對于大數(shù)據(jù)時代下統(tǒng)計學(xué)的發(fā)展有喜有憂,大數(shù)據(jù)時代的到來在一定程度上促進了統(tǒng)計學(xué)的發(fā)展,同樣的也帶來了巨大的挑戰(zhàn)。這些都需要我們一步步的解決并完善。正文1 大數(shù)據(jù)的來源與發(fā)展歷程“大數(shù)據(jù)”這個(zh ge)術(shù)語最早期的引用可追溯到apache HYPERLINK /lemma/ShowInnerLink.htm?lemmaId=83387424&ss_c=ssc.citiao.link t _blank org的開源(ki yun)項目Nutch。當(dāng)時,大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要(xyo)同時進行 HYPERLINK /lemma/ShowInn

4、erLink.htm?lemmaId=711993 t _blank 批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和Google File System (GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度1-5。不過,大約從2009年開始,“163大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的 HYPERLINK /lemma/ShowInnerLink.htm?lemmaId=356071&ss_c=ssc.citiao.link t _blank 流行詞匯。美國 HYPERLINK /lemma/ShowInnerLink.htm?lemmaId=15373&ss_c=

5、ssc.citiao.link t _blank 互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將 HYPERLINK /lemma/ShowInnerLink.htm?lemmaId=7929715&ss_c=ssc.citiao.link t _blank 翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關(guān)位置、運動、震動、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。就這樣,“大數(shù)據(jù)”在不知不覺中進入了我們的生活,無論哪里都有著它的影子

6、,這說明“大數(shù)據(jù)時代”已經(jīng)到來。我們可以這樣來定義“大數(shù)據(jù)時代”,大數(shù)據(jù)時代是建立在通過互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等現(xiàn)代網(wǎng)絡(luò)渠道廣泛大量數(shù)據(jù)資源收集基礎(chǔ)上的數(shù)據(jù)存儲、價值提煉、智能處理和展示的信息時代。在這個時代,人們幾乎能夠從任何數(shù)據(jù)中獲得可轉(zhuǎn)換為推動人們生活方式變化的有價值的知識22?!按髷?shù)據(jù)時代”的到來引起了業(yè)界和學(xué)界的廣泛關(guān)注,大量研究成果不斷涌現(xiàn)。那么什么是大數(shù)據(jù)呢?大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助 HYPERLINK /lemma/ShowInnerLink.htm?lemmaId

7、=71613623&ss_c=ssc.citiao.link t _blank 企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)是一種大規(guī)模數(shù)據(jù)的管理和利用的商業(yè)模式和技術(shù)平臺的泛指,它與傳統(tǒng)的海量數(shù)據(jù)不同的是,它除了數(shù)據(jù)規(guī)模呈現(xiàn)幾何級數(shù)增長的特征之外,還包括所有數(shù)據(jù)類型的采集、分類、處理、分析和展現(xiàn)等多個方面,從而最終實現(xiàn)從大數(shù)據(jù)挖掘潛在巨大價值的目的18。到目前為止對于大數(shù)據(jù)還沒有統(tǒng)一的定義。對于大數(shù)據(jù),其特點18在于:(1)數(shù)據(jù)體量大。普遍認(rèn)為PB級的數(shù)據(jù)為大數(shù)據(jù)的起點。(2)數(shù)據(jù)類型繁多。既可以是傳統(tǒng)的有因果關(guān)系的結(jié)構(gòu)化數(shù)據(jù)如關(guān)系數(shù)據(jù)庫數(shù)據(jù),但更多的是諸如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等的半

8、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。(3)價值密度低。大數(shù)據(jù)蘊藏的價值雖然巨大,價值密度卻很低,往往需要對海量的數(shù)據(jù)進行挖掘分析才能得到真正有用的信息,從而產(chǎn)生價值。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅有一兩秒。(4) 處理速度快。大數(shù)據(jù)時代更強調(diào)實時分析,而不是批量分析,奉行 1秒定律。即一般要在秒級時間范圍內(nèi)給出分析結(jié)果,時間太長就失去價值?;诮y(tǒng)計學(xué)的角度,我們應(yīng)該如何理解(lji)“大數(shù)據(jù)”呢?李金昌認(rèn)為,大數(shù)據(jù)不是基于人工設(shè)計、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)與工具可以自動記錄、儲存和連續(xù)擴充的、大大超出傳統(tǒng)統(tǒng)計記錄與儲存能力的一切類

9、型的數(shù)據(jù)20。2 統(tǒng)計學(xué)的發(fā)展(fzhn)歷程由于人類的統(tǒng)計實踐是隨著計數(shù)活動而產(chǎn)生的,因此,統(tǒng)計發(fā)展史可以追溯到遠(yuǎn)古的原始社會,也就是說距今足有五千多年的漫長歲月。但是,能使人類的統(tǒng)計實踐上升到理論上予以概括總結(jié)(zngji)的程度,即開始成為一門系統(tǒng)的學(xué)科統(tǒng)計學(xué),卻是近代的事情,距今只有三百余年的短暫歷史。統(tǒng)計學(xué)發(fā)展的概貌,大致可劃分為古典記錄統(tǒng)計學(xué)、近代描述統(tǒng)計學(xué)和現(xiàn)代推斷統(tǒng)計學(xué)三種形態(tài)18-20。古典記錄統(tǒng)計學(xué)形成期間大致在十七世紀(jì)中葉至十九世紀(jì)中葉。統(tǒng)計學(xué)在這個興起階段,還是一門意義和范圍不太明確的學(xué)問,在它用文字或數(shù)字如實記錄與分析國家社會經(jīng)濟狀況的過程中,初步建立了統(tǒng)計研究的方法

10、和規(guī)則。到概率論被引進之后,才逐漸成為一項較成熟的方法。最初卓有成效地把古典概率論引進統(tǒng)計學(xué)的是法國天文學(xué)家、數(shù)學(xué)家、統(tǒng)計學(xué)家拉普拉斯(P.S. Laplace,17491827)。因此,后來比利時大統(tǒng)計學(xué)家凱特勒指出,統(tǒng)計學(xué)應(yīng)從拉普拉斯開始。近代描述統(tǒng)計學(xué)形成期間大致在十九世紀(jì)中葉至二十世紀(jì)上半葉。由于這種“描述”特色由一批原是研究生物進化的學(xué)者們提煉而成,因此歷史上稱他們?yōu)樯锝y(tǒng)計學(xué)派。生物統(tǒng)計學(xué)派的創(chuàng)始人是英國的高爾登(F. Galton,18221911),主將是高爾登的學(xué)生畢爾生(K.Pearson,18571936)。現(xiàn)代推斷統(tǒng)計學(xué)形成期間大致是二十世紀(jì)初葉至二十世紀(jì)中葉。人類歷史

11、進入二十世紀(jì)后,無論社會領(lǐng)域還是自然領(lǐng)域都向統(tǒng)計學(xué)提出更多的要求。各種事物與現(xiàn)象之間繁雜的數(shù)量關(guān)系以及一系列未知的數(shù)量變化,單靠記錄或描述的統(tǒng)計方法已難以奏效。因此,相繼產(chǎn)生“推斷”的方法來掌握事物總體的真正聯(lián)系以及預(yù)測未來的發(fā)展。從描述統(tǒng)計學(xué)到推斷統(tǒng)計學(xué),這是統(tǒng)計發(fā)展過程中的一個大飛躍。統(tǒng)計學(xué)發(fā)展中的這場深刻變革是在農(nóng)業(yè)(nngy)田間試驗領(lǐng)域中完成的。因此,歷史上稱之為農(nóng)業(yè)試驗學(xué)派。對現(xiàn)代推斷統(tǒng)計的建立貢獻最大的是英國統(tǒng)計學(xué)家哥塞特(W.S. Gosset,18761937)和費雪(R.A. Fisher,18901962)。在大數(shù)據(jù)時代,對統(tǒng)計學(xué)來說既是機遇又是挑戰(zhàn),機遇在于大數(shù)據(jù)的分析

12、主要建立在統(tǒng)計學(xué)的基礎(chǔ)上對數(shù)據(jù)進行處理、分析,從而使得大數(shù)據(jù)“可視化”,而挑戰(zhàn)在于,當(dāng)下傳統(tǒng)統(tǒng)計學(xué)的方法(fngf)對于大數(shù)據(jù)的不適用,這需要我們進一步對統(tǒng)計學(xué)進行發(fā)展與創(chuàng)新。3大數(shù)據(jù)(shj)時代對統(tǒng)計學(xué)的影響統(tǒng)計學(xué)是一門古老的學(xué)科,已經(jīng)有三百多年的歷史,在自然科學(xué)和人文社會科學(xué)的發(fā)展中起到了舉足輕重的作用; 統(tǒng)計學(xué)又是一門生命力及其旺盛的學(xué)科,他海納百川又博采眾長,隨著各門具體學(xué)科的發(fā)展不斷壯大。毫不例外,大數(shù)據(jù)時代的到來,給統(tǒng)計學(xué)科帶來了發(fā)展壯大機會的同時,也使得統(tǒng)計學(xué)科面臨著重大的挑戰(zhàn)。怎樣深刻地認(rèn)識和把握這一發(fā)展契機,怎樣更好地理解和應(yīng)對這一重大挑戰(zhàn),這就迫使我們需要澄清大數(shù)據(jù)的概念

13、明確大數(shù)據(jù)的特征; 重新審視統(tǒng)計的工作過程提出新的統(tǒng)計思想理念22。3.1 大數(shù)據(jù)對樣本和總體的影響統(tǒng)計利用大數(shù)據(jù)的目的6是為了推斷經(jīng)濟總體或社會總體,經(jīng)濟或社會指標(biāo)的平均數(shù)或分位數(shù)等情況。統(tǒng)計學(xué)強調(diào)的是樣本的代表性,而代表性這一要求一般是通過概率抽樣來滿足的。大數(shù)據(jù)雖然有著海量的樣本量,能夠提供豐富的信息,但是嚴(yán)格來說,大數(shù)據(jù)并不是一個抽樣樣本,相反大數(shù)據(jù)樣本會存在缺乏代表性、信息冗余、存在噪聲等諸多問題,這種情況下很容易帶來分析結(jié)果的系統(tǒng)偏差26。如果說,傳統(tǒng)統(tǒng)計(tngj)研究的數(shù)據(jù)是有意收集的結(jié)構(gòu)化的樣本數(shù)據(jù),那么現(xiàn)在我們面對的數(shù)據(jù)則是一切可以記錄和存儲、源源不斷(yun yun b

14、dun)擴充、超大容量(rngling)的各種類型的數(shù)據(jù)。樣本數(shù)據(jù)與大數(shù)據(jù)的這種區(qū)別,具有什么樣的統(tǒng)計學(xué)意義? 我們知道,樣本數(shù)據(jù)是按照特定研究目的、依據(jù)抽樣方案獲得的格式化的數(shù)據(jù),不僅數(shù)據(jù)量有限,而且如果過程偏離方案,數(shù)據(jù)就不能滿足要求?;跇颖緮?shù)據(jù)所進行的分析,其空間十分有限通常無法滿足多層次、多角度的需要,若遇到抽樣方案事先未曾考慮到的問題,數(shù)據(jù)的不可擴充性缺點就暴露無疑。而大數(shù)據(jù)是一切可以通過現(xiàn)代信息技術(shù)記錄和量化的數(shù)據(jù),不僅所蘊含的信息量巨大,而且不受各種框框的限制任何種類的數(shù)據(jù)都來者不拒、也無法抵拒。不難發(fā)現(xiàn),大數(shù)據(jù)相比于樣本數(shù)據(jù)的最大優(yōu)點是,具有巨大的數(shù)據(jù)選擇空間,可以進行多維、

15、多角度的數(shù)據(jù)分析。更為重要的是,由于大數(shù)據(jù)的大體量與多樣性,樣本不足以呈現(xiàn)的某些規(guī)律,大數(shù)據(jù)可以體現(xiàn); 樣本不足以捕捉的某些弱小信息,大數(shù)據(jù)可以覆蓋; 樣本中被認(rèn)為異常的值,大數(shù)據(jù)得以認(rèn)可。這將極大地提高我們認(rèn)識現(xiàn)象的能力,避免丟失很多重要的信息,避免失去很多決策選擇的機會20。所以說,在大數(shù)據(jù)時代下,大數(shù)據(jù)既是樣本,也是總體。由于計算機處理技術(shù)發(fā)生著日新月異的變化,人們處理大規(guī)模復(fù)雜數(shù)據(jù)的能力日益增強,從大規(guī)模數(shù)據(jù)中提取有價值信息的能力日益提高,人們將會迅速進入大數(shù)據(jù)時代。數(shù)據(jù)時代,不僅會帶來人類自然科學(xué)技術(shù)和人文社會科學(xué)的發(fā)展變革,還會給人們的生活和工作方式帶來煥然一新的變化22。3.2

16、相關(guān)分析變化大數(shù)據(jù)時代的到來使得相關(guān)分析需要達(dá)到的要求更高,針對傳統(tǒng)統(tǒng)計分析中的相關(guān)測量法存在的缺陷,大數(shù)據(jù)時代的相關(guān)分析首先滿足“通用性”和“均等性”兩個準(zhǔn)則,相關(guān)分析的結(jié)果應(yīng)該只與變量之間連動性的緊密程度有關(guān),而不應(yīng)受變量間相關(guān)形式的影響29-30。近些年,國外已經(jīng)有很多學(xué)者開始注意到大數(shù)據(jù)時代相關(guān)分析方法的重要性,對如何改進相關(guān)分析方法進行了研究。Reshef等學(xué)者(2011)基于信息論中關(guān)于兩個事件集合的相關(guān)性信息度量提出了一種關(guān)于相關(guān)性分析的改進方法-最大信息系數(shù)(Maximal InformationCoefficient,MIC)的,可以對變量間的非函數(shù)相關(guān)關(guān)系進行(jnxng)

17、有效的識別。David Lopea-Paz等學(xué)者(2013)運用 Copula 轉(zhuǎn)換(zhunhun)提出了隨機相關(guān)系數(shù)(Randomized Dependence Coefficient,RDC),并與MIC方法進行了對比,證明前者的時間復(fù)雜度更低。Hoang V.Nguyen等學(xué)者(2014)根據(jù)MIC方法,提出了更一般化的相關(guān)(xinggun)分析方法-最大相關(guān)分析(Maximal Correlation Analy-sis,MAC),擴展了MIC方法的運用范圍,可以對兩組變量之間的非函數(shù)相關(guān)關(guān)系進行準(zhǔn)確的測量27。新興的相關(guān)分析方法在最近幾年涌現(xiàn),一方面是由于國內(nèi)外學(xué)者看到了大數(shù)據(jù)分析

18、中傳統(tǒng)統(tǒng)計相關(guān)分析存在的缺陷,運用傳統(tǒng)統(tǒng)計方法已經(jīng)無法滿足大數(shù)據(jù)時代數(shù)據(jù)分析的需求;更重要的在于,國內(nèi)外學(xué)者們都看到了大數(shù)據(jù)時代相關(guān)分析思維的重要性,看到了相關(guān)分析在特征選擇、變量依賴關(guān)系識別中的實用性27。大數(shù)據(jù)時代,相關(guān)分析的運用范圍之廣、重要性之大是我們不能忽略的,也是傳統(tǒng)相關(guān)分析所面臨的巨大機遇。如何以相關(guān)分析思路為起點探究新的分析方法,使統(tǒng)計相關(guān)分析方法能夠更順應(yīng)時代的變化,體現(xiàn)出傳統(tǒng)統(tǒng)計思維的經(jīng)典與先進,在大數(shù)據(jù)下能夠發(fā)揮作用,即是傳統(tǒng)相關(guān)分析面臨的挑戰(zhàn)也是機遇7。3.3 因果分析的變化隨著大數(shù)據(jù)時代的到來,經(jīng)濟中,對于數(shù)據(jù)的分析發(fā)生了很大的變化,從原來的注重因果分析到如今對相關(guān)分

19、析的看重。人們不再過多的關(guān)注“為什么”。而更加的想知道“是什么”4 大數(shù)據(jù)時代下統(tǒng)計學(xué)面臨的機遇和挑戰(zhàn)4.1 大數(shù)據(jù)(shj)時代下統(tǒng)計學(xué)面臨的機遇一個新生事物的出現(xiàn)將必定(bdng)導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命。數(shù)碼照相機的出現(xiàn)導(dǎo)致傳統(tǒng)相片膠卷和影像業(yè)的已近消亡。如果大數(shù)據(jù)包含了所有父親和兒子的身高數(shù)據(jù),只要計算給定的父親身高下所有兒子的平均身高就可以預(yù)測其兒子身高了。模型不再重要,當(dāng)年統(tǒng)計學(xué)最得意的回歸預(yù)測方法將被淘汰。大數(shù)據(jù)的到來將對傳統(tǒng)的統(tǒng)計方法進行考驗。統(tǒng)計學(xué)會不會象科學(xué)哲學(xué)那樣,只佩戴著歷史的光環(huán),而不再主導(dǎo)(zhdo)和引領(lǐng)人們分析和利用大數(shù)據(jù)資源?,F(xiàn)在其他學(xué)科和行業(yè)涌入大數(shù)據(jù)的熱潮

20、,如果統(tǒng)計學(xué)不抓緊參與的話,將面臨著被邊緣化的危險8-12?,F(xiàn)今統(tǒng)計學(xué)的目標(biāo)是通過獲取數(shù)據(jù)和分析數(shù)據(jù)發(fā)現(xiàn)真理( 總體的參數(shù)和性質(zhì)) ,統(tǒng)計方法和理論對數(shù)據(jù)有過高的要求。而大數(shù)據(jù)充滿了各種隨機的、非隨機的誤差和偏倚,不能滿足這些苛刻的要求。按照波普的科學(xué)劃界準(zhǔn)則,只要我們能從大數(shù)據(jù)中提煉出具有可證偽的結(jié)論,那么這個結(jié)論還是科學(xué)的,可以用于知識積累。這些可證偽的大數(shù)據(jù)結(jié)論可作為進一步科學(xué)研究的假說,以數(shù)據(jù)驅(qū)動研究24。4.2 大數(shù)據(jù)時代統(tǒng)計學(xué)面臨的挑戰(zhàn)大數(shù)據(jù)時代并不會自動生成,總是需要不斷地提出和解決大數(shù)據(jù)發(fā)展所遇到的問題和矛盾,才會有切實的進步。事物發(fā)展的不同階段有不同的“時務(wù)”,需要不同的應(yīng)對

21、。統(tǒng)計數(shù)據(jù)的搜集方面,傳統(tǒng)的統(tǒng)計抽樣調(diào)查不再適用,這需要我們結(jié)合大數(shù)據(jù)的來源來搜集數(shù)據(jù);數(shù)據(jù)整理方面,不再是傳統(tǒng)的計算機所能運行的,它需要更大的存儲以及計算機處理數(shù)據(jù)的能力;數(shù)據(jù)分析方面,很多傳統(tǒng)的統(tǒng)計方法不再有效,利用這些方法對數(shù)據(jù)進行分析,未必能得到我們想要的結(jié)果,這就需要我們對統(tǒng)計方法的創(chuàng)新與發(fā)展做進一步的努力。對統(tǒng)計工作者而言,這種改變不僅意味著拓寬了統(tǒng)計研究的范疇豐富了統(tǒng)計研究的內(nèi)容增強了統(tǒng)計學(xué)的生命力,還意味著統(tǒng)計工作及統(tǒng)計研究的四個轉(zhuǎn)變22:(1) 轉(zhuǎn)變統(tǒng)計研究過程。傳統(tǒng)的統(tǒng)計研究過程包括統(tǒng)計設(shè)計、收集數(shù)據(jù)、整理與分析和統(tǒng)計資料的積累、開發(fā)與應(yīng)用等四個基本環(huán)節(jié)。大數(shù)據(jù)時代,由于數(shù)

22、據(jù)規(guī)模巨大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜等特點,以及整理數(shù)據(jù)可能損壞原有數(shù)據(jù)中有價值信息,針對大數(shù)據(jù)的統(tǒng)計研究過程僅包括數(shù)據(jù)整理與分析和數(shù)據(jù)的積累、開發(fā)與應(yīng)用兩個基本環(huán)節(jié)。進一步的分析表明,大數(shù)據(jù)整理與分析過程僅指數(shù)據(jù)儲存工作??偟恼f來,大數(shù)據(jù)統(tǒng)計研究過程包括數(shù)據(jù)儲存和數(shù)據(jù)的積累、開發(fā)與應(yīng)用兩個環(huán)節(jié)。(2)轉(zhuǎn)變統(tǒng)計研究方法。傳統(tǒng)的統(tǒng)計研究方法,如建立回歸方程、估計模型參數(shù)、檢驗參數(shù)估計結(jié)果等因為大數(shù)據(jù)(shj)的特點而無法實施,對大數(shù)據(jù)的統(tǒng)計分析是以相關(guān)關(guān)系為基礎(chǔ)展開的。但針對大數(shù)據(jù)的相關(guān)關(guān)系分析不同于傳統(tǒng)的相關(guān)關(guān)系的分析,傳統(tǒng)的相關(guān)分析基本是線性相關(guān)分析,大數(shù)據(jù)研究的相關(guān)關(guān)系分析的不僅是線性相關(guān),更多的是非

23、線性相關(guān)以及不明確函數(shù)形式的線性關(guān)系。(3)轉(zhuǎn)變統(tǒng)計研究目的。傳統(tǒng)統(tǒng)計研究的目的主要是為了探尋現(xiàn)象( 或變量) 間的相關(guān)關(guān)系、因果關(guān)系以及建立在相關(guān)關(guān)系或因果關(guān)系基礎(chǔ)上的預(yù)測分析(fnx)。大數(shù)據(jù)由于數(shù)據(jù)規(guī)模巨大和數(shù)據(jù)結(jié)構(gòu)復(fù)雜以及要求數(shù)據(jù)處理速度快等特點,因果(yngu)分析往往不可行。大數(shù)據(jù)時代統(tǒng)計研究分析的目的主要是研究現(xiàn)象間的相關(guān)關(guān)系以及建立在相關(guān)分析基礎(chǔ)上的預(yù)測分析。(4)轉(zhuǎn)變統(tǒng)計研究工作思想。傳統(tǒng)統(tǒng)計研究工作中,囿于計算技術(shù)的限制,總是希望用盡量少的數(shù)據(jù)和相對復(fù)雜的模型盡量獲取有價值的信息。傳統(tǒng)的統(tǒng)計抽樣調(diào)查方法雖然在小數(shù)據(jù)時代有助于節(jié)省費用、了解總體信息,但可能存在抽樣框不穩(wěn)定、調(diào)

24、查樣本片面、調(diào)查結(jié)果經(jīng)不起細(xì)分以及糾偏成本高昂的缺陷。在大數(shù)據(jù)時代,樣本即總體,由于計算機超前的數(shù)據(jù)處理能力,可以通過分析處理大數(shù)據(jù)了解總體各方面的信息。另外,還需將傳統(tǒng)統(tǒng)計質(zhì)量管理控制中的事后檢驗轉(zhuǎn)變?yōu)槭孪阮A(yù)測,以及轉(zhuǎn)變盡量利用復(fù)雜模型的思想為巧用簡單模型的思想。結(jié)論從統(tǒng)計學(xué)角度(jiod)定義,大數(shù)據(jù)不是基于人工設(shè)計、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴充的結(jié)構(gòu)型數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)與工具可以自動記錄、儲存和連續(xù)擴充的、大大超出(choch)傳統(tǒng)統(tǒng)計記錄與儲存能力的一切類型的數(shù)據(jù)(shj)。大數(shù)據(jù)時代下,統(tǒng)計學(xué)發(fā)生了很多的變化,傳統(tǒng)的統(tǒng)計學(xué)方法已經(jīng)不能夠很好的處理大數(shù)據(jù)問題

25、。這要求我們必須改變傳統(tǒng)的統(tǒng)計學(xué)分析思維,從數(shù)據(jù)獲取、處理、分析方面找到更加適合大數(shù)據(jù)的一套完整的統(tǒng)計分析方法。對于每一位統(tǒng)計工作者來說,這既是機遇,有是挑戰(zhàn)。機遇在于,在大數(shù)據(jù)時代下,統(tǒng)計學(xué)的地位不容忽視,它是處理大數(shù)據(jù)問題的有效途徑。挑戰(zhàn)在于,要得到一套適合大數(shù)據(jù)的統(tǒng)計分析方法實屬不易,這需要我們每一位統(tǒng)計學(xué)者和工作者的不懈努力。參考文獻1Radosaw Bandomir, Mariusz Krawczyk, Jacek Namienik. HYPERLINK /Detail/SJDJ_U/SJDJ13012100437546 t _blank A New Analyzer Based o

26、n Pellistor Sensor with Neural Network Data Postprocessing for Measurement of Hydrocarbons in Lower Explosive Limit RangeJ.Journal of Automated Methods & Management in Chemistry, 2005, 2005(2).2S. G. Wesnousky. HYPERLINK /Detail/SJCRKZ_U/SJCR14052200431760 t _blank Possibility of Biases in the Estim

27、ation of Earthquake Recurrence and Seismic Hazard from Geologic DataJ.Bulletin of the Seismological Society of America, 2010, 100(5A).3Patricia L. Mabry. HYPERLINK /Detail/SJCRKZ_U/SJCR14051601151434 t _blank Making Sense of the Data ExplosionJ.American Journal of Preventive Medicine, 2011, 40(5).4V

28、. Letouzey, S. Huberlant, P. Mares et al. HYPERLINK /Detail/SJES_U/SJES13011300347455 t _blank Assessment of Quality of Life of Patients Supported for Genital Prolapse Surgery: Feasibility of a Computerized Data CollectionJ.The Journal of Minimally Invasive Gynecology, 2011, 18(6).5Patricia L. Mabry

29、. HYPERLINK /Detail/SJES_U/SJES13012100244847 t _blank Making Sense of the Data ExplosionJ.American Journal of Preventive Medicine, 2011, 40(5).6盧敏,劉學(xué).大數(shù)據(jù)(shj)-任務(wù)(rn wu)并不簡單J.軟件和信息(xnx)服務(wù),2011,11:44-52.7姜奇平.大數(shù)據(jù)時代到來J.互聯(lián)網(wǎng)周刊,2012,01:6.8Hang Yang, Simon Fong, Guangmin Sun et al. HYPERLINK /Detail/SJCRKZ

30、_U/SJCR14050502246688 t _blank A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor NetworkJ.International Journal of Distributed Sensor Networks, 2012, 2012.9B. Zhu, L. Xu, D. Faries et al. HYPERLINK /Detail/SJES_U/SJES130113009410

31、66 t _blank PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing DataJ.Value in Health, 2012, 15(4).10W. Aigner, A. Rind, S. Hoffmann. HYPERLINK /Detail/SJCRKZ_U/SJCR

32、14050500718574 t _blank Comparative Evaluation of an Interactive Time-Series Visualization that Combines Quantitative Data with Qualitative AbstractionsJ.Computer Graphics Forum, 2012, 31(3pt2).11Ahmed M. Abdel-Khalek, Mostafa A. Elseifi, Kevin Gaspard et al. HYPERLINK /Detail/SJCRKZ_U/SJCR140505010

33、27475 t _blank Model to Estimate Pavement Structural Number at Network Level with Rolling Wheel Deflectometer DataJ.Transportation Research Record: Journal of the Transportation Research Board, 2012, 2304(-1).12B. Zhu, L. Xu, D. Faries et al. HYPERLINK /Detail/SJCRKZ_U/SJCR14050501788785 t _blank PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophre

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論