大數(shù)據(jù)數(shù)據(jù)分析新理念朱老師_第1頁
大數(shù)據(jù)數(shù)據(jù)分析新理念朱老師_第2頁
大數(shù)據(jù)數(shù)據(jù)分析新理念朱老師_第3頁
大數(shù)據(jù)數(shù)據(jù)分析新理念朱老師_第4頁
大數(shù)據(jù)數(shù)據(jù)分析新理念朱老師_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

優(yōu)選大數(shù)據(jù)數(shù)據(jù)分析新理念朱老師當(dāng)前第1頁\共有46頁\編于星期四\22點大數(shù)據(jù)時代與大數(shù)據(jù)

——數(shù)據(jù)分析的新理念

第一部分:大數(shù)據(jù)與大數(shù)據(jù)時代一、大數(shù)據(jù)產(chǎn)生的背景二、國內(nèi)發(fā)展現(xiàn)狀三、大數(shù)據(jù)概念的界定第二部分:數(shù)據(jù)分析的新理念四、如何理解大數(shù)據(jù)和分析大數(shù)據(jù)

五、大數(shù)據(jù)對統(tǒng)計學(xué)科和統(tǒng)計研究工作的影響

當(dāng)前第2頁\共有46頁\編于星期四\22點一、大數(shù)據(jù)產(chǎn)生的背景1955年信息公開1965年摩爾定律1973年最小數(shù)據(jù)集1980年標(biāo)準(zhǔn)數(shù)據(jù)接口1988年普適計算2000年數(shù)據(jù)驅(qū)動1955年,約翰?摩斯提出《自由信息法》草案,幾經(jīng)周折,直到1965年才被參議院投票通過,直到次年7月4日才被美國總統(tǒng)簽字通過。摩爾定律:同一個面積集成電路上可容納的晶體管數(shù)目,一到兩年將增加一倍,亦即計算機(jī)硬件的處理速度和存儲能力將提升一倍。最小數(shù)據(jù)集的概念起源于美國醫(yī)療領(lǐng)域,指代國家的管理層面針對某個業(yè)務(wù)管理領(lǐng)域強(qiáng)制搜集的數(shù)據(jù)指標(biāo)。一些領(lǐng)域的最小數(shù)據(jù)集甚至被上升到立法高度。數(shù)據(jù)在不同信息管理系統(tǒng)之間的共享也使數(shù)據(jù)接口的標(biāo)準(zhǔn)化越來越得到強(qiáng)調(diào)。當(dāng)前第3頁\共有46頁\編于星期四\22點返回主機(jī)型計算階段(MainframeComputing)個人型計算階段(PersonalComputing)普適計算階段(UbiquitousComputing)當(dāng)前第4頁\共有46頁\編于星期四\22點二、國內(nèi)發(fā)展現(xiàn)狀近年來,對大數(shù)據(jù)的研究和應(yīng)用不僅引起了我國自然科學(xué)和人文社會科學(xué)界的廣泛重視,也受到我國中央政府的高度關(guān)注:這些是大數(shù)據(jù)產(chǎn)業(yè)的重要組成部分,與大數(shù)據(jù)產(chǎn)業(yè)發(fā)展密切相關(guān)?!丁笆濉眹覒?zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃》明確提出支持海量數(shù)據(jù)存儲、處理技術(shù)的研發(fā)與產(chǎn)業(yè)化《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》提出將信息處理技術(shù)列為四項關(guān)鍵技術(shù)創(chuàng)新工程之一當(dāng)前第5頁\共有46頁\編于星期四\22點2013年2月國家統(tǒng)計局召開的以大數(shù)據(jù)為主題的工作會議2013年3月26日科研所又舉辦了“大數(shù)據(jù)在政府統(tǒng)計工作中的應(yīng)用研究”課題研究專家咨詢會2013年3月4日國家統(tǒng)計局科研所重點討論部署了“大數(shù)據(jù)在政府統(tǒng)計中的應(yīng)用”的研究工作2012年12月國家統(tǒng)計局在上海開展了大數(shù)據(jù)應(yīng)用的調(diào)研活動2012年11月國家統(tǒng)計局總統(tǒng)計師鮮祖德會見美國華裔大數(shù)據(jù)專家時,提出國家統(tǒng)計局十分重視大數(shù)據(jù)在統(tǒng)計中的應(yīng)用,并成立了課題組研究如何通過對大數(shù)據(jù)處理推進(jìn)統(tǒng)計方法制度改革,改進(jìn)政府統(tǒng)計工作我國國家統(tǒng)計局科研所于2012年8月就召開了大數(shù)據(jù)應(yīng)用研究座談會,提出了在大數(shù)據(jù)時代運(yùn)用現(xiàn)代信息技術(shù)建立統(tǒng)計云架構(gòu)的研究目標(biāo)。2013年4月11日,國家統(tǒng)計局總統(tǒng)計師鮮祖德率領(lǐng)大數(shù)據(jù)課題組赴百度公司調(diào)研,就大數(shù)據(jù)在政府統(tǒng)計中的應(yīng)用及相關(guān)合作事宜,與百度公司有關(guān)領(lǐng)導(dǎo)和專家進(jìn)行了深入交流2013年5月2日國家統(tǒng)計局科研所青年學(xué)術(shù)沙龍深入研討大數(shù)據(jù)應(yīng)用2013年8月6日,國家統(tǒng)計局總統(tǒng)計師鮮祖德主持召開了“大數(shù)據(jù)在政府統(tǒng)計中的探索與應(yīng)用研究”課題報告座談會2013年10月28日-29日,“第十七次全國統(tǒng)計科學(xué)討論會”在浙江省杭州市召開。主題是:大數(shù)據(jù)背景下的統(tǒng)計。2013年11月19日,國家統(tǒng)計局與阿里、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議。當(dāng)前第6頁\共有46頁\編于星期四\22點2013年11月19日下午,國家統(tǒng)計局與上海鋼聯(lián)電子商務(wù)股份有限公司、山東卓創(chuàng)資訊集團(tuán)有限公司、58同城信息技術(shù)有限公司、天云融創(chuàng)數(shù)據(jù)科技(北京)有限公司、中國聯(lián)合網(wǎng)絡(luò)通信有限公司、天脈聚源(北京)傳媒科技有限公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司、阿里巴巴(中國)有限公司、紐海信息技術(shù)(上海)有限公司、昆明泛亞有色金屬交易所股份有限公司和南京擎天科技有限公司共11家企業(yè)在京簽訂了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議,共同推進(jìn)大數(shù)據(jù)在政府統(tǒng)計中的應(yīng)用,不斷增強(qiáng)政府統(tǒng)計的科學(xué)性和及時性。

當(dāng)前第7頁\共有46頁\編于星期四\22點

《大數(shù)據(jù)在政府統(tǒng)計中的探索與應(yīng)用》2013年10月1日出版當(dāng)前第8頁\共有46頁\編于星期四\22點

2014年2月25日,國家統(tǒng)計局局長馬建堂赴北京市中關(guān)村,考察中關(guān)村國家自主創(chuàng)新示范區(qū)、中關(guān)村數(shù)海大數(shù)據(jù)交易平臺和京東商城。他說,統(tǒng)計部門要孜孜不倦推動大數(shù)據(jù)在政府統(tǒng)計中應(yīng)用,不斷加大與各類企業(yè)在大數(shù)據(jù)應(yīng)用中合作力度,努力打造政府統(tǒng)計數(shù)據(jù)來源第二軌,使統(tǒng)計數(shù)據(jù)更加真實準(zhǔn)確,為社會提供更加優(yōu)質(zhì)統(tǒng)計服務(wù)。當(dāng)前第9頁\共有46頁\編于星期四\22點

2014年3月22日,國家社科基金重大項目《大數(shù)據(jù)與統(tǒng)計學(xué)理論的發(fā)展研究》開題研討會在廈門大學(xué)舉行。中國統(tǒng)計學(xué)會副會長兼秘書長、國家統(tǒng)計局統(tǒng)計科學(xué)研究所所長潘璠作為子課題五《大數(shù)據(jù)下的統(tǒng)計方法實際應(yīng)用探索》的負(fù)責(zé)人,介紹了大數(shù)據(jù)在政府統(tǒng)計中的研究進(jìn)展及相關(guān)應(yīng)用動態(tài)。當(dāng)前第10頁\共有46頁\編于星期四\22點

2014年4月4日上午,馬建堂在浙江省副省長朱從玖的陪同下,來到阿里巴巴集團(tuán),對集團(tuán)的電子商務(wù)業(yè)務(wù)進(jìn)行調(diào)研。聽取了阿里巴巴集團(tuán)近年來業(yè)務(wù)發(fā)展?fàn)顩r和大數(shù)據(jù)應(yīng)用情況的報告,深入了解了天貓和淘寶網(wǎng)兩個網(wǎng)上零售交易平臺的運(yùn)營模式、商家規(guī)模、交易體量、發(fā)展速度和大數(shù)據(jù)業(yè)務(wù),與阿里巴巴有關(guān)負(fù)責(zé)人探討了利用網(wǎng)絡(luò)平臺日常交易產(chǎn)生的大數(shù)據(jù)完善貿(mào)易統(tǒng)計的構(gòu)想。

當(dāng)前第11頁\共有46頁\編于星期四\22點

2014年5月8日,國家統(tǒng)計局局長馬建堂赴上海調(diào)研大數(shù)據(jù)在統(tǒng)計工作中的應(yīng)用。馬建堂強(qiáng)調(diào),統(tǒng)計部門要順勢而為,以更加積極開放的心態(tài)擁抱大數(shù)據(jù)時代,以大數(shù)據(jù)利用為引擎,助力進(jìn)一步提升統(tǒng)計數(shù)據(jù)搜集能力、完善統(tǒng)計制度方法、加強(qiáng)經(jīng)濟(jì)形勢分析、提高統(tǒng)計數(shù)據(jù)質(zhì)量,更好地服務(wù)經(jīng)濟(jì)社會發(fā)展。當(dāng)前第12頁\共有46頁\編于星期四\22點

2014年5月20日,是北京入夏以來最熱的一天。下午2點多,國家統(tǒng)計局局長馬建堂一行來到了位于上地十街的百度公司調(diào)研大數(shù)據(jù)生產(chǎn)及應(yīng)用情況。當(dāng)前第13頁\共有46頁\編于星期四\22點

2014年7月9日下午,科研所所長潘璠、數(shù)管中心副司級干部李金寬等一行4人到訪中國聯(lián)通公司,與聯(lián)通研究院、集團(tuán)客戶事業(yè)部等部門負(fù)責(zé)人就大數(shù)據(jù)合作事宜進(jìn)行深入座談交流。

當(dāng)前第14頁\共有46頁\編于星期四\22點

2014年8月22日,國家統(tǒng)計局統(tǒng)計科研所所長潘璠一行,在深圳市統(tǒng)計局總統(tǒng)計師胡衛(wèi)東等的陪同下,分別到訪總部設(shè)在深圳的順豐速運(yùn)有限公司和阿里巴巴一達(dá)通企業(yè)服務(wù)有限公司,與企業(yè)相關(guān)負(fù)責(zé)人就大數(shù)據(jù)合作事宜進(jìn)行深入溝通。

當(dāng)前第15頁\共有46頁\編于星期四\22點2014年9月27-28日第十五次全國中青年統(tǒng)計科學(xué)研討會日前在天津財經(jīng)大學(xué)舉行,來自全國的統(tǒng)計專家、學(xué)者、中青年統(tǒng)計科研人員、統(tǒng)計工作者及大專院校師生,以“大數(shù)據(jù)的統(tǒng)計展望”為主題進(jìn)行了廣泛而深入的交流。徐一帆向大會致辭,國家統(tǒng)計局副局長、中國統(tǒng)計學(xué)會副會長李強(qiáng)作了“全面推進(jìn)和深化統(tǒng)計改革”的專題報告,總統(tǒng)計師鮮祖德主持了會議開幕式。當(dāng)前第16頁\共有46頁\編于星期四\22點

國家統(tǒng)計局2014年9月29日召開“大數(shù)據(jù)與統(tǒng)計建模”視頻報告會,來自全國統(tǒng)計建模大賽的5支獲獎代表隊就各自利用大數(shù)據(jù)進(jìn)行統(tǒng)計建模的論文成果進(jìn)行了主題匯報。國家統(tǒng)計局副局長、全國統(tǒng)計建模大賽組委會主任委員張為民要求國家統(tǒng)計局各有關(guān)專業(yè)司、各省統(tǒng)計局、國家統(tǒng)計局各調(diào)查總隊要充分重視大數(shù)據(jù)時代為統(tǒng)計系統(tǒng)帶來的機(jī)遇和挑戰(zhàn),深入研究大數(shù)據(jù)在統(tǒng)計工作當(dāng)中的應(yīng)用,奮力推進(jìn)統(tǒng)計事業(yè)改革發(fā)展。國家統(tǒng)計局副局長徐一帆、許憲春、李強(qiáng),黨組紀(jì)檢組長高建華,總統(tǒng)計師鮮祖德,總經(jīng)濟(jì)師李曉超一同出席了此次報告會。

當(dāng)前第17頁\共有46頁\編于星期四\22點

2014年9月30日,國家統(tǒng)計局在京舉行大數(shù)據(jù)應(yīng)用報告會,與6家企業(yè)簽署大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議。國家統(tǒng)計局局長馬建堂作重要講話。他強(qiáng)調(diào),統(tǒng)計部門將攜手合作企業(yè)共同開發(fā)利用大數(shù)據(jù),共同推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)化,積極構(gòu)建由結(jié)構(gòu)化數(shù)據(jù)和大數(shù)據(jù)為基礎(chǔ)來源的現(xiàn)代化政府統(tǒng)計,奮力搶占大數(shù)據(jù)開發(fā)應(yīng)用制高點,生產(chǎn)更多、更好、更有價值的統(tǒng)計產(chǎn)品,為國家宏觀調(diào)控、人民生活改善、社會福祉提升提供堅實數(shù)據(jù)支撐。

國家統(tǒng)計局與上海航運(yùn)交易所、北京易觀網(wǎng)絡(luò)信息咨詢有限公司、北京搜房網(wǎng)絡(luò)技術(shù)有限公司、北京數(shù)??萍加邢薰?、浪潮集團(tuán)有限公司、深圳市騰訊計算機(jī)系統(tǒng)有限公司共6家企業(yè)簽署合作協(xié)議。當(dāng)前第18頁\共有46頁\編于星期四\22點

廈門大學(xué)數(shù)據(jù)挖掘研究中心于2014年6月6日向國家統(tǒng)計局統(tǒng)計科學(xué)研究所提交《廈門大學(xué)數(shù)據(jù)挖掘研究中心關(guān)于合作成立大數(shù)據(jù)實驗室的建議》,倡議聯(lián)合國家統(tǒng)計局統(tǒng)計科學(xué)研究所和臺灣輔仁大學(xué)商學(xué)研究所成立“廈門大學(xué)數(shù)據(jù)挖掘研究中心大數(shù)據(jù)實驗室”。2014年10月17日正式舉行了揭牌儀式。該實驗中心將聯(lián)合廈門沸騰網(wǎng)絡(luò)科技有限公司,共同推動數(shù)據(jù)挖掘和大數(shù)據(jù)研究與應(yīng)用。當(dāng)前第19頁\共有46頁\編于星期四\22點

由中國國家統(tǒng)計局和聯(lián)合國統(tǒng)計司聯(lián)合主辦的“大數(shù)據(jù)和官方統(tǒng)計”國際會議2014年10月28日在京開幕。國家統(tǒng)計局局長馬建堂出席會議并致辭,聯(lián)合國統(tǒng)計司司長斯特芬﹒施萬斯特,聯(lián)合國大數(shù)據(jù)全球工作小組主席、澳大利亞統(tǒng)計局副局長特雷弗﹒薩頓也分別在開幕式上致辭。國家統(tǒng)計局副局長謝鴻光主持開幕式,副局長李強(qiáng)做主旨發(fā)言。這次會議討論的主要內(nèi)容包括:大數(shù)據(jù)和國際統(tǒng)計發(fā)展;手機(jī)、全球定位系統(tǒng)和其他跟蹤裝置;衛(wèi)星影像和其他地理空間信息;Twitter和其他社交媒體;網(wǎng)絡(luò)交易和掃描數(shù)據(jù);大數(shù)據(jù)來源的共性及隱私問題;發(fā)展中國家引入創(chuàng)新;未來之路——大數(shù)據(jù)的應(yīng)用。當(dāng)前第20頁\共有46頁\編于星期四\22點

來自聯(lián)合國統(tǒng)計司、聯(lián)合國全球脈動行動、聯(lián)合國歐洲經(jīng)濟(jì)委員會、聯(lián)合國亞太經(jīng)社會、聯(lián)合國亞太統(tǒng)計研究所、歐盟統(tǒng)計局、海灣阿拉伯國家合作委員會統(tǒng)計中心、國際貨幣基金組織、國際電信聯(lián)盟、世界銀行、萬國郵政聯(lián)盟等11個國際組織,以及澳大利亞、孟加拉國、加拿大、哥倫比亞、丹麥、埃及、德國、印度、印尼、愛爾蘭、意大利、日本、馬來西亞、墨西哥、摩洛哥、荷蘭、阿曼、巴基斯坦、菲律賓、韓國、新加坡、坦桑尼亞、泰國、阿拉伯聯(lián)合酋長國、美國、越南和中國等27個國家的近120位代表參加研討會。當(dāng)前第21頁\共有46頁\編于星期四\22點國家統(tǒng)計局局長馬建堂為經(jīng)濟(jì)發(fā)展新常態(tài)提供更加優(yōu)質(zhì)的統(tǒng)計保障

——2015年元旦獻(xiàn)辭

(2014)研究應(yīng)用大數(shù)據(jù)邁出實質(zhì)性步伐,在價格統(tǒng)計、貿(mào)經(jīng)統(tǒng)計、建設(shè)領(lǐng)域統(tǒng)計、交通運(yùn)輸統(tǒng)計和經(jīng)濟(jì)監(jiān)測分析應(yīng)用中取得初步成果。

(2015)繼續(xù)深化重點領(lǐng)域統(tǒng)計改革,不斷鞏固和拓展統(tǒng)計生產(chǎn)方式變革成果,加快利用大數(shù)據(jù)、云計算奮力打造數(shù)據(jù)生產(chǎn)新興之軌,大力推進(jìn)依法統(tǒng)計,深入開發(fā)利用三經(jīng)普資料,全面啟動第三次全國農(nóng)業(yè)普查,認(rèn)真做好全國1%人口抽樣調(diào)查,扎實開展各項常規(guī)統(tǒng)計調(diào)查,持之以恒夯實統(tǒng)計業(yè)務(wù)基礎(chǔ)和基層基礎(chǔ),堅決打造廉潔統(tǒng)計,為黨和政府以及社會各界提供更加優(yōu)質(zhì)統(tǒng)計服務(wù)。當(dāng)前第22頁\共有46頁\編于星期四\22點國內(nèi)各地制定云計算“十二五”規(guī)劃云計算、物聯(lián)網(wǎng)園區(qū)中國各地制定或公布了云計算、物聯(lián)網(wǎng)等產(chǎn)業(yè)規(guī)劃;這些工程的初始著眼點在房地產(chǎn),政績工程居多,大數(shù)據(jù)作為核心內(nèi)容端,使得政績工程變?yōu)槭褂霉こ獭?/p>

云計算、物聯(lián)網(wǎng)、社交化媒體、GIS為大數(shù)據(jù)提供了豐富的數(shù)據(jù)來源。因此大數(shù)據(jù)中包括的每個用戶的身份、地點、時間、喜好、厭惡、社會關(guān)系等等大量的信息。伴隨數(shù)據(jù)挖掘和分析的技術(shù)發(fā)展,我們即將步入基于大數(shù)據(jù)的智能化時代。云計算、物聯(lián)網(wǎng)從政績工程變成實用工程當(dāng)前第23頁\共有46頁\編于星期四\22點

廣東省政府于2月26日印發(fā)了《廣東省經(jīng)濟(jì)和信息化委員會主要職責(zé)內(nèi)設(shè)機(jī)構(gòu)和人員編制規(guī)定》?!兑?guī)定》明確了廣東省經(jīng)濟(jì)和信息化委員會16項職責(zé)。根據(jù)職責(zé),廣東省經(jīng)濟(jì)和信息化委員會設(shè)21個內(nèi)設(shè)機(jī)構(gòu),其中包括成立廣東省大數(shù)據(jù)管理局。其具體職責(zé)是:研究擬訂并組織實施大數(shù)據(jù)戰(zhàn)略、規(guī)劃和政策措施,引導(dǎo)和推動大數(shù)據(jù)研究和應(yīng)用工作;組織制定大數(shù)據(jù)收集、管理、開放、應(yīng)用等標(biāo)準(zhǔn)規(guī)范;推動形成全社會大數(shù)據(jù)形成機(jī)制的建立和開發(fā)應(yīng)用;承擔(dān)企業(yè)情況綜合工作,負(fù)責(zé)企業(yè)數(shù)據(jù)收集和存儲;組織編制電子政務(wù)建設(shè)規(guī)劃并組織實施;組織協(xié)調(diào)政務(wù)信息資源共享;組織協(xié)調(diào)省級重大電子政務(wù)項目建設(shè),組織協(xié)調(diào)網(wǎng)上辦事大廳等電子政務(wù)一站式服務(wù)建設(shè);負(fù)責(zé)統(tǒng)籌政務(wù)信息網(wǎng)絡(luò)系統(tǒng)、政務(wù)數(shù)據(jù)中心的建設(shè)、管理;統(tǒng)籌協(xié)調(diào)信息安全保障體系建設(shè);承擔(dān)信息安全等級保護(hù)、應(yīng)急協(xié)調(diào)和數(shù)字認(rèn)證相關(guān)工作。當(dāng)前第24頁\共有46頁\編于星期四\22點福建省人民政府《關(guān)于支持大數(shù)據(jù)產(chǎn)業(yè)重點園區(qū)加快發(fā)展十條措施的通知》(閩政〔2014〕52號)各市、縣(區(qū))人民政府,平潭綜合實驗區(qū)管委會,省人民政府各部門、各直屬機(jī)構(gòu),各大企業(yè),各高等院校:為推動數(shù)字福建(長樂)產(chǎn)業(yè)園、中國國際信息技術(shù)(福建)產(chǎn)業(yè)園(以下簡稱園區(qū))加快建設(shè)成為全省大數(shù)據(jù)產(chǎn)業(yè)重點園區(qū)和“數(shù)字福建”建設(shè)的重要承載基地,現(xiàn)提出如下措施:當(dāng)前第25頁\共有46頁\編于星期四\22點一、完善園區(qū)發(fā)展規(guī)劃二、引進(jìn)培育產(chǎn)業(yè)龍頭三、推動資源匯聚開發(fā)四、建設(shè)大數(shù)據(jù)創(chuàng)新平臺五、加強(qiáng)人才引進(jìn)培養(yǎng)六、做好園區(qū)用地保障七、確保園區(qū)用電需求八、強(qiáng)化園區(qū)網(wǎng)絡(luò)支撐九、實施財稅優(yōu)惠政策十、提高安全保障能力本通知確定的相關(guān)優(yōu)惠政策自印發(fā)之日起施行。園區(qū)所在市、縣政府要主動靠前服務(wù),積極創(chuàng)新園區(qū)運(yùn)作模式、資本運(yùn)作模式、產(chǎn)業(yè)協(xié)作模式,及時為入園企業(yè)解決具體問題,為園區(qū)發(fā)展?fàn)I造良好環(huán)境。省直有關(guān)部門要按照職責(zé)分工,加強(qiáng)指導(dǎo)和服務(wù),大力支持園區(qū)發(fā)展,確保賦予入園企業(yè)的各項優(yōu)惠政策落實到位。當(dāng)前第26頁\共有46頁\編于星期四\22點統(tǒng)計學(xué)是一門古老的學(xué)科,已經(jīng)有三百多年的歷史,在自然科學(xué)和人文社會科學(xué)的發(fā)展中起到了舉足輕重的作用統(tǒng)計學(xué)又是一門生命力及其旺盛的學(xué)科,它海納百川又博采眾長她隨著各門具體學(xué)科的發(fā)展不斷壯大自己毫不例外,大數(shù)據(jù)時代的到來,給統(tǒng)計學(xué)科帶來了發(fā)展壯大機(jī)會的同時,也使得統(tǒng)計學(xué)科面臨著重大的挑戰(zhàn)。怎樣深刻地認(rèn)識和把握這一發(fā)展契機(jī),怎樣更好地理解和應(yīng)對這一重大挑戰(zhàn),這就迫使我們需要澄清大數(shù)據(jù)的概念、明確大數(shù)據(jù)的特征;重新審視統(tǒng)計的工作過程、提出新的思想理念當(dāng)前第27頁\共有46頁\編于星期四\22點三、大數(shù)據(jù)概念的界定

我們查閱了大量的關(guān)于大數(shù)據(jù)方面的資料,對大數(shù)據(jù)概念的定義眾說紛紜,對大數(shù)據(jù)的理解決于定義者的觀點和背景。比較有代表性的定義主要有以下幾種。

維基百科給出的定義是,大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。

大數(shù)據(jù)科學(xué)家JohnRauser提出一個簡單的定義是,大數(shù)據(jù)指任何超過了一臺計算機(jī)處理能力的數(shù)據(jù)。當(dāng)前第28頁\共有46頁\編于星期四\22點

美國咨詢公司麥肯錫的報告是這樣定義的,大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。

Gartner公司的MervAdrian(2011)認(rèn)為,大數(shù)據(jù)超出了常用硬件環(huán)境和軟件工具在可接受的時間內(nèi)為其用戶收集、管理和處理數(shù)據(jù)的能力。

IDC(InternationalDataCorporation,2011)對大數(shù)據(jù)概念的描述為:大數(shù)據(jù)是一個看起來似乎來路不明的大的動態(tài)過程;但是實際上,大數(shù)據(jù)并不是一個新生事物,雖然他確確實實正在走向主流并引起廣泛的注意;大數(shù)據(jù)并不是一個實體,而是一個橫跨很多IT邊界的動態(tài)活動。當(dāng)前第29頁\共有46頁\編于星期四\22點

還有一些學(xué)者如格雷布林克(Grobelink.M)(2012)、Forrester的分析師布賴恩·霍普金斯(BrianHopkins)、鮑里斯·埃韋爾松(BorisEvelson)(2012)和Oracle(甲骨文)的劉念真(2013)等雖未給出大數(shù)據(jù)的具體定義,但是他們概括了大數(shù)據(jù)的特點。格雷布林克(2012)認(rèn)為大數(shù)據(jù)具有三個特點,即多樣性(Variety)、大量性(Volume)、高速性(Velocity),又稱3V特點。布賴恩·霍普金斯(BrianHopkins)、鮑里斯·埃韋爾松(BorisEvelson)(2012)認(rèn)為,除了格雷布林克給出的三個特性外,大數(shù)據(jù)還具有易變性(Variability)的特點,即4V特點。劉念真則認(rèn)為大數(shù)據(jù)除了Grobelink.M給出的特點外,還具有真實性(Veracity)和價值性(Value),即五V特點。當(dāng)前第30頁\共有46頁\編于星期四\22點大數(shù)據(jù)科學(xué)研究還剛剛起步,既然是研究,我們就要理解其的內(nèi)在的涵義。這些對大數(shù)據(jù)概念的表達(dá)方式雖然不同,但從各自的角度描述出了對大數(shù)據(jù)的理解。從表面看我們可以從兩個角度來理解,如果把“大數(shù)據(jù)”看成是形容詞,它描述的是大數(shù)據(jù)時代數(shù)據(jù)的特點;如果把“大數(shù)據(jù)”看成是名詞,它體現(xiàn)的是我們科學(xué)研究的對象。當(dāng)前第31頁\共有46頁\編于星期四\22點

1、“大數(shù)據(jù)時代”的定義格雷布林克(Grobelink.M)在《紐約時報》2012年2月的一篇專欄中所稱,“大數(shù)據(jù)時代”已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,管理者決策越來越依靠數(shù)據(jù)分析,而不是依靠經(jīng)驗和直覺?!按髷?shù)據(jù)”概念之所以被炒得如火如荼,是因為大數(shù)據(jù)時代已經(jīng)到來。理解大數(shù)據(jù),必須首先理解大數(shù)據(jù)的時代背景,這樣就有必須澄清大數(shù)據(jù)時代的含義。當(dāng)前第32頁\共有46頁\編于星期四\22點廣泛性公開性動態(tài)性社會性大數(shù)據(jù)時代特點

我們可以這樣來定義大數(shù)據(jù)時代,大數(shù)據(jù)時代是建立在對互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等渠道廣泛大量數(shù)據(jù)資源收集基礎(chǔ)上的數(shù)據(jù)存儲、價值提煉、智能處理和分發(fā)的信息時代。在這個時代,可以致力于讓人們能夠從幾乎任何數(shù)據(jù)中獲得可轉(zhuǎn)換為推動人們生活方式變化的有價值的知識。當(dāng)前第33頁\共有46頁\編于星期四\22點社會性世界范圍的計算機(jī)聯(lián)網(wǎng),數(shù)據(jù)流通取代產(chǎn)品流通,將生產(chǎn)演變成服務(wù),將工業(yè)勞動演變成信息勞動。產(chǎn)品不需要離開它的原始占有者就能夠被交換,這類產(chǎn)品通過計算機(jī)網(wǎng)絡(luò)可以大量復(fù)制和分配,其價值增加是通過知識實現(xiàn)實現(xiàn)這一價值的主要工具就是計算機(jī)軟件。廣泛性計算機(jī)技術(shù)不僅促進(jìn)自然科學(xué)和人文社會科學(xué)各個領(lǐng)域的發(fā)展,而且全面融入了人們的社會生活中人們在不同領(lǐng)域采集到的數(shù)據(jù)量之大,達(dá)到了前所未有的程度,數(shù)據(jù)的產(chǎn)生、存儲和處理方式發(fā)生了革命性的變化人們的工作和生活基本上都可以用數(shù)字化表示,在一定程度上改變了人們的工作和生活方式當(dāng)前第34頁\共有46頁\編于星期四\22點公開性大數(shù)據(jù)時代展示了從信息公開運(yùn)動到數(shù)據(jù)技術(shù)演化的多維畫卷雖然考慮對于用戶隱私的保護(hù),但是大數(shù)據(jù)必然產(chǎn)生于一個開放的,公共的網(wǎng)絡(luò)環(huán)境之中。一系列受到法律支持或社會公認(rèn)的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范這種公開性和公共性的實現(xiàn)取決于若干個網(wǎng)絡(luò)開放平臺或云服務(wù)動態(tài)性大數(shù)據(jù)是基于互聯(lián)網(wǎng)的及時動態(tài)數(shù)據(jù)數(shù)據(jù)資料可以隨時隨地產(chǎn)生,數(shù)據(jù)資料的收集具有動態(tài)性數(shù)據(jù)存儲技術(shù)、數(shù)據(jù)處理技術(shù)也隨時更新,即處理數(shù)據(jù)的工具也具有動態(tài)性當(dāng)前第35頁\共有46頁\編于星期四\22點2、“大數(shù)據(jù)”的定義我們認(rèn)為大數(shù)據(jù)定義之所以眾說紛紜,沒有形成統(tǒng)一的定義。主要是因為大數(shù)據(jù)如其名一樣,所涉內(nèi)容太“大”,大家看它的角度不一樣,于是出現(xiàn)了仁者見仁,智者見智的局面。在了解大數(shù)據(jù)的歷史沿革和大數(shù)據(jù)所處的時代背景后,我們就可以進(jìn)一步充分了解大數(shù)據(jù)的內(nèi)涵。

這里我們需要提及的是,大數(shù)據(jù)也是數(shù)據(jù),統(tǒng)計學(xué)應(yīng)該隨時地關(guān)注大數(shù)據(jù)分析,哪里有數(shù)據(jù),哪里就有統(tǒng)計分析。因此,鑒定“大數(shù)據(jù)”應(yīng)該在現(xiàn)有科學(xué)技術(shù)的基礎(chǔ)上引入統(tǒng)計學(xué)的思想。當(dāng)前第36頁\共有46頁\編于星期四\22點

我們可以這樣來定義“大數(shù)據(jù)”,大數(shù)據(jù)指那些超過傳統(tǒng)數(shù)據(jù)系統(tǒng)處理能力、超越經(jīng)典統(tǒng)計思想研究范圍、不借用網(wǎng)絡(luò)無法用主流軟件工具及技術(shù)進(jìn)行單機(jī)分析的復(fù)雜數(shù)據(jù)的集合。對于這一數(shù)據(jù)集合,在一定的條件下和合理的時間內(nèi),我們可以通過現(xiàn)代計算機(jī)技術(shù)和創(chuàng)新統(tǒng)計方法,有目的地進(jìn)行設(shè)計、獲取、管理、分析,揭示隱藏在其中的有價值的模式和知識。大數(shù)據(jù)特點大量性多樣性價值性高速性當(dāng)前第37頁\共有46頁\編于星期四\22點半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)高度發(fā)達(dá)的網(wǎng)絡(luò)技術(shù)承載數(shù)據(jù)資料的個人電腦、手機(jī)、平板電腦等數(shù)據(jù)資料的來源范圍在不斷拓展人類獲得數(shù)據(jù)資料在不斷更改數(shù)據(jù)的計量單位我們認(rèn)為大數(shù)據(jù)的基本特征可以體現(xiàn)在以下四個方面1.大量性2.多樣性

最小的基本單位是Byte,所有單位:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB。按照進(jìn)率1024(2的十次方)當(dāng)前第38頁\共有46頁\編于星期四\22點大數(shù)據(jù)規(guī)模巨大,數(shù)據(jù)在不斷更新變化,這些有價值的信息可能轉(zhuǎn)瞬即逝,因此,在大數(shù)據(jù)時代,對數(shù)據(jù)的接收和處理思想都需要轉(zhuǎn)變,如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。3.價值性

處理時效性高,因為大數(shù)據(jù)有價值信息存在時間短,要求能迅速有效地提取大量復(fù)雜數(shù)據(jù)中的有價值信息。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。4.高速性當(dāng)前第39頁\共有46頁\編于星期四\22點四、如何理解大數(shù)據(jù)和分析大數(shù)據(jù)

維克多(VikorMayer-Schǒnberger)在其《大數(shù)據(jù)時代》一書中提到傳統(tǒng)的數(shù)據(jù)分析思想應(yīng)作三大轉(zhuǎn)變:一是轉(zhuǎn)變抽樣思想;二是轉(zhuǎn)變數(shù)據(jù)測量的思想;三是不再探求難以捉摸的因果關(guān)系。毫無疑問,上述三個轉(zhuǎn)變均與統(tǒng)計研究工作息息相關(guān),從統(tǒng)計研究工作角度如何理解?當(dāng)前第40頁\共有46頁\編于星期四\22點1、轉(zhuǎn)變抽樣調(diào)查工作思想

大數(shù)據(jù)時代,我們面對的數(shù)據(jù)樣本就是過去資料的總和,樣本就是總體,通過對所有與事物相關(guān)的數(shù)據(jù)進(jìn)行分析,既有利于了解總體,又有利于了解局部??偟膩碇v,傳統(tǒng)的統(tǒng)計抽樣調(diào)查方法有以下幾個方面的不足可以在大數(shù)據(jù)時代得到改進(jìn)。(1)抽樣框不穩(wěn)定,隨機(jī)取樣困難。(2)事先設(shè)定調(diào)查目的,會限制調(diào)查的內(nèi)容和范圍。(3)樣本量有限,抽樣結(jié)果經(jīng)不起細(xì)分。(4)糾偏成本高,可塑性弱。當(dāng)前第41頁\共有46頁\編于星期四\22點2、轉(zhuǎn)變對數(shù)據(jù)精確性的要求在大數(shù)據(jù)時代,由于數(shù)據(jù)來源廣泛和數(shù)據(jù)處理技術(shù)的不斷進(jìn)步,數(shù)據(jù)的不精確性是允許的,我們應(yīng)該接受紛繁蕪雜的各類數(shù)據(jù),不應(yīng)一味追求數(shù)據(jù)的精確性,以免因小失大。(1)大數(shù)據(jù)時代,數(shù)據(jù)規(guī)模大,數(shù)據(jù)不精確性在所難免,盲目追求數(shù)據(jù)的精確性不可取。(2)大數(shù)據(jù)時代,數(shù)據(jù)不精確性不僅不會破壞總體信息,還有利于了解總體。大數(shù)據(jù)時代,越來越多的數(shù)據(jù)提供越來越多的信息,也會讓人們越來越了解總體真實情況。(3)大數(shù)據(jù)時代,允許不精確性是針對大數(shù)據(jù),而不是統(tǒng)一標(biāo)準(zhǔn)。大數(shù)據(jù)的不精確性是偶然產(chǎn)生的,而不是為了不精確性而制造不精確。當(dāng)前第42頁\共有46頁\編于星期四\22點3、轉(zhuǎn)變數(shù)據(jù)關(guān)系分析的重點在大數(shù)據(jù)時代,分析數(shù)據(jù)不再探求難以琢磨的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。需要注意的是,大數(shù)據(jù)時代事物之間大數(shù)據(jù)的相關(guān)分析與傳統(tǒng)統(tǒng)計學(xué)相關(guān)分析并不完全相同,主要表現(xiàn)在以下幾個方面。(1)分析思路不同。傳統(tǒng)統(tǒng)計分析是一個“先假設(shè),后關(guān)系”的分析思路。大數(shù)據(jù)關(guān)系分析往往是直接計算現(xiàn)象之間的相依性,是既關(guān)聯(lián)又關(guān)系。(2)關(guān)系形式不同。大數(shù)據(jù)時代,現(xiàn)象的關(guān)系很復(fù)雜,不僅可能是線性關(guān)系,更可能是非線性函數(shù)關(guān)系。更一般的情況是,可能知道現(xiàn)象之間相依的程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論