




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、1大 數(shù) 據(jù) 與 統(tǒng) 計張芃國家統(tǒng)計局統(tǒng)計資料管理中心2大數(shù)據(jù)與統(tǒng)計3大數(shù)據(jù)來了 聯(lián)合國: 2012年,大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇 OECD研究報告:使用大數(shù)據(jù)做決策 美國 2010年:規(guī)劃數(shù)字化的未來 2012年: Big Data is a Big Deal 2013年:實現(xiàn)政府信息公開化和機器可讀化總統(tǒng)令 中國 2012年:中國通信學(xué)會大數(shù)據(jù)專家委員會 大數(shù)據(jù)發(fā)展戰(zhàn)略4什么是大數(shù)據(jù)從技術(shù)角度看:1KB:2101MB:2201GB:2301TB:2401PB:2501EB:2601ZB:2701YB:2801BB:2905從概念看: 維基百科:“大數(shù)據(jù)”是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)
2、成的數(shù)據(jù)集合, 是基于云計算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享、 交叉復(fù)用形成的智力資源和知識服務(wù)能力。 特點:6個V Volume:數(shù)據(jù)量大 Variety: 數(shù)據(jù)類型多 Velocity:處理速度快 Value:應(yīng)用價值大 Vender:獲取與發(fā)送的方式自由靈活 Veracity:真實準(zhǔn)確性 大數(shù)據(jù)是對海量信息進行分析,從而收集有價值的見解、發(fā)現(xiàn)規(guī)律和預(yù)言復(fù)雜問題答案的技巧與科學(xué)。7從特征看: 樣本=總體 接受不精確 相關(guān)關(guān)系更重要8對中國統(tǒng)計而言,大數(shù)據(jù)并不新鮮 所謂“大數(shù)據(jù)”不過是 全面統(tǒng)計的理念與方法在信息化時代的升華 是成熟了的電子商務(wù)與數(shù)據(jù)挖掘技術(shù)相結(jié)合的產(chǎn)物 是統(tǒng)計分析與
3、預(yù)測在電子化、信息化、網(wǎng)絡(luò)化社會的新實踐9大數(shù)據(jù)的價值 對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟價值的來源 大數(shù)據(jù)時代已經(jīng)撼動了世界的方方面面 核心思想:用規(guī)模劇增來改變現(xiàn)狀10為什么會出現(xiàn)大數(shù)據(jù) 計算機技術(shù)提高 數(shù)據(jù)采集自動化 數(shù)據(jù)存儲能力倍增 以計算機技術(shù)為基礎(chǔ)的 數(shù)據(jù)應(yīng)用進程的歷史推動11翱翔翱翔化蝶化蝶破繭破繭結(jié)蛹結(jié)蛹蠶動蠶動起源起源數(shù)據(jù)應(yīng)用的前世今生數(shù)據(jù)應(yīng)用的前世今生12起源起源從數(shù)據(jù)到知識的挑戰(zhàn)和跨越從數(shù)據(jù)到知識的挑戰(zhàn)和跨越1946年人類歷史上第一臺電子計算機在美國費城問世。計算機的主要設(shè)計者馮諾依曼被后世稱為“計算機之父”。馮諾依曼13從數(shù)據(jù)到知識的挑戰(zhàn)和跨越從數(shù)據(jù)到知識的挑戰(zhàn)和跨越赫伯
4、特西蒙1947年卡內(nèi)基梅隆大學(xué)的赫伯特西蒙開始研究決策支持系統(tǒng),這是現(xiàn)代數(shù)據(jù)應(yīng)用概念最早的起源和起點。14結(jié)蛹結(jié)蛹數(shù)據(jù)倉庫之厚積薄發(fā)數(shù)據(jù)倉庫之厚積薄發(fā)埃德加科德1970年IBM研究員埃德加科德發(fā)明了關(guān)系型數(shù)據(jù)庫,解決了快速組織、存儲和讀取數(shù)據(jù)的問題,被譽為“關(guān)系型數(shù)據(jù)庫之父”。15數(shù)據(jù)倉庫之厚積薄發(fā)數(shù)據(jù)倉庫之厚積薄發(fā)1988年為解決不同運營系統(tǒng)的數(shù)據(jù)集成問題,IBM的兩名研究員Barry Devlin和Paul Murphy創(chuàng)造性的提出“數(shù)據(jù)倉庫”的概念,但沒有進一步提出實際的架構(gòu)和設(shè)計。Barry DevlinPaul Murphy16數(shù)據(jù)倉庫之厚積薄發(fā)數(shù)據(jù)倉庫之厚積薄發(fā)比爾恩門1992年比
5、爾恩門第一次給出了數(shù)據(jù)倉庫的清晰定義和操作性很強的實戰(zhàn)法則,真正拉開了數(shù)據(jù)倉庫走向大規(guī)模應(yīng)用的序幕。比爾恩門被譽為“數(shù)據(jù)倉庫之父”,他強調(diào)數(shù)據(jù)的一致性,主張由頂至底的構(gòu)建方法。17數(shù)據(jù)倉庫之厚積薄發(fā)數(shù)據(jù)倉庫之厚積薄發(fā)拉爾夫金博爾1996年斯坦福大學(xué)博士,拉爾夫金博爾出版數(shù)據(jù)倉庫的工具,認為務(wù)實的數(shù)據(jù)倉庫應(yīng)該從下往上。他認同了比爾恩門對于數(shù)據(jù)倉庫的定義,卻在具體的構(gòu)建方法上和他分庭抗禮。18蠶動蠶動聯(lián)機分析之驚艷聯(lián)機分析之驚艷埃德加科德1993年發(fā)明關(guān)系型數(shù)據(jù)庫的埃德加科德再立新功,他立足數(shù)據(jù)倉庫的新基礎(chǔ),詳盡的闡述了構(gòu)建聯(lián)機分析的十二條原則。19破繭破繭數(shù)據(jù)挖掘之智能生命的產(chǎn)生數(shù)據(jù)挖掘之智能生
6、命的產(chǎn)生德斯納1989年德斯納提出了數(shù)據(jù)應(yīng)用的概念和定義,強調(diào)了數(shù)據(jù)應(yīng)用是一系列以事實為支持,輔助決策的技術(shù)和方法的集合,獲得了業(yè)界的廣泛認同。20化蝶化蝶可視化信息的華麗上演可視化信息的華麗上演弗羅倫斯南丁格爾1855年弗羅倫斯南丁格爾把克里米亞戰(zhàn)爭中戰(zhàn)斗死亡和非戰(zhàn)斗死亡的士兵數(shù)量制作成圖表。這份視覺效果強烈的圖表,催生了一座醫(yī)院,改變了一個制度。21可視化信息的華麗上演可視化信息的華麗上演奧巴馬2010年3月,奧巴馬任命專人運用“數(shù)據(jù)可視化”的技術(shù)推進聯(lián)邦政府專項資金使用情況的透明度。22大數(shù)據(jù)時代對統(tǒng)計將產(chǎn)生怎樣的影響 非精準(zhǔn)化 非結(jié)構(gòu)化 非樣本化 非滯后性統(tǒng)計如何應(yīng)對大數(shù)據(jù)時代 理念革
7、命化 采集自動化 存儲規(guī)?;?挖掘深度化 分析技術(shù)化 展現(xiàn)可視化 發(fā)布即時化 人才復(fù)合化24理念革命化:思維觀念的改變真的那么重要嗎?數(shù)據(jù)的價值在哪里?數(shù)據(jù)需要精準(zhǔn)碼?如何采集數(shù)據(jù)?指標(biāo)體系重要嗎?因果關(guān)系還是相關(guān)關(guān)系?統(tǒng)計需要預(yù)測嗎?26經(jīng)濟總量經(jīng)濟發(fā)展的先行指標(biāo)和指示器全國GDP與CRI變動趨勢分析27經(jīng)濟總量經(jīng)濟發(fā)展的先行指標(biāo)和指示器全國財政收入與CRI變動趨勢分析28采集自動化:文字變成數(shù)據(jù)方位變成數(shù)據(jù)溝通變成數(shù)據(jù)一切事物變成數(shù)據(jù) 什么意思? 真可以! 過去我喜歡一個人 現(xiàn)在我喜歡一個人30存儲規(guī)?;涸谶^去50年中,數(shù)字存儲成本大約每兩年削減一半, 而存儲密度則增加了5000萬倍。3
8、1挖掘深度化: 數(shù)據(jù)挖掘:是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、 先前未知的并有潛在價值的信息的非平凡過程。 是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。32l數(shù)據(jù)挖掘步驟:數(shù)據(jù)準(zhǔn)備:從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集尋找規(guī)律:用某種方法將數(shù)據(jù)集所含的規(guī)律找出來結(jié)果展示:盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來33l數(shù)據(jù)挖掘的技術(shù)基礎(chǔ):人工智能機器學(xué)習(xí)模式識別統(tǒng)計學(xué)數(shù)據(jù)庫可視化技術(shù)34l數(shù)據(jù)挖掘的任務(wù):關(guān)聯(lián)分析聚類分析分類分析異常分析特定群組分析演變分析35分析技術(shù)化: 現(xiàn)實:簡單的圖表、數(shù)據(jù)對比、數(shù)字文字化 大數(shù)據(jù)時代:數(shù)字工具、數(shù)學(xué)模型、機器智
9、能36GDP、財政收入與企業(yè)注冊資本之間的線性關(guān)系示意圖經(jīng)濟總量主體發(fā)展與經(jīng)濟社會發(fā)展的關(guān)聯(lián)37展現(xiàn)可視化:數(shù)據(jù)可視化:是指將大型數(shù)據(jù)集中地以圖形、圖像形式表示, 并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。38數(shù)據(jù)可視化的技術(shù)基礎(chǔ): 幾何技術(shù) 像素技術(shù) 圖標(biāo)技術(shù) 圖層技術(shù) 圖像技術(shù) 分布式技術(shù) 統(tǒng)計技術(shù)39數(shù)據(jù)可視化的基本思想: 依據(jù)數(shù)據(jù)及其內(nèi)在模式和關(guān)系, 利用計算機生成的圖像來獲得深入認識和知識 利用人類感覺系統(tǒng)的廣闊帶寬,來解釋錯綜復(fù)雜的過程、 以及來源多樣的大型數(shù)據(jù)集合的內(nèi)在規(guī)律40數(shù)數(shù)據(jù)利用的技據(jù)利用的技術(shù)發(fā)術(shù)發(fā)展展歷歷程程實際實際也是價也是價值值探求的摸索探求的摸索歷歷程
10、程數(shù)據(jù)庫數(shù)據(jù)倉庫OLAP聯(lián)機分析技術(shù)數(shù)據(jù)挖掘可視化展現(xiàn)價值應(yīng)用統(tǒng)計分析GIS技術(shù)4120122012年奧巴馬政府預(yù)算開支的可視化展示年奧巴馬政府預(yù)算開支的可視化展示一眼就可以看出,赤字約占美國總支出的1/3,個人所得稅是美國政府最大的財政來源,而國防支出是其最大的支出。(圖片來源:華盛頓郵報,2010年2月1日)42左邊為強制性開支,右邊為自主性開支。強制開支中最大的圓為醫(yī)療保險和醫(yī)療補助,其為綠色,表示較去年增加了,鼠標(biāo)停留處顯示其大小為1.18億,較去年增加了8.4,是強制性開支中最大的一塊。(圖片來源于網(wǎng)絡(luò))20132013年奧巴馬政府預(yù)算開支的可視化展示年奧巴馬政府預(yù)算開支的可視化展示
11、43多種直觀的圖表展示方式44示例示例示例示例45示例示例示例示例4647整體分布48 GIS(地理信息分析系統(tǒng))市場主體3D分析 49發(fā)布即時化:美國麻省理工學(xué)院承擔(dān)的一項“十億價格項目”(Billion Price Project)是基于學(xué)術(shù)研究方法對全世界海量網(wǎng)上零全世界海量網(wǎng)上零售價格售價格進行價格指數(shù)計算為判斷通脹趨勢提供信息每天實時實時收取5050萬條萬條互聯(lián)網(wǎng)上的商品信息,是美國政府統(tǒng)計收集的5 5倍倍每日網(wǎng)上價格指數(shù)每日網(wǎng)上價格指數(shù) Daily Online Price Index50基于淘寶網(wǎng)、天貓網(wǎng)、支付寶等網(wǎng)絡(luò)平臺的數(shù)據(jù)編制大體反映國內(nèi)網(wǎng)絡(luò)零售渠道的一般物價變動。包含價格
12、指數(shù)系列和實物交易量指數(shù)系列分為九大基本分類指數(shù)權(quán)重為成交金額的比例采用鏈?zhǔn)郊訖?quán)的拉氏指數(shù)法計算,并逐級計算淘寶網(wǎng)絡(luò)零售價格指數(shù)淘寶網(wǎng)絡(luò)零售價格指數(shù) ISPI51上海鋼聯(lián)中國大宗商品價格指數(shù)與國家統(tǒng)計局PPI、CPI走勢對比圖 作為中國領(lǐng)先的大宗商品咨詢平臺,上海鋼聯(lián)電子商務(wù)股份有限公司通過其資訊采集系統(tǒng),編制了上海鋼聯(lián)中國大宗商品價格指數(shù)。它以產(chǎn)值作為權(quán)重,同時考慮在地區(qū)因素影響基礎(chǔ)上,對9大類行業(yè)的基礎(chǔ)產(chǎn)品價格數(shù)據(jù)進行處理合成而得。 52人才復(fù)合化: 谷歌首席經(jīng)濟學(xué)家哈爾.范里安: “數(shù)據(jù)非常之多而且具有戰(zhàn)略重要性,但真正缺少的是從數(shù)據(jù)中提取價值的能力。 這也就是為什么統(tǒng)計學(xué)家、數(shù)據(jù)庫管理者和掌握機器理論的人是真正了不起的人?!辟Y料中心怎么辦 統(tǒng)計資料的大數(shù)據(jù)中心 統(tǒng)計網(wǎng)絡(luò)的大數(shù)據(jù)中心 統(tǒng)計服務(wù)的大數(shù)據(jù)中心 統(tǒng)計歷史的大數(shù)據(jù)中心正確認識大數(shù)據(jù) 重視非結(jié)構(gòu)化不等于不要結(jié)構(gòu)化,而是要 做到從非結(jié)構(gòu)化到結(jié)構(gòu)化 接受不準(zhǔn)確和混雜不等于不要準(zhǔn)確性 強調(diào)總體、全數(shù)據(jù)不等于蔑視或取消抽樣 強化相關(guān)分析不等于不要因果分析 大數(shù)據(jù)分析得出的結(jié)論也是有偏的55數(shù)數(shù)相連,數(shù)數(shù)相通 經(jīng)濟數(shù)社會數(shù)人口數(shù),數(shù)數(shù)相連 過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 進口食品采購合同范本
- 砂石購買包合同范本
- 2025至2030年中國改良劑數(shù)據(jù)監(jiān)測研究報告
- 借款續(xù)約合同范本
- 二零二五年度房屋租賃合同終止后轉(zhuǎn)讓方合同
- 2025年度服裝廠員工薪酬結(jié)構(gòu)及調(diào)整合同
- 二零二五年度專業(yè)汽車維修廠租賃服務(wù)協(xié)議
- 2025年度消防安全檢查消防員勞務(wù)雇傭協(xié)議
- 二零二五年度非物質(zhì)文化遺產(chǎn)保護區(qū)拆遷合同
- 二零二五年度商業(yè)地產(chǎn)商鋪租賃與品牌推廣合同
- 醫(yī)學(xué)課件炎癥性腸病4
- 2019年青島版(六三制)五年級數(shù)學(xué)下冊全冊教案
- 2024年4月自考00263外國法制史試題及答案
- 《井中分布式光纖聲波傳感數(shù)據(jù)采集規(guī)程》標(biāo)準(zhǔn)報批稿
- 人音版 音樂 八年級下冊 第一單元 我和你教案
- 教育戲劇在小學(xué)教育中的應(yīng)用研究 論文
- 2024年江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案
- 2024年青島港灣職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫必考題
- python程序設(shè)計-說課
- 《糖尿病患者血脂管理中國專家共識(2024版)》解讀
- DB32T4124-2021廢水污染物自動監(jiān)測設(shè)備參數(shù)傳輸技術(shù)規(guī)范
評論
0/150
提交評論