版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
目錄大數(shù)據(jù)的概念大數(shù)據(jù)分析與挖掘技術(shù)十二月22第一頁,共28頁。網(wǎng)易云音樂的每日推薦十二月22歌曲用戶通過什么連接?第二頁,共28頁。兩首詩十二月22……自由的石頭,無畏地墜落向愛。卻在迷惘的路上,輕羽般離去。迷茫的孩子,悄悄地將它掩埋?!^于長久的犧牲,
能把心變?yōu)橐粔K巖石。
呵,什么時候才算個夠?
那是天的事,我們的事……第三頁,共28頁?;倦姾蓡卧?21.60217649×10-19第四頁,共28頁。汪峰“歌詞”元素表十二月229張專輯共117首歌曲第五頁,共28頁。光速十二月22299792458m/s第六頁,共28頁。另一首十二月22自由,在橋的這頭埋葬,光明,在橋的那頭破碎,已沒所謂絕望,微雨中,說聲再見第七頁,共28頁。大數(shù)據(jù)發(fā)展歷程十二月222005年hadoop項目誕生:采用(HDFS)的數(shù)據(jù)存儲服務(wù),以及MapReduce技術(shù)的高性能并行數(shù)據(jù)處理服務(wù)2008年末“大數(shù)據(jù)”得到部分美國知名計算機科學研究人員的認可,業(yè)界組織計算社區(qū)聯(lián)盟發(fā)表白皮書《大數(shù)據(jù)計算:在商務(wù)、科學和社會領(lǐng)域創(chuàng)建革命性突破》。2009年印度政府建立了用于身份識別管理的生物識別數(shù)據(jù)庫,聯(lián)合國全球脈沖項目已研究了對如何利用手機和社交網(wǎng)站的數(shù)據(jù)源來分析預(yù)測從螺旋價格到疾病爆發(fā)之類的問題2009年中美國政府通過啟動D網(wǎng)站的方式進一步開放了數(shù)據(jù)的大門2010年2月肯尼斯?庫克爾在《經(jīng)濟學人》上發(fā)表了長達14頁的大數(shù)據(jù)專題報告《數(shù)據(jù),無所不在的數(shù)據(jù)》。庫克爾也因此成為最早洞見大數(shù)據(jù)時代趨勢的數(shù)據(jù)科學家之一2011年2月IBM的沃森超級計算機每秒可掃描并分析4TB(約2億頁文字量)的數(shù)據(jù)量,并在美國著名智力競賽電視節(jié)目《危險邊緣》“Jeopardy”上擊敗兩名人類選手而奪冠。后來紐約時報認為這一刻為一個“大數(shù)據(jù)計算的勝利?!?011年5月麥肯錫(McKinsey&Company)全球研究院(MGI)發(fā)布了一份報告——《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》,大數(shù)據(jù)開始備受關(guān)注2011年12月工信部發(fā)布的物聯(lián)網(wǎng)十二五規(guī)劃上,把信息處理技術(shù)作為4項關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分2012年1月份瑞士達沃斯召開的世界經(jīng)濟論壇上,大數(shù)據(jù)是主題之一,會上發(fā)布的報告《大數(shù)據(jù),大影響》(BigData,BigImpact)宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣。2012年3月美國奧巴馬政府在白宮網(wǎng)站發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,標志著大數(shù)據(jù)成為重要的時代特征。宣布2億美元投資大數(shù)據(jù)領(lǐng)域,是大數(shù)據(jù)技術(shù)從商業(yè)行為上升到國家科技戰(zhàn)略的分水嶺,“未來的新石油”,大數(shù)據(jù)技術(shù)領(lǐng)域事關(guān)國家安全和未來2012年4月美國軟件公司Splunk于19日在納斯達克成功上市,成為第一家上市的大數(shù)據(jù)處理公司2012年7月聯(lián)合國在紐約發(fā)布了一份關(guān)于大數(shù)據(jù)政務(wù)的白皮書,總結(jié)了各國政府如何利用大數(shù)據(jù)更好地服務(wù)和保護人民。2012年7月為挖掘大數(shù)據(jù)的價值,阿里巴巴集團在管理層設(shè)立“首席數(shù)據(jù)官”一職,負責全面推進“數(shù)據(jù)分享平臺”戰(zhàn)略,并推出大型的數(shù)據(jù)分享平臺——“聚石塔”,為天貓、淘寶平臺上的電商及電商服務(wù)商等提供數(shù)據(jù)云服務(wù)2014年4月世界經(jīng)濟論壇以“大數(shù)據(jù)的回報與風險”主題發(fā)布了《全球信息技術(shù)報告(第13版)》2014年5月美國白宮發(fā)布了2014年全球“大數(shù)據(jù)”白皮書的研究報告《大數(shù)據(jù):抓住機遇、守護價值》2014年
“大數(shù)據(jù)”首次出現(xiàn)在當年的《政府工作報告》中?!秷蟾妗分兄赋?,要設(shè)立新興產(chǎn)業(yè)創(chuàng)業(yè)創(chuàng)新平臺,在大數(shù)據(jù)等方面趕超先進,引領(lǐng)未來產(chǎn)業(yè)發(fā)展。“大數(shù)據(jù)”旋即成為國內(nèi)熱議詞匯2015年國務(wù)正式印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,《綱要》明確,推動大數(shù)據(jù)發(fā)展和應(yīng)用,在未來5至10年打造精準治理、多方協(xié)作的社會治理新模式,建立運行平穩(wěn)、安全高效的經(jīng)濟運行新機制,構(gòu)建以人為本、惠及全民的民生服務(wù)新體系2016年大數(shù)據(jù)“十三五”規(guī)劃,加快政府數(shù)據(jù)開放共享,促進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展2017年11月十九大報告,深化供給側(cè)結(jié)構(gòu)性改革。加快建設(shè)制造強國,推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合;加快建設(shè)創(chuàng)新型國家,國網(wǎng)絡(luò)強國交通強國數(shù)字技術(shù)、現(xiàn)代工程技術(shù)、顛覆性技術(shù)創(chuàng)新,為建設(shè)……數(shù)字中國、智慧社會提供有力支撐萌芽期概念提出政府插足研究機構(gòu)過熱期案例遍地開花內(nèi)部數(shù)據(jù)為主并購風起幻滅期國家推動從概念到實用復(fù)蘇期第八頁,共28頁。從Gartner新技術(shù)曲線看大數(shù)據(jù)技術(shù)(1/3)十二月22第九頁,共28頁。十二月22從Gartner新技術(shù)曲線看大數(shù)據(jù)技術(shù)(2/3)第十頁,共28頁。十二月22從Gartner新技術(shù)曲線看大數(shù)據(jù)技術(shù)(3/3)第十一頁,共28頁。數(shù)據(jù)的變化在哪里(1/3)量十二月221KB(Kilobyte千字節(jié))=1024B,
1MB(Megabyte兆字節(jié)兆)=1024KB,
1GB(Gigabyte吉字節(jié)千兆)=1024MB,
1TB(Trillionbyte萬億字節(jié)太字節(jié))=1024GB
1PB(Petabyte千萬億字節(jié)拍字節(jié))=1024TB,
1EB(Exabyte百億億字節(jié)艾字節(jié))=1024PB,
1ZB(Zettabyte十萬億億字節(jié)澤字節(jié))=1024EB,
1YB(Jottabyte一億億億字節(jié)堯字節(jié))=1024ZB,
1BB(Brontobyte一千億億億字節(jié))=1024YB.?美國地理及空間探測?美國能源部數(shù)據(jù)?全球可穿戴設(shè)備?美國國防部數(shù)據(jù)?國際海洋和大氣管理?物聯(lián)網(wǎng)數(shù)據(jù)?國家健康研究所?國家癌癥研究所?全球IP流量擠壓現(xiàn)象世界90%的數(shù)據(jù)是過去幾年里產(chǎn)生的。過去三十年中,全世界的數(shù)據(jù)量大約每兩年增加10倍——遠超摩爾定律數(shù)據(jù)總量IDC的預(yù)測,2009年到2020年,0.8ZB到35ZB,44倍,年均40%中國存儲數(shù)據(jù)量當前約為600萬TB,占全球總量的15%,預(yù)計到2020年,占比將提高到22%第十二頁,共28頁。數(shù)據(jù)的變化在哪里(2/3)質(zhì)十二月22早前02985XX6789用戶5月消費59元,MOU200分鐘昨天189XXXX1234用戶5月消費59元,其中套內(nèi)49元,套外10元。手機流量150M:1日-10日75M、11-20日50M、21日-30日25M;視頻流量80M、游戲流量15M……。MOU200分鐘:本地主叫80分鐘、本地被叫60分鐘、漫游主叫20分鐘、漫游被叫40分鐘月度內(nèi)漫游地:北京今天189XXXX1234用戶5月消費流量150M:第一次5月1日9點30分,基站ID3001,手機百度搜索,關(guān)鍵字“天氣”;第二次5月1日12點05分,基站ID2345,微博評論,關(guān)鍵字“馬刺”……MOU200分鐘:第一次5月2日17點12分,主叫,號碼139XXXX4321……LBS分析:前往2個加油站,共停留時間:43分鐘商場消費線上支付11209元,超市消費線上支付3207元……第十三頁,共28頁。數(shù)據(jù)的變化在哪里(3/3)用十二月22統(tǒng)計級應(yīng)用:時間、空間、人、物四個維度的交叉統(tǒng)計分析。以零售業(yè)為例零售研究:物-物消費者洞察:物-人-物消費者購買路徑:人-物-時間大數(shù)據(jù)空間研究:物理空間-人-賽博空間個體級應(yīng)用:基于人與物關(guān)聯(lián)的歷史信息去推測未來的關(guān)聯(lián)狀態(tài)精準營銷:新客推薦金融征信:風險定價人力招聘:人崗匹配……第十四頁,共28頁。大數(shù)據(jù)變化的背后:大數(shù)據(jù)與云計算云計算構(gòu)建新的信息基礎(chǔ)設(shè)施在線化平臺化扁平化低成本大數(shù)據(jù)打破信息壁壘更透明更有效更可信十二月22第十五頁,共28頁。小結(jié)大數(shù)據(jù):是通過新處理模式能且才能提供更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息十二月22第十六頁,共28頁。小結(jié)大數(shù)據(jù)的本質(zhì):時間與空間維度下的人與物、人與人、物與物之間復(fù)雜的關(guān)聯(lián)關(guān)系,利用大數(shù)據(jù),還原事物原貌、探究規(guī)律機理、預(yù)判發(fā)展變化十二月22第十七頁,共28頁。目錄大數(shù)據(jù)的概念大數(shù)據(jù)分析與挖掘技術(shù)十二月22第十八頁,共28頁。大數(shù)據(jù)分析挖掘技術(shù)背景:局部數(shù)據(jù)難以統(tǒng)觀全局,大數(shù)據(jù)需要跨視角、跨媒介、跨行業(yè)的海量數(shù)據(jù)融合和關(guān)聯(lián)分析,才能更好地進行決策支撐解決方法:通過面向海量多維數(shù)據(jù)的機器學習算法和數(shù)據(jù)關(guān)聯(lián)分析等方法,用直觀形象地方式,展現(xiàn)數(shù)據(jù)之間潛在的關(guān)系十二月22常見大數(shù)據(jù)分析挖掘技術(shù)第十九頁,共28頁。深度學習通過層次化的方式和海量的訓練數(shù)據(jù),從而提升分類或預(yù)測的準確性已在語音識別、圖像識別、人臉識別等領(lǐng)域取得巨大成功,目前也已開始應(yīng)用于內(nèi)容推薦、異常檢測等十二月22第二十頁,共28頁。多維數(shù)據(jù)關(guān)聯(lián)滿足用戶從多角度多層次進行快速數(shù)據(jù)查詢和分析的數(shù)據(jù)模型,面向分析決策,解決傳統(tǒng)數(shù)據(jù)模型在數(shù)據(jù)維度高、條數(shù)多的情況下,無法有效表示數(shù)據(jù)結(jié)構(gòu)和語義,以及無法有效支持OLAP的問題。主要分析方法:鉆取、上卷、切片、切塊、旋轉(zhuǎn)十二月22第二十一頁,共28頁。知識圖譜基于圖結(jié)構(gòu)刻畫實體之間關(guān)系的技術(shù),采用可視化技術(shù)描述其相互聯(lián)系為搜索、挖掘、語義理解等應(yīng)用提供基礎(chǔ)的知識庫,提高搜索效果,突破傳統(tǒng)搜索體驗,拉開語義搜索的序幕十二月22第二十二頁,共28頁。數(shù)據(jù)可視化將數(shù)據(jù)之間的關(guān)系以圖形圖像的形式表示,將圖形與指標的含義關(guān)聯(lián),為用戶提供深度、直觀的數(shù)據(jù)及其結(jié)構(gòu)關(guān)系表示,使用戶能夠洞察其中的規(guī)律及本質(zhì)的特點。十二月22案例:1854年倫敦霍亂地圖案例:舊金山游客地圖第二十三頁,共28頁。數(shù)據(jù)可視化將數(shù)據(jù)之間的關(guān)系以圖形圖像的形式表示,將圖形與指標的含義
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 會計類畢業(yè)實習報告范文錦集六篇
- 下學期工作學習計劃合集八篇
- DB12T 472-2012 貴金屬與珠寶玉石飾品 標識
- 業(yè)務(wù)員工作心得體會
- 三國演義讀書筆記及啟發(fā)范文
- 個人籃球訓練計劃書(12篇)
- 課件高血壓教學課件
- 探究實驗設(shè)計之二氧化碳性質(zhì)的探究
- 慢性持續(xù)期哮喘患者的治療和管理
- 高等數(shù)學教程 試卷3-答案
- 縣級中職網(wǎng)絡(luò)搭建技能比賽題和答案
- 白血病試題及答案
- 單片機中用矩陣鍵盤實現(xiàn)計算器
- 現(xiàn)代寫作教程全套課件
- 老年友善醫(yī)療機構(gòu)建設(shè)項目報價函
- 針織學試題庫
- 天大物化第六版答案pdf
- 質(zhì)量通?。?07頁)ppt課件
- 《頸椎病病人的護理》PPT課件(完整版)
- 兩票三制培訓.
- 醫(yī)院藥品儲備定期評價分析報告及改進措施
評論
0/150
提交評論