第7章.數(shù)據(jù)為王-大數(shù)據(jù)_第1頁(yè)
第7章.數(shù)據(jù)為王-大數(shù)據(jù)_第2頁(yè)
第7章.數(shù)據(jù)為王-大數(shù)據(jù)_第3頁(yè)
第7章.數(shù)據(jù)為王-大數(shù)據(jù)_第4頁(yè)
第7章.數(shù)據(jù)為王-大數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章安全第一—信息安全第7章數(shù)據(jù)為王——大數(shù)據(jù)CONTENTS目錄7.1大數(shù)據(jù)的概述7.2大數(shù)據(jù)的發(fā)展7.3大數(shù)據(jù)的相關(guān)技術(shù)7.4大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的概述7.1通俗含義使用單臺(tái)計(jì)算機(jī)沒(méi)法在規(guī)定時(shí)間內(nèi)處理完,或者壓根就沒(méi)法處理的數(shù)據(jù)集大數(shù)據(jù)的含義在一定時(shí)間范圍內(nèi)不能以常規(guī)軟件工具處理(存儲(chǔ)和計(jì)算)的大而復(fù)雜的數(shù)據(jù)集結(jié)構(gòu)化的傳統(tǒng)數(shù)據(jù)+非結(jié)構(gòu)化的新數(shù)據(jù)7.1.1大數(shù)據(jù)時(shí)代1.數(shù)據(jù)治權(quán)來(lái)源錢(qián)學(xué)森領(lǐng)導(dǎo)國(guó)防科技情報(bào)和信息工作的長(zhǎng)期實(shí)踐,用系統(tǒng)工程的方法,實(shí)現(xiàn)數(shù)據(jù)“活化”意義著眼長(zhǎng)遠(yuǎn)的戰(zhàn)略性引領(lǐng)時(shí)代的前瞻性化知為智的創(chuàng)新性2.數(shù)據(jù)主權(quán)運(yùn)營(yíng)主體數(shù)據(jù)的存儲(chǔ)、處理、傳輸、利用的運(yùn)營(yíng)主體個(gè)人或組織國(guó)家對(duì)本國(guó)管轄地域范圍內(nèi),任何個(gè)人和組織收集或產(chǎn)生的數(shù)據(jù)設(shè)施設(shè)備進(jìn)行獨(dú)立管轄,并采取措施使其免受他國(guó)侵害的權(quán)力7.1.2數(shù)據(jù)來(lái)源數(shù)據(jù)來(lái)源1.交易數(shù)據(jù)

POS機(jī)、信用卡刷卡、電子商務(wù)、互聯(lián)網(wǎng)點(diǎn)擊、企業(yè)資源規(guī)劃系統(tǒng)、銷(xiāo)售系統(tǒng)、公司的生產(chǎn)、庫(kù)存、訂單、供應(yīng)鏈2.手機(jī)數(shù)據(jù)手機(jī)應(yīng)用程序產(chǎn)生了海量基于用戶(hù)使用情況所形成的大數(shù)據(jù),其中,能夠反映用戶(hù)流動(dòng)軌跡的數(shù)據(jù)也包括在內(nèi)數(shù)據(jù)來(lái)源3.人為數(shù)據(jù)電子郵件、文檔、圖片、音頻、視頻,以及通過(guò)微信、博客等社交媒體產(chǎn)生的數(shù)據(jù)流4.傳感器數(shù)據(jù)從環(huán)境中收集的根據(jù)外部刺激而變化的信號(hào),可以用來(lái)監(jiān)控、檢測(cè)和識(shí)別周?chē)h(huán)境的變化非結(jié)構(gòu)性數(shù)據(jù)用于采集各種類(lèi)型的環(huán)境參數(shù)7.1.3大數(shù)據(jù)的特征大量化PB(1000個(gè)T)EB(100萬(wàn)個(gè)T)ZB(10億個(gè)T)數(shù)據(jù)來(lái)源:傳感器、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、手機(jī)、平板電腦,微信和QQ聊天、上網(wǎng)搜索與購(gòu)物等,都在產(chǎn)生著數(shù)量龐大的數(shù)據(jù)大數(shù)據(jù)多樣化多年來(lái)一直主導(dǎo)著IT應(yīng)用的關(guān)系型數(shù)據(jù)庫(kù)中結(jié)構(gòu)化半結(jié)構(gòu)化包括電子郵件、文字處理文件以及大量的網(wǎng)絡(luò)新聞非結(jié)構(gòu)化廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)之中可變性指數(shù)據(jù)的變化,這意味著相同的數(shù)據(jù)在不同的上下文中可能具有不同的含義快速化含義指數(shù)據(jù)生成,存儲(chǔ),分析和移動(dòng)的速度意義無(wú)線或有線機(jī)器和傳感器可以在創(chuàng)建數(shù)據(jù)后立即傳遞。這可以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)流,并幫助企業(yè)做出有價(jià)值的快速?zèng)Q策價(jià)值含義大數(shù)據(jù)的核心特征意義通過(guò)從大量不相關(guān)的各種類(lèi)型的數(shù)據(jù)中,挖掘出對(duì)未來(lái)趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù)真實(shí)性指數(shù)據(jù)的準(zhǔn)確度和可信賴(lài)度,代表數(shù)據(jù)的質(zhì)量生產(chǎn)掌握數(shù)據(jù)信息數(shù)據(jù)進(jìn)行專(zhuān)業(yè)處理大數(shù)據(jù)的概念數(shù)據(jù)的來(lái)源及6大特征大數(shù)據(jù)時(shí)代數(shù)據(jù)治權(quán)數(shù)據(jù)主權(quán)的重要性大數(shù)據(jù)的發(fā)展7.21.萌芽期2.成長(zhǎng)期3.爆發(fā)期4.大規(guī)模應(yīng)用期萌芽期時(shí)間

1980年-2008年現(xiàn)象商業(yè)智能工具和知識(shí)管理技術(shù)開(kāi)始被應(yīng)用,如數(shù)據(jù)倉(cāng)庫(kù)、專(zhuān)家系統(tǒng)、知識(shí)管理系統(tǒng)等成長(zhǎng)期時(shí)間

2009年-2012年現(xiàn)象互聯(lián)網(wǎng)數(shù)據(jù)呈爆發(fā)式增長(zhǎng),大數(shù)據(jù)技術(shù)逐漸被大眾熟悉和使用大數(shù)據(jù)爆發(fā)期我國(guó)在內(nèi)的世界各個(gè)國(guó)家紛紛布局大數(shù)據(jù)戰(zhàn)略2013年-2015年2013年百度、騰訊為代表的國(guó)內(nèi)互聯(lián)網(wǎng)公司出創(chuàng)新性的大數(shù)據(jù)應(yīng)用2015年9月國(guó)務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》大規(guī)模應(yīng)用期

2016年至今以及以后,大數(shù)據(jù)應(yīng)用滲透到各行各業(yè),大數(shù)據(jù)產(chǎn)業(yè)迎來(lái)快速發(fā)展和大規(guī)模應(yīng)用實(shí)施預(yù)熱階段2014年3月,大數(shù)據(jù)“首次”寫(xiě)入政府工作報(bào)告起步階段2015年8月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》落地階段2016年3月,《十三五規(guī)劃綱要》第二十七章“實(shí)施”國(guó)家大數(shù)據(jù)戰(zhàn)略2016年12月,工信部發(fā)布《大數(shù)據(jù)產(chǎn)品發(fā)展規(guī)劃(2016-2020年)》數(shù)據(jù)大國(guó)數(shù)據(jù)強(qiáng)國(guó)2017年10月推動(dòng)大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)深度融合2017年12月實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略進(jìn)行集體學(xué)習(xí)2019年3月大數(shù)據(jù)連續(xù)6年寫(xiě)入政府工作報(bào)告2020年4月9日確數(shù)據(jù)要素市場(chǎng)配置上升為國(guó)家政策2021年完善大數(shù)據(jù)體系建設(shè)深化階段大數(shù)據(jù)的相關(guān)技術(shù)7.37.3.1大數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)分析挖掘“集”則是數(shù)據(jù)的清洗、連接、整合,將價(jià)值密度低的數(shù)據(jù)轉(zhuǎn)化為價(jià)值密度高的數(shù)據(jù)數(shù)據(jù)采集“采”主要是數(shù)據(jù)的獲取1.數(shù)據(jù)庫(kù)采集定義指一些企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)數(shù)據(jù)。數(shù)據(jù)庫(kù)Redis、HBase、NoSQL數(shù)據(jù)庫(kù)2.網(wǎng)絡(luò)數(shù)據(jù)采集定義指通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API(即數(shù)據(jù)源提供者開(kāi)放的數(shù)據(jù)采集接口)等方式從網(wǎng)站上獲取數(shù)據(jù)信息。作用將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。3.文件采集定義大數(shù)據(jù)平臺(tái)按照數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)的結(jié)構(gòu),定義好一套標(biāo)準(zhǔn)的數(shù)據(jù)格式,用戶(hù)按照此數(shù)據(jù)格式產(chǎn)生相應(yīng)的日志文件,大數(shù)據(jù)平臺(tái)通過(guò)監(jiān)控日志文件的變化,將數(shù)據(jù)傳輸?shù)綌?shù)據(jù)倉(cāng)庫(kù)上,并進(jìn)行實(shí)時(shí)/離線的數(shù)據(jù)處理與存儲(chǔ)。7.3.2大數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理

對(duì)采集到的原始數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化以及一致性檢查等數(shù)據(jù)清理數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)規(guī)約數(shù)據(jù)集成數(shù)據(jù)預(yù)處理1.數(shù)據(jù)清理將要用到的數(shù)據(jù)中重復(fù)、多余部分的數(shù)據(jù)進(jìn)行篩選并清除;把缺失部分補(bǔ)充完整,并將不正確的數(shù)據(jù)糾正或者刪除。數(shù)據(jù)預(yù)處理2.數(shù)據(jù)集成將不同數(shù)據(jù)源中的數(shù)據(jù),合并存放到統(tǒng)一數(shù)據(jù)庫(kù)的存儲(chǔ)方法。模式匹配數(shù)據(jù)冗余數(shù)據(jù)值沖突檢測(cè)與處理數(shù)據(jù)預(yù)處理3.數(shù)據(jù)轉(zhuǎn)換指對(duì)所抽取出來(lái)的數(shù)據(jù)中存在的不一致問(wèn)題,進(jìn)行處理的過(guò)程。4.數(shù)據(jù)規(guī)約指在最大限度保持?jǐn)?shù)據(jù)原貌的基礎(chǔ)上,最大限度精簡(jiǎn)數(shù)據(jù)量,以得到較小數(shù)據(jù)集的操作。7.3.3大數(shù)據(jù)存儲(chǔ)指用存儲(chǔ)器,以數(shù)據(jù)庫(kù)的形式,存儲(chǔ)采集到的數(shù)據(jù)的過(guò)程大數(shù)據(jù)存儲(chǔ)1.基于MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群MPP架構(gòu)是傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),將單機(jī)數(shù)據(jù)庫(kù)節(jié)點(diǎn)組成集群,從而提升處理性能。非共享架構(gòu)用網(wǎng)絡(luò)連接大數(shù)據(jù)存儲(chǔ)2.基于Hadoop的技術(shù)擴(kuò)展和封裝針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)難以處理的數(shù)據(jù)和場(chǎng)景利用Hadoop開(kāi)源優(yōu)勢(shì)及相關(guān)特性非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算等善于處理非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)、復(fù)雜的ETL流程、復(fù)雜的數(shù)據(jù)挖掘和計(jì)算模型等大數(shù)據(jù)存儲(chǔ)3.大數(shù)據(jù)一體化專(zhuān)為大數(shù)據(jù)的分析處理而設(shè)計(jì)的軟、硬件結(jié)合的產(chǎn)品由一組集成的服務(wù)器、存儲(chǔ)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng),以及為數(shù)據(jù)查詢(xún)、處理、分析而預(yù)安裝和優(yōu)化的軟件組成具有良好的穩(wěn)定性和縱向擴(kuò)展性7.3.4數(shù)據(jù)分析與挖掘數(shù)據(jù)分析與挖掘數(shù)據(jù)挖掘指對(duì)大量的數(shù)據(jù)進(jìn)行分析和挖掘,得到一些未知的有價(jià)值的信息等。數(shù)據(jù)分析對(duì)已知的數(shù)據(jù)進(jìn)行分析,然后提出一些有價(jià)值的信息,數(shù)據(jù)分析由于數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)可視化組成。數(shù)據(jù)分析與數(shù)據(jù)挖掘密不可分,數(shù)據(jù)挖掘是數(shù)據(jù)分析的提升。1.數(shù)據(jù)可視化3.預(yù)測(cè)性分析2.數(shù)據(jù)挖掘算法1.數(shù)據(jù)可視化數(shù)據(jù)可視化指借助圖形化手段,清晰并有效傳達(dá)與溝通信息的分析手段。數(shù)據(jù)可視化主要應(yīng)用于海量數(shù)據(jù)關(guān)聯(lián)分析,即借助可視化數(shù)據(jù)分析平臺(tái),對(duì)分散異構(gòu)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,并做出完整分析圖表的過(guò)程,具有簡(jiǎn)單明了、清晰直觀、易于接受的特點(diǎn)。數(shù)據(jù)分析與挖掘2.數(shù)據(jù)挖掘算法大數(shù)據(jù)分析的理論核心,即通過(guò)創(chuàng)建數(shù)據(jù)挖掘模型而對(duì)數(shù)據(jù)進(jìn)行試探和計(jì)算的數(shù)據(jù)分析手段。數(shù)據(jù)分析與挖掘3.預(yù)測(cè)性分析通過(guò)結(jié)合多種高級(jí)分析功能達(dá)到預(yù)測(cè)不確定事件的目的。數(shù)據(jù)分析與挖掘數(shù)據(jù)采集數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)分析挖掘大數(shù)據(jù)的應(yīng)用7.4交通領(lǐng)域農(nóng)業(yè)領(lǐng)域城市領(lǐng)域物流領(lǐng)域醫(yī)療領(lǐng)域交通領(lǐng)域交通領(lǐng)域結(jié)合大數(shù)據(jù)應(yīng)用有效解決城市擁堵提高城市管理水平,打造整體智慧交通發(fā)展道路。農(nóng)業(yè)領(lǐng)域1.加快作物育種大數(shù)據(jù)加快了作物育種,遺傳學(xué)的進(jìn)步導(dǎo)致生物信息的爆炸式增長(zhǎng)模式生物基因組測(cè)序的開(kāi)始高通量或自動(dòng)化實(shí)驗(yàn)技術(shù)的快速應(yīng)用速度快成本低2.驅(qū)動(dòng)耕種方法利用定位系統(tǒng)和其他技術(shù)生產(chǎn)者可以精確地追蹤不同田地的產(chǎn)出,操縱和控制設(shè)備,監(jiān)測(cè)田地狀況,管理投入品,大幅提高生產(chǎn)率和利潤(rùn)。計(jì)算機(jī)軟件以機(jī)器學(xué)習(xí)為核心的軟件應(yīng)用在與數(shù)據(jù)、設(shè)備和人類(lèi)互動(dòng)時(shí)變得越來(lái)越智能化和定制化。分析咨詢(xún)3.讓農(nóng)業(yè)信息透明化目標(biāo)向農(nóng)民提供個(gè)性化方案,將每塊田地的耕種細(xì)化到作物個(gè)體,使用有關(guān)氣候和土壤條件、作物以及產(chǎn)出的數(shù)據(jù)。4.可實(shí)現(xiàn)食物追蹤溯源大數(shù)據(jù)對(duì)食物從田間到餐桌的過(guò)程進(jìn)行追蹤,可以預(yù)防疾病、減少浪費(fèi)和提高利潤(rùn)。城市領(lǐng)域有效實(shí)現(xiàn)了基層黨組織對(duì)社情民意的動(dòng)態(tài)掌握、精準(zhǔn)管理、高效服務(wù)。1.智慧社區(qū)管理中的應(yīng)用2.智慧城市交通領(lǐng)域中的應(yīng)用市民掌握城市交通路段情況,避免擁堵階段和易發(fā)生交通事故的路段,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論