大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件_第1頁
大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件_第2頁
大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件_第3頁
大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件_第4頁
大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)BIGDATA大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第1頁第一章大數(shù)據(jù)概念與應(yīng)用1.1大數(shù)據(jù)概念與意義1.2大數(shù)據(jù)起源1.3大數(shù)據(jù)應(yīng)用場(chǎng)景1.4大數(shù)據(jù)處理方法of402習(xí)題大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第2頁1.1大數(shù)據(jù)概念與意義第一章大數(shù)據(jù)概念與應(yīng)用of403時(shí)至今日,“數(shù)據(jù)”變身“大數(shù)據(jù)”,“開啟了一次重大時(shí)代轉(zhuǎn)型”。

“大數(shù)據(jù)”這一概念形成,有三個(gè)標(biāo)志性事件:1.從“數(shù)據(jù)”到“大數(shù)據(jù)”大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第3頁4V特征種類多(Variety)速度快(Velocity)價(jià)值高(Value)體量大(Volume)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)起源廣、維度多、類型雜,各種機(jī)器儀表在自動(dòng)產(chǎn)生數(shù)據(jù)同時(shí),人本身生活行為也在不停創(chuàng)造數(shù)據(jù);不但有企業(yè)組織內(nèi)部業(yè)務(wù)數(shù)據(jù),還有海量相關(guān)外部數(shù)據(jù)。伴隨當(dāng)代感測(cè)、互聯(lián)網(wǎng)、計(jì)算機(jī)技術(shù)發(fā)展,數(shù)據(jù)生成、儲(chǔ)存、分析、處理速度遠(yuǎn)遠(yuǎn)超出人們想象力,這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)顯著特征。大數(shù)據(jù)有巨大潛在價(jià)值,但同其呈幾何指數(shù)暴發(fā)式增加相比,某一對(duì)象或模塊數(shù)據(jù)價(jià)值密度較低,這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。第一章大數(shù)據(jù)概念與應(yīng)用of404從至年,人類數(shù)據(jù)規(guī)模將擴(kuò)大50倍,每年產(chǎn)生數(shù)據(jù)量將增加到44萬億GB,相當(dāng)于美國國家圖書館數(shù)據(jù)量數(shù)百萬倍,且每18個(gè)月翻一番。1.1大數(shù)據(jù)概念與意義大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第4頁第一章大數(shù)據(jù)概念與應(yīng)用大數(shù)據(jù)數(shù)據(jù)源整合進(jìn)行存放、清洗、挖掘、分析后得出結(jié)果直到優(yōu)化企業(yè)管理提升效率云計(jì)算、硬件性價(jià)比提升以及軟件技術(shù)進(jìn)步智能設(shè)備、傳感器普及,推進(jìn)物聯(lián)網(wǎng)、人工智能發(fā)展計(jì)算運(yùn)行、計(jì)算速度越來越快存放存放成本下降智能實(shí)現(xiàn)信息對(duì)等解放腦力,機(jī)器擁有些人智慧of4051.1大數(shù)據(jù)概念與意義2.大數(shù)據(jù)技術(shù)支撐大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第5頁第一章大數(shù)據(jù)概念與應(yīng)用of4061.1大數(shù)據(jù)概念與意義1)存放:存放成本下降云計(jì)算出現(xiàn)之前云計(jì)算出現(xiàn)之后在云計(jì)算出現(xiàn)之前,數(shù)據(jù)存放成本是非常高。比如,企業(yè)要建設(shè)網(wǎng)站,需要購置和布署服務(wù)器,安排技術(shù)人員維護(hù)服務(wù)器,確保數(shù)據(jù)存放安全性和數(shù)據(jù)傳輸通暢性,還會(huì)定時(shí)清理數(shù)據(jù),騰出空間方便存放新數(shù)據(jù),機(jī)房整體人力和管理成本都很高。云計(jì)算出現(xiàn)后,數(shù)據(jù)存放服務(wù)衍生出了新商業(yè)模式,數(shù)據(jù)中心出現(xiàn)降低了企業(yè)計(jì)算和存放成本。比如,企業(yè)現(xiàn)在要建設(shè)網(wǎng)站,不需要去購置服務(wù)器,不需要去雇用技術(shù)人員維護(hù)服務(wù)器,能夠經(jīng)過租用硬件設(shè)備方式處理問題。存放成本下降,也改變了大家對(duì)數(shù)據(jù)看法,愈加愿意把1年、2年甚至更久遠(yuǎn)歷史數(shù)據(jù)保留下來,有了歷史數(shù)據(jù)沉淀,才能夠經(jīng)過對(duì)比,發(fā)覺數(shù)據(jù)之間關(guān)聯(lián)和價(jià)值。正是因?yàn)榇娣懦杀鞠陆?,才能為大?shù)據(jù)搭建最好基礎(chǔ)設(shè)施。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第6頁第一章大數(shù)據(jù)概念與應(yīng)用of4071.1大數(shù)據(jù)概念與意義2)計(jì)算:運(yùn)算速度越來越快分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop出現(xiàn),為大數(shù)據(jù)帶來了新曙光;HDFS為海量數(shù)據(jù)提供了存放;MapReduce則為海量數(shù)據(jù)提供了并行計(jì)算,從而大大提升了計(jì)算效率;Spark、Storm、Impala等各種各樣技術(shù)進(jìn)入人們視野。海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價(jià)值,期間會(huì)經(jīng)過存放、清洗、挖掘、分析等多個(gè)步驟,假如計(jì)算速度不夠快,很多事情是無法實(shí)現(xiàn)。所以,在大數(shù)據(jù)發(fā)展過程中,計(jì)算速度是非常關(guān)鍵原因。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第7頁第一章大數(shù)據(jù)概念與應(yīng)用of4081.1大數(shù)據(jù)概念與意義3)智能:機(jī)器擁有了解數(shù)據(jù)能力大數(shù)據(jù)帶來最大價(jià)值就是“智慧”,大數(shù)據(jù)讓機(jī)器變得有智慧,同時(shí)人工智能深入提升了處理和了解數(shù)據(jù)能力。比如:谷歌AlphaGo大勝世界圍棋冠軍李世石阿里云小Ai成功預(yù)測(cè)出《我是歌手》總決賽歌王12iPhone上智能化語音機(jī)器人Siri微信上與大家聊天微軟小冰34大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第8頁第一章大數(shù)據(jù)概念與應(yīng)用of409美國著名管理學(xué)家愛德華·戴明所言:“我們信靠上帝。除了上帝,任何人都必須用數(shù)據(jù)來說話?!保?)有數(shù)據(jù)可說

在大數(shù)據(jù)時(shí)代,“萬物皆數(shù)”,“量化一切”,“一切都將被數(shù)據(jù)化”。人類生活在一個(gè)海量、動(dòng)態(tài)、多樣數(shù)據(jù)世界中,數(shù)據(jù)無處不在、無時(shí)不有、無人不用,數(shù)據(jù)就像陽光、空氣、水分一樣常見,好比放大鏡、望遠(yuǎn)鏡、顯微鏡那般主要。

(2)說數(shù)據(jù)可靠

大數(shù)據(jù)中“數(shù)據(jù)”真實(shí)可靠,它實(shí)質(zhì)上是表征事物現(xiàn)象一個(gè)符號(hào)語言和邏輯關(guān)系,其可靠性數(shù)理哲學(xué)基礎(chǔ)是世界同構(gòu)原理。世界含有物質(zhì)統(tǒng)一性,統(tǒng)一世界中一切事物都存在著時(shí)空一致性同構(gòu)關(guān)系。這意味著任何事物屬性和規(guī)律,只要經(jīng)過適當(dāng)編碼,均能夠經(jīng)過統(tǒng)一數(shù)字信號(hào)表示出來。1.1大數(shù)據(jù)概念與意義3.大數(shù)據(jù)意義

所以,“用數(shù)聽說話”、“讓數(shù)據(jù)發(fā)聲”,已成為人類認(rèn)知世界一個(gè)全新方法。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第9頁1.1從“數(shù)據(jù)”到“大數(shù)據(jù)”第一章大數(shù)據(jù)概念與應(yīng)用of4010風(fēng)馬牛可相及

在大數(shù)據(jù)背景下,因海量無限、包羅萬象數(shù)據(jù)存在,讓許多看似毫不相干現(xiàn)象之間發(fā)生一定關(guān)聯(lián),使人們能夠更簡(jiǎn)捷、更清楚地認(rèn)知事物和把握局勢(shì)。大數(shù)據(jù)巨大潛能與作用現(xiàn)在難以進(jìn)行估量,但揭示事物相關(guān)關(guān)系無疑是其真正價(jià)值所在。經(jīng)典案例:(1)啤酒與尿布(2)谷歌與流感大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第10頁1.1大數(shù)據(jù)概念與意義1.2大數(shù)據(jù)起源第一章大數(shù)據(jù)概念與應(yīng)用1.3大數(shù)據(jù)應(yīng)用場(chǎng)景1.4大數(shù)據(jù)處理方法of4011習(xí)題大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第11頁1.2大數(shù)據(jù)起源第一章大數(shù)據(jù)概念與應(yīng)用of4012全球數(shù)據(jù)總量圖杰姆·格雷(JimGray)提出著名“新摩爾定律”,即人類有史以來數(shù)據(jù)總量,每過18個(gè)月就會(huì)翻一番。(EB)(年份)大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第12頁為何全球數(shù)據(jù)量增加如此之快?大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第13頁1.2大數(shù)據(jù)起源第一章大數(shù)據(jù)概念與應(yīng)用of4014互聯(lián)網(wǎng)天天產(chǎn)生全部?jī)?nèi)容能夠刻滿6.4億張DVDGoogle天天需要處理24PB數(shù)據(jù)網(wǎng)民天天在Facebook上要花費(fèi)234億分鐘,被移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收數(shù)據(jù)高達(dá)44PB全球每秒發(fā)送290萬封電子郵件,一分鐘讀一篇話,足夠一個(gè)人晝夜不停地讀5.5年天天會(huì)有2.88萬個(gè)小時(shí)視頻上傳到Y(jié)ouTube,足夠一個(gè)人晝夜不停地觀看3.3年Twitter上天天公布5000萬條消息,假設(shè)10秒就瀏覽一條消息,足夠一個(gè)人晝夜不停地瀏覽大數(shù)據(jù)到底有多大?

以上一組互聯(lián)網(wǎng)數(shù)據(jù)大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第14頁1.2大數(shù)據(jù)起源第一章大數(shù)據(jù)概念與應(yīng)用of4015來自大量傳感器機(jī)器數(shù)據(jù)科學(xué)研究及行業(yè)多結(jié)構(gòu)專業(yè)數(shù)據(jù)來自“大人群”泛互聯(lián)網(wǎng)數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其它互聯(lián)網(wǎng)數(shù)據(jù)海量數(shù)據(jù)產(chǎn)生伴隨人類活動(dòng)深入擴(kuò)展,數(shù)據(jù)規(guī)模會(huì)急劇膨脹,包含金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)各行業(yè)累積數(shù)據(jù)量越來越大,數(shù)據(jù)類型也越來越多、越來越復(fù)雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式能力范圍,于是“大數(shù)據(jù)”這么一個(gè)概念才會(huì)應(yīng)運(yùn)而生。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第15頁1.2大數(shù)據(jù)起源第一章大數(shù)據(jù)概念與應(yīng)用of4016按產(chǎn)生數(shù)據(jù)主體劃分1)少許企業(yè)應(yīng)用產(chǎn)生數(shù)據(jù)如關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)和數(shù)據(jù)倉庫中數(shù)據(jù)等。2)大量人產(chǎn)生數(shù)據(jù)如推特、微博、通信軟件、移動(dòng)通信數(shù)據(jù)、電子商務(wù)在線交易日志數(shù)據(jù)、企業(yè)應(yīng)用相關(guān)評(píng)論數(shù)據(jù)等。3)巨量機(jī)器產(chǎn)生數(shù)據(jù)如應(yīng)用服務(wù)器日志、各類傳感器數(shù)據(jù)、圖像和視頻監(jiān)控?cái)?shù)據(jù)、二維碼和條形碼(條碼)掃描數(shù)據(jù)等。01大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第16頁1.2大數(shù)據(jù)起源第一章大數(shù)據(jù)概念與應(yīng)用of4017按數(shù)據(jù)起源行業(yè)劃分1)以BAT為代表互聯(lián)網(wǎng)企業(yè)baidu企業(yè)數(shù)據(jù)總量超出了千PB級(jí)別,阿里巴巴企業(yè)保留數(shù)據(jù)量超出了百PB級(jí)別,擁有90%以上電商數(shù)據(jù),騰訊企業(yè)總存放數(shù)據(jù)量經(jīng)壓縮處理以后依然超出了百PB級(jí)別,數(shù)據(jù)量月增加到達(dá)10%。2)電信、金融、保險(xiǎn)、電力、石化系統(tǒng)電信行業(yè)數(shù)據(jù)年度用戶數(shù)據(jù)增加超出10%,金融每年產(chǎn)生數(shù)據(jù)超出數(shù)十PB,保險(xiǎn)系統(tǒng)數(shù)據(jù)量也超出了PB級(jí)別,電力與石化方面,僅國家電網(wǎng)采集取得數(shù)據(jù)總量就到達(dá)了數(shù)十PB,石油化工領(lǐng)域每年產(chǎn)生和保留下來數(shù)據(jù)量也快要百PB級(jí)別。3)公共安全、醫(yī)療、交通領(lǐng)域一個(gè)中、大型城市,一個(gè)月交通卡口統(tǒng)計(jì)數(shù)能夠到達(dá)3億條;整個(gè)醫(yī)療衛(wèi)生行業(yè)一年能夠保留下來數(shù)據(jù)就可到達(dá)數(shù)百PB級(jí)別;航班往返一次產(chǎn)生數(shù)據(jù)就到達(dá)TB級(jí)別;列車、水陸路運(yùn)輸產(chǎn)生各種視頻、文本類數(shù)據(jù),每年保留下來也到達(dá)數(shù)十PB。 024)氣象、地理、政務(wù)等領(lǐng)域中國氣象局保留數(shù)據(jù)快要10PB,每年約增數(shù)百TB;各種地圖和地理位置信息每年約數(shù)十PB;政務(wù)數(shù)據(jù)則涵蓋了旅游、教育、交通、醫(yī)療等多個(gè)門類,且多為結(jié)構(gòu)化數(shù)據(jù)。5)制造業(yè)和其它傳統(tǒng)行業(yè)制造業(yè)大數(shù)據(jù)類型以產(chǎn)品設(shè)計(jì)數(shù)據(jù)、企業(yè)生產(chǎn)步驟業(yè)務(wù)數(shù)據(jù)和生產(chǎn)監(jiān)控?cái)?shù)據(jù)為主。其中產(chǎn)品設(shè)計(jì)數(shù)據(jù)以文件為主,非結(jié)構(gòu)化,共享要求較高,保留時(shí)間較長;企業(yè)生產(chǎn)步驟業(yè)務(wù)數(shù)據(jù)主要是數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù),而生產(chǎn)監(jiān)控?cái)?shù)據(jù)則數(shù)據(jù)量非常大。在其它傳統(tǒng)行業(yè),即使線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運(yùn)輸?shù)刃袠I(yè)數(shù)據(jù)量劇增,不過數(shù)據(jù)量還處于積累期,整體體量都不算大,多則到達(dá)PB級(jí)別,少則數(shù)十TB或數(shù)百TB級(jí)別。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第17頁1.2大數(shù)據(jù)起源第一章大數(shù)據(jù)概念與應(yīng)用of4018按數(shù)據(jù)存放形式劃分大數(shù)據(jù)不但僅表達(dá)在數(shù)據(jù)量大,還表達(dá)在數(shù)據(jù)類型多。如此海量數(shù)據(jù)中,僅有20%左右屬于結(jié)構(gòu)化數(shù)據(jù),80%數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等領(lǐng)域非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)簡(jiǎn)單來說就是數(shù)據(jù)庫,如企業(yè)ERP、財(cái)務(wù)系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫、教育一卡通、政府行政審批、其它關(guān)鍵數(shù)據(jù)庫等數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包含全部格式辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻、視頻信息等數(shù)據(jù)。03大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第18頁1.2大數(shù)據(jù)起源第一章大數(shù)據(jù)概念與應(yīng)用of4019慣用大數(shù)據(jù)獲取路徑1)系統(tǒng)日志采集能夠使用海量數(shù)據(jù)采集工具,用于系統(tǒng)日志采集,如HadoopChukwa、ClouderaFlume、FacebookScribe等,這些工具均采取分布式架構(gòu),能滿足大數(shù)據(jù)日志數(shù)據(jù)采集和傳輸需求。043)APP移動(dòng)端數(shù)據(jù)采集APP是獲取用戶移動(dòng)端數(shù)據(jù)一個(gè)有效方法,APP中SDK插件能夠?qū)⒂脩羰褂肁PP信息匯總給指定服務(wù)器,即便用戶在沒有訪問時(shí),也能獲知用戶終端相關(guān)信息,包含安裝應(yīng)用數(shù)量和類型等。單個(gè)APP用戶規(guī)模有限,數(shù)據(jù)量有限;但數(shù)十萬APP用戶,獲取用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)也會(huì)到達(dá)數(shù)億量級(jí)。4)與數(shù)據(jù)服務(wù)機(jī)構(gòu)進(jìn)行合作數(shù)據(jù)服務(wù)機(jī)構(gòu)通常具備規(guī)范數(shù)據(jù)共享和交易渠道,人們能夠在平臺(tái)上快速、明確地獲取自己所需要數(shù)據(jù)。而對(duì)于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高數(shù)據(jù),也能夠經(jīng)過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。2)互聯(lián)網(wǎng)數(shù)據(jù)采集經(jīng)過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息,該方法能夠數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存放為統(tǒng)一當(dāng)?shù)財(cái)?shù)據(jù)文件,它支持圖片、音頻、視頻等文件或附件采集,附件與正文能夠自動(dòng)關(guān)聯(lián)。除了網(wǎng)站中包含內(nèi)容之外,還能夠使用DPI或DFI等帶寬管理技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量采集。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第19頁1.3大數(shù)據(jù)應(yīng)用場(chǎng)景1.2大數(shù)據(jù)起源1.1大數(shù)據(jù)概念與意義第一章大數(shù)據(jù)概念與應(yīng)用1.4大數(shù)據(jù)處理方法of4020習(xí)題大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第20頁1.3大數(shù)據(jù)應(yīng)用場(chǎng)景第一章大數(shù)據(jù)概念與應(yīng)用of4021大數(shù)據(jù)7個(gè)應(yīng)用場(chǎng)景環(huán)境教育行業(yè)醫(yī)療行業(yè)農(nóng)業(yè)智慧城市零售行業(yè)金融行業(yè)大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第21頁1.3大數(shù)據(jù)應(yīng)用場(chǎng)景第一章大數(shù)據(jù)概念與應(yīng)用of4022零售行業(yè)零售行業(yè)大數(shù)據(jù)應(yīng)用有兩個(gè)層面,一個(gè)層面是零售行業(yè)能夠了解客戶消費(fèi)喜好和趨勢(shì),進(jìn)行商品精準(zhǔn)營銷,降低營銷成本。另一個(gè)層面是依據(jù)客戶購置產(chǎn)品,為客戶提供可能購置其它產(chǎn)品,擴(kuò)大銷售額,也屬于精準(zhǔn)營銷范圍。未來考驗(yàn)零售企業(yè)是怎樣挖掘消費(fèi)者需求,以及高效整合供給鏈滿足其需求能力,所以,信息技術(shù)水平高低成為取得競(jìng)爭(zhēng)優(yōu)勢(shì)關(guān)鍵要素。金融行業(yè)1)銀行數(shù)據(jù)應(yīng)用場(chǎng)景利用數(shù)據(jù)挖掘來分析出一些交易數(shù)據(jù)背后商業(yè)價(jià)值。2)保險(xiǎn)數(shù)據(jù)應(yīng)用場(chǎng)景用數(shù)據(jù)來提升保險(xiǎn)產(chǎn)品精算水平,提升利潤水平和投資收益。3)證券數(shù)據(jù)應(yīng)用場(chǎng)景對(duì)客戶交易習(xí)慣和行為分析能夠幫助證券企業(yè)取得更多收益。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第22頁1.3大數(shù)據(jù)應(yīng)用場(chǎng)景第一章大數(shù)據(jù)概念與應(yīng)用of4023醫(yī)療行業(yè)醫(yī)療行業(yè)擁有大量病例、病理匯報(bào)、治愈方案、藥品匯報(bào)等,經(jīng)過對(duì)這些數(shù)據(jù)進(jìn)行整理和分析將會(huì)極大地輔助醫(yī)生提出治療方案,幫助病人早日康復(fù)。能夠構(gòu)建大數(shù)據(jù)平臺(tái)來搜集不一樣病例和治療方案,以及病人基本特征,建立針對(duì)疾病特點(diǎn)數(shù)據(jù)庫,幫助醫(yī)生進(jìn)行疾病診療。醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用一直在進(jìn)行,不過數(shù)據(jù)并沒有完全打通,基本都是孤島數(shù)據(jù),沒方法進(jìn)行大規(guī)模應(yīng)用。未來能夠?qū)⑦@些數(shù)據(jù)統(tǒng)一采集起來,納入統(tǒng)一大數(shù)據(jù)平臺(tái),為人類健康造福。教育行業(yè)信息技術(shù)已在教育領(lǐng)域有了越來越廣泛應(yīng)用,教學(xué)、考試、師生互動(dòng)、校園安全、家校關(guān)系等,只要技術(shù)到達(dá)地方,各個(gè)步驟都被數(shù)據(jù)包裹。經(jīng)過大數(shù)據(jù)分析來優(yōu)化教育機(jī)制,也能夠作出更科學(xué)決議,這將帶來潛在教育革命,在很快未來,個(gè)性化學(xué)習(xí)終端將會(huì)更多地融入學(xué)習(xí)資源云平臺(tái),依據(jù)每個(gè)學(xué)生不一樣興趣興趣和專長,推送相關(guān)領(lǐng)域前沿技術(shù)、資訊、資源乃至未來職業(yè)發(fā)展方向。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第23頁1.3大數(shù)據(jù)應(yīng)用場(chǎng)景第一章大數(shù)據(jù)概念與應(yīng)用of4024農(nóng)業(yè)行業(yè)環(huán)境行業(yè)借助于大數(shù)據(jù)提供消費(fèi)能力和趨勢(shì)匯報(bào),政府可為農(nóng)業(yè)生產(chǎn)進(jìn)行合理引導(dǎo),依據(jù)需求進(jìn)行生產(chǎn),防止產(chǎn)能過剩造成無須要資源和社會(huì)財(cái)富浪費(fèi)。經(jīng)過大數(shù)據(jù)分析將會(huì)更準(zhǔn)確地預(yù)測(cè)未來天氣,幫助農(nóng)民做好自然災(zāi)害預(yù)防工作,幫助政府實(shí)現(xiàn)農(nóng)業(yè)精細(xì)化管理和科學(xué)決議。借助于大數(shù)據(jù)技術(shù),天氣預(yù)報(bào)準(zhǔn)確性和實(shí)效性將會(huì)大大提升,預(yù)報(bào)及時(shí)性將會(huì)大大提升,同時(shí)對(duì)于重大自然災(zāi)害如龍卷風(fēng),經(jīng)過大數(shù)據(jù)計(jì)算平臺(tái),人們將會(huì)愈加準(zhǔn)確地了解其運(yùn)動(dòng)軌跡和危害等級(jí),有利于幫助人們提升應(yīng)對(duì)自然災(zāi)害能力。大數(shù)據(jù)技術(shù)能夠了解經(jīng)濟(jì)發(fā)展情況、各產(chǎn)業(yè)發(fā)展情況、消費(fèi)支出和產(chǎn)品銷售情況等,依據(jù)分析結(jié)果,科學(xué)地制訂宏觀政策,平衡各產(chǎn)業(yè)發(fā)展,防止產(chǎn)能過剩,有效利用自然資源和社會(huì)資源,提升社會(huì)生產(chǎn)效率。大數(shù)據(jù)技術(shù)也能幫助政府進(jìn)行支出管理,透明合理財(cái)政支出將有利于提升公信力和監(jiān)督財(cái)政支出。智慧城市大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第24頁1.3大數(shù)據(jù)應(yīng)用場(chǎng)景1.4大數(shù)據(jù)處理方法1.2大數(shù)據(jù)起源1.1大數(shù)據(jù)概念與意義第一章大數(shù)據(jù)概念與應(yīng)用of4025習(xí)題大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第25頁1.4大數(shù)據(jù)處理方法第一章大數(shù)據(jù)概念與應(yīng)用of4026大數(shù)據(jù)正帶來一場(chǎng)信息社會(huì)變革。大量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)廣泛應(yīng)用,致使人們需要重新思索已經(jīng)有IT模式;與此同時(shí),大數(shù)據(jù)將推進(jìn)進(jìn)行又一次基于信息革命業(yè)務(wù)轉(zhuǎn)型,使社會(huì)能夠借助大數(shù)據(jù)獲取更多社會(huì)效益和發(fā)展機(jī)會(huì);龐大數(shù)據(jù)需要我們進(jìn)行剝離、整理、歸類、建模、分析等操作,經(jīng)過這些動(dòng)作后,我們開始建立數(shù)據(jù)分析維度,經(jīng)過對(duì)不一樣維度數(shù)據(jù)進(jìn)行分析,最終才能得到想到數(shù)據(jù)和信息。所以,怎樣進(jìn)行大數(shù)據(jù)采集、導(dǎo)入/預(yù)處理、統(tǒng)計(jì)/分析和大數(shù)據(jù)挖掘,是“做”好大數(shù)據(jù)關(guān)鍵基礎(chǔ)。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第26頁1.4大數(shù)據(jù)處理方法第一章大數(shù)據(jù)概念與應(yīng)用of4027大數(shù)據(jù)采集1大數(shù)據(jù)采集通常采取多個(gè)數(shù)據(jù)庫來接收終端數(shù)據(jù),包含智能硬件端、各種傳感器端、網(wǎng)頁端、移動(dòng)APP應(yīng)用端等,而且能夠使用數(shù)據(jù)庫進(jìn)行簡(jiǎn)單處理工作。慣用數(shù)據(jù)采集方式主要包含以下幾個(gè):數(shù)據(jù)抓取01數(shù)據(jù)導(dǎo)入02物聯(lián)網(wǎng)傳感設(shè)備自動(dòng)信息采集03大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第27頁1.4大數(shù)據(jù)處理方法第一章大數(shù)據(jù)概念與應(yīng)用of4028導(dǎo)入/預(yù)處理2即使采集端本身有很多數(shù)據(jù)庫,不過假如要對(duì)這些海量數(shù)據(jù)進(jìn)行有效分析,還是應(yīng)該將這些數(shù)據(jù)導(dǎo)入到一個(gè)集中大型分布式數(shù)據(jù)庫或者分布式存放集群當(dāng)中,同時(shí),在導(dǎo)入基礎(chǔ)上完成數(shù)據(jù)清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來自TwitterStorm來對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來滿足部分業(yè)務(wù)實(shí)時(shí)計(jì)算需求。現(xiàn)實(shí)世界中數(shù)據(jù)大致上都是不完整、不一致“臟”數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意,為了提升數(shù)據(jù)挖掘質(zhì)量,產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。主要是到達(dá)數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)去除、數(shù)據(jù)錯(cuò)誤糾正、重復(fù)數(shù)據(jù)去除等目標(biāo)。是將多個(gè)數(shù)據(jù)源中數(shù)據(jù)結(jié)合起來并統(tǒng)一存放,建立數(shù)據(jù)倉庫。過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適合用于數(shù)據(jù)挖掘形式。尋找依賴于發(fā)覺目標(biāo)數(shù)據(jù)有用特征,縮減數(shù)據(jù)規(guī)模,最大程度地精簡(jiǎn)數(shù)據(jù)量。大數(shù)據(jù)概念與應(yīng)用培訓(xùn)課件第28頁1.4大數(shù)據(jù)處理方法第一章大數(shù)據(jù)概念與應(yīng)用of4029

統(tǒng)計(jì)與分析3統(tǒng)計(jì)與分析主要是利用分布式數(shù)據(jù)庫,或分布式計(jì)算集群來對(duì)存放于其內(nèi)海量數(shù)據(jù)進(jìn)行普通分析和分類匯總,以滿足大多數(shù)常見分析需求,在這些方面能夠使用R語言。R語言是用于統(tǒng)計(jì)分析、繪圖語言和操作環(huán)境,屬于GNU系統(tǒng)一個(gè)自由、無償、源代碼開放軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖優(yōu)異工具。R語言在國際和國內(nèi)發(fā)展差異非常大,國際上R語言已然是專業(yè)數(shù)據(jù)分析領(lǐng)域標(biāo)準(zhǔn),但在國內(nèi)依舊任重而道遠(yuǎn),這當(dāng)然有數(shù)據(jù)學(xué)科地位原因,國內(nèi)很多人版權(quán)概念微弱,以及學(xué)術(shù)領(lǐng)域相對(duì)閉塞也是原因。R語言

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論