版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材大數(shù)據(jù)導(dǎo)論第一章大數(shù)據(jù)概念與應(yīng)用1.1
大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來(lái)源1.3
大數(shù)據(jù)的特征及意義1.4
大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.1大數(shù)據(jù)的概念12008年9月,美國(guó)《自然》(Nature)雜志??猅henextgoogle,第一次正式提出“大數(shù)據(jù)”概念。22011年2月1日,《科學(xué)》(Science)雜志專刊——Dealingwithdata,通過(guò)社會(huì)調(diào)查的方式,第一次綜合分析了大數(shù)據(jù)對(duì)人們生活造成的影響,詳細(xì)描述了人類面臨的“數(shù)據(jù)困境”。32011年5月,麥肯錫研究院發(fā)布報(bào)告——Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次給大數(shù)據(jù)做出相對(duì)清晰的定義:“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫(kù)工具獲取、儲(chǔ)存、管理和分析能力的數(shù)據(jù)集?!睍r(shí)至今日,“數(shù)據(jù)”變身“大數(shù)據(jù)”,“開(kāi)啟了一次重大的時(shí)代轉(zhuǎn)型”。
“大數(shù)據(jù)”這一概念的形成,有三個(gè)標(biāo)志性事件:從“數(shù)據(jù)”到“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應(yīng)用1.1大數(shù)據(jù)的概念大數(shù)據(jù)是指以多元形式,自許多來(lái)源搜集而來(lái)的龐大數(shù)據(jù)組,往往具有實(shí)時(shí)性。在企業(yè)對(duì)企業(yè)銷售的情況下,這些數(shù)據(jù)可能得自社交網(wǎng)絡(luò)、電子商務(wù)網(wǎng)站、顧客來(lái)訪紀(jì)錄,還有許多其他來(lái)源。這些數(shù)據(jù),并非公司顧客關(guān)系管理數(shù)據(jù)庫(kù)的常態(tài)數(shù)據(jù)組。什么是“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應(yīng)用大數(shù)據(jù)數(shù)據(jù)源整合進(jìn)行存儲(chǔ)、清洗、挖掘、分析后得出結(jié)果直到優(yōu)化企業(yè)管理提高效率云計(jì)算、硬件性價(jià)比的提高以及軟件技術(shù)的進(jìn)步智能設(shè)備、傳感器的普及,推動(dòng)物聯(lián)網(wǎng)、人工智能的發(fā)展計(jì)算運(yùn)行、計(jì)算速度越來(lái)越快存儲(chǔ)存儲(chǔ)成本下降智能實(shí)現(xiàn)信息對(duì)等解放腦力,機(jī)器擁有人的智慧1.1大數(shù)據(jù)的概念大數(shù)據(jù)的技術(shù)支撐第一章大數(shù)據(jù)概念及其應(yīng)用1.1大數(shù)據(jù)的概念存儲(chǔ):存儲(chǔ)成本的下降云計(jì)算出現(xiàn)之前云計(jì)算出現(xiàn)之后在云計(jì)算出現(xiàn)之前,數(shù)據(jù)存儲(chǔ)的成本是非常高的。例如,公司要建設(shè)網(wǎng)站,需要購(gòu)置和部署服務(wù)器,安排技術(shù)人員維護(hù)服務(wù)器,保證數(shù)據(jù)存儲(chǔ)的安全性和數(shù)據(jù)傳輸?shù)臅惩ㄐ裕€會(huì)定期清理數(shù)據(jù),騰出空間以便存儲(chǔ)新的數(shù)據(jù),機(jī)房整體的人力和管理成本都很高。云計(jì)算出現(xiàn)后,數(shù)據(jù)存儲(chǔ)服務(wù)衍生出了新的商業(yè)模式,數(shù)據(jù)中心的出現(xiàn)降低了公司的計(jì)算和存儲(chǔ)成本。例如,公司現(xiàn)在要建設(shè)網(wǎng)站,不需要去購(gòu)買服務(wù)器,不需要去雇用技術(shù)人員維護(hù)服務(wù)器,可以通過(guò)租用硬件設(shè)備的方式解決問(wèn)題。存儲(chǔ)成本的下降,也改變了大家對(duì)數(shù)據(jù)的看法,更加愿意把1年、2年甚至更久遠(yuǎn)的歷史數(shù)據(jù)保存下來(lái),有了歷史數(shù)據(jù)的沉淀,才可以通過(guò)對(duì)比,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)和價(jià)值。正是由于存儲(chǔ)成本的下降,才能為大數(shù)據(jù)搭建最好的基礎(chǔ)設(shè)施。第一章大數(shù)據(jù)概念及其應(yīng)用1.1大數(shù)據(jù)的概念計(jì)算:運(yùn)算速度越來(lái)越快分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來(lái)了新的曙光;HDFS為海量的數(shù)據(jù)提供了存儲(chǔ);MapReduce則為海量的數(shù)據(jù)提供了并行計(jì)算,從而大大提高了計(jì)算效率;Spark、Storm、Impala等各種各樣的技術(shù)進(jìn)入人們的視野。海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價(jià)值,期間會(huì)經(jīng)過(guò)存儲(chǔ)、清洗、挖掘、分析等多個(gè)環(huán)節(jié),如果計(jì)算速度不夠快,很多事情是無(wú)法實(shí)現(xiàn)的。所以,在大數(shù)據(jù)的發(fā)展過(guò)程中,計(jì)算速度是非常關(guān)鍵的因素。第一章大數(shù)據(jù)概念及其應(yīng)用1.1大數(shù)據(jù)的概念智能:機(jī)器擁有理解數(shù)據(jù)的能力大數(shù)據(jù)帶來(lái)的最大價(jià)值就是“智慧”,大數(shù)據(jù)讓機(jī)器變得有智慧,同時(shí)人工智能進(jìn)一步提升了處理和理解數(shù)據(jù)的能力。例如:谷歌AlphaGo大勝世界圍棋冠軍李世石阿里云小Ai成功預(yù)測(cè)出《我是歌手》的總決賽歌王12iPhone上智能化語(yǔ)音機(jī)器人Siri微信上與大家聊天的微軟小冰34第一章大數(shù)據(jù)概念及其應(yīng)用第一章大數(shù)據(jù)概念及其應(yīng)用美國(guó)著名管理學(xué)家愛(ài)德華·戴明所言:“我們信靠上帝。除了上帝,任何人都必須用數(shù)據(jù)來(lái)說(shuō)話?!保?)有數(shù)據(jù)可說(shuō)
在大數(shù)據(jù)時(shí)代,“萬(wàn)物皆數(shù)”,“量化一切”,“一切都將被數(shù)據(jù)化”。人類生活在一個(gè)海量、動(dòng)態(tài)、多樣的數(shù)據(jù)世界中,數(shù)據(jù)無(wú)處不在、無(wú)時(shí)不有、無(wú)人不用,數(shù)據(jù)就像陽(yáng)光、空氣、水分一樣常見(jiàn),好比放大鏡、望遠(yuǎn)鏡、顯微鏡那般重要。
(2)說(shuō)數(shù)據(jù)可靠
大數(shù)據(jù)中的“數(shù)據(jù)”真實(shí)可靠,它實(shí)質(zhì)上是表征事物現(xiàn)象的一種符號(hào)語(yǔ)言和邏輯關(guān)系,其可靠性的數(shù)理哲學(xué)基礎(chǔ)是世界同構(gòu)原理。世界具有物質(zhì)統(tǒng)一性,統(tǒng)一的世界中的一切事物都存在著時(shí)空一致性的同構(gòu)關(guān)系。這意味著任何事物的屬性和規(guī)律,只要通過(guò)適當(dāng)編碼,均可以通過(guò)統(tǒng)一的數(shù)字信號(hào)表達(dá)出來(lái)。1.1大數(shù)據(jù)的概念大數(shù)據(jù)的意義
因此,“用數(shù)據(jù)說(shuō)話”、“讓數(shù)據(jù)發(fā)聲”,已成為人類認(rèn)知世界的一種全新方法。1.1
大數(shù)據(jù)的概念風(fēng)馬??上嗉?/p>
在大數(shù)據(jù)背景下,因海量無(wú)限、包羅萬(wàn)象的數(shù)據(jù)存在,讓許多看似毫不相干的現(xiàn)象之間發(fā)生一定的關(guān)聯(lián),使人們能夠更簡(jiǎn)捷、更清晰地認(rèn)知事物和把握局勢(shì)。大數(shù)據(jù)的巨大潛能與作用現(xiàn)在難以進(jìn)行估量,但揭示事物的相關(guān)關(guān)系無(wú)疑是其真正的價(jià)值所在。經(jīng)典案例:(1)啤酒與尿布(2)谷歌與流感第一章大數(shù)據(jù)概念及其應(yīng)用第一章大數(shù)據(jù)概念與應(yīng)用1.2大數(shù)據(jù)的來(lái)源1.3
大數(shù)據(jù)的特征及意義1.4
大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.2大數(shù)據(jù)的來(lái)源全球數(shù)據(jù)總量圖杰姆·格雷(JimGray)提出著名的“新摩爾定律”,即人類有史以來(lái)的數(shù)據(jù)總量,每過(guò)18個(gè)月就會(huì)翻一番。(EB)(年份)第一章大數(shù)據(jù)概念及其應(yīng)用為什么全球數(shù)據(jù)量增長(zhǎng)如此之快?1.2大數(shù)據(jù)的來(lái)源
手機(jī)智能家電智能手表電腦iPad大數(shù)據(jù)的主要來(lái)源第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源互聯(lián)網(wǎng)每天產(chǎn)生的全部?jī)?nèi)容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數(shù)據(jù)網(wǎng)民每天在Facebook上要花費(fèi)234億分鐘,被移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)44PB全球每秒發(fā)送290萬(wàn)封電子郵件,一分鐘讀一篇的話,足夠一個(gè)人晝夜不停地讀5.5年每天會(huì)有2.88萬(wàn)個(gè)小時(shí)的視頻上傳到Y(jié)ouTube,足夠一個(gè)人晝夜不停地觀看3.3年Twitter上每天發(fā)布5000萬(wàn)條消息,假設(shè)10秒就瀏覽一條消息,足夠一個(gè)人晝夜不停地瀏覽16年大數(shù)據(jù)到底有多大?
以上一組互聯(lián)網(wǎng)數(shù)據(jù)第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源來(lái)自大量傳感器的機(jī)器數(shù)據(jù)科學(xué)研究及行業(yè)多結(jié)構(gòu)專業(yè)數(shù)據(jù)來(lái)自“大人群”泛互聯(lián)網(wǎng)數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其他互聯(lián)網(wǎng)數(shù)據(jù)海量的數(shù)據(jù)的產(chǎn)生隨著人類活動(dòng)的進(jìn)一步擴(kuò)展,數(shù)據(jù)規(guī)模會(huì)急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂(lè)等在內(nèi)的各行業(yè)累積的數(shù)據(jù)量越來(lái)越大,數(shù)據(jù)類型也越來(lái)越多、越來(lái)越復(fù)雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍,于是“大數(shù)據(jù)”這樣一個(gè)概念才會(huì)應(yīng)運(yùn)而生。第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源按產(chǎn)生數(shù)據(jù)的主體劃分1)少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)如關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)等。2)大量人產(chǎn)生的數(shù)據(jù)如推特、微博、通信軟件、移動(dòng)通信數(shù)據(jù)、電子商務(wù)在線交易日志數(shù)據(jù)、企業(yè)應(yīng)用的相關(guān)評(píng)論數(shù)據(jù)等。3)巨量機(jī)器產(chǎn)生的數(shù)據(jù)如應(yīng)用服務(wù)器日志、各類傳感器數(shù)據(jù)、圖像和視頻監(jiān)控?cái)?shù)據(jù)、二維碼和條形碼(條碼)掃描數(shù)據(jù)等。01第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源按數(shù)據(jù)來(lái)源的行業(yè)劃分1)以BAT為代表的互聯(lián)網(wǎng)公司百度公司數(shù)據(jù)總量超過(guò)了千PB級(jí)別,阿里巴巴公司保存的數(shù)據(jù)量超過(guò)了百PB級(jí)別,擁有90%以上的電商數(shù)據(jù),騰訊公司總存儲(chǔ)數(shù)據(jù)量經(jīng)壓縮處理以后仍然超過(guò)了百PB級(jí)別,數(shù)據(jù)量月增加達(dá)到10%。2)電信、金融、保險(xiǎn)、電力、石化系統(tǒng)電信行業(yè)數(shù)據(jù)年度用戶數(shù)據(jù)增長(zhǎng)超過(guò)10%,金融每年產(chǎn)生的數(shù)據(jù)超過(guò)數(shù)十PB,保險(xiǎn)系統(tǒng)的數(shù)據(jù)量也超過(guò)了PB級(jí)別,電力與石化方面,僅國(guó)家電網(wǎng)采集獲得的數(shù)據(jù)總量就達(dá)到了數(shù)十PB,石油化工領(lǐng)域每年產(chǎn)生和保存下來(lái)的數(shù)據(jù)量也將近百PB級(jí)別。3)公共安全、醫(yī)療、交通領(lǐng)域一個(gè)中、大型城市,一個(gè)月的交通卡口記錄數(shù)可以達(dá)到3億條;整個(gè)醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來(lái)的數(shù)據(jù)就可達(dá)到數(shù)百PB級(jí)別;航班往返一次產(chǎn)生的數(shù)據(jù)就達(dá)到TB級(jí)別;列車、水陸路運(yùn)輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來(lái)的也達(dá)到數(shù)十PB。
024)氣象、地理、政務(wù)等領(lǐng)域中國(guó)氣象局保存的數(shù)據(jù)將近10PB,每年約增數(shù)百TB;各種地圖和地理位置信息每年約數(shù)十PB;政務(wù)數(shù)據(jù)則涵蓋了旅游、教育、交通、醫(yī)療等多個(gè)門類,且多為結(jié)構(gòu)化數(shù)據(jù)。5)制造業(yè)和其他傳統(tǒng)行業(yè)制造業(yè)的大數(shù)據(jù)類型以產(chǎn)品設(shè)計(jì)數(shù)據(jù)、企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務(wù)數(shù)據(jù)和生產(chǎn)監(jiān)控?cái)?shù)據(jù)為主。其中產(chǎn)品設(shè)計(jì)數(shù)據(jù)以文件為主,非結(jié)構(gòu)化,共享要求較高,保存時(shí)間較長(zhǎng);企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務(wù)數(shù)據(jù)主要是數(shù)據(jù)庫(kù)結(jié)構(gòu)化數(shù)據(jù),而生產(chǎn)監(jiān)控?cái)?shù)據(jù)則數(shù)據(jù)量非常大。在其他傳統(tǒng)行業(yè),雖然線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運(yùn)輸?shù)刃袠I(yè)數(shù)據(jù)量劇增,但是數(shù)據(jù)量還處于積累期,整體體量都不算大,多則達(dá)到PB級(jí)別,少則數(shù)十TB或數(shù)百TB級(jí)別。第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源按數(shù)據(jù)存儲(chǔ)的形式劃分大數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)量大,還體現(xiàn)在數(shù)據(jù)類型多。如此海量的數(shù)據(jù)中,僅有20%左右屬于結(jié)構(gòu)化的數(shù)據(jù),80%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)庫(kù),如企業(yè)ERP、財(cái)務(wù)系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫(kù)、教育一卡通、政府行政審批、其他核心數(shù)據(jù)庫(kù)等數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻、視頻信息等數(shù)據(jù)。03第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源常用的大數(shù)據(jù)獲取途徑1)系統(tǒng)日志采集可以使用海量數(shù)據(jù)采集工具,用于系統(tǒng)日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。043)APP移動(dòng)端數(shù)據(jù)采集APP是獲取用戶移動(dòng)端數(shù)據(jù)的一種有效方法,APP中的SDK插件可以將用戶使用APP的信息匯總給指定服務(wù)器,即便用戶在沒(méi)有訪問(wèn)時(shí),也能獲知用戶終端的相關(guān)信息,包括安裝應(yīng)用的數(shù)量和類型等。單個(gè)APP用戶規(guī)模有限,數(shù)據(jù)量有限;但數(shù)十萬(wàn)APP用戶,獲取的用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)也會(huì)達(dá)到數(shù)億的量級(jí)。4)與數(shù)據(jù)服務(wù)機(jī)構(gòu)進(jìn)行合作數(shù)據(jù)服務(wù)機(jī)構(gòu)通常具備規(guī)范的數(shù)據(jù)共享和交易渠道,人們可以在平臺(tái)上快速、明確地獲取自己所需要的數(shù)據(jù)。而對(duì)于企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),也可以通過(guò)與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。2)互聯(lián)網(wǎng)數(shù)據(jù)采集通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數(shù)據(jù)信息,該方法可以數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。除了網(wǎng)站中包含的內(nèi)容之外,還可以使用DPI或DFI等帶寬管理技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量的采集。第一章大數(shù)據(jù)概念及其應(yīng)用第一章大數(shù)據(jù)概念與應(yīng)用1.2大數(shù)據(jù)的來(lái)源1.4
大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.3大數(shù)據(jù)的特征及意義大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。從各種各樣類型的數(shù)據(jù)中,快速高效獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。在IT業(yè)界有的學(xué)者使用3S來(lái)描述大數(shù)據(jù),還有的學(xué)者使用3I來(lái)描述大數(shù)據(jù)。大數(shù)據(jù)的3S第一章大數(shù)據(jù)概念及其應(yīng)用數(shù)據(jù)的大小數(shù)據(jù)的處理速度SizeSpeed數(shù)據(jù)的結(jié)構(gòu)化Structur1.3大數(shù)據(jù)的特征及意義從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式計(jì)算架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)的挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和/或虛擬化技術(shù)。(在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法)大數(shù)據(jù)的4V特征:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。從技術(shù)上看“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應(yīng)用4V特征種類多(Variety)速度快(Velocity)價(jià)值高(Value)體量大(Volume)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)來(lái)源廣、維度多、類型雜,各種機(jī)器儀表在自動(dòng)產(chǎn)生數(shù)據(jù)的同時(shí),人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù);不僅有企業(yè)組織內(nèi)部的業(yè)務(wù)數(shù)據(jù),還有海量相關(guān)的外部數(shù)據(jù)。隨著現(xiàn)代感測(cè)、互聯(lián)網(wǎng)、計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)生成、儲(chǔ)存、分析、處理的速度遠(yuǎn)遠(yuǎn)超出人們的想象力,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。大數(shù)據(jù)有巨大的潛在價(jià)值,但同其呈幾何指數(shù)爆發(fā)式增長(zhǎng)相比,某一對(duì)象或模塊數(shù)據(jù)的價(jià)值密度較低,這無(wú)疑給我們開(kāi)發(fā)海量數(shù)據(jù)增加了難度和成本。從2013年至2020年,人類的數(shù)據(jù)規(guī)模將擴(kuò)大50倍,每年產(chǎn)生的數(shù)據(jù)量將增長(zhǎng)到44萬(wàn)億GB,相當(dāng)于美國(guó)國(guó)家圖書館數(shù)據(jù)量的數(shù)百萬(wàn)倍,且每18個(gè)月翻一番。1.3大數(shù)據(jù)的特征及意義“大數(shù)據(jù)”的四V特征:第一章大數(shù)據(jù)概念及其應(yīng)用1.3大數(shù)據(jù)的特征及意義大數(shù)據(jù)的3I第一章大數(shù)據(jù)概念及其應(yīng)用Ill-defined
IntimidatingImmediate定義不明確的,多個(gè)大數(shù)據(jù)的定義都強(qiáng)調(diào)了大數(shù)據(jù)規(guī)模超過(guò)傳統(tǒng)數(shù)據(jù)的規(guī)模,隨著技術(shù)的進(jìn)步,數(shù)據(jù)分析的效率不斷提高,符合大數(shù)據(jù)定義的數(shù)據(jù)規(guī)模也不斷變大,因而沒(méi)有一個(gè)明確的標(biāo)準(zhǔn)。從管理大數(shù)據(jù)到使用正確的工具獲取它的價(jià)值,利用大數(shù)據(jù)的過(guò)程中充滿了各種挑戰(zhàn)。數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間快速衰減,為了保證大數(shù)據(jù)的可控性,需要縮短數(shù)據(jù)搜集到獲得之間的時(shí)間,使大數(shù)據(jù)成為真正的即時(shí)大數(shù)據(jù),這意味著能盡快地分析數(shù)據(jù)對(duì)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)至關(guān)重要。第一章大數(shù)據(jù)概念與應(yīng)用1.2大數(shù)據(jù)的來(lái)源1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.4大數(shù)據(jù)的表現(xiàn)形態(tài)大數(shù)據(jù)在當(dāng)今社會(huì)非常時(shí)髦,大數(shù)據(jù)的信息量是海量的,這個(gè)海量并不是某個(gè)時(shí)間端點(diǎn)的量級(jí)總結(jié),而是持續(xù)更新,持續(xù)增量。由于大數(shù)據(jù)產(chǎn)生的過(guò)程中諸多的不確定性,使得大數(shù)據(jù)的表現(xiàn)形態(tài)多種多樣。大數(shù)據(jù)的表現(xiàn)形態(tài)第一章大數(shù)據(jù)概念及其應(yīng)用多源性實(shí)時(shí)性不確定性大數(shù)據(jù)來(lái)源的復(fù)雜性。網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展使得數(shù)據(jù)產(chǎn)生的途徑多樣化。大數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。非結(jié)構(gòu)化數(shù)據(jù)的格式多樣化,而這些非結(jié)構(gòu)化數(shù)據(jù)中可能蘊(yùn)藏著非常有價(jià)值的信息。大數(shù)據(jù)的實(shí)時(shí)性,體現(xiàn)在數(shù)據(jù)更新的實(shí)時(shí)性。如何及時(shí)、有效、全面的捕獲到互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算上產(chǎn)生的大量的不同來(lái)源的數(shù)據(jù)是會(huì)直接影響數(shù)據(jù)價(jià)值體現(xiàn)的關(guān)鍵因素。體現(xiàn)的是數(shù)據(jù)的不確定性。原始數(shù)據(jù)的不準(zhǔn)確以及數(shù)據(jù)采集處理粒度、應(yīng)用需求與數(shù)據(jù)集成和展示等因素使得數(shù)據(jù)在不同尺度、不同維度上都有不同程度的不確定性。第一章大數(shù)據(jù)概念與應(yīng)用1.2大數(shù)據(jù)的來(lái)源1.4
大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景大數(shù)據(jù)7個(gè)應(yīng)用場(chǎng)景環(huán)境教育行業(yè)醫(yī)療行業(yè)農(nóng)業(yè)智慧城市零售行業(yè)金融行業(yè)第一章大數(shù)據(jù)概念及其應(yīng)用零售行業(yè)零售行業(yè)大數(shù)據(jù)應(yīng)用有兩個(gè)層面,一個(gè)層面是零售行業(yè)可以了解客戶的消費(fèi)喜好和趨勢(shì),進(jìn)行商品的精準(zhǔn)營(yíng)銷,降低營(yíng)銷成本。另一個(gè)層面是依據(jù)客戶購(gòu)買的產(chǎn)品,為客戶提供可能購(gòu)買的其他產(chǎn)品,擴(kuò)大銷售額,也屬于精準(zhǔn)營(yíng)銷范疇。未來(lái)考驗(yàn)零售企業(yè)的是如何挖掘消費(fèi)者需求,以及高效整合供應(yīng)鏈滿足其需求的能力,因此,信息技術(shù)水平的高低成為獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵要素。金融行業(yè)1)銀行數(shù)據(jù)應(yīng)用場(chǎng)景利用數(shù)據(jù)挖掘來(lái)分析出一些交易數(shù)據(jù)背后的商業(yè)價(jià)值。2)保險(xiǎn)數(shù)據(jù)應(yīng)用場(chǎng)景用數(shù)據(jù)來(lái)提升保險(xiǎn)產(chǎn)品的精算水平,提高利潤(rùn)水平和投資收益。3)證券數(shù)據(jù)應(yīng)用場(chǎng)景對(duì)客戶交易習(xí)慣和行為分析可以幫助證券公司獲得更多的收益。第一章大數(shù)據(jù)概念及其應(yīng)用1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景醫(yī)療行業(yè)醫(yī)療行業(yè)擁有大量的病例、病理報(bào)告、治愈方案、藥物報(bào)告等,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行整理和分析將會(huì)極大地輔助醫(yī)生提出治療方案,幫助病人早日康復(fù)??梢詷?gòu)建大數(shù)據(jù)平臺(tái)來(lái)收集不同病例和治療方案,以及病人的基本特征,建立針對(duì)疾病特點(diǎn)的數(shù)據(jù)庫(kù),幫助醫(yī)生進(jìn)行疾病診斷。醫(yī)療行業(yè)的大數(shù)據(jù)應(yīng)用一直在進(jìn)行,但是數(shù)據(jù)并沒(méi)有完全打通,基本都是孤島數(shù)據(jù),沒(méi)辦法進(jìn)行大規(guī)模的應(yīng)用。未來(lái)可以將這些數(shù)據(jù)統(tǒng)一采集起來(lái),納入統(tǒng)一的大數(shù)據(jù)平臺(tái),為人類健
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄉(xiāng)鎮(zhèn)文化站建成文藝晚會(huì)主持詞
- 七夕節(jié)促銷活動(dòng)方案
- 范文新學(xué)期學(xué)習(xí)計(jì)劃范文集錦十篇
- 個(gè)人工作總結(jié)(集錦14篇)
- 高等數(shù)學(xué)教程 上冊(cè) 第4版 測(cè)試題 高數(shù)1-測(cè)試二
- 荒山租地合同協(xié)議書(2篇)
- 分段計(jì)費(fèi)說(shuō)課稿
- 南京工業(yè)大學(xué)浦江學(xué)院《汽車電氣設(shè)備》2023-2024學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《計(jì)算機(jī)設(shè)計(jì)》2022-2023學(xué)年期末試卷
- 《我長(zhǎng)大了》說(shuō)課稿
- 企業(yè)旗桿維修合同范例
- 2025屆河南省信陽(yáng)第一高級(jí)中學(xué)高二物理第一學(xué)期期末綜合測(cè)試模擬試題含解析
- 珍愛(ài)生命,拒絕“死亡游戲”主題班會(huì)教案(3篇)
- 排洪渠道清淤施工方案
- 北科大巖石力學(xué)-李長(zhǎng)洪1.2-巖石的力學(xué)性質(zhì)
- 國(guó)開(kāi)(河北)2024年秋《現(xiàn)代產(chǎn)權(quán)法律制度專題》形考作業(yè)1-4答案
- 新商科“專業(yè)-產(chǎn)業(yè)雙鏈融通式”人才培養(yǎng)模式探究
- 2024世界糖尿病日糖尿病與幸福感糖尿病健康教育課件
- 公務(wù)員2018年國(guó)考《申論》真題卷及答案(副省級(jí))
- 中國(guó)法律史-第一次平時(shí)作業(yè)-國(guó)開(kāi)-參考資料
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(隱患排查表)
評(píng)論
0/150
提交評(píng)論