數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第2章-大數(shù)據(jù)概述_第1頁
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第2章-大數(shù)據(jù)概述_第2頁
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第2章-大數(shù)據(jù)概述_第3頁
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第2章-大數(shù)據(jù)概述_第4頁
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論-第2章-大數(shù)據(jù)概述_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2章大數(shù)據(jù)概述主編:王道平數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論本章教學(xué)要點(diǎn)本章主要大數(shù)據(jù)的相關(guān)理論知識。其中需掌握大數(shù)據(jù)的發(fā)展歷程和大數(shù)據(jù)的概念與特征;熟悉大數(shù)據(jù)的產(chǎn)生背景、大數(shù)據(jù)的核心技術(shù)和大數(shù)據(jù)的處理過程;了解大數(shù)據(jù)的應(yīng)用與挑戰(zhàn)、大數(shù)據(jù)的價(jià)值和大數(shù)據(jù)與相關(guān)領(lǐng)域的關(guān)系。目錄大數(shù)據(jù)的產(chǎn)生和發(fā)展2.12.2大數(shù)據(jù)基礎(chǔ)理論2.3大數(shù)據(jù)與相關(guān)領(lǐng)域的聯(lián)系01大數(shù)據(jù)的產(chǎn)生和發(fā)展PART

ONE2.1.1大數(shù)據(jù)的產(chǎn)生背景信息化的浪潮是不斷更迭的,根據(jù)國際商業(yè)機(jī)器公司(IBM)前CEO郭士納的觀點(diǎn),IT領(lǐng)域每隔若干年就會迎來一次重大變革,每一次的信息化浪潮,都推動了信息技術(shù)的向前發(fā)展。目前,在IT領(lǐng)域相繼掀起了3次信息化浪潮,如下表所示。信息化浪潮發(fā)生時(shí)間標(biāo)志解決問題代表企業(yè)第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理IBM、聯(lián)想、蘋果、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、百度、騰訊、中國移動、Facebook等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)信息爆炸華為、滴滴、金蝶、阿里巴巴等2.1.1大數(shù)據(jù)的產(chǎn)生背景大數(shù)據(jù)是在信息化技術(shù)的不斷發(fā)展下產(chǎn)生的,是IT技術(shù)的不斷更新為大數(shù)據(jù)的出現(xiàn)提供了可能性。與此同時(shí)云計(jì)算技術(shù)的成熟又為大數(shù)據(jù)的存儲和處理奠定了技術(shù)的基礎(chǔ)。云計(jì)算在處理數(shù)據(jù)時(shí)運(yùn)用分布式處理、并行處理和網(wǎng)格計(jì)算的技術(shù)基礎(chǔ),使龐大的數(shù)據(jù)量可以在短時(shí)間內(nèi)被處理完成,相比于之前利用傳統(tǒng)數(shù)據(jù)處理技術(shù)需要數(shù)小時(shí)甚至數(shù)天進(jìn)行處理的數(shù)據(jù)量,運(yùn)用云計(jì)算技術(shù)在數(shù)分鐘甚至幾十秒內(nèi)就可以處理完成,極大的提高了數(shù)據(jù)處理的效率;在數(shù)據(jù)存儲中,云計(jì)算通過集群應(yīng)用,網(wǎng)格技術(shù),分布式文件系統(tǒng)等方式使大數(shù)據(jù)可以被儲存在云端,方便人們存取。為大數(shù)據(jù)的研究和利用提供了強(qiáng)大的技術(shù)支持。2.1.2大數(shù)據(jù)的發(fā)展1.大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)最早起源于20世紀(jì)90年代,繼個(gè)人計(jì)算機(jī)普及之后互聯(lián)網(wǎng)的出現(xiàn),使數(shù)據(jù)量呈現(xiàn)爆炸式的增長,大數(shù)據(jù)因此而誕生,開始被學(xué)者們所研究。直至今日,大數(shù)據(jù)仍然處于蓬勃發(fā)展的階段,還有一些問題亟待研究者們?nèi)ソ鉀Q。從整個(gè)大數(shù)據(jù)發(fā)展歷程來看,其可分為以下4個(gè)階段,如右圖所示。2.1.2大數(shù)據(jù)的發(fā)展(1)萌芽階段(20世紀(jì)90年代到21世紀(jì)初)萌芽階段也被稱為數(shù)據(jù)挖掘階段。那時(shí)的數(shù)據(jù)庫技術(shù)和數(shù)據(jù)挖掘的理論已經(jīng)成熟,數(shù)據(jù)的結(jié)構(gòu)類型只有結(jié)構(gòu)化數(shù)據(jù),人們把數(shù)據(jù)儲存在數(shù)據(jù)倉庫和數(shù)據(jù)庫里,在需要操作時(shí)大多采用離線處理方式,對生成的數(shù)據(jù)需要集中分析處理。存儲數(shù)據(jù)通常使用物理工具,例如:紙張、膠卷、光盤(CD與DVD)和磁盤等。(2)突破階段(2003年~2006年)突破階段也稱非結(jié)構(gòu)化數(shù)據(jù)階段,該階段由于非結(jié)構(gòu)化的數(shù)據(jù)大量出現(xiàn),使得傳統(tǒng)的數(shù)據(jù)庫處理系統(tǒng)難以應(yīng)對如此龐大的數(shù)據(jù)量。學(xué)者們開始針對大數(shù)據(jù)的計(jì)算處理技術(shù)以及不同結(jié)構(gòu)類型數(shù)據(jù)的存儲工具進(jìn)行研究,以加快大數(shù)據(jù)的處理速度,增加大數(shù)據(jù)的存儲空間和存儲工具的適用性。2.1.2大數(shù)據(jù)的發(fā)展(3)成熟階段(2006年~2009年)在大數(shù)據(jù)的成熟階段,谷歌公開發(fā)表的兩篇論文《谷歌文件系統(tǒng)》和《基于集群的簡單數(shù)據(jù)處理:MapReduce》,其核心的技術(shù)包括分布式文件系統(tǒng)(DistributedFileSystem,DFS),分布式計(jì)算系統(tǒng)框架MapReduce等引發(fā)了研究者的關(guān)注。在此期間,大數(shù)據(jù)研究的焦點(diǎn)主要是算法的性能,云計(jì)算,大規(guī)模的數(shù)據(jù)集并行運(yùn)算算法,以及開源分布式架構(gòu)(Hadoop)等。數(shù)據(jù)的存儲方式也由以物理存儲方式占主導(dǎo)變?yōu)橛蓴?shù)字化存儲方式占主導(dǎo)地位。2.1.2大數(shù)據(jù)的發(fā)展(4)應(yīng)用階段(2009~至今)大數(shù)據(jù)基礎(chǔ)技術(shù)逐漸成熟,學(xué)術(shù)界及企業(yè)界紛紛開始從對大數(shù)據(jù)技術(shù)的研究轉(zhuǎn)向?qū)?yīng)用的研究。自2013年開始,大數(shù)據(jù)技術(shù)開始向商業(yè)、科技、醫(yī)療、政府、教育、經(jīng)濟(jì)、交通、物流及社會的各個(gè)領(lǐng)域滲透,為各個(gè)領(lǐng)域的發(fā)展提供了技術(shù)上的支持。右圖為大數(shù)據(jù)的7大應(yīng)用領(lǐng)域。2.1.2大數(shù)據(jù)的發(fā)展大數(shù)據(jù)作為一種重要的資源,隨著大數(shù)據(jù)技術(shù)的成熟和發(fā)展越來越受到人們的重視。很多企業(yè)運(yùn)用大數(shù)據(jù)技術(shù)改善現(xiàn)有的運(yùn)營模式或是創(chuàng)新運(yùn)營模式以提高自身的競爭優(yōu)勢,更好的為人們服務(wù)。在物流領(lǐng)域,大數(shù)據(jù)技術(shù)使物流變得更具“智慧”了,省去了很多機(jī)械的人力工作,大大提升了物流系統(tǒng)的效率和效益。在物流企業(yè),大數(shù)據(jù)的出現(xiàn)使得物品的供需更加匹配,資源的優(yōu)化和配置更有效率;在汽車行業(yè),“無人汽車”和車聯(lián)網(wǎng)保險(xiǎn)精準(zhǔn)定價(jià)的出現(xiàn),讓車主可以獲得更加貼心的服務(wù);在公共安全領(lǐng)域,借助大數(shù)據(jù)可以更好、更快地應(yīng)對突發(fā)事件,以保證社會和諧穩(wěn)定。2.大數(shù)據(jù)的應(yīng)用2.1.2大數(shù)據(jù)的發(fā)展大數(shù)據(jù)在醫(yī)療領(lǐng)域也得到了廣泛的應(yīng)用。在研發(fā)階段,大數(shù)據(jù)的參與可以縮短藥品的研發(fā)時(shí)間,使得對癥的藥品可以更快的投入使用;在疾病的診斷上,大數(shù)據(jù)就給予病歷庫充分的數(shù)據(jù)支持,使病人被誤診的概率大大降低,減少醫(yī)療風(fēng)險(xiǎn);在日常的健康檢測中,大數(shù)據(jù)技術(shù)可以實(shí)時(shí)監(jiān)控人體的健康狀況,并實(shí)時(shí)給人們健康反饋,讓人們可以預(yù)防一些慢性病的發(fā)生。2.大數(shù)據(jù)的應(yīng)用2.1.2大數(shù)據(jù)的發(fā)展除此之外,還有很多領(lǐng)域都應(yīng)用了大數(shù)據(jù)的理論和相關(guān)技術(shù),比如:教育、金融、政府、制造業(yè)等。大數(shù)據(jù)在各行各業(yè)的應(yīng)用,對個(gè)人的生活方式,企業(yè)的運(yùn)營模式乃至社會的運(yùn)行都產(chǎn)生了巨大的變革,推動著社會的發(fā)展。2.大數(shù)據(jù)的應(yīng)用2.1.2大數(shù)據(jù)的發(fā)展(1)數(shù)據(jù)的開放共享程度低目前的數(shù)據(jù)開放水平總體較低,可用的數(shù)據(jù)開放平臺較少。在開放的數(shù)據(jù)資源中也存在著一些問題,如很多數(shù)據(jù)資源無法正常讀取;數(shù)據(jù)更新遲滯;數(shù)據(jù)資源的內(nèi)容和形式缺乏多樣性;數(shù)據(jù)開放的范圍有限等。(2)數(shù)據(jù)的安全問題嚴(yán)峻目前信息安全和數(shù)據(jù)管理體系仍然不夠健全,無法兼顧大數(shù)據(jù)的安全與發(fā)展,導(dǎo)致在線的用戶資料等被盜的發(fā)生,甚至是一些不法分子利用泄露的個(gè)人信息進(jìn)行詐騙的現(xiàn)象出現(xiàn),使人們對互聯(lián)網(wǎng)的使用產(chǎn)生擔(dān)憂。(3)制度建設(shè)落后隨著大數(shù)據(jù)的蓬勃發(fā)展,大數(shù)據(jù)在隱私保護(hù)和數(shù)據(jù)安全方面存在嚴(yán)重的風(fēng)險(xiǎn),需要對大數(shù)據(jù)的使用進(jìn)行規(guī)范和限制。雖然目前國家出臺了部分相關(guān)法規(guī),但相比于歐美國家,我國在大數(shù)據(jù)制度建設(shè)上還有進(jìn)一步提升的空間。(4)大數(shù)據(jù)專業(yè)人才缺乏目前專業(yè)人才的缺乏仍然是大數(shù)據(jù)產(chǎn)業(yè)所面臨的重要問題。據(jù)中國商委會數(shù)據(jù)分析部統(tǒng)計(jì),我國大數(shù)據(jù)市場未來將面臨1400萬的人才缺口。除此之外,我國大數(shù)據(jù)人才資源存在著結(jié)構(gòu)不平衡的問題。2.大數(shù)據(jù)面臨的挑戰(zhàn)02大數(shù)據(jù)基礎(chǔ)理論P(yáng)ART

TWO2.2.1大數(shù)據(jù)的概念與特征大數(shù)據(jù)是數(shù)量極大并且附有一定價(jià)值的。關(guān)于大數(shù)據(jù)的概念,很多的專家,學(xué)者,機(jī)構(gòu)都給出了自己對于大數(shù)據(jù)的定義。1.大數(shù)據(jù)的概念“不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而是采用對所有數(shù)據(jù)進(jìn)行分析處理。”維克托·邁爾-舍恩伯格和肯尼斯·庫克耶:“由科學(xué)儀器、傳感器、網(wǎng)上交易、電子郵件、視頻、點(diǎn)擊流和/或所有其他可用的數(shù)字源產(chǎn)生的大規(guī)模、多樣的、復(fù)雜的、縱向的和/或分布式的數(shù)據(jù)集?!泵绹鴩铱茖W(xué)基金委員會:1.2.1數(shù)據(jù)科學(xué)的概念“一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低4大特征。”麥肯錫全球研究所:本書對大數(shù)據(jù)的定義為:無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。2.2.1大數(shù)據(jù)的概念與特征大數(shù)據(jù)的特征通常被概括為5個(gè)”V”,即數(shù)據(jù)量(Volume)大、數(shù)據(jù)類型繁多(Variety)、處理速度(Velocity)快、價(jià)值(Value)密度低和真實(shí)性(Veracity)強(qiáng)5個(gè)方面。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征1.大數(shù)據(jù)的特征單位

換算關(guān)系B(Byte,字節(jié))1B=8bitKB(Kilobyte,千字節(jié))1KB=1024BMB(Megabyte,兆字節(jié))1MB=1024KBGB(Gigabyte,吉字節(jié))1GB=1024MBTB(Trillionbyte,太字節(jié))1TB=1024GBPB(Petabyte,拍字節(jié))1PB=1024TBEB(Exabyte,艾字節(jié))1EB=1024PBZB(Zettabyte,兆字節(jié))1ZB=1024EB(1)數(shù)據(jù)量大數(shù)據(jù)量大是大數(shù)據(jù)的首要特征,通過右表數(shù)據(jù)的存儲單位換算關(guān)系可更形象的表現(xiàn)出大數(shù)據(jù)的龐大的數(shù)據(jù)量。通常認(rèn)為,處于吉字節(jié)(GB)級別的數(shù)據(jù)就稱為超大規(guī)模數(shù)據(jù),太字節(jié)(TB)級別的數(shù)據(jù)為海量級數(shù)據(jù),而大數(shù)據(jù)的數(shù)據(jù)量通常在拍字節(jié)(PB)級及以上,可想而知大數(shù)據(jù)的體量是非常龐大的。2.2.1大數(shù)據(jù)的概念與特征用一個(gè)更形象例子來展現(xiàn)大數(shù)據(jù)的數(shù)據(jù)量:2012年IDC和EMC聯(lián)合發(fā)布的《數(shù)據(jù)宇宙》報(bào)告顯示,2011年全球數(shù)據(jù)總量已經(jīng)達(dá)到1.87ZB,如果把這樣的數(shù)據(jù)量用光盤來進(jìn)行存儲,并把這些存儲好的光盤并排排列好,其長度可達(dá)8×10^5km,大約可繞地球20圈。而且這樣的數(shù)據(jù)量并不是緩慢增長的,據(jù)報(bào)道:從1986年到2010年僅20年的時(shí)間中,全球的數(shù)據(jù)量已增長了100倍,而且數(shù)據(jù)增長的速度會隨著時(shí)間的發(fā)展越來越快。數(shù)據(jù)量龐大并且在呈幾何式爆發(fā)增長的大數(shù)據(jù),更需要進(jìn)行認(rèn)真的管理以及研究。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征(2)數(shù)據(jù)類型繁多在進(jìn)入大數(shù)據(jù)時(shí)代之后,數(shù)據(jù)類型也變得多樣化了。數(shù)據(jù)的結(jié)構(gòu)類型從傳統(tǒng)單一的結(jié)構(gòu)化數(shù)據(jù),變成了以非結(jié)構(gòu)化數(shù)據(jù),準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)為主的結(jié)構(gòu)類型,比如:網(wǎng)絡(luò)日志、圖片、社交網(wǎng)絡(luò)信息和地理位置信息等,這些不同的結(jié)構(gòu)類型使大數(shù)據(jù)的存儲和處理變得更具挑戰(zhàn)性。除了數(shù)據(jù)結(jié)構(gòu)類型的豐富,數(shù)據(jù)所在的領(lǐng)域也變得更加豐富,很多傳統(tǒng)的領(lǐng)域由于互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)量也明顯增加,像物流、醫(yī)療、金融行業(yè)等的大數(shù)據(jù)都呈現(xiàn)出“爆炸式”的增長。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征(3)處理速度快大數(shù)據(jù)的產(chǎn)生速度很快,變化的速度也很快。比如Facebook每天會產(chǎn)生25億以上的數(shù)據(jù)條目,每日數(shù)據(jù)新增量超過500TB。在如此高速的數(shù)據(jù)量產(chǎn)生的同時(shí),由于大數(shù)據(jù)的技術(shù)逐漸成熟,數(shù)據(jù)處理的速度也很快,各種數(shù)據(jù)在線上可以被實(shí)時(shí)的處理,傳輸和存儲,以便全面的反映當(dāng)下的情況,并從中獲取到有價(jià)值的信息。谷歌的Dremel就是一種可擴(kuò)展的、交互式的數(shù)據(jù)實(shí)時(shí)查詢系統(tǒng),用于嵌套數(shù)據(jù)的分析。他通過結(jié)合多級樹狀執(zhí)行過程和列式數(shù)據(jù)結(jié)構(gòu),可以在短短幾秒內(nèi)完成對億萬張表的聚合查詢,也能擴(kuò)展到成千上萬的中央處理器(CentralProcessingUnit,CPU)上,滿足谷歌用戶操作PB級別的數(shù)據(jù)要求,同時(shí)可以在2~3秒內(nèi)完成PB級的數(shù)據(jù)查詢。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征(4)價(jià)值密度低大數(shù)據(jù)雖然在數(shù)量上十分龐大,但其實(shí)有價(jià)值的數(shù)據(jù)量相對比較低。在通過對大數(shù)據(jù)的獲取、存儲、抽取、清洗、集成、挖掘等一系列操作之后,能保留下來的有效數(shù)據(jù)甚至不足20%。真可謂是“沙里淘金”。以監(jiān)控?cái)z像拍攝下來的視頻為例,一天的視頻記錄中有價(jià)值的記錄可能只有短暫的幾秒或是幾分鐘,但為了安全保障工作的順利開展,需要投入大量的資金購買設(shè)備,消耗電能和存儲空間以保證相關(guān)的區(qū)域24小時(shí)都在監(jiān)控的狀態(tài)下。因此對很多行業(yè)來說,如何能夠在低價(jià)值密度的大數(shù)據(jù)中更快更節(jié)省成本的提取到有價(jià)值的數(shù)據(jù)是他們所關(guān)注的焦點(diǎn)之一。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征(5)真實(shí)性強(qiáng)大數(shù)據(jù)中的內(nèi)容是與真實(shí)世界中發(fā)生的息息相關(guān)的,反映了很多真實(shí)的、客觀的信息,因此大數(shù)據(jù)擁有真實(shí)性強(qiáng)的特征。但大數(shù)據(jù)中也存在著一定數(shù)據(jù)的偏差和錯(cuò)誤,要保證在數(shù)據(jù)的采集和清洗中保證留下來的數(shù)據(jù)是準(zhǔn)確和可信賴的,才能在大數(shù)據(jù)的研究中從龐大的網(wǎng)絡(luò)數(shù)據(jù)中提取出能夠解釋和預(yù)測現(xiàn)實(shí)的事件,分析出其中蘊(yùn)含的規(guī)律,預(yù)測未來的發(fā)展動向。1.大數(shù)據(jù)的特征2.2.2大數(shù)據(jù)的核心技術(shù)大數(shù)據(jù)的核心技術(shù)一般包括大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)預(yù)處理技術(shù)、大數(shù)據(jù)存儲與管理技術(shù)、大數(shù)據(jù)分析與挖掘技術(shù)、大數(shù)據(jù)可視化與大數(shù)據(jù)安全保障技術(shù)。大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)存儲與管理技術(shù)數(shù)據(jù)采集技術(shù)是指:通過射頻識別(RFID)技術(shù)、傳感器、社交網(wǎng)絡(luò)交互及移動互聯(lián)網(wǎng)等方式獲得結(jié)構(gòu)化、半結(jié)構(gòu)化、準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)。是大數(shù)據(jù)知識服務(wù)模型的根本。大數(shù)據(jù)預(yù)處理技術(shù)主要用于完成對已獲得數(shù)據(jù)的抽取、清洗等步驟。對數(shù)據(jù)進(jìn)行抽取操作是由于獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,需要將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以便于處理。大數(shù)據(jù)存儲與管理就是利用存儲器把采集到的數(shù)據(jù)存儲起來,并建立相應(yīng)的數(shù)據(jù)庫來進(jìn)行管理和調(diào)用。大數(shù)據(jù)存儲與管理的技術(shù)重點(diǎn)是解決復(fù)雜結(jié)構(gòu)化數(shù)據(jù)的管理與處理。2.2.2大數(shù)據(jù)的核心技術(shù)大數(shù)據(jù)分析與挖掘技術(shù)大數(shù)據(jù)可視化技術(shù)大數(shù)據(jù)安全保障技術(shù)

大數(shù)據(jù)分析與挖掘技術(shù)包括改進(jìn)已有的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘和圖挖掘等新型數(shù)據(jù)挖掘技術(shù),其中重點(diǎn)研究的是基于對象的數(shù)據(jù)連接、相似性連接等的大數(shù)據(jù)融合技術(shù)和用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。

大數(shù)據(jù)可視化技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟(jì)活動提供依據(jù),從而提高各個(gè)領(lǐng)域的運(yùn)行效率,提升整個(gè)社會經(jīng)濟(jì)的集約化程度。數(shù)據(jù)可視化的技術(shù)可分為基于文本的可視化技術(shù)和基于圖形的可視化技術(shù)。從企業(yè)和政府層面大數(shù)據(jù)安全保障技術(shù)主要是應(yīng)對黑客的網(wǎng)絡(luò)攻擊以及防止數(shù)據(jù)泄露的問題發(fā)生;從個(gè)人層面,大數(shù)據(jù)安全保障技術(shù)主要是為了保護(hù)個(gè)人的隱私安全問題。2.2.2大數(shù)據(jù)的價(jià)值大數(shù)據(jù)的價(jià)值伴隨著數(shù)據(jù)的處理過程而產(chǎn)生(其處理過程如下圖所示),并在社會的方方面面中體現(xiàn)著它的價(jià)值。概括起來大數(shù)據(jù)的價(jià)值主要體現(xiàn)在以下2個(gè)方面:2.2.2大數(shù)據(jù)的價(jià)值1.發(fā)現(xiàn)規(guī)律在大數(shù)據(jù)分析中可以挖掘出不同要素之間的相關(guān)關(guān)系。這些關(guān)系體現(xiàn)的就是大數(shù)據(jù)中蘊(yùn)含的規(guī)律,通過找到這些規(guī)律,有助于認(rèn)清事物的本質(zhì),進(jìn)而好的為人類服務(wù)。醫(yī)院可以更快的發(fā)現(xiàn)疾病,研制出相應(yīng)的藥品,挽救更多人的生命;企業(yè)可以更好的了解不同顧客的需求,從而有針對性的為客戶推薦商品,減少顧客的選購商品的時(shí)間等。2.預(yù)測未來

大數(shù)據(jù)以龐大的數(shù)據(jù)樣本量以及先進(jìn)算法技術(shù)大幅度提高了預(yù)測的準(zhǔn)確率,為企業(yè)擴(kuò)大了競爭優(yōu)勢,為人們的衣食住行也提供了很大的便利。比如銀行可以借助大數(shù)據(jù)預(yù)測潛在的風(fēng)險(xiǎn),從而預(yù)防潛在的金融危機(jī);氣象局可以更精準(zhǔn)的預(yù)測未來的天氣,方便人們的出行等。03大數(shù)據(jù)與相關(guān)領(lǐng)域的聯(lián)系PART

THREE大數(shù)據(jù)與相關(guān)領(lǐng)域的聯(lián)系大數(shù)據(jù)的發(fā)展也與其他相關(guān)領(lǐng)域的出現(xiàn)有和發(fā)展著密不可分的聯(lián)系:數(shù)據(jù)科學(xué)是大數(shù)據(jù)研究的基礎(chǔ)理論,物聯(lián)網(wǎng)為大數(shù)據(jù)的數(shù)據(jù)采集提供了新的數(shù)據(jù)來源,區(qū)塊鏈技術(shù)保障了大數(shù)據(jù)存儲的安全性,而人工智能提供了大數(shù)據(jù)分析的新的研究方法,他們相輔相成,共同促進(jìn)著大數(shù)據(jù)的發(fā)展。他們之間的關(guān)系如下圖所示。2.3.1大數(shù)據(jù)與數(shù)據(jù)科學(xué)大數(shù)據(jù)是存儲在不同地方的大量非聚合的原始數(shù)據(jù),其大小變化至少為pb級以上。隨著時(shí)間的推移會有越來越多的數(shù)據(jù)從各種來源生成,而且這些數(shù)據(jù)不是標(biāo)準(zhǔn)形式的,而是以各種形式產(chǎn)生的。數(shù)據(jù)科學(xué)是針對數(shù)據(jù)研究的理論基礎(chǔ),包含所有與結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)相關(guān)的內(nèi)容,從準(zhǔn)備、清理、分析和源于有用的視角開始。它結(jié)合了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、智能數(shù)據(jù)捕獲、編程、問題解決、數(shù)據(jù)清理、不同的觀察角度、準(zhǔn)備和數(shù)據(jù)對齊。它是對數(shù)據(jù)進(jìn)行處理的幾種技術(shù)和流程的組合,以獲得有價(jià)值的業(yè)務(wù)視角。簡而言之,大數(shù)據(jù)是數(shù)據(jù)科學(xué)領(lǐng)域中的一個(gè)重要的并且很熱門的研究點(diǎn)。高效的解決大數(shù)據(jù)存儲與處理的問題一直以來也是數(shù)據(jù)科學(xué)所追求的目標(biāo)。也可以說數(shù)據(jù)科學(xué)的研究是包含著大數(shù)據(jù)的,大數(shù)據(jù)的研究推進(jìn)也有助于數(shù)據(jù)科學(xué)的發(fā)展。2.3.2大數(shù)據(jù)與物聯(lián)網(wǎng)物聯(lián)網(wǎng)(TheInternetofThings,簡稱IOT)是指通過各種信息傳感器、射頻識別技術(shù)、全球定位系統(tǒng)、紅外感應(yīng)器、激光掃描器等各種裝置與技術(shù),實(shí)時(shí)采集任何需要監(jiān)控、連接、互動的物體或過程,采集其聲、光、熱、電、力學(xué)、化學(xué)、生物、位置等各種需要的信息,通過各類可能的網(wǎng)絡(luò)接入,實(shí)現(xiàn)物與物、物與人的泛在連接,實(shí)現(xiàn)對物品和過程的智能化感知、識別和管理。簡單地說,物聯(lián)網(wǎng)即“萬物相連的互聯(lián)網(wǎng)”,實(shí)現(xiàn)在任何時(shí)間、任何地點(diǎn)上人、機(jī)、物的互聯(lián)互通。2.3.2大數(shù)據(jù)與物聯(lián)網(wǎng)對于大數(shù)據(jù)而言,物聯(lián)網(wǎng)是大數(shù)據(jù)的一個(gè)重要來源。大數(shù)據(jù)的數(shù)據(jù)來源主要有三個(gè)方面,分別是物聯(lián)網(wǎng)、Web系統(tǒng)和傳統(tǒng)信息系統(tǒng),其中物聯(lián)網(wǎng)是大數(shù)據(jù)的主要數(shù)據(jù)來源,占到了整個(gè)數(shù)據(jù)來源的百分之九十以上,所以說沒有物聯(lián)網(wǎng)也就沒有大數(shù)據(jù)。對于物聯(lián)網(wǎng)來說,大數(shù)據(jù)又是物聯(lián)網(wǎng)體系的重要組成部分。物聯(lián)網(wǎng)的體系結(jié)構(gòu)分成六個(gè)部分,分別是設(shè)備、網(wǎng)絡(luò)、平臺、數(shù)據(jù)分析、應(yīng)用和安全,其中大數(shù)據(jù)分析就是物聯(lián)網(wǎng)數(shù)據(jù)分析部分的主要研究內(nèi)容,而且物聯(lián)網(wǎng)將事物和信息聯(lián)系起來,使數(shù)據(jù)和實(shí)物之間有了關(guān)聯(lián)性,能產(chǎn)生更大的價(jià)值。2.3.3大數(shù)據(jù)與區(qū)塊鏈區(qū)塊鏈(Blockchain)是用分布式數(shù)據(jù)庫識別、傳播和記載信息的智能化對等網(wǎng)絡(luò),也稱為價(jià)值互聯(lián)網(wǎng)。是利用分布式數(shù)據(jù)存儲、點(diǎn)對點(diǎn)傳輸、共識機(jī)制、加密算法等計(jì)算機(jī)技術(shù)形成的新型應(yīng)用模式。區(qū)塊鏈一詞最早是作為比特幣的底層技術(shù)之一出現(xiàn)的,它本質(zhì)上是一個(gè)去中心化的數(shù)據(jù)庫。從科技層面來看,區(qū)塊鏈涉及數(shù)學(xué)、密碼學(xué)、互聯(lián)網(wǎng)和計(jì)算機(jī)編程等很多科學(xué)技術(shù)問題。從應(yīng)用視角來看,區(qū)塊鏈?zhǔn)且粋€(gè)分布式的共享賬本和數(shù)據(jù)庫,具有去中心化、不可篡改、全程留痕、可以追溯、集體維護(hù)、公開透明等特點(diǎn)。這些特點(diǎn)保證了區(qū)塊鏈的“誠實(shí)”與“透明”,為區(qū)塊鏈創(chuàng)造信任奠定基礎(chǔ)。2.3.3大數(shù)據(jù)與區(qū)塊鏈在大數(shù)據(jù)中,區(qū)塊鏈技術(shù)保障了大數(shù)據(jù)的安全,使得大數(shù)據(jù)在存儲和使用時(shí)的安全問題得到了極大的解決。其工作原理就是把所有數(shù)據(jù)東西拆分成更小的部分并使其分布在整個(gè)計(jì)算機(jī)網(wǎng)絡(luò)上,而不是把數(shù)據(jù)上傳到云服務(wù)器上,或者把數(shù)據(jù)存儲在一個(gè)地方的傳統(tǒng)方式,這樣就有效地排除了中間人處理數(shù)據(jù)的傳輸和交易。此

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論