大數(shù)據(jù)導(dǎo)論(通識(shí)課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第1頁(yè)
大數(shù)據(jù)導(dǎo)論(通識(shí)課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第2頁(yè)
大數(shù)據(jù)導(dǎo)論(通識(shí)課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第3頁(yè)
大數(shù)據(jù)導(dǎo)論(通識(shí)課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第4頁(yè)
大數(shù)據(jù)導(dǎo)論(通識(shí)課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第5頁(yè)
已閱讀5頁(yè),還剩62頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章大數(shù)據(jù)技術(shù)目錄3.1概述3.2數(shù)據(jù)采集與預(yù)處理3.3數(shù)據(jù)存儲(chǔ)和管理3.4數(shù)據(jù)處理與分析3.5數(shù)據(jù)可視化3.6數(shù)據(jù)安全和隱私保護(hù)3.1大數(shù)據(jù)技術(shù)概述3.1大數(shù)據(jù)技術(shù)概述數(shù)據(jù)的概念

數(shù)據(jù)采集與預(yù)處理

數(shù)據(jù)存儲(chǔ)和管理

數(shù)據(jù)處理與分析

數(shù)據(jù)可視化

數(shù)據(jù)安全和隱私保護(hù)大數(shù)據(jù)技術(shù)層次3.1大數(shù)據(jù)技術(shù)概述數(shù)據(jù)的概念技術(shù)層面功能數(shù)據(jù)采集與預(yù)處理利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ);利用日志采集工具(如Flume、Kafka等)把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析;利用網(wǎng)頁(yè)爬蟲(chóng)程序到互聯(lián)網(wǎng)網(wǎng)站中爬取數(shù)據(jù)數(shù)據(jù)存儲(chǔ)和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)庫(kù)等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析數(shù)據(jù)可視化對(duì)分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)安全和隱私保護(hù)在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí),構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全表大數(shù)據(jù)技術(shù)的不同層面及其功能3.2數(shù)據(jù)采集與預(yù)處理提綱3.2.1數(shù)據(jù)采集的概念3.2.3數(shù)據(jù)采集的數(shù)據(jù)源3.2.2數(shù)據(jù)采集的三大要點(diǎn)3.2.4數(shù)據(jù)清洗3.2.1數(shù)據(jù)采集的概念數(shù)據(jù)的概念數(shù)據(jù)采集隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng),大約每?jī)赡攴环?,這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和。世界上每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),包括物聯(lián)網(wǎng)傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、商品交易數(shù)據(jù)等等。面對(duì)如此巨大的數(shù)據(jù),與之相關(guān)的采集、存儲(chǔ)、分析等等環(huán)節(jié)產(chǎn)生了一系列的問(wèn)題3.2.1數(shù)據(jù)采集的概念數(shù)據(jù)的概念數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是數(shù)據(jù)分析的入口,也是數(shù)據(jù)分析過(guò)程中相當(dāng)重要的一個(gè)環(huán)節(jié),它通過(guò)各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實(shí)時(shí)或非實(shí)時(shí)地采集并加以利用。3.2.1數(shù)據(jù)采集的概念數(shù)據(jù)的概念數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)3.2.1數(shù)據(jù)采集的概念數(shù)據(jù)的概念來(lái)源單一,數(shù)據(jù)量相對(duì)較少數(shù)據(jù)源結(jié)構(gòu)單一數(shù)據(jù)類型關(guān)系數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)來(lái)源廣泛,數(shù)據(jù)量巨大數(shù)據(jù)源數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型分布式數(shù)據(jù)庫(kù),分布式文件系統(tǒng)數(shù)據(jù)存儲(chǔ)傳統(tǒng)的數(shù)據(jù)采集大數(shù)據(jù)采集傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集區(qū)別3.2.2數(shù)據(jù)采集的3大要點(diǎn)數(shù)據(jù)的概念數(shù)據(jù)采集的三大要點(diǎn)0203多維性全面性高效性013.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念數(shù)據(jù)采集的數(shù)據(jù)源03

企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)04

日志文件01

傳感器02互聯(lián)網(wǎng)數(shù)據(jù)3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念1.傳感器傳感器溫度計(jì)、麥克風(fēng)、DV錄像、手機(jī)拍照功能等,都屬于傳感器的一部分壓力傳感器、溫度傳感器、流量傳感器、聲音傳感器、電參數(shù)傳感器傳感器是一種檢測(cè)裝置,能感受到被測(cè)量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號(hào),或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲(chǔ)、顯示、記錄和控制等要求3.2.3數(shù)據(jù)采集的數(shù)據(jù)源2.互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)采集是借助于網(wǎng)絡(luò)爬蟲(chóng)來(lái)完成的。所謂“網(wǎng)絡(luò)爬蟲(chóng)”,就是一個(gè)在網(wǎng)上到處或定向抓取網(wǎng)頁(yè)數(shù)據(jù)的程序。爬蟲(chóng)數(shù)據(jù)采集方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念3.日志文件日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動(dòng),比如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用的股票記賬和Web服務(wù)器記錄的用戶訪問(wèn)行為。通過(guò)對(duì)這些日志信息進(jìn)行采集,然后進(jìn)行數(shù)據(jù)分析,就可以從公司業(yè)務(wù)平臺(tái)日志數(shù)據(jù)中,挖掘得到具有潛在價(jià)值的信息,為公司決策和公司后臺(tái)服務(wù)器平臺(tái)性能評(píng)估,提供可靠的數(shù)據(jù)保證。系統(tǒng)日志采集系統(tǒng)做的事情就是,收集日志數(shù)據(jù),提供離線和在線的實(shí)時(shí)分析使用。3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念ChukwaFlumeScribe3.日志文件3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念4.企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)一些企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)業(yè)務(wù)系統(tǒng)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的存儲(chǔ)。企業(yè)每時(shí)每刻產(chǎn)生的業(yè)務(wù)數(shù)據(jù),以數(shù)據(jù)庫(kù)一行記錄的形式,被直接寫入到數(shù)據(jù)庫(kù)中3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念企業(yè)可以借助于ETL(Extract-Transform-Load)工具,把分散在企業(yè)不同位置的業(yè)務(wù)系統(tǒng)的數(shù)據(jù),抽取、轉(zhuǎn)換、加載到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中,以供后續(xù)的商務(wù)智能分析使用圖

數(shù)據(jù)倉(cāng)庫(kù)體系架構(gòu)3.2.3數(shù)據(jù)采集的數(shù)據(jù)源

數(shù)據(jù)采集數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換操作數(shù)據(jù)清洗企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)010203043.2.4數(shù)據(jù)清洗數(shù)據(jù)清洗是指將大量原始數(shù)據(jù)中的“臟”數(shù)據(jù)“洗掉”,它是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。比如,在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),由于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來(lái),而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”給“洗掉”,這就是“數(shù)據(jù)清洗”3.2.4數(shù)據(jù)清洗數(shù)據(jù)的概念1.需要清洗的數(shù)據(jù)的主要類型重復(fù)數(shù)據(jù)錯(cuò)誤數(shù)據(jù)殘缺數(shù)據(jù)3.2.4數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容一致性檢查無(wú)效值和缺失值的處理估算整例刪除變量刪除成對(duì)刪除3.2.4數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容一致性檢查一致性檢查是根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。例如,用1-7級(jí)量表測(cè)量的變量出現(xiàn)了0值,體重出現(xiàn)了負(fù)數(shù),都應(yīng)視為超出正常值域范圍。SPSS、SAS、和Excel等計(jì)算機(jī)軟件都能夠根據(jù)定義的取值范圍,自動(dòng)識(shí)別每個(gè)超出范圍的變量值。具有邏輯上不一致性的答案,可能以多種形式出現(xiàn):如許多調(diào)查對(duì)象說(shuō)自己開(kāi)車上班,又報(bào)告說(shuō)沒(méi)有汽車;或者調(diào)查對(duì)象報(bào)告自己是某品牌的重度購(gòu)買者和使用者,但同時(shí)又在熟悉程度量表上給了很低的分值。發(fā)現(xiàn)不一致時(shí),要列出問(wèn)卷序號(hào)、記錄序號(hào)、變量名稱、錯(cuò)誤類別等,便于進(jìn)一步核對(duì)和糾正3.2.4數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容無(wú)效值和缺失值的處理由于調(diào)查、編碼和錄入誤差,數(shù)據(jù)中可能存在一些無(wú)效值和缺失值,需要給予適當(dāng)?shù)奶幚?。常用的處理方法有:估算、整例刪除、變量刪除和成對(duì)刪除。估算最簡(jiǎn)單的辦法就是用某個(gè)變量的樣本均值、中位數(shù)或眾數(shù),代替無(wú)效值和缺失值。另一種辦法就是根據(jù)調(diào)查對(duì)象對(duì)其他問(wèn)題的答案,通過(guò)變量之間的相關(guān)分析或邏輯推論進(jìn)行估計(jì)。3.2.4數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容整例刪除變量刪除成對(duì)刪除適合關(guān)鍵變量缺失,或者含有無(wú)效值或缺失值的樣本比重很小的情況如果某一變量的無(wú)效值和缺失值很多,而且該變量對(duì)于所研究的問(wèn)題不是特別重要,則可以考慮將該變量刪除成對(duì)刪除是用一個(gè)特殊碼代表無(wú)效值和缺失值,同時(shí)保留數(shù)據(jù)集中的全部變量和樣本3.3數(shù)據(jù)存儲(chǔ)與管理3.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念數(shù)據(jù)存儲(chǔ)和管理傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)3.3.1大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)和管理技術(shù)3.3.23.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念文件系統(tǒng)是操作系統(tǒng)用于明確存儲(chǔ)設(shè)備(常見(jiàn)的是磁盤,也有基于NANDFlash的固態(tài)硬盤)或分區(qū)上的文件的方法和數(shù)據(jù)結(jié)構(gòu),即在存儲(chǔ)設(shè)備上組織文件的方法。操作系統(tǒng)中負(fù)責(zé)管理和存儲(chǔ)文件信息的軟件機(jī)構(gòu)稱為文件管理系統(tǒng),簡(jiǎn)稱“文件系統(tǒng)”文件系統(tǒng)由三部分組成:文件系統(tǒng)的接口,對(duì)對(duì)象操縱和管理的軟件集合,對(duì)象及屬性。從系統(tǒng)角度來(lái)看,文件系統(tǒng)是對(duì)文件存儲(chǔ)設(shè)備的空間進(jìn)行組織和分配,負(fù)責(zé)文件存儲(chǔ)并對(duì)存入的文件進(jìn)行保護(hù)和檢索的系統(tǒng)。具體地說(shuō),它負(fù)責(zé)為用戶建立文件,存入、讀出、修改、轉(zhuǎn)儲(chǔ)文件,控制文件的存取,當(dāng)用戶不再使用時(shí)撤銷文件等。我們平時(shí)在計(jì)算機(jī)上使用的WORD文件、PPT文件、文本文件、音頻文件、視頻文件等,都是由操作系統(tǒng)中的文件系統(tǒng)進(jìn)行統(tǒng)一管理的A

B

1.文件系統(tǒng)3.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念2.關(guān)系數(shù)據(jù)庫(kù)除了文件系統(tǒng)之外,數(shù)據(jù)庫(kù)是另外一種主流的數(shù)據(jù)存儲(chǔ)和管理技術(shù)。數(shù)據(jù)庫(kù)指的是以一定方式儲(chǔ)存在一起、能為多個(gè)用戶共享、具有盡可能小的冗余度、與應(yīng)用程序彼此獨(dú)立的數(shù)據(jù)集合。在數(shù)據(jù)庫(kù)的發(fā)展歷史上,先后出現(xiàn)過(guò)網(wǎng)狀數(shù)據(jù)庫(kù)、層次數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)等不同類型的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)分別采用了不同的數(shù)據(jù)模型,目前比較主流的數(shù)據(jù)庫(kù)是關(guān)系數(shù)據(jù)庫(kù),它采用了關(guān)系數(shù)據(jù)模型來(lái)組織和管理數(shù)據(jù)。3.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念2.關(guān)系數(shù)據(jù)庫(kù)AB一個(gè)關(guān)系數(shù)據(jù)庫(kù)可以看成是許多關(guān)系表的集合,每個(gè)關(guān)系表可以看成一張二維表格目前市場(chǎng)上常見(jiàn)的關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品包括Oracle、SQLServer、MySQL、DB2等3.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念學(xué)號(hào)姓名性別年齡考試成績(jī)95001張三男218895002李四男229595003王梅女227395004林莉女2196表

學(xué)生信息表2.關(guān)系數(shù)據(jù)庫(kù)3.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念3.數(shù)據(jù)倉(cāng)庫(kù)圖

數(shù)據(jù)倉(cāng)庫(kù)體系架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策3.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是面向主題設(shè)計(jì)的數(shù)據(jù)庫(kù)是面向事務(wù)的設(shè)計(jì)數(shù)據(jù)庫(kù)一般存儲(chǔ)在線交易數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的一般是歷史數(shù)據(jù)3.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念4.并行數(shù)據(jù)庫(kù)并行數(shù)據(jù)庫(kù)是指那些在無(wú)共享的體系結(jié)構(gòu)中進(jìn)行數(shù)據(jù)操作的數(shù)據(jù)庫(kù)系統(tǒng)這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語(yǔ)句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個(gè)關(guān)鍵技術(shù):關(guān)系表的水平劃分和SQL查詢的分區(qū)執(zhí)行并行數(shù)據(jù)庫(kù)系統(tǒng)的目標(biāo)是高性能和高可用性,通過(guò)多個(gè)節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫(kù)任務(wù),提高整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的性能和可用性3.3.1傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念4.并行數(shù)據(jù)庫(kù)數(shù)據(jù)轉(zhuǎn)移的代價(jià)是昂貴并行數(shù)據(jù)庫(kù)缺點(diǎn)彈性差容錯(cuò)性差轉(zhuǎn)移成本高集群處理差3.3.2大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念1.分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem)是一種通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺(tái)主機(jī)上進(jìn)行分布式存儲(chǔ)的文件系統(tǒng)圖分布式文件系統(tǒng)的整體結(jié)構(gòu)3.3.2大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念1.分布式文件系統(tǒng)谷歌開(kāi)發(fā)了分布式文件系統(tǒng)GFS,通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺(tái)機(jī)器上的分布式存儲(chǔ),較好地滿足了大規(guī)模數(shù)據(jù)存儲(chǔ)的需求。Hadoop分布式文件系統(tǒng)HDFS是針對(duì)GFS的開(kāi)源實(shí)現(xiàn),它是Hadoop兩大核心組成部分之一,提供了在廉價(jià)服務(wù)器集群中進(jìn)行大規(guī)模分布式文件存儲(chǔ)的能力。3.3.2大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(kù)

(1)NewSQL數(shù)據(jù)庫(kù)NewSQL簡(jiǎn)介NewSQL是對(duì)各種新的可擴(kuò)展、高性能數(shù)據(jù)庫(kù)的簡(jiǎn)稱,這類數(shù)據(jù)庫(kù)不僅具有對(duì)海量數(shù)據(jù)的存儲(chǔ)管理能力,還保持了傳統(tǒng)數(shù)據(jù)庫(kù)支持ACID和SQL等.特性不同的NewSQL數(shù)據(jù)庫(kù)有兩個(gè)顯著的共同特點(diǎn):都支持關(guān)系數(shù)據(jù)模型;都使用SQL作為其主要的接口。在眾多NewSQL數(shù)據(jù)庫(kù)中,Spanner備受矚目,它是一個(gè)可擴(kuò)展、多版本、全球分布式并且支持同步復(fù)制的數(shù)據(jù)庫(kù),是Google的第一個(gè)可以全球擴(kuò)展并且支持外部一致性的數(shù)據(jù)庫(kù)。代表性的NewSQL數(shù)據(jù)庫(kù)3.3.2大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(kù)

(2)NoSQL數(shù)據(jù)庫(kù)NoSQL數(shù)據(jù)庫(kù)沒(méi)有固定的表結(jié)構(gòu),通常也不存在連接操作,也沒(méi)有嚴(yán)格遵守ACID約束,因此,與關(guān)系數(shù)據(jù)庫(kù)相比,NoSQL具有靈活的水平可擴(kuò)展性,可以支持海量數(shù)據(jù)存儲(chǔ)NoSQL是一種不同于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)方式,是對(duì)非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱,它所采用的數(shù)據(jù)模型并非傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的關(guān)系模型,而是類似鍵/值、列族、文檔等非關(guān)系模型3.3.2大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(kù)(2)NoSQL數(shù)據(jù)庫(kù)靈活的可擴(kuò)展性靈活的數(shù)據(jù)模型與云計(jì)算緊密融合NoSQL優(yōu)點(diǎn)3.3.2大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(kù)(3)大數(shù)據(jù)引發(fā)數(shù)據(jù)庫(kù)架構(gòu)變革圖

大數(shù)據(jù)引發(fā)數(shù)據(jù)處理架構(gòu)變革3.4數(shù)據(jù)處理與分析提綱數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法

大數(shù)據(jù)處理與分析技術(shù)3.4.13.4.23.4.1數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是計(jì)算機(jī)學(xué)科中最活躍的研究分支之一。機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科,專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能,它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)與數(shù)據(jù)庫(kù)的交叉,它主要利用機(jī)器學(xué)習(xí)界提供的算法來(lái)分析海量數(shù)據(jù),利用數(shù)據(jù)庫(kù)界提供的存儲(chǔ)技術(shù)來(lái)管理海量數(shù)據(jù)。從知識(shí)的來(lái)源角度而言,數(shù)據(jù)挖掘領(lǐng)域的很多知識(shí)也“間接”來(lái)自于統(tǒng)計(jì)學(xué)界3.4.1數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法典型的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法3.4.1分類聚類回歸分析關(guān)聯(lián)規(guī)則3.4.2大數(shù)據(jù)處理與分析技術(shù)由于企業(yè)內(nèi)部存在多種不同的應(yīng)用場(chǎng)景,因此,大數(shù)據(jù)處理的問(wèn)題復(fù)雜多樣,單一的技術(shù)是無(wú)法滿足不同類型的計(jì)算需求的,MapReduce其實(shí)只是大數(shù)據(jù)處理技術(shù)中的一種3.4.2大數(shù)據(jù)處理與分析技術(shù)批處理計(jì)算流計(jì)算圖計(jì)算查詢分析計(jì)算3.4.2大數(shù)據(jù)處理與分析技術(shù)大數(shù)據(jù)處理分析技術(shù)類型及其代表產(chǎn)品大數(shù)據(jù)計(jì)算模式解決問(wèn)題代表產(chǎn)品批處理計(jì)算針對(duì)大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計(jì)算針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺(tái)等圖計(jì)算針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析Dremel、Hive、Cassandra、Impala等3.5數(shù)據(jù)可視化提綱3.5.1數(shù)據(jù)可視化的概念與作用3.5.2數(shù)據(jù)可視化案例3.5.1數(shù)據(jù)可視化的概念數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開(kāi)發(fā)工具發(fā)現(xiàn)其中未知信息的處理過(guò)程數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析數(shù)據(jù)可視化概念3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用依靠可視化手段進(jìn)行數(shù)據(jù)分析必將成為大數(shù)據(jù)分析流程的主要環(huán)節(jié)之一。讓“茫茫數(shù)據(jù)”以可視化的方式呈現(xiàn),讓枯燥的數(shù)據(jù)以簡(jiǎn)單友好的圖表形式展現(xiàn)出來(lái),可以讓數(shù)據(jù)變得更加通俗易懂,有助于用戶更加方便快捷地理解數(shù)據(jù)的深層次含義,有效參與復(fù)雜的數(shù)據(jù)分析過(guò)程,提升數(shù)據(jù)分析效率,改善數(shù)據(jù)分析效果。3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用(1)觀測(cè)、跟蹤數(shù)據(jù)圖

百度地圖顯示的北京市實(shí)時(shí)交通路況信息3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用(2)分析數(shù)據(jù)圖

用戶參與的可視化分析過(guò)程3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用(3)輔助理解數(shù)據(jù)圖

微軟“人立方”展示的人物關(guān)系圖3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用(4)增強(qiáng)數(shù)據(jù)吸引力圖

一個(gè)可視化的圖表新聞實(shí)例3.5.3數(shù)據(jù)可視化案例1234全球黑客活動(dòng)互聯(lián)網(wǎng)地圖編程語(yǔ)言之間的影響力關(guān)系圖世界國(guó)家健康與財(cái)富之間的關(guān)系3.5.3數(shù)據(jù)可視化案例1.互聯(lián)網(wǎng)地圖為了探究互聯(lián)網(wǎng)這個(gè)龐大的宇宙,俄羅斯工程師RuslanEnikeev根據(jù)2011年底的數(shù)據(jù),將全球196個(gè)國(guó)家的35萬(wàn)個(gè)網(wǎng)站數(shù)據(jù)整合起來(lái),并根據(jù)200多萬(wàn)個(gè)網(wǎng)站鏈接將這些“星球”通過(guò)關(guān)系鏈聯(lián)系起來(lái),每一個(gè)“星球”的大小根據(jù)其網(wǎng)站流量來(lái)決定,而“星球”之間的距離遠(yuǎn)近則根據(jù)鏈接出現(xiàn)的頻率、強(qiáng)度和用戶跳轉(zhuǎn)時(shí)創(chuàng)建的鏈接來(lái)確定,由此繪制得到了“互聯(lián)網(wǎng)地圖”()。圖

俄羅斯工程師繪制的“互聯(lián)網(wǎng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論