實時工業(yè)大數(shù)據(jù)平臺設(shè)計課件_第1頁
實時工業(yè)大數(shù)據(jù)平臺設(shè)計課件_第2頁
實時工業(yè)大數(shù)據(jù)平臺設(shè)計課件_第3頁
實時工業(yè)大數(shù)據(jù)平臺設(shè)計課件_第4頁
實時工業(yè)大數(shù)據(jù)平臺設(shè)計課件_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

實時工業(yè)大數(shù)據(jù)平臺設(shè)計技術(shù)創(chuàng)新,變革未來實時工業(yè)大數(shù)據(jù)平臺設(shè)計技術(shù)創(chuàng)新,變革未來1?I

have

a

dream!有夢想固然是好的,但是任何不以落地為目的的夢想都是空想。在明確實際的立足點之后,圍繞著目標就要分清Want與Need了。Want是夢想,而Need是需求,是可以落地可以成為目標的實體。大數(shù)據(jù)的挑戰(zhàn)…...Ihaveadream!有夢想固然是好的,但是任何不以2立足于制造行業(yè)來看,直接影響到大數(shù)據(jù)成功與否的因素大致如左圖所示。數(shù)據(jù)集成,也可以說是多方數(shù)據(jù)平臺化的匯總吧。對于制造行業(yè)的數(shù)據(jù)質(zhì)量往往是不能得到足夠保證的。大數(shù)據(jù)的挑戰(zhàn)…...立足于制造行業(yè)來看,直接影響到大數(shù)據(jù)成功與否的因素大致如3看到的現(xiàn)象表面原因過渡原因根本原因大數(shù)據(jù)平臺待建數(shù)據(jù)庫計算能力不足數(shù)據(jù)量大個性化平臺業(yè)務(wù)數(shù)據(jù)孤島實時海量存儲計算人力不足成本過高技術(shù)沉淀不足如何解決…...4看到的現(xiàn)象表面原因過渡原因根本原因大數(shù)據(jù)平臺待建數(shù)據(jù)庫計算能數(shù)據(jù)湖的概念多元化數(shù)據(jù)源接入多元化數(shù)據(jù)格式低成本存儲簡單模型彈性擴展引流出多元化功能性支流可便捷構(gòu)建數(shù)據(jù)倉庫數(shù)據(jù)分析與科學計算松耦合全量數(shù)據(jù)更易于發(fā)掘數(shù)據(jù)本身的潛在價值精細化規(guī)范體系建設(shè)避免數(shù)據(jù)湖淪為數(shù)據(jù)沼澤什么是數(shù)據(jù)湖(Data

Lake)數(shù)據(jù)湖并不是一個純技術(shù)概念,而是數(shù)據(jù)管理的一種方法論。數(shù)據(jù)湖實際上是一種利用低成本技術(shù)來捕捉,提煉,儲存和探索大規(guī)模的長期的原始數(shù)據(jù)的方法與技術(shù)實現(xiàn)。數(shù)據(jù)湖特征數(shù)據(jù)存儲:大容量低成本;數(shù)據(jù)保真度:數(shù)據(jù)湖以原始的格式保存數(shù)據(jù),具有高保真度;數(shù)據(jù)使用:數(shù)據(jù)湖中的數(shù)據(jù)可以方便的被使用,進而引流到外圍應(yīng)用;延遲綁定:不需要提前定義數(shù)據(jù)模型。數(shù)據(jù)湖的概念多元化數(shù)據(jù)源接入多元化數(shù)據(jù)格式低成本存儲引流5數(shù)據(jù)湖的發(fā)展階段3蠻荒期6企業(yè)各類數(shù)據(jù)分析通過傳統(tǒng)數(shù)據(jù)倉庫來實現(xiàn)1萌芽期2企業(yè)引入了大數(shù)據(jù)平臺企業(yè)的應(yīng)用數(shù)據(jù)和大數(shù)據(jù)平臺有交互新的系統(tǒng)直接支持大數(shù)據(jù)平臺大數(shù)據(jù)平臺成為缺省配置數(shù)據(jù)倉庫只在特定場景下使用外部的數(shù)據(jù)也引入數(shù)據(jù)湖泊中成長期成熟期4數(shù)據(jù)湖和應(yīng)用組件完善大數(shù)據(jù)平臺大量采用加強其可靠性和安全性對外提供豐富的應(yīng)用接口做到多租戶的云服務(wù)數(shù)據(jù)湖的發(fā)展階段3蠻荒期6企業(yè)各類數(shù)據(jù)分析通過傳統(tǒng)數(shù)據(jù)倉庫1423數(shù)據(jù)庫數(shù)據(jù)實時接入異構(gòu)數(shù)據(jù)庫數(shù)據(jù)融合每秒百萬級數(shù)據(jù)接入數(shù)據(jù)備份及容災功能數(shù)據(jù)快照及數(shù)據(jù)回溯百億級數(shù)據(jù)亞秒級查詢單位格級別統(tǒng)一權(quán)限管理金融級自動化數(shù)據(jù)加密敏感數(shù)據(jù)脫敏海量數(shù)據(jù)機器學習及數(shù)據(jù)挖掘系統(tǒng)海量小文件存儲及檢索無間斷動態(tài)擴容5 高壓縮比文件儲存標準SQL接口,靈活擴展湖平臺7集團數(shù)據(jù)湖產(chǎn)品1423數(shù)據(jù)庫數(shù)據(jù)實時接入異構(gòu)數(shù)據(jù)庫數(shù)據(jù)融合每秒百萬級數(shù)數(shù)據(jù)湖建設(shè)目的集團數(shù)據(jù)平臺在統(tǒng)一規(guī)劃和運營的基礎(chǔ)上,可根據(jù)用戶的能力和需求,提供靈活、多樣、敏捷的服務(wù),協(xié)助企業(yè)建立自身大數(shù)據(jù)應(yīng)用能力。目前,集團數(shù)據(jù)平臺技術(shù)已經(jīng)逐步產(chǎn)品化,并計劃向合資企業(yè)和外部企業(yè)輸出。同時,在數(shù)據(jù)應(yīng)用項目的過程中平臺將積累共性需求,形成數(shù)據(jù)產(chǎn)品、算法服務(wù)。

數(shù)據(jù)湖產(chǎn)品 數(shù)據(jù)產(chǎn)品/算法服務(wù)數(shù)據(jù)湖建設(shè)目的集團數(shù)據(jù)平臺在統(tǒng)一規(guī)劃和運營的基礎(chǔ)上,可根據(jù)用8數(shù)據(jù)湖產(chǎn)品框架9采用開源軟件架構(gòu),構(gòu)建的實時大數(shù)據(jù)集成平臺。降低企業(yè)使用大數(shù)據(jù)技術(shù)的成本,為數(shù)據(jù)分析師、業(yè)務(wù)分析師們提供更高效易用的工具,加速數(shù)據(jù)應(yīng)用的建設(shè)和推廣,并提供全字段金融等級3DES加密,自動無感知的密鑰更新,防止密鑰泄露。單元格級別權(quán)限控制和數(shù)據(jù)脫敏訪問。為集團大數(shù)據(jù)平臺一體化打下基礎(chǔ)。數(shù)據(jù)湖產(chǎn)品框架9采用開源軟件架構(gòu),構(gòu)建的實時大數(shù)據(jù)集成平臺。數(shù)據(jù)湖產(chǎn)品框架數(shù)據(jù)湖產(chǎn)品框架10整個數(shù)據(jù)湖體系分為三個部分:多源數(shù)據(jù)接入、中心湖群、外圍流域。多源數(shù)據(jù)接入:可分為結(jié)構(gòu)化數(shù)據(jù)(需保證強一致性的數(shù)據(jù)庫數(shù)據(jù))、半/非結(jié)構(gòu)化數(shù)據(jù)(不需要保證一致性的日志、音頻數(shù)據(jù))。中心湖區(qū):由核心業(yè)務(wù)對應(yīng)的中心湖區(qū)和其他功能湖組成。集團湖與企業(yè)湖之間通過統(tǒng)一的數(shù)據(jù)交換層實現(xiàn)數(shù)據(jù)交換。中心湖的數(shù)據(jù)受到嚴格監(jiān)管,包括:數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)審計等。外圍流域:從中心湖區(qū)通過統(tǒng)一的數(shù)據(jù)交換層,將數(shù)據(jù)引流到多元化的數(shù)據(jù)載體中,提供各類型的數(shù)據(jù)分析與科學計算應(yīng)用服務(wù)。數(shù)據(jù)湖物理架構(gòu)11整個數(shù)據(jù)湖體系分為三個部分:多源數(shù)據(jù)接入、中心湖群、外圍流域結(jié)構(gòu)化數(shù)據(jù)湖概覽圖分布式涓流傳輸集群,完美融合存量數(shù)據(jù)高速并發(fā)導入與增量數(shù)據(jù)導入。任務(wù)總線控制涓流數(shù)據(jù)加密后入庫到HBase數(shù)據(jù)庫分片數(shù)據(jù)存儲,同時記錄metastore。基于Hive和Spark的定制版Handle提供HiveSQL和SparkSQL接口,同時完成數(shù)據(jù)出庫的解密。在定制化工作臺內(nèi),植入汽車行業(yè)相關(guān)業(yè)務(wù)的智能算法庫,實現(xiàn)拖曳式智能算法應(yīng)用。新增文件湖和日志湖的架構(gòu),以支持車聯(lián)網(wǎng)數(shù)據(jù)的承接與應(yīng)用。結(jié)構(gòu)化數(shù)據(jù)湖概覽圖分布式涓流傳輸集群,完美融合存量數(shù)據(jù)高速并12日志湖與文件湖概覽圖日志湖區(qū)和文件湖區(qū)往往數(shù)據(jù)量非常大,且價值密度較低。對于這類數(shù)據(jù)不要求強一致性,故而可不進行數(shù)據(jù)審計和定期數(shù)據(jù)一致性校驗。日志湖和文件湖多以半/非結(jié)構(gòu)化數(shù)據(jù)為主,需要進行關(guān)聯(lián)分析的進行模型轉(zhuǎn)換,并將其導入到集團湖的HDFS或HBASE中。TBOX數(shù)據(jù)和用戶網(wǎng)頁行為分析的數(shù)據(jù),數(shù)據(jù)產(chǎn)生并發(fā)度高,數(shù)據(jù)流量大,需要用Kafka集群進行數(shù)據(jù)承接,承接過程中需要進行一定比例的數(shù)據(jù)壓縮,之后直接存儲到HDFS中,通過HIVE外部表的形式進行訪問,以降低集群負載。對于文件中心的音頻文件,推薦進行語音識別,將其轉(zhuǎn)換為文本之后,再行入庫。13日志湖與文件湖概覽圖日志湖區(qū)和文件湖區(qū)往往數(shù)據(jù)量非常大,且價BigDataon

Docker14BigDataonDocker14性能測試涓流復制傳輸平均速度:3萬行/min。數(shù)據(jù)湖在查詢性能上,約為Hive(Parquet)的10~20倍,且與Spark(Parquet)相差無幾。性能測試涓流復制傳輸平均速度:3萬行/min。15如下圖所示,完成數(shù)據(jù)湖主頁面裝載;成功接入Oracle、MySQL、SQL

Server三個數(shù)據(jù)庫的實時。數(shù)據(jù)湖平臺UI

——

看板16如下圖所示,完成數(shù)據(jù)湖主頁面裝載;數(shù)據(jù)湖平臺UI——看板數(shù)據(jù)安全管理頁面,可以完成加密方式、脫敏控制、列訪問權(quán)限、行查詢權(quán)限的設(shè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論