




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、GBase MPP數(shù)據(jù)倉庫和數(shù)據(jù)中臺建設(shè)方案邏輯數(shù)據(jù)倉庫助力新一代數(shù)據(jù)倉庫、數(shù)據(jù)中臺建設(shè)第1頁,共39頁。新一代數(shù)據(jù)倉庫和數(shù)據(jù)中臺 助力企業(yè)信息化3.01第2頁,共39頁。1、信息化1.0階段(部門級業(yè)務(wù)及事務(wù)處理)20世紀80年代到90年代,目前大部分的大中型企業(yè)都已脫離這一階段,僅有部分小企業(yè)信息化仍處于這一狀態(tài)。2、信息化2.0階段(企業(yè)級管理系統(tǒng))20世紀90年代中后期開始,目前大部分大中型企業(yè)都處于這一階段,信息孤島是 這一階段企業(yè)面臨的主要挑戰(zhàn),集成、整合是工作的重心和難點。3、信息化3.0階段(企業(yè)級決策支持)隨著云計算、大數(shù)據(jù)等新興技術(shù)的快速發(fā)展,信息化地位再次提升,信息化已成
2、 為戰(zhàn)略創(chuàng)新的重要工具和手段。目前處于該階段的企業(yè)大部分是互聯(lián)網(wǎng)企業(yè)和 金融、電信信息化程度較高的行業(yè),是大多數(shù)企業(yè)未來信息化建設(shè)的目標和方 向。信息化3.0也稱為數(shù)字化3.0,它以數(shù)據(jù)來驅(qū)動業(yè)務(wù)變革,該階段是 行業(yè)用戶數(shù)字化轉(zhuǎn)型升級的目標信息化內(nèi)容數(shù)據(jù)分析利用多系統(tǒng)整合單系統(tǒng)應(yīng)用提升效率流程與業(yè)務(wù)與管理創(chuàng)新 服務(wù)創(chuàng)新部門內(nèi)社會化組織內(nèi)信息化范圍信息化價值信息化1.0信息化2.0信息化3.0企業(yè)信息化技術(shù)發(fā)展歷程第3頁,共39頁。企業(yè)信息化2.0企業(yè)級管理系統(tǒng)ERP、CRM、PDM企業(yè)內(nèi)及上下游業(yè)務(wù)、流程整合企業(yè)信息化3.0企業(yè)級決策支持數(shù)據(jù)驅(qū)動 業(yè)務(wù)變革L(fēng)DW、DaaS、Data lake企
3、業(yè)內(nèi)部、外部、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)全數(shù)據(jù) 融合,大數(shù)據(jù)、人工智能,驅(qū)動業(yè)務(wù)創(chuàng)新,互聯(lián)網(wǎng)+下一代大數(shù)據(jù)平臺,數(shù)據(jù)中臺,新一代企 業(yè)級數(shù)據(jù)倉庫,數(shù)據(jù)分析、預(yù)測、數(shù)據(jù)驅(qū) 動業(yè)務(wù)企業(yè)信息化1.0計算機輔助辦公財務(wù)、人事、OA、進銷存 部門級業(yè)務(wù)及事務(wù)處理部門級管理系統(tǒng)利用計算機完成文字處理、報表統(tǒng)計、 賬務(wù)記錄企業(yè)信息化技術(shù)發(fā)展階段特征第4頁,共39頁。數(shù) 據(jù) 集 市Just Give MeSome Data and Fast!自下而上/企 業(yè) 級 數(shù) 據(jù) 倉 庫整 合 數(shù) 據(jù) 倉 庫Give MeGood DataBut Do It Efficiently自上而下EDW/全 面 分 析 生 態(tài) 環(huán) 境新
4、一 代 數(shù) 據(jù) 倉 庫Give Me All DataFast,Simple & Effectively!融合,分層,統(tǒng)一管理EDWDiscoverData lakeUnified Data Platform 數(shù)據(jù)虛擬化數(shù)據(jù)倉庫技術(shù)架構(gòu)演進:從報表統(tǒng)計到全數(shù)據(jù)分析第5頁,共39頁。數(shù)據(jù)實時化(實時同步和流式處理能力):數(shù)據(jù)實時化,是指數(shù)據(jù)從產(chǎn)生(更新至業(yè)務(wù)數(shù)據(jù)庫或日志)到最終消費(數(shù)據(jù)報表、儀表板、分析、 挖掘、數(shù)據(jù)應(yīng)用等),支持毫秒級秒級分鐘級延遲(嚴格來說,秒級分鐘級屬于準實時,這里統(tǒng)一稱為實時)。數(shù)據(jù)虛擬化(虛擬混合運算和統(tǒng)一服務(wù)能力):數(shù)據(jù)虛擬化,是指對于用戶或用戶程序而言,面對的是統(tǒng)
5、一的交互方式和查詢語言,而無需關(guān) 注數(shù)據(jù)實際所在的物理庫和方言及交互方式(異構(gòu)系統(tǒng)異構(gòu)查詢語言)的一種技術(shù)。用戶的使用體驗是面對一個單一數(shù)據(jù)庫進行操作,但其實這是一個虛擬化的數(shù)據(jù)庫,數(shù)據(jù)本身并不存放于虛擬數(shù)據(jù)庫中。數(shù)據(jù)平民化(可視化和自助配置能力):普通用戶(無專業(yè)大數(shù)據(jù)技術(shù)背景的數(shù)據(jù)從業(yè)人員),可以通過可視化的用戶界面,自助的通過配置 和SQL方式使用數(shù)據(jù)完成自己的工作和需求,并無需關(guān)注底層技術(shù)層面問題(通過計算資源云化,數(shù)據(jù)虛擬化等技術(shù))。數(shù)據(jù)協(xié)作化(多租戶和分工協(xié)作能力):技術(shù)人員和業(yè)務(wù)人員可以在同一個平臺上,發(fā)揮各自所長,分工協(xié)作完成日常BI活動。這就對平臺的 多租戶能力和分工協(xié)作能力
6、提出了較高要求,一個好的現(xiàn)代數(shù)據(jù)平臺是可以支持更好的數(shù)據(jù)協(xié)作化能力的。New Data Warehouse的重要能力第6頁,共39頁。Gartner 2012:Pace Layered Application StrategyGartner 2016 : bi-modal IT framework核心目標是解決企業(yè)面對業(yè)務(wù)發(fā)展需求與IT架構(gòu)、應(yīng)用架構(gòu)速度不一致的矛盾。這種矛盾隨著信息社會的扁平化變得越來越尖銳!業(yè)務(wù)需求的多樣性、靈活性、不確定性、交付的速度 vs IT的穩(wěn)定性、確定性的矛盾應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)造成的各種信息、數(shù)據(jù)孤島 vs 全局的洞察力、未來的預(yù)測需求IT建設(shè)思想、方法的“標準化
7、“ 與 業(yè)務(wù)創(chuàng)新需求的靈活性的矛盾投資、采購模式的“標準化”與 試錯模式的矛盾業(yè)務(wù)中臺、數(shù)據(jù)中臺 etc:why ?解決方法: 將業(yè)務(wù)分成不同的層次和步調(diào)、采用不同的方法投資、構(gòu)建;將數(shù)據(jù)平臺化、服務(wù)化,資產(chǎn)化。這樣可 以同時兼顧后臺重量級應(yīng)用的穩(wěn)定性、長生命周期與前臺創(chuàng)新業(yè)務(wù)和應(yīng)用的靈活性、短生命周期的需求。“中臺”的 主要目標是讓前臺的業(yè)務(wù)更加靈活、更具有創(chuàng)新性,是以創(chuàng)新業(yè)務(wù)驅(qū)動的一套方法與技術(shù)的組合。第7頁,共39頁。類型SOR(System of Record,process and data)SOD(System of Differentiation, Integration and
8、 Exchange)SOI(System of Innovation, Interaction and Content)改變節(jié)奏緩慢、不頻繁、漸進(按年計)中等、比較頻繁(按月計)靈活、快速、隨意(每周,甚至每天)業(yè)務(wù)流程集成的、標準化的、穩(wěn)定的高度客戶化、配置化不清晰、不確定、探索式、實驗性生命周期大于10年2-5年3-12個月戰(zhàn)略關(guān)注點高度標準化、流程化、運營效率敏捷、靈活、競爭優(yōu)勢顛覆式、創(chuàng)新業(yè)務(wù)、嘗試性質(zhì)資金來源CAPEX & OPEX:年度預(yù)算IT或部門的預(yù)算部門的OPEX,創(chuàng)新預(yù)算相關(guān)方高度的高管參入、低度的最終用戶參與相關(guān)LOB主管,用戶核心人員低度的高管參入、高度的最終用戶參與
9、“The pace-layered approach acknowledges that process and data integrity requirements will be different within each layer,and defines a set of architectural standards at each level to accelerate an organizations ability to adapt”來源:GartnerGartner:Pace-layered Application Strategy for Innovation第8頁,共3
10、9頁。Gartner Researchs bimodal IT framework recognizes that traditional development practices are no longer sufficient for organizations with growing enterprise application demand. Instead, the bimodal IT strategy calls for two parallel tracks that support rapid application development for digital inn
11、ovation priorities, alongside existing application maintenance and operational stabilization projects.雙峰模式將快速變化的創(chuàng)新型業(yè)務(wù)需求與現(xiàn)有的穩(wěn)定的核心業(yè)務(wù)需求融合為一體,在滿足企業(yè)傳統(tǒng)業(yè) 務(wù)穩(wěn)定的同時帶來新業(yè)務(wù)的快速創(chuàng)新與迭代來源:GartnerGartner: bi-modal 雙峰模式第9頁,共39頁。Characteristics for Mode 1: Development projects related to core system maintenance, stabilit
12、y or efficiency. These require highly specialized programmers and traditional, slow moving development cycles. There is little need for business involvement.Characteristics for Mode 2: Development projects that help innovate or differentiate the business. These require a high degree of business invo
13、lvement, fast turnaround, and frequent update.Mode 2 requires a rapid path (or IT fast lane) to transform business ideas into applications.來源:GartnerBi-Modal 與 Pace-layered Application Strategy第10頁,共39頁。數(shù)據(jù)中臺:數(shù)據(jù)中臺是指通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行采集、計算、存 儲、加工,同時統(tǒng)一標準和口徑,形成大數(shù)據(jù)資產(chǎn)層,進而為客戶提 供高效服務(wù)。它是一個承接技術(shù),引領(lǐng)業(yè)務(wù),構(gòu)建規(guī)范定義的、全域可連接
14、 萃取的、智慧的數(shù)據(jù)處理平臺。最終實現(xiàn)了:讓一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化數(shù)據(jù)中臺的核心是在多源異構(gòu)的數(shù)據(jù)集下,數(shù)據(jù)中 臺怎樣處理數(shù)據(jù)共享,數(shù)據(jù)的共享與分享其實是整 個大數(shù)據(jù)的精神所在數(shù)據(jù)中臺的定義第11頁,共39頁。數(shù)據(jù)煙囪:各個系統(tǒng)野蠻生長,重復(fù)建設(shè),數(shù)據(jù)孤 島傳統(tǒng)的數(shù)據(jù)倉庫:解決不了海量數(shù)據(jù)、異構(gòu)數(shù)據(jù),實時處理等一系列問題多個項目,重復(fù)工作:沒有把能力沉淀成產(chǎn)品和平臺,為了快 速響應(yīng)用戶的需求,借助平臺化的公用 數(shù)據(jù)模型提高響應(yīng)力數(shù)據(jù)煙囪傳統(tǒng)數(shù)倉進化到邏輯數(shù)倉HadoopJS. 傳統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)煙囪進化到數(shù)據(jù)共享多個項目,重復(fù)工作公用數(shù)據(jù)模型,提高 響應(yīng)力為何需要數(shù)據(jù)中臺 ?第12頁,共
15、39頁。數(shù)據(jù)技術(shù):海量數(shù)據(jù)信息的采集,計算,加工對數(shù)據(jù)的標準和質(zhì)量進行統(tǒng)一包括平臺、工具、數(shù)據(jù)、組織、流程、規(guī)范等一切 與企業(yè)數(shù)據(jù)資產(chǎn)如何用起來所相關(guān)的內(nèi)容數(shù)據(jù)資產(chǎn):形成統(tǒng)一的數(shù)據(jù)標準產(chǎn)出業(yè)務(wù)邏輯和數(shù)據(jù)模型將數(shù)據(jù)變?yōu)閿?shù)據(jù)資產(chǎn)為業(yè)務(wù)提供服務(wù)數(shù)據(jù)服務(wù):定義服務(wù)中心和服務(wù)根據(jù)實際需要提供實際業(yè)務(wù)服務(wù)數(shù) 據(jù) 技 術(shù)數(shù) 據(jù) 資 產(chǎn)數(shù) 據(jù) 服 務(wù)數(shù)據(jù)集成數(shù)據(jù)存儲數(shù)據(jù)運算其他組件數(shù)據(jù)聯(lián)邦數(shù)據(jù)虛擬化API消息文件其他客戶 洞察 服務(wù)位置 洞察 服務(wù)營銷 管理 服務(wù)終端 洞察 服務(wù)金融 征信 服務(wù)數(shù)據(jù)開放服務(wù)內(nèi)容客戶 細分產(chǎn)品推薦政企挖潛離網(wǎng)挽留內(nèi)容偏好網(wǎng)絡(luò)優(yōu)化垂直行業(yè)客戶屬性客戶 軌跡客戶 上網(wǎng)區(qū)域 視圖終端
16、 視圖知識 圖譜時間 序列參與 人服務(wù)資源賬務(wù)營銷事件財務(wù)公共挖掘 模型融合模型基礎(chǔ) 模型某電信行業(yè)數(shù)據(jù)中臺的組成數(shù)據(jù)中臺的組成第13頁,共39頁。業(yè)務(wù)數(shù)據(jù)化:回歸服務(wù)的本質(zhì)-數(shù)據(jù)重用數(shù)據(jù)存儲和數(shù)據(jù)計算的能力配合微服務(wù)等技術(shù),對外提供“數(shù)據(jù)服務(wù)的共享”數(shù)據(jù)模型重用和快速搭建:對數(shù)據(jù)知識進行沉淀和持續(xù)的發(fā)展,從而使模型真正成為可重用的組件基于已有組件來支撐數(shù)據(jù)分析的快速響應(yīng)和創(chuàng)新數(shù)據(jù)業(yè)務(wù)化:數(shù)據(jù)中臺是培育業(yè)務(wù)創(chuàng)新的土壤通過數(shù)據(jù)中臺管理的大數(shù)據(jù)以及人工智能來發(fā)現(xiàn)規(guī)律,做出對的決策將數(shù)據(jù)資產(chǎn)作用到企業(yè)業(yè)務(wù)場景中,包含優(yōu)化現(xiàn)有業(yè)務(wù)和創(chuàng)造新的業(yè)務(wù)創(chuàng)造業(yè)務(wù)(數(shù)據(jù)業(yè)務(wù)化)響應(yīng)業(yè)務(wù)(業(yè)務(wù)數(shù)據(jù)化)響應(yīng)運營(數(shù)據(jù)
17、煙筒)為響應(yīng)當前運營需 求而不得不開展的 一系列的數(shù)據(jù)治理 工作。為將數(shù)據(jù)變成一種 基礎(chǔ)服務(wù),業(yè)務(wù)可 以選擇性的使用基 礎(chǔ)服務(wù)。將數(shù)據(jù)變成個性化 服務(wù),可以組合產(chǎn) 生新的業(yè)務(wù)場景。企業(yè)整體業(yè)務(wù)部門IT部門數(shù)據(jù)中臺給業(yè)務(wù)快速響應(yīng)和創(chuàng)新帶 來了價值數(shù)據(jù)中臺戰(zhàn)略給企業(yè)帶來核心競爭力的提升“提質(zhì)轉(zhuǎn)型,降本增效”數(shù)據(jù)中臺給IT部門帶來組織職能轉(zhuǎn)變機 會;數(shù)據(jù)中臺帶給IT部門整體效能的提升; 數(shù)據(jù)中臺提升整體IT部門技術(shù)團隊的能 力。企業(yè)對數(shù)據(jù)利用的三個階段:響應(yīng)運營,響應(yīng)業(yè)務(wù),創(chuàng)造業(yè)務(wù)數(shù)據(jù)中臺給企業(yè)不同部門帶來的價值數(shù)據(jù)中臺的價值第14頁,共39頁。加快 創(chuàng)新改進 運營精準 營銷提升 服務(wù)維修分析更好地
18、提供保修 通過快速分析和響應(yīng)提升 客戶體驗和滿意度根據(jù)客戶需求來支持產(chǎn)品設(shè) 計更快識別新的商機,合理布 局監(jiān)控和優(yōu)化流程提升效率通過檢測和分析提升產(chǎn)品 質(zhì)量理解客戶實現(xiàn)向上和交叉銷 售用質(zhì)量更佳的營銷數(shù)據(jù) 增加收入處理/分析/挖掘HRERPEPMSCMCRM客戶行為/情感客戶維修投訴設(shè)備/傳感器數(shù)據(jù)事件/地理位置客戶信息/購買維修花費/地區(qū)生產(chǎn)線/產(chǎn)品檢測產(chǎn)品/商家/庫存全數(shù)據(jù)數(shù)據(jù)中臺驅(qū)動業(yè)務(wù)變革第15頁,共39頁。GBase 8a MPP邏輯數(shù)據(jù)倉庫 技術(shù)與實踐2第16頁,共39頁。當前數(shù)字商業(yè)的場景越來越復(fù)雜,數(shù)據(jù)容量越 來越大,數(shù)據(jù)也越來越分布。數(shù)據(jù)的集成,分 享和組織管理成為重要目標,
19、統(tǒng)一管理是大勢 所趨關(guān)系型數(shù)據(jù)庫Hadoop新鮮數(shù)據(jù) 常規(guī)處理歷史數(shù)據(jù) 深度分析市場表現(xiàn)方面,傳統(tǒng)數(shù)據(jù)庫5強依然占據(jù)88.7% 市場份額。表明傳統(tǒng)SQL數(shù)據(jù)庫依然有著很大 的用戶市場盡管傳統(tǒng)SQL數(shù)據(jù)庫和Hadoop有各自獨立的工作 場景,它們之間的數(shù)據(jù)融合和雙向數(shù)據(jù)流通越 來越成為趨勢Gartner預(yù)測:數(shù)據(jù)融合產(chǎn)生價值,統(tǒng)一管理是大勢所趨第17頁,共39頁?!斑壿嫈?shù)據(jù)倉庫的數(shù)據(jù)不再局限于結(jié)構(gòu)化數(shù)據(jù),還包括非結(jié)構(gòu)化數(shù)據(jù),如視頻、音頻、文檔等格式。邏輯上是一個大的數(shù)據(jù)倉 庫,底層可以包括各類數(shù)據(jù)源,進行關(guān)聯(lián)處理.”Logical Data WarehouseGartner Definition
20、Description:The Logical Data Warehouse (LDW) is a new data management architecture for analytics combining the strengths of traditional repository warehouses with alternative data management and access strategy. The LDW will form a new best practice by the end of 2015.“The LDW is an evolution and au
21、gmentation of DW practices, not a replacement“A repository-only style DW contains a single ontology/taxonomy, whereas in the LDW a semantic layer cancontain many combination of use cases, many business definitions of the same “The LDW permitinformations an IT organization to make a large number of d
22、atasets available for analysisvia query tools and applications.Gartner Hype Cycle for Enterprise Information Management,2012邏輯數(shù)據(jù)倉庫:隨處運行、隨處保存、隨處使用第18頁,共39頁。未來的數(shù)據(jù)管理和集成將會變得更加“關(guān)聯(lián)”(Connect),更少 “采集”(Collect)從數(shù)據(jù)被“采集”到應(yīng)用其價值,這中間有相當長的流程(如上左圖所示),包括描述、整理、集成、分享、治理和實施。無論數(shù)據(jù)是在本地、云端、某個設(shè)備上或任何地方,都可以在數(shù)據(jù) 保留在原地的情況下,將它們關(guān)聯(lián)
23、起來,而無須采集到特定地方(如上右圖所示),通過關(guān)聯(lián)自動發(fā)掘數(shù)據(jù)、透過機器自動意識識 別數(shù)據(jù)中的價值、認定有價值的數(shù)據(jù)、分析數(shù)據(jù)、自動采用適合數(shù) 據(jù)的安全措施、分享數(shù)據(jù)、優(yōu)化數(shù)據(jù)。邏輯數(shù)據(jù)倉庫:重關(guān)聯(lián),輕采集第19頁,共39頁。下一代大數(shù)據(jù)平臺的技術(shù)架構(gòu)設(shè)計模型對應(yīng)的是Gartner 2016年推薦的新一代企業(yè)級數(shù)據(jù)平臺邏輯數(shù)據(jù)倉庫數(shù)據(jù)倉庫模式解決的問題核心技術(shù)LDW(Logical Dataware House,邏輯數(shù)據(jù)倉庫)多個數(shù)據(jù)源以及多種類型數(shù)據(jù)的綜 合分析場景雙峰(bi-modal)工作模式數(shù)據(jù)虛擬化(Data Virtualization)實現(xiàn) 統(tǒng)一接口,統(tǒng)一訪問數(shù)據(jù)聯(lián)邦(Data
24、 Federation)實現(xiàn)跨數(shù)據(jù) 源數(shù)據(jù)訪問和計算Operational DW(運營數(shù)據(jù)倉庫)實時加載數(shù)據(jù)實時分析數(shù)據(jù)實時指導(dǎo)業(yè)務(wù)運營In-Database 大數(shù)據(jù)分析流數(shù)據(jù)分析Context-independent DW(模型無關(guān)數(shù)據(jù)倉庫)深度數(shù)據(jù)挖掘復(fù)雜機器學(xué)習(xí)R語言無模式數(shù)據(jù)的深度機器學(xué)習(xí)文本分析挖掘的計算引擎和算法庫圖分析的計算引擎和算法庫下一代大數(shù)據(jù)平臺的技術(shù)架構(gòu): Gartner推薦的邏輯數(shù)據(jù)倉庫第20頁,共39頁。非結(jié)構(gòu)化結(jié)構(gòu)化半結(jié)構(gòu)化全類型數(shù)據(jù)融合Multi-Model數(shù)據(jù)虛擬化:統(tǒng)一入口隨處保存a關(guān)聯(lián)分析 在線分析批量處理 離線分析流計算圖計算多種數(shù)據(jù)計算模型的融合數(shù)據(jù)聯(lián)邦
25、:算法融合,透明使用隨處使用關(guān)聯(lián)分析挖掘/預(yù)測機器學(xué)習(xí)深度學(xué)習(xí)數(shù)據(jù)集成全數(shù)據(jù)的實時流轉(zhuǎn)數(shù)據(jù)聯(lián)邦:數(shù)據(jù)流通隨處使用邏輯數(shù)據(jù)倉庫(LDW)核心技術(shù) 數(shù)據(jù)虛擬化、數(shù)據(jù)聯(lián)邦第21頁,共39頁。統(tǒng)一接口(SQL & HQL)統(tǒng)一查詢語言跨域訪問統(tǒng)一用戶管理和權(quán)限控制統(tǒng)一元數(shù)據(jù)跨引擎優(yōu)化器和計劃器跨引擎關(guān)聯(lián)GBase8a MPP (邏輯數(shù)據(jù)倉庫LDW)Data Exchange Layer并行數(shù)據(jù)交換跨引擎數(shù)據(jù)一致性實時同步OracleMPP ClusterHadoop跨引擎分區(qū)鏡像計算擴展跨域和跨引擎的統(tǒng)一調(diào)度器開放的插件式引擎適配器數(shù)據(jù)完整性數(shù)據(jù)虛擬化:統(tǒng)一SQL接口透明跨引擎訪問全數(shù)據(jù)類型數(shù)據(jù)融合透
26、明跨域訪問多級數(shù)據(jù)中心數(shù)據(jù)聯(lián)邦:全算法融合打通計算引擎數(shù)據(jù)GBase 8a MPP 架構(gòu)(LDW):數(shù)據(jù)虛擬化、數(shù)據(jù)聯(lián)邦第22頁,共39頁。數(shù)據(jù)采集數(shù)據(jù)管理數(shù)據(jù)分析挖掘數(shù)據(jù)服務(wù)與共享流數(shù)據(jù)靜態(tài)數(shù)據(jù)IoT平臺+實時算法邏輯數(shù)據(jù)倉庫各類統(tǒng)計、分各種數(shù)據(jù)服務(wù)接口統(tǒng)一的數(shù)據(jù)視圖(接入、訪問、元數(shù)據(jù)、安全)統(tǒng)一的異構(gòu)多引擎優(yōu)化、調(diào)度層關(guān)系模型結(jié)構(gòu)化數(shù)據(jù)集非關(guān)系模型半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)集OLTPOLAPKV、ML、Graph、Stream、FullTex統(tǒng)一的數(shù)據(jù)實時流轉(zhuǎn)層析、挖掘、預(yù) 測算法下一代融合計算平臺解決的企業(yè)核心問題: 數(shù)據(jù)融合與流通第23頁,共39頁。企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)用和大數(shù)據(jù)應(yīng)用JD
27、BC、ODBCJDBC、ODBCJDBC/ODBC、Thrift、Protocol Buffer 開發(fā)語言:Java、 Scala、 Python、 go、C/C+、 SQLiaSQL on Hadoop:HBigSQL、Clouder計算引擎:MR、Tez、Spve、HAWQ、Phoenix、TajoImpala、Presto、Sharkark;資源管理:YARN、MESOSDFS:HDFS、CEPH分析型數(shù)據(jù)庫事務(wù)型數(shù)據(jù)庫數(shù)據(jù)接入層、安全管理、運營管理多系統(tǒng)可用,但是不混搭1.0:X 數(shù)據(jù)源多,管理復(fù)雜X 數(shù)據(jù)不流通X 無法集成數(shù)據(jù)好用企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)用和大數(shù)據(jù)應(yīng)用JDBC、ODBC
28、、ADO.NET、CAPI、RESTful APILDWHadoop生態(tài)型數(shù)據(jù)庫分析事務(wù)型數(shù)據(jù)庫Spark 棧安全管理、運營管理融合架構(gòu) (LDW 統(tǒng)一層):數(shù)據(jù)統(tǒng)一管理,統(tǒng)一訪問數(shù)據(jù)易流通數(shù)據(jù)易集成解決了好用的問題,提升混搭價值大數(shù)據(jù)下一代架構(gòu):從“混搭架構(gòu)” 到 “融合架構(gòu)”第24頁,共39頁。數(shù)據(jù)平臺層未來由混搭架構(gòu) 向融合架構(gòu)演進,形成多種 引擎的統(tǒng)一管理和優(yōu)化,簡 化業(yè)務(wù)流程,方便集成其他 計算引擎。企業(yè)級大數(shù)據(jù)架構(gòu)未來演進: 數(shù)據(jù)融合、算法融合、數(shù)據(jù)流通第25頁,共39頁。全種類數(shù)據(jù)處理平臺能力融合:進一步融合非結(jié)構(gòu)化數(shù) 據(jù)處理平臺能力,實現(xiàn)全種類數(shù)據(jù)處理能力融合。MPP 與Had
29、oop集群間能力融合:實現(xiàn)MPP深入分析 能力與Hadoop的批量數(shù)據(jù)處理和數(shù)據(jù)挖掘能力融合。同種MPP 集群間融合(虛擬集群):實現(xiàn)跨多個MPP 集群內(nèi)的數(shù)據(jù)模型融合,整體作為一個邏輯一體化的集 群使用。4MPP + Hadoop + oracle + Nosql3MPP + Hadoop + Oracle2MPP + Hadoop1MPP + MPP分析平臺與實時交易數(shù)據(jù)庫能力融合:實現(xiàn)MPP、 Hadoop與現(xiàn)有傳統(tǒng)數(shù)據(jù)庫Oracle的融合,實現(xiàn)實時性和 事務(wù)處理能力。GBase 8a MPP 架構(gòu)(LDW)實現(xiàn)各階層的大數(shù)據(jù)處理能力融合第26頁,共39頁。融合 結(jié)構(gòu)化+半結(jié)構(gòu)化+非結(jié)構(gòu)
30、化解決全類型數(shù)據(jù)存儲需求融合 實時處理+交互式處理+批量處理 解決多種場景的計算需求融合 OldSQLNewSQL+NoSQL解決數(shù)據(jù)關(guān)聯(lián)查詢和交換的需求融合 熱數(shù)據(jù)溫數(shù)據(jù)冷數(shù)據(jù)解決統(tǒng)一運維管理的需求融合 平臺Unified Platform降低用戶構(gòu)建大數(shù)據(jù)系統(tǒng)過程中的決策、建模、運維、開發(fā)成本GBase 8a MPP 架構(gòu)(LDW)快速實現(xiàn)大數(shù)據(jù)系統(tǒng)落地第27頁,共39頁。tmp_2tmp_1t1_mppGBase 8a MPP(LDW)通過跨引擎調(diào)度器實現(xiàn) 數(shù)據(jù)在引擎間的數(shù)據(jù)運算,例如:Select , t1.opdate, t2.url from t1_mpp as t1, t2_hi
31、ve as t2 where t1.id=t2.key and t1.city=北京 and extracts(t2.url, gbase) 0 and contains (t1.weichat, 南大通用)0 order by t1.opdate limit 10;GBase 8a MPPClusterJoinCross Engine Optimizer & PlannerParallel SchedulerMega SQL EngineHive On HBaset2_hiveSQLMPP 集群Hadoop 集群數(shù)據(jù)融合案例:透明的跨引擎SQL關(guān)聯(lián)與優(yōu)化第28頁,共39頁。GBase 8a
32、MPP(LDW)通過實現(xiàn)跨引 擎的數(shù)據(jù)傳輸層和跨引擎的調(diào)度器,實 現(xiàn)了跨引擎間的數(shù)據(jù)流通,例如:t1: 8a MPP 表 h1、h2 : Hive表 Insert into t1select h1, h2 where andparse_url(url,HOST) = ;Parallel SchedulerMega SQL EngineCross Engine Optimizer & PlannerJoinh1h2t1Hive On SparkJoinh1h2GBase 8a MPPClustert1數(shù)據(jù)融合案例:跨引擎數(shù)據(jù)交換第29頁,共39頁。GBase 8a MPPGBase 8tOrac
33、leHiveTable/ViewHDFSFileTableGBase 8a MPPGBase 8tOracleHiveHDFSFileSpark MLLibML FrameInputOutputOperationException HandlerNaveBayesK-meansDecisionTreeOtherStored ProcedureCreate ModelAdd algorithmAdd train_settingUser: Call Stored ProcedureExpert: Extend AlgorithmDBA: MaintainStored ProcedureAlgori
34、thm Family NaiveBayes.Train NaiveBayes.Evaluate NaiveBayes.Predict12ML Algorithm34Spark UDF5Spark MLLib:以Spark MLLib作為基礎(chǔ),獲得豐富的基礎(chǔ)操作支撐,以及分布式執(zhí)行的性能。ML Algorithm:實現(xiàn)樸素貝葉斯、K-均值、決策樹等多種流行機器學(xué)習(xí)算法,專家用戶也可以很容易的實現(xiàn)新算法。ML Frame:自主研發(fā)的機器學(xué)習(xí)框架,為算法提供上下文管理、配置、異常處理等多種基礎(chǔ)能力,抽象輸入輸出接口,可 以把不同關(guān)系庫的表、HDFS文件系統(tǒng)作為算法的數(shù)據(jù)源和目的。Spark UDF:
35、框架、算法等封裝成Spark的UDF,可以在Spark上直接執(zhí)行。Stored Procedure:以存儲過程的方式調(diào)用算法執(zhí)行,簡化用戶使用機器學(xué)習(xí)的復(fù)雜度。算法融合案例:可擴展的計算框架,融合SQL與ML算法第30頁,共39頁??蛻舭咐彻灿脩簦ǘ喾N異構(gòu)引擎的統(tǒng)一管理)應(yīng)用服務(wù)數(shù)據(jù)服務(wù)基礎(chǔ)設(shè)施計算資源池存儲資源池在線分析庫(GBase 8a MPP Cluster)數(shù)據(jù)加速庫(GBase 8m)離線分析庫(GBase HD)互聯(lián)網(wǎng)采集文件網(wǎng)絡(luò)資源池高性能內(nèi)存庫人口庫數(shù)據(jù)匯集庫統(tǒng)一數(shù)據(jù)管理平臺(GBase 8a MPP LDW)數(shù)據(jù)平臺展示門戶交換橋接數(shù)據(jù)共享交換系統(tǒng)前置交換交換傳輸交換管
36、理互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)關(guān)鍵字提取前置加工庫(GBase 8t)案件庫音視頻文件網(wǎng)絡(luò)輿情數(shù)據(jù)共享交換系統(tǒng) 主題查詢大數(shù)據(jù)智能分析系統(tǒng)(GBase BI)比對碰撞關(guān)系挖掘統(tǒng)計報表數(shù)據(jù)資源管理系統(tǒng)數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)血緣管理 數(shù)據(jù)生命周期管理標簽體系管理數(shù)據(jù)監(jiān)控管理數(shù)據(jù)質(zhì)量管理數(shù)據(jù)共享目錄數(shù)據(jù)公眾查詢數(shù)據(jù)交換服務(wù)采集網(wǎng)站配置采集規(guī)則配置采集任務(wù)管理第31頁,共39頁。LDW迎接新的數(shù)據(jù)處理挑戰(zhàn):從“小數(shù)據(jù) + 簡單分析” 到 “big data + big compute”從“事后分析” 到 “事中 、事前分析”能力從“單一、孤立” 到 “全數(shù)據(jù)、全視角”的洞察能力LDW對新一代大數(shù)據(jù)、云計算平臺需求:云
37、計算2.0 是數(shù)據(jù)的虛擬化 : 數(shù)據(jù)資源 數(shù)據(jù)資產(chǎn) 數(shù)據(jù)即服務(wù)大數(shù)據(jù)處理的需求:數(shù)據(jù)融合、算法融合、數(shù)據(jù)流通LDW進入云化2.0時代: 實現(xiàn)DaaS數(shù)據(jù)即服務(wù) + SaaS軟件即服務(wù)能力 :云1.0: 計算機資源的“軟件定義”,實現(xiàn)了硬件、系統(tǒng)資源的虛擬化、資源化,完成了 IaaS 時代云2.0: 數(shù)據(jù)資源的“軟件定義”,通過數(shù)據(jù)的虛擬化、資源化,實現(xiàn)數(shù)據(jù)即服務(wù)(DaaS), 和應(yīng)用的敏捷微服務(wù)化。LDW 迎接和面對新的技術(shù)和業(yè)務(wù)挑戰(zhàn)第32頁,共39頁。應(yīng)用驅(qū)動模式數(shù)據(jù)驅(qū)動模式支撐業(yè)務(wù)驅(qū)動、變革業(yè)務(wù)成本中心盈利中心Google:人類第一次幾乎可以不受技術(shù)限制的采集、存儲、分析、使用數(shù)據(jù)習(xí)近平:
38、未來幾十年,新一輪科技革命和產(chǎn)業(yè)變革將同人類社會發(fā)展形成歷史性交匯,工程科技進步和創(chuàng)新將成為推動人類社會發(fā)展的重要引擎。信息技術(shù)成為率先滲透到經(jīng)濟社會生活各領(lǐng)域的先導(dǎo)技術(shù),將促進以物質(zhì)生產(chǎn)、物質(zhì)服務(wù)為主的經(jīng) 濟發(fā)展模式向以信息生產(chǎn)、信息服務(wù)為主的經(jīng)濟發(fā)展模式轉(zhuǎn)變,世界正在進入以信息產(chǎn)業(yè)為主導(dǎo)的新經(jīng)濟發(fā)展時期。(在2014年國際工程科技大會上的主旨演講)大趨勢:IT在企業(yè)中的角色正在發(fā)生顛覆性轉(zhuǎn)變,從工具到驅(qū)動力第33頁,共39頁。使命:專注于數(shù)據(jù)庫軟件產(chǎn)品和服務(wù),致力于成為用戶最信賴的數(shù)據(jù)庫產(chǎn)品供應(yīng)商公司: 成立于2004年,總部在天津人員規(guī)模: 500 人, 其中300 技術(shù)+研發(fā)優(yōu)勢: 國內(nèi)領(lǐng)先、世界一流的數(shù)據(jù)庫和大數(shù)據(jù)平臺產(chǎn)品,專業(yè)的技術(shù)服務(wù)能力市場: 黨政軍、大型央企、金融、電信、安全、等核心行業(yè)客戶: 2000+ 個高端活躍客戶,滿意度高戰(zhàn)略: 國內(nèi)領(lǐng)先、世界一流、自主創(chuàng)新GBASE十六年只做一件事:數(shù)據(jù)庫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)核心機密保護合同模板
- 市場營銷合作合同模板:品牌推廣專用
- 數(shù)據(jù)外包服務(wù)合同轉(zhuǎn)讓合同
- 標準勞動合同解除樣本
- 加盟連鎖店經(jīng)營合同樣本
- 合同約定催款函格式專業(yè)版
- 建筑物拆除的施工安全管理考核試卷
- 機床制造中的人力資源管理策略考核試卷
- 農(nóng)業(yè)科學(xué)中的農(nóng)村居民收入與消費考核試卷
- 安全網(wǎng)絡(luò)數(shù)據(jù)安全審計流程自動化考核試卷
- 2025年黑龍江民族職業(yè)學(xué)院單招職業(yè)技能測試題庫匯編
- 感恩父母課件:父母的愛如山如水
- 民法典題庫(附答案)
- 綏芬河市2025年上半年招考事業(yè)單位專業(yè)人員易考易錯模擬試題(共500題)試卷后附參考答案
- 小學(xué)數(shù)學(xué)新課程標準(教育部2024年制訂)
- 2025年華僑港澳臺學(xué)生聯(lián)招考試英語試卷試題(含答案詳解)
- 【語文大單元教學(xué)研究國內(nèi)外文獻綜述6400字】
- 05844 全國 江蘇 自考國際商務(wù)英語課后習(xí)題答案 詳解
- 重慶道路交通事故認定書(簡易程序)樣本
- 2022年獸醫(yī)外科手術(shù)學(xué)作業(yè)題參考答案
- T∕CAMDI 009.1-2020 無菌醫(yī)療器械初包裝潔凈度 第1部分:微粒污染試驗方法 氣體吹脫法
評論
0/150
提交評論