2023數(shù)據(jù)湖項目建設方案_第1頁
2023數(shù)據(jù)湖項目建設方案_第2頁
2023數(shù)據(jù)湖項目建設方案_第3頁
2023數(shù)據(jù)湖項目建設方案_第4頁
2023數(shù)據(jù)湖項目建設方案_第5頁
已閱讀5頁,還剩97頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第第頁數(shù)據(jù)湖項目建設方案2023.11

目錄1. 項目綜述 51.1. 項目背景 51.2. 項目目標 61.3. 項目建設路線 72 需求分析 72.1功能需求 72.1.1 統(tǒng)一數(shù)據(jù)接入 92.1.2 數(shù)據(jù)遷移 102.1.3 數(shù)據(jù)范圍與ETL 122.1.4 報表平臺 132.1.5 安全管理 142.1.6 數(shù)據(jù)治理 152.2非功能需求 162.2.1運維保障需求 162.2.2可用性需求 162.2.3可靠性需求 172.2.4性能需求 172.3需求總結(jié) 173 整體解決方案 183.1 數(shù)據(jù)湖整體方案 183.1.1硬件部署方式 183.1.2基于CDH的數(shù)據(jù)湖軟件部署 193.1.3數(shù)據(jù)ETL及數(shù)據(jù)接口開發(fā)方案 223.1.4沙盒管理 283.1.5多租戶管理 293.2報表平臺整體方案 303.2.1系統(tǒng)設計原則 303.2.2數(shù)據(jù)分析場景 313.2.3業(yè)務需求建議 343.2.4系統(tǒng)邏輯架構(gòu) 483.2.5技術(shù)方案特點 493.2.6其它特性 523.2.7報表平臺具體實施步驟: 533.3數(shù)據(jù)倉庫整體方案 553.3.1數(shù)倉的定義 553.3.2數(shù)據(jù)倉庫的特點 563.3.2數(shù)據(jù)倉庫具體實施步驟 583.4數(shù)據(jù)治理整體方案 633.4.1主數(shù)據(jù)管理實施 663.4.2元數(shù)據(jù)管理實施 664 企業(yè)版功能和特性 674.1 CDH核心套件 694.1.1 分布式文件系統(tǒng)HDFS 694.1.2 分布式數(shù)據(jù)庫HBase 704.1.3 統(tǒng)一資源管理和調(diào)度框架YARN 714.1.4 分布式批處理引擎MapReduce 724.1.5 分布式內(nèi)存計算框架Spark 734.1.6 數(shù)據(jù)倉庫組件Hive 774.1.7 安全管理組件Sentry 774.1.8 隱私保護 804.1.9 統(tǒng)一用戶體驗工具HUE 804.1.10 元數(shù)據(jù)管理Metastore&HCatalog 824.1.11 高性能數(shù)據(jù)分析MPP引擎Impala 834.1.12 數(shù)據(jù)導入導出工作Sqoop 854.1.13 消息處理總線Kafka 874.2 Manager集群管理組件 874.3 Navigator數(shù)據(jù)管理組件 895 項目建設 905.1項目實施計劃 905.1.1項目實施服務 915.1.2人員構(gòu)成 925.2驗收說明 935.2.1驗收依據(jù) 935.2.2驗收內(nèi)容和方式 935.3項目風險評估 936 6項目培訓 946.1培訓服務簡介 94在線學習資源 956.2標準課程簡介 95Hadoop集群管理課程 95Hadoop技術(shù)開發(fā)課程 95Hadoop數(shù)據(jù)分析課程 95培訓課程優(yōu)勢 95培訓質(zhì)量保障 96培訓計劃定義 966.3智慧企業(yè)大數(shù)據(jù)應用、管控、展示一體化云數(shù)據(jù)湖維護培訓 987售后技術(shù)支持服務 987.1提供全程技術(shù)支持 987.2全周期技術(shù)支持 987.3協(xié)調(diào)原廠支持 987.3.1全周期的技術(shù)支持 997.3.2技術(shù)支持種類 997.3.3遠程支持 997.3.4服務支持策略 1007.4主動技術(shù)支持 1017.5預測技術(shù)支持 1017.6知識庫 102

項目綜述項目背景xx信息化現(xiàn)狀,發(fā)展愿景,3-5年的大數(shù)據(jù)發(fā)展規(guī)劃必要性:預計未來十年,數(shù)據(jù)將以每年約40%的速度增長,更重要的是,數(shù)據(jù)中囊括了絕大多數(shù)企業(yè)業(yè)務的數(shù)據(jù)需求。在這種環(huán)境下,通過使用數(shù)據(jù)分析提高競爭力,企業(yè)需要有能力滿足“信息一代”的需求,這對企業(yè)來說至關(guān)重要。從幫助預測購買行為到驅(qū)動創(chuàng)新項目以增強客戶服務或提高生產(chǎn)力,數(shù)據(jù)湖能整理、存儲并分析海量數(shù)據(jù),擁有變革業(yè)務的巨大能量。分析能力正從企業(yè)的“愿望清單”中移除,轉(zhuǎn)而成為必需。數(shù)據(jù)湖,為分析提供最大的靈活度。,企業(yè)產(chǎn)生的數(shù)據(jù)比以往任何時候都更多。這種情況為企業(yè)帶來了獨特的問題:需要裝備自己分析這些數(shù)據(jù),而不僅僅是存儲。數(shù)據(jù)湖與Hadoop平臺一道,提供了增加數(shù)據(jù)價值所需的自動化和透明度。1. 運營復雜度:隨著基礎(chǔ)設施規(guī)模的擴大,數(shù)據(jù)需求不斷加深?;A(chǔ)設施的瓶頸對企業(yè)業(yè)務數(shù)據(jù)的存儲和以此為基礎(chǔ)建立的業(yè)務的拓展帶來的制約。對于企業(yè)IT運維人員、業(yè)務系統(tǒng)開發(fā)人員、數(shù)據(jù)管理人員的工作量也是逐年增加,從而導致其數(shù)據(jù)需求就很有可能超過管理能力。傳統(tǒng)的業(yè)務數(shù)據(jù)資源并不總是池化的,這樣就為單一管理者可應對的存儲空間造成了限制,同樣,在構(gòu)建更靈活的通用存儲資源(例如數(shù)據(jù)湖)方面,管理者也面臨難題。2. 運營成本:通過減少運營成本,提升企業(yè)效益。但業(yè)務對IT的需求卻在持續(xù)增長時,便產(chǎn)生了矛盾。全職人工也會帶來管理IT資源的運營成本上升。為了有效應對這些需求,企業(yè)或者需要更多人力資源,或者需要投資額外的第三方,支持監(jiān)控、管理、部署和改善系統(tǒng)。與通過增加員工人數(shù)相比,第二種方法擴展了一個數(shù)量級甚至更多。3. 生產(chǎn)壓力:現(xiàn)有的分析應用正為業(yè)務生產(chǎn)系統(tǒng)帶來壓力。實時分析可能是耗費大量資源的,無論是想通過視頻分析,從大量高清視頻流中獲得洞察,還是研究社交內(nèi)容瀑布流。這些流程是需要專用資源的,這樣,嘗試使用生產(chǎn)系統(tǒng)的用戶才不會損失性能。數(shù)據(jù)湖是確保實時分析能夠以最佳性能運行的關(guān)鍵。4. 多協(xié)議分析:企業(yè)需要數(shù)據(jù)湖,一個最終的關(guān)鍵信號是,數(shù)據(jù)科學家正在大量不同的Hadoop發(fā)行版上運行應用,并且,需要將他們的數(shù)據(jù)與Hadoop掛鉤。未來,隨著各種各樣的分析實驗不斷深入,業(yè)務線需要IT有能力支持多種協(xié)議。企業(yè)也需要以數(shù)據(jù)湖策略為重要依據(jù),進行整體的合理規(guī)劃。5.打破數(shù)據(jù)孤島:長期以來,數(shù)據(jù)孤島一直是存儲應用的標準,但是這些系統(tǒng)是運營效率低下的,并且會限制從相關(guān)數(shù)據(jù)中獲得更佳洞察的能力。節(jié)約成本也是一大驅(qū)動力。除了管理復雜性,孤島系統(tǒng)還需要多種授權(quán),服務器和其他費用,而數(shù)據(jù)湖可以經(jīng)濟高效的方式,由單一基礎(chǔ)設施提供支持。隨著分析變得更快速、更復雜,組織也需要以同樣的方式進化,以探索所有可能性。數(shù)據(jù)不再單單是數(shù)據(jù)本身,借助所有組織化數(shù)據(jù)構(gòu)建的完整圖景。6.利用實時分析:數(shù)據(jù)收集和分析正變得越來越快。像信用卡欺詐預警分析、股票分析這樣的應用場景,需要在動作發(fā)生后數(shù)秒內(nèi)就實現(xiàn)。不過,實時分析并不都是需要100%立刻馬上就實現(xiàn)的。一些數(shù)據(jù)(如月銷售數(shù)據(jù)、季度財務數(shù)據(jù)或年度員工表現(xiàn)數(shù)據(jù))只需以特定的時間間隔存儲并分析。組織需要有能力構(gòu)建項目目標平臺層通過對各業(yè)務板塊各種數(shù)據(jù)的采集、整理、匯聚,建立一個基于“互聯(lián)網(wǎng)+”、云計算技術(shù)和人工智能技術(shù)的數(shù)據(jù)湖,實現(xiàn)各業(yè)務板塊的生產(chǎn)監(jiān)視、智能設備狀態(tài)監(jiān)測、智能故障診斷、智能運行保障、生產(chǎn)數(shù)據(jù)分析等功能,打造涵蓋智慧型生產(chǎn)、經(jīng)營、發(fā)展、黨建等全領(lǐng)域的綜合平臺。業(yè)務層公司數(shù)據(jù)湖融合實時數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫,實現(xiàn)數(shù)據(jù)資產(chǎn)管理,提供大數(shù)據(jù)應用和數(shù)據(jù)分析計算模型。其中,實時數(shù)據(jù)是主要的數(shù)據(jù)形式,實時數(shù)據(jù)庫集群承擔高通量數(shù)據(jù)接入的任務同時,為總部實時業(yè)務應用系統(tǒng)提供高實時性的數(shù)據(jù)查詢、計算、組態(tài)數(shù)據(jù)源服務,同時完成數(shù)據(jù)的標準化、格式化、清洗和整理,將整齊的數(shù)據(jù)通過Kafka或其他適配器等方式輸出到Hadoop數(shù)據(jù)湖,并負責提供從Hadoop平臺到實時庫等其他所需數(shù)據(jù)應用的輸入輸出組件。數(shù)據(jù)集中、挖掘,對實現(xiàn)與下屬單位互聯(lián)互通、智能處理、智能協(xié)同的目標,使用標準化、自動化、數(shù)字化、信息化、智能化等手段,打造涵蓋智慧型生產(chǎn)、經(jīng)營、發(fā)展、黨建等全領(lǐng)域的綜合平臺,形成具有“自分析、自診斷、自管理、自趨優(yōu)、自恢復、自學習、自提升”為特征的智慧企業(yè)生態(tài)系統(tǒng)。展示層隨著數(shù)據(jù)湖數(shù)據(jù)存儲、分析、挖掘的深入應用,將極大的激發(fā)各部門、各層級對于業(yè)務數(shù)據(jù)的分析和探索,在此之上的數(shù)據(jù)報表展示需求也將呈現(xiàn)復雜性、綜合性、多終端性、個性化等特點。本平臺主要目標是建立一個快速的可視化報表平臺,無縫化對接數(shù)據(jù)湖,提供豐富的報表展示功能,面對各層次人員提供對應的數(shù)據(jù)報表及分析服務?;诖似脚_,我們不僅可以在報表開發(fā)過程中,加快開發(fā)速度,提高數(shù)據(jù)應用的及時性,還可以在業(yè)務需求變更、調(diào)整后,大大的降低維護難度,實現(xiàn)可視化做到隨需應變。最終在深入完善復雜報表、打印導出、圖形化分析、移動決策、大屏監(jiān)控、自助分析等多個可視化分析領(lǐng)域的支撐。項目建設路線第一期:建設企業(yè)數(shù)據(jù)湖,梳理企業(yè)應用系統(tǒng)內(nèi)部的業(yè)務數(shù)據(jù)類型,數(shù)據(jù)量;將結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)打標簽導入數(shù)據(jù)湖中心湖中,構(gòu)建視頻池、文本池和應用池分類。對某些應用場景構(gòu)建BI報表分析。第二期:建立主數(shù)據(jù)管理和數(shù)倉,ETL規(guī)范和流程,數(shù)據(jù)安全管理,數(shù)據(jù)可視化管理,數(shù)據(jù)監(jiān)控的管理。梳理數(shù)據(jù)湖使用人員的角色和權(quán)限,對數(shù)據(jù)湖進行基于業(yè)務需求場景的多租戶管理。根據(jù)業(yè)務的微服務化,逐步構(gòu)建企業(yè)大數(shù)據(jù)微服務平臺,細粒度的平臺資源管理。第三期:數(shù)據(jù)的深化應用,一體化管控數(shù)據(jù)標準和數(shù)據(jù)治理,深化主數(shù)據(jù)消費和應用。逐步將應用的數(shù)據(jù)來源遷移至數(shù)據(jù)湖中,形成數(shù)據(jù)應用平臺、數(shù)據(jù)挖掘和BI報表平臺,人工智能和機器學習平臺。需求分析2.1功能需求數(shù)據(jù)湖的應用、管控、展示為一體,提供標準的服務和數(shù)據(jù)接口和報表展現(xiàn)方式。數(shù)據(jù)湖數(shù)據(jù)采用高效,可靠的存儲架構(gòu)。企業(yè)業(yè)務數(shù)據(jù)制訂遷移方案,將ERP系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、OA系統(tǒng)、視頻監(jiān)控系統(tǒng)、云商系統(tǒng)中存儲的核心數(shù)據(jù),整體遷移至數(shù)據(jù)湖,非彈性資源實行本地化部署,對于彈性計算功能,需與算法數(shù)據(jù)湖進行協(xié)同計算。以實現(xiàn)核心數(shù)據(jù)可控,消除安全問題和潛在未知風險。支持可視化建模,支持鼠標拖拽方式進行人工智能算法建模。包括數(shù)據(jù)預處理、特征工程、算法模型、模型評估和部署等功能支持快銷業(yè)務領(lǐng)域的預測預警等多種類型的算法應用,包括邏輯回歸、K近鄰、隨機森林、樸素貝葉斯、K均值聚類、線性回歸、GBDT二分類、GBDT回歸等算法模型,也支持深度學習等人工智能訓練模型。展示層通過統(tǒng)一的商業(yè)BI報表組件,多維度,動態(tài)的展示各業(yè)務系統(tǒng)的運行狀況,資源使用情況等。并支撐周期性或臨時性生成各業(yè)務狀況,決策數(shù)據(jù)展示,故障分析挖掘等業(yè)務場景。xx數(shù)據(jù)湖架構(gòu)圖文件中心:主要用于存儲各種格式文件,包括影像文件,視頻音頻文件,PDF,Office文件等類型文件,提供文件級別的全文檢索,文件發(fā)布,文件共享,文件提取等功能。提供文件權(quán)限管理,版本管理,歷史版本恢復等管理功能。文件中心中文件內(nèi)容可以經(jīng)由ETL過程與日志中心,數(shù)據(jù)中心交換融合數(shù)據(jù),共同參與數(shù)據(jù)處理,數(shù)據(jù)挖掘,機器學習,影像分析等工作。日志中心:收集各類日志數(shù)據(jù),物聯(lián)數(shù)據(jù)等實時數(shù)據(jù),由流處理引擎實時處理數(shù)據(jù),確保在第一時間分析處理數(shù)據(jù),做到實時監(jiān)控,實時告警。經(jīng)處理的實時數(shù)據(jù)可與文件中心,數(shù)據(jù)中心的數(shù)據(jù)融合,共同參與數(shù)據(jù)分析等工作。結(jié)構(gòu)化數(shù)據(jù)中心:實時(或批量)獲取數(shù)據(jù)庫或其他介質(zhì)中的架構(gòu)化數(shù)據(jù),借助Hadoop/Spark等強大的處理能力,高效處理各類數(shù)據(jù)。有效結(jié)合文件中心,日志中心中的數(shù)據(jù)共同參與數(shù)據(jù)分析,數(shù)據(jù)挖掘。支持百億級數(shù)據(jù)Cube,做到海量數(shù)據(jù)亞秒級多維度查詢。標準SQL輸出接口,支持不斷升級的需求以及二次開發(fā)。統(tǒng)一數(shù)據(jù)接入數(shù)據(jù)湖接口統(tǒng)一接口示意圖數(shù)據(jù)接入原則1、以應用驅(qū)動為主,優(yōu)先建設高價值數(shù)字孿生項目;2、入湖數(shù)據(jù)必須有數(shù)據(jù)管理部認證,發(fā)布對應數(shù)據(jù)資產(chǎn)標準,匹配對應數(shù)據(jù)責任人;3、數(shù)據(jù)建模原則以原始數(shù)據(jù)、清洗整合數(shù)據(jù)、三范式結(jié)構(gòu)、服務化寬表逐級向上規(guī)范;4、整體平臺需符合高可用、平行擴容原則,符合業(yè)務3-5年的數(shù)據(jù)規(guī)劃。數(shù)據(jù)實時同步,支持絕大多數(shù)的數(shù)據(jù)庫實時同步需求。支持跨廣域網(wǎng)的數(shù)據(jù)同步,支持接收器集群。建設統(tǒng)一的,標準的,易于復制和維護的數(shù)據(jù)實時同步平臺,同時完成數(shù)據(jù)實時同步的技術(shù)規(guī)范及策略。實現(xiàn)數(shù)據(jù)同步監(jiān)控系統(tǒng),構(gòu)建數(shù)據(jù)的更新情況有一個持續(xù)的,可靠的實時監(jiān)控系統(tǒng)。完成一次性數(shù)據(jù)快速導入與增量數(shù)據(jù)導入的融合機制——涓流復制。通過FullDump模塊實現(xiàn)數(shù)據(jù)入庫的加密,基于DataHandle提供HiveSQL接口,同時完成數(shù)據(jù)出庫的解密。通過ApplicationAdapter的定制實現(xiàn)數(shù)據(jù)訪問權(quán)限的控制數(shù)據(jù)遷移 將對于頻繁讀寫數(shù)據(jù)的業(yè)務系統(tǒng),ERP系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、OA系統(tǒng)、視頻監(jiān)控系統(tǒng)、云商系統(tǒng)保留原數(shù)據(jù)庫的方案。業(yè)務數(shù)據(jù)同步至數(shù)據(jù)湖,并在并軌運行過程中,需定期驗證本地數(shù)據(jù)湖中與業(yè)務系統(tǒng)數(shù)據(jù)的一致性。 接收實時增量數(shù)據(jù),按照預定架構(gòu)存儲數(shù)據(jù)至本地數(shù)據(jù)湖。生產(chǎn)實時數(shù)據(jù)實時接入、可靠傳輸至公司數(shù)據(jù)庫集群中,數(shù)據(jù)接入量約為110TB/天,歷史數(shù)據(jù)40000TB。數(shù)據(jù)遷移邏輯架構(gòu)圖 數(shù)據(jù)湖作業(yè)分為非彈性和彈性兩類,對于非彈性作業(yè)在本地數(shù)據(jù)湖進行運算,對于消耗資源大且需彈性計算作業(yè),采用與企業(yè)云進行協(xié)同計算,在企業(yè)云數(shù)據(jù)湖中不保存數(shù)據(jù),待作業(yè)計算完成后將過程和結(jié)果數(shù)據(jù)回傳至本地數(shù)據(jù)湖進行存儲。接口服務支持發(fā)布訂閱模式,支持跨數(shù)據(jù)湖、跨系統(tǒng)的調(diào)用,支持HDFS、Hive、HBase等系統(tǒng)。a) 接口類型批量數(shù)據(jù)封裝將大批量數(shù)據(jù)按一定條件抽取出來封裝成數(shù)據(jù)資源。批量數(shù)據(jù)封裝必須通過系統(tǒng)進行,不能進行手工操作。數(shù)據(jù)請求接口封裝通過restful接口方式將數(shù)據(jù)封裝成訪問接口,使訪問方通過遠程調(diào)用對數(shù)據(jù)進行訪問。b) 接口安全配置管理對共享數(shù)據(jù)的內(nèi)容和共享接口規(guī)則進行配置,包括基礎(chǔ)數(shù)據(jù)配置、共享服務配置、共享權(quán)限和共享配置下發(fā)。a)基礎(chǔ)數(shù)據(jù)配置能夠?qū)?shù)據(jù)共享功能域中使用到的基礎(chǔ)數(shù)據(jù)進行配置,包括使用共享數(shù)據(jù)系統(tǒng)的配置、共享數(shù)據(jù)實體的數(shù)據(jù)結(jié)構(gòu)和語義描述、共享方式等。b)共享服務配置數(shù)據(jù)服務定義、數(shù)據(jù)服務目錄、數(shù)據(jù)服務參數(shù)配置(如:目標系統(tǒng)、共享方式、數(shù)據(jù)承載方式、訪問頻率、訪問允許時段)等。c)共享權(quán)限配置對允許使用共享服務的目標系統(tǒng)進行權(quán)限配置,支持共享服務內(nèi)部具體數(shù)據(jù)實體和屬性的權(quán)限配置。d)共享配置下發(fā)共享數(shù)據(jù)的內(nèi)容和共享接口規(guī)則下發(fā)至各相關(guān)系統(tǒng)。數(shù)據(jù)共享過程對各數(shù)據(jù)共享過程進行監(jiān)控、異常處理、日志管理,并對數(shù)據(jù)共享相關(guān)的數(shù)據(jù)提供查詢統(tǒng)計和分析功能。a)表數(shù)據(jù)共享目標系統(tǒng)是應用層分析系統(tǒng),直接開放表訪問權(quán)限,由目標系統(tǒng)通過ETL進行數(shù)據(jù)抽取。b)數(shù)據(jù)查詢目標系統(tǒng)是應用層分析系統(tǒng),由目標系統(tǒng)直接通過調(diào)用數(shù)據(jù)湖提供的數(shù)據(jù)查詢服務,完成數(shù)據(jù)查詢。c)數(shù)據(jù)訂閱目標系統(tǒng)是應用層分析系統(tǒng),目標系統(tǒng)提出數(shù)據(jù)訂閱需求,由數(shù)據(jù)湖提供數(shù)據(jù)訂閱服務。數(shù)據(jù)范圍與ETL數(shù)據(jù)來源數(shù)據(jù)類型(待梳理)ERP系統(tǒng)會計核算、財務管理、生產(chǎn)控制管理、物流管理、采購管理、分銷管理、庫存控制、人力資源管理數(shù)據(jù)采集系統(tǒng)歷史秒級數(shù)據(jù)、實時秒級數(shù)據(jù)、統(tǒng)計數(shù)據(jù):一分鐘數(shù)據(jù)、十分鐘數(shù)據(jù)、日數(shù)據(jù)視頻監(jiān)控系統(tǒng)故障數(shù)據(jù)、狀態(tài)數(shù)據(jù)、故障日志(B文件、F文件、W文件等)OA系統(tǒng)服務工單、服務請求工單、工作任務書(技改)、在建階段工單、審批計劃、檔案、知識庫、遺留問題云商系統(tǒng)日志、交易信息ETL需求:1) ELT支持從ERP系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、OA系統(tǒng)、視頻監(jiān)控系統(tǒng)、云商系統(tǒng)等數(shù)據(jù)源數(shù)據(jù)的抽取、傳輸與加載。ERP、OA為Oracle;數(shù)據(jù)采集系統(tǒng)為SQLserver;云商系統(tǒng)為Mysql數(shù)據(jù)庫。視頻監(jiān)控系統(tǒng)為非關(guān)系型實時數(shù)據(jù)。2) 支持流式的導入方式。3) 支持各種數(shù)據(jù)抽取與加載接口,如專用數(shù)據(jù)庫驅(qū)動接口、JDBC、ODBC,以及Web?Service接口等。4) ETL設計支持可視化的復雜任務控制流與數(shù)據(jù)流,支持在數(shù)據(jù)抽取、清洗和轉(zhuǎn)換中實現(xiàn)自定義處理流程與規(guī)則;5) 支持多種數(shù)據(jù)清洗、轉(zhuǎn)換任務組件,如查找、模糊查找、排序、聚合、合并、分組、條件分拆、抽樣等6) 支持ETL過程的異常數(shù)據(jù)處理,實現(xiàn)常見故障數(shù)據(jù)的修復或剔除或?qū)收蠑?shù)據(jù)拋出保留,以備系統(tǒng)管理員檢查處理。7) ETL執(zhí)行過程具備完整的日志管理和數(shù)據(jù)審計功能,并有相關(guān)監(jiān)控預警機制,保證ETL正常進行;報表平臺(總體功能架構(gòu)圖)綜合展示的總體功能架構(gòu)包括數(shù)據(jù)采集管理、信息數(shù)據(jù)管理、可視化管理三個層次。統(tǒng)一數(shù)據(jù)倉庫建立統(tǒng)一數(shù)據(jù)倉庫,執(zhí)行統(tǒng)一數(shù)據(jù)接口標準,數(shù)據(jù)湖各系統(tǒng)與綜合展示數(shù)據(jù)湖的數(shù)據(jù)通訊和同步。展示數(shù)據(jù)集中管理展示數(shù)據(jù)統(tǒng)一轉(zhuǎn)換、統(tǒng)一存儲、統(tǒng)一處理、統(tǒng)一調(diào)用。豐富展現(xiàn)方式能夠靈活選擇多種展現(xiàn)方式,包括3D圓柱圖、半圓儀表、水平儀表、垂直儀表、垂直進度條、圓形進度條、水平進度條、堆積柱圖、弧形進度條、扇形進度條、溫度計儀表、汽泡圖、雷達圖等。深度關(guān)聯(lián)挖掘各種展示指標,支持層層深入挖掘,從宏觀到微觀、從整體到個體、從實時到中長期趨勢。可維護性能夠根據(jù)IT運營服務本身的管理需求,快速、靈活地調(diào)整定制展現(xiàn)方式、展現(xiàn)內(nèi)容。展示環(huán)境無關(guān)性數(shù)據(jù)湖展示不受大屏硬件、分辨率、尺寸大小、拼接方式的限制。安全管理大數(shù)據(jù)安全框架整體以及基本組件如下圖所示,圖中各組件為數(shù)據(jù)安全構(gòu)架基本構(gòu)成,后續(xù)根據(jù)需求會進行增刪以及調(diào)增,橙色部分為本期主要階段性實現(xiàn):數(shù)據(jù)安全從最初的數(shù)據(jù)接入到最終的數(shù)據(jù)展現(xiàn)的安全問題。中間包括數(shù)據(jù)源、數(shù)據(jù)收集、消息系統(tǒng)、實時處理、存儲、數(shù)據(jù)庫等各部分的數(shù)據(jù)安全以及整條線的安全。身份認證和訪問控制通過身份認證確保訪問數(shù)據(jù)湖中的數(shù)據(jù)、資源和服務的用戶是安全的,本次使用大數(shù)據(jù)技術(shù)支持身份認證,并能夠?qū)崿F(xiàn)快速建立密鑰分發(fā)中心等。用戶通過身份認證后可獲得訪問數(shù)據(jù)湖的資格,同時為進一步控制用戶對資源的訪問權(quán)限,通過授權(quán)機制來管理不同用戶對不同資源的訪問許可。所有組件都在一定程度上支持對訪問的控制,使用訪問控制模型,通過對細粒度的控制,控制到被訪問對象的訪問級別。在制定訪問控制策略時,依據(jù)合規(guī)要求,結(jié)合敏感數(shù)據(jù)保護策略、數(shù)據(jù)使用場景等針對不同數(shù)據(jù)、不同業(yè)務需求制定相應的訪問限制規(guī)則。數(shù)據(jù)保護數(shù)據(jù)保護技術(shù)通過對數(shù)據(jù)利用脫敏、失真、匿名化限制發(fā)布等技術(shù)處理后,使處理后的數(shù)據(jù)到達安全交易、開放共享的目的。針對脫敏后的數(shù)據(jù),可放寬復雜的訪問控制限制,降低數(shù)據(jù)泄露帶來的風險和復雜控制的成本。網(wǎng)絡分區(qū)安全網(wǎng)絡劃分獨立的安全域,控制域其他區(qū)域以及系統(tǒng)的訪問控制,控制網(wǎng)絡層數(shù)據(jù)流向,控制大數(shù)據(jù)網(wǎng)絡與非內(nèi)部網(wǎng)絡的鏈接。保障客戶端訪問數(shù)據(jù)湖的連接和數(shù)據(jù)湖中服務器節(jié)點之間的網(wǎng)絡通信安全。節(jié)點之間及客戶端與服務器之間的通信如有需要,可進行加密。對網(wǎng)絡通信進行加密設置,使用網(wǎng)絡安全設備隔離客戶端與數(shù)據(jù)湖的直接訪問。網(wǎng)絡安全設備部署在數(shù)據(jù)湖和企業(yè)用戶網(wǎng)絡域之間,提供訪問控制、策略管理,三區(qū)與四區(qū)間使用較強的訪問控制措施,從而保護數(shù)據(jù)湖不會受到非法訪問?;A(chǔ)安全審計和監(jiān)控數(shù)據(jù)湖的一切活動并生成告警信息用來分析識別安全事件。安全事故和事件監(jiān)控(SIEM)系統(tǒng)負責對數(shù)據(jù)湖中任何可疑的活動進行收集,監(jiān)控,分析和生成各種安全報告。被監(jiān)控的事件:用戶登錄和身份驗證事件、授權(quán)錯誤、敏感數(shù)據(jù)操作、通過各種客戶端的訪問以及異常事件。數(shù)據(jù)治理根據(jù)業(yè)務要求、合規(guī)性、安全策略及數(shù)據(jù)的敏感性,數(shù)據(jù)基本分類簡要定義為業(yè)務系統(tǒng)數(shù)據(jù)以及配置數(shù)據(jù)。從數(shù)據(jù)特性層面對數(shù)據(jù)進行標記(包括分析類型、處理方式、數(shù)據(jù)時效性數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)源等維度),脈絡化數(shù)據(jù)湖內(nèi)外數(shù)據(jù)流向,包括數(shù)據(jù)被使用,被誰使用,數(shù)據(jù)是如何存儲的等等,基于此對數(shù)據(jù)的管理和數(shù)據(jù)訪問控制制定相應的策略。掌握敏感數(shù)據(jù)在數(shù)據(jù)湖中存在位置,降低數(shù)據(jù)暴露于風險下的概率。掌握敏感數(shù)據(jù)在數(shù)據(jù)湖中分布情況,自動地增量式地發(fā)現(xiàn)找到敏感數(shù)據(jù),監(jiān)控其使用情況,做到全面保護數(shù)據(jù)安全。建立整個的主數(shù)據(jù),并保證主數(shù)據(jù)對于各個業(yè)務系統(tǒng)的準確性、唯一性。2.2非功能需求2.2.1運維保障需求數(shù)據(jù)湖具有友好的系統(tǒng)界面供運維保障人員使用,運維保障人員一般情況下通過系統(tǒng)界面對系統(tǒng)進行維護。維護數(shù)據(jù)湖需要包含并不限于以下內(nèi)容:程序每一步操作需要記錄日志,在程序出現(xiàn)錯誤之后,需要提供基礎(chǔ)的錯誤分析;需要能夠通過系統(tǒng)界面監(jiān)控服務程序的運行狀態(tài);數(shù)據(jù)處理過程需要進行記錄,以及處理的問題數(shù)據(jù)和正常數(shù)據(jù)的條數(shù);針對kafka等流式數(shù)據(jù)處理服務進行監(jiān)控和分析;針對數(shù)據(jù)湖各組件的服務狀態(tài)進行監(jiān)控和告警;針對服務器硬件層面、系統(tǒng)層面、hadoop集群層面進行監(jiān)控,并根據(jù)故障級別以短信和郵件等形式發(fā)出告警信息。2.2.2可用性需求系統(tǒng)具備長期穩(wěn)定工作的能力,所有選用產(chǎn)品均符合我國或國際上的質(zhì)量及可靠性標準。在不同環(huán)境及人員操作情況下,均能處于平衡穩(wěn)定狀態(tài)。提供高可靠的分布式文件系統(tǒng):基于業(yè)內(nèi)廣泛使用的高效分布式存儲架構(gòu),可存儲任意容量,任意數(shù)據(jù)類型的數(shù)據(jù);沒有單點故障,提供成熟的高可用性方案,并可以直接圖形化配置;支持分層,多種存儲介質(zhì)的異構(gòu)分布式存儲架構(gòu),有效利用內(nèi)存、SSD等存儲介質(zhì)的性能優(yōu)勢以及傳統(tǒng)磁盤的容量成本優(yōu)勢;支持多種訪問模式,包括NFS,HTTP,原生API等;提供完善的圖形化文件管理工具,具有查看、編輯、刪除等功能;提供快照功能,防止誤刪除文件;支持多租戶情況下數(shù)據(jù)管理;支持Kudu存儲引擎;支持impala引擎對kudu訪問;提供高可靠的分布式關(guān)系型存儲Kudu;基于業(yè)內(nèi)廣泛使用的分布式關(guān)系型存儲,可按關(guān)系型二維表存儲數(shù)據(jù);支持關(guān)系型數(shù)據(jù)的增刪改查功能,并能秒級進行大數(shù)據(jù)操作;支持多種訪問模式,包含原生API等;支持與MapReduce、Spark和Impala等的集成;支持高并發(fā)數(shù)據(jù)訪問和高吞吐。2.2.3可靠性需求系統(tǒng)具備按要求進行備份的能力,并提供相應手段。1、健壯性要求:接收異常或其他錯誤數(shù)據(jù),數(shù)據(jù)湖具有強健壯性,不會導致系統(tǒng)出錯甚至崩潰,能夠滿足業(yè)務應用。2、安全性要求:通過對用戶和數(shù)據(jù)的權(quán)限設定,確保用戶只能訪問其所屬用戶類型已被授權(quán)訪問的那些功能或數(shù)據(jù)。3、可擴充性要求:當現(xiàn)有數(shù)據(jù)湖資源需進行擴充時,數(shù)據(jù)湖能夠滿足動態(tài)擴容的需求。2.2.4性能需求1、歷史業(yè)務系統(tǒng)和配置數(shù)據(jù)從應用系統(tǒng)數(shù)據(jù)湖遷移至本地化數(shù)據(jù)湖過程,性能滿足要求。2、實時數(shù)據(jù)接收,數(shù)據(jù)無丟失,查詢性能滿足要求。3、目前運行在應用系統(tǒng)中的算法遷移至本地數(shù)據(jù)湖,且算法在數(shù)據(jù)湖中,性能滿足業(yè)務應用要求。備注:在本地化數(shù)據(jù)湖中算法性能不低于當前在應用系統(tǒng)中算法運行性能。2.3需求總結(jié)綜上述,通過此技術(shù)架構(gòu),可以在大數(shù)據(jù)基礎(chǔ)數(shù)據(jù)湖建設方面實現(xiàn)以下功能:1、統(tǒng)一數(shù)倉:建設成熟穩(wěn)定、性能先進、靈活架構(gòu)、便捷易用的大數(shù)據(jù)存儲與計算數(shù)據(jù)湖,實現(xiàn)企業(yè)內(nèi)部統(tǒng)一匯聚、統(tǒng)一標準的數(shù)據(jù)倉庫。2、統(tǒng)一管理:建設數(shù)據(jù)權(quán)限、元數(shù)據(jù)管理、數(shù)據(jù)生命周期管控能力。3、全量數(shù)量:建設數(shù)據(jù)全量存儲、全量計算的大數(shù)據(jù)基礎(chǔ)數(shù)據(jù)湖,實現(xiàn)快速對接系統(tǒng)數(shù)據(jù),提供批量數(shù)據(jù)采集與處理能力。4、數(shù)據(jù)匯集:建設多源異構(gòu)數(shù)據(jù)整合接入能力。5、數(shù)據(jù)計算:建設海量數(shù)據(jù)混合計算處理能力(批量處理和實時流處理),以及豐富多樣的數(shù)據(jù)挖掘算法工具。6、數(shù)據(jù)展現(xiàn):多種維度、多種展現(xiàn)方式、多種接入方式的靈活的,可定制化的,可拖拽的報表平臺。7、數(shù)據(jù)湖擴展:建設具有良好兼容性與擴展性的基礎(chǔ)數(shù)據(jù)湖,以較好地支撐后續(xù)大數(shù)據(jù)應用系統(tǒng)的建設。8、圖片及視頻流數(shù)據(jù)保存至數(shù)據(jù)湖中,并支持快速檢索。整體解決方案數(shù)據(jù)湖整體方案3.1.1硬件部署方式支撐X86架構(gòu)服務器部署。網(wǎng)絡使用以太網(wǎng)絡構(gòu)造,要求支持IP網(wǎng)絡即可,底層存儲無專用的存儲體系結(jié)構(gòu)要求,單數(shù)據(jù)節(jié)點無存儲可靠性要求。網(wǎng)絡部署拓撲參考下圖:硬件配置如下:數(shù)量CPU內(nèi)存操作系統(tǒng)硬盤容量管理節(jié)點:2臺2*E5-2620v4128GCentOSLinuxSAS600GB,12Gb,5塊主板自帶支持RAID0、RAID1;主機總線適配器;主板集成2口千兆網(wǎng)卡以及2口萬兆網(wǎng)卡;工作節(jié)點:13臺2*E5-2620v4256GCentOSLinuxSAS600GB,12Gb,2塊;SATA4TB,12Gb,8塊;主板自帶支持RAID0、RAID1;主機總線適配器;主板集成2口千兆網(wǎng)卡以及2口萬兆網(wǎng)卡;3.1.2基于CDH的數(shù)據(jù)湖軟件部署本次xx項目底層數(shù)據(jù)湖是由公司所發(fā)行的Hadoop企業(yè)版,簡稱CDH。該版本作為業(yè)界最領(lǐng)先的企業(yè)級數(shù)據(jù)中心基礎(chǔ)軟件,Enterprise除了包含業(yè)界最流行的基于開源Hadoop及其生態(tài)組件構(gòu)建的CDH核心,還包含了很多為支撐企業(yè)級業(yè)務的高級管理特性。借助于Enterprise的整體解決方案,企業(yè)可以專注于自己的業(yè)務能力。1、結(jié)構(gòu)概述基于Hadoop的系統(tǒng)數(shù)據(jù)湖中,底層為統(tǒng)一分布式存儲HDFS,其上包含了分布式內(nèi)存分析引擎SPARK,分布式NoSQL數(shù)據(jù)庫HBase,以及支持多租戶的分布式計算集群。在Hadoop及相當架構(gòu)系統(tǒng)數(shù)據(jù)湖之上,根據(jù)實際外部合作以及內(nèi)部應用提供多租戶服務以及資源與數(shù)據(jù)訪問權(quán)限控制。如下圖所示:Hadoop數(shù)據(jù)湖架構(gòu)圖數(shù)據(jù)湖由分布式資源管理框架實時調(diào)度資源、管理計算分析集群,為各個租戶以及各個應用提供資源調(diào)度管理以及高效的分析挖掘能力,同時結(jié)合LDAP與Kerberos提供完備的權(quán)限管理控制。3.1.3基本組件基本組件結(jié)構(gòu)圖結(jié)合xx使用的主要組件和使用場景,從數(shù)據(jù)接入到數(shù)據(jù)存儲和數(shù)據(jù)計算,各組件的應用場景和功能整體介紹下如下:1) HDFS:Hadoop分布式文件系統(tǒng),主要以大文件存儲為主,吞吐比較高,主要存儲相關(guān)的視頻文件和常規(guī)非實時、不修改的結(jié)構(gòu)化數(shù)據(jù),同時可以作為歷史數(shù)據(jù)存儲,適合數(shù)據(jù)分析和數(shù)據(jù)挖掘存儲。2) Kudu:結(jié)構(gòu)化數(shù)據(jù)存儲,可以實時接入設備端數(shù)據(jù),同時接入業(yè)務系統(tǒng)需要經(jīng)常修改的業(yè)務交易數(shù)據(jù),適合結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)分析和數(shù)據(jù)挖掘。3) HBase:NoSQL數(shù)據(jù)庫,可以實時接入設備端數(shù)據(jù),適合做固定模式的數(shù)據(jù)明細查詢;同時適合存儲如文件、音頻等海量的小文件。4) YARN:資源管理和調(diào)度框架,主要的批處理和計算引擎的資源調(diào)度工具。5) MapReduce:分布式批處理引擎,主要適合海量數(shù)據(jù)的批處理作業(yè)。6) Zookeeper:分布式的服務框架,主要用來解決分布式集群中應用系統(tǒng)的一致性問題,它能提供基于類似于文件系統(tǒng)的目錄節(jié)點樹方式的數(shù)據(jù)存儲,Zookeeper作用主要是用來維護和監(jiān)控存儲的數(shù)據(jù)的狀態(tài)變化,通過監(jiān)控這些數(shù)據(jù)狀態(tài)的變化,從而達到基于數(shù)據(jù)的集群管理。7) Hive:SQLOnHadoop的最常用工具,主要適合客戶用SQL來進行數(shù)據(jù)的批量處理,底層會借助MapReduce或Spark。8) Impala:MPPOnHadoop的最常用工具,主要適合客戶用SQL進行交互式查詢和即席查詢相關(guān)的操作,支持JDBC/ODBC,和主流BI工具已經(jīng)認證集成。9) ES:全文檢索工具,主要用于客戶針對文本內(nèi)容進行數(shù)據(jù)的搜索,如Word,PDF等。10) Spark:主流的Hadoop數(shù)據(jù)處理引擎,以內(nèi)存計算為主。通過的高效數(shù)據(jù)計算引擎,支持批處理、流式計算和數(shù)據(jù)挖掘等不同的計算方式,流處理有引擎SparkStreaming,數(shù)據(jù)挖掘有SparkMLLib,數(shù)據(jù)批處理有SparkSQL和Scala開發(fā)。后續(xù)應用的流式計算和數(shù)據(jù)挖掘、機器學習和數(shù)據(jù)處理都需要這個組件。11) Sqoop:ETL工具,主要用來集成業(yè)務交易系統(tǒng)數(shù)據(jù)如Oracle、DB2、Mysql等數(shù)據(jù)源數(shù)據(jù)定時同步到Hadoop數(shù)據(jù)湖上。12) Kafka:消息中間件,可以傳輸不同的數(shù)據(jù),目前主要可以用來傳輸設備端如風電等實時數(shù)據(jù),進行數(shù)據(jù)的緩沖和數(shù)據(jù)的多目標分發(fā)。13) Flume:一個可以收集例如日志、事件等數(shù)據(jù)資源,并將這些數(shù)量龐大的數(shù)據(jù)從各項數(shù)據(jù)資源中集中起來存儲的工具/服務。Flume具有高可用,分布式,配置工具,其設計的原理也是基于將數(shù)據(jù)流,如日志數(shù)據(jù)從各種網(wǎng)站服務器上匯集起來存儲到HDFS,HBase等集中存儲器中。具體版本及特性的詳細介紹,請參見第四章。3.1.3數(shù)據(jù)ETL及數(shù)據(jù)接口開發(fā)方案業(yè)務系統(tǒng)數(shù)據(jù)遷移開發(fā)方案業(yè)務系統(tǒng)數(shù)據(jù)遷移需要將實時數(shù)據(jù)庫中的歷史數(shù)據(jù)與實時數(shù)據(jù)整齊地通過Kafka消息隊列輸出到xx集控中心Hadoop數(shù)據(jù)湖的Kudu和HBase中進行存儲。實時數(shù)據(jù)庫中配套的輸出適配器將緩沖區(qū)的數(shù)據(jù)解析并生成指定格式的數(shù)據(jù),實時向Hadoop數(shù)據(jù)湖中的Kafka集群推送,存入Kafka的Topic中,每一個業(yè)務系統(tǒng)對應一個采集協(xié)議,同一采集協(xié)議的數(shù)據(jù)放在一個Topic里。業(yè)務系統(tǒng)歷史數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)通過sqoop腳本進行批量的導入,在導入過程中進行面向業(yè)務的數(shù)據(jù)清洗、轉(zhuǎn)換、加載到Kudu和Hbase中去。數(shù)據(jù)按照業(yè)務系統(tǒng)進行分類,進行標簽的規(guī)則制定和數(shù)據(jù)標簽的開發(fā)。業(yè)務系統(tǒng)歷史數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)通過flume腳本進行批量的導入,在導入過程中進行面向業(yè)務的數(shù)據(jù)清洗、轉(zhuǎn)換、加載到Kudu和Hbase中去。數(shù)據(jù)按照業(yè)務系統(tǒng)進行分類,進行標簽的規(guī)則制定和數(shù)據(jù)標簽的開發(fā)。ERP系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、OA系統(tǒng)、視頻監(jiān)控系統(tǒng)、云商系統(tǒng)進入數(shù)據(jù)湖存儲。日志中心湖區(qū)和文件中心湖區(qū)往往數(shù)據(jù)量非常大,且價值密度較低。對于這類數(shù)據(jù)不要求強一致性,故而可不進行數(shù)據(jù)審計和定期數(shù)據(jù)一致性校驗。日志中心湖區(qū)和文件中心湖區(qū)多以半/非結(jié)構(gòu)化數(shù)據(jù)為主,需要進行關(guān)聯(lián)分析的,進行模型換行,并將其導入到中心湖的HDFS/HIVE。云商數(shù)據(jù)和用戶網(wǎng)頁行為分析的數(shù)據(jù),數(shù)據(jù)產(chǎn)生并發(fā)度高,數(shù)據(jù)流量大,需要用Kafka集群進行數(shù)據(jù)承接,承接過程中需要進行一定比例的數(shù)據(jù)壓縮,之后直接存儲到HDFS中,通過HIVE外部表的形式進行訪問,以降低集群負載。對于文件中心的圖片文件,推薦進行圖片識別,通過web前臺、數(shù)據(jù)API服務,進行圖片數(shù)據(jù)的上傳及查詢,圖片需要有唯一ID作為標示,確??蓹z索。海量圖片數(shù)據(jù)以ID為rowkey,儲存于Hbase平臺,提供快速儲存及查詢能力。數(shù)據(jù)資產(chǎn)上有以下方面的構(gòu)建:1、統(tǒng)一索引描述非結(jié)構(gòu)數(shù)據(jù),方便數(shù)據(jù)檢索分析。2、增加維護及更新時間作為對象描述字段(圖片類型、像素大小、尺寸規(guī)格)。非對象方式及數(shù)字化屬性編目(全文文本、圖像、聲音、影視、超媒體等信息),自定義元數(shù)據(jù)。3、不同類型的數(shù)據(jù)可以形成了關(guān)聯(lián)并處理非結(jié)構(gòu)化數(shù)據(jù)。 Hadoop數(shù)據(jù)湖,通過相關(guān)組件將數(shù)據(jù)存儲在Hadoop集群的HDFS和HBase中。通過上層分析和處理引擎Hive、Impala、Spark對底層數(shù)據(jù)進行分析處理,并提供統(tǒng)一的數(shù)據(jù)訪問接口非彈性計算業(yè)務遷移:包括預警常規(guī)模型計算和預警可視化服務。服務所需環(huán)境:CentOS7.0、Hbase、Hive。數(shù)據(jù)存儲開發(fā)方案Kafka的Topic中的數(shù)據(jù)通過定制開發(fā)的SparkStreaming程序進行清洗、去重等操作并存入數(shù)據(jù)湖。數(shù)據(jù)采用Kudu+HBase的方式存儲,HBase存全量數(shù)據(jù),Kudu存計算點數(shù)據(jù)、測點數(shù)據(jù)。數(shù)據(jù)倉庫的存儲,根據(jù)業(yè)務需求,采用hive+kudu的方式進行開發(fā)。報表的數(shù)據(jù)存儲,根據(jù)實時性和變化量,采用hive+mysql的方式進行存儲,開發(fā)相應的關(guān)系映射和連接組件。Hbase+ES近實時(NRT)查詢開發(fā)方案Hbase適用于大表的存儲,通過單一的RowKey查詢雖然能快速查詢,但是對于復雜查詢,尤其分頁、查詢總數(shù)等,實現(xiàn)方案浪費計算資源,所以可以針對hbase數(shù)據(jù)創(chuàng)建二級索引(HbaseSecondaryIndexing),供復雜查詢使用。而ES作為一個高性能,采用Java5開發(fā),基于Lucene(同時對其進行了擴展)的全文搜索服務器,提供了比Lucene更為豐富的查詢語言,同時實現(xiàn)了可配置、可擴展并對查詢性能進行了優(yōu)化,并且提供了一個完善的功能管理界面,是一款非常優(yōu)秀的全文搜索引擎。Key-ValueStoreIndexer是Hbase到ES生成索引的中間工具。在CDH5中的Key-ValueStoreIndexer使用的是LilyHBaseNRTIndexer服務。LilyHBaseIndexer是一款靈活的、可擴展的、高容錯的、事務性的,并且近實時的處理HBase列索引數(shù)據(jù)的分布式服務軟件。LilyHBaseIndexer使用ESCloud來存儲HBase的索引數(shù)據(jù),當HBase執(zhí)行寫入、更新或刪除操作時,Indexer通過HBase的replication功能來把這些操作抽象成一系列的Event事件,并用來保證寫入ES中的HBase索引數(shù)據(jù)的一致性。并且Indexer支持用戶自定義的抽取,轉(zhuǎn)換規(guī)則來索引HBase列數(shù)據(jù)。ES搜索結(jié)果會包含用戶自定義的columnfamily:qualifier字段結(jié)果,這樣應用程序就可以直接訪問HBase的列數(shù)據(jù)。而且Indexer索引和搜索不會影響HBase運行的穩(wěn)定性和HBase數(shù)據(jù)寫入的吞吐量,因為索引和搜索過程是完全分開并且異步的。hbase負責海量數(shù)據(jù)存儲;ES負責構(gòu)建索引和提供對外查詢;Indexer負責提供hbase到ES的索引構(gòu)建。數(shù)據(jù)使用流程圖數(shù)據(jù)接口的開發(fā)數(shù)據(jù)湖通過標準接口的方式為外部系統(tǒng)提供數(shù)據(jù)服務,根據(jù)不同業(yè)務系統(tǒng)的需要進行定制化的接口開發(fā)。根據(jù)業(yè)務的不同數(shù)據(jù)封裝分成兩種方式,一種是對批量的數(shù)據(jù)進行封裝,將封裝后的數(shù)據(jù)發(fā)布到共享區(qū)上,供數(shù)據(jù)應用和外圍系統(tǒng)獲取,這種方式主要針對訪問方需要海量數(shù)據(jù)的情況;另一種方式是將數(shù)據(jù)封裝成WebService或者其他專用Socket協(xié)議的格式供訪問方獲取單條數(shù)據(jù),這種方式主要針對對客戶視圖等的訪問情況。1) API應保持與開源Hadoop及相當架構(gòu)系統(tǒng)各服務組件的API不變,具體包括并不限于接口功能、接口類型(Java、Python、Rest等)、接口名稱、輸入?yún)?shù)、返回結(jié)構(gòu)。所支持的接口包括并不限于:a. 支持訪問分布式文件系統(tǒng)的文件操作接口;b. 支持與外部數(shù)據(jù)源關(guān)系數(shù)據(jù)庫的交互;c. 通過提交MR任務分析和查詢數(shù)據(jù);d. 支持Thrift、Rest接口;e. 以直接提交查詢語句方式訪問數(shù)據(jù);f. 提供用戶訪問Hive的方法,支持用戶使用Java和Thrift方式訪問Hive。2) SQL應支持上層使用SQL語言進行訪問,具體要求:a. 以ODBC方式訪問數(shù)據(jù)湖;b. 以JDBC方式訪問數(shù)據(jù)湖;c. 提供可視化界面工具,提供SQL設計以及數(shù)據(jù)訪問功能,支持Kudu、Spark、Hive、Impala以及傳統(tǒng)數(shù)據(jù)庫。數(shù)據(jù)湖提供標準接口API直接與生產(chǎn)實時數(shù)據(jù)庫通信,獲取生產(chǎn)數(shù)據(jù),并將數(shù)據(jù)接入xx數(shù)據(jù)湖的實時數(shù)據(jù)庫集群中。數(shù)據(jù)格式標準化方式,將數(shù)據(jù)湖的數(shù)據(jù)訪問,封裝為標準的WebService接口。消費數(shù)據(jù)的上層應用,通過不同的接口服務進行調(diào)用,數(shù)據(jù)湖提供標準化的解析方式,權(quán)限由數(shù)據(jù)湖統(tǒng)一控制。數(shù)據(jù)接入層采用KAFKA為實時接入組件,根據(jù)業(yè)務需求,建立統(tǒng)一的TOPIC,消息包含但不限于:時間戳、消息來源、設備類型,狀態(tài)值等類型,采用統(tǒng)一命名規(guī)則和編碼方式。數(shù)據(jù)庫表進行統(tǒng)一的命名方式和索引構(gòu)建,使用CDH的Navigator組件進行數(shù)據(jù)全生命周期的跟蹤和管理。數(shù)據(jù)ETL方案及實現(xiàn)ETL架構(gòu)圖將業(yè)務系統(tǒng)的關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)集成到Hadoop數(shù)據(jù)湖,涉及的部分關(guān)系型數(shù)據(jù)庫包括:Oracle9、Oracle9.2、Oracle9i、Oracle10g、Oracle10.2、Oracle11g、Oracle11.2、Oracle13、SqlServer2000、SqlServer2008、MySql5.0。ETL是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。是構(gòu)建數(shù)據(jù)湖的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終將數(shù)據(jù)加載到數(shù)據(jù)湖中。數(shù)據(jù)抽取提供手工和自動兩種抽取方式;手工方式通過人為方式啟動任務,自動方式基于調(diào)度程序定期定時執(zhí)行抽取任務;提供全量和增量數(shù)據(jù)抽取;提供多種抽取策略;抽取的字段可以動態(tài)修改;提供上傳數(shù)據(jù)壓縮包的解壓;數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換(Transform)是按照目標表的數(shù)據(jù)結(jié)構(gòu),對一個或多個源數(shù)據(jù)的字段進行翻譯、匹配、聚合等操作得到目標數(shù)據(jù)的字段。數(shù)據(jù)裝載提供數(shù)據(jù)的批量裝載;提供以接口和文件的方式將數(shù)據(jù)裝載進入綜合應用數(shù)據(jù)湖、深度分析庫、Hadoop庫中;提供對采集過程及結(jié)果的監(jiān)控界面,獲取監(jiān)控數(shù)據(jù)。提供對采集的過程報錯提供日志記錄和審計功能,,并提供相應的管理界面和外部訪問接口。非結(jié)構(gòu)化數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)包括音視頻數(shù)據(jù)及采用爬蟲等相關(guān)工具抓取的產(chǎn)業(yè)信息等,采用ETL工具將非結(jié)構(gòu)化數(shù)據(jù)集成到數(shù)據(jù)湖。實現(xiàn)步驟:參與人員:xx技術(shù)團隊科技實施團隊主要任務:數(shù)據(jù)源及其特性定義數(shù)據(jù)析取、轉(zhuǎn)換和加載策略設計析取Extracting條件Conditioning剔除Scrubbing合并Merging濃縮Enrichment確認Validating加載Loading評分Scoring家庭關(guān)系識別Householding構(gòu)建和測試初始加載的程序和處理流程構(gòu)建和測試日常加載的程序和處理流程40%的工作量在數(shù)據(jù)轉(zhuǎn)換和加載上交付件:《數(shù)據(jù)ETL設計說明書》《數(shù)據(jù)映射(DataMapping)說明書》數(shù)據(jù)ETL腳本(ETLScripts)加載流程控制(ETLProcessControls)3.1.4沙盒管理利用Docker,基于kubernetes主打的容器技術(shù)與微服務應用基礎(chǔ)平臺,HDFS和YARN均可依此建模,為上層應用提供微服務引擎架構(gòu)支持。使用資源隔離,基于linux提供的LXC技術(shù),EDH提供靜態(tài)的資源隔離,并使用CGroups對隔離后的資源進行管理。部署服務彈性伸縮和自修復觸發(fā)器,充分利用計算資源。創(chuàng)建分析引擎及計算引擎鏡像,部署到docker中。 基于devicemapper動態(tài)擴容、縮容,將中心湖的數(shù)據(jù)進行分片,然后同步導入到沙盒中的HDFS或KUDU中。3.1.5多租戶管理數(shù)據(jù)湖環(huán)境下的多租戶CDH平臺需要具備多租戶資源管理能力,支持PB級的數(shù)據(jù)處理和應用分析、秒級的實時處理和場景營銷、高并發(fā)的數(shù)據(jù)查詢、對外的服務支持等。多租戶Hadoop平臺框架如左圖所示,可以滿足統(tǒng)一數(shù)據(jù)存放,提高數(shù)據(jù)湖數(shù)據(jù)共享率,優(yōu)化資源調(diào)度策略,提升數(shù)據(jù)湖資源利用率,支撐PB級大數(shù)據(jù)處理,建立數(shù)據(jù)湖評測標準等效果。目前版本的多租戶CDH平臺已滿足大部分功能需求,包括滿足統(tǒng)一數(shù)據(jù)存放、優(yōu)化資源調(diào)度策略,提升數(shù)據(jù)湖資源利用率,主要包含以下幾個模塊:多租戶管理、資源管理、機構(gòu)管理、權(quán)限管理,應用及數(shù)據(jù)的統(tǒng)一監(jiān)控、安全管理分為以下幾個模塊:我的工作臺包含用戶(租戶)自身的資源查看和申請、提交的任務運行情況(歷史任務/正在運行的任務)、所擁有的數(shù)據(jù)列表、密鑰申請及查看;機構(gòu)管理包含用戶層級管理(主要針對多部門多用戶的分級管理);用戶管理包含用戶的個人管理、用戶所關(guān)聯(lián)的平臺角色管理、用戶申請的密鑰審批管理、用戶/租戶針對CDH平臺組件的權(quán)限管理(YARN/Impala/Hive/HDFS/HBase等)3.2報表平臺整體方案3.2.1系統(tǒng)設計原則系統(tǒng)設計方案總體遵循技術(shù)規(guī)格書的總體目標和指導思想,以優(yōu)化整合基礎(chǔ)數(shù)據(jù)為前提,以構(gòu)建貫通主體業(yè)務為目標建立基于信息共享數(shù)據(jù)湖的BI應用系統(tǒng)架構(gòu);應用系統(tǒng)架構(gòu)的規(guī)劃要將先進性和實用性有機結(jié)合,結(jié)合的關(guān)鍵點在于從的實際需求出發(fā),在明確的有限目標前提下,以實用性為優(yōu)先。系統(tǒng)設計體現(xiàn)統(tǒng)一性、先進性、實用性、可靠性、安全性、可擴展性。統(tǒng)一性信息資源統(tǒng)一規(guī)劃、統(tǒng)一管理,包含是統(tǒng)一的建設標準。包括統(tǒng)一的數(shù)據(jù)標準、統(tǒng)一的規(guī)劃標準、統(tǒng)一的接口標準、統(tǒng)一的管理標準。先進性技術(shù)設計及業(yè)務應用方面體現(xiàn)行業(yè)應用的領(lǐng)先性和前瞻性。實用性管理模式和系統(tǒng)功能要針對的實際情況設定,體現(xiàn)基礎(chǔ)扎實、效率優(yōu)先、平穩(wěn)過渡、降低風險、投資見效快的要求,并結(jié)合使用人員特點、業(yè)務實際操作特點和管理基礎(chǔ)使系統(tǒng)易學易用、方便推廣??煽啃韵到y(tǒng)采用大型關(guān)系型數(shù)據(jù)庫,有嚴格的安全控制和數(shù)據(jù)備份機制,確保數(shù)據(jù)安全可靠。安全性在網(wǎng)絡配置上,外部只可訪問經(jīng)過許可的Web服務器,保證內(nèi)部業(yè)務分析應用模型的數(shù)據(jù)不被非法用戶所獲取。在應用軟件的設計上,強化權(quán)限管理功能,具有多級安全機制。通過對各級工作人員的權(quán)限設置,做到所有人員只能查看與其權(quán)限相應的數(shù)據(jù),并建立完善的日志管理,做到所有操作都有據(jù)可查??蓴U展性可擴展性從以下兩個方面提出要求:一是業(yè)務應用功能的可擴展性,通過建立集中與分層管理的統(tǒng)一模式,使同類業(yè)務能在和二級部門層面推廣使用,并以精細化數(shù)據(jù)管理為基礎(chǔ),為未來系統(tǒng)功能向更高層次的提升奠定應用基礎(chǔ)框架;二是系統(tǒng)環(huán)境的可擴展性,網(wǎng)絡和系統(tǒng)數(shù)據(jù)湖可根據(jù)統(tǒng)一規(guī)劃的要求,在保證體系完整的前提下,通過逐步擴充來滿足應用需求并實現(xiàn)合理投資。易用性提供了完整的交互性的UI操作界面和管理控制數(shù)據(jù)湖。其中BI更有別于其他傳統(tǒng)BI產(chǎn)品,在分析圖表創(chuàng)建、調(diào)整等方面更為簡便、易用,以一個產(chǎn)品組件即實現(xiàn)了數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)圖表、OLAP、Dashboard等以往需要多個產(chǎn)品實現(xiàn)的開發(fā)和應用發(fā)布功能,極大地減輕了對系統(tǒng)維護團隊的工作壓力。3.2.2數(shù)據(jù)分析場景一個分析數(shù)據(jù)湖融合五類企業(yè)應用場景,全面滿足您構(gòu)建由數(shù)據(jù)驅(qū)動的現(xiàn)代企業(yè)管理體系。我們更需要構(gòu)建全方位的數(shù)據(jù)分析能力,并將其融入各種業(yè)務場景中,促使其真正產(chǎn)生價值,提升ROI。引導式分析:預定義數(shù)據(jù)邏輯,以內(nèi)置的業(yè)務模型引導分析過程,以發(fā)現(xiàn)顯性業(yè)務問題為主。自助式分析:自定義數(shù)據(jù)邏輯,可論證業(yè)務的自助分析過程,以提出并回答焦點業(yè)務問題為主。嵌入式分析:將分析應用嵌入企業(yè)應用,構(gòu)建集成的業(yè)務支撐數(shù)據(jù)湖,快速融合業(yè)務執(zhí)行管理場景。定制化開發(fā):定制數(shù)據(jù)分析及服務能力,構(gòu)建外部的分析應用門戶,增強價值鏈環(huán)節(jié)有效協(xié)作。報表及協(xié)作:提供分析應用的生成及訂閱,構(gòu)建企業(yè)級報表分發(fā)體系,主動投遞業(yè)務洞察。一個分析數(shù)據(jù)湖響應兩套不同分析方法,迅速應變您數(shù)據(jù)處理及分析的審視過程??深A定義數(shù)據(jù)邏輯的內(nèi)存計算模式,基于預置業(yè)務模型提供團隊已知洞察點的分析線索??勺远x數(shù)據(jù)邏輯的關(guān)聯(lián)計算模式,基于動態(tài)業(yè)務模型提供支撐個人知識結(jié)構(gòu)與工作背景的分析能力。一個分析數(shù)據(jù)湖接入多種數(shù)據(jù)資源,應對復雜數(shù)據(jù)分析環(huán)境。充分結(jié)合數(shù)據(jù)湖的海量存儲與計算能力。一個分析數(shù)據(jù)湖接入多種用戶體驗訴求,增強背后的業(yè)務邏輯應變及用戶體驗模式?;凇傲汩_發(fā)?跨終端?自適應?易交互?多協(xié)作”模式,使用數(shù)據(jù)分析行為在Anyone-Anytime-Anywhere-Anymore均可被保證有效,全面構(gòu)建由數(shù)據(jù)驅(qū)動的現(xiàn)代企業(yè)管理體系。業(yè)務人員在使用過程中,通過“搜索”、“探索”、“快照”、“書簽”、“故事”、“觀點”等十多種可視化交互能力定義,任何人均可快速有效地實踐對數(shù)據(jù)的分析、管理及協(xié)作方案。并可基于時間與事件進行靜動態(tài)回溯,全方位審視數(shù)據(jù)的意圖,與您的團隊進行論證業(yè)務分析焦點并分享你的獨到見解。3.2.3業(yè)務需求建議基于對xx前期的溝通和對運營分析內(nèi)容的理解。結(jié)合科技在數(shù)據(jù)分析解決方案和實施經(jīng)驗,提供如下建議和參考示例。以下圖表樣式僅供參考,具體管理規(guī)范和分析圖表樣式以實際為準。實施過程中梳理維度與指標,開展業(yè)務需求規(guī)格書的編寫和評審。統(tǒng)一管理分析報表的命名規(guī)范,在報表名稱、維度與指標。將企業(yè)KPI指標以資產(chǎn)管理卡片的形式存檔(KPI字典),并設立引用、變更等管理流程。以各業(yè)務主題為單元,分解詳細的業(yè)務分析規(guī)劃并討論、評審。以下是財務分析主題、生產(chǎn)供應主題、物流分析為示例參考。示例:財務分析主題財務分析是以會計核算和報表資料及其他相關(guān)資料為依據(jù),采用一系列專門的分析技術(shù)和方法,對企業(yè)經(jīng)營組織過去和現(xiàn)在的有關(guān)籌資/投資活動、經(jīng)營活動、分配活動的盈利能力、營運能力、償債能力和增長能力狀況等進行分析和評價的管理活動。相對與其他分析主題較為固化,特點是標準化,但在本方案中將結(jié)合BI產(chǎn)品的特色提出分析方案。財務控制分析標準財務分析方法,純財務口徑的統(tǒng)計分析,包括三大財務報表、能力分析法覆蓋財務部報表:FI001償債能力分析A類FI002營運能力分析A類FI003盈利能力分析A類FI013稅金分析A類FI014費用分析B類FI015營業(yè)外收支分析B類包含但不限于下列維度和指標:維度:時間–年、季、月法人單位基礎(chǔ)指標:組合指標不再一一羅列會計科目期初、借方發(fā)生、貸方發(fā)生、余額資產(chǎn)負債/損益/現(xiàn)金流量表行項目期初、借方發(fā)生、貸方發(fā)生、期末余額財務經(jīng)營分析以財務口徑統(tǒng)計各類經(jīng)營活動,例如:采購節(jié)超、銷售量差/價差、成本還原等的分析方法,在需要時可拆分成各經(jīng)營活動的獨立分析。覆蓋財務部報表:FI004工程分析B類FI005發(fā)貨分析A類FI006銷售分析A類FI008庫存分析A/B類FI009往來科目分析A類FI010應付總帳與明細賬的核對B類FI011采購分析FI012低易領(lǐng)用分析A類FI016PBC數(shù)據(jù)匯總B類FI017產(chǎn)銷量報表匯總B類包含但不限于下列維度和指標:維度:時間–年、季、月生產(chǎn)基地公司-公司、部門低易類別存貨類別片區(qū)-大區(qū)、片區(qū)產(chǎn)品-品種、品規(guī)、包裝基礎(chǔ)指標:組合指標不再一一羅列發(fā)貨額、成本、毛利、凈利潤、單價、應收/應付賬款、工程項目支出、單位成本、存貨量/額以及相關(guān)預算財務主題綜述注:圖例僅用于幫助理解為目的,不代表未來項目實施的交付件示例:生產(chǎn)供應主題針對生產(chǎn)涉及的原材料采購、供應、庫存等信息,統(tǒng)計各物料、供應商、生產(chǎn)基地的運營情況。覆蓋供應部報表:PP001物料價格變化趨勢A類PP002物料需求計劃B類PP003應付賬款賬齡分析B類PP004成本分析A類包含但不限于下列維度和指標:維度:時間–年、季、月生產(chǎn)基地供應商物料–類別、品種產(chǎn)品-品種、品規(guī)、包裝倉庫-庫區(qū)、庫位基礎(chǔ)指標:組合指標不再一一羅列物料價格、庫存量/額、生產(chǎn)需求量、應付賬款注:圖例僅用于幫助理解為目的,不代表未來項目實施的交付件示例:物流分析主題以物流監(jiān)管部提出的報表需求為主線,不限定報表格式(需調(diào)研)與指標(需調(diào)研),結(jié)合提出的解決方案和實施經(jīng)驗,涉及物流各運營環(huán)節(jié)的統(tǒng)計分析。覆蓋物流監(jiān)管部報表:SC001物流成本分析B類SC002物流成本預警A類SC003效率分析A類包含但不限于下列維度和指標:維度:時間–年、季、月、日生產(chǎn)基地承運商人員物料–類別、品種產(chǎn)品-品種、品規(guī)、包裝倉庫-庫區(qū)、庫位基礎(chǔ)指標:組合指標不再一一羅列存貨量/額、物流費用額、里程、注:圖例僅用于幫助理解為目的,不代表未來項目實施的交付件3.2.4系統(tǒng)邏輯架構(gòu)系統(tǒng)采用多層設計原則,將系統(tǒng)分為:數(shù)據(jù)層、應用層以及展現(xiàn)層。系統(tǒng)邏輯部署如下圖。數(shù)據(jù)層:涉及ETL、ODS和數(shù)據(jù)倉庫ETL:負責抽取、清洗、邏輯轉(zhuǎn)換和加載等數(shù)據(jù)集成的執(zhí)行工作ODS:集成來自多個系統(tǒng)的數(shù)據(jù),直接將來源系統(tǒng)的數(shù)據(jù)以類似復制的方式,經(jīng)過簡單清洗、維度映射后的數(shù)據(jù)存儲數(shù)據(jù)集市:是ODS數(shù)據(jù)的進一步處理,是面向業(yè)務分析主題的、經(jīng)過預先匯總的數(shù)據(jù)存儲,與ODS一起構(gòu)成完整的數(shù)據(jù)倉庫可用性。應用層:基于數(shù)據(jù)倉庫的基礎(chǔ)上,提供應用服務支持、資源發(fā)布。展示層:基于應用層的服務支持,提供用戶通過企業(yè)局域網(wǎng)、互聯(lián)網(wǎng)在桌面PC或移動設備訪問分析模型的能力。3.2.5技術(shù)方案特點1.數(shù)據(jù)源安全連接到本地或云端的任何數(shù)據(jù)源。以實時連接或數(shù)據(jù)提取的形式發(fā)布和共享數(shù)據(jù)源,讓每個人都可以使用客戶的數(shù)據(jù)。兼容熱門的企業(yè)數(shù)據(jù)源,如Hadoop、Oracle、AWSRedshift、多維數(shù)據(jù)集、Teradata、MicrosoftSQLServer等。借助我們的Web數(shù)據(jù)連接器和API,還可以訪問數(shù)百個其他數(shù)據(jù)源。3

易用性BI提供了一個非常新穎而易用的使用界面,使得處理規(guī)模巨大的、多維的數(shù)據(jù)時,也能即時的從不同角度和設置下看到數(shù)據(jù)所呈現(xiàn)出的規(guī)律。BI通過數(shù)據(jù)可視化方面技術(shù),使得數(shù)據(jù)挖掘變得平民化。而其自動生成和展現(xiàn)出的圖表,也絲毫不遜色于互聯(lián)網(wǎng)美工編輯的水平。2.自助式開發(fā)只需用拖放的方式就可快速地創(chuàng)建出交互、美觀、智能的視圖和儀表盤,快速創(chuàng)建出各種圖表類型。如:餅圖、柱狀圖、條形圖、氣泡圖、熱力圖、瀑布圖、突出表、折線圖、散點圖、交叉表等等,并且BI擁有自動推薦圖形的功能,即用戶只要選擇好字段,軟件會自動推薦一種圖形來展示這些字段;圖表可以在儀表盤中自由擺放,形成圖文結(jié)合的視圖。這些視圖可以是一表多圖、一圖多表、多表多圖的表現(xiàn)形式。同時,還支持圖表的動態(tài)播放功能;友好的數(shù)據(jù)可視化界面,內(nèi)置地圖、計算公式、函數(shù)以及下鉆穿透功能,用戶可以自主創(chuàng)建圖表等。BIServer可以提供適合每種用戶的功能,讓組織中的每個人都能夠查看和理解數(shù)據(jù)。這其中既有希望使用已發(fā)布儀表板進行數(shù)據(jù)驅(qū)動型決策的非固定用戶,也有希望使用Web制作功能來根據(jù)已發(fā)布數(shù)據(jù)源提出新問題的數(shù)據(jù)愛好者,甚至有希望創(chuàng)建自己的可視化和數(shù)據(jù)源并與組織中其他成員共享這些內(nèi)容的數(shù)據(jù)行家。3.靈活的部署靈活的部署適用于各種企業(yè)環(huán)境,支持門戶、iPad和各種瀏覽器,用BIDesktop可以將分析結(jié)果發(fā)布到BIServer上與同事進行交流和分享。同事也可以以極快的速度用瀏覽器和移動終端來處理業(yè)務人員所分享的數(shù)據(jù)源和分析結(jié)果。如各種版本的瀏覽器、Android或IOS系統(tǒng)的平板及移動手機。無論是將數(shù)據(jù)存放在本地還是云端,BIServer都能讓客戶靈活集成到現(xiàn)有的數(shù)據(jù)基礎(chǔ)架構(gòu)中。在本地的Windows或Linux系統(tǒng)上安裝BIServer,可在防火墻保護下實現(xiàn)最佳控制。借助AWS、Azure或GoogleCloudPlatform實現(xiàn)公有云部署,從而利用現(xiàn)有云端投資。BI支持數(shù)據(jù)的實時定時自動刷新業(yè)務人員在儀表盤的界面模式固定好后,若數(shù)據(jù)源中的數(shù)據(jù)有增加、刪減、修改等情況,可通過客戶端和Server對數(shù)據(jù)進行更新,儀表盤在每次打開后可以自動實時刷新界面以展示變動后的最新數(shù)據(jù)。BI支持快速實現(xiàn)系統(tǒng)集成客戶可以將BIServer中的交互式視圖嵌入到網(wǎng)頁、博客、wiki、Web應用程序和Intranet門戶中。嵌入式視圖會隨著基礎(chǔ)數(shù)據(jù)的變化或工作簿在服務器上的更新而更新。嵌入的視圖遵守服務器上使用的相同許可和權(quán)限限制。客戶可以將分析技術(shù)部署到員工、客戶、合作伙伴和供應商需要的地方,在現(xiàn)有的商業(yè)門戶中嵌入交互式儀表板,包括Salesforce、SharePoint和Jive等應用程序。BI支持訂閱式郵件分發(fā)BIServer上打開視圖時,如果該視圖的右上角有一個訂閱圖標,則表示用戶的管理員已為站點配置了訂閱??梢詥螕舸诵欧鈦磉x擇用于訂閱視圖的選項。這意味著會定期自動向用戶的電子郵件帳戶中發(fā)送視圖的快照,而查看人員不必登錄BIServer就可在郵箱中查看視圖快照。用戶也可以選擇在一封電子郵件中接收工作簿中的每個視圖,或者取消訂閱不再想要接收的視圖。4.大數(shù)據(jù)分析BI支持海量數(shù)據(jù),在普通硬件條件下,百萬級數(shù)據(jù)響應時間為秒級。5.有效管控集中管理所有元數(shù)據(jù)和安全規(guī)則。為用戶提供精心整理的共享數(shù)據(jù)源。了解使用情況以優(yōu)化環(huán)境。恰當平衡用戶靈活性和掌控力。無論使用的是ActiveDirectory、Kerberos、OAuth還是其他標準,BI都可與客戶的現(xiàn)有安全協(xié)議無縫集成。管理用戶級別和組級別的身份驗證。采用傳遞式數(shù)據(jù)連接權(quán)限和行級篩選,維護數(shù)據(jù)庫的安全。利用多租戶選項和細粒度的權(quán)限控制,保證用戶和內(nèi)容的安全。BI是一個現(xiàn)代企業(yè)分析數(shù)據(jù)湖,可在管控之下提供大規(guī)模自助式分析功能。安全性是數(shù)據(jù)和內(nèi)容管控策略的重中之重。BIServer提供全面的功能和深入的集成,幫助應對企業(yè)安全的方方面面。BI可幫助組織為所有用戶提供受信任的數(shù)據(jù)源,以便他們使用適當數(shù)據(jù)快速作出正確決策。隨著單一集中EDW的前景日益衰落,以及云技術(shù)推動下數(shù)據(jù)量的持續(xù)加速增長,在所有不同數(shù)據(jù)湖之間實現(xiàn)一致的安全性對企業(yè)至關(guān)重要。1

身份驗證BIServer支持行業(yè)標準身份驗證,包括ActiveDirectory、Kerberos、OpenIdConnect、SAML、受信任票證和證書。BIServer還具備自己的內(nèi)置用戶身份服務“本地身份驗證”。BIServer會為系統(tǒng)中的每位指定用戶創(chuàng)建并維護一個帳戶,該帳戶在多個會話間保留,實現(xiàn)一致的個人化體驗。此外,作者和發(fā)布者可在其發(fā)布的視圖中使用服務器范圍的身份信息,以控制其他用戶可以查看和下載哪些數(shù)據(jù)。2

授權(quán)BIServer角色和權(quán)限為管理員提供細化控制,以便控制用戶可以訪問哪些數(shù)據(jù)、內(nèi)容和對象,以及用戶或群組可對該內(nèi)容執(zhí)行什么操作。客戶還可以控制誰能添加注釋,誰能保存工作簿,誰能連接到特定數(shù)據(jù)源。憑借群組權(quán)限,客戶可以一次性管理多名用戶。也可在工作簿中處理用戶和群組角色,以便篩選和控制儀表板中的數(shù)據(jù)。這意味著,客戶只需為所有區(qū)域、客戶或團隊維護單個儀表板,而每個區(qū)域、客戶或團隊只會看到各自的數(shù)據(jù)。3

數(shù)據(jù)安全無論是銀行、學校、醫(yī)院還是政府機構(gòu),都承擔不起因喪失數(shù)據(jù)資產(chǎn)控制權(quán)而帶來的風險。BI提供了許多選項來幫助客戶實現(xiàn)安全目標??蛻艨梢赃x擇僅基于數(shù)據(jù)庫身份驗證來實現(xiàn)安全性,或者僅在BI中實現(xiàn)安全性,還可以選擇混合安全模型,其中BIServer內(nèi)的用戶信息對應于基礎(chǔ)數(shù)據(jù)庫中的數(shù)據(jù)元素。BIOnline加強了現(xiàn)有的數(shù)據(jù)安全策略,并符合SOX、SOC和ISAE行業(yè)合規(guī)標準。4

網(wǎng)絡安全網(wǎng)絡安全設備有助于防止不受信任的網(wǎng)絡和Internet訪問客戶的BIServer本地部署。當對BIServer的訪問不受限制時,傳輸安全性就變得更為重要。BIServer使用SSL/TLS的強大安全功能,對從客戶端到BIServer,還有從BIServer到數(shù)據(jù)庫的傳輸進行加密。BI可幫助客戶保護來自外部的數(shù)據(jù)、用戶和內(nèi)容。3.2.6其它特性

監(jiān)視和管理BI數(shù)據(jù)湖易于部署、擴展和監(jiān)視。輕松跟蹤和管理內(nèi)容、用戶、許可證和性能??焖俟芾頂?shù)據(jù)源和內(nèi)容的權(quán)限,直觀監(jiān)視使用情況。隨時可以進行縱向、橫向擴展。

可靠性先進的高可用性、穩(wěn)健的故障轉(zhuǎn)移和快速的災難恢復,就是全球各大公司選擇使用BI進行企業(yè)分析的原因。正確選擇能夠?qū)崿F(xiàn)企業(yè)SLA的冗余量。

可擴展性根據(jù)當前需求調(diào)整分析規(guī)模,然后隨著用量的增長輕松進行橫向或縱向擴展。BI架構(gòu)可以在不停機的情況下實現(xiàn)無縫擴展。輕松轉(zhuǎn)換到更新的硬件或添加更多節(jié)點,以增加冗余量和容量。3.2.7報表平臺具體實施步驟:在本項目中,我們將采用BI標準實施方法論開展項目實施工作,明確定義每個階段中xx業(yè)務用戶、技術(shù)團隊以及科技實施團隊的參與程度、工作內(nèi)容/職責和交付物。項目準備主要任務:確立雙方溝通、交流機制,制定項目管理文檔BI操作、開發(fā)培訓明確項目實施計劃細則明確項目資源計劃(業(yè)務用戶)參與人員:xx業(yè)務團隊了解BI項目開發(fā)特點定義項目實施涉及參與人員(需求提供者、業(yè)務說明者)協(xié)助科技完成資源計劃參加BI操作、開發(fā)培訓xx技術(shù)團隊協(xié)助完成培訓組織工作參加BI操作、開發(fā)培訓確保BI項目開發(fā)環(huán)境、相關(guān)設施按時到位協(xié)助科技完成資源計劃科技實施團隊提交BI開發(fā)環(huán)境需求清單進行BI操作、開發(fā)培訓制定項目實施計劃細則提交項目資源計劃交付件:《項目實施計劃(明細)》《項目管理文檔模板》《BI培訓資料》需求調(diào)研藍圖設計主要任務:按業(yè)務需求設計分析應用主題明確主題模型與數(shù)據(jù)倉庫的數(shù)據(jù)接口定義參與人員:xx業(yè)務團隊參與業(yè)務藍圖設計討論確認業(yè)務藍圖設計xx技術(shù)團隊參與技術(shù)藍圖設計討論確認技術(shù)藍圖設計科技實施團隊進行業(yè)務藍圖設計進行技術(shù)藍圖設計交付件:《業(yè)務藍圖設計說明書》《技術(shù)藍圖設計說明書》業(yè)務藍圖模型系統(tǒng)實施步驟主要任務:搭建BI開發(fā)環(huán)境構(gòu)建和開發(fā)BI數(shù)據(jù)模型構(gòu)建和開發(fā)BI分析應用參與人員:xx業(yè)務團隊參與每周項目例會,提出調(diào)整意見xx技術(shù)團隊確保系統(tǒng)環(huán)境、網(wǎng)絡通訊可用參與分析應用開發(fā)討論科技實施團隊按技術(shù)藍圖設計搭建系統(tǒng)環(huán)境按技術(shù)藍圖開發(fā)BI數(shù)據(jù)模型按技術(shù)藍圖開發(fā)BI分析應用交付件:BI分析應用模型3.3數(shù)據(jù)倉庫整體方案3.3.1數(shù)倉的定義數(shù)據(jù)倉庫是決策支持系統(tǒng)和聯(lián)機分析應用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。1、數(shù)據(jù)倉庫是面向主題的;操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。2、數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進行加工與集成,統(tǒng)一與綜合之后才能進入數(shù)據(jù)倉庫;數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到當前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。3、數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;4、數(shù)據(jù)倉庫是隨時間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時間改變。5、匯總的。操作性數(shù)據(jù)映射成決策可用的格式。6、大容量。時間序列數(shù)據(jù)集合通常都非常大。7、非規(guī)范化的,DW數(shù)據(jù)可以是而且經(jīng)常是冗余的。8、元數(shù)據(jù)。將描述數(shù)據(jù)的數(shù)據(jù)保存起來。9、數(shù)據(jù)源。數(shù)據(jù)來自內(nèi)部的和外部的非集成操作系統(tǒng)。3.3.2數(shù)據(jù)倉庫的特點數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫”。數(shù)據(jù)倉庫的方案建設的目的,是為前端查詢和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲也較大。為了更好地為前端應用服務,數(shù)據(jù)倉庫往往有如下幾點特點:1.效率足夠高。數(shù)據(jù)倉庫的分析數(shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時甚至12小時內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,設計不好2.數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉庫所提供的各種信息,肯定要準確的數(shù)據(jù),但由于數(shù)據(jù)倉庫流程通常分為多個步驟,包括數(shù)據(jù)清洗,裝載,查詢,展現(xiàn)等等,復雜的架構(gòu)會更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴謹,都可以導致數(shù)據(jù)失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。3.擴展性。之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構(gòu)設計復雜,是因為考慮到了未來3-5年的擴展性,這樣的話,未來不用太快花錢去重建數(shù)據(jù)倉庫系統(tǒng),就能很穩(wěn)定運行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運行不起來了。從上面的介紹中可以看出,數(shù)據(jù)倉庫技術(shù)可以將企業(yè)多年積累的數(shù)據(jù)喚醒,不僅為企業(yè)管理好這些海量數(shù)據(jù),而且挖掘數(shù)據(jù)潛在的價值,從而成為通信企業(yè)運營維護系統(tǒng)的亮點之一。正因為如此,廣義的說,基于數(shù)據(jù)倉庫的決策支持系統(tǒng)由三個部件組成:數(shù)據(jù)倉庫技術(shù),聯(lián)機分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù),其中數(shù)據(jù)倉庫技術(shù)是系統(tǒng)的核心,在這個系列后面的文章里,將圍繞數(shù)據(jù)倉庫技術(shù),介紹現(xiàn)代數(shù)據(jù)倉庫的主要技術(shù)和數(shù)據(jù)處理的主要步驟,討論在通信運營維護系統(tǒng)中如何使用這些技術(shù)為運營維護帶來幫助。4.面向主題操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。主題是與傳統(tǒng)數(shù)據(jù)庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。每一個主題對應一個宏觀的分析領(lǐng)域。數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。數(shù)據(jù)倉庫是面向主題的、集成的、不可更新的、隨時間的變化而不斷變化的,這些特點決定了數(shù)據(jù)倉庫的系統(tǒng)設計不能采用同開發(fā)傳統(tǒng)的OLTP數(shù)據(jù)庫一樣的設計方法。數(shù)據(jù)倉庫的設計是數(shù)據(jù)驅(qū)動的,這是因為數(shù)據(jù)倉庫是在現(xiàn)存數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上進行開發(fā),它著眼于有效地抽取、綜合、集成和挖掘已有數(shù)據(jù)庫的數(shù)據(jù)資源,服務于企業(yè)高層領(lǐng)導管理決策分析的需要?;诳萍荚跀?shù)據(jù)倉庫建設領(lǐng)域的實施經(jīng)驗,我們將數(shù)據(jù)倉庫實施的具體步驟分為兩個階段、12個步驟:3.3.2數(shù)據(jù)倉庫具體實施步驟1、項目前期準備參與人員:項目管理委員會成員xx業(yè)務團隊xx技術(shù)團隊科技實施團隊主要任務:項目啟動會議(Kick-offMeeting)確認項目范圍和主要目標確認項目階段性驗收及總體驗收標準確認項目實施計劃成立項目組確定各項目小組的成員及各自的工作職責確定各項目小組的階段性工作目標確定知識轉(zhuǎn)移計劃確定服務流程及方式交付件:《項目組織機構(gòu)及成員組成》《項目成員角色和職責》《項目實施計劃書》2、業(yè)務探索(BusinessDiscovery)參與人員:xx業(yè)務團隊xx技術(shù)團隊科技實施團隊主要任務:確定重點用戶與數(shù)據(jù)源用戶需求調(diào)研與確認數(shù)據(jù)來源確認用戶需求和數(shù)據(jù)源的篩選、分析交付件:《業(yè)務需求說明書BRL(BusinessRequirementList)》《概念數(shù)據(jù)模型CDM(ConceptualDataModel)》3、信息探索(InformationDiscovery)參與人員:xx技術(shù)團隊科技實施團隊主要任務:分析用戶需求數(shù)據(jù)源分析系統(tǒng)安全性設計系統(tǒng)命名規(guī)范設計交付件:《功能需求列表FRL(FunctionRequirementList)》《系統(tǒng)安全性設計說明書》《系統(tǒng)命名規(guī)范說明書》《數(shù)據(jù)質(zhì)量分析》4、邏輯數(shù)據(jù)模型設計參與人員:xx技術(shù)團隊科技實施團隊主要任務:進行原始數(shù)據(jù)分析建立實體模型建立實體間依賴關(guān)系完善并填入所有屬性建立數(shù)據(jù)庫邏輯模型交付件:數(shù)據(jù)倉庫邏輯數(shù)據(jù)模型《邏輯數(shù)據(jù)模型說明書》邏輯數(shù)據(jù)模型是用來發(fā)現(xiàn)、記錄和溝通業(yè)務的詳細“藍圖”,其具備以下特征:基于概念數(shù)據(jù)模型(CDM)由一系列表和實體詳細描述組成通用的業(yè)務語言便于業(yè)務與業(yè)務之間的功能理解集成當前和未來數(shù)據(jù)的藍圖獨立于技術(shù)為物理數(shù)據(jù)庫設計做準備是IT人員和業(yè)務人員溝通的工具5、系統(tǒng)體系結(jié)構(gòu)設計參與人員:xx業(yè)務團隊xx技術(shù)團隊科技實施團隊主要任務:對業(yè)務、技術(shù)環(huán)境及企業(yè)文化的充分了解,從技術(shù)、組織、教育和支持等方面對系統(tǒng)進行全面評估定義業(yè)務驅(qū)動力定義數(shù)據(jù)倉庫成功的關(guān)鍵因素定義數(shù)據(jù)倉庫的實施原則對系統(tǒng)體系結(jié)構(gòu)各個組件進行詳細設計交付件:《系統(tǒng)體系結(jié)構(gòu)設計說明書》6、物理數(shù)據(jù)庫設計參與人員:xx技術(shù)團隊科技實施團隊主要任務:轉(zhuǎn)換邏輯數(shù)據(jù)模型為物理數(shù)據(jù)模型定義主索引、次索引非正規(guī)化處理(Denormalizations)物理非正規(guī)化派生數(shù)據(jù)(DerivedData)匯總表(SummaryTables)重復的Groups(RepeatingGroups)多物理表(MultiplePhysicalTables)預連接(Pre-joins)子實體(Sub-entities)邏輯非正規(guī)化視圖(Views)邏輯星型結(jié)構(gòu)(LogicalStarSchemas)物理非正規(guī)化對模型的靈活性會有影響邏輯非正規(guī)化是一個優(yōu)選的方案數(shù)據(jù)庫建立第三范式–3NF星型結(jié)構(gòu)雪花結(jié)構(gòu)設計優(yōu)化數(shù)據(jù)庫功能測試交付件:物理數(shù)據(jù)模型(PDM)《物理數(shù)據(jù)模型說明書》《數(shù)據(jù)庫描述語言DDL》3.4數(shù)據(jù)治理整體方案Navigator是唯一原生在Hadoop生態(tài)系統(tǒng)上的并提供全面數(shù)據(jù)管理服務的一套解決方案。該產(chǎn)品通過統(tǒng)一的用戶接口可以有效協(xié)助系統(tǒng)管理員、數(shù)據(jù)經(jīng)理以及分析師對數(shù)據(jù)湖中各式各樣的數(shù)據(jù)進行管治、分類與探索。大體上而言,Navigator提供了3類最核心的功能:審計與訪問管理:維護完整的數(shù)據(jù)訪問、數(shù)據(jù)操作審計歷史以滿足合規(guī)需求。同時幫助系統(tǒng)管理員快速驗證用戶/用戶組在Hadoop集群中數(shù)據(jù)集合的訪問權(quán)限(permission)正確性;權(quán)限視圖查看用戶/用戶組對HDFS、Impala、Hive和HBase的訪問權(quán)限以保證對隱私及合規(guī)的正確配置審計配置對HDFS、Impala、Hive、HBase和Sentry的審計追蹤提供集中式的配置管理接口審計面板可視化與概述數(shù)據(jù)訪問并提供可查詢的統(tǒng)一接口信息導出有效導出審計信息至全局的安全信息與事件管理系統(tǒng)(S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論