企業(yè)數(shù)字化轉(zhuǎn)型大數(shù)據(jù)湖項(xiàng)目建設(shè)和運(yùn)營(yíng)綜合解決方案WORD_第1頁(yè)
企業(yè)數(shù)字化轉(zhuǎn)型大數(shù)據(jù)湖項(xiàng)目建設(shè)和運(yùn)營(yíng)綜合解決方案WORD_第2頁(yè)
企業(yè)數(shù)字化轉(zhuǎn)型大數(shù)據(jù)湖項(xiàng)目建設(shè)和運(yùn)營(yíng)綜合解決方案WORD_第3頁(yè)
企業(yè)數(shù)字化轉(zhuǎn)型大數(shù)據(jù)湖項(xiàng)目建設(shè)和運(yùn)營(yíng)綜合解決方案WORD_第4頁(yè)
企業(yè)數(shù)字化轉(zhuǎn)型大數(shù)據(jù)湖項(xiàng)目建設(shè)和運(yùn)營(yíng)綜合解決方案WORD_第5頁(yè)
已閱讀5頁(yè),還剩143頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

企業(yè)大數(shù)據(jù)湖項(xiàng)目建設(shè)和運(yùn)營(yíng)綜合解決方案V6.0郎豐利整理制作1519第第頁(yè)企業(yè)大數(shù)據(jù)湖項(xiàng)目建設(shè)和運(yùn)營(yíng)綜合解決方案2023年02月目錄1. 項(xiàng)目綜述 51.1. 項(xiàng)目背景 51.2. 項(xiàng)目目標(biāo) 71.3. 項(xiàng)目建設(shè)路線 82 需求分析 92.1功能需求 92.1.1 統(tǒng)一數(shù)據(jù)接入 112.1.2 數(shù)據(jù)遷移 122.1.3 數(shù)據(jù)范圍與ETL 152.1.4 報(bào)表平臺(tái) 162.1.5 安全管理 182.1.6 數(shù)據(jù)治理 202.2非功能需求 202.2.1運(yùn)維保障需求 202.2.2可用性需求 212.2.3可靠性需求 222.2.4性能需求 232.3需求總結(jié) 233 整體解決方案 243.1 數(shù)據(jù)湖整體方案 243.1.1硬件部署方式 243.1.2基于CDH的數(shù)據(jù)湖軟件部署 263.1.3數(shù)據(jù)ETL及數(shù)據(jù)接口開(kāi)發(fā)方案 303.1.4沙盒管理 393.1.5多租戶(hù)管理 403.2報(bào)表平臺(tái)整體方案 413.2.1系統(tǒng)設(shè)計(jì)原則 413.2.2數(shù)據(jù)分析場(chǎng)景 433.2.3業(yè)務(wù)需求建議 473.2.4系統(tǒng)邏輯架構(gòu) 633.2.5技術(shù)方案特點(diǎn) 653.2.6其它特性 703.2.7報(bào)表平臺(tái)具體實(shí)施步驟: 713.3數(shù)據(jù)倉(cāng)庫(kù)整體方案 743.3.1數(shù)倉(cāng)的定義 743.3.2數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn) 753.3.2數(shù)據(jù)倉(cāng)庫(kù)具體實(shí)施步驟 783.4數(shù)據(jù)治理整體方案 843.4.1主數(shù)據(jù)管理實(shí)施 883.4.2元數(shù)據(jù)管理實(shí)施 894 企業(yè)版功能和特性 894.1 CDH核心套件 934.1.1 分布式文件系統(tǒng)HDFS 944.1.2 分布式數(shù)據(jù)庫(kù)HBase 944.1.3 統(tǒng)一資源管理和調(diào)度框架YARN 964.1.4 分布式批處理引擎MapReduce 974.1.5 分布式內(nèi)存計(jì)算框架Spark 984.1.6 數(shù)據(jù)倉(cāng)庫(kù)組件Hive 1034.1.7 安全管理組件Sentry 1044.1.8 隱私保護(hù) 1074.1.9 統(tǒng)一用戶(hù)體驗(yàn)工具HUE 1084.1.10 元數(shù)據(jù)管理Metastore&HCatalog 1114.1.11 高性能數(shù)據(jù)分析MPP引擎Impala 1124.1.12 數(shù)據(jù)導(dǎo)入導(dǎo)出工作Sqoop 1154.1.13 消息處理總線Kafka 1184.2 Manager集群管理組件 1184.3 Navigator數(shù)據(jù)管理組件 1205 項(xiàng)目建設(shè) 1215.1項(xiàng)目實(shí)施計(jì)劃 1215.1.1項(xiàng)目實(shí)施服務(wù) 1245.1.2人員構(gòu)成 1265.2驗(yàn)收說(shuō)明 1275.2.1驗(yàn)收依據(jù) 1275.2.2驗(yàn)收內(nèi)容和方式 1285.3項(xiàng)目風(fēng)險(xiǎn)評(píng)估 1306 6項(xiàng)目培訓(xùn) 1316.1培訓(xùn)服務(wù)簡(jiǎn)介 131在線學(xué)習(xí)資源 1326.2標(biāo)準(zhǔn)課程簡(jiǎn)介 132Hadoop集群管理課程 132Hadoop技術(shù)開(kāi)發(fā)課程 133Hadoop數(shù)據(jù)分析課程 133培訓(xùn)課程優(yōu)勢(shì) 134培訓(xùn)質(zhì)量保障 134培訓(xùn)計(jì)劃定義 1356.3智慧企業(yè)大數(shù)據(jù)應(yīng)用、管控、展示一體化云數(shù)據(jù)湖維護(hù)培訓(xùn) 1407售后技術(shù)支持服務(wù) 1407.1提供全程技術(shù)支持 1407.2全周期技術(shù)支持 1407.3協(xié)調(diào)原廠支持 1417.3.1全周期的技術(shù)支持 1427.3.2技術(shù)支持種類(lèi) 1427.3.3遠(yuǎn)程支持 1427.3.4服務(wù)支持策略 1447.4主動(dòng)技術(shù)支持 1447.5預(yù)測(cè)技術(shù)支持 1457.6知識(shí)庫(kù) 145

項(xiàng)目綜述項(xiàng)目背景xx信息化現(xiàn)狀,發(fā)展愿景,3-5年的大數(shù)據(jù)發(fā)展規(guī)劃必要性:預(yù)計(jì)未來(lái)十年,數(shù)據(jù)將以每年約40%的速度增長(zhǎng),更重要的是,數(shù)據(jù)中囊括了絕大多數(shù)企業(yè)業(yè)務(wù)的數(shù)據(jù)需求。在這種環(huán)境下,通過(guò)使用數(shù)據(jù)分析提高競(jìng)爭(zhēng)力,企業(yè)需要有能力滿(mǎn)足“信息一代”的需求,這對(duì)企業(yè)來(lái)說(shuō)至關(guān)重要。從幫助預(yù)測(cè)購(gòu)買(mǎi)行為到驅(qū)動(dòng)創(chuàng)新項(xiàng)目以增強(qiáng)客戶(hù)服務(wù)或提高生產(chǎn)力,數(shù)據(jù)湖能整理、存儲(chǔ)并分析海量數(shù)據(jù),擁有變革業(yè)務(wù)的巨大能量。分析能力正從企業(yè)的“愿望清單”中移除,轉(zhuǎn)而成為必需。數(shù)據(jù)湖,為分析提供最大的靈活度。,企業(yè)產(chǎn)生的數(shù)據(jù)比以往任何時(shí)候都更多。這種情況為企業(yè)帶來(lái)了獨(dú)特的問(wèn)題:需要裝備自己分析這些數(shù)據(jù),而不僅僅是存儲(chǔ)。數(shù)據(jù)湖與Hadoop平臺(tái)一道,提供了增加數(shù)據(jù)價(jià)值所需的自動(dòng)化和透明度。1. 運(yùn)營(yíng)復(fù)雜度:隨著基礎(chǔ)設(shè)施規(guī)模的擴(kuò)大,數(shù)據(jù)需求不斷加深?;A(chǔ)設(shè)施的瓶頸對(duì)企業(yè)業(yè)務(wù)數(shù)據(jù)的存儲(chǔ)和以此為基礎(chǔ)建立的業(yè)務(wù)的拓展帶來(lái)的制約。對(duì)于企業(yè)IT運(yùn)維人員、業(yè)務(wù)系統(tǒng)開(kāi)發(fā)人員、數(shù)據(jù)管理人員的工作量也是逐年增加,從而導(dǎo)致其數(shù)據(jù)需求就很有可能超過(guò)管理能力。傳統(tǒng)的業(yè)務(wù)數(shù)據(jù)資源并不總是池化的,這樣就為單一管理者可應(yīng)對(duì)的存儲(chǔ)空間造成了限制,同樣,在構(gòu)建更靈活的通用存儲(chǔ)資源(例如數(shù)據(jù)湖)方面,管理者也面臨難題。整理制作郎豐利1519。2. 運(yùn)營(yíng)成本:通過(guò)減少運(yùn)營(yíng)成本,提升企業(yè)效益。但業(yè)務(wù)對(duì)IT的需求卻在持續(xù)增長(zhǎng)時(shí),便產(chǎn)生了矛盾。全職人工也會(huì)帶來(lái)管理IT資源的運(yùn)營(yíng)成本上升。為了有效應(yīng)對(duì)這些需求,企業(yè)或者需要更多人力資源,或者需要投資額外的第三方,支持監(jiān)控、管理、部署和改善系統(tǒng)。與通過(guò)增加員工人數(shù)相比,第二種方法擴(kuò)展了一個(gè)數(shù)量級(jí)甚至更多。整理制作郎豐利。3. 生產(chǎn)壓力:現(xiàn)有的分析應(yīng)用正為業(yè)務(wù)生產(chǎn)系統(tǒng)帶來(lái)壓力。實(shí)時(shí)分析可能是耗費(fèi)大量資源的,無(wú)論是想通過(guò)視頻分析,從大量高清視頻流中獲得洞察,還是研究社交內(nèi)容瀑布流。這些流程是需要專(zhuān)用資源的,這樣,嘗試使用生產(chǎn)系統(tǒng)的用戶(hù)才不會(huì)損失性能。數(shù)據(jù)湖是確保實(shí)時(shí)分析能夠以最佳性能運(yùn)行的關(guān)鍵。4. 多協(xié)議分析:企業(yè)需要數(shù)據(jù)湖,一個(gè)最終的關(guān)鍵信號(hào)是,數(shù)據(jù)科學(xué)家正在大量不同的Hadoop發(fā)行版上運(yùn)行應(yīng)用,并且,需要將他們的數(shù)據(jù)與Hadoop掛鉤。未來(lái),隨著各種各樣的分析實(shí)驗(yàn)不斷深入,業(yè)務(wù)線需要IT有能力支持多種協(xié)議。企業(yè)也需要以數(shù)據(jù)湖策略為重要依據(jù),進(jìn)行整體的合理規(guī)劃。5.打破數(shù)據(jù)孤島:長(zhǎng)期以來(lái),數(shù)據(jù)孤島一直是存儲(chǔ)應(yīng)用的標(biāo)準(zhǔn),但是這些系統(tǒng)是運(yùn)營(yíng)效率低下的,并且會(huì)限制從相關(guān)數(shù)據(jù)中獲得更佳洞察的能力。節(jié)約成本也是一大驅(qū)動(dòng)力。除了管理復(fù)雜性,孤島系統(tǒng)還需要多種授權(quán),服務(wù)器和其他費(fèi)用,而數(shù)據(jù)湖可以經(jīng)濟(jì)高效的方式,由單一基礎(chǔ)設(shè)施提供支持。隨著分析變得更快速、更復(fù)雜,組織也需要以同樣的方式進(jìn)化,以探索所有可能性。數(shù)據(jù)不再單單是數(shù)據(jù)本身,借助所有組織化數(shù)據(jù)構(gòu)建的完整圖景。6.利用實(shí)時(shí)分析:數(shù)據(jù)收集和分析正變得越來(lái)越快。像信用卡欺詐預(yù)警分析、股票分析這樣的應(yīng)用場(chǎng)景,需要在動(dòng)作發(fā)生后數(shù)秒內(nèi)就實(shí)現(xiàn)。不過(guò),實(shí)時(shí)分析并不都是需要100%立刻馬上就實(shí)現(xiàn)的。一些數(shù)據(jù)(如月銷(xiāo)售數(shù)據(jù)、季度財(cái)務(wù)數(shù)據(jù)或年度員工表現(xiàn)數(shù)據(jù))只需以特定的時(shí)間間隔存儲(chǔ)并分析。組織需要有能力構(gòu)建項(xiàng)目目標(biāo)平臺(tái)層通過(guò)對(duì)各業(yè)務(wù)板塊各種數(shù)據(jù)的采集、整理、匯聚,建立一個(gè)基于“互聯(lián)網(wǎng)+”、云計(jì)算技術(shù)和人工智能技術(shù)的數(shù)據(jù)湖,實(shí)現(xiàn)各業(yè)務(wù)板塊的生產(chǎn)監(jiān)視、智能設(shè)備狀態(tài)監(jiān)測(cè)、智能故障診斷、智能運(yùn)行保障、生產(chǎn)數(shù)據(jù)分析等功能,打造涵蓋智慧型生產(chǎn)、經(jīng)營(yíng)、發(fā)展、黨建等全領(lǐng)域的綜合平臺(tái)。業(yè)務(wù)層公司數(shù)據(jù)湖融合實(shí)時(shí)數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)管理,提供大數(shù)據(jù)應(yīng)用和數(shù)據(jù)分析計(jì)算模型。其中,實(shí)時(shí)數(shù)據(jù)是主要的數(shù)據(jù)形式,實(shí)時(shí)數(shù)據(jù)庫(kù)集群承擔(dān)高通量數(shù)據(jù)接入的任務(wù)同時(shí),為總部實(shí)時(shí)業(yè)務(wù)應(yīng)用系統(tǒng)提供高實(shí)時(shí)性的數(shù)據(jù)查詢(xún)、計(jì)算、組態(tài)數(shù)據(jù)源服務(wù),同時(shí)完成數(shù)據(jù)的標(biāo)準(zhǔn)化、格式化、清洗和整理,將整齊的數(shù)據(jù)通過(guò)Kafka或其他適配器等方式輸出到Hadoop數(shù)據(jù)湖,并負(fù)責(zé)提供從Hadoop平臺(tái)到實(shí)時(shí)庫(kù)等其他所需數(shù)據(jù)應(yīng)用的輸入輸出組件。數(shù)據(jù)集中、挖掘,對(duì)實(shí)現(xiàn)與下屬單位互聯(lián)互通、智能處理、智能協(xié)同的目標(biāo),使用標(biāo)準(zhǔn)化、自動(dòng)化、數(shù)字化、信息化、智能化等手段,打造涵蓋智慧型生產(chǎn)、經(jīng)營(yíng)、發(fā)展、黨建等全領(lǐng)域的綜合平臺(tái),形成具有“自分析、自診斷、自管理、自趨優(yōu)、自恢復(fù)、自學(xué)習(xí)、自提升”為特征的智慧企業(yè)生態(tài)系統(tǒng)。展示層隨著數(shù)據(jù)湖數(shù)據(jù)存儲(chǔ)、分析、挖掘的深入應(yīng)用,將極大的激發(fā)各部門(mén)、各層級(jí)對(duì)于業(yè)務(wù)數(shù)據(jù)的分析和探索,在此之上的數(shù)據(jù)報(bào)表展示需求也將呈現(xiàn)復(fù)雜性、綜合性、多終端性、個(gè)性化等特點(diǎn)。本平臺(tái)主要目標(biāo)是建立一個(gè)快速的可視化報(bào)表平臺(tái),無(wú)縫化對(duì)接數(shù)據(jù)湖,提供豐富的報(bào)表展示功能,面對(duì)各層次人員提供對(duì)應(yīng)的數(shù)據(jù)報(bào)表及分析服務(wù)?;诖似脚_(tái),我們不僅可以在報(bào)表開(kāi)發(fā)過(guò)程中,加快開(kāi)發(fā)速度,提高數(shù)據(jù)應(yīng)用的及時(shí)性,還可以在業(yè)務(wù)需求變更、調(diào)整后,大大的降低維護(hù)難度,實(shí)現(xiàn)可視化做到隨需應(yīng)變。最終在深入完善復(fù)雜報(bào)表、打印導(dǎo)出、圖形化分析、移動(dòng)決策、大屏監(jiān)控、自助分析等多個(gè)可視化分析領(lǐng)域的支撐。項(xiàng)目建設(shè)路線第一期:建設(shè)企業(yè)數(shù)據(jù)湖,梳理企業(yè)應(yīng)用系統(tǒng)內(nèi)部的業(yè)務(wù)數(shù)據(jù)類(lèi)型,數(shù)據(jù)量;將結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)打標(biāo)簽導(dǎo)入數(shù)據(jù)湖中心湖中,構(gòu)建視頻池、文本池和應(yīng)用池分類(lèi)。對(duì)某些應(yīng)用場(chǎng)景構(gòu)建BI報(bào)表分析。第二期:建立主數(shù)據(jù)管理和數(shù)倉(cāng),ETL規(guī)范和流程,數(shù)據(jù)安全管理,數(shù)據(jù)可視化管理,數(shù)據(jù)監(jiān)控的管理。梳理數(shù)據(jù)湖使用人員的角色和權(quán)限,對(duì)數(shù)據(jù)湖進(jìn)行基于業(yè)務(wù)需求場(chǎng)景的多租戶(hù)管理。根據(jù)業(yè)務(wù)的微服務(wù)化,逐步構(gòu)建企業(yè)大數(shù)據(jù)微服務(wù)平臺(tái),細(xì)粒度的平臺(tái)資源管理。第三期:數(shù)據(jù)的深化應(yīng)用,一體化管控?cái)?shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)治理,深化主數(shù)據(jù)消費(fèi)和應(yīng)用。逐步將應(yīng)用的數(shù)據(jù)來(lái)源遷移至數(shù)據(jù)湖中,形成數(shù)據(jù)應(yīng)用平臺(tái)、數(shù)據(jù)挖掘和BI報(bào)表平臺(tái),人工智能和機(jī)器學(xué)習(xí)平臺(tái)。需求分析2.1功能需求數(shù)據(jù)湖的應(yīng)用、管控、展示為一體,提供標(biāo)準(zhǔn)的服務(wù)和數(shù)據(jù)接口和報(bào)表展現(xiàn)方式。數(shù)據(jù)湖數(shù)據(jù)采用高效,可靠的存儲(chǔ)架構(gòu)。企業(yè)業(yè)務(wù)數(shù)據(jù)制訂遷移方案,將ERP系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、OA系統(tǒng)、視頻監(jiān)控系統(tǒng)、云商系統(tǒng)中存儲(chǔ)的核心數(shù)據(jù),整體遷移至數(shù)據(jù)湖,非彈性資源實(shí)行本地化部署,對(duì)于彈性計(jì)算功能,需與算法數(shù)據(jù)湖進(jìn)行協(xié)同計(jì)算。以實(shí)現(xiàn)核心數(shù)據(jù)可控,消除安全問(wèn)題和潛在未知風(fēng)險(xiǎn)。支持可視化建模,支持鼠標(biāo)拖拽方式進(jìn)行人工智能算法建模。包括數(shù)據(jù)預(yù)處理、特征工程、算法模型、模型評(píng)估和部署等功能支持快銷(xiāo)業(yè)務(wù)領(lǐng)域的預(yù)測(cè)預(yù)警等多種類(lèi)型的算法應(yīng)用,包括邏輯回歸、K近鄰、隨機(jī)森林、樸素貝葉斯、K均值聚類(lèi)、線性回歸、GBDT二分類(lèi)、GBDT回歸等算法模型,也支持深度學(xué)習(xí)等人工智能訓(xùn)練模型。展示層通過(guò)統(tǒng)一的商業(yè)BI報(bào)表組件,多維度,動(dòng)態(tài)的展示各業(yè)務(wù)系統(tǒng)的運(yùn)行狀況,資源使用情況等。并支撐周期性或臨時(shí)性生成各業(yè)務(wù)狀況,決策數(shù)據(jù)展示,故障分析挖掘等業(yè)務(wù)場(chǎng)景。xx數(shù)據(jù)湖架構(gòu)圖文件中心:主要用于存儲(chǔ)各種格式文件,包括影像文件,視頻音頻文件,PDF,Office文件等類(lèi)型文件,提供文件級(jí)別的全文檢索,文件發(fā)布,文件共享,文件提取等功能。提供文件權(quán)限管理,版本管理,歷史版本恢復(fù)等管理功能。文件中心中文件內(nèi)容可以經(jīng)由ETL過(guò)程與日志中心,數(shù)據(jù)中心交換融合數(shù)據(jù),共同參與數(shù)據(jù)處理,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),影像分析等工作。日志中心:收集各類(lèi)日志數(shù)據(jù),物聯(lián)數(shù)據(jù)等實(shí)時(shí)數(shù)據(jù),由流處理引擎實(shí)時(shí)處理數(shù)據(jù),確保在第一時(shí)間分析處理數(shù)據(jù),做到實(shí)時(shí)監(jiān)控,實(shí)時(shí)告警。經(jīng)處理的實(shí)時(shí)數(shù)據(jù)可與文件中心,數(shù)據(jù)中心的數(shù)據(jù)融合,共同參與數(shù)據(jù)分析等工作。結(jié)構(gòu)化數(shù)據(jù)中心:實(shí)時(shí)(或批量)獲取數(shù)據(jù)庫(kù)或其他介質(zhì)中的架構(gòu)化數(shù)據(jù),借助Hadoop/Spark等強(qiáng)大的處理能力,高效處理各類(lèi)數(shù)據(jù)。有效結(jié)合文件中心,日志中心中的數(shù)據(jù)共同參與數(shù)據(jù)分析,數(shù)據(jù)挖掘。支持百億級(jí)數(shù)據(jù)Cube,做到海量數(shù)據(jù)亞秒級(jí)多維度查詢(xún)。標(biāo)準(zhǔn)SQL輸出接口,支持不斷升級(jí)的需求以及二次開(kāi)發(fā)。統(tǒng)一數(shù)據(jù)接入數(shù)據(jù)湖接口統(tǒng)一接口示意圖數(shù)據(jù)接入原則1、以應(yīng)用驅(qū)動(dòng)為主,優(yōu)先建設(shè)高價(jià)值數(shù)字孿生項(xiàng)目;2、入湖數(shù)據(jù)必須有數(shù)據(jù)管理部認(rèn)證,發(fā)布對(duì)應(yīng)數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn),匹配對(duì)應(yīng)數(shù)據(jù)責(zé)任人;3、數(shù)據(jù)建模原則以原始數(shù)據(jù)、清洗整合數(shù)據(jù)、三范式結(jié)構(gòu)、服務(wù)化寬表逐級(jí)向上規(guī)范;4、整體平臺(tái)需符合高可用、平行擴(kuò)容原則,符合業(yè)務(wù)3-5年的數(shù)據(jù)規(guī)劃。數(shù)據(jù)實(shí)時(shí)同步,支持絕大多數(shù)的數(shù)據(jù)庫(kù)實(shí)時(shí)同步需求。支持跨廣域網(wǎng)的數(shù)據(jù)同步,支持接收器集群。建設(shè)統(tǒng)一的,標(biāo)準(zhǔn)的,易于復(fù)制和維護(hù)的數(shù)據(jù)實(shí)時(shí)同步平臺(tái),同時(shí)完成數(shù)據(jù)實(shí)時(shí)同步的技術(shù)規(guī)范及策略。實(shí)現(xiàn)數(shù)據(jù)同步監(jiān)控系統(tǒng),構(gòu)建數(shù)據(jù)的更新情況有一個(gè)持續(xù)的,可靠的實(shí)時(shí)監(jiān)控系統(tǒng)。完成一次性數(shù)據(jù)快速導(dǎo)入與增量數(shù)據(jù)導(dǎo)入的融合機(jī)制——涓流復(fù)制。通過(guò)FullDump模塊實(shí)現(xiàn)數(shù)據(jù)入庫(kù)的加密,基于DataHandle提供HiveSQL接口,同時(shí)完成數(shù)據(jù)出庫(kù)的解密。通過(guò)ApplicationAdapter的定制實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)權(quán)限的控制數(shù)據(jù)遷移 將對(duì)于頻繁讀寫(xiě)數(shù)據(jù)的業(yè)務(wù)系統(tǒng),ERP系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、OA系統(tǒng)、視頻監(jiān)控系統(tǒng)、云商系統(tǒng)保留原數(shù)據(jù)庫(kù)的方案。業(yè)務(wù)數(shù)據(jù)同步至數(shù)據(jù)湖,并在并軌運(yùn)行過(guò)程中,需定期驗(yàn)證本地?cái)?shù)據(jù)湖中與業(yè)務(wù)系統(tǒng)數(shù)據(jù)的一致性。 接收實(shí)時(shí)增量數(shù)據(jù),按照預(yù)定架構(gòu)存儲(chǔ)數(shù)據(jù)至本地?cái)?shù)據(jù)湖。生產(chǎn)實(shí)時(shí)數(shù)據(jù)實(shí)時(shí)接入、可靠傳輸至公司數(shù)據(jù)庫(kù)集群中,數(shù)據(jù)接入量約為110TB/天,歷史數(shù)據(jù)40000TB。數(shù)據(jù)遷移邏輯架構(gòu)圖 數(shù)據(jù)湖作業(yè)分為非彈性和彈性?xún)深?lèi),對(duì)于非彈性作業(yè)在本地?cái)?shù)據(jù)湖進(jìn)行運(yùn)算,對(duì)于消耗資源大且需彈性計(jì)算作業(yè),采用與企業(yè)云進(jìn)行協(xié)同計(jì)算,在企業(yè)云數(shù)據(jù)湖中不保存數(shù)據(jù),待作業(yè)計(jì)算完成后將過(guò)程和結(jié)果數(shù)據(jù)回傳至本地?cái)?shù)據(jù)湖進(jìn)行存儲(chǔ)。接口服務(wù)支持發(fā)布訂閱模式,支持跨數(shù)據(jù)湖、跨系統(tǒng)的調(diào)用,支持HDFS、Hive、HBase等系統(tǒng)。a) 接口類(lèi)型批量數(shù)據(jù)封裝將大批量數(shù)據(jù)按一定條件抽取出來(lái)封裝成數(shù)據(jù)資源。批量數(shù)據(jù)封裝必須通過(guò)系統(tǒng)進(jìn)行,不能進(jìn)行手工操作。數(shù)據(jù)請(qǐng)求接口封裝通過(guò)restful接口方式將數(shù)據(jù)封裝成訪問(wèn)接口,使訪問(wèn)方通過(guò)遠(yuǎn)程調(diào)用對(duì)數(shù)據(jù)進(jìn)行訪問(wèn)。b) 接口安全配置管理對(duì)共享數(shù)據(jù)的內(nèi)容和共享接口規(guī)則進(jìn)行配置,包括基礎(chǔ)數(shù)據(jù)配置、共享服務(wù)配置、共享權(quán)限和共享配置下發(fā)。a)基礎(chǔ)數(shù)據(jù)配置能夠?qū)?shù)據(jù)共享功能域中使用到的基礎(chǔ)數(shù)據(jù)進(jìn)行配置,包括使用共享數(shù)據(jù)系統(tǒng)的配置、共享數(shù)據(jù)實(shí)體的數(shù)據(jù)結(jié)構(gòu)和語(yǔ)義描述、共享方式等。b)共享服務(wù)配置數(shù)據(jù)服務(wù)定義、數(shù)據(jù)服務(wù)目錄、數(shù)據(jù)服務(wù)參數(shù)配置(如:目標(biāo)系統(tǒng)、共享方式、數(shù)據(jù)承載方式、訪問(wèn)頻率、訪問(wèn)允許時(shí)段)等。c)共享權(quán)限配置對(duì)允許使用共享服務(wù)的目標(biāo)系統(tǒng)進(jìn)行權(quán)限配置,支持共享服務(wù)內(nèi)部具體數(shù)據(jù)實(shí)體和屬性的權(quán)限配置。d)共享配置下發(fā)共享數(shù)據(jù)的內(nèi)容和共享接口規(guī)則下發(fā)至各相關(guān)系統(tǒng)。數(shù)據(jù)共享過(guò)程對(duì)各數(shù)據(jù)共享過(guò)程進(jìn)行監(jiān)控、異常處理、日志管理,并對(duì)數(shù)據(jù)共享相關(guān)的數(shù)據(jù)提供查詢(xún)統(tǒng)計(jì)和分析功能。a)表數(shù)據(jù)共享目標(biāo)系統(tǒng)是應(yīng)用層分析系統(tǒng),直接開(kāi)放表訪問(wèn)權(quán)限,由目標(biāo)系統(tǒng)通過(guò)ETL進(jìn)行數(shù)據(jù)抽取。b)數(shù)據(jù)查詢(xún)目標(biāo)系統(tǒng)是應(yīng)用層分析系統(tǒng),由目標(biāo)系統(tǒng)直接通過(guò)調(diào)用數(shù)據(jù)湖提供的數(shù)據(jù)查詢(xún)服務(wù),完成數(shù)據(jù)查詢(xún)。c)數(shù)據(jù)訂閱目標(biāo)系統(tǒng)是應(yīng)用層分析系統(tǒng),目標(biāo)系統(tǒng)提出數(shù)據(jù)訂閱需求,由數(shù)據(jù)湖提供數(shù)據(jù)訂閱服務(wù)。數(shù)據(jù)范圍與ETL數(shù)據(jù)來(lái)源數(shù)據(jù)類(lèi)型(待梳理)ERP系統(tǒng)會(huì)計(jì)核算、財(cái)務(wù)管理、生產(chǎn)控制管理、物流管理、采購(gòu)管理、分銷(xiāo)管理、庫(kù)存控制、人力資源管理數(shù)據(jù)采集系統(tǒng)歷史秒級(jí)數(shù)據(jù)、實(shí)時(shí)秒級(jí)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù):一分鐘數(shù)據(jù)、十分鐘數(shù)據(jù)、日數(shù)據(jù)視頻監(jiān)控系統(tǒng)故障數(shù)據(jù)、狀態(tài)數(shù)據(jù)、故障日志(B文件、F文件、W文件等)OA系統(tǒng)服務(wù)工單、服務(wù)請(qǐng)求工單、工作任務(wù)書(shū)(技改)、在建階段工單、審批計(jì)劃、檔案、知識(shí)庫(kù)、遺留問(wèn)題云商系統(tǒng)日志、交易信息ETL需求:1) ELT支持從ERP系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、OA系統(tǒng)、視頻監(jiān)控系統(tǒng)、云商系統(tǒng)等數(shù)據(jù)源數(shù)據(jù)的抽取、傳輸與加載。ERP、OA為Oracle;數(shù)據(jù)采集系統(tǒng)為SQLserver;云商系統(tǒng)為Mysql數(shù)據(jù)庫(kù)。視頻監(jiān)控系統(tǒng)為非關(guān)系型實(shí)時(shí)數(shù)據(jù)。郎豐利整理制作。2) 支持流式的導(dǎo)入方式。郎豐利整理制作。3) 支持各種數(shù)據(jù)抽取與加載接口,如專(zhuān)用數(shù)據(jù)庫(kù)驅(qū)動(dòng)接口、JDBC、ODBC,以及Web?Service接口等。郎豐利整理制作。4) ETL設(shè)計(jì)支持可視化的復(fù)雜任務(wù)控制流與數(shù)據(jù)流,支持在數(shù)據(jù)抽取、清洗和轉(zhuǎn)換中實(shí)現(xiàn)自定義處理流程與規(guī)則;5) 支持多種數(shù)據(jù)清洗、轉(zhuǎn)換任務(wù)組件,如查找、模糊查找、排序、聚合、合并、分組、條件分拆、抽樣等。郎豐利整理制作。6) 支持ETL過(guò)程的異常數(shù)據(jù)處理,實(shí)現(xiàn)常見(jiàn)故障數(shù)據(jù)的修復(fù)或剔除或?qū)收蠑?shù)據(jù)拋出保留,以備系統(tǒng)管理員檢查處理。7) ETL執(zhí)行過(guò)程具備完整的日志管理和數(shù)據(jù)審計(jì)功能,并有相關(guān)監(jiān)控預(yù)警機(jī)制,保證ETL正常進(jìn)行;郎豐利整理制作。報(bào)表平臺(tái)(總體功能架構(gòu)圖)綜合展示的總體功能架構(gòu)包括數(shù)據(jù)采集管理、信息數(shù)據(jù)管理、可視化管理三個(gè)層次。統(tǒng)一數(shù)據(jù)倉(cāng)庫(kù)建立統(tǒng)一數(shù)據(jù)倉(cāng)庫(kù),執(zhí)行統(tǒng)一數(shù)據(jù)接口標(biāo)準(zhǔn),數(shù)據(jù)湖各系統(tǒng)與綜合展示數(shù)據(jù)湖的數(shù)據(jù)通訊和同步。展示數(shù)據(jù)集中管理展示數(shù)據(jù)統(tǒng)一轉(zhuǎn)換、統(tǒng)一存儲(chǔ)、統(tǒng)一處理、統(tǒng)一調(diào)用。豐富展現(xiàn)方式能夠靈活選擇多種展現(xiàn)方式,包括3D圓柱圖、半圓儀表、水平儀表、垂直儀表、垂直進(jìn)度條、圓形進(jìn)度條、水平進(jìn)度條、堆積柱圖、弧形進(jìn)度條、扇形進(jìn)度條、溫度計(jì)儀表、汽泡圖、雷達(dá)圖等。深度關(guān)聯(lián)挖掘各種展示指標(biāo),支持層層深入挖掘,從宏觀到微觀、從整體到個(gè)體、從實(shí)時(shí)到中長(zhǎng)期趨勢(shì)??删S護(hù)性能夠根據(jù)IT運(yùn)營(yíng)服務(wù)本身的管理需求,快速、靈活地調(diào)整定制展現(xiàn)方式、展現(xiàn)內(nèi)容。展示環(huán)境無(wú)關(guān)性數(shù)據(jù)湖展示不受大屏硬件、分辨率、尺寸大小、拼接方式的限制。安全管理大數(shù)據(jù)安全框架整體以及基本組件如下圖所示,圖中各組件為數(shù)據(jù)安全構(gòu)架基本構(gòu)成,后續(xù)根據(jù)需求會(huì)進(jìn)行增刪以及調(diào)增,橙色部分為本期主要階段性實(shí)現(xiàn):數(shù)據(jù)安全從最初的數(shù)據(jù)接入到最終的數(shù)據(jù)展現(xiàn)的安全問(wèn)題。中間包括數(shù)據(jù)源、數(shù)據(jù)收集、消息系統(tǒng)、實(shí)時(shí)處理、存儲(chǔ)、數(shù)據(jù)庫(kù)等各部分的數(shù)據(jù)安全以及整條線的安全。身份認(rèn)證和訪問(wèn)控制通過(guò)身份認(rèn)證確保訪問(wèn)數(shù)據(jù)湖中的數(shù)據(jù)、資源和服務(wù)的用戶(hù)是安全的,本次使用大數(shù)據(jù)技術(shù)支持身份認(rèn)證,并能夠?qū)崿F(xiàn)快速建立密鑰分發(fā)中心等。用戶(hù)通過(guò)身份認(rèn)證后可獲得訪問(wèn)數(shù)據(jù)湖的資格,同時(shí)為進(jìn)一步控制用戶(hù)對(duì)資源的訪問(wèn)權(quán)限,通過(guò)授權(quán)機(jī)制來(lái)管理不同用戶(hù)對(duì)不同資源的訪問(wèn)許可。所有組件都在一定程度上支持對(duì)訪問(wèn)的控制,使用訪問(wèn)控制模型,通過(guò)對(duì)細(xì)粒度的控制,控制到被訪問(wèn)對(duì)象的訪問(wèn)級(jí)別。在制定訪問(wèn)控制策略時(shí),依據(jù)合規(guī)要求,結(jié)合敏感數(shù)據(jù)保護(hù)策略、數(shù)據(jù)使用場(chǎng)景等針對(duì)不同數(shù)據(jù)、不同業(yè)務(wù)需求制定相應(yīng)的訪問(wèn)限制規(guī)則。數(shù)據(jù)保護(hù)數(shù)據(jù)保護(hù)技術(shù)通過(guò)對(duì)數(shù)據(jù)利用脫敏、失真、匿名化限制發(fā)布等技術(shù)處理后,使處理后的數(shù)據(jù)到達(dá)安全交易、開(kāi)放共享的目的。針對(duì)脫敏后的數(shù)據(jù),可放寬復(fù)雜的訪問(wèn)控制限制,降低數(shù)據(jù)泄露帶來(lái)的風(fēng)險(xiǎn)和復(fù)雜控制的成本。網(wǎng)絡(luò)分區(qū)安全網(wǎng)絡(luò)劃分獨(dú)立的安全域,控制域其他區(qū)域以及系統(tǒng)的訪問(wèn)控制,控制網(wǎng)絡(luò)層數(shù)據(jù)流向,控制大數(shù)據(jù)網(wǎng)絡(luò)與非內(nèi)部網(wǎng)絡(luò)的鏈接。保障客戶(hù)端訪問(wèn)數(shù)據(jù)湖的連接和數(shù)據(jù)湖中服務(wù)器節(jié)點(diǎn)之間的網(wǎng)絡(luò)通信安全。節(jié)點(diǎn)之間及客戶(hù)端與服務(wù)器之間的通信如有需要,可進(jìn)行加密。對(duì)網(wǎng)絡(luò)通信進(jìn)行加密設(shè)置,使用網(wǎng)絡(luò)安全設(shè)備隔離客戶(hù)端與數(shù)據(jù)湖的直接訪問(wèn)。網(wǎng)絡(luò)安全設(shè)備部署在數(shù)據(jù)湖和企業(yè)用戶(hù)網(wǎng)絡(luò)域之間,提供訪問(wèn)控制、策略管理,三區(qū)與四區(qū)間使用較強(qiáng)的訪問(wèn)控制措施,從而保護(hù)數(shù)據(jù)湖不會(huì)受到非法訪問(wèn)?;A(chǔ)安全審計(jì)和監(jiān)控?cái)?shù)據(jù)湖的一切活動(dòng)并生成告警信息用來(lái)分析識(shí)別安全事件。安全事故和事件監(jiān)控(SIEM)系統(tǒng)負(fù)責(zé)對(duì)數(shù)據(jù)湖中任何可疑的活動(dòng)進(jìn)行收集,監(jiān)控,分析和生成各種安全報(bào)告。被監(jiān)控的事件:用戶(hù)登錄和身份驗(yàn)證事件、授權(quán)錯(cuò)誤、敏感數(shù)據(jù)操作、通過(guò)各種客戶(hù)端的訪問(wèn)以及異常事件。數(shù)據(jù)治理根據(jù)業(yè)務(wù)要求、合規(guī)性、安全策略及數(shù)據(jù)的敏感性,數(shù)據(jù)基本分類(lèi)簡(jiǎn)要定義為業(yè)務(wù)系統(tǒng)數(shù)據(jù)以及配置數(shù)據(jù)。從數(shù)據(jù)特性層面對(duì)數(shù)據(jù)進(jìn)行標(biāo)記(包括分析類(lèi)型、處理方式、數(shù)據(jù)時(shí)效性數(shù)據(jù)類(lèi)型、數(shù)據(jù)格式、數(shù)據(jù)源等維度),脈絡(luò)化數(shù)據(jù)湖內(nèi)外數(shù)據(jù)流向,包括數(shù)據(jù)被使用,被誰(shuí)使用,數(shù)據(jù)是如何存儲(chǔ)的等等,基于此對(duì)數(shù)據(jù)的管理和數(shù)據(jù)訪問(wèn)控制制定相應(yīng)的策略。掌握敏感數(shù)據(jù)在數(shù)據(jù)湖中存在位置,降低數(shù)據(jù)暴露于風(fēng)險(xiǎn)下的概率。掌握敏感數(shù)據(jù)在數(shù)據(jù)湖中分布情況,自動(dòng)地增量式地發(fā)現(xiàn)找到敏感數(shù)據(jù),監(jiān)控其使用情況,做到全面保護(hù)數(shù)據(jù)安全。建立整個(gè)的主數(shù)據(jù),并保證主數(shù)據(jù)對(duì)于各個(gè)業(yè)務(wù)系統(tǒng)的準(zhǔn)確性、唯一性。2.2非功能需求2.2.1運(yùn)維保障需求數(shù)據(jù)湖具有友好的系統(tǒng)界面供運(yùn)維保障人員使用,運(yùn)維保障人員一般情況下通過(guò)系統(tǒng)界面對(duì)系統(tǒng)進(jìn)行維護(hù)。維護(hù)數(shù)據(jù)湖需要包含并不限于以下內(nèi)容:程序每一步操作需要記錄日志,在程序出現(xiàn)錯(cuò)誤之后,需要提供基礎(chǔ)的錯(cuò)誤分析;需要能夠通過(guò)系統(tǒng)界面監(jiān)控服務(wù)程序的運(yùn)行狀態(tài);數(shù)據(jù)處理過(guò)程需要進(jìn)行記錄,以及處理的問(wèn)題數(shù)據(jù)和正常數(shù)據(jù)的條數(shù);針對(duì)kafka等流式數(shù)據(jù)處理服務(wù)進(jìn)行監(jiān)控和分析;針對(duì)數(shù)據(jù)湖各組件的服務(wù)狀態(tài)進(jìn)行監(jiān)控和告警;針對(duì)服務(wù)器硬件層面、系統(tǒng)層面、hadoop集群層面進(jìn)行監(jiān)控,并根據(jù)故障級(jí)別以短信和郵件等形式發(fā)出告警信息。2.2.2可用性需求系統(tǒng)具備長(zhǎng)期穩(wěn)定工作的能力,所有選用產(chǎn)品均符合我國(guó)或國(guó)際上的質(zhì)量及可靠性標(biāo)準(zhǔn)。在不同環(huán)境及人員操作情況下,均能處于平衡穩(wěn)定狀態(tài)。提供高可靠的分布式文件系統(tǒng):基于業(yè)內(nèi)廣泛使用的高效分布式存儲(chǔ)架構(gòu),可存儲(chǔ)任意容量,任意數(shù)據(jù)類(lèi)型的數(shù)據(jù);沒(méi)有單點(diǎn)故障,提供成熟的高可用性方案,并可以直接圖形化配置;支持分層,多種存儲(chǔ)介質(zhì)的異構(gòu)分布式存儲(chǔ)架構(gòu),有效利用內(nèi)存、SSD等存儲(chǔ)介質(zhì)的性能優(yōu)勢(shì)以及傳統(tǒng)磁盤(pán)的容量成本優(yōu)勢(shì);支持多種訪問(wèn)模式,包括NFS,HTTP,原生API等;提供完善的圖形化文件管理工具,具有查看、編輯、刪除等功能;提供快照功能,防止誤刪除文件;支持多租戶(hù)情況下數(shù)據(jù)管理;支持Kudu存儲(chǔ)引擎;支持impala引擎對(duì)kudu訪問(wèn);提供高可靠的分布式關(guān)系型存儲(chǔ)Kudu;基于業(yè)內(nèi)廣泛使用的分布式關(guān)系型存儲(chǔ),可按關(guān)系型二維表存儲(chǔ)數(shù)據(jù);支持關(guān)系型數(shù)據(jù)的增刪改查功能,并能秒級(jí)進(jìn)行大數(shù)據(jù)操作;支持多種訪問(wèn)模式,包含原生API等;支持與MapReduce、Spark和Impala等的集成;支持高并發(fā)數(shù)據(jù)訪問(wèn)和高吞吐。2.2.3可靠性需求系統(tǒng)具備按要求進(jìn)行備份的能力,并提供相應(yīng)手段。1、健壯性要求:接收異?;蚱渌e(cuò)誤數(shù)據(jù),數(shù)據(jù)湖具有強(qiáng)健壯性,不會(huì)導(dǎo)致系統(tǒng)出錯(cuò)甚至崩潰,能夠滿(mǎn)足業(yè)務(wù)應(yīng)用。2、安全性要求:通過(guò)對(duì)用戶(hù)和數(shù)據(jù)的權(quán)限設(shè)定,確保用戶(hù)只能訪問(wèn)其所屬用戶(hù)類(lèi)型已被授權(quán)訪問(wèn)的那些功能或數(shù)據(jù)。3、可擴(kuò)充性要求:當(dāng)現(xiàn)有數(shù)據(jù)湖資源需進(jìn)行擴(kuò)充時(shí),數(shù)據(jù)湖能夠滿(mǎn)足動(dòng)態(tài)擴(kuò)容的需求。2.2.4性能需求1、歷史業(yè)務(wù)系統(tǒng)和配置數(shù)據(jù)從應(yīng)用系統(tǒng)數(shù)據(jù)湖遷移至本地化數(shù)據(jù)湖過(guò)程,性能滿(mǎn)足要求。2、實(shí)時(shí)數(shù)據(jù)接收,數(shù)據(jù)無(wú)丟失,查詢(xún)性能滿(mǎn)足要求。3、目前運(yùn)行在應(yīng)用系統(tǒng)中的算法遷移至本地?cái)?shù)據(jù)湖,且算法在數(shù)據(jù)湖中,性能滿(mǎn)足業(yè)務(wù)應(yīng)用要求。備注:在本地化數(shù)據(jù)湖中算法性能不低于當(dāng)前在應(yīng)用系統(tǒng)中算法運(yùn)行性能。2.3需求總結(jié)綜上述,通過(guò)此技術(shù)架構(gòu),可以在大數(shù)據(jù)基礎(chǔ)數(shù)據(jù)湖建設(shè)方面實(shí)現(xiàn)以下功能:1、統(tǒng)一數(shù)倉(cāng):建設(shè)成熟穩(wěn)定、性能先進(jìn)、靈活架構(gòu)、便捷易用的大數(shù)據(jù)存儲(chǔ)與計(jì)算數(shù)據(jù)湖,實(shí)現(xiàn)企業(yè)內(nèi)部統(tǒng)一匯聚、統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)。2、統(tǒng)一管理:建設(shè)數(shù)據(jù)權(quán)限、元數(shù)據(jù)管理、數(shù)據(jù)生命周期管控能力。3、全量數(shù)量:建設(shè)數(shù)據(jù)全量存儲(chǔ)、全量計(jì)算的大數(shù)據(jù)基礎(chǔ)數(shù)據(jù)湖,實(shí)現(xiàn)快速對(duì)接系統(tǒng)數(shù)據(jù),提供批量數(shù)據(jù)采集與處理能力。4、數(shù)據(jù)匯集:建設(shè)多源異構(gòu)數(shù)據(jù)整合接入能力。5、數(shù)據(jù)計(jì)算:建設(shè)海量數(shù)據(jù)混合計(jì)算處理能力(批量處理和實(shí)時(shí)流處理),以及豐富多樣的數(shù)據(jù)挖掘算法工具。6、數(shù)據(jù)展現(xiàn):多種維度、多種展現(xiàn)方式、多種接入方式的靈活的,可定制化的,可拖拽的報(bào)表平臺(tái)。7、數(shù)據(jù)湖擴(kuò)展:建設(shè)具有良好兼容性與擴(kuò)展性的基礎(chǔ)數(shù)據(jù)湖,以較好地支撐后續(xù)大數(shù)據(jù)應(yīng)用系統(tǒng)的建設(shè)。8、圖片及視頻流數(shù)據(jù)保存至數(shù)據(jù)湖中,并支持快速檢索。整體解決方案數(shù)據(jù)湖整體方案3.1.1硬件部署方式支撐X86架構(gòu)服務(wù)器部署。網(wǎng)絡(luò)使用以太網(wǎng)絡(luò)構(gòu)造,要求支持IP網(wǎng)絡(luò)即可,底層存儲(chǔ)無(wú)專(zhuān)用的存儲(chǔ)體系結(jié)構(gòu)要求,單數(shù)據(jù)節(jié)點(diǎn)無(wú)存儲(chǔ)可靠性要求。網(wǎng)絡(luò)部署拓?fù)鋮⒖枷聢D:硬件配置如下:數(shù)量CPU內(nèi)存操作系統(tǒng)硬盤(pán)容量管理節(jié)點(diǎn):2臺(tái)2*E5-2620v4128GCentOSLinuxSAS600GB,12Gb,5塊主板自帶支持RAID0、RAID1;主機(jī)總線適配器;主板集成2口千兆網(wǎng)卡以及2口萬(wàn)兆網(wǎng)卡;工作節(jié)點(diǎn):13臺(tái)2*E5-2620v4256GCentOSLinuxSAS600GB,12Gb,2塊;SATA4TB,12Gb,8塊;主板自帶支持RAID0、RAID1;主機(jī)總線適配器;主板集成2口千兆網(wǎng)卡以及2口萬(wàn)兆網(wǎng)卡;3.1.2基于CDH的數(shù)據(jù)湖軟件部署本次xx項(xiàng)目底層數(shù)據(jù)湖是由公司所發(fā)行的Hadoop企業(yè)版,簡(jiǎn)稱(chēng)CDH。該版本作為業(yè)界最領(lǐng)先的企業(yè)級(jí)數(shù)據(jù)中心基礎(chǔ)軟件,Enterprise除了包含業(yè)界最流行的基于開(kāi)源Hadoop及其生態(tài)組件構(gòu)建的CDH核心,還包含了很多為支撐企業(yè)級(jí)業(yè)務(wù)的高級(jí)管理特性。借助于Enterprise的整體解決方案,企業(yè)可以專(zhuān)注于自己的業(yè)務(wù)能力。1、結(jié)構(gòu)概述基于Hadoop的系統(tǒng)數(shù)據(jù)湖中,底層為統(tǒng)一分布式存儲(chǔ)HDFS,其上包含了分布式內(nèi)存分析引擎SPARK,分布式NoSQL數(shù)據(jù)庫(kù)HBase,以及支持多租戶(hù)的分布式計(jì)算集群。在Hadoop及相當(dāng)架構(gòu)系統(tǒng)數(shù)據(jù)湖之上,根據(jù)實(shí)際外部合作以及內(nèi)部應(yīng)用提供多租戶(hù)服務(wù)以及資源與數(shù)據(jù)訪問(wèn)權(quán)限控制。如下圖所示:Hadoop數(shù)據(jù)湖架構(gòu)圖數(shù)據(jù)湖由分布式資源管理框架實(shí)時(shí)調(diào)度資源、管理計(jì)算分析集群,為各個(gè)租戶(hù)以及各個(gè)應(yīng)用提供資源調(diào)度管理以及高效的分析挖掘能力,同時(shí)結(jié)合LDAP與Kerberos提供完備的權(quán)限管理控制。3.1.3基本組件基本組件結(jié)構(gòu)圖結(jié)合x(chóng)x使用的主要組件和使用場(chǎng)景,從數(shù)據(jù)接入到數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算,各組件的應(yīng)用場(chǎng)景和功能整體介紹下如下:1) HDFS:Hadoop分布式文件系統(tǒng),主要以大文件存儲(chǔ)為主,吞吐比較高,主要存儲(chǔ)相關(guān)的視頻文件和常規(guī)非實(shí)時(shí)、不修改的結(jié)構(gòu)化數(shù)據(jù),同時(shí)可以作為歷史數(shù)據(jù)存儲(chǔ),適合數(shù)據(jù)分析和數(shù)據(jù)挖掘存儲(chǔ)。2) Kudu:結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),可以實(shí)時(shí)接入設(shè)備端數(shù)據(jù),同時(shí)接入業(yè)務(wù)系統(tǒng)需要經(jīng)常修改的業(yè)務(wù)交易數(shù)據(jù),適合結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)分析和數(shù)據(jù)挖掘。3) HBase:NoSQL數(shù)據(jù)庫(kù),可以實(shí)時(shí)接入設(shè)備端數(shù)據(jù),適合做固定模式的數(shù)據(jù)明細(xì)查詢(xún);同時(shí)適合存儲(chǔ)如文件、音頻等海量的小文件。4) YARN:資源管理和調(diào)度框架,主要的批處理和計(jì)算引擎的資源調(diào)度工具。5) MapReduce:分布式批處理引擎,主要適合海量數(shù)據(jù)的批處理作業(yè)。6) Zookeeper:分布式的服務(wù)框架,主要用來(lái)解決分布式集群中應(yīng)用系統(tǒng)的一致性問(wèn)題,它能提供基于類(lèi)似于文件系統(tǒng)的目錄節(jié)點(diǎn)樹(shù)方式的數(shù)據(jù)存儲(chǔ),Zookeeper作用主要是用來(lái)維護(hù)和監(jiān)控存儲(chǔ)的數(shù)據(jù)的狀態(tài)變化,通過(guò)監(jiān)控這些數(shù)據(jù)狀態(tài)的變化,從而達(dá)到基于數(shù)據(jù)的集群管理。7) Hive:SQLOnHadoop的最常用工具,主要適合客戶(hù)用SQL來(lái)進(jìn)行數(shù)據(jù)的批量處理,底層會(huì)借助MapReduce或Spark。8) Impala:MPPOnHadoop的最常用工具,主要適合客戶(hù)用SQL進(jìn)行交互式查詢(xún)和即席查詢(xún)相關(guān)的操作,支持JDBC/ODBC,和主流BI工具已經(jīng)認(rèn)證集成。9) ES:全文檢索工具,主要用于客戶(hù)針對(duì)文本內(nèi)容進(jìn)行數(shù)據(jù)的搜索,如Word,PDF等。10) Spark:主流的Hadoop數(shù)據(jù)處理引擎,以?xún)?nèi)存計(jì)算為主。通過(guò)的高效數(shù)據(jù)計(jì)算引擎,支持批處理、流式計(jì)算和數(shù)據(jù)挖掘等不同的計(jì)算方式,流處理有引擎SparkStreaming,數(shù)據(jù)挖掘有SparkMLLib,數(shù)據(jù)批處理有SparkSQL和Scala開(kāi)發(fā)。后續(xù)應(yīng)用的流式計(jì)算和數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和數(shù)據(jù)處理都需要這個(gè)組件。11) Sqoop:ETL工具,主要用來(lái)集成業(yè)務(wù)交易系統(tǒng)數(shù)據(jù)如Oracle、DB2、Mysql等數(shù)據(jù)源數(shù)據(jù)定時(shí)同步到Hadoop數(shù)據(jù)湖上。12) Kafka:消息中間件,可以傳輸不同的數(shù)據(jù),目前主要可以用來(lái)傳輸設(shè)備端如風(fēng)電等實(shí)時(shí)數(shù)據(jù),進(jìn)行數(shù)據(jù)的緩沖和數(shù)據(jù)的多目標(biāo)分發(fā)。13) Flume:一個(gè)可以收集例如日志、事件等數(shù)據(jù)資源,并將這些數(shù)量龐大的數(shù)據(jù)從各項(xiàng)數(shù)據(jù)資源中集中起來(lái)存儲(chǔ)的工具/服務(wù)。Flume具有高可用,分布式,配置工具,其設(shè)計(jì)的原理也是基于將數(shù)據(jù)流,如日志數(shù)據(jù)從各種網(wǎng)站服務(wù)器上匯集起來(lái)存儲(chǔ)到HDFS,HBase等集中存儲(chǔ)器中。具體版本及特性的詳細(xì)介紹,請(qǐng)參見(jiàn)第四章。3.1.3數(shù)據(jù)ETL及數(shù)據(jù)接口開(kāi)發(fā)方案業(yè)務(wù)系統(tǒng)數(shù)據(jù)遷移開(kāi)發(fā)方案業(yè)務(wù)系統(tǒng)數(shù)據(jù)遷移需要將實(shí)時(shí)數(shù)據(jù)庫(kù)中的歷史數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)整齊地通過(guò)Kafka消息隊(duì)列輸出到xx集控中心Hadoop數(shù)據(jù)湖的Kudu和HBase中進(jìn)行存儲(chǔ)。實(shí)時(shí)數(shù)據(jù)庫(kù)中配套的輸出適配器將緩沖區(qū)的數(shù)據(jù)解析并生成指定格式的數(shù)據(jù),實(shí)時(shí)向Hadoop數(shù)據(jù)湖中的Kafka集群推送,存入Kafka的Topic中,每一個(gè)業(yè)務(wù)系統(tǒng)對(duì)應(yīng)一個(gè)采集協(xié)議,同一采集協(xié)議的數(shù)據(jù)放在一個(gè)Topic里。業(yè)務(wù)系統(tǒng)歷史數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)通過(guò)sqoop腳本進(jìn)行批量的導(dǎo)入,在導(dǎo)入過(guò)程中進(jìn)行面向業(yè)務(wù)的數(shù)據(jù)清洗、轉(zhuǎn)換、加載到Kudu和Hbase中去。數(shù)據(jù)按照業(yè)務(wù)系統(tǒng)進(jìn)行分類(lèi),進(jìn)行標(biāo)簽的規(guī)則制定和數(shù)據(jù)標(biāo)簽的開(kāi)發(fā)。業(yè)務(wù)系統(tǒng)歷史數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)通過(guò)flume腳本進(jìn)行批量的導(dǎo)入,在導(dǎo)入過(guò)程中進(jìn)行面向業(yè)務(wù)的數(shù)據(jù)清洗、轉(zhuǎn)換、加載到Kudu和Hbase中去。數(shù)據(jù)按照業(yè)務(wù)系統(tǒng)進(jìn)行分類(lèi),進(jìn)行標(biāo)簽的規(guī)則制定和數(shù)據(jù)標(biāo)簽的開(kāi)發(fā)。ERP系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、OA系統(tǒng)、視頻監(jiān)控系統(tǒng)、云商系統(tǒng)進(jìn)入數(shù)據(jù)湖存儲(chǔ)。日志中心湖區(qū)和文件中心湖區(qū)往往數(shù)據(jù)量非常大,且價(jià)值密度較低。對(duì)于這類(lèi)數(shù)據(jù)不要求強(qiáng)一致性,故而可不進(jìn)行數(shù)據(jù)審計(jì)和定期數(shù)據(jù)一致性校驗(yàn)。日志中心湖區(qū)和文件中心湖區(qū)多以半/非結(jié)構(gòu)化數(shù)據(jù)為主,需要進(jìn)行關(guān)聯(lián)分析的,進(jìn)行模型換行,并將其導(dǎo)入到中心湖的HDFS/HIVE。云商數(shù)據(jù)和用戶(hù)網(wǎng)頁(yè)行為分析的數(shù)據(jù),數(shù)據(jù)產(chǎn)生并發(fā)度高,數(shù)據(jù)流量大,需要用Kafka集群進(jìn)行數(shù)據(jù)承接,承接過(guò)程中需要進(jìn)行一定比例的數(shù)據(jù)壓縮,之后直接存儲(chǔ)到HDFS中,通過(guò)HIVE外部表的形式進(jìn)行訪問(wèn),以降低集群負(fù)載。對(duì)于文件中心的圖片文件,推薦進(jìn)行圖片識(shí)別,通過(guò)web前臺(tái)、數(shù)據(jù)API服務(wù),進(jìn)行圖片數(shù)據(jù)的上傳及查詢(xún),圖片需要有唯一ID作為標(biāo)示,確??蓹z索。海量圖片數(shù)據(jù)以ID為rowkey,儲(chǔ)存于Hbase平臺(tái),提供快速儲(chǔ)存及查詢(xún)能力。數(shù)據(jù)資產(chǎn)上有以下方面的構(gòu)建:1、統(tǒng)一索引描述非結(jié)構(gòu)數(shù)據(jù),方便數(shù)據(jù)檢索分析。2、增加維護(hù)及更新時(shí)間作為對(duì)象描述字段(圖片類(lèi)型、像素大小、尺寸規(guī)格)。非對(duì)象方式及數(shù)字化屬性編目(全文文本、圖像、聲音、影視、超媒體等信息),自定義元數(shù)據(jù)。3、不同類(lèi)型的數(shù)據(jù)可以形成了關(guān)聯(lián)并處理非結(jié)構(gòu)化數(shù)據(jù)。 Hadoop數(shù)據(jù)湖,通過(guò)相關(guān)組件將數(shù)據(jù)存儲(chǔ)在Hadoop集群的HDFS和HBase中。通過(guò)上層分析和處理引擎Hive、Impala、Spark對(duì)底層數(shù)據(jù)進(jìn)行分析處理,并提供統(tǒng)一的數(shù)據(jù)訪問(wèn)接口非彈性計(jì)算業(yè)務(wù)遷移:包括預(yù)警常規(guī)模型計(jì)算和預(yù)警可視化服務(wù)。服務(wù)所需環(huán)境:CentOS7.0、Hbase、Hive。數(shù)據(jù)存儲(chǔ)開(kāi)發(fā)方案Kafka的Topic中的數(shù)據(jù)通過(guò)定制開(kāi)發(fā)的SparkStreaming程序進(jìn)行清洗、去重等操作并存入數(shù)據(jù)湖。數(shù)據(jù)采用Kudu+HBase的方式存儲(chǔ),HBase存全量數(shù)據(jù),Kudu存計(jì)算點(diǎn)數(shù)據(jù)、測(cè)點(diǎn)數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ),根據(jù)業(yè)務(wù)需求,采用hive+kudu的方式進(jìn)行開(kāi)發(fā)。報(bào)表的數(shù)據(jù)存儲(chǔ),根據(jù)實(shí)時(shí)性和變化量,采用hive+mysql的方式進(jìn)行存儲(chǔ),開(kāi)發(fā)相應(yīng)的關(guān)系映射和連接組件。Hbase+ES近實(shí)時(shí)(NRT)查詢(xún)開(kāi)發(fā)方案Hbase適用于大表的存儲(chǔ),通過(guò)單一的RowKey查詢(xún)雖然能快速查詢(xún),但是對(duì)于復(fù)雜查詢(xún),尤其分頁(yè)、查詢(xún)總數(shù)等,實(shí)現(xiàn)方案浪費(fèi)計(jì)算資源,所以可以針對(duì)hbase數(shù)據(jù)創(chuàng)建二級(jí)索引(HbaseSecondaryIndexing),供復(fù)雜查詢(xún)使用。而ES作為一個(gè)高性能,采用Java5開(kāi)發(fā),基于Lucene(同時(shí)對(duì)其進(jìn)行了擴(kuò)展)的全文搜索服務(wù)器,提供了比Lucene更為豐富的查詢(xún)語(yǔ)言,同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展并對(duì)查詢(xún)性能進(jìn)行了優(yōu)化,并且提供了一個(gè)完善的功能管理界面,是一款非常優(yōu)秀的全文搜索引擎。Key-ValueStoreIndexer是Hbase到ES生成索引的中間工具。在CDH5中的Key-ValueStoreIndexer使用的是LilyHBaseNRTIndexer服務(wù)。LilyHBaseIndexer是一款靈活的、可擴(kuò)展的、高容錯(cuò)的、事務(wù)性的,并且近實(shí)時(shí)的處理HBase列索引數(shù)據(jù)的分布式服務(wù)軟件。LilyHBaseIndexer使用ESCloud來(lái)存儲(chǔ)HBase的索引數(shù)據(jù),當(dāng)HBase執(zhí)行寫(xiě)入、更新或刪除操作時(shí),Indexer通過(guò)HBase的replication功能來(lái)把這些操作抽象成一系列的Event事件,并用來(lái)保證寫(xiě)入ES中的HBase索引數(shù)據(jù)的一致性。并且Indexer支持用戶(hù)自定義的抽取,轉(zhuǎn)換規(guī)則來(lái)索引HBase列數(shù)據(jù)。ES搜索結(jié)果會(huì)包含用戶(hù)自定義的columnfamily:qualifier字段結(jié)果,這樣應(yīng)用程序就可以直接訪問(wèn)HBase的列數(shù)據(jù)。而且Indexer索引和搜索不會(huì)影響HBase運(yùn)行的穩(wěn)定性和HBase數(shù)據(jù)寫(xiě)入的吞吐量,因?yàn)樗饕退阉鬟^(guò)程是完全分開(kāi)并且異步的。hbase負(fù)責(zé)海量數(shù)據(jù)存儲(chǔ);ES負(fù)責(zé)構(gòu)建索引和提供對(duì)外查詢(xún);Indexer負(fù)責(zé)提供hbase到ES的索引構(gòu)建。數(shù)據(jù)使用流程圖數(shù)據(jù)接口的開(kāi)發(fā)數(shù)據(jù)湖通過(guò)標(biāo)準(zhǔn)接口的方式為外部系統(tǒng)提供數(shù)據(jù)服務(wù),根據(jù)不同業(yè)務(wù)系統(tǒng)的需要進(jìn)行定制化的接口開(kāi)發(fā)。根據(jù)業(yè)務(wù)的不同數(shù)據(jù)封裝分成兩種方式,一種是對(duì)批量的數(shù)據(jù)進(jìn)行封裝,將封裝后的數(shù)據(jù)發(fā)布到共享區(qū)上,供數(shù)據(jù)應(yīng)用和外圍系統(tǒng)獲取,這種方式主要針對(duì)訪問(wèn)方需要海量數(shù)據(jù)的情況;另一種方式是將數(shù)據(jù)封裝成WebService或者其他專(zhuān)用Socket協(xié)議的格式供訪問(wèn)方獲取單條數(shù)據(jù),這種方式主要針對(duì)對(duì)客戶(hù)視圖等的訪問(wèn)情況。1) API應(yīng)保持與開(kāi)源Hadoop及相當(dāng)架構(gòu)系統(tǒng)各服務(wù)組件的API不變,具體包括并不限于接口功能、接口類(lèi)型(Java、Python、Rest等)、接口名稱(chēng)、輸入?yún)?shù)、返回結(jié)構(gòu)。所支持的接口包括并不限于:a. 支持訪問(wèn)分布式文件系統(tǒng)的文件操作接口;b. 支持與外部數(shù)據(jù)源關(guān)系數(shù)據(jù)庫(kù)的交互;c. 通過(guò)提交MR任務(wù)分析和查詢(xún)數(shù)據(jù);d. 支持Thrift、Rest接口;e. 以直接提交查詢(xún)語(yǔ)句方式訪問(wèn)數(shù)據(jù);f. 提供用戶(hù)訪問(wèn)Hive的方法,支持用戶(hù)使用Java和Thrift方式訪問(wèn)Hive。2) SQL應(yīng)支持上層使用SQL語(yǔ)言進(jìn)行訪問(wèn),具體要求:a. 以O(shè)DBC方式訪問(wèn)數(shù)據(jù)湖;b. 以JDBC方式訪問(wèn)數(shù)據(jù)湖;c. 提供可視化界面工具,提供SQL設(shè)計(jì)以及數(shù)據(jù)訪問(wèn)功能,支持Kudu、Spark、Hive、Impala以及傳統(tǒng)數(shù)據(jù)庫(kù)。數(shù)據(jù)湖提供標(biāo)準(zhǔn)接口API直接與生產(chǎn)實(shí)時(shí)數(shù)據(jù)庫(kù)通信,獲取生產(chǎn)數(shù)據(jù),并將數(shù)據(jù)接入xx數(shù)據(jù)湖的實(shí)時(shí)數(shù)據(jù)庫(kù)集群中。數(shù)據(jù)格式標(biāo)準(zhǔn)化方式,將數(shù)據(jù)湖的數(shù)據(jù)訪問(wèn),封裝為標(biāo)準(zhǔn)的WebService接口。消費(fèi)數(shù)據(jù)的上層應(yīng)用,通過(guò)不同的接口服務(wù)進(jìn)行調(diào)用,數(shù)據(jù)湖提供標(biāo)準(zhǔn)化的解析方式,權(quán)限由數(shù)據(jù)湖統(tǒng)一控制。數(shù)據(jù)接入層采用KAFKA為實(shí)時(shí)接入組件,根據(jù)業(yè)務(wù)需求,建立統(tǒng)一的TOPIC,消息包含但不限于:時(shí)間戳、消息來(lái)源、設(shè)備類(lèi)型,狀態(tài)值等類(lèi)型,采用統(tǒng)一命名規(guī)則和編碼方式。數(shù)據(jù)庫(kù)表進(jìn)行統(tǒng)一的命名方式和索引構(gòu)建,使用CDH的Navigator組件進(jìn)行數(shù)據(jù)全生命周期的跟蹤和管理。數(shù)據(jù)ETL方案及實(shí)現(xiàn)ETL架構(gòu)圖將業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)集成到Hadoop數(shù)據(jù)湖,涉及的部分關(guān)系型數(shù)據(jù)庫(kù)包括:Oracle9、Oracle9.2、Oracle9i、Oracle10g、Oracle10.2、Oracle11g、Oracle11.2、Oracle13、SqlServer2000、SqlServer2008、MySql5.0。ETL是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過(guò)程。是構(gòu)建數(shù)據(jù)湖的重要一環(huán),用戶(hù)從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終將數(shù)據(jù)加載到數(shù)據(jù)湖中。數(shù)據(jù)抽取提供手工和自動(dòng)兩種抽取方式;手工方式通過(guò)人為方式啟動(dòng)任務(wù),自動(dòng)方式基于調(diào)度程序定期定時(shí)執(zhí)行抽取任務(wù);提供全量和增量數(shù)據(jù)抽取;提供多種抽取策略;抽取的字段可以動(dòng)態(tài)修改;提供上傳數(shù)據(jù)壓縮包的解壓;數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換(Transform)是按照目標(biāo)表的數(shù)據(jù)結(jié)構(gòu),對(duì)一個(gè)或多個(gè)源數(shù)據(jù)的字段進(jìn)行翻譯、匹配、聚合等操作得到目標(biāo)數(shù)據(jù)的字段。數(shù)據(jù)裝載提供數(shù)據(jù)的批量裝載;提供以接口和文件的方式將數(shù)據(jù)裝載進(jìn)入綜合應(yīng)用數(shù)據(jù)湖、深度分析庫(kù)、Hadoop庫(kù)中;提供對(duì)采集過(guò)程及結(jié)果的監(jiān)控界面,獲取監(jiān)控?cái)?shù)據(jù)。提供對(duì)采集的過(guò)程報(bào)錯(cuò)提供日志記錄和審計(jì)功能,,并提供相應(yīng)的管理界面和外部訪問(wèn)接口。非結(jié)構(gòu)化數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)包括音視頻數(shù)據(jù)及采用爬蟲(chóng)等相關(guān)工具抓取的產(chǎn)業(yè)信息等,采用ETL工具將非結(jié)構(gòu)化數(shù)據(jù)集成到數(shù)據(jù)湖。實(shí)現(xiàn)步驟:參與人員:xx技術(shù)團(tuán)隊(duì)科技實(shí)施團(tuán)隊(duì)主要任務(wù):數(shù)據(jù)源及其特性定義數(shù)據(jù)析取、轉(zhuǎn)換和加載策略設(shè)計(jì)析取Extracting條件Conditioning剔除Scrubbing合并Merging濃縮Enrichment確認(rèn)Validating加載Loading評(píng)分Scoring家庭關(guān)系識(shí)別Householding構(gòu)建和測(cè)試初始加載的程序和處理流程構(gòu)建和測(cè)試日常加載的程序和處理流程40%的工作量在數(shù)據(jù)轉(zhuǎn)換和加載上交付件:《數(shù)據(jù)ETL設(shè)計(jì)說(shuō)明書(shū)》《數(shù)據(jù)映射(DataMapping)說(shuō)明書(shū)》數(shù)據(jù)ETL腳本(ETLScripts)加載流程控制(ETLProcessControls)3.1.4沙盒管理利用Docker,基于kubernetes主打的容器技術(shù)與微服務(wù)應(yīng)用基礎(chǔ)平臺(tái),HDFS和YARN均可依此建模,為上層應(yīng)用提供微服務(wù)引擎架構(gòu)支持。使用資源隔離,基于linux提供的LXC技術(shù),EDH提供靜態(tài)的資源隔離,并使用CGroups對(duì)隔離后的資源進(jìn)行管理。部署服務(wù)彈性伸縮和自修復(fù)觸發(fā)器,充分利用計(jì)算資源。創(chuàng)建分析引擎及計(jì)算引擎鏡像,部署到docker中。 基于devicemapper動(dòng)態(tài)擴(kuò)容、縮容,將中心湖的數(shù)據(jù)進(jìn)行分片,然后同步導(dǎo)入到沙盒中的HDFS或KUDU中。3.1.5多租戶(hù)管理數(shù)據(jù)湖環(huán)境下的多租戶(hù)CDH平臺(tái)需要具備多租戶(hù)資源管理能力,支持PB級(jí)的數(shù)據(jù)處理和應(yīng)用分析、秒級(jí)的實(shí)時(shí)處理和場(chǎng)景營(yíng)銷(xiāo)、高并發(fā)的數(shù)據(jù)查詢(xún)、對(duì)外的服務(wù)支持等。多租戶(hù)Hadoop平臺(tái)框架如左圖所示,可以滿(mǎn)足統(tǒng)一數(shù)據(jù)存放,提高數(shù)據(jù)湖數(shù)據(jù)共享率,優(yōu)化資源調(diào)度策略,提升數(shù)據(jù)湖資源利用率,支撐PB級(jí)大數(shù)據(jù)處理,建立數(shù)據(jù)湖評(píng)測(cè)標(biāo)準(zhǔn)等效果。目前版本的多租戶(hù)CDH平臺(tái)已滿(mǎn)足大部分功能需求,包括滿(mǎn)足統(tǒng)一數(shù)據(jù)存放、優(yōu)化資源調(diào)度策略,提升數(shù)據(jù)湖資源利用率,主要包含以下幾個(gè)模塊:多租戶(hù)管理、資源管理、機(jī)構(gòu)管理、權(quán)限管理,應(yīng)用及數(shù)據(jù)的統(tǒng)一監(jiān)控、安全管理分為以下幾個(gè)模塊:我的工作臺(tái)包含用戶(hù)(租戶(hù))自身的資源查看和申請(qǐng)、提交的任務(wù)運(yùn)行情況(歷史任務(wù)/正在運(yùn)行的任務(wù))、所擁有的數(shù)據(jù)列表、密鑰申請(qǐng)及查看;機(jī)構(gòu)管理包含用戶(hù)層級(jí)管理(主要針對(duì)多部門(mén)多用戶(hù)的分級(jí)管理);用戶(hù)管理包含用戶(hù)的個(gè)人管理、用戶(hù)所關(guān)聯(lián)的平臺(tái)角色管理、用戶(hù)申請(qǐng)的密鑰審批管理、用戶(hù)/租戶(hù)針對(duì)CDH平臺(tái)組件的權(quán)限管理(YARN/Impala/Hive/HDFS/HBase等)3.2報(bào)表平臺(tái)整體方案3.2.1系統(tǒng)設(shè)計(jì)原則系統(tǒng)設(shè)計(jì)方案總體遵循技術(shù)規(guī)格書(shū)的總體目標(biāo)和指導(dǎo)思想,以?xún)?yōu)化整合基礎(chǔ)數(shù)據(jù)為前提,以構(gòu)建貫通主體業(yè)務(wù)為目標(biāo)建立基于信息共享數(shù)據(jù)湖的BI應(yīng)用系統(tǒng)架構(gòu);應(yīng)用系統(tǒng)架構(gòu)的規(guī)劃要將先進(jìn)性和實(shí)用性有機(jī)結(jié)合,結(jié)合的關(guān)鍵點(diǎn)在于從的實(shí)際需求出發(fā),在明確的有限目標(biāo)前提下,以實(shí)用性為優(yōu)先。系統(tǒng)設(shè)計(jì)體現(xiàn)統(tǒng)一性、先進(jìn)性、實(shí)用性、可靠性、安全性、可擴(kuò)展性。統(tǒng)一性信息資源統(tǒng)一規(guī)劃、統(tǒng)一管理,包含是統(tǒng)一的建設(shè)標(biāo)準(zhǔn)。包括統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一的規(guī)劃標(biāo)準(zhǔn)、統(tǒng)一的接口標(biāo)準(zhǔn)、統(tǒng)一的管理標(biāo)準(zhǔn)。先進(jìn)性技術(shù)設(shè)計(jì)及業(yè)務(wù)應(yīng)用方面體現(xiàn)行業(yè)應(yīng)用的領(lǐng)先性和前瞻性。實(shí)用性管理模式和系統(tǒng)功能要針對(duì)的實(shí)際情況設(shè)定,體現(xiàn)基礎(chǔ)扎實(shí)、效率優(yōu)先、平穩(wěn)過(guò)渡、降低風(fēng)險(xiǎn)、投資見(jiàn)效快的要求,并結(jié)合使用人員特點(diǎn)、業(yè)務(wù)實(shí)際操作特點(diǎn)和管理基礎(chǔ)使系統(tǒng)易學(xué)易用、方便推廣??煽啃韵到y(tǒng)采用大型關(guān)系型數(shù)據(jù)庫(kù),有嚴(yán)格的安全控制和數(shù)據(jù)備份機(jī)制,確保數(shù)據(jù)安全可靠。安全性在網(wǎng)絡(luò)配置上,外部只可訪問(wèn)經(jīng)過(guò)許可的Web服務(wù)器,保證內(nèi)部業(yè)務(wù)分析應(yīng)用模型的數(shù)據(jù)不被非法用戶(hù)所獲取。在應(yīng)用軟件的設(shè)計(jì)上,強(qiáng)化權(quán)限管理功能,具有多級(jí)安全機(jī)制。通過(guò)對(duì)各級(jí)工作人員的權(quán)限設(shè)置,做到所有人員只能查看與其權(quán)限相應(yīng)的數(shù)據(jù),并建立完善的日志管理,做到所有操作都有據(jù)可查。可擴(kuò)展性可擴(kuò)展性從以下兩個(gè)方面提出要求:一是業(yè)務(wù)應(yīng)用功能的可擴(kuò)展性,通過(guò)建立集中與分層管理的統(tǒng)一模式,使同類(lèi)業(yè)務(wù)能在和二級(jí)部門(mén)層面推廣使用,并以精細(xì)化數(shù)據(jù)管理為基礎(chǔ),為未來(lái)系統(tǒng)功能向更高層次的提升奠定應(yīng)用基礎(chǔ)框架;二是系統(tǒng)環(huán)境的可擴(kuò)展性,網(wǎng)絡(luò)和系統(tǒng)數(shù)據(jù)湖可根據(jù)統(tǒng)一規(guī)劃的要求,在保證體系完整的前提下,通過(guò)逐步擴(kuò)充來(lái)滿(mǎn)足應(yīng)用需求并實(shí)現(xiàn)合理投資。易用性提供了完整的交互性的UI操作界面和管理控制數(shù)據(jù)湖。其中BI更有別于其他傳統(tǒng)BI產(chǎn)品,在分析圖表創(chuàng)建、調(diào)整等方面更為簡(jiǎn)便、易用,以一個(gè)產(chǎn)品組件即實(shí)現(xiàn)了數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)圖表、OLAP、Dashboard等以往需要多個(gè)產(chǎn)品實(shí)現(xiàn)的開(kāi)發(fā)和應(yīng)用發(fā)布功能,極大地減輕了對(duì)系統(tǒng)維護(hù)團(tuán)隊(duì)的工作壓力。3.2.2數(shù)據(jù)分析場(chǎng)景一個(gè)分析數(shù)據(jù)湖融合五類(lèi)企業(yè)應(yīng)用場(chǎng)景,全面滿(mǎn)足您構(gòu)建由數(shù)據(jù)驅(qū)動(dòng)的現(xiàn)代企業(yè)管理體系。我們更需要構(gòu)建全方位的數(shù)據(jù)分析能力,并將其融入各種業(yè)務(wù)場(chǎng)景中,促使其真正產(chǎn)生價(jià)值,提升ROI。引導(dǎo)式分析:預(yù)定義數(shù)據(jù)邏輯,以?xún)?nèi)置的業(yè)務(wù)模型引導(dǎo)分析過(guò)程,以發(fā)現(xiàn)顯性業(yè)務(wù)問(wèn)題為主。自助式分析:自定義數(shù)據(jù)邏輯,可論證業(yè)務(wù)的自助分析過(guò)程,以提出并回答焦點(diǎn)業(yè)務(wù)問(wèn)題為主。嵌入式分析:將分析應(yīng)用嵌入企業(yè)應(yīng)用,構(gòu)建集成的業(yè)務(wù)支撐數(shù)據(jù)湖,快速融合業(yè)務(wù)執(zhí)行管理場(chǎng)景。定制化開(kāi)發(fā):定制數(shù)據(jù)分析及服務(wù)能力,構(gòu)建外部的分析應(yīng)用門(mén)戶(hù),增強(qiáng)價(jià)值鏈環(huán)節(jié)有效協(xié)作。報(bào)表及協(xié)作:提供分析應(yīng)用的生成及訂閱,構(gòu)建企業(yè)級(jí)報(bào)表分發(fā)體系,主動(dòng)投遞業(yè)務(wù)洞察。一個(gè)分析數(shù)據(jù)湖響應(yīng)兩套不同分析方法,迅速應(yīng)變您數(shù)據(jù)處理及分析的審視過(guò)程??深A(yù)定義數(shù)據(jù)邏輯的內(nèi)存計(jì)算模式,基于預(yù)置業(yè)務(wù)模型提供團(tuán)隊(duì)已知洞察點(diǎn)的分析線索。可自定義數(shù)據(jù)邏輯的關(guān)聯(lián)計(jì)算模式,基于動(dòng)態(tài)業(yè)務(wù)模型提供支撐個(gè)人知識(shí)結(jié)構(gòu)與工作背景的分析能力。一個(gè)分析數(shù)據(jù)湖接入多種數(shù)據(jù)資源,應(yīng)對(duì)復(fù)雜數(shù)據(jù)分析環(huán)境。充分結(jié)合數(shù)據(jù)湖的海量存儲(chǔ)與計(jì)算能力。一個(gè)分析數(shù)據(jù)湖接入多種用戶(hù)體驗(yàn)訴求,增強(qiáng)背后的業(yè)務(wù)邏輯應(yīng)變及用戶(hù)體驗(yàn)?zāi)J?。基于“零開(kāi)發(fā)?跨終端?自適應(yīng)?易交互?多協(xié)作”模式,使用數(shù)據(jù)分析行為在Anyone-Anytime-Anywhere-Anymore均可被保證有效,全面構(gòu)建由數(shù)據(jù)驅(qū)動(dòng)的現(xiàn)代企業(yè)管理體系。業(yè)務(wù)人員在使用過(guò)程中,通過(guò)“搜索”、“探索”、“快照”、“書(shū)簽”、“故事”、“觀點(diǎn)”等十多種可視化交互能力定義,任何人均可快速有效地實(shí)踐對(duì)數(shù)據(jù)的分析、管理及協(xié)作方案。并可基于時(shí)間與事件進(jìn)行靜動(dòng)態(tài)回溯,全方位審視數(shù)據(jù)的意圖,與您的團(tuán)隊(duì)進(jìn)行論證業(yè)務(wù)分析焦點(diǎn)并分享你的獨(dú)到見(jiàn)解。3.2.3業(yè)務(wù)需求建議基于對(duì)xx前期的溝通和對(duì)運(yùn)營(yíng)分析內(nèi)容的理解。結(jié)合科技在數(shù)據(jù)分析解決方案和實(shí)施經(jīng)驗(yàn),提供如下建議和參考示例。以下圖表樣式僅供參考,具體管理規(guī)范和分析圖表樣式以實(shí)際為準(zhǔn)。實(shí)施過(guò)程中梳理維度與指標(biāo),開(kāi)展業(yè)務(wù)需求規(guī)格書(shū)的編寫(xiě)和評(píng)審。統(tǒng)一管理分析報(bào)表的命名規(guī)范,在報(bào)表名稱(chēng)、維度與指標(biāo)。將企業(yè)KPI指標(biāo)以資產(chǎn)管理卡片的形式存檔(KPI字典),并設(shè)立引用、變更等管理流程。以各業(yè)務(wù)主題為單元,分解詳細(xì)的業(yè)務(wù)分析規(guī)劃并討論、評(píng)審。以下是財(cái)務(wù)分析主題、生產(chǎn)供應(yīng)主題、物流分析為示例參考。示例:財(cái)務(wù)分析主題財(cái)務(wù)分析是以會(huì)計(jì)核算和報(bào)表資料及其他相關(guān)資料為依據(jù),采用一系列專(zhuān)門(mén)的分析技術(shù)和方法,對(duì)企業(yè)經(jīng)營(yíng)組織過(guò)去和現(xiàn)在的有關(guān)籌資/投資活動(dòng)、經(jīng)營(yíng)活動(dòng)、分配活動(dòng)的盈利能力、營(yíng)運(yùn)能力、償債能力和增長(zhǎng)能力狀況等進(jìn)行分析和評(píng)價(jià)的管理活動(dòng)。相對(duì)與其他分析主題較為固化,特點(diǎn)是標(biāo)準(zhǔn)化,但在本方案中將結(jié)合BI產(chǎn)品的特色提出分析方案。財(cái)務(wù)控制分析標(biāo)準(zhǔn)財(cái)務(wù)分析方法,純財(cái)務(wù)口徑的統(tǒng)計(jì)分析,包括三大財(cái)務(wù)報(bào)表、能力分析法覆蓋財(cái)務(wù)部報(bào)表:FI001償債能力分析A類(lèi)FI002營(yíng)運(yùn)能力分析A類(lèi)FI003盈利能力分析A類(lèi)FI013稅金分析A類(lèi)FI014費(fèi)用分析B類(lèi)FI015營(yíng)業(yè)外收支分析B類(lèi)包含但不限于下列維度和指標(biāo):維度:時(shí)間–年、季、月法人單位基礎(chǔ)指標(biāo):組合指標(biāo)不再一一羅列會(huì)計(jì)科目期初、借方發(fā)生、貸方發(fā)生、余額資產(chǎn)負(fù)債/損益/現(xiàn)金流量表行項(xiàng)目期初、借方發(fā)生、貸方發(fā)生、期末余額財(cái)務(wù)經(jīng)營(yíng)分析以財(cái)務(wù)口徑統(tǒng)計(jì)各類(lèi)經(jīng)營(yíng)活動(dòng),例如:采購(gòu)節(jié)超、銷(xiāo)售量差/價(jià)差、成本還原等的分析方法,在需要時(shí)可拆分成各經(jīng)營(yíng)活動(dòng)的獨(dú)立分析。覆蓋財(cái)務(wù)部報(bào)表:FI004工程分析B類(lèi)FI005發(fā)貨分析A類(lèi)FI006銷(xiāo)售分析A類(lèi)FI008庫(kù)存分析A/B類(lèi)FI009往來(lái)科目分析A類(lèi)FI010應(yīng)付總帳與明細(xì)賬的核對(duì)B類(lèi)FI011采購(gòu)分析FI012低易領(lǐng)用分析A類(lèi)FI016PBC數(shù)據(jù)匯總B類(lèi)FI017產(chǎn)銷(xiāo)量報(bào)表匯總B類(lèi)包含但不限于下列維度和指標(biāo):維度:時(shí)間–年、季、月生產(chǎn)基地公司-公司、部門(mén)低易類(lèi)別存貨類(lèi)別片區(qū)-大區(qū)、片區(qū)產(chǎn)品-品種、品規(guī)、包裝基礎(chǔ)指標(biāo):組合指標(biāo)不再一一羅列發(fā)貨額、成本、毛利、凈利潤(rùn)、單價(jià)、應(yīng)收/應(yīng)付賬款、工程項(xiàng)目支出、單位成本、存貨量/額以及相關(guān)預(yù)算財(cái)務(wù)主題綜述注:圖例僅用于幫助理解為目的,不代表未來(lái)項(xiàng)目實(shí)施的交付件示例:生產(chǎn)供應(yīng)主題針對(duì)生產(chǎn)涉及的原材料采購(gòu)、供應(yīng)、庫(kù)存等信息,統(tǒng)計(jì)各物料、供應(yīng)商、生產(chǎn)基地的運(yùn)營(yíng)情況。覆蓋供應(yīng)部報(bào)表:PP001物料價(jià)格變化趨勢(shì)A類(lèi)PP002物料需求計(jì)劃B類(lèi)PP003應(yīng)付賬款賬齡分析B類(lèi)PP004成本分析A類(lèi)包含但不限于下列維度和指標(biāo):維度:時(shí)間–年、季、月生產(chǎn)基地供應(yīng)商物料–類(lèi)別、品種產(chǎn)品-品種、品規(guī)、包裝倉(cāng)庫(kù)-庫(kù)區(qū)、庫(kù)位基礎(chǔ)指標(biāo):組合指標(biāo)不再一一羅列物料價(jià)格、庫(kù)存量/額、生產(chǎn)需求量、應(yīng)付賬款注:圖例僅用于幫助理解為目的,不代表未來(lái)項(xiàng)目實(shí)施的交付件示例:物流分析主題以物流監(jiān)管部提出的報(bào)表需求為主線,不限定報(bào)表格式(需調(diào)研)與指標(biāo)(需調(diào)研),結(jié)合提出的解決方案和實(shí)施經(jīng)驗(yàn),涉及物流各運(yùn)營(yíng)環(huán)節(jié)的統(tǒng)計(jì)分析。覆蓋物流監(jiān)管部報(bào)表:SC001物流成本分析B類(lèi)SC002物流成本預(yù)警A類(lèi)SC003效率分析A類(lèi)包含但不限于下列維度和指標(biāo):維度:時(shí)間–年、季、月、日生產(chǎn)基地承運(yùn)商人員物料–類(lèi)別、品種產(chǎn)品-品種、品規(guī)、包裝倉(cāng)庫(kù)-庫(kù)區(qū)、庫(kù)位基礎(chǔ)指標(biāo):組合指標(biāo)不再一一羅列存貨量/額、物流費(fèi)用額、里程、注:圖例僅用于幫助理解為目的,不代表未來(lái)項(xiàng)目實(shí)施的交付件3.2.4系統(tǒng)邏輯架構(gòu)系統(tǒng)采用多層設(shè)計(jì)原則,將系統(tǒng)分為:數(shù)據(jù)層、應(yīng)用層以及展現(xiàn)層。系統(tǒng)邏輯部署如下圖。數(shù)據(jù)層:涉及ETL、ODS和數(shù)據(jù)倉(cāng)庫(kù)ETL:負(fù)責(zé)抽取、清洗、邏輯轉(zhuǎn)換和加載等數(shù)據(jù)集成的執(zhí)行工作ODS:集成來(lái)自多個(gè)系統(tǒng)的數(shù)據(jù),直接將來(lái)源系統(tǒng)的數(shù)據(jù)以類(lèi)似復(fù)制的方式,經(jīng)過(guò)簡(jiǎn)單清洗、維度映射后的數(shù)據(jù)存儲(chǔ)數(shù)據(jù)集市:是ODS數(shù)據(jù)的進(jìn)一步處理,是面向業(yè)務(wù)分析主題的、經(jīng)過(guò)預(yù)先匯總的數(shù)據(jù)存儲(chǔ),與ODS一起構(gòu)成完整的數(shù)據(jù)倉(cāng)庫(kù)可用性。應(yīng)用層:基于數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,提供應(yīng)用服務(wù)支持、資源發(fā)布。展示層:基于應(yīng)用層的服務(wù)支持,提供用戶(hù)通過(guò)企業(yè)局域網(wǎng)、互聯(lián)網(wǎng)在桌面PC或移動(dòng)設(shè)備訪問(wèn)分析模型的能力。3.2.5技術(shù)方案特點(diǎn)1.數(shù)據(jù)源安全連接到本地或云端的任何數(shù)據(jù)源。以實(shí)時(shí)連接或數(shù)據(jù)提取的形式發(fā)布和共享數(shù)據(jù)源,讓每個(gè)人都可以使用客戶(hù)的數(shù)據(jù)。兼容熱門(mén)的企業(yè)數(shù)據(jù)源,如Hadoop、Oracle、AWSRedshift、多維數(shù)據(jù)集、Teradata、MicrosoftSQLServer等。借助我們的Web數(shù)據(jù)連接器和API,還可以訪問(wèn)數(shù)百個(gè)其他數(shù)據(jù)源。3

易用性BI提供了一個(gè)非常新穎而易用的使用界面,使得處理規(guī)模巨大的、多維的數(shù)據(jù)時(shí),也能即時(shí)的從不同角度和設(shè)置下看到數(shù)據(jù)所呈現(xiàn)出的規(guī)律。BI通過(guò)數(shù)據(jù)可視化方面技術(shù),使得數(shù)據(jù)挖掘變得平民化。而其自動(dòng)生成和展現(xiàn)出的圖表,也絲毫不遜色于互聯(lián)網(wǎng)美工編輯的水平。2.自助式開(kāi)發(fā)只需用拖放的方式就可快速地創(chuàng)建出交互、美觀、智能的視圖和儀表盤(pán),快速創(chuàng)建出各種圖表類(lèi)型。如:餅圖、柱狀圖、條形圖、氣泡圖、熱力圖、瀑布圖、突出表、折線圖、散點(diǎn)圖、交叉表等等,并且BI擁有自動(dòng)推薦圖形的功能,即用戶(hù)只要選擇好字段,軟件會(huì)自動(dòng)推薦一種圖形來(lái)展示這些字段;圖表可以在儀表盤(pán)中自由擺放,形成圖文結(jié)合的視圖。這些視圖可以是一表多圖、一圖多表、多表多圖的表現(xiàn)形式。同時(shí),還支持圖表的動(dòng)態(tài)播放功能;友好的數(shù)據(jù)可視化界面,內(nèi)置地圖、計(jì)算公式、函數(shù)以及下鉆穿透功能,用戶(hù)可以自主創(chuàng)建圖表等。BIServer可以提供適合每種用戶(hù)的功能,讓組織中的每個(gè)人都能夠查看和理解數(shù)據(jù)。這其中既有希望使用已發(fā)布儀表板進(jìn)行數(shù)據(jù)驅(qū)動(dòng)型決策的非固定用戶(hù),也有希望使用Web制作功能來(lái)根據(jù)已發(fā)布數(shù)據(jù)源提出新問(wèn)題的數(shù)據(jù)愛(ài)好者,甚至有希望創(chuàng)建自己的可視化和數(shù)據(jù)源并與組織中其他成員共享這些內(nèi)容的數(shù)據(jù)行家。3.靈活的部署靈活的部署適用于各種企業(yè)環(huán)境,支持門(mén)戶(hù)、iPad和各種瀏覽器,用BIDesktop可以將分析結(jié)果發(fā)布到BIServer上與同事進(jìn)行交流和分享。同事也可以以極快的速度用瀏覽器和移動(dòng)終端來(lái)處理業(yè)務(wù)人員所分享的數(shù)據(jù)源和分析結(jié)果。如各種版本的瀏覽器、Android或IOS系統(tǒng)的平板及移動(dòng)手機(jī)。無(wú)論是將數(shù)據(jù)存放在本地還是云端,BIServer都能讓客戶(hù)靈活集成到現(xiàn)有的數(shù)據(jù)基礎(chǔ)架構(gòu)中。在本地的Windows或Linux系統(tǒng)上安裝BIServer,可在防火墻保護(hù)下實(shí)現(xiàn)最佳控制。借助AWS、Azure或GoogleCloudPlatform實(shí)現(xiàn)公有云部署,從而利用現(xiàn)有云端投資。BI支持?jǐn)?shù)據(jù)的實(shí)時(shí)定時(shí)自動(dòng)刷新業(yè)務(wù)人員在儀表盤(pán)的界面模式固定好后,若數(shù)據(jù)源中的數(shù)據(jù)有增加、刪減、修改等情況,可通過(guò)客戶(hù)端和Server對(duì)數(shù)據(jù)進(jìn)行更新,儀表盤(pán)在每次打開(kāi)后可以自動(dòng)實(shí)時(shí)刷新界面以展示變動(dòng)后的最新數(shù)據(jù)。BI支持快速實(shí)現(xiàn)系統(tǒng)集成客戶(hù)可以將BIServer中的交互式視圖嵌入到網(wǎng)頁(yè)、博客、wiki、Web應(yīng)用程序和Intranet門(mén)戶(hù)中。嵌入式視圖會(huì)隨著基礎(chǔ)數(shù)據(jù)的變化或工作簿在服務(wù)器上的更新而更新。嵌入的視圖遵守服務(wù)器上使用的相同許可和權(quán)限限制。客戶(hù)可以將分析技術(shù)部署到員工、客戶(hù)、合作伙伴和供應(yīng)商需要的地方,在現(xiàn)有的商業(yè)門(mén)戶(hù)中嵌入交互式儀表板,包括Salesforce、SharePoint和Jive等應(yīng)用程序。BI支持訂閱式郵件分發(fā)BIServer上打開(kāi)視圖時(shí),如果該視圖的右上角有一個(gè)訂閱圖標(biāo),則表示用戶(hù)的管理員已為站點(diǎn)配置了訂閱??梢詥螕舸诵欧鈦?lái)選擇用于訂閱視圖的選項(xiàng)。這意味著會(huì)定期自動(dòng)向用戶(hù)的電子郵件帳戶(hù)中發(fā)送視圖的快照,而查看人員不必登錄BIServer就可在郵箱中查看視圖快照。用戶(hù)也可以選擇在一封電子郵件中接收工作簿中的每個(gè)視圖,或者取消訂閱不再想要接收的視圖。4.大數(shù)據(jù)分析BI支持海量數(shù)據(jù),在普通硬件條件下,百萬(wàn)級(jí)數(shù)據(jù)響應(yīng)時(shí)間為秒級(jí)。5.有效管控集中管理所有元數(shù)據(jù)和安全規(guī)則。為用戶(hù)提供精心整理的共享數(shù)據(jù)源。了解使用情況以?xún)?yōu)化環(huán)境。恰當(dāng)平衡用戶(hù)靈活性和掌控力。無(wú)論使用的是ActiveDirectory、Kerberos、OAuth還是其他標(biāo)準(zhǔn),BI都可與客戶(hù)的現(xiàn)有安全協(xié)議無(wú)縫集成。管理用戶(hù)級(jí)別和組級(jí)別的身份驗(yàn)證。采用傳遞式數(shù)據(jù)連接權(quán)限和行級(jí)篩選,維護(hù)數(shù)據(jù)庫(kù)的安全。利用多租戶(hù)選項(xiàng)和細(xì)粒度的權(quán)限控制,保證用戶(hù)和內(nèi)容的安全。BI是一個(gè)現(xiàn)代企業(yè)分析數(shù)據(jù)湖,可在管控之下提供大規(guī)模自助式分析功能。安全性是數(shù)據(jù)和內(nèi)容管控策略的重中之重。BIServer提供全面的功能和深入的集成,幫助應(yīng)對(duì)企業(yè)安全的方方面面。BI可幫助組織為所有用戶(hù)提供受信任的數(shù)據(jù)源,以便他們使用適當(dāng)數(shù)據(jù)快速作出正確決策。隨著單一集中EDW的前景日益衰落,以及云技術(shù)推動(dòng)下數(shù)據(jù)量的持續(xù)加速增長(zhǎng),在所有不同數(shù)據(jù)湖之間實(shí)現(xiàn)一致的安全性對(duì)企業(yè)至關(guān)重要。1

身份驗(yàn)證BIServer支持行業(yè)標(biāo)準(zhǔn)身份驗(yàn)證,包括ActiveDirectory、Kerberos、OpenIdConnect、SAML、受信任票證和證書(shū)。BIServer還具備自己的內(nèi)置用戶(hù)身份服務(wù)“本地身份驗(yàn)證”。BIServer會(huì)為系統(tǒng)中的每位指定用戶(hù)創(chuàng)建并維護(hù)一個(gè)帳戶(hù),該帳戶(hù)在多個(gè)會(huì)話間保留,實(shí)現(xiàn)一致的個(gè)人化體驗(yàn)。此外,作者和發(fā)布者可在其發(fā)布的視圖中使用服務(wù)器范圍的身份信息,以控制其他用戶(hù)可以查看和下載哪些數(shù)據(jù)。2

授權(quán)BIServer角色和權(quán)限為管理員提供細(xì)化控制,以便控制用戶(hù)可以訪問(wèn)哪些數(shù)據(jù)、內(nèi)容和對(duì)象,以及用戶(hù)或群組可對(duì)該內(nèi)容執(zhí)行什么操作??蛻?hù)還可以控制誰(shuí)能添加注釋?zhuān)l(shuí)能保存工作簿,誰(shuí)能連接到特定數(shù)據(jù)源。憑借群組權(quán)限,客戶(hù)可以一次性管理多名用戶(hù)。也可在工作簿中處理用戶(hù)和群組角色,以便篩選和控制儀表板中的數(shù)據(jù)。這意味著,客戶(hù)只需為所有區(qū)域、客戶(hù)或團(tuán)隊(duì)維護(hù)單個(gè)儀表板,而每個(gè)區(qū)域、客戶(hù)或團(tuán)隊(duì)只會(huì)看到各自的數(shù)據(jù)。3

數(shù)據(jù)安全無(wú)論是銀行、學(xué)校、醫(yī)院還是政府機(jī)構(gòu),都承擔(dān)不起因喪失數(shù)據(jù)資產(chǎn)控制權(quán)而帶來(lái)的風(fēng)險(xiǎn)。BI提供了許多選項(xiàng)來(lái)幫助客戶(hù)實(shí)現(xiàn)安全目標(biāo)??蛻?hù)可以選擇僅基于數(shù)據(jù)庫(kù)身份驗(yàn)證來(lái)實(shí)現(xiàn)安全性,或者僅在BI中實(shí)現(xiàn)安全性,還可以選擇混合安全模型,其中BIServer內(nèi)的用戶(hù)信息對(duì)應(yīng)于基礎(chǔ)數(shù)據(jù)庫(kù)中的數(shù)據(jù)元素。BIOnline加強(qiáng)了現(xiàn)有的數(shù)據(jù)安全策略,并符合SOX、SOC和ISAE行業(yè)合規(guī)標(biāo)準(zhǔn)。4

網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全設(shè)備有助于防止不受信任的網(wǎng)絡(luò)和Internet訪問(wèn)客戶(hù)的BIServer本地部署。當(dāng)對(duì)BIServer的訪問(wèn)不受限制時(shí),傳輸安全性就變得更為重要。BIServer使用SSL/TLS的強(qiáng)大安全功能,對(duì)從客戶(hù)端到BIServer,還有從BIServer到數(shù)據(jù)庫(kù)的傳輸進(jìn)行加密。BI可幫助客戶(hù)保護(hù)來(lái)自外部的數(shù)據(jù)、用戶(hù)和內(nèi)容。3.2.6其它特性

監(jiān)視和管理BI數(shù)據(jù)湖易于部署、擴(kuò)展和監(jiān)視。輕松跟蹤和管理內(nèi)容、用戶(hù)、許可證和性能。快速管理數(shù)據(jù)源和內(nèi)容的權(quán)限,直觀監(jiān)視使用情況。隨時(shí)可以進(jìn)行縱向、橫向擴(kuò)展。

可靠性先進(jìn)的高可用性、穩(wěn)健的故障轉(zhuǎn)移和快速的災(zāi)難恢復(fù),就是全球各大公司選擇使用BI進(jìn)行企業(yè)分析的原因。正確選擇能夠?qū)崿F(xiàn)企業(yè)SLA的冗余量。

可擴(kuò)展性根據(jù)當(dāng)前需求調(diào)整分析規(guī)模,然后隨著用量的增長(zhǎng)輕松進(jìn)行橫向或縱向擴(kuò)展。BI架構(gòu)可以在不停機(jī)的情況下實(shí)現(xiàn)無(wú)縫擴(kuò)展。輕松轉(zhuǎn)換到更新的硬件或添加更多節(jié)點(diǎn),以增加冗余量和容量。3.2.7報(bào)表平臺(tái)具體實(shí)施步驟:在本項(xiàng)目中,我們將采用BI標(biāo)準(zhǔn)實(shí)施方法論開(kāi)展項(xiàng)目實(shí)施工作,明確定義每個(gè)階段中xx業(yè)務(wù)用戶(hù)、技術(shù)團(tuán)隊(duì)以及科技實(shí)施團(tuán)隊(duì)的參與程度、工作內(nèi)容/職責(zé)和交付物。項(xiàng)目準(zhǔn)備主要任務(wù):確立雙方溝通、交流機(jī)制,制定項(xiàng)目管理文檔BI操作、開(kāi)發(fā)培訓(xùn)明確項(xiàng)目實(shí)施計(jì)劃細(xì)則明確項(xiàng)目資源計(jì)劃(業(yè)務(wù)用戶(hù))參與人員:xx業(yè)務(wù)團(tuán)隊(duì)了解BI項(xiàng)目開(kāi)發(fā)特點(diǎn)定義項(xiàng)目實(shí)施涉及參與人員(需求提供者、業(yè)務(wù)說(shuō)明者)協(xié)助科技完成資源計(jì)劃參加BI操作、開(kāi)發(fā)培訓(xùn)xx技術(shù)團(tuán)隊(duì)協(xié)助完成培訓(xùn)組織工作參加BI操作、開(kāi)發(fā)培訓(xùn)確保BI項(xiàng)目開(kāi)發(fā)環(huán)境、相關(guān)設(shè)施按時(shí)到位協(xié)助科技完成資源計(jì)劃科技實(shí)施團(tuán)隊(duì)提交BI開(kāi)發(fā)環(huán)境需求清單進(jìn)行BI操作、開(kāi)發(fā)培訓(xùn)制定項(xiàng)目實(shí)施計(jì)劃細(xì)則提交項(xiàng)目資源計(jì)劃交付件:《項(xiàng)目實(shí)施計(jì)劃(明細(xì))》《項(xiàng)目管理文檔模板》《BI培訓(xùn)資料》需求調(diào)研藍(lán)圖設(shè)計(jì)主要任務(wù):按業(yè)務(wù)需求設(shè)計(jì)分析應(yīng)用主題明確主題模型與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)接口定義參與人員:xx業(yè)務(wù)團(tuán)隊(duì)參與業(yè)務(wù)藍(lán)圖設(shè)計(jì)討論確認(rèn)業(yè)務(wù)藍(lán)圖設(shè)計(jì)xx技術(shù)團(tuán)隊(duì)參與技術(shù)藍(lán)圖設(shè)計(jì)討論確認(rèn)技術(shù)藍(lán)圖設(shè)計(jì)科技實(shí)施團(tuán)隊(duì)進(jìn)行業(yè)務(wù)藍(lán)圖設(shè)計(jì)進(jìn)行技術(shù)藍(lán)圖設(shè)計(jì)交付件:《業(yè)務(wù)藍(lán)圖設(shè)計(jì)說(shuō)明書(shū)》《技術(shù)藍(lán)圖設(shè)計(jì)說(shuō)明書(shū)》業(yè)務(wù)藍(lán)圖模型系統(tǒng)實(shí)施步驟主要任務(wù):搭建BI開(kāi)發(fā)環(huán)境構(gòu)建和開(kāi)發(fā)BI數(shù)據(jù)模型構(gòu)建和開(kāi)發(fā)BI分析應(yīng)用參與人員:xx業(yè)務(wù)團(tuán)隊(duì)參與每周項(xiàng)目例會(huì),提出調(diào)整意見(jiàn)xx技術(shù)團(tuán)隊(duì)確保系統(tǒng)環(huán)境、網(wǎng)絡(luò)通訊可用參與分析應(yīng)用開(kāi)發(fā)討論科技實(shí)施團(tuán)隊(duì)按技術(shù)藍(lán)圖設(shè)計(jì)搭建系統(tǒng)環(huán)境按技術(shù)藍(lán)圖開(kāi)發(fā)BI數(shù)據(jù)模型按技術(shù)藍(lán)圖開(kāi)發(fā)BI分析應(yīng)用交付件:BI分析應(yīng)用模型3.3數(shù)據(jù)倉(cāng)庫(kù)整體方案3.3.1數(shù)倉(cāng)的定義數(shù)據(jù)倉(cāng)庫(kù)是決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)研究和解決從數(shù)據(jù)庫(kù)中獲取信息的問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。1、數(shù)據(jù)倉(cāng)庫(kù)是面向主題的;操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。2、數(shù)據(jù)倉(cāng)庫(kù)是集成的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來(lái)自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái),進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢(xún),一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢(xún)操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到當(dāng)前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。3、數(shù)據(jù)倉(cāng)庫(kù)是不可更新的,數(shù)據(jù)倉(cāng)庫(kù)主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢(xún);4、數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿(mǎn)足商業(yè)商務(wù)處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變。5、匯總的。操作性數(shù)據(jù)映射成決策可用的格式。6、大容量。時(shí)間序列數(shù)據(jù)集合通常都非常大。7、非規(guī)范化的,DW數(shù)據(jù)可以是而且經(jīng)常是冗余的。8、元數(shù)據(jù)。將描述數(shù)據(jù)的數(shù)據(jù)保存起來(lái)。9、數(shù)據(jù)源。數(shù)據(jù)來(lái)自?xún)?nèi)部的和外部的非集成操作系統(tǒng)。3.3.2數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù),是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫(kù)”。數(shù)據(jù)倉(cāng)庫(kù)的方案建設(shè)的目的,是為前端查詢(xún)和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲(chǔ)也較大。為了更好地為前端應(yīng)用服務(wù),數(shù)據(jù)倉(cāng)庫(kù)往往有如下幾點(diǎn)特點(diǎn):1.效率足夠高。數(shù)據(jù)倉(cāng)庫(kù)的分析數(shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時(shí)甚至12小時(shí)內(nèi),客戶(hù)能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,設(shè)計(jì)不好2.數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉(cāng)庫(kù)所提供的各種信息,肯定要準(zhǔn)確的數(shù)據(jù),但由于數(shù)據(jù)倉(cāng)庫(kù)流程通常分為多個(gè)步驟,包括數(shù)據(jù)清洗,裝載,查詢(xún),展現(xiàn)等等,復(fù)雜的架構(gòu)會(huì)更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),都可以導(dǎo)致數(shù)據(jù)失真,客戶(hù)看到錯(cuò)誤的信息就可能導(dǎo)致分析出錯(cuò)誤的決策,造成損失,而不是效益。3.擴(kuò)展性。之所以有的大型數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)設(shè)計(jì)復(fù)雜,是因?yàn)榭紤]到了未來(lái)3-5年的擴(kuò)展性,這樣的話,未來(lái)不用太快花錢(qián)去重建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),就能很穩(wěn)定運(yùn)行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉(cāng)庫(kù)方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運(yùn)行不起來(lái)了。從上面的介紹中可以看出,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可以將企業(yè)多年積累的數(shù)據(jù)喚醒,不僅為企業(yè)管理好這些海量數(shù)據(jù),而且挖掘數(shù)據(jù)潛在的價(jià)值,從而成為通信企業(yè)運(yùn)營(yíng)維護(hù)系統(tǒng)的亮點(diǎn)之一。正因?yàn)槿绱?,廣義的說(shuō),基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)由三個(gè)部件組成:數(shù)據(jù)倉(cāng)庫(kù)技術(shù),聯(lián)機(jī)分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù),其中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是系統(tǒng)的核心,在這個(gè)系列后面的文章里,將圍繞數(shù)據(jù)倉(cāng)庫(kù)技術(shù),介紹現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)的主要技術(shù)和數(shù)據(jù)處理的主要步驟,討論在通信運(yùn)營(yíng)維護(hù)系統(tǒng)中如何使用這些技術(shù)為運(yùn)營(yíng)維護(hù)帶來(lái)幫助。4.面向主題操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。主題是與傳統(tǒng)數(shù)據(jù)庫(kù)的面向應(yīng)用相對(duì)應(yīng)的,是一個(gè)抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類(lèi)并進(jìn)行分析利用的抽象。每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。數(shù)據(jù)倉(cāng)庫(kù)排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、不可更新的、隨時(shí)間的變化而不斷變化的,這些特點(diǎn)決定了數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)設(shè)計(jì)不能采用同開(kāi)發(fā)傳統(tǒng)的OLTP數(shù)據(jù)庫(kù)一樣的設(shè)計(jì)方法。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)是數(shù)據(jù)驅(qū)動(dòng)的,這是因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)是在現(xiàn)存數(shù)據(jù)庫(kù)系統(tǒng)基礎(chǔ)上進(jìn)行開(kāi)發(fā),它著眼于有效地抽取、綜合、集成和挖掘已有數(shù)據(jù)庫(kù)的數(shù)據(jù)資源,服務(wù)于企業(yè)高層領(lǐng)導(dǎo)管理決策分析的需要?;诳萍荚跀?shù)據(jù)倉(cāng)庫(kù)建設(shè)領(lǐng)域的實(shí)施經(jīng)驗(yàn),我們將數(shù)據(jù)倉(cāng)庫(kù)實(shí)施的具體步驟分為兩個(gè)階段、12個(gè)步驟:3.3.2數(shù)據(jù)倉(cāng)庫(kù)具體實(shí)施步驟1、項(xiàng)目前期準(zhǔn)備參與人員:項(xiàng)目管理委員會(huì)成員xx業(yè)務(wù)團(tuán)隊(duì)xx技術(shù)團(tuán)隊(duì)科技實(shí)施團(tuán)隊(duì)主要任務(wù):項(xiàng)目啟動(dòng)會(huì)議(Kick-offMeeting)確認(rèn)項(xiàng)目范圍和主要目標(biāo)確認(rèn)項(xiàng)目階段性驗(yàn)收及總體驗(yàn)收標(biāo)準(zhǔn)確認(rèn)項(xiàng)目實(shí)施計(jì)劃成立項(xiàng)目組確定各項(xiàng)目小組的成員及各自的工作職責(zé)確定各項(xiàng)目小組的階段性工作目標(biāo)確定知識(shí)轉(zhuǎn)移計(jì)劃確定服務(wù)流程及方式交付件:《項(xiàng)目組織機(jī)構(gòu)及成員組成》《項(xiàng)目成員角色和職責(zé)》《項(xiàng)目實(shí)施計(jì)劃書(shū)》2、業(yè)務(wù)探索(BusinessDiscovery)參與人員:xx業(yè)務(wù)團(tuán)隊(duì)xx技術(shù)團(tuán)隊(duì)科技實(shí)施團(tuán)隊(duì)主要任務(wù):確定重點(diǎn)用戶(hù)與數(shù)據(jù)源用戶(hù)需求調(diào)研與確認(rèn)數(shù)據(jù)來(lái)源確認(rèn)用戶(hù)需求和數(shù)據(jù)源的篩選、分析交付件:《業(yè)務(wù)需求說(shuō)明書(shū)B(niǎo)RL(BusinessRequirementList)》《概念數(shù)據(jù)模型CDM(ConceptualDataModel)》3、信息探索(InformationDiscovery)參與人員:xx技術(shù)團(tuán)隊(duì)科技實(shí)施團(tuán)隊(duì)主要任務(wù):分析用戶(hù)需求數(shù)據(jù)源分析系統(tǒng)安全性設(shè)計(jì)系統(tǒng)命名規(guī)范設(shè)計(jì)交付件:《功能需求列表FRL(FunctionRequirementList)》《系統(tǒng)安全性設(shè)計(jì)說(shuō)明書(shū)》《系統(tǒng)命名規(guī)范說(shuō)明書(shū)》《數(shù)據(jù)質(zhì)量分析》4、邏輯數(shù)據(jù)模型設(shè)計(jì)參與人員:xx技術(shù)團(tuán)隊(duì)科技實(shí)施團(tuán)隊(duì)主要任務(wù):進(jìn)行原始數(shù)據(jù)分析建立實(shí)體模型建立實(shí)體間依賴(lài)關(guān)系完善并填入所有屬性建立數(shù)據(jù)庫(kù)邏輯模型交付件:數(shù)據(jù)倉(cāng)庫(kù)邏輯數(shù)據(jù)模型《邏輯數(shù)據(jù)模型說(shuō)明書(shū)》邏輯數(shù)據(jù)模型是用來(lái)發(fā)現(xiàn)、記錄和溝通業(yè)務(wù)的詳細(xì)“藍(lán)圖”,其具備以下特征:基于概念數(shù)據(jù)模型(CDM)由一系列表和實(shí)體詳細(xì)描述組成通用的業(yè)務(wù)語(yǔ)言便于業(yè)務(wù)與業(yè)務(wù)之間的功能理解集成當(dāng)前和未來(lái)數(shù)據(jù)的藍(lán)圖獨(dú)立于技術(shù)為物理數(shù)據(jù)庫(kù)設(shè)計(jì)做準(zhǔn)備是IT人員和業(yè)務(wù)人員溝通的工具5、系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)參與人員:xx業(yè)務(wù)團(tuán)隊(duì)xx技術(shù)團(tuán)隊(duì)科技實(shí)施團(tuán)隊(duì)主要任務(wù):對(duì)業(yè)務(wù)、技術(shù)環(huán)境及企業(yè)文化的充分了解,從技術(shù)、組織、教育和支持等方面對(duì)系統(tǒng)進(jìn)行全面評(píng)估定義業(yè)務(wù)驅(qū)動(dòng)力定義數(shù)據(jù)倉(cāng)庫(kù)成功的關(guān)鍵因素定義數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施原則對(duì)系統(tǒng)體系結(jié)構(gòu)各個(gè)組件進(jìn)行詳細(xì)設(shè)計(jì)交付件:《系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)說(shuō)明書(shū)》6、物理數(shù)據(jù)庫(kù)設(shè)計(jì)參與人員:xx技術(shù)團(tuán)隊(duì)科技實(shí)施團(tuán)隊(duì)主要任務(wù):轉(zhuǎn)換邏輯數(shù)據(jù)模型為物理數(shù)據(jù)模型定義主索引、次索引非正規(guī)化處理(Denormalizations)物理非正規(guī)化派生數(shù)據(jù)(DerivedData)匯總表(SummaryTables)重復(fù)的Groups(RepeatingGroups)多物理表(MultiplePhysicalTables)預(yù)連接(Pre-joins)子實(shí)體(Sub-entities)邏輯非正規(guī)化視圖(Views)邏輯星型結(jié)構(gòu)(LogicalStarSchemas)物理非正規(guī)化對(duì)模型的靈活性會(huì)有影響邏輯非正規(guī)化是一個(gè)優(yōu)選的方案數(shù)據(jù)庫(kù)建立第三范式–3NF星型結(jié)構(gòu)雪花結(jié)構(gòu)設(shè)計(jì)優(yōu)化數(shù)據(jù)庫(kù)功能測(cè)試交付件:物理數(shù)據(jù)模型(PDM)《物理數(shù)據(jù)模型說(shuō)明書(shū)》《數(shù)據(jù)庫(kù)描述語(yǔ)言DDL》3.4數(shù)據(jù)治理整體方案Navigator是唯一原生在Hadoop生態(tài)系統(tǒng)上的并提供全面數(shù)據(jù)管理服務(wù)的一套解決方案。該產(chǎn)品通過(guò)統(tǒng)一的用戶(hù)接口可以有效協(xié)助系統(tǒng)管理員、數(shù)據(jù)經(jīng)理以及分析師對(duì)數(shù)據(jù)湖中各式各樣的數(shù)據(jù)進(jìn)行管治、分類(lèi)與探索。大體上而言,Navigator提供了3類(lèi)最核心的功能:審計(jì)與訪問(wèn)管理:維護(hù)完整的數(shù)據(jù)訪問(wèn)、數(shù)據(jù)操作審計(jì)歷史以滿(mǎn)足合規(guī)需求。同時(shí)幫助系統(tǒng)管理員快速驗(yàn)證用戶(hù)/用戶(hù)組在Hadoop集群中數(shù)據(jù)集合的訪問(wèn)權(quán)限(permission)正確性;權(quán)限視圖查看用戶(hù)/用戶(hù)組對(duì)HDFS、Impala、Hive和HBase的訪問(wèn)權(quán)限以保證對(duì)隱私及合規(guī)的正確配置審計(jì)配置對(duì)HDFS

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論