版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)可視化平臺建設方案目錄TOC\o"1-5"\h\z\u第1章 前言 0第2章 XXX大數(shù)據(jù)現(xiàn)狀分析 12.1、 基本現(xiàn)狀 12.2、 總體現(xiàn)狀 12.2.1、 行領導 12.2.2、 業(yè)務人員 12.3、 數(shù)據(jù)架構方面 22.3.1、 業(yè)務表現(xiàn) 22.3.2、 問題 22.4、 數(shù)據(jù)應用難題 32.4.1、 缺少統(tǒng)一的應用分析標準 、 業(yè)務表現(xiàn) 、 問題 32.4.2、 缺少統(tǒng)一的基礎數(shù)據(jù)標準 、 業(yè)務表現(xiàn) 、 問題 52.4.3、 缺少反饋機制 、 業(yè)務表現(xiàn) 、 問題 62.5、 數(shù)據(jù)應用現(xiàn)狀總結 6第3章 XXX大數(shù)據(jù)治理階段目標 03.1、 數(shù)據(jù)平臺邏輯架構 13.2、 數(shù)據(jù)平臺部署架構 13.3、 建設目標 23.3.1、 建設大數(shù)據(jù)基礎設施,完善全行數(shù)據(jù)體系架構 23.3.2、 開發(fā)大數(shù)據(jù)資源,支撐全行經(jīng)營管理創(chuàng)新 23.3.3、 培養(yǎng)大數(shù)據(jù)人才隊伍,建立大數(shù)據(jù)分析能力 23.4、 數(shù)據(jù)治理目標 33.4.1、 發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,推動大數(shù)據(jù)治理工作的開展,建立數(shù)據(jù)質(zhì)量檢核系統(tǒng) 33.4.2、 分析、梳理業(yè)務系統(tǒng),推動數(shù)據(jù)標準的建立,統(tǒng)一全行口徑 33.4.3、 建立數(shù)據(jù)倉庫模型框架,優(yōu)化我行數(shù)據(jù)架構,建設穩(wěn)定、可擴展的數(shù)據(jù)倉庫 33.5、 目標建設方法 43.5.1、 建設內(nèi)容 43.5.2、 工作階段 、 源系統(tǒng)分析階段 .1、 工作內(nèi)容 .2、 工作依據(jù) .3、 工作重點 、 數(shù)據(jù)質(zhì)量問題檢查階段 .1、 工作內(nèi)容 .2、 工作依據(jù) .3、 工作重點 、 數(shù)據(jù)質(zhì)量問題分析階段 .1、 工作內(nèi)容 .2、 工作依據(jù) .3、 工作重點 63.6、 預期建設效益 63.6.1、 實現(xiàn)數(shù)據(jù)共享 63.6.2、 加強業(yè)務合作 73.6.3、 促進業(yè)務創(chuàng)新 73.6.4、 提升建設效率 73.6.5、 改善數(shù)據(jù)質(zhì)量 7第4章 XXX大數(shù)據(jù)建設總體規(guī)劃 04.1、 功能需求 04.1.1、 個人和企業(yè)畫像 04.1.2、 實現(xiàn)精準營銷 24.1.3、 為金融業(yè)提供風險管控 34.1.4、 運營優(yōu)化 44.2、 XXX大數(shù)據(jù)應用架構遠景 44.2.1、 XXX需要從“坐商”轉(zhuǎn)型為“行商” 54.2.2、 客戶下沉 54.2.3、 與“互聯(lián)網(wǎng)金融”進行差異化競爭 54.3、 XXX大數(shù)據(jù)平臺應用架構 64.4、 XXX大數(shù)據(jù)平臺架構 74.5、 XXX大數(shù)據(jù)支撐平臺 74.5.1、 大數(shù)據(jù)虛擬化平臺 、 設計原則 、 虛擬化平臺設計 、 硬件基礎設施層 、 虛擬化存儲 、 虛擬化計算 、 平臺管理 、 數(shù)據(jù)存儲系統(tǒng)設計 、 高性能SAN存儲系統(tǒng) 、 存儲方案優(yōu)勢 154.5.2、 大數(shù)據(jù)分析管理平臺 164.6、 大數(shù)據(jù)分析處理平臺 164.6.1、 分布式內(nèi)存分析引擎 174.6.2、 數(shù)據(jù)挖掘引擎 174.6.3、 分布式實時在線數(shù)據(jù)處理引擎 184.6.4、 流處理引擎 184.6.5、 大數(shù)據(jù)分析支撐系統(tǒng) 184.6.6、 大數(shù)據(jù)分析節(jié)點群 244.6.7、 軟硬件配置 254.6.8、 虛擬化平臺關鍵特性 274.6.9、 虛擬化平臺配置 294.7、 安全保障系統(tǒng) 304.7.1、 設計原則 304.7.2、 總體設計 314.7.3、 物理安全設計 314.7.4、 網(wǎng)絡安全設計 3、 外網(wǎng)邊界安全 3、 網(wǎng)絡基礎設施安全 344.7.5、 主機安全設計 354.7.6、 應用安全設計 354.7.7、 數(shù)據(jù)庫安全設計 364.7.8、 安全制度與人員管理 374.7.9、 安全管理體系建設 374.7.10、 安全運維 384.7.11、 安全人員管理 394.7.12、 技術安全管理 394.7.13、 安全保障系統(tǒng)配置 404.8、 計算機網(wǎng)絡系統(tǒng) 404.8.1、 設計原則 404.8.2、 系統(tǒng)設計 424.8.3、 計算機網(wǎng)絡系統(tǒng)配置 454.9、 基礎支撐軟件 454.9.1、 地理信息軟件 454.9.2、 操作系統(tǒng)軟件 474.9.3、 數(shù)據(jù)庫管理軟件 484.9.4、 機房建設方案 494.9.5、 基礎支撐系統(tǒng)軟硬件配置 52第5章 系統(tǒng)架構設計 565.1、 總體設計目標 565.2、 總體設計原則 565.3、 案例分析建議 585.3.1、 中國聯(lián)通大數(shù)據(jù)平臺 585.3.2、 項目概述 5、 項目實施情況 60、 項目成果 6、 項目意義 685.3.3、 恒豐XXX大數(shù)據(jù)平臺 6 項目概述 6 項目實施情況 7 項目成果 80 項目意義 815.3.4、 華通CDN運營商海量日志采集分析系統(tǒng) 835.3.5、 項目概述 8、 項目實施情況 8、 項目成果 8、 項目意義 895.3.6、 案例總結 905.4、 系統(tǒng)總體架構設計 915.4.1、 總體技術框架 915.4.2、 系統(tǒng)總體邏輯結構 955.4.3、 平臺組件關系 985.4.4、 系統(tǒng)接口設計 1045.4.5、 系統(tǒng)網(wǎng)絡結構 109第6章 系統(tǒng)功能設計 1116.1、 概述 1116.2、 平臺管理功能 1126.2.1、 多應用管理 1126.2.2、 多租戶管理 1166.2.3、 統(tǒng)一運維監(jiān)控 1、 Hadoop集群自動化部署 1、 Hadoop集群性能監(jiān)控 1、 Hadoop集群資源管理 12、 圖形界面方式多租戶管理 12、 系統(tǒng)巡檢信息收集 13、 系統(tǒng)性能跟蹤 13、 與集團運維監(jiān)控平臺對接 1356.2.4、 作業(yè)調(diào)度管理 1396.3、 數(shù)據(jù)管理 1416.3.1、 數(shù)據(jù)管理框架 14、 結構化數(shù)據(jù)管理框架 14、 半/非結構化數(shù)據(jù)管理框架 1436.3.2、 數(shù)據(jù)采集 1446.3.3、 數(shù)據(jù)交換 1476.3.4、 數(shù)據(jù)存儲與管理 14、 數(shù)據(jù)存儲管理功能 15、 數(shù)據(jù)多溫度管理 15、 生命周期管理 15、 多索引模式 15、 多數(shù)據(jù)副本管理 15、 數(shù)據(jù)平衡管理 15、 在線節(jié)點管理 160、 分區(qū)管理 16、 數(shù)據(jù)導入與導出 160、 多級數(shù)據(jù)存儲 161、 多種數(shù)據(jù)類型支持 162、 多種文件格式支持 163、 數(shù)據(jù)自定義標簽管理 174、 數(shù)據(jù)讀寫鎖處理 175、 元數(shù)據(jù)備份 176、 表壓縮 1726.3.5、 數(shù)據(jù)加工清洗 1726.3.6、 數(shù)據(jù)計算 17、 多計算框架支持 17、 并行計算與并行處理能力 17、 PL/SQL存儲過程 180、 分布式事務支持 18、 ACID測試案例 1866.3.7、 數(shù)據(jù)查詢 19、 OLAP函數(shù)支持 19、 分布式Cube 19、 SQL兼容性 200、 SQL功能 2176.4、 數(shù)據(jù)管控 2226.4.1、 主數(shù)據(jù)管理 2226.4.2、 元數(shù)據(jù)管理技術 2246.4.3、 數(shù)據(jù)質(zhì)量 2276.5、 數(shù)據(jù)ETL 2356.6、 數(shù)據(jù)分析與挖掘 2386.6.1、 數(shù)據(jù)分析流程 2416.6.2、 R語言開發(fā)環(huán)境與接口 2426.6.3、 并行化R算法支持 2436.6.4、 可視化R軟件包 2476.6.5、 編程語言支持 2496.6.6、 自然語言處理和文本挖掘 2496.6.7、 實時分析 2506.6.8、 分析管理 25、 需求管理 25、 過程管理 25、 成果管理 2556.6.9、 分析支持 2566.6.10、 指標維護 2566.6.11、 分析流程固化 2576.6.12、 分析結果發(fā)布 2576.6.13、 環(huán)境支持 2576.7、 數(shù)據(jù)展現(xiàn) 2586.7.1、 交互式報表 2606.7.2、 儀表盤 2676.7.3、 即席查詢 2686.7.4、 內(nèi)存分析 2696.7.5、 移動分析 2706.7.6、 電子地圖支持 271第7章 技術要求實現(xiàn) 2727.1、 產(chǎn)品架構 2727.1.1、 基礎構建平臺 2777.1.2、 大數(shù)據(jù)平臺組件功能介紹 27、 TranswarpHadoop分布式文件系統(tǒng) 27、 TranswarpInceptor內(nèi)存分析交互引擎 280、 穩(wěn)定的Spark計算框架 28、 支持Memory+SSD的混合存儲架構 28、 完整SQL功能支持 28、 TranswarpDiscover機器學習引擎 28、 并行化統(tǒng)計算法庫 29、 機器學習并行算法庫 29、 TranswarpHyperbase列式存儲數(shù)據(jù)庫 3000、 智能索引 31、 全局索引 32、 全文索引 33、 索引類型 34、 圖數(shù)據(jù)庫 35、 全文數(shù)據(jù)處理 36、 TranswarpStream數(shù)據(jù)實時處理分析 37、 分布式消息隊列 38、 流式計算引擎 39、 流式SQL執(zhí)行 30、 流式機器學習 3257.1.3、 系統(tǒng)分布式架構 3257.2、 運行環(huán)境支持 3287.2.1、 系統(tǒng)操作支持以及環(huán)境配置 3287.2.2、 與第三方軟件平臺的兼容說明 3297.3、 客戶端支持 3307.3.1、 客戶端支持 3307.3.2、 移動端支持 3317.4、 數(shù)據(jù)支持 3317.5、 集成實現(xiàn) 3337.6、 運維實現(xiàn) 3367.6.1、 運維目標 3367.6.2、 運維服務內(nèi)容 3377.6.3、 運維服務流程 3407.6.4、 運維服務制度規(guī)范 3427.6.5、 應急服務響應措施 3437.6.6、 平臺監(jiān)控兼容 3447.6.7、 資源管理 3457.6.8、 系統(tǒng)升級 3487.6.9、 系統(tǒng)監(jiān)控平臺功能 34、 性能監(jiān)控 34、 一鍵式收集 35、 系統(tǒng)資源監(jiān)控圖形化 35、 服務進程監(jiān)控 35、 消息隊列監(jiān)控 35、 故障報警 35、 告警以及統(tǒng)巡檢以及信息收集 3567.7、 平臺性能 3587.7.1、 集群切換 35、 主集群異常及上層業(yè)務切換 35、 從集群異常及上層業(yè)務切換 3597.7.2、 節(jié)點切換 3607.7.3、 性能調(diào)優(yōu) 36、 圖形化性能監(jiān)控 36、 圖形化調(diào)優(yōu)工具 36、 調(diào)優(yōu)策略 3667.7.4、 并行化高性能計算 3677.7.5、 計算性能線性擴展 3707.8、 平臺擴展性 3727.9、 可靠性和可用性 3747.9.1、 單點故障消除 3747.9.2、 容災備份優(yōu)化 37、 擴容、備份、恢復機制 37、 集群數(shù)據(jù)容災優(yōu)化 37、 數(shù)據(jù)完整性保障和方案 37、 主集群異常及上層業(yè)務切換 380、 從集群異常及上層業(yè)務切換 3807.9.3、 系統(tǒng)容錯性 3817.10、 開放性和兼容性 3837.10.1、 高度支持開源 38、 PMC-HaoyuanLi 38、 Committor-AndrewXia 390、 Committor-ShaneHuang 39、 Committor-ZhihongYu 39、 Committor-JasonDai 39、 Committor-WeiXue 4007.10.2、 操作系統(tǒng)支持以及軟件環(huán)境配置 4017.10.3、 兼容性與集成能力 4027.11、 安全性 4047.11.1、 身份鑒別 4047.11.2、 訪問控制 4057.11.3、 安全通訊 4137.12、 核心產(chǎn)品優(yōu)勢 4137.12.1、 高速運算、統(tǒng)計分析和精確查詢 4、 Spark引擎結合分布式內(nèi)存列存提供高性能計算 4、 多種索引支持與智能索引 4157.12.2、 有效的資源利用 4167.12.3、 高并發(fā)、低延遲性能優(yōu)化 4177.12.4、 計算資源有效管控 4187.12.5、 API設計和開發(fā)工具支持 4207.12.6、 友好的運維監(jiān)控界面 4227.12.7、 擴容、備份、恢復機制 4277.12.8、 集群自動負載均衡 4297.12.9、 計算能力擴展 4297.13、 自主研發(fā)技術優(yōu)勢 4307.13.1、 高穩(wěn)定、高效的計算引擎Inceptor 4307.13.2、 完整的SQL編譯引擎 4327.13.3、 高性能的SQL分析引擎 4337.13.4、 SQL統(tǒng)計分析能力 4337.13.5、 完整的CURD功能 4357.13.6、 Hyperbase高效的檢索能力 4367.13.7、 基于Hyperbase和SQL引擎的高并發(fā)分布式事務 4387.13.8、 Hyperbase非結構化數(shù)據(jù)的支持 4407.13.9、 機器學習與數(shù)據(jù)挖掘 4407.13.10、 TranswarpStream 4457.13.11、 內(nèi)存/SSD/磁盤混合存儲 4487.13.12、 MR/Spark/流處理統(tǒng)一平臺 4507.13.13、 多租戶支持能力 4527.13.14、 多租戶安全功能 4537.13.15、 標準JDBC與ODBC接口 454第8章 系統(tǒng)性能指標和測試結果說明 4558.1、 性能測試報告 4558.1.1、 測試目標 4558.1.2、 測試內(nèi)容 4558.1.3、 測試環(huán)境 4568.1.4、 測試過程和結果 4578.2、 TPC-DS測試報告 4608.2.1、 測試目標 4608.2.2、 測試內(nèi)容 4618.2.3、 測試環(huán)境 4638.2.4、 測試過程和結果 4648.3、 量收遷移驗證性測試報告 4658.3.1、 測試目標 4658.3.2、 測試內(nèi)容 4658.3.3、 測試環(huán)境 4668.3.4、 串行執(zhí)行情況 4678.3.5、 并行執(zhí)行情況 4698.3.6、 生產(chǎn)表數(shù)據(jù)規(guī)模 4718.3.7、 測試結果 4758.4、 某XXX性能測試報告 4758.4.1、 測試目標 4758.4.2、 測試內(nèi)容 4758.4.3、 測試環(huán)境 4768.4.4、 測試過程和結果 477第9章 系統(tǒng)配置方案 4919.1、 硬件系統(tǒng)配置建議 4919.1.1、 基礎Hadoop平臺集群配置規(guī)劃 4919.1.2、 數(shù)據(jù)倉庫集群配置規(guī)劃 4949.1.3、 集群規(guī)模綜述 4969.1.4、 開發(fā)集群配置建議 4979.1.5、 測試集群配置建議 4989.2、 軟件配置建議 4989.3、 軟硬件配置總表 5009.4、 網(wǎng)絡拓撲 503第10章 系統(tǒng)測試 50410.1、 系統(tǒng)測試方法 50410.2、 系統(tǒng)測試階段 50510.3、 系統(tǒng)測試相關提交物 507第11章 項目實施 50811.1、 項目實施總體目標 50811.2、 項目管理 50911.3、 業(yè)務確認 51011.4、 數(shù)據(jù)調(diào)研 51111.5、 系統(tǒng)設計階段 51211.6、 集成部署階段 51311.7、 ETL過程設計 51311.8、 ETL開發(fā)與測試 51511.9、 系統(tǒng)開發(fā)階段 51611.10、 系統(tǒng)測試階段 51611.11、 系統(tǒng)上線及驗收 51811.12、 提交物 52111.13、 系統(tǒng)的交接與知識轉(zhuǎn)移 523前言隨著信息化程度的加深,以及移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的崛起,人們產(chǎn)生的數(shù)據(jù)急劇膨脹,傳統(tǒng)的數(shù)據(jù)處理技術難以支撐數(shù)據(jù)大量的增長和處理能力。經(jīng)過近幾年的發(fā)展,大數(shù)據(jù)技術逐步成熟,可以幫助企業(yè)整合更多的數(shù)據(jù),從海量數(shù)據(jù)中挖掘出隱藏價值。大數(shù)據(jù)已經(jīng)從“概念”走向“價值”,逐步進入實施驗證階段。人們越來越期望能實現(xiàn)海量數(shù)據(jù)的處理,從數(shù)據(jù)中發(fā)現(xiàn)價值。數(shù)據(jù)越來越成為一種重要的資產(chǎn)。。我行已深刻認識到數(shù)據(jù)戰(zhàn)略對企業(yè)運營以及企業(yè)未來發(fā)展方向的重要性。互聯(lián)網(wǎng)金融的本質(zhì)是金融,核心是數(shù)據(jù),載體是平臺,關鍵是客戶體驗,發(fā)展趨勢是互聯(lián)網(wǎng)與金融的深度融合,要提升大數(shù)據(jù)貢獻度。因此,要深化互聯(lián)網(wǎng)思維理念,穩(wěn)步推進互聯(lián)網(wǎng)金融產(chǎn)品和服務模式創(chuàng)新,積極利用移動互聯(lián)網(wǎng)、大數(shù)據(jù)等新技術新手段,沉著應對沖擊和挑戰(zhàn),實現(xiàn)傳統(tǒng)金融與互聯(lián)網(wǎng)金融的融合發(fā)展。做好海量異構數(shù)據(jù)的專業(yè)化整合集成、關聯(lián)共享、安全防護和維護管理,深度挖掘數(shù)據(jù)內(nèi)含的巨大價值,探索XXX業(yè)務創(chuàng)新,實現(xiàn)數(shù)據(jù)資源的綜合應用、深度應用,已成為提升企業(yè)核心競爭力,實現(xiàn)企業(yè)信息化可持續(xù)發(fā)展的關鍵途徑。按照行領導部署,信息科技部組織力量對大數(shù)據(jù)技術進行研究,完成對市場上主流的大數(shù)據(jù)平臺及應用技術預研,征求業(yè)務部門建議,提出項目建設要求。XXX大數(shù)據(jù)現(xiàn)狀分析基本現(xiàn)狀XXX已建立面向整個金融業(yè)務的數(shù)據(jù)倉庫,整合了前臺業(yè)務運營數(shù)據(jù)和后臺管理數(shù)據(jù),建立了面向金融的管理分析應用;XXX大數(shù)據(jù)積累了一定量的業(yè)務數(shù)據(jù),同時業(yè)務人員也從客戶管理、風險評級和經(jīng)營規(guī)模預測等方面,提出了大量分析預測需求??傮w現(xiàn)狀行領導缺乏數(shù)據(jù)梳理,造成行領導看到的數(shù)據(jù)相互沖突和矛盾;IT架構中中都是以部門級應用為主(如計財、資金計劃部等),缺乏從大的管理職能(財務、風險、運營等)綜合方面的數(shù)據(jù)整合、數(shù)據(jù)標準和統(tǒng)一業(yè)務定義。業(yè)務人員業(yè)務職能不清晰或相互重疊,觀察數(shù)據(jù)視角不盡相同,缺少數(shù)據(jù)標準與業(yè)務統(tǒng)一定義,語軌不一致;由于業(yè)務系統(tǒng)輸入的隨意性,導致部分關鍵業(yè)務數(shù)據(jù)質(zhì)量較差。數(shù)據(jù)架構方面由于全行的數(shù)據(jù)散落在各個業(yè)務系統(tǒng)中,沒有進行有效整合,形成豎井式架構,造成多個信息孤島,整體架構缺少一個穩(wěn)定的、抗源變化的保存最細粒度歷史數(shù)據(jù)的數(shù)據(jù)層。無法支撐未來共享性應用。業(yè)務表現(xiàn)信息孤島數(shù)據(jù)冗余共享性差歷史數(shù)據(jù)缺失問題數(shù)據(jù)分散,難以管理沒有一個穩(wěn)定的,抗源變化的數(shù)據(jù)層數(shù)據(jù)應用難題缺少統(tǒng)一的應用分析標準業(yè)務表現(xiàn)各集市系統(tǒng)指標存在重復各集市系統(tǒng)在保有存量的同時,不斷產(chǎn)生新的指標(增量)集市指標派生無法實現(xiàn)指標邏輯視圖(指標分類)不一致問題重復投入數(shù)據(jù)不一致指標設計、口徑不一致指標難以共享缺少統(tǒng)一的基礎數(shù)據(jù)標準業(yè)務表現(xiàn)各系統(tǒng)存在冗余數(shù)據(jù)各系統(tǒng)存在業(yè)務含義一致,名稱定義不一致的屬性各系統(tǒng)存在含義不一致,名稱定義一致的情況業(yè)務代碼定義混亂問題重復投入數(shù)據(jù)不一致、不準確難以利用和管理各系統(tǒng)數(shù)據(jù)難以共享缺少反饋機制沒有歸納并總結數(shù)據(jù)質(zhì)量問題,缺少反饋機制,導致長期存在各類數(shù)據(jù)質(zhì)量問題。業(yè)務表現(xiàn)指標難以共享數(shù)據(jù)不一致、不準確問題部分關鍵業(yè)務數(shù)據(jù)缺失源系統(tǒng)校驗關系缺失及業(yè)務人員操作隨意數(shù)據(jù)應用現(xiàn)狀總結隨著業(yè)務的不斷發(fā)展和信息化的不斷深入,需建設的業(yè)務系統(tǒng)越來越多,隨著業(yè)務系統(tǒng)的數(shù)據(jù)種類不斷豐富完善,數(shù)據(jù)量的不斷增大,如果不采取有效手段解決數(shù)據(jù)架構、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量問題,隨著信息化建設的深入,這些問題將像雪球一樣越滾越大,越積越多。XXX大數(shù)據(jù)治理階段目標通過數(shù)據(jù)平臺和BI應用建設,XXX大數(shù)據(jù)將搭建統(tǒng)一的大數(shù)據(jù)共享和分析平臺,對各類業(yè)務進行前瞻性預測及分析,為XXX各層次用戶提供統(tǒng)一的決策分析支持,提升數(shù)據(jù)共享與流轉(zhuǎn)能力。數(shù)據(jù)平臺邏輯架構數(shù)據(jù)平臺部署架構建設目標以大數(shù)據(jù)項目建設作為契機,凝聚我行優(yōu)勢力量,全面梳理數(shù)據(jù)資源,完善數(shù)據(jù)體系架構,自主掌握大數(shù)據(jù)關鍵技術,加速大數(shù)據(jù)資源的開發(fā)利用,將數(shù)據(jù)決策化貫穿到經(jīng)營管理全流程,建設XXX,提升核心競爭力。建設大數(shù)據(jù)基礎設施,完善全行數(shù)據(jù)體系架構構建大數(shù)據(jù)平臺,實現(xiàn)更廣泛的半結構化、非結構化數(shù)據(jù)集中采集、存儲、加工、分析和應用,極大地豐富我行的信息資源,同現(xiàn)有的企業(yè)級數(shù)據(jù)倉庫和歷史數(shù)據(jù)存儲系統(tǒng)一起,形成基礎數(shù)據(jù)體系,提供支撐經(jīng)營管理的各類數(shù)據(jù)應用。開發(fā)大數(shù)據(jù)資源,支撐全行經(jīng)營管理創(chuàng)新建設離線數(shù)據(jù)分析、實時數(shù)據(jù)/流數(shù)據(jù)分析集群和各類數(shù)據(jù)分析集市,提供高性能可擴展的分布式計算引擎,通過數(shù)據(jù)挖掘、計量分析和機器學習等手段,對豐富的大數(shù)據(jù)資源進行開發(fā)使用,并將數(shù)據(jù)決策化過程結合到風控、營銷、營運等經(jīng)營管理活動。培養(yǎng)大數(shù)據(jù)人才隊伍,建立大數(shù)據(jù)分析能力結合大數(shù)據(jù)項目的落地實施,建立起一支大數(shù)據(jù)技術和分析人員隊伍,具備自主運營和開發(fā)大數(shù)據(jù)的能力,以更好推動業(yè)務創(chuàng)新,提升我行核心競爭力。數(shù)據(jù)治理目標發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,推動大數(shù)據(jù)治理工作的開展,建立數(shù)據(jù)質(zhì)量檢核系統(tǒng)對源系統(tǒng)進行數(shù)據(jù)質(zhì)量檢核,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題并統(tǒng)計影響到的報表對數(shù)據(jù)質(zhì)量問題進行歸類總結,分析成因和改進建議建設數(shù)據(jù)質(zhì)量檢核系統(tǒng)分析、梳理業(yè)務系統(tǒng),推動數(shù)據(jù)標準的建立,統(tǒng)一全行口徑建立基礎標準和指標標準框架確定標準化范圍,對重要屬性進行標準化建立數(shù)據(jù)倉庫模型框架,優(yōu)化我行數(shù)據(jù)架構,建設穩(wěn)定、可擴展的數(shù)據(jù)倉庫引進業(yè)內(nèi)具有先進水平的金融數(shù)據(jù)模型,進行客戶化改造后,建成符合某行特點的數(shù)據(jù)倉庫模型框架覆蓋某行主要業(yè)務系統(tǒng)數(shù)據(jù),以便快速高效的為應用系統(tǒng)提供數(shù)據(jù)存儲歷史數(shù)據(jù),解決新報表上線才有數(shù)的問題。匯總層建設(共性加工)目標建設方法建設內(nèi)容分析源系統(tǒng)表數(shù)據(jù),從及時性、完整性、準確性、有效性、一致性方面對源系統(tǒng)數(shù)據(jù)進行數(shù)據(jù)校驗,發(fā)現(xiàn)并記錄數(shù)據(jù)質(zhì)量問題,生成數(shù)據(jù)質(zhì)量問題報告。建設數(shù)據(jù)質(zhì)量檢核系統(tǒng),對源系統(tǒng)基礎業(yè)務數(shù)據(jù)的進行全面的數(shù)據(jù)質(zhì)量檢查,并實現(xiàn)重要業(yè)務數(shù)據(jù)質(zhì)量的周期性動態(tài)檢查,對發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題生成數(shù)據(jù)質(zhì)量報告,反饋給業(yè)務部門。工作階段源系統(tǒng)分析階段全面分析主要源業(yè)務系統(tǒng)。工作內(nèi)容全面分析和消化主要源業(yè)務系統(tǒng)重點分析核心業(yè)務系統(tǒng)和信貸兩個系統(tǒng)工作依據(jù)源系統(tǒng)文檔:《源系統(tǒng)操作手冊》、《源業(yè)務系統(tǒng)設計說明書》、《源系統(tǒng)數(shù)據(jù)字典》源系統(tǒng)環(huán)境及調(diào)研數(shù)據(jù)工作重點系統(tǒng)內(nèi):梳理業(yè)務流程、業(yè)務邏輯、業(yè)務關聯(lián)、數(shù)據(jù)庫表和字段的設計系統(tǒng)間:梳理業(yè)務關聯(lián)關系、數(shù)據(jù)關聯(lián)關系數(shù)據(jù)質(zhì)量問題檢查階段根據(jù)制定的檢查規(guī)則編寫程序,對源系統(tǒng)數(shù)據(jù)進行檢查。工作內(nèi)容梳理和制定數(shù)據(jù)質(zhì)量檢查規(guī)則,定義標準模板依據(jù)數(shù)據(jù)檢查規(guī)則,編寫程序,對核心業(yè)務系統(tǒng)、信貸管理系統(tǒng)的進行檢查工作依據(jù)系統(tǒng)調(diào)研和分析成果數(shù)據(jù)質(zhì)量檢查規(guī)則的依據(jù)調(diào)研成果的以下內(nèi)容進行梳理:業(yè)務流程、業(yè)務邏輯數(shù)據(jù)邏輯設計報表數(shù)據(jù)應用工作重點重點報表用到的表進行分析數(shù)據(jù)質(zhì)量問題分析階段分析有質(zhì)量問題數(shù)據(jù)對現(xiàn)有應用的影響;提出解決措施。工作內(nèi)容分析有質(zhì)量問題數(shù)據(jù)對現(xiàn)有報表應用的影響對數(shù)據(jù)質(zhì)量問題的成因進行分析和總結對數(shù)據(jù)質(zhì)量問題的解決措施進行分析和總結工作依據(jù)數(shù)據(jù)質(zhì)量檢查結果源數(shù)據(jù)與報表依賴關系工作重點重點分析報表平臺的1104等報表存在的部分數(shù)據(jù)質(zhì)量問題。預期建設效益實現(xiàn)數(shù)據(jù)共享通過數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)集中,確保XXX大數(shù)據(jù)各級部門均可在保證數(shù)據(jù)隱私和安全的前提下使用數(shù)據(jù),充分發(fā)揮數(shù)據(jù)作為企業(yè)重要資產(chǎn)的業(yè)務價值。加強業(yè)務合作實現(xiàn)分散在供應鏈XXX、人人貸、保理等各個業(yè)務系統(tǒng)中的數(shù)據(jù)在數(shù)據(jù)平臺中的集中和整合,建立單一的產(chǎn)品、客戶等數(shù)據(jù)的企業(yè)級視圖,有效促進業(yè)務的集成和協(xié)作,并為企業(yè)級分析、交叉銷售提供基礎。促進業(yè)務創(chuàng)新XXX大數(shù)據(jù)業(yè)務人員可以基于明細、可信的數(shù)據(jù),進行多維分析和數(shù)據(jù)挖掘,為XXX業(yè)務創(chuàng)新(客戶服務創(chuàng)新、產(chǎn)品創(chuàng)新等)創(chuàng)造了有利條件。提升建設效率通過數(shù)據(jù)平臺對數(shù)據(jù)進行集中,為管理分析、挖掘預測類等系統(tǒng)提供一致的數(shù)據(jù)基礎,改變現(xiàn)有系統(tǒng)數(shù)據(jù)來源多、數(shù)據(jù)處理復雜的現(xiàn)狀,實現(xiàn)應用系統(tǒng)建設模式的轉(zhuǎn)變,提升相關IT系統(tǒng)的建設和運行效率。改善數(shù)據(jù)質(zhì)量從中長期看,數(shù)據(jù)倉庫對XXX大數(shù)據(jù)分散在各個業(yè)務系統(tǒng)中的數(shù)據(jù)整合、清洗,有助于企業(yè)整體數(shù)據(jù)質(zhì)量的改善,提高的數(shù)據(jù)的實用性。XXX大數(shù)據(jù)建設總體規(guī)劃功能需求個人和企業(yè)畫像國內(nèi)不少XXX已經(jīng)開始嘗試通過大數(shù)據(jù)來驅(qū)動業(yè)務運營,為個人客戶畫像和企業(yè)客戶“畫像”。個人客戶畫像包括人口統(tǒng)計學特征、消費能力數(shù)據(jù)、興趣數(shù)據(jù)、風險偏好等;企業(yè)客戶畫像包括企業(yè)的生產(chǎn)、流通、運營、財務、銷售和客戶數(shù)據(jù)、相關產(chǎn)業(yè)鏈上下游等數(shù)據(jù)??蛻舢嬒褡饔茫?、用戶的所有屬性特征、訂單特征、行為特征集合到一個系統(tǒng)中,然后只需要在一個報表層面,只需要輸入用戶ID、手機號、用戶名等即可實現(xiàn)完整的用戶信息查詢。2、當處理用戶的私人財務信息時候,用戶喜歡一對一的個性化服務。用戶畫像可以展示用戶的每一次活動,例如用戶注資、消費等主要的行為。3、通過軟件的實時分析,可以及時跟蹤用戶的注冊、交易等關鍵環(huán)節(jié)遇到的問題。4、實時衡量廣告活動的有效性,通過實時在線訪客工作,及時評估活動的引流用戶的活動參與性??梢约皶r調(diào)整廣告的投放策略,減少廣告的浪費??蛻舢嬒瘢涸诮鹑诜矫嬗蟹浅4蟮臐摿?,市面上有一些完善的軟件和解決方案,但能夠真正打入到XXX內(nèi)部的比較少,同時XXX在手機端和電商方面有很大的突破,對于大數(shù)據(jù)的信息也非常的需要。建議:通過市面上的軟件進行oem。實現(xiàn)精準營銷在客戶“畫像”的基礎上,金融業(yè)可以有效地開展精準營銷。例如,根據(jù)客戶的實時狀態(tài)來進行營銷,根據(jù)所在地、客戶最近一次消費等信息來有針對地進行營銷,或者將改變生活狀態(tài)的事件視為營銷機會。精準營銷:通過對大數(shù)據(jù)信息的掌握,采用多種方法論和技術去分析得出結論,進行營銷。目前市面上也有類似的軟件,也有詳細的方法論,在XXX方面還有待驗證。建議:繼續(xù)進行市場的驗證。為金融業(yè)提供風險管控金融業(yè)結合大數(shù)據(jù),可以實現(xiàn)對中小企業(yè)貸款風險評估和欺詐交易識別。XXX可通過企業(yè)的生產(chǎn)、流通、銷售、財務等相關信息結合大數(shù)據(jù)挖掘方法進行貸款風險分析,量化企業(yè)的信用額度,更有效的開展中小企業(yè)貸款。風險管控:1、通過客戶在社交媒體上的行為數(shù)據(jù)、客戶在電商網(wǎng)站的交易數(shù)據(jù)、企業(yè)客戶的產(chǎn)業(yè)鏈上下游數(shù)據(jù)、其他有利于擴展XXX對客戶興趣愛好的數(shù)據(jù)來進行數(shù)據(jù)的分析;2、目前金融的風險主要來自于大中型企業(yè)信用風險、小微型企業(yè)信用風險、個人/消費者信用風險等;風險管控:XXX對于大數(shù)據(jù)的信息有比較全面的機制,信用體系、貸款體系、金融體系都有比較多的專家和方法來管理風險。建議:多走訪XXX風控體系,看看是否新的突破點運營優(yōu)化運營優(yōu)化:通過大數(shù)據(jù)的各個指標,進行市場和渠道的分析,同時可以對自身的產(chǎn)品進行優(yōu)化和輿情的預報分析。建議:繼續(xù)進行市場的驗證。XXX大數(shù)據(jù)應用架構遠景XXX需要從“坐商”轉(zhuǎn)型為“行商”潛在客戶在哪里?這些客戶有什么樣的金融需求?如何進行主動營銷?精準營銷?即時營銷?內(nèi)部管理,績效考核等,如何配套轉(zhuǎn)型?客戶下沉面向個體規(guī)模小但是數(shù)量眾多的客戶群體,金融產(chǎn)品如何設計才有吸引力?面向個性化十足的客戶需求,如何低成本地改善客戶體驗?小客戶的風險、成本如何控制?與“互聯(lián)網(wǎng)金融”進行差異化競爭網(wǎng)點優(yōu)勢——面對面地達成交易;專業(yè)優(yōu)勢全方位的客戶體驗XXX大數(shù)據(jù)平臺應用架構XXX大數(shù)據(jù)平臺架構XXX大數(shù)據(jù)支撐平臺大數(shù)據(jù)虛擬化平臺大數(shù)據(jù)虛擬化平臺采用虛擬化技術,以充分利用計算、存儲、網(wǎng)絡等資源,同時采用數(shù)據(jù)備份方案以增加可靠性??梢詫崿F(xiàn):1.效率大幅度提高由于將資源池化管理和使用,資源得到充分利用。采用分權分域運維的方式,運維更加有效。2.更低能耗更加節(jié)能,基礎設施與IT設備聯(lián)動節(jié)能、負荷均衡。3.優(yōu)化業(yè)務新業(yè)務上線周期大幅度縮短??梢詾楦鲉挝惶峁└鄻I(yè)務:IAAS、PAAS、SAAS,等等。4.提高效益在區(qū)級單位建立虛擬化平臺,其他各單位不需要建立維護自己的基礎設施,利用區(qū)大數(shù)據(jù)虛擬化平臺運行各自應用。投資收益率,大幅提升,TCO大幅度降低。設計原則1.統(tǒng)一的虛擬化平臺采用虛擬化管理軟件,將計算資源劃分為多個虛擬機資源,為用戶提供高性能、可運營、可管理的虛擬機。支持虛擬機資源按需分配。支持多操作系統(tǒng)。保證資源合理分配,隔離用戶間影響。本項目中,為新開發(fā)業(yè)務系統(tǒng)、遷移業(yè)務系統(tǒng)、數(shù)據(jù)交換與共享前置機分配虛擬機。2.統(tǒng)一的資源管理統(tǒng)一資源池,屏蔽不同硬件差異,資源的更換升級對用戶零感知。統(tǒng)一管理平臺,支持業(yè)界主流的操作系統(tǒng),兼容現(xiàn)有計算及存儲資源。設備自動發(fā)現(xiàn),資源快速發(fā)放,縮短業(yè)務上線時間。3.支持多種硬件設備支持多種服務器和兼容多種存儲設備,可供用戶靈活選擇。4.自動化調(diào)度支持自定義的資源管理策略、故障判斷標準及恢復策略。通過資源調(diào)度、熱管理、能耗管理等一體化拉通,降低維護成本。自動檢測服務器或業(yè)務的負載情況,對資源進行智能調(diào)度,均衡各服務器及業(yè)務系統(tǒng)負載,保證系統(tǒng)良好的用戶體驗和業(yè)務系統(tǒng)的最佳響應。5.完善的權限管理根據(jù)不同的角色、權限等,提供完善的權限管理功能,授權用戶對系統(tǒng)內(nèi)容的資源進行管理。6.應用智能管理支持服務目錄,應用快速部署。靈活的模板機制,支持用戶自定義模板。7.精細化計費針對不同的業(yè)務類型,進行精確計費。按IT資源(CPU、內(nèi)存、存儲)用量計費。按時計費。8.豐富的運維管理,實現(xiàn)業(yè)務的可控、可管,使整個系統(tǒng)有效運營。支持快速故障定位,系統(tǒng)通過獲取異常日志和程序堆棧等方法,縮短問題定位時間,快速解決異常問題。系統(tǒng)通過自動化的健康狀態(tài)檢查,及時發(fā)現(xiàn)故障并預警,確保虛擬機可運營管理。支持全Web化的界面,通過Web瀏覽器對所有硬件資源、虛擬資源、用戶業(yè)務發(fā)放等進行監(jiān)控管理。9.安全采用多種安全措施和策略,并遵從信息安全法律法規(guī),對用戶接入、管理維護、數(shù)據(jù)、網(wǎng)絡、虛擬化等提供端到端的業(yè)務保護。虛擬化平臺設計圖STYLEREF2\s5.2SEQ圖\*ARABIC\s22虛擬化平臺架構如圖所示為虛擬化平臺的架構,主要包括五個部分:硬件基礎設施、虛擬化存儲、虛擬化計算、平臺管理、數(shù)據(jù)存儲系統(tǒng)五個部分。硬件基礎設施層硬件資源包括服務器、存儲、網(wǎng)絡等全面的平臺基礎物理設備資源,支持平滑新建或擴容,是運行各種應用的平臺。支持的設備類型豐富,提供靈活的部署選擇。平臺包括以下硬件設備:1.采用五套虛擬化平臺服務器提供基礎支撐,需要在物理服務器上部署虛擬化平臺管理軟件(按照CPU數(shù)量部署)用于提供虛擬化服務;2.一臺PC用于虛擬化平臺管理PC;3.兩臺物理數(shù)據(jù)庫服務器用于安裝數(shù)據(jù)庫管理系統(tǒng);4.一套磁盤陣列提供數(shù)據(jù)存儲服務;5.二臺FC光纖交換機用于連接服務器和存儲磁盤陣列;6.服務器都連接到核心交換機上以提供IP網(wǎng)絡連接。虛擬化存儲通過軟件管理,可以把本地硬盤存儲資源組織成一個虛擬存儲資源池,提供塊存儲功能。除了利用虛擬化平臺服務器的存儲空間以外,也可以使用磁盤陣列的存儲空間。虛擬化計算通過虛擬化平臺軟件,主要負責硬件資源的虛擬化,以及對虛擬資源、業(yè)務資源、用戶資源的集中管理。采用虛擬計算、虛擬存儲、虛擬網(wǎng)絡等技術,完成計算資源、存儲資源、網(wǎng)絡資源的虛擬化。同時通過統(tǒng)一的接口,對這些虛擬資源進行集中調(diào)度和管理,從而降低業(yè)務的運行成本,保證系統(tǒng)的安全性和可靠性。需要在物理服務器上部署虛擬化平臺管理軟件(按照CPU數(shù)量部署)用于提供虛擬化服務,本項目一期需要配置20個CPU的虛擬化平臺管理軟件。根據(jù)實際需要在虛擬化平臺上配置以下虛擬機:遷移業(yè)務應用虛擬機(約47個)、新開發(fā)業(yè)務虛擬機(7個)、數(shù)據(jù)交換與共享前置虛擬機(20個),在虛擬機上安裝操作系統(tǒng)并部署應用系統(tǒng)提供服務。平臺管理對虛擬化平臺的軟件和硬件進行全面的監(jiān)控和管理,實現(xiàn)自動化資源發(fā)放和自動化基礎設施運維管理兩大核心功能,并向內(nèi)部運維管理人員提供運營與管理門戶。此外,還有虛擬化備份軟件以實現(xiàn)虛擬機數(shù)據(jù)備份方案,容災業(yè)務管理軟件提供虛擬機關鍵數(shù)據(jù)的數(shù)據(jù)保護和容災恢復。數(shù)據(jù)存儲系統(tǒng)設計數(shù)據(jù)存儲系統(tǒng)采用統(tǒng)一規(guī)劃設計,分布實施的策略。設計主備磁盤陣列,其中主磁盤陣列為第一期實施,與其他業(yè)務系統(tǒng)部署在電信主機房,備用磁盤陣列為后期實施,部署在移動機房。為保證數(shù)據(jù)業(yè)務的高可靠性,采用“物理服務器+磁盤陣列”的SAN存儲系統(tǒng)。物理服務器上運行數(shù)據(jù)庫管理系統(tǒng),數(shù)據(jù)存儲在磁盤陣列上,為應用業(yè)務提供高效服務。虛擬化服務器通過光纖交換機與磁盤陣列相連,一般情況下磁盤陣列只為數(shù)據(jù)庫服務器服務,必要時也可以分配給虛擬機使用。一期存儲系統(tǒng)方案包括兩臺數(shù)據(jù)庫服務器、兩臺FC交換機和主磁盤陣列。圖STYLEREF2\s5.2SEQ圖\*ARABIC\s23SAN存儲系統(tǒng)配置一套中高端存儲(磁盤陣列)作為核心存儲以保證數(shù)據(jù)的安全性,配置FC交換機連接數(shù)據(jù)庫服務器和虛擬化平臺服務器以及主磁盤陣列。實現(xiàn)各業(yè)務系統(tǒng)分散數(shù)據(jù)的集中存儲,提供高可靠、高性能、高擴展的存儲系統(tǒng),為業(yè)務系統(tǒng)提供數(shù)據(jù)存取的支撐平臺。SAN存儲系統(tǒng)采用兩套光纖交換機,雙機熱備方式,每臺光纖交換機FC接口分別連接主存儲、虛擬化平臺服務器、數(shù)據(jù)庫服務器。采用冗余架構,保障數(shù)據(jù)的可靠性和業(yè)務的連續(xù)性。如果后續(xù)新增業(yè)務系統(tǒng),只需要連接到存儲區(qū)域網(wǎng)絡,并分配相應的存儲空間,就可實現(xiàn)數(shù)據(jù)的集中存儲。如果容量不夠,只需要增加磁盤及配套的磁盤擴展柜。業(yè)務的擴展和擴容可實現(xiàn)即插即用,輕易地進行部署應用。高性能SAN存儲系統(tǒng)SAN(StorageAreaNetwork)存儲區(qū)域網(wǎng)絡,是一種通過SAN網(wǎng)絡方式連接存儲設備和服務器的存儲架構,SAN網(wǎng)絡專用于主機和存儲設備之間的訪問。當有數(shù)據(jù)的存取需求時,數(shù)據(jù)可以通過SAN存儲區(qū)域網(wǎng)絡在服務器和后臺存儲設備之間高速傳輸。采用SAN使存儲空間得到更加充分的利用。在SAN網(wǎng)絡中,存儲實現(xiàn)的是直接對物理硬件的塊級存儲訪問,提高了存儲的性能和升級能力。SAN更適合網(wǎng)絡關鍵任務的數(shù)據(jù)存儲,與其他存儲技術相比,SAN網(wǎng)絡具有以下特性:1.高可用,作為統(tǒng)一存儲資源池為各個系統(tǒng)所共享,各系統(tǒng)服務器通過接入SAN網(wǎng)絡,快速高效地實現(xiàn)對存儲的訪問。2.高性能,多采用業(yè)界最先進的技術,包括Intel專用存儲多核處理器、超大緩存擴展、PCI-E2.0、SAS2.0、SSD等。3.便于擴展,數(shù)十倍的存儲容量擴展能力提升,支持多種存儲介質(zhì)混合使用,支持容量彈性分配,在線擴容。4.高安全:存儲系統(tǒng)完全冗余設計,全系統(tǒng)無單點故障,包括控制器、電源、電池、風扇等均為冗余結構;每冗余設備在故障出現(xiàn)時能保證自動切換,任何單一部件故障都不會影響整個存儲系統(tǒng)的正常運行。5.可實現(xiàn)基于網(wǎng)絡的高效備份,適合于海量數(shù)據(jù)、關鍵數(shù)據(jù)的存儲備份。6.支持集中管理和遠程管理,支持服務器的異構平臺。同時SAN存儲區(qū)域網(wǎng)具有更廣的應用領域,如數(shù)據(jù)共享、存儲共享、數(shù)據(jù)備份、災難恢復等。存儲方案優(yōu)勢1.高可靠本方案所采用兩臺磁盤陣列提供全面的系統(tǒng)故障保護,最大限度的保證用戶數(shù)據(jù)的可用性和安全性。(1)全冗余架構采用雙活鏡像技術、雙控制器架構,控制器、磁盤柜、緩存、硬盤等關鍵組件都采用冗余設計,保障系統(tǒng)的高可靠。(2)冗余SAN組網(wǎng)為提高整個系統(tǒng)的可靠性,本方案在SAN架構設計上嚴格按照冗余方式進行組網(wǎng),防止單點故障。服務器接入,至少采用兩個存儲接口卡接入SAN網(wǎng)絡;SAN交換設備,采用SAN交換機兩個交換板卡同時工作,保證所有連接設備至少雙鏈路通信;(3)完善的磁盤安全策略2.高性能在架構設計上,采用大量業(yè)界先進技術,包括大容量緩存擴展、PCI-E2.0、SAS2.0、SSD等,構建高性能的存儲平臺。(1)高帶寬總線技術(2)大容量智能緩存管理3.高擴展性方案的高擴展體現(xiàn)在存儲的容量及性能高擴展。大數(shù)據(jù)分析管理平臺建設內(nèi)容包括大數(shù)據(jù)分析處理平臺、大數(shù)據(jù)分析節(jié)點群兩部分。通過在物理機X86集群上安裝大數(shù)據(jù)分析處理平臺軟件,對大數(shù)據(jù)進行分析處理,挖掘數(shù)據(jù)價值。如圖所示大數(shù)據(jù)分析管理平臺。圖STYLEREF2\s5.2SEQ圖\*ARABIC\s24大數(shù)據(jù)分析管理平臺大數(shù)據(jù)分析處理平臺大數(shù)據(jù)分析處理平臺應用范圍覆蓋各種規(guī)模和不同數(shù)據(jù)量的場景,通過內(nèi)存計算、高效索引、執(zhí)行優(yōu)化和高度容錯的技術,使得一個平臺能夠處理10GB到100PB的數(shù)據(jù),并且在每個數(shù)量級上,都能比現(xiàn)有技術提供更快的性能;不再需要混合架構,可以伴隨客戶的數(shù)據(jù)增長,動態(tài)不停機擴容,避免數(shù)據(jù)遷移的棘手問題。大數(shù)據(jù)分析處理平臺功能包含四個功能組成部分:分布式內(nèi)存分析引擎,數(shù)據(jù)挖掘引擎,分布式實時在線數(shù)據(jù)處理引擎和流處理引擎,在不同場景下分別完成不同功能。分布式內(nèi)存分析引擎交互式內(nèi)存分析引擎提供高速SQL分析和R語言數(shù)據(jù)挖掘能力,可建立高速可擴展的數(shù)據(jù)倉庫和/或數(shù)據(jù)集市,結合多種報表工具提供交互式數(shù)據(jù)分析、即時報表和可視化能力。提供完整的ANSISQL支持以及PL/SQL過程語言擴展,可以支持復雜的數(shù)據(jù)倉庫類分析應用,也使得從原有數(shù)據(jù)庫系統(tǒng)遷移更為容易。數(shù)據(jù)挖掘引擎數(shù)據(jù)挖掘引擎支持R語言引擎,用戶可以通過R訪問大數(shù)據(jù)分析節(jié)點群上的HDFS或者分布式實時在線數(shù)據(jù)處理引擎中的數(shù)據(jù),還支持訪問存儲在分布式內(nèi)存中的數(shù)據(jù)。在數(shù)據(jù)挖掘引擎中,用戶既可以通過R命令行,也可以使用圖形化的RStudio執(zhí)行R語言程序來訪問數(shù)據(jù),易用性極高。數(shù)據(jù)挖掘引擎內(nèi)置了大量常用機器學習算法的分布式實現(xiàn),可以與R語言中的數(shù)千個算法混合使用,配合內(nèi)置的高度優(yōu)化的專有算法,可高速分析現(xiàn)有平臺中的海量數(shù)據(jù)。此外,數(shù)據(jù)挖掘引擎還集成了多個機器學習算法庫,包含了統(tǒng)計算法、分類算法、聚類分析、回歸分析、頻度關聯(lián)分析和神經(jīng)網(wǎng)絡在內(nèi)的常用算法,方便用戶快速構建大規(guī)模數(shù)據(jù)挖掘系統(tǒng)和方案。分布式實時在線數(shù)據(jù)處理引擎分布式實時在線數(shù)據(jù)處理引擎融合了多種索引技術、分布式事務處理、全文實時搜索、圖形數(shù)據(jù)庫在內(nèi)的實時數(shù)據(jù)庫??梢愿咝У刂С制髽I(yè)的在線聯(lián)機分析處理應用、高并發(fā)聯(lián)機分析處理應用、批處理應用、全文搜索或高并發(fā)圖形數(shù)據(jù)庫檢索應用,結合分布式內(nèi)存分析引擎,可以創(chuàng)建可擴展在線運營數(shù)據(jù)庫(OperationalDatabase)或者實時分析型數(shù)據(jù)庫(ODS-OperationalDataStore)。流處理引擎實時流處理引擎提供了強大的流計算表達能力,支持復雜的應用邏輯,業(yè)務系統(tǒng)的消息通過實時消息隊列進入計算集群(大數(shù)據(jù)分析節(jié)點群),在集群內(nèi)以流水線方式被依次處理,完成數(shù)據(jù)轉(zhuǎn)換、特征提取、策略檢查、分析告警等復雜服務計算,最終輸出到分布式實時在線數(shù)據(jù)處理引擎等存儲集群,實時生成告警頁面、實時展示頁面等。系統(tǒng)具備強擴展性、強容錯、低延遲、高吞吐等特點,應用于實時數(shù)據(jù)(如傳感器數(shù)據(jù))的實時告警、風險控制、在線統(tǒng)計和挖掘等業(yè)務。大數(shù)據(jù)分析支撐系統(tǒng)大數(shù)據(jù)分析支撐系統(tǒng)具有高模塊化和松耦合的架構,針對不同的應用領域通過組件之間的靈活組合與高效協(xié)作來提供定制化的支撐。1.數(shù)據(jù)存儲層:基于HDFS2.2的大數(shù)據(jù)存儲和在線服務系,支持ErasureCode,在副本數(shù)降低至1.5倍的情況下,提高了可靠性,可同時容忍四個數(shù)據(jù)塊丟失,支持可靠存儲TB到數(shù)十PB的數(shù)據(jù);2.資源管理層:缺省采用下一代資源管理框架YARN進行資源的分配和調(diào)度,支持同時運行多個計算框架;3.計算引擎層:采用Map/Reduce2完成大部分離線批處理計算任務;4.數(shù)據(jù)分析與挖掘?qū)樱褐С蛛x線批量SQL統(tǒng)計,支持機器學習算法庫Mahout;5.數(shù)據(jù)集成層:Sqoop支持數(shù)據(jù)遷移,F(xiàn)lume支持從日志系統(tǒng)采集數(shù)據(jù);與外部工具的對接:1.與ETL工具的對接,支持商業(yè)和開源的ETL工具,例如:Sqoop、Pentaho、DataStage、Informatica、Trinity等工具,并在較多項目中有實際的集成、落地經(jīng)驗;2.任務調(diào)度工具,通過Ooize、Waterline、Trinity等工具進行作業(yè)調(diào)度;3.報表工具對接,同現(xiàn)有成熟的商業(yè)報表工具都可以無縫對接,包括:IBMCognos、OracleBIEE、SapBO、Microstrategy、Tableau、永洪BI、帆軟報表、水晶報表、潤乾報表等等。大數(shù)據(jù)分析節(jié)點群大數(shù)據(jù)分析節(jié)點群需要選擇一組用網(wǎng)絡連接起來的x86服務器,并在服務器上安裝運行大數(shù)據(jù)平臺軟件,進而提供大數(shù)據(jù)分析能力。以下是大數(shù)據(jù)分析節(jié)點群最少的服務器配置要求,可以根據(jù)實際情況做調(diào)整。其中至少配置2個管理節(jié)點,如果有結構化數(shù)據(jù)要處理至少配置3個以上分析節(jié)點用于處理結構化數(shù)據(jù),如果有非結構化數(shù)據(jù)需要處理至少配置3個以上節(jié)點用于處理非結構化數(shù)據(jù)。表STYLEREF2\s5.2SEQ表\*ARABIC\s22服務器配置要求服務器推薦配置及說明數(shù)量管理節(jié)點2個,節(jié)點數(shù)根據(jù)數(shù)據(jù)存儲容量計算,其中結構化分析節(jié)點至少3個,非結構化分析節(jié)點至少3個。CPU兩路8核處理器2*E5-2650v3或以上內(nèi)存128GBECCDDR3硬盤10個1.2T的SAS硬盤,10000RPM,不使用RAID;2個300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤網(wǎng)絡雙口萬兆(10Gbps)以太網(wǎng)卡軟硬件配置1.XXX大數(shù)據(jù)平臺方案分析節(jié)點數(shù)通過前期調(diào)研,獲取到客戶總的數(shù)據(jù)量一期存儲需求,結構化數(shù)據(jù)3T,非結構化數(shù)據(jù)15T。參照存儲容量計算大數(shù)據(jù)平臺節(jié)點數(shù)。大數(shù)據(jù)平臺中數(shù)據(jù)采用HDFS格式保存,HDFS需要保存3個副本存儲數(shù)據(jù),中間結果保存1份數(shù)據(jù),建立的索引占用0.5倍數(shù)據(jù)存儲空間;存儲過程中結構化數(shù)據(jù)采用壓縮技術,按照壓縮率50%計算,非結構化數(shù)據(jù)壓縮率1;磁盤空間考慮30%的冗余。此外,可以根據(jù)實際項目規(guī)劃酌情考慮放大節(jié)點數(shù)。如下公式數(shù)據(jù)實際需要的存儲空間:實際數(shù)據(jù)量TB*(副本存儲空間+中間結果存儲空間+索引存儲空間)*數(shù)據(jù)壓縮率*(1+冗余空間);參數(shù)說明:a、副本存儲空間:3;b、中間結果存儲空間:1;c、索引存儲空間:0.5;d、結構化數(shù)據(jù)壓縮率:0.5,非結構化數(shù)據(jù)壓縮率:1;e、冗余空間:0.3;一期3T結構化數(shù)據(jù)需要8.775T的存儲空間,15T非結構化數(shù)據(jù)需要87.75T的存儲空間。采用的服務器可以用于存儲數(shù)據(jù)的硬盤空間為12T。因此,結構化數(shù)據(jù)服務器需要1臺,非結構化數(shù)據(jù)服務器需要8臺。由于結構化數(shù)據(jù)服務器至少應該配置3臺,所以一期需要的分析節(jié)點總數(shù)為11臺。表STYLEREF2\s5.2SEQ表\*ARABIC\s23XXX大數(shù)據(jù)平臺方案一期分析節(jié)點數(shù)項目數(shù)量單位備注一期結構化數(shù)據(jù)數(shù)據(jù)量3TB最少3個節(jié)點一期非結構化數(shù)據(jù)數(shù)據(jù)量15TB最少3個節(jié)點單臺服務器存儲容量12TB單臺服務器10塊盤,每塊1.2T一期期望的分析節(jié)點數(shù)11臺節(jié)點2.XXX大數(shù)據(jù)平臺方案總節(jié)點數(shù)管理節(jié)點需要2個,一期期望的分析節(jié)點數(shù)11個,總共需要節(jié)點13個。3.大數(shù)據(jù)支撐平臺軟硬件配置表STYLEREF2\s5.2SEQ表\*ARABIC\s24XXX大數(shù)據(jù)平臺方案軟硬件配置序號設備配置數(shù)量1大數(shù)據(jù)平臺服務器兩路8核處理器2*E5-2650v3或以上內(nèi)存:128GB硬盤:1.2*10TBSAS,2個300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤網(wǎng)卡:2*10GE光接口卡132大數(shù)據(jù)平臺軟件大數(shù)據(jù)分析管理平臺軟件,其中含2個管理節(jié)點13虛擬化平臺關鍵特性平臺采用虛擬化技術實現(xiàn)了以下關鍵特性:1.內(nèi)存復用內(nèi)存復用是指在服務器物理內(nèi)存一定的情況下,通過綜合運用內(nèi)存復用單項技術(內(nèi)存氣泡、內(nèi)存共享、內(nèi)存交換)對內(nèi)存進行分時復用。通過內(nèi)存復用,使得虛擬機內(nèi)存規(guī)格總和大于服務器規(guī)格內(nèi)存總和,提高服務器中虛擬機密度。2.虛擬交換管理實現(xiàn)服務器上的虛擬交換機的物理端口和虛擬端口進行配置/維護。大大減輕管理虛擬基礎設施的負擔。提供可視化的網(wǎng)絡管理能力,可以較好的呈現(xiàn)虛擬網(wǎng)絡的拓撲、流量信息,可以較大提高網(wǎng)絡系統(tǒng)的可維護性。3.共享存儲消除了熱點也提高了性能,提供更高的IO存儲帶寬,降低成本。4.虛擬化網(wǎng)絡通過VXLAN技術,解決虛擬網(wǎng)絡數(shù)量不足的問題,以滿足多虛擬機環(huán)境下的大規(guī)模網(wǎng)絡部署。同時利用VXLAN的組播功能,限制虛擬網(wǎng)絡的廣播域,從而提升網(wǎng)絡性能。5.動態(tài)資源調(diào)度滿足不同使用場景下對資源的使用需求,優(yōu)化資源分配,在降低功耗的同時提高資源的利用效率。6.虛擬化防病毒為了對主機中所有虛擬機進行病毒防護,若采用傳統(tǒng)防病毒產(chǎn)品,則需要在每臺虛擬機本地安裝防病毒產(chǎn)品,這樣會占用較多資源。需要虛擬化防病毒解決方案,做到僅需在一臺特殊的安全虛擬機中部署防病毒引擎,在用戶虛擬機本地安裝輕量級驅(qū)動和查殺協(xié)作即可完成殺毒。實現(xiàn)集中管理,無需對每個虛擬機安裝和升級病毒庫。7.數(shù)據(jù)備份把數(shù)據(jù)復制到轉(zhuǎn)儲設備中。轉(zhuǎn)儲設備是指用于放置數(shù)據(jù)拷貝的磁帶或磁盤。當系統(tǒng)故障或數(shù)據(jù)丟失時,可由備份的數(shù)據(jù)進行系統(tǒng)恢復或數(shù)據(jù)恢復。虛擬化平臺配置表STYLEREF2\s5.2SEQ表\*ARABIC\s21虛擬化平臺設備第一期配置序號設備配置數(shù)量1虛擬化平臺服務器4CPU:XeonE7-8860v32.20G16Core,內(nèi)存256G,硬盤:4*300GSAS,網(wǎng)卡:2*GE,2*FCHBA52虛擬化平臺管理PCIntel或AMDX86架構的32位CPU,內(nèi)存:2GB,硬盤:操作系統(tǒng)所在磁盤分區(qū)剩余空間大于1GB/至少有一個非操作系統(tǒng)所在的磁盤分區(qū)剩余空間大于2GB。13虛擬化平臺管理軟件高級版,含虛擬化管理軟件、虛擬化實施服務。20個CPU。204數(shù)據(jù)庫服務器2顆10核以上處理器,頻率≥2.0GHz,緩存≥20MB;內(nèi)存:128GB;硬盤:3塊300G15000轉(zhuǎn)熱插拔SAS硬盤;網(wǎng)絡:4個高性能千兆網(wǎng)口;SAS卡:1塊,用于連接外置磁帶機;HBA卡:2塊單端口16GbFCHBA卡;電源:2個熱插拔電源;2012標準版操作系統(tǒng)。25主磁盤整列控制器:2個,每控制器32GB緩存,16Gb光纖通道;磁盤容量≥45TB10K轉(zhuǎn)SAS硬盤;支持2.5"和3.5"SAS、近線SAS和固態(tài)硬盤。16FC交換機光纖交換機,接口速率:16Gb;接口數(shù)量≥24,激活端口數(shù)量≥24;光纖模塊數(shù)量≥8。2安全保障系統(tǒng)設計原則設計遵循以下原則:1.完備性:對信息安全的五個屬性,從物理、網(wǎng)絡、系統(tǒng)、應用、管理等幾個層面確定安全功能要求和安全保證要求:對安全系統(tǒng)的構建、運行全過程進行全面控制。2.整體保護性:實現(xiàn)信息的保密性、完整性和可用性(包括抗抵賴性、可控性和可操作性等),以及系統(tǒng)安全運行控制。3.技術先進性:標準體系是在充分了解國際上當前信息安全技術及其標準發(fā)展的基礎上,汲取先進的安全技術,并與國際接軌。4.實用性:充分考慮到我國信息技術的發(fā)展和信息安全的現(xiàn)狀,從制定可行的信息系統(tǒng)安全方案出發(fā),適用于我國信息安全等級管理的需要。5.前瞻性和可擴展性:標準體系所確定的技術和管理,具有一定的前瞻性,并可根據(jù)信息安全技術的發(fā)展改進和擴展??傮w設計圖STYLEREF2\s5.2SEQ圖\*ARABIC\s25安全保障系統(tǒng)架構如圖所示安全保障系統(tǒng)架構,設計要滿足物理安全、網(wǎng)絡安全、主機安全、應用安全、數(shù)據(jù)庫安全、數(shù)據(jù)備份的需求。物理安全設計由于XXX大數(shù)據(jù)平臺項目租賃運營商機房,所以物理安全主要依托運營商機房現(xiàn)有條件。1.供配電系統(tǒng)機房的供配電系統(tǒng)要求能保證對機房內(nèi)的主機、服務器、網(wǎng)絡設備、通訊設備等的電源供應在任何情況下都不會間斷,做到無單點失效和平穩(wěn)可靠,這就要求兩路以上的市電供應,N+1冗余的自備發(fā)電機系統(tǒng),還有能保證足夠時間供電的UPS系統(tǒng)。2.防雷接地為了保證機房的各種設備安全,要求機房設有四種接地形式,即計算機專用直流邏輯地、配電系統(tǒng)交流工作地、安全保護地、防雷保護地。3.消防報警及自動滅火為實現(xiàn)火災自動滅火功能,在機房的各個地方,還應該設計火災自動監(jiān)測及報警系統(tǒng),以便能自動監(jiān)測火災的發(fā)生,并且啟動自動滅火系統(tǒng)和報警系統(tǒng)。4.門禁機房應建立實用、高效的門禁系統(tǒng),門禁系統(tǒng)需要注意的原則是安全可靠、簡單易用、分級制度、中央控制和多種識別方式的結合。5.保安監(jiān)控機房的保安監(jiān)控包括幾個系統(tǒng)的監(jiān)控:閉路監(jiān)視系統(tǒng)、通道報警系統(tǒng)和人工監(jiān)控系統(tǒng)。網(wǎng)絡安全設計外網(wǎng)邊界安全邊界安全措施是信息系統(tǒng)的基本安全措施,安全訪問控制的前提是必須合理的建立安全域,根據(jù)不同的安全需求建立不同的安全域。安全域的建立可以從物理上和邏輯上分別劃分安全域。在物理上將信息系統(tǒng)從地域上獨立出來,劃分不同物理區(qū)域。在邏輯上將信息系統(tǒng)或用戶分組,指定不同的訪問權限。安全域邊界定義對網(wǎng)絡系統(tǒng)的安全運行都是非常重要的因素,同時也是建立系統(tǒng)等級保護安全保障體系的基礎措施。只有合理的劃分了安全域,才能有效的采取系統(tǒng)分域技術手段保證網(wǎng)絡系統(tǒng)的安全。安全域定義完成后,對于邊界的控制主要有兩種,物理隔離和邏輯隔離。針對本系統(tǒng)的信息交換需求,安全域間通過防火墻實現(xiàn)邊界隔離。這是用在信任網(wǎng)絡和不信任網(wǎng)絡之間的一種訪問控制技術。本系統(tǒng)在核心交換機處部署防火墻插卡和IPS插卡,進行網(wǎng)絡安全防護。根據(jù)業(yè)務功能不同將整個網(wǎng)絡劃分成以下區(qū)域:互聯(lián)網(wǎng)出口域、電子政務外網(wǎng)出口域、運維域、大數(shù)據(jù)虛擬化平臺域、大數(shù)據(jù)分析管理平臺域。通過在不同域之間配置虛擬防火墻進行安全防護。網(wǎng)絡基礎設施安全網(wǎng)絡系統(tǒng)基礎設施安全就是網(wǎng)絡平臺子系統(tǒng)的安全。在方案設計中,網(wǎng)絡系統(tǒng)網(wǎng)絡平臺同時考慮了核心網(wǎng)絡鏈路和交換核心的冗余:對核心層節(jié)點之間進行鏈路和交換核心的冗余配置。為確保系統(tǒng)網(wǎng)絡平臺的長期穩(wěn)定運行,部署網(wǎng)絡管理系統(tǒng),對整個網(wǎng)絡平臺進行統(tǒng)一的管理。同時需要對網(wǎng)絡設備進行安全配置。網(wǎng)絡中應用系統(tǒng)數(shù)量較多,數(shù)據(jù)安全性非常重要,尤其是網(wǎng)站系統(tǒng),對安全性提出了很高的要求。在骨干核心設備,重要應用系統(tǒng)網(wǎng)絡出入口上部署入侵防御引擎,實現(xiàn)對各種應用訪問進行深度檢測,實時阻斷不安全的訪問,確保應用系統(tǒng)的安全,是保障系統(tǒng)的業(yè)務可用性和傳輸安全性的基本保護措施。由于外網(wǎng)訪問用戶多,傳輸?shù)男畔?shù)據(jù)量大,帶寬要求高,同時對核心IPS的性能和穩(wěn)定要求也非常的高。通過采用在核心交換機上部署IPS插卡,可以在漏報率極低的情況下進行實時檢測,保證系統(tǒng)中心主干網(wǎng)的安全,是保證基礎網(wǎng)絡安全的基本保護措施。主機安全設計主機安全主要是指主機設備配置安全,這包括:提供軟件設置、運行、管理日志,接受統(tǒng)一認證,設置、運行、維護權限控制,訪問控制列表限制隔離、運行監(jiān)控等。在操作系統(tǒng)軟件配置方面,需要購買可靠的正版軟件,并及時打補丁。在數(shù)據(jù)備份和系統(tǒng)恢復方面,需要要求對重要數(shù)據(jù)采取有效手段進行備份和恢復操作。同時,還需要定期對系統(tǒng)內(nèi)的操作系統(tǒng)、平臺軟件、應用軟件進行安全性檢查,關閉不需要的服務。綜合運用多種最新的漏洞掃描與檢測技術,能夠快速發(fā)現(xiàn)網(wǎng)絡資產(chǎn),準確識別資產(chǎn)屬性、全面掃描安全漏洞,清晰定性安全風險,給出修復建議和預防措施,并對風險控制策略進行有效審核,從而幫助用戶在弱點全面評估的基礎上實現(xiàn)安全自主掌控。本項目通過部署漏洞掃描系統(tǒng)實現(xiàn)主機安全防護。應用安全設計Web應用程序漏洞的存在更加普遍,隨著Web應用技術的深入普及,Web應用程序漏洞發(fā)掘和攻擊速度越來越塊,基于Web漏洞的攻擊更容易被利用,已經(jīng)成為黑客首選。SQL注入和XSS攻擊(CrossSiteScripting,跨站腳本攻擊)是目前存在最為普遍、利用最為廣泛、造成危害最為嚴重的兩類Web威脅。攻擊者攻擊Web系統(tǒng),可以篡改Web系統(tǒng)數(shù)據(jù)、竊取用戶信息。采用Web應用安全網(wǎng)關(WebApplicationGateway),針對Web服務器進行HTTP/HTTPS流量分析,防護以Web應用程序漏洞為目標的攻擊,并針對Web應用訪問各方面進行優(yōu)化,以提高Web或網(wǎng)絡協(xié)議應用的可用性、性能和安全性,確保Web業(yè)務應用快速、安全、可靠。通過在Web應用服務器前部署1臺Web防火墻以實現(xiàn):Web攻擊防護、Web非授權訪問防護、Web惡意代碼防護、Web應用合規(guī)。數(shù)據(jù)庫安全設計數(shù)據(jù)庫做為信息技術的核心和基礎,承載著越來越多的關鍵業(yè)務系統(tǒng),成為XXX大數(shù)據(jù)平臺最具有戰(zhàn)略性的資產(chǎn),數(shù)據(jù)庫的安全穩(wěn)定運行也直接決定著業(yè)務系統(tǒng)能否正常使用。數(shù)據(jù)庫信息資產(chǎn)面臨嚴峻的挑戰(zhàn)。數(shù)據(jù)庫的安全威脅主要來自兩個方面,一方面來自外部的非法入侵,黑客針對業(yè)務系統(tǒng)或者數(shù)據(jù)庫漏洞,采取各種攻擊手段,篡改或者盜取數(shù)據(jù)。這部分威脅可以通過在業(yè)務網(wǎng)絡入口部署防火墻、入侵防護等產(chǎn)品得到有效預防。而另一方面的威脅來自內(nèi)部,個別內(nèi)部員工的惡意破壞、違規(guī)操作和越權訪問,往往會帶來數(shù)據(jù)的大量外泄和嚴重損壞,甚至導致數(shù)據(jù)庫系統(tǒng)崩潰。而且,這些操作往往不具備攻擊特征,很難被普通的信息安全防護系統(tǒng)識別出來,就更加防不勝防,迫切需要一種行之有效的手段來進行防護。數(shù)據(jù)庫安全審計系統(tǒng)是針對業(yè)務環(huán)境下的網(wǎng)絡操作行為進行細粒度審計的合規(guī)性管理系統(tǒng)。它通過對業(yè)務人員訪問系統(tǒng)的行為進行解析、分析、記錄、匯報,用來幫助用戶事前規(guī)劃預防,事中實時監(jiān)視、違規(guī)行為響應,事后合規(guī)報告、事故追蹤溯源,同時加強內(nèi)外部網(wǎng)絡行為監(jiān)管、促進核心資產(chǎn)(數(shù)據(jù)庫、服務器、網(wǎng)絡設備等)的正常運營。通過在核心交換機處部署數(shù)據(jù)庫審計系統(tǒng)實現(xiàn)常用數(shù)據(jù)庫進行訪問審計,還可以對網(wǎng)絡運維協(xié)議進行解析,以達到對數(shù)據(jù)庫訪問的全面審計。安全制度與人員管理信息安全管理成為機構管理越來越關鍵的一部分。參照信息安全管理模型,按照先進的信息安全管理標準ISO17799標準建立組織完整的信息安全管理體系并實施與保持,達到動態(tài)的、系統(tǒng)的、全員參與、制度化的、以預防為主的信息安全管理方式,用最低的成本,達到可接受的信息安全水平,從根本上保證網(wǎng)絡系統(tǒng)業(yè)務的連續(xù)性。安全管理體系建設XXX大數(shù)據(jù)平臺建設對安全性有較高的要求,系統(tǒng)安全建設應該與信息系統(tǒng)建設同步規(guī)劃,同步設計,同步建設,不能滯后。在系統(tǒng)安全的各項建設內(nèi)容中,安全管理體系的建設是關鍵和基礎。沒有健全的安全管理,系統(tǒng)的安全性是很難保證的,任何網(wǎng)絡系統(tǒng)僅在技術上是無法實現(xiàn)完整的安全要求的。為此,建立一套科學的、可靠的、全面而有層次的安全管理體系是網(wǎng)絡安全建設的必要條件和基本保證。1.安全管理體系的建設目標通過有效的安全管理體系建設,最終要實現(xiàn)的目標是:采取集中控制、分級管理的模式,建立起完整的安全管理體系并加以實施與保持,實現(xiàn)動態(tài)的、系統(tǒng)的、全員參與的、制度化的、以預防為主的安全管理模式,從而在管理上確保全方位、多層次、快速有效的網(wǎng)絡安全防護。2.安全管理體系的建設內(nèi)容主要包括安全管理機構、安全管理制度、安全標準規(guī)范和安全教育培訓等方面。通過組建完整的信息網(wǎng)絡安全管理機構,設置安全管理人員,規(guī)劃安全策略、確定安全管理機制、明確安全管理原則和完善安全管理措施,制定嚴格的安全管理制度,合理地協(xié)調(diào)法律、技術和管理三種因素,實現(xiàn)對系統(tǒng)安全管理的科學化、系統(tǒng)化、法制化和規(guī)范化,達到保障網(wǎng)絡系統(tǒng)安全的目的。安全運維1.安全風險評估安全風險評估是建立主動防御安全體系的重要和關鍵環(huán)節(jié),這環(huán)的工作做好了可以減少大量的安全威脅,提升整個信息系統(tǒng)的對網(wǎng)絡災難的免疫能力;如果這個環(huán)節(jié)作得不好,將給安全管理與運行工作帶來極大的被動,往往會陷入大量的應急事件中,耗費大量的人力物力,反而導致安全運行的成本增加。風險評估是信息安全管理體系建立的基礎,是組織平衡安全風險和安全投入的依據(jù),也是信息安全管理體系測量業(yè)績、發(fā)現(xiàn)改進機會的最重要途徑。在風險評估之前,必須準確定義什么是風險,風險的主要元素及其相互關系。2.網(wǎng)絡管理與安全管理包括出入控制、場地與設施安全管理、網(wǎng)絡運行狀態(tài)監(jiān)控、安全設備監(jiān)控、安全事件監(jiān)控與分析、預防措施等等。3.備份與容災管理主要關鍵業(yè)務系統(tǒng)提供的服務需要雙機本地熱備安全人員管理信息系統(tǒng)的運行是依靠在各級黨政機構工作的人員來具體實施的,他們既是信息系統(tǒng)安全的主體,也是系統(tǒng)安全管理的對象。所以,要確保信息系統(tǒng)的安全,首先應加強人事安全管理。技術安全管理1.軟件管理,范圍包括對操作系統(tǒng)、應用軟件、數(shù)據(jù)庫、安全軟件、工具軟件的采購、安裝、使用、更新、維護、防病毒的管理;2.設備管理,對設備的全方位管理是保證信息系統(tǒng)建設的重要條件。設備管理包括設備的購置、使用、維修、儲存管理等幾個方面;3.備份管理,備份系統(tǒng)管理員對服務器的所有數(shù)據(jù)做到每個季度完整備份一次,每周對服務器上重要數(shù)據(jù)進行完全備份一次,每天對服務器上的重要數(shù)據(jù)增量備份一次,并由信息辦安全管理員進行審核。4.技術文檔管理,借閱、復制技術文檔要履行相應的手續(xù),包括申請、審批、登記、歸檔等必要環(huán)節(jié),并明確各環(huán)節(jié)當事人的責任和義務。對秘密級以上的重要技術文檔應考慮雙份以上的備份,并存放于異地。對報廢的技術文檔,要有嚴格的銷毀、監(jiān)視銷毀的措施。各級安全管理機構應制定技術文檔的管理制度,應明確執(zhí)行管理制度的責任人。安全保障系統(tǒng)配置表STYLEREF2\s5.2SEQ表\*ARABIC\s25安全保障系統(tǒng)配置序號設備配置數(shù)量1主機安全設備漏洞掃描12數(shù)據(jù)安全設備數(shù)據(jù)庫審計系統(tǒng)13應用安全設備Web應用防火墻1計算機網(wǎng)絡系統(tǒng)設計原則計算機網(wǎng)絡系統(tǒng)的設計緊密結合項目總體建設原則,考慮以下需求。1.實用性以滿足現(xiàn)行需求為基礎,在節(jié)省投資的同時,充分考慮未來發(fā)展的需要來確定系統(tǒng)規(guī)模。2.安全性系統(tǒng)應能提供網(wǎng)絡層的安全手段防止系統(tǒng)外部成員的非法侵入以及操作人員的越級操作,保護內(nèi)部網(wǎng)絡的高安全性。3.可靠性能有效的避免單點故障,在設備的選擇和關鍵設備的互聯(lián)時,應提供充分的冗余備份,一方面最大限度地減少故障的可能性,另一方面要保證網(wǎng)絡能在最短時間內(nèi)修復。4.成熟性和先進性系統(tǒng)結構設計、系統(tǒng)配置、系統(tǒng)管理方式等方面應采用國際上先進技術的同時又是成熟、實用的技術。5.高可用性具有較高的可靠性和可用性前提下,保證重要業(yè)務系統(tǒng)的正常運行。網(wǎng)絡設備在線故障恢復能力,關鍵設備、線路能做到實時備份和自動故障切換。網(wǎng)絡系統(tǒng)具有強大的容錯功能以確保各種應用的正常運行,在網(wǎng)絡設計上采用主控級、板卡接口級、電源以及設備網(wǎng)絡級全面的冗余配置。沒有單故障點。6.規(guī)范性系統(tǒng)設計所采用的技術和設備應符合國際標準、國家標準和業(yè)界標準,為系統(tǒng)的擴展升級、與其他系統(tǒng)的互聯(lián)提供良好的基礎。7.開放性和標準化在設計時,要求提供開放性好、標準化程度高的技術方案;設備的各種接口滿足開放和標準化原則。8.可擴展性所有系統(tǒng)設備不但滿足當前需要,并在擴充模塊后滿足可預見將來需求。保證建設完成后的系統(tǒng)在向新的技術升級時,能保護現(xiàn)有的投資。9.易管理性應易于管理,易于維護,易學,易用,便于進行系統(tǒng)配置,在設備、安全性、數(shù)據(jù)流量、性能等方面很好的監(jiān)視和控制,遠程管理和故障診斷。系統(tǒng)設計在對XXXXXX大數(shù)據(jù)平臺需求充分調(diào)研的基礎上,按照XXX大數(shù)據(jù)平臺對計算機網(wǎng)絡系統(tǒng)的需求,依托國家電子政務外網(wǎng)、互聯(lián)網(wǎng),提出計算機網(wǎng)絡系統(tǒng)解決方案。設計只涉及大數(shù)據(jù)平臺的網(wǎng)絡建設,各接入單位接入網(wǎng)絡自行建設。計算機網(wǎng)絡系統(tǒng)總體架構考慮運行在網(wǎng)絡系統(tǒng)上的各項業(yè)務子系統(tǒng)的功能,以及與互聯(lián)網(wǎng)、電子政務外網(wǎng)、基層單位的互聯(lián)互通。包含:業(yè)務網(wǎng)絡、管理網(wǎng)絡,網(wǎng)絡中要考慮網(wǎng)絡安全問題。在核心位置的框式交換機上采用防火墻插卡及IPS等安全插卡提供安全防護,并對不同業(yè)務區(qū)域進行安全域劃分和隔離。關于安全的設計,前面章節(jié)有詳細描述。為保證網(wǎng)絡維護的正常進行,應該將業(yè)務網(wǎng)絡和管理網(wǎng)絡分開部署。以下分別描述業(yè)務網(wǎng)絡和管理網(wǎng)絡??紤]XXX大數(shù)據(jù)平臺網(wǎng)絡的規(guī)模,為滿足設計要求并且網(wǎng)絡設計結構清晰明了,采用兩臺核心交換機,不再另外設計匯聚層及接入層。選擇具有一定路由功能的路由交換機,以便于和電子政務外網(wǎng)直接相連。隨著數(shù)據(jù)量的指數(shù)級增長,數(shù)據(jù)中心普遍采用萬兆服務器接入,采用兩臺框式數(shù)據(jù)中心交換機作集群(多虛一)。采用框式交換機集群是為便于管理和以后擴展以及增加可靠性。兩臺數(shù)據(jù)中心交換機上可以加插萬兆光接口卡、千兆電接口卡、防火墻插卡、IPS安全防護插卡等。本次XXX大數(shù)據(jù)平臺建設兩臺核心框式交換機各插以上接口卡一塊,建議萬兆接口卡至少有32個萬兆光接口卡用于連接服務器、存儲和安全設備,千兆電接口卡至少有16個千兆電接口卡用于外聯(lián)路由器、網(wǎng)管等設備,并留有適當冗余用于以后擴容。此外,核心交換機上除了已經(jīng)占用的接口卡槽位,應當留有至少兩個槽位用于以后擴容。圖STYLEREF2\s5.2SEQ圖\*ARABIC\s26XXX大數(shù)據(jù)平臺拓撲圖如圖所示XXX大數(shù)據(jù)平臺網(wǎng)絡拓撲圖:1.互聯(lián)網(wǎng)出口區(qū),通過一臺路由器和互聯(lián)網(wǎng)出口相連,向公眾提供互聯(lián)網(wǎng)訪問服務;2.通過千兆電接口和網(wǎng)絡運維區(qū)相連,保證有效運維網(wǎng)絡,同時運維區(qū)有運維安全設備提供運維安全服務;3.通過電接口和大數(shù)據(jù)虛擬化平臺區(qū)相連,對外提供門戶訪問(Web應用防火墻提供應用安全防護),對業(yè)務應用提供虛擬化服務;4.通過萬兆接口和大數(shù)據(jù)分析管理平臺區(qū)相連,提供大數(shù)據(jù)計算分析服務;5.通過千兆接口和電子政務外網(wǎng)出口區(qū)相連,提供不同XXX部門間的數(shù)據(jù)交換與共享服務;6.在核心交換機旁再外掛一臺數(shù)據(jù)庫審計設備提供數(shù)據(jù)層防護。計算機網(wǎng)絡系統(tǒng)配置表STYLEREF2\s5.2SEQ表\*ARABIC\s26網(wǎng)絡設備配置序號設備配置數(shù)量1核心交換機可做集群,至少6個業(yè)務插槽,至少配置32萬兆光接口卡,16千兆電接口卡,防火墻插卡,IPS入侵防御插卡各一塊。22管理交換機雙電源,48口千兆電交換機23路由器3個WAN口,2個以上LAN口14網(wǎng)絡管理平臺可以管理交換機、路由器、防火墻等設備,支持SNMP協(xié)議,管理各廠商支持SNMP協(xié)議的設備。1基礎支撐軟件地理信息軟件應用系統(tǒng)以空間地理信息服務為支撐,大部分功能均需在空間地理信息服務上進行實現(xiàn)。應用系統(tǒng)對GIS平臺的要求如下:1.基于SOA架構的GIS服務共享,GIS平臺必須:能夠支持構建基于面向服務的體系結構(SOA),以標準的WebService方式提供GIS服務,并與其他應用系統(tǒng)很好整合;能夠提供GIS服務的創(chuàng)建和管理框架,可以方便的創(chuàng)建和管理二維的地圖顯示服務,以及高級GIS分析服務,如地理定位、網(wǎng)絡分析等;支持多種GIS服務的疊加,如WMS、WFS、KML等。2.海量空間數(shù)據(jù)組織與管理,基于關系數(shù)據(jù)庫和對象關系數(shù)據(jù)庫的空間數(shù)據(jù)庫技術是大型GIS應用項目中廣泛采用的空間數(shù)據(jù)管理技術。平臺中空間數(shù)據(jù)包括影像、矢量、柵格等數(shù)據(jù),其特點為多源、多尺度、異構、海量。因此,GIS平臺要具有大數(shù)據(jù)量存儲、索引、訪問、操作和空間運算能力,而且要支持存儲拓撲關系和豐富的幾何對象類型等能力。3.空間數(shù)據(jù)互操作為空間數(shù)據(jù)集中式管理和分布存儲與共享提供了操作的依據(jù)。平臺中存在數(shù)據(jù)交換,就不可避免地會應用到各種不同來源的空間地理數(shù)據(jù),因此要求GIS平臺支持GIS領域(如OGC,ISO)和其他IT領域(如W3C和ISO)的互操作標準,能夠直接訪問多種GIS數(shù)據(jù)格式。因此GIS平臺應具備如下空間數(shù)據(jù)互操作要求:支持數(shù)據(jù)格式轉(zhuǎn)換;支持多源數(shù)據(jù)集成。4.安全體系保障,平臺中的數(shù)據(jù)對安全要求很高。除平臺本身提供的安全體系保障外,GIS平臺應該提供自身的安全體系,以管理不同用戶對所發(fā)布的服務和應用程序的訪問。5.支持豐富的客戶端應用,平臺涉及場所廣泛,因此,GIS平臺必須支持豐富的客戶端應用,包括基于瀏覽器的GIS訪問、移動設備、GIS桌面端應用等。6.較強的專題地圖生成能力專題地圖是GIS軟件根據(jù)屬性數(shù)據(jù)的不同分別給幾何對象采用不同風格顯示的表現(xiàn)形式。它是專題數(shù)據(jù)可視化展現(xiàn)的重要手段之一,在應急應用中具有重要的意義。7.強大的地圖編輯能力地圖編輯功能是多數(shù)GIS應用必需的功能,組件對象模型強大的地圖編輯功能可以省卻大量二次開發(fā)的精力。在平臺中都需要靈活便捷的地圖編輯功能。8.易于二次開發(fā)組件式開發(fā)方式已經(jīng)成為當前主流GIS應用二次開發(fā)方式,GIS平臺的組件開發(fā)能力與靈活性至關重要。9.支持跨平臺應用平臺中的GIS應用需要更高效率的服務器響應,而且出于穩(wěn)定和安全的數(shù)據(jù)服務和網(wǎng)絡發(fā)布服務的考慮,會需要采用組成跨平臺的網(wǎng)絡操作系統(tǒng)。ArcGIS產(chǎn)品滿足以上需求,為目前業(yè)界主流、成熟、穩(wěn)定產(chǎn)品,在XXX行業(yè)中的應用案例比較多。綜合考慮產(chǎn)品性能、未來發(fā)展趨勢以及XXX行業(yè)實際情況,采用ArcGIS產(chǎn)品作為地理信息軟件。操作系統(tǒng)軟件操作系統(tǒng)是用來提供安全、穩(wěn)定、良好、可靠的軟件運行環(huán)境。操作系統(tǒng)包括:虛擬化操作系統(tǒng)、大數(shù)據(jù)分析管理平臺操作系統(tǒng)、桌面操作系統(tǒng)、服務器操作系統(tǒng)、嵌入式操作系統(tǒng)等系統(tǒng),虛擬化操作系統(tǒng)在虛擬化平臺中描述、大數(shù)據(jù)分析管理平臺操作系統(tǒng)在大數(shù)據(jù)分析管理平臺中描述。本項目需要在虛擬機上部署服務器操作系統(tǒng),用于支持業(yè)務應用系統(tǒng),操作系統(tǒng)應該具備以下功能:完善的虛擬化平臺,支持網(wǎng)絡虛擬化;良好的擴展性與性能;高可用、易于管理,包括:故障轉(zhuǎn)移集群、DHCP服務器故障轉(zhuǎn)移;支持開放式的標準,如:HTML5等;Window2012Server具有很高的安全性、可靠性和實施簡易性。因此我們選用Window2012Server操作系統(tǒng)。除滿足以上要求以外,有以下幾大優(yōu)點:1.便于部署、管理和使用;2.安全的基礎結構;3.企業(yè)級可靠性、可用性、可伸縮性和性能。數(shù)據(jù)庫管理軟件平臺應用系統(tǒng)數(shù)據(jù)量大,并發(fā)用戶多,因此對數(shù)據(jù)庫管理的要求較高。數(shù)據(jù)庫管理系統(tǒng)應具備如下要求:1.數(shù)據(jù)庫性能較高,包括響應時間、數(shù)據(jù)單位時間吞吐量、內(nèi)存使用情況、系統(tǒng)輸入/輸出速率、SQL語句的執(zhí)行等;2.支持分布式應用;3.支持并行處理能力;4.可移植性和可擴展性強;5.具有數(shù)據(jù)完整性約束,數(shù)據(jù)完整性指數(shù)據(jù)的正確性和一致性保護,包括實體完整性、參照完整性、復雜的事務規(guī)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玻璃頂棚鋼結構合同
- 二零二五年度安全生產(chǎn)應急救援服務合同3篇
- 二零二五年度特種設備安全責任協(xié)議范本2篇
- 二零二五年企業(yè)法律培訓咨詢協(xié)議2篇
- 2025杭州市廣告承攬合同
- 二零二五年度個人車位產(chǎn)權轉(zhuǎn)讓與車位共享平臺合作協(xié)議3篇
- 二零二五年度新能源儲能合資合同協(xié)議3篇
- 2025房屋的室內(nèi)裝修合同模板
- 二零二五年度大型娛樂場所場地使用權出讓合同3篇
- 二零二五年度地下綜合管廊建設與運營合同3篇
- 物業(yè)前期介入與承接查驗要點精講培訓
- 四川省廣元市2022-2023學年八年級上學期語文期末試卷(含答案)
- 抗震支吊架-檢驗批質(zhì)量驗收記錄
- 【APP違規(guī)收集個人信息的法律問題分析9800字(論文)】
- 商品房預售合同簽約證明和預告登記申請書
- 質(zhì)量管理體系成熟度評估表
- 國際疾病分類腫瘤學專輯第3版應用課件
- 單體調(diào)試及試運方案
- 2023-2024學年浙江省杭州市城區(qū)數(shù)學四年級第一學期期末學業(yè)水平測試試題含答案
- 五星級酒店市場調(diào)研報告
- 車輛剮蹭私下解決協(xié)議書(3篇)
評論
0/150
提交評論