XX大型企業(yè)大數(shù)據(jù)平臺整體解決方案_第1頁
XX大型企業(yè)大數(shù)據(jù)平臺整體解決方案_第2頁
XX大型企業(yè)大數(shù)據(jù)平臺整體解決方案_第3頁
XX大型企業(yè)大數(shù)據(jù)平臺整體解決方案_第4頁
XX大型企業(yè)大數(shù)據(jù)平臺整體解決方案_第5頁
已閱讀5頁,還剩620頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

>>資料轉(zhuǎn)換管理系統(tǒng)(DataManagement,ETL) V4.0某大型企業(yè)大數(shù)據(jù)平臺整體解決方案V20190708-001某大型企業(yè)數(shù)據(jù)平臺整體解決方案

目錄1 項(xiàng)目概述 111.1 建設(shè)背景 111.1.1 集團(tuán)已有基礎(chǔ) 111.1.2 痛點(diǎn)及需提升的能力 111.1.3 大數(shù)據(jù)趨勢 121.2 建設(shè)目標(biāo) 121.2.1 總體目標(biāo) 121.2.2 分階段建設(shè)目標(biāo) 131.3 與相關(guān)系統(tǒng)的關(guān)系 141.3.1 數(shù)據(jù)分析綜合服務(wù)平臺 141.3.2 量收系統(tǒng) 151.3.3 金融大數(shù)據(jù)平臺 151.3.4 各生產(chǎn)系統(tǒng) 161.3.5 CRM 161.4 公司介紹和優(yōu)勢特點(diǎn) 161.4.1 IDEADATA 161.4.2 TRANSWARP 181.4.3 我們的優(yōu)勢 202 業(yè)務(wù)需求分析 232.1 總體需求 232.2 數(shù)據(jù)管理 242.2.1 數(shù)據(jù)采集 252.2.2 數(shù)據(jù)交換 252.2.3 數(shù)據(jù)存儲與管理 252.2.4 數(shù)據(jù)加工清洗 262.2.5 數(shù)據(jù)查詢計算 272.3 數(shù)據(jù)管控 282.4 數(shù)據(jù)分析與挖掘 282.5 數(shù)據(jù)展現(xiàn) 292.6 量收系統(tǒng)功能遷移 303 系統(tǒng)架構(gòu)設(shè)計 313.1 總體設(shè)計目標(biāo) 313.2 總體設(shè)計原則 313.3 案例分析建議 333.3.1 中國聯(lián)通大數(shù)據(jù)平臺 333.3.2 恒豐銀行大數(shù)據(jù)平臺 443.3.3 華通CDN運(yùn)營商海量日志采集分析系統(tǒng) 583.3.4 案例總結(jié) 643.4 系統(tǒng)總體架構(gòu)設(shè)計 653.4.1 總體技術(shù)框架 653.4.2 系統(tǒng)總體邏輯結(jié)構(gòu) 693.4.3 平臺組件關(guān)系 723.4.4 系統(tǒng)接口設(shè)計 783.4.5 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu) 834 系統(tǒng)功能設(shè)計 864.1 概述 864.2 平臺管理功能 874.2.1 多應(yīng)用管理 874.2.2 多租戶管理 914.2.3 統(tǒng)一運(yùn)維監(jiān)控 924.2.4 作業(yè)調(diào)度管理 1124.3 數(shù)據(jù)管理 1144.3.1 數(shù)據(jù)管理框架 1144.3.2 數(shù)據(jù)采集 1174.3.3 數(shù)據(jù)交換 1204.3.4 數(shù)據(jù)存儲與管理 1224.3.5 數(shù)據(jù)加工清洗 1434.3.6 數(shù)據(jù)計算 1444.3.7 數(shù)據(jù)查詢 1634.4 數(shù)據(jù)管控 1854.4.1 主數(shù)據(jù)管理 1854.4.2 元數(shù)據(jù)管理技術(shù) 1874.4.3 數(shù)據(jù)質(zhì)量 1916)數(shù)據(jù)清理 1924.5 數(shù)據(jù)ETL 1994.6 數(shù)據(jù)分析與挖掘 2024.6.1 數(shù)據(jù)分析流程 2044.6.2 R語言開發(fā)環(huán)境與接口 2064.6.3 并行化R算法支持 2064.6.4 可視化R軟件包 2104.6.5 編程語言支持 2124.6.6 自然語言處理和文本挖掘 2124.6.7 實(shí)時分析 2134.6.8 分析管理 2144.6.9 分析支持 2184.6.10 指標(biāo)維護(hù) 2194.6.11 分析流程固化 2194.6.12 分析結(jié)果發(fā)布 2194.6.13 環(huán)境支持 2204.7 數(shù)據(jù)展現(xiàn) 2204.7.1 交互式報表 2234.7.2 儀表盤 2294.7.3 即席查詢 2304.7.4 內(nèi)存分析 2314.7.5 移動分析 2324.7.6 電子地圖支持 2335 技術(shù)要求實(shí)現(xiàn) 2355.1 產(chǎn)品架構(gòu) 2355.1.1 基礎(chǔ)構(gòu)建平臺 2395.1.2 大數(shù)據(jù)平臺組件功能介紹 2405.1.3 系統(tǒng)分布式架構(gòu) 2855.2 運(yùn)行環(huán)境支持 2885.2.1 系統(tǒng)操作支持以及環(huán)境配置 2885.2.2 與第三方軟件平臺的兼容說明 2895.3 客戶端支持 2905.3.1 客戶端支持 2905.3.2 移動端支持 2915.4 數(shù)據(jù)支持 2915.5 集成實(shí)現(xiàn) 2935.6 運(yùn)維實(shí)現(xiàn) 2955.6.1 運(yùn)維目標(biāo) 2955.6.2 運(yùn)維服務(wù)內(nèi)容 2965.6.3 運(yùn)維服務(wù)流程 2995.6.4 運(yùn)維服務(wù)制度規(guī)范 3015.6.5 應(yīng)急服務(wù)響應(yīng)措施 3025.6.6 平臺監(jiān)控兼容 3035.6.7 資源管理 3035.6.8 系統(tǒng)升級 3065.6.9 系統(tǒng)監(jiān)控平臺功能 3065.7 平臺性能 3165.7.1 集群切換 3165.7.2 節(jié)點(diǎn)切換 3185.7.3 性能調(diào)優(yōu) 3195.7.4 并行化高性能計算 3255.7.5 計算性能線性擴(kuò)展 3285.8 平臺擴(kuò)展性 3305.9 可靠性和可用性 3325.9.1 單點(diǎn)故障消除 3325.9.2 容災(zāi)備份優(yōu)化 3335.9.3 系統(tǒng)容錯性 3395.10 開放性和兼容性 3415.10.1 高度支持開源 3455.10.2 操作系統(tǒng)支持以及軟件環(huán)境配置 3575.10.3 兼容性與集成能力 3585.11 安全性 3595.11.1 身份鑒別 3605.11.2 訪問控制 3615.11.3 安全通訊 3685.12 核心產(chǎn)品優(yōu)勢 3685.12.1 高速運(yùn)算、統(tǒng)計分析和精確查詢 3685.12.2 有效的資源利用 3705.12.3 高并發(fā)、低延遲性能優(yōu)化 3725.12.4 計算資源有效管控 3725.12.5 API設(shè)計和開發(fā)工具支持 3745.12.6 友好的運(yùn)維監(jiān)控界面 3775.12.7 擴(kuò)容、備份、恢復(fù)機(jī)制 3815.12.8 集群自動負(fù)載均衡 3835.12.9 計算能力擴(kuò)展 3835.13 自主研發(fā)技術(shù)優(yōu)勢 3845.13.1 高穩(wěn)定、高效的計算引擎Inceptor 3845.13.2 完整的SQL編譯引擎 3855.13.3 高性能的SQL分析引擎 3865.13.4 SQL統(tǒng)計分析能力 3875.13.5 完整的CURD功能 3885.13.6 Hyperbase高效的檢索能力 3895.13.7 基于Hyperbase和SQL引擎的高并發(fā)分布式事務(wù) 3925.13.8 Hyperbase非結(jié)構(gòu)化數(shù)據(jù)的支持 3935.13.9 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘 3945.13.10 TranswarpStream 3995.13.11 內(nèi)存/SSD/磁盤混合存儲 4015.13.12 MR/Spark/流處理統(tǒng)一平臺 4035.13.13 多租戶支持能力 4045.13.14 多租戶安全功能 4055.13.15 標(biāo)準(zhǔn)JDBC與ODBC接口 4066 系統(tǒng)性能指標(biāo)和測試結(jié)果說明 4086.1 性能測試報告 4086.1.1 測試目標(biāo) 4086.1.2 測試內(nèi)容 4086.1.3 測試環(huán)境 4096.1.4 測試過程和結(jié)果 4106.2 TPC-DS測試報告 4136.2.1 測試目標(biāo) 4136.2.2 測試內(nèi)容 4136.2.3 測試環(huán)境 4156.2.4 測試過程和結(jié)果 4166.3 量收遷移驗(yàn)證性測試報告 4176.3.1 測試目標(biāo) 4176.3.2 測試內(nèi)容 4176.3.3 測試環(huán)境 4186.3.4 串行執(zhí)行情況 4196.3.5 并行執(zhí)行情況 4206.3.6 生產(chǎn)表數(shù)據(jù)規(guī)模 4216.3.7 測試結(jié)果 4236.4 某銀行性能測試報告 4246.4.1 測試目標(biāo) 4246.4.2 測試內(nèi)容 4246.4.3 測試環(huán)境 4246.4.4 測試過程和結(jié)果 4257 系統(tǒng)配置方案 4397.1 硬件系統(tǒng)配置建議 4397.1.1 基礎(chǔ)Hadoop平臺集群配置規(guī)劃 4397.1.2 數(shù)據(jù)倉庫集群配置規(guī)劃 4427.1.3 集群規(guī)模綜述 4447.1.4 開發(fā)集群配置建議 4447.1.5 測試集群配置建議 4457.2 軟件配置建議 4467.3 軟硬件配置總表 4487.4 網(wǎng)絡(luò)拓?fù)?4508 系統(tǒng)測試 4518.1 系統(tǒng)測試方法 4518.2 系統(tǒng)測試階段 4528.3 系統(tǒng)測試相關(guān)提交物 4549 項(xiàng)目實(shí)施 4559.1 項(xiàng)目實(shí)施總體目標(biāo) 4559.2 項(xiàng)目管理 4559.3 業(yè)務(wù)確認(rèn) 4569.4 數(shù)據(jù)調(diào)研 4579.5 系統(tǒng)設(shè)計階段 4589.6 集成部署階段 4599.7 ETL過程設(shè)計 4609.8 ETL開發(fā)與測試 4619.9 系統(tǒng)開發(fā)階段 4629.10 系統(tǒng)測試階段 4639.11 系統(tǒng)上線及驗(yàn)收 4649.12 提交物 4679.13 系統(tǒng)的交接與知識轉(zhuǎn)移 46910 項(xiàng)目管理 47110.1 項(xiàng)目總體管理 47110.1.1 項(xiàng)目實(shí)施總流程 47110.1.2 項(xiàng)目實(shí)施中各階段的主要任務(wù) 47110.1.3 項(xiàng)目組織架構(gòu) 47710.1.4 項(xiàng)目負(fù)責(zé)人及主要成員 48310.1.5 項(xiàng)目管理制度 56610.2 項(xiàng)目質(zhì)量管理 57010.2.1 范圍 57010.2.2 過程目標(biāo) 57010.2.3 角色與職責(zé) 57110.2.4 過程活動 57310.3 項(xiàng)目計劃 57611 安全保密 58912 知識產(chǎn)權(quán) 59113 技術(shù)服務(wù) 59313.1 現(xiàn)場支持服務(wù) 59313.2 標(biāo)準(zhǔn)售后技術(shù)服務(wù) 59413.2.1 提供預(yù)防性維護(hù) 59413.2.2 系統(tǒng)升級服務(wù) 59513.2.3 系統(tǒng)性能優(yōu)化 59513.2.4 提供系統(tǒng)完整文檔 59613.2.5 定期系統(tǒng)健康檢查服務(wù) 59613.2.6 應(yīng)急預(yù)案 59713.3 承諾 59813.3.1 我方對集團(tuán)的承諾 59813.3.2 關(guān)于開發(fā)隊伍的承諾 59813.4 技術(shù)保證 59813.4.1 方案實(shí)用性保證 59813.4.2 應(yīng)用系統(tǒng)的運(yùn)行能力的保證 59913.4.3 預(yù)防性維護(hù)檢修內(nèi)容 59913.4.4 服務(wù)響應(yīng) 60013.4.5 關(guān)于軟件維護(hù)的保證 60013.4.6 專業(yè)服務(wù)保證 60113.4.7 售后服務(wù)流程及時限 60114 人員培訓(xùn) 60314.1 Hadoop系統(tǒng)培訓(xùn) 60414.2 業(yè)務(wù)使用培訓(xùn) 60514.3 分析挖掘培訓(xùn) 60614.4 運(yùn)行維護(hù)培訓(xùn) 60814.5 開發(fā)培訓(xùn) 61014.5.1 培訓(xùn)目標(biāo) 61414.5.2 培訓(xùn)方式 61514.5.3 培訓(xùn)資源 615項(xiàng)目概述建設(shè)背景集團(tuán)已有基礎(chǔ)經(jīng)過十幾年的信息化建設(shè),集團(tuán)已經(jīng)積累了覆蓋郵務(wù)、速遞物流、金融三大板塊的海量生產(chǎn)和經(jīng)營數(shù)據(jù),這些數(shù)據(jù)分布在集團(tuán)各類應(yīng)用系統(tǒng)和數(shù)據(jù)庫中,支撐著集團(tuán)業(yè)務(wù)的發(fā)展。集團(tuán)初步搭建了由名址系統(tǒng)、量收系統(tǒng)、速遞平臺系統(tǒng)、數(shù)據(jù)分析平臺組成的初步的數(shù)據(jù)倉庫,為數(shù)據(jù)分析挖掘工作打下了一定的技術(shù)基礎(chǔ)。組建了專業(yè)的組織架構(gòu)促進(jìn)企業(yè)數(shù)據(jù)管理與應(yīng)用的規(guī)范化與制度化。集團(tuán)已成立數(shù)據(jù)中心,集團(tuán)數(shù)據(jù)中心和各省的數(shù)據(jù)分析團(tuán)隊已經(jīng)進(jìn)行了多個專題的數(shù)據(jù)分析與成果應(yīng)用的嘗試。痛點(diǎn)及需提升的能力集團(tuán)擁有豐富的客戶資源,海量的數(shù)據(jù)積累。在大數(shù)據(jù)時代,要充分挖掘數(shù)據(jù)價值,跟上時代的步伐。板塊間數(shù)據(jù)存在壁壘,共享不足,無法實(shí)現(xiàn)集團(tuán)企業(yè)數(shù)據(jù)的充分有效利用。數(shù)據(jù)存在冗余、分散、安全性差、一致性差等問題,應(yīng)建立有效的數(shù)據(jù)管控體系,打破信息孤島、實(shí)現(xiàn)企業(yè)信息數(shù)據(jù)共享、提升數(shù)據(jù)價值。非/半結(jié)構(gòu)化數(shù)據(jù)利用不足,需利用大數(shù)據(jù)技術(shù)加強(qiáng)應(yīng)用。大數(shù)據(jù)趨勢隨著移動互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,現(xiàn)代社會已經(jīng)邁入全新的大數(shù)據(jù)時代。掌握大數(shù)據(jù)資產(chǎn),進(jìn)行智能化決策,已成為企業(yè)勝出的關(guān)鍵。越來越多的企業(yè)開始重視大數(shù)據(jù)戰(zhàn)略布局,重新定義自己的核心競爭力,從數(shù)據(jù)中揭示規(guī)律,了解過去、知悉現(xiàn)在、洞察未來,數(shù)據(jù)驅(qū)動企業(yè)運(yùn)行與決策的科學(xué)性,構(gòu)建智慧企業(yè),打造核心競爭力。數(shù)據(jù)的爆炸式增長以及價值的擴(kuò)大化,將對企業(yè)未來的發(fā)展產(chǎn)生深遠(yuǎn)的影響,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。如何應(yīng)對大數(shù)據(jù),挖掘大數(shù)據(jù)的價值,讓大數(shù)據(jù)為企業(yè)的發(fā)展保駕護(hù)航,將是未來信息技術(shù)發(fā)展道路上關(guān)注的重點(diǎn)。建設(shè)目標(biāo)總體目標(biāo)根據(jù)集團(tuán)信息化規(guī)劃,遵循“互聯(lián)網(wǎng)+”的理念,建設(shè)集團(tuán)大數(shù)據(jù)平臺,實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源的集中及整合,構(gòu)建集團(tuán)統(tǒng)一的數(shù)據(jù)模型,提高企業(yè)數(shù)據(jù)的處理效率與共享程度。實(shí)現(xiàn)對集團(tuán)企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)的分析挖掘,對內(nèi)對外提供數(shù)據(jù)服務(wù)。為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營銷、服務(wù)支撐、風(fēng)險管控以及流程優(yōu)化等支撐服務(wù)。集團(tuán)大數(shù)據(jù)平臺將在Hadoop和云計算等技術(shù)的基礎(chǔ)上,對現(xiàn)有量收系統(tǒng)、數(shù)據(jù)分析綜合服務(wù)平臺的歷史數(shù)據(jù)、數(shù)據(jù)模型、報表應(yīng)用等進(jìn)行移植,全面整合集團(tuán)業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)來源涵蓋集團(tuán)所有的生產(chǎn)和管理系統(tǒng),并可接入同業(yè)及相關(guān)市場甚至互聯(lián)網(wǎng)信息,建立從業(yè)務(wù)層到管理層到?jīng)Q策層的智能分析體系,模擬量化風(fēng)險和收益,實(shí)現(xiàn)對集團(tuán)各種業(yè)務(wù)數(shù)據(jù)進(jìn)行分類、管理、統(tǒng)計和分析等功能,給各級管理人員提供各類準(zhǔn)確的統(tǒng)計分析預(yù)測數(shù)據(jù),使其能夠及時掌握全面的經(jīng)營狀況,為宏觀決策提供支持;為基層業(yè)務(wù)人員提供詳盡的數(shù)據(jù),供其對各自的工作目標(biāo)、當(dāng)前和歷史狀況進(jìn)行準(zhǔn)確的把握,對業(yè)務(wù)活動進(jìn)行有效支撐;滿足集團(tuán)經(jīng)營管理及決策支持,建設(shè)國內(nèi)一流,世界領(lǐng)先的大數(shù)據(jù)平臺。分階段建設(shè)目標(biāo)第一階段目標(biāo)利用大數(shù)據(jù)技術(shù),搭建大數(shù)據(jù)平臺,實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)交換、數(shù)據(jù)管控、企業(yè)級數(shù)據(jù)分析、數(shù)據(jù)可視化展現(xiàn)服務(wù)等功能。完成郵務(wù)和速遞數(shù)據(jù)資源的歸集、加工和整理,取代現(xiàn)有的量收系統(tǒng),集成現(xiàn)有的數(shù)據(jù)分析綜合服務(wù)平臺,搭建高性能、擴(kuò)展性強(qiáng)的數(shù)據(jù)計算和數(shù)據(jù)分析環(huán)境。建立集團(tuán)統(tǒng)一的數(shù)據(jù)模型,實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化和規(guī)范化。對集團(tuán)各板塊及外部的結(jié)構(gòu)化數(shù)據(jù)、半/非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集和存儲,圍繞“服務(wù)支撐、風(fēng)險管控、流程優(yōu)化、交叉營銷、產(chǎn)品創(chuàng)新、決策支持”六個重點(diǎn)應(yīng)用方向進(jìn)行大數(shù)據(jù)成果應(yīng)用。第二階段目標(biāo)全方位整合集團(tuán)數(shù)據(jù)資源,利用專業(yè)的數(shù)據(jù)分析工具,提升數(shù)據(jù)分析質(zhì)量與效率,完善數(shù)據(jù)分析應(yīng)用模型及相關(guān)指標(biāo),深入推廣六個重點(diǎn)應(yīng)用方向,逐步提供面向移動互聯(lián)網(wǎng)的快速服務(wù),不斷優(yōu)化生產(chǎn)工作流程,實(shí)現(xiàn)降本增效,為科學(xué)運(yùn)營和決策提供支撐。與相關(guān)系統(tǒng)的關(guān)系數(shù)據(jù)分析綜合服務(wù)平臺數(shù)據(jù)分析綜合服務(wù)平臺是依托集團(tuán)綜合網(wǎng),實(shí)現(xiàn)郵務(wù)數(shù)據(jù)集中及整合,為集團(tuán)公司和各省分公司提供企業(yè)數(shù)據(jù)分析挖掘服務(wù),對內(nèi)對外提供數(shù)據(jù)服務(wù)的信息系統(tǒng)。該系統(tǒng)使用Oracle數(shù)據(jù)庫,目前數(shù)據(jù)量已達(dá)到9TB,平均日增長量約22GB。目前該系統(tǒng)已經(jīng)對接了13個業(yè)務(wù)系統(tǒng)(集郵系統(tǒng)、報刊系統(tǒng)、電商平臺-機(jī)票、網(wǎng)運(yùn)系統(tǒng)、郵資封片卡系統(tǒng)、短信平臺、農(nóng)資分銷系統(tǒng)、賀卡兌獎平臺、營業(yè)系統(tǒng)、投遞系統(tǒng)、客管系統(tǒng)、訂單系統(tǒng)、國際業(yè)務(wù)平臺),實(shí)現(xiàn)了31個省的郵務(wù)類數(shù)據(jù)的上傳及下載。系統(tǒng)實(shí)現(xiàn)將數(shù)據(jù)由全國中心推送至省中心;實(shí)現(xiàn)已有專題分析的固化,包括報刊、約投掛號、國內(nèi)國際小包專題分析結(jié)果的固化展現(xiàn);實(shí)現(xiàn)將接入系統(tǒng)的數(shù)據(jù)按照業(yè)務(wù)規(guī)則進(jìn)行后臺加載、評估、清洗、重構(gòu),并按照客戶維度進(jìn)行數(shù)據(jù)整合;提供對內(nèi)對外數(shù)據(jù)服務(wù),支持客戶數(shù)據(jù)的上傳和結(jié)果下載、郵編匹配、地址清洗匹配等功能。數(shù)據(jù)分析綜合服務(wù)平臺是大數(shù)據(jù)平臺的子集,數(shù)據(jù)分析綜合服務(wù)平臺的數(shù)據(jù)是大數(shù)據(jù)平臺的數(shù)據(jù)集市之一。量收系統(tǒng)量收系統(tǒng)是通過從集團(tuán)生產(chǎn)經(jīng)營業(yè)務(wù)系統(tǒng)及其他相關(guān)系統(tǒng)中自動采集、匯總、上傳業(yè)務(wù)量、業(yè)務(wù)收入信息(簡稱量收信息),進(jìn)行稽核、查詢、分析、預(yù)警等應(yīng)用的信息管理系統(tǒng)。該系統(tǒng)使用Teradata的數(shù)據(jù)倉庫和Oracle的數(shù)據(jù)庫,數(shù)據(jù)使用空間已接近15TB。目前該系統(tǒng)已經(jīng)對接了8個業(yè)務(wù)系統(tǒng)(速遞平臺、集郵系統(tǒng)、營業(yè)系統(tǒng)、訂單系統(tǒng)、報刊系統(tǒng)、農(nóng)資分銷系統(tǒng)、郵資機(jī)管理系統(tǒng)、電商平臺),此外,通過營業(yè)系統(tǒng)還接入商函、國際普郵、電子商務(wù)、短信等業(yè)務(wù)數(shù)據(jù)?,F(xiàn)有使用用戶2.9萬個,提供近500張報表的查詢,實(shí)現(xiàn)集團(tuán)業(yè)務(wù)量收入的統(tǒng)計分析,為企業(yè)的經(jīng)營管理起到了很重要的作用,但隨著管理要求的不斷提高,量收系統(tǒng)的能力已捉襟見肘。集團(tuán)大數(shù)據(jù)平臺建成后,將替代量收系統(tǒng)。金融大數(shù)據(jù)平臺大數(shù)據(jù)平臺從金融大數(shù)據(jù)平臺獲取金融客戶、市場營銷等數(shù)據(jù)分析結(jié)果以及相關(guān)數(shù)據(jù),與金融大數(shù)據(jù)平臺互為數(shù)據(jù)源,用于支撐集團(tuán)郵務(wù)、速遞物流和金融板塊對數(shù)據(jù)分析的需求。各生產(chǎn)系統(tǒng)大數(shù)據(jù)平臺從各生產(chǎn)系統(tǒng)獲取交易數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)等,對數(shù)據(jù)進(jìn)行分析挖掘,將分析成果反饋回各生產(chǎn)系統(tǒng)用于支撐生產(chǎn)運(yùn)營。CRMCRM系統(tǒng)實(shí)現(xiàn)以客戶為中心的集團(tuán)與板塊間的協(xié)同管控,以及集團(tuán)各環(huán)節(jié)間客戶營銷及服務(wù)的協(xié)同管理。大數(shù)據(jù)平臺將實(shí)現(xiàn)CRM系統(tǒng)的部分?jǐn)?shù)據(jù)分析功能。公司介紹和優(yōu)勢特點(diǎn)IDEADATA北京愛狄特信息科技有限公司(IDEADATA)成立于2011年3月,總部設(shè)在北京,在南京及沈陽等地設(shè)有技術(shù)研發(fā)中心和辦事機(jī)構(gòu)。公司注冊資金2080萬,是北京市高新技術(shù)企業(yè)。公司專注于企業(yè)級數(shù)據(jù)(倉)庫和大數(shù)據(jù)領(lǐng)域的技術(shù)和應(yīng)用,業(yè)務(wù)和技術(shù)能力發(fā)展迅速,核心和骨干成員均具有領(lǐng)域內(nèi)資深的業(yè)務(wù)經(jīng)驗(yàn)、技術(shù)能力以及落地實(shí)踐,對基于從集群到云平臺、從傳統(tǒng)數(shù)據(jù)庫到MPP以及Hadoop的各種數(shù)據(jù)管理和應(yīng)用平臺架構(gòu)及演進(jìn)路線圖均有深刻的理解和積累。公司通過不斷的實(shí)踐積累,獨(dú)立研發(fā)了包括結(jié)構(gòu)化、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)在內(nèi)的一系列從數(shù)據(jù)獲?。ǔ槿。?、數(shù)據(jù)管理到數(shù)據(jù)應(yīng)用的多項(xiàng)擁有自主知識產(chǎn)權(quán)的產(chǎn)品和服務(wù),包括數(shù)據(jù)平臺交互系統(tǒng)、數(shù)據(jù)BI分析系統(tǒng)、智能地址匹配系統(tǒng)、互聯(lián)網(wǎng)信息獲取與分析系統(tǒng)(iRIS)、自然語言處理(iNLP)和機(jī)器學(xué)習(xí)挖掘算法等方面。另外,公司積極與國內(nèi)外大數(shù)據(jù)領(lǐng)域先進(jìn)的解決方案、平臺和工具廠商包括Teradata、南大通用、IBM、星環(huán)科技(Transwarp)、Trinity和SAS等都有深入和緊密的合作關(guān)系及基礎(chǔ)。在質(zhì)量管理體系上,公司以GB/T19001-2008《質(zhì)量管理體系-要求》為標(biāo)準(zhǔn),進(jìn)行周密的質(zhì)量管理體系策劃,建立了完整的質(zhì)量管理體系,獲得了認(rèn)證中心頒發(fā)的質(zhì)量管理體系認(rèn)證證書。公司在組織結(jié)構(gòu)中設(shè)立了過程管控委員會,專職負(fù)責(zé)貫徹實(shí)施公司質(zhì)量方針、質(zhì)量目標(biāo),維護(hù)ISO9001質(zhì)量管理體系有效運(yùn)行,控制產(chǎn)品質(zhì)量,實(shí)現(xiàn)產(chǎn)品和服務(wù)質(zhì)量的持續(xù)改進(jìn)。公司財務(wù)及營運(yùn)狀況良好,具有一般納稅人資格,具備獨(dú)立、完整的會計核算和內(nèi)部控制體系,配備專業(yè)的會計核算與管理人員,財務(wù)核算制度健全,能夠據(jù)以如實(shí)核算,準(zhǔn)確及時的反映生產(chǎn)經(jīng)營成果。公司嚴(yán)格執(zhí)行企業(yè)會計準(zhǔn)則和《企業(yè)會計制度》的有關(guān)規(guī)定,以權(quán)責(zé)發(fā)生制為記賬原則,以實(shí)際成本為計價基礎(chǔ),財務(wù)報表在所有重大方面均能公允反映公司的財務(wù)狀況以及經(jīng)營成果和現(xiàn)金流量。公司始終堅持“服務(wù)的價值在于幫助客戶成功”的理念,為客戶提供的產(chǎn)品和服務(wù)追求“專業(yè)、專注、極致、價值”。TRANSWARP星環(huán)信息科技(上海)有限公司(以下簡稱“星環(huán)公司”)是一家高科技大數(shù)據(jù)公司。公司致力于大數(shù)據(jù)基礎(chǔ)軟件的研發(fā),目前擁有超過300人的Hadoop專業(yè)團(tuán)隊,大部分來自于IBM、Intel、Microsoft、Oracle、EMC等知名企業(yè),其中技術(shù)研發(fā)人員占80%以上。無論是團(tuán)隊規(guī)模,還是人員的整體能力,在全球大數(shù)據(jù)平臺領(lǐng)域都處于領(lǐng)先位置。在國際知名咨詢機(jī)構(gòu)Gartner發(fā)布的2016版數(shù)據(jù)倉庫及數(shù)據(jù)管理解決方案市場的魔力象限報告中,來自中國的公司星環(huán)科技(Transwarp)是唯一一家上榜的中國公司,也是魔力象限遠(yuǎn)見者(Visionaries)領(lǐng)域中全球最具有前瞻性的公司。圖2-1Gartner2016數(shù)據(jù)倉庫魔力象限評測結(jié)果星環(huán)科技從事大數(shù)據(jù)核心平臺的研發(fā)與服務(wù),基于TDH大數(shù)據(jù)平臺軟件全國產(chǎn)化,將大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)倉庫結(jié)合,已經(jīng)為國內(nèi)多家金融銀行機(jī)構(gòu)提供專業(yè)化的數(shù)據(jù)倉庫服務(wù),包括江蘇銀行、恒豐銀行、民生銀行、中泰證券等。星環(huán)公司已經(jīng)在國內(nèi)建立200多個大數(shù)據(jù)應(yīng)用案例,覆蓋行業(yè)包括金融、運(yùn)營商、互聯(lián)網(wǎng)、政府、能源、制造業(yè)、軍工、教育、交通運(yùn)輸、公安等行業(yè),目前是國內(nèi)市場落地案例最多、應(yīng)用范圍最為廣泛的大數(shù)據(jù)平臺提供商,星環(huán)公司已經(jīng)成為全球矚目的大數(shù)據(jù)平臺商。我們的優(yōu)勢北京愛狄特信息科技有限公司與星環(huán)信息科技(上海)有限公司緊密協(xié)作,參與集團(tuán)大數(shù)據(jù)平臺項(xiàng)目建設(shè),與其他友商相比具有以下四方面的優(yōu)勢特點(diǎn):圖2-2公司優(yōu)勢大數(shù)據(jù)平臺產(chǎn)品技術(shù)優(yōu)勢SQLonHadoop技術(shù)領(lǐng)先國內(nèi)外廠商。SQL99、SQL2003標(biāo)準(zhǔn)的全面兼容性,支持PL/SQL、分布式事務(wù)、分布式內(nèi)存OLAP/Cube等平臺特性,為企業(yè)級數(shù)倉建設(shè)奠定堅實(shí)的平臺基礎(chǔ)。國內(nèi)首家實(shí)現(xiàn)并成功運(yùn)用HadooponDocker分布式容器集群管理平臺技術(shù)。TranswarpOperatingSystem(TOS)是為大數(shù)據(jù)應(yīng)用量身訂做的云操作系統(tǒng),支持一鍵部署TDH,基于優(yōu)先級的搶占式資源調(diào)度和細(xì)粒度資源分配,讓大數(shù)據(jù)應(yīng)用輕松擁抱云服務(wù)。具有基于Hadoop平臺成功建設(shè)企業(yè)級數(shù)倉的豐富經(jīng)驗(yàn) 星環(huán)Hadoop平臺產(chǎn)品已在國內(nèi)100多個大數(shù)據(jù)項(xiàng)目建設(shè)中得以應(yīng)用,行業(yè)覆蓋金融、運(yùn)營商、互聯(lián)網(wǎng)、政府、能源等行業(yè),其中有多個基于Hadoop平臺完全實(shí)現(xiàn)企業(yè)級數(shù)倉系統(tǒng)的成功案例,在企業(yè)級數(shù)倉平滑可靠遷移及替換國外MPP數(shù)倉系統(tǒng)、高性價比提升企業(yè)數(shù)倉性能方面,積累了豐富的實(shí)踐經(jīng)驗(yàn)。作為Hadoop創(chuàng)新應(yīng)用的開拓者,星環(huán)公司目前已成為在國內(nèi)市場落地案例最多、應(yīng)用范圍最為廣泛的大數(shù)據(jù)平臺提供商。大數(shù)據(jù)分析挖掘團(tuán)隊的專業(yè)實(shí)施經(jīng)驗(yàn)優(yōu)勢 愛狄特公司在大數(shù)據(jù)可視化交互展現(xiàn)和多維分析查詢、大數(shù)據(jù)分析挖掘、自然語言處理(iNLP)、地址清洗匹配服務(wù)等方面積累了自有的產(chǎn)品技術(shù)并成功運(yùn)用到集團(tuán)、金融保險、IT等行業(yè)。經(jīng)歷多年大數(shù)據(jù)實(shí)戰(zhàn)項(xiàng)目的鍛煉,培養(yǎng)建立起了一支專業(yè)的大數(shù)據(jù)分析挖掘團(tuán)隊,能夠運(yùn)用多種分析挖掘工具和并行化算法庫,從大數(shù)據(jù)中挖掘客戶價值,為集團(tuán)、金融、IT等行業(yè)的經(jīng)營分析、決策支持提供專業(yè)的技術(shù)支持服務(wù)。集團(tuán)項(xiàng)目實(shí)施經(jīng)驗(yàn)優(yōu)勢 愛狄特公司有多名核心技術(shù)骨干人員參與過集團(tuán)的量收系統(tǒng)、全國名址、EMS平臺、綜分平臺等大型項(xiàng)目的總體架構(gòu)設(shè)計、應(yīng)用系統(tǒng)開發(fā)、數(shù)倉建設(shè)及系統(tǒng)運(yùn)維等工作,熟悉現(xiàn)有數(shù)倉系統(tǒng)的數(shù)據(jù)模型、ETL流程及匯總處理程序、數(shù)據(jù)接口格式及應(yīng)用集成要求等,對現(xiàn)有數(shù)倉的遷移及大數(shù)據(jù)平臺應(yīng)用做了充分的PoC實(shí)驗(yàn)驗(yàn)證,明悉遷移工作中的難點(diǎn)及重點(diǎn)問題并有針對性的風(fēng)險防范及管控措施加以解決。因而,我方的集團(tuán)項(xiàng)目實(shí)施經(jīng)驗(yàn)結(jié)合極具優(yōu)勢的大數(shù)據(jù)平臺產(chǎn)品技術(shù),我方有充分的信心,在短時間內(nèi)高質(zhì)量、高可靠地完成本項(xiàng)目任務(wù)。業(yè)務(wù)需求分析總體需求大數(shù)據(jù)平臺應(yīng)支持集團(tuán)總部、省和地市三級使用方式。使用單位還包括下屬單位和控股公司等。大數(shù)據(jù)平臺要求使用Hadoop系統(tǒng)應(yīng)實(shí)現(xiàn)主流數(shù)據(jù)倉庫的功能,同時支持與現(xiàn)有系統(tǒng)Oracle數(shù)據(jù)庫及Teradata數(shù)據(jù)倉庫的無縫連接。大數(shù)據(jù)平臺需支持多應(yīng)用管理,即支持對應(yīng)用的服務(wù)級別管理(SLA)。能夠?qū)崿F(xiàn)應(yīng)用的訪問資源控制,支持資源隔離。同時支持多租戶功能,例如多租戶管理、租戶的操作員管理、租戶的分等分級分組管理、租戶的度量管理、租戶的角色管理、租戶應(yīng)用授權(quán)、租戶數(shù)據(jù)隔離、租戶的資源隔離等功能。大數(shù)據(jù)平臺應(yīng)具有統(tǒng)一運(yùn)維監(jiān)控方面,可以圖形化的實(shí)現(xiàn)安全管理、用戶管理、監(jiān)控運(yùn)維、服務(wù)調(diào)度、應(yīng)用部署、資源管理、作業(yè)編排、服務(wù)接口等。大數(shù)據(jù)平臺應(yīng)同時支持作業(yè)調(diào)度管理,即實(shí)現(xiàn)統(tǒng)一的作業(yè)調(diào)度與編排管理功能,支持使用工作流的可視化的方式對工作任務(wù)進(jìn)行統(tǒng)一編排和調(diào)度。同時支持作業(yè)的資源管理、流程管理、任務(wù)管理、數(shù)據(jù)管理、應(yīng)用管理、租戶管理、多ETL調(diào)度任務(wù)的部署和并行處理等功能。集團(tuán)大數(shù)據(jù)平臺的建設(shè)內(nèi)容包含:圖3-1大數(shù)據(jù)平臺建設(shè)內(nèi)容重點(diǎn)建設(shè)內(nèi)容包括:基礎(chǔ)平臺建設(shè)量收遷移六大重點(diǎn)應(yīng)用與CRM、綜分、MDM等系統(tǒng)的融合基于大數(shù)據(jù)平臺的數(shù)據(jù)應(yīng)用。數(shù)據(jù)管理集團(tuán)大數(shù)據(jù)平臺的數(shù)據(jù)管理,包含數(shù)據(jù)采集、數(shù)據(jù)交換、數(shù)據(jù)存儲與管理(包含結(jié)構(gòu)化數(shù)據(jù)管理、半/非結(jié)構(gòu)化數(shù)據(jù)管理、數(shù)據(jù)存儲等)、數(shù)據(jù)清洗加工、數(shù)據(jù)計算和查詢等方面的內(nèi)容。數(shù)據(jù)采集大數(shù)據(jù)平臺需要采集各類內(nèi)外部數(shù)據(jù),形式多樣,需支持不同頻度、不同形態(tài)的數(shù)據(jù)采集。采集方式包含網(wǎng)上數(shù)據(jù)填報、流方式、批量導(dǎo)入方式、外部數(shù)據(jù)文件導(dǎo)入、異構(gòu)數(shù)據(jù)庫導(dǎo)入、主動數(shù)據(jù)抽取、增量追加方式、網(wǎng)上爬蟲方式等,數(shù)據(jù)形態(tài)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)交換與大數(shù)據(jù)平臺對接的系統(tǒng)很多,這些系統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)各異。因此,數(shù)據(jù)交換方面,需要考慮各類數(shù)據(jù)格式、各類傳輸頻次的數(shù)據(jù)導(dǎo)入導(dǎo)出。數(shù)據(jù)源包括各業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入、互聯(lián)網(wǎng)數(shù)據(jù)采集、合作伙伴系統(tǒng)數(shù)據(jù)接入、外部臨時數(shù)據(jù)導(dǎo)入支持等。數(shù)據(jù)格式主要包含文本文件,XML等多種方式,傳輸頻次包含非實(shí)時、準(zhǔn)實(shí)時、實(shí)時形式。同時支持?jǐn)?shù)據(jù)源管理功能,實(shí)現(xiàn)大數(shù)據(jù)平臺內(nèi)各存儲區(qū)之間的數(shù)據(jù)交換功能,提供可自定義的對外數(shù)據(jù)服務(wù)接口能力,同時支持?jǐn)?shù)據(jù)接口熱擴(kuò)展能力。數(shù)據(jù)存儲與管理結(jié)構(gòu)化數(shù)據(jù)管理包括對結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲管理、對外接口、實(shí)時監(jiān)控、安全管理、數(shù)據(jù)重構(gòu)等功能。半/非結(jié)構(gòu)化數(shù)據(jù)管理包括半/非結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)內(nèi)容搜索、數(shù)據(jù)生命周期管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲管理、對外接口、混合查詢、實(shí)時監(jiān)控、自然語言查詢、智能化知識檢索功能。數(shù)據(jù)存儲管理功能包括數(shù)據(jù)分區(qū)劃分方式、適用場景、對應(yīng)計算處理框架、硬件配置推薦等。同時需要支持多存儲層級,實(shí)現(xiàn)數(shù)據(jù)的多溫度管理,能夠?qū)?shù)據(jù)存儲在不同IO讀寫速度的不同介質(zhì)上。支持對數(shù)據(jù)生命周期進(jìn)行管理。支持多種索引模式,具有索引分析與選擇功能和工具。支持多數(shù)據(jù)副本管理功能,能夠進(jìn)行數(shù)據(jù)平衡、索引平衡的檢測。支持自動平衡功能和數(shù)據(jù)自動重分布功能,提供數(shù)據(jù)平衡和索引平衡的工具。支持在線變動節(jié)點(diǎn)管理功能,支持在線增加、刪除節(jié)點(diǎn)時,數(shù)據(jù)和索引的傾斜探測和自動平衡功能,保證平滑擴(kuò)展和性能的線性增長。支持多種數(shù)據(jù)分區(qū)管理、多數(shù)據(jù)類型管理、多文件格式管理、數(shù)據(jù)自定義標(biāo)簽管理、數(shù)據(jù)塊讀寫鎖處理、數(shù)據(jù)文件元數(shù)據(jù)備份和恢復(fù),支持?jǐn)?shù)據(jù)壓縮、表壓縮功能,節(jié)省數(shù)據(jù)空間。數(shù)據(jù)加工清洗支持?jǐn)?shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換、加載至目標(biāo)端的過程。支持多數(shù)據(jù)源,包括Teradata、Vertica、DB2、Oracle、Sybase、文本、Excel、Hadoop等數(shù)據(jù)源。實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫與Hadoop以及Hadoop集群之間的數(shù)據(jù)抽取、轉(zhuǎn)換、加載等功能。支持?jǐn)?shù)據(jù)加工功能,提供數(shù)據(jù)加工規(guī)則管理,支持不同形態(tài)數(shù)據(jù)加工管理;支持?jǐn)?shù)據(jù)清洗功能,包括數(shù)據(jù)清洗環(huán)節(jié)管理、數(shù)據(jù)清洗規(guī)則管理、數(shù)據(jù)清洗監(jiān)控、數(shù)據(jù)清洗預(yù)覽、應(yīng)用主數(shù)據(jù)進(jìn)行清洗管理等功能。數(shù)據(jù)查詢計算支持對多計算框架管理,計算框架包括批處理計算框架、內(nèi)存計算框架、流計算框架等。支持并行計算及并發(fā)處理功能,支持多服務(wù)器、多CPU、多進(jìn)程并行及并發(fā)處理數(shù)據(jù)的機(jī)制。支持PL/SQL存儲過程、分布式事務(wù)及ACID屬性及自定義函數(shù)功能。能夠?qū)崿F(xiàn)OLAP查詢功能,需要內(nèi)置OLAP函數(shù),支持超大數(shù)據(jù)立方,支持雪花、星型等復(fù)雜模型。支持CUBE,支持國際SQL92、SQL2003標(biāo)準(zhǔn),能夠?qū)崿F(xiàn)數(shù)據(jù)字典、動態(tài)SQL執(zhí)行、視圖、子查詢、JOIN查詢功能。支持全文檢索。支持中文字符集,實(shí)現(xiàn)中文分詞功能,支持結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合查詢,支持預(yù)定義維度數(shù)據(jù)查詢,支持簡單查詢、組合查詢、模糊查詢等。數(shù)據(jù)管控數(shù)據(jù)管控主要是對主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量的管控。集團(tuán)大數(shù)據(jù)平臺的數(shù)據(jù)管控組件對集團(tuán)集團(tuán)現(xiàn)有的產(chǎn)品能夠完善集成,使集團(tuán)元數(shù)據(jù)能夠整體管理。圖3-2大數(shù)據(jù)平臺數(shù)據(jù)管控數(shù)據(jù)分析與挖掘本方案對R語言提供支持。支持ANSISQL、Python、R、Java、C/C++等語言的使用。應(yīng)提供圖形化界面操作支持,操作界面要求簡體中文。支持對TB以上級別的數(shù)據(jù)進(jìn)行分析挖掘的功能,應(yīng)對分析挖掘中的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)的靈活存儲提供支持,應(yīng)對多數(shù)據(jù)來源輸入輸出提供支持。支持處理過程的數(shù)據(jù)預(yù)覽功能。支持?jǐn)?shù)據(jù)分析挖掘算法管理,每個算法能夠靈活選擇數(shù)據(jù)源。支持對分析挖掘的腳本和模型的共享,可實(shí)現(xiàn)用戶分析挖掘腳本和模型的發(fā)布與管理。支持?jǐn)?shù)據(jù)的探索和發(fā)現(xiàn),實(shí)現(xiàn)通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)結(jié)構(gòu)和規(guī)律。對統(tǒng)計分析方法、數(shù)據(jù)挖掘、模型預(yù)測提供支持,并實(shí)現(xiàn)其分布式并行計算。對常用場景實(shí)現(xiàn)提供支持。場景包括客戶畫像、產(chǎn)品推薦、自然語言處理、語義分析、輿情分析、文本挖掘、客戶行為預(yù)測等。對分析挖掘的腳本和模型的快速應(yīng)用、服務(wù)提供支持,能夠快速生成分析報告和圖表、發(fā)布實(shí)時/非實(shí)時的分析應(yīng)用、使用Web方式訪問分析應(yīng)用成果。實(shí)現(xiàn)對分析指標(biāo)管理、分析過程的管理以及對挖掘模型固化的支持。數(shù)據(jù)展現(xiàn)支持多數(shù)據(jù)來源輸入輸出;支持表格、圖形、地圖等可視化元素展示,對電子地圖、GPS定位的應(yīng)用、服務(wù)提供支持。支持?jǐn)?shù)據(jù)互動、過濾、鉆取、刷取、關(guān)聯(lián)、變換等功能。支持多維度多種類的自定義。支持?jǐn)?shù)據(jù)脫敏的展示。支持多種展示端的展示,包括PC端、移動端、大屏等。其中移動端應(yīng)基于集團(tuán)移動應(yīng)用平臺架構(gòu)建設(shè)。量收系統(tǒng)功能遷移量收系統(tǒng)主要功能有基本業(yè)務(wù)分析、渠道分析、產(chǎn)品分析、大客戶分析、欠費(fèi)分析、流量流向分析、進(jìn)銷存分析、預(yù)警稽核、系統(tǒng)優(yōu)化功能等,需要對原量收系統(tǒng)全部功能進(jìn)行遷移。系統(tǒng)架構(gòu)設(shè)計總體設(shè)計目標(biāo)建立集團(tuán)的企業(yè)級數(shù)據(jù)中心,實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))的歸集、整理、加工和分析,并利用大數(shù)據(jù)相關(guān)技術(shù)及數(shù)據(jù)分析挖掘工具,建立數(shù)據(jù)應(yīng)用模型,為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營銷、流程優(yōu)化、服務(wù)支撐以及風(fēng)險管控等服務(wù),有效地挖掘數(shù)據(jù)的價值,實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源的“共享、共用、共贏”??傮w設(shè)計原則標(biāo)準(zhǔn)化:本系統(tǒng)采用的技術(shù)架構(gòu)均遵循網(wǎng)絡(luò)協(xié)議和傳輸標(biāo)準(zhǔn)的要求,相關(guān)開源及原創(chuàng)技術(shù)均符合國際技術(shù)組織條款規(guī)范。提供文檔標(biāo)準(zhǔn)化,滿足GB8567-1988、GB/T11457-89的行業(yè)標(biāo)準(zhǔn);可擴(kuò)展性:由于用戶以后的需求會不斷發(fā)展,使用人數(shù)將隨之?dāng)U大,業(yè)務(wù)壓力不斷上升,只要橫向擴(kuò)展增加服務(wù)器臺數(shù),不用添加其它附加設(shè)備,以保證用戶的原投資被利用??捎眯院涂煽啃裕何覀兊姆桨冈诔浞挚紤]用戶實(shí)際情況的基礎(chǔ)上,選用F5作為負(fù)載均衡器,采用了Weblogic作為Web應(yīng)用容器,操作系統(tǒng)采用紅旗版Linux,從而減少了其它因素造成的故障。易用性:該系統(tǒng)使用界面良好,用戶無需安裝客戶端軟件,只需通過IE瀏覽器就可進(jìn)行實(shí)時操作,同時系統(tǒng)架構(gòu)設(shè)計優(yōu)良,可以很方便進(jìn)行系統(tǒng)升級。開發(fā)式結(jié)構(gòu):該系統(tǒng)內(nèi)置“數(shù)據(jù)交換適配平臺”可以與第三方系統(tǒng)相融合,可以讀取第三方系統(tǒng)的相關(guān)數(shù)據(jù),可以為第三方系統(tǒng)提供其需要的相關(guān)數(shù)據(jù),提供標(biāo)準(zhǔn)的WebService接口,具有開放式結(jié)構(gòu)。完善和可靠性:具有設(shè)計獨(dú)到的功能使用及數(shù)據(jù)訪問權(quán)限控制,保證統(tǒng)一、規(guī)范管理,支持3DES和RSA加密技術(shù),使數(shù)據(jù)存儲和傳輸安全牢不可破。系統(tǒng)具有錯誤故障日志記錄功能,便于快速診斷定位問題。實(shí)時性:該系統(tǒng)支持負(fù)載均衡技術(shù),及時響應(yīng)多人實(shí)時并發(fā)操作。先進(jìn)性:基于統(tǒng)一的整體架構(gòu),采用先進(jìn)的、成熟的、可靠的技術(shù)與軟硬件平臺,保證數(shù)據(jù)倉庫系統(tǒng)易擴(kuò)展、易升級、易操作、易維護(hù)等特性。高效性:線性擴(kuò)展的TDH的數(shù)據(jù)倉庫平臺,保證了ETL時間的窗口以及查詢效率,數(shù)據(jù)抽取的特殊性,通常在夜間業(yè)務(wù)稀少的情況下進(jìn)行數(shù)據(jù)抽取,減少了對其他系統(tǒng)的影響。正確性:數(shù)據(jù)質(zhì)量貫穿數(shù)據(jù)倉庫系統(tǒng)建設(shè)的每個環(huán)節(jié),數(shù)據(jù)倉庫系統(tǒng)通過合理的數(shù)據(jù)質(zhì)量管理方法論保證數(shù)據(jù)質(zhì)量。案例分析建議中國聯(lián)通大數(shù)據(jù)平臺聯(lián)通集團(tuán)公司按照工信部的的要求(見《工業(yè)和信息化部、國務(wù)院國有資產(chǎn)監(jiān)督管理委員會關(guān)于開展基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全責(zé)任考核有關(guān)工作的指導(dǎo)意見》和《工業(yè)和信息化部辦公廳關(guān)于印發(fā)<2013年省級基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全工作考核要點(diǎn)與評分標(biāo)準(zhǔn)>的通知》),于2013年啟動IDC/ISP日志留存系統(tǒng)的建設(shè),其中集團(tuán)側(cè)的集中留存系統(tǒng)軟件由聯(lián)通研究院負(fù)責(zé)開發(fā)。為了滿足海量數(shù)據(jù)條件下的處理效率的要求,集團(tuán)側(cè)集中留存系統(tǒng)軟件除研究院自主開發(fā)外,基于Hadoop的數(shù)據(jù)存儲部分計劃進(jìn)行外包,通過軟件技術(shù)服務(wù),來進(jìn)行系統(tǒng)優(yōu)化和維護(hù)支撐。項(xiàng)目概述目前,聯(lián)通集團(tuán)公司全國IDC出口的訪問日志預(yù)計兩個月產(chǎn)生的數(shù)據(jù)量約20PB至30PB,每秒寫入大概6千萬至7千萬條數(shù)據(jù),在如此巨大的數(shù)據(jù)量下,原有Teradata和Oracle已經(jīng)不能滿足快速讀寫的性能要求了。同時為了實(shí)現(xiàn)快速檢索以及分析處理的性能要求,需要引入分布式大數(shù)據(jù)平臺,利用分布式文件存儲系統(tǒng),提高數(shù)據(jù)的存儲入庫能力,利用Hadoop/HBase架構(gòu)克服磁盤I/O瓶頸導(dǎo)致的數(shù)據(jù)讀寫延遲;基于聯(lián)通IDC出口流量詳單數(shù)據(jù)進(jìn)行快速存儲和檢索以及分析處理,同樣要求數(shù)據(jù)處理平臺具備快速讀寫的高性能。中國聯(lián)通公司全國IDC日至留存項(xiàng)目對分布式集群的要求非常高:日志數(shù)據(jù)量非常大,存儲的總?cè)罩緮?shù)據(jù)量將達(dá)到20PB-30PB。要求集群的數(shù)據(jù)吞吐量非常高,每秒的日志寫入量將達(dá)到6千萬至七千萬條,未來還會增長更多,每秒的數(shù)據(jù)寫入量為上百GB數(shù)據(jù)訪問的性能要求非常高,對日志的分析需要分鐘級、甚至秒級返回結(jié)果。數(shù)據(jù)計算量大,日常日志掃描任務(wù)就需要掃描上百TB,甚至上PB的數(shù)據(jù)。集群的擴(kuò)展性要求非常高,能夠靈活擴(kuò)展至上千個節(jié)點(diǎn)的集群。根據(jù)此次中國聯(lián)通的需求,以及項(xiàng)目的特點(diǎn)和技術(shù)要求,推薦采用商用的、成熟的、基于星環(huán)TranswarpDataHub的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論