2023年大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)最佳方案WORD_第1頁(yè)
2023年大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)最佳方案WORD_第2頁(yè)
2023年大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)最佳方案WORD_第3頁(yè)
2023年大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)最佳方案WORD_第4頁(yè)
2023年大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)最佳方案WORD_第5頁(yè)
已閱讀5頁(yè),還剩255頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)方案260/260大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理體系和大數(shù)據(jù)架構(gòu)技術(shù)方案目錄TOC\o"1-6"\h\z\u1. 82. 83. 84. 8第1章 需求概述 81.1背景概述 81.2建設(shè)目標(biāo) 81.3需求理解 101.4面臨挑戰(zhàn) 111.5設(shè)計(jì)原則 12第2章 總體技術(shù)方案 152.1軟件架構(gòu) 152.2總體技術(shù)架構(gòu)設(shè)計(jì) 162.3功能組件完整性介紹 202.3.1、 數(shù)據(jù)集成組件(DataHub) 25、 數(shù)據(jù)采集 26、 數(shù)據(jù)采集管理 332.3.2、 大數(shù)據(jù)計(jì)算存儲(chǔ)平臺(tái)(HadoopDistribution) 35、 海量數(shù)據(jù)集中存儲(chǔ) 36、 高效數(shù)據(jù)處理 37、 分布式應(yīng)用協(xié)調(diào) 42、 計(jì)算資源分配控制 42、 存儲(chǔ)資源分配控制 43、 平臺(tái)高可用性 432.3.3、 算法與分析工具(ArtificialIntelligence) 48、 數(shù)據(jù)挖掘工具 50、 R統(tǒng)計(jì)分析 53、 Python統(tǒng)計(jì)分析 542.3.4、 數(shù)據(jù)資產(chǎn)管理(DataGovernor) 54、 元數(shù)據(jù)管理 55、 數(shù)據(jù)標(biāo)準(zhǔn)與質(zhì)量管理 58、 數(shù)據(jù)生命周期管理 592.3.5、 數(shù)據(jù)可視化(Vision) 61、 數(shù)據(jù)源 61、 智能報(bào)表 62、 儀表板 64、 自助分析 66、 多維分析 67、 OFFICE插件 68、 移動(dòng)可視化 692.3.6、 系統(tǒng)運(yùn)維監(jiān)控(Manager) 70、 安裝部署 70、 集群監(jiān)控 71、 服務(wù)管理 74、 主機(jī)管理 76、 告警管理 79、 版本管理 81、 日志管理 82、 多租戶管理 822.3.7、 架構(gòu)優(yōu)化設(shè)計(jì) 86、 統(tǒng)計(jì)分析和精確查詢(xún) 86、 Spark計(jì)算引擎結(jié)合分布式內(nèi)存計(jì)算提供交互式統(tǒng)計(jì)分析能力 86、 多種索引支持與智能索引 87、 高并發(fā)、低延遲性能優(yōu)化 88、 計(jì)算資源有效管控 88、 API設(shè)計(jì)和開(kāi)發(fā)工具支持 89、 接口開(kāi)放性 89、 第三方工具生態(tài)圈整合 91、 擴(kuò)容、備份、恢復(fù)機(jī)制 922.3.8、 功能優(yōu)勢(shì)說(shuō)明 932.3.9、 集群規(guī)劃 93、 集群劃分 93、 數(shù)據(jù)倉(cāng)庫(kù)集群 94、 歷史數(shù)據(jù)分析探索集群 95、 開(kāi)發(fā)集群 96、 測(cè)試集群 97、 集群容量說(shuō)明 98、 硬件配置建議 98數(shù)據(jù)倉(cāng)庫(kù)集群配置建議 98歷史數(shù)據(jù)分析探索集群配置建議 99開(kāi)發(fā)集群配置建議 99測(cè)試集群配置建議 100、 網(wǎng)絡(luò)拓?fù)浼軜?gòu) 1002.4系統(tǒng)基本功能點(diǎn) 1012.4.1、 的發(fā)展緊隨Apache社區(qū) 1012.4.2、 集群內(nèi)所有組件的管理節(jié)點(diǎn)均實(shí)現(xiàn)HA 1022.4.3、 提供完全基于WEB圖形化的集群服務(wù)器角色,配置和狀態(tài)管理 1022.4.4、 集群支持線性擴(kuò)展 1032.4.5、 100%兼容標(biāo)準(zhǔn)SQL92 1032.4.6、 支持分布式文件系統(tǒng)HDFS和HBase等主流數(shù)據(jù)庫(kù) 1082.4.7、 支持多種計(jì)算執(zhí)行引擎 108、 內(nèi)存計(jì)算框架 109、 批量計(jì)算框架 111、 流式計(jì)算框架 112、 多維數(shù)據(jù)分析計(jì)算框架 1132.4.8、 支持異構(gòu)數(shù)據(jù)庫(kù)關(guān)聯(lián)查詢(xún) 1152.4.9、 支持大部分的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法 1162.4.10、 支持圖形化ETL 1172.4.11、 同時(shí)支持Solr和ElasticSearch 118、 Elasticsearch 118ElasticSearch優(yōu)點(diǎn) 118ElasticSearch缺點(diǎn) 119、 Solr 119Solr的優(yōu)點(diǎn) 119Solr的缺點(diǎn) 1192.4.12、 支持各種類(lèi)型的數(shù)據(jù) 1202.4.13、 支持多租戶 1202.4.14、 支持支持分布式存儲(chǔ)數(shù)據(jù)加密 1212.4.15、 支持記錄操作日志留存 1212.4.16、 支持自適應(yīng)壓縮算法 1222.4.17、 SQL支持各類(lèi)函數(shù) 1232.4.18、 具備可視化分析能力 1262.4.19、 支持建立OLAPCube 1262.4.20、 支持?jǐn)?shù)據(jù)預(yù)警功能 1272.4.21、 支持多種數(shù)據(jù)類(lèi)型的文件加載到大數(shù)據(jù)平臺(tái) 1272.4.22、 支持復(fù)雜模型建模 1292.4.23、 數(shù)據(jù)上載速度快 1322.4.24、 SQL性能好 139、 NoSQL數(shù)據(jù)庫(kù)單服務(wù)器掃描性能測(cè)試 139、 文本文件中導(dǎo)入數(shù)據(jù)單機(jī)性能測(cè)試 139、 Spark導(dǎo)入NoSQL數(shù)據(jù)單機(jī)性能測(cè)試 1402.4.25、 樸素貝葉斯分類(lèi)性能好 1402.5數(shù)據(jù)庫(kù)功能支持 1412.5.1、 開(kāi)發(fā)及應(yīng)用接口 1412.5.2、 SQL語(yǔ)法兼容性 1432.5.3、 生命周期管理功能 146、 熱數(shù)據(jù) 146、 冷數(shù)據(jù) 1462.5.4、 表分區(qū)功能 1472.5.5、 表壓縮功能 1472.5.6、 大表索引管理 1472.5.7、 數(shù)據(jù)導(dǎo)入與導(dǎo)出 1482.5.8、 多級(jí)數(shù)據(jù)存儲(chǔ) 1492.5.9、 半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)支持 149、 全文數(shù)據(jù)處理 150、 安全可靠與運(yùn)維能力 150、 資源管理 150、 系統(tǒng)容錯(cuò)性 1522.5.10、 單點(diǎn)故障消除 1532.5.11、 容災(zāi)與備份 1542.5.12、 在線擴(kuò)容 154第3章 項(xiàng)目實(shí)施管理方案 1553.1項(xiàng)目組織管理 1553.1.1建立項(xiàng)目組織管理機(jī)構(gòu) 1553.1.2確定項(xiàng)目分工角色職責(zé) 1563.1.3建立項(xiàng)目組織相關(guān)管理制度 1593.2項(xiàng)目管理計(jì)劃 1603.2.1綜合管理計(jì)劃 160項(xiàng)目計(jì)劃編制 160項(xiàng)目計(jì)劃執(zhí)行 1613.2.2綜合變更控制 1613.3范圍控制計(jì)劃 1613.3.1范圍定義及跟蹤 1613.3.2變更管理 1623.3.3變更控制工具 1623.4進(jìn)度控制計(jì)劃 1633.4.1項(xiàng)目進(jìn)度跟蹤 1633.4.2項(xiàng)目進(jìn)度分析 1633.4.3項(xiàng)目進(jìn)度控制 1643.5組織機(jī)構(gòu)和人員管理計(jì)劃 1643.5.1人力資源規(guī)劃 1643.5.2項(xiàng)目團(tuán)隊(duì)建設(shè) 1653.5.3項(xiàng)目團(tuán)隊(duì)管理 1653.6質(zhì)量保障計(jì)劃 1653.6.1質(zhì)量保證目標(biāo) 1653.6.2質(zhì)量保證角色與職責(zé) 1653.6.3質(zhì)量保證流程 1663.6.4質(zhì)量保證活動(dòng) 1673.7溝通管理計(jì)劃 1673.7.1溝通計(jì)劃 1673.7.2報(bào)告形式 1683.7.3相關(guān)工具文檔 1693.8配置管理計(jì)劃 1693.8.1配置管理目標(biāo) 1693.8.2配置管理角色與職責(zé) 1693.8.3配置管理流程 1693.8.4配置項(xiàng)定義 1713.8.5配置管理活動(dòng) 1723.8.6配置管理工具 1763.9風(fēng)險(xiǎn)控制計(jì)劃 1763.9.1風(fēng)險(xiǎn)識(shí)別 1763.9.2風(fēng)險(xiǎn)分析 1763.9.3風(fēng)險(xiǎn)控制 1773.10變革管理計(jì)劃 1783.10.1變革管理方法 1783.10.2變革管理成功的關(guān)鍵策略 1783.11項(xiàng)目進(jìn)度計(jì)劃 1793.11.1影響項(xiàng)目進(jìn)度的因素 1793.11.2項(xiàng)目進(jìn)度制定的原則 1793.11.3項(xiàng)目實(shí)施進(jìn)度計(jì)劃 1793.11.4項(xiàng)目里程碑 1803.12安全保密計(jì)劃 1803.13文檔編制計(jì)劃 1813.13.1項(xiàng)目管理類(lèi) 1823.13.2軟件工程類(lèi) 1823.13.3項(xiàng)目支持類(lèi) 1823.14質(zhì)量保障計(jì)劃 1863.14.1確定質(zhì)量保證目標(biāo) 1863.14.2質(zhì)量保證角色與職責(zé) 1863.14.3質(zhì)量保證流程 1873.14.4質(zhì)量保證活動(dòng) 1883.15產(chǎn)品交付計(jì)劃 1883.15.1背景介紹 1883.15.2客戶管理 1893.15.3服務(wù)人員管理 190服務(wù)人員 190服務(wù)文化 1923.15.4服務(wù)流程管理 192前期介入 192系統(tǒng)部署 193數(shù)據(jù)遷移 194試用 195正式上線 195項(xiàng)目驗(yàn)收 196應(yīng)急處理 1963.15.5服務(wù)實(shí)體設(shè)施 1973.15.6產(chǎn)品詳細(xì)交付計(jì)劃 1983.16項(xiàng)目培訓(xùn)計(jì)劃 2023.16.1培訓(xùn)組織管理 2023.16.2培訓(xùn)隊(duì)伍要求 2033.16.3培訓(xùn)對(duì)象 2033.16.4培訓(xùn)內(nèi)容及要求 2033.17實(shí)施風(fēng)險(xiǎn)管理 2053.17.1風(fēng)險(xiǎn)計(jì)劃 2053.17.2風(fēng)險(xiǎn)監(jiān)視 2063.17.3風(fēng)險(xiǎn)管理 207第4章 售后服務(wù)及培訓(xùn) 2074.1售后服務(wù)說(shuō)明 2074.1.1售后服務(wù)及響應(yīng)級(jí)別 2074.1.2定期現(xiàn)場(chǎng)巡檢服務(wù) 2104.1.3專(zhuān)人值守服務(wù) 2114.1.4本地化服務(wù) 2114.2運(yùn)維服務(wù)保障措施 2124.2.1項(xiàng)目運(yùn)維組織機(jī)構(gòu)及職責(zé) 2124.2.2運(yùn)維風(fēng)險(xiǎn)預(yù)防措施 2144.2.3運(yùn)維突發(fā)事情應(yīng)急措施 2144.3服務(wù)質(zhì)量保障措施 2144.3.1完善的售后服務(wù)體系 2154.3.2運(yùn)行維護(hù)制度建立 2154.3.3運(yùn)維知識(shí)庫(kù)系統(tǒng) 2154.3.4運(yùn)行維護(hù)隊(duì)伍建設(shè) 2164.3.5閉環(huán)式服務(wù) 2164.3.6服務(wù)監(jiān)督機(jī)制 2174.3.7試運(yùn)行期間的運(yùn)維保障 2184.3.8免費(fèi)質(zhì)保期間的運(yùn)維保障 2194.3.9免費(fèi)質(zhì)保期后的運(yùn)維保障 2194.4質(zhì)量保證范圍 2204.5售后服務(wù)承諾書(shū) 2204.6售后服務(wù)機(jī)構(gòu)網(wǎng)點(diǎn)清單、服務(wù)電話 2214.6.1售后服務(wù)人員配置 2214.6.2人員培訓(xùn)計(jì)劃 222第5章 施工組織設(shè)計(jì)方案 2245.1施工組織設(shè)計(jì) 2245.1.1綜合說(shuō)明,質(zhì)量、服務(wù)、安全文明施工目標(biāo) 224質(zhì)量目標(biāo) 224服務(wù)目標(biāo) 224安全生產(chǎn)目標(biāo) 225文明施工目標(biāo) 225文明環(huán)境施工目標(biāo) 2255.1.2主要施工方法;新技術(shù)、新材料、新工藝、新設(shè)備的應(yīng)用 226從技術(shù)上保證進(jìn)度 227用現(xiàn)代化技術(shù)設(shè)備 228建立完善的技術(shù)管理體系 228新技術(shù)、新工藝、新材料、新設(shè)備的應(yīng)用和計(jì)劃 2285.1.3工程投入的主要物資和施工機(jī)械設(shè)備情況、主要施工機(jī)械進(jìn)場(chǎng)計(jì)劃 2295.1.4施工設(shè)備進(jìn)場(chǎng)計(jì)劃 2295.1.5工程所用產(chǎn)品進(jìn)場(chǎng)計(jì)劃 2295.1.6確保工程質(zhì)量的技術(shù)組織措施 2295.1.7確保安全生產(chǎn)的技術(shù)組織措施 230安全教育制度 230安全檢查制度 230安全活動(dòng)制度 230設(shè)備安全管制 231做好施工現(xiàn)場(chǎng)管理 2315.1.8確保文明施工的技術(shù)組織措施 2315.1.9施工順序、總進(jìn)度安排及總形象進(jìn)度示意圖 2325.2項(xiàng)目管理機(jī)構(gòu)配備 2325.3質(zhì)量及保修服務(wù) 2325.3.1保修期與保修范圍 2325.3.2保修責(zé)任 2325.3.3售后培訓(xùn) 2325.3.4售后維護(hù)服務(wù) 2325.3.5接口對(duì)接服務(wù) 2335.4組織管理 2335.4.1項(xiàng)目管理方法 2335.4.2項(xiàng)目質(zhì)量管理 235質(zhì)量管理計(jì)劃 235質(zhì)量管理過(guò)程 2355.4.3系統(tǒng)測(cè)試計(jì)劃 2375.4.4測(cè)試方案 238單元測(cè)試 239集成測(cè)試 240系統(tǒng)測(cè)試 241用戶測(cè)試(試運(yùn)行測(cè)試) 2425.4.5測(cè)試管理 243測(cè)試組織 243測(cè)試準(zhǔn)備 244測(cè)試執(zhí)行 245測(cè)試問(wèn)題跟蹤 246文檔核查 246測(cè)試技術(shù) 2465.5項(xiàng)目風(fēng)險(xiǎn)管理 2485.5.1主要風(fēng)險(xiǎn)列表 2505.5.2風(fēng)險(xiǎn)影響分析 2515.5.3關(guān)鍵風(fēng)險(xiǎn)分析 2525.5.4風(fēng)險(xiǎn)控制計(jì)劃 2525.5.5風(fēng)險(xiǎn)應(yīng)對(duì)措施 253風(fēng)險(xiǎn)應(yīng)對(duì)措施 253其他風(fēng)險(xiǎn)措施 2555.5.6項(xiàng)目溝通管理 2555.5.7項(xiàng)目決策制度 2565.5.8問(wèn)題與爭(zhēng)議管理辦法 2565.6上線后支持期 257需求概述1.1背景概述近年來(lái),大數(shù)據(jù)相關(guān)技術(shù)發(fā)展迅速,大數(shù)據(jù)技術(shù)越來(lái)越成熟,已經(jīng)有越來(lái)越多的企事業(yè)單位通過(guò)大數(shù)據(jù)技術(shù)為來(lái)創(chuàng)造更多的價(jià)值的同時(shí),也為企事業(yè)單位帶來(lái)了更高的性?xún)r(jià)比、和更易于擴(kuò)展的超大規(guī)模數(shù)據(jù)處理能力?;诖髷?shù)據(jù)平臺(tái)技術(shù),整合現(xiàn)有人口數(shù)據(jù),接入公安的輿情數(shù)據(jù),搭建處理能力更強(qiáng),更易于擴(kuò)展,性能更高的統(tǒng)一數(shù)據(jù)平臺(tái)。不僅可以很好的滿足高計(jì)算、高存儲(chǔ)、高負(fù)載的要求,更能夠?qū)A康臄?shù)據(jù)進(jìn)行數(shù)據(jù)存儲(chǔ)、清洗、加工、建模等,把先前無(wú)法利用的數(shù)據(jù)充分利用,提升對(duì)數(shù)據(jù)的認(rèn)識(shí),抓住機(jī)遇為XXX醫(yī)院平臺(tái)建設(shè)做好最基礎(chǔ)、最扎實(shí)的工作。1.2建設(shè)目標(biāo)全市人口基礎(chǔ)數(shù)據(jù)庫(kù)大數(shù)據(jù)平臺(tái)系統(tǒng)需要建設(shè)成為一個(gè)是一個(gè)高可靠性、高安全性、高性能、高可擴(kuò)展性、高靈活性的先進(jìn)系統(tǒng),用來(lái)存儲(chǔ)、管理、檢索、分析、查詢(xún)等操作,系統(tǒng)能夠提供靈活應(yīng)用提供可靠、安全、高效的保障,并能夠?yàn)殪`活的建立多種應(yīng)用提供強(qiáng)大開(kāi)發(fā)支持。系統(tǒng)需要提供對(duì)數(shù)據(jù)倉(cāng)庫(kù)類(lèi)應(yīng)用的支持,提供對(duì)數(shù)據(jù)分析、數(shù)據(jù)挖掘類(lèi)應(yīng)用的支持,能夠存儲(chǔ)、查詢(xún)、分析海量全市公安局的歷史數(shù)據(jù),提供實(shí)時(shí)數(shù)據(jù)計(jì)算模塊,提供并行分析算法包,可以替代傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的大數(shù)據(jù)管理軟件系統(tǒng)、大規(guī)模并行數(shù)據(jù)挖掘軟件工具包、R語(yǔ)言業(yè)務(wù)建模可視化工具、流式計(jì)算軟件工具包、數(shù)據(jù)復(fù)制與資源管理等支持類(lèi)軟件工具包。全市人口建設(shè)的大數(shù)據(jù)應(yīng)用平臺(tái)項(xiàng)目,要實(shí)現(xiàn)的具體業(yè)務(wù)目標(biāo)為海量數(shù)據(jù)的低成本高效存儲(chǔ)、加工、使用。支持各類(lèi)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的低成本存儲(chǔ),快速批處理加工,各應(yīng)用系統(tǒng)的在線數(shù)據(jù)查詢(xún)、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等需求;為超長(zhǎng)時(shí)間的海量歷史數(shù)據(jù)存儲(chǔ)和使用提供技術(shù)基礎(chǔ)設(shè)施。支持將人口、環(huán)境、教育等數(shù)據(jù)導(dǎo)入導(dǎo)數(shù)據(jù)平臺(tái)。同時(shí)必須支持蒙古文相關(guān)數(shù)據(jù)的分析、處理。支持移動(dòng)互聯(lián)渠道場(chǎng)景的高并發(fā)低延時(shí)數(shù)據(jù)服務(wù)需求銀行在移動(dòng)互聯(lián)渠道提供的客戶服務(wù)逐漸豐富,客戶點(diǎn)擊流量增長(zhǎng)快速,客戶的體驗(yàn)要求也在提高。大數(shù)據(jù)基礎(chǔ)軟件應(yīng)能較好地支持移動(dòng)互聯(lián)業(yè)務(wù)場(chǎng)景高并發(fā)低延時(shí)的數(shù)據(jù)訪問(wèn)需求,包括通過(guò)流式計(jì)算框架對(duì)客戶個(gè)性化場(chǎng)景營(yíng)銷(xiāo)、實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)測(cè)、銀行流動(dòng)性風(fēng)險(xiǎn)實(shí)時(shí)預(yù)警等需求實(shí)現(xiàn)提供技術(shù)平臺(tái)支持。支持業(yè)務(wù)數(shù)據(jù)分析團(tuán)隊(duì)自主數(shù)據(jù)探索和業(yè)務(wù)建模通過(guò)良好可視化支持的集成工具軟件,業(yè)務(wù)數(shù)據(jù)分析團(tuán)隊(duì)可編寫(xiě)簡(jiǎn)易的R語(yǔ)言數(shù)據(jù)處理和可視化程序,自主探索分析業(yè)務(wù)數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法對(duì)業(yè)務(wù)數(shù)據(jù)建模和驗(yàn)證,利用成熟的量化模型算法支持更科學(xué)的經(jīng)營(yíng)決策。建立人口與環(huán)境、教育等社會(huì)資源的模型,進(jìn)行深度數(shù)據(jù)挖掘。軟件相關(guān)支持服務(wù)為更好發(fā)揮大數(shù)據(jù)平臺(tái)的技術(shù)優(yōu)勢(shì),同時(shí)確保系統(tǒng)平穩(wěn)安全運(yùn)行,需要提供現(xiàn)場(chǎng)和非現(xiàn)場(chǎng)形式的產(chǎn)品業(yè)務(wù)培訓(xùn)和技術(shù)培訓(xùn)、運(yùn)維支持、產(chǎn)品缺陷修復(fù)和產(chǎn)品升級(jí)、大數(shù)據(jù)技術(shù)架構(gòu)咨詢(xún)、應(yīng)用開(kāi)發(fā)指導(dǎo)等關(guān)聯(lián)支持服務(wù)。將利用在行業(yè)內(nèi)積累的的豐富經(jīng)驗(yàn),以及在大數(shù)據(jù)平臺(tái)技術(shù)的積累的深厚的實(shí)力,協(xié)助XXX醫(yī)院建設(shè)以大數(shù)據(jù)技術(shù)為基礎(chǔ),融合開(kāi)發(fā)、測(cè)試、生產(chǎn)的統(tǒng)一平臺(tái),利用大數(shù)據(jù)技術(shù)解決現(xiàn)有傳統(tǒng)架構(gòu)下面臨的的計(jì)算瓶頸、存儲(chǔ)壓力、擴(kuò)展問(wèn)題、以及應(yīng)用限制等問(wèn)題。1.3需求理解通過(guò)對(duì)XXX醫(yī)院基礎(chǔ)軟件及服務(wù)建設(shè)需求的分析,以及我們對(duì)數(shù)據(jù)應(yīng)用的理解,我們總結(jié)了如下數(shù)據(jù)應(yīng)用和相關(guān)流程:1.XXX醫(yī)院基礎(chǔ)軟件及服務(wù)數(shù)據(jù)處理平臺(tái)是一個(gè)高可靠、高穩(wěn)定、高安全、高性能、高可擴(kuò)展、高易用性的基礎(chǔ)數(shù)據(jù)存儲(chǔ)、分析、管理、計(jì)算平臺(tái)。2.平臺(tái)將完成現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)類(lèi)業(yè)務(wù),另外也將完成歷史數(shù)據(jù)存儲(chǔ)、查詢(xún)、分析類(lèi)的應(yīng)用。3.數(shù)據(jù)處理平臺(tái)需要定期、批量的接受公安局內(nèi)部和外部各類(lèi)系統(tǒng)所產(chǎn)生的數(shù)據(jù),以批量的方式將數(shù)據(jù)插入至數(shù)據(jù)處理平臺(tái),插入數(shù)據(jù)后進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)格式統(tǒng)一、數(shù)據(jù)入庫(kù)等操作。4.數(shù)據(jù)處理平臺(tái)也可能會(huì)定期從其他現(xiàn)有系統(tǒng)中抽取部分業(yè)務(wù)數(shù)據(jù)至平臺(tái)中,為后期綜合分析準(zhǔn)備數(shù)據(jù)。5.數(shù)據(jù)處理平臺(tái)準(zhǔn)備好數(shù)據(jù)后,將通過(guò)SQL、R語(yǔ)言等方式對(duì)數(shù)據(jù)處理平臺(tái)中的數(shù)據(jù)進(jìn)行數(shù)學(xué)分析、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),并將結(jié)果快速顯示出來(lái),尤其是對(duì)人口與環(huán)境、教育等社會(huì)資源的模型進(jìn)行分析,進(jìn)行數(shù)據(jù)深度挖掘和分析。數(shù)據(jù)處理平臺(tái)對(duì)SQL支持的完整程度將是選擇平臺(tái)的重要考慮之一。對(duì)SQL2003標(biāo)準(zhǔn)的完整支持,包括對(duì)各種數(shù)據(jù)類(lèi)型的支持,對(duì)各種復(fù)雜連接查詢(xún)的支持,對(duì)相關(guān)子查詢(xún)、嵌套子查詢(xún)的支持、對(duì)操作符、函數(shù)的完整支持,會(huì)使得后期在數(shù)據(jù)處理平臺(tái)的應(yīng)用開(kāi)發(fā)變得非常方便、并且平臺(tái)將方便的與現(xiàn)有平臺(tái)、現(xiàn)有應(yīng)用進(jìn)行對(duì)接,同時(shí)上層通過(guò)SQL完成的應(yīng)用,通過(guò)JDBC/ODBC接口連接的應(yīng)用可以不用做任何修改,這是數(shù)據(jù)處理平臺(tái)對(duì)基礎(chǔ)應(yīng)用支撐。6.需要對(duì)數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)進(jìn)行建模,以完成相關(guān)業(yè)務(wù)模型操作和計(jì)算。7.數(shù)據(jù)處理平臺(tái)需要支持?jǐn)?shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)算法。平臺(tái)需要提供對(duì)R語(yǔ)言和Python的支持,能夠使用R語(yǔ)言所提供的5千多種算法,可以通過(guò)算法靈活的對(duì)數(shù)據(jù)進(jìn)行分析和挖掘,提供對(duì)業(yè)務(wù)有價(jià)值的結(jié)果。8.數(shù)據(jù)處理平臺(tái)需要提供通用的應(yīng)用接口,以方便與現(xiàn)有應(yīng)用、現(xiàn)有系統(tǒng)進(jìn)行對(duì)接,完成系統(tǒng)集成。1.4面臨挑戰(zhàn)XXX醫(yī)院的數(shù)據(jù)增長(zhǎng)迅速,已經(jīng)達(dá)到TB級(jí)別,如果加上非結(jié)構(gòu)化數(shù)據(jù),未來(lái)幾年的數(shù)據(jù)存儲(chǔ)將達(dá)到幾十TB,甚至上百TB的數(shù)據(jù)量級(jí)別,如何對(duì)這些海量歷史數(shù)據(jù)資產(chǎn)進(jìn)行有效的存儲(chǔ)、管理、整合,并在此基礎(chǔ)上進(jìn)行快速共享、計(jì)算、分析,最終達(dá)到對(duì)業(yè)務(wù)的有效知道是本系統(tǒng)的建設(shè)關(guān)鍵。在XXX醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)建設(shè)過(guò)程中,主要會(huì)面臨以下挑戰(zhàn):擴(kuò)展性:當(dāng)數(shù)據(jù)量達(dá)到一定限度之后,無(wú)論是數(shù)據(jù)存儲(chǔ)、分析、查詢(xún),都會(huì)受到極大的限制,系統(tǒng)的橫向擴(kuò)展性的能力將是系統(tǒng)建設(shè)的重要考量之一。價(jià)格:系統(tǒng)的橫向擴(kuò)展,必然會(huì)帶來(lái)軟件、硬件成本的增加,以及后期升級(jí)、維護(hù)、擴(kuò)展的成本的投入也是系統(tǒng)擴(kuò)展面臨的挑戰(zhàn)。性能:數(shù)據(jù)動(dòng)輒幾十TB、甚至上百TB,面對(duì)如此海量的數(shù)據(jù),若要進(jìn)行高效的計(jì)算、分析,為業(yè)務(wù)提供有效的指導(dǎo),必須要滿足業(yè)務(wù)允許的時(shí)間要求。平臺(tái)的易用性:XXX醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)的數(shù)據(jù)處理平臺(tái)易用性也是系統(tǒng)建設(shè)的關(guān)鍵問(wèn)題,能否提供一個(gè)可簡(jiǎn)單、方便為上層應(yīng)用使用的平臺(tái),或者可以將現(xiàn)有應(yīng)用方便遷移到新建設(shè)的XXX醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)數(shù)據(jù)處理平臺(tái)也是面臨的挑戰(zhàn)。平臺(tái)的易用性將直接影響到平臺(tái)的建設(shè)、應(yīng)用的建設(shè),將直接影響工作成本。1.5設(shè)計(jì)原則系統(tǒng)在設(shè)計(jì)過(guò)程中除考慮滿足當(dāng)前項(xiàng)目建設(shè)要求外,還應(yīng)當(dāng)滿足后續(xù)系統(tǒng)平滑擴(kuò)展升級(jí)要求,因此總方案設(shè)計(jì)遵循如下設(shè)計(jì)原則。開(kāi)放性引入業(yè)界開(kāi)放的、成熟的標(biāo)準(zhǔn),從而保證系統(tǒng)成為符合標(biāo)準(zhǔn)又不失靈活性的開(kāi)放平臺(tái),為未來(lái)的系統(tǒng)的靈活開(kāi)放奠定基礎(chǔ)。需要支持業(yè)界開(kāi)放的標(biāo)準(zhǔn)接口,如:SQL2003,PL/SQL等等,同時(shí)完全兼容開(kāi)源的標(biāo)準(zhǔn)。先進(jìn)性基于統(tǒng)一的整體架構(gòu),采用先進(jìn)的、成熟的、可靠的技術(shù)與軟硬件平臺(tái),保證基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)易擴(kuò)展、易升級(jí)、易操作、易維護(hù)等特性?;跇I(yè)界熱門(mén)的,且領(lǐng)先的Spark技術(shù),極速提高平臺(tái)的整體計(jì)算性能。可擴(kuò)展性隨著新的業(yè)務(wù)需求的不斷產(chǎn)生,支持基礎(chǔ)數(shù)據(jù)模型、應(yīng)用分析模型、前端應(yīng)用的擴(kuò)展性;支持在統(tǒng)一系統(tǒng)架構(gòu)中服務(wù)器、存儲(chǔ)、I/O設(shè)備等的可擴(kuò)展性。可靠性制定并實(shí)施基礎(chǔ)數(shù)據(jù)平臺(tái)高可用性方案、運(yùn)行管理監(jiān)控制度、運(yùn)行維護(hù)制度、故障處理預(yù)案等,保證本期系統(tǒng)在多用戶、多節(jié)點(diǎn)等復(fù)雜環(huán)境下的可靠性。高效性高效性包含兩方面內(nèi)容,一方面系統(tǒng)需要在規(guī)定時(shí)間內(nèi)完成數(shù)據(jù)寫(xiě)入操作,并將數(shù)據(jù)寫(xiě)入對(duì)數(shù)據(jù)分析的影響降到最低;另一方面系統(tǒng)需要實(shí)現(xiàn)規(guī)劃要求的數(shù)據(jù)查詢(xún)和統(tǒng)計(jì)分析速度。正確性數(shù)據(jù)質(zhì)量貫穿基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)建設(shè)的每個(gè)環(huán)節(jié),基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)通過(guò)合理的數(shù)據(jù)質(zhì)量管理解決方案保證數(shù)據(jù)質(zhì)量。安全性按國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、安全規(guī)范等實(shí)現(xiàn)數(shù)據(jù)安全管理??删S護(hù)性系統(tǒng)要有統(tǒng)一的管理平臺(tái),管理基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)的各個(gè)環(huán)節(jié),能對(duì)系統(tǒng)進(jìn)行相應(yīng)的性能管理和日志監(jiān)控。易用性有良好的人機(jī)接口不靈活多樣的展現(xiàn)方式,需要對(duì)最終用戶提供適當(dāng)?shù)呐嘤?xùn)就可以方便地使用新的分析工具,從而減少I(mǎi)T人員的工作量,同時(shí)加強(qiáng)了集群監(jiān)管的時(shí)效性。

總體技術(shù)方案2.1軟件架構(gòu)ApacheHadoop是針對(duì)大規(guī)模分布式數(shù)據(jù)而開(kāi)發(fā)的軟件框架,目前已經(jīng)成為企業(yè)管理大數(shù)據(jù)的基礎(chǔ)支撐技術(shù)。是解決企業(yè)數(shù)據(jù)中心大數(shù)據(jù)存儲(chǔ)、大規(guī)模數(shù)據(jù)計(jì)算、快速數(shù)據(jù)分析的優(yōu)秀基礎(chǔ)數(shù)據(jù)平臺(tái)。然而現(xiàn)有的Hadoop技術(shù)仍然面臨一些挑戰(zhàn):性能上,盡管Hadoop在100TB以上的數(shù)據(jù)上遠(yuǎn)遠(yuǎn)領(lǐng)先于傳統(tǒng)數(shù)據(jù)處理技術(shù),然而對(duì)GB到TB級(jí)數(shù)據(jù)的處理效率較低;其次,只有對(duì)海量的數(shù)據(jù)進(jìn)行高效的分析及利用才能將大數(shù)據(jù)中存在的巨大潛在價(jià)值轉(zhuǎn)換為實(shí)際的商業(yè)價(jià)值,這就需要完備的決策分析工具集運(yùn)行在Hadoop架構(gòu)之上;最后,亟需完備的企業(yè)級(jí)解決方案來(lái)加速大數(shù)據(jù)應(yīng)用的廣泛部署。企業(yè)級(jí)大數(shù)據(jù)分析平臺(tái)是業(yè)界領(lǐng)先的處理企業(yè)級(jí)大數(shù)據(jù)場(chǎng)景的高性能一站式分析平臺(tái)。它可以幫助企業(yè)快速建立一個(gè)統(tǒng)一的數(shù)據(jù)和計(jì)算平臺(tái),快速支持企業(yè)內(nèi)部/外部數(shù)據(jù)的采集與集成、實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)、并提供極佳的數(shù)據(jù)計(jì)算與深度分析挖掘能力。在大數(shù)據(jù)平臺(tái)之上,用戶可以構(gòu)建相應(yīng)分析挖掘應(yīng)用,從而輔助企業(yè)及時(shí)洞察新的商機(jī)和潛在的風(fēng)險(xiǎn),提升企業(yè)競(jìng)爭(zhēng)力。大數(shù)據(jù)產(chǎn)品具有業(yè)界完整的SQLonHadoop支持,實(shí)現(xiàn)完整支持SQL標(biāo)準(zhǔn),增強(qiáng)分布式事務(wù)處理能力,全面支持MPP場(chǎng)景;突破實(shí)時(shí)處理計(jì)算框架,支持物聯(lián)網(wǎng)實(shí)時(shí)業(yè)務(wù)分析;最完整的并行數(shù)據(jù)挖掘算法庫(kù),并原創(chuàng)前沿機(jī)器學(xué)習(xí)組件;一站式圖形化的數(shù)據(jù)開(kāi)發(fā)套件,可快速分析應(yīng)用;它是企業(yè)級(jí)大數(shù)據(jù)場(chǎng)景的高性能一站式分析平臺(tái)的優(yōu)秀選擇。整理制作郎豐利。2.2總體技術(shù)架構(gòu)設(shè)計(jì)基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn),針對(duì)開(kāi)源ApacheHadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作,并自主創(chuàng)新的眾多功能和實(shí)用工具,易于使用者開(kāi)發(fā)和管理。XXX醫(yī)院的數(shù)據(jù)來(lái)源自多個(gè)方面,包括內(nèi)部數(shù)據(jù)來(lái)源以及未來(lái)可能第三方數(shù)據(jù)接入。各類(lèi)數(shù)據(jù)的來(lái)源方式多樣化,包括關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)、文件數(shù)據(jù)、圖片數(shù)據(jù)等。面對(duì)于多種數(shù)據(jù)接入的需求,大數(shù)據(jù)平臺(tái)提供多種針對(duì)性的接入方式以及工具,通過(guò)分布式消息隊(duì)列Kafka接入實(shí)時(shí)數(shù)據(jù);通過(guò)Sqoop全量或定時(shí)增量抽取同步關(guān)系型數(shù)據(jù)庫(kù);采用Kettle作為數(shù)據(jù)抽取管理工具,Kettle提供圖形化的界面定義數(shù)據(jù)抽取規(guī)則,并可與其他工具相結(jié)合,完成數(shù)據(jù)抽取的工作流;同時(shí),分布式文件系統(tǒng)HDFS通過(guò)FTPOverHDFS提供文件通過(guò)FTP傳入HDFS的通道;通過(guò)Flume提供海量日志文件的聚匯到HDFS的功能。大數(shù)據(jù)分析平臺(tái)從功能架構(gòu)上分為數(shù)據(jù)集成套件、大數(shù)據(jù)計(jì)算平臺(tái)、算法與分析工具組件、平臺(tái)運(yùn)維管理組件、數(shù)據(jù)資產(chǎn)管理組件、數(shù)據(jù)可視化組件。序號(hào)名稱(chēng)軟件說(shuō)明軟件來(lái)源1數(shù)據(jù)集成套件提供對(duì)多種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的靈活集成。支持不同系統(tǒng)和設(shè)備的開(kāi)發(fā)工具套件,能夠根據(jù)企業(yè)的需求方便地快速擴(kuò)展,為企業(yè)快速收集其信息系統(tǒng)之外的設(shè)備、用戶和社交數(shù)據(jù)。同時(shí)也提供網(wǎng)絡(luò)爬蟲(chóng)模塊,以方便企業(yè)獲取外部網(wǎng)絡(luò)數(shù)據(jù)。自有2大數(shù)據(jù)計(jì)算平臺(tái)基于開(kāi)源Hadoop+Spark生態(tài)系統(tǒng),引入了多種核心功能和組件,對(duì)復(fù)雜開(kāi)源技術(shù)進(jìn)行高度集成和性能優(yōu)化,面向基礎(chǔ)設(shè)施層進(jìn)行深度調(diào)優(yōu)。在分布式存儲(chǔ)系統(tǒng)的基礎(chǔ)上,建立了統(tǒng)一資源調(diào)度管理,高效地支持大規(guī)模批處理、交互式查詢(xún)計(jì)算、流式計(jì)算等多種計(jì)算引擎。自有3算法與分析工具提供挖掘算法工具、人工智能工具實(shí)現(xiàn)數(shù)據(jù)深度挖掘能力;同時(shí)為各類(lèi)客戶查詢(xún)分析、應(yīng)用開(kāi)發(fā)等相關(guān)工具,方便人員使用。自有4系統(tǒng)運(yùn)維管控系統(tǒng)運(yùn)維監(jiān)控中心可提供快速完成產(chǎn)品套件的安裝部署、節(jié)點(diǎn)監(jiān)控、訪問(wèn)權(quán)限管理、資源配額管理、系統(tǒng)告警分析、升級(jí)擴(kuò)容等計(jì)算平臺(tái)維護(hù)工作,通過(guò)統(tǒng)一的圖形化界面實(shí)現(xiàn)對(duì)大數(shù)據(jù)平臺(tái)及運(yùn)行服務(wù)狀況的實(shí)時(shí)監(jiān)控和管理。自有5數(shù)據(jù)資產(chǎn)管理將數(shù)據(jù)對(duì)象作為一種全新的資產(chǎn)形態(tài),圍繞數(shù)據(jù)資產(chǎn)本身建立一個(gè)可靠可信的管理機(jī)制,提供數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全等,以實(shí)現(xiàn)數(shù)據(jù)的可管、可控、可視,為實(shí)現(xiàn)數(shù)據(jù)價(jià)值增值奠定良好基礎(chǔ)。自有數(shù)據(jù)可視化Vision具有儀表盤(pán)(Dashboard)、靈活查詢(xún)(Query)、電子表格(Spreadsheet)、多維分析(Analysis)、移動(dòng)應(yīng)用(Mobile)、分析報(bào)告插件(OfficeAddin)、自助分析(xQuery)、數(shù)據(jù)采集(dataIn)、數(shù)據(jù)挖掘(SmartMining)等豐富的功能,用戶可以更直觀便捷地獲取信息,并開(kāi)創(chuàng)性地把各種技術(shù)整合到一個(gè)集成環(huán)境中。自有基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn),針對(duì)開(kāi)源ApacheHadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作,并自主創(chuàng)新的眾多功能

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論