




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
企業(yè)數(shù)據(jù)治理總體解決方案PPT2023年CONTENT數(shù)據(jù)治理背景數(shù)據(jù)存儲治理數(shù)據(jù)算力治理數(shù)據(jù)質(zhì)量治理數(shù)據(jù)指標(biāo)治理010203040506數(shù)據(jù)安全治理數(shù)據(jù)治理背景數(shù)據(jù)治理定義01數(shù)據(jù)治理是一種數(shù)據(jù)管理概念,從數(shù)據(jù)全鏈路的視角出發(fā),采用多種手段從多維度對數(shù)據(jù)進(jìn)行治理,從而提供高質(zhì)量的數(shù)據(jù),打造健康的數(shù)據(jù)治理體系。治理背景02各模塊規(guī)范性差、模塊之間溝通有問題、數(shù)據(jù)增長迅速,對存儲和算力消耗很多、數(shù)據(jù)質(zhì)量差、延遲高、口徑不統(tǒng)一,準(zhǔn)確性無法保證治理范圍03數(shù)據(jù)全鏈路,包括數(shù)據(jù)接入、數(shù)據(jù)平臺產(chǎn)品、底層架構(gòu)、數(shù)據(jù)倉庫,數(shù)據(jù)可視化平臺,指標(biāo)口徑等數(shù)據(jù)治理背景數(shù)據(jù)治理背景治理維度指標(biāo)治理算力治理質(zhì)量治理存儲治理安全治理治理手段
標(biāo)準(zhǔn)流程組織技術(shù)評估運營存儲治理1、數(shù)據(jù)增長速度加快,造成存儲消耗成本成倍增加。2、數(shù)據(jù)增長不可控,導(dǎo)致年度預(yù)算及存儲無法穩(wěn)定。3、數(shù)據(jù)價值不可衡量,導(dǎo)致無法決策交付。4、存儲資源的浪費,導(dǎo)致集群成本增加。需求背景1、建立數(shù)據(jù)增長預(yù)測及評估體系,實現(xiàn)數(shù)據(jù)增長可洞察2、建立數(shù)據(jù)長效及應(yīng)急治理體系,實現(xiàn)數(shù)據(jù)增長可控制3、建立數(shù)據(jù)價值評估體系,實現(xiàn)資產(chǎn)價值可衡量4、建立壓縮及低成本存儲架構(gòu)體系,降低整體存儲成本必要性&價值存儲治理
-
現(xiàn)狀及背景03存儲成本可降低根據(jù)數(shù)據(jù)價值及數(shù)據(jù)利用率建立數(shù)據(jù)周期性壓縮機(jī)制,
減少數(shù)據(jù)存儲。通過調(diào)整冷數(shù)據(jù)存儲介質(zhì)減少機(jī)器成本。01數(shù)據(jù)增長可控制建立數(shù)據(jù)增長預(yù)測、評估及監(jiān)控體系,
通過生命周期管理及規(guī)則治理實現(xiàn)數(shù)據(jù)存儲治理自動化,
針對異常增長實行專項或應(yīng)急舉措治理。02數(shù)據(jù)價值可衡量通過資產(chǎn)盤點實現(xiàn)數(shù)據(jù)應(yīng)用業(yè)務(wù)及服務(wù)劃分,
建立數(shù)據(jù)價值評估體系,
針對不同價值數(shù)據(jù)進(jìn)行分類存儲保障及治理,
并按照數(shù)據(jù)應(yīng)用業(yè)務(wù)劃分建立存儲成本分?jǐn)倷C(jī)制存儲治理
-
目標(biāo)存儲治理
-
解決方案自動化治理智能化治理運動式治理數(shù)據(jù)登記數(shù)據(jù)生產(chǎn)及采集上報數(shù)據(jù)采集數(shù)據(jù)處理數(shù)據(jù)輸出羅盤無效埋點離線接入生命周期平臺數(shù)據(jù)倉庫數(shù)據(jù)應(yīng)用業(yè)務(wù)系統(tǒng)重復(fù)埋點測試埋點錯誤埋點低價值埋點測試數(shù)據(jù)無效數(shù)據(jù)小文件合并終端上報 DP業(yè)務(wù)埋點 埋點過濾推薦埋點 PID合并搜索埋點 維度合并DSP埋點長度優(yōu)化服務(wù)埋點無效來源DataBus異常增長檢測實時接入數(shù)據(jù)價值評估數(shù)據(jù)資產(chǎn)目錄盤點歸檔遷移全量改增量業(yè)務(wù)重復(fù)校驗EC、壓縮存儲層級改造無效模型治理模型合理性無應(yīng)用治理低價值應(yīng)用治理API合理性看板合理性指標(biāo)合理性項目合理性存儲治理
–
全鏈路治理手段存儲治理
-
生命周期管理維度管理表集管理規(guī)則配置確認(rèn)流程成本周知效果回收批量表現(xiàn)狀分析與維度梳理數(shù)據(jù)生命周期配置與確認(rèn)效果周知與反饋批量表配置流程單表配置流程新建表強(qiáng)制配置配置生命周期配置確認(rèn)周期配置排除分區(qū)自動清理已有表單配置選擇生命周期標(biāo)簽自動清理存儲治理
-
數(shù)據(jù)資產(chǎn)目錄業(yè)務(wù)標(biāo)準(zhǔn)部門業(yè)務(wù)服務(wù)服務(wù)標(biāo)準(zhǔn)部門平臺服務(wù)業(yè)務(wù)及服務(wù)標(biāo)準(zhǔn)部門分類標(biāo)簽大數(shù)據(jù)業(yè)務(wù)服務(wù)標(biāo)準(zhǔn)數(shù)據(jù)血緣資產(chǎn)目錄應(yīng)用存儲模型質(zhì)量場景識別引擎數(shù)據(jù)價值高價值中價值低價值無價值基于經(jīng)驗規(guī)則計算模型成功失敗1.
進(jìn)入2.1
形成2.2
進(jìn)入計算模型3
形成數(shù)據(jù)應(yīng)用數(shù)據(jù)治理數(shù)據(jù)存儲數(shù)據(jù)質(zhì)量數(shù)據(jù)安全存儲治理
-
數(shù)據(jù)價值評估算力治理算力治理-問題分析存量任務(wù)數(shù)量多、增長快,平臺上有大量異常(或無效)
任務(wù)新增任務(wù)無“查重”檢測機(jī)制,平臺存在冗余或相似任務(wù)存在沒人使用(無價值)的任務(wù),長期空跑平臺缺乏任務(wù)治理產(chǎn)品數(shù)據(jù)傾斜等慢任務(wù),缺乏診斷工具,優(yōu)化工具
計算引擎以MR/Tez為主,Spark引擎使用占比不足5%,算力利用效率不高缺少算力量化指標(biāo),任務(wù)價值量化算力使用粗放,資源成本意識弱算力使用需要精細(xì)化運營專項一:提高有效算力占比①
獲取無效任務(wù)(異常、冗余)②
建立治理規(guī)則引擎③
效果評估④
建立“識別-治理-分析”閉環(huán)產(chǎn)品專項二:提升平臺計算資源利用效率①
Hive->Spark遷移工程②
hive優(yōu)化診斷工具③
任務(wù)分發(fā)④
在離線混合部署專項三:建立算力增長可控體系①
算力量化、任務(wù)價值量化②
治理效果評估③
算力/任務(wù)
健康度監(jiān)測④
算力管理、資源拆分算力治理-整體架構(gòu)提升有效算例占比提高算力能效集群計算引擎升級 tez spark在離線服務(wù)混部在離線物理集群劃分分時錯峰復(fù)用資源調(diào)度底層功能算力采集算力量化任務(wù)日志收集任務(wù)日志解析支撐單任務(wù)診斷工具工具鏈路任務(wù)診斷工具功能無效任務(wù)下線問題任務(wù)識別重復(fù)計算識別相似任務(wù)識別報警推送系統(tǒng)報警推送任務(wù)白名單用戶問題任務(wù)優(yōu)化重復(fù)計算緩存相似任務(wù)合并核心任務(wù)保障API數(shù)據(jù)地圖奧丁 ……數(shù)據(jù)來源任務(wù)價值量化功能核心任務(wù)保障調(diào)度策略編排算力健康度監(jiān)控看板算力治理-任務(wù)治理流程日志數(shù)倉集市業(yè)務(wù)指標(biāo)交換Odin數(shù)據(jù)平臺識別引擎(留下有效算力)規(guī)則庫識別模型(價值分、相似度)成功失敗1.
進(jìn)入2.1
判定2.2
進(jìn)入計算模型3
判定治理策略引擎(治理無效算力)下線修復(fù)優(yōu)化合并收益模型(量化治理效果)用戶團(tuán)隊平臺4
量化治理閉環(huán)系統(tǒng)(反饋機(jī)制)(治理率、算力收益、健康分、價值分、等效成本)用戶參與規(guī)則、模型評測平臺量化分析5
反饋6.1
迭代6.3
迭代6.2
迭代算力量化業(yè)務(wù)價值數(shù)據(jù)收集信息采集價值挖掘任務(wù)治理規(guī)則庫沉淀模型治理規(guī)則庫挖掘價值量化模型完善治理體系規(guī)則庫迭代識別模型:相似模型、價值量化模型治理策略引擎:優(yōu)化、合并策略開發(fā)收益模型(量化平臺/團(tuán)隊/用戶治理效果)用戶參與/反饋機(jī)制規(guī)則、計算模型效果評測價值分、健康分治理閉環(huán)P1
任務(wù)價值量化P2
完善治理閉環(huán)P3
冗余計算消除核心舉措算力治理:HiveSQL向SparkSQL遷移算力治理:Hive優(yōu)化診斷工具通過調(diào)度日志獲取任務(wù)Application
id通過Tez
ui接口獲取DAG列表等相關(guān)信息Loading
Data
耗時異常File
Merge
耗時異常Map
端數(shù)據(jù)傾斜Reduce
端數(shù)據(jù)傾斜切片耗時異常重復(fù)使用大表輸入超時任務(wù)ID根據(jù)問題類型選擇優(yōu)化策略算力治理:在離線混部算力治理-建立算力增長可控體系1、全局視角:算力使用現(xiàn)狀是否健康?2、什么時候
該增加機(jī)器?3、增加多少機(jī)器?算力增長可控的四個階段:L0-自然增長:無治理,算力不可量化L1-初步可控:任務(wù)消耗算力可采集量化,實現(xiàn)治理產(chǎn)品閉環(huán),算力成本可分?jǐn)偅ó?dāng)前階段)L2-中等可控:算力增長趨勢可預(yù)估,算力價值可量化,計算效率大幅提升,算力擴(kuò)容流程產(chǎn)品化L3-完全可控:算力分配實現(xiàn)自動化彈性伸縮,任務(wù)的智能診斷與優(yōu)化說不清!算力治理-健康度監(jiān)測質(zhì)量治理組織大數(shù)據(jù)委員會大數(shù)據(jù)平臺產(chǎn)研 故障組數(shù)據(jù)治理組 業(yè)務(wù)方評估質(zhì)量分模型 系統(tǒng)穩(wěn)定 項目質(zhì)量故障發(fā)生率 用戶滿意度質(zhì)量治理全局效果檢測質(zhì)量治理-整體架構(gòu)標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)定義 數(shù)據(jù)標(biāo)準(zhǔn)落地系統(tǒng)穩(wěn)定性標(biāo)準(zhǔn) 標(biāo)準(zhǔn)版本管理故障定級標(biāo)準(zhǔn)設(shè)定產(chǎn)品數(shù)據(jù)質(zhì)量管理平臺(DQMT)智能分析服務(wù)(IDAS)問題分析工具 數(shù)據(jù)小幫手流程系統(tǒng)/數(shù)倉 上線、迭代、測試SOP數(shù)據(jù)監(jiān)控流程 質(zhì)量值班流程數(shù)據(jù)/產(chǎn)品問題 反饋、收集、跟進(jìn)運營故障定責(zé)機(jī)制 質(zhì)量紅黑榜質(zhì)量產(chǎn)品觸達(dá)用戶 提高使用率提升數(shù)據(jù)質(zhì)量意識質(zhì)量治理-質(zhì)量管理平臺數(shù)據(jù)質(zhì)量管理平臺(DQMT)事中監(jiān)控事前排查事后分析問題跟進(jìn)知識沉淀核心功能隱患排查 監(jiān)控報警 質(zhì)量分析實時智能質(zhì)量透明度質(zhì)量日報監(jiān)控大盤功能觸達(dá)異常定位質(zhì)量感知問題下鉆解決方案智能質(zhì)量治理-隱患排查全平臺系統(tǒng)變更數(shù)倉類變更依賴變更/上下線重大變更流程/評審/通知系統(tǒng)穩(wěn)定性指標(biāo)監(jiān)控隱患定位影響程度定時報警覆蓋數(shù)據(jù)生產(chǎn)全場景隱患排查更實時架構(gòu)類變更平臺類變更質(zhì)量治理-監(jiān)控報警基線開始時間智能基線算法基線結(jié)束時間基線運行耗時運行耗時異常已開始超基線未開始預(yù)估延遲時間未開始未完成任務(wù)狀態(tài)報警信息+++監(jiān)控系統(tǒng)監(jiān)控系統(tǒng)監(jiān)控系統(tǒng)異常及時暴露問題及時定位累計趨勢跟蹤多場景多頻次小時級監(jiān)控天級別監(jiān)控階段性趨勢多種監(jiān)控策略超失敗次數(shù)監(jiān)控超基線buffer監(jiān)控運行時間異常監(jiān)控&質(zhì)量治理-質(zhì)量分析模型合理性+歷史運行狀況診斷:模型跨層依賴鏈路長度過長上游單節(jié)點耗時過長鏈路空閑時間(時間觸發(fā)/分發(fā)等待)···
···實際案例收集關(guān)鍵延遲鏈路,次要延遲鏈路各節(jié)點延遲貢獻(xiàn)度各類原因造成延遲度新增較晚節(jié)點上游節(jié)點耗時異常/失敗重試時間觸發(fā)/等待時長項目數(shù)據(jù)質(zhì)量報告產(chǎn)出時間延遲分析系統(tǒng)優(yōu)化解決方案沉淀優(yōu)化值班流程完善產(chǎn)品功能早報:今日項目產(chǎn)出是否異常,異常點定位晚報:全鏈路修改是否對次日產(chǎn)出有影響項目質(zhì)量問題統(tǒng)一定位匯總對于項目全鏈路修改,統(tǒng)一暴露次日問題隱患質(zhì)量治理-質(zhì)量透明度零散報警項目整體質(zhì)量無感知質(zhì)量日報監(jiān)控大盤監(jiān)控任務(wù)多報警洪流平臺數(shù)據(jù)質(zhì)量整體感知質(zhì)量問題逐層下鉆
·
定位跟蹤項目延遲率項目延遲度異常波動率變更隱患率耗時異常率調(diào)度系統(tǒng)DP指標(biāo)平臺druidhadoopkylindatabus指標(biāo)治理體系化治理業(yè)務(wù)方大數(shù)據(jù)平臺數(shù)據(jù)治理組大數(shù)據(jù)委員會數(shù)據(jù)倉庫流程規(guī)范口徑變更流程邏輯變更流程指標(biāo)模型變更數(shù)倉模型變更數(shù)據(jù)回刷流程指標(biāo)下線流程約束約束一站式指標(biāo)開發(fā)平臺服務(wù)層存儲層KylinKafkaDorisMysqlDruid指標(biāo)注冊指標(biāo)認(rèn)證指標(biāo)加工業(yè)務(wù)字典指標(biāo)API約束可視化組織結(jié)構(gòu)監(jiān)控系統(tǒng)監(jiān)控監(jiān)控監(jiān)控技術(shù)層貢獻(xiàn)度算法prophet皮爾森相關(guān)性系數(shù)Isolation
forestreactspringbootmybatis準(zhǔn)確性一致性鏈路歸因業(yè)務(wù)歸因波動監(jiān)測環(huán)比
同比
動態(tài)閾值固定值
自定義范圍服務(wù)層奧丁外部系統(tǒng)認(rèn)證打標(biāo)懸浮窗口頁面通告產(chǎn)品&流程業(yè)務(wù)口徑統(tǒng)一 保障數(shù)據(jù)質(zhì)量實現(xiàn)成本控制管理效率提升標(biāo)準(zhǔn)規(guī)范開發(fā)指標(biāo)治理-整體框架分析報告監(jiān)控大盤隱患檢測預(yù)警指標(biāo)查詢指標(biāo)治理-一站式指標(biāo)平臺1開發(fā)流程線上化數(shù)倉規(guī)劃數(shù)倉建模指標(biāo)定義Cube建模指標(biāo)加工配置2注冊認(rèn)證線上化注冊配置認(rèn)證流程指標(biāo)發(fā)布審核流程3生命周期管理線上化模型生命周期Cube生命周期指標(biāo)生命周期認(rèn)證生命周期4指標(biāo)訂閱5變更通知口徑變更通知開發(fā)邏輯變更通知檢測鏈路變更通知指標(biāo)定義與管理
指標(biāo)查詢Cube管理……指標(biāo)緩存指標(biāo)平臺OLAP引擎HDFS/Hive梅林、圖靈、CA看板等數(shù)據(jù)產(chǎn)品奧丁可視化分析restfulapi指標(biāo)API查詢引擎(Query
Engine)查詢轉(zhuǎn)換查詢路由統(tǒng)一查詢接口……查詢緩存熔斷降級Apache
KylinApache
DruidClickhouseApache
Doris指標(biāo)治理-一站式指標(biāo)平臺指標(biāo)治理-監(jiān)控平臺指標(biāo)治理-準(zhǔn)確性監(jiān)控框架數(shù)據(jù)源后端服務(wù)用戶展示HIVEKYLINDRUIDODIN接口前端:生成異常波動分析報告報警推送結(jié)果記錄庫結(jié)果記錄庫結(jié)果記錄庫轉(zhuǎn)為統(tǒng)一數(shù)據(jù)格式數(shù)據(jù)獲取元數(shù)據(jù)指標(biāo)api指標(biāo)異常監(jiān)測+基礎(chǔ)規(guī)則監(jiān)控(自定義策略/智能異常檢測算法)鏈路歸因業(yè)務(wù)歸因(指標(biāo)拆解、維度拆解)調(diào)度任務(wù)TaskTaskTask自定義SQL指標(biāo)治理-一致性監(jiān)控框架自動化監(jiān)控|指標(biāo)全鏈路自定義監(jiān)控指標(biāo)分詞同義詞匹配相似度計算指標(biāo)名稱一致性判別數(shù)據(jù)關(guān)系趨勢相關(guān)數(shù)量級復(fù)合公式其他倍數(shù)詞庫構(gòu)建指標(biāo)數(shù)值一致性判別指標(biāo)口徑一致性判別發(fā)送一致性監(jiān)控報告定時監(jiān)控自定義配置監(jiān)控規(guī)則:數(shù)據(jù)關(guān)系、業(yè)務(wù)規(guī)則等安全治理安全治理-安全架構(gòu)安全治理大數(shù)據(jù)安全專項數(shù)據(jù)加密方式升級數(shù)據(jù)外發(fā)權(quán)限管理數(shù)據(jù)落地可追溯數(shù)據(jù)權(quán)限評審收斂大數(shù)據(jù)安全操作規(guī)范異常行為審計數(shù)據(jù)安全管理制度安全治理-安全操作規(guī)范數(shù)據(jù)產(chǎn)生資產(chǎn)明確、安全定級、數(shù)據(jù)脫敏數(shù)據(jù)存儲C
3
、C
4
級敏感數(shù)據(jù)明文落地存儲數(shù)據(jù)使用審批前置、最少必要、最小期限、數(shù)據(jù)脫敏、用戶授權(quán)。安全治理-動態(tài)加解密敏感數(shù)據(jù)地圖提高敏感數(shù)據(jù)識別準(zhǔn)確率,
建設(shè)隱私數(shù)據(jù)明文掃描與校準(zhǔn)能力K
M
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位防盜安全管理制度
- 學(xué)校保安獎懲管理制度
- 工地材料調(diào)撥管理制度
- 啤酒銷售售后管理制度
- 內(nèi)部客戶投訴管理制度
- 公司合同文檔管理制度
- 勞動仲裁公司管理制度
- 天才計劃會員管理制度
- 宣傳展示物料管理制度
- 學(xué)校器材使用管理制度
- 全面輪機(jī)英語專業(yè)詞匯
- 學(xué)生出國交流學(xué)習(xí)ABC-寧波大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 自愿凈身出戶離婚協(xié)議書參考范文(2篇)
- 6S知識競賽暨技能比武活動方案
- 教育學(xué)原理簡答題和論述題
- 部編一年級下冊語文 第四單元復(fù)習(xí)教案2份
- 杭州銀行春季校園2023年招聘筆試歷年高頻考點試題答案詳解
- 游博物館小學(xué)作文
- 江蘇省蘇州市昆山市2022-2023學(xué)年六年級數(shù)學(xué)第二學(xué)期期末達(dá)標(biāo)測試試題含解析
- 光伏系統(tǒng)調(diào)試方案
- 徠卡v lux4中文說明書大約工作時間和可拍攝圖像數(shù)量
評論
0/150
提交評論