![阿里大數(shù)據(jù)管理篇大總結(jié)_第1頁](http://file4.renrendoc.com/view/dbc0cd0c965cbc0435f995399b3cde88/dbc0cd0c965cbc0435f995399b3cde881.gif)
![阿里大數(shù)據(jù)管理篇大總結(jié)_第2頁](http://file4.renrendoc.com/view/dbc0cd0c965cbc0435f995399b3cde88/dbc0cd0c965cbc0435f995399b3cde882.gif)
![阿里大數(shù)據(jù)管理篇大總結(jié)_第3頁](http://file4.renrendoc.com/view/dbc0cd0c965cbc0435f995399b3cde88/dbc0cd0c965cbc0435f995399b3cde883.gif)
![阿里大數(shù)據(jù)管理篇大總結(jié)_第4頁](http://file4.renrendoc.com/view/dbc0cd0c965cbc0435f995399b3cde88/dbc0cd0c965cbc0435f995399b3cde884.gif)
![阿里大數(shù)據(jù)管理篇大總結(jié)_第5頁](http://file4.renrendoc.com/view/dbc0cd0c965cbc0435f995399b3cde88/dbc0cd0c965cbc0435f995399b3cde885.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
阿里大數(shù)據(jù)管理篇大總結(jié)第1章元數(shù)據(jù)1.1元數(shù)據(jù)概述1.1.1元數(shù)據(jù)定義元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用,記錄了數(shù)據(jù)從產(chǎn)生到消費的全過程。元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關(guān)系、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運行狀態(tài)。元數(shù)據(jù)按用途的不同分為兩類:技術(shù)元數(shù)據(jù)(TechnicalMetadata)和業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata)技術(shù)元數(shù)據(jù):是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù)。分布式計算系統(tǒng)存儲元數(shù)據(jù),如表、列、分區(qū)等信息。記錄了表的表名。分區(qū)信息、責(zé)任人信息、文件大小、表類型,生命周期,以及列的字段名、字段類型、字段備注、是否是分區(qū)字段等信息。分布式計算系統(tǒng)運行元數(shù)據(jù),如MaxCompute上所有作業(yè)運行等信息:類似于Hive的Job日志,包括作業(yè)類型、實例名稱、輸入輸出、SQL、運行參數(shù)、執(zhí)行時間、最細(xì)粒度的FuxiInstance(MaxCompute中MR執(zhí)行的最小單元)執(zhí)行信息等。數(shù)據(jù)開發(fā)平臺中數(shù)據(jù)同步、計算任務(wù)、任務(wù)調(diào)度等信息,包括數(shù)據(jù)同步的輸入輸出表和字段,以及同步任務(wù)本身的節(jié)點信息:計算任務(wù)主要有輸入輸出、任務(wù)本身的節(jié)點信息;任務(wù)調(diào)度主要有任務(wù)的依賴類型、依賴關(guān)系等,以及不同類型調(diào)度任務(wù)的運行日志等。數(shù)據(jù)質(zhì)量和運維相關(guān)元數(shù)據(jù),如任務(wù)監(jiān)控、運維報警、數(shù)據(jù)質(zhì)量、故障等信息,包括任務(wù)監(jiān)控運行日志、告警配置及運行日志、故障信息等。業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。1.1.2元數(shù)據(jù)價值元數(shù)據(jù)有重要的應(yīng)用價值,是數(shù)據(jù)管理、數(shù)據(jù)內(nèi)容、數(shù)據(jù)應(yīng)用的基礎(chǔ);在數(shù)據(jù)管理方面為集團(tuán)數(shù)據(jù)提供在計算、存儲、成本、質(zhì)量、安全、模型等治理領(lǐng)域上的數(shù)據(jù)支持。例如在計算上可以利用元數(shù)據(jù)查找超長運行節(jié)點,對這些節(jié)點進(jìn)行專項治理,保障基線產(chǎn)出時間。在數(shù)據(jù)內(nèi)容方面為集團(tuán)數(shù)據(jù)進(jìn)行數(shù)據(jù)域、數(shù)據(jù)主題、業(yè)務(wù)屬性等的提取和分析提供數(shù)據(jù)素材。例如可以利用元數(shù)據(jù)構(gòu)建知識圖譜,給數(shù)據(jù)打標(biāo)簽,清楚地知道現(xiàn)在有哪些數(shù)據(jù)。在數(shù)據(jù)應(yīng)用方面打通產(chǎn)品及應(yīng)用鏈路,保障產(chǎn)品數(shù)據(jù)準(zhǔn)確、及時產(chǎn)出。例如打通MaxCompute和應(yīng)用數(shù)據(jù),明確數(shù)據(jù)資產(chǎn)等級,更有效地保障產(chǎn)品數(shù)據(jù)。1.1.3統(tǒng)一元數(shù)據(jù)體系建設(shè)元數(shù)據(jù)的質(zhì)量直接影響到數(shù)據(jù)管理的準(zhǔn)確性,如何把元數(shù)據(jù)建設(shè)好將起到至關(guān)重要的作用。元數(shù)據(jù)建設(shè)的目標(biāo)是打通數(shù)據(jù)接入到加工,再到數(shù)據(jù)消費整個鏈路,規(guī)范元數(shù)據(jù)體系與模型,提供統(tǒng)一的元數(shù)據(jù)服務(wù)出口,保障元數(shù)據(jù)產(chǎn)出的穩(wěn)定性和質(zhì)量。1.2元數(shù)據(jù)應(yīng)用價值:數(shù)據(jù)驅(qū)動決策,數(shù)字化運營通過數(shù)據(jù)驅(qū)動的方法,我們能夠判斷趨勢,從而展開有效行動,幫助自己發(fā)現(xiàn)問題,推動創(chuàng)新或解決方案的產(chǎn)生對于數(shù)據(jù)使用者,可以通過元數(shù)據(jù)讓其快速找到所需要的數(shù)據(jù);對于ETL工程師,可以通過元數(shù)據(jù)指導(dǎo)其進(jìn)行模型設(shè)計、任務(wù)優(yōu)化和任務(wù)下線等各種日常ETL工作;對于運維工程師,可以通過元數(shù)據(jù)指導(dǎo)其進(jìn)行整個集群的存儲、計算和系統(tǒng)優(yōu)化等運維工作1.2.1DataProfile核心思路:為紛繁復(fù)雜的數(shù)據(jù)建立一個脈絡(luò)清晰的血緣圖譜。通過圖計算、標(biāo)簽傳播算法等技術(shù),系統(tǒng)化、自動化地對計算與存儲平臺上的數(shù)據(jù)進(jìn)行打標(biāo)、整理、歸檔,實際承擔(dān)的是為元數(shù)據(jù)“畫像”的任務(wù),開發(fā)了四類標(biāo)簽:基礎(chǔ)標(biāo)簽:針對數(shù)據(jù)的存儲情況、訪問情況、安全等級等進(jìn)行打標(biāo)簽。數(shù)倉標(biāo)簽:針對數(shù)據(jù)是增量還是全量、是否可再生、數(shù)據(jù)的生命周期來進(jìn)行標(biāo)簽化處理。業(yè)務(wù)標(biāo)簽:根據(jù)數(shù)據(jù)歸屬的主題域、產(chǎn)品線、業(yè)務(wù)類型為數(shù)據(jù)打上不同的標(biāo)簽。潛在標(biāo)簽:這類標(biāo)簽主要是為了說明數(shù)據(jù)潛在的應(yīng)用場景,比如社交、媒體、廣告、電商、金融等。1.2.2元數(shù)據(jù)門戶元數(shù)據(jù)門戶致力打造一站式的數(shù)據(jù)管理平臺、高效的一體化數(shù)據(jù)市場“前臺”產(chǎn)品為數(shù)據(jù)地圖,定位消費市場,實現(xiàn)檢索數(shù)據(jù)、理解數(shù)據(jù)等“找數(shù)據(jù)”需求“后臺”產(chǎn)品為數(shù)據(jù)管理,定位于一站式數(shù)據(jù)管理,實現(xiàn)成本管理、安全管理、質(zhì)量管理等。1.2.3應(yīng)用鏈路分析通過應(yīng)用鏈路分析,產(chǎn)出表級血緣、字段血緣和表的應(yīng)用血緣。其中表級血緣主要有兩種計算方式:一種是通過MR任務(wù)日志進(jìn)行解析;一種是根據(jù)任務(wù)依賴進(jìn)行解析。常見的應(yīng)用鏈路分析應(yīng)用主要有影響分析、重要性分析、下線分析、鏈路分析、尋根溯源、故障排查等1.2.4數(shù)據(jù)建模通過元數(shù)據(jù)驅(qū)動的數(shù)據(jù)倉庫模型建設(shè),可以在一定程度上解決此問題,提高數(shù)據(jù)倉庫建模的數(shù)據(jù)化指導(dǎo),提升建模效率。表的基礎(chǔ)元數(shù)據(jù),包括下游情況、查詢次數(shù)、關(guān)聯(lián)次數(shù)、聚合次數(shù)、產(chǎn)出時間等。表的關(guān)聯(lián)關(guān)系元數(shù),包括關(guān)聯(lián)表、關(guān)聯(lián)類型、關(guān)聯(lián)字段、關(guān)聯(lián)次數(shù)等。表的字段的基礎(chǔ)元數(shù)據(jù),包括字段名稱、字段注釋、查詢次數(shù)、關(guān)聯(lián)次數(shù)、聚合次數(shù)、過濾次數(shù)等。其中查詢指SQL的SELECT,關(guān)聯(lián)指SQL的JOIN,聚合指SQL的GROUPBY,過濾指SQL的WHERE。星形模型設(shè)計中,使用元數(shù)據(jù)信息有:基于下游使用中關(guān)聯(lián)次數(shù)大于某個閾值的表或查詢次數(shù)大于某個閾值的表等元數(shù)據(jù)信息,篩選用于數(shù)據(jù)模型建設(shè)的表?;诒淼淖侄卧獢?shù)據(jù),如字段中的時間字段、字段在下游使用中的過濾次數(shù)等,選擇業(yè)務(wù)過程標(biāo)識字段?;谥鲝谋淼年P(guān)聯(lián)關(guān)系、關(guān)聯(lián)次數(shù),確定和主表關(guān)聯(lián)的從表。基于主從表的字段使用情況,如字段的查詢次數(shù)、過濾次數(shù)、關(guān)聯(lián)次數(shù)、聚合次數(shù)等,確定哪些字段進(jìn)入目標(biāo)模型。1.2.5驅(qū)動ETL開發(fā)第2章計算管理2.1系統(tǒng)優(yōu)化2.1.1HBO(History-BasedOptimizer,基于歷史的優(yōu)化器)在任務(wù)穩(wěn)定的情況下,可以考慮基于任務(wù)的歷史執(zhí)行情況進(jìn)行資源評估,即采用HBO提高CPU利用率提高內(nèi)存利用率提高Instance并發(fā)數(shù)降低執(zhí)行時長針對“大促”這類數(shù)據(jù)量暴漲的場景,HBO也增加了根據(jù)數(shù)據(jù)量動態(tài)調(diào)整Instance數(shù)的功能,主要依據(jù)Map的數(shù)據(jù)量增長情況進(jìn)行調(diào)整。2.1.2CBO基于代價的優(yōu)化器,根據(jù)收集的統(tǒng)計信息來計算每種執(zhí)行方式的代價,進(jìn)而選擇最優(yōu)的執(zhí)行方式。引人了重新排序Join(JoinReorder)和自動MapJoin(AutoMapJoin)優(yōu)化規(guī)則等,同時基于Volcano模型的優(yōu)化器會盡最大的搜索寬度來獲取最優(yōu)計劃可以設(shè)置規(guī)則白名單(使用哪些優(yōu)化規(guī)則)、黑名單(關(guān)閉哪些優(yōu)化規(guī)則)Optimizer會提供謂詞下推(PredicatePushDown)優(yōu)化,主要目的是盡量早地進(jìn)行謂詞過濾,以減少后續(xù)操作的數(shù)據(jù)量,提高性能。但需要注意的是:UDF:對于UDF是否下推,優(yōu)化器做了限制,不會任意下推這種帶有用戶意圖的函數(shù),主要是因為不同用戶書寫的函數(shù)含義不一樣,不可以一概而論。不確定函數(shù):對于不確定函數(shù),優(yōu)化器也不會任意下推,比如sample函數(shù),如果用戶將其寫在where子句中,同時語句存在Join,則優(yōu)化器是不會下推到TableScan的隱式類型轉(zhuǎn)換:書寫SQL語句時,應(yīng)盡量避免JoinKey存在隱式類型轉(zhuǎn)換。2.2任務(wù)優(yōu)化2.2.1Map傾斜在Map端讀數(shù)據(jù)時,由于讀人數(shù)據(jù)的文件大小分布不均勻,因此會導(dǎo)致有些MapInstance讀取并且處理的數(shù)據(jù)特別多,而有些MapInstance處理的數(shù)據(jù)特別少,造成Map端長尾;上游表文件的大小特別不均勻,并且小文件特別多,導(dǎo)致當(dāng)前表Map端讀取的數(shù)據(jù)分布不均勻,引起長尾,手段有二:通過對上游合并小文件+調(diào)節(jié)本節(jié)點的小文件的參數(shù)來進(jìn)行優(yōu)化通過“distributebyrand(”會將Map端分發(fā)后的數(shù)據(jù)重新按照隨機(jī)值再進(jìn)行一次分發(fā)Map端長尾的根本原因是由于讀入的文件塊的數(shù)據(jù)分布不均勻,再加上UDF函數(shù)性能、Join、聚合操作等,導(dǎo)致讀人數(shù)據(jù)量大的Maplnstance耗時較長。在開發(fā)過程中如果遇到Map端長尾的情況,首先考慮如何讓MapInstance讀取的數(shù)據(jù)量足夠均勻,然后判斷是哪些操作導(dǎo)致MapInstance比較慢,最后考慮這些操作是否必須在Map端完成,在其他階段是否會做得更好。2.2.2Join傾斜因為數(shù)據(jù)傾斜導(dǎo)致長尾的現(xiàn)象比較普遍,嚴(yán)重影響任務(wù)的執(zhí)行時間,尤其是在“雙ll”等大型活動期間,長尾程度比平時更嚴(yán)重。比如某些大型店鋪的PV遠(yuǎn)遠(yuǎn)超過一般店鋪的PV,當(dāng)用瀏覽日志數(shù)據(jù)和賣家維表關(guān)聯(lián)時,會按照賣家ID進(jìn)行分發(fā)MapJoin方案:Join傾斜時,如果某路輸入比較小,則可以采用MapJoin避免傾斜;但是MapJoin的使用有限制,必須是Join中的從表比較小才可用Join因為空值導(dǎo)致長尾:將空值處理成隨機(jī)值Join因為熱點值導(dǎo)致長尾:先將熱點key取出,對于主表數(shù)據(jù)用熱點key切分成熱點數(shù)據(jù)和非熱點數(shù)據(jù)兩部分分別處理,最后合并。2.2.3Reduce傾斜Reduce端產(chǎn)生長尾的主要原因就是key的數(shù)據(jù)分布不均勻?qū)ν粋€表按照維度對不同的列進(jìn)行CountDistinct操作,造成Map端數(shù)據(jù)膨脹,從而使得下游的Join和Reduce出現(xiàn)鏈路上的長尾。Map端直接做聚合時出現(xiàn)key值分布不均勻,造成Reduce端長尾對熱點key進(jìn)行單獨處理,然后通過“UnionAll”合并動態(tài)分區(qū)數(shù)過多時可能造成小文件過多,從而引起Reduce端長尾把符合不同條件的數(shù)據(jù)放到不同的分區(qū)
解決小文件過多參數(shù):setodps.sql.reshuffle.dynamicpt=true;多個Distinct同時出現(xiàn)在一段SQL代碼中時,數(shù)據(jù)會被分發(fā)多次,不僅會造成數(shù)據(jù)膨脹N倍,還會把長尾現(xiàn)象放大N倍(常見)提前GroupBy,消除Distinct,即分別把指標(biāo)GroupBy到“原始表的數(shù)據(jù)粒度”,然后再進(jìn)行Join操作
當(dāng)出現(xiàn)的Distinct個數(shù)不多、表的數(shù)據(jù)量也不是很大、表的數(shù)據(jù)分布較均勻時,不使用MultiDistinct的計算效果也是可以接受的第3章存儲和成本管理3.1數(shù)據(jù)壓縮針對3份副本的壓縮方案:archive壓縮方法,存儲比約為1:3提高到1:1.5恢復(fù)數(shù)據(jù)塊的時間將要比原來的方式更長,讀的性能會有一定的損失應(yīng)用在冷備數(shù)據(jù)與日志數(shù)據(jù)的壓縮存儲上。3.2數(shù)據(jù)重分布基于列存儲,每個表的數(shù)據(jù)分布不同,插人數(shù)據(jù)的順序不一樣,會導(dǎo)致壓縮效果有很大的差異,因此通過修改表的數(shù)據(jù)重分布,避免列熱點,將會節(jié)省一定的存儲空間。主要通過修改distributeby和sortby字段的方法進(jìn)行數(shù)據(jù)重分布一般會篩選出重分布效果高于15%的表進(jìn)行優(yōu)化處理3.3存儲治理項優(yōu)化優(yōu)化項有未管理表、空表、最近62天未訪問表、數(shù)據(jù)無更新無任務(wù)表、數(shù)據(jù)無更新有任務(wù)表、開發(fā)庫數(shù)據(jù)大于100GB且無訪問表、長周期表等3.4生命周期管理生命周期管理的根本目的就是用最少的存儲成本來滿足最大的業(yè)務(wù)需求,使數(shù)據(jù)價值最大化。3.4.1生命周期管理策略周期性刪除策略徹底刪除策略永久保留策略極限存儲策略冷數(shù)據(jù)管理策略增量表merge全量表策略:交易增量數(shù)據(jù),使用訂單創(chuàng)建日期或者訂單結(jié)束日期作為分區(qū),同時將未完結(jié)訂單放在最大分區(qū)中,對于存儲,一個訂單在表里只保留一份;對于用戶使用,通過分區(qū)條件就能查詢某一段時間的數(shù)據(jù)。3.4.2通用的生命周期管理矩陣歷史數(shù)據(jù)等級劃分PO:非常重要的主題域數(shù)據(jù)和非常重要的應(yīng)用數(shù)據(jù),具有不可恢復(fù)性,如交易、日志、集團(tuán)KPI數(shù)據(jù)、IPO關(guān)聯(lián)表。P1:重要的業(yè)務(wù)數(shù)據(jù)和重要的應(yīng)用數(shù)據(jù),具有不可恢復(fù)性,如重要的業(yè)務(wù)產(chǎn)品數(shù)據(jù)。P2:重要的業(yè)務(wù)數(shù)據(jù)和重要的應(yīng)用數(shù)據(jù),具有可恢復(fù)性,如交易線ETL產(chǎn)生的中間過程數(shù)據(jù)。P3:不重要的業(yè)務(wù)數(shù)據(jù)和不重要的應(yīng)用數(shù)據(jù),具有可恢復(fù)性,如某些SNS產(chǎn)品報表。3.5數(shù)據(jù)成本計量將數(shù)據(jù)成本定義為存儲成本、計算成本和掃描成本三個部分,能夠很好地體現(xiàn)出數(shù)據(jù)在加工鏈路中的上下游依賴關(guān)系掃描成本:對上游數(shù)據(jù)表的掃描存儲成本:計量數(shù)據(jù)表消耗的存儲資源計算成本:計量數(shù)據(jù)計算過程中的CPU消耗3.6數(shù)據(jù)使用計費根據(jù)3.5,分為計算付費、存儲付費和掃描付費通過成本計量,可以比較合理地評估出數(shù)據(jù)加工鏈路中的成本,從成本的角度反映出在數(shù)據(jù)加工鏈路中是否存在加工復(fù)雜、鏈路過長、依賴不合理等問題,間接輔助數(shù)據(jù)模型優(yōu)化,提升數(shù)據(jù)整合效率通過數(shù)據(jù)使用計費,可以規(guī)范下游用戶的數(shù)據(jù)使用方法,提升數(shù)據(jù)使用效率,從而為業(yè)務(wù)提供優(yōu)質(zhì)的數(shù)據(jù)服務(wù)第4章數(shù)據(jù)質(zhì)量4.1數(shù)據(jù)質(zhì)量保障原則如何評估數(shù)據(jù)質(zhì)量的好壞,業(yè)界有不同的標(biāo)準(zhǔn),阿里主要從4個方面進(jìn)行評估:完整性、準(zhǔn)確性、一致性、及時性;1.完整性數(shù)據(jù)完整性是數(shù)據(jù)最基礎(chǔ)的保障;完整性:指數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況;數(shù)據(jù)缺失:主要包括記錄的缺失和記錄中某個字段信息的缺失;記錄的丟失:如,交易中每天只發(fā)訂單數(shù)都在100萬筆左右,如果某天支付訂單突然下降到1萬筆,很可能是記錄丟失了;
記錄中字段的丟失:如,訂單的商品ID、賣家ID都是必然存在的,這些字段的空值個數(shù)肯定是0,一旦大于0就違背了完整性約束;2.準(zhǔn)確性準(zhǔn)確性:指數(shù)據(jù)匯總記錄的信息和數(shù)據(jù)是否準(zhǔn)確,是否存在異?;蛘咤e誤的信息;準(zhǔn)確:數(shù)據(jù)表中記錄的信息與業(yè)務(wù)過程中真實發(fā)生的事實要一致;
如何判斷是否準(zhǔn)確:卡點監(jiān)控——制定相應(yīng)規(guī)則,根據(jù)根校驗數(shù)據(jù),符合規(guī)則的數(shù)據(jù)則認(rèn)為是準(zhǔn)確的;
如,一筆訂單如果出現(xiàn)確認(rèn)收貨金額為負(fù)值,或者下單時間在公司成立之前,或者訂單沒有買家信息等,這些必然是有問題的;3.一致性一致性:一般體現(xiàn)在跨度很大的數(shù)據(jù)倉庫體系中,如阿里的數(shù)據(jù)倉庫,內(nèi)部有很多業(yè)務(wù)數(shù)據(jù)倉庫分支,對于同一份數(shù)據(jù),必須保證一致性;一致:也就是指多個業(yè)務(wù)數(shù)據(jù)倉庫間的公共數(shù)據(jù),必須在各個數(shù)據(jù)倉庫中保持一致;
如,用戶ID,從在線業(yè)務(wù)庫加工到數(shù)據(jù)倉庫,再到各個消費節(jié)點,必須都是同一種類型,長度也需要保持一致;
所以,在阿里建設(shè)數(shù)據(jù)倉庫時,才有了公共層的加工,以確保數(shù)據(jù)的一致性;4.及時性及時性:指數(shù)據(jù)要能及時產(chǎn)出;主要體現(xiàn)在數(shù)據(jù)應(yīng)用上,要及時產(chǎn)出給到需求方;一般決策支持分析師希望當(dāng)天就能看到前一天的數(shù)據(jù),而不是等三五天才能看到某一個數(shù)據(jù)分析結(jié)果;否則就已失去了數(shù)據(jù)及時性的價值;如,阿里“雙11”的交易大屏數(shù)據(jù),就要做到秒級;4.2數(shù)據(jù)質(zhì)量方法概述阿里的數(shù)據(jù)質(zhì)量建設(shè)體系:消費場景知曉功能:分析解決消費場景知曉的問題;方法:通過數(shù)據(jù)資產(chǎn)等級和基于元數(shù)據(jù)的應(yīng)用鏈路,來分析解決消費場景知曉的問題;確定數(shù)據(jù)資產(chǎn)等級:根據(jù)應(yīng)用的影響程度,確定數(shù)據(jù)資產(chǎn)的等級;過程:根據(jù)數(shù)據(jù)鏈路血緣,將資產(chǎn)等級上推至各數(shù)據(jù)生產(chǎn)加工的各個環(huán)節(jié),確定鏈路上所有涉及數(shù)據(jù)的資產(chǎn)等級,以及在各個加工環(huán)節(jié)上根據(jù)資產(chǎn)等級的不同所采取不同的處理方式;數(shù)據(jù)生產(chǎn)加工各個環(huán)節(jié)卡點校驗主要對兩部分的數(shù)據(jù)卡點校驗:在線系統(tǒng)和離線系統(tǒng)數(shù)據(jù)生產(chǎn)加工各個環(huán)節(jié)的卡點校驗;在線系統(tǒng):OLTP(On-LineTransactionProcessing,聯(lián)機(jī)事務(wù)處理)系統(tǒng);在線系統(tǒng)生產(chǎn)加工各環(huán)節(jié)卡點校驗:1.根據(jù)資產(chǎn)等級的不同,當(dāng)對應(yīng)的業(yè)務(wù)系統(tǒng)變更時,決定是否將變更通知下游;
2.對于高資產(chǎn)等級的業(yè)務(wù),當(dāng)出現(xiàn)新業(yè)務(wù)數(shù)據(jù)時,是否納入統(tǒng)計中,需要卡掉審批;離線系統(tǒng):OLAP(On-LineAnalyticalProcessing,聯(lián)機(jī)分析處理)系統(tǒng);離線系統(tǒng)生產(chǎn)加工各環(huán)節(jié)卡點校驗:主要包括:代碼開發(fā)、測試、發(fā)布、歷史或錯誤數(shù)據(jù)回刷等環(huán)節(jié)的卡點校驗;
代碼開發(fā)階段、發(fā)布前的測試階段
針對數(shù)據(jù)資產(chǎn)等級的不同,對校驗的要求有所不同;風(fēng)險點監(jiān)控風(fēng)險點監(jiān)控:主要針對在數(shù)據(jù)運行過程中可能出現(xiàn)的數(shù)據(jù)質(zhì)量和時效等問題進(jìn)行監(jiān)控;主要對兩個方面進(jìn)行風(fēng)險點監(jiān)控:在線數(shù)據(jù)的風(fēng)險點監(jiān)控:主要針對在線系統(tǒng)日常運行產(chǎn)出的數(shù)據(jù)進(jìn)行業(yè)務(wù)規(guī)則的校驗;
主要使用“實時業(yè)務(wù)檢測平臺BCP(BizCheckPlatform)”;離線數(shù)據(jù)的風(fēng)險點監(jiān)控:主要是針對離線系統(tǒng)日常運行產(chǎn)出的數(shù)據(jù),進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控和時效性監(jiān)控;
DQC:監(jiān)控數(shù)據(jù)質(zhì)量;
摩薩德:監(jiān)控數(shù)據(jù)時效性;質(zhì)量衡量對質(zhì)量的衡量:事前的衡量:如DQC覆蓋率;
事后的衡量:
跟進(jìn)質(zhì)量問題,確定質(zhì)量問題原因、責(zé)任人、解決情況等,并用于數(shù)據(jù)質(zhì)量的復(fù)盤,避免類似事件再次發(fā)生;
根據(jù)質(zhì)量問題對不同等級資產(chǎn)的影響程度,確定其是屬于低影響的事件還是具有較大影響的故障;質(zhì)量分:綜合事前和事后的衡量數(shù)據(jù)進(jìn)行打分;質(zhì)量配套工具針對數(shù)據(jù)質(zhì)量的各個方面,都有相關(guān)的工具進(jìn)行保證,以提高效能;4.2.1消費場景知曉消費場景知曉的問題:數(shù)據(jù)研發(fā)工程師難以確認(rèn)幾百PB的數(shù)據(jù)是否都是重要的?是否都要進(jìn)行保障?是否有一些數(shù)據(jù)已經(jīng)過期了?是否所有需要都要精確的進(jìn)行質(zhì)量保障?解決方案:數(shù)據(jù)資產(chǎn)等級方案;產(chǎn)出:根據(jù)數(shù)據(jù)產(chǎn)品和應(yīng)用的影響程度,給數(shù)據(jù)產(chǎn)品和應(yīng)用劃分資產(chǎn)等級,并打標(biāo)處理;
根據(jù)數(shù)據(jù)鏈路血緣,將資產(chǎn)等級上推至各數(shù)據(jù)生產(chǎn)加工的各個環(huán)節(jié),確定鏈路上所有涉及數(shù)據(jù)的資產(chǎn)等級,情打標(biāo)處理;(等級標(biāo)簽與對應(yīng)的數(shù)據(jù)產(chǎn)品/應(yīng)用一致)數(shù)據(jù)資產(chǎn)等級定義背景:針對阿里龐大的數(shù)據(jù)倉庫,數(shù)據(jù)的規(guī)模已經(jīng)達(dá)到EB級,對于這么大的數(shù)據(jù)量,如果一概而論勢必會造成精力無法集中、保障無法精確;五個數(shù)據(jù)等級,不同性質(zhì)的重要性一次降低:毀滅性質(zhì)即,數(shù)據(jù)一旦出錯,將會引起重大資產(chǎn)損失,面臨重大受益損失,造成重大公共風(fēng)險;全局性質(zhì)即,數(shù)據(jù)直接或間接用于集團(tuán)業(yè)務(wù)和效果的評估、重要平臺的運維、對外數(shù)據(jù)產(chǎn)品的透露、影響用戶在阿里系網(wǎng)站的行為等;局部性質(zhì)即,數(shù)據(jù)直接或間接用于內(nèi)部一般數(shù)據(jù)產(chǎn)品或者運營/產(chǎn)品報告,如果出現(xiàn)問題會給事業(yè)部或業(yè)務(wù)線造成影響,或者造成工作效率損失;一般性質(zhì)即,數(shù)據(jù)主要用于小二的日常數(shù)據(jù)分析,出現(xiàn)問題幾乎不會帶來影響或者影響很小;未知性質(zhì)不能明確說出數(shù)據(jù)的應(yīng)用場景,則標(biāo)注為未知;對于不同的數(shù)據(jù)資產(chǎn)等級,使用英文Asset進(jìn)行標(biāo)記:毀滅性質(zhì):A1等級;
全局性質(zhì):A2等級;
局部性質(zhì):A3等級;
一般性質(zhì):A4等級;
未知性質(zhì):A5等級;
重要程度:A1>A2>A3>A4>A5;如果一份數(shù)據(jù)出現(xiàn)在多個應(yīng)用場景中,遵循就高原則;數(shù)據(jù)資產(chǎn)等級落地方法需要解決的問題:對于如此龐大的數(shù)據(jù)量,如何給每一份數(shù)據(jù)都打上一個等級標(biāo)簽?數(shù)據(jù)資產(chǎn)等級落地的方法/步驟:數(shù)據(jù)流轉(zhuǎn)過程數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中產(chǎn)生,經(jīng)過同步工具進(jìn)入數(shù)據(jù)倉庫系統(tǒng)中,在數(shù)據(jù)倉庫中進(jìn)行一般意義上的清洗、加工、整合、算法、模型等一系列運算;通過同步工具輸出到數(shù)據(jù)產(chǎn)品中進(jìn)行消費;數(shù)據(jù)從業(yè)務(wù)系統(tǒng)到數(shù)據(jù)倉庫再到數(shù)據(jù)產(chǎn)品,都是以表的形式體現(xiàn)的,流轉(zhuǎn)過程如下圖:同步到數(shù)據(jù)倉庫(對應(yīng)到阿里就是MaxCompute平臺)中的都是業(yè)務(wù)數(shù)據(jù)庫的原始表,主要用于承載業(yè)務(wù)需求,往往不能直接用于數(shù)據(jù)產(chǎn)品;(一般是ODS層的全量數(shù)據(jù))在數(shù)據(jù)產(chǎn)品中使用的都是經(jīng)過數(shù)據(jù)倉庫加工后的產(chǎn)出表;(根據(jù)需求/報表進(jìn)行加工)1.劃分?jǐn)?shù)據(jù)資產(chǎn)等級
2.根據(jù)數(shù)據(jù)流轉(zhuǎn)過程,建立元數(shù)據(jù),記錄數(shù)據(jù)表與數(shù)據(jù)產(chǎn)品或者應(yīng)用的對應(yīng)關(guān)系;
3.根據(jù)影響程度,給數(shù)據(jù)產(chǎn)品和應(yīng)用劃分?jǐn)?shù)據(jù)資產(chǎn)等級;
4.打標(biāo):依托元數(shù)據(jù)的上下游血緣,將整個消費鏈路打上某一類數(shù)據(jù)資產(chǎn)標(biāo)簽(也就是對消費鏈路數(shù)據(jù)打標(biāo));
鏈路:指數(shù)據(jù)從業(yè)務(wù)系統(tǒng)到數(shù)據(jù)產(chǎn)品的流轉(zhuǎn)過程;總結(jié):通過上述步驟,就完成了數(shù)據(jù)資產(chǎn)等級的確認(rèn),給不同的數(shù)據(jù)定義了不同的重要程度,需要用到元數(shù)據(jù)的支撐;4.2.2數(shù)據(jù)加工過程卡點校驗?zāi)康模罕U蠑?shù)據(jù)準(zhǔn)確性、保障與離線數(shù)據(jù)的一致性;在線業(yè)務(wù)系統(tǒng)卡點校驗(數(shù)據(jù)產(chǎn)出環(huán)節(jié))在線系統(tǒng)數(shù)據(jù)加工過程卡點校驗,主要指在在線系統(tǒng)的數(shù)據(jù)生產(chǎn)過程中進(jìn)行的卡點校驗;目的:保障與離線數(shù)據(jù)的一致性;背景/問題:在線業(yè)務(wù)復(fù)雜多變,總是在不斷變更,每一次變更都會帶來數(shù)據(jù)的變化,因此需要做到兩點:
1、數(shù)據(jù)倉庫需要適應(yīng)著多變的業(yè)務(wù)發(fā)展,及時做到數(shù)據(jù)的準(zhǔn)確性;
2、需要高效的將在線業(yè)務(wù)的變更通知到離線數(shù)據(jù)倉庫;阿里解決上述兩個問題的方法:工具和人工雙管齊下:既要在工具上自動捕捉每一次業(yè)務(wù)的變化,同時也要求開發(fā)人員在意識上自動進(jìn)行業(yè)務(wù)變更通知;工具發(fā)布平臺:發(fā)送重大變更的通知;
通知內(nèi)容:變更原因、變更邏輯、變更測試報告、變更時間等;
數(shù)據(jù)庫平臺:發(fā)送庫表變更通知;
通知內(nèi)容:變更原因、變更邏輯、變更測試報告、變更時間等;發(fā)布平臺功能:在業(yè)務(wù)進(jìn)行重大變更時,訂閱發(fā)布過程,然后給到離線開發(fā)人員,使其知曉此次變更的內(nèi)容;
注:業(yè)務(wù)系統(tǒng)繁忙,日常發(fā)布變更數(shù)不勝數(shù),并不是每一次業(yè)務(wù)變更都要只會離線業(yè)務(wù),那樣會造成不必要的浪費,而且影響在線業(yè)務(wù)迭代的效率;訂閱內(nèi)容:針對全集團(tuán)重要的高等級數(shù)據(jù)資產(chǎn),整理出哪些變化會影響數(shù)據(jù)的加工,則訂閱這些內(nèi)容;
如,財報,這個自然是A1等級的資產(chǎn),如果業(yè)務(wù)系統(tǒng)的改造會影響財報的計算,如約定好的計算口徑被業(yè)務(wù)系統(tǒng)發(fā)布變更修改了,那么務(wù)必要告知離線業(yè)務(wù),作為離線開發(fā)人員也必須主動關(guān)注這類發(fā)布變更信息;卡點:發(fā)布平臺集成了通知功能,針對重要的場景發(fā)布會進(jìn)行卡點,確認(rèn)通知后才能完成發(fā)布;數(shù)據(jù)庫表的變化感知無論是隨著業(yè)務(wù)發(fā)展而做的數(shù)據(jù)庫擴(kuò)容還是表的DDL變化,都需要通知到離線開發(fā)人員;DDL((DataDefinitionLanguage):數(shù)據(jù)庫模式定義語言;用于描述數(shù)據(jù)庫中要存儲的現(xiàn)實世界實體的語言。DDL數(shù)據(jù)庫模式定義語言是SQL語言(結(jié)構(gòu)化查詢語言)的組成部分;例:CREATEDATABASE(創(chuàng)建數(shù)據(jù)庫)、CREATETABLE(創(chuàng)建表);DML(DataManipulationLanguage):數(shù)據(jù)操縱語言命令;使用戶能夠查詢數(shù)據(jù)庫以及操作已有數(shù)據(jù)庫中的數(shù)據(jù)。例:insert、delete、update、select等都是DML;背景/問題:數(shù)據(jù)倉庫在進(jìn)行數(shù)據(jù)抽取時,采用的是DataX工具,可能限制了某個數(shù)據(jù)庫表,如果發(fā)生數(shù)據(jù)庫擴(kuò)容或者遷移,DataX工具是感知不到的,結(jié)果可能會導(dǎo)致數(shù)據(jù)抽取錯漏,影響一系列的下游應(yīng)用;解決方法:通過數(shù)據(jù)庫平臺發(fā)送庫表變更通知;開發(fā)人員數(shù)據(jù)資產(chǎn)等級的上下游打通,同樣也要將這個過程給到在線開發(fā)人員,使其知曉哪些是重要的核心數(shù)據(jù)資產(chǎn),哪些暫時還只是作為內(nèi)部分析數(shù)據(jù)使用;要提高在線開發(fā)人員的意識,通過培訓(xùn),將離線數(shù)據(jù)的訴求、離線數(shù)據(jù)的加工過程、數(shù)據(jù)產(chǎn)品的應(yīng)用方式,告訴在線業(yè)務(wù)開發(fā)人員,使其意識到數(shù)據(jù)的重要性,了解數(shù)據(jù)的價值,同時也告知出錯后果,使在線開發(fā)人員在完成業(yè)務(wù)目標(biāo)時,也要注重數(shù)據(jù)的目標(biāo),做到業(yè)務(wù)端和數(shù)據(jù)端一致;離線系統(tǒng)卡點校驗(數(shù)據(jù)離線加工環(huán)節(jié))背景/問題:數(shù)據(jù)從在線業(yè)務(wù)系統(tǒng)到數(shù)據(jù)倉庫再到數(shù)據(jù)產(chǎn)品的過程中,需要在數(shù)據(jù)倉庫這一層完成數(shù)據(jù)的清洗、加工;正是有了數(shù)據(jù)的加工,才有了數(shù)據(jù)倉庫模型和數(shù)據(jù)倉庫代碼的建設(shè);如何保障數(shù)據(jù)加工過程中的質(zhì)量,是離線數(shù)據(jù)倉庫保障數(shù)據(jù)質(zhì)量的一個重要環(huán)節(jié);目的:保障數(shù)據(jù)加工過程中的質(zhì)量(主要指數(shù)據(jù)的準(zhǔn)確性);在兩個環(huán)節(jié)進(jìn)行卡點校驗:代碼提交時的卡點校驗背景/原因:數(shù)據(jù)研發(fā)人員素質(zhì)不同,代碼能力也有差異,代碼質(zhì)量難以得到高效保障;解決方法:開發(fā)代碼掃描工具SQLSCAN,針對每一次提交上線的代碼進(jìn)行掃描,將風(fēng)險點提取出來;卡點方式:使用代碼掃描工具SQLSCAN,掃描代碼提取風(fēng)險點;任務(wù)發(fā)布上線時的卡點校驗為了保障線上數(shù)據(jù)的準(zhǔn)確性,每一次變更都需要線下完成測試后在發(fā)布到線上環(huán)境中,線上測試通過后才算發(fā)布成功;卡點方式:分別對任務(wù)(指變更的業(yè)務(wù))發(fā)布上線前和上線后進(jìn)行測試;發(fā)布上線前的測試:主要包括CodeReview和回歸測試;CodeReview:是一種通過復(fù)查代碼提高代碼質(zhì)量的過程;回歸測試:指修改了舊代碼后,重新進(jìn)行測試以確認(rèn)修改沒有引入新的錯誤或?qū)е缕渌a產(chǎn)生錯誤;回歸測試的目的:
保障新邏輯的正確;
保證不影響非此次變更的邏輯;注:對于資產(chǎn)等級較高的任務(wù)變更發(fā)布,采用強(qiáng)阻塞的形式,必須通過在彼岸完成回歸測試之后才允許發(fā)布;發(fā)布上線后的測試:在線上做DryRun測試或者真是環(huán)境運行測試;DryRun測試:不執(zhí)行代碼,僅運行執(zhí)行計劃,避免線上和線下環(huán)境不一致導(dǎo)致語法錯誤;真實環(huán)境的運行測試:使用真實數(shù)據(jù)進(jìn)行測試;節(jié)點變更或數(shù)據(jù)重刷新前的變更通知通知內(nèi)容:變更原因、變更邏輯、變更測試報告、變更時間等;
過程:
使用通知中心,將變更原因、變更邏輯、變更測試報告、變更時間等自動通知下游,下游對此次變更沒有異議后,再按照約定時間執(zhí)行發(fā)布變更,將變更對下游的影響降低至最低;4.2.3風(fēng)險點監(jiān)控風(fēng)險點監(jiān)控:主要指針對數(shù)據(jù)在日常運行過程中容易出現(xiàn)的風(fēng)險進(jìn)行監(jiān)控,并設(shè)置報警機(jī)制;
主要包括在線數(shù)據(jù)和離線數(shù)據(jù)運行風(fēng)險點監(jiān)控;目的:保障數(shù)據(jù)的準(zhǔn)確性;1、在線數(shù)據(jù)風(fēng)險點監(jiān)控目的:減少了在線業(yè)務(wù)系統(tǒng)產(chǎn)生的臟數(shù)據(jù),為數(shù)據(jù)準(zhǔn)確性把第一道關(guān);
另外,減少用戶錯誤信息的投訴,也減少了離線數(shù)據(jù)錯誤的回滾;BCP:阿里的實時業(yè)務(wù)檢測平臺;思路/監(jiān)控過程:在每一個業(yè)務(wù)系統(tǒng)中,當(dāng)完成業(yè)務(wù)過程進(jìn)行數(shù)據(jù)落庫時,BCP訂閱一份相同的數(shù)據(jù),根據(jù)提前設(shè)定好的業(yè)務(wù)規(guī)則,在BCP系統(tǒng)中進(jìn)行邏輯校驗,當(dāng)校驗不通過時,以報警的形式披露出來,給到規(guī)則訂閱人,以完成數(shù)據(jù)的校對;BCP的校驗過程:
獲取數(shù)據(jù)源:用戶在BCP平臺訂閱數(shù)據(jù)源,獲取需要校驗的數(shù)據(jù)源;
編寫規(guī)則:針對所訂閱的數(shù)據(jù)源進(jìn)行規(guī)則的編寫,即校驗的邏輯;規(guī)則/邏輯:是至關(guān)重要的,是校驗的核心,只有通過了這些規(guī)則,才認(rèn)定該條記錄是對的;
如,針對“訂單拍下時間”進(jìn)行校驗;邏輯:訂單的拍下時間肯定不會大于當(dāng)天的時間,也不會小于淘寶創(chuàng)立的時間;配置告警:針對不同的規(guī)則配置不同的告警形式;注:由于BCP的配置和運行成本較高,主要根據(jù)數(shù)據(jù)資產(chǎn)等級進(jìn)行監(jiān)控;離線數(shù)據(jù)風(fēng)險點監(jiān)控離線數(shù)據(jù)風(fēng)險點監(jiān)控主要包括對數(shù)據(jù)準(zhǔn)確性和數(shù)據(jù)產(chǎn)出的及時性進(jìn)行監(jiān)控;數(shù)據(jù)準(zhǔn)確性監(jiān)控數(shù)據(jù)準(zhǔn)確性是數(shù)據(jù)質(zhì)量的關(guān)鍵,因此數(shù)據(jù)準(zhǔn)確成為數(shù)據(jù)質(zhì)量的重中之重,是所有離線系統(tǒng)加工時的第一保障要素;方法:通過DQC進(jìn)行數(shù)據(jù)準(zhǔn)確性監(jiān)控;DQC(DataQualityCenter,數(shù)據(jù)質(zhì)量中心):主要關(guān)注數(shù)據(jù)質(zhì)量,通過配置數(shù)據(jù)質(zhì)量校驗規(guī)則,自動在數(shù)據(jù)處理任務(wù)過程中進(jìn)行數(shù)據(jù)質(zhì)量方面的監(jiān)控;注:監(jiān)控數(shù)據(jù)質(zhì)量并報警,其本身不對數(shù)據(jù)產(chǎn)出進(jìn)行處理,需要報警接收人判斷并決定如何處理;監(jiān)控方式:通過配置數(shù)據(jù)質(zhì)量檢驗規(guī)則,自動在數(shù)據(jù)處理任務(wù)過程中進(jìn)行監(jiān)控;監(jiān)控規(guī)則:強(qiáng)規(guī)則:會阻斷任務(wù)的執(zhí)行;將任務(wù)置為失敗狀態(tài),其下游任務(wù)將不會被執(zhí)行;弱規(guī)則:只告警而不會阻斷任務(wù)的執(zhí)行;常見的DQC監(jiān)控規(guī)則:主鍵監(jiān)控、表數(shù)據(jù)量及波動監(jiān)控、重要字段的非空監(jiān)控、重要枚舉字段的離散值監(jiān)控、指標(biāo)值波動監(jiān)控、業(yè)務(wù)規(guī)則監(jiān)控等;規(guī)則配置:依賴數(shù)據(jù)資產(chǎn)等級確定監(jiān)控規(guī)則;DQC檢查其實也是運行SQL任務(wù),只是這個任務(wù)是嵌套在主任務(wù)中的,一旦檢查點太多自然就會影響整體的性能;因此還是依賴數(shù)據(jù)資產(chǎn)等級來確定規(guī)則的配置情況;注:不同的業(yè)務(wù)會有業(yè)務(wù)規(guī)則的約束,這些規(guī)則來源于數(shù)據(jù)產(chǎn)品或者說消費的業(yè)務(wù)需求,有消費節(jié)點進(jìn)行配置,然后上推到離線系統(tǒng)的起點進(jìn)行監(jiān)控,做到規(guī)則影響最小化;數(shù)據(jù)及時性在確保數(shù)據(jù)準(zhǔn)確性的基礎(chǔ)上,需要進(jìn)一步讓數(shù)據(jù)能夠及時的提供服務(wù);否則數(shù)據(jù)的價值將大幅度降低,甚至沒有價值;阿里的大部分離線任務(wù):一般以天為時間間隔,稱為“天任務(wù)”,對于天任務(wù),數(shù)據(jù)產(chǎn)品或者數(shù)據(jù)決策報表一般都要求在每天9:00甚至更早的時間產(chǎn)出;為了確保前一天的數(shù)據(jù)完整,天任務(wù)是從零點開始運行的,由于計算加工的任務(wù)都是在夜里運行的,而要確保每天的數(shù)據(jù)能夠按時產(chǎn)出,需要進(jìn)行一系列的報警和優(yōu)先級設(shè)置,使得重要的任務(wù)優(yōu)先且正確的產(chǎn)出;重要的任務(wù):資產(chǎn)等級較高的業(yè)務(wù);任務(wù)優(yōu)先級對于Map任務(wù)和Reduce任務(wù),調(diào)度是一個樹形結(jié)構(gòu)(RelNode樹),當(dāng)配置了葉子節(jié)點(RelNode節(jié)點)的優(yōu)先級后,這個優(yōu)先級會傳遞到所有上游節(jié)點,所以優(yōu)先級的設(shè)置都是給到葉子節(jié)點,而葉子節(jié)點往往就是服務(wù)業(yè)務(wù)的消費節(jié)點;設(shè)置優(yōu)先級:首先確定業(yè)務(wù)的資產(chǎn)等級,等級高的業(yè)務(wù)所對應(yīng)的消費節(jié)點自然配置高優(yōu)先級,一般業(yè)務(wù)則對應(yīng)低優(yōu)先級,確保高等級業(yè)務(wù)準(zhǔn)時產(chǎn)出;任務(wù)報警任務(wù)報警和優(yōu)先級類似,也是通過葉子節(jié)點傳遞;任務(wù)在運行過程中難免會出錯,因此要確保任務(wù)能夠高效、平穩(wěn)的執(zhí)行,需要有一個監(jiān)控報警系統(tǒng),對于高優(yōu)先級的任務(wù),一旦發(fā)現(xiàn)任務(wù)出錯或者可能出現(xiàn)產(chǎn)出延遲,就要報警給到任務(wù)和業(yè)務(wù)Owner;摩薩德:阿里自主開發(fā)的監(jiān)控報警系統(tǒng);摩薩德摩薩德:離線任務(wù)的監(jiān)控報警系統(tǒng);是數(shù)據(jù)運維不可或缺的保障工具;根據(jù)離線任務(wù)的運行情況實時決策是否告警、何時告警、告警方式、告警給誰等;兩個主要功能:強(qiáng)保障監(jiān)控、自定義告警;強(qiáng)保障監(jiān)控強(qiáng)保障監(jiān)控是摩薩德的核心功能,是僅僅圍繞運維目標(biāo)即業(yè)務(wù)保障而設(shè)計的,只要在業(yè)務(wù)的預(yù)警時間受到威脅,摩薩德就一定會告警出來給到相關(guān)人員;強(qiáng)保障監(jiān)控主要包括:監(jiān)控范圍:設(shè)置強(qiáng)保障業(yè)務(wù)的任務(wù)及其上游所有的任務(wù)都會被監(jiān)控;監(jiān)控的異常:任務(wù)出錯、任務(wù)變慢、預(yù)警業(yè)務(wù)延遲;告警對象:默認(rèn)是任務(wù)Owner,也可以設(shè)置值班表到某一個人;何時告警:根據(jù)業(yè)務(wù)設(shè)置的預(yù)警時間判斷何時告警;業(yè)務(wù)延遲預(yù)警和出錯報警,都是根據(jù)“產(chǎn)出預(yù)警時間“來判斷的;產(chǎn)出預(yù)警時間:摩薩德根據(jù)當(dāng)前業(yè)務(wù)上所有任務(wù)最近7天運行的平均時間來推算當(dāng)前業(yè)務(wù)所用的大概時間,來作為產(chǎn)出預(yù)警時間;告警方式:根據(jù)業(yè)務(wù)的重要緊急程度,支持電話、短信、旺旺、郵件告警;例:生意參謀業(yè)務(wù)(預(yù)警業(yè)務(wù)延遲)資產(chǎn)等級及需求:定義的資產(chǎn)等級是A2,要求早上9:00產(chǎn)出數(shù)據(jù)給到上架;設(shè)置:給生意參謀業(yè)務(wù)定義一個強(qiáng)保障監(jiān)控,業(yè)務(wù)產(chǎn)出時間是9:00,業(yè)務(wù)預(yù)警時間是7:00;這里的預(yù)警時間是指,一旦摩薩德監(jiān)控到當(dāng)前業(yè)務(wù)的產(chǎn)出時間超出預(yù)警時間時,就會打電話給值班人員進(jìn)行預(yù)警;如,摩薩德推測生意參謀的產(chǎn)出時間要到7:30,那么電話告警就出來了,由值班人員來判斷如何加速產(chǎn)出;產(chǎn)出時間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物醫(yī)藥與健康產(chǎn)業(yè)的投資潛力研究
- 現(xiàn)代化技術(shù)與醫(yī)療中心的高層建筑設(shè)計思考
- 生態(tài)城市建設(shè)中環(huán)境科學(xué)的應(yīng)用研究
- Unit 5 We're family Period 3 (說課稿)-2024-2025學(xué)年外研版(三起)(2024)英語三年級上冊
- 2024-2025學(xué)年高中生物 第四部分 淺嘗現(xiàn)代生物技術(shù)說課稿 浙科版選修1
- 2024-2025學(xué)年高中物理 第四章 電磁感應(yīng) 5 電磁感應(yīng)現(xiàn)象的兩類情況(1)說課稿 新人教版選修3-2
- 9古代科技 耀我中華-獨領(lǐng)風(fēng)騷的古代技術(shù)創(chuàng)造(說課稿)2023-2024學(xué)年統(tǒng)編版道德與法治五年級上冊
- 26 手術(shù)臺就是陣地 說課稿-2024-2025學(xué)年統(tǒng)編版語文三年級上冊001
- Welcome Unit Reading for Writing 說課稿-2023-2024學(xué)年高一上學(xué)期英語人教版(2019)必修第一冊
- Unit 1 Let's be friends!Period 4(說課稿)-2024-2025學(xué)年外研版(三起)(2024)英語三年級上冊
- DB63T 2357-2024 ?;烦簝薨踩芾硪?guī)范
- 2022-2023學(xué)年五年級數(shù)學(xué)春季開學(xué)摸底考(四)蘇教版
- 【螞蟻?!?024中國商業(yè)醫(yī)療險發(fā)展研究藍(lán)皮書
- 授信審批部工作計劃及思路
- 財務(wù)管理學(xué)(第10版)課件 第3章 財務(wù)分析
- 小學(xué)語文大單元教學(xué)設(shè)計與實施
- 小學(xué)升初中六年級數(shù)學(xué)考試試卷含答案(達(dá)標(biāo)題)
- 2024年長沙航空職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫完整
- 腫瘤微環(huán)境在癌癥進(jìn)展中的作用研究
- 上海市發(fā)展改革研究院工作人員招考聘用12人公開引進(jìn)高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 2024年上海市各區(qū)高三語文二模試卷【文言文閱讀題】匯集練附答案解析
評論
0/150
提交評論