2023數(shù)據(jù)工程白皮書(shū)_第1頁(yè)
2023數(shù)據(jù)工程白皮書(shū)_第2頁(yè)
2023數(shù)據(jù)工程白皮書(shū)_第3頁(yè)
2023數(shù)據(jù)工程白皮書(shū)_第4頁(yè)
2023數(shù)據(jù)工程白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)是新一代技術(shù)革命下的生產(chǎn)要素,掌握了生產(chǎn)要數(shù)據(jù)是新一代技術(shù)革命下的生產(chǎn)要素,掌握了生產(chǎn)要素與生產(chǎn)要素的加工方式就是掌握了數(shù)字經(jīng)濟(jì)下的價(jià)縱觀歷史,伴隨著科學(xué)技術(shù)的發(fā)展以及社會(huì)形態(tài)的演變,在社會(huì)發(fā)展的不同階段,生產(chǎn)要素的數(shù)量不斷增加,并且每個(gè)歷史發(fā)展階段,不同生產(chǎn)要素的重要程度也一直在發(fā)生變化。在信息技術(shù)革命到來(lái)之前,社會(huì)經(jīng)濟(jì)學(xué)公認(rèn)的四大生產(chǎn)要素分別為:土地、勞動(dòng)、技術(shù)和資本,而隨著信息技術(shù)革命的到來(lái),數(shù)據(jù)的產(chǎn)生與應(yīng)用已經(jīng)滲透到各行各業(yè)的生產(chǎn)經(jīng)營(yíng)活動(dòng)之中,數(shù)據(jù)已經(jīng)成為繼土地、勞動(dòng)、資本、技術(shù)之后的第五大生產(chǎn)要素。數(shù)據(jù)之重要,已不單單局限于企業(yè)內(nèi)部的認(rèn)知,更是成為全社會(huì)的共識(shí)。在2021年11月工信部發(fā)布的《十四五大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》當(dāng)中,更是把數(shù)據(jù)要素的價(jià)值轉(zhuǎn)化提升到了國(guó)家層面,進(jìn)一步突出了數(shù)據(jù)作為國(guó)家基礎(chǔ)戰(zhàn)略性資源的重要地位。圖:生產(chǎn)要素在不同階段的變化2數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)3數(shù)據(jù)工程白皮書(shū)總的來(lái)說(shuō),結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的最主要區(qū)別在于是否存在預(yù)先定義好的數(shù)據(jù)模型。結(jié)構(gòu)化數(shù)據(jù)能夠用統(tǒng)一的某種結(jié)構(gòu)加以表示,離開(kāi)了這種結(jié)構(gòu),數(shù)據(jù)就沒(méi)有意義;非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有概念數(shù)據(jù)模型形式的限制,可以自由表達(dá);半結(jié)構(gòu)化數(shù)據(jù)介于上述兩者之間。數(shù)字化轉(zhuǎn)型浪潮下的企業(yè)數(shù)據(jù)在了解了數(shù)據(jù)具體含義的情況下,企業(yè)想要更好的管理數(shù)據(jù)、利用數(shù)據(jù),就必須了解數(shù)據(jù)在現(xiàn)代企業(yè)中的產(chǎn)生源頭、組織形態(tài)等?,F(xiàn)代企業(yè)數(shù)據(jù)的產(chǎn)生離不開(kāi)企業(yè)的數(shù)字化轉(zhuǎn)型,企業(yè)數(shù)字化轉(zhuǎn)型程度高低則直接影響了數(shù)據(jù)的利用效率,在分析了眾多企業(yè)數(shù)字化轉(zhuǎn)型的案例之后,我們認(rèn)為企業(yè)數(shù)字化轉(zhuǎn)型一般分為三個(gè)階段:信息化:信息化為企業(yè)數(shù)字化轉(zhuǎn)型的初級(jí)階段,此階段側(cè)重于將企業(yè)生產(chǎn)制造過(guò)程、物料轉(zhuǎn)移、事務(wù)處理、資金流動(dòng)、客戶交互等流程進(jìn)行電子化,其整個(gè)思維導(dǎo)向以流程管理為主,以無(wú)紙化辦公為目標(biāo),旨在提升企業(yè)流程管理效率,這一階段的企業(yè)主要呈現(xiàn)為系統(tǒng)離散化,數(shù)據(jù)碎片化的特點(diǎn)。數(shù)字化:在企業(yè)信息化達(dá)到一定程度之后,由于業(yè)務(wù)的快速發(fā)展,原有流程和系統(tǒng)已經(jīng)不能滿足企業(yè)的管理訴求,企業(yè)逐漸由流程管理轉(zhuǎn)向業(yè)務(wù)管理,企業(yè)對(duì)其業(yè)務(wù)進(jìn)行細(xì)粒度的拆分、分析與優(yōu)化,便于對(duì)制造流程、業(yè)務(wù)流程、用戶旅程等進(jìn)行管理、分析與改善,這一階段為企業(yè)數(shù)字化轉(zhuǎn)型的中級(jí)階段,主要強(qiáng)調(diào)數(shù)字對(duì)商業(yè)的重塑,轉(zhuǎn)型過(guò)程中通常伴隨著組織結(jié)構(gòu)的調(diào)整,賦能企業(yè)商業(yè)模式不斷創(chuàng)新和突破。處于這一階段的企業(yè)信息化主要呈現(xiàn)系統(tǒng)平臺(tái)化、數(shù)據(jù)集約化與模型化的特點(diǎn)。智能化:在企業(yè)擁有大量數(shù)據(jù)的背景下,伴隨著人工智能領(lǐng)域技術(shù)的快速發(fā)展,原本只在學(xué)術(shù)界活躍的人工智能算法與模型能夠快速在商業(yè)領(lǐng)域落地,智能算法與模型極大提高了企業(yè)從數(shù)據(jù)中提取業(yè)務(wù)知識(shí)的效率,企業(yè)各種系統(tǒng)與應(yīng)用變得越來(lái)越智能,系統(tǒng)在算法與模型的幫助下可以自學(xué)習(xí)知識(shí)、再創(chuàng)造知識(shí)。智能化由于天然的高效,成為了企業(yè)數(shù)字化轉(zhuǎn)型的必然趨勢(shì),此時(shí)系統(tǒng)構(gòu)建的思維導(dǎo)向?yàn)闃I(yè)務(wù)創(chuàng)新,旨在利用人工智能算法與模型解放生產(chǎn)力、尋找新商機(jī)。此階段企業(yè)主要呈現(xiàn)為系統(tǒng)自動(dòng)化、數(shù)據(jù)模型化與智能化的特點(diǎn)。企業(yè)數(shù)據(jù)流轉(zhuǎn)鏈路分析數(shù)據(jù)只有依托于信息系統(tǒng),才能在企業(yè)內(nèi)部流轉(zhuǎn)起來(lái)。數(shù)據(jù)在企業(yè)內(nèi)部會(huì)經(jīng)過(guò)一系列的處理才能最終產(chǎn)生價(jià)值,一般我們會(huì)簡(jiǎn)化為以下幾步:數(shù)據(jù)產(chǎn)生:一般而言,企業(yè)數(shù)據(jù)由生產(chǎn)活動(dòng)以及服務(wù)客戶的過(guò)程產(chǎn)生,不同行業(yè)的數(shù)據(jù)產(chǎn)生特點(diǎn)也不相同。如果是生產(chǎn)型企業(yè),數(shù)據(jù)主要由傳統(tǒng)信息系統(tǒng)如ERP、CRM等系統(tǒng)產(chǎn)生;如果是服務(wù)型企業(yè),則數(shù)據(jù)主要在不同類型的在線系統(tǒng)產(chǎn)生,例如電商系統(tǒng)、推薦系統(tǒng)等。除此之外,由于物聯(lián)網(wǎng)的發(fā)展,還有一部分?jǐn)?shù)據(jù)由傳感器產(chǎn)生。此時(shí)數(shù)據(jù)還相對(duì)原始,其形態(tài)可能有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)收集:數(shù)據(jù)收集通常是指將業(yè)務(wù)數(shù)據(jù)從業(yè)務(wù)系統(tǒng)或者外部系統(tǒng)接入的過(guò)程。數(shù)據(jù)收集階段需要滿足三大原則才能保證后續(xù)步驟的有序進(jìn)行:首先是無(wú)侵入性原則,通常數(shù)據(jù)接入需要直接對(duì)接業(yè)務(wù)系統(tǒng),而對(duì)業(yè)務(wù)系統(tǒng)而言最重要的是穩(wěn)定性,即數(shù)據(jù)收集過(guò)程不能對(duì)業(yè)務(wù)系統(tǒng)造成負(fù)擔(dān)。其次是無(wú)修改原則,數(shù)據(jù)收集是數(shù)據(jù)工程所有流程的起點(diǎn),在數(shù)據(jù)收集過(guò)程中數(shù)據(jù)一定要與源系統(tǒng)保持一致,避免不必要的處理導(dǎo)致數(shù)據(jù)所蘊(yùn)含的信息缺失。最后是可追溯原則,收集來(lái)的數(shù)據(jù)可以進(jìn)行冷熱備份,但不進(jìn)行任何刪除操作,便于審計(jì)、數(shù)據(jù)預(yù)處理:收集的數(shù)據(jù)格式存在多樣性并且摻雜著有效或無(wú)效的數(shù)據(jù),導(dǎo)致這些數(shù)據(jù)無(wú)法直接進(jìn)行利用,必須要進(jìn)行相關(guān)預(yù)處理才能進(jìn)入下一階段。這一步驟會(huì)提升數(shù)據(jù)的信息有效密度,并且會(huì)對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換與數(shù)據(jù)提煉:此階段為數(shù)據(jù)價(jià)值轉(zhuǎn)化的主要步驟,從數(shù)據(jù)中提取信息、凝練知識(shí)就發(fā)生在這一步。對(duì)于一般的數(shù)據(jù)倉(cāng)庫(kù)而言,數(shù)據(jù)模型建立、ETL計(jì)算,以及業(yè)務(wù)標(biāo)簽構(gòu)建,都在這一步完成。而對(duì)于機(jī)器學(xué)習(xí)類的平臺(tái),智能模型的訓(xùn)練也可以歸到數(shù)據(jù)提煉中去。5數(shù)據(jù)服務(wù)與應(yīng)用:經(jīng)過(guò)邏輯計(jì)算完成后的數(shù)據(jù),蘊(yùn)含了大量的信息,是指導(dǎo)決策的重要依據(jù)。通過(guò)提供在線數(shù)據(jù)服務(wù)或者應(yīng)用的方式,使得數(shù)據(jù)價(jià)值能夠自動(dòng)、高效落地。我們常見(jiàn)的數(shù)據(jù)API、BI報(bào)表、Al模型的在線應(yīng)用都屬于這一范疇。數(shù)據(jù)治理:數(shù)據(jù)治理嚴(yán)格來(lái)說(shuō)并不能算作數(shù)據(jù)生命周期中的某一環(huán),數(shù)據(jù)治理是貫穿整個(gè)數(shù)據(jù)生命周期的。為保證企業(yè)內(nèi)各個(gè)業(yè)務(wù)領(lǐng)域數(shù)據(jù)工作的有序開(kāi)展,就必須對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的規(guī)劃,包括數(shù)據(jù)資產(chǎn)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)、數(shù)據(jù)安全與隱私等,我們將這些工作統(tǒng)一劃歸到數(shù)據(jù)治理的范疇之中。從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)價(jià)值落地的過(guò)程中,數(shù)據(jù)的信息密度越來(lái)越高,其中蘊(yùn)含的知識(shí)也越來(lái)越豐富。雖然并不是所有的企業(yè)在數(shù)據(jù)工程落地過(guò)程中都需要對(duì)數(shù)據(jù)全生命周期進(jìn)行分析與管理,但是如果不去分析數(shù)據(jù)的全生命周期,很容易導(dǎo)致“一葉障目不見(jiàn)泰山”,那么就必然會(huì)出現(xiàn)企業(yè)對(duì)數(shù)據(jù)認(rèn)知不足、規(guī)劃不清晰的情況。通過(guò)分析企業(yè)數(shù)據(jù)全流程,企業(yè)可以識(shí)別薄弱環(huán)節(jié),抓住重點(diǎn)環(huán)節(jié),因地制宜的制定數(shù)據(jù)工程落地規(guī)劃,所以說(shuō)數(shù)據(jù)數(shù)據(jù)產(chǎn)生數(shù)據(jù)高低6數(shù)據(jù)工程白皮書(shū)隨著數(shù)據(jù)重要性的不斷提升、數(shù)據(jù)在企業(yè)內(nèi)的流轉(zhuǎn)越隨著數(shù)據(jù)重要性的不斷提升、數(shù)據(jù)在企業(yè)內(nèi)的流轉(zhuǎn)越來(lái)越常見(jiàn)。數(shù)據(jù)工程則是幫助企業(yè)高效地挖掘數(shù)據(jù)價(jià)數(shù)據(jù)在企業(yè)內(nèi)部流轉(zhuǎn)會(huì)經(jīng)歷多個(gè)階段,而每個(gè)階段之間還存在著各種各樣的問(wèn)題。數(shù)據(jù)是用來(lái)產(chǎn)生價(jià)值、為企業(yè)提供便利的,因此企業(yè)的發(fā)展階段、企業(yè)對(duì)于數(shù)據(jù)使用或產(chǎn)生價(jià)值的訴求也有不同,想要解釋清楚數(shù)據(jù)在企業(yè)流轉(zhuǎn)的問(wèn)題,就不能忽略企業(yè)自身的訴求和特征。接下來(lái)我們將展開(kāi)來(lái)描述這些階段以及區(qū)別。首先,我們先來(lái)看企業(yè)通過(guò)數(shù)據(jù)想干什么,企業(yè)可以分成以下四個(gè)階段:·通過(guò)數(shù)據(jù)回答企業(yè)為什么正在發(fā)生這些變化,探明企業(yè)遇到的問(wèn)題、發(fā)展的變化都是由什么引起的?!裢ㄟ^(guò)數(shù)據(jù)幫助企業(yè)在遇到問(wèn)題時(shí)進(jìn)行示警,明確下一步行動(dòng)·通過(guò)數(shù)據(jù)幫助企業(yè)應(yīng)對(duì)數(shù)據(jù)展示出的業(yè)務(wù)狀態(tài),動(dòng)態(tài)調(diào)整投入以確保得到預(yù)期的產(chǎn)出。從上述描述中不難看出,在不同的階段,數(shù)據(jù)都可以為企業(yè)帶來(lái)價(jià)值,這些價(jià)值產(chǎn)生的過(guò)程就是數(shù)據(jù)在企業(yè)內(nèi)部流轉(zhuǎn)的過(guò)程。為了方便理解,我們以做報(bào)表為例看看數(shù)據(jù)的流轉(zhuǎn)都經(jīng)歷了哪些過(guò)程,相信不少數(shù)據(jù)從業(yè)者都經(jīng)歷過(guò)類似“手工Excel維護(hù)表格只需要2小時(shí),為什么要花3天時(shí)間做報(bào)表”的靈魂拷問(wèn),這里的2小時(shí)也好3天也罷要從實(shí)際的訴求出發(fā),仍有企業(yè)僅需手工維護(hù)的方式就能滿足訴求,因此我們也并不推薦為了做報(bào)表而做報(bào)表,這里要討論的是對(duì)數(shù)據(jù)展現(xiàn)過(guò)程自動(dòng)化、低廉運(yùn)維成本、數(shù)據(jù)可信、報(bào)表直觀可用有訴求的企業(yè)。7數(shù)據(jù)工程白皮書(shū)圖:報(bào)表實(shí)現(xiàn)過(guò)程中的數(shù)據(jù)流轉(zhuǎn)數(shù)據(jù)預(yù)處理數(shù)據(jù)提煉我要做一個(gè)報(bào)表構(gòu)建報(bào)表的數(shù)據(jù)是怎么來(lái)的數(shù)據(jù)有變化了出了問(wèn)題如何警報(bào)表展示形式如何更直觀數(shù)據(jù)服務(wù)與應(yīng)用找誰(shuí)要數(shù)據(jù)何自動(dòng)恢復(fù)數(shù)據(jù)收集如上圖所示,數(shù)據(jù)從“原料”到“成品”并非是簡(jiǎn)單的將數(shù)據(jù)接進(jìn)來(lái)、展示出去,而是將數(shù)據(jù)自動(dòng)化地從系統(tǒng)中獲取到、按照業(yè)務(wù)邏輯對(duì)數(shù)據(jù)進(jìn)行補(bǔ)全和糾錯(cuò)、通過(guò)統(tǒng)一的各部門都認(rèn)可的計(jì)算邏輯來(lái)進(jìn)行計(jì)算、用更友好和直觀的方式將數(shù)據(jù)展現(xiàn)出來(lái)。數(shù)據(jù)企業(yè)流轉(zhuǎn)的過(guò)程中,收集、處理、計(jì)算、使用這幾個(gè)核心的步驟僅會(huì)因?yàn)槠髽I(yè)對(duì)于數(shù)據(jù)不同的訴求而導(dǎo)致這四個(gè)步驟實(shí)際處理起來(lái)的復(fù)雜程度有所區(qū)別。因?yàn)槠髽I(yè)的實(shí)際情況不同而導(dǎo)致這四個(gè)步驟實(shí)際處理起來(lái)有所傾斜,但總的來(lái)說(shuō)并不會(huì)因?yàn)檫@些區(qū)別導(dǎo)致其中某個(gè)步驟被舍棄。因此,企業(yè)收集、處理、計(jì)算、使用的過(guò)程有快慢之分,這快慢之分的核心就是企業(yè)在數(shù)據(jù)工程實(shí)踐好壞的區(qū)別。什么是數(shù)據(jù)工程正如前面提到的,數(shù)據(jù)工程能夠加速數(shù)據(jù)接入、處理、計(jì)算、使用的全流程,但是對(duì)數(shù)據(jù)工程到底是什么缺少一個(gè)清晰的描述。8數(shù)據(jù)工程白皮書(shū)要解釋數(shù)據(jù)工程是什么,就需要從軟件工程說(shuō)起。從軟件開(kāi)發(fā)出現(xiàn)到軟件開(kāi)發(fā)逐步規(guī)?;倪^(guò)程中,IT從業(yè)者們一點(diǎn)點(diǎn)積累下關(guān)于需求、設(shè)計(jì)、實(shí)現(xiàn)、測(cè)試、運(yùn)維等方面的工作最佳實(shí)踐,因此我們不難看出軟件工程并不僅僅是軟件開(kāi)發(fā),而是一套體系。這套體系不僅僅適用于應(yīng)用開(kāi)發(fā),也同樣適用于數(shù)據(jù)開(kāi)發(fā),因此數(shù)據(jù)工程是軟件工程的一部分。這里為了方便大家理解,我們將軟件工程從產(chǎn)出物類型的角度劃分為數(shù)據(jù)類和應(yīng)用類。對(duì)于數(shù)據(jù)類產(chǎn)出物的需求到運(yùn)維的規(guī)模化全過(guò)程體系就是本文中討論的數(shù)據(jù)工程。數(shù)據(jù)工程包含了需求、設(shè)計(jì)、構(gòu)建、測(cè)試、維護(hù)演進(jìn)等階段,涵蓋了項(xiàng)目管理、開(kāi)發(fā)過(guò)程管理、工程工具與方法、構(gòu)建管理、質(zhì)量管理,是一套為了應(yīng)對(duì)規(guī)?;a(chǎn)和使用數(shù)據(jù)、為業(yè)務(wù)提供數(shù)據(jù)支撐,最終產(chǎn)生價(jià)值的體系。同時(shí)定義了在落地實(shí)施過(guò)程中如何確保需求準(zhǔn)確性、設(shè)計(jì)靈活性、開(kāi)發(fā)便捷性、維護(hù)低成本性、架構(gòu)可修總的來(lái)說(shuō),正是因?yàn)閿?shù)據(jù)有著不同的種類、不同種類數(shù)據(jù)處理有著不同的特征,讓我們對(duì)上述定義再換一個(gè)角●數(shù)據(jù)工程不是傳統(tǒng)軟件工程在數(shù)據(jù)領(lǐng)域的簡(jiǎn)單重現(xiàn)數(shù)據(jù)工程并不是單一的大數(shù)據(jù)系統(tǒng)或平臺(tái)的落地,因此數(shù)據(jù)工程的價(jià)值并不能僅從普通的信息系統(tǒng)的角度來(lái)看。數(shù)據(jù)工程的好與壞,往往與企業(yè)的組織架構(gòu)、團(tuán)隊(duì)協(xié)作、實(shí)施能力等息息相關(guān)。而針對(duì)企業(yè)所處數(shù)字化轉(zhuǎn)型的不同階段、所處行業(yè)業(yè)務(wù)特點(diǎn)以及企業(yè)本身組織架構(gòu),數(shù)據(jù)工程價(jià)值凸顯的點(diǎn)也往往不盡相同。我們自頂向下詳細(xì)分析了優(yōu)秀的數(shù)據(jù)工程能夠在不同層級(jí)給企業(yè)帶來(lái)的價(jià)值,方便企業(yè)找到自身在數(shù)據(jù)利用上的主要矛盾。在企業(yè)層面,數(shù)據(jù)工程的實(shí)現(xiàn)從業(yè)務(wù)出發(fā),在企業(yè)層面打造高響應(yīng)力且更加智慧的業(yè)務(wù),加速?gòu)臄?shù)據(jù)到價(jià)值的服務(wù)產(chǎn)生過(guò)程。數(shù)據(jù)工程化的實(shí)現(xiàn),能將分散在企業(yè)內(nèi)部各業(yè)務(wù)系統(tǒng)中的信息流數(shù)據(jù)進(jìn)行融合、打通,對(duì)內(nèi)實(shí)現(xiàn)共享的數(shù)據(jù)入口進(jìn)行統(tǒng)一化、標(biāo)準(zhǔn)化。同時(shí),標(biāo)準(zhǔn)化的入口支持企業(yè)外部系統(tǒng)或數(shù)據(jù)的快速接入。通過(guò)收集、匯總、清理、結(jié)構(gòu)化、存儲(chǔ),達(dá)到數(shù)據(jù)治理的效果,并實(shí)現(xiàn)數(shù)據(jù)溯源。它能將企業(yè)發(fā)展不同階段的分散數(shù)據(jù)進(jìn)行匯聚,將數(shù)據(jù)價(jià)值構(gòu)建成各種服務(wù)支撐業(yè)務(wù),對(duì)外能夠更好地服務(wù)企業(yè)客戶,實(shí)現(xiàn)真正的“以客戶為中心”。最終數(shù)據(jù)工程可以挖掘數(shù)據(jù)的價(jià)值,幫助企業(yè)創(chuàng)新業(yè)務(wù)、提高效率,將數(shù)據(jù)從成本變成資產(chǎn)。在團(tuán)隊(duì)層面,數(shù)據(jù)工程可以實(shí)現(xiàn)減少內(nèi)耗,提升效率,解決數(shù)據(jù)開(kāi)發(fā)與數(shù)據(jù)產(chǎn)生價(jià)值的協(xié)作問(wèn)題??梢栽跐M足企業(yè)各部門自身需求的同時(shí),統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、解決數(shù)據(jù)孤島問(wèn)題,降低各業(yè)務(wù)的聯(lián)動(dòng)成本,提供組織內(nèi)部的協(xié)作,支撐業(yè)務(wù)快速響應(yīng)??梢愿茖W(xué)地構(gòu)建整體架構(gòu),實(shí)現(xiàn)基于中臺(tái)的數(shù)據(jù)統(tǒng)一,真正為業(yè)務(wù)創(chuàng)新和服務(wù)帶來(lái)在人員層面,良好的數(shù)據(jù)工程實(shí)踐可以降低人員成本,解決很多企業(yè)的開(kāi)發(fā)人員、技術(shù)人員沒(méi)有數(shù)據(jù)能力的問(wèn)題。通過(guò)集中地對(duì)跨部門數(shù)據(jù)的采集、融合、治理、組織管理、智能分析,可以大大縮減人員規(guī)模,降低人力成本。一致化的工程實(shí)踐可以提升開(kāi)發(fā)質(zhì)量閾值,降低開(kāi)發(fā)人員的理解難度,解放運(yùn)維工作,讓開(kāi)發(fā)人員更專數(shù)據(jù)工程的價(jià)值體現(xiàn)需要有價(jià)值體系來(lái)度量,而這套價(jià)值度量體系則依賴于數(shù)據(jù)工程在落地實(shí)踐方面的具體內(nèi)容,因此接下來(lái)將詳細(xì)展開(kāi)介紹數(shù)據(jù)工程落地實(shí)踐。圖:數(shù)據(jù)工程的價(jià)值體現(xiàn)數(shù)據(jù)可追溯人員層面減收協(xié)作內(nèi)耗挖掘數(shù)據(jù)團(tuán)隊(duì)層面功能設(shè)計(jì)與開(kāi)發(fā)要從價(jià)值交付考量合理的架構(gòu)設(shè)計(jì)不僅指解決現(xiàn)有問(wèn)題,還能夠在一定程度解決未來(lái)問(wèn)題我們倡導(dǎo)通過(guò)統(tǒng)一的工作標(biāo)準(zhǔn)和流程提升團(tuán)隊(duì)協(xié)作效率工具是知識(shí)沉淀的具體表現(xiàn),有效的工具能夠提升規(guī)模化開(kāi)發(fā)效率欣然面對(duì)需求變化,及時(shí)調(diào)整交付策略數(shù)據(jù)治理需要滲透到整個(gè)數(shù)據(jù)工程落地過(guò)程當(dāng)中人是數(shù)據(jù)工程落地的核心,要注重人員培養(yǎng)、知識(shí)傳承數(shù)據(jù)工程白皮書(shū)數(shù)據(jù)工程落地與能力建設(shè)數(shù)據(jù)工程在企業(yè)內(nèi)部帶來(lái)不同層面的價(jià)值,做好數(shù)據(jù)數(shù)據(jù)工程在企業(yè)內(nèi)部帶來(lái)不同層面的價(jià)值,做好數(shù)據(jù)數(shù)據(jù)工程價(jià)值觀根據(jù)數(shù)據(jù)產(chǎn)生的價(jià)值作為交付結(jié)果根據(jù)數(shù)據(jù)接入、數(shù)據(jù)處理、勝過(guò)指標(biāo)計(jì)算數(shù)量等作為交付物結(jié)果全功能團(tuán)隊(duì)協(xié)作的端到端開(kāi)發(fā)按數(shù)據(jù)處理流程的分段開(kāi)發(fā)按業(yè)務(wù)域劃分的面向未來(lái)的設(shè)計(jì)勝過(guò)按技術(shù)堆疊的限于當(dāng)前的設(shè)計(jì)團(tuán)隊(duì)的知識(shí)積累和傳承勝過(guò)簡(jiǎn)單的文檔交接數(shù)據(jù)工程落地在面對(duì)業(yè)務(wù)協(xié)同性不夠、業(yè)務(wù)決策路徑不清晰、組織架構(gòu)可能導(dǎo)致的部門墻等諸多問(wèn)題上,我們期望將企業(yè)多業(yè)態(tài)、多鏈路中所涉及的不同業(yè)務(wù)數(shù)據(jù)匯聚、打通全產(chǎn)業(yè)鏈、構(gòu)建業(yè)務(wù)生態(tài),打造以數(shù)據(jù)為中心的價(jià)值創(chuàng)新產(chǎn)品,通過(guò)數(shù)據(jù)去產(chǎn)生新洞見(jiàn)、發(fā)現(xiàn)新業(yè)務(wù)、打造新產(chǎn)品、驗(yàn)證新想法,從而驅(qū)動(dòng)業(yè)務(wù)的快速迭代。數(shù)據(jù)工程白皮書(shū)對(duì)于企業(yè)來(lái)說(shuō),我們推薦三步走戰(zhàn)略:數(shù)據(jù)愿景對(duì)齊、數(shù)據(jù)工程落地實(shí)施、數(shù)據(jù)持續(xù)運(yùn)營(yíng)。三步自頂向下,先確定總體目標(biāo),再進(jìn)行目標(biāo)拆解,由目標(biāo)制定具體措施,再到具體工程實(shí)踐,最后以持續(xù)運(yùn)營(yíng)手段,完成數(shù)據(jù)從業(yè)務(wù)中來(lái),再到業(yè)務(wù)中去的完整價(jià)值閉環(huán)。數(shù)據(jù)愿景對(duì)齊作用主要是明確企業(yè)數(shù)據(jù)愿景,保證后續(xù)步驟不偏離企業(yè)本身的價(jià)值實(shí)現(xiàn),主要包括業(yè)務(wù)場(chǎng)景價(jià)值的的探索識(shí)別、優(yōu)先級(jí)評(píng)估、數(shù)據(jù)架構(gòu)設(shè)計(jì)、技術(shù)架構(gòu)設(shè)計(jì)等。落地實(shí)施主要包括數(shù)據(jù)平臺(tái)的建設(shè)落地,如數(shù)據(jù)的采集、清洗、存儲(chǔ)、計(jì)算、測(cè)試等。持續(xù)運(yùn)營(yíng)則是為了保證在數(shù)據(jù)平臺(tái)建成后能夠及時(shí)響應(yīng)變化并做出調(diào)整,源源不斷從數(shù)據(jù)抽取價(jià)值來(lái)反哺業(yè)務(wù),最終實(shí)現(xiàn)愿景。愿景對(duì)齊落地實(shí)施持續(xù)運(yùn)營(yíng)戰(zhàn)略愿景數(shù)據(jù)梳理數(shù)據(jù)架構(gòu)設(shè)計(jì)持續(xù)運(yùn)維合理規(guī)劃數(shù)據(jù)接入數(shù)據(jù)處理持續(xù)優(yōu)化有效驗(yàn)證數(shù)據(jù)測(cè)試數(shù)據(jù)安全持續(xù)探索能力復(fù)用與保障回顧Thoughtworks在對(duì)上百家企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型的咨詢與交付中,我們發(fā)現(xiàn)由于所處行業(yè)特色、企業(yè)組織重?cái)?shù)據(jù)應(yīng)該被如何共享、數(shù)據(jù)應(yīng)該如何協(xié)作使用;有的企業(yè)更關(guān)注數(shù)據(jù)服務(wù)如何更快、更好、更智能的服務(wù)于業(yè)務(wù)系統(tǒng);而有的企業(yè)則更關(guān)心數(shù)據(jù)質(zhì)量如何保證、數(shù)據(jù)標(biāo)準(zhǔn)是否統(tǒng)一、數(shù)據(jù)管理如何更簡(jiǎn)單高效等問(wèn)題。因此在前期數(shù)據(jù)戰(zhàn)略中拉齊愿景就顯得尤其重要,不然會(huì)舍本逐末,過(guò)分追逐于解決某些具體問(wèn)題,忽視了企業(yè)在進(jìn)行數(shù)字化轉(zhuǎn)型過(guò)程中,前期的戰(zhàn)略規(guī)劃準(zhǔn)備不足或設(shè)計(jì)不合理,都會(huì)導(dǎo)致后續(xù)落地?zé)o法正常進(jìn)行。在過(guò)去的數(shù)據(jù)戰(zhàn)略中,通常解決的是企業(yè)數(shù)據(jù)管理問(wèn)題,目標(biāo)是服務(wù)于IT戰(zhàn)略,讓數(shù)據(jù)管理更規(guī)范,服務(wù)于企業(yè)管理,而不關(guān)心客戶。因此其核心目標(biāo)就是管理好數(shù)據(jù),如何進(jìn)行數(shù)據(jù)的清洗以提升數(shù)據(jù)質(zhì)量,如何進(jìn)行數(shù)據(jù)的管理認(rèn)證以確保數(shù)據(jù)的權(quán)威性和有效性,如何對(duì)數(shù)據(jù)進(jìn)行權(quán)限管理控制以解決什么樣的數(shù)據(jù)可以被什么角色什么部門進(jìn)行使用等,所以過(guò)去更多的是從企業(yè)內(nèi)部視角來(lái)做數(shù)據(jù)戰(zhàn)略。同時(shí),傳統(tǒng)的數(shù)據(jù)戰(zhàn)略通常是以管理大而全的數(shù)據(jù)資產(chǎn)出發(fā),圍繞企業(yè)內(nèi)部組織、流程規(guī)范、規(guī)章制度,以數(shù)據(jù)現(xiàn)狀為基礎(chǔ)進(jìn)行戰(zhàn)略規(guī)劃,但往往會(huì)面臨缺乏科學(xué)方法論:規(guī)劃制定是個(gè)復(fù)雜的過(guò)程,需要團(tuán)隊(duì)有全局觀察能力以及詳細(xì)方案制定能力,而往往企業(yè)內(nèi)部由于數(shù)據(jù)團(tuán)隊(duì)與業(yè)務(wù)團(tuán)隊(duì)相對(duì)割裂,懂?dāng)?shù)據(jù)的人不懂業(yè)務(wù),懂業(yè)務(wù)的人不懂?dāng)?shù)據(jù)。在短時(shí)間內(nèi)沒(méi)有相關(guān)賦能者的時(shí)候,如何應(yīng)用科學(xué)方法論就顯得及其重要了。規(guī)劃不合理:在數(shù)據(jù)工程落地規(guī)劃過(guò)程中,業(yè)務(wù)價(jià)值實(shí)現(xiàn)是最終目的,技術(shù)方案落地只是手段,規(guī)劃一定要分清主次。由于落地過(guò)程規(guī)劃不合理,導(dǎo)致企業(yè)了花費(fèi)大量人力物力,可是投資回報(bào)卻差強(qiáng)人意,整個(gè)價(jià)值缺乏驗(yàn)證手段:全局的、端到端的覆蓋整個(gè)企業(yè)的規(guī)劃是個(gè)浩大的系統(tǒng)工程,不僅周期長(zhǎng),而且短期內(nèi)很難看到效果,許多企業(yè)在建設(shè)過(guò)程中缺乏耐心導(dǎo)致最終放棄,或者雖然有了階段性成果,但由于缺乏統(tǒng)一衡量標(biāo)準(zhǔn),價(jià)值無(wú)法驗(yàn)證,目標(biāo)也只能是空中樓閣。通過(guò)上述問(wèn)題我們不難發(fā)現(xiàn),企業(yè)需要科學(xué)方法論負(fù)責(zé)統(tǒng)籌規(guī)劃,落地規(guī)劃拆分成實(shí)施步驟,驗(yàn)證手段則用來(lái)評(píng)判結(jié)果,所以應(yīng)對(duì)上述問(wèn)題的思路就是愿景對(duì)齊。架構(gòu)設(shè)計(jì)架構(gòu)設(shè)計(jì)制定計(jì)劃1.業(yè)務(wù)愿景統(tǒng)一3.現(xiàn)狀評(píng)估4.排列組合探索業(yè)務(wù)價(jià)值場(chǎng)景5.業(yè)務(wù)價(jià)值框架2.業(yè)務(wù)痛點(diǎn)評(píng)估3.工具&技術(shù)分析成本4.算法選型5.技術(shù)可行性1.整體規(guī)劃路線設(shè)計(jì)4.交付計(jì)劃5.項(xiàng)目啟動(dòng)會(huì)2.數(shù)據(jù)架構(gòu)5.數(shù)據(jù)運(yùn)營(yíng)策略價(jià)值場(chǎng)景探索優(yōu)先級(jí)排序度量框架來(lái)識(shí)別業(yè)務(wù)價(jià)值場(chǎng)景。這一步面臨最大的挑戰(zhàn)是業(yè)務(wù)和技術(shù)的鴻溝,由于業(yè)務(wù)人員在業(yè)務(wù)價(jià)值場(chǎng)景探索階段不清楚哪些技術(shù)會(huì)更好的解決問(wèn)題或產(chǎn)生哪些價(jià)值場(chǎng)景,從而會(huì)局限在自己的認(rèn)知中,很難探索出業(yè)務(wù)與技術(shù)融合的、可落地的高價(jià)值場(chǎng)景,而技術(shù)人員對(duì)業(yè)務(wù)不了解也會(huì)導(dǎo)致探索的價(jià)值場(chǎng)景不被業(yè)務(wù)認(rèn)可。那么如何更好的將業(yè)務(wù)和技術(shù)結(jié)合以探索出更多更有價(jià)值的業(yè)務(wù)場(chǎng)景就是核心關(guān)鍵。具體來(lái)講,通常先梳理當(dāng)前數(shù)據(jù)現(xiàn)狀,如當(dāng)前數(shù)據(jù)模型有哪些、數(shù)據(jù)質(zhì)量如何,業(yè)務(wù)價(jià)值場(chǎng)景是否有數(shù)據(jù)支撐;再梳理數(shù)據(jù)要給誰(shuí)使用,通過(guò)分析不同數(shù)據(jù)角色的數(shù)據(jù)用戶旅程,梳理出數(shù)據(jù)用例、數(shù)據(jù)價(jià)值流。從而在業(yè)務(wù)場(chǎng)景中將數(shù)據(jù)的消費(fèi)方,生產(chǎn)方及數(shù)據(jù)全生命周期的藍(lán)圖構(gòu)建出來(lái),再引入技術(shù)人員的技術(shù)手段,對(duì)上述梳理數(shù)據(jù)的排列組合來(lái)進(jìn)行創(chuàng)新性的頭腦風(fēng)暴,即圍繞業(yè)務(wù)愿景對(duì)物理世界的業(yè)務(wù)構(gòu)建出數(shù)據(jù)全景,通過(guò)業(yè)務(wù)模型之間的組合發(fā)散業(yè)務(wù)場(chǎng)景,從而產(chǎn)生創(chuàng)新的業(yè)務(wù)價(jià)值場(chǎng)景。在場(chǎng)景探索結(jié)束后,需要有對(duì)應(yīng)的業(yè)務(wù)價(jià)值評(píng)估體系來(lái)對(duì)場(chǎng)景進(jìn)行業(yè)務(wù)評(píng)估,基于解決的痛點(diǎn)和產(chǎn)生的價(jià)值權(quán)重來(lái)進(jìn)行價(jià)值評(píng)估。通常,探索出的業(yè)務(wù)價(jià)值場(chǎng)景需要包含場(chǎng)景的背景、價(jià)值點(diǎn)、所涉及的用戶、需要什么樣的能力、用戶旅程、所涉及的實(shí)體、風(fēng)險(xiǎn)等信息。數(shù)據(jù)工程白皮書(shū)價(jià)值、成本、可行性的優(yōu)先級(jí)排序評(píng)估。在業(yè)務(wù)價(jià)值場(chǎng)景探索完成后,接下來(lái)就需要評(píng)估數(shù)據(jù)質(zhì)量、技術(shù)可行以防止前期探索得出的業(yè)務(wù)場(chǎng)景變成空中樓閣。在業(yè)務(wù)價(jià)值場(chǎng)景探索和優(yōu)先級(jí)排序完成后,需要對(duì)業(yè)務(wù)、系統(tǒng)、痛點(diǎn)、數(shù)據(jù)成熟度等一系列的現(xiàn)狀產(chǎn)出,從而為后續(xù)的架構(gòu)設(shè)計(jì)提供輸入。合理的架構(gòu)設(shè)計(jì)。在架構(gòu)設(shè)計(jì)階段,要考慮如何將數(shù)據(jù)產(chǎn)生的價(jià)值規(guī)模化,從數(shù)據(jù)的接入、處理、使用等數(shù)據(jù)全生命周期流程中所涉及的業(yè)務(wù)擴(kuò)展性、時(shí)效性、安全性、可復(fù)用性、便捷性等原則,從而進(jìn)行架構(gòu)設(shè)計(jì)。通常,架構(gòu)設(shè)計(jì)包括數(shù)據(jù)架構(gòu)、技術(shù)架構(gòu)、安全架構(gòu)、數(shù)據(jù)治理規(guī)劃、數(shù)據(jù)運(yùn)營(yíng)策略等。整體規(guī)劃的方案制定。當(dāng)上述價(jià)值場(chǎng)景、優(yōu)先級(jí)、架構(gòu)藍(lán)圖都梳理清晰后,接下來(lái)就是定制項(xiàng)目計(jì)劃、快速啟動(dòng)建設(shè),分階段的定制路線。最后,需要有項(xiàng)目規(guī)劃設(shè)計(jì)的成熟度評(píng)估。缺乏科學(xué)方法論缺乏科學(xué)方法論精益數(shù)據(jù)探索梳理價(jià)值鏈全景價(jià)值場(chǎng)景識(shí)別場(chǎng)景價(jià)值評(píng)估可行性分析梳理現(xiàn)狀對(duì)齊愿景識(shí)別差距設(shè)計(jì)規(guī)劃缺乏驗(yàn)證手段規(guī)劃不合理愿景對(duì)齊固然重要,但是如果做不好數(shù)據(jù)工程落地,那么愿景與規(guī)劃都是空中樓閣。在具體的工程實(shí)施中,每個(gè)系統(tǒng)又都是一個(gè)自頂向下設(shè)計(jì),自下向上實(shí)施的過(guò)程。其落地過(guò)程就如同孕育新生命一般,其中數(shù)據(jù)梳理規(guī)劃藍(lán)圖,數(shù)據(jù)架構(gòu)設(shè)計(jì)規(guī)劃骨架,數(shù)據(jù)模型設(shè)計(jì)構(gòu)成器官,數(shù)據(jù)接入則賦予信息感知能力,數(shù)據(jù)處理構(gòu)成中樞大腦,測(cè)試、安全部分負(fù)責(zé)為新生兒提供保護(hù),每個(gè)步驟相互依賴,缺一不可。所有這些有機(jī)組合才能完成數(shù)據(jù)全鏈路管理,智能高效地實(shí)現(xiàn)數(shù)據(jù)價(jià)值轉(zhuǎn)化閉環(huán)。本章節(jié)將通過(guò)數(shù)據(jù)梳理、數(shù)據(jù)架構(gòu)設(shè)計(jì)、數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)測(cè)試、數(shù)據(jù)安全和能力復(fù)用與保障七個(gè)步驟來(lái)描述在數(shù)據(jù)工程落地過(guò)程中所要遵循的原則規(guī)范。數(shù)據(jù)梳理在實(shí)施過(guò)程中面對(duì)的是不同種類、不同特征的數(shù)據(jù),某些場(chǎng)景而言數(shù)據(jù)梳理可以是單獨(dú)的項(xiàng)目或者是其他項(xiàng)目的前置步驟。數(shù)據(jù)梳理就是要全域分析數(shù)據(jù)粒度,規(guī)劃數(shù)據(jù)層次以及統(tǒng)一數(shù)據(jù)口徑。這么做的目的是整理清楚數(shù)據(jù)所代表的業(yè)務(wù)含義、去除跨部門和跨場(chǎng)景在理解上的不一致、尋找使用數(shù)據(jù)和計(jì)算的統(tǒng)一口徑、找到能夠維護(hù)數(shù)據(jù)的管理者,最終構(gòu)建在企業(yè)內(nèi)部能夠描述數(shù)據(jù)流轉(zhuǎn)過(guò)程、數(shù)據(jù)變化過(guò)程的全景。這么做的好處是讓數(shù)據(jù)使用者能夠?qū)?shù)據(jù)的變化有全面的認(rèn)識(shí),對(duì)于后續(xù)數(shù)據(jù)項(xiàng)目開(kāi)展提供扎實(shí)的基礎(chǔ)。如前文所述,數(shù)據(jù)的背后是信息、是業(yè)務(wù)知識(shí),因此我們想要理清楚有哪些數(shù)據(jù),就需要先對(duì)業(yè)務(wù)流程進(jìn)行梳理,根據(jù)項(xiàng)目類型的不同需要梳理的業(yè)務(wù)流程范圍也會(huì)有所不同,比如:圍繞整個(gè)公司視角的梳理、圍繞某個(gè)場(chǎng)景的梳理,但無(wú)論是哪種范圍,都需要把業(yè)務(wù)流程梳理出來(lái)。業(yè)務(wù)流程的梳理僅僅是第一步,業(yè)務(wù)流程梳理的目的是在于產(chǎn)出基于業(yè)務(wù)流程關(guān)鍵節(jié)點(diǎn)有哪些數(shù)據(jù),通常來(lái)講我們需要精確到字段級(jí)。對(duì)于數(shù)據(jù)工程而言數(shù)據(jù)梳理可以從以下視角來(lái)審視:圖:數(shù)據(jù)梳理的三大目標(biāo)數(shù)據(jù)分級(jí)分類統(tǒng)一口徑確定數(shù)據(jù)owner主題域大類業(yè)務(wù)含義統(tǒng)一數(shù)據(jù)流轉(zhuǎn)圖主題域指標(biāo)口徑統(tǒng)一實(shí)體屬性所有者業(yè)務(wù)實(shí)體業(yè)務(wù)邊界統(tǒng)一實(shí)體屬性類型統(tǒng)一數(shù)據(jù)分級(jí)分類:面對(duì)企業(yè)多業(yè)態(tài)、多鏈路復(fù)雜流程的場(chǎng)景下,會(huì)涉及不同角色不同部門的不同級(jí)別和類別的數(shù)據(jù),因此在前期我們需要對(duì)齊數(shù)據(jù)的分級(jí)分類。數(shù)據(jù)梳理的核心其實(shí)是領(lǐng)域模型、實(shí)體模型和業(yè)務(wù)流程的梳理,需要從組織架構(gòu)、業(yè)務(wù)流程等進(jìn)行主題域的分組劃分以及確定所涉及的實(shí)體和實(shí)體屬性的信息。分級(jí)分類一方面可以更好的理解業(yè)務(wù)和數(shù)據(jù),從而更清晰的得到數(shù)據(jù)全景圖,為后續(xù)的數(shù)據(jù)處理和使用做準(zhǔn)備,另一方面可以了解其數(shù)據(jù)分布,在運(yùn)營(yíng)階段更好的進(jìn)行數(shù)據(jù)管理。此外,基于數(shù)據(jù)的分級(jí)分類,可以更清晰的劃分?jǐn)?shù)據(jù)邊界,幫助業(yè)務(wù)更好的梳理和優(yōu)化業(yè)務(wù)流程。同時(shí),也需要基于安全的視角對(duì)數(shù)據(jù)進(jìn)行分級(jí)分類,從公開(kāi)數(shù)據(jù)、內(nèi)部數(shù)據(jù)、機(jī)密數(shù)據(jù)等級(jí)別進(jìn)行劃分,從而決定后續(xù)的數(shù)據(jù)共享策略。統(tǒng)一口徑:在上述梳理完數(shù)據(jù)的分級(jí)分類后,應(yīng)該已經(jīng)對(duì)整個(gè)業(yè)務(wù)流程所涉及的實(shí)體有了清晰的認(rèn)知,那么口徑的統(tǒng)一是在統(tǒng)一什么?這里提到的主要是實(shí)體的口徑統(tǒng)一和實(shí)體內(nèi)指標(biāo)的口徑統(tǒng)一。對(duì)于實(shí)體的口徑,在業(yè)務(wù)系統(tǒng)的設(shè)計(jì)開(kāi)發(fā)階段,通常都是圍繞業(yè)務(wù)流程進(jìn)行,也就意味著并不會(huì)過(guò)多考慮同一個(gè)實(shí)體跨業(yè)務(wù)系統(tǒng)的定義,導(dǎo)致同一實(shí)體在不同業(yè)務(wù)系統(tǒng)的業(yè)務(wù)定義、業(yè)務(wù)邊界等不相同,但是口語(yǔ)間的業(yè)務(wù)傳遞描述又是相同的實(shí)體,即相同現(xiàn)實(shí)世界中的實(shí)體在數(shù)據(jù)視角下的業(yè)務(wù)定義和邊界可能不同。實(shí)體的邊界劃分通常是基數(shù)據(jù)工程白皮書(shū)于業(yè)務(wù)決定。對(duì)于指標(biāo)的口徑,通常在使用數(shù)據(jù)進(jìn)行分析或數(shù)據(jù)挖掘時(shí),指標(biāo)信息的業(yè)務(wù)邏輯定義就尤為關(guān)鍵,在業(yè)務(wù)復(fù)雜的場(chǎng)景下,指標(biāo)信息的定義從大分組上定義相似,但是又有細(xì)微的邏輯差別,如利潤(rùn)的定義在不同的企業(yè)中就有多種細(xì)粒度的劃分,在數(shù)據(jù)的使用階段,就需要更加清晰和統(tǒng)一其指標(biāo)信息。約定數(shù)據(jù)Owner:在業(yè)務(wù)流程中,不同的部門和系統(tǒng)會(huì)使用已有的數(shù)據(jù),并可能會(huì)對(duì)已有的數(shù)據(jù)在某個(gè)業(yè)務(wù)流程的節(jié)點(diǎn)上進(jìn)行修改,同時(shí)也可能基于現(xiàn)有數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。那么面對(duì)多版本、多邊界的實(shí)體數(shù)據(jù),如何保證使用數(shù)據(jù)的部門和系統(tǒng)所使用的數(shù)據(jù)就是所期望的數(shù)據(jù)呢?因此我們需要進(jìn)行數(shù)據(jù)的owner梳理。這里與其說(shuō)是梳理數(shù)據(jù)owner,倒不如說(shuō)是梳理業(yè)務(wù)流程中不同實(shí)體的生命周期變化的關(guān)鍵負(fù)責(zé)人是誰(shuí),如在什么時(shí)間什么業(yè)務(wù)背景下誰(shuí)對(duì)什么實(shí)體的什么屬性做了什么修改,為什么要這么做等。當(dāng)然這里所講的數(shù)據(jù)并非一個(gè)實(shí)體,而是會(huì)細(xì)粒度到實(shí)體的某個(gè)屬性,甚至是某個(gè)屬性的某個(gè)值,如訂單狀態(tài)的值。同樣,到底是粗粒度的實(shí)體還是細(xì)粒度的屬性值定義邊界,依然是由業(yè)務(wù)決定,即是基于業(yè)務(wù)流程中的核心節(jié)點(diǎn)來(lái)決定。通常來(lái)講數(shù)據(jù)owner與數(shù)據(jù)在映射管理關(guān)系是一個(gè)一對(duì)多的過(guò)程,即一個(gè)數(shù)據(jù)owner會(huì)負(fù)責(zé)至少一個(gè)數(shù)據(jù)或者是一類數(shù)據(jù)。企業(yè)根據(jù)數(shù)據(jù)owner所處的部門、負(fù)責(zé)的業(yè)務(wù)域、所對(duì)接的業(yè)務(wù)部門、所處的權(quán)限級(jí)別,可以將分級(jí)分類后的數(shù)據(jù)域數(shù)據(jù)owner進(jìn)行映射,形成企業(yè)自己的數(shù)據(jù)管理體系。數(shù)據(jù)owner需要定義數(shù)據(jù)的業(yè)務(wù)含義、業(yè)務(wù)邊界、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)的使用權(quán)限等。構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)管理流程:我們知道了要找誰(shuí)來(lái)修改數(shù)據(jù),可是如果數(shù)據(jù)被修改錯(cuò)誤、或者是修改的不符合業(yè)務(wù)場(chǎng)景和標(biāo)準(zhǔn),可能會(huì)引發(fā)一系列新的問(wèn)題。我們約定數(shù)據(jù)管理者的初衷是能夠讓數(shù)據(jù)得到正確的修改,而不是引發(fā)新的問(wèn)題。因此我們需要的是讓數(shù)據(jù)管理者根據(jù)技術(shù)對(duì)數(shù)據(jù)的要求、業(yè)務(wù)對(duì)數(shù)據(jù)的要求對(duì)數(shù)據(jù)進(jìn)行修改,所以構(gòu)建的數(shù)據(jù)標(biāo)準(zhǔn)管理體系要包括數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)安全權(quán)重。到目前為止,我們有了管理數(shù)據(jù)的人、管理數(shù)據(jù)的方式,我們就擁有了可用的數(shù)據(jù),無(wú)論是將數(shù)據(jù)提供給其他系統(tǒng)還是為即將開(kāi)展的項(xiàng)目提供數(shù)據(jù)基礎(chǔ)就已經(jīng)具備一定的基礎(chǔ)了。從數(shù)據(jù)使用的視角來(lái)看這些數(shù)據(jù)可以通過(guò)集中管理的方式來(lái)提供出去。數(shù)據(jù)分級(jí)分類統(tǒng)一口徑約定數(shù)據(jù)管理者數(shù)據(jù)架構(gòu)是一個(gè)比較泛指的概念,當(dāng)前權(quán)威組織對(duì)于數(shù)據(jù)架構(gòu)內(nèi)容的定義也有所差異,如《數(shù)據(jù)治理:工業(yè)企知識(shí)體系指南》提到的數(shù)據(jù)架構(gòu)指的是數(shù)據(jù)模型和數(shù)據(jù)流設(shè)計(jì),而這里我們說(shuō)的數(shù)據(jù)架構(gòu)設(shè)計(jì)主要從數(shù)據(jù)存儲(chǔ)模式、時(shí)效性和分布模式三個(gè)架構(gòu)設(shè)計(jì)和數(shù)據(jù)建模視角來(lái)描述。圖:數(shù)據(jù)架構(gòu)設(shè)計(jì)時(shí)效性分布模式數(shù)據(jù)倉(cāng)庫(kù)流處理集中式架構(gòu)數(shù)據(jù)湖批處理分布式架構(gòu)湖倉(cāng)一體流批一體數(shù)據(jù)的存儲(chǔ)模式劃分主要可以分為數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖兩種。數(shù)據(jù)湖是一個(gè)集中存儲(chǔ)區(qū),用于存儲(chǔ)、處理和保護(hù)大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),可以基于事先定義好的schema來(lái)對(duì)數(shù)據(jù)湖中的數(shù)據(jù)操作,可以總結(jié)而數(shù)據(jù)倉(cāng)庫(kù)是用于分析結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),通常數(shù)倉(cāng)的數(shù)據(jù)已經(jīng)定義好其schema,總結(jié)數(shù)據(jù)倉(cāng)庫(kù)的特圖:數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介采1采1結(jié)構(gòu)化結(jié)構(gòu)化數(shù)據(jù)湖設(shè)計(jì)是通過(guò)開(kāi)放底層文件存儲(chǔ),給入湖的數(shù)據(jù)結(jié)構(gòu)帶來(lái)最大的靈活性,結(jié)合上層的引擎,可以根據(jù)不同的場(chǎng)景來(lái)隨意讀寫數(shù)據(jù)湖中的數(shù)據(jù),并進(jìn)行相關(guān)分析。缺點(diǎn)也很明顯,缺少模型導(dǎo)致對(duì)業(yè)務(wù)的處理的維護(hù)成本以及隨著數(shù)據(jù)規(guī)模的不斷增大而增大,最終可能變成數(shù)據(jù)沼澤。而數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)更關(guān)注大規(guī)模業(yè)務(wù)數(shù)據(jù)下的數(shù)據(jù)使用效率和數(shù)據(jù)管理,通過(guò)數(shù)據(jù)模型來(lái)保證對(duì)業(yè)務(wù)的理解以及通過(guò)模型復(fù)用來(lái)保證數(shù)據(jù)的使用效率。缺點(diǎn)就是在前期數(shù)據(jù)倉(cāng)庫(kù)搭建階段的數(shù)據(jù)建模成本較高,周期較長(zhǎng)。因此,在對(duì)于這兩種技術(shù)架構(gòu)的設(shè)計(jì),需要根據(jù)企業(yè)的不同需求來(lái)選擇。對(duì)于業(yè)務(wù)靈活多變的場(chǎng)景,數(shù)據(jù)從生產(chǎn)到消費(fèi)需要一個(gè)探索性的階段才能穩(wěn)定下來(lái),那么此時(shí)靈活性就更加重要,數(shù)據(jù)湖架構(gòu)會(huì)更加適合。而對(duì)于業(yè)務(wù)成熟穩(wěn)定的企業(yè),則更需要對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu),來(lái)幫助企業(yè)沉淀數(shù)據(jù)的流轉(zhuǎn)、數(shù)據(jù)處理流程和數(shù)據(jù)模型等,以支撐不同數(shù)據(jù)消費(fèi)者對(duì)數(shù)據(jù)的高效使用。數(shù)據(jù)的時(shí)效性劃分可以分為實(shí)時(shí)處理和離線處理兩種方式。通常,實(shí)時(shí)處理是以流處理或微批的方式體現(xiàn),而在批處理模式下,我們通常會(huì)周期性的對(duì)一段時(shí)間的數(shù)據(jù)進(jìn)行采集和處理,批處理的數(shù)據(jù)集通常包括有界、大量、時(shí)效性低的特點(diǎn)。而流處理通常是事件驅(qū)動(dòng),因此其處理的對(duì)象并非數(shù)據(jù)集,而是單條數(shù)據(jù)。因此他們?cè)跀?shù)據(jù)處理時(shí)通常有以下不同:批處理對(duì)于時(shí)效性要求不高,通常需求是查看歷史某時(shí)間段的數(shù)據(jù)分析等,而流處理的需求則是要求數(shù)據(jù)發(fā)生變更時(shí)就需要進(jìn)行相應(yīng)的數(shù)據(jù)處理,以獲取最新的數(shù)據(jù)結(jié)果?!?shù)據(jù)量。批處理在進(jìn)行數(shù)據(jù)處理時(shí),其吞吐量通常比較大。而流處理則是單條數(shù)據(jù)處理?!駵?zhǔn)確性。在面對(duì)分布式大批量的數(shù)據(jù)接入處理環(huán)境下,為了保證需質(zhì)量要求來(lái)滿足其數(shù)據(jù)的實(shí)時(shí)性。傳統(tǒng)的數(shù)據(jù)處理通常是批處理模式,但隨著業(yè)務(wù)和需求的發(fā)展,會(huì)導(dǎo)致某些企業(yè)也會(huì)逐漸包含流處理架構(gòu),這就導(dǎo)致數(shù)據(jù)的處理會(huì)同時(shí)包含流批兩種模式,因此在處理階段,我們通常需要遵循以下要求:·流處理和批處理的數(shù)據(jù)處理邏輯盡量使用相同的業(yè)務(wù)處理邏輯·對(duì)于流處理,需要考慮數(shù)據(jù)準(zhǔn)確性和時(shí)效性的平衡●流批處理都需要確保數(shù)據(jù)的語(yǔ)義一致·無(wú)論是流處理還是批處理,都需要保證數(shù)據(jù)端到端的一致性數(shù)據(jù)分布模式即數(shù)據(jù)模型在前期的頂層設(shè)計(jì),通常有兩種設(shè)計(jì)方式:集中式架構(gòu)是以企業(yè)視角進(jìn)行數(shù)據(jù)建模,包含了企業(yè)內(nèi)不同領(lǐng)域的數(shù)據(jù),而分布式架構(gòu)的核心則是面向領(lǐng)域的數(shù)據(jù)建模。以下是這兩種架構(gòu)的區(qū)別:●數(shù)據(jù)管理模式不同:分布式采用分而治之的思想,圍繞領(lǐng)域劃分,將數(shù)據(jù)的所有權(quán)交給了領(lǐng)域團(tuán)隊(duì),遵從“數(shù)據(jù)在接近其來(lái)源的地方進(jìn)行管理”原則,可以更好的進(jìn)行數(shù)據(jù)治理。此時(shí),領(lǐng)域團(tuán)隊(duì)?wèi)?yīng)當(dāng)同時(shí)具備業(yè)務(wù)和技術(shù)能力,能夠把領(lǐng)域?qū)I(yè)知識(shí)與創(chuàng)造商業(yè)價(jià)值所需的技術(shù)能力結(jié)合在一起。集中式架構(gòu)則是需要對(duì)不同領(lǐng)域的業(yè)務(wù)進(jìn)行系統(tǒng)的學(xué)習(xí)了解,并結(jié)合業(yè)務(wù)架構(gòu)來(lái)進(jìn)行系統(tǒng)的建模,因此集中式架構(gòu)依然是由數(shù)據(jù)團(tuán)隊(duì)來(lái)管理數(shù)據(jù),業(yè)務(wù)團(tuán)隊(duì)僅僅作為業(yè)務(wù)的輸入方來(lái)參與數(shù)據(jù)工程,此時(shí)數(shù)據(jù)團(tuán)隊(duì)?wèi)?yīng)當(dāng)具備一定的業(yè)務(wù)領(lǐng)域知識(shí)。需求響應(yīng)靈活度不同:集中式提供具有內(nèi)置計(jì)算能力的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),滿足企業(yè)內(nèi)的所有需求。然而,企業(yè)規(guī)模越大,這就越不現(xiàn)實(shí)。除了最簡(jiǎn)單領(lǐng)域外,所有領(lǐng)域都需要多個(gè)限界上下文以及相應(yīng)的數(shù)據(jù)模型,同時(shí),集中式架構(gòu)下,基礎(chǔ)設(shè)施資源所有業(yè)務(wù)共享,進(jìn)行集中式的管理和維護(hù),無(wú)法基于業(yè)務(wù)需求靈活進(jìn)行資源調(diào)整。而分布式架構(gòu)中,面向領(lǐng)域的數(shù)據(jù)會(huì)作為平臺(tái)的最小業(yè)務(wù)單元,每個(gè)數(shù)據(jù)都具有獨(dú)立的靈活技術(shù)棧選擇、可發(fā)現(xiàn)、可尋址、自解釋、合規(guī)、安全、可管理、可擴(kuò)展、以及相互運(yùn)營(yíng)性,從而保證企業(yè)在更復(fù)雜多變的業(yè)務(wù)場(chǎng)景中獲得最大靈活度且可擴(kuò)展的數(shù)據(jù)能力。需求邊界不同:分布式是按照業(yè)務(wù)領(lǐng)域或者功能來(lái)劃分進(jìn)行數(shù)據(jù)建模,這就導(dǎo)致分布式架構(gòu)無(wú)法直接滿足跨領(lǐng)域需求;而集中式是按照企業(yè)層面進(jìn)行數(shù)據(jù)建模,因此集中式關(guān)注點(diǎn)是企業(yè)范圍的需求識(shí)別、規(guī)范,因此可以保證數(shù)據(jù)的多樣性,可以實(shí)現(xiàn)跨領(lǐng)域的需求場(chǎng)景圖:集中式架構(gòu)和分布式架構(gòu)的區(qū)別日基礎(chǔ)設(shè)施平臺(tái)領(lǐng)域-1領(lǐng)域-2上述提到的數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)、流處理和批處理以及分布式架構(gòu)和集中式架構(gòu),這些都是需要基于場(chǎng)景以及需求進(jìn)行選擇,甚至可以在某些場(chǎng)景下混合使用,如我們所熟知的湖倉(cāng)一體、流批一體等,所有的架構(gòu)都有其適合的場(chǎng)景和所需要的成本。簡(jiǎn)言之,沒(méi)有最優(yōu)的架構(gòu),只有最合適的架構(gòu)。無(wú)論架構(gòu)如何選擇,都不會(huì)影響本身的數(shù)據(jù)建模,那么目前常用的建模方式有三范式建模、維度建模和datavault,這里我們推薦采用維度建模。為什么使用維度建模。維度建模重點(diǎn)解決在保證數(shù)據(jù)質(zhì)量的前提下,如何更快速的完成分析需求,同時(shí)又要保證大規(guī)模數(shù)據(jù)下的復(fù)雜查詢的響應(yīng)性能。因此,在數(shù)據(jù)的明細(xì)層,我們需要確保維度表能夠包含實(shí)體屬性的緩慢變化情況,而事實(shí)表作為操作型事件的數(shù)據(jù)表現(xiàn),需要最真實(shí)的反映現(xiàn)實(shí)世界的行為,也就意味著,事實(shí)表的模型中需要包含更多的業(yè)務(wù)信息,如包括不同漸變維度數(shù)據(jù)下的行為表現(xiàn)。這樣做的目的是可以通過(guò)模型更加直觀的發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,保證數(shù)據(jù)的一致性、準(zhǔn)確性和完整性,同時(shí),模型可以快速響應(yīng)更多的需求場(chǎng)景。但缺點(diǎn)也很明顯,在面對(duì)需求進(jìn)行數(shù)據(jù)分析時(shí),由于需要多表關(guān)聯(lián),導(dǎo)致成本會(huì)比較高。因此,在需求側(cè)我們通常又會(huì)將上述明細(xì)層的數(shù)據(jù)進(jìn)行進(jìn)一步處理,得到我們可以滿足當(dāng)前需求的模型,從而解決上述分析成本高的問(wèn)題。我們可以發(fā)現(xiàn),維度建模在不同層所解決的問(wèn)題不同,最終都是為了保證數(shù)據(jù)質(zhì)量、快速響應(yīng)需求和數(shù)據(jù)建模階段,我們通常會(huì)分為概念建模、邏輯建模和物理建模,這三個(gè)階段的側(cè)重點(diǎn)也不相同。概念建模的主要目標(biāo)是對(duì)各概念實(shí)體進(jìn)行歸納和總結(jié)的過(guò)程,是比較粗粒度地進(jìn)行業(yè)務(wù)描述,其主要是定義主題域和實(shí)體、實(shí)體間的關(guān)聯(lián)關(guān)系。邏輯建模的目標(biāo)是細(xì)粒度完整的描述業(yè)務(wù)場(chǎng)景,為確保其可以最真實(shí)的反映現(xiàn)實(shí)世界的行為,需要確保其數(shù)據(jù)源、數(shù)據(jù)owner、數(shù)據(jù)粒度及其屬性的邊界等。物理建模目標(biāo)是基于邏輯建模對(duì)業(yè)務(wù)的認(rèn)知,進(jìn)行模型的存儲(chǔ)設(shè)計(jì),主要考慮技術(shù)選型、需求場(chǎng)景、計(jì)算存儲(chǔ)成本和響應(yīng)訴求等。基于建模的三個(gè)階段和上述的不同分層,我們可以總結(jié)得出建模的幾大原則:模型分層:基于不同的設(shè)計(jì)目標(biāo)進(jìn)行分層。貼源層主要目標(biāo)是為了記錄最真實(shí)的源數(shù)據(jù),在法律法規(guī)允許的前提下,盡可能的保留每個(gè)版本的數(shù)據(jù),以方便后續(xù)運(yùn)維。明細(xì)層結(jié)合維度建模主要是為了保證數(shù)據(jù)可以反映最真實(shí)的業(yè)務(wù)場(chǎng)景,保證數(shù)據(jù)質(zhì)量和多變的需求快速響應(yīng)能力。而服務(wù)層的目標(biāo)則更多的是面向需求,考慮用戶體驗(yàn)。同時(shí),分層解耦不僅可以做到數(shù)據(jù)的模型復(fù)用,可以降低數(shù)據(jù)處理各階段的耦合程度,同時(shí)有助于評(píng)估、分析及追蹤數(shù)據(jù)在不同處理階段所消耗的系統(tǒng)資源,并調(diào)整優(yōu)化硬件配置。層級(jí)間禁止逆向依賴:數(shù)據(jù)的流轉(zhuǎn)不應(yīng)當(dāng)出現(xiàn)循環(huán)依賴的情況。所有的數(shù)據(jù)都需要有最終認(rèn)可的信任源頭,逆向依賴不僅不能保證數(shù)據(jù)質(zhì)量,同時(shí)對(duì)后續(xù)的數(shù)據(jù)運(yùn)營(yíng)也會(huì)有很大的影響。模型的可擴(kuò)展:在建模階段,我們需要基于業(yè)務(wù)而非需求進(jìn)行建模,需求的變化是遠(yuǎn)遠(yuǎn)快于業(yè)務(wù)的,因此,我們需要確保模型盡可能多的滿足所有需求,但結(jié)合落地成本,我們需要確保在需求變化時(shí),可以快速生成模型及其對(duì)應(yīng)的初始化數(shù)據(jù),已滿足需求的快速響應(yīng)。歷史業(yè)務(wù)場(chǎng)景可追溯:隨著業(yè)務(wù)的發(fā)展,業(yè)務(wù)場(chǎng)景會(huì)隨之發(fā)生改變,那么就需要保證模型滿足對(duì)于歷史業(yè)務(wù)數(shù)據(jù)的追溯,以確保滿足各種需求。數(shù)據(jù)接入,即為了滿足數(shù)據(jù)統(tǒng)計(jì)、分析和挖掘的需要,搜集和獲取各種數(shù)據(jù)的過(guò)程。數(shù)據(jù)接入作為數(shù)據(jù)應(yīng)用的源頭,目的是自動(dòng)化、規(guī)模化地從各個(gè)數(shù)據(jù)源去采集收集業(yè)務(wù)數(shù)據(jù)。在數(shù)據(jù)接入的前期階段,需要從以下幾個(gè)數(shù)據(jù)質(zhì)量探查:在接入前期,要對(duì)即將接入的數(shù)據(jù)基于業(yè)務(wù)輸入進(jìn)行質(zhì)量探查,這樣做一方面可以在數(shù)據(jù)接入前期了解數(shù)據(jù)的整體質(zhì)量情況,另一方面可以反過(guò)來(lái)驗(yàn)證對(duì)于業(yè)務(wù)的理解是否完全正確,以防前期梳理業(yè)務(wù)對(duì)于一些特殊場(chǎng)景的疏漏導(dǎo)致的后續(xù)數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)時(shí)效與頻率保障:需要基于需求的時(shí)效性訴求結(jié)合數(shù)據(jù)源來(lái)確定數(shù)據(jù)接入的頻率,結(jié)合實(shí)際數(shù)據(jù)量級(jí)綜合評(píng)估如何滿足業(yè)務(wù)訴求。數(shù)據(jù)保留時(shí)長(zhǎng):基于法律法規(guī)和企業(yè)的監(jiān)管要求,來(lái)決定待接入數(shù)據(jù)需要保存的時(shí)長(zhǎng)。通常,規(guī)范的數(shù)據(jù)生命周期管理,可以提高數(shù)據(jù)的整體管理水平,同時(shí)滿足監(jiān)管要求。數(shù)據(jù)安全規(guī)范:數(shù)據(jù)接入階段,不僅需要考慮數(shù)據(jù)的傳輸和存儲(chǔ)安全,同時(shí)需要了解待接入數(shù)據(jù)是否包含PII數(shù)據(jù)以及對(duì)其是否需要進(jìn)行特殊處理以滿足監(jiān)管要求。數(shù)據(jù)工程白皮書(shū)在前期階段準(zhǔn)備完成后,接下來(lái)就需要基于以下原則來(lái)確保數(shù)據(jù)的時(shí)效性和完整性。定、業(yè)務(wù)系統(tǒng)宕機(jī)、采集通道異常、數(shù)據(jù)格式改變等。不論是基礎(chǔ)設(shè)施或是數(shù)據(jù)層面,數(shù)據(jù)接入都應(yīng)當(dāng)有識(shí)別變化的能力,只有提前發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)變化,才能及時(shí)做出后續(xù)應(yīng)對(duì)措施。保證數(shù)據(jù)完整性:面對(duì)不同的數(shù)據(jù)源類型和數(shù)據(jù)格式,采集方式也會(huì)多種多樣,因此采集過(guò)程中難免會(huì)遇到各種問(wèn)題。當(dāng)問(wèn)題修復(fù)后,需要確保待采集的數(shù)據(jù)依然可以被正常有序地采集,從而確保后續(xù)處理數(shù)據(jù)的完在存儲(chǔ)和監(jiān)管滿足的前提下,盡量保存每一次的快照:從數(shù)據(jù)源頭獲取的數(shù)在采集層盡可能地確保數(shù)據(jù)都被完整記錄下來(lái),這樣一方面可以做到數(shù)據(jù)的可追溯性,同時(shí),在數(shù)據(jù)建模階段,為了成本考慮,通常不會(huì)對(duì)所有的需求進(jìn)行建模,那么當(dāng)有少量需求不滿足時(shí),可以通過(guò)快照數(shù)據(jù)快速初始化模型數(shù)據(jù),以滿足快速響應(yīng)需求的要求。不進(jìn)行業(yè)務(wù)邏輯處理:在數(shù)據(jù)接入階段,通常目標(biāo)是盡可能地確保所采集的數(shù)據(jù)格式、類型等和數(shù)據(jù)源保持一致,而無(wú)需對(duì)數(shù)據(jù)進(jìn)行業(yè)務(wù)邏輯處理。圖:數(shù)據(jù)接入的階段和關(guān)注角度數(shù)據(jù)準(zhǔn)備數(shù)據(jù)接入數(shù)據(jù)質(zhì)量探查監(jiān)控業(yè)務(wù)系統(tǒng)變化的能力數(shù)據(jù)失效與頻率保障保證數(shù)據(jù)完整性數(shù)據(jù)保留時(shí)長(zhǎng)在存儲(chǔ)和監(jiān)管滿足的前提下,盡量保存每一次的快照數(shù)據(jù)安全規(guī)范不進(jìn)行業(yè)務(wù)邏輯處理數(shù)據(jù)處理再處理、預(yù)警的過(guò)程。在數(shù)據(jù)處理階段,遇到的兩大挑戰(zhàn)分別是如何保證數(shù)據(jù)質(zhì)量和如何降低運(yùn)維成本,那么數(shù)據(jù)工程白皮書(shū)滿足ETL的冪等性:通常對(duì)冪等性的定義是相同的參數(shù)重復(fù)執(zhí)行得到相同的結(jié)果。ETL的冪等性就要求ETL可以被重復(fù)多次執(zhí)行,且不會(huì)影響最終的計(jì)算結(jié)果。在面對(duì)復(fù)雜的數(shù)據(jù)流時(shí),數(shù)據(jù)處理過(guò)程中的異?;蛉粘_\(yùn)維需求都意味著ETL可能會(huì)隨時(shí)停止、隨時(shí)啟動(dòng),那么如何在ETL重復(fù)多次執(zhí)行的情況下確保數(shù)據(jù)的準(zhǔn)確性和一致性就極為關(guān)鍵。滿足ETL冪等性的核心邏輯在于處理數(shù)據(jù)階段待處理批次的數(shù)據(jù)隊(duì)列清晰有序且可控,同時(shí)對(duì)于所涉及數(shù)據(jù)要滿足業(yè)務(wù)依賴。從運(yùn)維視角看,運(yùn)維人員可以在不同需求場(chǎng)景下對(duì)ETL進(jìn)行手動(dòng)觸發(fā),而不用擔(dān)心是否會(huì)影響數(shù)據(jù)的準(zhǔn)確性,從而可以在保證數(shù)據(jù)質(zhì)量的前提下降低運(yùn)維成本。從設(shè)計(jì)視角來(lái)看,則是要將調(diào)度依賴和數(shù)據(jù)依賴進(jìn)行解耦,這樣就能確保調(diào)度層面的異常不會(huì)影響到數(shù)據(jù)本身。從混沌工程的原則看,能確保在滿足數(shù)據(jù)質(zhì)量的前提下,降低計(jì)算資源浪費(fèi)。數(shù)據(jù)處理會(huì)涉及到任務(wù)調(diào)度服務(wù)、資源調(diào)度管理、計(jì)算、存儲(chǔ)等多種技術(shù)組件,而在數(shù)據(jù)處理階段,每一個(gè)組件的異常都會(huì)導(dǎo)致數(shù)據(jù)處理的失敗,那么在定位問(wèn)題時(shí)就需要去各個(gè)組件中查看問(wèn)題的根源,這就導(dǎo)致了運(yùn)維成本大大增加。因此需要將日志進(jìn)行分類解耦,資源層面、調(diào)計(jì)算層面、數(shù)據(jù)層面等不同數(shù)據(jù)問(wèn)題進(jìn)行分類,可以幫助我們更便捷地開(kāi)展運(yùn)維工作。同時(shí),對(duì)數(shù)據(jù)的錯(cuò)誤也進(jìn)行了分級(jí),在數(shù)據(jù)處理階段,對(duì)于異常數(shù)據(jù)不能進(jìn)行一刀切的方式處理,而應(yīng)當(dāng)根據(jù)業(yè)務(wù)來(lái)決定異常數(shù)據(jù)的錯(cuò)誤級(jí)別,哪些數(shù)據(jù)可以流入數(shù)據(jù)平臺(tái),哪些需要被清理掉,在數(shù)據(jù)處理階段需要明確定義各類數(shù)據(jù)錯(cuò)誤的處理規(guī)范。除此之外,推薦有統(tǒng)一的門戶進(jìn)行日志查詢,可以更方便的進(jìn)行運(yùn)維管理。主動(dòng)識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題并預(yù)警:數(shù)據(jù)問(wèn)題不可避免,那么在數(shù)據(jù)出現(xiàn)異常后,如何識(shí)別并快速做出響應(yīng),而不是由數(shù)據(jù)使用方發(fā)現(xiàn)異常,這樣不僅會(huì)導(dǎo)致平臺(tái)的數(shù)據(jù)信譽(yù)度下降,異常數(shù)據(jù)流入到下游會(huì)嚴(yán)重影響到業(yè)一方面,可以推動(dòng)業(yè)務(wù)系統(tǒng)或流程的完善。ETL可觀測(cè):面對(duì)多業(yè)務(wù)數(shù)據(jù)、多調(diào)度批次的數(shù)據(jù)處理場(chǎng)景,出現(xiàn)不同級(jí)別的異常后就需要對(duì)數(shù)據(jù)流進(jìn)行定位,因此ETL的審計(jì)可以提高ETL對(duì)IT及業(yè)務(wù)用戶的友好程度,降低確認(rèn)日常數(shù)據(jù)處理任務(wù)結(jié)果的復(fù)雜性,并有助于提高用戶追蹤異常及異常數(shù)據(jù)的效率。組件低成本替換:隨著數(shù)據(jù)平臺(tái)的發(fā)展,會(huì)出現(xiàn)某些組件已經(jīng)不適用于當(dāng)前場(chǎng)景的情況,因此需要避免對(duì)于組件的過(guò)度依賴以防止ETL的部署遷移或組件替換時(shí),由于組件的高度耦合導(dǎo)致成本變高。成本,另一方面可以提高數(shù)據(jù)質(zhì)量,避免面對(duì)不同場(chǎng)景的數(shù)據(jù)處理考慮疏忽導(dǎo)致的數(shù)據(jù)問(wèn)題。同時(shí),對(duì)于沉淀框架的ETL開(kāi)發(fā)工具,可以做到低運(yùn)維、低開(kāi)發(fā)成本。最后,配置化的代碼可以做到統(tǒng)一管理,方便后圖:數(shù)據(jù)處理的關(guān)鍵工作數(shù)據(jù)測(cè)試測(cè)試,是信息系統(tǒng)交付必不可少的環(huán)節(jié),是為了確保信息系統(tǒng)的正確性、完整性和安全性等而進(jìn)行的一系列操作的過(guò)程,其最終目標(biāo)是為了保證信息系統(tǒng)的品質(zhì)。數(shù)據(jù)工程作為數(shù)據(jù)信息系統(tǒng)落地的過(guò)程,測(cè)試同樣尤為重在傳統(tǒng)軟件開(kāi)發(fā)過(guò)程中,測(cè)試金字塔理論已經(jīng)成為經(jīng)典測(cè)試?yán)碚撝笇?dǎo)著測(cè)試的推進(jìn)。其最早由MikeCohn于2009年的著作《SucceedingwithAgile:SoftwareDevelopmentusingScrum》提出,其表現(xiàn)形式為一個(gè)三層金字塔結(jié)構(gòu),從下到上依次為UnitTest(單元測(cè)試)、IntegrationTest(集成測(cè)試)、EndtoEndTest(端到端測(cè)試),下層代表測(cè)試投入多,上層代表測(cè)試投入少。測(cè)試金字塔的內(nèi)核為:在一定的測(cè)試資源投入條件下,通過(guò)成本較低的單元測(cè)試擴(kuò)大覆蓋比率,而成本較高的端到端測(cè)試則要盡量覆蓋主業(yè)務(wù)流程,輔以集成測(cè)試保證系統(tǒng)之間穩(wěn)定調(diào)用。在數(shù)據(jù)工程領(lǐng)域,測(cè)試金字塔內(nèi)核仍然適用,我們將測(cè)試金字塔重新定義為:仍然是由多個(gè)功能活方法組合而成,針對(duì)ETL內(nèi)部方法的單元測(cè)試仍然不可或缺。由于單元測(cè)試相對(duì)獨(dú)立,編碼成本較低,可以以小的代價(jià)運(yùn)行。并且ETL為數(shù)據(jù)工程事實(shí)上的基本單位,對(duì)其進(jìn)行的單元測(cè)試可以覆蓋大部分細(xì)粒度的邏輯。數(shù)據(jù)工程白皮書(shū)分層測(cè)試確保單個(gè)模型的數(shù)據(jù)質(zhì)量。在數(shù)據(jù)工程當(dāng)中,為了快速響應(yīng)變化、提高重復(fù)利用率以及減少性能瓶頸,大部分的數(shù)據(jù)架構(gòu)是縱向分層的架構(gòu),而不同層次有不同的數(shù)據(jù)處理邏輯,那么就需要先對(duì)每一層先進(jìn)行獨(dú)立測(cè)試驗(yàn)證,再重點(diǎn)測(cè)試層與層之間的集成與功能。測(cè)試關(guān)注:元數(shù)據(jù)驗(yàn)證、數(shù)據(jù)值、處理邏輯與處理性能等。在保證每層數(shù)據(jù)、邏輯正確的情況下,才能為更高層次的功能與數(shù)據(jù)質(zhì)量提供保證。數(shù)據(jù)端到端測(cè)試確保交付需求的質(zhì)量。端到端測(cè)試是從數(shù)據(jù)源到最終結(jié)果的驗(yàn)證過(guò)程。覆蓋了數(shù)據(jù)全鏈路層與層之間的耦合邏輯。一般而言,從數(shù)據(jù)源頭到最終數(shù)據(jù)應(yīng)用鏈路很長(zhǎng),計(jì)算資源消耗也比較高,進(jìn)行端到端測(cè)試的方法一般是通過(guò)構(gòu)建源數(shù)據(jù),直接對(duì)比處理末端或應(yīng)用端數(shù)據(jù)結(jié)果是否符合預(yù)期。數(shù)據(jù)端到端測(cè)試雖然可以從最終結(jié)果上校驗(yàn)功能,但其存在成本較高,數(shù)據(jù)用例構(gòu)造復(fù)雜度較高、發(fā)現(xiàn)Bug定位困難、運(yùn)行時(shí)間超長(zhǎng)等弊端,所以這層一般更多的是進(jìn)行happypath的驗(yàn)證與端到端性能測(cè)試,不會(huì)大范圍覆蓋所有分支邏輯。安全與性能測(cè)試。測(cè)試金字塔一般用來(lái)當(dāng)做面向功能的測(cè)試策略。除了以上講到的在金字塔內(nèi)部的多層測(cè)試,在數(shù)據(jù)領(lǐng)域,由于數(shù)據(jù)量巨大以及數(shù)據(jù)往往會(huì)涉及到各種機(jī)密與隱私,所以數(shù)據(jù)安全測(cè)試、性能測(cè)試同樣很重要。數(shù)據(jù)安全一般會(huì)根據(jù)具體項(xiàng)目情況涉及不同的測(cè)試策略,詳情可參閱數(shù)據(jù)安全篇章。而數(shù)據(jù)性能則是另一個(gè)比較重要的點(diǎn),一般的步驟為:預(yù)計(jì)數(shù)據(jù)量級(jí),構(gòu)造數(shù)據(jù)、準(zhǔn)備生產(chǎn)仿真環(huán)境、準(zhǔn)備測(cè)試用例、產(chǎn)出性能測(cè)試報(bào)告、分析與改造等。·人員與能力標(biāo)準(zhǔn)。數(shù)據(jù)工程測(cè)試金字塔從下到上技術(shù)細(xì)節(jié)逐漸減少,業(yè)務(wù)含義逐漸增多,通常來(lái)講,底層ETL測(cè)試主要由數(shù)據(jù)開(kāi)發(fā)人員負(fù)責(zé)。中部數(shù)據(jù)分層測(cè)試由于包含對(duì)數(shù)據(jù)模型的驗(yàn)證,需要有一定業(yè)務(wù)理解能力的人員參與測(cè)試用例的制定,一般由數(shù)據(jù)測(cè)試、數(shù)據(jù)業(yè)務(wù)分析師以及數(shù)據(jù)工程師共同參與。而頂層的測(cè)試用例由于很少涉及編碼細(xì)節(jié),其測(cè)試基本可以由數(shù)據(jù)分析師和數(shù)據(jù)測(cè)試共同完成。圖:數(shù)據(jù)測(cè)試工作全景數(shù)數(shù)據(jù)分層測(cè)試數(shù)據(jù)測(cè)試人員數(shù)據(jù)業(yè)務(wù)分析師數(shù)據(jù)測(cè)試人員數(shù)據(jù)業(yè)務(wù)分析師數(shù)據(jù)工程師數(shù)據(jù)單元測(cè)試數(shù)據(jù)工程師數(shù)據(jù)安全數(shù)據(jù)既是生產(chǎn)要素,也是企業(yè)的重要資產(chǎn),如何保障數(shù)據(jù)的安全就顯得要系統(tǒng)性的構(gòu)建企業(yè)數(shù)據(jù)安全體系。圖:數(shù)據(jù)安全的三個(gè)步驟和六個(gè)環(huán)節(jié)數(shù)據(jù)安全要融入企業(yè)安全體系中:數(shù)據(jù)產(chǎn)生于業(yè)務(wù),又是業(yè)務(wù)的一部分,故而數(shù)據(jù)安全應(yīng)與企業(yè)資產(chǎn)安全——對(duì)應(yīng)。什么安全級(jí)別的業(yè)務(wù),其對(duì)應(yīng)的數(shù)據(jù)也至少需要有相應(yīng)的安全級(jí)別。例如,產(chǎn)品研發(fā)企業(yè),由于新產(chǎn)品是其核心競(jìng)爭(zhēng)力,有著最高安全級(jí)別,相應(yīng)的,其新產(chǎn)品對(duì)應(yīng)的研發(fā)數(shù)據(jù)也應(yīng)該做到最高安全級(jí)別,而其營(yíng)銷數(shù)據(jù)的安全級(jí)別可能就不需要那么高的要求。數(shù)據(jù)安全是變化的,可演進(jìn)的:由于大部分企業(yè)對(duì)數(shù)據(jù)的管理和應(yīng)用還屬于摸索階段,還處于數(shù)據(jù)能跑能用就行的狀態(tài),對(duì)數(shù)據(jù)安全還沒(méi)有明確統(tǒng)一的認(rèn)知。早期建立的數(shù)據(jù)安全體系不一定適應(yīng)現(xiàn)在的數(shù)據(jù)安全要求。隨著技術(shù)壁壘的打破、新技術(shù)的更新迭代,數(shù)據(jù)安全策略需要持續(xù)的提升和優(yōu)化。但是對(duì)于企業(yè)來(lái)講,精力和資源都是有限的,因此我們需要把有限的精力和資源投入到合適的地方中去,這也就意味著我們需要對(duì)安全要求程度的把控和預(yù)期要有一定的控制。所以在這里提出結(jié)合我們的經(jīng)驗(yàn)和實(shí)踐站在安全視角下的數(shù)據(jù)安全實(shí)施細(xì)則:數(shù)據(jù)安全說(shuō)到底是信息系統(tǒng)的一部分,是屬于跨功能需求。在具體數(shù)據(jù)安全落地過(guò)程中,安全落地分為以下三個(gè)層次:1.基礎(chǔ)設(shè)施安全:基礎(chǔ)設(shè)施安全主要針對(duì)基礎(chǔ)設(shè)施涉及到的安全隱患,包含數(shù)據(jù)傳輸、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)數(shù)據(jù)工程白皮書(shū)2.數(shù)據(jù)安全:數(shù)據(jù)安全主要針對(duì)數(shù)據(jù)在訪問(wèn)、使用過(guò)程中以及過(guò)程后可能出現(xiàn)的各種安全問(wèn)題。包含:·數(shù)據(jù)加密:在各種復(fù)雜計(jì)算機(jī)系統(tǒng)中,數(shù)據(jù)加密能夠有效降低數(shù)據(jù)泄露帶來(lái)的風(fēng)險(xiǎn),即使數(shù)據(jù)被泄露,在沒(méi)有密鑰的情況下也很難從數(shù)據(jù)中獲取有效價(jià)值。數(shù)據(jù)加密一般分為對(duì)稱加密和非對(duì)稱加密,具體算法可由具體情況而定。并且,定期輪轉(zhuǎn)加密密鑰也能有效降低數(shù)據(jù)泄露風(fēng)險(xiǎn)。有效劃分?jǐn)?shù)據(jù)界限,理清數(shù)據(jù)管理權(quán)限,幫助更好的管理數(shù)據(jù)資產(chǎn)。數(shù)據(jù)訪問(wèn)控制:在數(shù)據(jù)隔離的基礎(chǔ)上,針對(duì)不同角色的操作用戶,劃分不同權(quán)限,保證對(duì)數(shù)據(jù)權(quán)限的嚴(yán)格控制,做到每種角色對(duì)所需數(shù)據(jù)權(quán)限最小化原則,并提供權(quán)限申請(qǐng)功能,將數(shù)據(jù)權(quán)限管理納入到流程之中,充分做到數(shù)據(jù)請(qǐng)求合理合規(guī)。全問(wèn)題的情況下能夠有跡可循,快速確定影響范圍并及時(shí)補(bǔ)救,防止危機(jī)擴(kuò)大。機(jī)密信息不被竊取,如企業(yè)內(nèi)監(jiān)管要求對(duì)部分?jǐn)?shù)據(jù)的生命周期有對(duì)應(yīng)的時(shí)間要求等。以用來(lái)分析企業(yè)數(shù)據(jù)安全狀況,有效發(fā)現(xiàn)程序后門,還能幫助分析性能,更重要的是,對(duì)于不合規(guī)或危險(xiǎn)操作,能夠及時(shí)預(yù)警,將數(shù)據(jù)安全問(wèn)題做到早發(fā)現(xiàn)、早解決。3.隱私信息保護(hù):針對(duì)數(shù)據(jù)中可能包含的各種隱私數(shù)據(jù),要避免其出現(xiàn)泄露,尤其針對(duì)一些公共暴露的數(shù)據(jù)API更要關(guān)注隱私信息安全,包含:接標(biāo)識(shí)符是指能夠直接定位數(shù)據(jù)主體的數(shù)據(jù),包括姓名、住址、身份證號(hào)、電話號(hào)碼等;準(zhǔn)標(biāo)識(shí)符不能直接定位數(shù)據(jù)主體,但可以通過(guò)組合識(shí)別出數(shù)據(jù)主體,比如郵編、公司、生日、性別等。數(shù)據(jù)工程落地過(guò)程中,不僅會(huì)沉淀數(shù)據(jù)資產(chǎn),亦會(huì)沉淀IT資產(chǎn)。模型的復(fù)用、工具的沉淀、平臺(tái)的搭建,均是數(shù)據(jù)工程落地過(guò)程中能力復(fù)用的具體表現(xiàn)。數(shù)據(jù)工程與應(yīng)用工程的最大區(qū)別在于,軟件工程實(shí)與數(shù)據(jù)流程天然通用一套范式,我們可以盡可能多地將通用能力抽離出來(lái),以工具、平臺(tái)的方式沉淀下來(lái),從而加速基礎(chǔ)設(shè)施的演進(jìn)與發(fā)展、加速新功能的孵化、提升開(kāi)發(fā)與運(yùn)營(yíng)效率。平臺(tái)能力復(fù)用數(shù)據(jù)工程白皮書(shū)我們將能力復(fù)用分為三個(gè)層次,即:基礎(chǔ)能力復(fù)用:對(duì)于數(shù)據(jù)工程開(kāi)發(fā)過(guò)程中的最佳實(shí)踐,我們可以將其沉淀為數(shù)據(jù)開(kāi)發(fā)工具,例如數(shù)據(jù)運(yùn)維、中間表生成、ETL自動(dòng)生成、監(jiān)控告警等等。不同工具靈活組合,又由于不同工具可以提供靈活配置,可以滿足數(shù)據(jù)開(kāi)發(fā)工程師、數(shù)據(jù)分析師、數(shù)據(jù)運(yùn)維工程師以及數(shù)據(jù)測(cè)試工程師等多種角色的不同訴求。故數(shù)據(jù)工具需要滿足可配置性、低耦合等特性。模塊相互配合,可以提供一站式數(shù)據(jù)開(kāi)發(fā)、測(cè)試、運(yùn)維功能。從而降低數(shù)據(jù)團(tuán)隊(duì)運(yùn)維成本,提高生產(chǎn)效率。解決方案復(fù)用:對(duì)于新業(yè)務(wù),如果已經(jīng)構(gòu)建了其所屬共性業(yè)務(wù)的解決方案,則可以通過(guò)調(diào)整方案進(jìn)行快速定制。方法是:基于解決方案的通用流程制定新流程,羅列共性模塊與特性模塊,在復(fù)用數(shù)據(jù)平臺(tái)的基礎(chǔ)上,挑選合適的基礎(chǔ)能力,快速實(shí)現(xiàn)配置與開(kāi)發(fā)。本為中提到的復(fù)用是對(duì)于能力的可復(fù)用性,并非某個(gè)具體的產(chǎn)品或者是方案,正因如此能力復(fù)用才能作為企業(yè)數(shù)據(jù)工程能力規(guī)?;茝V和應(yīng)用的基礎(chǔ)。解決方案復(fù)用通用方案快速定制基礎(chǔ)能力復(fù)用數(shù)據(jù)開(kāi)發(fā)工具在數(shù)據(jù)匯聚、整合完成后,還需要對(duì)數(shù)據(jù)進(jìn)行運(yùn)營(yíng),以滿足數(shù)據(jù)反哺業(yè)務(wù),產(chǎn)生業(yè)務(wù)價(jià)值。數(shù)據(jù)運(yùn)營(yíng)的目的是要形成企業(yè)看數(shù)據(jù)、用數(shù)據(jù)、將數(shù)據(jù)作為溝通語(yǔ)言和工具的“數(shù)據(jù)文化”,數(shù)據(jù)只有容易被發(fā)現(xiàn),才有產(chǎn)生價(jià)值的可能性。那么針對(duì)不同的數(shù)據(jù)消費(fèi)角色,數(shù)據(jù)的展現(xiàn)形式也應(yīng)該多樣化,比如針對(duì)數(shù)據(jù)分析師,數(shù)據(jù)資產(chǎn)目錄可以很方便的幫助他們找到想要的數(shù)據(jù),而針對(duì)業(yè)務(wù)決策人員,為了更科學(xué)系統(tǒng)的查看指標(biāo)輔助決策,數(shù)據(jù)集市則更適合他們。對(duì)企業(yè)數(shù)據(jù)資產(chǎn)的結(jié)構(gòu)化描述、存儲(chǔ)、搜索、管理的系統(tǒng),包括元數(shù)據(jù)的搜索、瀏覽數(shù)據(jù)樣本結(jié)構(gòu)、拉通數(shù)據(jù)全貌、快速發(fā)現(xiàn)、定位數(shù)據(jù)服務(wù)以及數(shù)據(jù)服務(wù)的所有者等功能。那么,數(shù)據(jù)運(yùn)營(yíng)包含:數(shù)據(jù)工程白皮書(shū)·持續(xù)更新與迭代的數(shù)據(jù)資產(chǎn):數(shù)據(jù)是企業(yè)的資產(chǎn),能夠?yàn)槠髽I(yè)創(chuàng)造價(jià)值,但是企業(yè)的業(yè)務(wù)并非一成不變、企業(yè)在價(jià)值的度量也并非一直相同。因此數(shù)據(jù)資產(chǎn)在前期被定義出來(lái)之后,我們需要通過(guò)后續(xù)的持續(xù)維護(hù)才能夠確保數(shù)據(jù)資產(chǎn)的有效性。數(shù)據(jù)資產(chǎn)目錄是數(shù)據(jù)資產(chǎn)盤點(diǎn)以及后續(xù)維護(hù)的一個(gè)載體。從概念上來(lái)看,數(shù)據(jù)資產(chǎn)目錄將業(yè)務(wù)信息和技術(shù)信息進(jìn)行關(guān)聯(lián),并提供給不同角色的數(shù)據(jù)消費(fèi)者。例如:可以告訴業(yè)務(wù)人員當(dāng)前都有哪些可用的業(yè)務(wù)信息、指標(biāo)信息,也可以告訴技術(shù)人員,這些信息分別分布在哪個(gè)目錄、哪個(gè)表等。通常,數(shù)據(jù)資產(chǎn)目錄的業(yè)務(wù)元數(shù)據(jù)要包括主題域的分組、主題域、業(yè)務(wù)對(duì)象、邏輯數(shù)據(jù)實(shí)體、屬性信息。技術(shù)元數(shù)據(jù)信息包括物理數(shù)據(jù)庫(kù)、schema、表、字段。這里還需要滿足一個(gè)原則:數(shù)據(jù)源頭的唯一、數(shù)據(jù)所有者的唯一。低成本與人工干預(yù)的數(shù)據(jù)運(yùn)維:在進(jìn)行數(shù)字化轉(zhuǎn)型中,會(huì)涉及比較多的組件。包括一些分布式的存儲(chǔ)計(jì)算引擎,涉及多個(gè)數(shù)據(jù)源頭,涉及多種臨時(shí)數(shù)據(jù)訴求。因此每種類型都需要考慮其運(yùn)維,同時(shí),運(yùn)維工作從軟件的生命周期看往往占了大部分時(shí)間。從后續(xù)維護(hù)的視角來(lái)看,數(shù)據(jù)運(yùn)維是重要的組成部分,也是工作量的體現(xiàn)部分。我們通常會(huì)將運(yùn)維分為幾大類。基礎(chǔ)設(shè)施的運(yùn)維、調(diào)度運(yùn)維、數(shù)據(jù)運(yùn)維、安全運(yùn)維和其他運(yùn)維。基礎(chǔ)設(shè)施運(yùn)維包括所涉及到的所有底層技術(shù)組件,如CPU、內(nèi)存、網(wǎng)絡(luò)、消息隊(duì)列、存儲(chǔ)/計(jì)算引擎等,需要考慮大規(guī)模集群下的管理,環(huán)境隔離,容災(zāi)備份等,需要考慮集群的預(yù)警和審計(jì),確?;A(chǔ)設(shè)施的穩(wěn)定和可追溯。調(diào)度運(yùn)維是指在ETL出現(xiàn)異常后的日常處理,通常需要滿足日志分級(jí)分類、ETL冪等性、預(yù)警的時(shí)效性和異常處理流程閉環(huán),可以做到快速定位問(wèn)題,快速處理解決問(wèn)題且保證數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)運(yùn)維通常是在數(shù)據(jù)源頭發(fā)生數(shù)據(jù)異?;蛘邤?shù)據(jù)變更的運(yùn)維或一些臨時(shí)的數(shù)據(jù)需求,當(dāng)數(shù)據(jù)異常時(shí),需要明確數(shù)據(jù)owner。對(duì)于一些臨時(shí)需求,如需要重刷歷史某天的數(shù)據(jù),需要做到快速相應(yīng),如可以以最少的資源滿足需求,同時(shí)可以避免一些數(shù)據(jù)問(wèn)題,如舊數(shù)據(jù)覆蓋新數(shù)據(jù)等場(chǎng)景。安全運(yùn)維包括底層基礎(chǔ)設(shè)施的安全運(yùn)維、ETL和數(shù)據(jù)層面的安全運(yùn)維。如對(duì)于基礎(chǔ)設(shè)施的安全監(jiān)控、代碼的安全規(guī)范掃描、依賴代碼升級(jí)、密鑰信息的安全處理、機(jī)密信息的加密處理、PII數(shù)據(jù)的脫敏處理和權(quán)限控制等。在接收到異常安全監(jiān)控告警后,需要及時(shí)處理對(duì)應(yīng)的安全事故。其他運(yùn)維主要包括在開(kāi)發(fā)部署上線階段的運(yùn)維工作等。對(duì)于數(shù)據(jù)運(yùn)維工作是否優(yōu)秀的很重要的評(píng)判標(biāo)準(zhǔn),可以從數(shù)據(jù)運(yùn)維工作上投入的工作量有多少、在數(shù)據(jù)運(yùn)維工作中需要人工干預(yù)的環(huán)節(jié)有多少,是數(shù)據(jù)工程落地實(shí)施是否優(yōu)秀等幾個(gè)視角來(lái)衡量??缮炜s的數(shù)據(jù)服務(wù):數(shù)據(jù)服務(wù)作為對(duì)外提供數(shù)據(jù)的重要方式,他的目的是通過(guò)標(biāo)準(zhǔn)化數(shù)據(jù)服務(wù)將可信、易用的數(shù)據(jù)集提供出去,支撐業(yè)務(wù)的開(kāi)展。但是業(yè)務(wù)是變化的,業(yè)務(wù)對(duì)于數(shù)據(jù)的使用也就是變化的,我們定義好的數(shù)據(jù)服務(wù)也是需要跟著變化的,這里就要看數(shù)據(jù)服務(wù)在被使用的頻率來(lái)評(píng)估是否要對(duì)數(shù)據(jù)服務(wù)進(jìn)行擴(kuò)縮容;對(duì)數(shù)據(jù)服務(wù)使用的正常和異常進(jìn)行監(jiān)控。數(shù)據(jù)工程白皮書(shū)持續(xù)的數(shù)據(jù)價(jià)值探索:持續(xù)的數(shù)據(jù)價(jià)值探索有兩個(gè)挑戰(zhàn),第一是如何持續(xù)的發(fā)掘有價(jià)值的業(yè)務(wù)場(chǎng)景;第二是如何能高效便捷地進(jìn)行數(shù)據(jù)價(jià)值探索。在前面愿景對(duì)齊講到,需要結(jié)合現(xiàn)有的數(shù)據(jù)和技術(shù)手段來(lái)創(chuàng)新性的探索業(yè)務(wù)場(chǎng)景,但是業(yè)務(wù)場(chǎng)景的解決方案和價(jià)值體現(xiàn)并不是一成不變的,仍然需要持續(xù)迭代。除此之外,需要提供數(shù)據(jù)自服務(wù)實(shí)驗(yàn)室,可以讓業(yè)務(wù)人員通過(guò)可視化的方式結(jié)合自身對(duì)業(yè)務(wù)的理解來(lái)敏捷高效地探索數(shù)據(jù),持續(xù)孵化承接數(shù)據(jù)價(jià)值的智能應(yīng)用:智能應(yīng)用作為數(shù)據(jù)使用和產(chǎn)生價(jià)值過(guò)程中重要的載體,需要根據(jù)業(yè)務(wù)訴求以及對(duì)于數(shù)據(jù)價(jià)值的挖掘持續(xù)的探索和演進(jìn)新的智能應(yīng)用,并通過(guò)智能應(yīng)用的構(gòu)建和演進(jìn)來(lái)應(yīng)對(duì)新的市場(chǎng)和大環(huán)境帶來(lái)的挑戰(zhàn)、改善用戶體驗(yàn)。持續(xù)孵化承接數(shù)據(jù)價(jià)值的智能應(yīng)用持續(xù)孵化承接數(shù)據(jù)價(jià)值的智能應(yīng)用持續(xù)的數(shù)據(jù)價(jià)值探索低成本與人工干預(yù)的數(shù)據(jù)運(yùn)維數(shù)據(jù)研發(fā)能力建

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論