




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
多源數(shù)據(jù)融合平臺建設(shè)方案2019年12月目錄TOC\o"1-2"\h\u28909一、元數(shù)據(jù)管理子系統(tǒng) 3279961.元數(shù)據(jù)管理 3237732.數(shù)據(jù)定義 3288923.元數(shù)據(jù)存儲 467944.元數(shù)據(jù)查詢 412645.元數(shù)據(jù)維護(hù) 515726.元數(shù)據(jù)檢查 574937.元數(shù)據(jù)分析 513274二、數(shù)據(jù)采集子系統(tǒng) 660501.采集方式 68662.采集技術(shù) 645533.采集功能 827859三、數(shù)據(jù)清洗加工子系統(tǒng) 95986數(shù)據(jù)清洗結(jié)構(gòu)設(shè)計 10146861.清洗轉(zhuǎn)換 10123862.數(shù)據(jù)加工 12119333.數(shù)據(jù)加載 12234354.數(shù)據(jù)校驗 14106445.異常處理 1576656.數(shù)據(jù)標(biāo)準(zhǔn)化 1620129四、數(shù)據(jù)質(zhì)量管理子系統(tǒng) 16224451.數(shù)據(jù)質(zhì)量 16240352.數(shù)據(jù)評估 18202613.稽核管理 1930691五、統(tǒng)一調(diào)度子系統(tǒng) 20121751.統(tǒng)一調(diào)度功能 21154942.調(diào)度配置 22237103.調(diào)度運(yùn)行 22160174.調(diào)度策略 23195725.調(diào)度監(jiān)控 2322597六、數(shù)據(jù)共享交換子系統(tǒng) 24251701.數(shù)據(jù)交換 2445722.數(shù)據(jù)共享 2622430七、數(shù)據(jù)存儲子系統(tǒng) 31一、元數(shù)據(jù)管理子系統(tǒng)1.元數(shù)據(jù)管理元數(shù)據(jù)的范圍包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)詞典、字段維度、程序映射邏輯、數(shù)據(jù)生命周期等。元數(shù)據(jù)管理包括元數(shù)據(jù)定義、存儲、查詢、維護(hù)、檢查和分析應(yīng)用。2.數(shù)據(jù)定義元數(shù)據(jù)的定義可參考以下步驟:(1)基礎(chǔ)分類信息制定設(shè)置基本的分類編碼信息。如主題的分類,層次的分類,表級別分類配置管理。(2)元模型制定根據(jù)管理需要,自定義元模型信息。元模型是指管理數(shù)據(jù)的基本信息模型,配置了表元模型的信息要素,規(guī)范管理要素等。(3)數(shù)據(jù)分層定義歸納分類是認(rèn)識和理解對一個復(fù)雜的對象的最有效的辦法,在對數(shù)據(jù)進(jìn)行管理我們認(rèn)為從分層、再分主題對數(shù)據(jù)進(jìn)行分類是行之有效的方法,制定好數(shù)據(jù)分層分主題,每個表歸屬到層次和主題上。(4)數(shù)據(jù)主題管理根據(jù)數(shù)據(jù)交換共享數(shù)據(jù)目錄為基礎(chǔ),按照相關(guān)業(yè)務(wù),劃分主題并對各主題進(jìn)行管理。通過分類來約定表數(shù)據(jù)資源的存儲周期;預(yù)置多個表資源分類(層次、主題、存儲周期等),分類可動態(tài)擴(kuò)展,通過分類的表命名規(guī)則,可以快速把表資源歸屬到各個分類下。(5)模型規(guī)范制定制定表的命名規(guī)范,字段的命名規(guī)范。解決各源系統(tǒng)不規(guī)范的命名方式,避免同名不同義,同義不同名的現(xiàn)象。(6)維表管理從各層次、主題,提取出公共維度和維度的統(tǒng)一編碼,以了解系統(tǒng)數(shù)據(jù)的非常關(guān)鍵的內(nèi)容。(7)指標(biāo)管理從各層次、主題提取基礎(chǔ)的指標(biāo),并定義其業(yè)務(wù)含義,技術(shù)口徑。另外,元數(shù)據(jù)定義主要需實現(xiàn)兩類規(guī)則定義:標(biāo)準(zhǔn)化的命名規(guī)則和統(tǒng)一的擴(kuò)展規(guī)則。(8)標(biāo)準(zhǔn)化的命名規(guī)則標(biāo)準(zhǔn)化數(shù)據(jù)的名稱、編碼、層級、層的屬性名稱,確保協(xié)調(diào)一致,統(tǒng)一管理,解決各源系統(tǒng)不規(guī)范的命名方式,避免同名不同義,同義不同名的現(xiàn)象,解決系統(tǒng)之間數(shù)據(jù)集成的標(biāo)準(zhǔn),解決跨部門數(shù)據(jù)分析時數(shù)據(jù)一致理解,同時也是溝通IT和業(yè)務(wù)的一致理解。(9)提供統(tǒng)一數(shù)據(jù)擴(kuò)展規(guī)則系統(tǒng)對指標(biāo)代碼,元數(shù)據(jù),子類等擴(kuò)展要素的擴(kuò)展規(guī)則進(jìn)行統(tǒng)一限定,保證后續(xù)數(shù)據(jù)的持續(xù)規(guī)范管理。3.元數(shù)據(jù)存儲元數(shù)據(jù)存儲的信息管理范圍:數(shù)據(jù)源接口、ETL和前端展現(xiàn)等全部數(shù)據(jù)處理環(huán)節(jié),并提供對技術(shù)元數(shù)據(jù)及業(yè)務(wù)元數(shù)據(jù)存儲。(1)業(yè)務(wù)元數(shù)據(jù)面向業(yè)務(wù)分析人員,是數(shù)據(jù)中心數(shù)據(jù)處理規(guī)則的業(yè)務(wù)化描述,主要包括業(yè)務(wù)規(guī)則、業(yè)務(wù)術(shù)語、業(yè)務(wù)指標(biāo)、信息分類等;業(yè)務(wù)指標(biāo)基本屬性包括:指標(biāo)標(biāo)識、指標(biāo)名稱、指標(biāo)描述、指標(biāo)數(shù)據(jù)來源、指標(biāo)業(yè)務(wù)口徑、指標(biāo)統(tǒng)計周期、指標(biāo)度量單位、指標(biāo)創(chuàng)建日期、指標(biāo)最后修訂日期和指標(biāo)備注等。維度數(shù)據(jù)基本屬性包括:維度標(biāo)識、維度名稱、維度描述、維度層級數(shù)、維度生效時間和維度失效時間等。(2)技術(shù)元數(shù)據(jù)面向運(yùn)維技術(shù)人員,偏重數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)處理細(xì)節(jié)方面的技術(shù)化描述,是用于開發(fā)和維護(hù)的基本信息,主要包括源系統(tǒng)接口規(guī)范、數(shù)據(jù)結(jié)構(gòu)的描述以及數(shù)據(jù)處理過程的描述等信息。4.元數(shù)據(jù)查詢元數(shù)據(jù)查詢必須支持對元數(shù)據(jù)庫中的元數(shù)據(jù)基本信息進(jìn)行查詢與檢索的功能,可查詢數(shù)據(jù)庫表、維表、指標(biāo)、過程及參與的輸入輸出對象信息,以及其它納入管理的對象基本信息,查詢的信息按處理的層次及業(yè)務(wù)主題進(jìn)行組織,查詢功能返回實體及其所屬的相關(guān)信息。提供可視化的界面,實現(xiàn)元數(shù)據(jù)信息的查詢展現(xiàn),支持按照元數(shù)據(jù)的查詢、按指標(biāo)定義和指標(biāo)名稱的查詢。查詢的信息內(nèi)容包括:數(shù)據(jù)字典、數(shù)據(jù)目錄、服務(wù)目錄等。提供對歷史信息的查詢,方便維護(hù)人員了解具體對象的歷史變更情況。查詢功能包括快速查詢功能和屬性查詢。查詢功能表查詢功能描述快速查詢以關(guān)鍵字為核心,通過對元數(shù)據(jù)的關(guān)鍵屬性進(jìn)行模糊查詢,返回符合條件的元數(shù)據(jù)列表,查看某一元數(shù)據(jù)的詳細(xì)信息。屬性查詢指定元數(shù)據(jù)類型、元數(shù)據(jù)屬性,并輸入查詢屬性的值,對該類型元數(shù)據(jù)進(jìn)行模糊查詢,返回符合條件的元數(shù)據(jù)列表,查看某元數(shù)據(jù)的詳細(xì)信息。5.元數(shù)據(jù)維護(hù)隨著本項目的深入,元數(shù)據(jù)是動態(tài)更新的,因此元數(shù)據(jù)的維護(hù)需提供對元數(shù)據(jù)的增加、刪除和修改等基本操作。對于元數(shù)據(jù)的增量維護(hù),可以保留歷史版本信息。用戶使用元數(shù)據(jù)基本維護(hù)功能,可以統(tǒng)一管理所有系統(tǒng)中的元數(shù)據(jù)。元數(shù)據(jù)的維護(hù)操作是原子操作,這些原子操作可通過服務(wù)封裝的形式向性能管理系統(tǒng)的其它模塊提供元數(shù)據(jù)維護(hù)接口。使用者可基于業(yè)務(wù)和管理的層面對業(yè)務(wù)、管理需求進(jìn)行建模,定義元數(shù)據(jù)的屬性;支持Excel批量操作和外部接口導(dǎo)入功能。6.元數(shù)據(jù)檢查數(shù)據(jù)質(zhì)量檢查機(jī)制能及時發(fā)現(xiàn)、報告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題,因此,平臺應(yīng)提供對元數(shù)據(jù)數(shù)據(jù)質(zhì)量的檢查手段,在元數(shù)據(jù)上線時,對元數(shù)據(jù)進(jìn)行稽核檢查,保證元數(shù)據(jù)信息的完整性,合理性。元數(shù)據(jù)檢查應(yīng)包括SQL解析成功率、表級關(guān)系完整率、字段關(guān)系完整率等評估指標(biāo)進(jìn)行元數(shù)據(jù)質(zhì)量檢查。7.元數(shù)據(jù)分析當(dāng)數(shù)據(jù)出現(xiàn)問題時,元數(shù)據(jù)管理能夠通過血緣分析和影響分析,定位數(shù)據(jù)問題產(chǎn)生的路徑,并評估出該問題對平臺其他數(shù)據(jù)或應(yīng)用的影響。數(shù)據(jù)采集子系統(tǒng)1.采集方式通過多源數(shù)據(jù)采集接口,與其他系統(tǒng)對接,系統(tǒng)提供多種類型的采集手段,以滿足IT系統(tǒng)對數(shù)據(jù)采集現(xiàn)狀的要求,如:采集手段可包括“推”模式、“拉”模式、web上傳模式、直連模式等,如下圖所示:數(shù)據(jù)采集方式示意圖2.采集技術(shù)如何快速從業(yè)務(wù)系統(tǒng)獲取采集實時數(shù)據(jù),而不能對源業(yè)務(wù)系統(tǒng)產(chǎn)生大的性能影響。數(shù)據(jù)共享交換平臺數(shù)據(jù)采集可參考以下關(guān)鍵技術(shù):(1)服務(wù)接口的數(shù)據(jù)采集服務(wù)接口數(shù)據(jù)采集方法原理優(yōu)點(diǎn)缺點(diǎn)基于快照法快照是數(shù)據(jù)庫中存儲對象在某一時刻的即時映像。周期性的提取源數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)快照加載到目標(biāo)數(shù)據(jù)庫中它不需要依賴于特別的機(jī)制,系統(tǒng)資源占用較小,容易管理和操作由于對于快照對象并不區(qū)分具體的變動記錄,而且采用快照集合完全刷新,因此效率較低基于觸發(fā)器法在源數(shù)據(jù)庫為同步對象創(chuàng)建相應(yīng)的觸發(fā)器,當(dāng)對同步對象進(jìn)行修改、插入或刪除等DML命令時,觸發(fā)器被喚醒,將變化傳播到目標(biāo)數(shù)據(jù)庫極大提高了系統(tǒng)效率使用的系統(tǒng)資源比較多,需要對系統(tǒng)進(jìn)行改動基于日志法數(shù)據(jù)庫日志作為維護(hù)數(shù)據(jù)完整性和數(shù)據(jù)庫恢復(fù)的重要工具,其中已經(jīng)包含了全部成功提交的數(shù)據(jù)庫操作記錄信息?;谌罩痉ň褪峭ㄟ^分析數(shù)據(jù)庫日志的這些信息來捕獲復(fù)制對象的變化序列。基于日志法不僅方便,而且也不會占用太多額外的系統(tǒng)資源,對任何類型的復(fù)制都適合,不但能提高效率和保證數(shù)據(jù)的完整性,還能在對等式復(fù)制時提供詳細(xì)的控制信息數(shù)據(jù)庫日志的格式是不公開的,因而不得不基于某一同定的數(shù)據(jù)庫日志分析工具或接口,這給異構(gòu)數(shù)據(jù)庫復(fù)制帶來了問題?;贏PI法在大部分應(yīng)用程序和數(shù)據(jù)庫之間引入一類中間件,由它提供一系列API(包括ODBC/JDBC驅(qū)動程序),這些中間件在完成應(yīng)用程序?qū)?shù)據(jù)庫修改的同時,也把復(fù)制對象的變化序列記錄下來,從而達(dá)到捕獲的目的不需要改變現(xiàn)有的數(shù)據(jù)庫,也不依賴具體的數(shù)據(jù)庫對那些不經(jīng)過API操作進(jìn)行的SQL語句而產(chǎn)生的數(shù)據(jù)變化基于影子表法影子表法是在初始化時為復(fù)制對象表T
建立一張影子表S,也就是作一份當(dāng)時的拷貝,以后就可在適當(dāng)時機(jī)通過比較當(dāng)前T
和S
的內(nèi)容來獲取凈變化信息能在任何數(shù)據(jù)庫上實現(xiàn)資源開銷比較大基于時間戳法基于表中數(shù)據(jù)的時間戳增量提取變化的內(nèi)容能在任何數(shù)據(jù)庫上實現(xiàn)依賴于源系統(tǒng)表結(jié)構(gòu)設(shè)計(2)FTP文件采集文本文件輸入:處理有列分隔符(限定符、逃逸字符)的文本文件。功能選項豐富、有錯誤處理機(jī)制。CSV文件輸入:簡化了文本文件輸入通過NIO、并行、延遲轉(zhuǎn)換提高性能固定寬度:列固定寬度的文件,不用解析字符串,性能好。(3)Socket消息采集Socket消息采集模塊主要功能:1、Socket客戶端接收流量系統(tǒng)提供的A信令消息保存到本地文件。2、Socket服務(wù)端將接收的A信令消息實時傳輸數(shù)據(jù)給下游其他系統(tǒng),同時支持將本地文件轉(zhuǎn)為消息后轉(zhuǎn)發(fā)。(4)Sqoop數(shù)據(jù)高速同步采集可采用開源的Sqoop來實現(xiàn)大數(shù)據(jù)平臺和DB2庫、HBASE的高效數(shù)據(jù)同步。共用基礎(chǔ)平臺數(shù)據(jù)分發(fā)的功能。應(yīng)用場景:可以使用于數(shù)據(jù)抽取,或從數(shù)據(jù)中心同步到其他數(shù)據(jù)庫。3.采集功能(1)離線采集離線采集,即非實時采集;采集可分為“推”模式和“拉”模式兩種。離線采集“推”模式:即,各行政單位定期將數(shù)據(jù)推送到數(shù)據(jù)交換共享平臺指定的前置機(jī)存儲設(shè)備進(jìn)行存儲,可采用FTP可SFTP等相關(guān)方式;平臺負(fù)責(zé)周轉(zhuǎn)前置機(jī)設(shè)備實現(xiàn)數(shù)據(jù)的入庫等相關(guān)操作。離線采集“拉”模式:即,各行政單位具備自有IT系統(tǒng)數(shù)據(jù)緩沖前置機(jī)的,由數(shù)據(jù)交換共享平臺定期到指定設(shè)備進(jìn)行數(shù)據(jù)采集。(2)實時采集實時采集主要以“推”模為主,即在數(shù)據(jù)交換共享平臺前置設(shè)備建立數(shù)據(jù)監(jiān)聽機(jī)制,監(jiān)聽各行政單位是否將數(shù)據(jù)推送到數(shù)據(jù)交換共享平臺指定的前置機(jī)存儲位置,當(dāng)發(fā)現(xiàn)存儲設(shè)備有數(shù)據(jù)產(chǎn)生時,實時地將數(shù)據(jù)采集到數(shù)據(jù)交換共享平臺,用于數(shù)據(jù)的處理工作。(3)WEB服務(wù)采集針對各行政單位IT系統(tǒng)無法提供數(shù)據(jù)文件的,通過數(shù)據(jù)交換共享平臺提供WEB采集系統(tǒng),用戶登錄系統(tǒng),可進(jìn)行數(shù)據(jù)錄入或直接上傳文件數(shù)據(jù)?;赪EB的采集,系統(tǒng)提供自定義表單的功能,以滿足不同行政單位數(shù)據(jù)采集的需要。(4)接口服務(wù)采集基于各行政單位IT系統(tǒng)提供的數(shù)據(jù)接口,數(shù)據(jù)交換共享平臺通過調(diào)用接口服務(wù),實現(xiàn)數(shù)據(jù)文件的采集。(5)采集異常處理系統(tǒng)提供采集異常處理機(jī)制,包括:采集任務(wù)中斷、采集數(shù)據(jù)失敗等相關(guān)異?,F(xiàn)象時,實現(xiàn)相關(guān)的補(bǔ)采機(jī)制,或通過告警的方式通知系統(tǒng)用戶;如采集各行政單位數(shù)據(jù)時,系統(tǒng)監(jiān)聽采集任務(wù)中斷或網(wǎng)絡(luò)中斷等異常故障時,系統(tǒng)可智能觸發(fā)補(bǔ)采機(jī)制,若無法補(bǔ)采,可通知系統(tǒng)用戶進(jìn)行故障檢查,以保障源數(shù)據(jù)采集的可靠性。(6)配置管理配置觸發(fā)采集的方式,如:實時采集、按小時采集、按天采集、按月采集等不同的時間方式。配置各行政單位數(shù)據(jù)采集的存儲位置,以便于安全存放與管理。三、數(shù)據(jù)清洗加工子系統(tǒng)處理采集過來的數(shù)據(jù),實現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)換、加載功能,一方面保障采集的數(shù)據(jù)能正確、完整、規(guī)范地加載到目的地;另一方面,實現(xiàn)數(shù)據(jù)整合過程中的異常處理機(jī)制,如:處理傳輸異常、數(shù)據(jù)加載異常、數(shù)據(jù)結(jié)構(gòu)與質(zhì)量異常等。圖5-42數(shù)據(jù)清洗整體能力結(jié)構(gòu)圖建議采用成熟的ETL工具實現(xiàn)數(shù)據(jù)的清洗整理過程。數(shù)據(jù)清洗結(jié)構(gòu)設(shè)計1.清洗轉(zhuǎn)換數(shù)據(jù)清洗轉(zhuǎn)換指對前端采集過來的數(shù)據(jù)進(jìn)行清洗與轉(zhuǎn)換處理,包括數(shù)據(jù)過濾、數(shù)據(jù)剔重、類型轉(zhuǎn)換、編碼映射、文件拆分與合并、維度轉(zhuǎn)換等功能。數(shù)據(jù)清洗轉(zhuǎn)換的任務(wù)主要是進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換、數(shù)據(jù)去臟和一些轉(zhuǎn)換規(guī)則的計算。其中不一致轉(zhuǎn)換過程是數(shù)據(jù)整合的過程,側(cè)重于將來源于不同業(yè)務(wù)系統(tǒng)的相同類型的數(shù)據(jù)進(jìn)行統(tǒng)一處理;數(shù)據(jù)粒度轉(zhuǎn)換需要對數(shù)據(jù)進(jìn)行統(tǒng)一歸整;轉(zhuǎn)換規(guī)則計算按照設(shè)計的計算歸則對數(shù)據(jù)進(jìn)行重新計算。系統(tǒng)支持批量清洗和實時清洗,針對批量離線數(shù)據(jù)進(jìn)行分布式并行清洗轉(zhuǎn)換,針對實時數(shù)據(jù)進(jìn)行不落地清洗轉(zhuǎn)換。(1)轉(zhuǎn)換規(guī)則配置數(shù)據(jù)清洗系統(tǒng)提供數(shù)據(jù)轉(zhuǎn)換規(guī)則配置,以圖形化的界面來實現(xiàn)靈活的數(shù)據(jù)處理規(guī)則配置,主要提供的數(shù)據(jù)轉(zhuǎn)換規(guī)則設(shè)置包括:對數(shù)據(jù)進(jìn)行計算、合并、拆分的規(guī)則配置、對空值替換規(guī)則的配置、對數(shù)據(jù)格式化規(guī)則的配置等。(2)處理過程記錄數(shù)據(jù)清洗系統(tǒng)提供數(shù)據(jù)處理過程記錄功能,支持對數(shù)據(jù)處理過程的日志進(jìn)行記錄,記錄的信息主要包括:元數(shù)據(jù)記錄、轉(zhuǎn)換后數(shù)據(jù)記錄、運(yùn)用的轉(zhuǎn)換規(guī)則、轉(zhuǎn)換的時間等內(nèi)容。(3)數(shù)據(jù)轉(zhuǎn)換組件數(shù)據(jù)清洗系統(tǒng)提供豐富的數(shù)據(jù)轉(zhuǎn)換處理組件,主要包含如下:1)支持任意合理的數(shù)據(jù)格式轉(zhuǎn)換,包括但不限于:時間類型的轉(zhuǎn)換、字符編碼轉(zhuǎn)換、數(shù)據(jù)類型轉(zhuǎn)換;2)支持統(tǒng)一編碼映射,為了保障數(shù)據(jù)的一致性,需要對不同來源的數(shù)據(jù)進(jìn)行統(tǒng)一的編碼,如公民唯一標(biāo)識,各種緯度參數(shù)等。3)支持多字段的混合運(yùn)算,運(yùn)算規(guī)則可靈活配置,包括但不限于:sum、max、min、avg等;4)支持各種字符操作,包括但不限于:字符替換、字符截取、字符連接;5)支持?jǐn)?shù)據(jù)粒度的轉(zhuǎn)換,保證轉(zhuǎn)換后的誤差在規(guī)定的范圍內(nèi);6)支持?jǐn)?shù)據(jù)格式化,包括時間、數(shù)值、字符、計量單位等數(shù)據(jù);7)支持復(fù)雜條件過濾,過濾條件可靈活配置;8)支持?jǐn)?shù)據(jù)去重處理,可按照用戶定義的規(guī)則自動判斷重復(fù)數(shù)據(jù),并按照用戶定義的規(guī)則處理重復(fù)的數(shù)據(jù);9)支持記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄;10)支持行、列變換;11)支持?jǐn)?shù)據(jù)清洗及標(biāo)準(zhǔn)化;12)支持處理過程支持各種字符集的轉(zhuǎn)換等。13)硬編碼數(shù)據(jù)轉(zhuǎn)換14)基于硬編碼實現(xiàn)數(shù)據(jù)轉(zhuǎn)換依托于插件方式來實現(xiàn),采用將不同的數(shù)據(jù)轉(zhuǎn)換過程通過硬編碼的形式封裝為相應(yīng)的處理插件置入到數(shù)據(jù)處理工作流程,針對此類模式主要支撐以下應(yīng)用場景:15)時間類型的轉(zhuǎn)換;16)碼表映射;17)記錄拆分;18)字符集轉(zhuǎn)換(4)庫外數(shù)據(jù)轉(zhuǎn)換基于庫外計算進(jìn)行數(shù)據(jù)轉(zhuǎn)換操作,需要借助Hadoop、流式計算引擎等海量數(shù)據(jù)計算處理平臺來完成,借助并行計算處理能力來滿足復(fù)雜數(shù)據(jù)轉(zhuǎn)換來進(jìn)行。主要支撐以下業(yè)務(wù)應(yīng)用場景:1)多字段的混合運(yùn)算。2)過濾、去重、清洗。3)復(fù)雜條件過濾。4)排序、統(tǒng)計、合并計算、行列變換等。2.數(shù)據(jù)加工數(shù)據(jù)加工是指對采集數(shù)據(jù)庫和基礎(chǔ)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行加工,匯總到綜合指標(biāo)數(shù)據(jù)庫,并在此基礎(chǔ)上進(jìn)一步挖掘分析,按照主題邏輯設(shè)計和轉(zhuǎn)換規(guī)則設(shè)計,形成主題數(shù)據(jù)庫的過程。如下圖所示,包含了主題加工流程管理、數(shù)據(jù)加工設(shè)計、數(shù)據(jù)加工實現(xiàn)。建議采用成熟的ETL工具實現(xiàn)數(shù)據(jù)加工的過程。在實現(xiàn)數(shù)據(jù)加工活動時,定義數(shù)據(jù)加工相關(guān)的元數(shù)據(jù)并將元數(shù)據(jù)存儲于元數(shù)據(jù)庫中,與基于數(shù)據(jù)倉庫的其他應(yīng)用元數(shù)據(jù)統(tǒng)一進(jìn)行管理和使用。數(shù)據(jù)加工元數(shù)據(jù)主要可分為:對象描述元數(shù)據(jù)和運(yùn)行管理元數(shù)據(jù)。對象描述元數(shù)據(jù)用于描述主題派生分組、主題派生指標(biāo)、主題轉(zhuǎn)換規(guī)則、流程定義等信息。運(yùn)行管理元數(shù)據(jù)用于描述流程執(zhí)行記錄等操作信息。3.數(shù)據(jù)加載數(shù)據(jù)加載主要指將采集與清洗轉(zhuǎn)換的數(shù)據(jù),準(zhǔn)確、及時地存儲到不同目標(biāo)庫中(如:RDBMS、MPP、Hadoop等)中,依據(jù)數(shù)據(jù)的加載方式包括文件加載、流加載、壓縮加載、不落地加載等。依據(jù)數(shù)據(jù)加載技術(shù)特點(diǎn),可分為全量數(shù)據(jù)加載、流式(實時)數(shù)據(jù)加載、文件落地雙加載、內(nèi)存不落地加載。對于不同的數(shù)據(jù)庫加載、不同的方式加載,在數(shù)據(jù)加載過程的工作原理基本相同,數(shù)據(jù)加載能力要求包含:1)默認(rèn)情況下提供基礎(chǔ)通用的加載控件,支持將數(shù)據(jù)源加載到不同的數(shù)據(jù)庫中,加載的數(shù)據(jù)支持接口、文件加載策略或流式策略。2)加載方式支持全量或?qū)崟r方式,全量加載方式則采用落地加載策略,并且需要結(jié)合運(yùn)用不同平臺的加載工具;實時加載與實時采集必須配套使用,二者之間共享內(nèi)存實現(xiàn)同步數(shù)據(jù)交換,通過引入插件機(jī)制來屏敝不同數(shù)據(jù)源差異性。3)支持加載時事物提交的參數(shù)配置,允許設(shè)定數(shù)據(jù)文件相關(guān)輸入路徑與加載文件匹配規(guī)則等信息,由數(shù)據(jù)裝載完成發(fā)現(xiàn)文件、文件獲取、加載數(shù)據(jù)、數(shù)據(jù)校驗等操作流程后完成數(shù)據(jù)入庫操作。4)在加載實現(xiàn)過程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳本,數(shù)據(jù)加載執(zhí)行組件將根據(jù)定義行為腳本類型調(diào)起相應(yīng)的腳本執(zhí)行來加載到數(shù)據(jù)。5)數(shù)據(jù)加載結(jié)束或失敗時,都需要記錄操作日志,為后續(xù)數(shù)據(jù)稽核與問題排查提供詳細(xì)信息。6)在加載觸發(fā)模式上支持自動加載與手工執(zhí)行的二大類型。支持?jǐn)?shù)據(jù)自動加載的設(shè)計與執(zhí)行,當(dāng)數(shù)據(jù)加載出錯時,應(yīng)提供操作界面以人工干預(yù)的方式來重新啟動數(shù)據(jù)的接收和加載。(1)全量數(shù)據(jù)加載全量加載是將數(shù)據(jù)一次性加載到接口機(jī)上,是準(zhǔn)實時加載,主要應(yīng)對數(shù)據(jù)加載數(shù)據(jù)源以較大文件形式對外提供數(shù)據(jù)時可采用此種采集模式,全量數(shù)據(jù)加載取具備多協(xié)議數(shù)據(jù)加載和并發(fā)加載控制兩種能力,多協(xié)議數(shù)據(jù)加載提供了文件和數(shù)據(jù)庫等多種目標(biāo)數(shù)據(jù)庫進(jìn)行加載,包括支持:高性能關(guān)系型數(shù)據(jù)倉庫、MPP分布式數(shù)據(jù)倉庫、HDFS等,接口協(xié)議可以根據(jù)需要隨時添加;并發(fā)加載控制是運(yùn)用大規(guī)模并行計算多個加載任務(wù)發(fā)布到集群中并行處理,可控制并發(fā)數(shù)和任務(wù)優(yōu)先級。(2)流式(實時)數(shù)據(jù)加載流式數(shù)據(jù)加載主要應(yīng)對海量數(shù)據(jù),采用流式計算方法進(jìn)行高性能的實時計算實時加載。(3)文件落地雙加載包括文件從接口機(jī)到ETL服務(wù)器不同的傳輸方式;管道、FTP傳輸、CFS傳輸?shù)葌鬏敺绞?;雙進(jìn)程異步方式讀取接口文件多節(jié)點(diǎn)/多分區(qū)加載到雙庫,兩個進(jìn)程互不影響。(4)內(nèi)存不落地加載不落地實時加載主要是采用分布式內(nèi)存數(shù)據(jù)計算,以多進(jìn)程管道方式并行讀取不同的接口文件,每個接口文件以KEY<VALUE>的方式分塊計算,計算完把各節(jié)點(diǎn)上聚合結(jié)果匯總到內(nèi)存池,調(diào)用LOADAPI加載到數(shù)據(jù)庫。(5)數(shù)據(jù)加載過程控制數(shù)據(jù)裝載過程中,針對數(shù)據(jù)加載中斷或者出錯,支持采用斷點(diǎn)續(xù)傳、一致性保障等方法進(jìn)行過程控制,避免重新啟動數(shù)據(jù)的接收和加載。數(shù)據(jù)裝載過程控制主要包括如下功能:1)斷點(diǎn)續(xù)傳:由于網(wǎng)絡(luò)中斷或者其他原因造成傳輸中斷,提供斷點(diǎn)續(xù)傳功能,在下次傳輸時能夠接著前面的傳輸進(jìn)度繼續(xù)進(jìn)行,節(jié)省時間,提高速度。2)一致性保障:支持兩階段提交,提供訪問的多種數(shù)據(jù)源發(fā)起兩階段提交任務(wù),兩階段提交可以保證在多個數(shù)據(jù)源上執(zhí)行的任務(wù)包含在一個事務(wù)中,當(dāng)一個數(shù)據(jù)源加載失敗時,其他數(shù)據(jù)源可做數(shù)據(jù)回滾,確保多個數(shù)據(jù)源的數(shù)據(jù)保持一致。4.數(shù)據(jù)校驗數(shù)據(jù)校驗包括數(shù)據(jù)采集、數(shù)據(jù)加載、數(shù)據(jù)分發(fā)等過程中數(shù)據(jù)校驗。在數(shù)據(jù)采集過程中通過對數(shù)據(jù)源與目標(biāo)數(shù)據(jù)庫之間的數(shù)據(jù)進(jìn)行對比分析,從而進(jìn)一步來分析、發(fā)現(xiàn)與解決在數(shù)據(jù)抽取過程可能產(chǎn)生的異常錯誤信息。數(shù)據(jù)校驗包含以下能力:數(shù)據(jù)校驗?zāi)芰π蛱柟δ芄δ苊枋?數(shù)據(jù)校驗記錄文件獲取與信息解析支持對數(shù)據(jù)抽取過程中記錄的文件進(jìn)行獲取,并對信息記錄進(jìn)行解析提取,為后續(xù)分析提供輸入數(shù)據(jù);2提供豐富的數(shù)據(jù)校驗手段支持?jǐn)?shù)據(jù)文件級校驗;支持?jǐn)?shù)據(jù)文件分隔符校驗;支持記錄級校驗;包括但不限于:格式校驗、類型校驗、取值范圍校驗、長度校驗、非空校驗、字段關(guān)系校驗、異常值校驗、按照用戶定義的邏輯規(guī)則校驗等。3提供靈活的數(shù)據(jù)校驗規(guī)則設(shè)置支持對數(shù)據(jù)校驗規(guī)則進(jìn)行靈活定義,可以自定義數(shù)據(jù)校驗規(guī)則結(jié)構(gòu);提供圖形化數(shù)據(jù)校驗規(guī)則設(shè)置功能,允許對校驗規(guī)則進(jìn)行維護(hù)、優(yōu)化等處理。4依托數(shù)據(jù)校驗提供全面的數(shù)據(jù)質(zhì)量監(jiān)控管理能夠根據(jù)設(shè)置的數(shù)據(jù)校驗與監(jiān)控規(guī)則或算法,對需要進(jìn)行校驗的數(shù)據(jù)進(jìn)行采集后執(zhí)行相應(yīng)校驗檢查,并依據(jù)稽核和檢查過程中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量異常情況進(jìn)行告警過程。數(shù)據(jù)校驗從校驗對象細(xì)粒度維度分析,支持文件級校驗與記錄級校驗二大類。數(shù)據(jù)校驗?zāi)K還內(nèi)置了部分的數(shù)據(jù)檢查功能,如數(shù)據(jù)唯一性檢查、外鍵完整性檢查。數(shù)據(jù)校驗內(nèi)容有類型,長度,是否為空,精度,范圍,格式等信息。如果數(shù)據(jù)不符合,會進(jìn)行過濾,只有正確的數(shù)據(jù)才能繼續(xù)使用。對于錯誤的數(shù)據(jù),可以進(jìn)行輸出,包括錯誤原因和錯誤字段序號等信息。相關(guān)的錯誤類型和數(shù)量等統(tǒng)計信息也會綁定到流程變量中,以便后續(xù)節(jié)點(diǎn)進(jìn)行判斷使用。5.異常處理在數(shù)據(jù)整合過程中會出現(xiàn)不同種類的異?,F(xiàn)象,如:數(shù)據(jù)節(jié)點(diǎn)異常、數(shù)據(jù)清洗轉(zhuǎn)換異常、數(shù)據(jù)加載異常等,系統(tǒng)通過異常處理機(jī)制來保障系統(tǒng)的穩(wěn)定性。(1)計算節(jié)點(diǎn)異常針對數(shù)據(jù)計算節(jié)點(diǎn)異常,如:作業(yè)過程采用分布式多節(jié)點(diǎn)并發(fā)作業(yè)來提升系統(tǒng)處理速度,在作業(yè)過程中某個節(jié)點(diǎn)失效會導(dǎo)致作業(yè)中斷或掛起現(xiàn)象,處理機(jī)制如下:1)Agent節(jié)點(diǎn)與Master節(jié)點(diǎn)通過Heartbeat進(jìn)行狀態(tài)通信,使Master第一時間掌握節(jié)點(diǎn)狀態(tài)。2)Agent節(jié)點(diǎn)所有Task皆由Master分發(fā),并周期性向Master匯報每個Task執(zhí)行狀態(tài)。3)當(dāng)Agent1節(jié)點(diǎn)出現(xiàn)異常,將由Master重新將Task分發(fā)到其它節(jié)點(diǎn)重新運(yùn)行。(2)數(shù)據(jù)清洗轉(zhuǎn)換異常針對數(shù)據(jù)清洗轉(zhuǎn)換:支持校驗點(diǎn),當(dāng)外部數(shù)據(jù)記錄特別龐大時,如果因為某種原因發(fā)生故障中斷后,可以從最近的校驗點(diǎn)開始恢復(fù)處理。(3)數(shù)據(jù)加載異常針對數(shù)據(jù)裝載過程中異常:支持異常自動重試、超時重試、將任務(wù)轉(zhuǎn)移到其它節(jié)點(diǎn)執(zhí)行、任務(wù)掛起等待人工介入等異常處理機(jī)制,執(zhí)行器數(shù)據(jù)轉(zhuǎn)載支持分布式數(shù)據(jù)轉(zhuǎn)載,在單一節(jié)點(diǎn)數(shù)據(jù)轉(zhuǎn)載異常情況下,可實現(xiàn)將轉(zhuǎn)載工作轉(zhuǎn)發(fā)到其它節(jié)點(diǎn)重新執(zhí)行。在任務(wù)內(nèi)數(shù)據(jù)裝載,采用雙向加載線程同時檢查、匯報機(jī)制,只有最終狀態(tài)一致,工作任務(wù)才宣告完成,否則將進(jìn)行重試等操作。6.數(shù)據(jù)標(biāo)準(zhǔn)化對清洗后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以解決系統(tǒng)之間數(shù)據(jù)差異問題,解決跨部門數(shù)據(jù)調(diào)用時數(shù)據(jù)一致問題。通過技術(shù)工具實現(xiàn)標(biāo)準(zhǔn)化數(shù)據(jù)處理,是對政府?dāng)?shù)據(jù)交換共享標(biāo)準(zhǔn)規(guī)范體系的有效執(zhí)行,也是溝通業(yè)務(wù)和IT一致理解、有機(jī)融合的關(guān)鍵。標(biāo)準(zhǔn)化處理過程包括標(biāo)準(zhǔn)的執(zhí)行、標(biāo)準(zhǔn)的控制、標(biāo)準(zhǔn)執(zhí)行和稽核,以及標(biāo)準(zhǔn)化問題的管理。四、數(shù)據(jù)質(zhì)量管理子系統(tǒng)1.數(shù)據(jù)質(zhì)量(1)質(zhì)量規(guī)則管理1)質(zhì)量規(guī)則配置依據(jù)質(zhì)量需求,靈活配置質(zhì)量規(guī)則。如開發(fā)質(zhì)量規(guī)則(如命名不規(guī)范、不必要的跨層數(shù)據(jù)訪問、不合理的大表關(guān)聯(lián)操作)、數(shù)據(jù)波動規(guī)則(接口/指標(biāo)數(shù)據(jù)同環(huán)比)。2)質(zhì)量規(guī)則自動優(yōu)化根據(jù)歷史運(yùn)行信息,自動給出調(diào)整監(jiān)控算法、閥值、優(yōu)先級建議,使得規(guī)則更合理。(2)質(zhì)量規(guī)則執(zhí)行依據(jù)質(zhì)量規(guī)則執(zhí)行的時機(jī)需求,配置執(zhí)行方式,依據(jù)執(zhí)行規(guī)則,管控平臺自動執(zhí)行質(zhì)量規(guī)則檢查。質(zhì)量規(guī)則執(zhí)行觸發(fā)方式支撐按固定時間周期(如月、周、日)、事件觸發(fā)等執(zhí)行方式。(3)數(shù)據(jù)質(zhì)量監(jiān)控依據(jù)質(zhì)量檢查規(guī)則對數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控,如接口波動率的監(jiān)控,如果發(fā)現(xiàn)異常現(xiàn)象可及時告知或預(yù)警相關(guān)人員可參考檢查方法列表數(shù)據(jù)質(zhì)量檢查方法檢查方法檢查描述適用場景數(shù)值檢查指標(biāo)數(shù)值與閾值上下限的比較,閾值可以手工錄入經(jīng)驗值或采用n個周期內(nèi)指標(biāo)的最大最小值作為閾值的上下限,需要考慮周末和節(jié)假日對指標(biāo)的影響等主要適用變化趨勢平穩(wěn)的業(yè)務(wù)關(guān)鍵指標(biāo)波動檢查波動檢查包括同比波動檢查和環(huán)比波動檢查,先計算指標(biāo)的同比或環(huán)比波動率,然后與預(yù)定的波動率上下限(閾值)進(jìn)行比較,閾值可以手工錄入經(jīng)驗值或采用n個周期內(nèi)指標(biāo)的最大最小值作為閾值的上下限,需要考慮周末和節(jié)假日對指標(biāo)的影響等如業(yè)務(wù)發(fā)展類指標(biāo)、用戶數(shù)類指標(biāo)等平衡性檢查通過對若干個指標(biāo)值的簡單四則運(yùn)算(加、減、乘、除),來檢驗各個指標(biāo)間潛在的平衡或其他比較關(guān)系需要進(jìn)行相關(guān)性檢查的指標(biāo),如日指標(biāo)匯總與月指標(biāo)的平衡檢查加權(quán)波動檢查通過對單個指標(biāo)的基礎(chǔ)檢查結(jié)果和影響因素的加權(quán)計算分析,綜合檢查指標(biāo)的波動和變化情況關(guān)聯(lián)性檢查定義相關(guān)性指標(biāo),和指標(biāo)相關(guān)系數(shù),如正強(qiáng)相關(guān),負(fù)相關(guān),定義兩個指標(biāo)當(dāng)前值是否滿足相關(guān)性的特點(diǎn)主要用于考察多個指標(biāo)之間的邏輯關(guān)系是否符合規(guī)律,如量收匹配的問題一致性檢查計算一個指標(biāo)在不同的采集計算點(diǎn)的值是否一致在倉庫底層的值,在應(yīng)用匯總表值,在前臺應(yīng)用1,應(yīng)用2中的值是否一致值域評判直接對某個值進(jìn)行評判或是否在允許的取值范圍內(nèi)容進(jìn)行評判(4)質(zhì)量問題管理統(tǒng)一收集數(shù)據(jù)質(zhì)量問題、形成數(shù)據(jù)質(zhì)量知識庫,提升數(shù)據(jù)質(zhì)量問題解決效率。(5)質(zhì)量評估報告依據(jù)質(zhì)量檢查評估規(guī)則對數(shù)據(jù)質(zhì)量進(jìn)行評估,形成數(shù)據(jù)質(zhì)量評估報告,定期對評估報告進(jìn)行分析得出優(yōu)化建議,并付諸優(yōu)化動作,持續(xù)改進(jìn)數(shù)據(jù)質(zhì)量。2.數(shù)據(jù)評估(1)數(shù)據(jù)使用評估對數(shù)據(jù)及應(yīng)用使用情況進(jìn)行評估,并據(jù)此數(shù)據(jù)存儲、處理、應(yīng)用進(jìn)行優(yōu)化。以下為數(shù)據(jù)評估示例:數(shù)據(jù)評估方法科目分?jǐn)偡椒〝?shù)據(jù)評估前臺應(yīng)用使用次數(shù)應(yīng)用的點(diǎn)擊次數(shù)平均分?jǐn)偨o應(yīng)用鏈路上的所有表分發(fā)給外部系統(tǒng)接口數(shù)據(jù)(分發(fā)給外部表,平均分?jǐn)偨o分發(fā)接口表鏈路上的所有表)*加權(quán)系數(shù)采集外部系統(tǒng)數(shù)據(jù)(采集外部表,平均分?jǐn)偨o采集接口表鏈路上的所有表)*加權(quán)系數(shù)外部應(yīng)用調(diào)用次數(shù)(外部應(yīng)用調(diào)用表次數(shù)平均分?jǐn)偨o應(yīng)用表鏈路上的所有表)*加權(quán)系數(shù)(2)數(shù)據(jù)關(guān)系評估數(shù)據(jù)關(guān)系的類別可以分為以下幾種:1)主外鍵關(guān)系。2)參考關(guān)系。主要描述實體表與維度表的關(guān)系。3)輸入與輸出。4)歷史拍照。5)冗余備份。從目的可以劃分為:分工提速、轉(zhuǎn)儲優(yōu)化、應(yīng)用分流、數(shù)據(jù)統(tǒng)計臨時備份。數(shù)據(jù)交換共享平臺通過建立處理程序解析、元數(shù)據(jù)解析、及上線登記等方式實現(xiàn)數(shù)據(jù)關(guān)系評估。(3)時效性評估通過對數(shù)據(jù)關(guān)系的分析,發(fā)現(xiàn)孤立表或無效表。根據(jù)表名判斷此表大約含義,建表日期、狀態(tài)日期,表內(nèi)數(shù)據(jù)時間等判斷此表最后更新時間。通過數(shù)據(jù)的使用日志,對孤立表和無效表進(jìn)行判斷是否有使用。(4)冗余數(shù)據(jù)評估數(shù)據(jù)交換共享平臺將來納入大量數(shù)據(jù),可能存在著大量冗余的數(shù)據(jù)。冗余數(shù)據(jù)一方面給數(shù)據(jù)的精確性和可靠性將帶來影響,同時也影響著數(shù)據(jù)庫的性能。系統(tǒng)必須要解決冗余問題,主要有兩個環(huán)節(jié):發(fā)現(xiàn)冗余數(shù)據(jù)和冗余進(jìn)行消除合并。圖5-45冗余數(shù)據(jù)評估(5)重要性評估在數(shù)據(jù)使用過程中和數(shù)據(jù)應(yīng)用中對表和數(shù)據(jù)的重要性進(jìn)行評估,通過訪問頻次,數(shù)據(jù)質(zhì)量,數(shù)據(jù)熱度,數(shù)據(jù)標(biāo)準(zhǔn)化等指標(biāo),進(jìn)行全面評估,并輸出表重要性級別。3.稽核管理根據(jù)預(yù)先配置的規(guī)則、算法和質(zhì)量檢查度量,對數(shù)據(jù)的準(zhǔn)確性、合理性等多角度的檢查,以及時發(fā)現(xiàn)問題,解決問題。對于稽核結(jié)果,進(jìn)行統(tǒng)計分析,形成結(jié)果報告,為以后的數(shù)據(jù)倉庫建設(shè)、實施和維護(hù)的改進(jìn)打下堅實的基礎(chǔ)。(1)稽核規(guī)則管理接口數(shù)據(jù)檢驗:對接口數(shù)據(jù)的過程進(jìn)行稽核和校驗,分為文件接口,DB-LINK接口,其他異構(gòu)數(shù)據(jù)庫接口。處理過程檢驗:對數(shù)據(jù)處理過程進(jìn)行監(jiān)控和稽核,分為JOB稽核,工作流稽核,其他處理方式稽核等。處理環(huán)境檢驗:對數(shù)據(jù)處理環(huán)境進(jìn)行檢查,針對不同的應(yīng)用環(huán)境,主要分為數(shù)據(jù)庫系統(tǒng)檢查、主機(jī)系統(tǒng)檢查、接口機(jī)檢查、應(yīng)用服務(wù)器檢查。日志監(jiān)控:在平臺運(yùn)行的過程中可能出現(xiàn)各種各樣的錯誤,通過檢測運(yùn)行過程的日志可以判斷出過程輸出的目標(biāo)表數(shù)據(jù)是否完整。提供選擇日志監(jiān)控的各種信息供選擇,如:過程名、所屬模塊、執(zhí)行時間、完成時間、執(zhí)行時長、執(zhí)行用戶、執(zhí)行結(jié)果、預(yù)警等。維度檢驗:如:所屬模塊、日期、表名、維度名稱、緯度格式、緯度說明、緯度關(guān)聯(lián)編碼表、各緯度記錄分布情況、是否有空值、空值記錄數(shù)、空值率、預(yù)警區(qū)間等指標(biāo)。指標(biāo)值檢驗:包括數(shù)據(jù)量校驗、單指標(biāo)校驗、交叉校驗等。(2)稽核任務(wù)調(diào)度在設(shè)定數(shù)據(jù)稽核的模板后,可以對稽核任務(wù)實行自動化處理,也可以通過定制方式來完成,可以定時調(diào)用或觸發(fā)。由不同類型數(shù)據(jù)檢驗確定。(3)稽核結(jié)果分析對于稽核的結(jié)果,進(jìn)行統(tǒng)計分析,回答經(jīng)典的“4W”問題:該報表是否異常、該報表在哪里發(fā)生、該報表什么時候發(fā)生異常和為什么該報表會發(fā)生異常。(4)數(shù)據(jù)問題管理對系統(tǒng)使用者或數(shù)據(jù)倉庫開發(fā)者遇到的問題及解決方案,進(jìn)行收集和整理,形成知識庫,便于用戶咨詢,同時也提高開發(fā)團(tuán)隊的效率,避免很多重復(fù)工作。五、統(tǒng)一調(diào)度子系統(tǒng)統(tǒng)一調(diào)度指完成多源數(shù)據(jù)融合平臺所有數(shù)據(jù)處理工作的統(tǒng)一執(zhí)行調(diào)度,包括采集任務(wù)調(diào)度、資源調(diào)度、優(yōu)先級設(shè)定等,統(tǒng)一調(diào)度能力包括統(tǒng)一調(diào)度配置、統(tǒng)一調(diào)度運(yùn)行、資源控制、調(diào)度策略、調(diào)度監(jiān)控等功能。利用統(tǒng)一調(diào)度可視化界面創(chuàng)建任務(wù),支持基于內(nèi)部調(diào)度任務(wù),也支持基于外部接口的任務(wù),在此基礎(chǔ)上可將任務(wù)進(jìn)行細(xì)分成多個任務(wù),形成調(diào)度任務(wù)線程池。如下圖所示:圖5-46任務(wù)調(diào)度步驟任務(wù)管理相關(guān)功能依據(jù)所配置的任務(wù)驅(qū)動條件啟動調(diào)度任務(wù),對調(diào)度流程的新增、修改、刪除,調(diào)度任務(wù)分配執(zhí)行,并向執(zhí)行代理客戶端發(fā)送任務(wù),代理執(zhí)行完成后返回任務(wù)執(zhí)行結(jié)果和日志。1.統(tǒng)一調(diào)度功能(1)跨平臺統(tǒng)一調(diào)度:能夠跨平臺的統(tǒng)一任務(wù)作業(yè)調(diào)度能力。(2)統(tǒng)一調(diào)度配置:通過對圖形化組件進(jìn)行拖拽、流程連接等頁面操作,完成調(diào)度配置。(3)智能調(diào)度運(yùn)行:傳統(tǒng)的調(diào)度平臺需要人工去配置作業(yè)流程、運(yùn)行時間窗口。調(diào)度系統(tǒng)能夠?qū)Y源情況智能調(diào)度運(yùn)行。(4)資源控制:可以將各種運(yùn)行操作資源、權(quán)限合理的分配給作業(yè),使核心權(quán)限得到有效保護(hù),資源得到合理利用。(5)優(yōu)先級管理評估:根據(jù)靜態(tài)優(yōu)先級評估計算、動態(tài)優(yōu)先級評估計算,實現(xiàn)調(diào)度系統(tǒng)根據(jù)優(yōu)先級執(zhí)行任務(wù)。(6)調(diào)度策略管控:前臺頁面提供簡單任務(wù)邏輯的組合處理及配置,支持多個平臺獨(dú)立調(diào)度,及多個平臺間依賴調(diào)度,對各種各樣的調(diào)度情況提供統(tǒng)一的策略管控。(7)調(diào)度全面監(jiān)控:能夠監(jiān)控多種作業(yè)的執(zhí)行情況,并分析作業(yè)執(zhí)行效率,發(fā)現(xiàn)作業(yè)執(zhí)行的關(guān)鍵環(huán)節(jié)。(8)集中的作業(yè)告警與錯誤反饋:統(tǒng)一的作業(yè)告警,支持多種告警方式,并集中作業(yè)運(yùn)行錯誤反饋,將問題日志抓取在平臺統(tǒng)一查看。2.調(diào)度配置在統(tǒng)一調(diào)度平臺中以數(shù)據(jù)流作為驅(qū)動,通過控制中心統(tǒng)一進(jìn)行調(diào)度配置、進(jìn)行作業(yè)命令下發(fā)、狀態(tài)收集進(jìn)行控制,達(dá)到Agent調(diào)度。圖5-47agent調(diào)度以一個業(yè)務(wù)量生產(chǎn)過程為例。統(tǒng)一調(diào)度平臺圍繞作業(yè)(Job)與任務(wù)(Task)為核心展開整個調(diào)度執(zhí)行流程。通過Server服務(wù)器,將一個作業(yè)分布到Agent集群上,再由Agent根據(jù)資源控制、調(diào)度策略等,分發(fā)到一個或多個節(jié)點(diǎn)(node)上。Server服務(wù)器根據(jù)Job描述文件將不同任務(wù)分發(fā)至多個節(jié)點(diǎn)(node)執(zhí)行,任務(wù)執(zhí)行嚴(yán)格按照依賴關(guān)系執(zhí)行并實時返回狀態(tài)。同時,Server服務(wù)器實時采集Agent節(jié)點(diǎn)的系統(tǒng)資源與任務(wù)執(zhí)行狀態(tài)數(shù)據(jù),并形成任務(wù)執(zhí)行預(yù)警信息及時告警給運(yùn)維人員。3.調(diào)度運(yùn)行支持基于shell腳本的調(diào)度,簡化調(diào)度過程并判斷任務(wù)成功與否;支持基于存儲過程的調(diào)度,如:支持調(diào)用Oracle、DB2等傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)中的存儲過程,并且需要支持調(diào)用GreenPlum,Vertica等MPP數(shù)據(jù)庫系統(tǒng)中的腳本;支持外部程序的調(diào)度,如:開發(fā)IDE觸發(fā)ETL調(diào)度流程實現(xiàn)調(diào)度的運(yùn)行。(1)數(shù)據(jù)存儲模塊通過不同方式進(jìn)行數(shù)據(jù)的入庫,實現(xiàn)自動入庫和手動入庫,在數(shù)據(jù)入庫的過程中,需要對采集的數(shù)據(jù)進(jìn)行校驗,同時還需要實現(xiàn)數(shù)據(jù)的出庫功能。(2)數(shù)據(jù)管理模塊構(gòu)建基于云的分布式數(shù)據(jù)庫系統(tǒng),實現(xiàn)對采集存儲的各類數(shù)據(jù)進(jìn)行增加、刪除、修改和查詢功能;建立數(shù)據(jù)庫索引,提高數(shù)據(jù)庫信息檢索效率。(3)數(shù)據(jù)維護(hù)歸檔模塊圍繞儲存在數(shù)據(jù)綜合管理系統(tǒng)中的數(shù)據(jù),通過質(zhì)量檢測、標(biāo)準(zhǔn)化處理、歸檔、遷移等方法,實現(xiàn)對各類數(shù)據(jù)的編目存檔,并對歸檔的數(shù)據(jù)進(jìn)行質(zhì)量檢測及管理。對存儲的數(shù)據(jù)實現(xiàn)數(shù)據(jù)的備份和恢復(fù),達(dá)到對數(shù)據(jù)進(jìn)行更新和維護(hù)的功能。(4)數(shù)據(jù)安全模塊對應(yīng)用軟件和數(shù)據(jù)庫操作情況等內(nèi)容進(jìn)行監(jiān)視和控制,對操作行為信息進(jìn)行授權(quán)權(quán)限方面的審計跟蹤。(5)數(shù)據(jù)檢索模塊通過模糊檢索、分類檢索、高級復(fù)合檢索等多種檢索途徑,實現(xiàn)檢索服務(wù),它接受用戶的查詢請求,并根據(jù)高效的優(yōu)化算法從數(shù)據(jù)庫中提取出符合條件的記錄并顯示。4.調(diào)度策略依據(jù)業(yè)務(wù)要求,調(diào)度策略可分為:時間調(diào)度、手工調(diào)度、消息/API接口調(diào)度、優(yōu)先級調(diào)度等。時間調(diào)度:源系統(tǒng)每天都在不斷產(chǎn)生新的數(shù)據(jù),系統(tǒng)需要將數(shù)據(jù)及時同步的目標(biāo)系統(tǒng)中。系統(tǒng)需要支持周期性自動進(jìn)行數(shù)據(jù)處理,以減少維護(hù)工程師的工作量。支持以年、月、日、小時、分鐘為單位進(jìn)行周期性調(diào)度。手工調(diào)度:對于某些一次性的數(shù)據(jù)處理任務(wù),系統(tǒng)支持手工調(diào)度功能,用戶可以隨時啟動這些數(shù)據(jù)處理任務(wù)。消息/API接口調(diào)度:對于其他系統(tǒng)需要調(diào)用企業(yè)級ETL的流程進(jìn)行數(shù)據(jù)處理的情況,可以由第三方系統(tǒng)發(fā)送消息或者調(diào)用API,由統(tǒng)一調(diào)度進(jìn)行處理流程的調(diào)度。優(yōu)先級調(diào)度:為避免服務(wù)器負(fù)荷過載,甚至導(dǎo)致系統(tǒng)崩潰,一方面系統(tǒng)需要提供最大任務(wù)并發(fā)數(shù)限制,另一方面要防止任務(wù)擁塞的問題。通過提供流程優(yōu)先級控制功能,當(dāng)資源消耗達(dá)到系統(tǒng)上限時,系統(tǒng)需要優(yōu)先保障優(yōu)先級較高的任務(wù)執(zhí)行,讓優(yōu)先級較低的任務(wù)處于等待狀態(tài),直到其它任務(wù)釋放出足夠的資源。5.調(diào)度監(jiān)控(1)總體任務(wù)監(jiān)控:系統(tǒng)支持對所有任務(wù)按照系統(tǒng)、按日期對任務(wù)總體運(yùn)行情況進(jìn)行匯總展現(xiàn),使得總體任務(wù)執(zhí)行情況一目了然。(2)作業(yè)組監(jiān)控:系統(tǒng)支持對作業(yè)任務(wù)的分組,展現(xiàn)不同組作業(yè)的執(zhí)行情況,方便系統(tǒng)使用用戶、使用角色快速實現(xiàn)對所關(guān)心的作業(yè)的監(jiān)控與處理。任務(wù)組監(jiān)控內(nèi)容包括作業(yè)總數(shù)、掛起作業(yè)數(shù)、運(yùn)行作業(yè)數(shù)、延時作業(yè)數(shù)、停止作業(yè)數(shù)、暫停作業(yè)等指標(biāo)??赏ㄟ^可視化界面查看具體作業(yè)的作業(yè)執(zhí)行狀態(tài)、執(zhí)行進(jìn)度、執(zhí)行節(jié)點(diǎn)數(shù)、成功任務(wù)數(shù)、正在執(zhí)行數(shù)、失敗任務(wù)數(shù)、延時任務(wù)數(shù)、未執(zhí)行任務(wù)數(shù)等。(3)使用用戶可通過選擇具體作業(yè)或者批量作業(yè),完成對相關(guān)作業(yè)的啟動、停止、手工運(yùn)行等操作。(4)作業(yè)運(yùn)行監(jiān)控任務(wù)狀態(tài)監(jiān)控指前臺通過表格形式實時展現(xiàn)任務(wù)的運(yùn)行狀態(tài),通過前端頁面監(jiān)控各個任務(wù)的實時運(yùn)行狀態(tài)及運(yùn)行日志。(5)集群監(jiān)控系統(tǒng)可通過調(diào)度中心的自定義集群監(jiān)控功能實現(xiàn)對主、從服務(wù)器的監(jiān)控,如服務(wù)器的內(nèi)存使用率、I/O吞吐量、CPU使用率、物理機(jī)器資源占用等信息。六、數(shù)據(jù)共享交換子系統(tǒng)數(shù)據(jù)交換依據(jù)數(shù)據(jù)提供單位、數(shù)據(jù)使用單位的特點(diǎn),數(shù)據(jù)交換主要提供三種服務(wù)能力,即:(1)對接入的各IT系統(tǒng)提供公共基礎(chǔ)數(shù)據(jù),為IT系統(tǒng)提供通用信息資源以及數(shù)據(jù)的導(dǎo)入;(2)對大數(shù)據(jù)主題應(yīng)用提供元數(shù)據(jù)信息及主題數(shù)據(jù)信息;(3)對前端門戶界面展示提供數(shù)據(jù)傳輸服務(wù)。總體如下圖所示數(shù)據(jù)共享交換平臺數(shù)據(jù)交換示意圖1)數(shù)據(jù)交換請求管理用戶通過門戶發(fā)起數(shù)據(jù)交換請求,該請求總體分為兩大類:第一類指數(shù)據(jù)傳輸采集交換,即由接入單位的IT系統(tǒng)、大數(shù)據(jù)主題應(yīng)用發(fā)起數(shù)據(jù)采集請求;該請求通過審核審批后,直接傳輸?shù)綌?shù)據(jù)采集抽取系統(tǒng);第二類指數(shù)據(jù)界面展現(xiàn)請求,即用戶通過門戶查詢基礎(chǔ)數(shù)據(jù)、主題數(shù)據(jù)及目錄數(shù)據(jù)等,通過API形式(含jdbc等)將數(shù)據(jù)傳輸?shù)介T戶界面進(jìn)行展示,該請求無須審核,根據(jù)用戶的權(quán)限進(jìn)行數(shù)據(jù)展示。系統(tǒng)提供數(shù)據(jù)交換請求的管理與審批。2)ETL數(shù)據(jù)抽取與加載服務(wù)ETL采集與抽取工具,接收到數(shù)據(jù)采集指令后,執(zhí)行數(shù)據(jù)采集任務(wù),對基礎(chǔ)數(shù)據(jù)、主題數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集,支持離線批量采集與實時采集;采集完成的數(shù)據(jù)通過ETL工具壓縮進(jìn)行傳輸。采集的數(shù)據(jù)由ETL傳輸?shù)綌?shù)據(jù)交換共享平臺的前置服務(wù)設(shè)備進(jìn)行存儲,待接入單位或主題應(yīng)用單位進(jìn)行采集。3)消息通知服務(wù)用戶請求交換的數(shù)據(jù)完成采集后,系統(tǒng)通知相關(guān)用戶,告知用戶數(shù)據(jù)已完成采集,由用戶自行到數(shù)據(jù)交換共享平臺的前置服務(wù)設(shè)備進(jìn)行下載。4)API數(shù)據(jù)交換服務(wù)用戶通過門戶檢索、查詢目錄系統(tǒng)等相關(guān)數(shù)據(jù)時,由系統(tǒng)自動調(diào)用API服務(wù),根據(jù)數(shù)據(jù)量、計算規(guī)模的大小,實時或非實時地將數(shù)據(jù)推送給門戶界面。數(shù)據(jù)共享(1)共享服務(wù)提供圖5-49共享服務(wù)數(shù)據(jù)共享基于數(shù)據(jù)虛擬化過程實現(xiàn)。數(shù)據(jù)虛擬化管理包括數(shù)據(jù)發(fā)現(xiàn)和注冊,數(shù)據(jù)目錄,共享管理及租戶管理。(2)數(shù)據(jù)注冊平臺在復(fù)雜數(shù)據(jù)環(huán)境中定位多個數(shù)據(jù)孤島中的相關(guān)實體,自動完成數(shù)據(jù)匹配工作,發(fā)現(xiàn)可用數(shù)據(jù),建立隱藏關(guān)系,并注冊在數(shù)據(jù)虛擬化平臺,形成邏輯上的數(shù)據(jù)倉庫。(3)數(shù)據(jù)目錄針對平臺發(fā)布的可共享數(shù)據(jù)接口,將數(shù)據(jù)接口最終封裝成一個一個的服務(wù)包對外發(fā)布,并進(jìn)行分類整理。以數(shù)據(jù)目錄形式,提供在線服務(wù)查詢索引、服務(wù)展示及數(shù)據(jù)調(diào)用功能。(4)共享服務(wù)1)查詢服務(wù)對上層業(yè)務(wù)提供靈活的數(shù)據(jù)查詢,屏蔽下層不同存儲處理方式的查詢。通過統(tǒng)一的接口讓使用者和物理數(shù)據(jù)源隔離了開來。使不同的數(shù)據(jù)結(jié)構(gòu)或異構(gòu)的數(shù)據(jù)存儲,都不會對使用者產(chǎn)生不利影響。半/非結(jié)構(gòu)化數(shù)據(jù)查詢:使用OpenApi的形式,通過HTTP協(xié)議來查詢小批量數(shù)據(jù),系統(tǒng)提供高穩(wěn)定性與低延遲的性能保證。適用與指標(biāo)庫、標(biāo)簽庫等類應(yīng)用的數(shù)據(jù)訪問。結(jié)構(gòu)化數(shù)據(jù)查詢:使用各種復(fù)雜的SQL中聚合分組語法來獲取數(shù)據(jù),導(dǎo)出XML、JSON等格式數(shù)據(jù),適用于稍大數(shù)據(jù)量的即時分析類查詢需求。以下為數(shù)據(jù)查詢的典型業(yè)務(wù)場景示例:指標(biāo)類API使用同步HTTP協(xié)議來查詢單個指標(biāo)數(shù)據(jù),該類接口要求系統(tǒng)提供高穩(wěn)定性及低延遲的性能保證。實體數(shù)據(jù)由云平臺完成運(yùn)算后分發(fā)到關(guān)系數(shù)據(jù)庫中。查詢返回的數(shù)據(jù)為對象數(shù)據(jù)結(jié)構(gòu)。2)資料服務(wù)對上層應(yīng)用提供幫助文檔信息,主要包含數(shù)據(jù)模型:把元數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)表、模型定義信息通過接口開放給業(yè)務(wù)使用者,可以查詢出來表定義相關(guān)的數(shù)據(jù)處理流程指標(biāo)口徑:開放指標(biāo)的口徑信息,清晰的表達(dá)出來指標(biāo)代表的含義API文檔:API列表,可以在線查詢API的參數(shù),幫助信息,并提供在線測試用戶界面。3)文件接口服務(wù)支持在內(nèi)外部系統(tǒng)的不同存儲間(如Hadoop、DB2等),進(jìn)行數(shù)據(jù)的交換、同步、分發(fā)。交換可以通過接口文件、JDBC等多種方式。針對大批量數(shù)據(jù)的交互,應(yīng)通過調(diào)用底層事件服務(wù)與分發(fā)服務(wù),提交一個異步分發(fā)請求,如輸入分發(fā)腳本、分發(fā)目錄包裝成消息,提交到事件服務(wù),數(shù)據(jù)導(dǎo)出完成后分發(fā)到相應(yīng)的主機(jī)目錄。4)數(shù)據(jù)權(quán)限管理主要面向平臺使用者和數(shù)據(jù)資源管理人員,提供信息資源查詢和展現(xiàn)能力,以及相應(yīng)的信息資源權(quán)限管控。平臺使用者快速目錄檢索:通過數(shù)據(jù)資源目錄,由平臺實現(xiàn)數(shù)據(jù)快速檢索功能;權(quán)限快速申請:提供權(quán)限申請調(diào)用接口,用戶在圖列表中點(diǎn)擊申請權(quán)限,完成申請信息提交,由管理員進(jìn)行審批。權(quán)限管控對內(nèi)數(shù)據(jù)權(quán)限管控,驗證內(nèi)部用戶是否有能夠訪問當(dāng)前數(shù)據(jù)的權(quán)限。在具備權(quán)限條件下,才允許調(diào)用共享服務(wù)。提供待審批列表數(shù)據(jù)資源管理員通過待審批列表快速瀏覽到待審批的權(quán)限申請,包括申請時間、申請人帳號、表資產(chǎn)名稱、所屬庫、所屬表空間、權(quán)限狀態(tài)(待審批/已審批)、用途說明等,并能夠支持根據(jù)關(guān)鍵選項快速檢索;提供已審批列表查看已審批的數(shù)據(jù)權(quán)限列表;提供權(quán)限審批支持打開申請記錄,審批申請人的數(shù)據(jù)權(quán)限,完成授權(quán);提供歷史審批查詢根據(jù)時間范圍、表資產(chǎn)、所屬庫等關(guān)鍵條件查詢歷史權(quán)限審批列表。(5)租戶管理共享服務(wù)調(diào)用通過多租戶形式進(jìn)行管理。多租戶是將數(shù)據(jù)查詢、數(shù)據(jù)處理和數(shù)據(jù)調(diào)用能力按需、可控的進(jìn)行開放,在保障數(shù)據(jù)安全性、數(shù)據(jù)可控性的前提下,通過租戶的方式實現(xiàn)用戶及用戶組管理,以達(dá)到資源管控及數(shù)據(jù)權(quán)限控制的目的。多租戶注冊,由管理員創(chuàng)建并維護(hù),每個租戶都被分配一定的計算資源和存儲資源,可以根據(jù)應(yīng)用情況動態(tài)的調(diào)整。使用開發(fā)平臺的賬號,用戶
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 誠信主題演講稿
- (2篇)四年級家長會發(fā)言稿范例
- 小學(xué)四年級數(shù)學(xué)除數(shù)是兩位數(shù)的除法能力檢測題
- 謝師宴致辭精
- 20以內(nèi)三個數(shù)加減混合運(yùn)算水平測試練習(xí)題帶答案
- 青春與夢想講話稿15篇
- 銀行業(yè)務(wù)與經(jīng)營管理
- 跟骨骨折治療
- 編制說明(征求意見稿)游樂數(shù)字化管理系統(tǒng)技術(shù)規(guī)范
- 車間工會管理
- 2025年貴州貴安新區(qū)產(chǎn)業(yè)發(fā)展控股集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 煤礦崗位標(biāo)準(zhǔn)化作業(yè)流程
- 室內(nèi)電氣施工設(shè)計說明
- 各種中西藥特效外敷方藥
- FG-150螺旋洗砂機(jī)結(jié)構(gòu)設(shè)計和實現(xiàn)機(jī)械自動化專業(yè)
- 獨(dú)立基礎(chǔ)施工方案(劉佳)
- 年產(chǎn)1.1萬噸順丁橡膠聚合車間工藝設(shè)計畢業(yè)設(shè)計1
- [寶典]版海拉爾區(qū)小學(xué)、中學(xué)、幼兒園學(xué)區(qū)散布圖
- 固定資產(chǎn)報廢技術(shù)鑒定書
- (完整版)鐵路消防管理辦法
評論
0/150
提交評論