版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、小研非現(xiàn)場審計系統(tǒng)業(yè)務的ETL1引言在商業(yè)銀行中,用戶對數(shù)據(jù)實時性的要求很高。在商業(yè)銀行的一些系統(tǒng)中,如非現(xiàn)場審計系統(tǒng),用戶需要在很短的時間內(nèi)對交易數(shù)據(jù)進展分析、統(tǒng)計,并把可疑數(shù)據(jù)上報,以盡量減少損失。這就要求系統(tǒng)所需數(shù)據(jù)必須在短時間內(nèi)到達,但是這些系統(tǒng)的數(shù)據(jù)源非常繁多。審計系統(tǒng)中,審計人員需要的信息很全面,既包括個貸業(yè)務、信貸業(yè)務、私金業(yè)務,還要包括國際業(yè)務、資金業(yè)務和中間業(yè)務等,這些業(yè)務都有各自的系統(tǒng),其中有一部分數(shù)據(jù)還取自于核心系統(tǒng)。而且數(shù)據(jù)存儲在異構的環(huán)境中,比方它們使用不同的數(shù)據(jù)庫,不同的操作系統(tǒng)環(huán)境等等,如何在眾多系統(tǒng)中快速的提取數(shù)據(jù)和快速的形成一個系統(tǒng)所需的數(shù)據(jù)集市,這對我們是一
2、個挑戰(zhàn)。針對上述問題,本文提出了一個ETL模型。與其他商業(yè)銀行常用的模型相比,本模型基于業(yè)務設計和實現(xiàn),具有高效的錯誤恢復機制,可以利用根底任務和業(yè)務任務的劃分,根據(jù)任務號單獨執(zhí)行出錯的任務,而不用將整個ETL過程重新執(zhí)行一遍,大大縮短了恢復錯誤的時間,從而可以更好地滿足客戶對于時間上的要求;與傳統(tǒng)成熟的商業(yè)ETL工具相比,基于業(yè)務的模型設計與實現(xiàn),可以根據(jù)每天的審計目的去創(chuàng)立ETL任務,減少了工作量。同時,此模型部分實現(xiàn)直接采用代碼,針對性更強,靈敏性更好,可以處理商業(yè)銀行復雜系統(tǒng)中清洗和轉換任務,最重要的是可以減少商業(yè)工具一些不必要的執(zhí)行步驟,縮短了時間。中國碩士論文網(wǎng)提供大量免費mba碩
3、士論文,如有業(yè)務需求請咨詢網(wǎng)站客服人員!2審計系統(tǒng)的ETL目的ETL 過程的最終目的是在合理的時間內(nèi)實現(xiàn)了高質量的審計系統(tǒng)數(shù)據(jù)集市,以供客戶審計業(yè)務數(shù)據(jù)。圍繞此目的,本文必須合理、靈敏、高效的設計ETL 過程,才能滿足用戶的需求。在此過程中,存在以下幾個問題:1.靈敏的ETL 控制過程。因為本審計系統(tǒng)涉及的數(shù)據(jù)源比較多,包括信貸系統(tǒng)、票據(jù)系統(tǒng)、核心系統(tǒng)等,根據(jù)客戶要求,有的業(yè)務數(shù)據(jù)可能需要每天更新,而有的業(yè)務數(shù)據(jù)可能需要每兩天更新一次。對于這種數(shù)據(jù)更新頻率不統(tǒng)一的要求,本論文需要設計靈敏的ETL過程,可以實現(xiàn)針對單數(shù)據(jù)源的操作。2.統(tǒng)一平安的抽取平臺。由于數(shù)據(jù)源的繁多,而且數(shù)據(jù)存儲在異構的環(huán)境
4、中,比方它們使用不同的數(shù)據(jù)庫,不同的操作系統(tǒng)環(huán)境等。這就要求本文要實現(xiàn)一個統(tǒng)一的抽取平臺,以應對不同的數(shù)據(jù)承載平臺、數(shù)據(jù)源和數(shù)據(jù)格式,同時要求在抽取構成中不能破壞源數(shù)據(jù)。3.快速的處理過程。由于用戶要求數(shù)據(jù)的準實時性,要求在盡量短的時間內(nèi)比方兩個小時便可以審計業(yè)務,所以本文還要解決如何快速在眾多數(shù)據(jù)源中提取數(shù)據(jù)和快速的形成一個系統(tǒng)所需的數(shù)據(jù)集市,這對本文是一個宏大的挑戰(zhàn)。4.自動化的處理流程,可定制的效勞。由于商業(yè)銀行的特殊性,要求數(shù)據(jù)抽取必須在午夜進展,所以本系統(tǒng)必須實現(xiàn)自動化的處理流程,盡量減少人工干預,降低效勞本錢。此外,還要實現(xiàn)客戶定制任務,包括時間和頻率等。5.高質量的數(shù)據(jù)集市。同樣
5、由于商業(yè)銀行業(yè)務的特殊性,審計系統(tǒng)的數(shù)據(jù)一定要高質量,只有高質量的數(shù)據(jù)作為保證,整個數(shù)據(jù)集市工程所提供的數(shù)據(jù)才能表達出高價值,這就要求本系統(tǒng)在ETL 過程中一定要建立合理的質量保證和錯誤恢復機制。3ETL 模型構造設計主要分為四個部分:控制臺、ODS、ETL過程和審計系統(tǒng)數(shù)據(jù)集市。首先開發(fā)人員必須利用控制臺初始化任務,建立源數(shù)據(jù)和目的數(shù)據(jù)集市中的映射關系。根據(jù)數(shù)據(jù)源的不同,建立不同的任務類型,以供用戶選擇。然后用戶就可以利用控制臺管理任務了,包括初始化任務、任務調(diào)度、異常處理和記錄日志等。客戶啟動任務后,ETL過程會根據(jù)本次任務需要的數(shù)據(jù)信息從相應的數(shù)據(jù)源中抽取數(shù)據(jù)到ODS中。為什么要先將數(shù)據(jù)
6、抽取到ODS中,而不直接進展清洗,裝載到目的數(shù)據(jù)集市中呢?ODS是目的數(shù)據(jù)集市與外部源數(shù)據(jù)的接口,并且ODS在ETL中有著緩沖和保護的作用,在業(yè)務系統(tǒng)和數(shù)據(jù)集市之間形成一個隔離層,防止外部源數(shù)據(jù)直接向目的數(shù)據(jù)集市寫數(shù)據(jù)。將數(shù)據(jù)抽取到ODS中,開發(fā)人員就可以對ODS中的數(shù)據(jù)進展屢次清洗和轉換,即是在清洗和轉化過程中發(fā)生錯誤,開發(fā)人員也不需要直接從數(shù)據(jù)源再次抽取,而只要使用ODS中的數(shù)據(jù)即可,為審計系統(tǒng)提供一定的容錯才能。清洗和轉換完畢后,將數(shù)據(jù)裝載到審計系統(tǒng)數(shù)據(jù)集市中。4. ETL 的功能設計4.1 控制臺控制臺中又包括了任務管理、元數(shù)據(jù)管理、異常處理和系統(tǒng)日志。任務管理實現(xiàn)了任務的初始化、任務
7、調(diào)度、任務執(zhí)行等功能。元數(shù)據(jù)管理那么為開發(fā)人員提供了源數(shù)據(jù)ODS 中和數(shù)據(jù)集市映射關系的管理。4.1.1 元數(shù)據(jù)管理目前,元數(shù)據(jù)存在多種不同的描繪,Luo Agostas 說元數(shù)據(jù)是一種比喻,因為它抽象了看起來完全不同的事物。在數(shù)據(jù)倉庫領域元數(shù)據(jù)被定義為:描繪數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。在本文里,筆者采用常用的一種描繪,將本系統(tǒng)的元數(shù)據(jù)分為技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù)。所謂技術元數(shù)據(jù)主要是用來描繪數(shù)據(jù)實體和數(shù)據(jù)處理過程中的技術細節(jié)和處理規(guī)那么。比方數(shù)據(jù)源接口數(shù)據(jù)庫名、端口、數(shù)據(jù)庫類型、用戶名、密碼等、ETL 任務表任務編號、任務名稱、任務粒度、任務號、后序任務、狀態(tài)等、業(yè)務元數(shù)據(jù)那么主要是對IT 系統(tǒng)的數(shù)據(jù)
8、實體和數(shù)據(jù)處理的業(yè)務化描繪,包括業(yè)務規(guī)那么、業(yè)務術語、統(tǒng)計口徑、信息分類等。如某商業(yè)商業(yè)銀行審計系統(tǒng)中的企業(yè)根本信息企業(yè)名稱、客戶類型、企業(yè)隸屬、企業(yè)類型、行業(yè)類型、主營業(yè)務、經(jīng)濟類型等、財務報表數(shù)據(jù)報表月份、客戶名稱、報表種類、幣種等、小額擔保貸款貼息統(tǒng)計借據(jù)號、合同號、小額擔保貸款類型、客戶姓名、貸款金額、期限年、期限月、貸款發(fā)放日等等。考慮到保證系統(tǒng)的執(zhí)行效率。元數(shù)據(jù)管理主要為數(shù)據(jù)集市的形成提供根底數(shù)據(jù)映射分析,并且在以后的維護中提供支持。在本文中,任務的劃分按照客戶審計目的而定,一個任務即是一個審計業(yè)務數(shù)據(jù)的ETL過程,這是本文的重點。在一個數(shù)據(jù)集市的形成過程中,會涉及到很多的業(yè)務系統(tǒng)
9、,因此審計系統(tǒng)的數(shù)據(jù)集市由很多任務組成。本系統(tǒng)中任務分為兩種類型:根底任務和業(yè)務任務。根底任務是指實現(xiàn)形成該審計系統(tǒng)數(shù)據(jù)集市所必須的所有數(shù)據(jù),比方審計系統(tǒng)中客戶的根本信息,賬戶信息,企業(yè)信息等,這些都是根底數(shù)據(jù),無論哪個業(yè)務都必須采用的數(shù)據(jù),所以根底任務也是每次ETL 過程所必須完成的任務。而業(yè)務任務那么是可以選擇的,根據(jù)本次審計人員的要求而決定是否導入審計系統(tǒng)數(shù)據(jù)集市,比方信貸業(yè)務,假設本次審計要求中不包括此業(yè)務,那么本次ETL 任務便可不處理該業(yè)務數(shù)據(jù)。根底任務是形成數(shù)據(jù)集市的必選任務,每天只需執(zhí)行一次。而業(yè)務任務那么是根據(jù)每天的審計目的而選擇的可選任務。在此根底上又引入了優(yōu)先級、執(zhí)行時間
10、和任務號的概念。優(yōu)先級是在任務創(chuàng)立的同時就會確定的,優(yōu)先級有三等:重要,一般,不重要。執(zhí)行時間就是執(zhí)行任務的時間先后。任務號是假設干任務執(zhí)行先后順序的根據(jù)。在描繪功能前,我們有必要先描繪任務的生命周期。在本審計系統(tǒng)中,任務有五種狀態(tài):新建,就緒,執(zhí)行,成功,失敗。狀態(tài)之間的轉換。新建狀態(tài):創(chuàng)立一個任務即添加一個新的 ETL 任務,任務的信息包括目的子任務信息和任務的創(chuàng)立信息包括創(chuàng)立者和創(chuàng)立時間等等。就緒狀態(tài):任務在被調(diào)度后,初始化其狀態(tài)為就緒,等待執(zhí)行。執(zhí)行狀態(tài):任務占用系統(tǒng)資源,同一時刻,處于“執(zhí)行狀態(tài)的只有一個任務,另外的任務處于“就緒狀態(tài)。成功狀態(tài):任務執(zhí)行完畢,并且執(zhí)行過程中沒有發(fā)生異
11、常,或者發(fā)生異常后又重新執(zhí)行完畢。失敗狀態(tài):任務執(zhí)行過程中發(fā)生異常,非正常完畢。任務狀態(tài)之間的轉換主要包括以下幾種:創(chuàng)立新任務:創(chuàng)立一個新的任務,即確定一個檢測方案,初始化任務的數(shù)據(jù)源和元數(shù)據(jù)等信息。調(diào)度:準備執(zhí)行任務,將其置為“就緒狀態(tài),隨時可以分派執(zhí)行,由于同步機制的限制,系統(tǒng)在同一時刻只能執(zhí)行一個任務。分派:選擇任務并執(zhí)行,進入執(zhí)行狀態(tài)。出現(xiàn)異常:任務在執(zhí)行過程中,發(fā)生可恢復或者不可恢復的異常,中止執(zhí)行,將其置為“失敗狀態(tài)。重置:解決異常后,重置失敗的任務,等待重新執(zhí)行。執(zhí)行完成:任務執(zhí)行過程中沒有出現(xiàn)異常情況,順利執(zhí)行完畢。任務管理模塊包括的功能主要有任務初始化、任務調(diào)度和任務執(zhí)行。任
12、務初始化主要是創(chuàng)立任務,用戶根據(jù)本次審計目的的要求來建立一個 ETL 任務,包含任務信息和任務的創(chuàng)立信息。任務信息是指選擇符合本次審計目的的業(yè)務任務,根底任務不用選擇,因為是必選的,在執(zhí)行ETL 的時候,會首先執(zhí)行根底任務。任務調(diào)度模塊是貫穿整個數(shù)據(jù)集市形成過程的,在此過程中監(jiān)聽事件,并可以根據(jù)事件啟用相應的任務。在此模塊啟動后,根據(jù)任務號順序執(zhí)行,關于任務的任務號確定問題,本系統(tǒng)中采用一個較為簡單的原那么來解決:在任務創(chuàng)立的同時已經(jīng)確定了任務的優(yōu)先級,結合任務的執(zhí)行時間,先按照執(zhí)行時間先后確定任務號,假設執(zhí)行時間一樣,再按照任務的重要性確定任務號,假設重要性也一樣,那么對二者或者更多隨機確定
13、任務號。假設任務B的任務號是排在任務A 的任務號的下一位,那么成任務B 是任務A 的后續(xù)任務。順序執(zhí)行任務的同時要監(jiān)聽觸發(fā)事件,此模塊監(jiān)聽的事件可分為主要有兩種:任務完畢。在一個任務執(zhí)行時,任務調(diào)度模塊會實時監(jiān)控這個任務的狀態(tài),當一個任務執(zhí)行完畢后,將此任務的狀態(tài)置為完成,并將其后序任務狀態(tài)置為準備。而當錯誤發(fā)生后,首先將其狀態(tài)置為異常,然后調(diào)用異常處理模塊,處理好現(xiàn)場,并將該子任務的狀態(tài)置為“失敗。并將錯誤記錄到日志中,順序執(zhí)行下一個任務。時間到達。對于一些任務,用戶希望它們定時執(zhí)行,所以任務調(diào)度模塊必須實時比較它們的啟動時間和系統(tǒng)時間,一旦二者一致,就執(zhí)行此任務。任務調(diào)度模塊一直執(zhí)行到任務
14、完成后關閉系統(tǒng)時才隨系統(tǒng)一起停頓運行。任務執(zhí)行即是開始 ETL 處理過程。任務的執(zhí)行方式分為兩種:手動和定時,手動方式隨時可以執(zhí)行,定時方式那么是在設定的時間自動啟動。具有管理員權限的用戶隨時可以執(zhí)行任務。定時任務那么要在系統(tǒng)內(nèi)設置定時執(zhí)行任務的時間,可以根據(jù)任務需求設置幾種頻率:每月,每周,每天等。每天到零點時刻,系統(tǒng)就會添加所有在這一天內(nèi)要執(zhí)行的定時任務到隊列中,然后計算出到達下一個設定的執(zhí)行時間的時間差,讓線程休眠一樣時間,醒來后再執(zhí)行。同一個任務可以屢次重復執(zhí)行。假設在執(zhí)行任務過程中新添加了一個任務,系統(tǒng)會根據(jù)此任務的任務號插入到隊列中。每完成一個任務,系統(tǒng)就從執(zhí)行隊列中選取一個優(yōu)先級
15、最高的執(zhí)行。4.1.3 異常處理任何系統(tǒng)都會出現(xiàn)異常情況,所以異常處理模塊必不可少。在本模型中,異常處理模塊主要應對任務執(zhí)行異常情況,比方數(shù)據(jù)出現(xiàn)亂碼,從而致使數(shù)據(jù)轉化任務出錯;正在執(zhí)行抽取或導入任務時,網(wǎng)絡斷開,等等。在出現(xiàn)錯誤后,本模塊會將該任務的狀態(tài)置為“異常,然后調(diào)用相應的處理程序。對于一些任務執(zhí)行過程中發(fā)生的錯誤,只需要重新執(zhí)行該任務便可,比方網(wǎng)絡或電源斷開;而對于一些錯誤的處理那么比較費事,比方抽取數(shù)據(jù)的時候一個表發(fā)生錯誤,并且ETL 過程已經(jīng)執(zhí)行完畢后發(fā)現(xiàn)的,這種情況下,重新執(zhí)行一遍ETL 過程勢必要花費大量的時間,無論是用戶還是數(shù)據(jù)源系統(tǒng)都是不允許的,因此我們可以利用前面所述根
16、底任務和業(yè)務任務的劃分,根據(jù)任務號單獨執(zhí)行出錯的任務,這種做法就大大節(jié)省了時間,從而進步了錯誤恢復的效率。4.1.4 系統(tǒng)日志系統(tǒng)日志模塊也是 ETL 過程中必不可少的一個模塊。它的作用在于記錄每一個任務完成情況,以及系統(tǒng)啟動時間和完成時間等詳細信息,以便技術人員在查看以往的記錄的時候有據(jù)可依,并且也可以從中查看一些異常情況,分析問題,解決系統(tǒng)無法自動解決的問題。日志模塊對于管理員的一些操作也要做詳細的記錄,比方某天某個管理員沒有按照要求擅自啟動了ETL 系統(tǒng),導致了錯誤的發(fā)生,或者在發(fā)生異常后,管理員做出了一些解決措施。或者有管理員利用職權竊取數(shù)據(jù),這些都將被記錄下來,為以后的責任的追究和工
17、作表現(xiàn)提供證據(jù)。4.2 ETL 過程此模塊是 ETL 的主要實現(xiàn)過程,包含三個階段:數(shù)據(jù)抽取、清洗和轉換、轉載。在數(shù)據(jù)抽取階段,我們根據(jù)用戶提供的數(shù)據(jù)源方式分為以下幾種處理方式:抽數(shù)。針對此種數(shù)據(jù)源,我們在數(shù)據(jù)源接口表中定義好了數(shù)據(jù)源的地址、端口號、用戶名和密碼,以及抽取時間后,即可定時調(diào)用任務抽取數(shù)據(jù)。送數(shù)。由于數(shù)據(jù)源保密性要求、時間上的不適宜或者網(wǎng)絡隔絕等條件的限制,ETL 系統(tǒng)只能等待數(shù)據(jù)源送數(shù)過來,或者以備份文件,或者以文本文件的形式送達。這時,我們可以監(jiān)聽送數(shù)事件,當查看到特定目錄中出現(xiàn)數(shù)據(jù)的時候,便啟動往ODS 導數(shù)任務。在抽取任務中,我們也必須描繪清楚數(shù)據(jù)的增長方式:增量或者全量
18、。增量抽取往往適用于交易信息,這類數(shù)據(jù)的特點是每天的操作不會對以前的信息造成影響;全量那么適用于客戶信息、票據(jù)信息等可能被更改的數(shù)據(jù),這些信息在各個抽取任務中都會有所表達。在清洗和轉化操作階段,我們根據(jù)處理的源數(shù)據(jù)的規(guī)模大小和相關性將幾個處理過程作為一個子任務,這樣做的好處是方便實時查看進度和減少任務失敗時重新執(zhí)行的時間損失,同時也最大化地利用了數(shù)據(jù)庫的緩存池。這樣的一個任務提交時,比每個處理過程執(zhí)行完畢后就提交節(jié)省很多時間,而每個任務完成后再提交那么有可能導致數(shù)據(jù)庫緩存池溢出錯誤,從而導致任務提交失敗。即使沒有出現(xiàn)錯誤,理論證明提交一個任務比子任務需要更多的時間。在裝載階段,我們采用成熟的商業(yè)工具即可,因為這類工具具有穩(wěn)定性和平安性,并且在此階段,沒有太多可以優(yōu)化的地方。只是在裝載前我們會停去掉表的索引,在導完數(shù)據(jù)后再統(tǒng)一建立,這么做的好處是進步導入速度。裝載完畢后,對存在于 ODS 中的歷史數(shù)據(jù),我們也需
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年版模具鋼材原材料追溯與供應鏈追溯合同3篇
- 2025年度個人二手房交易貸款擔保合同樣本4篇
- 二零二五年度互聯(lián)網(wǎng)廣告發(fā)布合同樣本4篇
- 2025年度汽車短期租賃合同模板4篇
- 工廠保安協(xié)議書(2篇)
- 2025年度個人房屋租賃定金協(xié)議及租賃雙方權利義務2篇
- 二零二五年度苗木種植與森林防火合作協(xié)議4篇
- 2025年度二手車買賣雙方責任界定協(xié)議3篇
- 2025年度個人房產(chǎn)抵押貸款合同風險評估報告4篇
- 2024年中級經(jīng)濟師考試題庫含解析答案
- 2024版?zhèn)€人私有房屋購買合同
- 2024爆炸物運輸安全保障協(xié)議版B版
- 《食品與食品》課件
- 讀書分享會《白夜行》
- 光伏工程施工組織設計
- DB4101-T 121-2024 類家庭社會工作服務規(guī)范
- 智研咨詢發(fā)布-2023年中國智能驅鳥裝置行業(yè)現(xiàn)狀、發(fā)展環(huán)境及深度分析報告
- 不抱怨的世界-讀后感課件
- 安慶時聯(lián)新材料有限責任公司10000噸年抗氧劑系列產(chǎn)品及抗紫外線吸收劑生產(chǎn)項目環(huán)境影響報告
- 中醫(yī)師承申請表
- 臨床微生物檢查課件 第2章細菌的生理
評論
0/150
提交評論