金融行業(yè)批量系統(tǒng)存儲(chǔ)架構(gòu)技術(shù)選型分析_第1頁(yè)
金融行業(yè)批量系統(tǒng)存儲(chǔ)架構(gòu)技術(shù)選型分析_第2頁(yè)
金融行業(yè)批量系統(tǒng)存儲(chǔ)架構(gòu)技術(shù)選型分析_第3頁(yè)
金融行業(yè)批量系統(tǒng)存儲(chǔ)架構(gòu)技術(shù)選型分析_第4頁(yè)
金融行業(yè)批量系統(tǒng)存儲(chǔ)架構(gòu)技術(shù)選型分析_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一、金融行業(yè)批量系統(tǒng)業(yè)務(wù)特征提起批量業(yè)務(wù),從事銀行業(yè)科技的人員都會(huì)非常熟悉。白天的柜臺(tái)、終端以及其他渠道的交易業(yè)務(wù)需要實(shí)時(shí)修改賬戶(hù)信息,晚上需要跑批來(lái)完成例如賬務(wù)清算、利息計(jì)算、報(bào)表生成等系列業(yè)務(wù)。這就是銀行典型批量業(yè)務(wù)需要完成的事情。而對(duì)于其他的保險(xiǎn)及證券等金融行業(yè),同樣會(huì)有類(lèi)似的批量業(yè)務(wù)。通常金融行業(yè)業(yè)務(wù)系統(tǒng)產(chǎn)生的明細(xì)數(shù)據(jù)要經(jīng)過(guò)加工處理,按照一定邏輯計(jì)算成需要的結(jié)果,用以支持企業(yè)的經(jīng)營(yíng)活動(dòng)。這類(lèi)數(shù)據(jù)的加工任務(wù)一般會(huì)有很多個(gè),需要批量完成計(jì)算。大部分業(yè)務(wù)統(tǒng)計(jì)都會(huì)要求以某日作為截止點(diǎn),而且為了不影響生產(chǎn)系統(tǒng)的運(yùn)行,跑批任務(wù)一般會(huì)在夜間進(jìn)行,這時(shí)候才能將生產(chǎn)系統(tǒng)當(dāng)天產(chǎn)生的新明細(xì)數(shù)據(jù)導(dǎo)出來(lái),送到專(zhuān)門(mén)的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)完成跑批計(jì)算。第二天早上,跑批結(jié)果就可以提供給業(yè)務(wù)人員使用了。和在線(xiàn)查詢(xún)不同,跑批計(jì)算是定時(shí)自動(dòng)執(zhí)行的離線(xiàn)任務(wù),不會(huì)出現(xiàn)多人同時(shí)訪(fǎng)問(wèn)一個(gè)任務(wù)的情況,所以沒(méi)有并發(fā)問(wèn)題,也不必實(shí)時(shí)返回結(jié)果。但是,跑批必須在規(guī)定的窗口時(shí)間內(nèi)完成。比如某銀行的跑批窗口時(shí)間是晚上到第二天早上,如果到了早上跑批任務(wù)還沒(méi)有完成,就會(huì)造成業(yè)務(wù)人員無(wú)法正常工作的嚴(yán)重后果。而且跑批任務(wù)涉及的數(shù)據(jù)量非常大,通常是需要很多系統(tǒng)的數(shù)據(jù),同時(shí)包含歷史數(shù)據(jù);計(jì)算邏輯通常非常復(fù)雜,不僅處理較長(zhǎng)、步驟較多、而且計(jì)算頻繁,是需要在某些業(yè)務(wù)模型基礎(chǔ)之上去完成的;跑批時(shí)間經(jīng)常是以小時(shí)甚至更長(zhǎng)時(shí)間粒度來(lái)計(jì)算的。隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)量還在不斷增加,跑批數(shù)據(jù)庫(kù)的負(fù)擔(dān)快速增長(zhǎng),就會(huì)發(fā)生整晚都跑不完的情況,嚴(yán)重影響用戶(hù)的業(yè)務(wù),這是無(wú)法接受的。二、金融行業(yè)批量業(yè)務(wù)的數(shù)據(jù)管理要求2.1數(shù)據(jù)處理量級(jí)提升的要求近些年來(lái),對(duì)金融行業(yè)批量業(yè)務(wù)挑戰(zhàn)最大的可能就是數(shù)據(jù)量的劇增了。以某消費(fèi)金融公司為例,該消費(fèi)金融公司于2015年?duì)I業(yè),截止到2020年,歷經(jīng)4年多風(fēng)雨,總注冊(cè)用戶(hù)數(shù)8000萬(wàn),活躍用戶(hù)數(shù)2500萬(wàn),賬務(wù)系統(tǒng)的核心表累計(jì)數(shù)據(jù)量已達(dá)到單表15億行以上,而且還在高速增長(zhǎng)中。這是大多數(shù)金融企業(yè)面對(duì)互聯(lián)網(wǎng)業(yè)務(wù)時(shí)都會(huì)遇到的巨大挑戰(zhàn)。很多金融行業(yè)批量業(yè)務(wù)系統(tǒng)在面對(duì)海量數(shù)據(jù)的不斷挑戰(zhàn),數(shù)據(jù)庫(kù)從傳統(tǒng)的Oracle單庫(kù)模式走向集群模式,從單表單庫(kù)走向分庫(kù)分表切片模式,甚至開(kāi)始選擇NoSQL、NewSQL解決方案;基礎(chǔ)架構(gòu)從從前的小型機(jī)走向一體機(jī),從一體機(jī)走向分布式模式??偠灾?,金融行業(yè)批量業(yè)務(wù)在當(dāng)前以及未來(lái)一段時(shí)間內(nèi)面臨的最大挑戰(zhàn)還是數(shù)據(jù)量的升級(jí),這必然要求數(shù)據(jù)處理層面具備更強(qiáng)的數(shù)據(jù)容納以及過(guò)程處理能力。2.2數(shù)據(jù)批量讀寫(xiě)效率提升的要求對(duì)于金融行業(yè)的批量業(yè)務(wù),從業(yè)務(wù)層面來(lái)講,它是賬務(wù)清算、利息核算、報(bào)表分析之類(lèi)的分析業(yè)務(wù)。從數(shù)據(jù)處理層面來(lái)講,它是對(duì)多系統(tǒng)多維度數(shù)據(jù)進(jìn)行讀取、歸類(lèi)、統(tǒng)計(jì)、分析、寫(xiě)入的整體過(guò)程,里面伴隨著大量的順序讀寫(xiě)全表操作,數(shù)據(jù)量會(huì)非常大。而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)最忌諱的卻是數(shù)據(jù)庫(kù)當(dāng)中的全表掃描操作,當(dāng)單表數(shù)據(jù)量達(dá)到一定程度之后,必然會(huì)影響數(shù)據(jù)庫(kù)的整體檢索效率,這二者之間似乎是有不可調(diào)和的矛盾。于是行業(yè)內(nèi)企業(yè)開(kāi)始尋求相應(yīng)的解決方法,一方面通過(guò)各種方法來(lái)提升數(shù)據(jù)處理平臺(tái)本身對(duì)數(shù)據(jù)讀寫(xiě)的處理效率,例如利用全閃存儲(chǔ)架構(gòu)從物理層提升數(shù)據(jù)的處理效率,利用分布式存儲(chǔ)架構(gòu)來(lái)提升存儲(chǔ)引擎的吞吐效率;另外一方面通過(guò)對(duì)業(yè)務(wù)邏輯及模型的革新創(chuàng)新來(lái)尋求新的整體解決方案。2.3數(shù)據(jù)處理邏輯多樣化融合的要求以銀行的批量業(yè)務(wù)為例,傳統(tǒng)的批量業(yè)務(wù)系統(tǒng),無(wú)論是賬務(wù)類(lèi)的總賬跑批,還是監(jiān)管報(bào)送類(lèi)的報(bào)表跑批,它們都是基于傳統(tǒng)的二維關(guān)系數(shù)據(jù)模型,跑批的邏輯都是基于銀行特有的業(yè)務(wù)模型。這種模式下的批量業(yè)務(wù)都會(huì)涉及到數(shù)據(jù)一致性的問(wèn)題,典型的場(chǎng)景就是外鍵關(guān)聯(lián)的場(chǎng)景。當(dāng)我們對(duì)其中一張表的數(shù)據(jù)進(jìn)行更改的時(shí)候,如果它有相關(guān)的外鍵約束或者關(guān)聯(lián)約束,那么必然會(huì)涉及數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)一致性的檢查及處理。對(duì)于傳統(tǒng)的賬務(wù)類(lèi)批量來(lái)講,這是必然的選擇,但是對(duì)于其他統(tǒng)計(jì)分析類(lèi)的報(bào)表類(lèi)批量業(yè)務(wù),尤其是基于互聯(lián)網(wǎng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)設(shè)計(jì)的批量報(bào)表業(yè)務(wù),對(duì)數(shù)據(jù)間的相互約束并不敏感,而是聚焦數(shù)據(jù)在其他維度的總體特征分析,因此某些列式數(shù)據(jù)存儲(chǔ)解決方案反而更契合。因此,金融行業(yè)在堅(jiān)持批量業(yè)務(wù)系統(tǒng)既有載體架構(gòu)方案升級(jí)改善的同時(shí),探討新型的數(shù)據(jù)處理解決方案,并且能將這集中元素應(yīng)用到數(shù)據(jù)后臺(tái)批量業(yè)務(wù)當(dāng)中,是一種必然的趨勢(shì)。三、金融行業(yè)批量業(yè)務(wù)存儲(chǔ)架構(gòu)選型技術(shù)分析3.1列式存儲(chǔ)的存儲(chǔ)方式與批量查詢(xún)之間的契合點(diǎn)對(duì)于某些需要根據(jù)字段特點(diǎn)進(jìn)行統(tǒng)計(jì)、排序、篩選的批量分析類(lèi)業(yè)務(wù),列式存儲(chǔ)的效率要比行式存儲(chǔ)的效率高很多。數(shù)據(jù)量越大,這個(gè)優(yōu)勢(shì)越明顯,到了單機(jī)資源無(wú)法處理的規(guī)模,這個(gè)優(yōu)勢(shì)就更加突出了。但是如果遇到需要精準(zhǔn)定位到某一條數(shù)據(jù),并且進(jìn)行多字段處理的場(chǎng)景,列式存儲(chǔ)就顯得笨重很多。以傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)為載體的批量業(yè)務(wù)系統(tǒng),必然會(huì)涉及到相關(guān)的外鍵約束或者關(guān)聯(lián)約束,這會(huì)帶來(lái)兩個(gè)問(wèn)題:一是數(shù)據(jù)處理效率的問(wèn)題,關(guān)聯(lián)約束的檢查及關(guān)聯(lián)操作必然帶來(lái)多余的操作代價(jià)。二是數(shù)據(jù)處理過(guò)度依賴(lài)單節(jié)點(diǎn)資源,無(wú)法實(shí)現(xiàn)分布式處理。既然我們要顧及數(shù)據(jù)之間的橫向聯(lián)系,那么必然導(dǎo)致數(shù)據(jù)無(wú)法切分,分布式處理也無(wú)法保障關(guān)聯(lián)約束。而列式數(shù)據(jù)庫(kù)的原則是要拋棄數(shù)據(jù)之間的外鍵關(guān)聯(lián)約束,希望將數(shù)據(jù)切分為相互之間獨(dú)立的數(shù)據(jù)表。這樣的優(yōu)勢(shì)有很多,首先我們可以對(duì)數(shù)據(jù)進(jìn)行切片,無(wú)論是通過(guò)哈希算法還是通過(guò)其他算法,數(shù)據(jù)更容易切片交由不同節(jié)點(diǎn)分布式處理。其次,當(dāng)我們對(duì)數(shù)據(jù)進(jìn)行批量的插入、刪除、更新的時(shí)候,我們無(wú)需付出不可估量的關(guān)聯(lián)性代價(jià)?;蛟S在數(shù)據(jù)量可觀的情況下,這個(gè)優(yōu)勢(shì)不會(huì)被人過(guò)于關(guān)注。但是一旦當(dāng)數(shù)據(jù)量的處理超過(guò)單節(jié)點(diǎn)資源能夠完成的邊界,我們唯一可以選擇的就是列式存儲(chǔ),甚至我們不惜花費(fèi)大量的開(kāi)發(fā)代價(jià)去改變業(yè)務(wù)邏輯,使之前下沉到數(shù)據(jù)庫(kù)的關(guān)聯(lián)性約束上浮到業(yè)務(wù)控制層面。3.2列式存儲(chǔ)與數(shù)據(jù)存取效率的契合性首先,列式存儲(chǔ)最大特點(diǎn)在于其數(shù)據(jù)壓縮消重的優(yōu)勢(shì),因?yàn)榘凑宅F(xiàn)實(shí)世界的特點(diǎn)來(lái)看,大部分重復(fù)數(shù)據(jù)在某一個(gè)維(列)上,那么這就給了列式存儲(chǔ)消重最大的優(yōu)勢(shì)。在一片連續(xù)的物理存儲(chǔ)空間上處理一些重復(fù)數(shù)據(jù),總比在雜亂無(wú)序的物理存儲(chǔ)空間上處理一些隨機(jī)的重復(fù)數(shù)據(jù)要提高很多效率。這個(gè)效率的提高帶來(lái)的是CPU、內(nèi)存、磁盤(pán)等各個(gè)資源的代價(jià)減少。其次,當(dāng)我們要對(duì)數(shù)據(jù)的維和度進(jìn)行具體的OLAP分析的時(shí)候,我們需要把大量的數(shù)據(jù)讀入到內(nèi)存進(jìn)行深度的處理,比如排序、分類(lèi)、分組、篩選、統(tǒng)計(jì)等等。從物理存儲(chǔ)讀入數(shù)據(jù)到內(nèi)存本身的效率是非常可觀的,在內(nèi)存當(dāng)中處理少量的數(shù)據(jù)要比處理帶有重復(fù)數(shù)據(jù)的大量數(shù)據(jù)要效率得多。很多事情就是因?yàn)檫@不同環(huán)節(jié)上的少量提高而發(fā)生了整體上的指數(shù)級(jí)別的改變,將不可能變成可能?;蛟S我們可以通過(guò)微觀和宏觀的理論來(lái)解釋其中的細(xì)節(jié)。再有,忽略數(shù)據(jù)字段之間的關(guān)聯(lián)性的列式存儲(chǔ)解決方案,使得數(shù)據(jù)具備了切片分庫(kù)的基本條件,也具備了分布式架構(gòu)的應(yīng)用前提,而且分布式的擴(kuò)展性會(huì)更好,無(wú)疑這又提高了批量系統(tǒng)對(duì)數(shù)據(jù)處理的整體吞吐量和引擎的整體處理效率?;蛟S我們可以說(shuō)這個(gè)是通過(guò)犧牲了數(shù)據(jù)的完整性約束來(lái)?yè)Q取的,如果業(yè)務(wù)本身沒(méi)有這種需求,我們丟掉這個(gè)特性換取“分布式”的特性,又有何妨呢?很多人可能會(huì)抬出CAP理論來(lái)講,沒(méi)錯(cuò),我們承認(rèn)CAP理論的正確性,但是在OLAP業(yè)務(wù)場(chǎng)景當(dāng)中,我們看到的更多的是數(shù)據(jù)宏觀維度的抽象屬性,是基于大量數(shù)據(jù)的同緯同度分析之后的價(jià)值,而不在于單個(gè)數(shù)據(jù)之間的嚴(yán)格約束,所

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論