商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)治理方法初探_第1頁
商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)治理方法初探_第2頁
商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)治理方法初探_第3頁
商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)治理方法初探_第4頁
商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)治理方法初探_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

當(dāng)前,浦發(fā)銀行正全面推進(jìn)數(shù)字化轉(zhuǎn)型,構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的經(jīng)營體系。數(shù)據(jù)驅(qū)動(dòng)能力提升對數(shù)據(jù)治理提出了更高的要求。良好的數(shù)據(jù)治理能夠打通企業(yè)內(nèi)部數(shù)據(jù)壁壘,全面提升數(shù)據(jù)質(zhì)量,支撐業(yè)務(wù)創(chuàng)新發(fā)展,加速數(shù)據(jù)價(jià)值釋放。隨著大數(shù)據(jù)技術(shù)在商業(yè)銀行的廣泛應(yīng)用,數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源的地位日益凸顯,但大數(shù)據(jù)的“4V”特性(巨量性、多樣性、快速性、低密性)給傳統(tǒng)的數(shù)據(jù)治理帶來挑戰(zhàn),催生出大數(shù)據(jù)治理,而大數(shù)據(jù)治理的難點(diǎn)在于非結(jié)構(gòu)化數(shù)據(jù)的治理。商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)主要來源于日常與客戶相關(guān)的經(jīng)營活動(dòng),如客戶在辦理業(yè)務(wù)時(shí)產(chǎn)生的身份核查信息和業(yè)務(wù)憑證影像;客戶在購買理財(cái)產(chǎn)品、遠(yuǎn)程開戶時(shí)按監(jiān)管要求進(jìn)行“雙錄”產(chǎn)生的音頻和視頻;以及銀行系統(tǒng)內(nèi)記錄的日志文件和市場調(diào)查等非結(jié)構(gòu)化數(shù)據(jù)。隨著數(shù)字化轉(zhuǎn)型戰(zhàn)略的實(shí)施,客戶旅程分析、數(shù)據(jù)驅(qū)動(dòng)網(wǎng)點(diǎn)重構(gòu)、智能風(fēng)控等舉措相繼落地,需要使用情緒識別、生物識別、OCR、智能語音等AI技術(shù)對客戶的生物特征、影像資料、語音等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行加工處理,實(shí)現(xiàn)“千人千面”客戶營銷、智能的投資顧問、基于知識圖譜的風(fēng)險(xiǎn)共同體識別等應(yīng)用,這在客觀上也對非結(jié)構(gòu)化數(shù)據(jù)治理提出要求。2018年5月,銀保監(jiān)會發(fā)布了《銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理指引》,不僅強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與安全等方面的治理,而且重視數(shù)據(jù)應(yīng)用與數(shù)據(jù)治理互相促進(jìn),通過數(shù)據(jù)驅(qū)動(dòng)發(fā)揮數(shù)據(jù)價(jià)值。本文基于浦發(fā)銀行現(xiàn)有數(shù)據(jù)治理成果,探索了非結(jié)構(gòu)化數(shù)據(jù)治理的方法和實(shí)踐。一、非結(jié)構(gòu)化數(shù)據(jù)治理體系非結(jié)構(gòu)化數(shù)據(jù)與業(yè)務(wù)流程中產(chǎn)生或使用的結(jié)構(gòu)化數(shù)據(jù)密切關(guān)聯(lián),例如,一張業(yè)務(wù)憑證的影像是非結(jié)構(gòu)化數(shù)據(jù),但影像中的具體業(yè)務(wù)要素,如賬號是作為結(jié)構(gòu)化數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫中的,因此非結(jié)構(gòu)化數(shù)據(jù)治理與結(jié)構(gòu)化數(shù)據(jù)治理密切相關(guān),是建立在傳統(tǒng)的數(shù)據(jù)治理基礎(chǔ)之上的;從非結(jié)構(gòu)化數(shù)據(jù)生命周期來看,非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生、應(yīng)用是與特定的業(yè)務(wù)場景相關(guān)聯(lián)的,如一段客服中心的音頻數(shù)據(jù)可以從投訴、咨詢、電話營銷等業(yè)務(wù)場景中產(chǎn)生,因此非結(jié)構(gòu)化數(shù)據(jù)治理應(yīng)該是業(yè)務(wù)驅(qū)動(dòng)的,即采取業(yè)務(wù)驅(qū)動(dòng)的數(shù)據(jù)治理方法。非結(jié)構(gòu)化數(shù)據(jù)治理框架如圖1所示。圖1非結(jié)構(gòu)化數(shù)據(jù)治理框架經(jīng)過十余年的持續(xù)建設(shè),浦發(fā)銀行已建立較為完善的數(shù)據(jù)治理體系,包括明確數(shù)據(jù)治理組織架構(gòu)、開展十大領(lǐng)域數(shù)據(jù)管理、發(fā)布各項(xiàng)規(guī)章制度和管理流程以及優(yōu)化數(shù)據(jù)治理支撐工具,同時(shí)將現(xiàn)有的數(shù)據(jù)治理模式延伸并覆蓋到非結(jié)構(gòu)化數(shù)據(jù)。業(yè)務(wù)驅(qū)動(dòng)是推進(jìn)非結(jié)構(gòu)化數(shù)據(jù)治理的關(guān)鍵,具體內(nèi)容包括:以業(yè)務(wù)流程為主線,根據(jù)業(yè)務(wù)場景開展非結(jié)構(gòu)化數(shù)據(jù)治理;發(fā)揮現(xiàn)有的集中作業(yè)優(yōu)勢,使用先進(jìn)技術(shù)手段將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),重點(diǎn)解決業(yè)務(wù)主數(shù)據(jù)的一致性問題;設(shè)計(jì)非結(jié)構(gòu)化元數(shù)據(jù)模型,創(chuàng)新應(yīng)用人工智能的信息提取技術(shù),解析不確定、不易獲取(如影音、視頻)的非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容;建立非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)目錄,形成業(yè)務(wù)人員能看懂的數(shù)據(jù)地圖,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)業(yè)務(wù)價(jià)值。二、非結(jié)構(gòu)化數(shù)據(jù)治理方法非結(jié)構(gòu)化數(shù)據(jù)的格式非常多樣,標(biāo)準(zhǔn)也是多樣的,而且在技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和被理解。例如,一張匯款憑證影像作為非結(jié)構(gòu)化數(shù)據(jù)存在兩類數(shù)據(jù)標(biāo)準(zhǔn):一類是影像本身的標(biāo)準(zhǔn),必須達(dá)到200DPI以上(業(yè)內(nèi)實(shí)踐標(biāo)準(zhǔn)),否則無法進(jìn)行自動(dòng)驗(yàn)印;另一類是憑證承載的業(yè)務(wù)要素,如賬號、金額等也必須遵從數(shù)據(jù)標(biāo)準(zhǔn)。同時(shí),非結(jié)構(gòu)化數(shù)據(jù)治理是基于SchemaonRead的模式,即在采集各類非結(jié)構(gòu)化數(shù)據(jù)時(shí)不需要定義各種數(shù)據(jù)庫對象。這就導(dǎo)致非結(jié)構(gòu)化數(shù)據(jù)在“本體”描述方面,即數(shù)據(jù)本身的定義和格式上無法清晰描述,因此需要為非結(jié)構(gòu)化數(shù)據(jù)提供分類、語義支持。目前,業(yè)內(nèi)權(quán)威的數(shù)據(jù)管理理論模型在具體到非結(jié)構(gòu)化數(shù)據(jù)治理的實(shí)踐方面,僅具有一般性的指導(dǎo)意義,距離治理的落地實(shí)施還有一定的差距。筆者團(tuán)隊(duì)通過基于非結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)應(yīng)用等方面的調(diào)研,從實(shí)際業(yè)務(wù)場景出發(fā),歸納總結(jié)實(shí)際操作過程中的經(jīng)驗(yàn)和教訓(xùn),提煉出非結(jié)構(gòu)化數(shù)據(jù)治理的方法。1.以業(yè)務(wù)流程為抓手,在場景中進(jìn)行數(shù)據(jù)治理由于非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)有著緊密的聯(lián)系,如客戶貸款申請的影像資料必然關(guān)聯(lián)一筆貸款業(yè)務(wù),需要遵從會計(jì)憑證檔案管理的相關(guān)規(guī)定;同時(shí)這些影像資料如營業(yè)執(zhí)照、會計(jì)報(bào)表等記載了豐富的客戶信息和財(cái)務(wù)信息,通過大數(shù)據(jù)分析,可以從中識別出客戶的經(jīng)營狀況、企業(yè)間的關(guān)聯(lián)信息,用于擔(dān)保圈風(fēng)險(xiǎn)識別。因此,需要在業(yè)務(wù)分析場景中提煉出關(guān)鍵數(shù)據(jù),與客戶數(shù)據(jù)進(jìn)行融合,再以數(shù)據(jù)服務(wù)的方式為全行提供服務(wù),通過開放銀行API服務(wù)的方式為合作生態(tài)圈提供服務(wù)。考慮到非結(jié)構(gòu)化數(shù)據(jù)的海量性且治理成本較高,因此必須在業(yè)務(wù)流程中識別出業(yè)務(wù)價(jià)值較大的主數(shù)據(jù)進(jìn)行治理,獲取最大的投資回報(bào)。例如,如果客戶在柜面填寫業(yè)務(wù)憑證時(shí)不規(guī)范,賬號、戶名等主數(shù)據(jù)超出填寫框格,憑證影像在后臺集中作業(yè)中心進(jìn)行切片錄入時(shí)出錯(cuò),將導(dǎo)致業(yè)務(wù)處理失敗。因此,需要從數(shù)據(jù)治理的角度提出操作規(guī)范,柜員應(yīng)在審單時(shí)嚴(yán)格遵照填寫標(biāo)準(zhǔn)。2.轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),利用現(xiàn)有數(shù)據(jù)治理成果結(jié)構(gòu)化的數(shù)據(jù)可以在現(xiàn)有的數(shù)據(jù)治理體系下清晰地定義數(shù)據(jù)項(xiàng)的數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。但非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)無法采取同樣的方式進(jìn)行精細(xì)化描述,需要將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),才能進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)及數(shù)據(jù)質(zhì)量管理。例如,在銀行業(yè)務(wù)流程中各類單據(jù)、憑證等可以用數(shù)字文件的形式呈現(xiàn),對于憑證影像可以由集中作業(yè)中心進(jìn)行錄入,或使用機(jī)器人流程自動(dòng)化(RPA)技術(shù)進(jìn)行手寫識別并轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);對于音頻文件可以采取語音轉(zhuǎn)換技術(shù)提取信息,轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)后,再利用現(xiàn)有的數(shù)據(jù)標(biāo)準(zhǔn)及數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)進(jìn)行治理。3.創(chuàng)建結(jié)構(gòu)化元數(shù)據(jù),實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)共享結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)模型包括業(yè)務(wù)、技術(shù)和管理屬性信息,如業(yè)務(wù)含義、數(shù)據(jù)結(jié)構(gòu)定義、管理部門等。對于非結(jié)構(gòu)化數(shù)據(jù),由于無法用固定的格式組織和定義,不能使用軟件系統(tǒng)直接解析數(shù)據(jù)所需的形式語義,需要借助AI技術(shù)轉(zhuǎn)化為人工或者機(jī)器可以解析的內(nèi)容。因此,需要單獨(dú)設(shè)計(jì)非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)模型,包括文件類型、文件格式、文件內(nèi)容描述、業(yè)務(wù)類型、內(nèi)容要素、所屬業(yè)務(wù)部門等屬性信息。在元數(shù)據(jù)基礎(chǔ)上,構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)全息視圖,將數(shù)據(jù)融合到數(shù)據(jù)資產(chǎn)管理中。通過對非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)進(jìn)行智能化標(biāo)簽標(biāo)識和管理,提高搜索靈活度和數(shù)據(jù)資產(chǎn)的業(yè)務(wù)易用性,便于非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)多維度的監(jiān)控和價(jià)值評價(jià),實(shí)現(xiàn)數(shù)據(jù)共享。三、非結(jié)構(gòu)化數(shù)據(jù)治理應(yīng)用非結(jié)構(gòu)化數(shù)據(jù)治理的目的是為了消除信息孤島,提高數(shù)據(jù)質(zhì)量,共享信息資源,更好地探索大數(shù)據(jù)背景下的數(shù)據(jù)應(yīng)用,其業(yè)務(wù)價(jià)值體現(xiàn)在許多場景中。1.智能貸款風(fēng)險(xiǎn)識別利用自然語言處理技術(shù),從客戶的貸款申請資料、工商注冊信息、客戶的資金社交圈等文本數(shù)據(jù)中提取特征信息,構(gòu)建風(fēng)險(xiǎn)共同體數(shù)據(jù)、復(fù)雜循環(huán)擔(dān)保信息、可疑交易對手信息,在此基礎(chǔ)上通過建立社交網(wǎng)絡(luò)分析模型,篩選出預(yù)警客戶名單,全面掌握風(fēng)險(xiǎn)信息,追蹤風(fēng)險(xiǎn)成因,及時(shí)把控影響。2.數(shù)字人客服浦發(fā)銀行通過智能客服“小浦”打造“浦發(fā)大腦”語言與聽覺中樞,實(shí)現(xiàn)電話銀行基于自然語言的人機(jī)智能產(chǎn)品推薦、業(yè)務(wù)咨詢等智能場景化服務(wù),并具備快速自學(xué)習(xí)及迭代優(yōu)化能力,確?!叭藱C(jī)交互”服務(wù)體驗(yàn)與服務(wù)質(zhì)量持續(xù)提升。目前,浦發(fā)銀行語音識別率超95%,智能客服服務(wù)占比85%,達(dá)到業(yè)內(nèi)領(lǐng)先水平。3.智能內(nèi)審對于需要人工查閱的非結(jié)構(gòu)化數(shù)據(jù),如合同、內(nèi)部公文制度以及人民銀行和銀保監(jiān)會發(fā)文等,在海量、復(fù)雜非結(jié)構(gòu)數(shù)據(jù)背景下,傳統(tǒng)的審查方式需要大量的人工查閱工作,效率低下。利用自然語言技術(shù)歸類整理文本資料、挖掘?qū)彶橐c(diǎn),可形成包含標(biāo)題及核心內(nèi)容簡練報(bào)告,實(shí)現(xiàn)文檔歸類。這一過程替代審閱人員完成資料初步整理工作,簡化了大量而繁復(fù)的閱讀過程,可以讓審閱人員快速抓住重點(diǎn),工作效率得到顯著提高。綜上所述,商業(yè)銀行可基于現(xiàn)有的數(shù)據(jù)治理體系,依托數(shù)據(jù)智能技術(shù),進(jìn)一步完善非結(jié)構(gòu)化數(shù)據(jù)治理機(jī)制。在確保數(shù)據(jù)質(zhì)量、安全的基礎(chǔ)上,積極

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論