數(shù)據(jù)中臺:宜信敏捷數(shù)據(jù)中臺建設實踐 2020盧山巍_第1頁
數(shù)據(jù)中臺:宜信敏捷數(shù)據(jù)中臺建設實踐 2020盧山巍_第2頁
數(shù)據(jù)中臺:宜信敏捷數(shù)據(jù)中臺建設實踐 2020盧山巍_第3頁
數(shù)據(jù)中臺:宜信敏捷數(shù)據(jù)中臺建設實踐 2020盧山巍_第4頁
數(shù)據(jù)中臺:宜信敏捷數(shù)據(jù)中臺建設實踐 2020盧山巍_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

宜信技術(shù)學院宜信技術(shù)學院CreditEase目錄目錄CONTENTS1宜信數(shù)據(jù)中臺頂層設計2從中間件工具到平臺3典型案例分析宜信技術(shù)學院宜信技術(shù)學院宜信數(shù)據(jù)中臺頂層設計:特點和需求?業(yè)務條線眾多:普惠金融板塊、財富管理板塊、資產(chǎn)管理板塊、金融科技板塊,?技術(shù)選型眾多:MYSQL、oracIe、HBase、KUDU、Cassandra、EIasticsearch、?數(shù)據(jù)需求多樣:報表、可視化、服務、推送、遷移、同步、數(shù)據(jù)應用等?數(shù)據(jù)需求多變:經(jīng)常有周級產(chǎn)出數(shù)據(jù)需求和數(shù)據(jù)應用?數(shù)據(jù)管理考慮:數(shù)據(jù)元信息可查,數(shù)據(jù)定義和流程標準化,數(shù)據(jù)管理可控等?數(shù)據(jù)安全考慮:多級數(shù)據(jù)安全策略,數(shù)據(jù)鏈路可追溯,敏感數(shù)據(jù)不可泄露等?數(shù)據(jù)權(quán)限考慮:表級、列級、行級數(shù)據(jù)權(quán)限,組織架構(gòu)、角色、權(quán)限策略自動化?數(shù)據(jù)成本考慮:集群成本、運維成本、人力成本、時間成本、風險成本等宜信數(shù)據(jù)中臺頂層設計:定位宜信數(shù)據(jù)中臺從數(shù)據(jù)技術(shù)和計算能力復用,到數(shù)據(jù)資產(chǎn)和數(shù)據(jù)服務復用數(shù)據(jù)中臺會以更大價值帶寬,快準精讓數(shù)據(jù)直接賦能業(yè)務數(shù)據(jù)安全團隊數(shù)據(jù)運維團隊數(shù)據(jù)管理委員會業(yè)務領(lǐng)域數(shù)據(jù)團隊業(yè)務領(lǐng)域數(shù)據(jù)安全團隊數(shù)據(jù)運維團隊數(shù)據(jù)管理委員會業(yè)務領(lǐng)域數(shù)據(jù)團隊業(yè)務領(lǐng)域數(shù)據(jù)團隊業(yè)務領(lǐng)域數(shù)據(jù)團隊業(yè)務領(lǐng)域數(shù)據(jù)團隊ADXADX數(shù)據(jù)中臺平臺(byADX團隊)數(shù)據(jù)集群數(shù)據(jù)集群數(shù)據(jù)集群數(shù)據(jù)集群數(shù)據(jù)集群數(shù)據(jù)集群數(shù)據(jù)集群數(shù)據(jù)集群快平臺化,透明封裝復用技術(shù)組件自助化,簡單配置,月=>天實時化,驅(qū)動業(yè)務增長,天=>分ADX準省o快平臺化,透明封裝復用技術(shù)組件自助化,簡單配置,月=>天實時化,驅(qū)動業(yè)務增長,天=>分ADX準省o時間成本,需求排期和重復開發(fā)o人力成本,重復開發(fā)和缺少復用o硬件成本,集群資源濫用造成浪費o定制化需求造成重復開發(fā)o取數(shù)方式各異,清洗邏輯各異o數(shù)據(jù)孤島未打通整合o需求驅(qū)動實施,無法沉淀數(shù)據(jù)資產(chǎn)統(tǒng)—化,統(tǒng)—數(shù)據(jù)湖歸集和出口管理化,元數(shù)據(jù)、數(shù)據(jù)地圖、血緣資產(chǎn)化,模型管理讓數(shù)據(jù)可信賴自助化,節(jié)省時間就是節(jié)省成本平臺化,成熟技術(shù)組件高復用度精細化,集群資源可估可查可量化宜信數(shù)據(jù)中臺頂層設計:模塊架構(gòu)維度業(yè)務前臺數(shù)據(jù)維度數(shù)據(jù)應用層數(shù)據(jù)應用層數(shù)據(jù)資產(chǎn)層數(shù)據(jù)湖層宜信數(shù)據(jù)中臺平臺維度DavinciDavinciconvoAIconvoAI會話式AIDataHubDataHub數(shù)據(jù)樞紐AIHubAIHub智能服務DataDataMgt數(shù)據(jù)管理ADXMgt中臺管理ADXMgt中臺管理DataworksDataworks數(shù)據(jù)工坊(基于wormhoIe/Moonbox/TriangIe)數(shù)據(jù)標簽AIkit智能工具箱AIkit智能工具箱DataHubDataHub數(shù)據(jù)樞紐(基于DBus/wormhoIe/Moonbox/TriangIe)數(shù)據(jù)集群數(shù)據(jù)集群宜信數(shù)據(jù)中臺頂層設計:數(shù)據(jù)能力維度業(yè)務智能AI智能業(yè)務computation數(shù)據(jù)處理Governance數(shù)據(jù)治理Management平臺管理operation集群管理(davinci)(dataworks)(datahubIdavinci)(adxmgt)(davinci)(aihub)(dataworks)(datahub)(adxmgt)(davinci)(convoai)(dataworks)(datamgt)(adxmgt)(datahub)(dataworks)(datastarIdatatag)(adxmgt)宜信技術(shù)學院宜信技術(shù)學院從中間件工具到平臺:ABD總覽從中間件工具到平臺:ABD-DBus功能特性?無侵入方式接入多種數(shù)據(jù)源?海量數(shù)據(jù)實時傳輸?自動感知數(shù)據(jù)源Schema變更?數(shù)據(jù)實時脫敏?初始加載和獨立加載?可靠多路消息訂閱分發(fā)?實時監(jiān)控&預警?可視化后臺管理系統(tǒng)?支持分表數(shù)據(jù)匯集?多租戶支持DBus(數(shù)據(jù)總線平臺),是一個DBaas(DataBusasaservice)平臺解DBus面向大數(shù)據(jù)項目開發(fā)和管理運維人員,致力于提供數(shù)據(jù)實時采集和分發(fā)解決方案。平臺采用高可用流式計算框架,提供海量數(shù)據(jù)實時傳輸,可靠多路消息訂閱分發(fā),通過簡單靈活的配置,無侵入接入源端數(shù)據(jù),對各個IT系統(tǒng)在業(yè)務流程中產(chǎn)生的數(shù)據(jù)進行匯集,并統(tǒng)—處理轉(zhuǎn)換成通過JSON描述的UMS格式,提供給不同下游客戶訂閱和消費。DBus可充當數(shù)倉平臺、大數(shù)據(jù)分析平臺、實時報表和實時營銷等業(yè)務的數(shù)據(jù)源。FKSinkHeartbeat心跳預警&監(jiān)控模塊RDBMSFKSinkHeartbeat心跳預警&監(jiān)控模塊RDBMS…SourceDBusDBus-web部署&配置&管理DBusDBusManagerzooKeeper從中間件工具到平臺:ABD-wormhoIe/cass/cass/es/mongo功能特性wormhoIe(流式處理平臺),是一個spaas(streamprocessingasaservice)平臺解決方案。wormhoIe面向大數(shù)據(jù)項目開發(fā)和管理運維人員,致力于提供數(shù)據(jù)流式化處理解決方案。平臺專注于簡化和統(tǒng)—開發(fā)管理流程,提供可視化的操作界面,基于配置和SQL的業(yè)務開發(fā)方式,屏蔽底層技術(shù)實現(xiàn)細節(jié),極大的降低了開發(fā)門檻,使得大數(shù)據(jù)流式處理項目的開發(fā)和管理變得更加輕量敏捷、可控可靠。sourceFksourceFkEsvertica…sinkzookeeperREsTREsTAPIwEBwEBUIUMs協(xié)議解析source擴展source異構(gòu)sink冪等UMs協(xié)議解析source擴展source異構(gòu)sink冪等sink擴展sinksparksQLLookupsQL流上流上JoinsQLwormhoIewormhoIe統(tǒng)—流式執(zhí)行框架 從中間件工具到平臺:ABD-Moonbox/cassMoonbox(計算服務平臺),是一個Daas(DatavirtuaIization/cassMoonbox面向數(shù)據(jù)倉庫工程師/數(shù)據(jù)分析師/數(shù)據(jù)科學家等,致力于提供數(shù)據(jù)虛擬化解決方案。既可作為數(shù)據(jù)應用底層數(shù)據(jù)查詢計算統(tǒng)—入口,也可作為邏輯數(shù)據(jù)倉庫與現(xiàn)有數(shù)據(jù)倉庫互補。用戶只需通過統(tǒng)—SQL服務調(diào)用和/es/mongo/es/mongo…功能特性功能特性支持多源異構(gòu)系統(tǒng)無縫混算(目前支持MYSQL、OracIe、kudu、HBase、Cassandra、MongoDB、EIasticsearch、HDFS、Hive等)支持CLI工具和zeppeIincache(redis)cataIog(mysqI)workernodescache(redis)cataIog(mysqI)workernodesjvmcIientjdbcjdbcdriverodbcodbcdrivermasternodesjvmhttphttpservertcptcpserverthriftthriftserverauthenticationauthenticationmasteractor workermgtstatusstatusmgtscheduIerscheduIertimertimerworkeractor(sparkcontext)runneractorscataIogcontextmbsessioncataIogcontextuserusercontextmixcaIcontextsparksparksessionsparkdatasourcesparkdatasourceapimbdatasystemapisparkconnectorsdataadaptersdatasourcedatasourcedatasourcedatasource從中間件工具到平臺:ABD-DavinciDavinci(可視應用平臺),是一個Dvaas(DatavisuaIizationasaservice)平臺解決方案。Davinci面向業(yè)務人員/數(shù)據(jù)工程師/數(shù)據(jù)分析師/數(shù)據(jù)科學家,致力于提供—站式數(shù)據(jù)可視化解決方案。既可作為公有云/私有云獨立部署使用,也可作為可視化插件集成到三方系統(tǒng)。用戶只需在可視化UI上簡單配置即可服務多種數(shù)據(jù)可視化應用,并支持高級交互/行業(yè)分析/模式探索/社交智能等可視化功能。功能特性支持可視化組件CSV數(shù)據(jù)下載、公共分享授權(quán)分享以支持圖層、透明度設置、邊框、背景色、對齊、標簽等更豐從中間件工具到平臺:ABD-DavincivisuaIizationDashboardDashboard……widgetviewSourceoracIeoracIe…CSvCSv……從中間件工具到平臺:ABD-Davinci…服務應用從中間件工具到平臺:ABD架構(gòu)…服務應用數(shù)據(jù)源/客戶端集成/采集/抽取總線/發(fā)布/訂閱加工/擴展/注入存儲/索引/緩存查詢/計算/服務展示/分析/應用關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫/mysqIubiLog/cass/hue服務終端服務終端用戶程序用戶程序/es/mongojupyterjupyter/sas/r數(shù)據(jù)管理:元數(shù)據(jù)/數(shù)據(jù)質(zhì)量/血緣分析/數(shù)據(jù)資產(chǎn)數(shù)據(jù)管理:元數(shù)據(jù)/數(shù)據(jù)質(zhì)量/血緣分析/數(shù)據(jù)資產(chǎn)數(shù)據(jù)安全:安全審計/脫敏加密/權(quán)限角色/多租戶數(shù)據(jù)安全:安全審計/脫敏加密/權(quán)限角色/多租戶開發(fā)運維:開發(fā)/測試/部署/運維/監(jiān)控/預警/作開發(fā)運維:開發(fā)/測試/部署/運維/監(jiān)控/預警/作業(yè)調(diào)度驅(qū)動引擎:事件引擎/動作引擎/規(guī)則引擎/驅(qū)動引擎:事件引擎/動作引擎/規(guī)則引擎/預測引擎從中間件工具到平臺:ADX總覽Dataworks?自助項目管理?自助資源管理?自助權(quán)限管理?審批管理流程?元數(shù)據(jù)管理?數(shù)據(jù)字典?數(shù)據(jù)地圖?數(shù)據(jù)血緣?自助數(shù)據(jù)申請、數(shù)據(jù)發(fā)布?自助數(shù)據(jù)標準化清洗?自助數(shù)據(jù)安全脫敏加密?自助數(shù)據(jù)服務?自助即席查詢?自助批量作業(yè)?自助流式作業(yè)?對接數(shù)據(jù)模型作業(yè)?自助數(shù)據(jù)模型管理?共享數(shù)據(jù)模型流程?自助配置數(shù)據(jù)集市層、數(shù)據(jù)應用層?聯(lián)動數(shù)據(jù)工坊部署從中間件工具到平臺:ADX-DataHubjupyterjupyter 從中間件工具到平臺:ADX-DataLakedbus對接dbus接入wh落湖實時數(shù)據(jù)湖實時歷史?所有結(jié)構(gòu)化數(shù)據(jù)源,通過實時增量方式寫入HDFS存儲,稱為ubiLog(ubiquitousLog)?通過ubiLog,可以計算出某張表任意歷史時刻精確快照(Snapshot)?ubiLog存儲格式為TXT,并且會定期做merge和壓縮?如果存儲空間允許,ubiLog會至少保存2年歷史數(shù)據(jù)?ubiLog所在HDFS為kerberos認證安全保障的存儲,并且—式三份防止壞節(jié)點造成數(shù)據(jù)丟失?ubiLog的訪問和使用只能通過ADX提供的能力輸出,因此確保了多租戶、安全、權(quán)限管控?公司所有結(jié)構(gòu)化數(shù)據(jù)源會統(tǒng)-實時匯總為ubiLog,并由ADX-DataHub統(tǒng)-對外提供訪問?非結(jié)構(gòu)化數(shù)據(jù)源中,自然語言文本也會實時(或定期)匯總到ubiLog?其他非結(jié)構(gòu)化數(shù)據(jù)源,如音頻、視頻等,暫不考慮納入ADX-DataLake中從中間件工具到平臺:ADX-DataHub…Dataworks數(shù)據(jù)工坊TriangIeMoonboxwo……datawS化……從中間件工具到平臺:ADX-Dataworks}} 元數(shù)據(jù)數(shù)據(jù)安全多租戶用戶體系功能權(quán)限數(shù)據(jù)權(quán)限從中間件工具到平臺:ADX-Dataworks元數(shù)據(jù)數(shù)據(jù)安全多租戶用戶體系功能權(quán)限數(shù)據(jù)權(quán)限D(zhuǎn)ataworks數(shù)據(jù)分析/報表數(shù)據(jù)查詢流式作業(yè)數(shù)據(jù)策略數(shù)據(jù)分析/報表數(shù)據(jù)查詢流式作業(yè)數(shù)據(jù)策略 wormhoIe讀寫讀寫wormhoIe 從中間件工具到平臺:ADX-Datastar↓↓↓↓ 從中間件工具到平臺:ADXMgt/DataMgtADXMgt中臺管理模塊ADXMgt中臺管理模塊DataMgtDataMgt數(shù)據(jù)管理模塊從中間件工具到平臺:ADX架構(gòu)ADXMgt中臺管理模塊數(shù)據(jù)源Datastar數(shù)據(jù)模型模塊APP數(shù)據(jù)應用數(shù)據(jù)源Datastar數(shù)據(jù)模型模塊APP數(shù)據(jù)應用DataMgt數(shù)據(jù)管理模塊DataMgt數(shù)據(jù)管理模塊APP數(shù)據(jù)應用數(shù)據(jù)源APP數(shù)據(jù)應用數(shù)據(jù)源Dataworks數(shù)據(jù)工坊模塊DataLake實時數(shù)據(jù)湖Davinci可視應用平臺DataHub數(shù)據(jù)樞紐模塊Dataworks數(shù)據(jù)工坊模塊DataLake實時數(shù)據(jù)湖Davinci可視應用平臺DataHub數(shù)據(jù)樞紐模塊wormhoIe流式處理平臺MoonboxwormhoIe流式處理平臺Moonbox計算服務平臺作業(yè)調(diào)度平臺數(shù)據(jù)總線平臺宜信技術(shù)學院宜信技術(shù)學院典型案例分析:案例1—自助實時報表?業(yè)務領(lǐng)域組數(shù)據(jù)團隊需要緊急制作—批報表,不希望排期,希望可以自助完成,并且部分報表需要T+0時效性?業(yè)務組數(shù)據(jù)團隊工程能力有限,只會簡單SQL,之前要么排期,要么通過工具直連業(yè)務備庫制作報表,要么通?數(shù)據(jù)來源可能來自異構(gòu)數(shù)據(jù)庫,沒有很好的平臺支持自助導數(shù)?對數(shù)據(jù)時效性要求很高,需要流上做數(shù)據(jù)處理邏輯?(見下頁)?平臺全自助能力,大大提高了業(yè)務數(shù)字化驅(qū)動進程,無需排期等待,經(jīng)過短暫培訓,人均3日到5日可以自助完成—張實時報表,實時報表不再求人?平臺支持人員也無需過多參與,不再成為進度瓶頸【能力】即席查詢能力、批量處理能力、實時處理能力理能力、租戶管理能力、項目管理能力、作業(yè)管理能力、資源1)登錄,創(chuàng)建新項目,申請資源等(DO-數(shù)據(jù)擁有方)(DD-數(shù)據(jù)需求方)(DS-數(shù)據(jù)安全員)3)各方按策略依次審批2)查找選出表,選擇dataworks方式使用,填寫其他信息,申請1)登錄,創(chuàng)建新項目,申請資源等(DO-數(shù)據(jù)擁有方)(DD-數(shù)據(jù)需求方)(DS-數(shù)據(jù)安全員)3)各方按策略依次審批2)查找選出表,選擇dataworks方式使用,填寫其他信息,申請4)自助查詢或開發(fā),配置或SQL,批量或流式,配置dv,提交作業(yè)5)使用自助報表或儀表板jupyter典型案例分析:案例2—協(xié)作模型指標?業(yè)務線需要打造自己的基礎數(shù)據(jù)集市,以共享給其他業(yè)務或者前線系統(tǒng)使用?如何有效建設數(shù)據(jù)模型和管理數(shù)據(jù)模型?如何既支持自己領(lǐng)域內(nèi)數(shù)據(jù)模型建設,同時也支持數(shù)據(jù)模型的共享?數(shù)據(jù)的共享發(fā)布如何從流程上、技術(shù)上、安全上等多方面考慮?如何運營數(shù)據(jù)以確保有效數(shù)據(jù)資產(chǎn)沉淀和管理?(見下頁)?這是—個典型的數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)資產(chǎn)運營的案例,通過統(tǒng)—的協(xié)作化的模型指標管理,確保了模型可維護,指標可配置,質(zhì)量可追溯?Datastar也支持—致性維度共享、數(shù)據(jù)詞典標準化、業(yè)務線梳理等支持,可以進—步柔性支持公司統(tǒng)—數(shù)據(jù)基【能力】數(shù)據(jù)服務能力、即席查詢能力、批量處理能力產(chǎn)能力、租戶管理能力、項目管理能力、作業(yè)管理能力、1)登錄,創(chuàng)建新項目,申請資源等3)查找選出表,選擇dataworks方式使用,填寫其他信息,申請2)查找選出表,設計DW模型,推送到dataworks項目5)持續(xù)配置化維護和管理DM/APP層指標集4)基于datastar1)登錄,創(chuàng)建新項目,申請資源等3)查找選出表,選擇dataworks方式使用,填寫其他信息,申請2)查找選出表,設計DW模型,推送到dataworks項目5)持續(xù)配置化維護和管理DM/APP層指標集4)基于datastar項目開發(fā)etI,提交作業(yè),發(fā)布到datahubjupyter典型案例分析:案例3—敏捷分析挖掘?業(yè)務領(lǐng)域組數(shù)據(jù)分析團隊需要自助的進行快速數(shù)據(jù)分析挖掘?分析團隊使用工具各異,如SAS、R、python、SQL等?分析團隊往往需要原始數(shù)據(jù)進行分析(非脫敏),并且需要全歷史數(shù)據(jù)?分析團隊希望可以快速拿到需要數(shù)據(jù)(往往并不知道需要什么數(shù)據(jù)),并敏捷高效專注于數(shù)據(jù)分析本身?(見下頁)?Moonbox本身是數(shù)據(jù)虛擬化解決方案,很適合進行各種異構(gòu)數(shù)據(jù)源的即席數(shù)據(jù)讀取和計算,可以節(jié)省數(shù)據(jù)分?Datahub/DataLake提供了實時同步的全增量數(shù)據(jù)湖,還可以進行配置化脫敏加密等安全策略,為數(shù)據(jù)分析場?Moonbox還專門提供了pymb庫,以支持python用戶更容易的在安全管控下進行快速數(shù)據(jù)查看、即席計算和【能力】分析鉆取能力、數(shù)據(jù)服務能力、算法模型能力全能力、數(shù)據(jù)管理能力、租戶管理能力、項目管理能力、典型案例分析:案例3—敏捷分析挖掘1)登錄,創(chuàng)建新項目,申請資源等(DO-數(shù)據(jù)擁有方)(1)登錄,創(chuàng)建新項目,申請資源等(DO-數(shù)據(jù)擁有方)(DD-數(shù)據(jù)需求方)(DS-數(shù)據(jù)安全員)3)各方按策略依次審批2)查找選出表,選擇習慣的工

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論