大數(shù)據在金融行業(yè)中的應用_第1頁
大數(shù)據在金融行業(yè)中的應用_第2頁
大數(shù)據在金融行業(yè)中的應用_第3頁
大數(shù)據在金融行業(yè)中的應用_第4頁
大數(shù)據在金融行業(yè)中的應用_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上數(shù)據掘金-大數(shù)據在金融行業(yè)中的應用在當前大數(shù)據技術潮流中,各行各業(yè)都在不斷的探索如何應用大數(shù)據技術以解決企業(yè)面臨的問題。目前國內已有不少金融機構開始嘗試通過大數(shù)據來驅動相關金融業(yè)務運營。如下是百分點就金融行業(yè)如何應用大數(shù)據技術提出我們的見解。按照我們的經驗,企業(yè)面向消費者的應用大致可以分為運營、服務和營銷三大類,在金融行業(yè)中這三類應用的典型例子有: 運營類:歷史記錄管理、多渠道數(shù)據整合分析、產品定位分析、客戶洞察分析、客戶全生命周期分析等。 服務類:個性化坐席分配、個性化產品推薦、個性化權益匹配、個性化產品定價、客戶體驗優(yōu)化、客戶挽留等。 營銷類:互聯(lián)網獲客、產品推廣

2、、交叉銷售、社會化營銷、渠道效果分析等。大數(shù)據技術在這些應用中都可以發(fā)揮價值,其核心是通過一系列的技術手段,采集、整合和挖掘用戶全方位的數(shù)據,為每個用戶建立數(shù)據檔案,也就是常說的“用戶畫像”。大數(shù)據可應用于金融行業(yè)實時數(shù)據分析,場景包括: 在風險管理領域,可以應用于實時反欺詐、反洗錢,實時風險識別、在線授信等場景; 在渠道方面,可以應用于全渠道實時監(jiān)測、資源動態(tài)優(yōu)化配置等場景; 在用戶管理和服務領域,可以應用于在線和柜面服務優(yōu)化、客戶流失預警及挽留、個性化推薦、個性化定價等場景; 在營銷領域,可以應用于(基于互聯(lián)網用戶行為的)事件式營銷、差異化廣告投放與推廣等場景。大數(shù)據在金融業(yè)統(tǒng)計分析類應用

3、中的優(yōu)勢大數(shù)據在數(shù)據量、多種數(shù)據源、多種數(shù)據結構、復雜計算任務方面都優(yōu)于傳統(tǒng)的數(shù)據倉庫技術,這里僅舉兩個例子:a) 大量數(shù)據的運算,例如:兩張Oracle里面表數(shù)據分別是1000多萬和800多萬做8層join,放在大數(shù)據平臺運算比在Oracle里面運算至少快2倍多;b) 對于跨數(shù)據庫類型的表之間的join,例如一張Oracle的表和一張sqlserver的表,在傳統(tǒng)的數(shù)據倉庫中是沒有辦法join的??梢詫?shù)據通過sqoop等工具放到HDFS上面。利用hive,pig, impala,spark等進行更快的處理。大數(shù)據協(xié)助銀行實現(xiàn)其對客戶的多維度分析有人指出,目前銀行自身的數(shù)據難以完成客戶全維度

4、分析,那么應用大數(shù)據又能如何?首先,有幾個問題我們需要仔細思考:什么叫客戶“全維度”?有沒有可能做到“全維度”?按照百分點的理解,不存在對一個人的“全維度”的刻畫,因為我們現(xiàn)實中都做不到。您可以想象,一個人的DNA可以代表他的“全維度”嗎?或者他的所有言論可以代表他的“全維度”嗎?都不可以。我們期望的“全維度”實際上是想說最大可能的利用和挖掘手上的數(shù)據資源!基于上面的理解,我們認為銀行在大數(shù)據平臺建設過程中最需要考慮的是如何最大程度的整合所有數(shù)據源,特別是行內自有數(shù)據源,并且針對業(yè)務需求做出有價值的分析應用。其次,假設銀行要引入第三方數(shù)據,這些數(shù)據怎么利用?這些數(shù)據如何和行內數(shù)據整合發(fā)揮價值?

5、這些數(shù)據又如何轉化為客戶“全維度”分析?顯然的,第三方數(shù)據也不是直接就能“全維度”的,還是要經過一系列的數(shù)據分析和挖掘。對銀行客戶了解、并且契合銀行業(yè)務的數(shù)據一定來自于銀行業(yè)內!任何外部的數(shù)據都需要經過大量的轉換和業(yè)務解讀才能直接在銀行中使用。如果需要第三方數(shù)據支撐,銀行必須找到對金融業(yè)務有相當理解,并且已經按照銀行業(yè)務訴求分析好的數(shù)據才是有價值的。最后,按照我們的理解和實踐經驗,銀行只需要把第三方數(shù)據看做一個數(shù)據源即可,“全維度”的關鍵還是如何整合所有數(shù)據源并進行深度挖掘。在百分點的實際案例中,我們有一套自己的方法論,包括數(shù)據的集成、清洗、脫敏、多渠道整合、用戶畫像標簽建模、用戶畫像整合、用

6、戶畫像服務等幾個步驟。第三方數(shù)據是在集成階段就解決的問題,后面各階段關注點都在如何整合、挖掘和應用這些數(shù)據。相比傳統(tǒng)技術,大數(shù)據技術的優(yōu)勢如下:a) 大數(shù)據技術更關注過程數(shù)據、行為數(shù)據、非結構化數(shù)據,可以真正做到“全方位”;b) 大數(shù)據技術在實時性、數(shù)據量和并發(fā)量上有明顯優(yōu)勢,因為這些技術一開始就是為互聯(lián)網、海量數(shù)據和高并發(fā)設計的;c) 大數(shù)據技術在組件化、水平擴展方面有明顯優(yōu)勢,對業(yè)務升級和擴展支持更加平滑。如何選擇大數(shù)據技術產品選擇大數(shù)據技術產品最優(yōu)先考慮的原則是什么?大家選擇某一款大數(shù)據技術產品時,不能只關注某款產品有什么“高端”的功能,而應該關心是這款產品是否能給我們帶來價值,能解決我

7、們的業(yè)務痛點。所以大數(shù)據產品的關鍵不在于建一個大數(shù)據的平臺,然后把數(shù)據進行采集和存儲,而在于這些大數(shù)據產品能在哪些方面支撐我們的應用場景、能從數(shù)據中分析出哪些有價值的觀點、能基于數(shù)據產生哪些數(shù)據應用、如何為企業(yè)提供增值變現(xiàn)的能力。這一點,我們需要向互聯(lián)網公司學習。大數(shù)據能夠蓬勃發(fā)展正是因為互聯(lián)網行業(yè)真正讓大數(shù)據產生豐富的價值,如Google的精準廣告,亞馬遜的“千人千面”推薦等。金融是極度依賴信息化技術的行業(yè),在這個行業(yè)中,業(yè)務場景可以分為下面幾大類:1) 支撐類。例如海量數(shù)據的存儲和查詢等。2) 操作類。例如受眾人群篩選、營銷活動策劃等。3) 戰(zhàn)術類。人群分析洞察、產品輿情分析等。4) 戰(zhàn)略

8、類。運營分析報告、新業(yè)務拓展等。不存在一款產品可以支撐以上所有場景,我們在產品選型時應該盡量考慮那些可以支撐更多場景的產品,至少應該了解:1) 該產品適合的直接場景是什么?2) 該產品上已經提供的應用有哪些,支撐了哪些場景?3) 該產品上可以衍生出哪些應用,能夠支撐哪些場景?正是基于上述考慮,百分點才推出了大數(shù)據技術、大數(shù)據管理和大數(shù)據應用三層產品,每一層解決特定的業(yè)務問題,但這些產品可以像搭積木那樣輕松整合在一起。大數(shù)據平臺建設1.1 大數(shù)據平臺硬件選型大數(shù)據的特點是數(shù)據量大但往往價值稀疏,從大數(shù)據里提取價值就像是從大海里撈針,要想完成大海撈針的工作就必須提供性價比可接受的軟硬件解決方案,開

9、源Hadoop解決方案就是典型的代表,通過基于廉價x86架構服務器之上提供海量數(shù)據存儲和分析解決方案贏得互聯(lián)網界的青睞,所以,這種通過軟件層面來保證數(shù)據安全和穩(wěn)定,硬件基于標準x86標準服務器的解決方案是未來的主要方式。另外對于x86服務器的硬件選型也是需要考慮的,從實踐經驗來看,我們往往會綜合數(shù)據量、數(shù)據應用和成本提供一個平衡性的硬件配置,然后基于平衡型的硬件配置依據任務作業(yè)情況,調整硬件配置,如IO密集型可能會使用SSD&內存,CPU密集型任務則會選擇高端CPU等。1.2 大數(shù)據平臺建設最佳實踐大數(shù)據平臺建設中,Hadoop體系所包含的生態(tài)系統(tǒng),如:Hbase,Hive,snoop,pig

10、,spark等子系統(tǒng),那么如何根據各自的特性,通過組合方式來適應實際需求并應用到具體場景中呢?我們的最佳實踐是利用互聯(lián)網+大數(shù)據的技術架構,構建Lamda架構,如圖所示:1) 數(shù)據采集a) 傳統(tǒng)業(yè)務系統(tǒng)數(shù)據庫和數(shù)據集市、數(shù)據倉庫的數(shù)據,均可以通過Sqoop等數(shù)據橋接的方式接入大數(shù)據平臺,同時可以將數(shù)據庫日志、系統(tǒng)日志等非結構化文本數(shù)據通過Flume等組件接入大數(shù)據平臺。b) 銀行線上渠道(網站、APP應用、微信公眾號等)中的用戶行為可以通過數(shù)據探頭技術,Web端及H5通過JS、移動端通過SDK部碼,采集用戶行為數(shù)據;銀行線下渠道(柜面、ATM等)的用戶行為數(shù)據,需從線下接入的系統(tǒng)數(shù)據中解構分析

11、。c) 互聯(lián)網公開數(shù)據,如論壇、微博、媒體資訊等,通過數(shù)據爬取技術進行數(shù)據采集。d) 也可以利用各種API接口接入其他合作方、第三方等的在線或離線數(shù)據。2) 數(shù)據分發(fā)通過FTP或Kafka消息隊列將數(shù)據實時分發(fā),分發(fā)后分開實時數(shù)據處理和離線數(shù)據存儲和處理兩條線,形成“人”字型的Lamda架構。3) 離線數(shù)據存儲及處理基于Hadoop平臺和MpReduce技術的離線數(shù)據處理,常用的是HBase列式數(shù)據庫。4) 實時數(shù)據處理利用Storm或Spark技術的實時數(shù)據處理,例如Storm是事實流式處理,Spark(Spark Streaming)是基于內存的實時批處理。5) 數(shù)據存儲不同的數(shù)據類型、不

12、同的業(yè)務場景,需要的不同的數(shù)據存儲服務,在我們的產品中應用了Redis、MongoDB、MySQL、ElasticSearch等多種存儲服務。百分點基于此架構為銀行提供服務的典型應用場景包括:1) 用戶行為采集分析:利用數(shù)據探頭(JS、SDK,Nginx、ICE)、數(shù)據分發(fā)(Kafka)、離線數(shù)據存儲及處理(HBase)、運營分析結果展現(xiàn)(MySQL)。2) 跨部門數(shù)據整合:利用數(shù)據橋接(Sqoop)、日志接入(Flume)、數(shù)據分發(fā)(FTP)、離線數(shù)據存儲存儲及處理(HBase、ES)。3) 離線用戶畫像和用戶洞察(支持營銷):利用離線數(shù)據存儲存儲及處理(HBase、ES)。4) 實時用戶畫

13、像及推薦:利用實時數(shù)據處理(Storm、Spark)、數(shù)據存儲(Redis、MongoDB)。5) 實時反欺詐:利用數(shù)據接口(API)、數(shù)據分發(fā)(MQ)、實時數(shù)據處理(Storm)。1.3 大數(shù)據平臺和現(xiàn)有數(shù)據倉庫的有效整合目前各行都有自己的數(shù)據倉庫或數(shù)據集市平臺,而大數(shù)據平臺的引入又往往獨立于數(shù)據倉庫,對于某些場景,將結構化數(shù)據與非結構化數(shù)據進行整體結合往往能夠起到更好的效果,如何能夠將大數(shù)據平臺和現(xiàn)有數(shù)據倉庫進行有效整合?1) 非結構化數(shù)據處理與大數(shù)據應用的關系首先分享一下我們對“結構化”和“非結構化”的理解:狹義的理解:結構化就是指關系型數(shù)據,其余都是非結構化數(shù)據。廣義的理解:結構化是相

14、對于某一個程序來講的,例如視頻對于播放器來說顯然是結構化的,但是對于文本編輯器來說就是非結構化的。事實上,即使是人腦,處理的也都是“廣義的”結構化數(shù)據。你可以想象,自己在注視一張照片時,腦海中形成的一定不是一個一個像素點,而是抽象過的一些屬性!按照我們上面的理解,無論是語音、影像還是其它“狹義”的非結構化數(shù)據,只要我們有工具可以將這些數(shù)據轉化成我們關心數(shù)據結構,那就可以作為大數(shù)據應用的一個數(shù)據源,后續(xù)由針對這類數(shù)據的的特定工具處理即可。這里舉一個例子:通常我們認為HTML網頁,例如電商的單品頁面,是非結構化的,因為我很難從中提取出結構化字段,例如商品名稱、價格等。但通過互聯(lián)網抓取系統(tǒng),我們可以

15、將這些頁面轉化為結構化字段,那么后續(xù)按照結構化數(shù)據處理即可。語音、影響也是一樣,關鍵是我們期望從中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大數(shù)據應用中。在百分點的實踐中,我們已經完全整合了網頁、文本、JSON、XML等非結構化數(shù)據,部分整合了圖像和語音數(shù)據,這些內容都已經應用到了業(yè)務中。2) 大數(shù)據平臺和現(xiàn)有數(shù)據倉庫的整合現(xiàn)有的數(shù)據倉庫完全可以和大數(shù)據平臺進行整合,現(xiàn)有數(shù)據倉庫可以作為大數(shù)據平臺的一個數(shù)據源和數(shù)據應用。對于金融銀行業(yè),往往已經實施有數(shù)據倉庫,這個時候如果盲目上大數(shù)據平臺進行平臺替換往往容易造成數(shù)據混亂,所以我們提供的建議是混搭先行,逐步替換,先替換那些傳統(tǒng)手段不能

16、解決的問題,再替換那些數(shù)據倉庫已經存在的應用。現(xiàn)階段數(shù)據倉庫上下游生態(tài)圈豐富程度遠遠大于大數(shù)據生態(tài)圈,我們應該充分利用現(xiàn)有數(shù)據倉庫上下游豐富的解決方案充分發(fā)揮傳統(tǒng)數(shù)倉的價值,然后通過Hadoop等大數(shù)據產品來補充傳統(tǒng)數(shù)倉對于非結構化數(shù)據處理不足的缺陷。隨著大數(shù)據技術的發(fā)展,大數(shù)據產品(Hadoop等)各項功能和性能不斷完善,再逐步把數(shù)倉之上已有業(yè)務應用遷移到大數(shù)據平臺。常見技術問題解答1) 在Hadoop中導入Oracle的數(shù)據后,數(shù)據怎么備份?在數(shù)據導入到Hadoop中之后,數(shù)據的備份數(shù)就已經根據Hadoop的HDFS配置做了多備份(默認是3備份)。2) Oracle關系數(shù)據庫的數(shù)據怎么部署

17、Hadoop環(huán)境中使用?Oracle數(shù)據庫中的數(shù)據可以直接導入到Hadoop中,而后利用一些工具進行處理:a) Hadoop生態(tài)中有一系列的工具和組件可以在RDBMS和Hadoop間導入導出數(shù)據,例如Sqoop,這些工具或多或少會有一些坑,需要使用者注意或者找有經驗的專家指導。b) 數(shù)據處理方面,Hive、SparkSQL和Impala都是很好的SQL on Hadoop工具,它們可以滿足大部分的數(shù)據處理需求,但它們對SQL的支持不盡相同,目前也沒有任何組件能完美支持Oracle的PL/SQL。這些SQL組件無法滿足數(shù)據處理需求,一般的做法是利用其它工具,例如Pig、原生MapReduce等。

18、3) HDFS數(shù)據怎么入HbaseHDFS數(shù)據導入到HBase有三種方式:a) 可以通過普通的MR程序,在Map或者Reduce里面通過HTable的對象來寫入到HBase。b) 直接通過MR程序,用HBase的TableMapper和TableReducer方法,然后用TableMapReduceUtil類來執(zhí)行MR,和1類似。如果數(shù)據量大,建議使用bulkload的方式,通過HfileOutputFormat方法生成HFile格式的數(shù)據,再通過LoadIncrementalHfile的方法把結果加載到Hbase。出師表:先帝創(chuàng)業(yè)未半而中道崩殂,今天下三分,益州疲弊,此誠危急存亡之秋也。然侍衛(wèi)之臣不懈于內,忠志之士忘身于外者,蓋追先帝之殊遇,欲報之于陛下也。誠宜開張圣聽,以光先帝遺德,恢弘志士之氣,不宜妄自菲薄,引喻失義,以塞忠諫之路也。宮中府中,俱為一體;陟罰臧否,不宜異同。若有作奸犯科及為忠善者,宜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論