大數(shù)據(jù)產(chǎn)品及解決方案_第1頁(yè)
大數(shù)據(jù)產(chǎn)品及解決方案_第2頁(yè)
大數(shù)據(jù)產(chǎn)品及解決方案_第3頁(yè)
大數(shù)據(jù)產(chǎn)品及解決方案_第4頁(yè)
大數(shù)據(jù)產(chǎn)品及解決方案_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)產(chǎn)品及處理方案第1頁(yè)大數(shù)據(jù)背景及技術(shù)介紹第2頁(yè)全球及中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模進(jìn)入快速增長(zhǎng)久-全球大數(shù)據(jù)市場(chǎng)規(guī)模以后,企業(yè)信息化和互聯(lián)網(wǎng)應(yīng)用日益完善,對(duì)消費(fèi)者及企業(yè)內(nèi)外部所積累數(shù)據(jù)日益豐富,大數(shù)據(jù)概念快速為各類(lèi)人群所接收,起源于業(yè)務(wù)大數(shù)據(jù)應(yīng)用需求快速擴(kuò)張。進(jìn)入年后,企業(yè)深度利用數(shù)據(jù)價(jià)值意識(shí)快速提升,大數(shù)據(jù)作為新興領(lǐng)域已經(jīng)進(jìn)入應(yīng)用發(fā)展階段,技術(shù)創(chuàng)新和商業(yè)模式創(chuàng)新將推進(jìn)各行業(yè)應(yīng)用逐步成熟,應(yīng)用創(chuàng)造價(jià)值在市場(chǎng)規(guī)模中比重日益增大。數(shù)據(jù)起源:Wikibon企業(yè)數(shù)據(jù),.5CAGR:+37%-中國(guó)大數(shù)據(jù)市場(chǎng)營(yíng)收規(guī)模CAGR:+34%數(shù)據(jù)起源:易觀(guān)國(guó)際,.8行業(yè)規(guī)模增加點(diǎn)已從基礎(chǔ)設(shè)施建設(shè)向行業(yè)應(yīng)用創(chuàng)新轉(zhuǎn)變第3頁(yè)

2、中國(guó)大數(shù)據(jù)產(chǎn)業(yè)生態(tài)圖譜數(shù)據(jù)采集數(shù)據(jù)源數(shù)據(jù)搜集圖例說(shuō)明大數(shù)據(jù)建設(shè)領(lǐng)域仍被國(guó)際廠(chǎng)商占據(jù)應(yīng)用層廠(chǎng)商著眼于垂直化應(yīng)用與行業(yè)化應(yīng)用,創(chuàng)業(yè)企業(yè)不停涌現(xiàn)平臺(tái)級(jí)戰(zhàn)略受BAT和專(zhuān)業(yè)數(shù)據(jù)企業(yè)追捧數(shù)據(jù)倉(cāng)庫(kù)云存放平臺(tái)第三方數(shù)據(jù)平臺(tái)數(shù)據(jù)管理技術(shù)服務(wù)數(shù)據(jù)使用數(shù)據(jù)挖掘商業(yè)智能數(shù)據(jù)可視化垂直化應(yīng)用行業(yè)化應(yīng)用中國(guó)企業(yè)(華為、亞信)逐步替換國(guó)外廠(chǎng)家進(jìn)入基礎(chǔ)架構(gòu)服務(wù)領(lǐng)域?qū)I(yè)領(lǐng)域廠(chǎng)家進(jìn)入數(shù)據(jù)搜集細(xì)分大數(shù)據(jù)服務(wù)領(lǐng)域中國(guó)大數(shù)據(jù)生態(tài)系統(tǒng)日臻完善第4頁(yè)大數(shù)據(jù)融資案例和融資金額增加快速大數(shù)據(jù)從采集、存放、處理、分析、挖掘、展現(xiàn)各個(gè)步驟在不一樣行業(yè)都有相關(guān)應(yīng)用,國(guó)內(nèi)企業(yè)在硬件方面欠缺,廠(chǎng)家主要以行業(yè)應(yīng)用為主。數(shù)據(jù)架構(gòu)技術(shù)、商業(yè)BI和行業(yè)數(shù)據(jù)分析

3、服務(wù)成為資本主要追捧。1-7月部分大數(shù)據(jù)創(chuàng)業(yè)廠(chǎng)家融資情況時(shí)間廠(chǎng)家介紹輪次金額投資方.7.23永洪科技從事數(shù)據(jù)管理(包含ETL,DWD,DWA)和數(shù)據(jù)價(jià)值發(fā)掘(包含BI)高科技企業(yè)C2億人民幣騰訊、元生資本、東方富海、經(jīng)緯中國(guó)、艾瑞資本(艾瑞).7.14SequoiaDB 巨杉數(shù)據(jù)庫(kù)專(zhuān)注新一代大數(shù)據(jù)基礎(chǔ)架構(gòu)研發(fā),是國(guó)內(nèi)領(lǐng)先新一代分布式數(shù)據(jù)庫(kù)廠(chǎng)商。B1000萬(wàn)美金DCM中國(guó)、啟明創(chuàng)投.6.28GrowingIO假如利用 GrowingIO系統(tǒng),開(kāi)發(fā)人員將 GrowingIO SDK 植入系統(tǒng),業(yè)務(wù)人員就能夠依據(jù)業(yè)務(wù)需求定制數(shù)據(jù)采集規(guī)則。A萬(wàn)美元經(jīng)緯中國(guó)、NEA恩頤投資、Greylock Partn

4、ers.3.2海智BDP海致BDP服務(wù)客戶(hù)涵蓋互聯(lián)網(wǎng)、零售快消、制造業(yè)、金融、醫(yī)療和教育等多個(gè)行業(yè),現(xiàn)已經(jīng)為數(shù)千家企業(yè)提供了新一代云端數(shù)據(jù)分析服務(wù)。C3000萬(wàn)美元君聯(lián)資本、IDG資本、晨興資本、Wind萬(wàn)得.3.1星環(huán)科技TransWarp從事大數(shù)據(jù)時(shí)代關(guān)鍵平臺(tái)數(shù)據(jù)庫(kù)軟件研發(fā)與服務(wù)。B1.55億人民幣瑞力投資、深創(chuàng)投、基石資本.1.25TalkingData騰云天下移動(dòng)大數(shù)據(jù)服務(wù)平臺(tái);提供全方面產(chǎn)品統(tǒng)計(jì)分析服務(wù)、權(quán)威移動(dòng)行業(yè)數(shù)據(jù)解析C1億美元未透露.1.15App Annie全方面專(zhuān)業(yè)APP數(shù)據(jù),助您拓展全球應(yīng)用市場(chǎng)。馬上獲取全球APP下載量,收入和用戶(hù)行為數(shù)據(jù)。E6300萬(wàn)美元Greens

5、pring Associates、e.ventures、Greycroft Partners、Institutional Venture Partners、Sequoia Capital(紅杉海外).1.12美林?jǐn)?shù)據(jù)國(guó)內(nèi)著名工業(yè)大數(shù)據(jù)領(lǐng)軍企業(yè),重點(diǎn)面向智能電網(wǎng)、智能制造等工業(yè)領(lǐng)域企業(yè)客戶(hù),提供包含大數(shù)據(jù)產(chǎn)品與技術(shù)服務(wù)在內(nèi)大數(shù)據(jù)增值處理方案。新三板5978萬(wàn)人民幣達(dá)晨創(chuàng)投、上投摩根、璞琢資產(chǎn)、錦融投資第5頁(yè)大數(shù)據(jù)4V特征Volume非結(jié)構(gòu)化數(shù)據(jù)超大規(guī)模和增加總數(shù)據(jù)量8090%比結(jié)構(gòu)化數(shù)據(jù)增加快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)10倍到50倍Value大量不相關(guān)信息對(duì)未來(lái)趨勢(shì)與模式可預(yù)測(cè)分析深度復(fù)雜分析

6、(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能) Velocity實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見(jiàn)影而非事后見(jiàn)效 Variety大數(shù)據(jù)異構(gòu)和多樣性很多不一樣形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不顯著不連貫語(yǔ)法或句義Big Data大數(shù)據(jù)TBPBEBStreamsReal timeNear timeBatchStructuredUnstructured Semi-structuredAll the above第6頁(yè)大數(shù)據(jù)4V特征(Volume)1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相當(dāng)于50%全美學(xué)術(shù)研究圖書(shū)館藏書(shū)信息內(nèi)容5EB相當(dāng)于至今全世界人類(lèi)所講

7、過(guò)話(huà)語(yǔ)1ZB如同全世界海灘上沙子數(shù)量總和1YB相當(dāng)于7000位人類(lèi)體內(nèi)微細(xì)胞總和普通情況下,大數(shù)據(jù)是以PB、EB、ZB為單位進(jìn)行計(jì)量第7頁(yè)大數(shù)據(jù)4V特征(Velocity)82254132215327現(xiàn)在及未來(lái)幾年內(nèi)美國(guó)移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)流量增加(PB/月)源自英國(guó)Coda研究咨詢(xún)企業(yè)大數(shù)據(jù)增加速度快大數(shù)據(jù)處理速度快實(shí)時(shí)數(shù)據(jù)流處理要求,是區(qū)分大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù),BI技術(shù)關(guān)鍵差異之一;1s 是臨界點(diǎn),對(duì)于大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)形成答案,不然處理結(jié)果就是過(guò)時(shí)和無(wú)效;第8頁(yè)大數(shù)據(jù)4V特征(Variety)行業(yè)/企業(yè)內(nèi)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)起源多企業(yè)內(nèi)部多個(gè)應(yīng)用系統(tǒng)數(shù)據(jù)、互聯(lián)

8、網(wǎng)和物聯(lián)網(wǎng)興起,帶來(lái)了微博、社交網(wǎng)站、傳感器等各種起源。數(shù)據(jù)類(lèi)型多保留在關(guān)系數(shù)據(jù)庫(kù)中結(jié)構(gòu)化數(shù)據(jù)只占少數(shù),7080%數(shù)據(jù)是如圖片、音頻、視頻、模型、連接信息、文檔等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。關(guān)聯(lián)性強(qiáng)數(shù)據(jù)之間頻繁交互,比如游客在旅行途中上傳圖片和日志,就與游客位置、行程等信息有了很強(qiáng)關(guān)聯(lián)性。第9頁(yè)大數(shù)據(jù)4V特征(Value)挖掘大數(shù)據(jù)價(jià)值類(lèi)似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但寶貴信息;價(jià)值密度低,是大數(shù)據(jù)一個(gè)經(jīng)典特征;大數(shù)據(jù)不但僅是技術(shù),關(guān)鍵是產(chǎn)生價(jià)值能夠從各個(gè)層面進(jìn)行優(yōu)化,更要考慮整體第10頁(yè)大數(shù)據(jù)包括關(guān)鍵技術(shù)分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/B test; top N排行榜;地域

9、占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類(lèi);聚類(lèi)模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存放;分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等存放結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)查詢(xún)、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存放不利于檢索、查詢(xún)和存放半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存放按照非結(jié)構(gòu)化存放處理方案:第11頁(yè)大數(shù)據(jù)包括關(guān)鍵技術(shù)需求海量數(shù)據(jù)存放技術(shù)實(shí)時(shí)數(shù)據(jù)處理技術(shù)數(shù)據(jù)高速傳輸技術(shù)搜索技術(shù)描述分布式文件系統(tǒng)流計(jì)算引擎服務(wù)器/存放間高速通信文本檢索、智能搜索、實(shí)時(shí)搜索技術(shù)Had

10、oop,x86/MPPNoSQLStreaming DataInfini BandEnterpriseSearch數(shù)據(jù)分析技術(shù)Text Analytics Engine 自然語(yǔ)言處理、文本情感分析、Visual Data Modeling 機(jī)器學(xué)習(xí)、聚類(lèi)關(guān)聯(lián)、數(shù)據(jù)模型第12頁(yè)大數(shù)據(jù)(Hadoop)NoSQL數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)布署架構(gòu)水平擴(kuò)展水平擴(kuò)展大部分垂直擴(kuò)展,少數(shù)水平擴(kuò)展大部分水平擴(kuò)展數(shù)據(jù)類(lèi)型文件存放,沒(méi)有數(shù)據(jù)類(lèi)型簡(jiǎn)單數(shù)據(jù)類(lèi)型豐富數(shù)據(jù)類(lèi)型豐富數(shù)據(jù)類(lèi)型數(shù)據(jù)模型非常簡(jiǎn)陋數(shù)據(jù)模型簡(jiǎn)單靈活數(shù)據(jù)模型豐富數(shù)據(jù)模型完善豐富數(shù)據(jù)模型數(shù)據(jù)關(guān)系沒(méi)有數(shù)據(jù)關(guān)系描述非常簡(jiǎn)單數(shù)據(jù)關(guān)系描述數(shù)據(jù)關(guān)系完善數(shù)據(jù)關(guān)系完善數(shù)據(jù)一致無(wú)

11、一致性弱一致性強(qiáng)一致性強(qiáng)一致性數(shù)據(jù)安全安全性很弱安全性很弱安全性很高安全性很高計(jì)算類(lèi)型離線(xiàn)批量處理,只讀,低并發(fā)實(shí)時(shí)CRUD操作,海量并發(fā)實(shí)時(shí)CRUD操作,高并發(fā)離線(xiàn)批量處理,只讀,低并發(fā)適用場(chǎng)景低密度數(shù)據(jù)海量存放,數(shù)據(jù)預(yù)處理,預(yù)計(jì)算高并發(fā)實(shí)時(shí)在線(xiàn)交易,查詢(xún),報(bào)表高價(jià)值數(shù)據(jù)統(tǒng)一存放和計(jì)算平臺(tái)常見(jiàn)用例日志處理,用戶(hù)行為分析,搜索引擎用戶(hù)資料,微博,金融反欺詐金融賬戶(hù),電信計(jì)費(fèi),稅務(wù)等企業(yè)數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)包括關(guān)鍵技術(shù)第13頁(yè)大數(shù)據(jù)分析應(yīng)用體系主要功效與特點(diǎn)主要功效主要特點(diǎn)描述型分析預(yù)測(cè)型分析特點(diǎn)描述可視化與價(jià)值實(shí)現(xiàn)層 格式報(bào)表 即席查詢(xún) 儀表盤(pán) 移動(dòng)展示 交互視圖 趨勢(shì)圖表 移動(dòng)展示 流程視圖 交互

12、視圖 戰(zhàn)略地圖可視化與價(jià)值實(shí)現(xiàn)層 結(jié)果導(dǎo)向,可視化展示 與業(yè)務(wù)流程親密聯(lián)絡(luò),經(jīng)過(guò)動(dòng)態(tài)指標(biāo)及時(shí)進(jìn)行決議支持?jǐn)?shù)據(jù)反饋 數(shù)據(jù)分析層 多維分析 聚合分析 實(shí)時(shí)分析 關(guān)聯(lián)分析 預(yù)測(cè)分析 統(tǒng)計(jì)分析 數(shù)據(jù)挖掘 數(shù)據(jù)探索 機(jī)器學(xué)習(xí) 人工智能 人機(jī)交互大數(shù)據(jù)數(shù)據(jù)分析層: 描述型分析:考查海量歷史數(shù)據(jù),并發(fā)掘信息價(jià)值 預(yù)測(cè)型分析:利用各種統(tǒng)計(jì),建模和數(shù)據(jù)挖掘工具對(duì)歷史和最近數(shù)據(jù)進(jìn)行研究,預(yù)測(cè)未來(lái) 規(guī)范型分析:流程分析,決議支持規(guī)范型分析平臺(tái)存放層 文件系統(tǒng) 數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)集市 分布式存放 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)集市 分布式存放 內(nèi)存計(jì)算 分布式存放 伸縮計(jì)算 內(nèi)存計(jì)算 流式計(jì)算(實(shí)時(shí)) 云托管大數(shù)據(jù)平臺(tái)存放層:

13、能對(duì)海量數(shù)據(jù)進(jìn)行分布式存放 能夠可靠,高效,可伸縮和實(shí)時(shí)地進(jìn)行數(shù)據(jù)處理 能夠有效地開(kāi)發(fā)基礎(chǔ)性數(shù)據(jù)模型數(shù)據(jù)服務(wù)層數(shù)據(jù)采集數(shù)據(jù)質(zhì)量數(shù)據(jù)轉(zhuǎn)換元數(shù)據(jù)處理數(shù)據(jù)安全實(shí)時(shí)處理數(shù)據(jù)檢索大數(shù)據(jù)數(shù)據(jù)服務(wù)層: 對(duì)海量數(shù)據(jù)尤其是非結(jié)構(gòu)化數(shù)據(jù)提供數(shù)據(jù)采集、數(shù)據(jù)變換、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、實(shí)時(shí)處理、數(shù)據(jù)檢索和元數(shù)據(jù)處理等服務(wù)數(shù)據(jù)源層企業(yè)內(nèi)部數(shù)據(jù)企業(yè)外部數(shù)據(jù)第14頁(yè)大數(shù)據(jù)應(yīng)用 - 東方航空 經(jīng)過(guò)十多年數(shù)據(jù)應(yīng)用積累,東航數(shù)據(jù)倉(cāng)庫(kù)積累了大量旅客數(shù)據(jù),這些數(shù)據(jù)涵蓋了旅客在國(guó)航進(jìn)行訂座、購(gòu)票、成行、投訴、服務(wù)等各個(gè)步驟,利用這些數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建了大量分析應(yīng)用,初步建立了數(shù)據(jù)服務(wù)體系,為客戶(hù)服務(wù)提供良好支撐。 ,東航信息部成立了統(tǒng)一

14、數(shù)據(jù)應(yīng)用創(chuàng)新試驗(yàn)室,開(kāi)啟了東航大數(shù)據(jù)全方面建設(shè),并制訂了東航大數(shù)據(jù)三大戰(zhàn)略:數(shù)據(jù)、技術(shù)和思維。 年建設(shè)高性能實(shí)時(shí)數(shù)據(jù)處理平臺(tái)處理訂座。 20建立大數(shù)據(jù)云平臺(tái)。已實(shí)現(xiàn)洞察全局、變動(dòng)成本實(shí)時(shí)計(jì)算、智能倉(cāng)位控制決議支持、基于個(gè)體旅客精準(zhǔn)營(yíng)銷(xiāo)和企業(yè)管理頻道等應(yīng)用。引入外部其它行業(yè)數(shù)據(jù)、各種格式數(shù)據(jù)(非結(jié)構(gòu)化數(shù)據(jù),語(yǔ)音、視頻等等)、手機(jī)分析數(shù)據(jù),經(jīng)過(guò)計(jì)算模型鎖定適當(dāng)客戶(hù),分析推銷(xiāo)時(shí)機(jī),進(jìn)行產(chǎn)品設(shè)計(jì),實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)營(yíng)銷(xiāo)和個(gè)性化服務(wù)。同時(shí),將從內(nèi)部生產(chǎn)運(yùn)行角度轉(zhuǎn)變到單個(gè)個(gè)體數(shù)據(jù)挖掘和分析,對(duì)每個(gè)旅客進(jìn)行標(biāo)簽解析和價(jià)值挖掘,建立客戶(hù)畫(huà)像。將更多業(yè)務(wù)接入應(yīng)用實(shí)時(shí)數(shù)據(jù),實(shí)現(xiàn)應(yīng)用更精細(xì)化,支持決議。東航正主動(dòng)擁抱大數(shù)

15、據(jù),深入推進(jìn)大數(shù)據(jù)平臺(tái)建設(shè),以提升本身生產(chǎn)效率,為客戶(hù)提供最優(yōu)服務(wù),實(shí)現(xiàn)節(jié)約成本、高效運(yùn)行。 20,學(xué)習(xí)國(guó)內(nèi)外先進(jìn)大數(shù)據(jù)項(xiàng)目成功經(jīng)驗(yàn),聚焦客戶(hù)和產(chǎn)品中心,以“東方萬(wàn)里行會(huì)員”常旅客信息為基礎(chǔ),結(jié)合內(nèi)部其它應(yīng)用系統(tǒng)和新興大數(shù)據(jù),圍繞著客戶(hù)和產(chǎn)品信息建立大數(shù)據(jù)分析體系,充分挖掘信息價(jià)值,并應(yīng)用于東航應(yīng)用和服務(wù)場(chǎng)景,切實(shí)輔助其它應(yīng)用提升業(yè)務(wù)處理能力,為會(huì)員用戶(hù)提供更加好服務(wù)體驗(yàn)并實(shí)現(xiàn)會(huì)員收入提升。比如為客服提供全方位客戶(hù)視圖和推薦提議,為貴賓廳提供個(gè)性化服務(wù)提議,為領(lǐng)導(dǎo)者提供實(shí)時(shí)和預(yù)測(cè)匯報(bào),支撐領(lǐng)導(dǎo)者重大決議等。 未來(lái),伴隨數(shù)據(jù)積累不停豐富,數(shù)據(jù)量增大,數(shù)據(jù)分析技術(shù)不停加強(qiáng),大數(shù)據(jù)云平臺(tái)將更強(qiáng)勁驅(qū)動(dòng)

16、東航發(fā)展。第15頁(yè)大數(shù)據(jù)應(yīng)用國(guó)投康泰信托 信托企業(yè)在前幾年業(yè)務(wù)高速增加情況下,較少重視系統(tǒng)建設(shè)和前沿工具使用。但伴隨外部環(huán)境深刻改變,從戰(zhàn)略高度加強(qiáng)對(duì)“大數(shù)據(jù)”研究,引入“大數(shù)據(jù)”思維,為信托企業(yè)找到一條新轉(zhuǎn)型發(fā)展道路。 國(guó)投康泰信托從戰(zhàn)略層面信托企業(yè)對(duì)大數(shù)據(jù)主要需求,主要起源于信托企業(yè)在轉(zhuǎn)型時(shí)期關(guān)鍵競(jìng)爭(zhēng)力組成要素,分別是產(chǎn)品研發(fā)、風(fēng)險(xiǎn)管理、運(yùn)行決議水平。 風(fēng)險(xiǎn)管控全面性動(dòng)態(tài)性預(yù)警能力產(chǎn)品營(yíng)銷(xiāo)客戶(hù)細(xì)分精準(zhǔn)營(yíng)銷(xiāo)客戶(hù)擴(kuò)展?jié)撛诳蛻?hù)挖掘客戶(hù)挽留營(yíng)銷(xiāo)評(píng)估運(yùn)營(yíng)反饋模型修正運(yùn)營(yíng)決策產(chǎn)品研發(fā)專(zhuān)業(yè)化提升服務(wù)優(yōu)化產(chǎn)品創(chuàng)新業(yè)務(wù)模式業(yè)務(wù)能力第16頁(yè)大數(shù)據(jù)應(yīng)用金融交易大數(shù)據(jù)量化交易,程序化交易,高頻交易是大數(shù)據(jù)應(yīng)用比較

17、多領(lǐng)域。全球2/3股票交易量是由高頻交易所創(chuàng)造,參加者總收益每年高達(dá)80億美元。其中,大數(shù)據(jù)算法被用來(lái)作出交易決定。現(xiàn)在,大多數(shù)股權(quán)交易都是經(jīng)過(guò)大數(shù)據(jù)算法進(jìn)行,這些算法越來(lái)越多地開(kāi)始考慮社交媒體網(wǎng)絡(luò)和新聞網(wǎng)站信息來(lái)在幾秒內(nèi)做出買(mǎi)入和賣(mài)出決定。當(dāng)一個(gè)產(chǎn)品能夠在多個(gè)交易所交易時(shí),會(huì)形成不一樣定價(jià),在這當(dāng)中,誰(shuí)能夠最快地捕捉到同一個(gè)產(chǎn)品在不一樣交易所之間顯著價(jià)差,誰(shuí)就能捕捉到瞬間套利機(jī)會(huì),技術(shù)成為了主要原因第17頁(yè)大數(shù)據(jù)應(yīng)用消費(fèi)大數(shù)據(jù)亞馬遜 “預(yù)測(cè)式發(fā)貨”新專(zhuān)利,能夠經(jīng)過(guò)對(duì)用戶(hù)數(shù)據(jù)分析,在他們還沒(méi)有下單購(gòu)物前,提前發(fā)出包裹。這項(xiàng)技術(shù)能夠縮短發(fā)貨時(shí)間,從而降低消費(fèi)者前往實(shí)體店沖動(dòng)。從下單到收貨之間時(shí)間

18、延遲可能會(huì)降低人們購(gòu)物意愿,造成他們放棄網(wǎng)上購(gòu)物。所以,亞馬遜可能會(huì)依據(jù)之前訂單和其它原因,預(yù)測(cè)用戶(hù)購(gòu)物習(xí)慣,從而在他們實(shí)際下單前便將包裹發(fā)出。依據(jù)該專(zhuān)利文件,即使包裹會(huì)提前從亞馬遜發(fā)出,但在用戶(hù)正式下單前,這些包裹仍會(huì)暫存在快遞企業(yè)轉(zhuǎn)運(yùn)中心或卡車(chē)?yán)?。亞馬遜為了決定要運(yùn)輸哪些貨物,亞馬遜可能會(huì)參考之前訂單、商品搜索統(tǒng)計(jì)、愿望清單、購(gòu)物車(chē),甚至包含用戶(hù)鼠標(biāo)在某件商品上懸停時(shí)間。第18頁(yè)FlexInsight產(chǎn)品及方案介紹第19頁(yè)平臺(tái)關(guān)鍵架構(gòu)圖準(zhǔn)實(shí)時(shí)采集批量采集Hadoop平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)分布式數(shù)據(jù)庫(kù)數(shù)據(jù)采集(預(yù)處理、ETL、流處理等)存放處理層采集層數(shù)據(jù)分析探索層用戶(hù)管理安全管理基礎(chǔ)分析數(shù)據(jù)挖掘多維

19、分析客戶(hù)流失分析客戶(hù)畫(huà)像報(bào)表應(yīng)用專(zhuān)題分析日志,互聯(lián)網(wǎng)視頻,圖片等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)航空數(shù)據(jù)金融數(shù)據(jù)科技數(shù)據(jù)其它業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)源分布式文件系統(tǒng) HDFS結(jié)構(gòu)化數(shù)據(jù)HBaseM/R SparkHive非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)服務(wù)層權(quán)限管理數(shù)據(jù)管理精準(zhǔn)營(yíng)銷(xiāo)風(fēng)控預(yù)警市場(chǎng)團(tuán)體風(fēng)控團(tuán)體營(yíng)銷(xiāo)團(tuán)體決議團(tuán)體大數(shù)據(jù)團(tuán)體機(jī)器學(xué)習(xí)業(yè)務(wù)板塊應(yīng)用系統(tǒng)應(yīng)用平臺(tái)管理主數(shù)據(jù)管理數(shù)據(jù)安全管控?cái)?shù)據(jù)質(zhì)量管控實(shí)時(shí)采集系統(tǒng)運(yùn)維團(tuán)體元數(shù)據(jù)管理用戶(hù)管理數(shù)據(jù)共享交換統(tǒng)一指標(biāo)數(shù)據(jù)運(yùn)行管理互聯(lián)網(wǎng)數(shù)據(jù)展示層第20頁(yè)數(shù)據(jù)采集存放及處理Hadoop數(shù)據(jù)集市報(bào)表數(shù)據(jù)標(biāo)簽庫(kù)客戶(hù)畫(huà)像專(zhuān)題數(shù)據(jù)主題數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)明細(xì)數(shù)據(jù)層 (DW)輕度匯總層高度

20、匯總層應(yīng)用庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)接口SQLFTPHSQLRESTAPI數(shù)據(jù)采集互聯(lián)網(wǎng)數(shù)據(jù)視頻圖片非結(jié)構(gòu)化數(shù)據(jù)CRMERPHROA業(yè)務(wù)數(shù)據(jù)庫(kù)。結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)源采集層精準(zhǔn)營(yíng)銷(xiāo)個(gè)性化推薦風(fēng)險(xiǎn)預(yù)警指標(biāo)數(shù)據(jù)數(shù)據(jù)表聚合其它應(yīng)用第21頁(yè)分層存放及處理架構(gòu)暫時(shí)層貼源層增量數(shù)據(jù)全量明細(xì)表維度表存放層匯聚層輕量匯總表聚合明細(xì)表多維模型表機(jī)器學(xué)習(xí)數(shù)據(jù)主題層報(bào)表數(shù)據(jù)多維分析數(shù)據(jù)風(fēng)控?cái)?shù)據(jù)客戶(hù)流失數(shù)據(jù)客戶(hù)標(biāo)簽表ETL匯總關(guān)聯(lián)分析挖掘數(shù)據(jù)共享多層存放多層處理第22頁(yè)大數(shù)據(jù)應(yīng)用分析平臺(tái)存放分析架構(gòu)數(shù)據(jù)分析平臺(tái)大量數(shù)據(jù)時(shí)刻處于動(dòng)態(tài)改變之中。針對(duì)數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用各層采取對(duì)應(yīng)技術(shù)策略進(jìn)行處理,保障大容量數(shù)據(jù)快速有序,最大程度降

21、低各層之間相互影響,使這些海量數(shù)據(jù)處于最優(yōu)存放狀態(tài),可快速響應(yīng)各種應(yīng)用需求。1、大數(shù)據(jù)接入層:Flume分布式數(shù)據(jù)抓取,并同時(shí)處理數(shù)據(jù)規(guī)則校驗(yàn)和ETL數(shù)據(jù)清洗,提升數(shù)據(jù)接入速度。2、大數(shù)據(jù)存放層:采取HDFS分布式文件系統(tǒng)、Hive數(shù)據(jù)倉(cāng)庫(kù)工具。同時(shí)采取分庫(kù)、分區(qū)、分表技術(shù),對(duì)大容量數(shù)據(jù)進(jìn)行深入分解成小數(shù)據(jù),并結(jié)合并行處理技術(shù)。3、大數(shù)據(jù)處理層:Spark工具,提升數(shù)據(jù)抽取和運(yùn)算效率,保障數(shù)據(jù)處理高效性、高容錯(cuò)性以及高擴(kuò)展性。4、結(jié)果數(shù)據(jù)存放層:使用Qracle/mysql,Redis對(duì)數(shù)據(jù)應(yīng)用采取分離技術(shù),外部應(yīng)用和大數(shù)據(jù)處理層隔離開(kāi),降低外部訪(fǎng)問(wèn)對(duì)數(shù)據(jù)處理影響。第23頁(yè)數(shù)據(jù)源采集方案數(shù)據(jù)源

22、采集適配器是一個(gè)驅(qū)動(dòng)和解析器,用來(lái)接收、解析各種不用類(lèi)型數(shù)據(jù)源數(shù)據(jù),將有效元數(shù)據(jù)存入模型,并建立關(guān)系。平臺(tái)集成了kettle,sqoop,flume,kafka,F(xiàn)TP等各種工具,支持各種數(shù)據(jù)采集場(chǎng)景Kettle是一款國(guó)外開(kāi)源ETL工具,純java編寫(xiě),能夠在Window、Linux、Unix上運(yùn)行,數(shù)據(jù)抽取高效穩(wěn)定。經(jīng)過(guò)提供一個(gè)圖形化操作環(huán)境,使用戶(hù)取得更加好體驗(yàn)。Kettle集群提供彈性可控分布式ETL,使用對(duì)稱(chēng)加密AES保護(hù)數(shù)據(jù)安全數(shù)據(jù)同時(shí)采取開(kāi)源Sqoop 來(lái)實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)和oracle、db2、HBASE 高效數(shù)據(jù)同時(shí)。Flume是Cloudera提供一個(gè)高可用,高可靠,分布式海量日

23、志采集、聚合和傳輸系統(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于搜集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接收方(可定制)能力Kafka經(jīng)過(guò)Hadoop并行加載機(jī)制來(lái)統(tǒng)一線(xiàn)上和離線(xiàn)消息處理,也是為了經(jīng)過(guò)集群機(jī)來(lái)提供實(shí)時(shí)消費(fèi)FTP支持批量數(shù)據(jù)文件采集數(shù)據(jù)安全保險(xiǎn)箱對(duì)數(shù)據(jù)進(jìn)行加密、敏感數(shù)據(jù)處理以及異常檢測(cè)提供stream流處理引擎,支持實(shí)時(shí)流數(shù)據(jù)接入及處理第24頁(yè)存放處理層主數(shù)據(jù)倉(cāng)庫(kù)邏輯架構(gòu)CRM現(xiàn)有業(yè)務(wù)系統(tǒng)ETL調(diào)度Flume宏觀(guān)政策/經(jīng)濟(jì)社交網(wǎng)絡(luò)其它信息非/半結(jié)構(gòu)化數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)Kafka實(shí)時(shí)接收非結(jié)構(gòu)化處理日志處理影像存放文本分析圖計(jì)算結(jié)構(gòu)化數(shù)據(jù)處理統(tǒng)一管控平臺(tái)

24、實(shí)時(shí)決議平臺(tái)(Spark Streaming)流式處理實(shí)時(shí)研判自助分析平臺(tái)(SQL)自助報(bào)表交互探索數(shù)據(jù)探索平臺(tái)(scala/R/java)統(tǒng)計(jì)預(yù)測(cè)模型發(fā)覺(jué)離線(xiàn)批處理平臺(tái)(SQL)數(shù)據(jù)加工主題模型ERPHRFinance貼源層輕度匯總層元數(shù)據(jù)管理明細(xì)層數(shù)據(jù)質(zhì)量管理主題模型層作業(yè)調(diào)度管理檢索平臺(tái)(SQL)明細(xì)查詢(xún)綜合搜索T+0 T+1數(shù)據(jù)應(yīng)用層數(shù)據(jù)計(jì)算層FTP第25頁(yè)存放處理層Hadoop平臺(tái)Apache SPARK:分布式內(nèi)存計(jì)算引擎基于內(nèi)存Map/Reduce計(jì)算引擎,即將成為新一代主流計(jì)算框架。處理大數(shù)據(jù)像“光速”一樣快,比Hadoop Map/Reduce快10 x倍。HDFS:分布式文

25、件系統(tǒng)有較強(qiáng)容錯(cuò)性可在x86平臺(tái)上運(yùn)行,降低總體成本可擴(kuò)展,能構(gòu)建大規(guī)模應(yīng)用HBase:非結(jié)構(gòu)化NoSQl分布式數(shù)據(jù)庫(kù) 基于分布式文件系統(tǒng)HDFS,確保數(shù)據(jù)安全列式存放,節(jié)約存放空間提供大數(shù)據(jù)量高速讀寫(xiě)操作Hive:分布式關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)可保留在HDFS,可提供海量數(shù)據(jù)存放類(lèi)SQL查詢(xún)語(yǔ)句,提供大數(shù)據(jù)統(tǒng)計(jì)和分析操作,適合海量數(shù)據(jù)批處理經(jīng)過(guò)MapReduce實(shí)現(xiàn)大規(guī)劃并行計(jì)算并行計(jì)算平臺(tái)提供了海量數(shù)據(jù)分布式存放與處理框架?;诜?wù)器當(dāng)?shù)赜?jì)算與存放資源,并行計(jì)算集群能夠擴(kuò)展到上千臺(tái)服務(wù)器。同時(shí),并行計(jì)算平臺(tái)在設(shè)計(jì)時(shí)充分考慮了硬件設(shè)備不可靠原因,在軟件層面提供數(shù)據(jù)和計(jì)算高可靠確保。HBaseApac

26、he SparkMapReduceHiveHDFS快速數(shù)據(jù)讀取大數(shù)據(jù)存放統(tǒng)計(jì)復(fù)雜計(jì)算并行處理第26頁(yè)數(shù)據(jù)服務(wù)層-機(jī)器學(xué)習(xí)及人工智能算法Distributed Execution Engine 分布式執(zhí)行引擎Association Mining關(guān)聯(lián)/推薦Classification分類(lèi)算法Clustering聚類(lèi)算法Sequential Analysis時(shí)序分析Regression回歸算法Deep Learning深度機(jī)器學(xué)習(xí)DimensionReduction主成份分析Statistics統(tǒng)計(jì)算法Belief Network信念網(wǎng)絡(luò)Decision Methods決議方法Sampling采樣算

27、法Discriminate Analysis判別分析Q-Learning增強(qiáng)學(xué)習(xí)Graph Inference圖推理Factor Analysis因子分析Genetic Algorithm遺傳算法R Language Interface R語(yǔ)言接口Java Language InterfaceJava 語(yǔ)言接口Scala Language InterfaceScala 語(yǔ)言接口Hadoop 分布式系統(tǒng)推薦系統(tǒng)風(fēng)險(xiǎn)分析反欺詐文本分類(lèi)第27頁(yè)數(shù)據(jù)服務(wù)層數(shù)據(jù)共享對(duì)外接口數(shù)據(jù)共享服務(wù)(生產(chǎn))數(shù)據(jù)共享服務(wù)(測(cè)試)DWMPPHadoop后臺(tái)服務(wù)系統(tǒng)管理服務(wù)目錄(Web)支持中心(Web)數(shù)據(jù)訪(fǎng)問(wèn)數(shù)據(jù)源適配

28、(JDBC/HDFS/)數(shù)據(jù)訂閱異步調(diào)用任務(wù)管理文檔中心(Web)APP管理系統(tǒng)監(jiān)控安全管理日志管理對(duì)外接口層:對(duì)外提供服務(wù),包含生產(chǎn)環(huán)境數(shù)據(jù)開(kāi)放API(REST/API)、測(cè)試環(huán)境數(shù)據(jù)開(kāi)放API(REST/API)、對(duì)外服務(wù)目錄(Web)、文檔中心(Web)、支持中心(Web)等后臺(tái)服務(wù)層:對(duì)對(duì)外接口層提供數(shù)據(jù)支撐,包含數(shù)據(jù)訪(fǎng)問(wèn)服務(wù)、數(shù)據(jù)訂閱服務(wù)、異步調(diào)用服務(wù)、任務(wù)管理、數(shù)據(jù)源適配。系統(tǒng)管理層:提供APP管理、系統(tǒng)監(jiān)控、安全管理、日志管理等功效,其中,API管理功效包含API公布、API更新公告第28頁(yè)成功案例第29頁(yè)某航空企業(yè)大數(shù)據(jù)分析平臺(tái)LRFMC模型數(shù)據(jù)清洗提取采取K-均值聚類(lèi)算法對(duì)客戶(hù)數(shù)據(jù)進(jìn)行客戶(hù)分群客群特征分析客群分類(lèi)特征制訂營(yíng)銷(xiāo)策略主要保持客戶(hù)(客戶(hù)群1)主要發(fā)展客戶(hù)(客戶(hù)群2)主要挽留客戶(hù)(客戶(hù)群3)普通價(jià)值客戶(hù)(客戶(hù)群4、5)第30頁(yè)某證券交易所上市企業(yè)新聞?shì)浨榉治鱿到y(tǒng)天天經(jīng)過(guò)爬蟲(chóng)系統(tǒng)獲取源數(shù)據(jù)約400-500萬(wàn)條數(shù)據(jù),新聞數(shù)據(jù)約30萬(wàn)條。對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)分類(lèi)聚合、情感分析、事件追蹤等分析。第31頁(yè)上海某信托企業(yè)大數(shù)據(jù)分析平臺(tái)1、基于歷

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論