




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、會(huì)計(jì)學(xué)1基于大數(shù)據(jù)的統(tǒng)計(jì)分析方法和工具基于大數(shù)據(jù)的統(tǒng)計(jì)分析方法和工具目錄背景統(tǒng)計(jì)分析方法和技術(shù)原理 主流工具案例總結(jié)第1頁/共38頁 結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù) 傳統(tǒng)數(shù)據(jù)分析與大數(shù)據(jù)分析 NoSQL的特點(diǎn)背景第2頁/共38頁背景結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù):行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù):不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。第3頁/共38頁背景傳統(tǒng)數(shù)據(jù)分析與大數(shù)據(jù)分析傳統(tǒng)數(shù)據(jù)分析大數(shù)據(jù)分析關(guān)聯(lián)性重量銷量形狀大小適合喝茶or咖啡?適合男生or女生?適合送禮?
2、第4頁/共38頁背景NoSQL的特點(diǎn)NoSQL數(shù)據(jù)庫的主要特點(diǎn):lNoSQL具有靈活的數(shù)據(jù)模型lNoSQL容易實(shí)現(xiàn)可伸縮性(向上擴(kuò)展與水平擴(kuò)展)l動(dòng)態(tài)模式第5頁/共38頁目錄概論統(tǒng)計(jì)分析方法和技術(shù)原理 主流工具案例總結(jié)第6頁/共38頁基于NoSQL的統(tǒng)計(jì)分析方法和技術(shù)原理l基于NoSQL的數(shù)據(jù)管理l傳統(tǒng)關(guān)系型數(shù)據(jù)庫向大數(shù)據(jù)處理方式的轉(zhuǎn)移統(tǒng)計(jì)分析方法和技術(shù)原理 第7頁/共38頁統(tǒng)計(jì)分析方法和技術(shù)原理 基于NoSQL的數(shù)據(jù)管理類型項(xiàng)目鍵 / 值Redis,MemcacheDB等列Cassandra,HBase等文檔MongoDB,Couchbase等圖形OrientDB,Neo4J等第8頁/共38
3、頁統(tǒng)計(jì)分析方法和技術(shù)原理 傳統(tǒng)關(guān)系型數(shù)據(jù)庫向大數(shù)據(jù)處理方式的轉(zhuǎn)移l 數(shù)據(jù)遷移工作: Apache Sqoopl 訪問接口改造: Pig Latinl 半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)l 數(shù)據(jù)統(tǒng)計(jì)分析方式改造:Hadoop第9頁/共38頁目錄概論統(tǒng)計(jì)分析方法和技術(shù)原理 主流工具案例總結(jié)第10頁/共38頁 目前,大數(shù)據(jù)分析工具在金融服務(wù)、零售、醫(yī)療衛(wèi)生/生命科學(xué)、執(zhí)法、電信、能源與公共事業(yè)、數(shù)字媒體/精準(zhǔn)營銷、交通運(yùn)輸?shù)刃袠I(yè)都有著廣泛的應(yīng)用。但縱觀國內(nèi)企業(yè),不論是國企還是民企,真正在業(yè)務(wù)決策中以數(shù)據(jù)分析結(jié)果為依據(jù)的,主要還是集中在銀行,保險(xiǎn),電信和電商等幾個(gè)行業(yè)。主流大數(shù)據(jù)統(tǒng)計(jì)分析工具第11頁/共38頁
4、成功案例案例1:民生銀行借IBM InfoSphereBigInsights應(yīng)對(duì)金融業(yè)的大數(shù)據(jù)挑戰(zhàn) IBM InfoSphereBigInsights大數(shù)據(jù)解決方案和企業(yè)級(jí)NoSQL數(shù)據(jù)庫SequoiaDB合作,為民生銀行搭建低成本、高性能、高可靠且水平擴(kuò)張的數(shù)據(jù)平臺(tái),幫助民生銀行通過大數(shù)據(jù)分析應(yīng)對(duì)金融業(yè)的大數(shù)據(jù)挑戰(zhàn),完善交易流水查詢分析系統(tǒng),產(chǎn)業(yè)鏈金融管理系統(tǒng),以及私人銀行產(chǎn)品貨架管理系統(tǒng)。 主流大數(shù)據(jù)統(tǒng)計(jì)分析工具第12頁/共38頁成功案例案例2:華為FusionInsight:招行數(shù)據(jù)生產(chǎn)力的“挖掘機(jī)” 招商銀行部署華為FusionInsight之后,構(gòu)建起基于云計(jì)算平臺(tái)的大數(shù)據(jù)應(yīng)用和分析
5、平臺(tái),實(shí)現(xiàn)7年內(nèi)海量交易歷史明細(xì)信息的實(shí)時(shí)查詢、實(shí)時(shí)征信、實(shí)時(shí)事件營銷,以及針對(duì)準(zhǔn)確客戶群的精準(zhǔn)營銷。信用卡征信時(shí)間將由2周左右降到10分鐘以內(nèi)。根據(jù)招商銀行某重要分行客戶為樣本測算,招商銀行只要發(fā)送原來數(shù)量19.6%的短信,就可以覆蓋95%最終購買的客戶。主流大數(shù)據(jù)統(tǒng)計(jì)分析工具第13頁/共38頁成功案例案例3:用友UAP成功案例大大提高波司登競爭力 波司登基于用友UAP統(tǒng)一應(yīng)用平臺(tái)的ERP系統(tǒng),打通從客戶下訂單到生產(chǎn)、倉儲(chǔ)、發(fā)運(yùn)、財(cái)務(wù)等環(huán)節(jié),構(gòu)建企業(yè)的完整的內(nèi)部管理信息系統(tǒng),提高企業(yè)的內(nèi)部協(xié)同能力,從而提高企業(yè)競爭力。并且將財(cái)務(wù)、銷售、訂單等大集中,訂單數(shù)據(jù)能實(shí)時(shí)統(tǒng)計(jì)到集團(tuán)總部,為采購業(yè)務(wù)提
6、供精確支撐,實(shí)現(xiàn)按訂單采購,保證采購原輔料能夠滿足生產(chǎn)需要,避免大量庫存積壓,也避免缺貨等風(fēng)險(xiǎn)。 主流大數(shù)據(jù)統(tǒng)計(jì)分析工具第14頁/共38頁成功案例案例4:農(nóng)行攜手曙光構(gòu)建大數(shù)據(jù)系統(tǒng)推動(dòng)業(yè)務(wù)創(chuàng)新 農(nóng)行采用曙光XData大數(shù)據(jù)一體機(jī)系統(tǒng),滿足系統(tǒng)對(duì)于并發(fā)用戶數(shù)和性能的要求,能夠支撐農(nóng)業(yè)銀行歷史數(shù)據(jù)查詢和分析業(yè)務(wù),為推動(dòng)農(nóng)行業(yè)務(wù)持續(xù)不斷創(chuàng)新奠定基礎(chǔ)。 主流大數(shù)據(jù)統(tǒng)計(jì)分析工具第15頁/共38頁成功案例案例5:九次方企業(yè)征信大數(shù)據(jù)平臺(tái)令金融交易更加簡單便攜 九次方企業(yè)征信大數(shù)據(jù)平臺(tái)利用互聯(lián)網(wǎng)大數(shù)據(jù)挖掘技術(shù)采集互聯(lián)網(wǎng)全部與企業(yè)相關(guān)的信用指標(biāo),比如企業(yè)違法違規(guī)信息、行政處罰信息、客戶投訴信息等等。同時(shí)九次方
7、還聯(lián)合20多個(gè)省市政府,協(xié)助政府搭建當(dāng)?shù)氐钠髽I(yè)征信大數(shù)據(jù)平臺(tái)獲取地方政府的數(shù)據(jù)授權(quán),通過脫敏處理之后,向銀行、小貸公司、擔(dān)保公司等客戶提供企業(yè)信用分析服務(wù)。 主流大數(shù)據(jù)統(tǒng)計(jì)分析工具第16頁/共38頁成功案例案例6:王府井百貨與百分點(diǎn)合作搭建王府井大數(shù)據(jù)平臺(tái) 在王府井百貨與百分點(diǎn)合作搭建的王府井大數(shù)據(jù)平臺(tái)將用來分析商品、用戶和業(yè)務(wù)數(shù)據(jù),以打通用戶和后端運(yùn)營的關(guān)系,構(gòu)建用戶畫像,以及分析商品的全渠道經(jīng)營狀況。其中,百分點(diǎn)幫助王府井針對(duì)線上用戶的瀏覽和購買行為,進(jìn)行數(shù)據(jù)分析,從而形成實(shí)時(shí)的商品個(gè)性化推薦和消息推送。 主流大數(shù)據(jù)統(tǒng)計(jì)分析工具第17頁/共38頁成功案例案例7:宜信金融云打造大數(shù)據(jù)變現(xiàn)超級(jí)
8、伙伴 宜信旗下的宜人貸,是利用宜信金融云平臺(tái),其極速模式將對(duì)用戶的授信時(shí)長從原來的十多分鐘壓縮到了一分鐘之內(nèi),極大提高了用戶體驗(yàn)和放款效率。宜信商通貸是基于宜信金融云推出的面向電商的一個(gè)實(shí)時(shí)授信產(chǎn)品。這種電商貸款模式通過高效整合交易數(shù)據(jù)、第三方數(shù)據(jù)以及社交網(wǎng)絡(luò)行為數(shù)據(jù),為用戶提供個(gè)性化的融資產(chǎn)品。 主流大數(shù)據(jù)統(tǒng)計(jì)分析工具第18頁/共38頁目錄概論統(tǒng)計(jì)分析方法和技術(shù)原理 主流工具案例總結(jié)第19頁/共38頁App AnalyticsGame AnalyticsMobile Ad TrackingEnterprise游戲運(yùn)營分析移動(dòng)廣告監(jiān)測企業(yè)解決方案移動(dòng)應(yīng)用統(tǒng)計(jì)分析11500+l應(yīng)用款數(shù)7.5億+
9、l累計(jì)覆蓋2500萬+l日活設(shè)備35%覆蓋lTop盈收游戲2.5億+l玩家覆蓋1000萬+l日活玩家49家l網(wǎng)盟對(duì)接40%覆蓋l行業(yè)廣告主1500萬點(diǎn)擊l日監(jiān)測點(diǎn)l 兩大一線應(yīng)用市場l 三大運(yùn)營商l 四大銀行大數(shù)據(jù)統(tǒng)計(jì)分析案例TalkingData第20頁/共38頁計(jì)算需求大數(shù)據(jù)統(tǒng)計(jì)分析案例第21頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例u開發(fā)人員少u業(yè)務(wù)方向不清晰u產(chǎn)品需求簡單u簡單、可用、快速開發(fā)u批量插入效率一般u大數(shù)據(jù)量下Schema變化難草根時(shí)代(HelloWorld)草根時(shí)代第22頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例草根時(shí)代(統(tǒng)計(jì)分析系統(tǒng)計(jì)算模型)u countu sumu group byu mu
10、lti join u distinct count草根時(shí)代第23頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例青銅時(shí)代u 基于Hadoop生態(tài)的批處理系統(tǒng)u 數(shù)據(jù)庫批量Insert/Update,壓力大u 數(shù)據(jù)庫讀壓力小u Schema 更新多青銅時(shí)代第24頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例u 大數(shù)據(jù)量 Insert/Update/Delete/優(yōu)化,均是messageu lazy式操作,自上而下逐步Flush到leaf節(jié)點(diǎn)u 天然多版本,無需做undo logu Fast insert/ Fast update,延遲小u Schema更改,例如Column增加/刪除/更改青銅時(shí)代青銅時(shí)代第25頁/共38頁大數(shù)據(jù)
11、統(tǒng)計(jì)分析案例u 大數(shù)據(jù)量插入能力,更新能力的確比較突出u InnoDB也不差,和索引、數(shù)據(jù)Layout、操作模式有關(guān)青銅時(shí)代青銅時(shí)代第26頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例黃金時(shí)代(行式到列式)u 極高的裝載速度(最高可以等于所有硬盤IO的總和,基本是極限了)u 適合大量的數(shù)據(jù)而不是小數(shù)據(jù)u 高效的壓縮率,不僅節(jié)省儲(chǔ)存空間也節(jié)省計(jì)算內(nèi)存和CPUu 非常適合做聚合操作黃金時(shí)代第27頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例u Infobrightu InfiniDBu MonetDBu Verticau 列存儲(chǔ)u AggressiveCompression(CPU/IO平衡)u shared-nothing,g
12、rid-based(并行查詢)u 多備份(高可用性)黃金時(shí)代(行式到列式)黃金時(shí)代第28頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例select avg( score ) from example where class =Junior and grade = A group by gender;黃金時(shí)代(行式到列式)黃金時(shí)代第29頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例黃金時(shí)代(行式到列式)查詢速度(ms)存儲(chǔ)能力(G)黃金時(shí)代第30頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例云端時(shí)代u Aerospike/Redisu LevelDB/RocksDBu Bitmap服務(wù),高吞吐、高隨機(jī)查詢下下誰更合適?云端時(shí)代第31頁/共38頁大數(shù)據(jù)統(tǒng)計(jì)分析案例u 列式數(shù)據(jù)庫(count/Group by)u HDFS/Kafka等文件存儲(chǔ)(scan)u 搜索引擎(文本隨機(jī)查詢)u Redis/LMDB/RocksDB等KV數(shù)據(jù)庫u 傳統(tǒng)關(guān)系型數(shù)據(jù)庫云端時(shí)代云端時(shí)代
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《問題解決(一)》(教案)西師大版四年級(jí)上冊(cè)數(shù)學(xué)
- 分?jǐn)?shù)除法(二)(教案)2024-2025學(xué)年數(shù)學(xué)五年級(jí)下冊(cè) 北師大版
- (高清版)DB45∕T 84-2021 桑蠶種保護(hù)、冷藏、浸酸技術(shù)規(guī)程
- 2025年河南省漯河市單招職業(yè)傾向性測試題庫學(xué)生專用
- 2025年湖南交通職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及參考答案
- 2024年電子漿料金漿、銀漿、銀鉑漿項(xiàng)目資金需求報(bào)告代可行性研究報(bào)告
- 2025年海南體育職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫學(xué)生專用
- 2025年度文化產(chǎn)業(yè)發(fā)展贊助合同范本
- 2025年度教育產(chǎn)業(yè)借款協(xié)議
- 2025年度書畫家簽約經(jīng)紀(jì)代理服務(wù)合同
- 2025年國家稅務(wù)總局遼寧省稅務(wù)局系統(tǒng)招聘事業(yè)單位工作人員管理單位筆試遴選500模擬題附帶答案詳解
- 2024年思想道德與政治考試題庫 (單選、多選)
- 《中國成人白內(nèi)障摘除手術(shù)指南(2023年)》解讀
- 七年級(jí)語文組名著閱讀計(jì)劃
- 常用消毒劑的分類、配制及使用課件演示幻燈片
- 2025年上半年上饒市上饒縣事業(yè)單位招考(139名)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年高考數(shù)學(xué)模擬卷(浙江專用)(解析版)
- 《臨床篇疾病概論》課件
- 2024托盤行業(yè)市場趨勢(shì)分析報(bào)告
- 碼頭安全生產(chǎn)知識(shí)培訓(xùn)
- 初中數(shù)學(xué)解《一元二次方程》100題含答案解析
評(píng)論
0/150
提交評(píng)論