中央財經(jīng)大學(xué)《金融科技學(xué)》教材課件PPT第6章大數(shù)據(jù)與機器學(xué)習(xí)原理_第1頁
中央財經(jīng)大學(xué)《金融科技學(xué)》教材課件PPT第6章大數(shù)據(jù)與機器學(xué)習(xí)原理_第2頁
中央財經(jīng)大學(xué)《金融科技學(xué)》教材課件PPT第6章大數(shù)據(jù)與機器學(xué)習(xí)原理_第3頁
中央財經(jīng)大學(xué)《金融科技學(xué)》教材課件PPT第6章大數(shù)據(jù)與機器學(xué)習(xí)原理_第4頁
中央財經(jīng)大學(xué)《金融科技學(xué)》教材課件PPT第6章大數(shù)據(jù)與機器學(xué)習(xí)原理_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、金融科技學(xué)第六章 金融大數(shù)據(jù)與機器學(xué)習(xí)原理本講導(dǎo)讀大數(shù)據(jù)概論二一機器學(xué)習(xí)原理三第6章 大數(shù)據(jù)與機器學(xué)習(xí)原理金融大數(shù)據(jù)分析方法四五本講小結(jié)本講導(dǎo)讀明確學(xué)習(xí)目標01熟悉本講結(jié)構(gòu)與主要內(nèi)容02梳理本講與其他各講的聯(lián)系03推薦參考文獻0401明確學(xué)習(xí)目標一、本講導(dǎo)讀可以掌握大數(shù)據(jù)的特征;了解大數(shù)據(jù)可視化、大數(shù)據(jù)分布式并行計算、大數(shù)據(jù)軟件工具;掌握金融大數(shù)據(jù)的數(shù)據(jù)獲取方式、預(yù)處理方法以及關(guān)聯(lián)分析初步知識;掌握機器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)的概念及種類,了解強化學(xué)習(xí)的概念;一、本講導(dǎo)讀本講需要識記的基本概念大數(shù)據(jù)大數(shù)據(jù)技術(shù)監(jiān)督學(xué)習(xí)非監(jiān)督學(xué)習(xí)決策樹支撐向量機人工神經(jīng)網(wǎng)絡(luò)貝葉斯方法機器學(xué)習(xí)集成學(xué)習(xí)流形學(xué)習(xí)半監(jiān)

2、督學(xué)習(xí)聚類降維強化學(xué)習(xí)機器學(xué)習(xí)的挑戰(zhàn)與原則機器學(xué)習(xí)介紹金融大數(shù)據(jù)時代一、本講導(dǎo)讀大數(shù)據(jù)與機器學(xué)習(xí)原理金融大數(shù)據(jù)分析方法大數(shù)據(jù)概論機器學(xué)習(xí)原理可視化、分布式并行處理和工具軟件金融大數(shù)據(jù)的獲取機器學(xué)習(xí)分類金融大數(shù)據(jù)的預(yù)處理02熟悉本講結(jié)構(gòu)與主要內(nèi)容金融大數(shù)據(jù)的關(guān)聯(lián)分析6大數(shù)據(jù)特征03梳理本講與其他各講的聯(lián)系一、本講導(dǎo)讀電報與計算機技術(shù)帶來的金融創(chuàng)新(對應(yīng)第一章)金融科技企業(yè)利用大數(shù)據(jù)等技術(shù)優(yōu)化運營,降低了經(jīng)驗成本。包括服務(wù)于共享金融、銀行記賬、移動支付等領(lǐng)域(對應(yīng)第三-八章)通過機器學(xué)習(xí)模型,運用訓(xùn)練得到的模型進行風(fēng)險預(yù)測,設(shè)立智能投資顧問(對應(yīng)第九、十章)現(xiàn)代征信系統(tǒng)已經(jīng)從過去小數(shù)據(jù)模型研發(fā)和評

3、分,轉(zhuǎn)變?yōu)橐劳写髷?shù)據(jù),進行立體化和可復(fù)制的形式進行綜合評價(對應(yīng)十五章)704推薦參考文獻一、本講導(dǎo)讀段永朝. 北大講義:互聯(lián)網(wǎng)思想十講. 北京:商務(wù)印書館,2014.任昱衡,李倩星,米曉飛. 數(shù)據(jù)挖掘:你必須知道的32個經(jīng)典案例. 北京:電子工業(yè)出版社,2016.周志華. 機器學(xué)習(xí). 北京:清華大學(xué)出版社,2016. 李航統(tǒng)計學(xué)習(xí)方法Element of statistics learningB站金融科技工具箱第5章 區(qū)塊鏈、通證經(jīng)濟與加密貨幣設(shè)計原理大數(shù)據(jù)概論本講導(dǎo)讀一二機器學(xué)習(xí)原理三金融大數(shù)據(jù)分析方法四五本講小結(jié)大數(shù)據(jù)概論金融迎來大數(shù)據(jù)時代01大數(shù)據(jù)特征02可視化、分布式并行處理和工具軟

4、件0301金融迎來大數(shù)據(jù)時代二、大數(shù)據(jù)概述02大數(shù)據(jù)特征二、大數(shù)據(jù)概述大數(shù)據(jù)特征可以從5個不同視角來體現(xiàn),分別是數(shù)據(jù)量、種類、價值、速度和可靠性。這五個角度對應(yīng)的英文分別是Volume、Variety、Value、Velocity和Veracity ,因此,大數(shù)據(jù)的特征可以稱為“5V”特征從學(xué)術(shù)分析而言,大數(shù)據(jù)強調(diào)的是數(shù)據(jù)寬而非長,變量多而非樣本量大從實踐角度而言,大數(shù)據(jù)一般指單計算機無法處理的數(shù)據(jù)量03大數(shù)據(jù)的技術(shù)環(huán)節(jié)二、大數(shù)據(jù)概述數(shù)據(jù)管理數(shù)據(jù)獲取數(shù)據(jù)分析結(jié)果展示挑戰(zhàn)與特點:多樣化高頻率攻防互搏技術(shù)與工具傳感器結(jié)構(gòu)化方法爬蟲挑戰(zhàn)與特點:多樣化與高頻率讀寫同步與更新防容災(zāi)與可靠性技術(shù)與工具云計

5、算分布式計算文件系統(tǒng)挑戰(zhàn)與特點:大糙變技術(shù)與工具特征工程機器學(xué)習(xí)深度學(xué)習(xí)挑戰(zhàn)與特點:高維度與人的理解信息爆炸與注意力交互性技術(shù)與工具可視化工具自媒體03可視化核心二、大數(shù)據(jù)概述數(shù)據(jù)可視化是藝術(shù)也是科學(xué)03數(shù)據(jù)可視化二、大數(shù)據(jù)概述數(shù)據(jù)可視化的定義是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究。其中,這種數(shù)據(jù)的視覺表現(xiàn)形式被定義為,一種以某種概要形式抽提出來的信息,包括相應(yīng)信息單位的各種屬性和變量。展示給他人美觀的標準不一樣,學(xué)術(shù)的要有學(xué)術(shù)范,商業(yè)化的但這里核心是表達自己的觀點而非精準客觀可視化是對數(shù)據(jù)結(jié)果最簡單粗暴的打扮圖片之外的形式交互式的網(wǎng)頁視頻、短視頻、動圖自己畫圖,幫助我們理解、發(fā)現(xiàn)圖美觀在其次,

6、要鮮明,要自動化,要快速03可視化工具二、大數(shù)據(jù)概述高維度數(shù)據(jù)可視化圖數(shù)據(jù)可視化交互式展現(xiàn)/zh/index.html03云計算架構(gòu)二、大數(shù)據(jù)概述基礎(chǔ)設(shè)施即服務(wù)(IaaS)平臺即服務(wù)(PaaS)軟件即服務(wù)(SaaS)03云計算的基本思想:MapReduce二、大數(shù)據(jù)概述不要去選任何大數(shù)據(jù)架構(gòu)課程:Hadoop、Spark、Apache Beam第5章 區(qū)塊鏈、通證經(jīng)濟與加密貨幣設(shè)計原理金融大數(shù)據(jù)分析方法本講導(dǎo)讀一三機器學(xué)習(xí)原理二大數(shù)據(jù)概論四五本講小結(jié)金融大數(shù)據(jù)分析方法金融大數(shù)據(jù)的獲取01金融大數(shù)據(jù)的預(yù)處理02金融大數(shù)據(jù)的關(guān)聯(lián)分析0301金融大數(shù)據(jù)的獲?。簜鹘y(tǒng)數(shù)據(jù)+三、金融大數(shù)據(jù)分析技術(shù)的提升讓

7、傳統(tǒng)數(shù)據(jù)獲取有著更大的變化01金融大數(shù)據(jù)的獲?。簜鞲衅髋c非結(jié)構(gòu)化數(shù)據(jù)三、金融大數(shù)據(jù)分析豐富的傳感器讓非結(jié)構(gòu)化數(shù)據(jù)可以獲取01金融大數(shù)據(jù)的獲?。号老x?三、金融大數(shù)據(jù)分析真正的爬蟲vs我們的采集器定義與目的量級與效率規(guī)則與實踐大數(shù)據(jù)不可能被爬蟲獲得量級問題價值問題成本問題02金融大數(shù)據(jù)的預(yù)處理(特征工程)三、金融大數(shù)據(jù)分析數(shù)據(jù)和特征是上限,算法和訓(xùn)練是逼近這個上限結(jié)構(gòu)化:encoding & embedding將非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像、語言、音樂)結(jié)構(gòu)化Encoding 和 embedding之間的差別?預(yù)處理:preprocessing清洗數(shù)據(jù),填補缺失值變量加工:transform將數(shù)據(jù)變形

8、為更適合預(yù)測的形態(tài)特征選擇:feature selection基于理論/經(jīng)驗的單變量評估基于統(tǒng)計的多變量評估基于機器學(xué)習(xí)的多變量評估特征工程:為最終目的服務(wù)雖然是為了預(yù)測,但其實特征工程是一個在預(yù)測能力與可解釋性之間權(quán)衡的“遺老”03金融大數(shù)據(jù)的關(guān)聯(lián)分析三、金融大數(shù)據(jù)分析第5章 區(qū)塊鏈、通證經(jīng)濟與加密貨幣設(shè)計原理機器學(xué)習(xí)原理本講導(dǎo)讀一四金融發(fā)數(shù)據(jù)分析方法二大數(shù)據(jù)概論三五本講小結(jié)機器學(xué)習(xí)原理機器學(xué)習(xí)介紹01機器學(xué)習(xí)分類02機器學(xué)習(xí)的挑戰(zhàn)與原則0301何為“學(xué)習(xí)”四、機器學(xué)習(xí)原理01機器如何學(xué)習(xí)四、機器學(xué)習(xí)原理機器學(xué)習(xí):基于數(shù)據(jù),通過計算的結(jié)果,提升部分的表現(xiàn)MLdataPerformance m

9、easure存在生成的規(guī)律:使得表現(xiàn)可以提升,且這種提升是有意義的計算適中:一方面不存在簡單規(guī)律(物理),另一方面在計算能力以內(nèi)存在數(shù)據(jù):有足夠的數(shù)據(jù)來描述pattern。(N,b,data)含義:幫助我們決策是否應(yīng)當使用機器學(xué)習(xí)01概念對比四、機器學(xué)習(xí)原理機器學(xué)習(xí) vs 大數(shù)據(jù)大數(shù)據(jù)在更多時候是商業(yè)概念,是宣傳所用,不應(yīng)成為學(xué)術(shù)用語大數(shù)據(jù)有的大,數(shù)據(jù)量大為復(fù)雜算法帶來可能,bN使得部分算法得到重視機器學(xué)習(xí) vs 人工智能人工智能的概念范疇要比機器學(xué)習(xí)更大,機器學(xué)習(xí)只是一種實現(xiàn)方式類似的“實踐經(jīng)驗”,靠譜的人工智能都有了更落地的名字機器學(xué)習(xí) vs 統(tǒng)計學(xué)二者關(guān)系相當復(fù)雜,這里面又有頻率學(xué)派、貝

10、葉斯學(xué)派的恩怨糾葛機器學(xué)習(xí)相當多的理論基礎(chǔ)、算法基于統(tǒng)計學(xué),但機器學(xué)習(xí)始終在統(tǒng)計學(xué)的繩子上起伏機器學(xué)習(xí) vs 計量經(jīng)濟學(xué)從技術(shù)而言,計量經(jīng)濟學(xué)大部分方法是機器學(xué)習(xí)中的一小部分從目的上講,機器學(xué)習(xí)的終極目標在于模擬數(shù)據(jù)生成模式,做出預(yù)測,實現(xiàn)操作上的“大一統(tǒng)”。計量經(jīng)濟學(xué)的目的在于衡量因果、衡量影響,單純的預(yù)測不足以滿足。計量應(yīng)是對理論結(jié)果的驗證而非DM02以訓(xùn)練目標為分類四、機器學(xué)習(xí)原理有標簽的數(shù)據(jù):有監(jiān)督學(xué)習(xí)有部分數(shù)據(jù)帶標簽:半監(jiān)督學(xué)習(xí)無標簽的數(shù)據(jù):無監(jiān)督數(shù)據(jù)理論上無法給出標簽 & 實踐上無法給出標簽聚類問題;密度估計;異常檢測有部分/隱含的標簽:強化學(xué)習(xí)02以輸出結(jié)果為分類四、機器學(xué)習(xí)原理

11、輸出空間為離散:二分類、多分類輸出空間為連續(xù):回歸輸出結(jié)果為結(jié)構(gòu)化:結(jié)構(gòu)學(xué)習(xí) (文本樹)輸出結(jié)果為輸入02以訓(xùn)練過程為分類四、機器學(xué)習(xí)原理一次性喂所有數(shù)據(jù):Batch 批處理一個個喂數(shù)據(jù):online上面二者的結(jié)合:mini-batch讓算法自己吃自助:Active Learning02以數(shù)據(jù)類型為分類四、機器學(xué)習(xí)原理特征數(shù)據(jù):有具體的含義原始數(shù)據(jù):圖像、聲音本身抽象(abstract)數(shù)據(jù):無意義的uid,主成分,其他中間結(jié)果03抽樣問題 garbage in garbage out四、機器學(xué)習(xí)原理03過擬合四、機器學(xué)習(xí)原理03維度詛咒四、機器學(xué)習(xí)原理03原則-奧卡姆剃刀四、機器學(xué)習(xí)原理03原則-盡可能多的抽樣四、機器學(xué)習(xí)原理03原則-嚴防數(shù)據(jù)泄露四、機器學(xué)習(xí)原理第5章 區(qū)塊鏈、通證經(jīng)濟與加密貨幣設(shè)計原理本講小結(jié)本講導(dǎo)讀一五金融發(fā)數(shù)據(jù)分析方法二大數(shù)據(jù)概論三四機器學(xué)習(xí)原理01本講小節(jié)五、本講小結(jié)1、隨著大數(shù)據(jù)時代的到來,金融業(yè)業(yè)迎來了大數(shù)據(jù)的時代。大數(shù)據(jù)存在五個視角下的特征。大數(shù)據(jù)的技術(shù)環(huán)節(jié)包括數(shù)據(jù)獲取、數(shù)據(jù)管理、數(shù)據(jù)分析、結(jié)果展示結(jié)果流程。數(shù)據(jù)的可視化是核心,圍繞其有一些工具和架構(gòu)2、豐富的傳感器讓非結(jié)構(gòu)化金融大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論