《大數(shù)據(jù)金融》課件第3章大數(shù)據(jù)相關(guān)技術(shù)

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-12-21 格式：PPTX 頁數(shù)：31 大小：8.93MB 積分：12 舉報(bào) 版權(quán)申訴

《大數(shù)據(jù)金融》課件第3章大數(shù)據(jù)相關(guān)技術(shù)_第2頁

《大數(shù)據(jù)金融》課件第3章大數(shù)據(jù)相關(guān)技術(shù)_第3頁

《大數(shù)據(jù)金融》課件第3章大數(shù)據(jù)相關(guān)技術(shù)_第4頁

《大數(shù)據(jù)金融》課件第3章大數(shù)據(jù)相關(guān)技術(shù)_第5頁

已閱讀5頁，還剩26頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三章大數(shù)據(jù)相關(guān)技術(shù)Bigdatarelatedtechnologies大數(shù)據(jù)金融CONTENTS01大數(shù)據(jù)存儲(chǔ)bigdatastorage02大數(shù)據(jù)處理與計(jì)算Bigdataprocessingandcomputing03大數(shù)據(jù)挖掘方法Bigdataminingmethods大數(shù)據(jù)存儲(chǔ)bigdatastorage第一節(jié)一、分布式文件系統(tǒng)分布式文件系統(tǒng)需要解決的關(guān)鍵技術(shù)問題包括可擴(kuò)展性、數(shù)據(jù)冗余性、數(shù)據(jù)一致性、緩存等。常見的分布式文件系統(tǒng)有GFS、HDFS、Lustre、Ceph等，它們各自適用于不同的領(lǐng)域，其中GFS和HDFS最具有代表性。一、分布式文件系統(tǒng)（一）HDFS系統(tǒng)的概念和特性

第一，HDFS系統(tǒng)是一個(gè)文件系統(tǒng)，用于存儲(chǔ)文件，通過統(tǒng)一的命名空間——目錄樹來定位文件。

第二，HDFS系統(tǒng)是分布式的，由很多服務(wù)器聯(lián)合起來實(shí)現(xiàn)其功能，集群中的服務(wù)器有各自的角色。一、分布式文件系統(tǒng)（一）HDFS系統(tǒng)的概念和特性不支持文件隨機(jī)寫入。需要客戶端與HDFS交互。適合大文件讀取場景。吞吐和并發(fā)能力具備可橫向擴(kuò)展性不適合高響應(yīng)系統(tǒng)一、分布式文件系統(tǒng)（二）HDFS的結(jié)構(gòu)1.NameNodeNameNode是一個(gè)通常在HDFS實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。2.DataNodeDataNode也是一個(gè)獨(dú)立運(yùn)行的軟件。通常以機(jī)架的形式組織，機(jī)架通過一個(gè)交換機(jī)將所有系統(tǒng)連接起來。3.ClientClient一般用于實(shí)現(xiàn)客戶端文件存儲(chǔ)的所有操作，包括文件的增刪以及查詢等。一、分布式文件系統(tǒng)（三）HDFS文件寫入與讀取（1）客戶端創(chuàng)建的文件，然后Client通過RPC方式與NameNode通信，創(chuàng)建一個(gè)新文件映射關(guān)系。（2）客戶端寫數(shù)據(jù)：FSDataOutputStream把寫入的數(shù)據(jù)分成包（packet）并放入一個(gè)中間隊(duì)列——數(shù)據(jù)隊(duì)列（dataqueue）中。（3）FSDataOutputStream也維護(hù)著確認(rèn)隊(duì)列（ackqueue）。（4）所有文件寫入完成后，關(guān)閉文件寫入流。二、非關(guān)系型分布式數(shù)據(jù)庫非關(guān)系型分布式數(shù)據(jù)庫（notonlysQL，NoSQL）是分布式存儲(chǔ)的主要技術(shù)。相比于傳統(tǒng)數(shù)據(jù)庫，它的主要特點(diǎn)包括易擴(kuò)展、靈活的數(shù)據(jù)模型、高可用性、大數(shù)據(jù)量、高性能等。（一）NoSQL簡介與特性

1.不需要預(yù)定義模式

2.BASE特性

3.分區(qū)

4.異步復(fù)制

5.彈性可擴(kuò)展二、非關(guān)系型分布式數(shù)據(jù)庫（二）NoSQL的分類1.列存儲(chǔ)數(shù)據(jù)庫

（1）HBase基于HadoopHDFSappend方式進(jìn)行數(shù)據(jù)追加操作，非常適合列族文件存儲(chǔ)架構(gòu)。

（2）HBase寫請(qǐng)求，都會(huì)先寫redolog，然后更新內(nèi)存中的緩存。

（3）當(dāng)某一列的MapFile數(shù)量超過配置的閾值時(shí)，一個(gè)后臺(tái)線程就開始將現(xiàn)有的MapFile合并為一個(gè)文件，這個(gè)操作稱為Compaction。

（4）讀操作會(huì)先檢查緩存，若未命中，則從最新的MapFile開始，依次往最老的MapFile找數(shù)據(jù)。二、非關(guān)系型分布式數(shù)據(jù)庫（二）NoSQL的分類

列存儲(chǔ)數(shù)據(jù)庫鍵值存儲(chǔ)數(shù)據(jù)庫文檔型數(shù)據(jù)庫圖數(shù)據(jù)庫1234三、虛擬存儲(chǔ)技術(shù)與云存儲(chǔ)技術(shù)（一）虛擬存儲(chǔ)技術(shù)虛擬存儲(chǔ)技術(shù)是指將存儲(chǔ)系統(tǒng)的內(nèi)部功能從應(yīng)用程序、計(jì)算服務(wù)器、網(wǎng)絡(luò)資源中進(jìn)行抽象、隱藏或隔離，最終使其獨(dú)立于應(yīng)用程序、網(wǎng)絡(luò)存儲(chǔ)與數(shù)據(jù)管理。（二）云存儲(chǔ)技術(shù)云存儲(chǔ)是一種以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)，它是指利用集群應(yīng)用、分布式文件和網(wǎng)絡(luò)技術(shù)系統(tǒng)等功能，通過應(yīng)用軟件協(xié)同網(wǎng)絡(luò)中大量的各種不同類型的存儲(chǔ)設(shè)備，共同建設(shè)一個(gè)具有數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的系統(tǒng)，以保證數(shù)據(jù)的安全性，節(jié)約存儲(chǔ)空間。大數(shù)據(jù)處理與計(jì)算Bigdataprocessingandcomputing第二節(jié)一、基于并行計(jì)算的分布式數(shù)據(jù)處理技術(shù)HadoopMapReduce是一種分布式海量數(shù)據(jù)處理框架。它采用主從結(jié)構(gòu)，在一個(gè)MapReduce集群中有一個(gè)控制節(jié)點(diǎn)和多個(gè)工作節(jié)點(diǎn)。設(shè)計(jì)思想:其一，大規(guī)模數(shù)據(jù)并行處理，即“分而治之”的思想;其二，MapReduce編程模型;其三，分布式運(yùn)行時(shí)環(huán)境。二、分布式內(nèi)存計(jì)算處理技術(shù)對(duì)于一些需要快速實(shí)時(shí)分析的業(yè)務(wù)操作，需要快速地對(duì)最新的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析處理。在線實(shí)時(shí)分析計(jì)算框架是為集群計(jì)算中特定類型的工作負(fù)載而設(shè)計(jì)的，引進(jìn)了內(nèi)存集群計(jì)算的概念。Spark引進(jìn)了名為彈性分布式數(shù)據(jù)集（resilientdistributeddatasets，RDD）的抽象。RDD是分布在一組節(jié)點(diǎn)中的只讀對(duì)象集合。這些集合是彈性的，如果數(shù)據(jù)集的一部分丟失，則可以對(duì)它們進(jìn)行重建。三、分布式流處理技術(shù)對(duì)于現(xiàn)在大量存在的實(shí)時(shí)數(shù)據(jù)，如股票交易數(shù)據(jù)，實(shí)時(shí)性強(qiáng)、數(shù)據(jù)量大且不間斷，這種實(shí)時(shí)數(shù)據(jù)被稱為流數(shù)據(jù)。（一）流式數(shù)據(jù)的概念流式數(shù)據(jù)是指所產(chǎn)生的數(shù)據(jù)不是批量地傳輸過來，而是連續(xù)不斷地像水一樣流過來。1.靜態(tài)數(shù)據(jù)2.動(dòng)態(tài)數(shù)據(jù)3.實(shí)時(shí)處理三、分布式流處理技術(shù)（二）流式數(shù)據(jù)源傳感器數(shù)據(jù)圖像數(shù)據(jù)互聯(lián)網(wǎng)及Web流量流媒體傳輸三、分布式流處理技術(shù)（三）大數(shù)據(jù)的計(jì)算模式1.大數(shù)據(jù)流式計(jì)算模型在流式計(jì)算中，無法確定數(shù)據(jù)的到來時(shí)刻和到來順序，也無法將全部數(shù)據(jù)存儲(chǔ)起來。因此，不再進(jìn)行流式數(shù)據(jù)的硬盤存儲(chǔ)，而是當(dāng)流動(dòng)的數(shù)據(jù)到來之后在內(nèi)存中直接進(jìn)行數(shù)據(jù)的實(shí)時(shí)輸入、實(shí)時(shí)計(jì)算、實(shí)時(shí)輸出。三、分布式流處理技術(shù)（三）大數(shù)據(jù)的計(jì)算模式2.流式計(jì)算與批量計(jì)算的比較大數(shù)據(jù)挖掘方法Bigdataminingmethods.第三節(jié)一、數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘（datamining，DM）是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中提取出隱含在其中的、人們事先不知道的、具有潛在利用價(jià)值的信息和知識(shí)的過程。數(shù)據(jù)挖掘的特點(diǎn):（1）數(shù)據(jù)量巨大（2）動(dòng)態(tài)性（3）適用性（4）系統(tǒng)性二、數(shù)據(jù)挖掘的原理數(shù)據(jù)挖掘的實(shí)質(zhì)是綜合應(yīng)用各種技術(shù)，對(duì)與業(yè)務(wù)相關(guān)的數(shù)據(jù)進(jìn)行一系列科學(xué)的處理，這個(gè)過程中需要用到數(shù)據(jù)庫、應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息科學(xué)、程序開發(fā)及其他學(xué)科。三、數(shù)據(jù)挖掘常用的方法數(shù)據(jù)挖掘常用方法01分類分析02回歸分析06序列分析05聚類分析03預(yù)測04關(guān)聯(lián)分析07偏差分析三、數(shù)據(jù)挖掘常用的方法（一）分類分析分類分析是指運(yùn)用訓(xùn)練數(shù)據(jù)集，通過分析數(shù)據(jù)的特征和運(yùn)用一定的算法求得分類規(guī)則，該分類規(guī)則就是數(shù)據(jù)分類的模型。1.決策樹分類法決策樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法，它著眼于從一組無次序、規(guī)則的實(shí)例中推理出以決策樹表示的分類規(guī)則。三、數(shù)據(jù)挖掘常用的方法（一）分類分析2.貝葉斯分類法貝葉斯分類法是利用統(tǒng)計(jì)學(xué)中的貝葉斯定理來預(yù)測類成員的概率，即給定一個(gè)樣本，計(jì)算該樣本屬于一個(gè)特定的類的概率。3.k-近鄰分類法k-近鄰分類法不是事先通過數(shù)據(jù)來選好分類模型，再對(duì)未知樣本進(jìn)行分類，而是存儲(chǔ)帶有標(biāo)記的樣本集，給一個(gè)沒有標(biāo)記的樣本，用樣本集中k個(gè)與之相近的樣本對(duì)其進(jìn)行即時(shí)分類。k-近鄰分類法就是找出k個(gè)相似的樣本來建立目標(biāo)函數(shù)逼近。三、數(shù)據(jù)挖掘常用的方法（二）回歸分析1.線性回歸線性回歸是利用數(shù)理統(tǒng)計(jì)中的回歸分析來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法，運(yùn)用十分廣泛。2.Logistic回歸分析Logistic回歸模型是一種概率模型，適合于病例對(duì)照研究、隨訪研究和橫斷面研究，且結(jié)果發(fā)生的變量取值必須是二分的或多項(xiàng)分類。三、數(shù)據(jù)挖掘常用的方法（三）預(yù)測三、數(shù)據(jù)挖掘常用的方法（四）關(guān)聯(lián)分析關(guān)聯(lián)分析主要用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系，所發(fā)現(xiàn)的聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式表示。1.Apriori算法：使用候選項(xiàng)集找頻繁項(xiàng)集2.基于劃分的算法3.FP-樹頻集算法三、數(shù)據(jù)挖掘常用的方法（五）聚類分析聚類是根據(jù)相似度將數(shù)據(jù)分組，使同一聚類內(nèi)的個(gè)體距離較近或變異較小、不同聚類間的個(gè)體距離較遠(yuǎn)或變異較大。其中，相似度可以利用不同的距離或相關(guān)來定義。三、數(shù)據(jù)挖掘常用的方法（六）序列分析序列分析是對(duì)序列數(shù)據(jù)進(jìn)行分析以發(fā)現(xiàn)蘊(yùn)藏其中的模式和規(guī)律。序列數(shù)據(jù)和時(shí)間序列都是連續(xù)的觀測值，觀測值之間相互依賴。（七）偏差分

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)金融》課件第3章大數(shù)據(jù)相關(guān)技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

《大數(shù)據(jù)金融》 課件 第3章大數(shù)據(jù)相關(guān)技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《大數(shù)據(jù)金融》課件第3章大數(shù)據(jù)相關(guān)技術(shù)