版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第三章大數(shù)據(jù)相關(guān)技術(shù)Bigdatarelatedtechnologies大數(shù)據(jù)金融CONTENTS01大數(shù)據(jù)存儲(chǔ)bigdatastorage02大數(shù)據(jù)處理與計(jì)算Bigdataprocessingandcomputing03大數(shù)據(jù)挖掘方法Bigdataminingmethods大數(shù)據(jù)存儲(chǔ)bigdatastorage第一節(jié)一、分布式文件系統(tǒng)分布式文件系統(tǒng)需要解決的關(guān)鍵技術(shù)問題包括可擴(kuò)展性、數(shù)據(jù)冗余性、數(shù)據(jù)一致性、緩存等。常見的分布式文件系統(tǒng)有GFS、HDFS、Lustre、Ceph等,它們各自適用于不同的領(lǐng)域,其中GFS和HDFS最具有代表性。一、分布式文件系統(tǒng)(一)HDFS系統(tǒng)的概念和特性
第一,HDFS系統(tǒng)是一個(gè)文件系統(tǒng),用于存儲(chǔ)文件,通過統(tǒng)一的命名空間——目錄樹來定位文件。
第二,HDFS系統(tǒng)是分布式的,由很多服務(wù)器聯(lián)合起來實(shí)現(xiàn)其功能,集群中的服務(wù)器有各自的角色。一、分布式文件系統(tǒng)(一)HDFS系統(tǒng)的概念和特性不支持文件隨機(jī)寫入。需要客戶端與HDFS交互。適合大文件讀取場景。吞吐和并發(fā)能力具備可橫向擴(kuò)展性不適合高響應(yīng)系統(tǒng)一、分布式文件系統(tǒng)(二)HDFS的結(jié)構(gòu)1.NameNodeNameNode是一個(gè)通常在HDFS實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。2.DataNodeDataNode也是一個(gè)獨(dú)立運(yùn)行的軟件。通常以機(jī)架的形式組織,機(jī)架通過一個(gè)交換機(jī)將所有系統(tǒng)連接起來。3.ClientClient一般用于實(shí)現(xiàn)客戶端文件存儲(chǔ)的所有操作,包括文件的增刪以及查詢等。一、分布式文件系統(tǒng)(三)HDFS文件寫入與讀取(1)客戶端創(chuàng)建的文件,然后Client通過RPC方式與NameNode通信,創(chuàng)建一個(gè)新文件映射關(guān)系。(2)客戶端寫數(shù)據(jù):FSDataOutputStream把寫入的數(shù)據(jù)分成包(packet)并放入一個(gè)中間隊(duì)列——數(shù)據(jù)隊(duì)列(dataqueue)中。(3)FSDataOutputStream也維護(hù)著確認(rèn)隊(duì)列(ackqueue)。(4)所有文件寫入完成后,關(guān)閉文件寫入流。二、非關(guān)系型分布式數(shù)據(jù)庫非關(guān)系型分布式數(shù)據(jù)庫(notonlysQL,NoSQL)是分布式存儲(chǔ)的主要技術(shù)。相比于傳統(tǒng)數(shù)據(jù)庫,它的主要特點(diǎn)包括易擴(kuò)展、靈活的數(shù)據(jù)模型、高可用性、大數(shù)據(jù)量、高性能等。(一)NoSQL簡介與特性
1.不需要預(yù)定義模式
2.BASE特性
3.分區(qū)
4.異步復(fù)制
5.彈性可擴(kuò)展二、非關(guān)系型分布式數(shù)據(jù)庫(二)NoSQL的分類1.列存儲(chǔ)數(shù)據(jù)庫
(1)HBase基于HadoopHDFSappend方式進(jìn)行數(shù)據(jù)追加操作,非常適合列族文件存儲(chǔ)架構(gòu)。
(2)HBase寫請(qǐng)求,都會(huì)先寫redolog,然后更新內(nèi)存中的緩存。
(3)當(dāng)某一列的MapFile數(shù)量超過配置的閾值時(shí),一個(gè)后臺(tái)線程就開始將現(xiàn)有的MapFile合并為一個(gè)文件,這個(gè)操作稱為Compaction。
(4)讀操作會(huì)先檢查緩存,若未命中,則從最新的MapFile開始,依次往最老的MapFile找數(shù)據(jù)。二、非關(guān)系型分布式數(shù)據(jù)庫(二)NoSQL的分類
列存儲(chǔ)數(shù)據(jù)庫鍵值存儲(chǔ)數(shù)據(jù)庫文檔型數(shù)據(jù)庫圖數(shù)據(jù)庫1234三、虛擬存儲(chǔ)技術(shù)與云存儲(chǔ)技術(shù)(一)虛擬存儲(chǔ)技術(shù)虛擬存儲(chǔ)技術(shù)是指將存儲(chǔ)系統(tǒng)的內(nèi)部功能從應(yīng)用程序、計(jì)算服務(wù)器、網(wǎng)絡(luò)資源中進(jìn)行抽象、隱藏或隔離,最終使其獨(dú)立于應(yīng)用程序、網(wǎng)絡(luò)存儲(chǔ)與數(shù)據(jù)管理。(二)云存儲(chǔ)技術(shù)云存儲(chǔ)是一種以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng),它是指利用集群應(yīng)用、分布式文件和網(wǎng)絡(luò)技術(shù)系統(tǒng)等功能,通過應(yīng)用軟件協(xié)同網(wǎng)絡(luò)中大量的各種不同類型的存儲(chǔ)設(shè)備,共同建設(shè)一個(gè)具有數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的系統(tǒng),以保證數(shù)據(jù)的安全性,節(jié)約存儲(chǔ)空間。大數(shù)據(jù)處理與計(jì)算Bigdataprocessingandcomputing第二節(jié)一、基于并行計(jì)算的分布式數(shù)據(jù)處理技術(shù)HadoopMapReduce是一種分布式海量數(shù)據(jù)處理框架。它采用主從結(jié)構(gòu),在一個(gè)MapReduce集群中有一個(gè)控制節(jié)點(diǎn)和多個(gè)工作節(jié)點(diǎn)。設(shè)計(jì)思想:其一,大規(guī)模數(shù)據(jù)并行處理,即“分而治之”的思想;其二,MapReduce編程模型;其三,分布式運(yùn)行時(shí)環(huán)境。二、分布式內(nèi)存計(jì)算處理技術(shù)對(duì)于一些需要快速實(shí)時(shí)分析的業(yè)務(wù)操作,需要快速地對(duì)最新的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析處理。在線實(shí)時(shí)分析計(jì)算框架是為集群計(jì)算中特定類型的工作負(fù)載而設(shè)計(jì)的,引進(jìn)了內(nèi)存集群計(jì)算的概念。Spark引進(jìn)了名為彈性分布式數(shù)據(jù)集(resilientdistributeddatasets,RDD)的抽象。RDD是分布在一組節(jié)點(diǎn)中的只讀對(duì)象集合。這些集合是彈性的,如果數(shù)據(jù)集的一部分丟失,則可以對(duì)它們進(jìn)行重建。三、分布式流處理技術(shù)對(duì)于現(xiàn)在大量存在的實(shí)時(shí)數(shù)據(jù),如股票交易數(shù)據(jù),實(shí)時(shí)性強(qiáng)、數(shù)據(jù)量大且不間斷,這種實(shí)時(shí)數(shù)據(jù)被稱為流數(shù)據(jù)。(一)流式數(shù)據(jù)的概念流式數(shù)據(jù)是指所產(chǎn)生的數(shù)據(jù)不是批量地傳輸過來,而是連續(xù)不斷地像水一樣流過來。1.靜態(tài)數(shù)據(jù)2.動(dòng)態(tài)數(shù)據(jù)3.實(shí)時(shí)處理三、分布式流處理技術(shù)(二)流式數(shù)據(jù)源傳感器數(shù)據(jù)圖像數(shù)據(jù)互聯(lián)網(wǎng)及Web流量流媒體傳輸三、分布式流處理技術(shù)(三)大數(shù)據(jù)的計(jì)算模式1.大數(shù)據(jù)流式計(jì)算模型在流式計(jì)算中,無法確定數(shù)據(jù)的到來時(shí)刻和到來順序,也無法將全部數(shù)據(jù)存儲(chǔ)起來。因此,不再進(jìn)行流式數(shù)據(jù)的硬盤存儲(chǔ),而是當(dāng)流動(dòng)的數(shù)據(jù)到來之后在內(nèi)存中直接進(jìn)行數(shù)據(jù)的實(shí)時(shí)輸入、實(shí)時(shí)計(jì)算、實(shí)時(shí)輸出。三、分布式流處理技術(shù)(三)大數(shù)據(jù)的計(jì)算模式2.流式計(jì)算與批量計(jì)算的比較大數(shù)據(jù)挖掘方法Bigdataminingmethods.第三節(jié)一、數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(datamining,DM)是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中提取出隱含在其中的、人們事先不知道的、具有潛在利用價(jià)值的信息和知識(shí)的過程。數(shù)據(jù)挖掘的特點(diǎn):(1)數(shù)據(jù)量巨大(2)動(dòng)態(tài)性(3)適用性(4)系統(tǒng)性二、數(shù)據(jù)挖掘的原理數(shù)據(jù)挖掘的實(shí)質(zhì)是綜合應(yīng)用各種技術(shù),對(duì)與業(yè)務(wù)相關(guān)的數(shù)據(jù)進(jìn)行一系列科學(xué)的處理,這個(gè)過程中需要用到數(shù)據(jù)庫、應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息科學(xué)、程序開發(fā)及其他學(xué)科。三、數(shù)據(jù)挖掘常用的方法數(shù)據(jù)挖掘常用方法01分類分析02回歸分析06序列分析05聚類分析03預(yù)測04關(guān)聯(lián)分析07偏差分析三、數(shù)據(jù)挖掘常用的方法(一)分類分析分類分析是指運(yùn)用訓(xùn)練數(shù)據(jù)集,通過分析數(shù)據(jù)的特征和運(yùn)用一定的算法求得分類規(guī)則,該分類規(guī)則就是數(shù)據(jù)分類的模型。1.決策樹分類法決策樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無次序、規(guī)則的實(shí)例中推理出以決策樹表示的分類規(guī)則。三、數(shù)據(jù)挖掘常用的方法(一)分類分析2.貝葉斯分類法貝葉斯分類法是利用統(tǒng)計(jì)學(xué)中的貝葉斯定理來預(yù)測類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定的類的概率。3.k-近鄰分類法k-近鄰分類法不是事先通過數(shù)據(jù)來選好分類模型,再對(duì)未知樣本進(jìn)行分類,而是存儲(chǔ)帶有標(biāo)記的樣本集,給一個(gè)沒有標(biāo)記的樣本,用樣本集中k個(gè)與之相近的樣本對(duì)其進(jìn)行即時(shí)分類。k-近鄰分類法就是找出k個(gè)相似的樣本來建立目標(biāo)函數(shù)逼近。三、數(shù)據(jù)挖掘常用的方法(二)回歸分析1.線性回歸線性回歸是利用數(shù)理統(tǒng)計(jì)中的回歸分析來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛。2.Logistic回歸分析Logistic回歸模型是一種概率模型,適合于病例對(duì)照研究、隨訪研究和橫斷面研究,且結(jié)果發(fā)生的變量取值必須是二分的或多項(xiàng)分類。三、數(shù)據(jù)挖掘常用的方法(三)預(yù)測三、數(shù)據(jù)挖掘常用的方法(四)關(guān)聯(lián)分析關(guān)聯(lián)分析主要用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系,所發(fā)現(xiàn)的聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式表示。1.Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集2.基于劃分的算法3.FP-樹頻集算法三、數(shù)據(jù)挖掘常用的方法(五)聚類分析聚類是根據(jù)相似度將數(shù)據(jù)分組,使同一聚類內(nèi)的個(gè)體距離較近或變異較小、不同聚類間的個(gè)體距離較遠(yuǎn)或變異較大。其中,相似度可以利用不同的距離或相關(guān)來定義。三、數(shù)據(jù)挖掘常用的方法(六)序列分析序列分析是對(duì)序列數(shù)據(jù)進(jìn)行分析以發(fā)現(xiàn)蘊(yùn)藏其中的模式和規(guī)律。序列數(shù)據(jù)和時(shí)間序列都是連續(xù)的觀測值,觀測值之間相互依賴。(七)偏差分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024三本環(huán)保項(xiàng)目合同環(huán)境責(zé)任與法律責(zé)任對(duì)比3篇
- 用房產(chǎn)抵押借款協(xié)議
- 高中生物 有機(jī)化合物及生物大分子3教學(xué)實(shí)錄 浙科版必修1
- 2024版建筑工程圍板供應(yīng)與施工合同3篇
- 2024至2030年中國塑料隔膜閥行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024年人參產(chǎn)業(yè)投資基金投資協(xié)議書3篇
- 2024版企業(yè)環(huán)境責(zé)任保險(xiǎn)法律服務(wù)合同范本3篇
- 2024年度土地承包經(jīng)營權(quán)入股投資合作協(xié)議范本3篇
- 2024年度醫(yī)療機(jī)構(gòu)設(shè)備采購與維護(hù)服務(wù)合同5篇
- 2024年度軟件許可及技術(shù)支持服務(wù)合同一家美國軟件公司與中國一家科技公司之間的軟件許可和技術(shù)支持服務(wù)合同,標(biāo)的為500萬美元3篇
- 2024至2030年中國肉食鵝數(shù)據(jù)監(jiān)測研究報(bào)告
- 中國高血壓防治指南(2024年修訂版)核心要點(diǎn)解讀
- 花道-插花技藝養(yǎng)成學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 工程質(zhì)量安全手冊(cè)-住建部編
- 部編版二年級(jí)語文上冊(cè)第七單元質(zhì)量評(píng)價(jià)試卷(含答案)
- 2024網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例全文解讀課件
- 2024年2024婚內(nèi)財(cái)產(chǎn)協(xié)議書模板正規(guī)范本
- 《縣級(jí)(區(qū)域)醫(yī)療資源集中化運(yùn)行規(guī)范 第1部分:集中審方中心(征求意見稿)》編制說明
- 現(xiàn)澆混凝土樁板墻施工方案
- 分布式光伏發(fā)電項(xiàng)目EPC總承包 投標(biāo)方案(技術(shù)方案)
- 紡織設(shè)備科技創(chuàng)新與產(chǎn)業(yè)升級(jí)考核試卷
評(píng)論
0/150
提交評(píng)論