大數(shù)據(jù)與NOSql概述_第1頁
大數(shù)據(jù)與NOSql概述_第2頁
大數(shù)據(jù)與NOSql概述_第3頁
大數(shù)據(jù)與NOSql概述_第4頁
大數(shù)據(jù)與NOSql概述_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、n信息技術(shù)部大數(shù)據(jù)與NOSql概述(2016年12月18日)第2頁主要內(nèi)容 大數(shù)據(jù)的大數(shù)據(jù)的4V特征特征 大數(shù)據(jù)的系統(tǒng)要求大數(shù)據(jù)的系統(tǒng)要求 大數(shù)據(jù)的典型架構(gòu)大數(shù)據(jù)的典型架構(gòu) 大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的應(yīng)用 大數(shù)據(jù)的發(fā)展大數(shù)據(jù)的發(fā)展第3頁主要內(nèi)容第4頁大數(shù)據(jù)的定義大數(shù)據(jù)(大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要是需要新處理模式新處理模式才能具有才能具有更強(qiáng)的決策力、洞察發(fā)更強(qiáng)的決策力、洞察發(fā)現(xiàn)力現(xiàn)力和和流程優(yōu)化能力的海量、高增長率和多樣化的流程優(yōu)化能力的海量、高增長率和

2、多樣化的信息資產(chǎn)。信息資產(chǎn)。在維克托在維克托邁爾邁爾-舍恩伯格及肯尼斯舍恩伯格及肯尼斯庫克耶編寫的庫克耶編寫的大數(shù)據(jù)時(shí)代大數(shù)據(jù)時(shí)代2 中中大數(shù)據(jù)指不用隨機(jī)分析法大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑(抽樣調(diào)查)這樣捷徑,而,而采用所有數(shù)據(jù)進(jìn)行分析采用所有數(shù)據(jù)進(jìn)行分析處理處理。第5頁大數(shù)據(jù)的4V特征 Volume(海量)、(海量)、Variety(多樣)、(多樣)、Velocity(實(shí)時(shí))、(實(shí)時(shí))、Value(價(jià)值價(jià)值)海量海量數(shù)據(jù)量巨大,對數(shù)據(jù)量巨大,對TB、PB數(shù)據(jù)級的處理,數(shù)據(jù)級的處理, 已經(jīng)成為已經(jīng)成為基本配置?;九渲?。多樣多樣處理多樣性的數(shù)據(jù)類型,處理多樣性的數(shù)據(jù)類型,結(jié)構(gòu)化數(shù)

3、據(jù)和非結(jié)構(gòu)化數(shù)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)據(jù),能處理,能處理Web數(shù)據(jù),能處理語音數(shù)據(jù)甚至是圖像、視頻數(shù)數(shù)據(jù),能處理語音數(shù)據(jù)甚至是圖像、視頻數(shù)據(jù)。據(jù)。實(shí)時(shí)實(shí)時(shí)在客戶每次瀏覽頁面,每次下訂單的過程中都存在,在客戶每次瀏覽頁面,每次下訂單的過程中都存在,都會需要對用戶進(jìn)行實(shí)時(shí)的推薦,決策已經(jīng)變得實(shí)時(shí)都會需要對用戶進(jìn)行實(shí)時(shí)的推薦,決策已經(jīng)變得實(shí)時(shí)價(jià)值價(jià)值價(jià)值密度低,商業(yè)價(jià)值高。一條數(shù)小時(shí)的監(jiān)控視頻,價(jià)值密度低,商業(yè)價(jià)值高。一條數(shù)小時(shí)的監(jiān)控視頻,可能有用的數(shù)據(jù)僅有一兩秒。能從海量數(shù)據(jù)中發(fā)掘出這些數(shù)可能有用的數(shù)據(jù)僅有一兩秒。能從海量數(shù)據(jù)中發(fā)掘出這些數(shù)據(jù),將成為企業(yè)競爭力的重要來源。據(jù),將成為企業(yè)競爭力的重要

4、來源。第6頁大數(shù)據(jù)的系統(tǒng)需求高新能(高新能( High performance )高并發(fā)讀寫高并發(fā)讀寫實(shí)時(shí)動態(tài)獲取和更新數(shù)據(jù)實(shí)時(shí)動態(tài)獲取和更新數(shù)據(jù)海量存儲(海量存儲(Huge Storage )海量數(shù)據(jù)的高效率存儲和訪問海量數(shù)據(jù)的高效率存儲和訪問類似類似SNS網(wǎng)站網(wǎng)站 高可擴(kuò)展性和高可用性高可擴(kuò)展性和高可用性( High Scalability & High Availability )需要擁有快速橫向擴(kuò)展能力需要擁有快速橫向擴(kuò)展能力能提供能提供7*24小時(shí)不間斷服務(wù)小時(shí)不間斷服務(wù)第7頁大數(shù)據(jù)典型架構(gòu)第8頁大數(shù)據(jù)典型架構(gòu)第9頁大數(shù)據(jù)典型架構(gòu)數(shù)據(jù)計(jì)算用時(shí)對比 離線計(jì)算離線計(jì)算 流式計(jì)算流

5、式計(jì)算 實(shí)時(shí)計(jì)算實(shí)時(shí)計(jì)算 第10頁大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)與互聯(lián)網(wǎng)大大交易數(shù)據(jù):來自電商的數(shù)據(jù),包括交易數(shù)據(jù):來自電商的數(shù)據(jù),包括B2B、B2C、C2C、團(tuán)購等、團(tuán)購等大交互數(shù)據(jù):來自社交網(wǎng)絡(luò)的數(shù)據(jù),大交互數(shù)據(jù):來自社交網(wǎng)絡(luò)的數(shù)據(jù),SNS、微博等、微博等兩類數(shù)據(jù)有效融合將是大勢所趨兩類數(shù)據(jù)有效融合將是大勢所趨,更,更能增強(qiáng)企業(yè)的商業(yè)洞察力能增強(qiáng)企業(yè)的商業(yè)洞察力第11頁大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)與金融大數(shù)據(jù)與金融銀行銀行第12頁大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)與金融大數(shù)據(jù)與金融保險(xiǎn)保險(xiǎn)第13頁大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)與金融大數(shù)據(jù)與金融證券證券股價(jià)預(yù)測股價(jià)預(yù)測客戶關(guān)系管理客戶關(guān)系管理投資景氣指數(shù)分析投資景氣指數(shù)分析第

6、14頁大數(shù)據(jù)的發(fā)展第15頁什么是什么是NoSQL? NoSQL是是Not Only SQL的縮寫,而不是的縮寫,而不是Not SQL; 它不一定遵循傳統(tǒng)數(shù)據(jù)庫的一些基本要求,比如它不一定遵循傳統(tǒng)數(shù)據(jù)庫的一些基本要求,比如SQL標(biāo)準(zhǔn)、標(biāo)準(zhǔn)、ACID屬性、表結(jié)構(gòu)等等。屬性、表結(jié)構(gòu)等等。 相比傳統(tǒng)數(shù)據(jù)庫,叫它相比傳統(tǒng)數(shù)據(jù)庫,叫它分布式數(shù)據(jù)管理系統(tǒng)分布式數(shù)據(jù)管理系統(tǒng)更貼切,更貼切,數(shù)據(jù)存儲被簡化更靈活,重點(diǎn)被放在了分布式數(shù)據(jù)管數(shù)據(jù)存儲被簡化更靈活,重點(diǎn)被放在了分布式數(shù)據(jù)管理上。理上。 NoSQL數(shù)據(jù)庫主要應(yīng)用于數(shù)據(jù)庫主要應(yīng)用于web2.0的大規(guī)模系統(tǒng),的大規(guī)模系統(tǒng),具有模式靈活、最終一致性、面向海量數(shù)

7、據(jù)、分布式、具有模式靈活、最終一致性、面向海量數(shù)據(jù)、分布式、開源、水平可擴(kuò)展、配置簡單、非關(guān)系型等特點(diǎn)。開源、水平可擴(kuò)展、配置簡單、非關(guān)系型等特點(diǎn)。第16頁易擴(kuò)展易擴(kuò)展 NoSQL數(shù)據(jù)庫種類繁多;數(shù)據(jù)庫種類繁多; 共同的特點(diǎn)都是去掉系型特性;共同的特點(diǎn)都是去掉系型特性; 數(shù)據(jù)之間無關(guān)系,容易橫向擴(kuò)展;數(shù)據(jù)之間無關(guān)系,容易橫向擴(kuò)展; 甚至可以甚至可以NoSQL之間的整合。之間的整合。數(shù)據(jù)模型靈活數(shù)據(jù)模型靈活 無需事先為要存儲的數(shù)據(jù)建立字段無需事先為要存儲的數(shù)據(jù)建立字段 隨時(shí)可以存儲自定義的數(shù)據(jù)格式隨時(shí)可以存儲自定義的數(shù)據(jù)格式高可用高可用 NoSQL在不太影響性能的情況,就可以方便的實(shí)現(xiàn)高可用的在

8、不太影響性能的情況,就可以方便的實(shí)現(xiàn)高可用的架構(gòu)。比如架構(gòu)。比如Cassandra,HBase模型,模型,通過復(fù)制模型也能實(shí)通過復(fù)制模型也能實(shí)現(xiàn)高可用?,F(xiàn)高可用。大數(shù)據(jù)量,高性能大數(shù)據(jù)量,高性能NoSQL數(shù)據(jù)庫都具有數(shù)據(jù)庫都具有非常高的讀寫性能非常高的讀寫性能,尤其在大數(shù)據(jù)量下,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。這同樣表現(xiàn)優(yōu)秀。這得益于它的無關(guān)系性,數(shù)據(jù)結(jié)構(gòu)簡單得益于它的無關(guān)系性,數(shù)據(jù)結(jié)構(gòu)簡單。 第17頁分布式數(shù)據(jù)系統(tǒng)的分布式數(shù)據(jù)系統(tǒng)的CAP原理的三要素:原理的三要素:一致性一致性 (Consistency) 可用性可用性 (Availability) 分區(qū)容忍性分區(qū)容忍性 (Partition

9、 tolerance)NOSql的的CAP原理實(shí)現(xiàn):原理實(shí)現(xiàn):在分布式系統(tǒng)中,三個要素最多只能同時(shí)實(shí)現(xiàn)兩點(diǎn)在分布式系統(tǒng)中,三個要素最多只能同時(shí)實(shí)現(xiàn)兩點(diǎn) 考慮考慮CP,主要是一些,主要是一些Key-Value數(shù)據(jù)庫,典型代表為數(shù)據(jù)庫,典型代表為Google的的Big Table,將各列數(shù)據(jù)進(jìn)行排序存儲。數(shù)據(jù)值按范圍分布在多臺機(jī)器,數(shù)據(jù),將各列數(shù)據(jù)進(jìn)行排序存儲。數(shù)據(jù)值按范圍分布在多臺機(jī)器,數(shù)據(jù)更新操作有嚴(yán)格的一致性保證。更新操作有嚴(yán)格的一致性保證。考慮考慮AP,主要是一些面向文檔的適用于分布式系統(tǒng)的數(shù)據(jù)庫,如,主要是一些面向文檔的適用于分布式系統(tǒng)的數(shù)據(jù)庫,如Amazon的的Dynamo,Dynam

10、o將數(shù)據(jù)按將數(shù)據(jù)按key進(jìn)行進(jìn)行Hash存儲。其數(shù)據(jù)分片存儲。其數(shù)據(jù)分片模型有比較強(qiáng)的容災(zāi)性,因此它實(shí)現(xiàn)的是相對松散的弱一致性模型有比較強(qiáng)的容災(zāi)性,因此它實(shí)現(xiàn)的是相對松散的弱一致性最終最終一致性一致性第18頁NoSQL的兩個核心理論基礎(chǔ):的兩個核心理論基礎(chǔ):Google的的BigTableBigTable將將各列數(shù)據(jù)進(jìn)行排序存儲;各列數(shù)據(jù)進(jìn)行排序存儲;數(shù)據(jù)值按范圍分布在多臺機(jī)器;數(shù)據(jù)值按范圍分布在多臺機(jī)器;數(shù)據(jù)更新操作有嚴(yán)格的一致性保證。數(shù)據(jù)更新操作有嚴(yán)格的一致性保證。Amazon的的DynamoDynamo使用的是另外一種分布式模型;使用的是另外一種分布式模型;模型更簡單,模型更簡單,將數(shù)據(jù)

11、按將數(shù)據(jù)按key進(jìn)行進(jìn)行hash存儲;存儲;其數(shù)據(jù)分片模型有比較強(qiáng)的容災(zāi)性;其數(shù)據(jù)分片模型有比較強(qiáng)的容災(zāi)性;實(shí)現(xiàn)的是相對松散的弱一致性實(shí)現(xiàn)的是相對松散的弱一致性(最終一致性最終一致性)。第19頁存儲類型存儲類型NoSQL產(chǎn)品產(chǎn)品特性特性列式存儲Hbase、CassandraHypertable按列存儲數(shù)據(jù),最大的特點(diǎn)是方便存儲結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù),方便做數(shù)據(jù)壓縮,針對某一列或者某幾列的查詢有非常大的 I/O 優(yōu)勢鍵值存儲Redis、TokyoCabinetTokyo Tyrant、Flare可以通過鍵快速查詢到值。一般來說,存儲不管值的格式,照單全收文檔式存儲MongoDB、CouchDB文 檔 存 儲 一 般 用 類 似JSON 格式存儲,存儲的內(nèi)容是文檔類型的,這樣也就有機(jī)會對某些字段建立索引,實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫的某些功能對象式存儲db4oVersant通過類似面向?qū)ο笳Z言的語法操作數(shù)據(jù)庫,通過對象的方式存取數(shù)據(jù)第20頁NOSql使用情況使用情況第21頁DB-Engines 發(fā)布了發(fā)布了 2016 年年 12 月份的數(shù)據(jù)庫排名月份的數(shù)據(jù)庫排名第22頁 綜合來看,綜合來看,NoSQL數(shù)據(jù)庫正在逐漸地成為數(shù)據(jù)庫領(lǐng)域數(shù)據(jù)庫正在逐漸地成為數(shù)據(jù)庫領(lǐng)域中不可或缺的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論