高負(fù)載系統(tǒng)相關(guān)技術(shù)初探_第1頁
高負(fù)載系統(tǒng)相關(guān)技術(shù)初探_第2頁
高負(fù)載系統(tǒng)相關(guān)技術(shù)初探_第3頁
高負(fù)載系統(tǒng)相關(guān)技術(shù)初探_第4頁
高負(fù)載系統(tǒng)相關(guān)技術(shù)初探_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、公示系統(tǒng)相關(guān)技術(shù)初探 Hadoop 列存儲(chǔ) 內(nèi)存數(shù)據(jù)庫(kù)目錄 Hadoop 為什么會(huì)出現(xiàn)Hadoop Hadoop的整體結(jié)構(gòu) Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)比較 Hadoop的應(yīng)用場(chǎng)景 列存儲(chǔ) 內(nèi)存數(shù)據(jù)庫(kù)為什么會(huì)出現(xiàn)Hadoop 1.lucene建立文本索引出現(xiàn)問題,無法解決超大規(guī)模的數(shù)據(jù) 2.google宣布GFS和MapReduce框架 3.Hadoop出現(xiàn)為什么會(huì)出現(xiàn)Hadoop Hadoop是什么 一個(gè)分布式文件系統(tǒng)和并行執(zhí)行環(huán)境 讓用戶便捷地處理海量數(shù)據(jù) Apache軟件基金會(huì)下面的一個(gè)開源項(xiàng)目Hadoop的整體結(jié)構(gòu) Hadoop生態(tài)系統(tǒng) 1Hadoop項(xiàng)目項(xiàng)目對(duì)應(yīng)的傳統(tǒng)結(jié)構(gòu)對(duì)應(yīng)的傳統(tǒng)結(jié)構(gòu)H

2、DFS類似于FAT32、NTFS的文件結(jié)構(gòu)Hbase類似于存儲(chǔ)在文件結(jié)構(gòu)上的數(shù)據(jù)庫(kù)Mapreduce提供了一種并行處理的方式Pig外接ETL工具將各種別的數(shù)據(jù)庫(kù)轉(zhuǎn)換為Hadoop格式數(shù)據(jù)Hive提供外面的sql查詢統(tǒng)計(jì)分析應(yīng)用Sqoop提供Hadoop數(shù)據(jù)轉(zhuǎn)換為傳統(tǒng)數(shù)據(jù)庫(kù)的工具Hadoop的整體結(jié)構(gòu)NameNodeDataNode 存儲(chǔ)元數(shù)據(jù) 存儲(chǔ)文件內(nèi)容元數(shù)據(jù)保存在內(nèi)存中文件內(nèi)容保存在磁盤 保存文件,block ,datanode之間的映射關(guān)系維護(hù)了block id到datanode本地文件的映射關(guān)系Hadoop的整體結(jié)構(gòu) 物理分布的Hadoop集群Hadoop的整體結(jié)構(gòu) MapReduce

3、原理Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)比較 并行處理為什么我們不能使用數(shù)據(jù)庫(kù)加上更多磁盤來做大規(guī)模的批量分析? 這個(gè)問題的答案來自于磁盤驅(qū)動(dòng)器的另一個(gè)發(fā)展趨勢(shì):尋址時(shí)間的提高速度遠(yuǎn)遠(yuǎn)慢于傳輸速率的提高速度。Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)比較 數(shù)據(jù)比較 Hadoop:20個(gè)TS4節(jié)點(diǎn)組成的集群,其中一個(gè)節(jié)點(diǎn)作為NameNode和JobTracker,另外19個(gè)節(jié)點(diǎn)作為DataNode和TaskTracker。每個(gè)計(jì)算節(jié)點(diǎn)8個(gè)map+4個(gè)reduce。 ORACLE:1個(gè)Oracle集群 8個(gè)計(jì)算節(jié)點(diǎn)10套存儲(chǔ)0100200300400500600700單表掃描單表聚合兩表關(guān)聯(lián)1兩表關(guān)聯(lián)2聚合+distinct1

4、20G數(shù)據(jù)測(cè)試結(jié)果數(shù)據(jù)測(cè)試結(jié)果HadoopOracle050010001500200025003000單表掃描單表聚合兩表關(guān)聯(lián)1兩表關(guān)聯(lián)2聚合+distinct2.7T數(shù)據(jù)集測(cè)試結(jié)果數(shù)據(jù)集測(cè)試結(jié)果TDWORACLE(單位:秒)Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)比較 Hadoop的主要特性 高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。 高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。 高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非??臁?高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副

5、本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)比較 Hadoop所失去的 批量導(dǎo)入。 將輸入數(shù)據(jù)轉(zhuǎn)化成想要的格式并加載到數(shù)據(jù)庫(kù)中 索引。只能使用蠻力來作為處理選項(xiàng) 更新。 事務(wù)。 完善的約束、完善的引用、視圖。 Hadoop更適合于非在線的應(yīng)用,而不是在線的應(yīng)用。Hadoop的應(yīng)用場(chǎng)景 公示系統(tǒng)采用Hadoop的兩種模式 將數(shù)據(jù)匯總至總局并部署為Hadoop結(jié)構(gòu) 總局部署主節(jié)點(diǎn)(master),數(shù)據(jù)節(jié)點(diǎn)(slave)在各省局Hadoop的應(yīng)用場(chǎng)景 將數(shù)據(jù)匯總至總局并部署為Hadoop結(jié)構(gòu) 分析1:總局匯總數(shù)據(jù)估算為50,000,000戶企業(yè)*1KB=50G的數(shù)據(jù),每天的增長(zhǎng)數(shù)據(jù)

6、量估算為1,000,000*1KB=1GB數(shù)據(jù),而以騰訊公司為例現(xiàn)在的數(shù)據(jù)總量為38PB=38,000,000GB,每天的數(shù)據(jù)增長(zhǎng)量為20TB=20,000GB。 根據(jù)右圖,在50GB數(shù)據(jù)量的情況下,采用Hadoop結(jié)構(gòu)不能比傳統(tǒng)數(shù)據(jù)庫(kù)結(jié)構(gòu)帶來優(yōu)勢(shì)。0100200300400500600700單表掃描單表聚合兩表關(guān)聯(lián)1兩表關(guān)聯(lián)2聚合+distinct120G數(shù)據(jù)測(cè)試結(jié)果數(shù)據(jù)測(cè)試結(jié)果HadoopOracleHadoop的應(yīng)用場(chǎng)景 將數(shù)據(jù)匯總至總局并部署為Hadoop結(jié)構(gòu) 分析2:就現(xiàn)有的Hadoop在淘寶、baidu、騰訊和移動(dòng)的應(yīng)用來看,都是采用Hadoop進(jìn)行離線應(yīng)用 日志分析、排序、搜索、

7、廣告計(jì)算,廣告優(yōu)化、分析,點(diǎn)擊流分析,鏈接分析、索關(guān)鍵字進(jìn)行內(nèi)容分類、搜索引擎,創(chuàng)建索引、word 計(jì)數(shù),統(tǒng)計(jì)值計(jì)算,統(tǒng)計(jì)數(shù)據(jù),過濾,分析,查詢、垃圾數(shù)據(jù)分析、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、大規(guī)模圖像轉(zhuǎn)換 在線應(yīng)用使用Hadoop很少見,而我們的應(yīng)用本身是一個(gè)數(shù)據(jù)量較小的在線應(yīng)用,不是特別符合。Hadoop的應(yīng)用場(chǎng)景 總局部署主節(jié)點(diǎn)(master),數(shù)據(jù)節(jié)點(diǎn)(slave)在各省局 分析1、2:同前面分析 分析3:備份策略、權(quán)限控制、安全問題。 分析4:Hadoop設(shè)計(jì)的初衷針對(duì)的就是解決網(wǎng)絡(luò)時(shí)延遠(yuǎn)小于磁盤讀取速度的問題,而在這種問題下我們遇到的瓶頸恰好相反目錄 Hadoop 列存儲(chǔ) 列存儲(chǔ)原理

8、 列存儲(chǔ)主要廠商 內(nèi)存數(shù)據(jù)庫(kù)列存儲(chǔ)原理列存儲(chǔ)原理 列存儲(chǔ)的優(yōu)勢(shì) 按列存儲(chǔ)每個(gè)字段的數(shù)據(jù)聚集存儲(chǔ),在查詢只需要少數(shù)幾個(gè)字段的時(shí)候,能大大減少讀取的數(shù)據(jù)量 一個(gè)字段的數(shù)據(jù)聚集存儲(chǔ),那就 更容易為這種聚集存儲(chǔ)設(shè)計(jì)更好的壓縮/解壓算法。列存儲(chǔ)的劣勢(shì) 寫入和更新都比傳統(tǒng)行存儲(chǔ)要慢列存儲(chǔ)主要廠商 Sybase IQ Oracle Exadata Vertica Infobright目錄 Hadoop 列存儲(chǔ) 內(nèi)存數(shù)據(jù)庫(kù) 內(nèi)存數(shù)據(jù)庫(kù)原理 主要內(nèi)存數(shù)據(jù)庫(kù) 內(nèi)存數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景內(nèi)存數(shù)據(jù)庫(kù)原理 內(nèi)存數(shù)據(jù)庫(kù) 顧名思義就是將數(shù)據(jù)放在內(nèi)存中直接操作的數(shù)據(jù)庫(kù)。相對(duì)于磁盤,內(nèi)存的數(shù)據(jù)讀寫速度要高出幾個(gè)數(shù)量級(jí),將數(shù)據(jù)保存在內(nèi)存

9、中相比從磁盤上訪問能夠極大地提高應(yīng)用的性能。 方式 內(nèi)存數(shù)據(jù)庫(kù)拋棄了磁盤數(shù)據(jù)管理的傳統(tǒng)方式,基于全部數(shù)據(jù)都在內(nèi)存中重新設(shè)計(jì)了體系結(jié)構(gòu),并且在數(shù)據(jù)緩存、快速算法、并行操作方面也進(jìn)行了相應(yīng)的改進(jìn),所以數(shù)據(jù)處理速度比傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)處理速度要快很多,一般都在10倍以上。內(nèi)存數(shù)據(jù)庫(kù)原理 微秒級(jí)的查詢響應(yīng) 并發(fā)處理 完備的事務(wù)處理 直接內(nèi)存訪問 數(shù)據(jù)恢復(fù)機(jī)制 與磁盤數(shù)據(jù)庫(kù)同步Application-Tier PlatformNetworkIn-MemoryDatabase(s)ApplicationInmDBlibrariesTransaction Logs.Client-ServerCheckpoin

10、t filesApplicationInmDBlibraries內(nèi)存數(shù)據(jù)庫(kù)原理主要內(nèi)存數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)名稱數(shù)據(jù)庫(kù)名稱說明說明Oracle TimesTen一個(gè)全新設(shè)計(jì)的內(nèi)存數(shù)據(jù)庫(kù)。它使用基于行的關(guān)系模型(表、列、數(shù)據(jù)類型、索引等)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),并使用SQL作為訪問語言。它提供了許多API,并且支持Oracle PL/SQL。應(yīng)用程序的訪問方式與其他關(guān)系數(shù)據(jù)庫(kù)完全相同。SQLite資源占用少、性能良好和零管理成本,嵌入式數(shù)據(jù)庫(kù)有了它的用武之地,它將為那些以前無法提供用作持久數(shù)據(jù)的后端的數(shù)據(jù)庫(kù)的應(yīng)用程序提供了高效的性能IBM SolidDBIBM solidDB 可以提供每秒數(shù)萬至數(shù)十萬事務(wù)的吞吐率,并且始終可以獲得微秒級(jí)的響應(yīng)時(shí)間(或延時(shí))。eXtremeDB是一款高速內(nèi)存實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng),該數(shù)據(jù)庫(kù)用于各種需要高性能、小尺寸、緊密存儲(chǔ)、零內(nèi)存分配或幾種屬性兼有的應(yīng)用領(lǐng)域。eXtremeDB內(nèi)存實(shí)時(shí)數(shù)據(jù)庫(kù)以其高性能、低開銷、穩(wěn)定可靠的實(shí)時(shí)數(shù)據(jù)管理能力在實(shí)時(shí)數(shù)據(jù)管理領(lǐng)域和嵌入式數(shù)據(jù)管理領(lǐng)域及服務(wù)器有著廣泛的應(yīng)用。主要內(nèi)存數(shù)據(jù)庫(kù)(新增比較)Oracle TimesTenSQLiteIBM SolidD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論