04-29后Hadoop時代的大數據架構_第1頁
04-29后Hadoop時代的大數據架構_第2頁
04-29后Hadoop時代的大數據架構_第3頁
04-29后Hadoop時代的大數據架構_第4頁
04-29后Hadoop時代的大數據架構_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Hadoop2023-04-29HadoopHadoop10也從0.x進化到目前的2.6版本。我把2023年后定義成后HadoopHadoopLOnlySQL〕那樣,有其他的選型補充。背景篇Hadoop:〔大到一臺計算機無法進展存儲,一臺計算機無法在要求的時間內進行處理〕的牢靠存儲和處理。適合處理非構造化數據,包括HDFS,MapReduceHDFS:供給了一種跨效勞器的彈性數據存儲系統。MapReduce:技術供給了感知數據位臵的標準化處理流程:讀取數據,對數據進展映射〔Map據進展重排,然后對數據進展化簡〔Reduce〕得到最終的輸出。AmazonElasticMapReduce(EMR)AmazonElasticComputeCloud〔EC2〕和SimpleStrorageService〔S3〕組成的網絡規(guī)模的根底設施之上。假設你需要一次性的或不常見的大數據處理,EMREMR是高度優(yōu)化成與S3中的數據一起工作,會有較高的延時。Hadoop包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。Pig:分析大數據集的一個平臺,該平臺由一種表達數據分析程序的高級語言和對這些程序進展評估的根底設施一起組成。HiveHadoop似于SQL的查詢語言,通過使用該語言,可以便利地進展數據匯總,特定查詢以及分析。Hbase:一種分布的、可伸縮的、大數據儲存庫,支持隨機、實時讀/寫訪問。Sqoop:為高效傳輸批量數據而設計的一種工具,其用于ApacheHadoop和構造化數據儲存庫如關系數據庫之間的數據傳輸。Flume:一種分布式的、牢靠的、可用的效勞,其用于高效地搜集、匯總、移動大量日志數據。ZooKeeper:一種集中效勞,其用于維護配臵信息,命名,供給分布式同步,以及供給分組效勞。ClouderaHadoop署案例。供給強大的部署、治理和監(jiān)控工具。開發(fā)并奉獻了ImpalaHortonworks100%開源ApacheHadoopHadoopWindowsServerAzureMapRUnix系統而不是HDFS等高可用性特性。領導著ApacheDrillGoogleDremel的開源實現,目的是執(zhí)行類似SQL的查詢以供給實時處理。原理篇數據存儲我們的目標是做一個牢靠的,支持大規(guī)模擴展和簡潔維護的系統。計算機里面有個locality〔局部性定律。從下到問速度越來越快,但存儲代價更大。SSD性能會差異很大。磁盤好處是長久化,單位本錢廉價,簡潔備份。但隨著內存廉價,很多數據集合可以考慮直接放入內存并分布到各機器上,有些基于key-value,Memcached(帶電池的RAM),提前寫Snapshot重啟時需要從磁盤或網絡載入之前狀態(tài)。其實寫入磁盤就用VoltDB,MemSQL,RAMCloud關系型又基于內存數據庫,可以供給高性能,解決之前磁盤治理的麻煩。HyperLogLog&BloomFilter&CountMinSketch都是是應用于大數據的算法,大致思路是用一組相互獨立的哈希函數依次處理輸入。HyperLogLog0;用低位的值當做數據塊。BloomFilter,在預處理階段對輸入算出全部哈希函數的值并做出標記。當查找一個特定的輸入是否消滅過,只需查找這一系列的哈希函數對應值上有沒有標記。對于BloomFilterFalsePositive,但不行能有FalseNegative。BloomFilter數據構造〔數據的頻率是否大于1。CountMinSketchBloomFilter的頻率〔不局限于大于1。CAPTheorem簡潔說是三個特性:全都性,可用性和網絡分區(qū),最多只能取其二。設計不同類型系統要多去權衡。分布式系統還有很多算法和高深理論,比方:Paxos〔paxos全都性算法--表達諸葛亮的反穿越Gossip協議〔Cassandra學習筆記之Gossip協議,Quorum統),時間規(guī)律,向量時鐘〔全都性算法之四:時間戳和向量圖,拜占庭將軍問題,二階段提交等,需要急躁爭論。技術篇Google,Google車,Spanner,F1,DremelSpanner:高可擴展、多版本、全球分布式外加同步復設計目標是橫跨全球上百個數據中心,掩蓋百萬臺效勞器,包含萬億條行記錄!(Google^-^)F1:構建于Spanner之上,在利用Spanner的豐富特性根底之上,還供給分布式SQL在AdWords廣告業(yè)務上成功代替了之前老舊的手工MySQLShardDremel:的效勞器上運行,類似使用SQL語言,能以極快的速度處理網絡規(guī)模的海量數據(PB數量級),只需幾秒鐘時間就能完成。Spark:主要意圖是基于內存計算做更快的數據分析。同時支持圖計算,流式計算和批處理。BerkeleyAMPLab的核心成員DatabricksCloudFlink:使用了一種類似于SQL數據庫查詢優(yōu)化的方法,這也是ApacheSpark優(yōu)化方案應用于某個查詢之上以獲得更佳的性能。AnnouncingtheConfluentPlatform1.0Kafka描述為LinkedIn到此的信息流,這些數據經過處理后再被分發(fā)到各處。不同于傳統的企業(yè)信息列隊系統,Kafka是以近乎實時的方式處理流經一個公司的全部數據,目前已經為 LinkedIn,Netflix,Uber和Verizon建立了實時信息處理平臺。Kafka的優(yōu)勢就在于近乎實時性。Storm:HandleFiveBillionSessionsaDayinRealTwitter式、高容錯的實時計算系統。Storm得簡潔。常常用于在實時分析、在線機器學習、持續(xù)計算、ETLSamza:LinkedInSpark,Storm做了幾個比較。跟Kafka集成良好,作為主要的存儲節(jié)點和中介。Lambdaarchitecture:NathanCAPHowtobeattheCAPtheorem,提出LambdaArchitecture,主要思想是對一些延遲高但數據量大的還是承受批處理架構,但對于即時性實時數據使用流式處理框架,然后在之上搭建一個效勞層去合并兩邊的數據流,這種系統能夠平衡實時的高效和批處理Scale,看了覺得腦洞大開,確實很有效,被很多公司承受在生產系統中。Summingbird:LambdaTwitter開發(fā)了Summingbird理無縫連接,通過整合批處理與流處理來削減它們之間的轉換開銷。以下圖就解釋了系統運行時。NoSQL:數據傳統上是用樹形構造存儲〔層次構造〕,但很難表示多對多的關系,關系型數據庫就是解決這個難題,最近幾NoSQL消滅如Cassandra,MongoDB,Couchbase。NoSQL里面也分成這幾類,文檔型,key-valueone-size-fits-all的方案。Cassandra:大數據架構中,CassandraDataStax的Cassandra過分布式架構供給高可用性及耐用性的效勞。它實現了超大這意味著在任何時刻,在不同效勞器中的一樣數據庫條目可以有不同的值。SQLonHadoop:開源社區(qū)業(yè)消滅了很多SQL-on-HadoopApacheHive,SparkSQL,ClouderaImpala,HortonworksStinger,FacebookPresto,ApacheTajo,ApacheDrill。有些是基于GoogleDremel設計。Impala:ClouderaSQL語HadoopHDFSHBasePB數據,號稱比Hive快5-10倍,但最近被Spark的風頭給罩住了,大家還是更傾向于后者。Drill:Apache社區(qū)類似于Dremel的開源版本—Drill為互動分析大型數據集的分布式系統。Druid:在大數據集之上做實時統計分析而設計的開源數據存儲。這個系統集合了一個面對列存儲的層,一個分布式、shared-nothing的架構,和一個高級的索引構造,來達成在秒級以內對十億行級別的表進展任意的探究分析。BerkeleyDataAnalyticsStack:SparkBerkeleyAMPlab中有個更雄偉的藍圖,就是BDAS,里面有很多明星工程,除了Spark,還包括:Mesos:HadoopMPI、Spark作業(yè)在統一資源治理環(huán)境下執(zhí)行。它對Hadoop2.0支持很好。Twitter,CourseraTachyon:是一個高容錯的分布式文件系統,允許文件以內存的速度在集群框架中進展牢靠的共享,就像Spark和MapReduceSparkTachyonNexus.BlinkDB:也很有意思,在海量數據上運行交互式SQL查詢的大規(guī)模并行查詢引擎。它允許用戶通過權衡數據精度來提升

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論