《基于新信息技術的Hadoop大數(shù)據(jù)技術》 課件 項目13、14 Kafka分布式集群搭建、Davinci安裝部署_第1頁
《基于新信息技術的Hadoop大數(shù)據(jù)技術》 課件 項目13、14 Kafka分布式集群搭建、Davinci安裝部署_第2頁
《基于新信息技術的Hadoop大數(shù)據(jù)技術》 課件 項目13、14 Kafka分布式集群搭建、Davinci安裝部署_第3頁
《基于新信息技術的Hadoop大數(shù)據(jù)技術》 課件 項目13、14 Kafka分布式集群搭建、Davinci安裝部署_第4頁
《基于新信息技術的Hadoop大數(shù)據(jù)技術》 課件 項目13、14 Kafka分布式集群搭建、Davinci安裝部署_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Hadoop大數(shù)據(jù)技術——Kafka分布式集群搭建湖南軟件職業(yè)技術大學

Kafka是由LinkedIn開發(fā)的一個分布式的消息系統(tǒng),使用Scala語言編寫,它以可水平擴展和高吞吐率的特點而被廣泛使用。目前越來越多的開源分布式處理系統(tǒng),如Spark、Flink都支持與Kafka集成。比如一個實時日志分析系統(tǒng),F(xiàn)lume采集數(shù)據(jù)通過接口傳輸?shù)終afka集群(多臺Kafka服務器組成的集群稱為Kafka集群),然后Flink或者Spark直接調用接口從Kafka實時讀取數(shù)據(jù)并進行統(tǒng)計分析。Kafka概述03010402支持KafkaServer間的消息分區(qū),以及分布式消息消費,同時保證每個Partition內的消息順序傳輸。支持離線數(shù)據(jù)處理和實時數(shù)據(jù)處理。保證高吞吐率,即使在非常廉價的商用機器上,也能做到單機支持每秒100,000條消息的傳輸速度。以時間復雜度為O(1)的方式提供消息持久化(Kafka)能力,即使對TB級以上數(shù)據(jù)也能保證常數(shù)時間的訪問性能。持久化是將程序數(shù)據(jù)在持久狀態(tài)和瞬時狀態(tài)間轉換的機制。通俗地講,就是瞬時數(shù)據(jù)(比如內存中的數(shù)據(jù)是不能永久保存的)持久化為持久數(shù)據(jù)(比如持久化至磁盤中能夠長久保存)。Kafka設計目標Kafka設計目標湖南軟件職業(yè)技術大學Kafka特點高吞吐量、低延遲:Kafka

每秒可以處理幾十萬條消息,它的延遲最低只有幾毫秒。可擴展性:Kafka集群同Hadoop集群一樣,支持橫向擴展。持久性、可靠性:Kafka消息可以被持久化到本地磁盤,并且支持Partition數(shù)據(jù)備份,防止數(shù)據(jù)丟失。容錯性:允許Kafka集群中的節(jié)點失敗,如果Partition(分區(qū))副本數(shù)量為n,則最多允許n-1個節(jié)點失敗。高并發(fā):單節(jié)點支持上千個客戶端同時讀寫,每秒鐘有上百MB的吞吐量,基本上達到了網卡的極限。Kafka特點0102030405湖南軟件職業(yè)技術大學Kafka構架設計湖南軟件職業(yè)技術大學

一個典型的Kafka集群包括若干生產者(producer)、若干Kafka集群節(jié)點(Broker)、若干消費者(Consumer)以及一個Zookeeper集群。Kafka通過Zookeeper管理集群配置,選舉leader并在消費者發(fā)生變化時進行負載均衡。生產者使用推(push)模式將消息發(fā)布到集群節(jié)點,而消費者使用拉(Pull)模式從集訓節(jié)點中訂閱并消費消息。Kafka的整體構架如圖所示。Kafka構架設計湖南軟件職業(yè)技術大學Topic和Partition

Kafka集群中的主題(Topic)和分區(qū)(Partition)示意結構如圖所示。主題和分區(qū)的具體定義如下。

(1)主題是生產者發(fā)布到Kafka集群的每條信息所屬的類別,即Kafka是面向主題,一個主題可以分布在多個節(jié)點上

(2)分區(qū)是Kafka集群橫向擴展和一切并行化的基礎,每個Topic可以被切分為一個或多個分區(qū)。一個分區(qū)對應一個集群節(jié)點,每個分區(qū)的內部消息是強有序的。

(3)Offset(偏移量)是消費者在分區(qū)中的編號,每個分區(qū)中的編號是獨立。Kafka構架設計湖南軟件職業(yè)技術大學

消費者和消費者組

消費者和消費者組的具體定義如下。(1)從Kafka集群中消費信息的終端或服務都數(shù)據(jù)消費者,消費者自己維護消費數(shù)據(jù)的offset,而offset保存在Zookeeper中(Kafka0.0版本以后,offset存儲在Kafka集群中),這就保證了它的高可用。每個消費者都有自己對應的消費者組。(2)每個消費者都有與自己相對應的消費者組,同一個消費者組中,每個消費者消費不同的分區(qū),消費者組之間相互不干擾,獨立消費Kafka集群中的消息。

LeaderFollowerISR每個Replica集合中的分區(qū)都會選出一個唯一的Leader,所有的讀寫請求都由Leader處理,其他副本從Leader處把數(shù)據(jù)更新同步到本地。是副本中的另外一個角色,可以從Leader中復制數(shù)據(jù)Kafka集群通過數(shù)據(jù)冗余來實現(xiàn)容錯。每個分區(qū)都會有一個Leader,以及零個或多個Follower,Leader加上Follower總和就是副本因子。Follower與Leader之間的數(shù)據(jù)同步是通過Follower主動拉取Leader上面的消息來實現(xiàn)的。所有的Follower不可能與Leader中的數(shù)據(jù)一直保持同步,那么與Leader數(shù)據(jù)保持同步的這些Follower稱為ISR(InSyncReplica)。Zookeeper維護著每個分區(qū)的Leader信息和ISR信息。Replica是分區(qū)的副本。Kafka支持以分區(qū)為單位對message進行冗余備份,每個分區(qū)都可以配置至少1個副本。與副本相關有幾個需要掌握的概念,具體如下。Kafka構架設計

湖南軟件職業(yè)技術大學ThanksHadoop大數(shù)據(jù)技術——Davinci大數(shù)據(jù)可視化分析Davinci架構設計

Davinci定義Davinci是?個DVaaS(DataVisualizationasaService)平臺解決?案,?向業(yè)務?員/數(shù)據(jù)?程師/數(shù)據(jù)分析師/數(shù)據(jù)科學家,致?于提供?站式數(shù)據(jù)可視化解決?案。既可作為公有云/私有云獨?部署使?,也可作為可視化插件集成到三?系統(tǒng)。?戶只需在可視化UI上簡單配置即可服務多種數(shù)據(jù)可視化應?,并?持?級交互/?業(yè)分析/模式探索/社交智能等可視化功能。湖南軟件職業(yè)技術大學Davinci架構設計

湖南軟件職業(yè)技術大學

Davichi的架構主機要由Source、view、widget和visualization四個模塊組成,其整體架構如圖所示。Source模塊用于添加各種外部數(shù)據(jù)源,如csv、mysql等。View模塊可用于可視化建模,所有圖表上展示的數(shù)據(jù)都可以通過sql來獲取。Widget模塊由一系列可視化組件組成,可用于對獲取的數(shù)據(jù)進行可視化,同一個數(shù)據(jù)視圖可以被多個可視化組件使用,并用不同的圖形展示。Visualization模塊用于業(yè)務數(shù)據(jù)展示,包含Dashboard和Display等組件。Dashboard添加定義好的各種widget后,可以自由拖拽生成數(shù)據(jù)儀表盤。Display支持用戶將widget以自定義布局和背景的方式放置到畫布中,同時Display本身也支持自定義尺寸和背景,在多種搭配之下用戶可以打造多樣化的可視化應用。01OPTION安全多樣自助交互式報表一次配置即可實現(xiàn)可視組件高級過濾、高級控制、聯(lián)動、鉆取、下載、分享等,幫助業(yè)務人員快速完成對比、地理分析、分布、趨勢以及聚類等分析和決策。自動布局的Dashboard(儀表板),適用于大多數(shù)通過快速配置即可查看和分享的可視化報表。自由布局的Display(大屏),適用于一些特定的、需要添加額外修飾元素的、長時間查看的場景,通常配置這類場景需要花一定的時間和精力,如“雙11”大屏。02OPTION實時運營監(jiān)控實時觀察運營狀態(tài),銜接各個環(huán)節(jié)流程,對比檢測異常情況,處理關鍵環(huán)節(jié)問題。透視驅動與圖表驅動兩種圖表配置模式,滿足不同的應用場景需求。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論