Kafka系統(tǒng)（入門、進階、商業(yè)實戰(zhàn)）

上傳人：M*** IP屬地：廣東上傳時間：2023-11-10 格式：DOCX 頁數(shù)：332 大?。?6.34MB 積分：8.4 舉報 版權(quán)申訴

已閱讀5頁，還剩327頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

Kafka系統(tǒng)入門、進階、商業(yè)實戰(zhàn)目錄\h第1篇準(zhǔn)備\h第1章了解消息隊列和Kafka\h1.1本章教學(xué)視頻說明\h1.2消息隊列\(zhòng)h1.2.1什么是消息隊列\(zhòng)h1.2.2消息隊列主要有哪些作用\h1.3為什么需要Kafka\h1.4Kafka的基本概念\h1.4.1代理、生產(chǎn)者、消費者、消費者組\h1.4.2主題、分區(qū)、副本、記錄\h1.5了解Kafka的工作機制——生產(chǎn)消息/消費消息\h1.6Kafka的使用范圍\h1.6.1Kafka的設(shè)計初衷\h1.6.2Kafka的特性\h1.6.3Kafka適用于哪些場景\h1.7小結(jié)\h第2章安裝及配置Kafka\h2.1本章教學(xué)視頻說明\h2.2安裝與配置基礎(chǔ)環(huán)境\h2.2.1安裝并配置Linux操作系統(tǒng)\h2.2.2實例1：安裝與配置Java運行環(huán)境\h2.2.3實例2：配置SSH免密碼登錄\h2.2.4實例3：安裝與配置Zookeeper\h2.3實例4：部署Kafka\h2.3.1單機模式部署\h2.3.2分布式模式部署\h2.4實例5：安裝與配置Kafka監(jiān)控工具\h2.4.1獲取并編譯KafkaEagle源代碼\h2.4.2安裝與配置KafkaEagle\h2.5實例6：編譯Kafka源代碼\h2.5.1安裝與配置Scala運行環(huán)境\h2.5.2安裝與配置Gradle\h2.5.3了解Kafka源代碼的編譯過程\h2.6實例7：將Kafka源代碼導(dǎo)入編輯器\h2.6.1導(dǎo)入IntelliJIDEA編輯器\h2.6.2導(dǎo)入Eclipse編輯器\h2.7了解元數(shù)據(jù)的存儲分布\h2.8了解控制器的選舉流程\h2.8.1了解控制器的啟動順序\h2.8.2了解主題分區(qū)Leader節(jié)點的選舉過程\h2.8.3了解注冊分區(qū)和副本狀態(tài)機\h2.8.4了解分區(qū)自動均衡和分區(qū)重新分配\h2.9小結(jié)\h第2篇入門\h第3章Kafka的基本操作\h3.1本章教學(xué)視頻說明\h3.2操作Zookeeper集群\h3.2.1Zookeeper的作用及背景\h3.2.2實例8：單機模式啟動Zookeeper系統(tǒng)\h3.2.3實例9：單機模式關(guān)閉Zookeeper系統(tǒng)\h3.2.4實例10：分布式模式啟動Zookeeper集群\h3.2.5實例11：分布式模式關(guān)閉Zookeeper集群\h3.3操作Kafka集群\h3.3.1實例12：單機模式啟動Kafka系統(tǒng)\h3.3.2實例13：單機模式關(guān)閉Kafka系統(tǒng)\h3.3.3實例14：分布式模式啟動Kafka集群\h3.3.4實例15：分布式模式關(guān)閉Kafka集群\h3.4管理主題\h3.4.1什么是主題\h3.4.2實例16：創(chuàng)建主題\h3.4.3實例17：查看主題\h3.4.4實例18：修改主題\h3.4.5實例19：刪除主題\h3.5管理分區(qū)與副本\h3.5.1分區(qū)和副本的背景及作用\h3.5.2實例20：修改分區(qū)\h3.5.3實例21：修改副本數(shù)\h3.6小結(jié)\h第4章將消息數(shù)據(jù)寫入Kafka系統(tǒng)——生產(chǎn)\h4.1本章教學(xué)視頻說明\h4.2了解Kafka生產(chǎn)者\h4.3使用腳本操作生產(chǎn)者\h4.3.1實例22：通過監(jiān)控工具查看消息\h4.3.2實例23：啟動消費者程序，并查看消息\h4.4發(fā)送消息到Kafka主題\h4.4.1了解異步模式\h4.4.2實例24：生產(chǎn)者用異步模式發(fā)送消息\h4.4.3了解同步模式\h4.4.4實例25：生產(chǎn)者用同步模式發(fā)送消息\h4.4.5多線程發(fā)送消息\h4.4.6實例26：生產(chǎn)者用單線程發(fā)送消息\h4.4.7實例27：生產(chǎn)者用多線程發(fā)送消息\h4.5配置生產(chǎn)者的屬性\h4.6保存對象的各個屬性——序列化\h4.6.1實例28：序列化一個對象\h4.6.2實例29：在生產(chǎn)者應(yīng)用程序中實現(xiàn)序列化\h4.7自定義主題分區(qū)\h4.7.1實例30：編寫自定義主題分區(qū)的算法\h4.7.2實例31：演示自定義分區(qū)類的使用\h4.8小結(jié)\h第5章從Kafka系統(tǒng)中讀取消息數(shù)據(jù)——消費\h5.1本章教學(xué)視頻說明\h5.2了解Kafka消費者\h5.2.1為什么需要消費者組\h5.2.1消費者和消費者組的區(qū)別\h5.2.2消費者和分區(qū)的對應(yīng)關(guān)系\h5.3使用Kafka系統(tǒng)的腳本操作消費者\h5.3.1認(rèn)識消費者新接口\h5.3.2實例32：用新接口啟動消費者程序，并查看消費者信息\h5.3.3實例33：用舊接口啟動消費者程序，并查看消費者元數(shù)據(jù)的存儲結(jié)構(gòu)\h5.4消費Kafka集群中的主題消息\h5.4.1主題如何自動獲取分區(qū)和手動分配分區(qū)\h5.4.2實例34：主題自動/手動獲取分區(qū)\h5.4.3實例35：反序列化主題消息\h5.4.4如何提交消息的偏移量\h5.4.5實例36：使用多線程消費多個分區(qū)的主題\h5.5配置消費者的屬性\h5.6小結(jié)\h第6章存儲及管理數(shù)據(jù)\h6.1本章教學(xué)視頻說明\h6.2分區(qū)存儲數(shù)據(jù)\h6.2.1熟悉分區(qū)存儲\h6.2.2了解消息的格式\h6.3清理過期數(shù)據(jù)的兩種方法\h6.4網(wǎng)絡(luò)模型和通信流程\h6.4.1基本數(shù)據(jù)類型\h6.4.2通信模型\h6.4.3通信過程\h6.6小結(jié)\h第3篇進階\h第7章Kafka安全機制\h7.1本章教學(xué)視頻說明\h7.2了解Kafka的安全機制\h7.2.1身份驗證\h7.2.2權(quán)限控制\h7.3使用SSL協(xié)議進行加密和身份驗證\h7.3.1了解SSL協(xié)議\h7.3.2實例37：創(chuàng)建SSL密鑰庫，并查看密鑰庫文件\h7.3.3實例38：創(chuàng)建私有證書\h7.3.4實例39：導(dǎo)出證書，使用CA對證書進行簽名\h7.3.5實例40：在服務(wù)端配置SSL協(xié)議，并創(chuàng)建主題\h7.3.6實例41：在客戶端配置SSL協(xié)議，并讀/寫數(shù)據(jù)\h7.4使用SASL協(xié)議進行認(rèn)證\h7.4.1給客戶端配置“Java認(rèn)證和授權(quán)服務(wù)”（JAAS）\h7.4.2給服務(wù)端配置SASL\h7.4.3實例42：開啟SASL/Kerberos認(rèn)證協(xié)議\h7.4.4實例43：開啟SASL/PLAIN認(rèn)證協(xié)議\h7.4.5實例44：開啟SASL/SCRAM認(rèn)證協(xié)議\h7.5權(quán)限控制\h7.5.1權(quán)限控制的基礎(chǔ)命令\h7.5.2配置ACL（訪問控制列表）\h7.5.3實例45：啟動集群\h7.5.4實例46：查看授權(quán)、添加授權(quán)、刪除授權(quán)\h7.6小結(jié)\h第8章用Kafka連接器建立數(shù)據(jù)管道\h8.1本章教學(xué)視頻說明\h8.2認(rèn)識Kafka連接器\h8.2.1了解連接器的使用場景\h8.2.2特性及優(yōu)勢\h8.2.3連接器的幾個核心概念\h8.3操作Kafka連接器\h8.3.1配置Kafka連接器的屬性\h8.3.2認(rèn)識應(yīng)用接口——RESTAPI\h8.3.3實例47：單機模式下，將數(shù)據(jù)導(dǎo)入Kafka主題中\(zhòng)h8.3.4實例48：單機模式下，將Kafka主題中的數(shù)據(jù)導(dǎo)出\h8.3.5實例49：分布式模式下，將數(shù)據(jù)導(dǎo)入Kafka主題\h8.4實例50：開發(fā)一個簡易的Kafka連接器插件\h8.4.1編寫Source連接器\h8.4.2編寫Sink連接器\h8.4.3打包與部署\h8.5小結(jié)\h第9章Kafka流處理\h9.1本章教學(xué)視頻說明\h9.2初識Kafka流處理\h9.2.1什么是流處理\h9.2.2什么是流式計算\h9.2.3為何要使用流處理\h9.3了解流處理的架構(gòu)\h9.3.1流分區(qū)與任務(wù)\h9.3.2線程模型\h9.3.3本地狀態(tài)存儲\h9.3.4容錯性（Failover）\h9.4操作KStream和KTable\h9.4.1流處理的核心概念\h9.4.2窗口操作\h9.4.3連接操作\h9.4.4轉(zhuǎn)換操作\h9.4.5聚合操作\h9.5實例51：利用流處理開發(fā)一個單詞統(tǒng)計程序\h9.5.1創(chuàng)建Kafka流主題\h9.5.2統(tǒng)計流主題中單詞出現(xiàn)的頻率\h9.5.3預(yù)覽操作結(jié)果\h9.6實例52：利用Kafka流開發(fā)一個SQL引擎\h9.6.1構(gòu)建生產(chǎn)流數(shù)據(jù)源\h9.6.2構(gòu)建Kafka流處理\h9.6.3構(gòu)建數(shù)據(jù)結(jié)構(gòu)和執(zhí)行SQL邏輯\h9.6.4觀察操作結(jié)果\h9.7小結(jié)\h第10章監(jiān)控與測試\h10.1本章教學(xué)視頻說明\h10.2Kafka的監(jiān)控工具——KafkaEagle系統(tǒng)\h10.2.1實例53：管理主題\h10.2.2實例54：查看消費者組信息\h10.2.3實例55：查看Kafka與Zookeeper集群的狀態(tài)和性能\h10.3測試生產(chǎn)者性能\h10.3.1了解測試環(huán)境\h10.3.2認(rèn)識測試工具\h10.3.3實例56：利用工具測試生產(chǎn)者性能\h10.4測試消費者性能\h10.4.1了解測試環(huán)境\h10.4.2認(rèn)識測試工具\h10.4.3實例57：利用腳本測試消費者的性能\h10.4小結(jié)\h第4篇商業(yè)實戰(zhàn)\h第11章Kafka與ELK套件的整合\h11.1本章教學(xué)視頻說明\h11.2安裝與配置ELK\h11.2.1安裝與配置LogStash\h11.2.2實例58:LogStash的標(biāo)準(zhǔn)輸入與輸出\h11.2.3安裝與配置ElasticSearch\h11.2.4實例59：使用ElasticSearch集群的HTTP接口創(chuàng)建索引\h11.2.5實例60：使用ElasticSearch集群的HTTP接口查看索引\h11.2.6實例61：使用ElasticSearch集群的HTTP接口添加數(shù)據(jù)\h11.2.7安裝與配置Kibana\h11.2.8實例62：啟動并驗證Kibana系統(tǒng)\h11.3實例63：實現(xiàn)一個游戲日志實時分析系統(tǒng)\h11.3.1了解系統(tǒng)要實現(xiàn)的功能\h11.3.2了解平臺體系架構(gòu)\h11.3.3采集數(shù)據(jù)\h11.3.4分流數(shù)據(jù)\h11.3.5實現(xiàn)數(shù)據(jù)可視化\h11.4小結(jié)\h第12章Kafka與Spark實時計算引擎的整合\h12.1本章教學(xué)視頻說明\h12.2介紹Spark背景\h12.2.1SparkSQL——Spark處理結(jié)構(gòu)化數(shù)據(jù)的模塊\h12.2.2SparkStreaming——Spark核心應(yīng)用接口的一種擴展\h12.2.3MLlib——Spark的一個機器學(xué)習(xí)類庫\h12.2.4GraphX——Spark的一個圖計算框架\h12.3準(zhǔn)備Spark環(huán)境\h12.3.1下載Spark基礎(chǔ)安裝包\h12.3.2安裝與配置Spark集群\h12.4操作Spark\h12.4.1實例64：使用SparkShell統(tǒng)計單詞出現(xiàn)的頻率\h12.4.2實例65：使用SparkSQL對單詞權(quán)重進行降序輸出\h12.4.3實例66：使用SparkSubmit統(tǒng)計單詞出現(xiàn)的頻率\h12.5實例67：對游戲明細(xì)數(shù)據(jù)做實時統(tǒng)計\h12.5.1了解項目背景和價值\h12.5.2設(shè)計項目實現(xiàn)架構(gòu)\h12.5.3編碼步驟一實現(xiàn)數(shù)據(jù)采集\h12.5.4編碼步驟二實現(xiàn)流計算\h12.5.5編碼步驟三打包應(yīng)用程序\h12.5.6編碼步驟四創(chuàng)建表結(jié)構(gòu)\h12.5.7編碼步驟五執(zhí)行應(yīng)用程序\h12.5.8編碼步驟六預(yù)覽結(jié)果\h12.6小結(jié)\h第13章實例68：從零開始設(shè)計一個Kafka監(jiān)控系統(tǒng)——KafkaEagle\h13.1本章教學(xué)視頻說明\h13.2了解KafkaEagle監(jiān)控系統(tǒng)\h13.2.1設(shè)計的背景\h13.2.2應(yīng)用場景\h13.3從結(jié)構(gòu)上了解KafkaEagle\h13.3.1了解KafkaEagle的整體架構(gòu)和代碼結(jié)構(gòu)\h13.3.2設(shè)計KafkaEagle的7大功能模塊\h13.4實現(xiàn)KafkaEagle的功能模塊\h13.4.1編碼步驟一實現(xiàn)數(shù)據(jù)面板\h13.4.2編碼步驟二實現(xiàn)主題管理\h13.4.3編碼步驟三實現(xiàn)消費者實例詳情\h13.4.4編碼步驟四實現(xiàn)集群監(jiān)控\h13.4.5編碼步驟五實現(xiàn)性能監(jiān)控\h13.4.6編碼步驟六實現(xiàn)告警功能\h13.4.7編碼步驟七實現(xiàn)系統(tǒng)功能\h13.5安裝及使用KafkaEagle監(jiān)控系統(tǒng)\h13.5.1準(zhǔn)備環(huán)境\h13.5.2快速部署\h13.5.3了解KafkaEagle的基礎(chǔ)命令\h13.6小結(jié)\h第1篇準(zhǔn)備業(yè)界已有的消息隊列系統(tǒng)，在擴展性、可靠性、資源利用率和吞吐率方面存在明顯不足，故LinkedIn團隊開始嘗試設(shè)計一款新的消息隊列系統(tǒng)，進而誕生了Kafka消息隊列系統(tǒng)。本篇將介紹學(xué)習(xí)Kafka前的準(zhǔn)備工作，包括Kafka的基本概念和架構(gòu)，以及詳細(xì)的安裝步驟。?第1章了解消息隊列和Kafka?第2章安裝及配置Kafka\h第1章了解消息隊列和Kafka本章的知識都是Kafka基礎(chǔ)，學(xué)習(xí)起來會非常輕松。本章能夠幫助讀者從零開始認(rèn)識Kafka，內(nèi)容包含消息隊列、Kafka的起源、Kafka的基礎(chǔ)知識等。\h1.1本章教學(xué)視頻說明視頻內(nèi)容：什么是消息隊列、消息隊列與Kafka之間的聯(lián)系、Kafka的基本概念、Kafka的工作機制，以及Kafka的使用范圍等。視頻時長：10分鐘。視頻截圖見圖1-1。圖1-1本章教學(xué)視頻截圖\h1.2消息隊列在高并發(fā)的應(yīng)用場景中，由于來不及同步處理請求，接收到的請求往往會發(fā)生阻塞。例如，大量的插入、更新請求同時到達數(shù)據(jù)庫，這會導(dǎo)致行或表被鎖住，最后會因為請求堆積過多而觸發(fā)“連接數(shù)過多的異?！保═ooManyConnections）錯誤。因此，在高并發(fā)的應(yīng)用場景中需要一個緩沖機制，而消息隊列則可以很好地充當(dāng)這樣一個角色。消息隊列通過異步處理請求來緩解系統(tǒng)的壓力。\h1.2.1什么是消息隊列“消息隊列”（MessageQueue,MQ）從字面來理解，是一個隊列，擁有先進先出（FirstInputFirstOutput,FIFO）的特性。它主要用于不同進程或線程之間的通信，用來處理一系列的輸入請求。消息隊列采用異步通信機制。即，消息的發(fā)送者和接收者無須同時與消息隊列進行數(shù)據(jù)交互，消息會一直保存在隊列中，直至被接收者讀取。每一條消息記錄都包含詳細(xì)的數(shù)據(jù)說明，包括數(shù)據(jù)產(chǎn)生的時間、數(shù)據(jù)類型、特定的輸入?yún)?shù)。\h1.2.2消息隊列主要有哪些作用在實際的應(yīng)用中，消息隊列主要有以下作用?！駪?yīng)用解耦：多個應(yīng)用可通過消息隊列對相同的消息進行處理，應(yīng)用之間相互獨立，互不影響；●異步處理：相比于串行和并行處理，異步處理可以減少處理的時間；●數(shù)據(jù)限流：流量高峰期，可通過消息隊列來控制流量，避免流量過大而引起應(yīng)用系統(tǒng)崩潰；●消息通信：實現(xiàn)點對點消息隊列或聊天室等。1.應(yīng)用解耦由于消息與平臺和語言無關(guān)，并且在語法上也不再是函數(shù)之間的調(diào)用，因此，消息隊列允許應(yīng)用接口獨立地進行擴展，只用應(yīng)用接口遵守同樣的接口約束。舉例，用戶使用客戶端上傳一張個人圖片，具體流程如圖1-2所示。（1）圖片上傳系統(tǒng)將圖片信息（如唯一ID、圖片類型、圖片尺寸等）批量寫入消息隊列，寫入成功后會將結(jié)果直接返回給客戶端。（2）人臉識別系統(tǒng)定時從消息隊列中讀取數(shù)據(jù)，完成對新增圖片的識別。圖1-2應(yīng)用解耦實例圖圖片上傳系統(tǒng)無須關(guān)心人臉識別系統(tǒng)是否對上傳的圖片進行了處理，它只需要關(guān)心是否成功將圖片信息寫入消息隊列。由于用戶無須立即知曉人臉識別的結(jié)果，因此人臉識別系統(tǒng)可選擇不同的調(diào)度策略來處理消息隊列中的圖片信息。2.異步處理用戶在注冊賬號時，服務(wù)程序需要給用戶發(fā)送郵件注冊信息和短信注冊信息。比較傳統(tǒng)的做法是——通過串行和并行的方式來實現(xiàn)。（1）串行方式：先將用戶注冊信息寫入數(shù)據(jù)庫，然后發(fā)送短信注冊信息，再發(fā)送郵件注冊信息。以上三個任務(wù)全部完成后，才會將結(jié)果返回給用戶。具體流程如圖1-3所示。假設(shè)這三個階段的耗時均為20ms，不考慮網(wǎng)絡(luò)等其他消耗，則整個過程需耗時60ms。（2）并行方式：先將用戶注冊信息寫入數(shù)據(jù)庫，然后在發(fā)送短信注冊信息的同時還發(fā)送郵件注冊信息。以上任務(wù)全部完成后才會將結(jié)果返回給用戶。具體流程如圖1-4所示。圖1-3串行方式流程圖圖1-4并行處理流程圖假設(shè)這三個階段的耗時均為20ms，不考慮網(wǎng)絡(luò)等其他消耗，則整個過程需耗時40ms。提示：與串行的不同之處是，并行處理提高了處理效率，減少了處理時間。針對上述應(yīng)用場景，采傳統(tǒng)方式時，系統(tǒng)的性能（如并發(fā)量、吞吐量、響應(yīng)時間等）會產(chǎn)生瓶頸。此時需要引入消息隊列異步處理非必要業(yè)務(wù)環(huán)節(jié)。具體架構(gòu)如圖1-5所示。圖1-5更改并行處理流程圖用戶將注冊信息寫入數(shù)據(jù)庫約耗時20ms（和串行和并行的處理時間相同）。短信和郵件注冊信息寫入消息隊列后會直接將結(jié)果返回給用戶。由于寫入消息隊列的速度非常快，基本可以忽略。另外，“通過異步讀取消息隊列中的短信注冊信息”過程和“郵件注冊信息”過程相當(dāng)于同時進行的，那么整個過程約耗時20ms。提示：從上面的分析可以看出，在調(diào)整架構(gòu)后，系統(tǒng)的整體處理時間是串行方式的1/3，是并行方式的1/2。3.數(shù)據(jù)限流數(shù)據(jù)限流也是消息隊列的常用場景之一，一般在促銷和“秒殺”活動中使用得較為廣泛。例如，在電商的“雙11”活動中，由于瞬間的數(shù)據(jù)訪問量過大，服務(wù)器接收到的數(shù)據(jù)請求過大，則導(dǎo)致服務(wù)器上的應(yīng)用服務(wù)無法處理請求而崩潰。為了解決這類問題，一般需要先將用戶請求寫入消息隊列（相當(dāng)于用消息隊列做一次緩沖），然后服務(wù)器上的應(yīng)用服務(wù)再從消息隊列中讀取數(shù)據(jù)。具體流程如圖1-6所示。圖1-6數(shù)據(jù)限流流程圖數(shù)據(jù)限流具有以下優(yōu)點：●用戶請求寫數(shù)據(jù)到消息隊列時，不與應(yīng)用業(yè)務(wù)服務(wù)直接接觸，中間存在一次緩沖。這極大地減少了應(yīng)用服務(wù)處理用戶請求的壓力?！窨梢栽O(shè)置隊列的長度，用戶請求遵循FIFO原則。后來的用戶請求處于隊列之外時，是無法秒殺到商品的，這些請求會直接被舍棄，返給用戶“商品已售完”的結(jié)果。提示：FIFO（FirstInputFirstOutput，先進先出）是一種較為傳統(tǒng)的執(zhí)行方法，按照請求的進入順序依次進行處理。4.消息通信消息隊列具有高效的通信機制，所以其在點對點通信和聊天室通信中被廣泛應(yīng)用。具體流程如圖1-7和1-8所示。圖1-7點對點通信流程圖圖1-8聊天室通信流程圖\h1.3為什么需要KafkaKafka起源于LinkedIn公司。起初，LinkedIn需要收集各個業(yè)務(wù)系統(tǒng)和應(yīng)用的指標(biāo)數(shù)據(jù)來進行數(shù)據(jù)分析，原先是使用“自定義開發(fā)”系統(tǒng)來實現(xiàn)的。但這期間需要采集的數(shù)據(jù)量非常大，且內(nèi)容很復(fù)雜。除要采集操作系統(tǒng)的基礎(chǔ)指標(biāo)（例如：內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)等）外，還要采集很多和業(yè)務(wù)相關(guān)的數(shù)據(jù)指標(biāo)。隨著數(shù)據(jù)量的增長、業(yè)務(wù)需求的復(fù)雜度提高，這個“自定義開發(fā)”系統(tǒng)的問題也越來越多。例如，在處理一個HTTP請求數(shù)據(jù)時，由于數(shù)據(jù)內(nèi)容是以XML數(shù)據(jù)格式進行傳輸?shù)?，需要先對這部分?jǐn)?shù)據(jù)做解析處理，然后才能拿來做離線分析。由于這樣一個自定義開發(fā)系統(tǒng)不夠穩(wěn)定，且XML數(shù)據(jù)格式的解析過程也非常復(fù)雜，所以系統(tǒng)經(jīng)常出現(xiàn)問題。出現(xiàn)問題后，定位分析也比較麻煩，需要很長的處理時間，所以無法做到實時服務(wù)。之后，LinkedIn想尋找一種可支持大數(shù)據(jù)實時服務(wù)并且支持水平擴展的解決方案。嘗試過使用ActiveMQ，但是它不支持水平擴展，并且ActiveMQ內(nèi)部有很多Bug。說明：ActiveMQ是一個開源的消息系統(tǒng)，完全采用Java編程語言來實現(xiàn)，因此能很好地兼容Java消息服務(wù)（JavaMessageService,JMS）規(guī)范。于是，LinkedIn團隊開發(fā)了一個既滿足實時處理需求，又可支持水平拓展的消息系統(tǒng)——Kafka，它還擁有高吞吐量特性。2010年，Kafka項目被托管到Github開源社區(qū)。一時間，大量開發(fā)者被這個項目所吸引。2011年，Kafka成為Apache項目基金會的一個開源項目。2012年，Apache項目基金會開始對Kafka項目進行孵化。之后，不斷有LinkedIn員工和社區(qū)成員來維護和改善Kafka項目，Kafka項目得到持續(xù)不斷地改進。如今，Kafka項目成為Apache項目基金會的頂級項目之一。\h1.4Kafka的基本概念Kafka是一個分布式實時數(shù)據(jù)流平臺，可獨立部署在單臺服務(wù)器上，也可部署在多臺服務(wù)器上構(gòu)成集群。它提供了發(fā)布與訂閱功能。用戶可以發(fā)送數(shù)據(jù)到Kafka集群中，也可以從Kafka集群中讀取數(shù)據(jù)。Kafka系統(tǒng)中有幾個核心概念，下面分別介紹。\h1.4.1代理、生產(chǎn)者、消費者、消費者組1.代理（Broker）在Kafka集群中，一個Kafka進程（Kafka進程又稱為Kafka實例）被稱為一個代理（Broker）節(jié)點。代理節(jié)點是消息隊列中的一個常用概念。通常，在部署分布式Kafka集群時，一臺服務(wù)器上部署一個Kafka實例。2.生產(chǎn)者（Producer）在Kafka系統(tǒng)中，生產(chǎn)者通常被稱為Producer。Producer將消息記錄發(fā)送到Kafka集群指定的主題（Topic）中進行存儲，同時生產(chǎn)者（Producer）也能通過自定義算法決定將消息記錄發(fā)送到哪個分區(qū)（Partition）。例如，通過獲取消息記錄主鍵（Key）的哈希值，然后使用該值對分區(qū)數(shù)取模運算，得到分區(qū)索引。計算公式如下。3.消費者（Consumer）消費者（Consumer）從Kafka集群指定的主題（Topic）中讀取消息記錄。在讀取主題數(shù)據(jù)時，需要設(shè)置消費組名（GroupId）。如果不設(shè)置，則Kafka消費者會默認(rèn)生成一個消費組名稱。4.消費者組（ConsumerGroup）消費者程序在讀取Kafka系統(tǒng)主題（Topic）中的數(shù)據(jù)時，通常會使用多個線程來執(zhí)行。一個消費者組可以包含一個或多個消費者程序，使用多分區(qū)和多線程模式可以極大提高讀取數(shù)據(jù)的效率。提示：一般而言，一個消費者對應(yīng)一個線程。在給應(yīng)用程序設(shè)置線程數(shù)量時，遵循“線程數(shù)小于等于分區(qū)數(shù)”原則。如果線程數(shù)大于分區(qū)數(shù)，則多余的線程不會消費分區(qū)中的數(shù)據(jù)，這樣會造成資源浪費。\h1.4.2主題、分區(qū)、副本、記錄1.主題（Topic）Kafka系統(tǒng)通過主題來區(qū)分不同業(yè)務(wù)類型的消息記錄。例如，用戶登錄數(shù)據(jù)存儲在主題A中，用戶充值記錄存儲在主題B中，則如果應(yīng)用程序只訂閱了主題A，而沒有訂閱主題B，那該應(yīng)用程序只能讀取主題A中的數(shù)據(jù)。2.分區(qū)（Partition）每一個主題（Topic）中可以有一個或者多個分區(qū)（Partition）。在Kafka系統(tǒng)的設(shè)計思想中，分區(qū)是基于物理層面上的，不同的分區(qū)對應(yīng)著不同的數(shù)據(jù)文件。Kafka通過分區(qū)（Partition）來支持物理層面上的并發(fā)讀寫，以提高Kafka集群的吞吐量。每個主題（Topic）下的各分區(qū)（Partition）中存儲數(shù)據(jù)的具體流程如圖1-9所示。圖1-9各分區(qū)存儲數(shù)據(jù)的流程每個分區(qū)（Partition）內(nèi)部的消息記錄是有序的，每個消息都有一個連續(xù)的偏移量序號（Offset）。一個分區(qū)只對應(yīng)一個代理節(jié)點（Broker），一個代理節(jié)點可以管理多個分區(qū)。3.副本（Replication）在Kafka系統(tǒng)中，每個主題（Topic）在創(chuàng)建時會要求指定它的副本數(shù)，默認(rèn)是1。通過副本（Replication）機制來保證Kafka分布式集群數(shù)據(jù)的高可用性。提示：在創(chuàng)建主題時，主題的副本系數(shù)值應(yīng)如下設(shè)置：（1）若集群數(shù)量大于等于3，則主題的副本系數(shù)值可以設(shè)置為3；（2）若集群數(shù)量小于3，則主題的副本系數(shù)值可以設(shè)置為小于等于集群數(shù)量值。例如，集群數(shù)為2，則副本系數(shù)可以設(shè)置為1或者2；集群數(shù)為1，則副本系數(shù)只能設(shè)置為1。通常情況下，當(dāng)集群數(shù)量大于等于3時，為了保證集群數(shù)據(jù)不丟失，會將副本系數(shù)值設(shè)置為3。當(dāng)然，集群數(shù)量大于等于3時，副本系數(shù)值也可以設(shè)置為1或者2，但是會存在數(shù)據(jù)丟失的風(fēng)險。4.記錄（Record）被實際寫入到Kafka集群并且可以被消費者應(yīng)用程序讀取的數(shù)據(jù)，被稱為記錄（Record）。每條記錄包含一個鍵（Key）、值（Value）和時間戳（Timestamp）。\h1.5了解Kafka的工作機制——生產(chǎn)消息/消費消息Kafka作為一個消息隊列系統(tǒng)，其核心機制就是生產(chǎn)消息和消費消息。在Kafka基本結(jié)構(gòu)中，生產(chǎn)者（Producer）組件和消費者（Consumer）組件互不影響，但又是必須存在的。缺少生產(chǎn)者和消費者中的任意一方，整個Kafka消息隊列系統(tǒng)將是不完整的。Kafka消息隊列系統(tǒng)最基本的結(jié)構(gòu)如圖1-10所示?！裆a(chǎn)者（Producer）負(fù)責(zé)寫入消息數(shù)據(jù)。將審計日志、服務(wù)日志、數(shù)據(jù)庫、移動App日志，以及其他類型的日志主動推送到Kafka集群進行存儲?！裣M者（Consumer）負(fù)責(zé)讀取消息數(shù)據(jù)。例如，通過Hadoop的應(yīng)用接口、Spark的應(yīng)用接口、Storm的應(yīng)用接口、ElasticSearch的應(yīng)用接口，以及其他自定義服務(wù)的應(yīng)用接口，主動拉取Kafka集群中的消息數(shù)據(jù)。另外，Kafka是一個分布式系統(tǒng)，用Zookeeper來管理、協(xié)調(diào)Kafka集群的各個代理（Broker）節(jié)點。當(dāng)Kafka集群中新添加了一個代理節(jié)點，或者某一臺代理節(jié)點出現(xiàn)故障時，Zookeeper服務(wù)將會通知生產(chǎn)者應(yīng)用程序和消費者應(yīng)用程序去其他的正常代理節(jié)點讀寫。提示：這里只需對Kafka的基本結(jié)構(gòu)有一個宏觀的認(rèn)知即可，后面章會詳細(xì)介紹Kafka的具體內(nèi)容。圖1-10Kafka消息中間件系統(tǒng)基本結(jié)構(gòu)\h1.6Kafka的使用范圍Kafka作為一個分布式消息隊列系統(tǒng)，擁有處理海量數(shù)據(jù)的能力。它不僅在實時業(yè)務(wù)場景中有天然優(yōu)勢，而且在處理某些場景中的離線任務(wù)時也表現(xiàn)不俗，這得益于Kafka底層的通用性和其強大的應(yīng)用接口（API）。在實時業(yè)務(wù)場景中，Kafka能夠和Spark、Flink、Storm等實時計算引擎完美地結(jié)合。同時，Kafka也提供了應(yīng)用接口（API），可以將主題（Topic）中的數(shù)據(jù)導(dǎo)出到Hive倉庫做離線計算。\h1.6.1Kafka的設(shè)計初衷Kafka雛形由LinkedIn開發(fā)，設(shè)計之初被LinkedIn用來處理活動流數(shù)據(jù)和運營數(shù)據(jù)。提示：活動流數(shù)據(jù)，是指瀏覽器訪問記錄、頁面搜索記錄、查看網(wǎng)頁詳細(xì)記錄等站點內(nèi)容。運營數(shù)據(jù)，是指服務(wù)器的基本指標(biāo)，例如CPU、磁盤I/O、網(wǎng)絡(luò)、內(nèi)存等。在后續(xù)版本迭代中，Kafka被設(shè)計成一個統(tǒng)一的平臺，可用來處理大公司所有的實時數(shù)據(jù)。需要它能夠滿足以下需求。1.高吞吐量日常生活中所使用的支付寶、微信、QQ這類軟件的用戶量非常龐大，每秒產(chǎn)生的數(shù)據(jù)流量也非常巨大。面對這類場景，若要實時地聚合消息日志，必須具有高吞吐量才能支持高容量事件流。2.高可用隊列分布式消息隊列系統(tǒng)都具有異步處理機制。另外，分布式消息隊列系統(tǒng)一般都擁有處理大量數(shù)據(jù)積壓能力，以便支持其他離線系統(tǒng)的定期數(shù)據(jù)加載。3.低延時實時應(yīng)用場景對時延的要求極為嚴(yán)格。耗時越少，則結(jié)果越理想。這意味著，設(shè)計出來的系統(tǒng)必須擁有低延遲處理能力。4.分布式機制系統(tǒng)還需具有支持分區(qū)、分布式、能實時處理消息等特點，并能在機器出現(xiàn)故障時保證數(shù)據(jù)不丟失。為滿足這些需求，Kafka擁有了許多獨特的特性，這使得它更類似于數(shù)據(jù)庫日志，而不是傳統(tǒng)的消息傳遞系統(tǒng)。在1.6.2小節(jié)將介紹這些獨特的特性。\h1.6.2Kafka的特性如今Kafka的社區(qū)非?；钴S，有大量的開發(fā)人員不斷地改善Kafka的不足。在Kafka迭代過程中，每個版本中都會添加很多新特性。1.異步生產(chǎn)數(shù)據(jù)從Kafka0.8.2起，生產(chǎn)者（Producer）寫數(shù)據(jù)時不再區(qū)分同步和異步，所有的操作請求均以異步的方式發(fā)送，這樣大大地提高了客戶端寫數(shù)據(jù)的效率。異步方式將數(shù)據(jù)批量的發(fā)送到Kafka不同的代理（Broker）節(jié)點，因此也減少了Kafka服務(wù)端的資源開銷。這種方式在與Kafka系統(tǒng)進行網(wǎng)絡(luò)通信時，能夠有效地減少等待時間。2.偏移量遷移在Kafka0.8.2之前，消費者（Consumer）每次讀取Kafka集群主題（Topic）中的數(shù)據(jù)時，會產(chǎn)生“消費”記錄，比如偏移量（Offset）、“消費”線程信息、時間戳等信息。這些信息都保存在Zookeeper集群中，這樣Zookeeper的性能會嚴(yán)重影響Kafka集群的吞吐量。從Kafka0.8.2版本開始，消費者（Consumer）應(yīng)用程序可以把“消費”記錄提交到Kafka集群，并以內(nèi)部主題的方式進行存儲，Kafka系統(tǒng)將其命名為__consumer_offsets。一直持續(xù)到Kafka0.10.0版本，Kafka官網(wǎng)才將該特性設(shè)置為默認(rèn)屬性。說明：在Kafka集群主題中，__consumer_offsets屬于內(nèi)部主題。外界客戶端應(yīng)用程序無法直接讀取該主題內(nèi)的數(shù)據(jù)，需要設(shè)置特別的屬性才能實現(xiàn)。3.安全機制在Kafka0.9之前，Kafka系統(tǒng)是沒有安全機制的，在通過外網(wǎng)進行數(shù)據(jù)傳輸時，只能通過設(shè)置Linux操作系統(tǒng)的防火墻或者網(wǎng)絡(luò)安全來控制。如果用戶使用的數(shù)據(jù)是非常敏感的（比如銀行的交易流水記錄），應(yīng)用Kafka是讓人非常擔(dān)憂的，因為數(shù)據(jù)的安全性難以得到保證。在Kafka0.9版本以后，系統(tǒng)添加了安全機制，可以通過SSL和SASL安全機制來進行身份確認(rèn)。生產(chǎn)者（Producer）和消費者（Consumer）必須進行身份驗證，才能操作Kafka集群。另外，Kafka代理（Broker）與Zookeeper集群進行連接時也需要身份驗證。在設(shè)置了安全機制的Kafka集群中，數(shù)據(jù)均采用加密方式進行傳輸。由于加密方式依賴操作系統(tǒng)的CPU和Java虛擬機（JavaVirtualMachine,JVM），所以，在采用加密方式傳輸數(shù)據(jù)時性能可能會降低。提示：在后面的章中會詳細(xì)介紹Kafka的安全機制，這里作為一個特性讓讀者先有所了解。4.連接器Kafka在0.9版本中，添加了一個名為Connect的模塊，即連接器。從命名上來看，它可以在外部系統(tǒng)與數(shù)據(jù)集之間建立一個數(shù)據(jù)流管道，以實現(xiàn)數(shù)據(jù)的讀與寫。Kafka使用了一個通用的框架，可以在這個框架上非常便捷地開發(fā)和管理Kafka連接器（Connect）接口。Kafka連接器還支持在分布式模式或者單機模式下運行，并可以通過RESTAPI提交和管理Kafka集群。5.機架感知Kafka0.10及以后版本中添加了機架感知功能。引入機架感知的概念，能夠顯著提升Kafka集群的可用性。如果所有備份數(shù)據(jù)都在一個單個機架上，一旦這個機架出現(xiàn)故障，則導(dǎo)致所有的備份數(shù)據(jù)變得不可用，這樣是很危險的。所以，需要使用機架感知來讓Kafka的備份數(shù)據(jù)分布到不同的機架上，以保證數(shù)據(jù)的高可用性。6.數(shù)據(jù)流在Kafka0.10及以后版本中，添加了數(shù)據(jù)流特性。在實際業(yè)務(wù)場景中，如需將Kafka集群中的數(shù)據(jù)進行流處理之后再重新回寫到Kafka集群中，那使用KafkaStreams（數(shù)據(jù)流）這一特性能夠很輕易地實現(xiàn)。KafkaStreams是一個用來處理流式數(shù)據(jù)的庫，屬于Java類庫。它并不是一個流處理框架，與Flink、Storm、Spark等這類流處理框架是不一樣的。KafkaStreams不僅只是一個類庫，它依然擁有一系列流處理功能，例如連接（JOIN）、過濾（Filter）、聚合（Aggregate）等，能夠?qū)崿F(xiàn)一個功能齊全、低延時的實時流處理。7.時間戳在Kafka0.10及以后版本中，生產(chǎn)者（Producer）寫入的每一條消息記錄都加入了時間戳（Timestamp）。在寫入消息的過程中，如果用戶沒有指定該消息的時間，則該消息的時間會被自動添加上。Kafka數(shù)據(jù)流（Streams）實現(xiàn)了基于時間事件的實時流處理，用戶可以使用時間戳來跟蹤和查找消息記錄。8.消息語義在Kafka版本中，實現(xiàn)了消息記錄只處理一次（ExactlyOnceSemantics,EOS）。在Kafka中，單個代理（Broker）節(jié)點可能會出現(xiàn)宕機，或者生產(chǎn)者（Producer）在向Kafka集群主題（Topic）發(fā)送消息時出現(xiàn)網(wǎng)絡(luò)故障。Kafka生產(chǎn)者在處理這類異常行為時會有以下幾種不同語義?！裰辽僖淮危喝绻贙afka中設(shè)置ACKS=ALL，則意味著寫入的消息至少有一條。如果生產(chǎn)者（Producer）等待Kafka集群服務(wù)端確認(rèn)發(fā)生超時，或者收到服務(wù)端響應(yīng)的錯誤碼，則會觸發(fā)重試機制。若是Kafka代理（Broker）節(jié)點在發(fā)送確認(rèn)之前失敗了，但是消息卻成功寫入到了Kafka集群主題（Topic），由于失敗再次觸發(fā)重試機制導(dǎo)致消息被重寫，最終導(dǎo)致結(jié)果不正確?！裰炼嘁淮危荷a(chǎn)者（Produce）在發(fā)送消息到Kafka集群主題（Topic）時，最多允許消息成功寫入一次，這樣可避免數(shù)據(jù)重復(fù)?！窬珳?zhǔn)一次：這是最符合要求的，但是也是最困難的。因為它需要消息傳遞系統(tǒng)與生產(chǎn)者和消費者的應(yīng)用程序之間進行配合。在成功讀取一條消息后，如果用戶將Kafka的偏移量（Offset）的值回退到原點，則用戶將會從回退的偏移量值開始讀取消息，一直讀取到最新的消息為止。\h1.6.3Kafka適用于哪些場景在實際的使用場景中，Kafka有著廣泛的應(yīng)用。例如，日志收集、消息系統(tǒng)、活動追蹤、運營指標(biāo)、流式處理、事件源等。1.日志收集在實際工作中，系統(tǒng)和應(yīng)用程序都會產(chǎn)生大量的日志。為了方便管理這些日志，可以利用Kafka將這些零散的日志收集到Kafka集群中，然后通過Kafka的統(tǒng)一接口將這些數(shù)據(jù)開放給不同的消費者（Consumer）。統(tǒng)一接口包括：Hadoop的應(yīng)用接口、HBase的應(yīng)用接口、ElasticSearch的應(yīng)用接口等。2.消息系統(tǒng)線上業(yè)務(wù)流量很大的應(yīng)用，可以使用Kafka作為緩沖，以減少服務(wù)端的壓力。這樣能夠有效地解耦生產(chǎn)者（Producer）和消費者（Consumer），以及緩沖消息數(shù)據(jù)。3.用戶軌跡可使用Kafka記錄瀏覽器用戶或者手機App用戶產(chǎn)生的各種記錄，例如瀏覽的網(wǎng)頁、搜索的內(nèi)容、點擊的內(nèi)容等。這些用戶活動信息會被服務(wù)器收集Kafka集群中進行存儲，然后消費者通過“消費”這些活動數(shù)據(jù)來做實時分析，或者加載到Hive數(shù)據(jù)倉庫做離線數(shù)據(jù)分析與挖掘。4.記錄運營監(jiān)控數(shù)據(jù)Kafka也可用來記錄運營監(jiān)控數(shù)據(jù)，包括收集各種分布式應(yīng)用系統(tǒng)的數(shù)據(jù)（如Hadoop系統(tǒng)、Hive系統(tǒng)、HBase系統(tǒng)等）。5.實現(xiàn)流處理Kafka是一個流處理平臺，所以在實際應(yīng)用場景中也會與其他大數(shù)據(jù)套件結(jié)合使用，例如SparkStreaming、Storm、Flink等。6.事件源事件源是一種應(yīng)用程序的設(shè)計風(fēng)格，其中狀態(tài)更改會產(chǎn)生一條帶有時間戳的記錄，然后將這條以時間序列產(chǎn)生的記錄進行保存。在面對非常大的存儲數(shù)據(jù)時，可以使用這種方式來構(gòu)建非常優(yōu)秀的后端程序。\h1.7小結(jié)本章介紹了什么是消息隊列，并引出了Kafka的相關(guān)知識。分別介紹了Kafka的起源、基本概念、基本結(jié)構(gòu)，以及使用范圍。通過本章的學(xué)習(xí)，讀者可以對Kafka有了一個大概的了解，知道了Kafka在實際工作中能做哪些事情。\h第2章安裝及配置Kafka本章將介紹Kafka集群的安裝與配置，包含以下內(nèi)容：安裝與配置基礎(chǔ)環(huán)境、安裝Kafka集群、安裝與配置Kafka監(jiān)控工具、編譯Kafka源代碼，以及將Kafka源代碼導(dǎo)入代碼編輯器中等。其中涉及的實戰(zhàn)內(nèi)容并不復(fù)雜。\h2.1本章教學(xué)視頻說明視頻內(nèi)容：基礎(chǔ)環(huán)境的準(zhǔn)備、安裝Kafka集群、安裝與配置Kafka監(jiān)控工具、編譯Kafka源代碼，以及將Kafka源代碼導(dǎo)入代碼編輯器等。視頻時長：19分鐘。視頻截圖見圖2-1所示。圖2-1本章教學(xué)視頻截圖\h2.2安裝與配置基礎(chǔ)環(huán)境需安裝以下幾個軟件。1.Linux操作系統(tǒng)Kafka設(shè)計之初便是以Linux操作系統(tǒng)作為前提的，因此Linux操作系統(tǒng)能完美支持Kafka。本節(jié)以64位CentOS6.6為例。提示：CentOS（CommunityEnterpriseOperatingSystem，社區(qū)企業(yè)操作系統(tǒng)）是Linux發(fā)行版之一。2.Java軟件開發(fā)工具包（JavaDevelopmentKit,JDK）Kafka的源代碼是利用Scala語言編寫的，它需要運行在Java虛擬機（JavaVirtualMachine,JVM）上。因此，在安裝Kafka之前需要先安裝JDK。3.ZooKeeperKafka是一個分布式消息中間件系統(tǒng)，它依賴ZooKeeper管理和協(xié)調(diào)Kafka集群的各個代理（Broker）節(jié)點。因此，在安裝Kafka集群之前需要先安裝ZooKeeper集群。在安裝CentOS、JDK、ZooKeeper之前，需要準(zhǔn)備好這些軟件的安裝包。安裝包選擇rpm或tar.gz類型均可。本書選擇的是64位操作系統(tǒng)下的tar.gz類型的安裝包，版本信息與下載地址見表2-1。表2-1版本信息與下載地址\h2.2.1安裝并配置Linux操作系統(tǒng)目前，市場上Linux操作系統(tǒng)的版本有很多，如RedHat、Ubuntu、CentOS等。讀者可以根據(jù)自己的喜好選取合適的Linux操作系統(tǒng)，這對學(xué)習(xí)本書的影響不大。CentOS6.6安裝包下載界面如圖2-2所示。本書選擇64位CentOS6.6的鏡像文件進行下載。圖2-2CentOS操作系統(tǒng)下載預(yù)覽提示：如果有現(xiàn)成的物理機或者云主機供學(xué)習(xí)使用，則可以跳過下面內(nèi)容，直接進入2.2.2小節(jié)開始學(xué)習(xí)。如果是自行安裝虛擬機學(xué)習(xí)使用，則請繼續(xù)閱讀下面內(nèi)容。在Windows操作系統(tǒng)中，安裝Linux操作系統(tǒng)虛擬機可以使用VMware或VirtualBox。在Mac操作系統(tǒng)中，安裝Linux操作系統(tǒng)虛擬機可以使用ParallelsDesktop或VirtualBox。提示：無論在Windows操作系統(tǒng)中還是在Mac操作系統(tǒng)環(huán)境中，VirtualBox軟件都是免費的。而VMware和ParallelsDesktop均屬于商業(yè)產(chǎn)品，用戶需要付費使用。使用這些軟件安裝Linux操作系統(tǒng)虛擬機，不涉及復(fù)雜的操作，均是直接單擊“下一步”按鈕，直到最后單擊“完成”按鈕。1.配置網(wǎng)絡(luò)安裝完Linux操作系統(tǒng)虛擬機后，如果虛擬機需要連接外網(wǎng)，應(yīng)做一個簡單的網(wǎng)絡(luò)配置。具體操作命令如下：完成網(wǎng)絡(luò)配置后，重啟虛擬機使配置生效。具體操作命令如下：2.配置hosts系統(tǒng)文件這里安裝的是三臺Linux操作系統(tǒng)虛擬機。在其中一臺配置好主機的hosts文件，然后使用復(fù)制命令將該hosts文件分發(fā)到其他兩臺機器中。（1）在其中一個主機上配置hosts文件，具體操作命令如下：（2）使用Linux的復(fù)制命令分發(fā)文件。具體操作命令如下：（3）登錄到其他主機，將/tmp目錄下的hosts文本文件復(fù)制到/etc目錄中。\h2.2.2實例1：安裝與配置Java運行環(huán)境本書選擇的是Oracle官方的JDK8，版本號為8u144，如圖2-3所示。圖2-3JDK下載版本預(yù)覽提示：在學(xué)習(xí)本書時，可能Oracle官方網(wǎng)站的JDK版本號又更新了，選擇其他版本號的JDK進行下載也是可以的，這并不影響對本書內(nèi)容的學(xué)習(xí)。實例描述在Linux操作系中安裝JDK。其中涉及下載安裝包、解壓安裝包并配置、同步安裝包等操作。1.安裝JDK由于CentOS操作系統(tǒng)可能會自帶OpenJDK環(huán)境，所以，在安裝JDK之前，需要先檢查CentOS操作系統(tǒng)中是否存在OpenJDK環(huán)境。如存在，則需要先將其卸載。具體操作步驟如下。（1）卸載CentOS操作系統(tǒng)自帶JDK環(huán)境。如果不存在自帶的JDK環(huán)境，則可跳過此步驟。（2）將下載的JDK安裝包解壓縮到指定目錄下（可自行指定），詳細(xì)操作命令如下。2.配置JDK將JDK解壓縮到指定目錄后，需要配置JDK的全局環(huán)境變量，具體操作步驟如下。（1）添加JDK全局變量，具體操作命令如下。（2）若要使配置的內(nèi)容立即生效，則需要執(zhí)行以下命令。（3）驗證JDK環(huán)境是否安裝成功，具體操作命令如下。如果操作系統(tǒng)終端顯示了對應(yīng)的JDK版本號（如圖2-4所示），則認(rèn)為JDK環(huán)境配置成功。圖2-4JDK打印版本信息3.同步安裝包將第一臺主機上解壓后的JDK文件夾和環(huán)境變量配置文件.bash_profile分別同步到其他兩個主機上。具體操作命令如下。\h2.2.3實例2：配置SSH免密碼登錄SecureShell簡稱SSH，由IETF的網(wǎng)絡(luò)小組所制定。SSH協(xié)議建立在應(yīng)用層基礎(chǔ)上，專為遠(yuǎn)程登錄會話和其他網(wǎng)絡(luò)服務(wù)提供安全性保障。提示：國際互聯(lián)網(wǎng)工程任務(wù)組（TheInternetEngineeringTaskForce,IETF）是一個公開性質(zhì)的大型民間國際團體，匯集了大量與互聯(lián)網(wǎng)架構(gòu)和“互聯(lián)網(wǎng)正常運作”相關(guān)的網(wǎng)絡(luò)設(shè)計者、運營者、投資人及研究人員。1.了解SSH協(xié)議利用SSH協(xié)議可以有效地防止在遠(yuǎn)程管理過程中重要信息的泄露。SSH起初是UNIX操作系統(tǒng)上的一個應(yīng)用程序，后來擴展到其他操作系統(tǒng)平臺。正確使用SSH協(xié)議可以彌補網(wǎng)絡(luò)中的漏洞。幾乎所有的UNIX平臺（例如Linux、AIX、Solaris）都可以運行SSH客戶端。提示：AIX是IBM基于AT&TUnixSystemV開發(fā)的一套類似UNIX的操作系統(tǒng)，可運行在利用IBM專有的Power系列芯片設(shè)計的小型機上。Solaris是SunMicroSystems研發(fā)的計算機操作系統(tǒng)，它是UNIX操作系統(tǒng)的衍生版本之一。在Windows、Linux和MacOS操作系統(tǒng)上的SSH客戶端，可以使用SSH協(xié)議登錄到Linux服務(wù)器。在SSH工具中輸入Linux服務(wù)器的用戶名和密碼，或者在Linux服務(wù)器中添加客戶端的公鑰來進行登錄。登錄的流程如圖2-5所示。圖2-5SSH登錄2.配置SSH免密登錄在Kafka集群啟動時，實現(xiàn)三臺主機免密碼登錄。這里使用SSH來實現(xiàn)。實例描述在Linux操作系統(tǒng)中配置SSH免密登錄，涉及創(chuàng)建密鑰、認(rèn)證授權(quán)、文件賦權(quán)等操作。具體操作步驟如下：（1）創(chuàng)建密鑰。在Linux操作系統(tǒng)中，使用ssh-keygen命令來創(chuàng)建密鑰文件，具體操作命令如下。接下來只需按Enter鍵，不用設(shè)置任何信息。命令操作結(jié)束后會在/home/hadoop/.ssh/目錄下生成對應(yīng)的私鑰和公鑰等文件。（2）認(rèn)證授權(quán)。將公鑰（id_rsa.pub）文件中的內(nèi)容追加到authorized_keys文件中，具體操作命令如下。（3）文件賦權(quán)。在當(dāng)前賬號下，需要給authorized_keys文件賦予600權(quán)限，否則會因為權(quán)限限制導(dǎo)致登錄失敗。文件權(quán)限操作命令如下。（4）在其他節(jié)點上創(chuàng)建密鑰。在Kafka集群的其他節(jié)點下，使用ssh-keygen-trsa命令生成對應(yīng)的公鑰。然后在第一臺主機上使用Linux同步命令將authorized_keys文件分發(fā)到其他節(jié)點的/home/hadoop/.ssh/目錄中。詳細(xì)操作命令如下。提示：如果在登錄過程中系統(tǒng)沒有提示輸入密碼，即表示免密碼登錄配置成功。反之，則配置失敗。讀者需核對配置步驟是否和本書一致。為了方便維護集群，通常在所有主機中選擇一臺主機作為“管理者”，讓其負(fù)責(zé)下發(fā)配置文件。這臺主機與其他主機之間的免密關(guān)系如圖2-6所示。圖2-6SSH免密關(guān)系在維護集群（例如執(zhí)行啟動、查看狀態(tài)、停止等操作）時，通常在擁有“管理者”權(quán)限的主機上執(zhí)行批處理腳本。\h2.2.4實例3：安裝與配置ZookeeperZookeeper是一個分布式應(yīng)用程序協(xié)調(diào)服務(wù)系統(tǒng)，是大數(shù)據(jù)生態(tài)圈的重要組件。Kafka、Hadoop、HBase等系統(tǒng)均依賴Zookeeper來提供一致性服務(wù)。Zookeeper是將復(fù)雜且容易出錯的核心服務(wù)進行封裝，然后對外提供簡單易用、高效穩(wěn)定的接口。實例描述Zookeeper安裝涉及下載軟件包、配置Zookeeper系統(tǒng)文件、配置環(huán)境變量、啟動Zookeeper等操作。1.安裝Zookeeper（1）下載Zookeeper軟件包。按表2-1中的地址下載3.4.6版本安裝包，然后將其解壓到指定位置。本書所有的安裝包都會被解壓到/data/soft/new目錄下。（2）解壓軟件包。對Zookeeper軟件包進行解壓和重命名，具體操作命令如下：2.配置Zookeeper系統(tǒng)文件（1）配置zoo.cfg文件。在啟動Zookeeper集群之前，需要配置Zookeeper集群信息。讀者可以將Zookeeper安裝目錄下的示例配置文件重命名，即，將zoo_sample.cfg修改為zoo.cfg。按如下所示編輯zoo.cfg文件。（2）配置注意事項。在配置的dataDir目錄下創(chuàng)建一個myid文件，該文件里面寫入一個0～255的整數(shù)，每個Zookeeper節(jié)點上這個文件中的數(shù)字要是唯一的。本書的這些數(shù)字是從1開始的，依次對應(yīng)每個Kafka節(jié)點。主機與代理節(jié)點（Broker）的對應(yīng)關(guān)系如圖2-7所示。圖2-7主機與代理節(jié)點（Broker）的對應(yīng)關(guān)系（3）操作細(xì)節(jié)。文件中的數(shù)字要與DataNode節(jié)點下的Zookeeper配置的數(shù)字保持一致。例如，server.1=dn1:2888:3888，則dn1主機下的myid配置文件應(yīng)該填寫數(shù)字1。在dn1主機上配置好ZooKeeper環(huán)境后，可使用scp命令將其傳輸?shù)狡渌?jié)點，具體命令如下。完成文件傳輸后，dn2主機和dn3主機上的myid文件中的數(shù)字分別被修改為2和3。3.配置環(huán)境變量在Linux操作系統(tǒng)中，可以對Zookeeper做全局的環(huán)境變量配置。這樣做的好處是，可以很方便地使用Zookeeper腳本，不用切換到Zookeeper的bin目錄下再操作。具體操作命令如下。之后，用以下命令使剛剛配置的環(huán)境變量立即生效：接著，在其他兩臺主機上也做相同的配置操作。4.啟動Zookeeper在安裝了Zookeeper的節(jié)點上，分別執(zhí)行啟動進程的命令：但這樣管理起來不夠方便。可以對上述啟動命令進行改進，例如編寫一個分布式啟動腳本（zk-daemons.sh），具體如下：5.驗證完成啟動命令后，在終端中輸入jps命令。若顯示QuorumPeerMain進程名稱，即表示服務(wù)進程啟動成功。也可以使用Zookeeper的狀態(tài)命令status來查看，具體操作命令如下。結(jié)果如圖2-8所示。在Zookeeper集群運行正常的情況下，若有三個節(jié)點，則會選舉出一個Leader和兩個Follower。圖2-8進程狀態(tài)預(yù)覽結(jié)果提示：讀者也可以查看Zookeeper的運行日志zookeeper.out文件，其中記錄了Zookeeper的啟動過程以及運行過程。\h2.3實例4：部署Kafka安裝Kafka比較簡單，單機模式和分布式模式的部署步驟基本一致。由于生產(chǎn)環(huán)境所使用的操作系統(tǒng)一般是Linux，所以本書Kafka集群的部署也是基于Linux操作系統(tǒng)來完成的。實例描述：按兩種模式部署（單機模式部署和分布式模式）Kafka系統(tǒng)，并觀察結(jié)果。\h2.3.1單機模式部署如果是測試環(huán)境或需要在本地調(diào)試Kafka應(yīng)用程序代碼，則會以單機模式部署一個Kafka系統(tǒng)。部署的步驟也非常簡單：啟動一個Standalone模式的Zookeeper，然后啟動一個KafkaBroker進程。提示：本書選擇的Kafka安裝包版本是，讀者在學(xué)習(xí)本書時，Kafka官方可能發(fā)布了更新的版本。讀者可以選擇更新的版本來安裝，其配置過程依然可以參考本書所介紹的，這并不影響對本書的學(xué)習(xí)。1.下載Kafka安裝包訪問Kafka官方網(wǎng)站，找到下載地址，然后在Linux操作系統(tǒng)中使用wget命令進行下載。具體操作命令如下。2.解壓Kafka安裝包下載了Kafka安裝包后，在Linux操作系統(tǒng)指定位置進行解壓操作。具體操作命令如下。3.配置Kafka全局變量在/home/hadoop/.bash_profile文件中，配置Kafka系統(tǒng)的全局變量。具體操作命令如下。接著，使用source命令使剛剛配置的環(huán)境變量立即生效：4.配置Kafka系統(tǒng)配置單機模式的Kafka系統(tǒng)步驟比較簡單，只需要在$KAFKA_HOME/conf/perties文件中做少量的配置即可。具體操作命令如下。5.啟動Zookeeper以Standalone模式啟動Zookeeper進程，具體操作命令如下。6.啟動Kafka單機模式在當(dāng)前主機上使用Kafka命令來啟動Kafka系統(tǒng)，具體操作命令如下。啟動成功后，終端會打印出如圖2-9所示信息。圖2-9Kafka啟動信息\h2.3.2分布式模式部署在生產(chǎn)環(huán)境中，一般會以分布式模式來部署Kafka系統(tǒng)，以便組建集群。在分布式模式中，不推薦使用Standalone模式的Zookeeper，這樣具有一定的風(fēng)險。如果使用的是Standalone模式的Zookeeper，則一旦Zookeeper出現(xiàn)故障則導(dǎo)致整個Kafka集群不可用。所以，一般在生產(chǎn)環(huán)境中會以集群的形式來部署ZooKeeper。1.下載和單機模式的下載步驟一致。2.解壓可參考單機模式的解壓模式和重命名方法。3.配置Kafka全局變量可參考單機模式的全局配置過程。4.配置Kafka系統(tǒng)在分布式模式下配置Kafka系統(tǒng)和單機模式不一致。打開$KAFKA_HOME/conf/server.properties文件，編輯相關(guān)屬性，具體修改內(nèi)容見代碼2-1。代碼2-1Kafka系統(tǒng)屬性文件配置5.同步安裝包配置好一個主機上的Kafka系統(tǒng)后，使用Linux同步命令將配置好的Kafka文件夾同步到其他的主機上。具體操作命令如下。由于Kafka集群中每個代理（Broker）節(jié)點的ID必須唯一，所以同步完成后需要將其他兩臺主機上的broker.id屬性值修改為1和2（或者是其他不重復(fù)的正整數(shù)）。6.啟動Zookeeper集群在啟動Kafka集群之前，需要先啟動Zookeeper集群。啟動Zookeeper集群無須在每臺主機上分別執(zhí)行Zookeeper啟動命令，只需執(zhí)行分布式啟動命令即可：7.啟動Kafka集群Kafka系統(tǒng)本身沒有分布式啟動Kafka集群的功能，只有單個主機節(jié)點啟動Kafka進程的腳本。可以通過封裝單個節(jié)點啟動Kafka進程的步驟，來實現(xiàn)分布式啟動Kafka集群，具體見代碼2-2。代碼2-2Kafka分布式啟動8.驗證啟動Kafka集群后，可以通過一些簡單的Kafka命令來驗證集群是否正常。具體如下。執(zhí)行后，Linux終端會打印出所有的Kafka主題（Topic）名稱，如圖2-10所示。圖2-10Kafka主題（Topic）名稱預(yù)覽從圖2-10中可以看出，除打印Kafka業(yè)務(wù)數(shù)據(jù)的主題（Topic）名稱外，還打印出Kafka系統(tǒng)內(nèi)部主題——__consumer_offsets，該主題用來記錄Kafka消費者（Consumer）產(chǎn)生的消費記錄，其中包含偏移量（Offset）、時間戳（Timestamp）和線程名等信息。提示：這里讀者有一個大致的了解即可，后面的章會詳細(xì)介紹Kafka系統(tǒng)的內(nèi)部主題。\h2.4實例5：安裝與配置Kafka監(jiān)控工具在實際業(yè)務(wù)場景中，需要頻繁關(guān)注Kafka集群的運行情況。例如，查看集群的代理（Broker）節(jié)點健康狀態(tài)、主題（Topic）列表、消費組（ConsumerGroup）列表、每個主題所對應(yīng)的分區(qū)（Partition）列表等。當(dāng)業(yè)務(wù)場景并不復(fù)雜時，可以使用Kafka提供的命令工具，配合Zookeeper客戶端命令來快速地實現(xiàn)。但是，隨著業(yè)務(wù)場景的復(fù)雜化，消費組和主題的增加，再使用Kafka和Zookeeper命令監(jiān)控則會增加維護的成本，這時Kafka監(jiān)控系統(tǒng)便顯得尤為重要。實例描述在Github開源社區(qū)中下載KafkaEagle源代碼，編譯獲取安裝包，然后執(zhí)行安裝步驟，并觀察執(zhí)行結(jié)果。\h2.4.1獲取并編譯KafkaEagle源代碼KafkaEagle監(jiān)控系統(tǒng)的源代碼托管在Github上。1.下載打開瀏覽器，輸入“”進入Github官網(wǎng)，然后搜索“KafkaEagle”關(guān)鍵字，獲取具體下載地址為/smartloli/kafka-eagle。然后直接單擊“Cloneordownload”按鈕進行下載，將下載的kafka-eagle-master.zip文件上傳到Linux服務(wù)器中。提示：也可以在Linux服務(wù)器上執(zhí)行以下Git命令下載KafkaEagle源代碼：[hadoop@dn1~]$gitclone/smartloli/kafka-eagle2.編譯KafkaEagle是用Java語言開發(fā)的，通過Maven構(gòu)建。Maven是對Java語言進行編譯的一個工具。截止到本書編寫完時，KafkaEagle發(fā)布了1.2.1版本，支持在Mac、Linux和Windows環(huán)境下運行，同時兼容Kafka-0.8.x、Kafka-0.9.x、Kafka-0.10.x和Kafka-1.0.x及以上版本。KafkaEagle源代碼編譯在MacOS、Linux和Windows環(huán)境下均可操作。這里以MacOS環(huán)境來演示，具體操作命令如下。編譯成功后，會在kafka-egale/kafka-eagle-web/target目錄中生成打包好的壓縮文件，編譯結(jié)果如圖2-11所示。圖2-11編譯KafkaEagle的結(jié)果\h2.4.2安裝與配置KafkaEagle1.解壓縮安裝并重命名將編譯好的kafka-eagle-web-1.2.1-bin.tar.gz安裝包進行解壓縮安裝并重命名：2.配置環(huán)境變量在.bash_profile文件中配置KE_HOME環(huán)境變量：然后使用source命令使配置的環(huán)境變量立即生效：3.配置KafkaEagle系統(tǒng)文件進入$KE_HOME/conf目錄中，編輯perties配置文件，配置內(nèi)容見代碼2-3。代碼2-3KafkaEagle配置文件4.啟動KafkaEagle系統(tǒng)配置完成后，在Linux控制臺執(zhí)行啟動命令：啟動成功后，控制臺會打印出對應(yīng)的日志信息，如圖2-12所示。圖2-12啟動KafkaEagle系統(tǒng)控制臺日志中顯示了一個用戶名為admin、密碼為123456的賬號，可用于登錄系統(tǒng)。5.預(yù)覽（1）在瀏覽器中輸入http://dn1:8048/ke，訪問KafkaEagle系統(tǒng)，之后按要求輸入用戶名和密碼，如圖2-13所示。輸入正確的用戶名和密碼后單擊“Signin”按鈕。圖2-13KafkaEagle登錄界面（2）進入KafkaEagle系統(tǒng)主界面中，如圖2-14所示。圖2-14KafkaEagle主界面6.停止KafkaEagle系統(tǒng)停止KafkaEagle系統(tǒng)的方式有兩種：①通過執(zhí)行$KE_HOME/bin/ke.sh腳本來停止；②通過Linux操作系統(tǒng)的kill命令來直接停止。（1）通過指定stop參數(shù)來停止KafkaEagle系統(tǒng)：（2）通過Linux操作系統(tǒng)的kill命令停止KafkaEagle系統(tǒng)：\h2.5實例6：編譯Kafka源代碼在學(xué)習(xí)Kafka技術(shù)時，閱讀Kafka的源代碼是很有必要的。在實際生產(chǎn)環(huán)境中，Kafka系統(tǒng)可能會隨業(yè)務(wù)場景的復(fù)雜化、數(shù)據(jù)量的增加等出現(xiàn)異常，要修復(fù)這類異常問題則需要打補丁，然后重新編譯Kafka源代碼。本節(jié)將介紹在MacOS操作系統(tǒng)下編譯Kafka源代碼。在其他操作系統(tǒng)中，編譯Kafka源代碼的過程基本類似，只不過是環(huán)境變量配置有所區(qū)別。Kafka系統(tǒng)的核心模塊是使用Scala語言編寫的，所以，可以使用Gradle工具進行編譯和構(gòu)建。實例描述編譯Kafka源代碼需要準(zhǔn)備如下環(huán)境：（1）安裝與配置Scala運行環(huán)境；（2）安裝與配置Gradle。同時，執(zhí)行2.5.3小節(jié)的編譯步驟，觀察執(zhí)行結(jié)果。\h2.5.1安裝與配置Scala運行環(huán)境本書所使用的Kafka版本是，從Kafka官方網(wǎng)站可知，該版本所需要的Scala版本在2.10以上。本書中所選擇的Kafka安裝包是kafka_2.11-.tgz，所以，這里選擇最新的Scala-2.12版本進行安裝與配置，如圖2-15所示。圖2-15Kafka系統(tǒng)依賴的Scala版本1.下載Scala安裝包訪問Scala官方網(wǎng)站，獲取軟件包下載地址：/download，然后選擇對應(yīng)的安裝包進行下載，如圖2-16所示圖2-16下載Scala安裝包2.安裝Scala下載完成后，將Scala安裝包解壓縮到指定目錄進行安裝，具體操作命令如下。3.配置Scala環(huán)境變量完成安裝后，在.bash_profile文件中配置Scala運行環(huán)境變量，具體操作命令如下。然后用source命令使配置的環(huán)境變量立即生效，具體操作命令如下。4.驗證安裝與配置好Scala環(huán)境后，在操作系統(tǒng)終端中輸入Scala命令來驗證環(huán)境是否配置成功。具體操作命令如下。如打印出如圖2-17所示的信息，則表示安裝與配置成功。圖2-17Scala版本信息\h2.5.2安裝與配置Gradle通過瀏覽器訪問Gradle的官方地址/install，獲取MacOS操作系統(tǒng)安裝與配置Gradle的方法。通過以下命令可以一鍵完成Gradle的安裝與配置。安裝與配置完成后，在操作系統(tǒng)終端中輸入以下Gradle命令來進行版本驗證。如打印出如圖2-18所示的信息，則表示安裝與配置成功。圖2-18Gradle版本信息\h2.5.3了解Kafka源代碼的編譯過程訪問Kafka官網(wǎng)地址/downloads下載Kafka源代碼壓縮包。本書使用的Kafka版本是kafka-，這里選擇kafka--src.tgz壓縮包。將下載的Kafka源代碼解壓到MacOS操作系統(tǒng)的指定目錄，Kafka源代碼目錄結(jié)構(gòu)如圖2-19所示。圖2-19Kafka源代碼目錄結(jié)構(gòu)1.離線下載依賴包如果編譯環(huán)境網(wǎng)絡(luò)狀況不好，則在執(zhí)行編譯命令之前可以先下載核心依賴包gradle-3.3-all.zip，然后再將它移到gradle/wrapper/目錄中，最后修改gradle/wrapper/perties。具體修改內(nèi)容見代碼2-4。代碼2-4修改編譯配置文件提示：gradle-3.3-all.zip包的下載地址為/distributions。2.在線編譯Kafka源代碼如果編譯網(wǎng)絡(luò)環(huán)境狀態(tài)良好，則無需配置任何配置文件，直接執(zhí)行以下編譯命令即可。成功執(zhí)行上述編譯命令后，會自動下載gradle-3.3-bin.zip依賴包，下載完成后會存放在/Users/dengjie/.gradle/wrapper/dists目錄中。下載過程所需的時間，完全取決于當(dāng)時的網(wǎng)絡(luò)狀況。編譯成功后，操作系統(tǒng)控制臺會打印出如圖2-20所示的信息。圖2-20成功編譯Kafka源代碼編譯之后的Kafka二進制壓縮包文件，會自動存放在core/build/distributions目錄中。這里的壓縮包文件和在Kafka官網(wǎng)上提供的一樣，讀者可以直接使用編譯好的Kafka安裝包。\h2.6實例7：將Kafka源代碼導(dǎo)入編輯器在實際應(yīng)用場景中，可能會遇到一些Kafka異常問題，需要閱讀Kafka源代碼來分析異常問題產(chǎn)生的原因。如果直接打開Kafka源代碼查看，則閱讀起來會很不方便，所以需要借助代碼編輯器來閱讀Kafka源代碼。這里列舉兩種常見的代碼編輯器——IntelliJIDEA和Eclipse。可以通過訪問各自的官方網(wǎng)站來獲取軟件安裝包，其下載地址見表2-2。表2-2代碼編輯器下載地址實例描述從表2-2中獲取編輯器安裝包，按照下列兩種情況將Kafka源代碼導(dǎo)入：（1）在IntelliJIDEA編輯器中導(dǎo)入Kafka源代碼；（2）在Eclipse編輯器中導(dǎo)入Kafka源代碼。\h2.6.1導(dǎo)入IntelliJIDEA編輯器IntelliJIDEA簡稱IDEA，是Java語言開發(fā)的集成環(huán)境。它在智能代碼提示、重構(gòu)、版本控制工具（如Git、SVN等）、代碼分析等方面的功能非常完善。IDEA是JetBrains公司的產(chǎn)品，目前分為旗艦版和社區(qū)版?！衿炫灠姘泄δ埽切枰顿M購買；●社區(qū)版屬于免費產(chǎn)品，功能較少，但對于閱讀Kafka源代碼來說已足夠了。1.將Kafka源代碼轉(zhuǎn)成IDEA結(jié)構(gòu)Kafka源代碼中提供了Gradle工具，可以很方便地將Kafka源代碼轉(zhuǎn)換成IDEA結(jié)構(gòu)。只需執(zhí)行一條轉(zhuǎn)換命令即可，具體操作命令如下。執(zhí)行命令后，如果轉(zhuǎn)換成功，則控制臺會打印出如圖2-21所示的信息。圖2-21轉(zhuǎn)成IDEA結(jié)構(gòu)之后，在Kafka源代碼目錄會生產(chǎn)三個文件——kafka.iml、kafka.iws和kafka.ipr，如圖2-22所示。圖2-22IDEA結(jié)構(gòu)文件2.導(dǎo)入Kafka代碼打開IDEA社區(qū)版代碼編輯器，然后選擇菜單“File”-“Open”命令，在彈出的對話框中選中Kafka源代碼目錄并單擊“Open”按鈕，彈出如圖2-23所示對話框供用戶選擇。圖2-23IDEA代碼編輯器對話框單擊“NewWindow”按鈕，表示重新在一個新的IDEA編輯器窗口中導(dǎo)入Kafka源代碼。之后等待代碼編輯器自動下載需要的依賴包。初始化完成后會出現(xiàn)如圖2-24所示的結(jié)果。圖2-24IDEA完成代碼導(dǎo)入\h2.6.2導(dǎo)入Eclipse編輯器Eclipse是一款著名的跨平臺開源集成開發(fā)環(huán)境，最開始主要用于Java語言開發(fā)。通過安裝不同的插件，Eclipse可以支持不同的計算機編程語言，比如Scala、C++、

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Kafka系統(tǒng)（入門、進階、商業(yè)實戰(zhàn)）

文檔簡介

溫馨提示

最新文檔

評論

Kafka系統(tǒng)（入門、進階、商業(yè)實戰(zhàn)）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Kafka系統(tǒng)（入門、進階、商業(yè)實戰(zhàn)）