版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Spark大數(shù)據(jù)處理框架1 Spark概述2 Spark運(yùn)行機(jī)制3
在VirtualBox上安裝Linux集群4Hadoop安裝前的準(zhǔn)備工作5Hadoop的安裝與配置6Spark的安裝及配置7
使用PySpark編寫Python代碼8 安裝pip工具和一些常用的數(shù)據(jù)分析庫9安裝Anaconda和配置JupyterNotebook1Spark概述MapReduce框架存在以下局限性。僅支持Map和Reduce兩種操作。數(shù)據(jù)處理的每一步都需要一個(gè)Map階段和一個(gè)Reduce階段。處理效率低效。Map中間結(jié)果寫磁盤,Reduce中間結(jié)果寫HDFS,多個(gè)MapReduce之間通過HDFS交換數(shù)據(jù),任務(wù)調(diào)度和啟動(dòng)開銷大。Map和Reduce均需要排序,但是有的任務(wù)處理完全不需要排序(比如求最大值求最小值等),所以就造成了性能的低效。不適合做迭代計(jì)算(如機(jī)器學(xué)習(xí)、圖計(jì)算等)、交互式處理(如數(shù)據(jù)挖掘)和流式處理(如日志分析)。Spark產(chǎn)生背景1Spark概述Spark處理數(shù)據(jù)時(shí),所有的中間數(shù)據(jù)都保存在內(nèi)存中,從而減少磁盤讀寫操作,提高了框架計(jì)算效率。Spark的優(yōu)點(diǎn)。運(yùn)行速度快。Spark基于磁盤做迭代計(jì)算比基于磁盤做迭代計(jì)算的MapReduce快10余倍;Spark基于內(nèi)存的迭代計(jì)算則比基于磁盤做迭代計(jì)算的MapReduce快100倍以上。易用性好。Spark支持Java、Python、Scala等語言進(jìn)行編程,支持交互式的Pytbon和Scala的shell。通用性強(qiáng)。Spark提供了批處理、交互式查詢、實(shí)時(shí)流處理、機(jī)器學(xué)習(xí)和圖計(jì)算等組件,這些組件都可以在同一個(gè)應(yīng)用中無縫使用。兼容性好。Spark可以與其他的大數(shù)據(jù)處理產(chǎn)品進(jìn)行融合,如Spark可以使用Hadoop的YARN作為它的資源管理和調(diào)度器。Spark也有自己的資源管理和調(diào)度框架Standalone。Spark的優(yōu)點(diǎn)1Spark概述Spark的應(yīng)用場(chǎng)景主要有以下幾個(gè)。適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場(chǎng)合。Spark不適用那種異步細(xì)粒度更新狀態(tài)的應(yīng)用,例如Web服務(wù)的存儲(chǔ)或者是增量的Web爬蟲和索引。數(shù)據(jù)量不是特別大,但是要求實(shí)時(shí)統(tǒng)計(jì)分析需求。Spark應(yīng)用場(chǎng)景1Spark概述Spark是一個(gè)大數(shù)據(jù)并行計(jì)算框架,Spark有著自己的生態(tài)系統(tǒng),同時(shí)兼容HDFS、Hive等分布式存儲(chǔ)系統(tǒng),可以完美融入Hadoop的生態(tài)圈中,代替MapReduce去執(zhí)行更為高效的分布式計(jì)算。Spark生態(tài)系統(tǒng)
Spark大數(shù)據(jù)處理框架1 Spark概述2 Spark運(yùn)行機(jī)制3
在VirtualBox上安裝Linux集群4Hadoop安裝前的準(zhǔn)備工作5Hadoop的安裝與配置6Spark的安裝及配置7
使用PySpark編寫Python代碼8 安裝pip工具和一些常用的數(shù)據(jù)分析庫9安裝Anaconda和配置JupyterNotebook2Spark運(yùn)行機(jī)制彈性分布式數(shù)據(jù)集(簡(jiǎn)稱RDD):只讀分區(qū)記錄的集合,Spark對(duì)所處理數(shù)據(jù)的基本抽象。Spark中的計(jì)算可以抽象為對(duì)RDD進(jìn)行創(chuàng)建、轉(zhuǎn)換和返回操作結(jié)果的過程。Spark基本概念通過加載外部物理存儲(chǔ)(如HDFS)中的數(shù)據(jù)集,或當(dāng)前運(yùn)行的應(yīng)用中定義的對(duì)象集合(如List)來創(chuàng)建RDD。RDD在創(chuàng)建后不可被改變,只可以對(duì)其執(zhí)行轉(zhuǎn)換操作和行動(dòng)操作。分區(qū):一個(gè)RDD在物理上被切分為多個(gè)數(shù)據(jù)分區(qū),這些分區(qū)可以分布在集群中的不同節(jié)點(diǎn)上,從而讓RDD中的數(shù)據(jù)可以被并行操作。分區(qū)是Spark計(jì)算任務(wù)的基本處理單位,決定了并行計(jì)算的粒度。Spark應(yīng)用(Application):指的是用戶使用SparkAPI編寫的應(yīng)用程序。應(yīng)用的main()函數(shù)為應(yīng)用程序的入口。2Spark運(yùn)行機(jī)制驅(qū)動(dòng)程序(Driver)和執(zhí)行器(Executor):Spark在執(zhí)行每個(gè)應(yīng)用的過程中會(huì)啟動(dòng)驅(qū)動(dòng)程序和執(zhí)行器兩種JVM進(jìn)程。驅(qū)動(dòng)程序運(yùn)行用戶應(yīng)用中的main()函數(shù),創(chuàng)建SparkContext對(duì)象,準(zhǔn)備Spark應(yīng)用程序的運(yùn)行環(huán)境。Spark基本概念驅(qū)動(dòng)程序也負(fù)責(zé)提交Job,并將Job轉(zhuǎn)化為Task,在各個(gè)執(zhí)行器進(jìn)程間協(xié)調(diào)Task的調(diào)度。在一個(gè)應(yīng)用中,每個(gè)行動(dòng)操作都觸發(fā)生成一個(gè)作業(yè)(Job)。作業(yè):在一個(gè)用戶應(yīng)用中,每個(gè)行動(dòng)操作都觸發(fā)生成一個(gè)作業(yè)。Spark對(duì)RDD采用惰性求解機(jī)制,對(duì)RDD的創(chuàng)建和轉(zhuǎn)換并不會(huì)立即執(zhí)行,只有在遇到行動(dòng)操作時(shí)才會(huì)生成一個(gè)作業(yè),然后統(tǒng)一調(diào)度執(zhí)行。一個(gè)作業(yè)會(huì)被拆分為多組任務(wù),每組任務(wù)被稱為階段(Stage),或者被稱為任務(wù)集(TaskSet)。2Spark運(yùn)行機(jī)制洗牌(Shuffle):有一部分轉(zhuǎn)換操作或行動(dòng)操作會(huì)讓RDD產(chǎn)生寬依賴,這樣RDD操作過程就像是將父RDD中所有分區(qū)的Record進(jìn)行了“洗牌”(Shuffle),數(shù)據(jù)被打散重組。Spark基本概念任務(wù)(Task):一個(gè)Job在每個(gè)Stage內(nèi)都會(huì)按照RDD的Partition數(shù)量,創(chuàng)建多個(gè)Task。任務(wù)(Task)是運(yùn)行在執(zhí)行器(Executor)上的工作單元,單個(gè)分區(qū)數(shù)據(jù)集上的最小處理流程單元。階段(Stage):用戶提交的應(yīng)用程序的計(jì)算過程表示為一個(gè)由RDD構(gòu)成的DAG,如果RDD在轉(zhuǎn)換的時(shí)候需要做Shuffle,那么這個(gè)Shuffle的過程就將這個(gè)DAG分為了不同的階段(Stage)。工作節(jié)點(diǎn)(WorkerNode):Spark的工作節(jié)點(diǎn),用于執(zhí)行提交的作業(yè)資源管理器(ClusterManager):Spark以Spark自帶的Standalone、Hadoop的YARN等為資源管理器調(diào)度Job完成Spark應(yīng)用程序的計(jì)算。2Spark運(yùn)行機(jī)制Spark運(yùn)行架構(gòu),主要包括集群資源管理器(ClusterManager)、運(yùn)行作業(yè)任務(wù)的工作結(jié)點(diǎn)(WorkerNode)、驅(qū)動(dòng)程序(DriverProgram)和每個(gè)工作結(jié)點(diǎn)上負(fù)責(zé)具體任務(wù)的執(zhí)行器(Executor)。Spark運(yùn)行架構(gòu)DriverProgram負(fù)責(zé)執(zhí)行Application中的main()函數(shù),準(zhǔn)備Application的運(yùn)行環(huán)境,創(chuàng)建SparkContext(應(yīng)用上下文)對(duì)象,進(jìn)而用他來創(chuàng)建RDD,提交Job,并將Job轉(zhuǎn)化為多組任務(wù),在各個(gè)Executor進(jìn)程間協(xié)調(diào)任務(wù)的調(diào)度執(zhí)行。此外,SparkContext對(duì)象還負(fù)責(zé)和ClusterManager進(jìn)行通信、資源申請(qǐng)、任務(wù)分配和運(yùn)行監(jiān)控等。2Spark運(yùn)行機(jī)制Spark運(yùn)行架構(gòu)ClusterManager負(fù)責(zé)申請(qǐng)和管理在WorkerNode上運(yùn)行應(yīng)用所需的資源。ClusterManager負(fù)責(zé)申請(qǐng)和管理在WorkerNode上運(yùn)行應(yīng)用所需的資源。Executor是應(yīng)用運(yùn)行在Worker節(jié)點(diǎn)上的一個(gè)進(jìn)程,負(fù)責(zé)運(yùn)行應(yīng)用的某些Task,并將結(jié)果返回給Driver,同時(shí)為需要緩存的RDD提供存儲(chǔ)功能。每個(gè)應(yīng)用都有各自獨(dú)立的一批Executor。2Spark運(yùn)行機(jī)制Spark運(yùn)行架構(gòu)與MapReduce計(jì)算框架相比,Spark采用Executor具有如下兩大優(yōu)勢(shì)。(1)Executor利用多線程來執(zhí)行任務(wù),相比MapReduce的進(jìn)程模型,使用的資源和啟動(dòng)開銷要小很多。(2)Executor中有一個(gè)BlockManager存儲(chǔ)模塊,BlockManager會(huì)將內(nèi)存和磁盤共同作為存儲(chǔ)設(shè)備,當(dāng)需要多輪迭代計(jì)算的時(shí)候,可以將中間結(jié)果存儲(chǔ)到這個(gè)存儲(chǔ)模塊里,供下次需要時(shí)直接使用,而不需要從磁盤中讀取,從而有效減少I/O開銷。。Worker節(jié)點(diǎn)上的不同Executor服務(wù)于不同的應(yīng)用,它們之間是不共享數(shù)據(jù)的。
Spark大數(shù)據(jù)處理框架1 Spark概述2 Spark運(yùn)行機(jī)制3在VirtualBox上安裝Linux集群4Hadoop安裝前的準(zhǔn)備工作5Hadoop的安裝與配置6Spark的安裝及配置7
使用PySpark編寫Python代碼8 安裝pip工具和一些常用的數(shù)據(jù)分析庫9安裝Anaconda和配置JupyterNotebook3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝VirtualBox軟件的版本為VirtualBox-6.1.26,在VirtualBox里可以創(chuàng)建多個(gè)虛擬機(jī)(這些虛擬機(jī)的操作系統(tǒng)可以是Windows也可以是Linux)。本節(jié)介紹如何在VirtualBox上安裝Linux操作系統(tǒng):為VirtualBox設(shè)置存儲(chǔ)文件夾:創(chuàng)建虛擬電腦時(shí),VirtualBox會(huì)創(chuàng)建一個(gè)文件夾,用于存儲(chǔ)這個(gè)虛擬電腦的所有數(shù)據(jù)。VirtualBox啟動(dòng)后的界面:3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝為VirtualBox設(shè)置存儲(chǔ)文件夾:創(chuàng)建虛擬電腦時(shí),VirtualBox會(huì)創(chuàng)建一個(gè)文件夾,用于存儲(chǔ)這個(gè)虛擬電腦的所有數(shù)據(jù)。單擊左上角管理→全局設(shè)定→常規(guī),修改默認(rèn)虛擬電腦位置為自己想要存儲(chǔ)虛擬電腦的位置,這里設(shè)置為E盤VirtualBox文件夾,單擊OK確認(rèn)。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在VirtualBox中創(chuàng)建虛擬機(jī):?jiǎn)?dòng)VirtualBox軟件,在界面右上方點(diǎn)擊“新建”按鈕,打開新建虛擬電腦界面,在“名稱”后面的文本框中輸入虛擬機(jī)名稱,名稱填寫Master;在“類型”后面的下拉列表中選擇Linux;在“版本”后面的下拉列表中選擇要安裝的Linux系統(tǒng)類型及位數(shù),本書選擇安裝的是64位Ubuntu系統(tǒng)。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在VirtualBox中創(chuàng)建虛擬機(jī):?jiǎn)螕簟跋乱徊健卑粹o,設(shè)置虛擬機(jī)內(nèi)存大小。根據(jù)個(gè)人計(jì)算機(jī)配置給虛擬機(jī)設(shè)置內(nèi)存大小,一般情況下沒有特殊要求默認(rèn)即可。這里將虛擬機(jī)內(nèi)存設(shè)置為2GB。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在VirtualBox中創(chuàng)建虛擬機(jī):?jiǎn)螕簟跋乱徊健卑粹o,設(shè)置磁盤,選擇“現(xiàn)在創(chuàng)建虛擬硬盤”選項(xiàng)。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在VirtualBox中創(chuàng)建虛擬機(jī):?jiǎn)螕簟皠?chuàng)建”按鈕,選擇虛擬硬盤文件類型,這里選擇VDI(VirtualBox磁盤映象)。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在VirtualBox中創(chuàng)建虛擬機(jī):?jiǎn)螕簟跋乱徊健卑粹o,設(shè)置虛擬硬盤文件的存放方式,如果磁盤空間較大,就選擇固定大小,這樣可以獲得較好的性能;如果硬盤空間比較緊張,就選擇動(dòng)態(tài)分配。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在VirtualBox中創(chuàng)建虛擬機(jī):?jiǎn)螕簟跋乱徊健卑粹o,設(shè)置虛擬硬盤文件的存放位置和大小,默認(rèn)會(huì)保存在之前配置過的VirtualBox目錄下,虛擬硬盤的大小設(shè)置為20GB。點(diǎn)擊“瀏覽”選擇一個(gè)容量充足的硬盤來存放它,單擊“創(chuàng)建”按鈕完成虛擬電腦的創(chuàng)建。然后,就可以在這個(gè)新建的虛擬機(jī)上安裝Linux系統(tǒng)。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):按照上面的步驟完成虛擬電腦的創(chuàng)建以后,會(huì)返回到此界面。這時(shí)請(qǐng)勿直接單擊“啟動(dòng)”按鈕,否則,有可能會(huì)導(dǎo)致安裝失敗。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):選擇剛剛創(chuàng)建的虛擬機(jī),然后單擊右上方的設(shè)置按鈕打開“Master-設(shè)置”頁面。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):?jiǎn)螕糇髠?cè)存儲(chǔ)按鈕打開存儲(chǔ)設(shè)置頁面,然后單擊“沒有盤片”,單擊右側(cè)的小光盤圖標(biāo),單擊“選擇虛擬盤...”,選擇之前下載的Ubuntu系統(tǒng)安裝文件,本書選擇的Ubuntu系統(tǒng)安裝文件的版本是ubuntu-20.04.3-desktop-amd64.iso。單擊“OK”按鈕。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):選擇剛創(chuàng)建的虛擬機(jī)Master,單擊“啟動(dòng)”按鈕。啟動(dòng)后會(huì)看到Ubuntu安裝歡迎界面,安裝語言選擇中文(簡(jiǎn)體)。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):?jiǎn)螕簟鞍惭bUbuntu”按鈕,在鍵盤布局界面中,鍵盤布局選擇English(US)。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):?jiǎn)螕衾^續(xù)按鈕,在彈出的更新和其他軟件界面中,設(shè)置如圖所示。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):?jiǎn)螕衾^續(xù)按鈕,在彈出的安裝類型界面中確認(rèn)安裝類型,這里選擇“其他選項(xiàng)”3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):?jiǎn)螕簟袄^續(xù)”按鈕,在出現(xiàn)的界面中,單擊“新建分區(qū)表...”按鈕,在彈出的界面中單擊“繼續(xù)”按鈕,選中“空閑”。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):?jiǎn)螕?按鈕,彈出創(chuàng)建分區(qū)界面,設(shè)置交換空間的大小設(shè)512MB3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):?jiǎn)螕?按鈕,彈出創(chuàng)建分區(qū)界面,設(shè)置交換空間的大小設(shè)512MB單擊“OK”按鈕,在彈出的界面中選中“空閑”,然后單擊+按鈕,在彈出的界面中創(chuàng)建根目錄。3
在VirtualBox上安裝Linux集群Master節(jié)點(diǎn)的安裝在虛擬電腦上安裝Linux系統(tǒng):?jiǎn)螕簟按_定”按鈕,在出現(xiàn)的界面中單擊“現(xiàn)在安裝”按鈕,在彈出的界面中單擊“繼續(xù)”按鈕。在出現(xiàn)的“您在什么地方?”頁面,采用默認(rèn)值shanghai即可,單擊“繼續(xù)”,直到出現(xiàn)如圖“您是誰?”的設(shè)置界面設(shè)置用戶名和密碼,然后單擊繼續(xù),安裝過程正式開始,不要單擊Skip按鈕,等待自動(dòng)安裝完成。3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。打開VirtualBox,進(jìn)入VirtualBox界面選中要導(dǎo)出的虛擬機(jī)實(shí)例,這里選擇的是Slave13
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。然后單擊上方的管理按鈕,在下來菜單中單擊“導(dǎo)出虛擬電腦(E)...3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。在彈出的界面中單擊下一步3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。在上面單擊“下一步”后彈出的界面中,選擇導(dǎo)出保存路徑3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。然后單擊“下一步”按鈕,在之后彈出的界面中單擊導(dǎo)出按鈕3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。正在進(jìn)行導(dǎo)出操作,導(dǎo)出結(jié)束后得到Slave1.ova文件。3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。點(diǎn)擊左上角管理→全局設(shè)定→常規(guī),修改默認(rèn)虛擬電腦位置以存儲(chǔ)導(dǎo)入的虛擬電腦,為E盤。單擊OK確認(rèn)。3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。在VirtualBox中單擊管理菜單下的“導(dǎo)入虛擬電腦(I)...”。3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。在彈出的界面中選擇前面得到Slave1.ova文件。3
在VirtualBox上安裝Linux集群虛擬機(jī)克隆安裝Slave1節(jié)點(diǎn)在VirtualBox系統(tǒng)中,可將已經(jīng)安裝配置好一個(gè)虛擬機(jī)實(shí)例像拷貝文件那樣復(fù)制得到相同的虛擬機(jī)系統(tǒng),稱為虛擬機(jī)克隆,具體實(shí)現(xiàn)步驟如下。然后單擊“下一步”在彈出的界面中勾選下面的“重新初始化所有網(wǎng)卡的MAC地址(R)”選項(xiàng),最后單擊導(dǎo)入按鈕即可創(chuàng)建一個(gè)新的虛擬機(jī)實(shí)例。
Spark大數(shù)據(jù)處理框架1 Spark概述2 Spark運(yùn)行機(jī)制3在VirtualBox上安裝Linux集群4Hadoop安裝前的準(zhǔn)備工作5Hadoop的安裝與配置6Spark的安裝及配置7
使用PySpark編寫Python代碼8 安裝pip工具和一些常用的數(shù)據(jù)分析庫9安裝Anaconda和配置JupyterNotebook4
Hadoop安裝前的準(zhǔn)備工作如果你安裝Ubuntu的時(shí)候不是用的“hadoop”用戶,那么需要增加一個(gè)名為hadoop的用戶,這樣做是為了方便后續(xù)軟件的安裝。打開一個(gè)終端,輸入如下命令創(chuàng)建hadoop用戶:$sudouseradd-mhadoop-s/bin/bash-m表示自動(dòng)創(chuàng)建用戶的家目錄,-s指定/bin/bash作為用戶登入后所使用的Shell。為hadoop用戶設(shè)置登錄密碼:$sudopasswdhadoop為hadoop用戶增加管理員權(quán)限:$sudoadduserhadoopsudo創(chuàng)建hadoop用戶4
Hadoop安裝前的準(zhǔn)備工作創(chuàng)建hadoop用戶使用suhadoop切換到用戶hadoop。打開虛擬機(jī)后,通過簡(jiǎn)單的設(shè)置可實(shí)現(xiàn)在Ubuntu與Windows之間互相復(fù)制與粘貼,具體實(shí)現(xiàn)過程:設(shè)備→共享粘貼板→雙向。更新apt源$sudoapt-getupdate安裝SSH、配置SSH無密碼登錄SSH是目前較可靠,專為遠(yuǎn)程登錄會(huì)話和其他網(wǎng)絡(luò)服務(wù)提供安全性的協(xié)議。利用SSH協(xié)議可以有效防止遠(yuǎn)程管理過程中的信息泄露問題。SSH是由客戶端和服務(wù)端組成,客戶端包含ssh程序以及像scp(遠(yuǎn)程拷貝)、slogin(遠(yuǎn)程登陸)、sftp(安全文件傳輸)等其他的應(yīng)用程序。4
Hadoop安裝前的準(zhǔn)備工作安裝SSH、配置SSH無密碼登錄SSH的工作機(jī)制是本地的客戶端發(fā)送一個(gè)連接請(qǐng)求到遠(yuǎn)程的服務(wù)端,服務(wù)端檢查申請(qǐng)的包和IP地址再發(fā)送密鑰給SSH的客戶端,本地再將密鑰發(fā)回給服務(wù)端,自此連接建立。Hadoop的名稱節(jié)點(diǎn)(NameNode)需要通過SSH來啟動(dòng)Slave列表中各臺(tái)主機(jī)的守護(hù)進(jìn)程。由于SSH需要用戶密碼登錄,但Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠在系統(tǒng)運(yùn)行中完成節(jié)點(diǎn)的免密碼登錄和訪問,需要將Slave列表中各臺(tái)主機(jī)配置為名稱節(jié)點(diǎn)免密碼登錄它們。配置SSH的主要工作是創(chuàng)建一個(gè)認(rèn)證文件,使得用戶以publickey方式登錄,而不用手工輸入密碼。4
Hadoop安裝前的準(zhǔn)備工作安裝SSH、配置SSH無密碼登錄Ubuntu默認(rèn)已安裝了SSHclient,此外還需要安裝SSHserver:$sudoapt-getinstallopenssh-server安裝后,可以使用如下命令登錄本機(jī):$sshlocalhost配置成SSH無密碼登錄,配置步驟如下:1)執(zhí)行如下命令生成秘鑰對(duì)cd~/.ssh/#若沒有該目錄,需先執(zhí)行一次sshlocalhostssh-keygen-trsa#生成秘鑰對(duì),會(huì)有提示,都按回車即可2)加入授權(quán)cat./id_rsa.pub>>./authorized_keys#加入授權(quán)此時(shí),再執(zhí)行sshlocalhost命令,不用輸入密碼就可以直接登錄了。4
Hadoop安裝前的準(zhǔn)備工作安裝Java環(huán)境1)下載jdk到“/home/hadoop/下載”目錄下:jdk-8u181-linux-x64.tar.gz2)將jdk解壓到/opt/jvm/文件夾中操作步驟:$sudomkdir/opt/jvm#創(chuàng)建目錄$sudotar-zxvf/home/hadoop/下載/jdk-8u181-linux-x64.tar.gz-C/opt/jvm3)配置jdk的環(huán)境變量,打開/etc/profile文件,在文件末尾添加下語句:exportJAVA_HOME=/opt/jvm/jdk1.8.0_181exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PATH執(zhí)行source命令使其立即生效:$source/etc/profile4
Hadoop安裝前的準(zhǔn)備工作安裝Java環(huán)境查看是否安裝成功:在終端執(zhí)行java-versionLinux系統(tǒng)下Scala版本的Eclipse的安裝與配置1.下載eclipse這里下載的Scala版本的Eclipse是eclipse-SDK-4.7.0-linux.gtk.x86_64.tar.gz。2.安裝eclipse將eclipse-SDK-4.7.0-linux.gtk.x86_64.tar.gz解壓到/opt/jvm文件夾中:$sudotar-zxvf~/下載/eclipse-SDK-4.7.0-linux.gtk.x86_64.tar.gz-C/opt/jvm3.創(chuàng)建eclipse桌面快捷方式圖標(biāo)$sudogedit/usr/share/applications/eclipse.desktop#創(chuàng)建并打開文件4
Hadoop安裝前的準(zhǔn)備工作Linux系統(tǒng)下Scala版本的Eclipse的安裝與配置在彈出的文本編輯器輸入以下內(nèi)容并保存文件:[DesktopEntry]Encoding=UTF-8Name=EclipseComment=EclipseIDEExec=/opt/jvm/eclipse/eclipseIcon=/opt/jvm/eclipse/icon.xpmTerminal=falseStartupNotify=trueType=ApplicationCategories=Application;Development;4
Hadoop安裝前的準(zhǔn)備工作Linux系統(tǒng)下Scala版本的Eclipse的安裝與配置打開文件系統(tǒng),在/usr/share/applications/目錄下找到Eclipse圖標(biāo),右擊,復(fù)制到->桌面,此時(shí),eclipse.desktop出現(xiàn)在桌面,然后右鍵eclipse.desktop圖標(biāo)選擇“允許啟動(dòng)”,至此,Eclipse的快捷方式就創(chuàng)建完畢了
Spark大數(shù)據(jù)處理框架1 Spark概述2 Spark運(yùn)行機(jī)制3在VirtualBox上安裝Linux集群4Hadoop安裝前的準(zhǔn)備工作5Hadoop的安裝與配置6Spark的安裝及配置7
使用PySpark編寫Python代碼8 安裝pip工具和一些常用的數(shù)據(jù)分析庫9安裝Anaconda和配置JupyterNotebook5
Hadoop的安裝與配置下載Hadoop安裝文件Hadoop2可以通過/apache/hadoop/common/下載,一般選擇下載最新的穩(wěn)定版本,即下載“stable”下的hadoop-2.x.y.tar.gz這個(gè)格式的文件,這是編譯好的,另一個(gè)包含src的則是Hadoop源代碼,需要進(jìn)行編譯才可使用。下載安裝文件之后,打開一個(gè)終端執(zhí)行如下命令:$sudotar-zxf~/下載/hadoop-2.7.7.tar.gz-C/usr/local#解壓$cd/usr/local/$sudomv./hadoop-2.7.7./hadoop#將文件夾名改為hadoop$sudochown-Rhadoop./hadoop#修改文件權(quán)限其中“~/”表示的是“/home/hadoop/”這個(gè)目錄。Hadoop解壓后即可使用。5
Hadoop的安裝與配置Hadoop單機(jī)模式配置Hadoop默認(rèn)的模式為非分布式模式(獨(dú)立、本地),解壓后無須進(jìn)行其它配置就可運(yùn)行。Hadoop單機(jī)模式只在一臺(tái)機(jī)器上運(yùn)行,存儲(chǔ)采用本地文件系統(tǒng),而不是分布式文件系統(tǒng)HDFS。Hadoop可以在單個(gè)節(jié)點(diǎn)(一臺(tái)機(jī)器)上以偽分布式的方式運(yùn)行,同一個(gè)節(jié)點(diǎn)既作為名稱節(jié)點(diǎn)(NameNode),也作為數(shù)據(jù)節(jié)點(diǎn)(DataNode),讀取的是分布式文件系統(tǒng)HDFS的文件。需要配置相關(guān)文件,才能夠Hadoop以偽分布式模式運(yùn)行,需要修改2個(gè)配置文件,即core-site.xml和hdfs-site.xml。Hadoop偽分布式模式配置5
Hadoop的安裝與配置Hadoop偽分布式模式配置$gedit/usr/local/hadoop/etc/hadoop/core-site.xml修改以后,core-site.xml文件的內(nèi)容如下:<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abaseforothertemporarydirectories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>hadoop.tmp.dir用于保存臨時(shí)文件。fs.defaultFS這個(gè)參數(shù),用于指定HDFS的訪問地址5
Hadoop的安裝與配置Hadoop偽分布式模式配置配置文件hdfs-site.xml,修改后的內(nèi)容如下:<configuration>
<property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>dfs.replication這個(gè)參數(shù)用于指定副本的數(shù)量,.dir用于設(shè)定名稱節(jié)點(diǎn)的元數(shù)據(jù)的保存目錄,dfs.datanode.data.dir用于設(shè)定數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)保存目錄。5
Hadoop的安裝與配置Hadoop偽分布式模式配置執(zhí)行名稱節(jié)點(diǎn)格式化修改配置文件以后,要執(zhí)行名稱節(jié)點(diǎn)的格式化,命令如下:$cd/usr/local/hadoop$./bin/hdfsnamenode-format啟動(dòng)Hadoop執(zhí)行下面命令啟動(dòng)Hadoop:$cd/usr/local/hadoop$./sbin/start-dfs.sh注意:?jiǎn)?dòng)Hadoop時(shí),如果出現(xiàn)“l(fā)ocalhost:Error:JAVA_HOMEisnotsetandcouldnotbefound.”這樣的錯(cuò)誤,需要修改hadoop-env.sh文件,將其中的JAVA_HOME替換為絕對(duì)路徑,具體實(shí)現(xiàn)過程如下:$sudogedit/usr/local/hadoop/etc/hadoop/hadoop-env.sh#打開文件將“exportJAVA_HOME=${JAVA_HOME}”修改為下面所示的內(nèi)容:exportJAVA_HOME=/opt/jvm/jdk1.8.0_1815
Hadoop的安裝與配置Hadoop成功啟動(dòng)后,可以在Linux系統(tǒng)中打開一個(gè)瀏覽器,在地址欄輸入http://localhost:50070就可以查看名稱節(jié)點(diǎn)信息如圖所示、數(shù)據(jù)節(jié)點(diǎn)信息如圖所示,還可以在線查看HDFS中的文件。Hadoop偽分布式模式配置使用Web界面查看HDFS信息5
Hadoop的安裝與配置要使用HDFS,首先需要在HDFS中創(chuàng)建用戶目錄,命令如下:$cd/usr/local/hadoop$./bin/hdfsdfs-mkdir-p/user/hadoop接著把本地文件系統(tǒng)的/usr/local/hadoop/etc/hadoop目錄中的所有xml文件作為后面運(yùn)行Hadoop中自帶的WordCount程序的輸入文件,復(fù)制到分布式文件系統(tǒng)HDFS中的/user/hadoop/input目錄中,命令如下:$cd/usr/local/hadoop$./bin/hdfsdfs-mkdirinput#在HDFS中創(chuàng)建hadoop用戶對(duì)應(yīng)的input目錄$./bin/hdfsdfs-put./etc/hadoop/*.xmlinput#把本地文件復(fù)制到input目錄中Hadoop偽分布式模式配置運(yùn)行Hadoop偽分布式實(shí)例5
Hadoop的安裝與配置現(xiàn)在可以運(yùn)行Hadoop中自帶的WordCount程序,命令如下:$./bin/hadoopjar./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jarwordcountinputoutput運(yùn)行結(jié)束后,可以通過如下命令查看HDFS中output文件夾中的內(nèi)容:$./bin/hdfsdfs-catoutput/*需要強(qiáng)調(diào)的是,Hadoop運(yùn)行程序時(shí),輸出目錄不能存在,否則會(huì)提示錯(cuò)誤信息。因此,若要再次執(zhí)行wordcount程序,需要執(zhí)行如下命令刪除HDFS中的output文件夾:$./bin/hdfsdfs-rm-routput#刪除output文件夾Hadoop偽分布式模式配置運(yùn)行Hadoop偽分布式實(shí)例5
Hadoop的安裝與配置如果要關(guān)閉Hadoop,可以執(zhí)行如下命令:$cd/usr/local/hadoop$./sbin/stop-dfs.shHadoop偽分布式模式配置關(guān)閉Hadoop5
Hadoop的安裝與配置如果要繼續(xù)把其它命令的路徑也加入到PATH變量中,也需要修改~/.bashrc這個(gè)文件,在上述路徑的后面用英文冒號(hào)“:”隔開,把新的路徑加到后面即可。添加后,執(zhí)行命令source~/.bashrc使設(shè)置生效。然后在任何目錄下輸入start-dfs.sh就可啟動(dòng)Hadoop。停止Hadoop輸入stop-dfs.sh命令。Hadoop偽分布式模式配置配置PATH變量把start-dfs.sh、stop-dfs.sh等命令所在的目錄/usr/local/hadoop/sbin加入到環(huán)境變量PATH中,在任何目錄下都可以直接使用命令start-dfs.sh啟動(dòng)Hadoop,不用帶上命令路徑。使用gedit編輯器打開~/.bashrc這個(gè)文件,然后在這個(gè)文件的最前面位置加入如下單獨(dú)一行:exportPATH=$PATH:/usr/local/hadoop/sbin5
Hadoop的安裝與配置采用兩個(gè)虛擬機(jī)來搭建分布式集群環(huán)境:一個(gè)虛擬機(jī)作為Master節(jié)點(diǎn),另一個(gè)虛擬機(jī)作為Slave1節(jié)點(diǎn)。Hadoop集群的安裝配置大致包括以下步驟。在Master節(jié)點(diǎn)上創(chuàng)建hadoop用戶、安裝SSH服務(wù)端、安裝Java環(huán)境。在Master節(jié)點(diǎn)上安裝Hadoop,并完成配置。在Slave1節(jié)點(diǎn)上創(chuàng)建hadoop用戶、安裝SSH服務(wù)端、安裝Java環(huán)境。將Master節(jié)點(diǎn)上的/usr/local/hadoop目錄復(fù)制到Slave1節(jié)點(diǎn)上。在Master節(jié)點(diǎn)上開啟Hadoop。完成步驟①~③之后:Hadoop分布式模式配置5
Hadoop的安裝與配置網(wǎng)絡(luò)配置將兩個(gè)虛擬機(jī)的網(wǎng)絡(luò)連接方式都改為“橋接網(wǎng)卡”模式。以實(shí)現(xiàn)兩個(gè)節(jié)點(diǎn)的互聯(lián)。一定要確保各個(gè)節(jié)點(diǎn)的MAC地址不能相同,否則會(huì)出現(xiàn)IP地址沖突。Hadoop分布式模式配置5
Hadoop的安裝與配置網(wǎng)絡(luò)配置Hadoop分布式模式配置網(wǎng)絡(luò)配置完成以后,通過ifconfig命令查看兩個(gè)虛擬機(jī)的IP地址,本書所用的Master節(jié)點(diǎn)的IP地址為15,所用的Slave1節(jié)點(diǎn)的IP地址為14。在Master節(jié)點(diǎn)上執(zhí)行如下命令修改Master節(jié)點(diǎn)中的/etc/hosts文件:#vim/etc/hosts在hosts文件中增加如下兩條IP地址和主機(jī)名映射關(guān)系,即集群中兩個(gè)節(jié)點(diǎn)與IP地址的映射關(guān)系。15Master14Slave1hosts文件中只能有一個(gè),其對(duì)應(yīng)的主機(jī)名為localhost,如果有多余映射,應(yīng)刪除。修改后需要重啟Linux系統(tǒng)。5
Hadoop的安裝與配置網(wǎng)絡(luò)配置Hadoop分布式模式配置參照Master節(jié)點(diǎn)的配置方法,修改Slave1節(jié)點(diǎn)中的/etc/hosts文件,在hosts文件中增加如下兩條IP地址和主機(jī)名映射關(guān)系:15Master14Slave1修改完成以后,重啟Slave1的Linux系統(tǒng)。在兩個(gè)節(jié)點(diǎn)上測(cè)試是否相互ping得通,如果ping不通,后面就無法順利配置成功。$pingSlave1-c3#在Master上ping三次Slave1,否則要按Ctrl+C中斷ping命令$pingMaster-c3#在Slave1上ping三次Master5
Hadoop的安裝與配置SSH無密碼登錄Slave1節(jié)點(diǎn)Hadoop分布式模式配置必須要讓Master節(jié)點(diǎn)可以SSH無密碼登錄Slave1節(jié)點(diǎn)。首先,生成Master節(jié)點(diǎn)的公鑰:$cd~/.ssh$rm./id_rsa*#刪除之前生成的公鑰(如果已經(jīng)存在)$ssh-keygen-trsa#Master生成公鑰,執(zhí)行后,遇到提示信息,一路按回車就可以5
Hadoop的安裝與配置SSH無密碼登錄Slave1節(jié)點(diǎn)Hadoop分布式模式配置在Master節(jié)點(diǎn)上執(zhí)行如下命令:$cat./id_rsa.pub>>./authorized_keys再執(zhí)行命令sshMaster來驗(yàn)證一下,遇到提示信息,輸入yes即可,執(zhí)行exit命令返回原來的終端。5
Hadoop的安裝與配置SSH無密碼登錄Slave1節(jié)點(diǎn)Hadoop分布式模式配置在Master節(jié)點(diǎn)將上述生成的公鑰傳輸?shù)絊lave1節(jié)點(diǎn):$scp~/.ssh/id_rsa.pubhadoop@Slave1:/home/hadoop/scp是securecopy的簡(jiǎn)寫,用于在Linux上進(jìn)行遠(yuǎn)程復(fù)制文件。執(zhí)行scp時(shí)會(huì)要求輸入Slave1上hadoop用戶的密碼,輸入完成后會(huì)提示傳輸完畢。在Slave1節(jié)點(diǎn)上將SSH公鑰加入授權(quán):hadoop@Slave1:~$mkdir~/.ssh#若~/.ssh不存在,可通過該命令進(jìn)行創(chuàng)建hadoop@Slave1:~$cat~/id_rsa.pub>>~/.ssh/authorized_keys5
Hadoop的安裝與配置SSH無密碼登錄Slave1節(jié)點(diǎn)Hadoop分布式模式配置執(zhí)行上述命令后,在Master節(jié)點(diǎn)上就可以無密碼SSH登錄到Slave1節(jié)點(diǎn)了,可在Master節(jié)點(diǎn)上執(zhí)行如下命令進(jìn)行檢驗(yàn):$sshSlave15
Hadoop的安裝與配置配置PATH變量Hadoop分布式模式配置在Master節(jié)點(diǎn)上配置PATH變量,以便在任意目錄中可直接使用hadoop、hdfs等命令。執(zhí)行vim~/.bashrc命令,打開~/.bashrc文件,在該文件最上面的位置加入下面一行內(nèi)容,注意之后要加上“:”:exportPATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin保存后執(zhí)行命令source~/.bashrc使配置生效。5
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置配置分布式環(huán)境時(shí),需要修改/usr/local/hadoop/etc/hadoop目錄下5個(gè)配置文件,具體包括slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml。修改slaves文件:執(zhí)行vim/usr/local/hadoop/etc/hadoop/slaves命令,打開/usr/local/hadoop/etc/hadoop/slaves文件,由于只有一個(gè)Slave節(jié)點(diǎn)Slave1,所以讓Master節(jié)點(diǎn)既充當(dāng)名稱節(jié)點(diǎn)又充當(dāng)數(shù)據(jù)節(jié)點(diǎn),在文件中添加如下兩行內(nèi)容:localhostSlave15
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置修改core-site.xml文件:<configuration><property><name>fs.defaultFS</name><value>hdfs://Master:9000</value></property><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abaseforothertemporarydirectories.</description></property></configuration>core-site.xml文件用來配置Hadoop集群的通用屬性,包括指定namenode的地址、指定使用Hadoop臨時(shí)文件的存放路徑等。5
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置修改hdfs-site.xml文件:<configuration><property><name>node.secondary.http-address</name><value>Master:50090</value></property><property><name>dfs.replication</name><value>2</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property>Master節(jié)點(diǎn)既充當(dāng)名稱節(jié)點(diǎn)又充當(dāng)數(shù)據(jù)節(jié)點(diǎn),此外還有一個(gè)Slave節(jié)點(diǎn)Slave1,即集群中有兩個(gè)數(shù)據(jù)節(jié)點(diǎn),所以dfs.replication的值設(shè)置為25
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置修改hdfs-site.xml文件:
<property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>hdfs-site.xml文件用來配置分布式文件系統(tǒng)HDFS的屬性,包括指定HDFS保存數(shù)據(jù)的副本數(shù)量,指定HDFS中NameNode的存儲(chǔ)位置,指定HDFS中DataNode的存儲(chǔ)位置等。5
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置修改mapred-site.xml文件:/usr/local/hadoop/etc/hadoop目錄下有一個(gè)mapred-site.xml.template文件,需要修改文件名稱,把它重命名為mapred-site.xml:$cd/usr/local/hadoop/etc/hadoop$mvmapred-site.xml.templatemapred-site.xml$vimmapred-site.xml#打開mapred-site.xml文件然后把mapred-site.xml文件配置成如下內(nèi)容:<configuration><property><name></name><value>yarn</value></property>5
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置
<property><name>mapreduce.jobhistory.address</name><value>Master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>Master:19888</value></property></configuration>5
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置修改yarn-site.xml文件:<configuration><property><name>yarn.resourcemanager.hostname</name><value>Master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>YARN是MapReduce的調(diào)度框架。yarn-site.xml文件用于配置YARN的屬性,包括指定namenodeManager獲取數(shù)據(jù)的方式,指定resourceManager的地址。5
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置把Master節(jié)點(diǎn)上的/usr/local/hadoop文件夾復(fù)制到各個(gè)節(jié)點(diǎn)上。如果之前運(yùn)行過偽分布式模式,建議在切換到集群模式之前先刪除在偽分布模式下生成的臨時(shí)文件。在Master節(jié)點(diǎn)上實(shí)現(xiàn)上述要求的執(zhí)行命令如下:$cd/usr/local$sudorm-r./hadoop/tmp#刪除Hadoop臨時(shí)文件$sudorm-r./hadoop/logs/*#刪除日志文件$tar-zcf~/hadoop.master.tar.gz./hadoop#先壓縮再復(fù)制$cd~$scp./hadoop.master.tar.gzSlave1:/home/hadoop然后在Slave1節(jié)點(diǎn)上執(zhí)行如下命令:$sudorm-r/usr/local/hadoop#刪掉舊的(如果存在)$sudotar-zxf~/hadoop.master.tar.gz-C/usr/local$sudochown-Rhadoop/usr/local/hadoop5
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置Hadoop集群包含兩個(gè)基本模塊:分布式文件系統(tǒng)HDFS和分布式計(jì)算框架MapReduce。首次啟動(dòng)Hadoop集群時(shí),需要先在Master節(jié)點(diǎn)上格式化分布式文件系統(tǒng)HDFS,命令如下:$hdfsnamenode-format在Master節(jié)點(diǎn)上啟動(dòng)Hadoop集群的命令如下:$start-dfs.sh$start-yarn.sh$mr-jobhistory-daemon.shstarthistoryserver#啟動(dòng)Hadoop歷史服務(wù)器5
Hadoop的安裝與配置配置分布式環(huán)境Hadoop分布式模式配置關(guān)閉Hadoop集群,需要在Master節(jié)點(diǎn)執(zhí)行如下命令:$stop-yarn.sh$stop-dfs.sh$mr-jobhistory-daemon.shstophistoryserver此外,還可以全部啟動(dòng)或者全部停止Hadoop集群:?jiǎn)?dòng)命令:start-all.sh停止命令:stop-all.sh
Spark大數(shù)據(jù)處理框架1 Spark概述2 Spark運(yùn)行機(jī)制3在VirtualBox上安裝Linux集群4Hadoop安裝前的準(zhǔn)備工作5Hadoop的安裝與配置6Spark的安裝及配置7
使用PySpark編寫Python代碼8 安裝pip工具和一些常用的數(shù)據(jù)分析庫9安裝Anaconda和配置JupyterNotebook6Spark的安裝及配置單機(jī)模式配置spark-3.2.0-bin-hadoop2.7.tgz版本,下載到“/home/hadoop/下載”目錄下本書采用的環(huán)境配置是:Linux系統(tǒng):Ubuntu16.04;Hadoop2.7.7版本;JDK1.8版本;Spark3.2.0版本。使用hadoop用戶登錄Linux系統(tǒng),打開一個(gè)終端,解壓安裝文件。$sudotar-zxf~/下載/spark-3.2.0-bin-hadoop2.7.tgz-C/usr/local/#解壓$cd/usr/local$sudomv./spark-3.2.0-bin-hadoop2.7./spark#更改文件名$sudochown-Rhadoop:hadoop./spark#修改文件權(quán)限復(fù)制Spark安裝目錄下的conf目錄下的模板文件spark-env.sh.template并命名為spark-env.sh,編輯此文件:$cd/usr/local/spark$cp./conf/spark-env.sh.template./conf/spark-env.sh#復(fù)制生成spark-env.sh文件6Spark的安裝及配置單機(jī)模式配置編輯spark-env.sh文件,在該文件的第一行添加配置信息:$gedit/usr/local/spark/conf/spark-env.sh#用gedit編輯器打開spark-env.sh文件在spark-env.sh文件的第一行添加以下配置信息:exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoopclasspath)有了上面的配置信息以后,Spark就可以把數(shù)據(jù)存儲(chǔ)到Hadoop分布式文件系統(tǒng)HDFS中,也可以從HDFS中讀取數(shù)據(jù)。如果沒有配置上面的信息,Spark就只能讀寫本地?cái)?shù)據(jù),無法讀寫HDFS中的數(shù)據(jù)。配置完成后就可以直接使用Spark,不需要像Hadoop那樣運(yùn)行啟動(dòng)命令。運(yùn)行Spark自帶的求π的近似值實(shí)例,以驗(yàn)證Spark是否安裝成功:$cd/usr/local/spark/bin#進(jìn)入Spark安裝包的bin目錄$./run-exampleSparkPi#運(yùn)行求π的近似值實(shí)例6Spark的安裝及配置偽分布式模式配置Spark單機(jī)偽分布式是在一臺(tái)機(jī)器上既有Master進(jìn)程又有Worker進(jìn)程。使用gedit編輯器打開spark-env.sh文件,在文件末尾添加以下配置信息:exportJAVA_HOME=/opt/jvm/jdk1.8.0_181exportHADOOP_HOME=/usr/local/hadoopexportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopexportSPARK_MASTER_IP=MasterexportSPARK_LOCAL_IP=Master參數(shù)解釋JAVA_HOMEJava的安裝路徑HADOOP_HOMEHadoop的安裝路徑HADOOP_CONF_DIRHadoop配置文件的路徑SPARK_MASTER_IPSpark主節(jié)點(diǎn)的IP或機(jī)器名SPARK_LOCAL_IPSpark本地的IP或機(jī)器名6Spark的安裝及配置偽分布式模式配置3.切換到/sbin目錄下啟動(dòng)集群$cd/usr/local/hadoop$./sbin/start-dfs.sh切換到/sbin目錄下執(zhí)行如下命令啟動(dòng)Spark偽分布式模式。$cd/usr/local/spark/sbin$./start-all.sh#啟動(dòng)命令,停止命令為./stop-all.sh$jps#查看進(jìn)程3875NameNode4022DataNode15082Master15243Jps15196Worker4236SecondaryNameNode
Spark大數(shù)據(jù)處理框架1 Spark概述2 Spark運(yùn)行機(jī)制3在VirtualBox上安裝Linux集群4Hadoop安裝前的準(zhǔn)備工作5Hadoop的安裝與配置6Spark的安裝及配置7使用PySpark編寫Python代碼8 安裝pip工具和一些常用的數(shù)據(jù)分析庫9安裝Anaconda和配置JupyterNotebook7使用SparkShell編寫Scala代碼啟動(dòng)SparkShellSparkShell
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年江西省萍鄉(xiāng)市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2022年陜西省西安市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2021年遼寧省阜新市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2024年江西省景德鎮(zhèn)市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2024消防安全員聘用合同及年度消防安全演練協(xié)議3篇
- 2024燃?xì)獍踩?zé)任保險(xiǎn)合同范本3篇
- 2024汪育與配偶汪某離婚協(xié)議及子女生活自理能力培養(yǎng)協(xié)議3篇
- 2024版多功能廳短期租賃協(xié)議模板版B版
- 2024某科技公司與某制造業(yè)公司關(guān)于物聯(lián)網(wǎng)技術(shù)應(yīng)用的合同
- 2024版五、框架協(xié)議-合同
- 《皮膚病中成藥導(dǎo)引》課件
- 2024-2030年中國(guó)除顫儀行業(yè)市場(chǎng)分析報(bào)告
- 2023-2024學(xué)年廣東省廣州市越秀區(qū)九年級(jí)(上)期末物理試卷(含答案)
- 廣東省廣州市天河區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末考試物理試題(含答案)
- 2024年高一上學(xué)期期末數(shù)學(xué)考點(diǎn)《壓軸題》含答案解析
- 成都中醫(yī)藥大學(xué)博士申請(qǐng)
- 太空軍事法律問題-洞察分析
- 2024年行政執(zhí)法人員資格考試必考知識(shí)題庫及答案(共250題)
- 招標(biāo)代理崗位職責(zé)規(guī)章制度
- 家校攜手育桃李 齊心合力創(chuàng)輝煌 課件高二上學(xué)期期末家長(zhǎng)會(huì)
- 二零二四年風(fēng)力發(fā)電項(xiàng)目EPC總承包合同
評(píng)論
0/150
提交評(píng)論