Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目7 基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別-項(xiàng)目實(shí)施V1.0_第1頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目7 基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別-項(xiàng)目實(shí)施V1.0_第2頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目7 基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別-項(xiàng)目實(shí)施V1.0_第3頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目7 基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別-項(xiàng)目實(shí)施V1.0_第4頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目7 基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別-項(xiàng)目實(shí)施V1.0_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目7

基于Spark開發(fā)環(huán)境實(shí)現(xiàn)廣告流量檢測(cè)違規(guī)識(shí)別項(xiàng)目實(shí)施開發(fā)環(huán)境下實(shí)現(xiàn)流量數(shù)據(jù)違規(guī)識(shí)別模型應(yīng)用開發(fā)環(huán)境下實(shí)現(xiàn)流量數(shù)據(jù)違規(guī)識(shí)別在項(xiàng)目4~6中,分步實(shí)現(xiàn)了廣告流量數(shù)據(jù)的檢測(cè)違規(guī)識(shí)別,代碼分散,為便于他人使用,通過IDEA工具進(jìn)行代碼封裝。集群連接參數(shù)設(shè)置由于流量數(shù)據(jù)保存在Hive,要使用Scala工程訪問操作Hive表數(shù)據(jù),則需要準(zhǔn)備好如下配置。切換至Hadoop安裝目錄的/sbin目錄,執(zhí)行命令“./start-all.sh”啟動(dòng)Hadoop集群,如圖所示。集群連接參數(shù)設(shè)置啟動(dòng)Hive的元數(shù)據(jù)服務(wù)。新建一個(gè)名為SparkSQL的Scala工程,創(chuàng)建好后,右鍵單擊SparkSQL,依次選擇“New”→“Directory”,創(chuàng)建名為“resources”的文件夾,將Hive安裝目錄的/conf目錄將hive-site.xml復(fù)制到SparkSQL工程下的resources文件夾中,并參考本項(xiàng)目第(三)小節(jié),添加Spark開發(fā)依賴,SparkSQL工程結(jié)構(gòu)界面如圖所示。封裝代碼在SparkSQL工程里,右鍵單擊SparkSQL工程下的src文件夾,依次選擇“New”→“Package”選項(xiàng),新建一個(gè)包,包名為“com.tipdm.demo”,在com.tipdm.demo包里編寫Spark程序?qū)崿F(xiàn)以下功能。連接到Hive數(shù)據(jù)庫,并讀取流量檢測(cè)數(shù)據(jù)。對(duì)讀取的數(shù)據(jù)進(jìn)行清洗操作,包括數(shù)據(jù)預(yù)處理、缺失值處理等。使用隨機(jī)森林算法對(duì)清洗后的數(shù)據(jù)進(jìn)行建模和訓(xùn)練。封裝代碼封裝代碼的實(shí)現(xiàn)步驟如下。右鍵單擊com.tipdm.demo包,依次選擇“New”→“ScalaClass”選項(xiàng),在包下新建一個(gè)Scala類,并指定類型為Object,新建Data_Preprocessing類,實(shí)現(xiàn)數(shù)據(jù)清洗步驟。右鍵單擊com.tipdm.scalaDemo包,依次選擇“New”→“ScalaClass”選項(xiàng),在包下新建一個(gè)Scala類,并指定類型為Object,新建Building_Features類,實(shí)現(xiàn)特征構(gòu)建步驟。右鍵單擊com.tipdm.scalaDemo包,依次選擇“New”→“ScalaClass”選項(xiàng),在包下新建一個(gè)Scala類,并指定類型為Object,新建Building_Model類,實(shí)現(xiàn)搭建模型步驟。運(yùn)行Spark程序?qū)park程序提交到spark-submit中運(yùn)行,其步驟如下。在IntelliJIDEA中打包工程生成的SparkSQL.jar包輸出。將SparkSQL.jar包上傳至Linux的/opt目錄下,進(jìn)入Spark安裝目錄的/bin目錄下,使用spark-submit提交Spark程序至集群中運(yùn)行,運(yùn)行結(jié)果如圖所示。運(yùn)行Spark程序需要注意的是,由于隨機(jī)森林是一種基于集成學(xué)習(xí)的算法,在構(gòu)建每個(gè)決策樹時(shí)會(huì)進(jìn)行隨機(jī)特征選擇和隨機(jī)樣本選擇。因此,每次構(gòu)建不同的決策樹,最終的模型結(jié)構(gòu)和性能可能會(huì)有所不同,模型評(píng)估的準(zhǔn)確度/率會(huì)存在一些細(xì)微差別。開發(fā)環(huán)境下實(shí)現(xiàn)流量數(shù)據(jù)違規(guī)識(shí)別模型應(yīng)用模型應(yīng)用在應(yīng)用分類器進(jìn)行虛假流量識(shí)別時(shí),首先需要對(duì)得到的流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行模型數(shù)據(jù)處理,得到可以輸入分類器的模型數(shù)據(jù),再加載分類器對(duì)這些數(shù)據(jù)進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果返回即可。右鍵單擊src,依次選擇“New”→“ScalaClass”選項(xiàng),在包下新建一個(gè)Scala類,并指定類型為Object,新建Application類,通過加載存儲(chǔ)好的隨機(jī)森林分類模型,進(jìn)行虛假流量預(yù)測(cè)。模型應(yīng)用將程序打包上傳至/opt目錄下,執(zhí)行“./spark-submit--classApplication/opt/SparkSQL.jar”命令運(yùn)行程序,運(yùn)行結(jié)果如圖所示。真實(shí)場(chǎng)景中后期訓(xùn)練的數(shù)據(jù)沒有l(wèi)abel標(biāo)簽的,但是由于在模擬情況下,所使用的數(shù)據(jù)依舊包含了標(biāo)簽列,因此可以對(duì)新數(shù)據(jù)的預(yù)測(cè)結(jié)果進(jìn)行準(zhǔn)確率計(jì)算,通過圖所示的計(jì)算的結(jié)果可以了解到,保存的模型再次加載后并不會(huì)損失模型的效果。項(xiàng)目總結(jié)本項(xiàng)目首先介紹了如何搭建Java開發(fā)環(huán)境以及Spark開發(fā)環(huán)境,通過開發(fā)環(huán)境搭建,實(shí)現(xiàn)Spark程序在集成開發(fā)環(huán)境下運(yùn)行。然后對(duì)廣告流量檢測(cè)數(shù)據(jù)的數(shù)據(jù)預(yù)處理、特征構(gòu)建以及模型搭建代碼進(jìn)行封裝。最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論