Spark大數(shù)據(jù)分析實務 課件 項目3 基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲-項目實施V1.0_第1頁
Spark大數(shù)據(jù)分析實務 課件 項目3 基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲-項目實施V1.0_第2頁
Spark大數(shù)據(jù)分析實務 課件 項目3 基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲-項目實施V1.0_第3頁
Spark大數(shù)據(jù)分析實務 課件 項目3 基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲-項目實施V1.0_第4頁
Spark大數(shù)據(jù)分析實務 課件 項目3 基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲-項目實施V1.0_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲項目實施創(chuàng)建數(shù)據(jù)表導入數(shù)據(jù)至Hive表數(shù)據(jù)字段說明本項目將7天的流量記錄作為原始建模數(shù)據(jù)。廣告檢測中的流量數(shù)據(jù)包含22個屬性,數(shù)據(jù)示例及說明如下表。序號屬性名稱中文名稱示例備注1rank記錄序號5(第5條記錄)單元格高度統(tǒng)一為1.2cm2dt相對日期3(第3天)單位為天3cookieCookie值7083a0cba2acd512767737c65d5800c84ipIP地址47經(jīng)過脫敏5idfaidfa值bc50cc5fb39336cf39e3c9fe1b16bf48可用于識別iOS用戶數(shù)據(jù)字段說明序號屬性名稱中文名稱示例備注6imeiimei值990de8af5ed0f3744b61770173794555可用于識別Android用戶7androidandroid值7730a40b70cf9b023d23e332da846bfb可用于識別Android用戶8openudidopenudid值7aaeb5d6af25f9fe918ec39b0f79a2c8可用于識別IOS用戶9macMac值6ed9fcefd06a2ab5f901e601a3a53a2d可用于識別不同硬件設備10timestamps時間戳0(記錄于數(shù)據(jù)區(qū)間的初始時間點)11camp項目ID61520數(shù)據(jù)字段說明序號屬性名稱中文名稱示例備注12creativeid創(chuàng)意ID013mobile_os設備OS版本信息5.0.2該值為原始值14mobile_type機型'Redmi+Note+3'(設備為紅米Note3)15app_md5App密鑰的MD5信息ffe435bdb6ce18dd4758c0005c4787db16app_md5App名稱的MD5信息6f569b4fa576d25fb98e60bda9c9742617placementid廣告位信息72ee620530c7c8cd4b423d4b4502b45b數(shù)據(jù)字段說明序號屬性名稱中文名稱示例備注18useragent瀏覽器信息"Mozilla%2f5.0%20%28compatible%3b%20MSIE%209.0%3b%20Windows%20NT%206.1%3b%20Trident%2f5.0%29%20Fengxing%2f7%20MZ%2f75B00973C5D899C8BA4858F5E4FAA59B"19mediaid媒體ID信息111820os_typeOS類型標記0(采集到的OS類型標記為0)21born_timeCookie生成時間160807(第160807日)22label違規(guī)標簽01為違規(guī)創(chuàng)建Hive表創(chuàng)建Hive表的基本步驟如下圖。創(chuàng)建Hive表1.啟動集群和服務在創(chuàng)建Hive表之前,需開啟相應的Hadoop集群和元數(shù)據(jù)服務。可通過“jps”命令查看進程,如下圖,已成功啟動Hadoop集群和元數(shù)據(jù)服務。創(chuàng)建Hive表2.啟動HiveCLI使用“hive”命令進入Hive命令行界面,如下圖。創(chuàng)建Hive表3.創(chuàng)建數(shù)據(jù)庫通過創(chuàng)建數(shù)據(jù)庫,可以將相關(guān)的表和數(shù)據(jù)組織在一起,使得數(shù)據(jù)管理更加清晰和規(guī)范,實現(xiàn)邏輯上的劃分,因此創(chuàng)建廣告流量檢測數(shù)據(jù)表前,可以先創(chuàng)建數(shù)據(jù)庫ad_traffic,通過查看數(shù)據(jù)庫檢驗是否成功創(chuàng)建,運行結(jié)果如下圖。創(chuàng)建Hive表4.創(chuàng)建Hive表創(chuàng)建好數(shù)據(jù)庫后,即可在數(shù)據(jù)庫ad_traffic內(nèi)創(chuàng)建Hive表case_data_sample。由于若是直接向Hive表導入CSV的數(shù)據(jù),字段類型會全部變成String類型,不利于后續(xù)數(shù)據(jù)分析,所以需要創(chuàng)建兩個Hive表case_data_sample_tmp和case_data_sample,case_data_sample_tmp用于導入CSV文件的數(shù)據(jù),再將case_data_sample_tmp表的數(shù)據(jù)復制到case_data_sample。創(chuàng)建Hive表通過“showtables;”命令可驗證是否成功創(chuàng)建Hive表,如下圖,Hive中存在表case_data_sample和case_data_sample_tmp。創(chuàng)建數(shù)據(jù)表導入數(shù)據(jù)至Hive表導入數(shù)據(jù)至Hive表廣告流量檢測違規(guī)識別項目所提供的建模數(shù)據(jù)已經(jīng)標記了相關(guān)流量數(shù)據(jù)是否作弊的標簽,然而目標網(wǎng)站在收集流量數(shù)據(jù)的時候是沒有類別標簽的,所以應該處理一份沒有標簽的數(shù)據(jù),與原始的網(wǎng)站數(shù)據(jù)一致,以便在后期用于模型應用,更加貼合實際生產(chǎn)環(huán)境。綜上,導入數(shù)據(jù)至Hive表的基本操作流程如下圖。導入數(shù)據(jù)至Hive表導入數(shù)據(jù)至Hive表的過程主要涉及以下步驟。上傳文件并刪除文件首行。通過Xftp工具將CSV數(shù)據(jù)csv_data_new.csv上傳到Linux的/opt目錄下,通過命令“sed-i'1d'/opt/case_data_new.csv”刪除文件首行的字段名。導入數(shù)據(jù)至表case_data_sample_tmp。使用load命令將Linux本地數(shù)據(jù)導入表case_data_sample_tmp。導入數(shù)據(jù)至Hive表導入數(shù)據(jù)至表case_data_sample。使用insert命令將表case_data_sample_tmp的數(shù)據(jù)導入表case_data_sample。導入成功后,可以使用“select*fromcase_data_samplelimit1;”命令查看表case_data_sample的第一行數(shù)據(jù),如下圖。生成樣本數(shù)據(jù)表case_data。生成一份未進行類別標識的樣本數(shù)據(jù),以原始建模數(shù)據(jù)為基礎,生成沒有類別標簽的樣本數(shù)據(jù)。小結(jié)本項目首先介紹了Hive的數(shù)據(jù)類型,為學習Hive表的創(chuàng)建奠定基礎;其次介紹了數(shù)據(jù)庫的創(chuàng)建與管理操作,使得數(shù)據(jù)更加有序和易于維護;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論