




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
練習(xí)題一
任務(wù)一:Hadoop平臺(tái)及組件的部署管理(15分)
一、Hadoop全分布部署
本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝hadoop需要配置前置環(huán)境,
具體部署要求如下:
1、解壓JDK安裝包到“/usr/local/src”路徑,并配置環(huán)境變量;
2、在指定目錄下安裝ssh服務(wù),查看ssh進(jìn)程并截圖(安裝包統(tǒng)一在“/
h3cu/”);
3、創(chuàng)建ssh密鑰,實(shí)現(xiàn)主節(jié)點(diǎn)與從節(jié)點(diǎn)的無密碼登錄;截取主節(jié)點(diǎn)登錄其中
一個(gè)從節(jié)點(diǎn)的結(jié)果;
4、根據(jù)要求修改每臺(tái)主機(jī)host主機(jī)名;
5、修改每臺(tái)主機(jī)host文件配置IP與主機(jī)名映射關(guān)系;
6、根據(jù)要求修改Hadoop環(huán)境變量;
7、根據(jù)要求修改Hadoop相關(guān)文件,并初始化Hadoop;
8、啟動(dòng)Hadoop,使用相關(guān)命令查看所有節(jié)點(diǎn)Hadoop進(jìn)程并截圖。
二、Flume組件部署
1、解壓Flume安裝包到“/usr/local/src”路徑;
2、修改解壓后文件夾名為flume;
3、設(shè)置Flume環(huán)境變量,并使環(huán)境變量只對(duì)當(dāng)前root用戶生效;
4、修改Flume相應(yīng)文件;
1
5、修改并配置flume-env.sh文件。
任務(wù)二:數(shù)據(jù)采集(15分)
(自行搭建網(wǎng)站,參考源數(shù)據(jù))
網(wǎng)站數(shù)據(jù)文件路徑:/h3cu/mysql.excl
1、網(wǎng)站解析,利用chrome查看網(wǎng)頁源碼,分析招聘網(wǎng)站網(wǎng)頁結(jié)構(gòu)。
1)打開酒店網(wǎng)站,在網(wǎng)頁中右鍵點(diǎn)擊檢查,或者F12快捷鍵,查看元素
頁面;
2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容
2、從酒店網(wǎng)站中爬取需要數(shù)據(jù),按照要求使用Java或Python語言編寫并
完善爬蟲代碼,爬取指定數(shù)據(jù)項(xiàng),有效數(shù)據(jù)項(xiàng)包括但不限于:城市、商
圈、星級(jí)、評(píng)分、評(píng)論數(shù)等多項(xiàng)字段。并將代碼文件與代碼截圖保存。
具體步驟如下:
1)創(chuàng)建爬蟲項(xiàng)目\H3CU_hotel\
2)構(gòu)建爬蟲請(qǐng)求
3)按要求定義相關(guān)字段
4)獲取有效數(shù)據(jù)
5)將爬取到的數(shù)據(jù)保存到指定位置
至此已從酒店網(wǎng)站中爬取了所需數(shù)據(jù),下一步我們要將爬取結(jié)果進(jìn)一步進(jìn)行相
關(guān)數(shù)據(jù)操作,請(qǐng)將操作命令截圖并保存。
創(chuàng)建scrapy項(xiàng)目ScrapyHotel。本任務(wù)要求從酒店網(wǎng)站中抓取數(shù)據(jù),提取全部
有效數(shù)據(jù)項(xiàng)。將爬取到的數(shù)據(jù)寫入Mysql數(shù)據(jù)庫中。
根據(jù)任務(wù)二題目要求,完成以下內(nèi)容:
2
1、通過對(duì)網(wǎng)站結(jié)構(gòu)分析,編寫并完成下表:
內(nèi)容標(biāo)簽
酒店編號(hào)
酒店星級(jí)
業(yè)務(wù)部門
酒店評(píng)分
2、根據(jù)爬取字段,在Mysql數(shù)據(jù)庫中自行創(chuàng)建數(shù)據(jù)表。
3、運(yùn)行爬蟲代碼。
4、查詢Mysql數(shù)據(jù)庫的爬取結(jié)果數(shù)據(jù)表。
任務(wù)三:數(shù)據(jù)清洗與分析(30分)
本階段的任務(wù):任務(wù)二數(shù)據(jù)采集階段中完成的酒店網(wǎng)站數(shù)據(jù)集,其中包含來
自不同城市中多家酒店的銷售信息,你的小組通過編寫代碼或腳本完成對(duì)文件
中酒店銷售管理數(shù)據(jù)的清洗和整理,并完成數(shù)據(jù)計(jì)算和分析任務(wù)。綜合利用
MapReduce、Spark、Storm、分布式存儲(chǔ)系統(tǒng)、數(shù)據(jù)倉庫Hive、數(shù)據(jù)推送工具
等技術(shù),使用Java、Python等開發(fā)語言,完成本階段數(shù)據(jù)清洗、存儲(chǔ)、轉(zhuǎn)化、
分析及數(shù)據(jù)推送等任務(wù)。通過多個(gè)維度分析酒店的銷售信息,并以此評(píng)價(jià)酒店
銷售業(yè)績、區(qū)域的游客接納能力、接納質(zhì)量等指標(biāo)。
爬取后的數(shù)據(jù)文件路徑:/h3cu/mysql.csv
3.1數(shù)據(jù)清洗
數(shù)據(jù)集中不可避免地存在一些臟數(shù)據(jù),即源數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ?/p>
實(shí)際業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和
含糊的業(yè)務(wù)邏輯。請(qǐng)分析數(shù)據(jù)集,根據(jù)題目規(guī)定要求實(shí)現(xiàn)數(shù)據(jù)清洗。
步驟一、酒店銷售數(shù)據(jù)涉及到多個(gè)平臺(tái)及數(shù)據(jù)庫對(duì)接,個(gè)別信息由于人為操作
3
失誤或計(jì)算機(jī)故障等原因產(chǎn)生了數(shù)據(jù)缺失值。缺失值是一種常見的臟數(shù)據(jù)情況,
由于粗糙數(shù)據(jù)中缺少信息而造成的數(shù)據(jù)刪失或截?cái)唷,F(xiàn)有數(shù)據(jù)集中某個(gè)或某些
屬性的值是不完全的。對(duì)于缺失值的處理,從總體上來說分為刪除存在缺失值
的個(gè)案和缺失值插補(bǔ)。當(dāng)缺失值過多時(shí),信息條目本身的價(jià)值也會(huì)隨之降低,
此時(shí)如果對(duì)缺失值進(jìn)行填補(bǔ)則將產(chǎn)生結(jié)果的人為干預(yù)。結(jié)合行業(yè)數(shù)據(jù)本身特點(diǎn)
及上述考慮,請(qǐng)你根據(jù)題目具體參數(shù)要求實(shí)現(xiàn)以下功能:將缺失值大于n個(gè)的
數(shù)據(jù)條目剔除原始數(shù)據(jù)集,并輸出剔除的條目數(shù)量,截圖并保存結(jié)果。
請(qǐng)編寫Spark程序,按照如下要求實(shí)現(xiàn)對(duì)數(shù)據(jù)的清洗,并將結(jié)果輸出至
hdfs文件系統(tǒng)中//master:9000/hotelsparktask1:
解析該文件
按照題目要求剔除缺失數(shù)據(jù)信息(n=3),并以打印語句輸出刪除條
目數(shù)
程序打包并在hadoop平臺(tái)運(yùn)行,結(jié)果輸出至hdfs文件系統(tǒng)中//
master:9000/hotelsparktask1
根據(jù)步驟一要求,完成以下內(nèi)容:
1)運(yùn)行代碼,刪除數(shù)據(jù)源中缺失值大于3個(gè)字段的數(shù)據(jù),打印輸出刪
除條目數(shù)。
2)查看清洗后輸出的結(jié)果文件總行數(shù)/master:9000/
hotelsparktask1)。
步驟二、對(duì)于數(shù)據(jù)集字段缺失情況,通常可以采用填充默認(rèn)值、均值、眾數(shù)、
KNN填充、以及把缺失值作為新的label等方式處理。同時(shí),不當(dāng)?shù)奶畛淇赡軙?huì)
令后續(xù)的分析結(jié)果出現(xiàn)導(dǎo)向性偏差,當(dāng)缺失信息較少時(shí)可采用刪除的方式來進(jìn)
4
行處理。下面請(qǐng)根據(jù)題目具體參數(shù)要求處理關(guān)鍵字段缺失。
請(qǐng)編寫Spark程序,按照如下要求實(shí)現(xiàn)對(duì)數(shù)據(jù)的清洗,并將結(jié)果輸出至
hdfs文件系統(tǒng)中//master:9000/hotelsparktask2:
將任意關(guān)鍵字段為空的條目剔除,關(guān)鍵字段定義為{星級(jí)、評(píng)論數(shù)、
評(píng)分},并以打印語句輸出刪除條目數(shù)
程序打包并在hadoop平臺(tái)運(yùn)行,結(jié)果輸出至hdfs文件系統(tǒng)中//
master:9000/hotelsparktask2
根據(jù)步驟二要求,完成以下內(nèi)容:
1)運(yùn)行代碼,將字段{星級(jí)、評(píng)論數(shù)、評(píng)分}中任意字段為空的數(shù)據(jù)刪
除,并打印輸出刪除條目數(shù)。
2)查看清洗后輸出的結(jié)果文件(master:9000/hotelsparktask2)總行
數(shù)。
3.2數(shù)據(jù)分析
步驟一、城市游客接納能力是城市規(guī)劃建設(shè)中的重要指標(biāo),其中城市的酒店數(shù)
量和房間數(shù)量是城市游客接納能力的關(guān)鍵要素。請(qǐng)編寫程序或腳本根據(jù)酒店管
理網(wǎng)站中的數(shù)據(jù)統(tǒng)計(jì)各城市的相關(guān)信息,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,截
圖并保存結(jié)果。
請(qǐng)根據(jù)數(shù)據(jù)清洗的輸出數(shù)據(jù)集,編寫Mapreduce程序統(tǒng)計(jì)各城市的酒店數(shù)量和
房間數(shù)量,以城市房間數(shù)量降序排列并輸出前10條統(tǒng)計(jì)結(jié)果,同時(shí)創(chuàng)建并寫入
數(shù)據(jù)表table3_1。要求輸出字段包含:省份、城市、酒店數(shù)量、房間數(shù)量。
數(shù)據(jù)定義如下:
5
數(shù)據(jù)項(xiàng)字段名備注
省份province-
城市city-
酒店數(shù)量hotel_num-
房間數(shù)量room_num-
數(shù)據(jù)樣式如下:
provincecityhotel_numroom_num
貴州貴陽1234123456.0
根據(jù)步驟一要求,完成以下內(nèi)容:
1)運(yùn)行代碼,統(tǒng)計(jì)各城市的酒店數(shù)量和房間數(shù)量,以城市房間數(shù)量降序排列,
并打印輸出前10條統(tǒng)計(jì)結(jié)果。
2)創(chuàng)建表table3_1。
3)將統(tǒng)計(jì)結(jié)果寫入表table3_1中。
4)查看表table3_1前5行數(shù)據(jù)。
步驟二、OTA,全稱為OnlineTravelAgency,中文譯為“在線旅行社”,是
旅游電子商務(wù)行業(yè)的專業(yè)詞語。指“旅游消費(fèi)者通過網(wǎng)絡(luò)向旅游服務(wù)提供商預(yù)
定旅游產(chǎn)品或服務(wù),并通過網(wǎng)上支付或者線下付費(fèi),即各酒店通過網(wǎng)絡(luò)進(jìn)行產(chǎn)
品營銷或產(chǎn)品銷售”。OTA平臺(tái)是酒店?duì)I銷的主要途徑之一,不僅降低銷售成
本,同時(shí)也提高了顧客體驗(yàn)滿意度。當(dāng)顧客通過OTA平臺(tái)進(jìn)行酒店預(yù)訂時(shí),酒
店就擁有了用戶的相關(guān)數(shù)據(jù)。通過這些數(shù)據(jù),能夠更好地收集用戶需求,從而
可以提供更有針對(duì)性和個(gè)性化的服務(wù),最終能夠產(chǎn)生更多的忠誠會(huì)員并帶來更
多訂單。但OTA平臺(tái)銷售也存在用戶拒單等情況,拒單原因有很多:例如,平
臺(tái)信息不同步,信息更新不及時(shí);分銷層次過多,導(dǎo)致無法及時(shí)查證訂單;酒
6
店違反OTA規(guī)則擅自以低價(jià)讓客戶取消訂單,這種情況又叫做“切單”。OTA平
臺(tái)需要統(tǒng)計(jì)用戶訂單的分布情況,以此發(fā)現(xiàn)平臺(tái)缺陷及用戶、商家的行為模式,
OTA平臺(tái)據(jù)此調(diào)整營銷策略。根據(jù)現(xiàn)有數(shù)據(jù)及給定參數(shù)完成訂單數(shù)據(jù)統(tǒng)計(jì),并
寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,截圖并保存結(jié)果。
請(qǐng)根據(jù)數(shù)據(jù)清洗的輸出數(shù)據(jù)集,編寫Mapreduce程序統(tǒng)計(jì)各省直銷拒單率,以
直銷拒單率升序排列并輸出前10條統(tǒng)計(jì)結(jié)果,同時(shí)創(chuàng)建并寫入數(shù)據(jù)表
table3_2。
要求輸出字段包含:省份、直銷拒單率。
數(shù)據(jù)定義如下:
數(shù)據(jù)項(xiàng)字段名備注
省份province-
直銷拒單率norate要求保留6位小
數(shù)
數(shù)據(jù)樣式如下:
provincenorate
貴州0.123456
根據(jù)步驟二要求,完成以下內(nèi)容:
1)創(chuàng)建表table3_2。
2)統(tǒng)計(jì)各省拒單率,將統(tǒng)計(jì)的拒單率升序排列并將前10條統(tǒng)計(jì)結(jié)果寫入數(shù)據(jù)
表table3_2中。
7
任務(wù)四、數(shù)據(jù)可視化(20分)
請(qǐng)根據(jù)任務(wù)三數(shù)據(jù)分析的結(jié)果,使用flask框架,結(jié)合echarts完成下列題
目??梢暬募窂剑?h3cu/mysql.csv
1、出租率是反映酒店經(jīng)營狀況的一項(xiàng)重要指標(biāo),它是已出租的客房數(shù)與酒店
可以提供租用的房間總數(shù)的百分比。酒店出租率的情況可以在一定程度上
反應(yīng)出該酒店的整體運(yùn)營的情況,為了更好的分析指定酒店的入住情況,
請(qǐng)根據(jù)相關(guān)表中數(shù)據(jù)完成出租率分析,通過指定圖例進(jìn)行呈現(xiàn)。
1)請(qǐng)編寫代碼,提取出租率前10的城市,并降序排列。
2)主標(biāo)題為城市出租率(字體顏色:紅色,加粗),副標(biāo)題為出租率前十
的城市(字體顏色:黑色),縱坐標(biāo)為出租率,橫坐標(biāo)為城市名稱(字
體顏色:黑色)。
3)輸出柱狀圖。
2、連鎖酒店一般都具有全國統(tǒng)一的品牌形象識(shí)別系統(tǒng)、全國統(tǒng)一的會(huì)員體系
和營銷體系、價(jià)格相比較很有優(yōu)勢符合大眾化消費(fèi)。連鎖酒店無論在裝修、
服務(wù)還是信譽(yù)上都有較大的競爭優(yōu)勢,所以連鎖酒店是出差、旅游住宿的
好選擇。但是由于三線城市會(huì)員流動(dòng)差、高素質(zhì)管理人員相對(duì)短缺、營銷
環(huán)境與消費(fèi)特點(diǎn)的差異等問題,一些已經(jīng)成熟酒店管理模式在三線城市可
能并不受用,甚至?xí)霈F(xiàn)水土不服的現(xiàn)象。請(qǐng)根據(jù)現(xiàn)有數(shù)據(jù)及給定參數(shù),
統(tǒng)計(jì)指定連鎖酒店的經(jīng)營狀況,并以指定圖例進(jìn)行呈現(xiàn)。
請(qǐng)根據(jù)以大區(qū)劃分,統(tǒng)計(jì)各地7天酒店的出租率(保留6位小數(shù)),并以折
線圖呈現(xiàn)。
8
我國劃分大區(qū)共有六個(gè):為東北、華北、華東、中南、西北、西南,大區(qū)
中的省份分布參照下表:
地區(qū)省份
華東地區(qū)山東、江蘇、安徽、浙江、江西、福建、上海
華南地區(qū)廣東、廣西、海南
華中地區(qū)湖北、湖南、河南
華北地區(qū)北京、天津、河北、山西、內(nèi)蒙古
西北地區(qū)寧夏、新疆、青海、陜西、甘肅
西南地區(qū)四川、云南、貴州、西藏、重慶
東北地區(qū)遼寧、吉林、黑龍江
臺(tái)港澳地區(qū)臺(tái)灣、香港、澳門
根據(jù)要求完成以下內(nèi)容:
1)請(qǐng)編寫代碼,提取各地7天酒店的出租率。
2)主標(biāo)題為全國各地酒店的出租率(字體顏色:紅色,加粗),副標(biāo)題為
7天酒店的出租率(自定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人住房按揭貸款抵押合同標(biāo)準(zhǔn)文本
- 7 什么比獵豹的速度更快 教學(xué)設(shè)計(jì)-2024-2025學(xué)年語文五年級(jí)上冊(統(tǒng)編版)
- 建設(shè)貸款合同范本
- 8安全地玩《我是安全警示員》教學(xué)設(shè)計(jì)-2023-2024學(xué)年道德與法治二年級(jí)下冊統(tǒng)編版
- 承包沙灘合同范本
- 6 景陽岡(教學(xué)設(shè)計(jì))-2023-2024學(xué)年統(tǒng)編版語文五年級(jí)下冊
- 掘進(jìn)開拓合同范本
- 15 金色的魚鉤 教學(xué)設(shè)計(jì)-2024-2025學(xué)年統(tǒng)編版語文六年級(jí)上冊
- 2023-2024學(xué)年電子工業(yè)版(內(nèi)蒙古)小學(xué)信息技術(shù)四年級(jí)下冊獲取圖像信息(教學(xué)設(shè)計(jì))
- Unit 1 what's the matter Section A 3a-3c 教學(xué)設(shè)計(jì) 2024-2025學(xué)年人教版八年級(jí)英語下冊
- 網(wǎng)絡(luò)營銷講義網(wǎng)絡(luò)營銷產(chǎn)品策略課件
- 《小型混凝土預(yù)制件標(biāo)準(zhǔn)化生產(chǎn)管理辦法》
- 六年級(jí)上冊英語教案-Culture 2 Going Green 第二課時(shí) 廣東開心英語
- 警察叔叔是怎樣破案的演示文稿課件
- 青年教師個(gè)人成長檔案
- 2021譯林版高中英語選擇性必修三課文翻譯
- 2022年華中科技大學(xué)博士研究生英語入學(xué)考試真題
- 《網(wǎng)店運(yùn)營與管理》整本書電子教案全套教學(xué)教案
- 打印版 《固體物理教程》課后答案王矜奉
- 中考《紅星照耀中國》各篇章練習(xí)題及答案(1-12)
- Q∕GDW 11612.43-2018 低壓電力線高速載波通信互聯(lián)互通技術(shù)規(guī)范 第4-3部分:應(yīng)用層通信協(xié)議
評(píng)論
0/150
提交評(píng)論