版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2021年全國職業(yè)院校技能大賽
高職組
“大數(shù)據(jù)技術與應用”
賽項賽卷(GZ-xxxxxxx-X卷)
任
務
書
參賽隊編號:
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
背景描述
企業(yè)消費服務平臺,為大中小型企業(yè)提供基于云化的消費場景一
站式智能消費、智能管控,幫助企業(yè)獲得更高效、簡單、美好的消費
管理。從''費控+支付”出發(fā),到覆蓋全場景支出的創(chuàng)新模式,讓員工
在數(shù)字化平臺上直接完成所有消費,從員工下單、到財務入賬,全流
程實現(xiàn)自動化統(tǒng)一結(jié)算、統(tǒng)一數(shù)據(jù)分析。解決傳統(tǒng)差旅系統(tǒng)面臨的場
景覆蓋不全、員工體驗差、消費體驗割裂等情況,真正做成一套讓企
業(yè)節(jié)省支出,讓員工滿意的差旅平臺。
企業(yè)消費服務平臺的出現(xiàn)將原來傳統(tǒng)的差旅行程放到網(wǎng)絡平臺上,
更廣泛的傳遞差旅信息,互動式的交流更方便客人的咨詢和訂購,越
來越多的人在出行的時候使用企業(yè)消費服務平臺預訂機票、火車票、
住宿等,使得更多的商家愿意與企業(yè)消費服務平臺建立合作,提升住
宿場所的營業(yè)額,這也為企業(yè)消費服務平臺的發(fā)展帶來新的機遇,為
了抓住這個機會,“企業(yè)消費服務平臺”需要從地域、訂單來源等多
種維度進行分析,明確未來重點拓展合作商家的方向。公司要求多個
小組進行分析,并提出相應建議,你所在的小組也在其中,需要通過
數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化獲得相關論據(jù),提出未
來重點拓展合作住宿場所的方向。
你們作為該小組的技術人員,是這次技術方案的核心成員,請按
照下面步驟完成本次技術展示任務,并提交分析報告,祝你們成功?。?!
第1頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
模塊A:Hadoop平臺及組件的部署管理(15分)
環(huán)境要求:
編號主機名類型用戶密碼
1master主節(jié)點rootpasswd
2slavel從節(jié)點rootpasswd
3slave2從節(jié)點rootpasswd
masterOl-1主機上MySQL數(shù)據(jù)庫用戶名密碼是root/Passwordl23$
相關軟件安裝包在/chinaskills目錄下
任務一:HadoopHA部署管理
本環(huán)節(jié)需要使用root用戶完成相關配置,安裝Hadoop需要配置
前置環(huán)境,具體部署要求如下:
1、將/chinaskills下的JDK包解壓到/usr/local/src路徑下,將
命令復制并粘貼至對應報告中;
2、設置JDK環(huán)境變量,并使環(huán)境變量只對當前root用戶生效;將
環(huán)境變量配置內(nèi)容復制并粘貼至對應報告中;
3、從master節(jié)點復制JDK環(huán)境變量文件到slavel、slave2節(jié)點,
將命令和結(jié)果復制并粘貼至對應報告中;
4、配置SSH密鑰登錄,實現(xiàn)從master登錄到slavel、slave2,將
命令和結(jié)果復制并粘貼至對應報告中;
5、配置Zookeeper,在slave2節(jié)點啟動Zookeeper,并查看
Zookeeper運行狀態(tài),將命令和結(jié)果復制并粘貼至對應報告中;
6、Zookeeper.HadoopHA配置完畢后,在master、slavel節(jié)點啟
第2頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
動Hadoop,并查看服務進程狀態(tài),并將結(jié)果復制并粘貼至對應
報告中。
任務二:Hive組件部署管理
本環(huán)節(jié)需要使用root用戶完成相關配置,已安裝Hadoop及需要
配置前置環(huán)境,具體部署要求如下:
1、解壓Hive安裝包到“/usr/local/src”路徑,并使用相關命
令,修改解壓后文件夾名為Hive,進入Hive文件夾,并將查看
內(nèi)容復制并粘貼至對應報告中;
2、設置Hive環(huán)境變量,并使環(huán)境變量只對當前用戶生效,將命令和
內(nèi)容復制并粘貼至對應報告中
3、新建并配置hive-site.xml文件,實現(xiàn)“Hive元存儲”的存儲
位置為MySQL數(shù)據(jù)庫,并將hive-site,xml配置文件內(nèi)容復制粘
貼至對應報告中;
4、初始化Hive元數(shù)據(jù)(將MySQL數(shù)據(jù)庫JDBC驅(qū)動拷貝到Hive安
裝目錄的lib下),并將初始化結(jié)果復制并粘貼至對應報告中;
5、啟動Hive,檢查是否安裝成功,并將結(jié)果復制并粘貼至對應報
告中。
任務三、Kafka組件部署管理
本環(huán)節(jié)需要使用root用戶完成相關配置,已安裝Hadoop及需要
配置前置環(huán)境,具體部署要求如下:
第3頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
1、配置Zookeeper集群,在master、slavel節(jié)點啟動
Zookeeper,查看Zookeeper狀態(tài),并將命令和Zookeeper運行
狀態(tài)結(jié)果復制粘貼至對應報告中;
2、修改Kafkaserver.properties文件,并將修改的內(nèi)容復制粘貼
至對應報告中;
3、啟動Kafka,并將Kafka啟動命令和輸出結(jié)果前10行復制粘貼
至報告中。
第4頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
模塊B:數(shù)據(jù)采集與處理(20分)
1、網(wǎng)站解析,利用Chrome查看網(wǎng)頁源碼,分析企業(yè)消費平臺網(wǎng)站
網(wǎng)頁結(jié)構。
1)打開企業(yè)消費平臺網(wǎng)站,在網(wǎng)頁中右鍵點擊檢查,或者F12快
捷鍵,查看元素頁面;
2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。
2、從企業(yè)消費平臺網(wǎng)站中爬取需要數(shù)據(jù),按照要求使用Python語
言編寫爬蟲代碼,爬取指定數(shù)據(jù)項,并對結(jié)果數(shù)據(jù)集進行數(shù)據(jù)探
索、以及必要的數(shù)據(jù)處理操作。請將符合題目要求的代碼答案復
制粘貼至對應報告中。
具體步驟如下:
1)創(chuàng)建爬蟲項目
2)構建爬蟲請求
3)按要求定義相關字段
4)獲取有效數(shù)據(jù)
5)將爬取到的數(shù)據(jù)保存到指定位置
至此已從企業(yè)消費平臺網(wǎng)站中爬取了所需數(shù)據(jù),下一步我們要將
爬取結(jié)果進一步進行相關數(shù)據(jù)操作。
詳細數(shù)據(jù)描述:
1)請創(chuàng)建Scrapy項目chinaskills_accommodation(C:\
chinaskills_accommodation),從網(wǎng)站(網(wǎng)站地址在競賽平
臺模塊B中給出)中爬取頁面相關字段(包括name,seq,業(yè)
第5頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
務部門,住宿場所星級,住宿場所直銷實住訂單,住宿場所
直銷實住間夜,住宿場所直銷拒單,住宿場所直銷拒單率,
住宿場所直銷訂單,住宿場所直銷間夜,住宿場所評分);將
抓取結(jié)果保存為json格式文件,并命名為
accommodations.jsono每條信息請以Key:Value格式單獨保
存為一行數(shù)據(jù)。
例如:
{“name":"***”,"seq":"***",…….)
任務中要求將“以下內(nèi)容及答案完整復制粘貼至對應報告中”,
粘貼到對應報告中的內(nèi)容舉例如下:
“中國”網(wǎng)頁源碼對應字段為:Country
“四川”網(wǎng)頁源碼對應字段為:Province
2)爬取數(shù)據(jù)量不少于28萬條。
具體任務要求:
任務一:網(wǎng)頁源碼對應字段
使用Chrome瀏覽器,查找網(wǎng)站異步請求的數(shù)據(jù),并將以下內(nèi)容
及答案完整復制粘貼至對應報告中。
“住宿場所直銷拒單率”網(wǎng)頁源碼對應字段為:
“住宿場所直銷訂單”網(wǎng)頁源碼對應字段為:
“住宿場所直銷間夜”網(wǎng)頁源碼對應字段為:
“評分”網(wǎng)頁源碼對應字段為:
第6頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
任務二、自行創(chuàng)建Scrapy工程
自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取"name、seq、業(yè)務部
門有效數(shù)據(jù)項包括:業(yè)務部門,住宿場所星級,住宿場所直銷實住訂
單,住宿場所直銷實住間夜,住宿場所直銷拒單,住宿場所直銷拒
單率,住宿場所直銷訂單,住宿場所直銷間夜,住宿場所評分“頁
面相關數(shù)據(jù),通過爬蟲代碼分頁爬取,以合理的程序邏輯判斷相關數(shù)
據(jù)包含的頁數(shù)并將程序代碼復制粘貼至對應報告中。
任務三:在MySQL中創(chuàng)建數(shù)據(jù)庫表
根據(jù)爬取字段,在MySQL中創(chuàng)建crawl數(shù)據(jù)庫,在該數(shù)據(jù)庫中創(chuàng)
建accommodations1.表(包含name,seq,業(yè)務部門,住宿場所星級,
住宿場所直銷實住訂單,住宿場所直銷實住間夜,住宿場所直銷拒
單),創(chuàng)建accommodations2表(包含name,seq,業(yè)務部門,住宿
場所直銷拒單率,住宿場所直銷訂單,住宿場所直銷間夜,住宿場
所評分),將爬取數(shù)據(jù)寫入相應數(shù)據(jù)表中,并分別統(tǒng)計
accommodations!表和accommodations2表的總行數(shù),將統(tǒng)計結(jié)果復
制粘貼至對應報告中。
任務四:對數(shù)據(jù)庫表排序
爬蟲程序運行結(jié)束后查看MySQL數(shù)據(jù)庫acommodations2表,按
seq字段倒序排序,返回前100行數(shù)據(jù),將命令與查看結(jié)果復制粘貼
至對應報告中。
第7頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
任務五:對數(shù)據(jù)表填充處理
請根據(jù)步驟3中accommodations!表中的數(shù)據(jù),對數(shù)據(jù)集中“房
間價格”字段的缺失值,使用平均值進行填充。查看填充后的數(shù)據(jù)集
前15條記錄,將查看結(jié)果復制粘貼至對應報告中。
任務六:對數(shù)據(jù)表刪除處理
請根據(jù)步驟3中accommodations2表中的數(shù)據(jù),對數(shù)據(jù)集中存在
空值的記錄進行刪除。查看刪除后的數(shù)據(jù)集條數(shù),將查看結(jié)果復制粘
貼至對應報告中。
accommodations?表刪除后條數(shù)為:
第8頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
模塊C:數(shù)據(jù)清洗與挖掘分析(25分)
現(xiàn)已從相關網(wǎng)站及平臺獲取到原始數(shù)據(jù)集,為保障用戶隱私和行
業(yè)敏感信息,已進行數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對某些敏感信息通過
脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。在涉及
客戶安全數(shù)據(jù)或者一些商業(yè)性敏感數(shù)據(jù)的情況、不違反系統(tǒng)規(guī)則條
件下,對真實數(shù)據(jù)進行改造并提供測試使用,如身份證號、手機號
等個人信息都需要進行數(shù)據(jù)脫敏。
相關數(shù)據(jù)文件中已經(jīng)包含了數(shù)據(jù)采集階段從企業(yè)消費平臺網(wǎng)站上
爬取的數(shù)據(jù)集,其中包含了來自不同城市的多家住宿場所的銷售信
息,你的小組需要通過編寫代碼或腳本完成對相關數(shù)據(jù)文件中住宿
場所銷售管理數(shù)據(jù)的清洗和整理,并完成數(shù)據(jù)計算和分析任務。綜
合利用MapReduce、Spark,Storm分布式存儲系統(tǒng)、數(shù)據(jù)倉庫
Hive、數(shù)據(jù)推送工具等技術,使用Java、Python、Scala等開發(fā)語
言,完成本階段數(shù)據(jù)清洗、處理、分析及數(shù)據(jù)挖掘等任務。通過多
個維度分析住宿場所的銷售信息,并以此評價住宿場所銷售業(yè)績、
區(qū)域的商旅住宿接納能力、接納質(zhì)量等指標。
初始數(shù)據(jù)集來自多個網(wǎng)站及平臺系統(tǒng),且為多次采集匯總結(jié)果,
因此數(shù)據(jù)集中不可避免地存在一些臟數(shù)據(jù),即源數(shù)據(jù)不在給定的范
圍內(nèi)或?qū)τ趯嶋H業(yè)務毫無意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)
中存在不規(guī)范的編碼和含糊的業(yè)務邏輯。
請分析相關數(shù)據(jù)集,根據(jù)題目規(guī)定要求實現(xiàn)數(shù)據(jù)清洗及分析。
第9頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
任務一、數(shù)據(jù)清洗
住宿場所銷售數(shù)據(jù)涉及到多個平臺及數(shù)據(jù)庫對接,個別信息由于
人為操作失誤或計算機故障等原因產(chǎn)生了數(shù)據(jù)缺失值。缺失值是一
種常見的臟數(shù)據(jù)情況,由于粗糙數(shù)據(jù)中缺少信息而造成的數(shù)據(jù)缺失
或截斷?,F(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完全的。對于缺失
值的處理,從總體上來說分為缺失值刪除和缺失值插補。當缺失值
過多時,信息條目本身的價值也會隨之降低,此時需要對缺失值進
行人為干預。結(jié)合行業(yè)數(shù)據(jù)本身特點及上述考慮,請你根據(jù)題目具
體要求實現(xiàn)以下功能:將缺失值大于n個的數(shù)據(jù)條目從原始數(shù)據(jù)集
中剔除,并輸出剔除的條目數(shù)量。
詳細描述:
數(shù)據(jù)源文件存放路徑為/chinaski11s/accommodationdata,csv,
請編寫MapReduce程序,按照如下要求實現(xiàn)對數(shù)據(jù)的清洗,并將結(jié)果
輸出至HDFS文件系統(tǒng)中/accommodationoutput1:
1)解析該文件;
2)按照題目要求剔除缺失數(shù)據(jù)信息大于n(n=3)的數(shù)據(jù)記錄,
并以打印語句輸出刪除條目數(shù);
3)程序打包并在Hadoop平臺運行,結(jié)果輸出至HDFS文件系統(tǒng)
中/accommodationoutput1。
具體任務要求:
1、將accommodationdata.csv文件上傳至HDFS新建目錄/file3_l
中;運行代碼,刪除數(shù)據(jù)源中缺失值大于3個字段的數(shù)據(jù),打印
第10頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
輸出刪除條目數(shù),將運行結(jié)果復制粘貼至對應報告中;
2、查看清洗后輸出的結(jié)果文件總行數(shù)(/accommodationoutput1),
將運行結(jié)果復制粘貼至對應報告中。
原始數(shù)據(jù)集來自于多個平臺及網(wǎng)站,且為多次采集匯總,因此數(shù)
據(jù)集中的某些字段有可能會出現(xiàn)一些重復或非法格式,例如多次采
集過程中產(chǎn)生的重復信息,或來自于某網(wǎng)站的不合規(guī)數(shù)據(jù)。這些信
息的存在既無實際的業(yè)務分析意義,甚至還會影響最終分析結(jié)果。
請根據(jù)題目具體參數(shù)要求處理不合規(guī)數(shù)據(jù),截圖并保存結(jié)果。
詳細描述:
請以上述1、(題目數(shù)字編號)任務結(jié)果數(shù)據(jù)集作為輸入數(shù)據(jù)源
/accommodationsparktask1,編寫Spark程序,按照如下要求實現(xiàn)對
數(shù)據(jù)的清洗,并將結(jié)果輸出至HDFS文件系統(tǒng)中/
accommodationsparktask3o
1)解析/accommodationsparktaskl中的文件;
2)剔除數(shù)據(jù)集中評分和星級字段的非法數(shù)據(jù),合法數(shù)據(jù)是評分[0,
5]的實數(shù),星級是指星級字段內(nèi)容中包含NULL、二星、三星、
四星、五星的數(shù)據(jù);
3)剔除數(shù)據(jù)集中的重復數(shù)據(jù);
4)打印語句分別輸出刪除含有非法評分、星級以及重復的數(shù)據(jù)條
目數(shù);
5)程序打包并在Spark上運行,結(jié)果輸出至HDFS文件系統(tǒng)中
第11頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
/accommodationsparktask3。
具體任務要求:
3、運行代碼,剔除數(shù)據(jù)集中評分、星級字段的非法數(shù)據(jù)和數(shù)據(jù)集中
的重復數(shù)據(jù),并打印輸出各個字段刪除的條目數(shù),將打印輸出結(jié)
果截圖并保存(截圖需包含打印語句輸出結(jié)果的上下各5行運行
日志);
4、使用Hadoopshell命令查看清洗后輸出的結(jié)果
/accommodationsparktask3總行數(shù),將運行結(jié)果截圖并保存。
任務二、數(shù)據(jù)挖掘分析
城市游客接納能力是城市規(guī)劃建設中的重要指標,其中城市的住
宿場所數(shù)量和房間數(shù)量是城市游客接納能力的關鍵要素。請編寫程
序或腳本根據(jù)住宿場所管理網(wǎng)站中的數(shù)據(jù)統(tǒng)計各城市的相關信息,
并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件。
詳細描述:
請根據(jù)數(shù)據(jù)清洗的輸出數(shù)據(jù)集,編寫HQL語句統(tǒng)計各城市的住宿
場所出租率,以各城市住宿場所出租率降序排列并輸出前10條統(tǒng)計
結(jié)果,同時創(chuàng)建并寫入數(shù)據(jù)表a_4。要求輸出字段包含:省份、城
市、住宿場所出租率。
數(shù)據(jù)定義如下:
數(shù)據(jù)項字段名備注
省份province
城市city
住宿場所出租率lease要求保留6位小數(shù)
第12頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
數(shù)據(jù)樣式如下:
provincecitylease
貴州貴陽0.123456
具體任務要求:
1、創(chuàng)建表table3_4,
2、統(tǒng)計各城市住宿場所出租率,將出租率前10的數(shù)據(jù)降序排列并
寫入數(shù)據(jù)表table3_4中,將命令復制粘貼至對應報告中。
企業(yè)消費平臺是住宿場所營銷的主要途徑之一,不僅降低銷售成
本,同時也提高了顧客體驗滿意度。當顧客通過企業(yè)消費平臺進行
住宿場所預訂時,住宿場所就擁有了用戶的相關數(shù)據(jù)。通過這些數(shù)
據(jù),能夠更好地收集用戶需求,從而可以提供更有針對性和個性化
的服務,最終能夠產(chǎn)生更多的忠誠會員并帶來更多訂單。但企業(yè)消
費平臺銷售也存在用戶拒單等情況,拒單原因有很多:例如,平臺
信息不同步,信息更新不及時;分銷層次過多,導致無法及時查證
訂單;住宿場所違反企業(yè)消費規(guī)則擅自以低價讓客戶取消訂單,這
種情況又叫做“切單企業(yè)消費平臺需要統(tǒng)計用戶訂單的分布情
況,以此發(fā)現(xiàn)平臺缺陷及用戶、商家的行為模式,企業(yè)消費平臺據(jù)
此調(diào)整營銷策略。根據(jù)現(xiàn)有數(shù)據(jù)及給定參數(shù)完成訂單數(shù)據(jù)統(tǒng)計,并
寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,復制粘貼至對應報告中結(jié)果。
詳細描述:
1)請根據(jù)數(shù)據(jù)清洗的輸出數(shù)據(jù)集,編寫HQL語句統(tǒng)計各省直銷
拒單率,以直銷拒單率升序排列并輸出前10條統(tǒng)計結(jié)果,同
第13頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
時創(chuàng)建并寫入數(shù)據(jù)表table3_5。要求輸出字段包含:省份、
直銷拒單率。
數(shù)據(jù)定義如下:
數(shù)據(jù)項字段名備注
省份province
直銷拒單率norate要求保留6位小數(shù)
數(shù)據(jù)樣式如下:
provincenorate
貴州0.123456
具體任務要求:
3、創(chuàng)建表table3_5,將命令復制粘貼至對應報告中;
4、統(tǒng)計各省拒單率,將統(tǒng)計的拒單率升序排列并將前20條統(tǒng)計結(jié)
果寫入數(shù)據(jù)表table3_5中,將命令復制粘貼至對應報告中。
第14頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
模塊D:數(shù)據(jù)可視化(20分)
MySQL數(shù)據(jù)庫中的相關數(shù)據(jù)集包含了城市、省份、評分、評論數(shù)
等多項基礎信息字段。請使用Flask框架,結(jié)合Echarts完成下列
題目。
數(shù)據(jù)庫賬號:takeout密碼:takeout
自行創(chuàng)建代碼工程路徑為:C:\chinaskills_hotel
每個可視化圖中需要添加圖片作為背景水印。
任務一:全國地圖熱力圖呈現(xiàn)各省訂單數(shù)量
住宿場所訂單量是反映住宿場所入住數(shù)量的重要指標之一,某省
訂單數(shù)量一定程度上可以反應出該省住宿場所入住情況,為了更好
地分析全國各省住宿場所訂單量,請根據(jù)指定表中數(shù)據(jù)統(tǒng)計出全國
各省住宿場所訂單量的情況,并以指定圖例進行呈現(xiàn)。
詳細描述:
請以數(shù)據(jù)庫中相關表格為數(shù)據(jù)源,分析并統(tǒng)計各省訂單數(shù)量,繪
制全國地圖熱力圖表達。
具體任務要求:
1)提取表格相關字段,分別統(tǒng)計各省的訂單數(shù)量,在控制臺按
照“訂單數(shù)量”降序排列,打印輸出各省份的訂單數(shù)量;
打印語句格式如下:
==省份:***=訂單數(shù)量:**個==
第15頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
2)使用Flask框架,結(jié)合Echarts繪制"訂單數(shù)量"的全國地
圖熱力圖,標題為“各省訂單數(shù)量”(字體顏色:紅色,加
粗),并將可視化結(jié)果復制粘貼至對應報告中。
任務二:多個餅圖呈現(xiàn)各省份不同等級住宿場所占比
企業(yè)消費平臺為了更好地發(fā)展企業(yè)業(yè)務,向企業(yè)客戶推薦符合其
預定的協(xié)議住宿場所,需要分析上題中Top5省份的“三星級/舒
適,,、“四星級/高檔”和“五星級/豪華”住宿場所以及“其它類
別”住宿場所(除上述三類外,其余類型住宿場所均歸為“其它類
別“)的占比情況。請根據(jù)指定表中數(shù)據(jù),以指定圖例進行呈現(xiàn)。
詳細描述:
請根據(jù)數(shù)據(jù)庫中相關數(shù)據(jù)集中省份、星級等相關字段統(tǒng)計各省份
不同等級住宿場所的占比,繪制多個餅圖。
具體任務要求:
1)根據(jù)表格相關字段分別統(tǒng)計上題Top5省份不同星級住宿場所
的占比,打印輸出各省份名稱以及各類型住宿場所的占比情
況;
打印語句格式如下:
==省份:A=舒適型住宿占比:**===
==省份:A=高檔型住宿占比:**===
==省份:A=豪華型住宿占比:**===
==省份:B=舒適型住宿占比:**===
第16頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
==省份:B=高檔型住宿占比:**===
==省份:B=豪華型住宿占比:**===
2)使用Flask框架,結(jié)合Echarts在組合圖中繪制多個餅圖,
每個城市各星級住宿場所占比情況分別用一個餅圖進行呈
現(xiàn),將可視化結(jié)果截圖并保存。
任務三:折線圖呈現(xiàn)連鎖住宿場所出租率
連鎖住宿場所一般都具有全國統(tǒng)一的品牌形象識別系統(tǒng)、全國統(tǒng)
一的會員體系和營銷體系、價格相比較很有優(yōu)勢,更適合大眾化消
費。連鎖住宿場所無論在裝修、服務還是信譽上都有較大的競爭優(yōu)
勢,所以連鎖住宿場所是出差、旅游住宿的首選。但是由于三線城
市會員流動差、高素質(zhì)管理人員相對短缺、營銷環(huán)境與消費特點存
在差異等問題,一些已經(jīng)成熟住宿場所管理模式在三線城市可能并
不受用,甚至會出現(xiàn)水土不服的現(xiàn)象。請根據(jù)現(xiàn)有數(shù)據(jù)及給定參
數(shù),統(tǒng)計指定連鎖住宿場所的經(jīng)營狀況,并以指定圖例進行呈現(xiàn)。
詳細描述:
1)數(shù)據(jù)庫中相關表格已保存了指定地區(qū)的某連鎖住宿場所銷售
信息。請根據(jù)地區(qū)劃分,統(tǒng)計題中某連鎖住宿場所的出租率
(保留6位小數(shù)),并以折線圖呈現(xiàn);
2)要求統(tǒng)計以下指定地區(qū)住宿場所相關信息,指定地區(qū)包括:
東北、華北、華東、華中、西北、西南、華南;
第17頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
3)指定地區(qū)省份映射表,如表1。
表1:地區(qū)省份映射表
地區(qū)省份
華東地區(qū)山東、江蘇、安徽、浙江、江西、福建、上海
華南地區(qū)廣東、廣西、海南
華中地區(qū)湖北、湖南、河南
華北地區(qū)北京、天津、河北、山西、內(nèi)蒙古
西北地區(qū)寧夏、新疆、青海、陜西、甘肅
西南地區(qū)四川、云南、貴州、西藏、重慶
東北地區(qū)遼寧、吉林、黑龍江
具體任務要求:
1)根據(jù)表格相關字段分別統(tǒng)計某連鎖住宿場所在各地區(qū)的出租
率(保留6位小數(shù)),在控制臺按照“出租率”降序排列,打
印輸出各地區(qū)名稱以及出租率;
打印語句格式如下:
==1.***地區(qū),出租率為***===
==2.***地區(qū),出租率為***===
2)使用Flask框架,結(jié)合Echarts繪制折線圖,主標題為“指
定地區(qū)的住宿場所出租率”(字體要求:紅色、加粗、斜
體),副標題為“某連鎖住宿場所的出租率”,縱坐標為出租
率,橫坐標為地區(qū);輸出折線圖,將可視化結(jié)果復制粘貼至
對應報告中。
任務四:散點地圖呈現(xiàn)各城市住宿場所間夜數(shù)
1、住宿場所的間夜量也叫間夜數(shù),是住宿場所在某個時間段內(nèi),房
第18頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
間出租率的計算單位,關于住宿場所間夜量的計算公式為間夜量
=入住房間數(shù)*入住天數(shù)。例如某住宿場所今天入住的房間數(shù)為
500,則今天的間夜量=500*1=500,而又比如某住宿場所這個月
(30天)的平均每天入住房間數(shù)為400,則這個月的間夜量
=400*1*30=12000。請根據(jù)指定表中數(shù)據(jù)統(tǒng)計住宿場所間夜數(shù)相
關數(shù)據(jù),并以指定圖例進行呈現(xiàn)。
詳細描述:
請以數(shù)據(jù)庫相關表格中相關表作為數(shù)據(jù)源,各城市住宿場所間夜
數(shù)散點地圖。
具體任務要求:
1)根據(jù)表格相關字段分別統(tǒng)計各城市住宿場所間夜數(shù),打印輸出
各城市的間夜數(shù),在控制臺按照“間夜數(shù)”降序排列,打印輸
出各地區(qū)名稱以及間夜數(shù);
打印語句格式如下:
二二***市:間夜數(shù)為***二二二
=二***市:間夜數(shù)為***二二二
2)使用Flask框架,結(jié)合Echarts繪制散點地圖,主標題為各城
市住宿場所間夜數(shù)(字體要求:紅色、加粗、斜體);輸出各城
市住宿場所間夜數(shù)散點地圖,將可視化結(jié)果復制粘貼至對應報
告中。
第19頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
任務五:條形統(tǒng)計圖呈現(xiàn)各省直銷拒單率
企業(yè)消費平臺是住宿場所營銷的主要途徑之一,不僅降低銷售成
本,同時也提高了顧客體驗滿意度。當顧客通過企業(yè)消費平臺進行
住宿場所預訂時,住宿場所就擁有了用戶的相關數(shù)據(jù)。通過這些數(shù)
據(jù),能夠更好地收集用戶需求,從而可以提供更有針對性和個性化
的服務,最終能夠產(chǎn)生更多的忠誠會員并帶來更多訂單。但企業(yè)消
費平臺銷售也存在用戶拒單等情況,拒單原因有很多:例如,平臺
信息不同步,信息更新不及時;分銷層次過多,導致無法及時查證
訂單;住宿場所違反企業(yè)消費規(guī)則擅自以低價讓客戶取消訂單,這
種情況又叫做“切單企業(yè)消費平臺需要統(tǒng)計用戶訂單的分布情
況,以此發(fā)現(xiàn)平臺缺陷及用戶、商家的行為模式,企業(yè)消費平臺據(jù)
此調(diào)整營銷策略。根據(jù)現(xiàn)有數(shù)據(jù)統(tǒng)計訂單數(shù)據(jù),并以指定圖例進行
呈現(xiàn)。
詳細描述:
請根據(jù)數(shù)據(jù)庫中相關數(shù)據(jù)集中統(tǒng)計各省直銷拒單率,以直銷拒單
率降序排列,并繪制條形統(tǒng)計圖。
具體任務要求:
1)根據(jù)表格相關字段分別統(tǒng)計各省份的直銷拒單率(保留6位
小數(shù)),在控制臺按照“直銷拒單率”降序排列,打印輸出各
省名稱以及直銷拒單率;
打印語句格式如下:
==1.***省,直銷拒單率為***===
第20頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
==2.***省,直銷拒單率為***===
2)使用Flask框架,結(jié)合Echarts繪制直銷拒單率最高的5個
省份條形圖,主標題為“直銷拒單率最高的5個省份”(字體
要求:紅色、加粗、斜體),縱坐標為省份名稱,橫坐標直銷
拒單率;輸出條形圖,將可視化結(jié)果截圖并保存。
任務六:使用sklearn庫中方法構建線性回歸模型
企業(yè)消費平臺為了能在更多省份擴展業(yè)務,與更多住宿場所建立
合作關系,為了贏得更多住宿場所的合作,在合作談判過程中會通過
同區(qū)域、同等級銷售情況對比,需要提供同類住宿場所相關經(jīng)營數(shù)據(jù)。
請根據(jù)指定表中數(shù)據(jù),以指定圖例進行呈現(xiàn)。企業(yè)消費平臺希望與住
宿場所A進行線上銷售合作,需要制作一份銷售預測報告來說明住宿
場所將在平臺收獲的間夜預期。住宿場所A信息{廣東省、廣州市、
北京路商圈、非客棧,評論數(shù)100,房間數(shù)200}
詳細描述:
請以根據(jù)表格相關字段:是否客棧、評論數(shù)、房間數(shù)為特征變
量,構建線性回歸模型,給出明年同期住宿場所A在本平臺總間夜
數(shù)的預期值。輸出預測模型相關指標,同時給出預期結(jié)果。
具體任務要求:
1)請使用sklearn庫中方法構建線性回歸模型,并在控制臺輸
出住宿場所A總間夜的預測值;
第21頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
打印語句格式如下:
=="住宿場所A明年同期總間夜數(shù)預期值為:***"===
2)使用Flask框架,結(jié)合Echarts繪制散點線性回歸圖,標題
為“住宿場所A總間夜數(shù)預測”(字體要求:紅色、加粗、斜
體),橫坐標為時間,縱坐標為總間夜數(shù),將可視化結(jié)果截圖
并保存。
第22頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
模塊E:綜合分析(20分)
假定你為企業(yè)消費平臺的管理者,在綜合理解住宿場所業(yè)務數(shù)據(jù)
的基礎上,通過以上模塊A、B、C、D的相關結(jié)論,對未來拓展合作
住宿場所方向做出預測,根據(jù)題目要求進行分析,并編寫輸出分析
報告。
根據(jù)上述任務中的結(jié)論,分析以下內(nèi)容,并編寫分析報告。從住
宿場所分布維度,結(jié)合多省份住宿場所綜合運營情況,對企業(yè)消費
平臺未來拓展合作住宿場所的方向提出建議。
分析報告要求:
任務一:通過數(shù)據(jù)及圖示分析原因
結(jié)合平臺相關數(shù)據(jù)文件,以各省住宿場所“出租率”、“平均分數(shù)”、
“住宿場所間夜數(shù)”和“住宿場所直銷拒單率”的雷達圖對住宿場所
運營情況進行分析,分別以文字描述和圖例進行說明;
任務二:通過圖示和計算業(yè)務分析原因
結(jié)合模塊D數(shù)據(jù)可視化中對各省不同級別住宿場所的占比分析,
說明企業(yè)消費平臺在向客戶進行推薦時可以采取哪些策略,以提高平
臺中住宿場所的訂單量。分別以文字描述和圖例進行說明;
任務三:分析企業(yè)消費平臺在未來是否應繼續(xù)與住宿場所A
合作
根據(jù)對住宿場所A明年同期間夜數(shù)的預測結(jié)果,分析企業(yè)消費平
第23頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
臺在未來是否應繼續(xù)與其合作,并在報告中說明理由(不少于3條理
由)o
第24頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
附錄:補充說明
一、json數(shù)據(jù)格式樣例
{"name":"南京國美家庭旅社公寓南林店","detail":{"SEQ":
"nanjing」O16","國家":"中國","省份":"江蘇","城市":"南京","處
于商圈":"鎖金村地區(qū)玄武湖地區(qū)中山陵景區(qū)","是否為客棧":0,"住宿場
所星級":"二星及其他","業(yè)務部門":"低星","剩余房間":8,"圖片數(shù)":0,
"住宿場所評分":"1","用戶點評數(shù)":1,"城市平均實住間夜":
"51.701686747","住宿場所總訂單":0,"住宿場所總間夜":0,"住宿場所實
住訂單":0,"住宿場所實住間夜":0,"住宿場所直銷訂單":0,"住宿場所直
銷間夜":0,"住宿場所直銷實住訂單":0,"住宿場所直銷實住間夜":0,"住宿
場所直銷拒單":0,"住宿場所直銷拒單率":null,"城市直銷拒單率":
"0.0282838180927","拒單率是否小于等于直銷城市均值":0,"最低房間價格":
"306"})
二、fastjson-1.2.41.jar常用API(java)
1、實例化
JSONObject();
2、JSON解析包
com.alibaba.fastjson.JSON;
com.alibaba.fastjson.JSONObject;
com.alibaba.fastjson.JSONArray;
com.alibaba.fastjson.JSONException;
3、常用API方法:
1)publicstaticfinalObjectparse(Stringtext);//把JSON文本
parse為JSONObject或者JSONArray
2)publicstaticfinalJSONObjectparseObject(Stringtext);//
把JSON文本parse成JSONObject
第25頁/共31頁
2021年全國職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術與應用〃賽項任務書
3)publicstaticfinalTparseObject(Stringtext,Classclazz);
//把JSON文本parse為JavaBean
4)publicstaticfinalJSONArrayparseArray(Stringtext);//把
JSON文本parse成JSONArray
5)publicstaticfinalListparseArray(Stringtext,Classclazz);
〃把JSON文本parse成JavaBean集合
6)publicstaticfinalStringtoJSONString(Objectobject);//將
JavaBean序列化為JSON文本
7)publicstaticfinalStringtoJSONString(Objectobject,boolean
prettyFormat);//將JavaBean序列化為帶格式的JSON文本
8)publicstaticfinalObjecttoJSON(ObjectjavaObject);將
JavaBean轉(zhuǎn)換為JSONObject或者JSONArrayo
三、fastjsonT.2.41.jar常用API[Spark(scala)l
1、json解析包
com.alibaba.fastjson.JSON
2、常用API
1)實例化:
JSON.parseObject(x)
2)默認值:如果該key沒有值默認為null:
jsonObject.getOrDefault(key,默認值)
jsonObject.getOrDefault("name",
3)獲取該key的value值
jsonObject.get(json的key)
jsonObject.get(“name”)
4)判斷key是否存在
jsonObject.containsKey(key)
5)添加kv鍵值對
jsonObject.put(key,value)
第26頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
四、控制臺輸出運行日志樣例
19/060308:04:21IXFOhandlerContextHandlor:Stoppeds.ServIetContextHandler?10f<ie30aiz.null,UNAVAILABLE)
19/06/0308:01:21INFOhandlerContcxtHuiKiicr:Stoppeds.Sen*letContcxlllandlcr<33836Westatic,nuiUNAVAILABLE;
19/060308:04:21IXFOhandlerConlciilLuxilrr:Stoppeds.Serv1otCentextHand1er#533377bi?rsthreadDuop/jsan,nulI.IAAVAIIABII
197060308:0-1:21INFOhandlerContcxtHandlcr:Stoppeds.Sen,letContcxtHandlcr<J119a20u6executors11hreadDu^j,null.IXAVAlLABLEl
19/060308:04:21INFOhandlerGxitcxtlhndler:Stoppeds.ScrvletContcxtHandlcr<67389cb8executors'.ison,null.VNAVAILABLE)
⑼06,0308:01:21INFOhandierCentextflandier:Sloppeds.Scrv!ctContextlhndlcrt65aa6596executors,null,I^AVAIIABIJr
19/06/0308:04:21INFOhandlerContextHandler:Stoppeds.ScrvlctContcxUhndlcrt2c7d121c:environnent/json.null,UNAVAILABLE;
19/06.0308:04:21ISFOhandlerContext(landIer;Sloppeds.SeivIrtGMItrxillmxiIert34625ccd;,/cnvironnrnt.null.(NAVAILABIE)
19/06,0308:04:21INFOhandlerContextHiindler:Stoppeds.SenletContextliiindier#7e3f95fe-storage-rdd/json.null,UNAVAILABLE)
19,06/0308:04:21INFOhandlerContcxtHandlcr:Slurpeds.Serv1clContextHandIcr*24bdb479!/storaKc/rdd.nullUNAVAILABLE:
19/060308:04:21INFOhandlerContextlldiNller:Stoppeds.ServIetCi>ntexiH.trjdIer27b5f92;orage/jsan.null.CNAVAUJUil.E
19/06/0308:04:21INFOhandierConlextHiindlcr:Stoppeds.ServletContextlhndlcrtlddac9b5stor?Rc,null.VNAVAIUBLEf
19,060308:04:21IXFOiwndlerContextlhiKlIvr:Stoppeds.ServletC(Mitextll??ndier€42f3l56d;st8ses/p?MU/null.^AVAILABLE)
19/06/0308:04:21IMPhandlerConlexIHandIer:Stoppeds.SenletContextHiindlertld7f7be7Vstages/pool.nulI.lWA
⑼060308:04:2!INFOhandierCootexlHindIer:Sloppeds.Sen'Iet('<>nte11ILindIcr0586013d7stnges/stage,json,nulI.UNAVAILABLE)
⑼06/0308:04:21IXFOhandlerContext而ndier:Stoppeds.ServlelContextlhndler06a66a2O4st?ses/stage.null,15AVAHABLE}
19/06/0308:04:21IXFOhandlerCentextHandior:StoppedO.S.3?s.Scn,letContcxtilandlcrtllcSTbOb;/stagesjson,null.INAVAILWLE
19.Wk0308:04:21IXFOhandlerfontex(Handier:SloppedQ.&s.ServletContextHanciJcr<Me5l7l651/stages,null,INAVA1I.ABLE.)
19/06/0308:04:21IXFOhandlerCentex【Hand!er:Stoppeds.ScnIeiCa)textHiindlert2cb3d0f7:jobs,/job/json,nulI.LKAVAILABLE
19/06/0308:04:21INFOhandlerConlcxtllandlcr:Sloppeds.Sen11etContcxlIlandlcrt2c10177-1'/jobs/job,null,I'NAVAll^BU:
19/06/0308:04:2!IXFOhandlerContextILudler:Stoppeds.ServletContextILindlcr96f0ca692,jobs/json,null,mVAIUBlf1
19/06.0308:04:21IXFOhandlerContextHandhr:s.ScrvlctContcxtHandlcrtMba534bOjobs,nuH.lNAYAILABLE}
五、方差、均方根差的定義
1、方差MSE:概率論中方差用來度量隨機變量和其數(shù)學期望(即均值)之間的
偏離程度。統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均
數(shù)之差的平方值的平均數(shù)。
2、均方根差RMSE:均方根誤差,是觀測值與真值偏差的平方和觀測次數(shù)n比值
的平方根。RMSE是計算觀測值與其真值,或者觀測值與其模擬值之間的偏
差。
六、間夜定義
間夜又稱間夜數(shù),是住宿場所在某個時間段內(nèi),房間出租率的計算單位。例
如20間房入住2晚,為40間夜數(shù)。
七、出租率計算公式
出租率=當月發(fā)生的總間夜數(shù)/當月所能提供的總房間數(shù)
八、線性回歸預測數(shù)據(jù)源data_accommodation_mult.csv
字段名
SEQ、省份、城市、商圈、是否為客棧、星級、房間數(shù)、評論數(shù)、平均評分數(shù)、
城市平均間夜、住宿場所總訂單、住宿場所總間夜、住宿場所實住訂單、住宿場
第27頁/共31頁
2021年全國職業(yè)院校技能大賽高職組"大數(shù)據(jù)技術與應用”賽項任務書
所實住間夜、住宿場所直銷訂單、住宿場所直銷實住訂單、住宿場所直銷間夜、
住宿場所直銷實住間夜、城市直銷拒單、城市直銷拒單率、住宿場所企業(yè)消費平
臺實住訂單
九、數(shù)據(jù)可視化表字段說明
表radar_lines
province省份
accommodation_num住宿場所數(shù)
avg_score平均分
comment_num評論數(shù)
lease_rate出租率
direno_rate直銷率
表platformrate
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024屆云南省曲靖市麒麟?yún)^(qū)六中高三年級下學期第二次月考試題
- 2024屆四川成都實驗中學高三(上)期末教學統(tǒng)一檢測試題數(shù)學試題試卷
- 二下美術書第十課教育課件
- 識字七課件教學課件
- 2024年新疆客運資格證軟件下載
- 2024年??诳瓦\從業(yè)資格證考試試題庫及答案詳解
- 2024年吉林c1客運資格證模擬考試
- 2024年湖南客運資格證考試多少道題及答案
- 2024年拉薩客運證考試
- 2024年天津鄭州客運資格證考試題
- 醫(yī)用內(nèi)窺鏡冷光源產(chǎn)品技術要求深圳邁瑞
- 《將本土美食文化融入幼兒園課程的實踐》 論文
- 直擊本質(zhì):洞察事物底層邏輯的思考方法
- 火災與觸電現(xiàn)場處置方案
- 榴蓮課件完整版
- 人事部崗位sop完整版
- 深圳某小學項目交通影響評價報告
- 2023年四川農(nóng)信校園招聘筆試題庫及答案解析
- 液壓傳動課程設計-專用銑床液壓系統(tǒng)
- 評選最美傳統(tǒng)文化代言人:二年級下冊語文第三單元學習任務群設計
- YS/T 591-2006變形鋁及鋁合金熱處理
評論
0/150
提交評論