2021高職 大數據技術與應用 任務書6(賽項賽題)_第1頁
2021高職 大數據技術與應用 任務書6(賽項賽題)_第2頁
2021高職 大數據技術與應用 任務書6(賽項賽題)_第3頁
2021高職 大數據技術與應用 任務書6(賽項賽題)_第4頁
2021高職 大數據技術與應用 任務書6(賽項賽題)_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2021年全國職業(yè)院校技能大賽

高職組

“大數據技術與應用”

賽項賽卷(GZ-xxxxxxx-X卷)

參賽隊編號:

背景描述

企業(yè)消費服務平臺,為大中小型企業(yè)提供基于云化的消費場景一

站式智能消費、智能管控,幫助企業(yè)獲得更高效、簡單、美好的消費

管理。從“費控+支付”出發(fā),到覆蓋全場景支出的創(chuàng)新模式,讓員

工在數字化平臺上直接完成所有消費,從員工下單、到財務入賬,全

流程實現自動化統一結算、統一數據分析。解決傳統差旅系統面臨的

場景覆蓋不全、員工體驗差、消費體驗割裂等情況,真正做成一套讓

企業(yè)節(jié)省支出,讓員工滿意的差旅平臺。

企業(yè)消賽服務平臺的出現將原來傳統的差旅行程放到網絡平臺

上,更廣泛的傳遞差旅信息,互動式的交流更方便客人的咨詢和訂購,

越來越多的人在出行的時候使用企業(yè)消費服務平臺預訂機票、火車票、

住宿等,使得更多的商家愿意與企業(yè)消費服務平臺建立合作,提升住

宿場所的營業(yè)額,這也為企業(yè)消費服務平臺的發(fā)展帶來新的機遇,為

了抓住這個機會,“企業(yè)消費服務平臺”需要從地域、訂單來源等多

種維度進行分析,明確未來重點拓展合作商家的方向。公司要求多個

小組進行分析,并提出相應建議,你所在的小組也在其中,需要通過

數據采集、數據清洗、數據分析和數據可視化獲得相關論據,提出未

來重點拓展合作住宿場所的方向。

你們作為該小組的技術人員,是這次技術方案的核心成員,請按

照下面步驟完成本次技術展示任務,并提交分析報告,祝你們成功?。?!

模塊A:Hadoop平臺及組件的部署管理(15分)

環(huán)境要求:

編號主機名類型用戶密碼

1master主節(jié)點rootpasswd

2slavel從節(jié)點rootpasswd

3slave2從節(jié)點rootpasswd

相關軟件安裝包在/chinaskills目錄下

任務一:Hadoop全分布部署管理

本環(huán)節(jié)需要使用root用戶完成相關配置,安裝Hadoop需要配置

前置環(huán)境,具體部署要求如下:

1、解壓JDK安裝包到“/usr/local/src”路徑,并配置環(huán)境變量,

將命令(使用絕對路徑)及環(huán)境變量內容復制粘貼至對應報告中;

2、從master復制JDK環(huán)境變量文件到slavel、slave2節(jié)點,將命

令(命令中使用絕對路徑)復制粘貼至對應報告中;

3、環(huán)境中已創(chuàng)建ssh密鑰,實現主節(jié)點與從節(jié)點的無密碼登錄;截

取主節(jié)點登錄其中一個從節(jié)點的結果,將命令和結果復制粘貼至

對應報告中;

4、將/chinaskills下的Hadoop包解壓到/usr/local/src,不修改

解壓后文件夾名稱,配置Hadoop全局環(huán)境變量,并使環(huán)境變量只

對當前root用戶生效,將命令(使用絕對路徑)及環(huán)境變量內容

復制粘貼至對應報告中;

5、根據要求修改Hadoop相關文件(hadoop-env.sh、core-site,xml、

HDFS-site.xml>mapred-site.xml,yarn-site,xml),并初始化

Hadoop,將初始化結果內容復制粘貼至對應報告中;

6、啟動Hadoop,使用相關命令查看所有節(jié)點Hadoop進程,并將結

果內容復制粘貼至對應報告中。

任務二:Zookeeper集群部署管理

1、解壓Zookeeper安裝包到“/usr/local/src”路徑,并修改解壓

后文件夾名為zookeeper,將命令復制粘貼至對應報告中;

2、設置Zookeeper環(huán)境變量,并使環(huán)境變量只對當前用戶生效,將

命令(使用絕對路徑)及環(huán)境變量內容復制粘貼至對應報告中;

3、配置“zoo.cfg”文件,并將修改的內容復制粘貼至對應報告中;

4、修改myid文件,并將修改的內容復制粘貼至對應報告中;

5、啟動每個虛擬機上面的Zookeeper節(jié)點,啟動完成之后查看每個

節(jié)點的狀態(tài),并將Zookeeper運行狀態(tài)結果復制粘貼至對應報告

中。

任務三:Kafka組件部署管理

本環(huán)節(jié)需要使用root用戶完成相關配置,已安裝Hadoop及需要

配置前置環(huán)境,具體部署要求如下:

1、將Zookeeper配置完畢后,在各節(jié)點啟動Zookeeper,查看

Zookeeper狀態(tài),并將命令和Zookeeper運行狀態(tài)結果復制粘貼

至對應報告中;

2、修改Kafkaserver.properties文件,并將修改的內容復制粘貼至

對應報告中;

3、啟動Kafka,并將Kafka啟動命令和輸出結果前10行復制粘貼至

報告中。

模塊B:數據采集與處理(20分)

1、網站解析,利用Chrome查看網頁源碼,分析企業(yè)消費平臺網站網

頁結構。

1)打開企業(yè)消費平臺網站,在網頁中右鍵點擊檢查,或者F12

快捷鍵,查看元素頁面;

2)檢查網站:瀏覽網站源碼查看所需內容。

2、從企業(yè)消費平臺網站中爬取需要數據,按照要求使用Python語言

編寫爬蟲代碼,爬取指定數據項,并對結果數據集進行數據探索、

以及必要的數據處理操作。請將符合題目要求的代碼答案復制粘

貼至對應報告中。

具體步驟如下:

1)創(chuàng)建爬蟲項目

2)構建爬蟲請求

3)按要求定義相關字段

4)獲取有效數據

5)將爬取到的數據保存到指定位置

至此已從企業(yè)消費平臺網站中爬取了所需數據,下一步我們要將

爬取結果進一步進行相關數據操作。

詳細數據描述:

1)請創(chuàng)建Scrapy項目chinaskills_accommodation(C:\

chinaskillsaccommodation),從網站(網站地址在競賽

平臺模塊B中給出)中爬取頁面相關字段(包括name,seq,業(yè)

務部門,住宿場所總訂單,住宿場所總間夜,住宿場所星級,

住宿場所直銷實住訂單,住宿場所直銷實住間夜);將抓取

結果保存為json格式文件,并命名為accommodations.jsono

每條信息請以Key:Value格式單獨保存為一行數據。

例如:

{“name":"***”,"seq":"***",…….)

任務中要求將“以下內容及答案完整復制粘貼至對應報告

中?!?,粘貼到對應報告中的內容舉例如下:

“中國”網頁源碼對應字段為:Country

“四川”網頁源碼對應字段為:Province

2)爬取數據量不少于28萬條。

具體任務要求:

任務一:網頁源碼對應字段

使用Chrome瀏覽器,查找網站異步請求的數據,并將以下內容及

答案完整復制粘貼至對應報告中。

“城市平均實住間夜”網頁源碼對應字段為:

“房間數”網頁源碼對應字段為:

“城市直銷拒單率”網頁源碼對應字段為:

“處于商圈”網頁源碼對應字段為:

任務二:創(chuàng)建Scrapy工程

自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取"name、seq、業(yè)務部

門有效數據項包括:業(yè)務部門,房間數,國家,圖片數,城市,城市平均

實住間夜,城市直銷拒單率,處于商圈”頁面相關數據,通過爬蟲代碼

分頁爬取,以合理的程序邏輯判斷相關數據包含的頁數并將程序代碼

復制粘貼至對應報告中。

任務三:在MySQL中創(chuàng)建數據庫表

根據爬取字段,在MySQL中創(chuàng)建crawl數據庫,在該數據庫中創(chuàng)

建accommodations1表(包含name,seq,業(yè)務部門,住宿場所總訂單,

住宿場所總間夜),創(chuàng)建accommodations2表(包含name,seq,業(yè)務

部門,住宿場所星級,住宿場所直銷實住訂單,住宿場所直銷實住間夜)

并查看表結構,將查看結果(含字段總行數)復制粘貼至對應報告中。

任務四:對數據庫表排序

爬蟲程序運行結束后查看MySQL數據庫accommodations2表,按

seq字段倒序排序,返回前100行數據,將命令與查看結果復制粘貼

至對應報告中。

任務五:對數據表填充處理

1、請根據步驟3中accommodations2表中的數據,對數據集中“住

宿場所直銷實住間夜”字段的缺失值,使用平均值進行填充。查

看填充后的數據集前15條記錄,將查看結果復制粘貼至對應報告

中。

2、請根據步驟3中accommodations?表中的數據,對數據集中存在

空值的記錄進行刪除。查看刪除后的數據集條數,將查看結果復

制粘貼至對應報告中。

accominodations2表刪除后條數為:

模塊C:數據清洗與挖掘分析(25分)

現已從相關網站及平臺獲取到原始數據集,為保障用戶隱私和行

業(yè)敏感信息,已進行數據脫敏。數據脫敏是指對某些敏感信息通過脫

敏規(guī)則進行數據的變形,實現敏感隱私數據的可靠保護。在涉及客戶

安全數據或者一些商業(yè)性敏感數據的情況、不違反系統規(guī)則條件下,

對真實數據進行改造并提供測試使用,如身份證號、手機號等個人信

息都需要進行數據脫敏。

相關數據文件中已經包含了數據采集階段從企業(yè)消費平臺網站

上爬取的數據集,其中包含了來自不同城市的多家住宿場所的銷售信

息,你的小組需要通過編寫代碼或腳本完成對相關數據文件中住宿場

所銷售管理數據的清洗和整理,并完成數據計算和分析任務。綜合利

用MapReduce、Spark,Storm,分布式存儲系統、數據倉庫Hive、數

據推送工具等技術,使用Java、Python、Scala等開發(fā)語言,完成本

階段數據清洗、處理、分析及數據挖掘等任務。通過多個維度分析住

宿場所的銷售信息,并以此評價住宿場所銷售業(yè)績、區(qū)域的游客接納

能力、接納質量等指標。

初始數據集來自多個網站及平臺系統,且為多次采集匯總結果,

因此數據集中不可避免地存在一些臟數據,即源數據不在給定的范圍

內或對于實際業(yè)務毫無意義,或是數據格式非法,以及在源系統中存

在不規(guī)范的編碼和含糊的業(yè)務邏輯。

請分析相關數據集,根據題目規(guī)定要求實現數據清洗及分析。

任務一:數據清洗

住宿場所銷售數據涉及到多個平臺及數據庫對接,個別信息由于

人為操作失誤或計算機故障等原因產生了數據缺失值。缺失值是一種

常見的臟數據情況,由于粗糙數據中缺少信息而造成的數據缺失或截

斷?,F有數據集中某個或某些屬性的值是不完全的。對于缺失值的處

理,從總體上來說分為缺失值刪除和缺失值插補。當缺失值過多時,

信息條目本身的價值也會隨之降低,此時如果對缺失值進行填補則將

產生結果的人為干預。結合行業(yè)數據本身特點及上述考慮,請你根據

題目具體參數要求實現以下功能:將缺失值大于n個的數據條目從原

始數據集中剔除,并輸出剔除的條目數量。

詳細描述:

數據源文件存放于/chinaskills/accommodationdata.csv,請編

寫MapReduce程序,按照如下要求實現對數據的清洗,并將結果輸出

至HDFS文件系統中/accommodation_outputl:

1)解析該文件;

2)按照題目要求剔除缺失數據信息(n=3),并以打印語句輸出刪

除條目數;

3)程序打包并在Hadoop平臺運行,結果輸出至HDFS文件系統中

/accommodationoutput10

具體任務要求:

1、將accommodationdata,csv文件上傳至HDFS新建目錄/file3_l

中;運行代碼,刪除數據源中缺失值大于3個字段的數據記錄,

打印輸出刪除條目數,將運行結果復制粘貼至對應報告中;

2、查看清洗后輸出的結果文件總行數(/accommodation_outputl),

將運行結果復制粘貼至對應報告中。

對于數據集字段缺失情況,通??梢圆捎锰畛淠J值、均值、眾

數、KNN填充、以及把缺失值作為新的label等方式處理。同時,不

當的填充可能會令后續(xù)的分析結果出現導向性偏差,當缺失信息較少

時可采用刪除的方式來進行處理。下面請根據題目具體參數要求處理

關鍵字段缺失,復制粘貼至對應報告中結果。

詳細描述:

數據源使用HDFS文件系統中的accommodationdata.csv,請編

寫MapReduce程序,按照如下要求實現對數據的清洗,并將結果輸出

至HDFS文件系統中/accommodation_output2:

1)解析該文件;

2)將任意關鍵字段為空的條目剔除,關鍵字段定義為{星級、評

論數、評分},并以打印語句輸出刪除條目數;

3)程序打包并在Hadoop平臺運行,結果輸出至HDFS文件系統中

/accommodation_output2。

具體任務要求:

3、運行代碼,將字段{星級、評論數、評分}中任意字段為空的數據

刪除,并打印輸出刪除條目數,將運行結果復制粘貼至對應報告

中;

4、查看清洗后輸出的結果文件(accommodationoutput2)總行數,將

運行結果復制粘貼至對應報告中。

任務二:數據挖掘分析

城市游客接納能力是城市規(guī)劃建設中的重要指標,其中城市的住

宿場所數量和房間數量是城市游客接納能力的關鍵要素。請編寫程序

或腳本根據住宿場所管理網站中的數據統計各城市的相關信息,并寫

入指定的數據庫或數據文件。

詳細描述:

1)請根據數據清洗的輸出數據集,編寫HQL語句統計各城市的住

宿場所出租率,以各城市住宿場所出租率降序排列并輸出前

10條統計結果,同時創(chuàng)建并寫入數據表a_4。要求輸出字段包

含:省份、城市、住宿場所出租率。

數據定義如下:

數據項字段名備注

省份province

城市city

住宿場所出租率lease要求保留6位小數

數據樣式如下:

provincecitylease

貴州貴陽0.123456

具體任務要求:

1、創(chuàng)建表table3_4,

2、統計各城市住宿場所出租率,將出租率前10的數據降序排列并寫

入數據表table3_4中,將命令復制粘貼至對應報告中。

企業(yè)消費平臺是住宿場所營銷的主要途徑之一,不僅降低銷售成

本,同時也提高了顧客體驗滿意度。當顧客通過企業(yè)消費平臺進行住

宿場所預訂時,住宿場所就擁有了用戶的相關數據。通過這些數據,

能夠更好地收集用戶需求,從而可以提供更有針對性和個性化的服務,

最終能夠產生更多的忠誠會員并帶來更多訂單。但企業(yè)消費平臺銷售

也存在用戶拒單等情況,拒單原因有很多:例如,平臺信息不同步,

信息更新不及時;分銷層次過多,導致無法及時查證訂單;住宿場所

違反企業(yè)消費規(guī)則擅自以低價讓客戶取消訂單,這種情況又叫做“切

單”。企業(yè)消費平臺需要統計用戶訂單的分布情況,以此發(fā)現平臺缺

陷及用戶、商家的行為模式,企業(yè)消費平臺據此調整營銷策略。根據

現有數據及給定參數完成訂單數據統計,并寫入指定的數據庫或數據

文件,復制粘貼至對應報告中結果。

詳細描述:

1)請根據數據清洗的輸出數據集,編寫HQL語句統計各省直銷拒

單率,以直銷拒單率升序排列并輸出前10條統計結果,同時

創(chuàng)建并寫入數據表table3_5。要求輸出字段包含:省份、直

銷拒單率。

數據定義如下:

數據項字段名備注

省份province

直銷拒單率norate要求保留6位小數

數據樣式如下:

provincenorate

貴州0.123456

具體任務要求:

3、創(chuàng)建表table3_5,將命令復制粘貼至對應報告中;

4、統計各省拒單率,將統計的拒單率升序排列并將前10條統計結果

寫入數據表table35中,將命令復制粘貼至對應報告中。

模塊D:數據可視化(20分)

MySQL數據庫中的相關數據集包含了城市、省份、評分、評論數

等多項基礎信息字段。請使用Flask框架,結合Echarts完成下列題

目。

數據庫賬號:takeout密碼:takeout

自行創(chuàng)建代碼工程路徑為:C:\chinaskills_hotel

每個可視化圖中需要添加圖片作為背景水印。

任務一:堆疊柱狀圖呈現各省住宿場所數和訂單信息

在該企業(yè)消費平臺上,各地區(qū)的住宿場所銷售數據等信息能夠反

映一個地區(qū)商業(yè)活動的密集程度。例如住宿場所總量多的城市大都具

有強烈的吸納外來人員的能力,訂單數量能夠反映該地區(qū)的有較多的

商業(yè)往來。根據現有數據及給定參數完成住宿場所銷售數據統計。

詳細描述:

請根據數據庫中相關數據集中住宿場所數量、訂單數量、實住數

量等字段統計各省份的住宿場所數量和訂單信息,繪制堆疊柱狀圖。

具體任務要求:

1)提取表格相關字段,分別統計各省的住宿場所數量、總訂單數

量和實住訂單數量,在控制臺按照“住宿場所數量”降序排列,

打印輸出住宿場所數量最多的5個省份及其包含的住宿場所

數量、訂單數量和實住數量;

打印語句格式如下:

==省份:***=住宿場所數量:**個=訂單數量:**個=實住數量:

**個二二

2)使用Flask框架,結合Echarts,按照“總訂單數量”降序排

列,繪制“總訂單數量”與“實住訂單數量”的堆疊柱狀圖。

標題為“住宿場所數量Top5”,橫坐標為省份名稱,縱軸分別

表示住宿場所數量、訂單數量和實住數量

任務二:多個餅圖呈現各省份不同等級住宿場所占比

企業(yè)消費平臺為了更好地發(fā)展企業(yè)業(yè)務,向企業(yè)客戶推薦符合其

定位的協議住宿場所,需要分析上題中Top5省份的“三星級/舒適”、

“四星級/高檔”和“五星級/豪華”住宿場所以及“其它類別”住宿

場所(除上述三類外,其余類型住宿場所均歸為“其它類別”)的占

比情況。請根據指定表中數據,以指定圖例進行呈現。

詳細描述:

請根據數據庫中相關數據集中省份、星級等相關字段統計各省份

不同等級住宿場所的占比,繪制多個餅圖。

具體任務要求:

1)根據表格相關字段分別統計上題Top5省份不同星級住宿

場所的占比,打印輸出各省份名稱以及各星級住宿場所的占比

情況;

打印語句格式如下:

==省份:A=舒適型住宿占比:**===

==省份:A=高檔型住宿占比:**===

==省份:A=豪華型住宿占比:**===

==省份:B=舒適型住宿占比:**===

==省份:B=高檔型住宿占比:**===

==省份:B=豪華型住宿占比:**===

2)使用Flask框架,結合Echarts在組合圖中繪制多個餅圖,

每個省份各星級住宿場所占比情況分別用一個餅圖進行呈現,

將可視化結果截圖并保存。

任務三:柱狀圖呈現城市出租率

出租率是反映住宿場所經營狀況的一項重要指標,它是已出租的

客房數與住宿場所可以提供租用的房間總數的百分比。住宿場所出租

率的情況可以在一定程度上反應出該住宿場所的整體運營的情況,為

了更好的分析指定住宿場所的入住情況,請根據相關表中數據完成出

租率分析,通過指定圖例進行呈現。

詳細描述:

請以數據庫中相關表格為數據源,分析并統計各省住宿場所出租

率,使用柱狀圖表達。

具體任務要求:

1)提取表格相關字段,在控制臺按照“各省住宿場所出租率”

降序排列,打印輸出各省名稱及包含的住宿場所數量以及出

租率;

打印語句格式如下:

==1.***省=住宿場所數為***個=出租率為:***===

==2.***省=住宿場所數為***個=出租率為:***===

2)使用Flask框架,結合Echarts繪制柱狀圖。柱狀圖主標題

為“各省住宿場所出租率”(字體要求:紅色、加粗、斜體),

副標題為出租率前十的省份;縱坐標為出租率,橫坐標為省

份名稱(按照出租率降序排列);將可視化結果截圖并保存。

任務四:折線圖呈現連鎖住宿場所出租率

一些全國連鎖的住宿場所品牌通常都具有全國統一的品牌形

象識別系統、全國統一的會員體系和營銷體系、價格相比較很有

優(yōu)勢符合大眾化消費。連鎖品牌無論在裝修、服務還是信譽上都

有較大的競爭優(yōu)勢,所以連鎖品牌的住宿場所是出差、旅游住宿

的好選擇。但是由于三線城市會員流動差、高素質管理人員相對

短缺、營銷環(huán)境與消費特點的差異等問題,一些已經成熟住宿場

所管理模式在三線城市可能并不受用,甚至會出現水土不服的現

象。請根據現有數據及給定參數,統計指定連鎖住宿場所的經營

狀況,并以指定圖例進行呈現。

詳細描述:

1)數據庫中相關表已保存了指定地區(qū)的某連鎖住宿場所的銷售

信息。請根據地區(qū)劃分,統計題中某連鎖住宿場所的出租率

(保留6位小數),并以折線圖呈現;

2)要求統計以下指定地區(qū)住宿場所相關信息,指定地區(qū)包括:

東北、華北、華東、華中、西北、西南、華南;

3)指定地區(qū)省份映射表,如表1。

表1:地區(qū)省份映射表

地區(qū)省份

華東地區(qū)山東、江蘇、安徽、浙江、江西、福建、上海

華南地區(qū)廣東、廣西、海南

華中地區(qū)湖北、湖南、河南

華北地區(qū)北京、天津、河北、山西、內蒙古

西北地區(qū)寧夏、新疆、青海、陜西、甘肅

西南地區(qū)四川、云南、貴州、西藏、重慶

東北地區(qū)遼寧、吉林、黑龍江

具體任務要求:

1)根據表格相關字段分別統計某連鎖住宿場所在各地區(qū)的出租

率(保留6位小數),在控制臺按照“出租率”降序排列,打

印輸出各地區(qū)名稱以及出租率;

打印語句格式如下:

==1.***地區(qū),出租率為***===

==2.***地區(qū),出租率為***===

2)使用Flask框架,結合Echarts繪制折線圖,主標題為“指

定地區(qū)的住宿場所出租率”(字體要求:紅色、加粗、斜體),

副標題為“某連鎖住宿場所的出租率”,縱坐標為出租率,橫

坐標為地區(qū);輸出折線圖,將可視化結果截圖并保存。

任務五:條形統計圖呈現各省直銷拒單率

企業(yè)消費平臺是住宿場所營銷的主要途徑之一,不僅降低銷售成

本,同時也提高了顧客體驗滿意度。當顧客通過企業(yè)消費平臺進行住

宿場所預訂時,住宿場所就擁有了用戶的相關數據。通過這些數據,

能夠更好地收集用戶需求,從而可以提供更有針對性和個性化的服務,

最終能夠產生更多的忠誠會員并帶來更多訂單。但企業(yè)消費平臺銷售

也存在用戶拒單等情況,拒單原因有很多:例如,平臺信息不同步,

信息更新不及時;分銷層次過多,導致無法及時查證訂單;住宿場所

違反企業(yè)消費規(guī)則擅自以低價讓客戶取消訂單,這種情況又叫做“切

單”。企業(yè)消費平臺需要統計用戶訂單的分布情況,以此發(fā)現平臺缺

陷及用戶、商家的行為模式,企業(yè)消費平臺據此調整營銷策略。根據

現有數據統計訂單數據,并以指定圖例進行呈現。

詳細描述:

請根據數據庫中相關數據集中統計各省直銷拒單率,以直銷拒單

率降序排列,并繪制條形統計圖。

具體任務要求:

1)根據表格相關字段分別統計各省份的直銷拒單率(保留6位小

數),在控制臺按照“直銷拒單率”降序排列,打印輸出各省

名稱以及直銷拒單率;

打印語句格式如下:

==1.***省,直銷拒單率為***===

==2.***省,直銷拒單率為***===

2)使用Flask框架,結合Echarts繪制直銷拒單率最高的5個省

份條形圖,主標題為“直銷拒單率最高的5個省份”(字體要

求:紅色、加粗、斜體),縱坐標為省份名稱,橫坐標直銷拒

單率;輸出條形圖,將可視化結果截圖并保存。

任務六:多線雷達圖呈現各省份住宿場所綜合情況

企業(yè)銷售平臺需要綜合評判一個城市住宿場所運營情況,會涉及

到多方面住宿場所數據,例如像高端住宿場所數量、訂單數量、住客

評分、評論數量、出租率等信息,請根據指定表中數據統計相關數據,

并以指定圖例進行呈現。

詳細描述:

請以數據庫中相關表格為數據源,統計北京、上海、廣東、四川、

海南各省市住宿場所的“平均評分“、“評論數“、”各省住宿場所出租

率”等綜合指標,并以多線雷達圖。

具體任務要求:

1)根據數據庫中相關表格分別統計北京、上海、廣東、四川、海

南各地平均評分、評論數、各省住宿場所出租率、直銷拒單率,

在控制臺按照“省份”名稱升序排列,打印輸出各城市住宿場

所的多項運營指標;

打印語句格式如下:

==省市:A,平均評分為:***===

==省市:A,評論數:***===

==省市:B,平均評分為:***===

==省市:B,評論數:***===

2)使用Flask框架,結合Echarts繪制多線雷達圖,標題為各省

份住宿場所綜合情況(字體要求:紅色、加粗、斜體);輸出

多線雷達圖,將可視化結果截圖并保存。

模塊E:綜合分析(20分)

假定你為企業(yè)消費平臺的管理者,在綜合理解住宿場所業(yè)務數據

的基礎上,通過以上模塊A、B、C、D的相關結論,對未來拓展合作

住宿場所方向做出預測,根據題目要求進行分析,并編寫輸出分析報

告。

根據上述任務中的結論,分析以下內容,并編寫分析報告。從住

宿場所分布維度進行分析,結合多省份住宿場所綜合運營情況,對企

業(yè)消賽平臺未來拓展合作住宿場所的方向提出建議。

分析報告要求:

任務一:通過數據及圖示分析指定省市運營情況

結合平臺相關數據文件,根據北京、上海、四川、廣東、海南各

省份住宿場所的直銷拒單率和出租率的條形圖,說明幾個省份住宿場

所的綜合運營情況。分別以文字描述和圖例進行說明;

任務二:對通過圖示和計算業(yè)務分析原因

結合模塊D可視化分析對某連鎖住宿場所在不同地區(qū)的住宿場

所出租率的統計,說明影響住宿場所出租率的原因可能有哪些?對于

提高該連鎖住宿場所的出租率,您有哪些建議?分別以文字描述和圖

例進行說明;

任務三:對企業(yè)消費平臺未來拓展合作建議和意見

1)對企業(yè)消費平臺未來拓展合作住宿場所的方向提出建議(不少

于3條建議),請在報告中進行說明。

附錄:補充說明

一、json數據格式樣例

{"name":"南京國美家庭旅社公寓南林店","detail":{"SEQ":

"nanjing」O16","國家":"中國","省份":"江蘇","城市":"南京","處于

商圈":"鎖金村地區(qū)玄武湖地區(qū)中山陵景區(qū)","是否為客棧":0,"住宿場所星

級":"二星及其他","業(yè)務部門":"低星","剩余房間":8,"圖片數":0,"住

宿場所評分":"1","用戶點評數":1,"城市平均實住間夜":"51.701686747","

住宿場所總訂單“:0,”住宿場所總間夜":0,"住宿場所實住訂單":0,"住宿場

所實住間夜":0,"住宿場所直銷訂單":0,"住宿場所直銷間夜":0,"住宿場

所直銷實住訂單":0,"住宿場所直銷實住間夜":0,"住宿場所直銷拒單":0,"

住宿場所直銷拒單率":null,"城市直銷拒單率":"0.0282838180927","拒單率

是否小于等于直銷城市均值":0,"最低房間價格":"306"}}

二、fastjsonT.2.41.jar常用API(java)

1、實例化

JSONObject();

2、JSON解析包

com.alibaba.fastjson.JSON;

com.alibaba.fastjson.JSONObject;

com.alibaba.fastjson.JSONArray;

com.alibaba.fastjson.JSONException;

3、常用API方法:

1)publicstaticfinalObjectparse(Stringtext);//把JSON文本

parse為JSONObject或者JSONArray

2)publicstaticfinalJSONObjectparseObject(Stringtext);//把

JSON文本parse成JSONObject

3)publicstaticfinalTparseObject(Stringtext,Classclazz);//

把JSON文本parse為JavaBean

4)publicstaticfinalJSONArrayparseArray(Stringtext);〃把

JSON文本parse成JSONArray

5)publicstaticfinalListparseArray(Stringtext,Classclazz);

〃把JSON文本parse成JavaBean集合

6)publicstaticfinalStringtoJSONString(Objectobject);//將

JavaBean序列化為JSON文本

7)publicstaticfinalStringtoJSONString(Objectobject,boolean

prettyFormat);//將JavaBean序列化為帶格式的JSON文本

8)publicstaticfinalObjecttoJSONCObjectjavaObject);將JavaBean

轉換為JSONObject或者JSONArrayo

三、fastjson-1.2.41.jar常用API[Spark

(scala)]

1、json解析包

com.alibaba.fastjson.JSON

2、常用API

1)實例化:

JSON.parseObject(x)

2)默認值:如果該key沒有值默認為null:

jsonObject.getOrDefault(key,默認值)

jsonObject.getOrDefault("name",

3)獲取該key的value值

jsonObject.get(json的key)

jsonObject.get("name")

4)判斷key是否存在

jsonObject.containsKey(key)

5)添加kv鍵值對

jsonObject.put(key,value)

四、控制臺輸出運行日志樣例

9/06/0308:04:21IXFOhandier.Context(Lindier:Stoppedo.s.S一(*rv?!vtC一oQtextHandler*l0fde30一a‘;null.l:\AVAll.ABLi?

9/06/0308:04:21"F。handler.ContextHandler:Stoppedo.s.Sen'lclContcxtlLuidlcr<3383(>19cstatic,nulUNAVAILABLE

9/060308:04:21INFOhandler.C<x)IextHandler:Stoppedas.ServletConlex!HandierC533377h:e?xecutorsthreadDunp/json,nulI.lrNAVAII.ABI.E,

9/06.0308:04:21IXFOhandler.CfHitcitHandlcr:Stoppedo.s.ScnletCoatextllandlertil9a20utiexecutorsthrcadDunp.null,INAVAlLABLEi

9.060308:01:21INFOhandler.ContexdlandIcr:Stoppedas.Scr\'lctCantextlhndIcr1673S9cb8uKcculor5zjson,null,INAVAILABI.E1

19/06/0308:04:21IVF0handler.ContextlkuMilcr:Stoppedo.s.ServletContextllandlcr*65aa6596:executors,nulI,liNAVAlLKRI-E;

19/06/0308:04:21INFOhandler.Contcxlllandlcr:Stoppedas.ScnlctContcxdlandlcrf2c7dl21c1environnent/j?on.null,UNAVAlLABLEr

19/06/0308:04:21INFOhandler.Contextlkindler:Stoppedo.s.Serv1vtContextHitudIcr?34625ccd.,/environnetit,nul!,VNAVAILAB1.E)

19/06/0308:04:21INFOhandler.Conlextlkindler:Stoppedo.s.SenlctContextHandlerfTeSraafe(,zstoraKe/rdd/json,nulI,UNAVAILABLE)

19/06/0308:04:21INH)handler.Conlcxtlkinciler:Sloppedo.s.SvrvletConlcxtlIdndlert24Mb479!/stonwj/rdd,nuH,UNAVAILABLE)

1906/0308:01:21INFOhMKllei*.CoritextlLindler:St?“)pcd?).s.Serv)vtGKIIextl|.u)d1rrt127l)5f92zstorHge/json.nuIIJ、AYA11ABI.F:

3/06/0308:04:21|\!!-handler.Contexdlandler:Stoppedo.s.SenlctContextlknd!er#lddae9b5'大1。3,null.UNAVAILABLE

9/060308:04:21INFOhandler.ContexilLuwller:Sloppedas.ServletContextllandleit42f3156d?'St??es-zpoo1/json.nuH.llNAVAILABLE)

9060308:04:21|\F。hand]er.ContcxtHandIer:Stofipedo.g.Serv!e【ContexiHandler#ld7f7hc7{,stages/pool.null.UNAVAILABLE)

9/06/030S:0!:2lIXFOhandler.Cortex[Handler:Stoppedo.s.ScnleiContextllandler<5860t3d7?^trtKcs/stagc/jsan.null.UNAVAILABLE)

0308:04:2!INFOhandler.Cunlex【Handler:Stoj)pedas.Serv1e!CentextHandIer*6a66n20411'&tages/stage.null.INAVAILABLE

0308:04:21INFOhandler.ContcxiHandlcr:Stoppedo.J.s.Son^lcxContcxtllandkrfIle3760b;stages7json,null.INAVAILABLE

0308:04:21l\F0handler.Contextilandler:Slottedo.s.Scn'letContejitllandlertMe5l7i65;/stages,null,UNAVAILABLE

0308:04:21INFOhandler.ConlcxHlundler:Stoppedo.s.ScnletCoinextliandlcr#2cb3d0f"!jobsjobjson,null.INAVAILABLE

0308:04:21INFOhandler.ContextHandler:Stoppedo.j.s.Scn'lctContextllandlcr<2clO'177-1/jobs/job.nulLlXAVAlLABLE

19/06/0308:04:21IXFOhandler.CofilcxiHuKlIcr:Stoppedo.j.s.SetvletC<MJtextHrtndlerl6f0fa692:‘Jobs,json.nul1,INAVAILABiJ!

19/06/0308:04:21INFOhandler.ContcxtUandlcr:,_________j.s.Scn'lctContcxtHandlcrtlbaSS'lbO[/jobs.nullJMYAlLAB出

五、方差、均方根差的定義

1、方差MSE:概率論中方差用來度量隨機變量和其數學期望(即均值)之間的

偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數

之差的平方值的平均數。

2、均方根差RMSE:均方根誤差,是觀測值與真值偏差的平方和觀測次數n比值

的平方根。RMSE是計算觀測值與其真值,或者觀測值與其模擬值之間的偏差。

六、間夜定義

間夜又稱間夜數,是住宿場所在某個時間段內,房間出租率的計算單位。例

如20間房入住2晚,為40間夜數。

七、出租率計算公式

出租率=當月發(fā)生的總間夜數/當月所能提供的總房間數

八、線性回歸預測數據源

data_accommodation_mu11.csv字段名

SEQ、省份、城市、商圈、是否為客棧、星級、房間數、評論數、平均評分

數、城市平均間夜、住宿場所總訂單、住宿場所總間夜、住宿場所實住訂單、住

宿場所實住間夜、住宿場所直銷訂單、住宿場所直銷實住訂單、住宿場所直銷間

夜、住宿場所直銷實住間夜、城市直銷拒單、城市直銷拒單率、住宿場所企業(yè)消

費平臺實住訂單

九、數據可視化表字段說明

表radar_lines

province省份

accommodati

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論