2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項賽題)_第1頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項賽題)_第2頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項賽題)_第3頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項賽題)_第4頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項賽題)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2021年全國職業(yè)院校技能大賽

高職組

“大數(shù)據(jù)技術(shù)與應(yīng)用”

賽項賽卷(GZ-xxxxxxx-X卷)

務(wù)

參賽隊編號:

背景描述

據(jù)央視財經(jīng)報道,2020年我國020市場規(guī)模突破萬億元,020市

場存在著巨大的潛力。特別是餐飲和外賣行業(yè),占據(jù)市場較大份額,

并且業(yè)務(wù)增長迅速。截至2020年底,全國外賣總體訂單量已超過

171.2億單,同比增長7.5%,全國外賣市場交易規(guī)模達(dá)到8352億元,

同比增長14.8%o我國外賣用戶規(guī)模已接近5億人,其中80后、90

后是餐飲外賣服務(wù)的中堅消費力量,消費者使用餐飲外賣服務(wù)也不再

局限于傳統(tǒng)的一日三餐,下午茶和夜宵逐漸成為消費者的外賣新寵。

為把握這一商業(yè)機(jī)遇,ChinaSkills公司計劃進(jìn)駐外賣平臺市場,現(xiàn)

需對大規(guī)模成熟外賣平臺進(jìn)行詳細(xì)評估調(diào)研,采集多方多維度數(shù)據(jù),

尋找行業(yè)痛點,摸清市場需求,以技術(shù)為手段為投資保駕護(hù)航。

為完成該項工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),以Python、

Java、Scala作為整個項目的基礎(chǔ)開發(fā)語言,基于大數(shù)據(jù)平臺綜合利

用MapReduce>Spark、MySQL、Scrapy、Flask、ECharts等,對數(shù)據(jù)

進(jìn)行獲取、處理、清洗、挖掘、分析、可視化呈現(xiàn),力求實現(xiàn)對公司

未來的重點戰(zhàn)略方向提出建議。

你們作為該小組的技術(shù)人員,請按照下面任務(wù)完成本次工作,并

編制綜合報告。

模塊A:環(huán)境搭建(15分)

環(huán)境說明:

編號主機(jī)名類型用戶密碼

1master主節(jié)點rootpasswd

2slavel從節(jié)點rootpasswd

3slave2從節(jié)點rootpasswd

補(bǔ)充說明:主節(jié)點MySQL數(shù)據(jù)庫用戶名/密碼:root/Passwordl23$

相關(guān)軟件安裝包在/chinaskills目錄下

所有模塊中應(yīng)用命令必須采用絕對路徑

任務(wù)一:Hadoop全分布部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境。

命令中要求使用絕對路徑,具體部署要求如下:

1、將/chinaskills下的JDK包解壓到/usr/local/src路徑,將完整命令復(fù)制

粘貼到對應(yīng)報告中;

2、修改/root/.bash_profile文件,設(shè)置JDK環(huán)境變量,并使環(huán)境變量只對當(dāng)

前root用戶生效將環(huán)境變量配置內(nèi)容復(fù)制粘貼至對應(yīng)報告中;

3、從master復(fù)制上面步驟配置的JDK環(huán)境變量文件到slavel、slave2節(jié)點,

命令和結(jié)果復(fù)制粘貼在對應(yīng)報告中;

4、配置SSH密鑰登錄,實現(xiàn)從master登錄到slavel,將登錄命令和結(jié)果復(fù)制

粘貼在對應(yīng)報告中;

5、根據(jù)要求修改Hadoop相關(guān)文件(hadoop-env.sh,core-site,xml,

hdfs-site.xml,mapred-site.xml、yarn-site,xml),并初始化Hadoop。

1)將配置文件hadoop-env.sh變更內(nèi)容復(fù)制粘貼在對應(yīng)報告中;

2)將配置文件core-site.xml變更內(nèi)容復(fù)制粘貼在對應(yīng)報告中;

3)初始化Hadoop環(huán)境,將命令及結(jié)果復(fù)制粘貼在對應(yīng)報告中;

6、查看master及slavel節(jié)點jps進(jìn)程,將其命令及結(jié)果復(fù)制粘貼至對應(yīng)報告

中。

任務(wù)二:Sqoop部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)

境,具體部署要求如下:

1、解壓/chinaskills路徑下的Sqoop安裝包到/usr/local/src路徑下,并使

用相關(guān)命令,修改解壓后文件夾名為sqoop,進(jìn)入sqoop文件夾,并將查看

內(nèi)容復(fù)制粘貼至對應(yīng)報告中;

2、修改Sqoop環(huán)境變量,并使環(huán)境變量只對當(dāng)前root用戶生效;具體任務(wù)要

求:修改基于當(dāng)前用戶root的環(huán)境變量,將環(huán)境變量配置內(nèi)容復(fù)制粘貼至

對應(yīng)報告中;

3、修改并配置sqoop-env.sh文件,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中;

4、測試Sqoop連接MySQL數(shù)據(jù)庫是否成功,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告

中。具體任務(wù)要求:使用sqoop命令連接MySQL數(shù)據(jù)庫,查詢MySQL中所有

數(shù)據(jù)庫名稱,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中;

任務(wù)三:Hive部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)

境,具體部署要求如下:

1、將指定路徑下的Hive安裝包解壓到(/usr/local/src)下,使用絕對路徑,

將命令復(fù)制并粘貼至對應(yīng)報告中;

2,把解壓后的apache-hive-1.1.0-bin文件夾更名為hive;進(jìn)入hive文件夾,

并將查看命令及結(jié)果復(fù)制并粘貼至對應(yīng)報告中;

3、設(shè)置Hive環(huán)境變量,并使環(huán)境變量只對當(dāng)前root用戶生效;并將環(huán)境變量

配置內(nèi)容復(fù)制并粘貼至對應(yīng)報告中;

4、將Hive安裝目錄里hive-default,xml.template文件更名為hive-site,xml;

并將更改命令復(fù)制并粘貼至對應(yīng)報告中;

5、通過VI編輯器配置hive-site,xml文件,將MySQL數(shù)據(jù)庫作為Hive元數(shù)據(jù)

庫。將配置文件Hive元存儲相關(guān)內(nèi)容復(fù)制并粘貼至對應(yīng)報告中;

6、初始化Hive元數(shù)據(jù),將MySQL數(shù)據(jù)庫JDBC驅(qū)動拷貝到Hive安裝目錄的lib

文件夾下;并通過schematool執(zhí)行初始化,將初始化結(jié)果復(fù)制粘貼至對應(yīng)報

告中;

7、啟動Hive并保存命令輸出結(jié)果,將結(jié)果輸出復(fù)制粘貼至對應(yīng)報告中。

模塊B:數(shù)據(jù)采集與處理(20分)

項目背景說明

1、查看餐飲外送統(tǒng)計平臺網(wǎng)站源碼結(jié)構(gòu)。

1)打開網(wǎng)站,在網(wǎng)頁中右鍵點擊檢查,或者F12快捷鍵,查看

源碼頁面;

2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。

2、從餐飲外送統(tǒng)計平臺中采集需要數(shù)據(jù),按照要求使用Python語言

編寫代碼工程,獲取指定數(shù)據(jù)項,并對結(jié)果數(shù)據(jù)集進(jìn)行必要的數(shù)

據(jù)處理。請將符合任務(wù)要求的結(jié)果復(fù)制粘貼至對應(yīng)報告中。

具體步驟如下:

1)創(chuàng)建工程工程項目:C:\food_delivery

2)構(gòu)建采集請求

3)按要求定義相關(guān)字段

4)獲取有效數(shù)據(jù)

5)將獲取到的數(shù)據(jù)保存到指定位置

6)對數(shù)據(jù)集進(jìn)行基礎(chǔ)的數(shù)據(jù)處理

至此已從餐飲外送統(tǒng)計平臺中獲取所需數(shù)據(jù),并完成了必要的基

礎(chǔ)的數(shù)據(jù)處理。

3、自行創(chuàng)建Scrapy工程項目food_delivery,路徑為C:\

food_delivery按照任務(wù)要求從餐飲外送統(tǒng)計平臺中獲取數(shù)據(jù)。

提取“商戶數(shù)據(jù)”頁面相關(guān)字段(包括平臺餐廳ID、餐廳名稱、

城市等全部有效數(shù)據(jù)項),保存至文件restaurant_data.json;

再提取“配送平臺灰測維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù)(包括餐廳名稱、

城市、營業(yè)時長等全部字段)保存至文件grey_test.json。

4、每條數(shù)據(jù)記錄請以單獨一行保存,信息存儲格式為key:value。

文件保存路徑為:C:\outputo

示例:

{firrest._i,dj:n*.*.*.n,irrest._namen:ir*,*,*,ir,....)],

{fIIrest,_i,dJH:IF*..*.*IF,IFrest._nameII:It*.*,*,,...)],

5、任務(wù)中要求將“以下內(nèi)容及答案完整復(fù)制粘貼至對應(yīng)報告中

粘貼到對應(yīng)報告中的內(nèi)容示例如下:

配送范圍審核相關(guān)數(shù)據(jù)頁數(shù)為:100

灰度數(shù)據(jù)對比相關(guān)數(shù)據(jù)頁數(shù)為:100

任務(wù)一:爬取指定數(shù)據(jù)頁面

自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取“P0I數(shù)據(jù)”頁面與“灰度數(shù)據(jù)對

比”頁面相關(guān)數(shù)據(jù),通過爬蟲代碼分頁爬取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包

含的頁數(shù)并將一下內(nèi)容及答案完整復(fù)制粘貼至對應(yīng)報告中。

示例格式:

P0I數(shù)據(jù)的頁數(shù)為:

灰度數(shù)據(jù)對比相關(guān)數(shù)據(jù)的頁數(shù)為:

任務(wù)二:爬取數(shù)據(jù)至指定文件

運行代碼,爬取網(wǎng)頁數(shù)據(jù)至指定文件。查看文件并填寫采集到的記錄條數(shù),

并將答案復(fù)制粘貼至對應(yīng)報告中。

示例格式:

POI.json的行數(shù)為:

grey_value.json的行數(shù)為:

任務(wù)三:各商家“30天銷量’數(shù)據(jù)處理

POLjson文件中,“商家id”字段值重復(fù)的樣本,請以多條樣本記錄的“30

天銷量”屬性均值作為該屬性的值,并刪除多余樣本。請在PyCharm控制臺打印

輸出刪除的樣本條數(shù),并將打印語句復(fù)制粘貼至對應(yīng)報告中。

示例格式:

===因重復(fù)樣本記錄,刪除樣本條數(shù)為***條===

任務(wù)四:數(shù)據(jù)探索

針對爬取的grey_value數(shù)據(jù),利用DataFrame.describe方法探索數(shù)據(jù)基本

情況,將數(shù)據(jù)基本情況復(fù)制粘貼至對應(yīng)報告中。

任務(wù)五:缺失值統(tǒng)計

針對缺失值較多的屬性“推單數(shù)-8日”,“有效完成率-8日”,“超時率-8日”,

請分別計算下列任務(wù),并將正確結(jié)果復(fù)制粘貼至對應(yīng)報告中。

(1)屬性”推單數(shù)-8日''空值記錄條數(shù)為:,中位數(shù)為:。

(2)屬性''有效完成率-8日”空值記錄條數(shù)為:,平均值為:。

(3)屬性“超時率-8日”空值記錄條數(shù)為:,平均值為:。

(4)請根據(jù)計算結(jié)果,對數(shù)據(jù)集中存在空值的字段進(jìn)行填充。查看填充后的數(shù)

據(jù)集前5條記錄,將查看結(jié)果復(fù)制粘貼至對應(yīng)報告中。

任務(wù)六:日志輸出

將Scrapy日志(日志等級設(shè)置為INFO)以時間命名輸出至路徑:C:\

food_delivery\output,并將日志內(nèi)容復(fù)制粘貼至對應(yīng)報告中。

模塊C:數(shù)據(jù)清洗、分析與挖掘(25分)

項目背景說明

餐飲外賣平臺的核心價值體現(xiàn)在配送,而配送的價值則依賴于商

家與客戶的雙向選擇。外賣平臺通常會通過內(nèi)容激活消費者和商家兩

個群體的活躍度。消費者會參考平臺展示的內(nèi)容選擇商家,商家也會

以消費者評價與平臺統(tǒng)計數(shù)據(jù)為依據(jù)調(diào)整策略,由此再吸引更多的用

戶下單、評論、形成正向循環(huán)。保證配送的時效與品質(zhì)是從優(yōu)化用戶

體驗的角度,吸引更多的用戶參與,進(jìn)而帶動商家不斷入駐。由此,

商家、消費者、騎手在平臺上形成越來越多的真實可靠的數(shù)據(jù),幫助

消費者更好的做出消費決策,同時促進(jìn)商家提高服務(wù)質(zhì)量。而平臺通

過數(shù)據(jù),不斷調(diào)整優(yōu)化服務(wù),從而不斷提升這種多邊網(wǎng)絡(luò)效應(yīng)。提升

網(wǎng)絡(luò)效應(yīng)的直接結(jié)果就是用戶和商家規(guī)模大幅提升,進(jìn)而形成規(guī)模效

應(yīng)一一降低獲客成本、提高效益,并且不斷提升自己的行業(yè)壁壘。

為探索各大外賣平臺的市場策略與經(jīng)營模式,現(xiàn)已從及平臺獲取

到了原始數(shù)據(jù)集,包含“id,request_id,walle_id,retailer_id,

retailer_name,retailer_address,etailer_location,city_id,

city_name,grid_id,carrier_id,team_id,applicant_id,

applicant_name,first_auditor_role,

first_auditor_candidate_ids,first_auditor_id,

first_auditor_name,second_auditor_ro1e,

second_auditor_candidate_ids,second_auditorpid,

second_auditor_name,status,max_distance_before_edit,

min_distance_before_edit,max_distance_after_edit,

min_distance_after_edit,area_before_edit,area_after_edit,

created_at,updated_at,申請時間,創(chuàng)建時間”等字段,為保障用

戶隱私和行業(yè)敏感信息,已經(jīng)對數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對某些敏感

信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。

在涉及客戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,對真實數(shù)據(jù)進(jìn)

行改造并提供測試使用,如身份證號、手機(jī)號等個人敏感信息都需要

進(jìn)行數(shù)據(jù)脫敏。本題已將脫敏后的數(shù)據(jù)存放于平臺對應(yīng)任務(wù)

/chinaskills目錄下。工程所需配置文件pom.xml存放于"C:\清洗

配置文件”。任務(wù)中所有命令務(wù)必使用絕對路徑。

任務(wù)一:數(shù)據(jù)清洗

子任務(wù)1

任務(wù)背景:

數(shù)據(jù)源為眾多網(wǎng)站及平臺的數(shù)據(jù)匯總,且為多次采集的結(jié)果,在整合多來源

數(shù)據(jù)時可能遇到數(shù)據(jù)沖突,或數(shù)據(jù)拼接導(dǎo)致的屬性列矛盾或冗余等情況。請根據(jù)

任務(wù)具體參數(shù)要求,針對原始數(shù)據(jù)集進(jìn)行清洗,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,

復(fù)制并保存結(jié)果。

任務(wù)描述:

相關(guān)數(shù)據(jù)源文件存放于平臺對應(yīng)任務(wù)/chinaskills目錄下,請參考模塊C

中列舉的各項字段,按照如下要求編寫Spark程序?qū)?shù)據(jù)進(jìn)行清洗,并將結(jié)果輸

出/diliveryoutputl。

1)分析/chinaskills/中數(shù)據(jù)文件

2)查看屬性字段數(shù)量異常數(shù)據(jù)條目

3)程序打包并在Spark平臺運行,結(jié)果輸出至HDFS文件系統(tǒng)

/diliveryoutputl

具體任務(wù)要求:

1、將相關(guān)文件上傳至HDFS新建目錄/platform_data中,編寫Spark程序,剔

除屬性列與首行屬性名稱個數(shù)不相符的數(shù)據(jù)條目,并在程序中以打印語句輸出異

常條數(shù)。將打印輸出結(jié)果復(fù)制并保存至對應(yīng)報告中。(復(fù)制內(nèi)容需包含打印語句

輸出結(jié)果的上下各5行運行日志)。

示例格式:

===屬性列數(shù)目異常數(shù)據(jù)條數(shù)為***條===

2、程序打包并在Spark平臺運行,將剔除異常數(shù)據(jù)后的結(jié)果數(shù)據(jù)集輸出至HDFS

文件系統(tǒng)/diliveryoutputl。并查看輸出文件前10行,將查看命令與執(zhí)行結(jié)果

復(fù)制粘貼至對應(yīng)報告中。

子任務(wù)2

任務(wù)背景:

數(shù)據(jù)的維數(shù)是指數(shù)據(jù)具有的特征數(shù)量,數(shù)據(jù)特征矩陣過大,將導(dǎo)致計算量

比較大,訓(xùn)練時間長的等問題。當(dāng)數(shù)據(jù)存在冗余屬性時,對多余屬性剔除的過程,

稱為“數(shù)據(jù)降維”。降維的好處十分明顯,它不僅可以數(shù)據(jù)減少對內(nèi)存的占用,

還能夠加快學(xué)習(xí)算法的執(zhí)行與收斂。請根據(jù)任務(wù)具體要求,針對原始數(shù)據(jù)集中可

能存在的冗余屬性進(jìn)行排查,復(fù)制并保存結(jié)果。

任務(wù)描述:

相關(guān)數(shù)據(jù)源文件存放于平臺/chinaskills,請參考模塊C中列舉的各項字段,

判斷屬性“申請時間”、“創(chuàng)建時間”與“createdat"、“updated_at”是否為

重復(fù)屬性。請按照如下要求編寫Spark程序?qū)?shù)據(jù)進(jìn)行清洗,并將結(jié)果輸出

/diliveryoutputlo

1)分析/chinaskills/中數(shù)據(jù)文件

2)排除屬性列“申請時間”、“創(chuàng)建時間”與“created_at“、“updateLat”

是否為重復(fù)屬性

3)程序打包并在Spark平臺運行

具體任務(wù)要求:

3、將相關(guān)文件上傳至HDFS新建目錄/platform_data中,查看原始數(shù)據(jù)集條數(shù),

請將查看命令及結(jié)果復(fù)制并粘貼至對應(yīng)報告中。

4、如果僅考慮年、月、日數(shù)據(jù),忽略時刻信息,''申請時間”、“創(chuàng)建時間”與

“created_at"、"updated_at"是否為重復(fù)屬性?請編寫Spark程序,并在程

序中以打印語句輸出兩對屬性對應(yīng)相等的數(shù)據(jù)條數(shù)。將打印輸出結(jié)果以及你的結(jié)

論復(fù)制并粘貼至對應(yīng)報告中。(復(fù)制內(nèi)容需包含打印語句輸出結(jié)果的上下各5行

運行日志)。

示例格式:

===兩組屬性同時相等的數(shù)據(jù)條數(shù)為***條===

結(jié)論:"申請時間"、“創(chuàng)建時間"與"created_at"、“updated_at”(是/不是)

重復(fù)屬性。

如果數(shù)據(jù)相等的比例超過原始數(shù)據(jù)集的90%,則剔除屬性"created_at”與

“updated_at”,并將結(jié)果數(shù)據(jù)集保存至/diliveryoutput2。

任務(wù)二:數(shù)據(jù)挖掘分析

任務(wù)背景:

外賣的配送范圍一般由外賣平臺的業(yè)務(wù)人員為商家設(shè)定,商家也可以根據(jù)實

際情況向平臺申請修改配送范圍。在申請配送范圍修改時,審核員將考慮實際道

路限制、綜合運力成本、顧客等待時長等因素,對配送范圍變更的申請進(jìn)行考量,

最終做出通過/拒絕/駁回的結(jié)果判定。一級審核員通常為該地區(qū)的渠道經(jīng)理,針

對運力等綜合因素對審核記錄進(jìn)行考量;二級審核員為外賣平臺專職審核人員,

將綜合考慮配送范圍的合理性及更改后的用戶體驗??己藛T的審核具有一定的時

效要求,審核效率直接影響合作商家平臺活躍性以及商家的合作體驗。下面請根

據(jù)任務(wù)具體要求,分析范圍審核相關(guān)數(shù)據(jù)。

任務(wù)描述:

請根據(jù)你的數(shù)據(jù)清洗4、(任務(wù)數(shù)字)的結(jié)論選擇數(shù)據(jù)源(/diliveryoutputl

或/diliveryoutput2),編寫Spark程序,按照如下要求實現(xiàn)對數(shù)據(jù)的分析,并

將結(jié)果輸出至HDFS文件系統(tǒng)中。

1)解析數(shù)據(jù)清洗任務(wù)結(jié)果數(shù)據(jù)集

2)計算配送范圍申請的審核時長

3)分析配送范圍變更幅度對審核結(jié)果的影響

4)程序打包并在Spark平臺運行,結(jié)果輸出至HDFS文件系統(tǒng)

/diliveryoutput3

具體任務(wù)要求:

1、從審核申請到審核完成的時間差為一條審核記錄的處理時長,請編寫Spark

程序,計算全部申請記錄的平均處理時長(單位為分鐘,忽略”秒”級數(shù)值),

并在程序中以打印語句輸出結(jié)果。將打印輸出結(jié)果復(fù)制并粘貼至對應(yīng)報告中。(復(fù)

制內(nèi)容需包含打印語句輸出結(jié)果的上下各5行運行日志)。

示例格式:

===平均申請?zhí)幚頃r長為***分鐘===

2、為保證用戶體驗,申請的審批應(yīng)具有時效性。公司規(guī)定在當(dāng)天18:00前遞交

的范圍審核申請,處理時間應(yīng)在12小時以內(nèi);在當(dāng)天18:00后遞交的范圍審核

申請,應(yīng)在第二天中午12:00前審核完成。請根據(jù)這一標(biāo)準(zhǔn),分別統(tǒng)計全部數(shù)

據(jù)記錄中,在18:00前/后遞交的申請超時記錄數(shù),在并在程序中以打印語句輸

出結(jié)果。將打印輸出結(jié)果復(fù)制并粘貼至對應(yīng)報告中。(復(fù)制內(nèi)容需包含打印語句

輸出結(jié)果的上下各5行運行日志)。

示例格式:

===18:00前遞交申請的記錄中,超時記錄數(shù)為***條===

===18:00后遞交申請的記錄中,超時記錄數(shù)為***條===

3、申請前后配送范圍的最大/最小距離標(biāo)識了商家配送范圍的變更幅度,請統(tǒng)計

最大配送距離或最小配送距離在申請前后變更幅度超過以下百分比數(shù)值時:40%、

50%、60%,7096、80%、90%,申請的通過率分別為多少(百分比數(shù)值保留小數(shù)點

后2位)。請在程序中以打印語句輸出結(jié)果,并打印輸出結(jié)果復(fù)制并粘貼至對應(yīng)

報告中。(復(fù)制內(nèi)容需包含打印語句輸出結(jié)果的上下各5行運行日志)。

示例格式:

==申請后最大或最小配送距離超過原始距離的40%,審核通過率為***96==

==申請后最大或最小配送距離超過原始距離的50%,審核通過率為***%==

==申請后最大或最小配送距離超過原始距離的60%,審核通過率為***%==

==申請后最大或最小配送距離超過原始距離的70%,審核通過率為***96==

==申請后最大或最小配送距離超過原始距離的80%,審核通過率為***%==

==申請后最大或最小配送距離超過原始距離的90%,審核通過率為***%==

4、統(tǒng)計各商戶的配送范圍面積(請參考申請后配送面積),在以下4個區(qū)間內(nèi)的

商戶數(shù)及占比(百分比數(shù)值保留小數(shù)點后2位):0^10,000,000(平方米),

10,000,000^20,000,000(平方米),20,000,000^30,000,000(平方米),

30,000,000(平方米)以上。請在程序中以打印語句輸出結(jié)果,并打印輸出結(jié)果

復(fù)制并粘貼至對應(yīng)報告中。(復(fù)制內(nèi)容需包含打印語句輸出結(jié)果的上下各5行運

行日志)。

示例格式:

==配送面積0~1000,0,000(平方米),商家數(shù)為****,占比***96==

==配送面積10,000,000~20,000,000(平方米),商家數(shù)為****,占比***%==

==配送面積20,000,000~30,000,000(平方米),商家數(shù)為****,占比**叔==

==配送面積30,000,000(平方米)以上,商家數(shù)為****,占比***96==

模塊D、數(shù)據(jù)可視化(20分)

MySQL數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集包含了城市、地點、商家id、網(wǎng)格

id、餐品種類、標(biāo)品屬性等多項基礎(chǔ)信息字段。請使用Flask框架,

結(jié)合Echarts完成下列任務(wù)。

數(shù)據(jù)庫賬號:takeout密碼:takeout

自行創(chuàng)建代碼工程路徑為:C:\food_dilivery

每個可視化圖中需要添加圖片作為背景水印。

任務(wù)一:雙柱狀圖呈現(xiàn)審核結(jié)果比例

任務(wù)背景:

外賣的配送范圍一般由外賣平臺的業(yè)務(wù)人員為商家設(shè)定,商家也可以根據(jù)實

際情況向平臺申請修改配送范圍。通常配送范圍并不是毫無棱角的圓形,因為這

種劃分并沒有因地制宜,是不合理的。最大配送距離指的是配送范圍中距離商家

最遠(yuǎn)的直線距離,最小配送距離則是配送范圍中距離商家最近的直線距離。在申

請配送范圍修改時,審核員將考慮實際道路限制、綜合運力成本、顧客等待時長

等因素,對配送范圍變更的申請進(jìn)行考量,最終做出通過/拒絕/駁回的結(jié)果判定。

請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出范圍審核相關(guān)分析圖例。

任務(wù)描述:

請根據(jù)數(shù)據(jù)庫相關(guān)表格數(shù)據(jù),統(tǒng)計審核通過與拒絕的范圍申請記錄數(shù)量,并

以雙柱圖表達(dá)。

具體任務(wù)要求:

1,根據(jù)相關(guān)表格中"id,Request_id,Walle_id,Retailer_id,retailer_name,

retailer_address,etailer_location,City_id,City_name,Grid_id,

Carrier_id,Team_id,Applicant_id,Applicant_name,first_auditor_role,

first_auditor_candidate_ids,first_auditor_id,first_auditor_name,

second_auditor_role,second_auditor_candidate_ids,second_auditor_id,

second_auditor_name,status,max_distance_before_edit,

min_distance_before_edit,max_distance_after_edit,

min_distance_after_edit,area_before_edit,area_after_edit,created_at,

updated_at,申請時間,創(chuàng)建時間”等字段,匯總各二級審核人審批的申請數(shù)量,

并統(tǒng)計其中通過與拒絕的條數(shù)。在PyCharm控制臺打印輸出審核記錄數(shù)最多的

10位審核人id,審批總數(shù),以及其中通過與拒絕的條數(shù),按審批總數(shù)降序排列。

示例格式:

==1.二級審核人id:***,審批數(shù)量:***條,其中通過**條,拒絕**條

==2.二級審核人id:***,審批數(shù)量:***條,其中通過**條,拒絕**條

2、使用Flask框架,結(jié)合Echarts,完成雙柱狀圖輸出。要求柱圖標(biāo)題為“審

核通過與拒絕對比”,橫坐標(biāo)為審核人id,縱坐標(biāo)為審核記錄數(shù)。畫出審核數(shù)量

最多的10位二級審核人記錄審批情況,通過記錄數(shù)以藍(lán)色柱形表示,右側(cè)以紅

色柱形表示拒絕和駁回記錄數(shù),以審批總數(shù)降序排列。將可視化結(jié)果截圖并保存

(截圖需包含瀏覽器地址欄)。

任務(wù)二:餅圖呈現(xiàn)營業(yè)區(qū)間商家數(shù)量

任務(wù)背景:

營業(yè)時長指商戶開市接單到閉市停業(yè)的時長,適當(dāng)?shù)卦黾訝I業(yè)時長有利于提

升店鋪的曝光量,同時能夠在一定程度上獲得平臺排名加權(quán)。營業(yè)時間長的店鋪

在特定時間段(大部分商家關(guān)店休息后)面對的競爭壓力將減小,但增加營業(yè)時

間將增加商家運營店鋪的人工成本,同時也需要考慮不同時間段內(nèi)運力不同的情

況,例如有些區(qū)域在晚上12點以后無法配送。請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定

要求,輸出營業(yè)時間相關(guān)分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計平臺各商家的營業(yè)時間占比,并餅圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考“餐廳id,餐廳名稱,所屬城市,營業(yè)時長,餐廳狀態(tài),

是否托管,總單量,總單量增長率,有效訂單量,有效訂單增長率,訂單配送成

功率,超時訂單率,無效訂單率,平均預(yù)計送達(dá)時長,平均實際配送時長,當(dāng)前

配送面積,面積變更值,網(wǎng)格id,網(wǎng)格名稱,戰(zhàn)營”等字段,統(tǒng)計4小時以內(nèi)、

4飛小時、6-8小時、8~12小時、12小時以上,5個區(qū)間段內(nèi)平臺各商家的營業(yè)

時間占比(區(qū)間取值為前閉后開區(qū)間)。請在PyCharm控制臺以區(qū)間商家數(shù)量降

序打印輸出城市名稱,商家數(shù)量。

示例格式:

==區(qū)間”4小時以內(nèi)”,商家***個===

==區(qū)間”4~6小時”,商家***個===

2、使用Flask框架,結(jié)合Echarts,完成餅圖輸出。標(biāo)題為“各營業(yè)區(qū)間商家

數(shù)量對比”,順時針顯示次序與打印語句數(shù)據(jù)一致。將可視化結(jié)果截圖并保存(截

圖需包含瀏覽器地址欄)。

任務(wù)三:柱狀圖呈現(xiàn)超時訂單率

任務(wù)背景:

網(wǎng)格化營銷是近年來新興的一種營銷管理模式,已被廣泛地運用于市場精準(zhǔn)

營銷。在市場營銷中,采取地圖營銷、網(wǎng)格管理、精準(zhǔn)策略等,可將客戶的心理

需求與其日常生活緊密地聯(lián)系起來,巧妙運用網(wǎng)格化管理和營銷地圖,以此來實

現(xiàn)客戶的營銷精準(zhǔn)度與價值提升,提高單一客戶貢獻(xiàn)值和營銷效率。其核心旨在

幫助企業(yè)快速響應(yīng)市場需求,為用戶提供更加便捷的、專業(yè)化服務(wù),并使企業(yè)的

資源分配以客戶為中心,以市場變化為導(dǎo)向,固本強(qiáng)基、開拓市場、提升效益,

有助于平臺有效地制定績效戰(zhàn)略。請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出分

析圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格數(shù)據(jù),參考字段同可視化2、(題號數(shù)字),統(tǒng)計平均超時訂

單率前10名的網(wǎng)格,并柱圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考“餐廳id,餐廳名稱,所屬城市,營業(yè)時長,餐廳狀態(tài),

是否托管,總單量,總單量增長率,有效訂單量,有效訂單增長率,訂單配送成

功率,超時訂單率,無效訂單率,平均預(yù)計送達(dá)時長,平均實際配送時長,當(dāng)前

配送面積,面積變更值,網(wǎng)格id,網(wǎng)格名稱,戰(zhàn)營”等字段,統(tǒng)計平均超時訂

單率前10名的網(wǎng)格名稱及平均超時訂單率,并在PyCharm控制臺以平均超時訂

單率降序打印輸出。

示例格式:

==1.網(wǎng)格名稱:***,平均超時訂單率**%===

==2.網(wǎng)格名稱:***,平均超時訂單率**%===

2、使用Flask框架,結(jié)合Echarts,完成柱狀圖輸出。標(biāo)題為“超時訂單率排

名”,柱狀圖次序與打印語句數(shù)據(jù)一致。將可視化結(jié)果截圖并保存(截圖需包含

瀏覽器地址欄)。

任務(wù)四:組圖(多條形圖)呈現(xiàn)各城市外賣行業(yè)現(xiàn)狀

任務(wù)背景:

近年來,我國外賣行業(yè)發(fā)展迅速,互聯(lián)網(wǎng)餐飲外賣市場規(guī)模逐漸擴(kuò)大,外賣

平臺已覆蓋全國所有省份。2019全年外賣交易超7274億元,截至2020年3月,

我國網(wǎng)上外賣及手機(jī)網(wǎng)上外賣用戶滲透率已達(dá)44機(jī)2020年底,全國外賣總體訂

單量已超過171.2億單。為了解外賣行業(yè)在各城市發(fā)展情況,請根據(jù)相關(guān)數(shù)據(jù)集,

按任務(wù)指定要求,輸出分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計各城市外賣行業(yè)發(fā)展情況,并組圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考“餐廳id,餐廳名稱,所屬城市,營業(yè)時長,餐廳狀態(tài),

是否托管,總單量,總單量增長率,有效訂單量,有效訂單增長率,訂單配送成

功率,超時訂單率,無效訂單率,平均預(yù)計送達(dá)時長,平均實際配送時長,當(dāng)前

配送面積,面積變更值,網(wǎng)格id,網(wǎng)格名稱,戰(zhàn)營”等字段,統(tǒng)計各城市商家

總數(shù)前10名的城市名稱、商家數(shù)量、以及該城市商家平均營業(yè)時長,并在PyCharm

控制臺以商家數(shù)量降序打印輸出。

示例格式:

==1.城市:***,商家數(shù)量:***個,平均營業(yè)時長平***分鐘===

==2.城市:***,商家數(shù)量:***個,平均營業(yè)時長平***分鐘===

2、使用Flask框架,結(jié)合Echarts,完成組圖輸出。組圖左側(cè):縱坐標(biāo)為城市

名稱,橫坐標(biāo)為商家數(shù)量的條形圖,標(biāo)題為“各城市商家數(shù)量ToplO”;組圖右

側(cè):商家數(shù)量前10名的各城市商家平均營業(yè)時間。圖形展示順序與1)(任務(wù)數(shù)

字編號)打印語句一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

任務(wù)五:組圖(柱狀圖、玫瑰圖)呈現(xiàn)投訴情況

任務(wù)背景:

投訴是顧客對平臺管理和服務(wù)不滿的表達(dá)方式,也是企業(yè)有價值的信息來源,

它為企業(yè)探索更多可能。分析顧客投訴的種種因素,把顧客的不滿轉(zhuǎn)化滿意,鎖

定他們對平臺和產(chǎn)品的忠誠,已成為企業(yè)營銷實踐的重要內(nèi)容之一。商戶業(yè)務(wù)包

是指該商戶在經(jīng)營定位時所確定的主要消費群體。不同城市消費群占比不同,大

致可以分為大客戶,白領(lǐng),小客戶,高校,家庭,其它六個商業(yè)業(yè)務(wù)包。請根

據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出城市商戶業(yè)務(wù)包與投訴相關(guān)的分析

圖例。

任務(wù)描述:

請根據(jù)相關(guān)數(shù)據(jù)庫表格,統(tǒng)計不同城市的商業(yè)業(yè)務(wù)包組成,并以雙餅圖表達(dá)。

程序輸出及可視化輸出時請使用商戶業(yè)務(wù)包中文釋義,中文釋義對應(yīng)關(guān)系如表1

所示。

字母縮寫中文釋義

GKA大客戶

BL白領(lǐng)

SIG小客戶

GX高效

FML家庭

OTH其他

表1商戶業(yè)務(wù)包中文釋義

具體任務(wù)要求:

1、根據(jù)相關(guān)數(shù)據(jù)庫表格,參考“餐廳id,retailer_id,餐廳名稱,城市,商

戶業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異常

率,欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異常

數(shù),整體時長,接單時長,到店時長,取餐時長,送達(dá)時長,商戶投訴數(shù),用戶

投訴數(shù),差評數(shù),好評數(shù),評價數(shù),最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接

單時效,該訂單到店時效,該訂單取餐時效,該訂單送達(dá)時效,該訂單評價”等

字段,統(tǒng)計北京地區(qū)各商戶業(yè)務(wù)包的商家數(shù)量,同時,按業(yè)務(wù)包統(tǒng)計客戶投訴數(shù),

并在PyCharm控制臺打印輸出,以商家數(shù)量降序排列。

示例格式:

==北京:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家,投訴***條記錄===

==北京:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家,投訴***條記錄===

2、使用Flask框架,結(jié)合Echarts,完成組圖輸出。組圖左側(cè):橫坐標(biāo)為商戶

業(yè)務(wù)包名稱,縱坐標(biāo)為該業(yè)務(wù)包所包含的商家數(shù)量,標(biāo)題為“北京地區(qū)各商戶業(yè)

務(wù)部商家數(shù)量”的柱形困;組圖右側(cè):各商戶業(yè)務(wù)包投訴占比的玫瑰圖,圖形各

部分顯示次序與打印語句數(shù)據(jù)一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽

器地址欄)。

任務(wù)六:柱狀堆疊圖呈現(xiàn)業(yè)務(wù)包評價組成

任務(wù)背景:

在外賣平臺中,用戶的評論具有雙向影響。不僅可以促進(jìn)商家根據(jù)消費者評

價調(diào)整自己的經(jīng)營策略,也能夠影響其他用戶的下單率。相關(guān)數(shù)據(jù)顯示,瀏覽評

價的用戶比只瀏覽門店商品的用戶下單轉(zhuǎn)化率平均高出25隊因此,商家的店鋪

評論對提高下單率是十分重要的。請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并

輸出評價相關(guān)的分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計各商戶業(yè)務(wù)包評價情況,并柱狀堆疊圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考''餐廳id,retailer_id,餐廳名稱,城市,商戶業(yè)務(wù)

包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異常率,欺

詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異常數(shù),整

體時長,接單時長,到店時長,取餐時長,送達(dá)時長,商戶投訴數(shù),用戶投訴數(shù),

差評數(shù),好評數(shù),評價數(shù),最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接單時效,

該訂單到店時效,該訂單取餐時效,該訂單送達(dá)時效,該訂單評價”等字段,統(tǒng)

計各商戶業(yè)務(wù)包非好評數(shù)、好評數(shù),并在PyCharm控制臺以評價總數(shù)降序打印輸

出。

示例格式:

==1商戶業(yè)務(wù)包:***,非好評數(shù):***條,好評數(shù):***條===

==1商戶業(yè)務(wù)包:***,非好評數(shù):***條,好評數(shù):***條===

2、使用Flask框架,結(jié)合Echarts,完成柱狀堆疊圖輸出。橫坐標(biāo)為商戶業(yè)務(wù)

包名稱(中文釋義),縱坐標(biāo)為評論數(shù)量,標(biāo)題為“各業(yè)務(wù)包評價組成”,柱圖下

方為好評數(shù)(紅色),上方堆疊非好評數(shù)(黑色),展示順序與1)(任務(wù)數(shù)字編

號)打印語句一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

模塊E:綜合分析(20分)

通過模塊B的網(wǎng)站分析及數(shù)據(jù)爬取、模塊C的數(shù)據(jù)清洗與分析及

模塊D的可視化呈現(xiàn),我們已經(jīng)清晰的了解了餐飲外賣平臺業(yè)務(wù)背景

及相關(guān)數(shù)據(jù),在綜合理解外賣業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,根據(jù)任務(wù)要求進(jìn)行

分析,并編寫分析報告。

請根據(jù)任務(wù)要求,分析以下內(nèi)容,并編寫分析報告。分別從商家

營業(yè)時間、銷售單量、范圍變更等角度對外賣平臺推廣情況與銷售表

現(xiàn)進(jìn)行分析,并對平臺經(jīng)營提出幾點建議。

分析報告要求:

任務(wù)一:商家營業(yè)時長分析

結(jié)合平臺相關(guān)數(shù)據(jù)文件,探索不同營業(yè)時長(區(qū)間劃分請使用:4小時以內(nèi)、

4?6小時、6~8小時、8~12小時、12小時以上)對商家平均總單量的影響,并結(jié)

合模塊D相關(guān)可視化結(jié)果,說明影響總單量的因素有哪些?闡述你的結(jié)論并說明

原因。分別以文字描述和圖例進(jìn)行說明。

任務(wù)二:商戶業(yè)務(wù)包分析

結(jié)合模塊C數(shù)據(jù)挖掘分析中3、(任務(wù)編號)的結(jié)論,請繪制折線圖(橫坐

標(biāo)為最大/最小配送距離變更范圍,刻度數(shù)值請參考數(shù)據(jù)挖掘分析中3、(任務(wù)編

號)中幅度,縱坐標(biāo)為審核記錄通過率)對不同地區(qū)商戶業(yè)務(wù)包的統(tǒng)計結(jié)果,說

明圖表有哪些差異?說明了什么問題?分別以文字描述和圖例進(jìn)行說明。

任務(wù)三:平臺規(guī)劃建議

請結(jié)合平臺業(yè)務(wù)背景及相關(guān)分析結(jié)論,對平臺未來規(guī)劃提出建議(不少于3

條建議);

附錄:補(bǔ)充說明

數(shù)據(jù)集中涉及字段及中文說明:

POI:pointofinterest興趣點

數(shù)據(jù)表字段中文釋義:

原字段中文釋義

city_name城市

location商圈

latitude緯度

longtitude經(jīng)度

rest_type商家所屬平臺

platformA_restid商家id(A平臺)

A_rst_name店鋪名稱(A平臺)

A_day30_cnt30天銷量(A平臺)

platform_B_restid商家id(B平臺)

B_rst_name店鋪名稱(B平臺)

B_day_30_cnt30天銷量(B平臺)

推單數(shù)-9推單數(shù)(9日)

有效完成率-9有效完成率(9日)

超時率-9超時率(90)

推單數(shù)-8推單數(shù)(80)

有效完成率-8有效完成率(8日)

超時率-8超時率(8日)

灰度餐廳灰度餐廳

id標(biāo)識id

request_id請求i(1

walle_id(平臺)商鋪id

retailer_id(配送系統(tǒng))商鋪id

retailer_name商鋪名稱

retailer_address商鋪地址

retailer_location位置P0I編碼

city_id城市id

city_name城市名稱

grid_id網(wǎng)格id

carrier_id渠道經(jīng)理

team_id渠道小組

applicant_id申請人id

applicant_name申請人

first_auditor_ro1e一級審批角色

first_auditor_candidate_ids候選審批人id

first_auditor_id審核人id

first_auditor_name審批人名

second_auditor_role二級審批角色

second_auditor_candidate_ids審核小組成員

second_auditorid二級審核人id

second_auditor_name二級審核人名

status申請狀態(tài)

max_distance_before_edit申請前最大配送距離

min_distance_before_edit申請前最小配送距離

max_distance_after_edit日請后最大配送距離

min_distance_after_edit申請后最小配送距離

area_before_edit申請前配送面積

area_after_edit申請后配送面積

created_at申請遞交時間

updated_at審核完成

申請時間申請時間

創(chuàng)建時間創(chuàng)建時間

餐廳id餐廳id

餐廳名稱餐廳名稱

所屬城市所屬城市

營業(yè)時長營業(yè)時長

餐廳狀態(tài)餐廳狀態(tài)

是否托管是否托管

總單量總單量

總單量增長率總單量增長率

有效訂單量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論