版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
2021年全國職業(yè)院校技能大賽
高職組
“大數(shù)據(jù)技術(shù)與應(yīng)用”
賽項賽卷(GZ-xxxxxxx-X卷)
任
務(wù)
書
參賽隊編號:___________________
背景描述
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
據(jù)央視財經(jīng)報道,2020年我國020市場規(guī)模突破萬億元,020市
場存在著巨大的潛力。特別是餐飲和外賣行業(yè),占據(jù)市場較大份額,
并且業(yè)務(wù)增長迅速。截至2020年底,全國外賣總體訂單量已超過
171.2億單,同比增長7.5%,全國外賣市場交易規(guī)模達(dá)到8352億元,
同比增長14.8%o我國外賣用戶規(guī)模已接近5億人,其中80后、90
后是餐飲外賣服務(wù)的中堅消費(fèi)力量,消費(fèi)者使用餐飲外賣服務(wù)也不再
局限于傳統(tǒng)的一日三餐,下午茶和夜宵逐漸成為消費(fèi)者的外賣新寵。
為把握這一商業(yè)機(jī)遇,ChinaSkills公司計劃進(jìn)駐外賣平臺市場,現(xiàn)
需對大規(guī)模成熟外賣平臺進(jìn)行詳細(xì)評估調(diào)研,采集多方多維度數(shù)據(jù),
尋找行業(yè)痛點,摸清市場需求,以技術(shù)為手段為投資保駕護(hù)航。
為完成該項工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),以Python.
Java、Scala作為整個項目的基礎(chǔ)開發(fā)語言,基于大數(shù)據(jù)平臺綜合利
用MapReduce>Spark、MySQL、Scrapy、Flask,ECharts等,對數(shù)據(jù)
進(jìn)行獲取、處理、清洗、挖掘、分析、可視化呈現(xiàn),力求實現(xiàn)對公司
未來的重點戰(zhàn)略方向提出建議。
你們作為該小組的技術(shù)人員,請按照下面任務(wù)完成本次工作,并
編制綜合報告。
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
模塊A:Hadoop平臺及組件的部署管理(15分)
環(huán)境說明:
編號主機(jī)名類型用戶密碼
1master主節(jié)點rootpasswd
2slavel從節(jié)點rootpasswd
3slave2從節(jié)點rootpasswd
補(bǔ)充說明:主節(jié)點MySQL數(shù)據(jù)庫用戶名/密碼:root/Passwordl23$
相關(guān)軟件安裝包在/chinaskills目錄下
所有模塊中應(yīng)用命令必須采用絕對路徑
任務(wù)一:Hadoop全分布部署管理
本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境。
具體部署要求如下:
1、將/chinaskills下的JDK包解壓到/usr/local/src路徑,將完整命令復(fù)制
粘貼到對應(yīng)報告中;
2、修改/root/.bash_profile文件,設(shè)置JDK環(huán)境變量,并使環(huán)境變量只對當(dāng)
前root用戶生效將環(huán)境變量配置內(nèi)容復(fù)制粘貼至對應(yīng)報告中;
3,從master復(fù)制上面步驟配置的JDK環(huán)境變量文件到slavel、slave2節(jié)點,
命令和結(jié)果復(fù)制粘貼在對應(yīng)報告中;
4、配置SSH密鑰登錄,實現(xiàn)從master登錄到slavel,將登錄命令和結(jié)果復(fù)制
粘貼在對應(yīng)報告中;
5、將配置文件hadoop-env.sh變更內(nèi)容復(fù)制粘貼在對應(yīng)報告中;
6,將配置文件core-site,xml變更內(nèi)容復(fù)制粘貼在對應(yīng)報告中;
7、初始化Hadoop環(huán)境namenode,將命令及結(jié)果復(fù)制粘貼在對應(yīng)報告中;
8、查看master及slavel節(jié)點jps進(jìn)程,將其命令及結(jié)果復(fù)制粘貼至對應(yīng)報告
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
中。
任務(wù)二:Spark組件部署管理
1、解壓Scala安裝包到/usr/local/src路徑下,并更名為scala,命令及結(jié)果
復(fù)制粘貼至對應(yīng)報告中;
2、設(shè)置Scala環(huán)境變量,并使環(huán)境變量只對root用戶生效,配置文件內(nèi)容復(fù)
制粘貼至對應(yīng)報告中;
3、進(jìn)入Scala命令行界面,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中。
4、解壓Spark安裝包到usr/local/src路徑下,并更名為spark,將命令及結(jié)
果復(fù)制粘貼至對應(yīng)報告中;
5、設(shè)置Spark相關(guān)環(huán)境變量,并使環(huán)境變量只對root用戶生效,配置Spark
的master節(jié)點主機(jī)名、端口、worker結(jié)點的核數(shù)、內(nèi)存,將命令復(fù)制粘貼
至對應(yīng)報告中;
6、啟動Sparkshell,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中。
任務(wù)三:Hive部署管理
本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)
境,具體部署要求如下:
1、將指定路徑下的Hive安裝包解壓到/usr/local/src下,將命令復(fù)制并粘貼
至對應(yīng)報告中;
2、把解壓后的apache-hive-1.1.0-bin文件夾更名為hive;進(jìn)入hive文件夾,
并將查看命令及結(jié)果復(fù)制并粘貼至對應(yīng)報告中;
3、設(shè)置Hive環(huán)境變量,并使環(huán)境變量只對當(dāng)前root用戶生效;并將環(huán)境變量
配置內(nèi)容復(fù)制并粘貼至對應(yīng)報告中;
4、將Hive安裝目錄里hive-default.xml.template文件更名為hive-site,xml;
并將更改命令復(fù)制并粘貼至對應(yīng)報告中;
5、通過VI編輯器配置hive-site.xml文件,將MySQL數(shù)據(jù)庫作為Hive元數(shù)據(jù)
庫。將配置文件Hive元存儲相關(guān)內(nèi)容復(fù)制并粘貼至對應(yīng)報告中;
6、初始化Hive元數(shù)據(jù),將MySQL數(shù)據(jù)庫JDBC驅(qū)動拷貝到Hive安裝目錄的lib
2021年仝國職螞院校技能大妻高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
文件夾下;并通過schematool命令執(zhí)行初始化,將初始化結(jié)果復(fù)制粘貼至
對應(yīng)報告中;
7、啟動Hive并保存命令輸出結(jié)果,將結(jié)果輸出復(fù)制粘貼至對應(yīng)報告中。
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
模塊B:數(shù)據(jù)采集與處理(20分)
項目背景說明
1、查看餐飲外送統(tǒng)計平臺網(wǎng)站源碼結(jié)構(gòu)。
1)打開網(wǎng)站,在網(wǎng)頁中右鍵點擊檢查,或者F12快捷鍵,查看
源碼頁面;
2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。
2、從餐飲外送統(tǒng)計平臺中采集需要數(shù)據(jù),按照要求使用Python語言
編寫代碼工程,獲取指定數(shù)據(jù)項,并對結(jié)果數(shù)據(jù)集進(jìn)行必要的數(shù)
據(jù)處理。請將符合任務(wù)要求的結(jié)果復(fù)制粘貼至對應(yīng)報告中。
具體步驟如下:
1)創(chuàng)建工程工程項目:C:\food_delivery
2)構(gòu)建采集請求
3)按要求定義相關(guān)字段
4)獲取有效數(shù)據(jù)
5)將獲取到的數(shù)據(jù)保存到指定位置
6)對數(shù)據(jù)集進(jìn)行基礎(chǔ)的數(shù)據(jù)處理
至此已從餐飲外送統(tǒng)計平臺中獲取所需數(shù)據(jù),并完成了必要的基
礎(chǔ)的數(shù)據(jù)處理。
3^自行創(chuàng)建Scrapy工程項目food_delivery,路徑為C:\
food_delivery按照任務(wù)要求從餐飲外送統(tǒng)計平臺中獲取數(shù)據(jù)。
提取“商戶數(shù)據(jù)”頁面相關(guān)字段(包括平臺餐廳ID、餐廳名稱、
城市等全部有效數(shù)據(jù)項),保存至文件restaurant_data.json;
2021年仝國職螞院校技能大妻高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
再提取“配送平臺灰測維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù)(包括餐廳名稱、
城市、營業(yè)時長等全部字段)保存至文件grey_test.json。
4、每條數(shù)據(jù)記錄請以單獨一行保存,信息存儲格式為key:value。
文件保存路徑為:C:\outputo
示例:
{fitrest._i,dj?:n*.*.*.IF,iirest,_name":n*,*,*,n,....}
fir.,jn...n”,nir,,,n1
{rest_id:***,rest_name:***,....),
5、任務(wù)中要求將“以下內(nèi)容及答案完整復(fù)制粘貼至對應(yīng)報告中。”,
粘貼到對應(yīng)報告中的內(nèi)容示例如下:
配送范圍審核相關(guān)數(shù)據(jù)頁數(shù)為:100
灰度數(shù)據(jù)對比相關(guān)數(shù)據(jù)頁數(shù)為:100
任務(wù)一:獲取“商戶數(shù)據(jù)”頁面相關(guān)數(shù)據(jù)
自行創(chuàng)建Scrapy工程編寫工程代碼,獲取“商戶數(shù)據(jù)”頁面相關(guān)數(shù)據(jù),通
過工程代碼分頁獲取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包含的頁數(shù)并將答案復(fù)制
粘貼至對應(yīng)報告中。
示例格式:
商戶數(shù)據(jù)數(shù)據(jù)頁數(shù)為:
任務(wù)二:獲取“配送平臺灰測維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù)
編寫工程代碼,獲取“配送平臺灰測維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù),通過工程代
碼分頁獲取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包含的頁數(shù)并將答案復(fù)制粘貼至對
應(yīng)報告中。
示例格式:
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
灰測維度相關(guān)數(shù)據(jù)頁數(shù)為:
任務(wù)三:將獲取數(shù)據(jù)存入json文件
運(yùn)行代碼,獲取網(wǎng)頁數(shù)據(jù)至指定文件。查看文件并填寫采集到的記錄條數(shù),
并將答案復(fù)制粘貼至對應(yīng)報告中。
示例格式:
restaurant_data.json行數(shù)為:
grey_test.json行數(shù)為:
任務(wù)四:刪除異常樣本
restaurant_data.json文件中,屬性"推單數(shù)”是指外賣平臺通過顧客點
單向商家推送的訂單數(shù)量,“接單數(shù)”為商家根據(jù)自身情況,最終選擇接受訂單
的數(shù)量。一般來說,商家對于平臺推送的訂單,排除自身原因,例如原材料耗盡、
用戶下單時店鋪已經(jīng)打洋等特殊情況,都會選擇接單。請?zhí)蕹龑傩粤小巴茊螖?shù)”
小于“接單數(shù)”的異常數(shù)據(jù)條目,并在PyCharm控制臺打印輸出刪除的樣本條數(shù),
并將打印語句復(fù)制粘貼至對應(yīng)報告中。
示例格式:
===因異常樣本記錄,刪除樣本條數(shù)為***條===
任務(wù)五:缺失值處理
客單價是指客戶在該商鋪下一單的平均支付價格。根據(jù)商家定位不同,可以
分為高客單價和低客單價。請以任務(wù)4的結(jié)果數(shù)據(jù)集作為數(shù)據(jù)源,針對“客單價”
屬性,審查缺失值數(shù)量:
(a)當(dāng)缺失值比例小于5%時,對包含缺失值數(shù)據(jù)的樣本進(jìn)行刪除。
(b)當(dāng)缺失值比例大于5%時,對缺失值字段進(jìn)行中位數(shù)填充。
在PyCharm控制臺打印輸出結(jié)論,并按示例格式將結(jié)果復(fù)制粘貼至對應(yīng)報告
中。
示例格式:
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
==="客單價"屬性缺失值比例小于5%,刪除樣本條數(shù)為***條===
或:
==="客單價”屬性缺失值比例大于5隊中位數(shù)為:,填充樣本條數(shù)為
***條二二二
任務(wù)六:劃分?jǐn)?shù)據(jù)集
請針對grey_test.json數(shù)據(jù)集,根據(jù)屬性“有效訂單增長率”劃分?jǐn)?shù)據(jù)集
grey_test.jsonl(有效訂單增長率大于等于0),grey_test.json2(有效訂單
增長率小于0),并在PyCharm控制臺打印輸出兩個數(shù)據(jù)集的數(shù)據(jù)記錄條數(shù),并
按示例格式將結(jié)果復(fù)制粘貼至對應(yīng)報告中。文件保存路徑為:C:\outputo
示例格式:
===grey_test.jsonl包含樣本條數(shù)為***條===
===grey_test.json2包含樣本條數(shù)為***條==
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
模塊C:數(shù)據(jù)清洗與挖掘分析(25分)
項目背景說明
餐飲外賣平臺的核心價值體現(xiàn)在配送,而配送的價值則依賴于商
家與客戶的雙向選擇。外賣平臺通常會通過內(nèi)容激活消費(fèi)者和商家兩
個群體的活躍度。消費(fèi)者會參考平臺展示的內(nèi)容選擇商家,商家也會
以消費(fèi)者評價與平臺統(tǒng)計數(shù)據(jù)為依據(jù)調(diào)整策略,由此再吸引更多的用
戶下單、評論、形成正向循環(huán)。保證配送的時效與品質(zhì)是從優(yōu)化用戶
體驗的角度,吸引更多的用戶參與,進(jìn)而帶動商家不斷入駐。由此,
商家、消費(fèi)者、騎手在平臺上形成越來越多的真實可靠的數(shù)據(jù),幫助
消費(fèi)者更好的做出消費(fèi)決策,同時促進(jìn)商家提高服務(wù)質(zhì)量。而平臺通
過數(shù)據(jù),不斷調(diào)整優(yōu)化服務(wù),從而不斷提升這種多邊網(wǎng)絡(luò)效應(yīng)。提升
網(wǎng)絡(luò)效應(yīng)的直接結(jié)果就是用戶和商家規(guī)模大幅提升,進(jìn)而形成規(guī)模效
應(yīng)一一降低獲客成本、提高效益,并且不斷提升自己的行業(yè)壁壘。
為探索各大外賣平臺的市場策略與經(jīng)營模式,現(xiàn)已從及平臺獲取
到了原始數(shù)據(jù)集,包含“餐廳id,retailer_id,餐廳名稱,城市,
商戶業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),
投訴率,異常率,欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系
統(tǒng)取消數(shù),配送取消異常數(shù),整體時長,接單時長,到店時長,取餐
時長,送達(dá)時長,商戶投訴數(shù),用戶投訴數(shù),差評數(shù),好評數(shù),評價
數(shù),最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接單時效,該訂單到店
時效,該訂單取餐時效,該訂單送達(dá)時效,該訂單評價”字段。為保
障用戶隱私和行業(yè)敏感信息,已經(jīng)對數(shù)據(jù)脫敏。(數(shù)據(jù)脫敏是指對某
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠
保護(hù)。在涉及客戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,對真實
數(shù)據(jù)進(jìn)行改造并提供測試使用,如身份證號、手機(jī)號等個人敏感信息
都需要進(jìn)行數(shù)據(jù)脫敏。本題已將脫敏后的數(shù)據(jù)存放于平臺對應(yīng)任務(wù)
/chinaskills目錄下。工程所需配置文件pom.xml存放于"C:\清洗
配置文件”。任務(wù)中所有命令務(wù)必使用絕對路徑。)
任務(wù)一:數(shù)據(jù)清洗
任務(wù)背景:
數(shù)據(jù)源為眾多網(wǎng)站及平臺的數(shù)據(jù)匯總,且為多次采集的結(jié)果,在整合多來源
數(shù)據(jù)時可能遇到數(shù)據(jù)重復(fù),或數(shù)據(jù)拼接導(dǎo)致的屬性列缺失或冗余等情況。請根據(jù)
任務(wù)具體參數(shù)要求,針對原始數(shù)據(jù)集進(jìn)行清洗,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,
復(fù)制并保存結(jié)果。
任務(wù)描述:
數(shù)據(jù)源文件存放于平臺對應(yīng)任務(wù)/chinaskills目錄下,請按照如下要求編
寫Spark程序?qū)?shù)據(jù)進(jìn)行清洗,并將結(jié)果輸出保存。
1)分析/chinaskills中數(shù)據(jù)文件;
2)針對屬性列“商家id”排查并刪除異常數(shù)據(jù)條目;
3)針對屬性列缺失或冗余的樣本進(jìn)行刪除;
4)程序打包并在Spark平臺運(yùn)行,結(jié)果輸出至HDFS文件系統(tǒng)
/diliveryoutput1。
具體任務(wù)要求:
1、讀取相關(guān)數(shù)據(jù)文件,包含“city_name,location,latitude,longitude,
resttype,platform_A_restid,A_rstname,Aday_30_cnt,p1atform_B_restid,
B_rst_name,B_day_30_cntw等字段,查看文件包含數(shù)據(jù)記錄數(shù),并將答案復(fù)
制并保存至對應(yīng)報告中。
示例格式:
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
文件數(shù)據(jù)記錄數(shù)為:
2、編寫Spark程序讀取任務(wù)1的數(shù)據(jù)源,針對屬性列"platform_A_restid”或
<<platform_B_restidw重復(fù)的樣本,請以多條樣本記錄的uA_day_30_cntn或
“B_day_30_cnt”屬性均值作為該屬性的值,并刪除多余樣本,并在程序中以打
印語句輸出刪除的條數(shù)。請將結(jié)果數(shù)據(jù)集輸出至HDFS文件系統(tǒng)
/diliveryoutputl中。將打印輸出結(jié)果復(fù)制并保存至對應(yīng)報告中。(復(fù)制內(nèi)容需
包含打印語句輸出結(jié)果的上下各5行運(yùn)行日志)。
示例格式:
===因重復(fù)樣本記錄,刪除樣本條數(shù)為***條===
3、編寫Spark程序讀取任務(wù)2的結(jié)果數(shù)據(jù)集/diliveryoutputl,審查樣本的屬
性數(shù)量,當(dāng)屬性列缺失或冗余時,剔除該樣本記錄,并在程序中以打印語句輸出
刪除的條數(shù),將打印輸出結(jié)果復(fù)制并保存至對應(yīng)報告中。(復(fù)制內(nèi)容需包含打印
語句輸出結(jié)果的上下各5行運(yùn)行日志)。
示例格式:
===因?qū)傩匀哂嗷蛉笔?,剔除的樣本條數(shù)為***條===
4、將任務(wù)3處理后的數(shù)據(jù)記錄以[latitude,longitude]降序排列,并輸出至
HDFS文件系統(tǒng)/diliveryoutput2。查看結(jié)果數(shù)據(jù)文件前10行。將命令及輸出結(jié)
果復(fù)制并保存至對應(yīng)報告中。
任務(wù)二:數(shù)據(jù)挖掘分析
子任務(wù)1
任務(wù)背景:
網(wǎng)格化營銷是近年來新興的一種營銷管理模式,已被廣泛地運(yùn)用于市場精準(zhǔn)
營銷。在市場營銷中,采取地圖營銷、網(wǎng)格管理、精準(zhǔn)策略等,可將客戶的心理
需求與其日常生活緊密地聯(lián)系起來,巧妙運(yùn)用網(wǎng)格化管理和營銷地圖,以此來實
現(xiàn)客戶的營銷精準(zhǔn)度與價值提升,提高單一客戶貢獻(xiàn)值和營銷效率。其核心旨在
幫助企業(yè)快速響應(yīng)市場需求,為用戶提供更加便捷的、專業(yè)化服務(wù),并使企業(yè)的
資源分配以客戶為中心,以市場變化為導(dǎo)向,固本強(qiáng)基、開拓市場、提升效益,
有助于平臺有效地制定績效戰(zhàn)略。請根據(jù)任務(wù)具體參數(shù)要求,針對相關(guān)數(shù)據(jù)集進(jìn)
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
行分析,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,復(fù)制并保存結(jié)果。
任務(wù)描述:
數(shù)據(jù)源文件存放于平臺對應(yīng)任務(wù)/chinaskills目錄下,按照如下要求編寫
Spark程序?qū)崿F(xiàn)對數(shù)據(jù)的分析,并將結(jié)果輸出至HDFS文件系統(tǒng)中
/diliveryoutput3o
1)解析/chinaskills中相關(guān)數(shù)據(jù)源文件
2)按網(wǎng)格匯總餐廳總數(shù)、“近7天平臺單量”、“近7天推單量”,及相
關(guān)計算
3)按照任務(wù)要求統(tǒng)計網(wǎng)格超時率
4)程序打包并在Spark平臺運(yùn)行,輸出并保存結(jié)果
具體任務(wù)要求:
1、讀取相關(guān)數(shù)據(jù)文件,參考“網(wǎng)格ID,網(wǎng)格名稱,城市,戰(zhàn)團(tuán),餐廳ID,近7天
平臺單量,近7天推單,餐廳名,餐廳地址(取餐地址),餐品種類,標(biāo)品屬性,
全推/選推”等字段,按網(wǎng)格統(tǒng)計餐廳總數(shù)、“近7天平臺單量”總數(shù),“近7
天推單量''總數(shù)并以餐廳總數(shù)降序排列,在程序中以打印語句輸出餐廳總數(shù)前
10位的網(wǎng)格相關(guān)信息。將打印輸出結(jié)果復(fù)制并保存至對應(yīng)報告中。(復(fù)制內(nèi)容需
包含打印語句輸出結(jié)果的上下各5行運(yùn)行日志)。
示例格式:
===網(wǎng)格id:***,網(wǎng)格名稱:***,近7天平臺總單量:***,近7天推單總
子任務(wù)2
任務(wù)背景:
聚類分析又稱群分析,它是研究分類問題的一種統(tǒng)計分析方法,同時也是數(shù)
據(jù)挖掘的一個重要算法。聚類分析是由若干模式組成的。通常,模式是一個度量
的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎(chǔ),同一個聚類簇
中的模式之間具有相似性,不同聚類簇之間具有相異性。在商業(yè)上,聚類可以幫
助平臺市場分析人員從數(shù)據(jù)中區(qū)分出不同的商家群體,并提取每一類商家的經(jīng)營
模式。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)中的
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
深層的信息,并且提取出每一類樣本的特點,或者把注意力放在某一個特定的類
上以作進(jìn)一步的分析;同時,聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法
的一個預(yù)處理步驟。本題數(shù)據(jù)請采用數(shù)據(jù)清洗的結(jié)果數(shù)據(jù)集/dilive:ryoutput2
中數(shù)據(jù)源。選擇數(shù)據(jù)分析的維度通常分為用戶維度、行為維度和產(chǎn)品維度,想要
對外賣平臺入駐商家進(jìn)行聚類劃分,有側(cè)重地分類評估商家對平臺的價值,首先
需要針對商家數(shù)據(jù)選擇核心數(shù)據(jù)集,為確保聚類模型收斂速度與質(zhì)量,以及消除
量綱對聚類結(jié)果的影響,首先應(yīng)對數(shù)據(jù)進(jìn)行歸一化或標(biāo)準(zhǔn)化處理,再進(jìn)行數(shù)據(jù)建
模。
任務(wù)描述:
請以數(shù)據(jù)清洗任務(wù)結(jié)果數(shù)據(jù)集/dilive:ryoutput2中數(shù)據(jù)作為輸入數(shù)據(jù)源,
按照如下要求編寫Spark程序?qū)崿F(xiàn)對數(shù)據(jù)的分析,并保存結(jié)果。
1)解析/diliveryoutput2數(shù)據(jù)源文件。
2)提取商家相關(guān)屬性數(shù)據(jù)。
3)針對商家地理位置進(jìn)行聚類劃分。
4)查看聚類結(jié)果。
具體任務(wù)要求:
1、編寫Spark程序讀取/diliveryoutput2數(shù)據(jù)源文件,篩選北京地區(qū)商家數(shù)據(jù)
記錄,并將結(jié)果數(shù)據(jù)集輸出至HDFS文件系統(tǒng)/diliveryoutput4中。請在程序
中以打印語句輸出篩選得到數(shù)據(jù)記錄條數(shù),并將打印輸出結(jié)果復(fù)制并保存至對應(yīng)
報告中。(復(fù)制內(nèi)容需包含打印語句輸出結(jié)果的上下各5行運(yùn)行日志)。
示例格式如下:
===北京地區(qū)樣本條數(shù)為***條===
2、請使用數(shù)據(jù)挖掘分析任務(wù)2的結(jié)果數(shù)據(jù)集/diliveryoutput4,編寫Spark程
序,根據(jù)北京地區(qū)商家的經(jīng)緯度屬性,對商家進(jìn)行k-means聚類,聚類數(shù)設(shè)為5,
迭代次數(shù)為2000次,請在程序中以打印語句輸出聚類中心、每個類的商家數(shù),
以及該類所包含的商圈,并將打印語句復(fù)制粘貼至對應(yīng)報告中。(復(fù)制內(nèi)容需包
含打印語句輸出結(jié)果的上下各5行運(yùn)行日志)
示例格式:
=cluster0:聚類中心為[**,**],商家數(shù)為***個,包含商圈:[*,*,…]
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
=cluster1:聚類中心為[**,**],商家數(shù)為***個,包含商圈:[*,*,…】
3、請使用數(shù)據(jù)挖掘分析任務(wù)2的結(jié)果數(shù)據(jù)集/diliveryoutput4,結(jié)合數(shù)據(jù)挖掘
分析任務(wù)3的結(jié)論,編寫Spark程序,分別統(tǒng)計各聚類中在平臺A與平臺B上架
的商家數(shù)量,以及同時商家兩個平臺的商家數(shù)量。在程序中以打印語句輸出結(jié)果,
并將打印語句復(fù)制粘貼至對應(yīng)報告中。(復(fù)制內(nèi)容需包含打印語句輸出結(jié)果的上
下各5行運(yùn)行日志)
示例格式:
=cluster0:[*,*,???],A平臺商家數(shù)量:**,B平臺商家數(shù)量:**,同時
上架A、B平臺的商家數(shù)量:**=
=cluster1:[*,*,,,,],A平臺商家數(shù)量:**,B平臺商家數(shù)量:**,同時
上架A、B平臺的商家數(shù)量:**=
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
模塊D:數(shù)據(jù)可視化(20分)
MySQL數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集包含了城市、地點、商家id、網(wǎng)格id、餐品種
類、標(biāo)品屬性等多項基礎(chǔ)信息字段。請使用Flask框架,結(jié)合Echarts完成下列
任務(wù)。
數(shù)據(jù)庫賬號:takeout密碼:takeout
自行創(chuàng)建代碼工程路徑為C:\food_dilivery
每個可視化圖中需要添加圖片作為背景水印
任務(wù)一:雙餅圖呈現(xiàn)城市商戶業(yè)務(wù)包占比
任務(wù)背景:
外賣平臺在不同城市進(jìn)行推廣時應(yīng)具有不同的側(cè)重方面,城市具有不同的人
口數(shù)量及特點,例如居住人口數(shù)量、工作人口數(shù)量、過往人口數(shù)量、居民戶數(shù)和
企事業(yè)單位數(shù),及相應(yīng)人口年齡、性別、職業(yè)和收入水平構(gòu)成等。商戶業(yè)務(wù)包是
指該商戶在經(jīng)營定位時所確定的主要消費(fèi)群體。不同城市消費(fèi)群占比不同,大致
可以分為大客戶,白領(lǐng),小客戶,高校,家庭,其它六個商業(yè)業(yè)務(wù)包。請根據(jù)相
關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出城市商戶業(yè)務(wù)包相關(guān)的分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)數(shù)據(jù)庫表格中“餐廳id,retailer_id,餐廳名稱,城市,商戶
業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異常率,
欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異常數(shù),
整體時長,接單時長,到店時長,取餐時長,送達(dá)時長,商戶投訴數(shù),用戶投訴
數(shù),差評數(shù),好評數(shù),評價數(shù),最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接單時
效,該訂單到店時效,該訂單取餐時效,該訂單送達(dá)時效,該訂單評價”等字段,
統(tǒng)計不同城市的商業(yè)業(yè)務(wù)包組成,并以雙餅圖表達(dá)。
程序輸出及可視化輸出時請使用商戶業(yè)務(wù)包中文釋義,中文釋義對應(yīng)關(guān)系如
表1所示。
字母縮寫中文釋義
GKA大客戶
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
BL白領(lǐng)
SIG小客戶
GX高效
FML家庭
OTH其他
(表1商戶業(yè)務(wù)包中文釋義)
具體任務(wù)要求:
1、根據(jù)相關(guān)數(shù)據(jù)庫表格字段,分析北京與深圳兩座城市在商戶業(yè)務(wù)包屬性占比
方面的差異。在PyCharm控制臺打印輸出兩座城市不同商戶業(yè)務(wù)包屬性的商家數(shù)
量,以商家數(shù)量降序排列。
示例格式:
==北京:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===
==北京:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===
==深圳:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===
==深圳:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===
2、使用Flask框架,結(jié)合Echarts,完成雙餅圖輸出。要求標(biāo)題分別為“北京
商戶業(yè)務(wù)包屬性占比"(左)、“深圳商戶業(yè)務(wù)包屬性占比”(右),順時針顯示次
序與打印語句數(shù)據(jù)一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。
任務(wù)二:柱狀堆疊圖呈現(xiàn)商戶業(yè)務(wù)部評價情況
任務(wù)背景:
在外賣平臺中,用戶的評論具有雙向影響。不僅可以促進(jìn)商家根據(jù)消費(fèi)者評
價調(diào)整自己的經(jīng)營策略,也能夠影響其他用戶的下單率。相關(guān)數(shù)據(jù)顯示,瀏覽評
價的用戶比只瀏覽門店商品的用戶下單轉(zhuǎn)化率平均高出25%。因此,商家的店鋪
評論對提高下單率是十分重要的。請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并
輸出評價相關(guān)的分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計各商戶業(yè)務(wù)包評價情況,并柱狀堆疊圖呈現(xiàn)。程
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
序輸出及可視化輸出時請使用商戶業(yè)務(wù)包中文釋義。
具體任務(wù)要求:
1、根據(jù)相關(guān)表格,參考“餐廳id,retailer_id,餐廳名稱,城市,商戶業(yè)務(wù)
包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異常率,欺
詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異常數(shù),整
體時長,接單時長,到店時長,取餐時長,送達(dá)時長,商戶投訴數(shù),用戶投訴數(shù),
差評數(shù),好評數(shù),評價數(shù),最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接單時效,
該訂單到店時效,該訂單取餐時效,該訂單送達(dá)時效,該訂單評價”等字段,統(tǒng)
計各商戶業(yè)務(wù)包非好評數(shù)、好評數(shù),并在PyCharm控制臺以評價總數(shù)降序打印輸
出。
示例格式:
==1商戶業(yè)務(wù)包:***,非好評數(shù):***條,好評數(shù):***條===
==1商戶業(yè)務(wù)包:***,非好評數(shù):***條,好評數(shù):***條===
2、使用Flask框架,結(jié)合Echarts,完成柱狀堆疊圖輸出。橫坐標(biāo)為商戶業(yè)務(wù)
包名稱(中文釋義),縱坐標(biāo)為評論數(shù)量,標(biāo)題為“各業(yè)務(wù)包評價組成”,柱圖下
方為好評數(shù)(紅色),上方堆疊非好評數(shù)(黑色),展示順序與1)(任務(wù)數(shù)字編
號)打印語句一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。
任務(wù)三:玫瑰圖地圖呈現(xiàn)不同業(yè)務(wù)包投訴占比
任務(wù)背景:
投訴是顧客對平臺管理和服務(wù)不滿的表達(dá)方式,也是企業(yè)有價值的信息來源,
它為企業(yè)探索更多可能。分析顧客投訴的種種因素,把顧客的不滿轉(zhuǎn)化滿意,鎖
定他們對平臺和產(chǎn)品的忠誠,已成為企業(yè)營銷實踐的重要內(nèi)容之一。請根據(jù)相關(guān)
數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出投訴相關(guān)的分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)數(shù)據(jù)庫表格,參考“餐廳id,retailer_id,餐廳名稱,城市,
商戶業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異
常率,欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
常數(shù),整體時長,接單時長,到店時長,取餐時長,送達(dá)時長,商戶投訴數(shù),用
戶投訴數(shù),差評數(shù),好評數(shù),評價數(shù),最遠(yuǎn)訂單距離,該訂單整體時效,該訂單
接單時效,該訂單到店時效,該訂單取餐時效,該訂單送達(dá)時效,該訂單評價”
等字段,統(tǒng)計北京地區(qū),不同“商戶業(yè)務(wù)包”的投訴數(shù)量,并以玫瑰圖呈現(xiàn)。
具體任務(wù)要求:
1、根據(jù)相關(guān)數(shù)據(jù)庫表格字段,統(tǒng)計北京地區(qū)不同商戶業(yè)務(wù)包投訴數(shù)量。在
PyCharm控制臺打印輸出不同商戶業(yè)務(wù)包的投訴數(shù)量,以投訴數(shù)降序排列。
示例格式:
==商戶業(yè)務(wù)包:***,投訴數(shù)量:***家===
==商戶業(yè)務(wù)包:***,投訴數(shù)量:***家===
2、使用Flask框架,結(jié)合Echarts,完成玫瑰圖輸出。要求標(biāo)題為“北京商戶
業(yè)務(wù)包投訴占比“,順時針顯示次序與打印語句數(shù)據(jù)一致,將可視化結(jié)果截圖并
保存(截圖需包含瀏覽器地址欄)。
任務(wù)四:氣泡圖呈現(xiàn)商鋪分布的地理位置
任務(wù)背景:
商圈,指某商場以其所在地為原點,沿著一定的方向和距離擴(kuò)展,吸引顧客
的輻射范圍。簡單地說,就是來店顧客所居住或工作的區(qū)域范圍。無論餐廳規(guī)模
大小,其銷售覆蓋區(qū)域總是有一定的地理范圍。這個地理范圍就是以某商場為中
心,向四周輻射到可能來店消費(fèi)的顧客所居住地或工作地。請按任務(wù)指定要求,
輸出相關(guān)圖例。
任務(wù)描述:
請根據(jù)數(shù)據(jù)庫相關(guān)數(shù)據(jù)集中city_name,location,latitude,longitude,
resttype,platform_A_restid,A_rstname,Aday_30_cnt,p1atform_B_restid,
B_rst_name,B_day_30_cnt等字段,明晰地理位置與商鋪聚集程度之間的關(guān)系。
請以經(jīng)度為橫坐標(biāo),緯度為縱坐標(biāo),繪制商家數(shù)量氣泡圖,并以該地理位置的商
家數(shù)量/10作為氣泡半徑。
具體任務(wù)要求:
1、提取表格相關(guān)字段,在控制臺按照“商家數(shù)量”降序排列,打印輸出商圈名
2麗年全國職業(yè)院校技能大妻高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任勢書
稱及包含的商家數(shù)量。
示例格式:
==1:商圈****=商家數(shù)為***個===
==2:商圈****=商家數(shù)為***個===
2、使用Flask框架,結(jié)合Echarts,完成氣泡圖輸出。要求氣泡圖標(biāo)題為“商
家聚集地理位置展示“,橫坐標(biāo)為經(jīng)度,縱坐標(biāo)為維度,以該地理位置的商家數(shù)
量/10作為氣泡半徑,繪制氣泡圖。將可視化結(jié)果截圖并保存(截圖需包含瀏覽
器地址欄)。
任務(wù)五:雙折線圖呈現(xiàn)不同平臺商家銷量情況
任務(wù)背景:
市場份額亦稱“市場占有率指某企業(yè)的銷售量(或銷售額)在市場同類
品類中所占比重。反映企業(yè)在市場上的地位。通常市場份額越高,競爭力越強(qiáng)。
市場占有率一般有3種基本測算方法:(1)總體市場份額,指某企業(yè)銷售量在整
個行業(yè)中所占比重。(2)目標(biāo)市場份額,指某企業(yè)銷售量在其目標(biāo)市場,即其所
服務(wù)的市場中所占比重。(3)相對市場份額,指某企業(yè)銷售量與市場上最大競爭
者銷售量之比,若高于1,表明該企業(yè)其為這一市場的領(lǐng)導(dǎo)者。請按任務(wù)指定要
求,輸出不同平臺商家銷售分析相關(guān)圖例。
任務(wù)描述:
請根據(jù)相關(guān)表格數(shù)據(jù),分別統(tǒng)計A平臺與B平臺30天銷量最高的10個商家
的銷量,并以共享y軸的雙折線圖呈現(xiàn)。
具體任務(wù)要求:
1、根據(jù)相關(guān)表格"city._name,location,latitude,longitude,rest_type,
platform_A_restid,A_rst_name,A_day_30_cnt,platform_B_restid,
B_rst_name,B_day_30_cnt等字段,分別統(tǒng)計A平臺與B平臺30天銷量最高
的10個商家及銷量,在控制臺按照“30天銷量”降序打印輸出商家id,商家所
屬平臺,及30天銷量。
示例格式:
==1:*****”,Platform-A,銷量為***=二
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
==2:"****",Platform-A,銷量為***===
==10:"****",Platform-A,銷量為***===
==1:"****",Platform-B,銷量為***===
==2:"****",Platform-B,銷量為***===
==10:”****",Platform-B,商家數(shù)為***個===
2、使用Flask框架,結(jié)合Echarts,完成可視化輸出。要求雙折線圖標(biāo)題為“各
平臺30天銷量最高10大商家”,橫坐標(biāo)1(下方)為平臺A商家id,橫坐標(biāo)2(下
方)為平臺B商家id(傾斜顯示、互不遮擋),縱坐標(biāo)為商家銷量,以銷量降序
排列,紅色折線標(biāo)識Platform-A商家,藍(lán)色折線標(biāo)識Platform-B商家。將可視
化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。
任務(wù)六:柱狀圖呈現(xiàn)商家營業(yè)時間情況
任務(wù)背景:
營業(yè)時長指商戶開市接單到閉市停業(yè)的時長,適當(dāng)?shù)卦黾訝I業(yè)時長有利于提
升店鋪的曝光量,同時能夠在一定程度上獲得平臺排名加權(quán)。營業(yè)時間長的店鋪
在特定時間段(大部分商家關(guān)店休息后)面對的競爭壓力將減小,但增加營業(yè)時
間將增加商家運(yùn)營店鋪的人工成本,同時也需要考慮不同時間段內(nèi)運(yùn)力不同的情
況,例如有些區(qū)域在晚上12點以后無法配送。請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定
要求,輸出營業(yè)時間相關(guān)分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計平臺各商家的營業(yè)時間占比,并柱狀圖呈現(xiàn)。
具體任務(wù)要求:
1、根據(jù)相關(guān)表格,參考“餐廳id,餐廳名稱,所屬城市,營業(yè)時長,餐廳狀態(tài),
是否托管,總單量,總單量增長率,有效訂單量,有效訂單增長率,訂單配送成
功率,超時訂單率,無效訂單率,平均預(yù)計送達(dá)時長,平均實際配送時長,當(dāng)前
配送面積,面積變更值,網(wǎng)格id,網(wǎng)格名稱,戰(zhàn)營”等字段,統(tǒng)計4小時以內(nèi)、
4~6小時、6-8小時、8~12小時、12小時以上,5個區(qū)間段內(nèi)平臺各商家的營業(yè)
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
時間占比(區(qū)間取值為前閉后開區(qū)間)。請在PyCharm控制臺以區(qū)間商家數(shù)量降
序打印輸出城市名稱,商家數(shù)量。
示例格式:
==區(qū)間”4小時以內(nèi)”,商家***個===
==區(qū)間”4~6小時”,商家***個===
2、使用Flask框架,結(jié)合Echarts,完成柱狀圖輸出。標(biāo)題為“各營業(yè)區(qū)間商
家數(shù)量對比”,橫坐標(biāo)為各區(qū)間,縱坐標(biāo)為商家個數(shù),顯示次序與打印語句數(shù)據(jù)
一致。將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
模塊E:綜合分析(20分)
通過模塊B的網(wǎng)站分析及數(shù)據(jù)獲取、模塊C的數(shù)據(jù)清洗與分析及
模塊D的可視化呈現(xiàn),我們已經(jīng)清晰的了解了餐飲外賣平臺業(yè)務(wù)背景
及相關(guān)數(shù)據(jù),在綜合理解外賣業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,根據(jù)任務(wù)要求進(jìn)行
分析,并編寫分析報告。
請根據(jù)任務(wù)要求,分析以下內(nèi)容,并編寫分析報告。分別從地區(qū)、
營業(yè)時間角度對外賣平臺推廣情況與銷售表現(xiàn)進(jìn)行分析,并平臺經(jīng)營
提出幾點建議。
分析報告要求:
任務(wù)一:通過數(shù)據(jù)及圖示分析不同戰(zhàn)營銷量數(shù)據(jù)分布情況
對于模塊B獲取的grey_test.json數(shù)據(jù),分別提取“KA銷售一組、SIG華
東二組、KA銷售三組、SIG華南三組、SIG京津七組”五個戰(zhàn)營全部的總單量屬
性值,繪制箱線圖,觀察數(shù)據(jù)分布情況。箱體與邊框為藍(lán)色,異常點使用藍(lán)色圓
點(邊框與填充均為藍(lán)色,size=3),采用黑色圓點標(biāo)識中位數(shù)(size=8),同時
顯示均值。分析箱線圖表達(dá)的含義,分別以文字描述和圖例進(jìn)行說明。
任務(wù)二:對通過圖示和計算業(yè)務(wù)分析原因
結(jié)合平臺相關(guān)數(shù)據(jù)文件,探索不同營業(yè)時長(區(qū)間劃分請使用:4小時以內(nèi)、
4-6小時、6-8小時、8T2小時、12小時以上)對商家平均總單量的影響,并結(jié)
合任務(wù)D相關(guān)可視化結(jié)果,說明影響總單量的因素有哪些?闡述你的結(jié)論并說明
原因。分別以文字描述和圖例進(jìn)行說明。
任務(wù)三:對餐飲外賣平臺未來拓展合作建議
請結(jié)合平臺業(yè)務(wù)背景及相關(guān)分析結(jié)論,對平臺未來規(guī)劃提出建議(不少于3
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
條建議)。
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
附錄:補(bǔ)充說明
數(shù)據(jù)集中涉及字段及中文說明:
POI:pointofinterest興趣點。
網(wǎng)格:網(wǎng)格化營銷是指按照某一個或某幾個特定的標(biāo)準(zhǔn),利用各種有
效的營銷方式和工具,使企業(yè)營銷資源重新組合和分配成網(wǎng)格化狀態(tài),
即將整個實體市場分割成為多個網(wǎng)格。
灰度測試:在某項策略正式投入市場實踐前,選擇特定人群試用,逐
步擴(kuò)大其試用者數(shù)量,以便及時發(fā)現(xiàn)和糾正其中的問題。
評價級別定義:用戶5星評價為好評,2星及以下為差評。
數(shù)據(jù)表字段中文釋義:
原字段中文釋義
city_name城市
location商圈
latitude緯度
longitude經(jīng)度
rest_type商家所屬平臺
platform_A_restid商家id(A平臺)
A_rst_name店鋪名稱(A平臺)
A_day_30_cnt30天銷量(A平臺)
platform_B__restid商家id(B平臺)
B_rst_name店鋪名稱(B平臺)
B_day_30_cnt30天銷量(B平臺)
推單數(shù)-9推單數(shù)(9日)
有效完成率-9有效完成率(9日)
超時率-9超時率(9日)
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
推單數(shù)-8推單數(shù)(8日)
有效完成率-8有效完成率(8日)
超時率-8超時率(8日)
灰度餐廳灰度餐廳
id標(biāo)識id
request_id請求id
walle_id(平臺)商鋪id
retailer_id(配送系統(tǒng))商鋪id
retailer_name商鋪名稱
retailer_address商鋪地址
retailer_location位置P0I編碼
city_id城市id
city_name城市名稱
grid_id網(wǎng)格id
carrier_id渠道經(jīng)理
team_id渠道小組
applicant_id申請人id
applicant_name申請人
first_auditor_role一級審批角色
first_auditor_candidate_ids候選審批人id
first_auditor_id審核人id
first_auditor_name審批人名
second_auditor_ro1e二級審批角色
second_auditor_candidate_ids審核小組成員
second_auditorid二級審核人id
second_auditor_name二級審核人名
status申請狀態(tài)
max_distance_before_edit申請前最大配送距離
min_distance_before_edit申請前最小配送距離
2的{-年全國職業(yè)院校技能大賽.高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項任務(wù)書
max_distance_after_edit申請后最大配送距離
min_distance_after_edit申請后最小配送距離
area_before_edit申請前配送面積
area_after_edit申請后配送面積
created_at申請遞交時間
updated_at審核完成
申請時間申請時間
創(chuàng)建時間創(chuàng)建時間
餐廳id餐廳id
餐廳名稱餐廳名稱
所屬城市所屬城市
營業(yè)時長營業(yè)時長
餐廳狀態(tài)餐廳狀態(tài)
是否托管是否托管
總單量總單量
總單量增長率總單量增長率
有效訂單量有效訂單量
有效訂單增長率有效訂單增長率
訂單配送成功率訂單配送成功率
超時訂單率超時訂單率
無效訂單率無效訂單率
平均預(yù)計送達(dá)時長平均預(yù)計送達(dá)時長
平均實際配送時長平均實際配送時長
當(dāng)前配送面積當(dāng)前配送面積
面積變更值面
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度臨時市場調(diào)研員勞動合同8篇
- 2025年度環(huán)保設(shè)備零星維修與保養(yǎng)服務(wù)協(xié)議4篇
- 2025年度車輛購置小額擔(dān)保貸款反擔(dān)保償還合同3篇
- 二零二五年度屋頂綠化養(yǎng)護(hù)管理協(xié)議范本4篇
- 2025年物流園區(qū)安全保衛(wèi)合同協(xié)議書模板3篇
- 二零二五年度公寓物業(yè)管理服務(wù)合同模板4篇
- 小學(xué)語文教學(xué)與學(xué)生心理素質(zhì)的雙向提升
- 2025年滬教版九年級物理上冊階段測試試卷含答案
- 2025年外研版必修3物理下冊階段測試試卷含答案
- 變壓器買賣合同范本
- 人教版小學(xué)數(shù)學(xué)(2024)一年級下冊第一單元 認(rèn)識平面圖形綜合素養(yǎng)測評 B卷(含答案)
- 企業(yè)年會攝影服務(wù)合同
- 電商運(yùn)營管理制度
- 二零二五年度一手房購房協(xié)議書(共有產(chǎn)權(quán)房購房協(xié)議)3篇
- 2025年上半年上半年重慶三峽融資擔(dān)保集團(tuán)股份限公司招聘6人易考易錯模擬試題(共500題)試卷后附參考答案
- 城市公共交通運(yùn)營協(xié)議
- 內(nèi)燃副司機(jī)晉升司機(jī)理論知識考試題及答案
- 2024北京東城初二(上)期末語文試卷及答案
- 2024設(shè)計院與職工勞動合同書樣本
- 2024年貴州公務(wù)員考試申論試題(B卷)
- 電工高級工練習(xí)題庫(附參考答案)
評論
0/150
提交評論