版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2021-2022甘肅省職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項(xiàng)任務(wù)書甘肅省職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項(xiàng)賽卷(3卷)任務(wù)書參賽隊(duì)編號(hào):背景描述據(jù)央視財(cái)經(jīng)報(bào)道,2020年我國O2O市場規(guī)模突破萬億元,O2O市場存在著巨大的潛力。特別是餐飲和外賣行業(yè),占據(jù)市場較大份額,并且業(yè)務(wù)增長迅速。截至2020年底,全國外賣總體訂單量已超過171.2億單,同比增長7.5%,全國外賣市場交易規(guī)模達(dá)到8352億元,同比增長14.8%。我國外賣用戶規(guī)模已接近5億人,其中80后、90后是餐飲外賣服務(wù)的中堅(jiān)消費(fèi)力量,消費(fèi)者使用餐飲外賣服務(wù)也不再局限于傳統(tǒng)的一日三餐,下午茶和夜宵逐漸成為消費(fèi)者的外賣新寵。為把握這一商業(yè)機(jī)遇,ChinaSkills公司計(jì)劃進(jìn)駐外賣平臺(tái)市場,現(xiàn)需對(duì)大規(guī)模成熟外賣平臺(tái)進(jìn)行詳細(xì)評(píng)估調(diào)研,采集多方多維度數(shù)據(jù),尋找行業(yè)痛點(diǎn),摸清市場需求,以技術(shù)為手段為投資保駕護(hù)航。為完成該項(xiàng)工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),以Python、Java、Scala作為整個(gè)項(xiàng)目的基礎(chǔ)開發(fā)語言,基于大數(shù)據(jù)平臺(tái)綜合利用Spark、MySQL、Scrapy、Flask、ECharts等,對(duì)數(shù)據(jù)進(jìn)行獲取、處理、清洗、挖掘、分析、可視化呈現(xiàn),力求實(shí)現(xiàn)對(duì)公司未來的重點(diǎn)戰(zhàn)略方向提出建議。你們作為該小組的技術(shù)人員,請(qǐng)按照下面任務(wù)完成本次工作,并編制綜合報(bào)告。模塊A:大數(shù)據(jù)平臺(tái)及組件的部署管理(15分)環(huán)境說明:服務(wù)端登錄地址詳見各模塊服務(wù)端說明。補(bǔ)充說明:各節(jié)點(diǎn)可通過客戶端XShell工具進(jìn)行SSH訪問;Master節(jié)點(diǎn)MySQL數(shù)據(jù)庫用戶名/密碼:root/123456;相關(guān)軟件安裝包在Master節(jié)點(diǎn)的/chinaskills目錄下,請(qǐng)選擇對(duì)應(yīng)的安裝包進(jìn)行安裝,用不到的可忽略;所有模塊中應(yīng)用命令必須采用絕對(duì)路徑。任務(wù)一:Hadoop完全分布式部署管理本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境。命令中要求使用絕對(duì)路徑,具體部署要求如下:將master節(jié)點(diǎn)JDK安裝包解壓并移動(dòng)到/usr/local/src路徑,將命令復(fù)制并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;修改/root/.bash_profile文件,設(shè)置JDK環(huán)境變量,配置完畢后在master節(jié)點(diǎn)分別執(zhí)行“java”和“javac”命令,將命令行執(zhí)行結(jié)果分別截圖并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;請(qǐng)完成host相關(guān)配置,將三個(gè)節(jié)點(diǎn)分別命名為master、slave1、slave2,從master復(fù)制上面步驟配置的JDK環(huán)境變量文件以及JDK解壓后的安裝文件到slave1、slave2節(jié)點(diǎn),將全部復(fù)制命令復(fù)制并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;配置SSH免密登錄,實(shí)現(xiàn)從master登錄到slave1,將登錄命令和執(zhí)行結(jié)果復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;將配置文件hadoop-env.sh變更內(nèi)容復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;將配置文件core-site.xml變更內(nèi)容復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;初始化Hadoop環(huán)境namenode,將命令及初始化結(jié)果復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;查看master節(jié)點(diǎn)jps進(jìn)程,將查看結(jié)果復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)二:Spark組件部署管理(Standalone模式)本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,具體部署要求如下:在master節(jié)點(diǎn)解壓scala安裝包,將解壓后的安裝文件移動(dòng)到“/usr/local/src”路徑下并更名為scala,將全部命令復(fù)制并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;設(shè)置scala環(huán)境變量,并使環(huán)境變量只對(duì)root用戶生效,將變量配置內(nèi)容復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;進(jìn)入scala命令行界面,將查看結(jié)果復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;在master節(jié)點(diǎn)解壓Spark安裝包,將解壓后的安裝文件移動(dòng)到“usr/local/src”路徑下,并更名為spark,將全部命令復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;修改spark-env.sh.template為spark-env.sh并在其中配置Spark的master節(jié)點(diǎn)主機(jī)名、端口、worker結(jié)點(diǎn)的核數(shù)、內(nèi)存,將修改的配置內(nèi)容復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;完善其他配置并啟動(dòng)Spark(Standalone模式)集群,啟動(dòng)SparkShell連接集群,將連接結(jié)果截圖(截圖需包含連接命令)粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)三:Hive組件部署管理本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,具體部署要求如下:將master節(jié)點(diǎn)Hive安裝包解壓并移動(dòng)到/usr/local/src下,將命令復(fù)制并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;把解壓后的apache-hive-1.2.2-bin文件夾更名為hive;進(jìn)入hive文件夾使用ls命令進(jìn)行查看,并將查看結(jié)果復(fù)制并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;設(shè)置Hive環(huán)境變量,并使環(huán)境變量只對(duì)當(dāng)前root用戶生效;并將環(huán)境變量配置內(nèi)容復(fù)制并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;將Hive安裝目錄里hive-default.xml.template文件更名為hive-site.xml;并將更改命令復(fù)制并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;修改hive-site.xml配置文件,將MySQL數(shù)據(jù)庫作為Hive元數(shù)據(jù)庫。將配置文件中配置Hive元存儲(chǔ)的相關(guān)內(nèi)容復(fù)制并粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;初始化Hive元數(shù)據(jù),將MySQL數(shù)據(jù)庫JDBC驅(qū)動(dòng)拷貝到Hive安裝目錄的lib文件夾下;并通過schematool相關(guān)命令執(zhí)行初始化,將初始化結(jié)果復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;完善其他配置并啟動(dòng)Hive,將命令行輸出結(jié)果復(fù)制粘貼至客戶端桌面【Release\模塊A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。模塊B:數(shù)據(jù)采集與處理(20分)項(xiàng)目背景說明查看餐飲外送統(tǒng)計(jì)平臺(tái)網(wǎng)站源碼結(jié)構(gòu)。網(wǎng)站前后臺(tái)地址詳見各模塊服務(wù)端說明;打開網(wǎng)站,在網(wǎng)頁中右鍵點(diǎn)擊檢查,或者F12快捷鍵,查看源碼頁面;檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。從餐飲外送統(tǒng)計(jì)平臺(tái)中采集需要數(shù)據(jù),按照要求使用Python語言編寫代碼工程,獲取指定數(shù)據(jù)項(xiàng),并對(duì)結(jié)果數(shù)據(jù)集進(jìn)行必要的數(shù)據(jù)處理。請(qǐng)將符合任務(wù)要求的結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。具體步驟如下:創(chuàng)建工程項(xiàng)目:C:\food_delivery_crawl構(gòu)建采集請(qǐng)求按要求定義相關(guān)字段獲取有效數(shù)據(jù)將獲取到的數(shù)據(jù)保存到指定位置對(duì)數(shù)據(jù)集進(jìn)行基礎(chǔ)的數(shù)據(jù)處理至此已從餐飲外送統(tǒng)計(jì)平臺(tái)中獲取所需數(shù)據(jù),并完成了必要的基礎(chǔ)的數(shù)據(jù)處理。自行創(chuàng)建Scrapy工程項(xiàng)目food_delivery_crawl,路徑為C:\food_delivery_crawl,按照任務(wù)要求從餐飲外送統(tǒng)計(jì)平臺(tái)中獲取數(shù)據(jù)。每條數(shù)據(jù)記錄請(qǐng)以單獨(dú)一行保存,信息存儲(chǔ)格式為key:value。數(shù)據(jù)文件保存路徑為:C:\crawl_output。示例:[{"key1":"***","key2":"***",……},{"key1":"***","key2":"***",……},……{"key1":"***","key2":"***",……}]任務(wù)一:爬取“配送平臺(tái)”頁面相關(guān)數(shù)據(jù)自行創(chuàng)建Scrapy工程,編寫工程代碼,爬取“配送平臺(tái)”頁面相關(guān)數(shù)據(jù),通過工程代碼分頁爬取,將使用re解析分頁鏈接的程序源代碼(正則表達(dá)式需能體現(xiàn)url的構(gòu)造規(guī)律)復(fù)制粘貼至客戶端桌面【Release\模塊B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)二:爬取“店鋪運(yùn)營數(shù)據(jù)”頁面相關(guān)數(shù)據(jù)編寫工程代碼,爬取“店鋪運(yùn)營數(shù)據(jù)”頁面相關(guān)數(shù)據(jù),通過工程代碼分頁爬取,將使用re解析分頁鏈接的程序源代碼(正則表達(dá)式需能體現(xiàn)url的構(gòu)造規(guī)律)復(fù)制粘貼至客戶端桌面【Release\模塊B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)三:將數(shù)據(jù)存入json文件運(yùn)行代碼,爬取“配送平臺(tái)”頁面與“店鋪運(yùn)營數(shù)據(jù)”頁面數(shù)據(jù)分別至distribution.json與store_operation_data.json文件。查看文件并填寫采集到的記錄行數(shù),并將以下內(nèi)容及答案在PyCharm控制臺(tái)打印輸出,將輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:distribution.json數(shù)據(jù)行數(shù):store_operation_data.json數(shù)據(jù)行數(shù):任務(wù)四:刪除異常樣本distribution.json文件中,請(qǐng)?zhí)蕹龑傩粤小翱蛻羧∠麛?shù)”小于“商戶取消數(shù)”的異常數(shù)據(jù)條目,并在PyCharm控制臺(tái)打印輸出刪除的樣本條數(shù),并將打印輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:===因異常樣本記錄,刪除樣本條數(shù)為***條===任務(wù)五:缺失值處理請(qǐng)以任務(wù)四的結(jié)果數(shù)據(jù)集作為數(shù)據(jù)源,針對(duì)“到店時(shí)長”屬性,審查缺失值數(shù)量:(a)當(dāng)缺失值比例小于5%時(shí),對(duì)包含缺失值數(shù)據(jù)的樣本進(jìn)行刪除。(b)當(dāng)缺失值比例大于等于5%時(shí),對(duì)缺失值字段進(jìn)行均值填充。在PyCharm控制臺(tái)按以下示例格式打印輸出結(jié)論,并將打印輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:===“到店時(shí)長”屬性缺失值比例小于5%,刪除樣本條數(shù)為***條===或:===“到店時(shí)長”屬性缺失值比例大于等于5%,平均值為:***,填充樣本條數(shù)為***條===任務(wù)六:劃分?jǐn)?shù)據(jù)集請(qǐng)針對(duì)store_operation_data.json數(shù)據(jù)集,根據(jù)屬性“超時(shí)率(9日)”劃分?jǐn)?shù)據(jù)集store_operation1.json(超時(shí)率(9日)小于等于5%),store_operation2.json(超時(shí)率(9日)大于5%),保存路徑為:C:\crawl_output。并在PyCharm控制臺(tái)打印輸出兩個(gè)數(shù)據(jù)集的數(shù)據(jù)記錄條數(shù),并將打印輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:===store_operation1.json包含樣本條數(shù)為***條======store_operation2.json包含樣本條數(shù)為***條===模塊C:數(shù)據(jù)清洗與挖掘分析(25分)環(huán)境說明:服務(wù)端登錄地址詳見各模塊服務(wù)端說明。補(bǔ)充說明:各節(jié)點(diǎn)可通過客戶端XShell工具進(jìn)行SSH訪問,并且已安裝好大數(shù)據(jù)集群;Master節(jié)點(diǎn)MySQL數(shù)據(jù)庫用戶名/密碼:root/Password123$;清洗數(shù)據(jù)源在Master節(jié)點(diǎn)的/chinaskills目錄下;所有模塊中應(yīng)用命令必須采用絕對(duì)路徑。項(xiàng)目背景說明餐飲外賣平臺(tái)的核心價(jià)值體現(xiàn)在配送,而配送的價(jià)值則依賴于商家與客戶的雙向選擇。外賣平臺(tái)通常會(huì)通過內(nèi)容激活消費(fèi)者和商家兩個(gè)群體的活躍度。消費(fèi)者會(huì)參考平臺(tái)展示的內(nèi)容選擇商家,商家也會(huì)以消費(fèi)者評(píng)價(jià)與平臺(tái)統(tǒng)計(jì)數(shù)據(jù)為依據(jù)調(diào)整策略,由此再吸引更多的用戶下單、評(píng)論、形成正向循環(huán)。保證配送的時(shí)效與品質(zhì)是從優(yōu)化用戶體驗(yàn)的角度,吸引更多的用戶參與,進(jìn)而帶動(dòng)商家不斷入駐。由此,商家、消費(fèi)者、騎手在平臺(tái)上形成越來越多的真實(shí)可靠的數(shù)據(jù),幫助消費(fèi)者更好的做出消費(fèi)決策,同時(shí)促進(jìn)商家提高服務(wù)質(zhì)量。而平臺(tái)通過數(shù)據(jù),不斷調(diào)整優(yōu)化服務(wù),從而不斷提升這種多邊網(wǎng)絡(luò)效應(yīng)。提升網(wǎng)絡(luò)效應(yīng)的直接結(jié)果就是用戶和商家規(guī)模大幅提升,進(jìn)而形成規(guī)模效應(yīng)——降低獲客成本、提高效益,并且不斷提升自己的行業(yè)壁壘。為探索各大外賣平臺(tái)的市場策略與經(jīng)營模式,現(xiàn)已從及平臺(tái)獲取到了原始數(shù)據(jù)集,包含“餐廳ID,城市,商戶業(yè)務(wù)包,配送范圍”等多項(xiàng)字段。為保障用戶隱私和行業(yè)敏感信息,已經(jīng)對(duì)數(shù)據(jù)脫敏(數(shù)據(jù)脫敏是指對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù),在涉及客戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,對(duì)真實(shí)數(shù)據(jù)進(jìn)行改造并提供測試使用,如身份證號(hào)、手機(jī)號(hào)等個(gè)人敏感信息都需要進(jìn)行數(shù)據(jù)脫敏)。本模塊已將脫敏后的數(shù)據(jù)存放于Master節(jié)點(diǎn)的/chinaskills目錄下。工程所需配置文件pom.xml存放于客戶端“桌面\Resource\數(shù)據(jù)清洗與挖掘分析配置文件”下。任務(wù)中所有命令務(wù)必使用絕對(duì)路徑。任務(wù)一:數(shù)據(jù)清洗子任務(wù)1任務(wù)背景:數(shù)據(jù)源為眾多網(wǎng)站及平臺(tái)的數(shù)據(jù)匯總,且為多次采集的結(jié)果,在整合多來源數(shù)據(jù)時(shí)可能遇到數(shù)據(jù)重復(fù),或數(shù)據(jù)拼接導(dǎo)致的屬性列缺失或冗余等情況。請(qǐng)根據(jù)任務(wù)具體參數(shù)要求,針對(duì)原始數(shù)據(jù)集進(jìn)行清洗,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,復(fù)制并保存結(jié)果。任務(wù)描述:數(shù)據(jù)源文件存放于Master節(jié)點(diǎn)的/chinaskills目錄下,請(qǐng)按照如下要求編寫Scala程序?qū)?shù)據(jù)進(jìn)行清洗,并將結(jié)果輸出保存。分析/chinaskills中json數(shù)據(jù)文件;編寫程序針對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的分析及處理;程序打包并在Spark(Standalone模式)集群運(yùn)行,結(jié)果輸出至HDFS文件系統(tǒng)/diliveryoutput1目錄(自行創(chuàng)建)下以及/diliveryoutput2目錄(自行創(chuàng)建)下。具體任務(wù)要求:1、將Master節(jié)點(diǎn)/chinaskills中json數(shù)據(jù)源文件上傳至HDFS新建目錄/platform_data中,讀取相關(guān)數(shù)據(jù)文件,查看文件包含數(shù)據(jù)記錄數(shù)并在XShell命令行中打印,將打印輸出結(jié)果截圖并粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:文件數(shù)據(jù)記錄數(shù)為:2、編寫Scala程序讀取任務(wù)要求1的數(shù)據(jù)結(jié)果,先針對(duì)屬性列“platform_A_restid”重復(fù)的樣本,以重復(fù)樣本記錄的“A_day_30_cnt”與“B_day_30_cnt”屬性均值分別作為這兩個(gè)屬性的值,并刪除多余樣本,保留“updated_at”值最近的那條樣本;再對(duì)結(jié)果數(shù)據(jù)集針對(duì)屬性列“platform_B_restid”重復(fù)的樣本,以重復(fù)樣本記錄的“A_day_30_cnt”與“B_day_30_cnt”屬性均值分別作為這兩個(gè)屬性的值,并刪除多余樣本,保留“updated_at”值最近的那條樣本,并在XShell命令行中以打印語句輸出刪除的樣本條數(shù)。請(qǐng)將結(jié)果數(shù)據(jù)集json文件輸出至HDFS文件系統(tǒng)/diliveryoutput1目錄下(將分區(qū)數(shù)設(shè)置為1)。將打印輸出結(jié)果截圖并粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。(截圖內(nèi)容需包含打印語句輸出結(jié)果的上下各5行運(yùn)行日志)。打印示例格式:===因重復(fù)樣本記錄,刪除樣本條數(shù)共計(jì)***條===3、編寫Scala程序先讀取任務(wù)要求2的結(jié)果/diliveryoutput1中的數(shù)據(jù),再刪除數(shù)據(jù)中缺失值大于3個(gè)的字段的數(shù)據(jù)條目,在XShell命令行中打印輸出刪除條目數(shù),將打印輸出結(jié)果截圖并粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:===“刪除缺失值大于3個(gè)的字段的數(shù)據(jù)條數(shù)為***條”===4、將任務(wù)要求3處理后的數(shù)據(jù)記錄以[latitude,longitude,A_day_30_cnt]依次降序排列,并將結(jié)果數(shù)據(jù)集json文件輸出至HDFS文件系統(tǒng)/diliveryoutput2目錄下(將分區(qū)數(shù)設(shè)置為1)。在XShell命令行中使用HadoopShell相關(guān)命令直接查看結(jié)果數(shù)據(jù)文件前5條記錄。將查看命令及查看結(jié)果復(fù)制并粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。子任務(wù)21、編寫Scala程序,讀取大數(shù)據(jù)集群HDFS文件系統(tǒng)中/aggr_wm目錄下的json數(shù)據(jù),將city_rst_info根據(jù)’/t’拆分?jǐn)?shù)據(jù)單元,同時(shí)每個(gè)數(shù)據(jù)單元中包含A_rst_name、餐廳狀態(tài)、訂單數(shù)這三個(gè)字段并用“:”分割,最終將這三個(gè)字段分別獨(dú)立成列,并按照city_name、A_rst_name、status、order進(jìn)行字典排序,將數(shù)據(jù)保存為json文件并保存至HDFS文件系統(tǒng)/diliveryoutput8目錄(自行創(chuàng)建,將分區(qū)數(shù)設(shè)置為1)下,在XShell命令行中使用HadoopShell相關(guān)命令直接查看前10條記錄,將查看結(jié)果截圖粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。源數(shù)據(jù):字段名中文解釋備注city_name城市例如:北京city_rst_info城市中的參觀相關(guān)信息字段內(nèi)容為:A_rst_name:餐廳狀態(tài):訂單數(shù)/tA_rst_name:餐廳狀態(tài):訂單數(shù)…例如:北京常來飯店:正常:406/t喜樂多:異常:385/t拆分后格式為:字段名中文解釋備注city_name城市名稱A_rst_name餐廳名稱status狀態(tài)order訂單數(shù)例如:city_nameA_rst_namestatusorder北京常來飯店正常406北京喜樂多異常3852、編寫Scala程序,基于/diliveryoutput8目錄下的數(shù)據(jù),在同一城市中,按照order進(jìn)行跳躍順序排序生成seq字段(order值相同,則排序是一樣的,下一個(gè)排序會(huì)跳過,例如前兩條數(shù)據(jù)的order值相同但和第3條的order值不同,則排序的seq值為1,1,3),再按照city_name、seq、A_rst_name、status進(jìn)行字典排序并生成索引序列index,將結(jié)果數(shù)據(jù)json文件保存至HDFS文件系統(tǒng)/diliveryoutput9目錄(自行創(chuàng)建,將分區(qū)數(shù)設(shè)置為1)下,在XShell命令行中使用HadoopShell相關(guān)命令直接查看前10條記錄,將查看結(jié)果截圖粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。格式為:字段名中文解釋備注index索引序列例如:1,2,3,4,5city_name城市名稱A_rst_name餐廳名稱status餐廳狀態(tài)例如:正常/異常order訂單數(shù)seq組內(nèi)排序序列例如:1,1,3,3,5任務(wù)二:數(shù)據(jù)挖掘分析子任務(wù)1任務(wù)背景:網(wǎng)格化營銷是近年來新興的一種營銷管理模式,已被廣泛地運(yùn)用于市場精準(zhǔn)營銷。在市場營銷中,采取地圖營銷、網(wǎng)格管理、精準(zhǔn)策略等,可將客戶的心理需求與其日常生活緊密地聯(lián)系起來,巧妙運(yùn)用網(wǎng)格化管理和營銷地圖,以此來實(shí)現(xiàn)客戶的營銷精準(zhǔn)度與價(jià)值提升,提高單一客戶貢獻(xiàn)值和營銷效率。其核心旨在幫助企業(yè)快速響應(yīng)市場需求,為用戶提供更加便捷的、專業(yè)化服務(wù),并使企業(yè)的資源分配以客戶為中心,以市場變化為導(dǎo)向,固本強(qiáng)基、開拓市場、提升效益,有助于平臺(tái)有效地制定績效戰(zhàn)略。請(qǐng)根據(jù)任務(wù)具體參數(shù)要求,針對(duì)相關(guān)數(shù)據(jù)集進(jìn)行分析,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,復(fù)制并保存結(jié)果。任務(wù)描述:數(shù)據(jù)源文件為數(shù)據(jù)清洗子任務(wù)1的結(jié)果數(shù)據(jù)(HDFS文件系統(tǒng)/diliveryoutput2目錄下的數(shù)據(jù)),按照如下要求編寫Scala程序?qū)崿F(xiàn)對(duì)數(shù)據(jù)的挖掘分析。解析相關(guān)數(shù)據(jù)源json文件;按網(wǎng)格匯總“餐廳總數(shù)”、“近7天平臺(tái)單量”、“近7天推單”并進(jìn)行相關(guān)計(jì)算;程序打包并在Spark(Standalone模式)集群上運(yùn)行,輸出結(jié)果。具體任務(wù)要求:1、讀取相關(guān)數(shù)據(jù)文件,參考“網(wǎng)格ID、網(wǎng)格名稱、餐廳ID、近7天平臺(tái)單量、近7天推單、餐廳名”等相關(guān)字段,按網(wǎng)格ID統(tǒng)計(jì)“餐廳總數(shù)”、“近7天平臺(tái)單量”總數(shù)、”近7天推單”總數(shù),并以餐廳總數(shù)降序排列,在XShell命令行中以打印語句輸出餐廳總數(shù)前5位的網(wǎng)格相關(guān)信息。將打印輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:===網(wǎng)格ID:***,網(wǎng)格名稱:***,近7天平臺(tái)總單量:***,近7天推單總量:***===子任務(wù)2任務(wù)背景:聚類分析又稱群分析,它是研究分類問題的一種統(tǒng)計(jì)分析方法,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要算法。聚類分析是由若干模式組成的。通常,模式是一個(gè)度量的向量,或者是多維空間中的一個(gè)點(diǎn)。聚類分析以相似性為基礎(chǔ),同一個(gè)聚類簇中的模式之間具有相似性,不同聚類簇之間具有相異性。在商業(yè)上,聚類可以幫助平臺(tái)市場分析人員從數(shù)據(jù)中區(qū)分出不同的商家群體,并提取每一類商家的經(jīng)營模式。它作為數(shù)據(jù)挖掘中的一個(gè)模塊,可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)中的深層的信息,并且提取出每一類樣本的特點(diǎn),或者把注意力放在某一個(gè)特定的類上以作進(jìn)一步的分析;同時(shí),聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個(gè)預(yù)處理步驟。本題數(shù)據(jù)請(qǐng)采用數(shù)據(jù)清洗子任務(wù)1的結(jié)果數(shù)據(jù)集/diliveryoutput2中的數(shù)據(jù)。選擇數(shù)據(jù)分析的維度通常分為用戶維度、行為維度和產(chǎn)品維度,想要對(duì)外賣平臺(tái)入駐商家進(jìn)行聚類劃分,有側(cè)重地分類評(píng)估商家對(duì)平臺(tái)的價(jià)值,首先需要針對(duì)商家數(shù)據(jù)選擇核心數(shù)據(jù)集,為確保聚類模型收斂速度與質(zhì)量,以及消除量綱對(duì)聚類結(jié)果的影響,首先應(yīng)對(duì)數(shù)據(jù)進(jìn)行歸一化或標(biāo)準(zhǔn)化處理,再進(jìn)行數(shù)據(jù)建模。任務(wù)描述:請(qǐng)以數(shù)據(jù)清洗子任務(wù)1的結(jié)果數(shù)據(jù)(大數(shù)據(jù)集群HDFS文件系統(tǒng)/diliveryoutput2目錄下的數(shù)據(jù))作為輸入數(shù)據(jù)源,按照如下要求編寫Scala程序?qū)崿F(xiàn)對(duì)數(shù)據(jù)的分析,并保存結(jié)果。解析/diliveryoutput2目錄下的數(shù)據(jù)源文件。提取商家相關(guān)屬性數(shù)據(jù)。針對(duì)商家地理位置進(jìn)行聚類劃分。查看聚類結(jié)果。具體任務(wù)要求:1、編寫Scala程序讀取/diliveryoutput2數(shù)據(jù)源文件,篩選北京地區(qū)(“城市”字段為“北京市”)商家數(shù)據(jù)記錄形成篩選數(shù)據(jù)集,并將篩選數(shù)據(jù)集以json文件格式輸出至HDFS文件系統(tǒng)/diliveryoutput4目錄(自行創(chuàng)建,將分區(qū)數(shù)設(shè)置為1)下。請(qǐng)?jiān)赬Shell命令行中以打印語句輸出篩選得到的數(shù)據(jù)記錄條數(shù),并將打印輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。(截圖內(nèi)容需包含打印語句輸出結(jié)果的上下各5行運(yùn)行日志)。打印示例格式:===北京地區(qū)樣本條數(shù)為***條===2、請(qǐng)使用上述的結(jié)果數(shù)據(jù)集/diliveryoutput4中的數(shù)據(jù),編寫Scala程序,根據(jù)北京地區(qū)商家的經(jīng)緯度屬性,對(duì)商家進(jìn)行k-means聚類,聚類數(shù)設(shè)為5,迭代次數(shù)為2000次,請(qǐng)?jiān)赬Shell命令行中以打印語句輸出聚類中心、每個(gè)類的商家數(shù),以及該類所包含的商圈,并將打印輸出結(jié)果復(fù)制并粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:=cluster0:聚類中心為[**,**],商家數(shù)為***個(gè),包含商圈:【*,*,…】==cluster1:聚類中心為[**,**],商家數(shù)為***個(gè),包含商圈:【*,*,…】=……3、請(qǐng)使用任務(wù)要求1的結(jié)果數(shù)據(jù)集/diliveryoutput4中的數(shù)據(jù),結(jié)合任務(wù)要求2的結(jié)論,編寫Scala程序,分別統(tǒng)計(jì)各聚類中在平臺(tái)A與平臺(tái)B上架的商家數(shù)量,以及同時(shí)上架兩個(gè)平臺(tái)的商家數(shù)量。在XShell命令行中以打印語句輸出結(jié)果,并將打印輸出結(jié)果復(fù)制并粘貼至客戶端桌面【Release\模塊C提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:=cluster0:【*,*,…】,A平臺(tái)商家數(shù)量:**,B平臺(tái)商家數(shù)量:**,同時(shí)上架A、B平臺(tái)的商家數(shù)量:**==cluster1:【*,*,…】,A平臺(tái)商家數(shù)量:**,B平臺(tái)商家數(shù)量:**,同時(shí)上架A、B平臺(tái)的商家數(shù)量:**=……模塊D:數(shù)據(jù)可視化(20分)MySQL數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集包含了城市、商圈、商家標(biāo)識(shí)id、網(wǎng)格ID、餐品種類、標(biāo)品屬性等多項(xiàng)基礎(chǔ)信息字段。請(qǐng)使用Flask框架,結(jié)合Echarts完成下列任務(wù)。數(shù)據(jù)庫地址信息詳見各模塊服務(wù)端說明自行創(chuàng)建代碼工程路徑為:C:\food_delivery任務(wù)一:雙餅圖呈現(xiàn)城市商戶業(yè)務(wù)包占比任務(wù)背景:外賣平臺(tái)在不同城市進(jìn)行推廣時(shí)應(yīng)具有不同的側(cè)重方面,城市具有不同的人口數(shù)量及特點(diǎn),例如居住人口數(shù)量、工作人口數(shù)量、過往人口數(shù)量、居民戶數(shù)和企事業(yè)單位數(shù),及相應(yīng)人口年齡、性別、職業(yè)和收入水平構(gòu)成等。商戶業(yè)務(wù)包是指該商戶在經(jīng)營定位時(shí)所確定的主要消費(fèi)群體。不同城市消費(fèi)群占比不同,大致可以分為大客戶,白領(lǐng),小客戶,高校,家庭,其他六個(gè)商戶業(yè)務(wù)包。請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計(jì)并輸出城市商戶業(yè)務(wù)包相關(guān)的分析圖例。任務(wù)描述:請(qǐng)根據(jù)distribution_platform、store_basic_informations數(shù)據(jù)表中的相關(guān)字段,統(tǒng)計(jì)不同城市的商戶業(yè)務(wù)包組成,并以雙餅圖表達(dá)。程序輸出及可視化輸出時(shí)請(qǐng)使用商戶業(yè)務(wù)包中文釋義,中文釋義對(duì)應(yīng)關(guān)系如表1所示。字母縮寫中文釋義GKA大客戶BL白領(lǐng)SIG小客戶GX高校FML家庭OTH其他表1商戶業(yè)務(wù)包中文釋義具體任務(wù)要求:1、根據(jù)相關(guān)數(shù)據(jù)表中的字段,分析北京與廣州兩座城市在商戶業(yè)務(wù)包屬性占比方面的差異。在PyCharm控制臺(tái)打印輸出兩座城市不同商戶業(yè)務(wù)包屬性的商家數(shù)量,以商家數(shù)量降序排列,將輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:==北京:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家=====北京:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===……==廣州:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家=====廣州:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===……2、使用Flask框架,結(jié)合Echarts,完成雙餅圖輸出。要求標(biāo)題分別為“北京商戶業(yè)務(wù)包屬性占比”(左)、“廣州商戶業(yè)務(wù)包屬性占比”(右),順時(shí)針顯示次序與第1小問的打印輸出語句數(shù)據(jù)一致,將可視化結(jié)果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)二:柱狀堆疊圖呈現(xiàn)商戶業(yè)務(wù)包評(píng)價(jià)情況任務(wù)背景:在外賣平臺(tái)中,用戶的評(píng)論具有雙向影響。不僅可以促進(jìn)商家根據(jù)消費(fèi)者評(píng)價(jià)調(diào)整自己的經(jīng)營策略,也能夠影響其他用戶的下單率。相關(guān)數(shù)據(jù)顯示,瀏覽評(píng)價(jià)的用戶比只瀏覽門店商品的用戶下單轉(zhuǎn)化率平均高出25%。因此,商家的店鋪評(píng)論對(duì)提高下單率是十分重要的。請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計(jì)并輸出評(píng)價(jià)相關(guān)的分析圖例。任務(wù)描述:請(qǐng)根據(jù)distribution_platform數(shù)據(jù)表中的數(shù)據(jù),統(tǒng)計(jì)各商戶業(yè)務(wù)包評(píng)價(jià)情況,并柱狀堆疊圖呈現(xiàn)。程序輸出及可視化輸出時(shí)請(qǐng)使用商戶業(yè)務(wù)包中文釋義。具體任務(wù)要求:1、根據(jù)相關(guān)數(shù)據(jù)表中的數(shù)據(jù)字段,統(tǒng)計(jì)各商戶業(yè)務(wù)包差評(píng)數(shù)、好評(píng)數(shù),并在PyCharm控制臺(tái)以評(píng)價(jià)數(shù)降序打印輸出,將輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:==1商戶業(yè)務(wù)包:***,差評(píng)數(shù):***條,好評(píng)數(shù):***條=====2商戶業(yè)務(wù)包:***,差評(píng)數(shù):***條,好評(píng)數(shù):***條===……2、使用Flask框架,結(jié)合Echarts,完成柱狀堆疊圖輸出。橫坐標(biāo)為商戶業(yè)務(wù)包名稱(中文釋義),縱坐標(biāo)為評(píng)論數(shù)量,標(biāo)題為“各業(yè)務(wù)包評(píng)價(jià)組成”,柱圖下方為好評(píng)數(shù)(紅色),上方堆疊差評(píng)數(shù)(黑色),展示順序與第1小問的打印輸出語句一致,將可視化結(jié)果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)三:玫瑰餅圖呈現(xiàn)不同商戶業(yè)務(wù)包投訴占比任務(wù)背景:投訴是顧客對(duì)平臺(tái)管理和服務(wù)不滿的表達(dá)方式,也是企業(yè)有價(jià)值的信息來源,它為企業(yè)探索更多可能。分析顧客投訴的種種因素,把顧客的不滿轉(zhuǎn)化滿意,鎖定他們對(duì)平臺(tái)和產(chǎn)品的忠誠,已成為企業(yè)營銷實(shí)踐的重要內(nèi)容之一。請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計(jì)并輸出投訴相關(guān)的分析圖例。任務(wù)描述:請(qǐng)根據(jù)distribution_platform、store_basic_informations數(shù)據(jù)表中的數(shù)據(jù)字段,統(tǒng)計(jì)北京地區(qū)(“city_name”字段為“北京”)不同“商戶業(yè)務(wù)包”的投訴數(shù)量(投訴數(shù)量為商戶投訴數(shù)量和用戶投訴數(shù)量之和),并以玫瑰餅圖呈現(xiàn)。具體任務(wù)要求:1、根據(jù)相關(guān)數(shù)據(jù)庫數(shù)據(jù)表中的字段,統(tǒng)計(jì)北京地區(qū)不同商戶業(yè)務(wù)包投訴數(shù)量。在PyCharm控制臺(tái)打印輸出不同商戶業(yè)務(wù)包的投訴數(shù)量,以投訴數(shù)量降序排列,將輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:==商戶業(yè)務(wù)包:***,投訴數(shù)量:***家=====商戶業(yè)務(wù)包:***,投訴數(shù)量:***家===……2、使用Flask框架,結(jié)合Echarts,完成玫瑰圖輸出。要求標(biāo)題為“北京商戶業(yè)務(wù)包投訴占比”,順時(shí)針顯示次序與第1小問的打印輸出語句數(shù)據(jù)一致,將可視化結(jié)果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)四:氣泡圖呈現(xiàn)商家分布的地理位置任務(wù)背景:商圈,指某商場以其所在地為原點(diǎn),沿著一定的方向和距離擴(kuò)展,吸引顧客的輻射范圍。簡單地說,就是來店顧客所居住或工作的區(qū)域范圍。無論餐廳規(guī)模大小,其銷售覆蓋區(qū)域總是有一定的地理范圍。這個(gè)地理范圍就是以某商場為中心,向四周輻射到可能來店消費(fèi)的顧客所居住地或工作地。請(qǐng)按任務(wù)指定要求,輸出相關(guān)圖例。任務(wù)描述:請(qǐng)根據(jù)store_basic_informations數(shù)據(jù)表中相關(guān)字段,明晰商圈與商鋪聚集程度之間的關(guān)系。請(qǐng)以經(jīng)度為橫坐標(biāo),緯度為縱坐標(biāo),繪制商家數(shù)量氣泡圖,并以該地理位置的商家數(shù)量/10作為氣泡半徑。具體任務(wù)要求:1、提取數(shù)據(jù)表中相關(guān)字段,在控制臺(tái)按照“商家數(shù)量”降序排列,打印輸出前10個(gè)商圈名稱及包含的商家數(shù)量,將輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:==1:商圈****=商家數(shù)為***個(gè)=====2:商圈****=商家數(shù)為***個(gè)===……2、使用Flask框架,結(jié)合Echarts,完成氣泡圖輸出。要求氣泡圖標(biāo)題為“商家聚集地理位置展示”,橫坐標(biāo)為經(jīng)度,縱坐標(biāo)為緯度,以該商圈的商家數(shù)量/10作為氣泡半徑,繪制氣泡圖(含全部商圈數(shù)據(jù))。將可視化結(jié)果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)五:雙折線圖呈現(xiàn)不同平臺(tái)商家銷量情況任務(wù)背景:市場份額亦稱“市場占有率”。指某企業(yè)的銷售量(或銷售額)在市場同類品類中所占比重。反映企業(yè)在市場上的地位。通常市場份額越高,競爭力越強(qiáng)。市場占有率一般有3種基本測算方法:(1)總體市場份額,指某企業(yè)銷售量在整個(gè)行業(yè)中所占比重。(2)目標(biāo)市場份額,指某企業(yè)銷售量在其目標(biāo)市場,即其所服務(wù)的市場中所占比重。(3)相對(duì)市場份額,指某企業(yè)銷售量與市場上最大競爭者銷售量之比,若高于1,表明該企業(yè)其為這一市場的領(lǐng)導(dǎo)者。請(qǐng)按任務(wù)指定要求,輸出不同平臺(tái)商家銷售分析相關(guān)圖例。任務(wù)描述:請(qǐng)根據(jù)store_basic_informations數(shù)據(jù)表中的數(shù)據(jù),分別統(tǒng)計(jì)A平臺(tái)與B平臺(tái)30天銷量最高的10個(gè)商家的銷量,并以共享y軸的雙折線圖呈現(xiàn)。具體任務(wù)要求:1、根據(jù)相關(guān)數(shù)據(jù)表中相關(guān)字段,分別統(tǒng)計(jì)A平臺(tái)與B平臺(tái)30天銷量最高的10個(gè)商家及銷量,在控制臺(tái)按照“30天銷量”降序打印輸出商家標(biāo)識(shí)id,商家名稱,商家所屬平臺(tái),30天銷量,將輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:==商家標(biāo)識(shí)id:“商家名稱”,Platform-A,銷量為***=====商家標(biāo)識(shí)id:“****”,Platform-A,銷量為***===……==商家標(biāo)識(shí)id:“****”,Platform-A,銷量為***=====商家標(biāo)識(shí)id:“商家名稱”,Platform-B,銷量為***=====商家標(biāo)識(shí)id:“****”,Platform-B,銷量為***===……==商家標(biāo)識(shí)id:“****”,Platform-B,銷量為***===2、使用Flask框架,結(jié)合Echarts,完成可視化輸出。要求雙折線圖標(biāo)題為“各平臺(tái)30天銷量最高10大商家”,橫坐標(biāo)為商家標(biāo)識(shí)id,下方為平臺(tái)A的橫坐標(biāo),上方為平臺(tái)B的橫坐標(biāo)(傾斜顯示、互不遮擋),縱坐標(biāo)為商家銷量,以銷量降序排列,藍(lán)色折線標(biāo)識(shí)Platform-A商家,紅色折線標(biāo)識(shí)Platform-B商家。將可視化結(jié)果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)六:柱狀圖呈現(xiàn)商家營業(yè)時(shí)間情況任務(wù)背景:營業(yè)時(shí)長指商戶開市接單到閉市停業(yè)的時(shí)長,適當(dāng)?shù)卦黾訝I業(yè)時(shí)長有利于提升店鋪的曝光量,同時(shí)能夠在一定程度上獲得平臺(tái)排名加權(quán)。營業(yè)時(shí)間長的店鋪在特定時(shí)間段(大部分商家關(guān)店休息后)面對(duì)的競爭壓力將減小,但增加營業(yè)時(shí)間將增加商家運(yùn)營店鋪的人工成本,同時(shí)也需要考慮不同時(shí)間段內(nèi)運(yùn)力不同的情況,例如有些區(qū)域在晚上12點(diǎn)以后無法配送。請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出營業(yè)時(shí)間相關(guān)分析圖例。任務(wù)描述:請(qǐng)根據(jù)distribution_platform數(shù)據(jù)表中的數(shù)據(jù),統(tǒng)計(jì)平臺(tái)各商家的營業(yè)時(shí)間占比,并柱狀圖呈現(xiàn)。具體任務(wù)要求:1、根據(jù)相關(guān)字段,統(tǒng)計(jì)4小時(shí)以內(nèi)、4~6小時(shí)、6~8小時(shí)、8~12小時(shí)、12小時(shí)以上,5個(gè)區(qū)間段內(nèi)平臺(tái)各商家的營業(yè)時(shí)間占比(區(qū)間取值為前閉后開區(qū)間)。請(qǐng)?jiān)赑yCharm控制臺(tái)以區(qū)間商家數(shù)量降序打印輸出區(qū)間、商家數(shù)量,將輸出結(jié)果截圖粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。打印示例格式:==區(qū)間“4小時(shí)以內(nèi)”,商家***個(gè)=====區(qū)間“4~6小時(shí)”,商家***個(gè)===……2、使用Flask框架,結(jié)合Echarts,完成柱狀圖輸出。標(biāo)題為“各營業(yè)區(qū)間商家數(shù)量對(duì)比”,橫坐標(biāo)為營業(yè)時(shí)長各區(qū)間,縱坐標(biāo)為商家個(gè)數(shù),顯示次序與打印語句數(shù)據(jù)一致。將可視化結(jié)果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。模塊E:綜合分析(15分)任務(wù)一:Spark數(shù)據(jù)傾斜分析在處理模塊C時(shí),我們查看SparkUI會(huì)發(fā)現(xiàn),大部分task運(yùn)行速度極快,其中極小部分task運(yùn)行速度極慢,我們稱這種情況為數(shù)據(jù)傾斜,請(qǐng)問造成數(shù)據(jù)傾斜的原因主要是什么?怎么定位問題出現(xiàn)在哪段代碼呢?將內(nèi)容編寫至客戶端桌面【Release\模塊E綜合分析.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)二:解決數(shù)據(jù)傾斜當(dāng)使用spark產(chǎn)生了數(shù)據(jù)傾斜的情況時(shí),請(qǐng)問有哪些方法可以解決這個(gè)問題呢?將內(nèi)容編寫至客戶端桌面【Release\模塊E綜合分析.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。任務(wù)三:參數(shù)調(diào)優(yōu)和平臺(tái)建議我們使用的是spark2.0,在處理大數(shù)據(jù)量的時(shí)候發(fā)現(xiàn)在聚合、連接等操作的時(shí)候,由于數(shù)據(jù)量過大,shuffle階段會(huì)發(fā)生溢寫(原本在內(nèi)存中的數(shù)據(jù)溢出到磁盤上,導(dǎo)致效率變低)。自spark1.6之后,spark采用UnifiedMemoryManager,存儲(chǔ)內(nèi)存和計(jì)算內(nèi)存可以相互借調(diào),但是我們發(fā)現(xiàn)該內(nèi)存模型效果不理想,于是我們使用LegacyMode(靜態(tài)內(nèi)存系統(tǒng))并進(jìn)行調(diào)參之后發(fā)現(xiàn)效率提高幾倍。該系統(tǒng)的堆內(nèi)內(nèi)存主要是有三個(gè)部分,分別是Storage內(nèi)存區(qū)域(包含unroll、storage和reserved三個(gè)區(qū)域),Execution內(nèi)存區(qū)域(包含reserved和execution),Other內(nèi)存區(qū)域,請(qǐng)寫出這幾個(gè)內(nèi)存區(qū)域占總內(nèi)存的默認(rèn)占比,并寫出其對(duì)應(yīng)的功能?同時(shí)在模塊C中,其中一個(gè)job的聚合連接
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 泵站給水課程設(shè)計(jì)
- 泵房的課程設(shè)計(jì)
- 泵與泵站污水廠課程設(shè)計(jì)
- 氨氣吸收水課程設(shè)計(jì)
- 步進(jìn)送料機(jī)課程設(shè)計(jì)
- 步步高超市課程設(shè)計(jì)
- 代建項(xiàng)目合同范本
- 箱裝蔬菜買賣合同范本
- 二手房車買賣保障合同范本
- 空調(diào)設(shè)備運(yùn)輸服務(wù)合同三篇
- 2023年中考物理試題匯編全集(包含答案)
- 轉(zhuǎn)體梁轉(zhuǎn)體施工工法
- YY/T 1833.3-2022人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià)第3部分:數(shù)據(jù)標(biāo)注通用要求
- 生物體中結(jié)構(gòu)色
- 博物館教育資源與當(dāng)前語文課程融合的探究
- GA 1468-2018寄遞企業(yè)安全防范要求
- 防范和懲治統(tǒng)計(jì)造假、弄虛作假等違法違規(guī)行為的政策解讀(統(tǒng)計(jì)培訓(xùn)課件)
- 地源熱泵監(jiān)理細(xì)則
- 人工智能及其應(yīng)用課件
- CreloxPCRISPRCas技術(shù)和病毒載體在課件
- 03 塵源跟蹤電磁閥出廠檢驗(yàn)報(bào)告
評(píng)論
0/150
提交評(píng)論