版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1一、背景描述隨著中國(guó)數(shù)字化轉(zhuǎn)型戰(zhàn)略的推進(jìn),傳統(tǒng)通信行業(yè)正面臨著數(shù)字化轉(zhuǎn)型的挑戰(zhàn)和機(jī)遇;用戶(hù)對(duì)通信服務(wù)的需求已經(jīng)發(fā)生了根本性的變化,通信運(yùn)營(yíng)商正在通過(guò)技術(shù)創(chuàng)新和服務(wù)升級(jí)來(lái)滿(mǎn)足這些需求;數(shù)字化轉(zhuǎn)型涉及到網(wǎng)絡(luò)建設(shè)、數(shù)據(jù)管理、服務(wù)創(chuàng)新等方面,大數(shù)據(jù)技術(shù)成為關(guān)鍵驅(qū)動(dòng)力之一。為了應(yīng)對(duì)這一轉(zhuǎn)型,我們要求參賽者搭建通信行業(yè)大數(shù)據(jù)分析平臺(tái),并利用Hive數(shù)倉(cāng)技術(shù)和Spark計(jì)算引擎對(duì)通信用戶(hù)行為數(shù)據(jù)進(jìn)行操作和分析;通過(guò)這樣的平臺(tái),可以快速處理和挖掘海量數(shù)據(jù),得出有價(jià)值的洞察和分析結(jié)果。同時(shí),在展示數(shù)據(jù)分析結(jié)果方面,我們要求參賽者結(jié)合建交互式的數(shù)據(jù)可視化圖表;這些圖表能夠直觀地展示數(shù)據(jù)分析結(jié)果,幫助管理者更好地決策企業(yè)的發(fā)展戰(zhàn)略,并對(duì)銷(xiāo)售、營(yíng)銷(xiāo)、客服和技術(shù)等部門(mén)的目標(biāo)策略進(jìn)行全面部署;通過(guò)數(shù)據(jù)可視化,銷(xiāo)售部門(mén)可以了解產(chǎn)品銷(xiāo)售趨勢(shì)和市場(chǎng)份額;營(yíng)銷(xiāo)部門(mén)可以?xún)?yōu)化營(yíng)銷(xiāo)活動(dòng)和廣告投放策略;客服部門(mén)可以提供更好的客戶(hù)服務(wù);技術(shù)部門(mén)可以進(jìn)行網(wǎng)絡(luò)優(yōu)化和故障排2(一)任務(wù)一:大數(shù)據(jù)平臺(tái)搭建本模塊需要使用root用戶(hù)完成相關(guān)配置;所有組件均1.子任務(wù)一:基礎(chǔ)環(huán)境準(zhǔn)備(2)在“/etc/profile”文件中配置JDK環(huán)境變量(3)查看JDK版本,檢測(cè)JDK是否安裝成功。在master節(jié)點(diǎn)操作(2)將master上的公鑰拷貝到slave1和slave2上;master、slavel、slave2三臺(tái)節(jié)點(diǎn)都需要安裝Hadoop3歷史日志服務(wù)器(3)在master節(jié)點(diǎn)的Hadoop安裝目錄下依次創(chuàng)建hadoopDatas/tempDatas、hadoopDatas/namenodeDatas、hadoopDatas/dfs/snn/name和(4)在master節(jié)點(diǎn)上使用scp命令將配置完的Hadoop安裝目錄直接拷貝至slave1和slave2;(5)三臺(tái)節(jié)點(diǎn)的“/etc/profile”文件中配置Hadoop(7)在主節(jié)點(diǎn)依次啟動(dòng)HDFS、YARN集群和歷史服務(wù)只在master節(jié)點(diǎn)操作4(3)安裝好MySQL后,使用mysq1用戶(hù)初始化和啟動(dòng)數(shù)(4)使用root用戶(hù)無(wú)密碼登錄MySQL,然后將root用戶(hù)的密碼修改為123456,修改完成退出MySQL,重新登錄驗(yàn)更改“mysq1”數(shù)據(jù)庫(kù)里的user表里的host項(xiàng),從localhost改成%即可實(shí)現(xiàn)用戶(hù)遠(yuǎn)程登錄;設(shè)置完成刷新配置(1)將Hive3.1.2的安裝包解壓到/root/software(2)在“/etc/profile”文件中配置Hive環(huán)境變量(3)查看Hive版本,檢測(cè)Hive環(huán)境變量是否設(shè)置成5env.sh.template文件復(fù)制一份并重命名為hive-env.sh;然后,使用vim編輯器進(jìn)行編輯,在文件中配置值刪除并將前面的注釋符#去掉;配置完成,保存退出;mysq1-connector-java-5.1.47-bin.jar(6)在$HIVE_HOME/conf目錄下創(chuàng)建一個(gè)名為hive-site.xml的文件,并使用vim編輯器進(jìn)行編輯;配置如下內(nèi)容:連接元數(shù)據(jù)庫(kù)的鏈接信息?createDatabaseIfNotExist=true&useSSL=false&=true&characterEnc動(dòng)連接數(shù)據(jù)庫(kù)用戶(hù)名稱(chēng)6連接數(shù)據(jù)庫(kù)用戶(hù)密碼“mysq1”,來(lái)初始化源數(shù)據(jù)庫(kù)的元數(shù)據(jù);(8)使用CLI啟動(dòng)Hive,進(jìn)入Hive客戶(hù)端;在Hive默認(rèn)數(shù)據(jù)庫(kù)下創(chuàng)建一個(gè)名為student的管理表;(9)通過(guò)insert語(yǔ)句往student表只在master節(jié)點(diǎn)操作。(2)在“/etc/profile”文件中配置Flume環(huán)境變量FLUME_HOME和PATH的值,并讓配置文件立即生效;env.sh.template文件復(fù)制一份,并重命名為flume-env.sh;7使用vim命令打開(kāi)“flume-env.sh”配置文件,找到參數(shù)位置,將前面的“#”去掉,將值修改為本機(jī)JDK的實(shí)際位置;修改完成,保存退出;(4)查看Flume版本,檢測(cè)Flume是否安裝成功。(二)任務(wù)二:數(shù)據(jù)庫(kù)配置維護(hù)1.子任務(wù)一:數(shù)據(jù)庫(kù)配置在Hive中創(chuàng)建一個(gè)名為comm的數(shù)據(jù)庫(kù),如果數(shù)據(jù)庫(kù)已2.子任務(wù)二:創(chuàng)建相關(guān)表ods_behavior-log的外部表,如果表已存在,則先刪除;分區(qū)字段為dt,即根據(jù)日期進(jìn)行分區(qū);同時(shí),使用location關(guān)/behavior/ods/ods_behavior-log目錄;字段類(lèi)型如下表所數(shù)據(jù)類(lèi)型說(shuō)明一整行JSON數(shù)據(jù)日期,分區(qū)字段/root/eduhq/data/app-log/behavior目錄下的每個(gè)數(shù)據(jù)文8件依次加載到外部表ods_behavior-log的對(duì)應(yīng)分區(qū)中,按照日志文件對(duì)應(yīng)日期定義靜態(tài)分區(qū)(例如:dt='2023-01-01′)(3)查看ods_behavior-log表的所有現(xiàn)有分區(qū)、前3行數(shù)據(jù),并統(tǒng)計(jì)外部表ods_behavior-log數(shù)據(jù)總行數(shù);dwd_behavior-log的外部表,如果表已存在,則先刪除;分區(qū)字段為dt,即根據(jù)日期進(jìn)行分區(qū);另外,要求指定表的存儲(chǔ)文件類(lèi)型為“orc”,文件的壓縮類(lèi)型為“snappy”;字段類(lèi)型如下表所示;數(shù)據(jù)類(lèi)型說(shuō)明客戶(hù)端請(qǐng)求的IP地址上網(wǎng)的模式,4G、5G或設(shè)備ID省份城市時(shí)間戳日期,分區(qū)字段9(一)任務(wù)一:數(shù)據(jù)獲取與清洗1.子任務(wù)一:數(shù)據(jù)獲取目錄,用于存儲(chǔ)采集到的用戶(hù)行為日志;(2)目錄創(chuàng)建完成,使用HDFSShel1指令,將本地/root/eduhq/data/app-log/behavior目錄下的所有用戶(hù)行(3)采集完成,在本機(jī)打開(kāi)瀏覽器,訪問(wèn)http://本2.子任務(wù)二:數(shù)據(jù)清洗(2)對(duì)數(shù)據(jù)進(jìn)行清洗,專(zhuān)注處理名為"behavior2023-01-01.csv"的文件中的"time"列。將時(shí)間日期格式進(jìn)行分列,分別處理為日期和時(shí)間兩列。(二)任務(wù)二:數(shù)據(jù)標(biāo)注org.apache.hadoop.hive.ql.udf.gen法;該類(lèi)需要實(shí)現(xiàn)通過(guò)IP從/root/eduhq/data/area.json(三)任務(wù)三:數(shù)據(jù)統(tǒng)計(jì)(2)將打包文件hive-udf-behavior-1.0.0.jar上傳到(3)在Hive客戶(hù)端,創(chuàng)建永久函數(shù)url-trans和get-city_by-ip,并將它們與開(kāi)發(fā)好的clas(4)在Hive客戶(hù)端,使用select語(yǔ)句測(cè)試url_trans(5)啟動(dòng)Hive的動(dòng)態(tài)分區(qū)功能,并將Hive設(shè)置為非嚴(yán)(6)使用insertoverwrite...select...子句將ods_behavior_log表中數(shù)據(jù)插入分區(qū)表dwd_behavior-log中,并實(shí)現(xiàn)根據(jù)dt進(jìn)行動(dòng)態(tài)分區(qū)。2.子任務(wù)二:數(shù)據(jù)統(tǒng)計(jì)(2)查看外部表dwd_behavior-log的前3行數(shù)據(jù),并驗(yàn)證URL協(xié)議是否被統(tǒng)一為“http”,以及通過(guò)IP是否能夠獲取到“省份”和“城市”信息;(3)統(tǒng)計(jì)外部表dwd_behavior-1og數(shù)據(jù)總行數(shù)。四、模塊三:業(yè)務(wù)分析與可視化(一)任務(wù)一:數(shù)據(jù)可視化1.子任務(wù)一:數(shù)據(jù)分析dws_behavior-log的外部表,如果表已存在,則先刪除;分區(qū)字段為dt,即根據(jù)日期進(jìn)行分區(qū);另外,要求指定表的存儲(chǔ)路徑為HDFS的/behavior/儲(chǔ)文件類(lèi)型為“orc”,文件的壓縮類(lèi)型為“snappy”;字段類(lèi)型如下表所示;數(shù)據(jù)類(lèi)型說(shuō)明客戶(hù)端請(qǐng)求的IP地址者電腦pc上網(wǎng)的模式,4G、5G或WiFi設(shè)備ID省份城市(2)啟動(dòng)Hive的動(dòng)態(tài)分區(qū)功能,并將Hive設(shè)置為非dwd_behavior-1og表中數(shù)據(jù)插入分區(qū)表dws_behavior-log(4)查看dws_behavior-log表的所有現(xiàn)有分區(qū)、前3行數(shù)據(jù),并統(tǒng)計(jì)統(tǒng)計(jì)表數(shù)據(jù)總行數(shù);(5)在comm數(shù)據(jù)庫(kù)下創(chuàng)建一個(gè)名為dim-date的外部表,如果表已存在,則先刪除;另外,要求指定表的存儲(chǔ)路徑為HDFS的/behavior/dim/dim-date目錄,字段分隔符為(skip.header.line.count'='1')語(yǔ)句讓Hive讀取外表數(shù)據(jù)時(shí)跳過(guò)文件行首(表頭);字段類(lèi)型如下表所示;數(shù)據(jù)類(lèi)型說(shuō)明日期周星期一個(gè)月的第幾天月份季度是否是工作日國(guó)家法定假日標(biāo)識(shí)(6)在comm數(shù)據(jù)庫(kù)下創(chuàng)建一個(gè)名為dim-area的外部表,如果表已存在,則先刪除;另外,要求指定表的存儲(chǔ)路徑為HDFS的/behavior/dim/dim-area目錄,字段分隔符為說(shuō)明省份地區(qū)錄下的“dim-date_2023.txt”和“dim-area.txt”文件分別加載到外部表dim-date和dim-area中;(8)分別查看外部表dim-date和dim-area的前3行數(shù)(9)分別統(tǒng)計(jì)外部表dim-date和dim-area數(shù)據(jù)總行(10)統(tǒng)計(jì)不同省份用戶(hù)訪問(wèn)量;將統(tǒng)計(jì)結(jié)果導(dǎo)出到本地文件系統(tǒng)的/root/eduhq/result/ads-user-pro目錄下,并指定列的分隔符為逗號(hào)(特別注意:因?yàn)槭》菔请S機(jī)獲取的,所以結(jié)果會(huì)有所差異);(11)統(tǒng)計(jì)不同時(shí)間段的網(wǎng)頁(yè)瀏覽量將統(tǒng)計(jì)結(jié)果導(dǎo)出到本地文件系統(tǒng)的/root/eduhq/result/ads-user_hour目錄下,并指定列的分隔符為逗號(hào);(12)不同網(wǎng)站訪客的設(shè)備類(lèi)型統(tǒng)計(jì);將統(tǒng)計(jì)結(jié)果導(dǎo)出到本地文件系統(tǒng)的/root/eduhq/result/ads_visit_mode目錄下,并指定列的分隔符為逗號(hào);(13)不同網(wǎng)站的上網(wǎng)模式統(tǒng)計(jì);將統(tǒng)計(jì)結(jié)果導(dǎo)出到本地文件系統(tǒng)的/root/eduhq/result/ads-online-type目錄下,并指定列的分隔符為逗號(hào);2.子任務(wù)二:數(shù)據(jù)可視化(1)使用Pyecharts庫(kù)繪制中國(guó)地圖,以直觀展示不同省份用戶(hù)訪問(wèn)量分布情況;●文件存放地址:/root/eduhq/python/●背景地址:/root/eduhq/images/img-1.png●圖表名稱(chēng):不同省份用戶(hù)訪問(wèn)量分布圖.html●圖表存放地址:/root/eduhq/html/(2)使用Pyecharts庫(kù)繪制一個(gè)帶時(shí)間軸的柱形圖,以直觀展示不同經(jīng)濟(jì)大區(qū)用戶(hù)的訪問(wèn)量統(tǒng)計(jì)情況;●文件存放地址:/root/eduhq/python/●背景地址:/root/eduhq/images/img-2.pngE圖表名稱(chēng):不同經(jīng)濟(jì)大區(qū)用戶(hù)訪問(wèn)量統(tǒng)計(jì)柱形圖E圖表名稱(chēng):不同經(jīng)濟(jì)大區(qū)用戶(hù)訪問(wèn)量統(tǒng)計(jì)柱形圖●圖表存放地址:/root/eduhq/html/(3)使用Pyecharts繪制網(wǎng)頁(yè)瀏覽量統(tǒng)計(jì)折線圖,直觀展示不同時(shí)間段內(nèi)的訪問(wèn)量變化趨勢(shì);●文件存放地址:/root/eduhq/python/●數(shù)據(jù)目錄:/root/eduhq/result/ads-user-hour目錄●背景地址:/root/eduhq/images/img-3.png●圖表名稱(chēng):不同時(shí)間段網(wǎng)頁(yè)瀏覽量統(tǒng)計(jì)曲線圖.html●圖表存放地址:/root/eduhq/html/(4)使用Pyecharts繪制網(wǎng)頁(yè)瀏覽量統(tǒng)計(jì)折線圖,直觀展示節(jié)假日和工作日不同時(shí)間段內(nèi)的訪問(wèn)量變化趨勢(shì);●文件存放地址:/root/eduhq/python/●背景地址:/root/eduhq/images/img-3.png●圖表名稱(chēng):節(jié)假日和工作日各時(shí)間段網(wǎng)頁(yè)瀏覽量統(tǒng)(5)使用Pyecharts繪制堆積柱形圖,直觀地展示訪客在不同設(shè)備類(lèi)型上的訪問(wèn)次數(shù)情況;●文件存放地址:/root/eduhq/python/●背景地址:/root/eduhq/images/img-2.png0圖表名稱(chēng):網(wǎng)站訪客設(shè)備類(lèi)型統(tǒng)計(jì)堆積柱形圖(6)使用Pyecharts繪制堆積柱形圖,直觀地展示訪客在不同上網(wǎng)模式下的訪問(wèn)次數(shù)情況;●文件存放地址:/root/eduhq/python/●背景地址:/root/eduhq/images/img-2.png●圖表名稱(chēng):網(wǎng)站訪客上網(wǎng)模式統(tǒng)計(jì)堆積柱形圖●圖表存放地址:/root/eduhq/html/(7)使用Pyecharts繪制詞云圖,直觀地展示不同域●文件存放地址:/root/eduhq/python/●背景地址:/root/eduhq/images/img-2.png●圖表名稱(chēng):不同域名用戶(hù)訪問(wèn)統(tǒng)計(jì)詞云.html●圖表存放地址:/root/eduhq/html/(二)任務(wù)二:業(yè)務(wù)分析(1)統(tǒng)計(jì)每天不同經(jīng)濟(jì)大區(qū)用戶(hù)訪問(wèn)量;將統(tǒng)計(jì)(2)統(tǒng)計(jì)節(jié)假日和工作日的瀏覽量差異;將統(tǒng)計(jì)(3)統(tǒng)計(jì)不同域名的用戶(hù)訪問(wèn)量;將統(tǒng)計(jì)結(jié)果導(dǎo)1一、背景描述隨著互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的高速發(fā)展,通用設(shè)備制造業(yè)在“中國(guó)制造2025”計(jì)劃的推動(dòng)下正向定制化服務(wù)轉(zhuǎn)型。傳統(tǒng)的設(shè)備銷(xiāo)售模式正在向銷(xiāo)售服務(wù)模式轉(zhuǎn)變,這為企業(yè)帶來(lái)了新的機(jī)遇和挑戰(zhàn)。在這個(gè)轉(zhuǎn)型過(guò)程中,商業(yè)模式的創(chuàng)新變得至關(guān)重要。信息化與現(xiàn)代服務(wù)的結(jié)合成為制造企業(yè)轉(zhuǎn)型從管理角度來(lái)看,企業(yè)需要全局掌握已售出設(shè)備的整體運(yùn)行狀況,以提高服務(wù)效率、滿(mǎn)意度和及時(shí)率。同時(shí),企業(yè)還需要提升決策效率,降低服務(wù)成本。這些挑戰(zhàn)可以通過(guò)大數(shù)據(jù)綜合開(kāi)發(fā)來(lái)解決,通過(guò)對(duì)設(shè)備數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和分析,企業(yè)可以實(shí)現(xiàn)對(duì)設(shè)備運(yùn)行狀況的全面監(jiān)控和管理。利用大數(shù)據(jù)分析與應(yīng)用服務(wù),可以?xún)?yōu)化服務(wù)調(diào)度和資源分配,提可以提升企業(yè)的決策效率,并降低服務(wù)成本。2(一)任務(wù)一:大數(shù)據(jù)平臺(tái)搭建1.子任務(wù)一:基礎(chǔ)環(huán)境準(zhǔn)備作為時(shí)鐘源并進(jìn)行時(shí)間同步;(2)執(zhí)行命令生成公鑰、私鑰,實(shí)現(xiàn)三臺(tái)機(jī)器間的免秘(3)從宿主機(jī)/root目錄下將文件jdk-8u212-linux-x64.tar.gz復(fù)制到容器node01中的/root/software路徑中(若路徑不存在,則需新建),將node01節(jié)點(diǎn)JDK安裝包解壓到/root/software路徑中(若路徑不存在,則需新建);(4)修改容器中/etc/profile文件,設(shè)置JDK環(huán)境變量并使其生效,配置完畢后在node01節(jié)點(diǎn)分別執(zhí)行“java-本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境。命令中要求使用絕對(duì)路徑,具體要求如徑不存在,則需新建)目錄下,并將解壓包分發(fā)至node02、node03中,其中三個(gè)節(jié)點(diǎn)節(jié)點(diǎn)均作為datanode,配置好相關(guān)環(huán)境,初始化Hadoop環(huán)境namenode;3(2)開(kāi)啟集群,查看各節(jié)點(diǎn)進(jìn)程。(1)從宿主機(jī)/root目錄下將文件apache-hive-3.1.2-器node03中的/root/software路徑中(若路徑不存在,則需新建),將node03節(jié)點(diǎn)Hive安裝包解壓到/root/software(2)設(shè)置Hive環(huán)境變量,并使環(huán)境變量生效,執(zhí)行命令hive--version查看版本信息;(3)修改相關(guān)配置,添加依賴(lài)包,將MySQL數(shù)據(jù)庫(kù)作為Hive元數(shù)據(jù)庫(kù),初始化Hive元數(shù)據(jù)。1.11.0-bin.tar.gz復(fù)制到容器node03中的/root/software路徑中(若路徑不存在,則需新建),將node03節(jié)點(diǎn)Flume(2)完善相關(guān)配置,配置Flume環(huán)境變量,并使環(huán)境變量生效,執(zhí)行命令flume-ngversion。4(二)任務(wù)二:數(shù)據(jù)庫(kù)配置維護(hù)1.子任務(wù)一:數(shù)據(jù)庫(kù)配置(1)在主機(jī)node3上安裝mysql-community-server,碼為“123456”;(2)開(kāi)啟MySQL遠(yuǎn)程連接權(quán)限,所有root用戶(hù)都可以使用123456進(jìn)行登錄連接。2.子任務(wù)二:導(dǎo)入相關(guān)表(1)將本地/root/eduhq/equipment/目錄下的數(shù)據(jù)文(2)將本地/root/eduhq/equipment/目錄下的數(shù)據(jù)文3.子任務(wù)三:維護(hù)數(shù)據(jù)表結(jié)合已導(dǎo)入的兩份sq1數(shù)據(jù),對(duì)其中的數(shù)據(jù)進(jìn)行如下查(1)對(duì)‘rootslsrc’數(shù)據(jù)庫(kù)中的‘province’數(shù)據(jù)表進(jìn)行修改,修改字段province_id為24的記錄的province-name,修改為‘內(nèi)蒙古自治區(qū)’;(2)對(duì)‘root_sl-src’數(shù)據(jù)庫(kù)中的‘city’數(shù)據(jù)表進(jìn)行刪除,刪除字段city-id為142的記錄。5(一)任務(wù)一:數(shù)據(jù)獲取與清洗1.子任務(wù)一:數(shù)據(jù)獲取(1)使用load命令將提供的數(shù)據(jù)導(dǎo)入到Hive,全部數(shù)據(jù)表如下所示,結(jié)合要求對(duì)指定數(shù)據(jù)進(jìn)行獲?。涸讷@取數(shù)據(jù)時(shí),對(duì)應(yīng)要求如下:*數(shù)據(jù)存儲(chǔ)位置為Hive數(shù)據(jù)庫(kù)equipment_dashboard*創(chuàng)建省份表ods-province,將province.csv數(shù)據(jù)導(dǎo)入ods-province,自行定義表結(jié)構(gòu)*創(chuàng)建城市表ods-city,將city.csv數(shù)據(jù)導(dǎo)入ods-city,自行定義表結(jié)構(gòu)*其他數(shù)據(jù)已存入Hive對(duì)應(yīng)數(shù)據(jù)庫(kù)中,可直接進(jìn)行操作6hdfs*設(shè)備數(shù)據(jù)文件為province-iso-shel1.txt*寫(xiě)入位置為HDFS上/source/logs/province_iso/(1)對(duì)/root/eduhq/equipment/目錄下工單故障記錄表sms_so_failure_logs.txt進(jìn)行文本清(二)任務(wù)二:數(shù)據(jù)標(biāo)注_failure-logs進(jìn)行操作,其中針對(duì)7一處理,添加設(shè)備狀態(tài)標(biāo)簽“未獲取”;*判斷每行字段的長(zhǎng)度,保證字段一致*針對(duì)時(shí)間字段,進(jìn)行時(shí)間格式化,統(tǒng)一時(shí)間*針對(duì)空字段,統(tǒng)一清洗,如設(shè)置為未獲取,根據(jù)實(shí)際8(三)任務(wù)三:數(shù)據(jù)統(tǒng)計(jì)1.子任務(wù)一:文件上傳下載數(shù)據(jù)倉(cāng)庫(kù)公用的數(shù)據(jù),并切換到此數(shù)據(jù)庫(kù)下;(2)將標(biāo)注后/source/mr/sms_so-failure_logs數(shù)據(jù),上傳至Hive表ods-sms-so-(3)將/source/mr/province_iso/數(shù)據(jù),上傳至Hive2.子任務(wù)二:數(shù)據(jù)統(tǒng)計(jì)(1)統(tǒng)計(jì)設(shè)備數(shù)量;(2)統(tǒng)計(jì)用戶(hù)數(shù)量。9(一)任務(wù)一:數(shù)據(jù)可視化1.子任務(wù)一:數(shù)據(jù)分析(1)分析故障類(lèi)型分布,進(jìn)行正序排序展示前五名;(2)對(duì)交付狀態(tài)分析,進(jìn)行正序排序展示前五名;(3)對(duì)設(shè)備狀態(tài)分析,查看各狀態(tài)分布。2.子任務(wù)二:數(shù)據(jù)可視化(1)制作設(shè)備類(lèi)型TOP5餅狀圖;(2)制作設(shè)備狀態(tài)餅狀圖;(3)制作交付狀態(tài)條形圖;(4)制作設(shè)備數(shù)量數(shù)字卡片;(5)制作用戶(hù)數(shù)量數(shù)字卡片;(6)制作設(shè)備省份分布TOP5餅狀圖;(7)制作設(shè)備維保分析折線圖;(8)制作故障類(lèi)型分布TOP5柱狀圖。(二)任務(wù)二:業(yè)務(wù)分析1.子任務(wù)一:業(yè)務(wù)分析(1)對(duì)設(shè)備類(lèi)型進(jìn)行分析,進(jìn)行正序排序展示前五名;(2)對(duì)設(shè)備維保進(jìn)行分析,了解設(shè)備維保時(shí)間變化趨勢(shì);(3)對(duì)設(shè)備分布省份進(jìn)行分析,了解設(shè)備在不同地域的2.子任務(wù)二:報(bào)表分析成報(bào)表對(duì)regionname區(qū)域數(shù)據(jù)進(jìn)行透視分析,及時(shí)把握市1一、背景描述大數(shù)據(jù)時(shí)代背景下,人們生活習(xí)慣發(fā)生了很多改變。在傳統(tǒng)運(yùn)營(yíng)模式中,缺乏數(shù)據(jù)積累,人們?cè)谧龀鲆恍Q策行為過(guò)程中,更多是憑借個(gè)人經(jīng)驗(yàn)和直覺(jué),發(fā)展路徑比較自我封閉。而大數(shù)據(jù)時(shí)代,為人們提供一種全新的思路,通過(guò)大量的數(shù)據(jù)分析得出的結(jié)果將更加現(xiàn)實(shí)和準(zhǔn)確。平臺(tái)可以根據(jù)用戶(hù)的瀏覽,點(diǎn)擊,評(píng)論等行為信息數(shù)據(jù)進(jìn)行收集和整理。通過(guò)大量用戶(hù)的行為可以對(duì)某一個(gè)產(chǎn)品進(jìn)行比較準(zhǔn)確客觀的評(píng)分和評(píng)價(jià),或者進(jìn)行相應(yīng)的用戶(hù)畫(huà)像,將產(chǎn)品推薦給喜歡該產(chǎn)品的用戶(hù)進(jìn)行相應(yīng)的消費(fèi)。因數(shù)據(jù)驅(qū)動(dòng)的大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),沒(méi)有大數(shù)據(jù),我們無(wú)法為用戶(hù)提供大部分服務(wù),為完成互聯(lián)網(wǎng)酒店的大數(shù)據(jù)分析工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),通過(guò)Python語(yǔ)言以數(shù)據(jù)采集為基礎(chǔ),將采集的數(shù)據(jù)進(jìn)行相應(yīng)處理,并且進(jìn)行數(shù)據(jù)標(biāo)注、數(shù)據(jù)分析與可視化、通過(guò)大數(shù)據(jù)業(yè)務(wù)分析方法實(shí)現(xiàn)相應(yīng)數(shù)據(jù)分析。運(yùn)行維護(hù)數(shù)據(jù)庫(kù)系統(tǒng)保障存儲(chǔ)數(shù)據(jù)的安全性。通過(guò)運(yùn)用相關(guān)大數(shù)據(jù)工具軟件解決具體業(yè)務(wù)問(wèn)題。你們作為該小組的技術(shù)人員,請(qǐng)按照下面任務(wù)完成本次工作。2(一)任務(wù)一:大數(shù)據(jù)平臺(tái)搭建1.子任務(wù)一:Hadoop完全分布式安裝配置本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境。命令中要求使用絕對(duì)路徑,具體要求如/opt/module路徑中(若路徑不存在,則需新建),將JDK解壓(2)修改Master中/etc/profile文件,設(shè)置JDK環(huán)境變量并使其生效,配置完畢后在Master節(jié)點(diǎn)分別執(zhí)行“java-version”和“javac”命令,將命令行執(zhí)行結(jié)果分別截圖并粘(3)請(qǐng)完成host相關(guān)配置,將三個(gè)節(jié)點(diǎn)分別命名為master、slave1、slave2,并做免密登錄,用scp命令并對(duì)路徑從Master復(fù)制JDK解壓后的安裝文件到slavel、slave2節(jié)點(diǎn)(若路徑不存在,則需新建),并配置slavel、slave2相關(guān)環(huán)境變量,將全部scp復(fù)制JDK的命令復(fù)制并粘貼至客戶(hù)3好相關(guān)環(huán)境,初始化Hadoop環(huán)境namenode,將初始化命令及初始化結(jié)果截圖(截取初始化結(jié)果日志最后20行即可)粘(5)啟動(dòng)Hadoop集群(包括hdfs和yarn),使用jps命令查看Master節(jié)點(diǎn)與slave1節(jié)點(diǎn)的Java進(jìn)程,將jps命令本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)境,具體要求如下:/opt/module目錄下,將Kafka解壓命令復(fù)制并粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;(2)配置好zookeeper,其中zookeeper使用集群模式,分別將master、slavel、slave2作為其節(jié)點(diǎn)(若zookpeer已安裝配置好,則無(wú)需再次配置),配置好Kafka的環(huán)境變量,并將命令和結(jié)果截圖粘貼至客戶(hù)端桌面【Releasel提交結(jié)4(3)完善其他配置并分發(fā)Kafka文件到slavel、slave2中,并在每個(gè)節(jié)點(diǎn)啟動(dòng)Kafka,創(chuàng)建Topic,其中Topic名稱(chēng)分區(qū)數(shù)為2,副本數(shù)為2,將創(chuàng)建命令和創(chuàng)建3.子任務(wù)三:Hive安裝配置本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)境,具體要求如下:hive-3.1.2-bin.tar.gz、mysql-connector-java-5.1.37.jar解壓到/opt/module目錄下,將命令復(fù)制并粘貼至客戶(hù)端桌面(2)設(shè)置Hive環(huán)境變量,并使環(huán)境變量生效,執(zhí)行命令hive--version并將命令與結(jié)果截圖粘貼至客戶(hù)端桌面(3)完成相關(guān)配置并添加所依賴(lài)包,將MySQL數(shù)據(jù)庫(kù)相關(guān)命令執(zhí)行初始化,將初始化結(jié)果截圖(范圍為命令執(zhí)行(二)任務(wù)二:數(shù)據(jù)庫(kù)配置維護(hù)1.子任務(wù)一:數(shù)據(jù)庫(kù)配置(1)配置服務(wù)端MySQL數(shù)據(jù)庫(kù)的遠(yuǎn)程連接。5(2)初始化MySQL數(shù)據(jù)庫(kù)系統(tǒng),將完整命令及初始化(3)配置root用戶(hù)允許任意ip連接,將完整命令截圖(4)通過(guò)root用戶(hù)登錄MySQL數(shù)據(jù)庫(kù)系統(tǒng),查看mysql庫(kù)下的所有表,將完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)制(5)輸入命令以創(chuàng)建新的用戶(hù)。完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)(6)授予新用戶(hù)訪問(wèn)數(shù)據(jù)的權(quán)限。完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)制粘貼至客戶(hù)端桌面【Releasel提交結(jié)(7)刷新權(quán)限。完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)2.子任務(wù)二:創(chuàng)建相關(guān)表(1)根據(jù)以下數(shù)據(jù)字段在MySQL數(shù)據(jù)庫(kù)中創(chuàng)建酒店表(hotel)。酒店表字段如下:字段類(lèi)型中文含義備注6酒店編號(hào)酒店名稱(chēng)城市省份星級(jí)房間數(shù)(2)根據(jù)以下數(shù)據(jù)字段在MySQL數(shù)據(jù)庫(kù)中創(chuàng)建評(píng)論表(comment)。評(píng)論表字段如下:字段類(lèi)型中文含義備注評(píng)論編號(hào)酒店名稱(chēng)評(píng)論人評(píng)分評(píng)論時(shí)間評(píng)論內(nèi)容將這兩個(gè)SQL建表語(yǔ)句分別截圖復(fù)制粘貼至客戶(hù)端桌3.子任務(wù)三:維護(hù)數(shù)據(jù)表根據(jù)已給到的sql文件將這兩份數(shù)據(jù)導(dǎo)入任意自己創(chuàng)建的數(shù)據(jù)庫(kù)中,并對(duì)其中的數(shù)據(jù)進(jìn)行如下操作:7在comment_all表中將id為30的評(píng)分改為5;將這兩個(gè)SQL語(yǔ)句分別截圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。88(一)任務(wù)一:數(shù)據(jù)獲取與清洗1.子任務(wù)一:數(shù)據(jù)獲取商圈、是否為客棧、星級(jí)、房間數(shù)、評(píng)論數(shù)、評(píng)分、城市平均訂單、城市平均間夜、城市平均實(shí)住訂單、城市平均實(shí)住住宿場(chǎng)所實(shí)住間夜、住宿場(chǎng)所直銷(xiāo)訂單、住宿場(chǎng)所直銷(xiāo)間夜、住宿場(chǎng)所直銷(xiāo)實(shí)住間夜、住宿場(chǎng)所直銷(xiāo)拒單、城市直銷(xiāo)訂單、城市實(shí)住訂單、城市直銷(xiāo)拒單率,并且存入到hotel.csv文件端的截圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】2.子任務(wù)二:使用Python進(jìn)行數(shù)據(jù)清洗現(xiàn)已從相關(guān)網(wǎng)站及平臺(tái)獲取到原始數(shù)據(jù)集,為保障用戶(hù)隱私和行業(yè)敏感信息,已進(jìn)行數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。在涉及客戶(hù)安全數(shù)據(jù)或者一些商業(yè)性敏感數(shù)據(jù)的情況、不違反系統(tǒng)規(guī)則條件下,對(duì)真實(shí)數(shù)據(jù)進(jìn)行改造并提供測(cè)試使用,如身份證號(hào)、手機(jī)號(hào)等個(gè)人信息都需要進(jìn)行相關(guān)數(shù)據(jù)文件中已經(jīng)包含了數(shù)據(jù)采集階段從企業(yè)消費(fèi)平臺(tái)網(wǎng)站上爬取的數(shù)據(jù)集,其中包含了來(lái)自不同城市的多家9住宿場(chǎng)所的銷(xiāo)售信息,你的小組需要通過(guò)編寫(xiě)代碼或腳本完成對(duì)相關(guān)數(shù)據(jù)文件中住宿場(chǎng)所銷(xiāo)售管理數(shù)據(jù)的清洗和整理。請(qǐng)使用pandas庫(kù)加載并分析相關(guān)數(shù)據(jù)集,根據(jù)題目規(guī)定要求使用pandas庫(kù)實(shí)現(xiàn)數(shù)據(jù)處理,具體要求如下:中商圈為空的數(shù)據(jù)并且存入(2)刪除hotel.csv中缺失值大于3個(gè)的數(shù)據(jù)列并且存線“”間隔無(wú)順序要求;(3)將hotel.csv中評(píng)分為空的數(shù)據(jù)設(shè)置為0并且存入(4)將hotel.csv中評(píng)分為空的數(shù)據(jù)設(shè)置為總平均并且存入hotel2_c4_N.csv,N為總平均評(píng)分保留一位小數(shù)。將該4個(gè)文件名截一張圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下?,F(xiàn)有一個(gè)信息化項(xiàng)目,項(xiàng)目小組分別針對(duì)一幢建筑的四、五兩層進(jìn)行了設(shè)備調(diào)研,并分工撰寫(xiě)了針對(duì)實(shí)驗(yàn)基礎(chǔ)設(shè)施和網(wǎng)絡(luò)計(jì)算設(shè)施兩個(gè)大類(lèi)的設(shè)備預(yù)算,設(shè)備預(yù)算按照樓層和類(lèi)別分別存儲(chǔ)在四個(gè)Excel文件里面。你的小組需要通過(guò)Excel對(duì)這四個(gè)文件進(jìn)行合并和處理。(1)合并四個(gè)Excel文件到一個(gè)Excel文件中;將四個(gè)Excel文件合并加載的截圖(不用下拉)復(fù)制粘通過(guò)列拆分出樓層和一級(jí)分類(lèi)兩個(gè)字段;(2)將拆分兩個(gè)字段的結(jié)果分別進(jìn)行截圖(不用下拉)(3)通過(guò)添加一列實(shí)現(xiàn)合計(jì)(萬(wàn)元)字段將合計(jì)數(shù)轉(zhuǎn)化為將添加列的定義界面進(jìn)行截圖(不用下拉)復(fù)制粘貼至(4)通過(guò)刪除不需要進(jìn)行統(tǒng)計(jì)的列和調(diào)整列順序,四個(gè)將包含最終列的結(jié)果和非數(shù)據(jù)行計(jì)數(shù)界面進(jìn)行截圖(不(二)任務(wù)二:數(shù)據(jù)標(biāo)注使用SnowNLP對(duì)酒店評(píng)論數(shù)據(jù)hotelcomment.csv進(jìn)行標(biāo)注,獲取情感傾向評(píng)分(sentiments),具體的(1)對(duì)情感傾向分?jǐn)?shù)大于等于0.6評(píng)論數(shù)據(jù)標(biāo)注為正向;(2)對(duì)情感傾向分?jǐn)?shù)大于0.4小于0.6評(píng)論數(shù)據(jù)為中性;(3)對(duì)情感傾向分?jǐn)?shù)小于等于0.4評(píng)論數(shù)據(jù)標(biāo)注為負(fù)向。根據(jù)采集到的評(píng)論信息,給出三類(lèi)標(biāo)注好的數(shù)據(jù),存入編號(hào)酒店名稱(chēng)評(píng)論信息情感傾向備注1全季酒店中性將standard.csv打開(kāi)后直接截圖(不用下拉)復(fù)制粘貼至(三)任務(wù)三:數(shù)據(jù)統(tǒng)計(jì)1.子任務(wù)一:HDFS文件上傳下載本任務(wù)需要使用Hadoop、HDFS命令,已安裝Hadoop及需要配置前置環(huán)境,具體要求如下:(2)修改權(quán)限,賦予目錄/file2_1最高777權(quán)限,查看(3)下載HDFS新建目錄/file2_1,到本地容器Master2.子任務(wù)二:處理異常數(shù)據(jù)數(shù)據(jù),數(shù)據(jù)中有以下內(nèi)容:id:主鍵非空,bigint類(lèi)型,長(zhǎng)度為20login_name:用戶(hù)名,varchar類(lèi)型,長(zhǎng)度200nick_name:用戶(hù)昵稱(chēng),varchar類(lèi)型,長(zhǎng)度200passwd:密碼,varchar類(lèi)型,長(zhǎng)度200name:姓名,varchar類(lèi)型,長(zhǎng)度200phone_num:手機(jī)號(hào),varchar類(lèi)型,長(zhǎng)度200email:郵箱,varchar類(lèi)型,長(zhǎng)度200head_img:頭像,varchar類(lèi)型,長(zhǎng)度200userlevel:用戶(hù)級(jí)別,varchar類(lèi)型,長(zhǎng)度200_operate_time:修改時(shí)間,datetime類(lèi)型,格式為yyyy-數(shù)據(jù)的分隔符“,”轉(zhuǎn)換為“”,輸出文件到HDFS,然后在在控制臺(tái)按順序打印輸出前10條數(shù)據(jù),將結(jié)果截圖粘貼3.子任務(wù)三:數(shù)據(jù)統(tǒng)計(jì)order_info.csv文件存儲(chǔ)了電商互聯(lián)網(wǎng)平臺(tái)上收集的訂單信息表數(shù)據(jù),數(shù)據(jù)中有以下內(nèi)容:id:主鍵非空,bigint類(lèi)型,長(zhǎng)度為20consignee_tel:收件人電話,varchar類(lèi)型,長(zhǎng)度20final_total_amount:總金額,decimorder_status:訂單狀態(tài),varchar類(lèi)型,長(zhǎng)度20user_id:用戶(hù)id,bigint類(lèi)型,長(zhǎng)度20delivery_address:送貨地址,varchar類(lèi)型,長(zhǎng)度1000order_comment:訂單備注,varchar類(lèi)型,長(zhǎng)度200out_trade_no:訂單交易編號(hào)(第三型,長(zhǎng)度50trade_body:訂單描述(第三方支付用),varchar類(lèi)型,長(zhǎng)度200operate_time:操作時(shí)間,datetime類(lèi)型,格式為yyyy-tracking_no:物流單編號(hào),varchar類(lèi)型,長(zhǎng)度100parent_order_id:父訂單編號(hào),bigint類(lèi)型,長(zhǎng)度20province_id:省份id,int類(lèi)型,長(zhǎng)度20original_total_amount:原價(jià)金額,decimal類(lèi)型,長(zhǎng)度16order_status這一字段統(tǒng)計(jì)每種狀態(tài)的訂單總數(shù),將結(jié)果寫(xiě)入HDFS,在控制臺(tái)讀取HDFS文件,將結(jié)果截圖粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。(一)任務(wù)一:數(shù)據(jù)分析與可視化(1)數(shù)據(jù)分析城市游客接納能力是城市規(guī)劃建設(shè)中的重要指標(biāo),其中城市的酒店房間數(shù)量是城市游客接納能力的關(guān)鍵要素。請(qǐng)編寫(xiě)程序或腳本根據(jù)模塊二任務(wù)一中子任務(wù)一所采集到的數(shù)據(jù)文件hotel.csv統(tǒng)計(jì)以下的相關(guān)信息,具體要求如下:(1)分別統(tǒng)計(jì)各個(gè)商圈的的酒店總數(shù),進(jìn)行倒序排序展(2)統(tǒng)計(jì)各個(gè)商圈酒店的平均房間數(shù),進(jìn)行正序排序展(3)統(tǒng)計(jì)所有五星級(jí)酒店的平均評(píng)分。將該3個(gè)統(tǒng)計(jì)結(jié)果在IDE的控制臺(tái)中打印并分別截圖復(fù)(2)數(shù)據(jù)可視化在企業(yè)消費(fèi)平臺(tái)上,各地區(qū)的酒店信息能夠反映一個(gè)地區(qū)商業(yè)活動(dòng)的密集程度。例如酒店總量多的城市大都具有強(qiáng)烈的吸納外來(lái)人員的能力,訂單數(shù)量能夠反映該地區(qū)的有較多的商業(yè)往來(lái)。根據(jù)現(xiàn)有數(shù)據(jù)及給定參數(shù)完成酒店數(shù)據(jù)統(tǒng)計(jì)。使用Python代碼編寫(xiě)數(shù)據(jù)可視化的相關(guān)功能,所用數(shù)據(jù)為模塊二任務(wù)一中子任務(wù)一所采集到的hotel.csv數(shù)據(jù),具體(1)用柱狀圖顯示各個(gè)商圈的酒店總數(shù);(2)用折線圖顯示各星級(jí)酒店平均評(píng)分走勢(shì)。將該2個(gè)可視化圖表分別截圖復(fù)制粘貼至客戶(hù)端桌面在模塊二任務(wù)一中子任務(wù)三中處理好的數(shù)據(jù)作為待分使用數(shù)據(jù)透視圖表完成針對(duì)四、五層設(shè)備預(yù)算的統(tǒng)計(jì)分(1)使用表中一級(jí)分類(lèi)、二級(jí)分類(lèi)作為行統(tǒng)計(jì)項(xiàng),樓層將數(shù)據(jù)透視表字段配置截圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。表格形式顯示項(xiàng)目標(biāo)簽,匯總的合計(jì)(萬(wàn)元)數(shù)據(jù)使用保留小(3)與數(shù)據(jù)透視表搭配的數(shù)據(jù)透視圖使用柱狀圖,不需要縱坐標(biāo)軸和網(wǎng)格線,為柱狀圖每組數(shù)據(jù)添加數(shù)據(jù)標(biāo)簽,設(shè)置數(shù)據(jù)透視圖的標(biāo)題為“信息化項(xiàng)目統(tǒng)計(jì)圖表單位(萬(wàn)元)”(二)任務(wù)二:業(yè)務(wù)分析與方案設(shè)計(jì)1.子任務(wù)一:業(yè)務(wù)分析完成模塊二任務(wù)二已標(biāo)注數(shù)據(jù)standard.csv評(píng)論情感分析功能,以月度為單位統(tǒng)計(jì)每月該酒店的正向、中性、負(fù)向評(píng)價(jià)數(shù)量,繪制折線圖,并對(duì)酒店的發(fā)展趨勢(shì)將圖表截圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)2.子任務(wù)二:報(bào)表分析根據(jù)模塊二任務(wù)二已標(biāo)注數(shù)據(jù)standard.csv文件中的結(jié)果,通過(guò)Excel生成報(bào)表信息方便酒店運(yùn)營(yíng)方在后續(xù)服務(wù)中進(jìn)行優(yōu)化,及時(shí)準(zhǔn)確的把握用戶(hù)體驗(yàn),具體要求如下:(2)該酒店的整體評(píng)價(jià)趨勢(shì)數(shù)量餅狀圖。將兩張圖表截一張圖復(fù)制粘貼至客戶(hù)端桌面【Release\提一、背景描述大數(shù)據(jù)時(shí)代背景下,人們生活習(xí)慣發(fā)生了很多改變。在傳統(tǒng)運(yùn)營(yíng)模式中,缺乏數(shù)據(jù)積累,人們?cè)谧龀鲆恍Q策行為過(guò)程中,更多是憑借個(gè)人經(jīng)驗(yàn)和直覺(jué),發(fā)展路徑比較自我封閉。而大數(shù)據(jù)時(shí)代,為人們提供一種全新的思路,通過(guò)大量的數(shù)據(jù)分析得出的結(jié)果將更加現(xiàn)實(shí)和準(zhǔn)確。平臺(tái)可以根據(jù)用戶(hù)的瀏覽,點(diǎn)擊,評(píng)論等行為信息數(shù)據(jù)進(jìn)行收集和整理。通過(guò)大量用戶(hù)的行為可以對(duì)某一個(gè)產(chǎn)品進(jìn)行比較準(zhǔn)確客觀的評(píng)分和評(píng)價(jià),或者進(jìn)行相應(yīng)的用戶(hù)畫(huà)像,將產(chǎn)品推薦給喜歡該產(chǎn)品的用戶(hù)進(jìn)行相應(yīng)的消費(fèi)。因數(shù)據(jù)驅(qū)動(dòng)的大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),沒(méi)有大數(shù)據(jù),我們無(wú)法為用戶(hù)提供大部分服務(wù),為完成互聯(lián)網(wǎng)酒店、電商的大數(shù)據(jù)分析工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),通過(guò)Python語(yǔ)言以數(shù)據(jù)采集為基礎(chǔ),將采集的數(shù)據(jù)進(jìn)行相應(yīng)處理,并且進(jìn)行數(shù)據(jù)標(biāo)注、數(shù)據(jù)分析與可視化、通過(guò)大數(shù)據(jù)業(yè)務(wù)分析方法實(shí)現(xiàn)相應(yīng)數(shù)據(jù)分析。運(yùn)行維護(hù)數(shù)據(jù)庫(kù)系統(tǒng)保障存儲(chǔ)數(shù)據(jù)的安全性。通過(guò)運(yùn)用相關(guān)大數(shù)據(jù)工具軟件解決具體業(yè)務(wù)問(wèn)題。你們作為該小組的技術(shù)人員,請(qǐng)按照下面2(一)任務(wù)一:大數(shù)據(jù)平臺(tái)搭建1.子任務(wù)一:Hadoop完全分布式安裝配置要配置前置環(huán)境。命令中要求使用絕對(duì)路徑,具體要求如3.1.3.tar.gz、jdk-8u191-linux-x64.tar.gz安裝包解壓到/opt/module路徑中(若路徑不存在,則需新建),將JDK解壓(2)修改Master中/etc/profile文件,設(shè)置JDK環(huán)境變量并使其生效,配置完畢后在Master節(jié)點(diǎn)分別執(zhí)行“java-version”和“javac”命令,將命令行執(zhí)行結(jié)果分別截圖并粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)(3)請(qǐng)完成host相關(guān)配置,將三個(gè)節(jié)點(diǎn)分別命名為master、slave1、slave2,并做免密登錄,用scp命令并使用絕對(duì)路徑從Master復(fù)制JDK解壓后的安裝文件到slave1、slave2節(jié)點(diǎn)(若路徑不存在,則需新建),并配置slave1、3至客戶(hù)端桌面【Release\提交結(jié)果.docx】相關(guān)環(huán)境,初始化Hadoop環(huán)境namenode,將初始化命令及初始化結(jié)果截圖(截取初始化結(jié)果日志最后20行即可)粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序(5)啟動(dòng)Hadoop集群(包括hdfs和yarn),使用jps命令查看Master節(jié)點(diǎn)與slave1節(jié)點(diǎn)的Java進(jìn)程,將jps命令與結(jié)本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)境,具體要求如下:(2)完善相關(guān)配置設(shè)置,配置Flume環(huán)境變量,并使4(3)啟動(dòng)Flume傳輸Hadoop日志(namenode或datanode看命令及結(jié)果(至少5條結(jié)果)截圖粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)境,具體要求如下:1.14.0-bin-scala_2.12.t存在,則需新建),將完整解壓命令復(fù)制粘貼至客戶(hù)端桌面(2)修改容器中/etc/profile文件,設(shè)置Flink環(huán)境變量并使環(huán)境變量生效。在容器中/opt目錄下運(yùn)行命令flink--version,將命令與結(jié)果截圖粘貼至客戶(hù)端桌面【Release\提(3)開(kāi)啟Hadoop集群,在yarn上以perjob模式(即Job分離模式,不采用Session模式)運(yùn)行$FLINK_HOME/examples/batch/WordCount.jar,將運(yùn)行結(jié)果5$FLINK_HOME/example(二)任務(wù)二:數(shù)據(jù)庫(kù)配置維護(hù)1.子任務(wù)一:數(shù)據(jù)庫(kù)配置(1)配置服務(wù)端MySQL數(shù)據(jù)庫(kù)的遠(yuǎn)程連接。(2)初始化MySQL數(shù)據(jù)庫(kù)系統(tǒng),將完整命令及初始化(3)配置root用戶(hù)允許任意ip連接,將完整命令截圖復(fù)務(wù)序號(hào)下(4)通過(guò)root用戶(hù)登錄MySQL數(shù)據(jù)庫(kù)系統(tǒng),查看mysql庫(kù)下的所有表,將完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)(5)輸入命令以創(chuàng)建新的用戶(hù)。完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。(6)授予新用戶(hù)訪問(wèn)數(shù)據(jù)的權(quán)限。完整命令及執(zhí)行命令后的結(jié)果的截圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)6(7)刷新權(quán)限。完整命令及執(zhí)行命令后的結(jié)果的截圖2.子任務(wù)二:創(chuàng)建相關(guān)表(1)根據(jù)以下數(shù)據(jù)字段在MySQL數(shù)據(jù)庫(kù)中創(chuàng)建酒店表字段類(lèi)型中文含義備注酒店編號(hào)酒店名稱(chēng)城市省份星級(jí)房間數(shù)(2)根據(jù)以下數(shù)據(jù)字段在MySQL數(shù)據(jù)庫(kù)中創(chuàng)建評(píng)論表字段類(lèi)型中文含義備注評(píng)論編號(hào)酒店名稱(chēng)評(píng)論人7評(píng)論時(shí)間評(píng)論內(nèi)容將這兩個(gè)SQL建表語(yǔ)句分別截圖復(fù)制粘貼至客戶(hù)端桌面3.子任務(wù)三:維護(hù)數(shù)據(jù)表根據(jù)已給到的sql文件將這兩份數(shù)據(jù)導(dǎo)入任意自己創(chuàng)建的數(shù)據(jù)庫(kù)中,并對(duì)其中的數(shù)據(jù)進(jìn)行如下操作:將這兩個(gè)SQL語(yǔ)句分別截圖復(fù)制粘貼至客戶(hù)端桌面【8(一)任務(wù)一:數(shù)據(jù)獲取與清洗1.子任務(wù)一:數(shù)據(jù)獲取有一份購(gòu)物平臺(tái)列表數(shù)據(jù):商品ID、名稱(chēng)、價(jià)格、瀏pandas讀取shopping.csv并將讀取的csv打印在IDE終端的截2.子任務(wù)二:數(shù)據(jù)處理現(xiàn)已從相關(guān)網(wǎng)站及平臺(tái)獲取到原始數(shù)據(jù)集,為保障用戶(hù)隱私和行業(yè)敏感信息,已進(jìn)行數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。同時(shí)為了正確保護(hù)消費(fèi)者權(quán)益,對(duì)于刷單或僵尸商戶(hù)要進(jìn)行及時(shí)監(jiān)管,你的小組為此對(duì)數(shù)據(jù)相關(guān)數(shù)據(jù)文件中已經(jīng)包含了數(shù)據(jù)采集階段從購(gòu)物網(wǎng)站爬取的數(shù)據(jù)集,需要通過(guò)編寫(xiě)代碼或腳本完成對(duì)相關(guān)數(shù)據(jù)請(qǐng)使用pandas庫(kù)加載并分析相關(guān)數(shù)據(jù)集,根據(jù)題目規(guī)定要求使用pandas庫(kù)實(shí)現(xiàn)數(shù)據(jù)處理,具體要求如下:(1)刪除shopping.csv中庫(kù)存小于10或庫(kù)存大于9(3)將商品中涉及“女裝”字段的數(shù)據(jù)刪除,并存入價(jià)格區(qū)間的平均數(shù),存入shop4.csv。將該4個(gè)文件名截一張圖復(fù)制粘貼至客戶(hù)端桌面【(二)任務(wù)二:數(shù)據(jù)標(biāo)注1.子任務(wù)一:分類(lèi)標(biāo)注使用Python工具庫(kù)SnowNLP對(duì)手機(jī)商城評(píng)論數(shù)據(jù)model_comment.csv進(jìn)行標(biāo)注,獲取情感傾向評(píng)分(sentiments),具體的對(duì)情感傾向的標(biāo)注規(guī)則如下:(1)對(duì)分?jǐn)?shù)大于等于0.6的評(píng)論數(shù)據(jù)標(biāo)注為正向;(2)對(duì)分?jǐn)?shù)大于0.4小于0.6的評(píng)論數(shù)據(jù)標(biāo)注為中性;(3)對(duì)分?jǐn)?shù)小于等于0.4的評(píng)論數(shù)據(jù)標(biāo)注為負(fù)向。根據(jù)采集到的評(píng)論信息,給出三類(lèi)標(biāo)注好的數(shù)據(jù),存編號(hào)手機(jī)品牌評(píng)論信息情感傾向編號(hào)1華為正向1將mode1_sen.csv打開(kāi)后直接截圖(不用下拉)復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)(三)任務(wù)二:數(shù)據(jù)統(tǒng)計(jì)1.子任務(wù)一:HDFS文件上傳下載本任務(wù)需要使用Hadoop、HDFS命令,已安裝Hadoop及需要配置前置環(huán)境,具體要求如下:,查看文件截圖粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;目錄下,查看文件截圖粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。2.子任務(wù)二:處理異常數(shù)值mobile.txt文件存儲(chǔ)了用戶(hù)購(gòu)買(mǎi)行為數(shù)據(jù),數(shù)據(jù)中有字段名稱(chēng)字段說(shuō)明數(shù)據(jù)類(lèi)型示例型號(hào)標(biāo)題華為榮耀4A雙卡雙待4G手機(jī)白色移動(dòng)4G版標(biāo)配評(píng)論給我叔叔買(mǎi)的價(jià)格合理功能完善用著還OK等過(guò)段時(shí)間再來(lái)評(píng)價(jià)會(huì)員等級(jí)金牌會(huì)員購(gòu)買(mǎi)平臺(tái)京東PC客戶(hù)端地區(qū)遼寧n用戶(hù)印象國(guó)民手機(jī)信號(hào)穩(wěn)定外觀漂亮照相不錯(cuò)顏色金色價(jià)格網(wǎng)絡(luò)類(lèi)型移動(dòng)4G版標(biāo)配時(shí)間編寫(xiě)MapReduce程序,實(shí)現(xiàn)以下功能:清除數(shù)據(jù)中分隔符混亂的,多于11個(gè)字段的數(shù)據(jù),輸出文件到HDFS;在控制臺(tái)按順序打印輸出前10條數(shù)據(jù),將結(jié)果截圖粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下3.子任務(wù)三:數(shù)據(jù)統(tǒng)計(jì)mobile.txt文件存儲(chǔ)了用戶(hù)購(gòu)買(mǎi)行為數(shù)據(jù),數(shù)據(jù)中有字段名稱(chēng)字段說(shuō)明數(shù)據(jù)類(lèi)型示例型號(hào)標(biāo)題華為榮耀4A雙卡雙待標(biāo)配評(píng)論給我叔叔買(mǎi)的價(jià)格合理功能完善用著還OK等過(guò)段時(shí)間再來(lái)評(píng)價(jià)會(huì)員等級(jí)金牌會(huì)員購(gòu)買(mǎi)平臺(tái)京東PC客戶(hù)端地區(qū)遼寧n用戶(hù)印象國(guó)民手機(jī)信號(hào)穩(wěn)定外觀漂亮照相不錯(cuò)顏色金色價(jià)格網(wǎng)絡(luò)類(lèi)型移動(dòng)4G版標(biāo)配時(shí)間編寫(xiě)MapReduce程序,實(shí)現(xiàn)以下功能:根據(jù)user_impression這一字段,統(tǒng)計(jì)買(mǎi)家對(duì)商家銷(xiāo)售的手機(jī)商品的印象,結(jié)果按照印象數(shù)降序排序,格式為:(user_impression,次數(shù)),如:(性?xún)r(jià)比高,10),結(jié)果保存至HDFS,在控制臺(tái)讀取HDFS文件輸出各組人數(shù),將結(jié)果截圖粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。(一)任務(wù)一:數(shù)據(jù)分析與可視化1.子任務(wù)一:數(shù)據(jù)分析品牌價(jià)值和商品特性對(duì)用戶(hù)的購(gòu)物習(xí)慣有著重要的影響,不同的商品特性能夠滿(mǎn)足消費(fèi)者不同的需求和偏好,消費(fèi)者往往也會(huì)根據(jù)自己對(duì)品牌的認(rèn)知和評(píng)價(jià)以及對(duì)商品特性的需求進(jìn)行選擇和購(gòu)買(mǎi)決策。請(qǐng)編寫(xiě)程序或腳本根據(jù)模塊二任務(wù)一子任務(wù)一采集到的數(shù)據(jù)文件shopping.csv進(jìn)行處理,要求對(duì)商品名稱(chēng)進(jìn)行分割,第一個(gè)元素作為對(duì)應(yīng)商品品牌,其他元素作為對(duì)應(yīng)特征,統(tǒng)計(jì)以下的相關(guān)信息,(1)對(duì)各品牌進(jìn)行統(tǒng)計(jì),進(jìn)行正序排序展示前十名;(2)對(duì)各商品特征進(jìn)行統(tǒng)計(jì),進(jìn)行正序排序前六名;(3)統(tǒng)計(jì)各品牌的銷(xiāo)量,進(jìn)行正序排序展示前五名。將該3個(gè)統(tǒng)計(jì)結(jié)果在PyCharm的控制臺(tái)中打印并分別截2.子任務(wù)二:數(shù)據(jù)可視化在購(gòu)物平臺(tái)上,各地區(qū)的商品購(gòu)物信息能夠反映一不同區(qū)域?qū)τ诓煌a(chǎn)品需求成都。例如同品牌商品在不同區(qū)域,其銷(xiāo)售量和熱銷(xiāo)產(chǎn)品線、產(chǎn)品價(jià)格能夠反映該地區(qū)人群的購(gòu)物習(xí)慣。根據(jù)現(xiàn)有數(shù)據(jù)及給定參數(shù)完成手機(jī)商城銷(xiāo)使用Python可視化庫(kù)Matplotlib編寫(xiě)數(shù)據(jù)可視化的相關(guān)功能,所用數(shù)據(jù)為模塊一任務(wù)一子任務(wù)一所采集到的(1)用柱狀圖顯示不同價(jià)格區(qū)間手機(jī)銷(xiāo)售情況,了解(2)用餅圖顯示不同地區(qū)手機(jī)品牌銷(xiāo)售統(tǒng)計(jì)占比。將該2個(gè)可視化圖表分別截圖復(fù)制粘貼至客戶(hù)端桌面【(二)任務(wù)二:業(yè)務(wù)分析與方案設(shè)計(jì)1.子任務(wù)一:業(yè)務(wù)分析完成模塊二任務(wù)二已標(biāo)注數(shù)據(jù)model_sen.csv評(píng)論情感分析功能,以月度為單位統(tǒng)計(jì)每月某品牌商戶(hù)的正向、中性、負(fù)向評(píng)價(jià)數(shù)量,繪制折線圖,并對(duì)此品牌發(fā)展趨勢(shì)作出簡(jiǎn)要分析。將圖表截圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下,并在其下方編寫(xiě)發(fā)展趨勢(shì)分析。2.子任務(wù)二:報(bào)表分析根據(jù)模塊二任務(wù)二已標(biāo)注數(shù)據(jù)model_sen.csv文件中的結(jié)果,通過(guò)Excel生成報(bào)表信息方便品牌商戶(hù)在后續(xù)服務(wù)中進(jìn)行優(yōu)化,及時(shí)準(zhǔn)確的把握用戶(hù)體驗(yàn),具體要求如下:(1)該品牌商戶(hù)的評(píng)論正向、負(fù)向、中性的評(píng)論趨勢(shì)柱狀圖,按評(píng)論數(shù)量倒序排序;(2)該品牌商戶(hù)的整體評(píng)價(jià)趨勢(shì)數(shù)量餅狀圖。將兩張圖表截一張圖復(fù)制粘貼至客戶(hù)端桌面【Release\提交結(jié)果.docx】中對(duì)1ZZ052-大數(shù)據(jù)應(yīng)用與服務(wù)賽項(xiàng)試題05一、背景描述網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以達(dá)到EB級(jí)別,能夠輕松刻滿(mǎn)1.68億張光盤(pán)。在商業(yè)、經(jīng)濟(jì)及其它領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗(yàn)和直覺(jué)。那么,要怎樣基于大數(shù)據(jù)做出正確的決策呢?大數(shù)據(jù)首先需要解決的問(wèn)題就是數(shù)據(jù)存儲(chǔ)的問(wèn)題,由于數(shù)據(jù)量非常之大,想通過(guò)傳統(tǒng)單一的節(jié)點(diǎn)的存儲(chǔ)顯得力不從心,搭建分布式的文件存儲(chǔ)系統(tǒng)成為了一個(gè)完美的解決方案。解決了數(shù)據(jù)存儲(chǔ)的問(wèn)題,我們需要從數(shù)據(jù)中提取有用信息,通過(guò)數(shù)據(jù)分析手段讓數(shù)據(jù)發(fā)揮出真正的價(jià)值。但往往采集的原始數(shù)據(jù)中包含了一些無(wú)用數(shù)據(jù)以及噪聲數(shù)據(jù),如果直接基于這些臟數(shù)據(jù)進(jìn)行分析,往往會(huì)讓分析結(jié)果產(chǎn)生偏差甚至錯(cuò)誤,從而造成決策上的失準(zhǔn)。因此,我們有必要對(duì)這些原始數(shù)據(jù)進(jìn)行清洗,以保證其數(shù)據(jù)準(zhǔn)確性、完整性和可用性,提高數(shù)據(jù)的質(zhì)量。在解決臟數(shù)據(jù)的困擾后,我們需要采取各種數(shù)據(jù)分析手段,提取數(shù)據(jù)中的價(jià)值,得到可靠的結(jié)果,并以圖表等直觀的方式將分析結(jié)果進(jìn)行展現(xiàn)。然后從業(yè)務(wù)層面對(duì)分析結(jié)果進(jìn)行分析和解釋?zhuān)瑥亩鴼夂蜃兓谘杆俚馗淖兊厍?。隨著全球氣溫不斷升高、2海平面上升、極端天氣事件頻繁發(fā)生,人們對(duì)于地球的未來(lái)更加擔(dān)憂(yōu)。為了更好地了解氣候變化的趨勢(shì)、預(yù)測(cè)未來(lái)天氣趨勢(shì),指引相關(guān)部門(mén)盡早做出舉措以應(yīng)對(duì)氣候變化,保護(hù)人類(lèi)賴(lài)以生存的家園,你的團(tuán)隊(duì)將運(yùn)用大數(shù)據(jù)技術(shù)對(duì)天氣數(shù)據(jù)進(jìn)行分析及決策。搭建大數(shù)據(jù)平臺(tái)集群環(huán)境以應(yīng)對(duì)海量天氣數(shù)據(jù)的存儲(chǔ),結(jié)合數(shù)據(jù)庫(kù)的毫秒級(jí)的響應(yīng),為天氣決策系統(tǒng)提供數(shù)據(jù)存儲(chǔ)及查詢(xún)保障。通過(guò)數(shù)據(jù)清洗技術(shù),去除數(shù)據(jù)中對(duì)數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)注,為后續(xù)通過(guò)人工智能算法模型決策奠定基礎(chǔ)。通過(guò)各種數(shù)據(jù)分析技術(shù),讓看似雜亂無(wú)章的數(shù)據(jù),讓數(shù)據(jù)分析結(jié)果及天氣變化規(guī)律以一種最為直觀的方式呈現(xiàn)。最后從業(yè)務(wù)層面對(duì)天氣數(shù)據(jù)分析結(jié)果進(jìn)行分析及解釋?zhuān)箽庀髮W(xué)家更好的了解氣候變化,并做出精準(zhǔn)決策應(yīng)對(duì)氣候問(wèn)題。你們作為該大數(shù)據(jù)小組的技術(shù)人員,請(qǐng)按照下面任務(wù)(一)任務(wù)一:大數(shù)據(jù)平臺(tái)搭建1.子任務(wù)一:Zookeeper集群安裝配置本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,具體要求如(1)在master節(jié)點(diǎn)將/usr/local/src目錄下的apache-zookeeper-3.5.7-bin.tar.3將完整命令截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(2)在master節(jié)點(diǎn)上面將配置的Zookeeper環(huán)境變量文件及Zookeeper解壓包拷貝到slave1、slave2節(jié)點(diǎn),將命令和結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;/opt/zookeeper-3.5.7/data目錄下的myid文件內(nèi)容修改為3,將命令和結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;啟動(dòng)zookeeper,將命令和結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境。命令中要求使用絕對(duì)路徑,具體要求如.hadoop-3.1.3.tar.gz包解壓到/opt路徑下,將完整命令截圖粘貼到對(duì)應(yīng)答題報(bào)告中;設(shè)置Hadoop環(huán)境變量,將環(huán)境變量配置內(nèi)容截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(3)在master節(jié)點(diǎn)上面修改Hadoop的配置文件hdfs-site.xml,需要在該文件中指定上傳的文件的副本數(shù)4為3,將修改的內(nèi)容截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(4)在master節(jié)點(diǎn)上面修改Hadoop的配置文件ResourceManager的地址為slave2,將修改的內(nèi)容截圖粘貼件及Hadoop解壓包拷貝到slave1、slave2節(jié)點(diǎn),將命令和結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(6)在master節(jié)點(diǎn)上面初始化Hadoop環(huán)境namenode,將初始化命令及初始化結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(7)啟動(dòng)Hadoop集群(在master節(jié)點(diǎn)啟動(dòng)hdfs,在slave2節(jié)點(diǎn)啟動(dòng)yarn),使用jps查看master節(jié)點(diǎn)、slave1節(jié)點(diǎn)、slave2節(jié)點(diǎn)的進(jìn)程,將查看結(jié)果截圖粘貼到對(duì)應(yīng)答題本任務(wù)需要使用root用戶(hù)完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)境,具體要求如下:apache-hive-3.1.2-bin.tar.gz安裝包解壓到/opt路徑下,將完整命令截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(2)修改hive-site.xml配置文作為Hive元數(shù)據(jù)庫(kù)。將配置Hive元數(shù)據(jù)庫(kù)的相關(guān)內(nèi)容截圖5粘貼到對(duì)應(yīng)答題報(bào)告中;(3)將/usr/local/src目錄下的MySQL數(shù)據(jù)庫(kù)JDBC驅(qū)動(dòng)mysq1-connector-java-5.1.27-bin.jar拷貝到Hive安裝目錄的lib文件夾下,將完整命令截圖粘貼到對(duì)應(yīng)答題報(bào)(4)初始化Hive元數(shù)據(jù)庫(kù),將初始化命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(5)啟動(dòng)Hive,將命令輸出結(jié)果截圖粘貼到對(duì)應(yīng)答題(二)任務(wù)二:數(shù)據(jù)庫(kù)配置維護(hù)1.子任務(wù)一:數(shù)據(jù)庫(kù)配置MySQL是一個(gè)多用戶(hù)數(shù)據(jù)庫(kù),具有功能強(qiáng)大的訪問(wèn)控制系統(tǒng),可以為不同用戶(hù)指定不同權(quán)限。root用戶(hù)是超級(jí)管理員,擁有所有權(quán)限,包括創(chuàng)建用戶(hù)、刪除用戶(hù)和修改用戶(hù)密碼等管理權(quán)限。為了實(shí)際項(xiàng)目的需要,可以定義不同的用戶(hù)角色,并為不同的角色賦予不同的操作權(quán)限。當(dāng)用戶(hù)訪問(wèn)數(shù)據(jù)庫(kù)時(shí),需要先驗(yàn)證該用戶(hù)是否為合法用戶(hù),再約束該用戶(hù)只能在被賦予的權(quán)限范圍內(nèi)操作。具體任務(wù)要求如下:(1)為本地主機(jī)數(shù)據(jù)庫(kù)創(chuàng)建一個(gè)名為staff的用戶(hù),密碼為staff123456,將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;6(2)查看用戶(hù),確認(rèn)有剛才創(chuàng)建的staff用戶(hù),將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(3)將用戶(hù)名staff修改為newstaff,將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;weather-month表的查詢(xún)、插入、刪除權(quán)限,將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中(MySQL數(shù)據(jù)庫(kù)中已創(chuàng)建好WeatherDB數(shù)據(jù)庫(kù),如果不存在則需要自己建庫(kù)并導(dǎo)入數(shù)據(jù),提供的幾個(gè)sq1是數(shù)據(jù)源文件);(5)使用新用戶(hù)newstaff登錄MySQL數(shù)據(jù)庫(kù),查看是否有WeatherDB數(shù)據(jù)庫(kù),并查看WeatherDB數(shù)據(jù)庫(kù)下有哪些表,將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(6)刪除newstaff的用戶(hù),并確認(rèn)是否已經(jīng)刪除newstaff用戶(hù),將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告2.子任務(wù)二:數(shù)據(jù)表與數(shù)據(jù)管理氣候變化正在迅速地改變地球。隨著全球氣溫不斷升高、海平面上升、極端天氣事件頻繁發(fā)生,人們對(duì)于地球的未來(lái)更加擔(dān)憂(yōu)。為了更好地了解氣候變化的趨勢(shì)、預(yù)測(cè)未來(lái)天氣趨勢(shì),我們創(chuàng)建了“天氣數(shù)據(jù)庫(kù)”,用于收集、組織和記錄來(lái)自全球各地的氣象數(shù)據(jù)和天氣預(yù)報(bào)信息。它的作用不僅僅是記錄過(guò)去的天氣情況,更是提供了一個(gè)全球性、長(zhǎng)期性的7氣候趨勢(shì)預(yù)測(cè)工具,使氣象學(xué)家和氣候?qū)W家能夠更好地了解氣候變化的趨勢(shì),從而采取適當(dāng)?shù)拇胧?yīng)對(duì)未來(lái)的氣候變化。為province-city的數(shù)據(jù)表,數(shù)據(jù)庫(kù)引擎為InnoDB,默認(rèn)字符集為utf8。將完整命令及運(yùn)行結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)列名數(shù)據(jù)類(lèi)型說(shuō)明城市名稱(chēng)省份名稱(chēng)(2)使用SQL命令修改province-city表中climate列的列名為climate-new,將完整命令及結(jié)果截圖粘貼到對(duì)(3)使用SQL命令給province-city表增加一個(gè)字段zip-code(代表郵編),字段類(lèi)型應(yīng)符合實(shí)際意義,將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(4)使用SQL語(yǔ)句給province-city表中插入一條數(shù)據(jù),數(shù)據(jù)的具體信息如下:城市ID為10001、城市名稱(chēng)為閬中市、省份名稱(chēng)為四川省、氣候條件為亞熱帶季風(fēng)氣候、郵編為637400。將完整SQL語(yǔ)句及運(yùn)行結(jié)果截圖粘貼到對(duì)應(yīng)答8(5)使用SQL語(yǔ)句批量給province-city表中插入三條數(shù)據(jù),將完整SQL語(yǔ)句及運(yùn)行結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中。數(shù)據(jù)的具體信息如下:城市名稱(chēng)省份名稱(chēng)郵編江油市四川省亞熱帶季風(fēng)性濕潤(rùn)氣候燈塔市遼寧省北溫帶大陸性氣候玉環(huán)市浙江省暖溫帶大陸性季風(fēng)氣候(6)使用SQL語(yǔ)句修改province-city表中城市ID為10004的城市信息,將氣候修改為亞熱帶海洋性季風(fēng)氣候,將郵編修改為317600。將完整SQL語(yǔ)句及運(yùn)行結(jié)果截圖粘貼3.子任務(wù)三:維護(hù)數(shù)據(jù)表SQL作為一種全球通用的語(yǔ)言,任何人都可以學(xué)習(xí)使用。雖然看起來(lái)很復(fù)雜,除開(kāi)特定數(shù)據(jù)庫(kù)系統(tǒng)專(zhuān)用的SQL命令,其它基本上不需要任何事先的知識(shí),而且命令通常比較少。SQL能夠快速的查詢(xún)和統(tǒng)計(jì)大量數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)的趨勢(shì)和數(shù)據(jù)之間的關(guān)系。SQL是一種與數(shù)據(jù)庫(kù)打交道的標(biāo)準(zhǔn)語(yǔ)言,熟練地使用SQL可以確保每個(gè)使用數(shù)據(jù)庫(kù)的人都會(huì)使用相同的命令,使得開(kāi)發(fā)人員更容易創(chuàng)建與多個(gè)數(shù)據(jù)庫(kù)一起工作的應(yīng)用程序。本任務(wù)的具體要求如下:(1)使用SQL命令查看weather-month表中第20000至第20100條數(shù)據(jù)(查詢(xún)結(jié)果只顯示第20000至第20100條數(shù)據(jù)),將完整SQL語(yǔ)句和運(yùn)行結(jié)果的后5條數(shù)據(jù)以及總數(shù)9據(jù)行數(shù)截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(2)使用SQL語(yǔ)句分別查詢(xún)四川省、廣東省、浙江省名稱(chēng)、郵編、城市等級(jí)、氣候條件。將完整SQL語(yǔ)句和各省份相關(guān)城市查詢(xún)結(jié)果的后5條數(shù)據(jù)以及總數(shù)據(jù)行數(shù)截圖粘貼(3)使用SQL語(yǔ)句查詢(xún)weather_month表,篩選出哪些城市在2018年的月度溫差大于等于5度的(平均最高氣溫-平均最低氣溫),輸出城市id、城市名稱(chēng)、日期、平均最高氣溫、平均最低氣溫。將完整SQL語(yǔ)句和運(yùn)行結(jié)果的后5條數(shù)據(jù)以及總數(shù)據(jù)行數(shù)截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(4)使用SQL語(yǔ)句查詢(xún)weather_day表中各個(gè)城市每年的最高溫度和最低溫度分別是多少度,輸出城市id、城市名稱(chēng)、日期(格式為年)、最高溫度、最低溫度。將完整SQL語(yǔ)句和運(yùn)行結(jié)果的后5條數(shù)據(jù)以及總數(shù)據(jù)行數(shù)截圖粘貼到對(duì)(一)任務(wù)一:數(shù)據(jù)獲取與清洗1.子任務(wù)一:數(shù)據(jù)獲取讀取已經(jīng)爬取到的distribution.csv數(shù)據(jù)文件,根據(jù)表頭字段名統(tǒng)計(jì)每一列缺失值個(gè)數(shù),并保存到代碼同級(jí)目錄下的result-1.csv文件中,result-1.csv文件應(yīng)包括如下字段名字段說(shuō)明字段名稱(chēng)當(dāng)前列缺失值計(jì)數(shù)將result_1.csv文件內(nèi)容截圖粘貼至結(jié)果文件中。本任務(wù)需要使用Hadoop,HDFS命令,已安裝Hadoop及需要配置前置環(huán)境,具體要求如下:(1)在master節(jié)點(diǎn)HDFS根目錄下創(chuàng)建student目錄,將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中;(2)使用命令將/root/clean-month.csv文件上傳到HDFS文件系統(tǒng)的/student目錄下,將完整命令及結(jié)果截圖(3)使用命令查看HDFS中/student/clean-month.csv文件的后5條數(shù)據(jù),將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題(4)使用命令查看HDFS中/student目錄下每個(gè)文件所占磁盤(pán)空間,人性化顯示文件大小,將完整命令及結(jié)果截圖粘貼到對(duì)應(yīng)答題報(bào)告中。(二)任務(wù)二:數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注是人工智能產(chǎn)業(yè)的基礎(chǔ),是機(jī)器感知現(xiàn)實(shí)世界的起點(diǎn)。隨著AI行業(yè)的蓬勃發(fā)展,對(duì)數(shù)據(jù)的需求呈井噴式增長(zhǎng),從某種程度上來(lái)說(shuō),沒(méi)有經(jīng)過(guò)標(biāo)注的數(shù)據(jù)就是無(wú)用數(shù)據(jù)。數(shù)據(jù)標(biāo)注的越精準(zhǔn)、對(duì)算法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 水處理課程設(shè)計(jì)mbr
- 鍋爐課程設(shè)計(jì)成績(jī)表
- 中國(guó)茶葉面膜行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告(2024-2030版)
- 中國(guó)腎上腺皮質(zhì)激素類(lèi)藥行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告(2024-2030版)
- 2024年中國(guó)暗場(chǎng)顯微鏡市場(chǎng)調(diào)查研究報(bào)告
- 中國(guó)組合曲軸運(yùn)行業(yè)發(fā)展方向及投資規(guī)劃分析研究報(bào)告(2024-2030版)
- 中國(guó)糯米粉行業(yè)銷(xiāo)售態(tài)勢(shì)及消費(fèi)趨勢(shì)預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)疏水涂層行業(yè)競(jìng)爭(zhēng)趨勢(shì)及供需形勢(shì)分析研究報(bào)告(2024-2030版)
- 2024年中國(guó)雙效快克市場(chǎng)調(diào)查研究報(bào)告
- 繼電保護(hù)課程設(shè)計(jì)山科大
- 小學(xué)六年級(jí)數(shù)學(xué)上冊(cè)口算題300道(全)
- 《干粉滅火器檢查卡》
- 校園監(jiān)控值班記錄表(共2頁(yè))
- 試樁施工方案 (完整版)
- 走中國(guó)工業(yè)化道路的思想及成就
- ESTIC-AU40使用說(shuō)明書(shū)(中文100版)(共138頁(yè))
- 河北省2012土建定額說(shuō)明及計(jì)算規(guī)則(含定額總說(shuō)明)解讀
- Prolog語(yǔ)言(耐心看完-你就入門(mén)了)
- 保霸線外加電流深井陽(yáng)極地床陰極保護(hù)工程施工方案
- 藍(lán)色商務(wù)大氣感恩同行集團(tuán)公司20周年慶典PPT模板
- 恒溫箱PLC控制系統(tǒng)畢業(yè)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論