版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一、賽項(xiàng)信息
?每年賽隔年賽(單數(shù)年/雙數(shù)年)
□中等職業(yè)教育?高等職業(yè)教育
□學(xué)生賽(□個(gè)人/□團(tuán)體)□教師賽(試點(diǎn))?師生同賽(試點(diǎn))
核心課程
專業(yè)大類專業(yè)類專業(yè)名稱
(對(duì)應(yīng)每個(gè)專業(yè),明確涉及的專業(yè)核心課程)
數(shù)據(jù)采集技術(shù)
數(shù)據(jù)預(yù)處理技術(shù)
510205大數(shù)據(jù)大數(shù)據(jù)分析技術(shù)應(yīng)用
技術(shù)數(shù)據(jù)可視化技術(shù)與應(yīng)用
數(shù)據(jù)挖掘應(yīng)用
大數(shù)據(jù)平臺(tái)部署與運(yùn)維
數(shù)據(jù)庫技術(shù)及應(yīng)用
前端設(shè)計(jì)與開發(fā)
510201計(jì)算機(jī)
信息采集技術(shù)
51電子與5102計(jì)算機(jī)應(yīng)用技術(shù)
數(shù)據(jù)分析方法
信息大類類
系統(tǒng)部署與運(yùn)維
Linux操作系統(tǒng)管理
510202計(jì)算機(jī)
程序設(shè)計(jì)基礎(chǔ)
網(wǎng)絡(luò)技術(shù)
數(shù)據(jù)庫應(yīng)用技術(shù)
程序設(shè)計(jì)基礎(chǔ)
510203軟件技數(shù)據(jù)庫技術(shù)
術(shù)面向?qū)ο蟪绦蛟O(shè)計(jì)
數(shù)據(jù)結(jié)構(gòu)
510206云計(jì)算Linux操作系統(tǒng)
2
技術(shù)應(yīng)用程序設(shè)計(jì)基礎(chǔ)
數(shù)據(jù)庫技術(shù)
Web應(yīng)用開發(fā)
程序設(shè)計(jì)基礎(chǔ)
510209人工智Linux操作系統(tǒng)
能技術(shù)應(yīng)用數(shù)據(jù)庫技術(shù)
人工智能數(shù)據(jù)服務(wù)
程序設(shè)計(jì)基礎(chǔ)
數(shù)據(jù)庫應(yīng)用基礎(chǔ)
510211工業(yè)互
工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)
聯(lián)網(wǎng)技術(shù)
工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù)
數(shù)據(jù)采集與處理
核心能力
產(chǎn)業(yè)行業(yè)崗位(群)
(對(duì)應(yīng)每個(gè)崗位(群),明確核心能力要求)
大數(shù)據(jù)平臺(tái)搭建部署與基本使用,以及大數(shù)據(jù)集
大數(shù)據(jù)實(shí)施與運(yùn)維群運(yùn)維
大數(shù)據(jù)平臺(tái)管理、大數(shù)據(jù)技術(shù)服務(wù)
分析用戶業(yè)務(wù)需求,制訂大數(shù)據(jù)項(xiàng)目解決方案
數(shù)據(jù)分析處理開發(fā)數(shù)據(jù)采集、抽取、清洗、轉(zhuǎn)換與加載等數(shù)據(jù)
戰(zhàn)略性新預(yù)處理模型
基于行業(yè)應(yīng)用與典型工作場景,解決業(yè)務(wù)需求
興產(chǎn)業(yè)-新
安裝部署與使用數(shù)據(jù)分析工具,運(yùn)用大數(shù)據(jù)分析
一代信息
平臺(tái)完成大數(shù)據(jù)分析任務(wù)
技術(shù)
大數(shù)據(jù)分析與可視化數(shù)據(jù)可視化設(shè)計(jì),開發(fā)應(yīng)用程序進(jìn)行數(shù)據(jù)可視化
展示,撰寫數(shù)據(jù)可視化結(jié)果分析報(bào)告
基于行業(yè)應(yīng)用與典型工作場景,解決業(yè)務(wù)需求
程序設(shè)計(jì)數(shù)據(jù)庫應(yīng)用、前端開發(fā)等程序設(shè)計(jì)能力
數(shù)據(jù)采集與分析數(shù)據(jù)采集、使用工具進(jìn)行數(shù)據(jù)分析
信息系統(tǒng)運(yùn)行維護(hù)信息系統(tǒng)部署與運(yùn)維
3
二、競賽目標(biāo)
“十四五”時(shí)期,大數(shù)據(jù)產(chǎn)業(yè)對(duì)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展的賦能作用
更加突顯,大數(shù)據(jù)已成為催生新業(yè)態(tài)、激發(fā)新模式、促進(jìn)新發(fā)展的技
術(shù)引擎。習(xí)近平總書記指出“大數(shù)據(jù)是信息化發(fā)展的新階段”,“加
快數(shù)字化發(fā)展,建設(shè)數(shù)字中國”成為《中華人民共和國國民經(jīng)濟(jì)和社
會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》的重要篇章。
本賽項(xiàng)旨在落實(shí)國家“建設(shè)數(shù)字中國”戰(zhàn)略,協(xié)同推動(dòng)大數(shù)據(jù)相
關(guān)產(chǎn)業(yè)的創(chuàng)新與發(fā)展,大力推進(jìn)大數(shù)據(jù)技術(shù)及相關(guān)專業(yè)的技術(shù)技能型
人才培養(yǎng),全面提升相關(guān)專業(yè)畢業(yè)生的綜合能力,展現(xiàn)選手團(tuán)隊(duì)合作、
工匠精神等職業(yè)素養(yǎng),賦能經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展。競賽內(nèi)容結(jié)合當(dāng)前
大數(shù)據(jù)相關(guān)產(chǎn)業(yè)中的新技術(shù)、新要求如數(shù)據(jù)湖、OLAP數(shù)據(jù)庫應(yīng)用等,
全面檢驗(yàn)參賽選手的工程實(shí)踐能力和創(chuàng)新能力,推進(jìn)教學(xué)過程與生產(chǎn)
過程對(duì)接、課程內(nèi)容與職業(yè)標(biāo)準(zhǔn)對(duì)接、專業(yè)設(shè)置與產(chǎn)業(yè)需求對(duì)接,促
進(jìn)職普融通、產(chǎn)教融合、科教融匯,引領(lǐng)專業(yè)建設(shè)和教學(xué)改革。競賽
內(nèi)容圍繞大數(shù)據(jù)相關(guān)產(chǎn)業(yè)崗位的實(shí)際技能要求進(jìn)行設(shè)計(jì),通過競賽搭
建校企合作的平臺(tái),強(qiáng)化競賽成果轉(zhuǎn)化,促進(jìn)相關(guān)教材、資源、師資、
認(rèn)證、實(shí)習(xí)就業(yè)等方面的全方位建設(shè),滿足產(chǎn)教協(xié)同育人目標(biāo),為國
家戰(zhàn)略規(guī)劃提供大數(shù)據(jù)領(lǐng)域高素質(zhì)技能型人才。
三、競賽內(nèi)容
本賽項(xiàng)涉及的典型工作任務(wù)包括大數(shù)據(jù)平臺(tái)搭建(容器環(huán)境)、
離線數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)采集與實(shí)時(shí)計(jì)算、數(shù)據(jù)可視化、綜合
分析、職業(yè)素養(yǎng),引入行業(yè)內(nèi)較為前沿的數(shù)據(jù)湖架構(gòu)作為創(chuàng)新、創(chuàng)意
的范圍與方向,考查的技術(shù)技能如下:
(一)大數(shù)據(jù)平臺(tái)搭建(容器環(huán)境):Docker容器基礎(chǔ)操作、H
adoop完全分布式安裝配置、HadoopHA安裝配置、SparkonYarn
4
安裝配置、FlinkonYarn安裝配置、Hive安裝配置、Flume安裝配
置、ZooKeeper安裝配置、Kafka安裝配置、HBase分布式安裝配置、
ClickHouse單節(jié)點(diǎn)安裝配置、Hudi安裝配置。
(二)離線數(shù)據(jù)處理:Scala應(yīng)用開發(fā)、Pom文件配置、Maven
本地倉庫配置使用、基于Spark的數(shù)據(jù)清洗處理方法、基于Hive的
數(shù)據(jù)清洗處理方法、基于Hudi的數(shù)據(jù)清洗處理方法、數(shù)據(jù)倉庫基本
架構(gòu)及概念、數(shù)據(jù)湖基本架構(gòu)及概念、MySQL基本操作、ClickHouse
基本操作、Azkaban基本操作、DolphinScheduler基本操作。
(三)數(shù)據(jù)挖掘:特征工程應(yīng)用、SparkML機(jī)器學(xué)習(xí)庫應(yīng)用開
發(fā)、推薦算法的召回和排序、回歸模型、聚類模型、決策樹模型、隨
機(jī)森林模型應(yīng)用。
(四)數(shù)據(jù)采集與實(shí)時(shí)計(jì)算:Scala應(yīng)用開發(fā)、Pom文件配置、M
aven本地倉庫配置使用、基于Flume及Kafka的數(shù)據(jù)采集方法、基
于Flink的實(shí)時(shí)數(shù)據(jù)處理方法、HBase基本操作、Redis基本操作、M
ySQL基本操作。
(五)數(shù)據(jù)可視化:Vue.js框架應(yīng)用開發(fā)、ECharts組件應(yīng)用開
發(fā),會(huì)使用ECharts繪制柱狀圖、折線圖、折柱混合圖、玫瑰圖、氣
泡圖、餅狀圖、條形圖、雷達(dá)圖、散點(diǎn)圖等圖表。
(六)綜合分析:依據(jù)整體項(xiàng)目過程,在綜合理解業(yè)務(wù)的基礎(chǔ)上,
根據(jù)題目要求進(jìn)行綜合分析。
(七)職業(yè)素養(yǎng):團(tuán)隊(duì)分工明確合理、操作規(guī)范、文明競賽。
1、競賽內(nèi)容結(jié)構(gòu)、成績比例如下:
5
表3-1競賽內(nèi)容結(jié)構(gòu)和成績比例
大數(shù)據(jù)平臺(tái)搭建選手在容器環(huán)境下對(duì)大數(shù)據(jù)平臺(tái)及相關(guān)組件
115%
(容器環(huán)境)的安裝、配置、可用性驗(yàn)證等內(nèi)容。
選手對(duì)Hadoop平臺(tái)、Spark平臺(tái)、Hive數(shù)據(jù)
倉庫、Hudi數(shù)據(jù)湖、任務(wù)調(diào)度工具等的綜合
2離線數(shù)據(jù)處理25%應(yīng)用能力,使用Scala開發(fā)語言,完成離線
數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)指標(biāo)統(tǒng)計(jì)等操作,
并存入MySQL、ClickHouse中。
選手運(yùn)用常用的機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行數(shù)
3數(shù)據(jù)挖掘10%
據(jù)挖掘分析。
選手對(duì)Flink平臺(tái)、Flume組件、Kafka組件
等的綜合應(yīng)用能力,基于Flume和Kafka進(jìn)
數(shù)據(jù)采集與實(shí)時(shí)
420%行實(shí)時(shí)數(shù)據(jù)采集,使用Scala開發(fā)語言,完
計(jì)算
成實(shí)時(shí)數(shù)據(jù)流相關(guān)數(shù)據(jù)指標(biāo)的分析、計(jì)算等
操作,并存入HBase、Redis、MySQL中。
選手基于前端框架Vue.js和后端REST風(fēng)格
5數(shù)據(jù)可視化15%的數(shù)據(jù)接口,使用JavaScript語言將數(shù)據(jù)分
析結(jié)果以圖表的形式進(jìn)行呈現(xiàn)、統(tǒng)計(jì)
選手對(duì)大數(shù)據(jù)技術(shù)的業(yè)務(wù)分析、技術(shù)分析及
6綜合分析10%
報(bào)告撰寫能力。
7職業(yè)素養(yǎng)5%團(tuán)隊(duì)分工明確合理、操作規(guī)范、文明競賽。
6
2、賽項(xiàng)模塊、比賽時(shí)長及分值配比如下:
表3-2賽項(xiàng)模塊比賽時(shí)長及分值配比
競賽以電商大數(shù)據(jù)及工業(yè)大數(shù)據(jù)為
業(yè)務(wù)背景,主要設(shè)置以下競賽任務(wù):
在容器環(huán)境下對(duì)大數(shù)據(jù)平臺(tái)及相關(guān)
組件的安裝、配置、可用性驗(yàn)證等
內(nèi)容。
對(duì)Hadoop平臺(tái)、Spark平臺(tái)、Hive
數(shù)據(jù)倉庫、Hudi數(shù)據(jù)湖、任務(wù)調(diào)度
工具等的綜合應(yīng)用能力,使用Scal
a開發(fā)語言,完成離線數(shù)據(jù)抽取、數(shù)
大數(shù)據(jù)應(yīng)據(jù)清洗、數(shù)據(jù)指標(biāo)統(tǒng)計(jì)等操作,并
6小時(shí)100分
用開發(fā)存入MySQL、ClickHouse中。
運(yùn)用常用的機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)
行數(shù)據(jù)挖掘分析。
對(duì)Flink平臺(tái)、Flume組件、Kafka
組件等的綜合應(yīng)用能力,基于Flum
e和Kafka進(jìn)行實(shí)時(shí)數(shù)據(jù)采集,使用
Scala開發(fā)語言,完成實(shí)時(shí)數(shù)據(jù)流相
關(guān)數(shù)據(jù)指標(biāo)的分析、計(jì)算等操作,
并存入HBase、Redis、MySQL中。
基于前端框架Vue.js和后端REST
7
風(fēng)格的數(shù)據(jù)接口,使用JavaScript
語言將數(shù)據(jù)分析結(jié)果以圖表的形式
進(jìn)行呈現(xiàn)、統(tǒng)計(jì)。
對(duì)大數(shù)據(jù)技術(shù)的業(yè)務(wù)分析、技術(shù)分
析及報(bào)告撰寫能力。
綜合職業(yè)素養(yǎng),包括團(tuán)隊(duì)分工明確
合理、操作規(guī)范、文明競賽等內(nèi)容。
四、競賽方式
本競賽為線下比賽,組隊(duì)方式為師生同賽,具體要求如下:
(一)參賽學(xué)生須為高等職業(yè)學(xué)校專科、高等職業(yè)學(xué)校本科全日
制在籍學(xué)生,五年制高職四、五年級(jí)學(xué)生也可報(bào)名參賽;參賽教師須
為校內(nèi)專任教師,并提供近半年的社?;蚣{稅證明。凡在往屆全國職
業(yè)院校技能大賽中獲一等獎(jiǎng)的選手,不能再參加同一項(xiàng)目同一組別的
比賽。
(二)每支參賽隊(duì)由4名選手組成,其中1名教師,3名學(xué)生。
本賽項(xiàng)為師生同賽不設(shè)指導(dǎo)教師,報(bào)名獲得確認(rèn)后不得隨意更換。
(三)本賽項(xiàng)為單一場次,所有參賽隊(duì)在現(xiàn)場根據(jù)給定的任務(wù)說
明,在6小時(shí)內(nèi)相互配合,采用小組合作的形式完成任務(wù),最后以
提交的結(jié)果文檔作為最終評(píng)分依據(jù)。
五、競賽流程
8
表5-1競賽時(shí)間
15:30之前各參賽隊(duì)報(bào)到
15:30—16:00賽前領(lǐng)隊(duì)會(huì)
競賽前一日16:00—16:30參賽隊(duì)熟悉比賽場地
16:30—17:00賽前檢查,封閉賽場
07:30—08:20參賽隊(duì)集合前往比賽現(xiàn)場
08:20—08:30賽場檢錄
08:30—08:40一次加密:參賽隊(duì)抽取參賽編號(hào)
08:40—08:50二次加密:參賽隊(duì)抽取賽位號(hào)
08:50—09:00參賽隊(duì)進(jìn)入比賽賽位,進(jìn)行賽前軟、硬件檢查、
題目發(fā)放
競賽當(dāng)日09:00—15:00競賽進(jìn)行
15:00—15:20收取各參賽隊(duì)賽題及比賽結(jié)果文檔
15:00—17:00申訴受理
15:20—16:00三次加密:競賽結(jié)果等文件加密
16:00—18:00成績?cè)u(píng)定與復(fù)核
18:00—19:00加密信息解密
19:00—20:00成績匯總及報(bào)送
9
圖5-1競賽流程
10
六、競賽規(guī)則
(一)選手報(bào)名:參賽學(xué)生須為高等職業(yè)學(xué)校專科、高等職業(yè)學(xué)
校本科全日制在籍學(xué)生,五年制高職四、五年級(jí)學(xué)生也可報(bào)名參賽。
參賽教師須為校內(nèi)專任教師,并提供近半年的社保或納稅證明。凡在
往屆全國職業(yè)院校技能大賽中獲一等獎(jiǎng)的選手,不能再參加同一項(xiàng)目
同一組別的比賽。
(二)熟悉場地:競賽前1日安排各參賽隊(duì)領(lǐng)隊(duì)、參賽選手熟悉
賽場。
(三)入場規(guī)則:參賽選手按規(guī)定時(shí)間到達(dá)指定地點(diǎn),必須攜帶
參賽證件,進(jìn)行檢錄、一次加密、二次加密等流程,最終確定工位,
選手遲到10分鐘取消比賽資格。嚴(yán)禁參賽選手、賽項(xiàng)裁判、工作人
員私自攜帶通訊、攝錄設(shè)備進(jìn)入比賽場地。參賽選手所需的硬件、軟
件和輔助工具統(tǒng)一提供,參賽隊(duì)不得使用自帶的任何有存儲(chǔ)功能的設(shè)
備,如手機(jī)、U盤、移動(dòng)硬盤等。參賽隊(duì)在賽前領(lǐng)取比賽任務(wù)并進(jìn)入
比賽工位,比賽正式開始后方可進(jìn)行相關(guān)操作。
(四)賽場規(guī)則:在比賽過程中,參賽選手如有疑問,應(yīng)舉手示
意,現(xiàn)場裁判應(yīng)按要求及時(shí)予以答疑。如遇設(shè)備或軟件等故障,參賽
選手應(yīng)舉手示意,現(xiàn)場裁判、技術(shù)人員等應(yīng)及時(shí)予以解決。確因計(jì)算
機(jī)軟件或硬件故障,致使操作無法繼續(xù),經(jīng)裁判長確認(rèn),予以啟用備
用設(shè)備。參賽選手不得因各種原因提前結(jié)束比賽。如確因不可抗因素
需要離開賽場的,須向現(xiàn)場裁判員舉手示意,經(jīng)裁判員許可并完成記
錄后,方可離開。凡在競賽期間內(nèi)提前離開的選手,不得返回賽場。
(五)離場規(guī)則:比賽時(shí)間結(jié)束,選手應(yīng)全體起立,結(jié)束操作。
參賽選手要確認(rèn)已成功提交競賽要求的文檔,裁判員與參賽選手一起
簽字確認(rèn),經(jīng)工作人員查收清點(diǎn)所有文檔后方可離開賽場,離開賽場
11
時(shí)不得帶走任何資料。
(六)成績?cè)u(píng)定:比賽結(jié)束,對(duì)各參賽選手提交的競賽結(jié)果進(jìn)行
第三次加密后,裁判方可入場進(jìn)行成績?cè)u(píng)判。最終競賽成績經(jīng)復(fù)核無
誤,由裁判長、監(jiān)督仲裁長簽字確認(rèn)后,以紙質(zhì)形式匯總上報(bào)。
(七)其它未盡事宜,將在賽前向各領(lǐng)隊(duì)做詳細(xì)說明。
七、技術(shù)規(guī)范
本賽項(xiàng)引用的國際、國家、行業(yè)技術(shù)、職業(yè)資格標(biāo)準(zhǔn)與規(guī)范如下:
表7-1基礎(chǔ)標(biāo)準(zhǔn)
GB/T11457-2006信息技術(shù)軟件工程術(shù)語
GB8566-88計(jì)算機(jī)軟件開發(fā)規(guī)范
GB/T12991.1-2008信息技術(shù)數(shù)據(jù)庫語言SQL第1部分:框架
GB/Z21025-2007XML使用指南
GB/T28821-2012關(guān)系數(shù)據(jù)管理系統(tǒng)技術(shù)要求
LD/T81.1-2006職業(yè)技能實(shí)訓(xùn)和鑒定設(shè)備通用技術(shù)規(guī)范
表7-2大數(shù)據(jù)技術(shù)相關(guān)標(biāo)準(zhǔn)
GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語
GB/T37721-2019信息技術(shù)大數(shù)據(jù)分析系統(tǒng)功能要求
GB/T37722-2019信息技術(shù)大數(shù)據(jù)存儲(chǔ)與處理系統(tǒng)功能要求
GB/T38672-2020信息技術(shù)大數(shù)據(jù)接口基本要求
GB/T38673-2020信息技術(shù)大數(shù)據(jù)大數(shù)據(jù)系統(tǒng)基本要求
GB/T38675-2020信息技術(shù)大數(shù)據(jù)計(jì)算系統(tǒng)通用要求
GB/T38633-2020信息技術(shù)大數(shù)據(jù)系統(tǒng)運(yùn)維和管理功能要求
GB/T41778-2022信息技術(shù)工業(yè)大數(shù)據(jù)術(shù)語
GB/T41818-2022信息技術(shù)大數(shù)據(jù)面向分析的數(shù)據(jù)存儲(chǔ)與檢索技術(shù)要求
表7-3軟件開發(fā)與軟件工程相關(guān)標(biāo)準(zhǔn)
12
GB/T14079-1993軟件維護(hù)指南
GB/T15853-1995軟件支持環(huán)境
GB/T17544-1998信息技術(shù)軟件包質(zhì)量要求和測試
GB/T8566-2007信息技術(shù)軟件生存周期過程
GB/T22032-2021系統(tǒng)與軟件工程系統(tǒng)生存周期過程
八、技術(shù)環(huán)境
競賽現(xiàn)場設(shè)置競賽區(qū)、裁判區(qū)、技術(shù)支持區(qū)、服務(wù)區(qū)等。
1.競賽區(qū)域:每個(gè)競賽工位設(shè)工位編號(hào),工位之間由隔板隔
開,確?;ゲ桓蓴_。
2.裁判區(qū):供裁判工作及休息,配備滿足需要的辦公設(shè)備。
3.技術(shù)支持區(qū):供技術(shù)支持人員工作及休息,為競賽提供技
術(shù)支持。
4.服務(wù)區(qū):提供醫(yī)療等服務(wù)保障。
表8-1競賽設(shè)備
CPU:Intel性能相當(dāng)于i5處理器
內(nèi)存:不少于64GB
1服務(wù)器每組1臺(tái)
硬盤:不少于1TB
網(wǎng)卡:千兆
該系統(tǒng)基于主流云原生技術(shù)、大數(shù)據(jù)技術(shù)構(gòu)建,旨在為
大數(shù)據(jù)賽訓(xùn)
2每組1套學(xué)生提供快捷、便利的大數(shù)據(jù)集群操作環(huán)境,幫助他們
管理系統(tǒng)
更好地掌握大數(shù)據(jù)相關(guān)技術(shù)和應(yīng)用。該系統(tǒng)應(yīng)基于微服
(四合天
務(wù)構(gòu)建,以經(jīng)典的微服務(wù)分層方式劃分不同的服務(wù)層級(jí),
地大數(shù)據(jù)
13
實(shí)訓(xùn)管理利用圖形化的工作負(fù)載編輯模式快速進(jìn)行系統(tǒng)的部署和
系統(tǒng)V2.0服務(wù)管理,有效展示各服務(wù)的容器信息,方便實(shí)時(shí)進(jìn)行
)
系統(tǒng)運(yùn)維。系統(tǒng)能夠構(gòu)建大數(shù)據(jù)平臺(tái)搭建、數(shù)據(jù)處理、
數(shù)據(jù)分析、數(shù)據(jù)可視化等教學(xué)實(shí)訓(xùn)模塊,快速開展教學(xué)、
實(shí)訓(xùn)及競賽活動(dòng),系統(tǒng)應(yīng)能夠生成命令行、桌面級(jí)容器
環(huán)境,可通過不同模式進(jìn)行訪問,方便學(xué)生進(jìn)行集群調(diào)
試和代碼開發(fā)。通過使用該系統(tǒng),學(xué)生可以深入了解大
數(shù)據(jù)技術(shù)的核心思想和應(yīng)用場景,增強(qiáng)自己的數(shù)據(jù)分析
和處理能力,提高對(duì)數(shù)據(jù)的認(rèn)識(shí)和運(yùn)用水平。系統(tǒng)應(yīng)支
持模擬競賽全業(yè)務(wù)流程,提供大數(shù)據(jù)競賽操作環(huán)境。
CPU:i5及以上
內(nèi)存:不少于16GB
3PC機(jī)每組4臺(tái)
硬盤:不少于250GB
顯示器:1920*1080及以上
14
表8-2軟件環(huán)境
大數(shù)據(jù)集群操作系統(tǒng)CentOS7
容器環(huán)境Docker-CE20.10
Hadoop3.1.3
Yarn3.1.3
ZooKeeper3.5.7
服務(wù)器Hive3.1.2
大數(shù)據(jù)平臺(tái)組件
Hudi0.12.0
ClickHouse21.9.4
JDK1.8
Flume1.9.0
15
Kafka2.4.1
Spark3.1.1
Flink1.14.0
Redis6.2.6
HBase2.2.3
Azkaban3.84.4
DolphinScheduler3.1.4
關(guān)系型數(shù)據(jù)庫MySQL5.7
PC操作系統(tǒng)Ubuntu18.0464位
瀏覽器Chrome
Scala2.12
開發(fā)語言
JavaScript
IDEA2022
開發(fā)工具(CommunityEdition)
VisualStudioCode1.69
SSH工具Asbru-cm或UbuntuSSH客戶端
PC機(jī)
數(shù)據(jù)庫工具M(jìn)ySQLWorkbench
接口測試工具Postman
Vue.js3.2
數(shù)據(jù)可視化框架及組件
ECharts5.1
截圖工具Ubuntu系統(tǒng)自帶
文檔編輯器WPSLinux版
輸入法搜狗拼音輸入法Linux版
16
九、競賽樣題
大數(shù)據(jù)時(shí)代背景下,電商經(jīng)營模式發(fā)生很大改變。在傳統(tǒng)運(yùn)營模
式中,缺乏數(shù)據(jù)積累,人們?cè)谧龀鲆恍Q策行為過程中,更多是憑借
個(gè)人經(jīng)驗(yàn)和直覺,發(fā)展路徑比較自我封閉。而大數(shù)據(jù)時(shí)代,為人們提
供一種全新的思路,通過大量的數(shù)據(jù)分析得出的結(jié)果將更加現(xiàn)實(shí)和準(zhǔn)
確。商家可以對(duì)客戶的消費(fèi)行為信息數(shù)據(jù)進(jìn)行收集和整理,比如消費(fèi)
者購買產(chǎn)品的花費(fèi)、選擇產(chǎn)品的渠道、偏好產(chǎn)品的類型、產(chǎn)品回購周
期、購買產(chǎn)品的目的、消費(fèi)者家庭背景、工作和生活環(huán)境、個(gè)人消費(fèi)
觀和價(jià)值觀等。通過數(shù)據(jù)追蹤,知道顧客從哪兒來,是看了某網(wǎng)站投
放的廣告還是通過朋友推薦鏈接,是新訪客還是老用戶,喜歡瀏覽什
么產(chǎn)品,購物車有無商品,是否清空,還有每一筆交易記錄,精準(zhǔn)鎖
定一定年齡、收入、對(duì)產(chǎn)品有興趣的顧客,對(duì)顧客進(jìn)行分組、標(biāo)簽化,
通過不同標(biāo)簽組合運(yùn)用,獲得不同目標(biāo)群體,以此開展精準(zhǔn)推送。
因數(shù)據(jù)驅(qū)動(dòng)的零售新時(shí)代已經(jīng)到來,沒有大數(shù)據(jù),我們無法為消
費(fèi)者提供這些體驗(yàn),為完成電商的大數(shù)據(jù)分析工作,你所在的小組將
應(yīng)用大數(shù)據(jù)技術(shù),以Scala作為整個(gè)項(xiàng)目的基礎(chǔ)開發(fā)語言,基于大數(shù)
據(jù)平臺(tái)綜合利用Hive、Spark、Flink、Vue.js等技術(shù),對(duì)數(shù)據(jù)進(jìn)行
處理、分析及可視化呈現(xiàn),你們作為該小組的技術(shù)人員,請(qǐng)按照下面
任務(wù)完成本次工作。
宿主機(jī)及各容器節(jié)點(diǎn)可通過Asbru工具或SSH客戶端進(jìn)
17
行SSH訪問。
子任務(wù)一:Hadoop完全分布式安裝配置
本任務(wù)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置
前置環(huán)境。命令中要求使用絕對(duì)路徑,具體要求如下:
1、從宿主機(jī)/opt目錄下將文件hadoop-3.1.3.tar.gz、jdk-8u212-
linux-x64.tar.gz復(fù)制到容器Master中的/opt/software路徑中
(若路徑不存在,則需新建),將Master節(jié)點(diǎn)JDK安裝包解壓到
/opt/module路徑中(若路徑不存在,則需新建),將JDK解壓命
令復(fù)制并粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中
對(duì)應(yīng)的任務(wù)序號(hào)下;
2、修改容器中/etc/profile文件,設(shè)置JDK環(huán)境變量并使其生效,
配置完畢后在Master節(jié)點(diǎn)分別執(zhí)行“java-version”和“java
c”命令,將命令行執(zhí)行結(jié)果分別截圖并粘貼至客戶端桌面【Rel
ease\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
3、請(qǐng)完成host相關(guān)配置,將三個(gè)節(jié)點(diǎn)分別命名為master、slave1、
slave2,并做免密登錄,用scp命令并使用絕對(duì)路徑從Master復(fù)
制JDK解壓后的安裝文件到slave1、slave2節(jié)點(diǎn)(若路徑不存在,
則需新建),并配置slave1、slave2相關(guān)環(huán)境變量,將全部scp
復(fù)制JDK的命令復(fù)制并粘貼至客戶端桌面【Release\任務(wù)A提交
結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
4、在容器Master將Hadoop解壓到/opt/module(若路徑不存在,則
需新建)目錄下,并將解壓包分發(fā)至slave1、slave2中,其中ma
18
ster、slave1、slave2節(jié)點(diǎn)均作為datanode,配置好相關(guān)環(huán)境,
初始化Hadoop環(huán)境namenode,將初始化命令及初始化結(jié)果截圖
(截取初始化結(jié)果日志最后20行即可)粘貼至客戶端桌面【Rel
ease\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
5、啟動(dòng)Hadoop集群(包括hdfs和yarn),使用jps命令查看Mas
ter節(jié)點(diǎn)與slave1節(jié)點(diǎn)的Java進(jìn)程,將jps命令與結(jié)果截圖粘
貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)
序號(hào)下。
子任務(wù)二:SparkonYarn安裝配置
本任務(wù)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要
配置前置環(huán)境,具體要求如下:
1、從宿主機(jī)/opt目錄下將文件spark-3.1.1-bin-hadoop3.2.tgz復(fù)
制到容器Master中的/opt/software(若路徑不存在,則需新建)
中,將Spark包解壓到/opt/module路徑中(若路徑不存在,則需
新建),將完整解壓命令復(fù)制粘貼至客戶端桌面【Release\任務(wù)A
提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
2、修改容器中/etc/profile文件,設(shè)置Spark環(huán)境變量并使環(huán)境變
量生效,在/opt目錄下運(yùn)行命令spark-submit--version,將命
令與結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.doc
x】中對(duì)應(yīng)的任務(wù)序號(hào)下;
3、完成onyarn相關(guān)配置,使用sparkonyarn的模式提交$SPARK
19
_HOME/examples/jars/spark-examples_2.12-3.1.1.jar運(yùn)行的
主類為org.apache.spark.examples.SparkPi,將運(yùn)行結(jié)果截圖
粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任
務(wù)序號(hào)下(截取Pi結(jié)果的前后各5行)。
(運(yùn)行命令為:spark-submit--masteryarn--classorg.ap
ache.spark.examples.SparkPi$SPARK_HOME/examples/jars/spar
k-examples_2.12-3.1.1.jar)
子任務(wù)三:HBase分布式安裝配置
本任務(wù)需要使用root用戶完成相關(guān)配置,安裝HBase需要配置H
adoop和ZooKeeper等前置環(huán)境。命令中要求使用絕對(duì)路徑,具體要
求如下:
1、從宿主機(jī)/opt目錄下將文件apache-zookeeper-3.5.7-bin.tar.
gz、hbase-2.2.3-bin.tar.gz復(fù)制到容器Master中的/opt/soft
ware路徑中(若路徑不存在,則需新建),將zookeeper、hbas
e安裝包解壓到/opt/module目錄下,將HBase的解壓命令復(fù)制并
粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任
務(wù)序號(hào)下;
2、完成ZooKeeper相關(guān)部署,用scp命令并使用絕對(duì)路徑從容器ma
ster復(fù)制HBase解壓后的包分發(fā)至slave1、slave2中,并修改
相關(guān)配置,配置好環(huán)境變量,在容器Master節(jié)點(diǎn)中運(yùn)行命令hba
seversion,將全部復(fù)制命令復(fù)制并將hbaseversion命令的結(jié)
20
果截圖粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)
應(yīng)的任務(wù)序號(hào)下;
3、啟動(dòng)HBase后在三個(gè)節(jié)點(diǎn)分別使用jps命令查看,并將結(jié)果分別
截圖粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)
的任務(wù)序號(hào)下;正常啟動(dòng)后在hbaseshell中查看命名空間,將
查看命名空間的結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)A提
交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。
各節(jié)點(diǎn)可通過Asbru工具或SSH客戶端進(jìn)行SSH訪問;
主節(jié)點(diǎn)MySQL數(shù)據(jù)庫用戶名/密碼:root/123456(已配置遠(yuǎn)程連接);
Hive的配置文件位于/opt/apache-hive-2.3.4-bin/conf/
Spark任務(wù)在Yarn上用Client運(yùn)行,方便觀察日志。
子任務(wù)一:數(shù)據(jù)抽取
編寫Scala代碼,使用Spark將MySQL的shtd_store庫中表us
er_info、sku_info、base_province、base_region、order_info、o
rder_detail的數(shù)據(jù)增量抽取到Hive的ods庫中對(duì)應(yīng)表user_info、
sku_info、base_province、base_region、order_info、order_det
ail中。
21
1、抽取shtd_store庫中user_info的增量數(shù)據(jù)進(jìn)入Hive的ods庫
中表user_info。根據(jù)ods.user_info表中operate_time或cre
ate_time作為增量字段(即MySQL中每條數(shù)據(jù)取這兩個(gè)時(shí)間中較
大的那個(gè)時(shí)間作為增量字段去和ods里的這兩個(gè)字段中較大的時(shí)
間進(jìn)行比較),只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同時(shí)
添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值為當(dāng)
前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用hiv
ecli執(zhí)行showpartitionsods.user_info命令,將結(jié)果截圖
粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任
務(wù)序號(hào)下;
2、抽取shtd_store庫中sku_info的增量數(shù)據(jù)進(jìn)入Hive的ods庫中
表sku_info。根據(jù)ods.sku_info表中create_time作為增量字
段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同時(shí)添加靜態(tài)分
區(qū),分區(qū)字段為etl_date,類型為String,且值為當(dāng)前比賽日的
前一天日期(分區(qū)字段格式為yyyyMMdd)。使用hivecli執(zhí)行
showpartitionsods.sku_info命令,將結(jié)果截圖粘貼至客戶端
桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
3、抽取shtd_store庫中base_province的增量數(shù)據(jù)進(jìn)入Hive的od
s庫中表base_province。根據(jù)ods.base_province表中id作為
增量字段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變并添加字段
create_time取當(dāng)前時(shí)間,同時(shí)添加靜態(tài)分區(qū),分區(qū)字段為et
l_date,類型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)
22
字段格式為yyyyMMdd)。使用hivecli執(zhí)行showpartitions
ods.base_province命令,將結(jié)果截圖粘貼至客戶端桌面【Relea
se\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
4、抽取shtd_store庫中base_region的增量數(shù)據(jù)進(jìn)入Hive的ods
庫中表base_region。根據(jù)ods.base_region表中id作為增量字
段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變并添加字段crea
te_time取當(dāng)前時(shí)間,同時(shí)添加靜態(tài)分區(qū),分區(qū)字段為etl_date,
類型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)字段格式
為yyyyMMdd)。使用hivecli執(zhí)行showpartitionsods.base
_region命令,將結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)B
提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
5、抽取shtd_store庫中order_info的增量數(shù)據(jù)進(jìn)入Hive的ods庫
中表order_info,根據(jù)ods.order_info表中operate_time或c
reate_time作為增量字段(即MySQL中每條數(shù)據(jù)取這兩個(gè)時(shí)間中
較大的那個(gè)時(shí)間作為增量字段去和ods里的這兩個(gè)字段中較大的
時(shí)間進(jìn)行比較),只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同
時(shí)添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值為
當(dāng)前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用h
ivecli執(zhí)行showpartitionsods.order_info命令,將結(jié)果截
圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的
任務(wù)序號(hào)下;
6、抽取shtd_store庫中order_detail的增量數(shù)據(jù)進(jìn)入Hive的ods
23
庫中表order_detail,根據(jù)ods.order_detail表中create_tim
e作為增量字段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,
同時(shí)添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值
為當(dāng)前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用
hivecli執(zhí)行showpartitionsods.order_detail命令,將結(jié)
果截圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)
應(yīng)的任務(wù)序號(hào)下。
子任務(wù)二:數(shù)據(jù)清洗
編寫Scala代碼,使用Spark將ods庫中相應(yīng)表數(shù)據(jù)全量抽取到
Hive的dwd庫中對(duì)應(yīng)表中。表中有涉及到timestamp類型的,均要
求按照yyyy-MM-ddHH:mm:ss,不記錄毫秒數(shù),若原數(shù)據(jù)中只有年月
日,則在時(shí)分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-
ddHH:mm:ss。
1、抽取ods庫中user_info表中昨天的分區(qū)(子任務(wù)一生成的分區(qū))
數(shù)據(jù),并結(jié)合dim_user_info最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并
數(shù)據(jù)到dwd庫中dim_user_info的分區(qū)表(合并是指對(duì)dwd層數(shù)
據(jù)進(jìn)行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)opera
te_time排序取最新的一條),分區(qū)字段為etl_date且值與ods
庫的相對(duì)應(yīng)表該值相等,同時(shí)若operate_time為空,則用creat
e_time填充,并添加dwd_insert_user、dwd_insert_time、dwd
_modify_user、dwd_modify_time四列,其中dwd_insert_user、d
24
wd_modify_user均填寫“user1”。若該條記錄第一次進(jìn)入數(shù)倉d
wd層則dwd_insert_time、dwd_modify_time均存當(dāng)前操作時(shí)間,
并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進(jìn)入dwd層時(shí)發(fā)生了合并修改,
則dwd_insert_time時(shí)間不變,dwd_modify_time存當(dāng)前操作時(shí)
間,其余列存最新的值。使用hivecli執(zhí)行showpartitionsd
wd.dim_user_info命令,將結(jié)果截圖粘貼至客戶端桌面【Releas
e\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
2、抽取ods庫sku_info表中昨天的分區(qū)(子任務(wù)一生成的分區(qū))數(shù)
據(jù),并結(jié)合dim_sku_info最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并數(shù)
據(jù)到dwd庫中dim_sku_info的分區(qū)表(合并是指對(duì)dwd層數(shù)據(jù)進(jìn)
行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)create_ti
me排序取最新的一條),分區(qū)字段為etl_date且值與ods庫的
相對(duì)應(yīng)表該值相等,并添加dwd_insert_user、dwd_insert_time、
dwd_modify_user、dwd_modify_time四列,其中dwd_insert_use
r、dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第一次進(jìn)入
數(shù)倉dwd層則dwd_insert_time、dwd_modify_time均填寫當(dāng)前操
作時(shí)間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進(jìn)入dwd層時(shí)發(fā)生了
合并修改,則dwd_insert_time時(shí)間不變,dwd_modify_time存
當(dāng)前操作時(shí)間,其余列存最新的值。使用hivecli查詢表dim_s
ku_info的字段id、sku_desc、dwd_insert_user、dwd_modify_
time、etl_date,條件為最新分區(qū)的數(shù)據(jù),id大于等于15且小
于等于20,并且按照id升序排序,將結(jié)果截圖粘貼至客戶端桌
25
面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
3、抽取ods庫base_province表中昨天的分區(qū)(子任務(wù)一生成的分
區(qū))數(shù)據(jù),并結(jié)合dim_province最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id
合并數(shù)據(jù)到dwd庫中dim_province的分區(qū)表(合并是指對(duì)dwd層
數(shù)據(jù)進(jìn)行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)cre
ate_time排序取最新的一條),分區(qū)字段為etl_date且值與od
s庫的相對(duì)應(yīng)表該值相等,并添加dwd_insert_user、dwd_inser
t_time、dwd_modify_user、dwd_modify_time四列,其中dwd_in
sert_user、dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第
一次進(jìn)入數(shù)倉dwd層則dwd_insert_time、dwd_modify_time均填
寫當(dāng)前操作時(shí)間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進(jìn)入dwd層
時(shí)發(fā)生了合并修改,則dwd_insert_time時(shí)間不變,dwd_modify
_time存當(dāng)前操作時(shí)間,其余列存最新的值。使用hivecli在表
dwd.dim_province最新分區(qū)中,查詢?cè)摲謪^(qū)中數(shù)據(jù)的條數(shù),將結(jié)果
截圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)
的任務(wù)序號(hào)下;
4、抽取ods庫base_region表中昨天的分區(qū)(子任務(wù)一生成的分區(qū))
數(shù)據(jù),并結(jié)合dim_region最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并數(shù)
據(jù)到dwd庫中dim_region的分區(qū)表(合并是指對(duì)dwd層數(shù)據(jù)進(jìn)行
插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)create_time
排序取最新的一條),分區(qū)字段為etl_date且值與ods庫的相對(duì)
應(yīng)表該值相等,并添加dwd_insert_user、dwd_insert_time、dw
26
d_modify_user、dwd_modify_time四列,其中dwd_insert_user、
dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第一次進(jìn)入數(shù)倉
dwd層則dwd_insert_time、dwd_modify_time均填寫當(dāng)前操作時(shí)
間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進(jìn)入dwd層時(shí)發(fā)生了合并
修改,則dwd_insert_time時(shí)間不變,dwd_modify_time存當(dāng)前
操作時(shí)間,其余列存最新的值。使用hivecli在表dwd.dim_reg
ion最新分區(qū)中,查詢?cè)摲謪^(qū)中數(shù)據(jù)的條數(shù),將結(jié)果截圖粘貼至
客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)
下;
5、將ods庫中order_info表昨天的分區(qū)(子任務(wù)一生成的分區(qū))數(shù)
據(jù)抽取到dwd庫中fact_order_info的動(dòng)態(tài)分區(qū)表,分區(qū)字段為
etl_date,類型為String,取create_time值并將格式轉(zhuǎn)換為y
yyyMMdd,同時(shí)若operate_time為空,則用create_time填充,
并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、
dwd_modify_time四列,其中dwd_insert_user、dwd_modify_us
er均填寫“user1”,dwd_insert_time、dwd_modify_time均填
寫當(dāng)前操作時(shí)間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。使用hivecli執(zhí)行sho
wpartitionsdwd.fact_order_info命令,將結(jié)果截圖粘貼至客
戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
6、將ods庫中order_detail表昨天的分區(qū)(子任務(wù)一中生成的分區(qū))
數(shù)據(jù)抽取到dwd庫中fact_order_detail的動(dòng)態(tài)分區(qū)表,分區(qū)字
段為etl_date,類型為String,取create_time值并將格式轉(zhuǎn)換
27
為yyyyMMdd,并添加dwd_insert_user、dwd_insert_time、dwd
_modify_user、dwd_modify_time四列,其中dwd_insert_user、
dwd_modify_user均填寫“user1”,dwd_insert_time、dwd_mod
ify_time均填寫當(dāng)前操作時(shí)間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。使用hiv
ecli執(zhí)行showpartitionsdwd.fact_order_detail命令,將
結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中
對(duì)應(yīng)的任務(wù)序號(hào)下。
子任務(wù)三:指標(biāo)計(jì)算
編寫Scala代碼,使用Spark計(jì)算相關(guān)指標(biāo)。
1、本任務(wù)基于以下2、3、4小題完成,使用Azkaban完成第2、3、
4題任務(wù)代碼的調(diào)度。工作流要求,使用shell輸出“開始”作
為工作流的第一個(gè)job(job1),2、3、4題任務(wù)為串行任務(wù)且它
們依賴job1的完成(命名為job2、job3、job4),job2、job3、
job4完成之后使用shell輸出“結(jié)束”作為工作流的最后一個(gè)j
ob(endjob),endjob依賴job2、job3、job4,并將最終任務(wù)調(diào)
度完成后的工作流截圖,將截圖粘貼至客戶端桌面【Release\任務(wù)
B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
字段類型中文含義備注
provinceidint省份表主鍵
provincenametext省份名稱
regionidint地區(qū)表主鍵
regionnametext地區(qū)名稱
28
totalconsumptiondouble訂單總金額當(dāng)月訂單總金額
totalorderint訂單總數(shù)當(dāng)月訂單總數(shù)
yearint年訂單產(chǎn)生的年
monthint月訂單產(chǎn)生的月
29
2、根據(jù)dwd層表統(tǒng)計(jì)每個(gè)省份、每個(gè)地區(qū)、每個(gè)月下單的數(shù)量和下
單的總金額,存入MySQL數(shù)據(jù)庫shtd_result的provinceeverym
onth表中(表結(jié)構(gòu)如下),然后在Linux的MySQL命令行中根據(jù)
訂單總數(shù)、訂單總金額、省份表主鍵均為降序排序,查詢出前5條,
將SQL語句復(fù)制粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)
果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下,將執(zhí)行結(jié)果截圖粘貼至客戶端桌
面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
3、請(qǐng)根據(jù)dwd層表計(jì)算出2020年4月每個(gè)省份的平均訂單金額和所
有省份平均訂單金額相比較結(jié)果(“高/低/相同”),存入MySQ
L數(shù)據(jù)庫shtd_result的provinceavgcmp表(表結(jié)構(gòu)如下)中,
然后在Linux的MySQL命令行中根據(jù)省份表主鍵、該省平均訂單
金額均為降序排序,查詢出前5條,將SQL語句復(fù)制粘貼至客戶
端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下,
將執(zhí)行結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.
docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;
字段類型中文含義備注
provinceidint省份表主鍵
provincenametext省份名稱
provinceavgconsumptiondouble該省平均訂
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年會(huì)議室裝修與智能會(huì)議系統(tǒng)定制合同3篇
- 2025年湖南貨運(yùn)從業(yè)資格證考試科目
- 2024版7月還款協(xié)議模板
- 2024版二手車銷售協(xié)議范例版B版
- 二零二五年度房地產(chǎn)銷售合同-養(yǎng)老地產(chǎn)合作協(xié)議3篇
- 2024教育培訓(xùn)機(jī)構(gòu)與講師之間的講師聘用合同
- 第11課 近代以來的城市化進(jìn)程(說課稿)-2023-2024學(xué)年高二歷史統(tǒng)編版(2019)選擇性必修2經(jīng)濟(jì)與社會(huì)生活
- 2024年:藝術(shù)品買賣合同3篇
- 玻璃打膠合同書
- 《兼職心理咨詢師三方協(xié)議書》
- 2025年四川長寧縣城投公司招聘筆試參考題庫含答案解析
- 2024年06月上海廣發(fā)銀行上海分行社會(huì)招考(622)筆試歷年參考題庫附帶答案詳解
- TSG 51-2023 起重機(jī)械安全技術(shù)規(guī)程 含2024年第1號(hào)修改單
- 計(jì)算機(jī)科學(xué)導(dǎo)論
- 浙江省杭州市錢塘區(qū)2023-2024學(xué)年四年級(jí)上學(xué)期英語期末試卷
- 《工程勘察設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)》(2002年修訂本)
- 2024年一級(jí)消防工程師《消防安全技術(shù)綜合能力》考試真題及答案解析
- 2024-2025學(xué)年六上科學(xué)期末綜合檢測卷(含答案)
- 安徽省森林撫育技術(shù)導(dǎo)則
- 2023七年級(jí)英語下冊(cè) Unit 3 How do you get to school Section A 第1課時(shí)(1a-2e)教案 (新版)人教新目標(biāo)版
- 泌尿科主任述職報(bào)告
評(píng)論
0/150
提交評(píng)論