2024年全國職業(yè)院校技能大賽(高職組)安徽省集訓(xùn)選拔賽“大數(shù)據(jù)應(yīng)用開發(fā)賽項(xiàng)規(guī)程(師生同賽)”賽項(xiàng)規(guī)程_第1頁
2024年全國職業(yè)院校技能大賽(高職組)安徽省集訓(xùn)選拔賽“大數(shù)據(jù)應(yīng)用開發(fā)賽項(xiàng)規(guī)程(師生同賽)”賽項(xiàng)規(guī)程_第2頁
2024年全國職業(yè)院校技能大賽(高職組)安徽省集訓(xùn)選拔賽“大數(shù)據(jù)應(yīng)用開發(fā)賽項(xiàng)規(guī)程(師生同賽)”賽項(xiàng)規(guī)程_第3頁
2024年全國職業(yè)院校技能大賽(高職組)安徽省集訓(xùn)選拔賽“大數(shù)據(jù)應(yīng)用開發(fā)賽項(xiàng)規(guī)程(師生同賽)”賽項(xiàng)規(guī)程_第4頁
2024年全國職業(yè)院校技能大賽(高職組)安徽省集訓(xùn)選拔賽“大數(shù)據(jù)應(yīng)用開發(fā)賽項(xiàng)規(guī)程(師生同賽)”賽項(xiàng)規(guī)程_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一、賽項(xiàng)信息

?每年賽隔年賽(單數(shù)年/雙數(shù)年)

□中等職業(yè)教育?高等職業(yè)教育

□學(xué)生賽(□個(gè)人/□團(tuán)體)□教師賽(試點(diǎn))?師生同賽(試點(diǎn))

核心課程

專業(yè)大類專業(yè)類專業(yè)名稱

(對(duì)應(yīng)每個(gè)專業(yè),明確涉及的專業(yè)核心課程)

數(shù)據(jù)采集技術(shù)

數(shù)據(jù)預(yù)處理技術(shù)

510205大數(shù)據(jù)大數(shù)據(jù)分析技術(shù)應(yīng)用

技術(shù)數(shù)據(jù)可視化技術(shù)與應(yīng)用

數(shù)據(jù)挖掘應(yīng)用

大數(shù)據(jù)平臺(tái)部署與運(yùn)維

數(shù)據(jù)庫技術(shù)及應(yīng)用

前端設(shè)計(jì)與開發(fā)

510201計(jì)算機(jī)

信息采集技術(shù)

51電子與5102計(jì)算機(jī)應(yīng)用技術(shù)

數(shù)據(jù)分析方法

信息大類類

系統(tǒng)部署與運(yùn)維

Linux操作系統(tǒng)管理

510202計(jì)算機(jī)

程序設(shè)計(jì)基礎(chǔ)

網(wǎng)絡(luò)技術(shù)

數(shù)據(jù)庫應(yīng)用技術(shù)

程序設(shè)計(jì)基礎(chǔ)

510203軟件技數(shù)據(jù)庫技術(shù)

術(shù)面向?qū)ο蟪绦蛟O(shè)計(jì)

數(shù)據(jù)結(jié)構(gòu)

510206云計(jì)算Linux操作系統(tǒng)

2

技術(shù)應(yīng)用程序設(shè)計(jì)基礎(chǔ)

數(shù)據(jù)庫技術(shù)

Web應(yīng)用開發(fā)

程序設(shè)計(jì)基礎(chǔ)

510209人工智Linux操作系統(tǒng)

能技術(shù)應(yīng)用數(shù)據(jù)庫技術(shù)

人工智能數(shù)據(jù)服務(wù)

程序設(shè)計(jì)基礎(chǔ)

數(shù)據(jù)庫應(yīng)用基礎(chǔ)

510211工業(yè)互

工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)

聯(lián)網(wǎng)技術(shù)

工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù)

數(shù)據(jù)采集與處理

核心能力

產(chǎn)業(yè)行業(yè)崗位(群)

(對(duì)應(yīng)每個(gè)崗位(群),明確核心能力要求)

大數(shù)據(jù)平臺(tái)搭建部署與基本使用,以及大數(shù)據(jù)集

大數(shù)據(jù)實(shí)施與運(yùn)維群運(yùn)維

大數(shù)據(jù)平臺(tái)管理、大數(shù)據(jù)技術(shù)服務(wù)

分析用戶業(yè)務(wù)需求,制訂大數(shù)據(jù)項(xiàng)目解決方案

數(shù)據(jù)分析處理開發(fā)數(shù)據(jù)采集、抽取、清洗、轉(zhuǎn)換與加載等數(shù)據(jù)

戰(zhàn)略性新預(yù)處理模型

基于行業(yè)應(yīng)用與典型工作場景,解決業(yè)務(wù)需求

興產(chǎn)業(yè)-新

安裝部署與使用數(shù)據(jù)分析工具,運(yùn)用大數(shù)據(jù)分析

一代信息

平臺(tái)完成大數(shù)據(jù)分析任務(wù)

技術(shù)

大數(shù)據(jù)分析與可視化數(shù)據(jù)可視化設(shè)計(jì),開發(fā)應(yīng)用程序進(jìn)行數(shù)據(jù)可視化

展示,撰寫數(shù)據(jù)可視化結(jié)果分析報(bào)告

基于行業(yè)應(yīng)用與典型工作場景,解決業(yè)務(wù)需求

程序設(shè)計(jì)數(shù)據(jù)庫應(yīng)用、前端開發(fā)等程序設(shè)計(jì)能力

數(shù)據(jù)采集與分析數(shù)據(jù)采集、使用工具進(jìn)行數(shù)據(jù)分析

信息系統(tǒng)運(yùn)行維護(hù)信息系統(tǒng)部署與運(yùn)維

3

二、競賽目標(biāo)

“十四五”時(shí)期,大數(shù)據(jù)產(chǎn)業(yè)對(duì)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展的賦能作用

更加突顯,大數(shù)據(jù)已成為催生新業(yè)態(tài)、激發(fā)新模式、促進(jìn)新發(fā)展的技

術(shù)引擎。習(xí)近平總書記指出“大數(shù)據(jù)是信息化發(fā)展的新階段”,“加

快數(shù)字化發(fā)展,建設(shè)數(shù)字中國”成為《中華人民共和國國民經(jīng)濟(jì)和社

會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》的重要篇章。

本賽項(xiàng)旨在落實(shí)國家“建設(shè)數(shù)字中國”戰(zhàn)略,協(xié)同推動(dòng)大數(shù)據(jù)相

關(guān)產(chǎn)業(yè)的創(chuàng)新與發(fā)展,大力推進(jìn)大數(shù)據(jù)技術(shù)及相關(guān)專業(yè)的技術(shù)技能型

人才培養(yǎng),全面提升相關(guān)專業(yè)畢業(yè)生的綜合能力,展現(xiàn)選手團(tuán)隊(duì)合作、

工匠精神等職業(yè)素養(yǎng),賦能經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展。競賽內(nèi)容結(jié)合當(dāng)前

大數(shù)據(jù)相關(guān)產(chǎn)業(yè)中的新技術(shù)、新要求如數(shù)據(jù)湖、OLAP數(shù)據(jù)庫應(yīng)用等,

全面檢驗(yàn)參賽選手的工程實(shí)踐能力和創(chuàng)新能力,推進(jìn)教學(xué)過程與生產(chǎn)

過程對(duì)接、課程內(nèi)容與職業(yè)標(biāo)準(zhǔn)對(duì)接、專業(yè)設(shè)置與產(chǎn)業(yè)需求對(duì)接,促

進(jìn)職普融通、產(chǎn)教融合、科教融匯,引領(lǐng)專業(yè)建設(shè)和教學(xué)改革。競賽

內(nèi)容圍繞大數(shù)據(jù)相關(guān)產(chǎn)業(yè)崗位的實(shí)際技能要求進(jìn)行設(shè)計(jì),通過競賽搭

建校企合作的平臺(tái),強(qiáng)化競賽成果轉(zhuǎn)化,促進(jìn)相關(guān)教材、資源、師資、

認(rèn)證、實(shí)習(xí)就業(yè)等方面的全方位建設(shè),滿足產(chǎn)教協(xié)同育人目標(biāo),為國

家戰(zhàn)略規(guī)劃提供大數(shù)據(jù)領(lǐng)域高素質(zhì)技能型人才。

三、競賽內(nèi)容

本賽項(xiàng)涉及的典型工作任務(wù)包括大數(shù)據(jù)平臺(tái)搭建(容器環(huán)境)、

離線數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)采集與實(shí)時(shí)計(jì)算、數(shù)據(jù)可視化、綜合

分析、職業(yè)素養(yǎng),引入行業(yè)內(nèi)較為前沿的數(shù)據(jù)湖架構(gòu)作為創(chuàng)新、創(chuàng)意

的范圍與方向,考查的技術(shù)技能如下:

(一)大數(shù)據(jù)平臺(tái)搭建(容器環(huán)境):Docker容器基礎(chǔ)操作、H

adoop完全分布式安裝配置、HadoopHA安裝配置、SparkonYarn

4

安裝配置、FlinkonYarn安裝配置、Hive安裝配置、Flume安裝配

置、ZooKeeper安裝配置、Kafka安裝配置、HBase分布式安裝配置、

ClickHouse單節(jié)點(diǎn)安裝配置、Hudi安裝配置。

(二)離線數(shù)據(jù)處理:Scala應(yīng)用開發(fā)、Pom文件配置、Maven

本地倉庫配置使用、基于Spark的數(shù)據(jù)清洗處理方法、基于Hive的

數(shù)據(jù)清洗處理方法、基于Hudi的數(shù)據(jù)清洗處理方法、數(shù)據(jù)倉庫基本

架構(gòu)及概念、數(shù)據(jù)湖基本架構(gòu)及概念、MySQL基本操作、ClickHouse

基本操作、Azkaban基本操作、DolphinScheduler基本操作。

(三)數(shù)據(jù)挖掘:特征工程應(yīng)用、SparkML機(jī)器學(xué)習(xí)庫應(yīng)用開

發(fā)、推薦算法的召回和排序、回歸模型、聚類模型、決策樹模型、隨

機(jī)森林模型應(yīng)用。

(四)數(shù)據(jù)采集與實(shí)時(shí)計(jì)算:Scala應(yīng)用開發(fā)、Pom文件配置、M

aven本地倉庫配置使用、基于Flume及Kafka的數(shù)據(jù)采集方法、基

于Flink的實(shí)時(shí)數(shù)據(jù)處理方法、HBase基本操作、Redis基本操作、M

ySQL基本操作。

(五)數(shù)據(jù)可視化:Vue.js框架應(yīng)用開發(fā)、ECharts組件應(yīng)用開

發(fā),會(huì)使用ECharts繪制柱狀圖、折線圖、折柱混合圖、玫瑰圖、氣

泡圖、餅狀圖、條形圖、雷達(dá)圖、散點(diǎn)圖等圖表。

(六)綜合分析:依據(jù)整體項(xiàng)目過程,在綜合理解業(yè)務(wù)的基礎(chǔ)上,

根據(jù)題目要求進(jìn)行綜合分析。

(七)職業(yè)素養(yǎng):團(tuán)隊(duì)分工明確合理、操作規(guī)范、文明競賽。

1、競賽內(nèi)容結(jié)構(gòu)、成績比例如下:

5

表3-1競賽內(nèi)容結(jié)構(gòu)和成績比例

大數(shù)據(jù)平臺(tái)搭建選手在容器環(huán)境下對(duì)大數(shù)據(jù)平臺(tái)及相關(guān)組件

115%

(容器環(huán)境)的安裝、配置、可用性驗(yàn)證等內(nèi)容。

選手對(duì)Hadoop平臺(tái)、Spark平臺(tái)、Hive數(shù)據(jù)

倉庫、Hudi數(shù)據(jù)湖、任務(wù)調(diào)度工具等的綜合

2離線數(shù)據(jù)處理25%應(yīng)用能力,使用Scala開發(fā)語言,完成離線

數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)指標(biāo)統(tǒng)計(jì)等操作,

并存入MySQL、ClickHouse中。

選手運(yùn)用常用的機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行數(shù)

3數(shù)據(jù)挖掘10%

據(jù)挖掘分析。

選手對(duì)Flink平臺(tái)、Flume組件、Kafka組件

等的綜合應(yīng)用能力,基于Flume和Kafka進(jìn)

數(shù)據(jù)采集與實(shí)時(shí)

420%行實(shí)時(shí)數(shù)據(jù)采集,使用Scala開發(fā)語言,完

計(jì)算

成實(shí)時(shí)數(shù)據(jù)流相關(guān)數(shù)據(jù)指標(biāo)的分析、計(jì)算等

操作,并存入HBase、Redis、MySQL中。

選手基于前端框架Vue.js和后端REST風(fēng)格

5數(shù)據(jù)可視化15%的數(shù)據(jù)接口,使用JavaScript語言將數(shù)據(jù)分

析結(jié)果以圖表的形式進(jìn)行呈現(xiàn)、統(tǒng)計(jì)

選手對(duì)大數(shù)據(jù)技術(shù)的業(yè)務(wù)分析、技術(shù)分析及

6綜合分析10%

報(bào)告撰寫能力。

7職業(yè)素養(yǎng)5%團(tuán)隊(duì)分工明確合理、操作規(guī)范、文明競賽。

6

2、賽項(xiàng)模塊、比賽時(shí)長及分值配比如下:

表3-2賽項(xiàng)模塊比賽時(shí)長及分值配比

競賽以電商大數(shù)據(jù)及工業(yè)大數(shù)據(jù)為

業(yè)務(wù)背景,主要設(shè)置以下競賽任務(wù):

在容器環(huán)境下對(duì)大數(shù)據(jù)平臺(tái)及相關(guān)

組件的安裝、配置、可用性驗(yàn)證等

內(nèi)容。

對(duì)Hadoop平臺(tái)、Spark平臺(tái)、Hive

數(shù)據(jù)倉庫、Hudi數(shù)據(jù)湖、任務(wù)調(diào)度

工具等的綜合應(yīng)用能力,使用Scal

a開發(fā)語言,完成離線數(shù)據(jù)抽取、數(shù)

大數(shù)據(jù)應(yīng)據(jù)清洗、數(shù)據(jù)指標(biāo)統(tǒng)計(jì)等操作,并

6小時(shí)100分

用開發(fā)存入MySQL、ClickHouse中。

運(yùn)用常用的機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)

行數(shù)據(jù)挖掘分析。

對(duì)Flink平臺(tái)、Flume組件、Kafka

組件等的綜合應(yīng)用能力,基于Flum

e和Kafka進(jìn)行實(shí)時(shí)數(shù)據(jù)采集,使用

Scala開發(fā)語言,完成實(shí)時(shí)數(shù)據(jù)流相

關(guān)數(shù)據(jù)指標(biāo)的分析、計(jì)算等操作,

并存入HBase、Redis、MySQL中。

基于前端框架Vue.js和后端REST

7

風(fēng)格的數(shù)據(jù)接口,使用JavaScript

語言將數(shù)據(jù)分析結(jié)果以圖表的形式

進(jìn)行呈現(xiàn)、統(tǒng)計(jì)。

對(duì)大數(shù)據(jù)技術(shù)的業(yè)務(wù)分析、技術(shù)分

析及報(bào)告撰寫能力。

綜合職業(yè)素養(yǎng),包括團(tuán)隊(duì)分工明確

合理、操作規(guī)范、文明競賽等內(nèi)容。

四、競賽方式

本競賽為線下比賽,組隊(duì)方式為師生同賽,具體要求如下:

(一)參賽學(xué)生須為高等職業(yè)學(xué)校專科、高等職業(yè)學(xué)校本科全日

制在籍學(xué)生,五年制高職四、五年級(jí)學(xué)生也可報(bào)名參賽;參賽教師須

為校內(nèi)專任教師,并提供近半年的社?;蚣{稅證明。凡在往屆全國職

業(yè)院校技能大賽中獲一等獎(jiǎng)的選手,不能再參加同一項(xiàng)目同一組別的

比賽。

(二)每支參賽隊(duì)由4名選手組成,其中1名教師,3名學(xué)生。

本賽項(xiàng)為師生同賽不設(shè)指導(dǎo)教師,報(bào)名獲得確認(rèn)后不得隨意更換。

(三)本賽項(xiàng)為單一場次,所有參賽隊(duì)在現(xiàn)場根據(jù)給定的任務(wù)說

明,在6小時(shí)內(nèi)相互配合,采用小組合作的形式完成任務(wù),最后以

提交的結(jié)果文檔作為最終評(píng)分依據(jù)。

五、競賽流程

8

表5-1競賽時(shí)間

15:30之前各參賽隊(duì)報(bào)到

15:30—16:00賽前領(lǐng)隊(duì)會(huì)

競賽前一日16:00—16:30參賽隊(duì)熟悉比賽場地

16:30—17:00賽前檢查,封閉賽場

07:30—08:20參賽隊(duì)集合前往比賽現(xiàn)場

08:20—08:30賽場檢錄

08:30—08:40一次加密:參賽隊(duì)抽取參賽編號(hào)

08:40—08:50二次加密:參賽隊(duì)抽取賽位號(hào)

08:50—09:00參賽隊(duì)進(jìn)入比賽賽位,進(jìn)行賽前軟、硬件檢查、

題目發(fā)放

競賽當(dāng)日09:00—15:00競賽進(jìn)行

15:00—15:20收取各參賽隊(duì)賽題及比賽結(jié)果文檔

15:00—17:00申訴受理

15:20—16:00三次加密:競賽結(jié)果等文件加密

16:00—18:00成績?cè)u(píng)定與復(fù)核

18:00—19:00加密信息解密

19:00—20:00成績匯總及報(bào)送

9

圖5-1競賽流程

10

六、競賽規(guī)則

(一)選手報(bào)名:參賽學(xué)生須為高等職業(yè)學(xué)校專科、高等職業(yè)學(xué)

校本科全日制在籍學(xué)生,五年制高職四、五年級(jí)學(xué)生也可報(bào)名參賽。

參賽教師須為校內(nèi)專任教師,并提供近半年的社保或納稅證明。凡在

往屆全國職業(yè)院校技能大賽中獲一等獎(jiǎng)的選手,不能再參加同一項(xiàng)目

同一組別的比賽。

(二)熟悉場地:競賽前1日安排各參賽隊(duì)領(lǐng)隊(duì)、參賽選手熟悉

賽場。

(三)入場規(guī)則:參賽選手按規(guī)定時(shí)間到達(dá)指定地點(diǎn),必須攜帶

參賽證件,進(jìn)行檢錄、一次加密、二次加密等流程,最終確定工位,

選手遲到10分鐘取消比賽資格。嚴(yán)禁參賽選手、賽項(xiàng)裁判、工作人

員私自攜帶通訊、攝錄設(shè)備進(jìn)入比賽場地。參賽選手所需的硬件、軟

件和輔助工具統(tǒng)一提供,參賽隊(duì)不得使用自帶的任何有存儲(chǔ)功能的設(shè)

備,如手機(jī)、U盤、移動(dòng)硬盤等。參賽隊(duì)在賽前領(lǐng)取比賽任務(wù)并進(jìn)入

比賽工位,比賽正式開始后方可進(jìn)行相關(guān)操作。

(四)賽場規(guī)則:在比賽過程中,參賽選手如有疑問,應(yīng)舉手示

意,現(xiàn)場裁判應(yīng)按要求及時(shí)予以答疑。如遇設(shè)備或軟件等故障,參賽

選手應(yīng)舉手示意,現(xiàn)場裁判、技術(shù)人員等應(yīng)及時(shí)予以解決。確因計(jì)算

機(jī)軟件或硬件故障,致使操作無法繼續(xù),經(jīng)裁判長確認(rèn),予以啟用備

用設(shè)備。參賽選手不得因各種原因提前結(jié)束比賽。如確因不可抗因素

需要離開賽場的,須向現(xiàn)場裁判員舉手示意,經(jīng)裁判員許可并完成記

錄后,方可離開。凡在競賽期間內(nèi)提前離開的選手,不得返回賽場。

(五)離場規(guī)則:比賽時(shí)間結(jié)束,選手應(yīng)全體起立,結(jié)束操作。

參賽選手要確認(rèn)已成功提交競賽要求的文檔,裁判員與參賽選手一起

簽字確認(rèn),經(jīng)工作人員查收清點(diǎn)所有文檔后方可離開賽場,離開賽場

11

時(shí)不得帶走任何資料。

(六)成績?cè)u(píng)定:比賽結(jié)束,對(duì)各參賽選手提交的競賽結(jié)果進(jìn)行

第三次加密后,裁判方可入場進(jìn)行成績?cè)u(píng)判。最終競賽成績經(jīng)復(fù)核無

誤,由裁判長、監(jiān)督仲裁長簽字確認(rèn)后,以紙質(zhì)形式匯總上報(bào)。

(七)其它未盡事宜,將在賽前向各領(lǐng)隊(duì)做詳細(xì)說明。

七、技術(shù)規(guī)范

本賽項(xiàng)引用的國際、國家、行業(yè)技術(shù)、職業(yè)資格標(biāo)準(zhǔn)與規(guī)范如下:

表7-1基礎(chǔ)標(biāo)準(zhǔn)

GB/T11457-2006信息技術(shù)軟件工程術(shù)語

GB8566-88計(jì)算機(jī)軟件開發(fā)規(guī)范

GB/T12991.1-2008信息技術(shù)數(shù)據(jù)庫語言SQL第1部分:框架

GB/Z21025-2007XML使用指南

GB/T28821-2012關(guān)系數(shù)據(jù)管理系統(tǒng)技術(shù)要求

LD/T81.1-2006職業(yè)技能實(shí)訓(xùn)和鑒定設(shè)備通用技術(shù)規(guī)范

表7-2大數(shù)據(jù)技術(shù)相關(guān)標(biāo)準(zhǔn)

GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語

GB/T37721-2019信息技術(shù)大數(shù)據(jù)分析系統(tǒng)功能要求

GB/T37722-2019信息技術(shù)大數(shù)據(jù)存儲(chǔ)與處理系統(tǒng)功能要求

GB/T38672-2020信息技術(shù)大數(shù)據(jù)接口基本要求

GB/T38673-2020信息技術(shù)大數(shù)據(jù)大數(shù)據(jù)系統(tǒng)基本要求

GB/T38675-2020信息技術(shù)大數(shù)據(jù)計(jì)算系統(tǒng)通用要求

GB/T38633-2020信息技術(shù)大數(shù)據(jù)系統(tǒng)運(yùn)維和管理功能要求

GB/T41778-2022信息技術(shù)工業(yè)大數(shù)據(jù)術(shù)語

GB/T41818-2022信息技術(shù)大數(shù)據(jù)面向分析的數(shù)據(jù)存儲(chǔ)與檢索技術(shù)要求

表7-3軟件開發(fā)與軟件工程相關(guān)標(biāo)準(zhǔn)

12

GB/T14079-1993軟件維護(hù)指南

GB/T15853-1995軟件支持環(huán)境

GB/T17544-1998信息技術(shù)軟件包質(zhì)量要求和測試

GB/T8566-2007信息技術(shù)軟件生存周期過程

GB/T22032-2021系統(tǒng)與軟件工程系統(tǒng)生存周期過程

八、技術(shù)環(huán)境

競賽現(xiàn)場設(shè)置競賽區(qū)、裁判區(qū)、技術(shù)支持區(qū)、服務(wù)區(qū)等。

1.競賽區(qū)域:每個(gè)競賽工位設(shè)工位編號(hào),工位之間由隔板隔

開,確?;ゲ桓蓴_。

2.裁判區(qū):供裁判工作及休息,配備滿足需要的辦公設(shè)備。

3.技術(shù)支持區(qū):供技術(shù)支持人員工作及休息,為競賽提供技

術(shù)支持。

4.服務(wù)區(qū):提供醫(yī)療等服務(wù)保障。

表8-1競賽設(shè)備

CPU:Intel性能相當(dāng)于i5處理器

內(nèi)存:不少于64GB

1服務(wù)器每組1臺(tái)

硬盤:不少于1TB

網(wǎng)卡:千兆

該系統(tǒng)基于主流云原生技術(shù)、大數(shù)據(jù)技術(shù)構(gòu)建,旨在為

大數(shù)據(jù)賽訓(xùn)

2每組1套學(xué)生提供快捷、便利的大數(shù)據(jù)集群操作環(huán)境,幫助他們

管理系統(tǒng)

更好地掌握大數(shù)據(jù)相關(guān)技術(shù)和應(yīng)用。該系統(tǒng)應(yīng)基于微服

(四合天

務(wù)構(gòu)建,以經(jīng)典的微服務(wù)分層方式劃分不同的服務(wù)層級(jí),

地大數(shù)據(jù)

13

實(shí)訓(xùn)管理利用圖形化的工作負(fù)載編輯模式快速進(jìn)行系統(tǒng)的部署和

系統(tǒng)V2.0服務(wù)管理,有效展示各服務(wù)的容器信息,方便實(shí)時(shí)進(jìn)行

系統(tǒng)運(yùn)維。系統(tǒng)能夠構(gòu)建大數(shù)據(jù)平臺(tái)搭建、數(shù)據(jù)處理、

數(shù)據(jù)分析、數(shù)據(jù)可視化等教學(xué)實(shí)訓(xùn)模塊,快速開展教學(xué)、

實(shí)訓(xùn)及競賽活動(dòng),系統(tǒng)應(yīng)能夠生成命令行、桌面級(jí)容器

環(huán)境,可通過不同模式進(jìn)行訪問,方便學(xué)生進(jìn)行集群調(diào)

試和代碼開發(fā)。通過使用該系統(tǒng),學(xué)生可以深入了解大

數(shù)據(jù)技術(shù)的核心思想和應(yīng)用場景,增強(qiáng)自己的數(shù)據(jù)分析

和處理能力,提高對(duì)數(shù)據(jù)的認(rèn)識(shí)和運(yùn)用水平。系統(tǒng)應(yīng)支

持模擬競賽全業(yè)務(wù)流程,提供大數(shù)據(jù)競賽操作環(huán)境。

CPU:i5及以上

內(nèi)存:不少于16GB

3PC機(jī)每組4臺(tái)

硬盤:不少于250GB

顯示器:1920*1080及以上

14

表8-2軟件環(huán)境

大數(shù)據(jù)集群操作系統(tǒng)CentOS7

容器環(huán)境Docker-CE20.10

Hadoop3.1.3

Yarn3.1.3

ZooKeeper3.5.7

服務(wù)器Hive3.1.2

大數(shù)據(jù)平臺(tái)組件

Hudi0.12.0

ClickHouse21.9.4

JDK1.8

Flume1.9.0

15

Kafka2.4.1

Spark3.1.1

Flink1.14.0

Redis6.2.6

HBase2.2.3

Azkaban3.84.4

DolphinScheduler3.1.4

關(guān)系型數(shù)據(jù)庫MySQL5.7

PC操作系統(tǒng)Ubuntu18.0464位

瀏覽器Chrome

Scala2.12

開發(fā)語言

JavaScript

IDEA2022

開發(fā)工具(CommunityEdition)

VisualStudioCode1.69

SSH工具Asbru-cm或UbuntuSSH客戶端

PC機(jī)

數(shù)據(jù)庫工具M(jìn)ySQLWorkbench

接口測試工具Postman

Vue.js3.2

數(shù)據(jù)可視化框架及組件

ECharts5.1

截圖工具Ubuntu系統(tǒng)自帶

文檔編輯器WPSLinux版

輸入法搜狗拼音輸入法Linux版

16

九、競賽樣題

大數(shù)據(jù)時(shí)代背景下,電商經(jīng)營模式發(fā)生很大改變。在傳統(tǒng)運(yùn)營模

式中,缺乏數(shù)據(jù)積累,人們?cè)谧龀鲆恍Q策行為過程中,更多是憑借

個(gè)人經(jīng)驗(yàn)和直覺,發(fā)展路徑比較自我封閉。而大數(shù)據(jù)時(shí)代,為人們提

供一種全新的思路,通過大量的數(shù)據(jù)分析得出的結(jié)果將更加現(xiàn)實(shí)和準(zhǔn)

確。商家可以對(duì)客戶的消費(fèi)行為信息數(shù)據(jù)進(jìn)行收集和整理,比如消費(fèi)

者購買產(chǎn)品的花費(fèi)、選擇產(chǎn)品的渠道、偏好產(chǎn)品的類型、產(chǎn)品回購周

期、購買產(chǎn)品的目的、消費(fèi)者家庭背景、工作和生活環(huán)境、個(gè)人消費(fèi)

觀和價(jià)值觀等。通過數(shù)據(jù)追蹤,知道顧客從哪兒來,是看了某網(wǎng)站投

放的廣告還是通過朋友推薦鏈接,是新訪客還是老用戶,喜歡瀏覽什

么產(chǎn)品,購物車有無商品,是否清空,還有每一筆交易記錄,精準(zhǔn)鎖

定一定年齡、收入、對(duì)產(chǎn)品有興趣的顧客,對(duì)顧客進(jìn)行分組、標(biāo)簽化,

通過不同標(biāo)簽組合運(yùn)用,獲得不同目標(biāo)群體,以此開展精準(zhǔn)推送。

因數(shù)據(jù)驅(qū)動(dòng)的零售新時(shí)代已經(jīng)到來,沒有大數(shù)據(jù),我們無法為消

費(fèi)者提供這些體驗(yàn),為完成電商的大數(shù)據(jù)分析工作,你所在的小組將

應(yīng)用大數(shù)據(jù)技術(shù),以Scala作為整個(gè)項(xiàng)目的基礎(chǔ)開發(fā)語言,基于大數(shù)

據(jù)平臺(tái)綜合利用Hive、Spark、Flink、Vue.js等技術(shù),對(duì)數(shù)據(jù)進(jìn)行

處理、分析及可視化呈現(xiàn),你們作為該小組的技術(shù)人員,請(qǐng)按照下面

任務(wù)完成本次工作。

宿主機(jī)及各容器節(jié)點(diǎn)可通過Asbru工具或SSH客戶端進(jìn)

17

行SSH訪問。

子任務(wù)一:Hadoop完全分布式安裝配置

本任務(wù)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置

前置環(huán)境。命令中要求使用絕對(duì)路徑,具體要求如下:

1、從宿主機(jī)/opt目錄下將文件hadoop-3.1.3.tar.gz、jdk-8u212-

linux-x64.tar.gz復(fù)制到容器Master中的/opt/software路徑中

(若路徑不存在,則需新建),將Master節(jié)點(diǎn)JDK安裝包解壓到

/opt/module路徑中(若路徑不存在,則需新建),將JDK解壓命

令復(fù)制并粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中

對(duì)應(yīng)的任務(wù)序號(hào)下;

2、修改容器中/etc/profile文件,設(shè)置JDK環(huán)境變量并使其生效,

配置完畢后在Master節(jié)點(diǎn)分別執(zhí)行“java-version”和“java

c”命令,將命令行執(zhí)行結(jié)果分別截圖并粘貼至客戶端桌面【Rel

ease\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

3、請(qǐng)完成host相關(guān)配置,將三個(gè)節(jié)點(diǎn)分別命名為master、slave1、

slave2,并做免密登錄,用scp命令并使用絕對(duì)路徑從Master復(fù)

制JDK解壓后的安裝文件到slave1、slave2節(jié)點(diǎn)(若路徑不存在,

則需新建),并配置slave1、slave2相關(guān)環(huán)境變量,將全部scp

復(fù)制JDK的命令復(fù)制并粘貼至客戶端桌面【Release\任務(wù)A提交

結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

4、在容器Master將Hadoop解壓到/opt/module(若路徑不存在,則

需新建)目錄下,并將解壓包分發(fā)至slave1、slave2中,其中ma

18

ster、slave1、slave2節(jié)點(diǎn)均作為datanode,配置好相關(guān)環(huán)境,

初始化Hadoop環(huán)境namenode,將初始化命令及初始化結(jié)果截圖

(截取初始化結(jié)果日志最后20行即可)粘貼至客戶端桌面【Rel

ease\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

5、啟動(dòng)Hadoop集群(包括hdfs和yarn),使用jps命令查看Mas

ter節(jié)點(diǎn)與slave1節(jié)點(diǎn)的Java進(jìn)程,將jps命令與結(jié)果截圖粘

貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)

序號(hào)下。

子任務(wù)二:SparkonYarn安裝配置

本任務(wù)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要

配置前置環(huán)境,具體要求如下:

1、從宿主機(jī)/opt目錄下將文件spark-3.1.1-bin-hadoop3.2.tgz復(fù)

制到容器Master中的/opt/software(若路徑不存在,則需新建)

中,將Spark包解壓到/opt/module路徑中(若路徑不存在,則需

新建),將完整解壓命令復(fù)制粘貼至客戶端桌面【Release\任務(wù)A

提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

2、修改容器中/etc/profile文件,設(shè)置Spark環(huán)境變量并使環(huán)境變

量生效,在/opt目錄下運(yùn)行命令spark-submit--version,將命

令與結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.doc

x】中對(duì)應(yīng)的任務(wù)序號(hào)下;

3、完成onyarn相關(guān)配置,使用sparkonyarn的模式提交$SPARK

19

_HOME/examples/jars/spark-examples_2.12-3.1.1.jar運(yùn)行的

主類為org.apache.spark.examples.SparkPi,將運(yùn)行結(jié)果截圖

粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任

務(wù)序號(hào)下(截取Pi結(jié)果的前后各5行)。

(運(yùn)行命令為:spark-submit--masteryarn--classorg.ap

ache.spark.examples.SparkPi$SPARK_HOME/examples/jars/spar

k-examples_2.12-3.1.1.jar)

子任務(wù)三:HBase分布式安裝配置

本任務(wù)需要使用root用戶完成相關(guān)配置,安裝HBase需要配置H

adoop和ZooKeeper等前置環(huán)境。命令中要求使用絕對(duì)路徑,具體要

求如下:

1、從宿主機(jī)/opt目錄下將文件apache-zookeeper-3.5.7-bin.tar.

gz、hbase-2.2.3-bin.tar.gz復(fù)制到容器Master中的/opt/soft

ware路徑中(若路徑不存在,則需新建),將zookeeper、hbas

e安裝包解壓到/opt/module目錄下,將HBase的解壓命令復(fù)制并

粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)的任

務(wù)序號(hào)下;

2、完成ZooKeeper相關(guān)部署,用scp命令并使用絕對(duì)路徑從容器ma

ster復(fù)制HBase解壓后的包分發(fā)至slave1、slave2中,并修改

相關(guān)配置,配置好環(huán)境變量,在容器Master節(jié)點(diǎn)中運(yùn)行命令hba

seversion,將全部復(fù)制命令復(fù)制并將hbaseversion命令的結(jié)

20

果截圖粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)

應(yīng)的任務(wù)序號(hào)下;

3、啟動(dòng)HBase后在三個(gè)節(jié)點(diǎn)分別使用jps命令查看,并將結(jié)果分別

截圖粘貼至客戶端桌面【Release\任務(wù)A提交結(jié)果.docx】中對(duì)應(yīng)

的任務(wù)序號(hào)下;正常啟動(dòng)后在hbaseshell中查看命名空間,將

查看命名空間的結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)A提

交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下。

各節(jié)點(diǎn)可通過Asbru工具或SSH客戶端進(jìn)行SSH訪問;

主節(jié)點(diǎn)MySQL數(shù)據(jù)庫用戶名/密碼:root/123456(已配置遠(yuǎn)程連接);

Hive的配置文件位于/opt/apache-hive-2.3.4-bin/conf/

Spark任務(wù)在Yarn上用Client運(yùn)行,方便觀察日志。

子任務(wù)一:數(shù)據(jù)抽取

編寫Scala代碼,使用Spark將MySQL的shtd_store庫中表us

er_info、sku_info、base_province、base_region、order_info、o

rder_detail的數(shù)據(jù)增量抽取到Hive的ods庫中對(duì)應(yīng)表user_info、

sku_info、base_province、base_region、order_info、order_det

ail中。

21

1、抽取shtd_store庫中user_info的增量數(shù)據(jù)進(jìn)入Hive的ods庫

中表user_info。根據(jù)ods.user_info表中operate_time或cre

ate_time作為增量字段(即MySQL中每條數(shù)據(jù)取這兩個(gè)時(shí)間中較

大的那個(gè)時(shí)間作為增量字段去和ods里的這兩個(gè)字段中較大的時(shí)

間進(jìn)行比較),只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同時(shí)

添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值為當(dāng)

前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用hiv

ecli執(zhí)行showpartitionsods.user_info命令,將結(jié)果截圖

粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任

務(wù)序號(hào)下;

2、抽取shtd_store庫中sku_info的增量數(shù)據(jù)進(jìn)入Hive的ods庫中

表sku_info。根據(jù)ods.sku_info表中create_time作為增量字

段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同時(shí)添加靜態(tài)分

區(qū),分區(qū)字段為etl_date,類型為String,且值為當(dāng)前比賽日的

前一天日期(分區(qū)字段格式為yyyyMMdd)。使用hivecli執(zhí)行

showpartitionsods.sku_info命令,將結(jié)果截圖粘貼至客戶端

桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

3、抽取shtd_store庫中base_province的增量數(shù)據(jù)進(jìn)入Hive的od

s庫中表base_province。根據(jù)ods.base_province表中id作為

增量字段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變并添加字段

create_time取當(dāng)前時(shí)間,同時(shí)添加靜態(tài)分區(qū),分區(qū)字段為et

l_date,類型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)

22

字段格式為yyyyMMdd)。使用hivecli執(zhí)行showpartitions

ods.base_province命令,將結(jié)果截圖粘貼至客戶端桌面【Relea

se\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

4、抽取shtd_store庫中base_region的增量數(shù)據(jù)進(jìn)入Hive的ods

庫中表base_region。根據(jù)ods.base_region表中id作為增量字

段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變并添加字段crea

te_time取當(dāng)前時(shí)間,同時(shí)添加靜態(tài)分區(qū),分區(qū)字段為etl_date,

類型為String,且值為當(dāng)前比賽日的前一天日期(分區(qū)字段格式

為yyyyMMdd)。使用hivecli執(zhí)行showpartitionsods.base

_region命令,將結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)B

提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

5、抽取shtd_store庫中order_info的增量數(shù)據(jù)進(jìn)入Hive的ods庫

中表order_info,根據(jù)ods.order_info表中operate_time或c

reate_time作為增量字段(即MySQL中每條數(shù)據(jù)取這兩個(gè)時(shí)間中

較大的那個(gè)時(shí)間作為增量字段去和ods里的這兩個(gè)字段中較大的

時(shí)間進(jìn)行比較),只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同

時(shí)添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值為

當(dāng)前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用h

ivecli執(zhí)行showpartitionsods.order_info命令,將結(jié)果截

圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的

任務(wù)序號(hào)下;

6、抽取shtd_store庫中order_detail的增量數(shù)據(jù)進(jìn)入Hive的ods

23

庫中表order_detail,根據(jù)ods.order_detail表中create_tim

e作為增量字段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,

同時(shí)添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值

為當(dāng)前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用

hivecli執(zhí)行showpartitionsods.order_detail命令,將結(jié)

果截圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)

應(yīng)的任務(wù)序號(hào)下。

子任務(wù)二:數(shù)據(jù)清洗

編寫Scala代碼,使用Spark將ods庫中相應(yīng)表數(shù)據(jù)全量抽取到

Hive的dwd庫中對(duì)應(yīng)表中。表中有涉及到timestamp類型的,均要

求按照yyyy-MM-ddHH:mm:ss,不記錄毫秒數(shù),若原數(shù)據(jù)中只有年月

日,則在時(shí)分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-

ddHH:mm:ss。

1、抽取ods庫中user_info表中昨天的分區(qū)(子任務(wù)一生成的分區(qū))

數(shù)據(jù),并結(jié)合dim_user_info最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并

數(shù)據(jù)到dwd庫中dim_user_info的分區(qū)表(合并是指對(duì)dwd層數(shù)

據(jù)進(jìn)行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)opera

te_time排序取最新的一條),分區(qū)字段為etl_date且值與ods

庫的相對(duì)應(yīng)表該值相等,同時(shí)若operate_time為空,則用creat

e_time填充,并添加dwd_insert_user、dwd_insert_time、dwd

_modify_user、dwd_modify_time四列,其中dwd_insert_user、d

24

wd_modify_user均填寫“user1”。若該條記錄第一次進(jìn)入數(shù)倉d

wd層則dwd_insert_time、dwd_modify_time均存當(dāng)前操作時(shí)間,

并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進(jìn)入dwd層時(shí)發(fā)生了合并修改,

則dwd_insert_time時(shí)間不變,dwd_modify_time存當(dāng)前操作時(shí)

間,其余列存最新的值。使用hivecli執(zhí)行showpartitionsd

wd.dim_user_info命令,將結(jié)果截圖粘貼至客戶端桌面【Releas

e\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

2、抽取ods庫sku_info表中昨天的分區(qū)(子任務(wù)一生成的分區(qū))數(shù)

據(jù),并結(jié)合dim_sku_info最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并數(shù)

據(jù)到dwd庫中dim_sku_info的分區(qū)表(合并是指對(duì)dwd層數(shù)據(jù)進(jìn)

行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)create_ti

me排序取最新的一條),分區(qū)字段為etl_date且值與ods庫的

相對(duì)應(yīng)表該值相等,并添加dwd_insert_user、dwd_insert_time、

dwd_modify_user、dwd_modify_time四列,其中dwd_insert_use

r、dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第一次進(jìn)入

數(shù)倉dwd層則dwd_insert_time、dwd_modify_time均填寫當(dāng)前操

作時(shí)間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進(jìn)入dwd層時(shí)發(fā)生了

合并修改,則dwd_insert_time時(shí)間不變,dwd_modify_time存

當(dāng)前操作時(shí)間,其余列存最新的值。使用hivecli查詢表dim_s

ku_info的字段id、sku_desc、dwd_insert_user、dwd_modify_

time、etl_date,條件為最新分區(qū)的數(shù)據(jù),id大于等于15且小

于等于20,并且按照id升序排序,將結(jié)果截圖粘貼至客戶端桌

25

面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

3、抽取ods庫base_province表中昨天的分區(qū)(子任務(wù)一生成的分

區(qū))數(shù)據(jù),并結(jié)合dim_province最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id

合并數(shù)據(jù)到dwd庫中dim_province的分區(qū)表(合并是指對(duì)dwd層

數(shù)據(jù)進(jìn)行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)cre

ate_time排序取最新的一條),分區(qū)字段為etl_date且值與od

s庫的相對(duì)應(yīng)表該值相等,并添加dwd_insert_user、dwd_inser

t_time、dwd_modify_user、dwd_modify_time四列,其中dwd_in

sert_user、dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第

一次進(jìn)入數(shù)倉dwd層則dwd_insert_time、dwd_modify_time均填

寫當(dāng)前操作時(shí)間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進(jìn)入dwd層

時(shí)發(fā)生了合并修改,則dwd_insert_time時(shí)間不變,dwd_modify

_time存當(dāng)前操作時(shí)間,其余列存最新的值。使用hivecli在表

dwd.dim_province最新分區(qū)中,查詢?cè)摲謪^(qū)中數(shù)據(jù)的條數(shù),將結(jié)果

截圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)

的任務(wù)序號(hào)下;

4、抽取ods庫base_region表中昨天的分區(qū)(子任務(wù)一生成的分區(qū))

數(shù)據(jù),并結(jié)合dim_region最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并數(shù)

據(jù)到dwd庫中dim_region的分區(qū)表(合并是指對(duì)dwd層數(shù)據(jù)進(jìn)行

插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)create_time

排序取最新的一條),分區(qū)字段為etl_date且值與ods庫的相對(duì)

應(yīng)表該值相等,并添加dwd_insert_user、dwd_insert_time、dw

26

d_modify_user、dwd_modify_time四列,其中dwd_insert_user、

dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第一次進(jìn)入數(shù)倉

dwd層則dwd_insert_time、dwd_modify_time均填寫當(dāng)前操作時(shí)

間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進(jìn)入dwd層時(shí)發(fā)生了合并

修改,則dwd_insert_time時(shí)間不變,dwd_modify_time存當(dāng)前

操作時(shí)間,其余列存最新的值。使用hivecli在表dwd.dim_reg

ion最新分區(qū)中,查詢?cè)摲謪^(qū)中數(shù)據(jù)的條數(shù),將結(jié)果截圖粘貼至

客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)

下;

5、將ods庫中order_info表昨天的分區(qū)(子任務(wù)一生成的分區(qū))數(shù)

據(jù)抽取到dwd庫中fact_order_info的動(dòng)態(tài)分區(qū)表,分區(qū)字段為

etl_date,類型為String,取create_time值并將格式轉(zhuǎn)換為y

yyyMMdd,同時(shí)若operate_time為空,則用create_time填充,

并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、

dwd_modify_time四列,其中dwd_insert_user、dwd_modify_us

er均填寫“user1”,dwd_insert_time、dwd_modify_time均填

寫當(dāng)前操作時(shí)間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。使用hivecli執(zhí)行sho

wpartitionsdwd.fact_order_info命令,將結(jié)果截圖粘貼至客

戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

6、將ods庫中order_detail表昨天的分區(qū)(子任務(wù)一中生成的分區(qū))

數(shù)據(jù)抽取到dwd庫中fact_order_detail的動(dòng)態(tài)分區(qū)表,分區(qū)字

段為etl_date,類型為String,取create_time值并將格式轉(zhuǎn)換

27

為yyyyMMdd,并添加dwd_insert_user、dwd_insert_time、dwd

_modify_user、dwd_modify_time四列,其中dwd_insert_user、

dwd_modify_user均填寫“user1”,dwd_insert_time、dwd_mod

ify_time均填寫當(dāng)前操作時(shí)間,并進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。使用hiv

ecli執(zhí)行showpartitionsdwd.fact_order_detail命令,將

結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.docx】中

對(duì)應(yīng)的任務(wù)序號(hào)下。

子任務(wù)三:指標(biāo)計(jì)算

編寫Scala代碼,使用Spark計(jì)算相關(guān)指標(biāo)。

1、本任務(wù)基于以下2、3、4小題完成,使用Azkaban完成第2、3、

4題任務(wù)代碼的調(diào)度。工作流要求,使用shell輸出“開始”作

為工作流的第一個(gè)job(job1),2、3、4題任務(wù)為串行任務(wù)且它

們依賴job1的完成(命名為job2、job3、job4),job2、job3、

job4完成之后使用shell輸出“結(jié)束”作為工作流的最后一個(gè)j

ob(endjob),endjob依賴job2、job3、job4,并將最終任務(wù)調(diào)

度完成后的工作流截圖,將截圖粘貼至客戶端桌面【Release\任務(wù)

B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

字段類型中文含義備注

provinceidint省份表主鍵

provincenametext省份名稱

regionidint地區(qū)表主鍵

regionnametext地區(qū)名稱

28

totalconsumptiondouble訂單總金額當(dāng)月訂單總金額

totalorderint訂單總數(shù)當(dāng)月訂單總數(shù)

yearint年訂單產(chǎn)生的年

monthint月訂單產(chǎn)生的月

29

2、根據(jù)dwd層表統(tǒng)計(jì)每個(gè)省份、每個(gè)地區(qū)、每個(gè)月下單的數(shù)量和下

單的總金額,存入MySQL數(shù)據(jù)庫shtd_result的provinceeverym

onth表中(表結(jié)構(gòu)如下),然后在Linux的MySQL命令行中根據(jù)

訂單總數(shù)、訂單總金額、省份表主鍵均為降序排序,查詢出前5條,

將SQL語句復(fù)制粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)

果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下,將執(zhí)行結(jié)果截圖粘貼至客戶端桌

面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

3、請(qǐng)根據(jù)dwd層表計(jì)算出2020年4月每個(gè)省份的平均訂單金額和所

有省份平均訂單金額相比較結(jié)果(“高/低/相同”),存入MySQ

L數(shù)據(jù)庫shtd_result的provinceavgcmp表(表結(jié)構(gòu)如下)中,

然后在Linux的MySQL命令行中根據(jù)省份表主鍵、該省平均訂單

金額均為降序排序,查詢出前5條,將SQL語句復(fù)制粘貼至客戶

端桌面【Release\任務(wù)B提交結(jié)果.docx】中對(duì)應(yīng)的任務(wù)序號(hào)下,

將執(zhí)行結(jié)果截圖粘貼至客戶端桌面【Release\任務(wù)B提交結(jié)果.

docx】中對(duì)應(yīng)的任務(wù)序號(hào)下;

字段類型中文含義備注

provinceidint省份表主鍵

provincenametext省份名稱

provinceavgconsumptiondouble該省平均訂

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論