大數(shù)據(jù)時(shí)代教育企業(yè)的精準(zhǔn)化管理及服務(wù)實(shí)踐_第1頁(yè)
大數(shù)據(jù)時(shí)代教育企業(yè)的精準(zhǔn)化管理及服務(wù)實(shí)踐_第2頁(yè)
大數(shù)據(jù)時(shí)代教育企業(yè)的精準(zhǔn)化管理及服務(wù)實(shí)踐_第3頁(yè)
大數(shù)據(jù)時(shí)代教育企業(yè)的精準(zhǔn)化管理及服務(wù)實(shí)踐_第4頁(yè)
大數(shù)據(jù)時(shí)代教育企業(yè)的精準(zhǔn)化管理及服務(wù)實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 大數(shù)據(jù)時(shí)代背景教育企業(yè)的精準(zhǔn)化和個(gè)性化管理及服務(wù)實(shí)踐大數(shù)據(jù)時(shí)代,企業(yè)如何利用數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)化和個(gè)性化管理及服務(wù) 目 錄 TOC o 1-3 h z u HYPERLINK l _Toc66545940 1 項(xiàng)目概述 PAGEREF _Toc66545940 h 3 HYPERLINK l _Toc66545941 1.1 項(xiàng)目背景 PAGEREF _Toc66545941 h 3 HYPERLINK l _Toc66545942 1.2 需求分析 PAGEREF _Toc66545942 h 3 HYPERLINK l _Toc66545943 1.3 建設(shè)目標(biāo) PAGEREF _Toc665

2、45943 h 4 HYPERLINK l _Toc66545944 2 建設(shè)方案 PAGEREF _Toc66545944 h 5 HYPERLINK l _Toc66545945 2.1 總體架構(gòu) PAGEREF _Toc66545945 h 5 HYPERLINK l _Toc66545946 2.2 基礎(chǔ)支撐平臺(tái) PAGEREF _Toc66545946 h 11 HYPERLINK l _Toc66545947 2.3 建設(shè)效果 PAGEREF _Toc66545947 h 14 HYPERLINK l _Toc66545948 3 核心組件 PAGEREF _Toc66545948

3、 h 19本文以教育行業(yè)項(xiàng)目的建設(shè)為例,介紹了如何通過(guò)數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)管理和服務(wù)的全方位大數(shù)據(jù)管理,為每個(gè)學(xué)生進(jìn)行精準(zhǔn)畫(huà)像,從而實(shí)現(xiàn)精準(zhǔn)化個(gè)性化服務(wù)、前置性預(yù)警引導(dǎo)服務(wù)等,為領(lǐng)導(dǎo)提供數(shù)據(jù)支持和決策參考,最終實(shí)現(xiàn)管理提升。1 項(xiàng)目概述1.1 項(xiàng)目背景隨著時(shí)代的不斷進(jìn)步,科技的迅速發(fā)展,當(dāng)前人們的生活已經(jīng)發(fā)生了巨大的改變,越來(lái)越多的科學(xué)技術(shù)成果出現(xiàn)在人們的生活當(dāng)中,給人們的生活、學(xué)習(xí)、還有工作都帶來(lái)了極大的便捷。現(xiàn)在人們的生活模式已經(jīng)發(fā)生了翻天覆地的改變,為了不斷的適應(yīng)社會(huì)的具體狀況,人們也在不斷的對(duì)自身做出相應(yīng)的調(diào)整,這樣的狀況在我國(guó)的高校中也是如此。當(dāng)前的

4、社會(huì)被人們稱為大數(shù)據(jù)時(shí)代,在這樣的時(shí)代當(dāng)中大數(shù)據(jù)為人們更好的認(rèn)識(shí)這個(gè)世界提供了幫助,同時(shí)也為改變這個(gè)世界提供了全新的方法與技術(shù)體系。對(duì)于高校來(lái)說(shuō),是一個(gè)知識(shí)最密集、網(wǎng)絡(luò)信息技術(shù)運(yùn)用充分、思想最活躍的前沿征地,為此我們要對(duì)高校的發(fā)展給予高度的重視。大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,教育行業(yè)作為社會(huì)大眾共享的無(wú)形財(cái)富,其開(kāi)放己成為數(shù)據(jù)整合和共享應(yīng)用的前提條件。“十三五期間有望形成和諧健康的行業(yè)生態(tài)。基礎(chǔ)設(shè)施提供商、大數(shù)據(jù)服務(wù)商、數(shù)據(jù)挖掘與分析提供商、數(shù)據(jù)應(yīng)用服務(wù)提供商、數(shù)據(jù)安全提供商、教育行政部門(mén)以及教育大數(shù)據(jù)標(biāo)準(zhǔn)研制單位等諸多角色通過(guò)合理分工、有效協(xié)同,推進(jìn)高校大數(shù)據(jù)的持續(xù)有序發(fā)展。數(shù)字化校園歷經(jīng)建設(shè)多年,沉

5、淀在數(shù)字化校園系統(tǒng)中的數(shù)據(jù)未釋放數(shù)據(jù)的價(jià)值來(lái)指導(dǎo)高校進(jìn)行科學(xué)決策與科學(xué)管理。所以,數(shù)據(jù)建設(shè)勢(shì)必要提上高校信息化建設(shè)日程。高校信息化已數(shù)據(jù)作為切入點(diǎn)進(jìn)行整體規(guī)劃。高校信息化在高校建設(shè)中,已經(jīng)從網(wǎng)絡(luò)化到數(shù)字化,從數(shù)字化到智慧化演進(jìn),作為智慧化最突出的標(biāo)志之一,數(shù)據(jù)化已經(jīng)成為高校智慧校園建設(shè)的任務(wù)。如何利用數(shù)據(jù)的采集,分析,計(jì)算,挖掘來(lái)支撐高校的信息化戰(zhàn)略已成為未來(lái)戰(zhàn)略的必然趨勢(shì)。1.2 需求分析隨著當(dāng)今時(shí)代的不斷發(fā)展,人們逐漸發(fā)現(xiàn)以往傳統(tǒng)的高校學(xué)生工作管理模式已經(jīng)不能夠滿足人們具體的生活需要,高校要想發(fā)展的更好,要想給學(xué)生們提供一個(gè)良好的教育環(huán)境,那么一定要對(duì)自身的管理模式機(jī)型進(jìn)行改變,因?yàn)橹挥羞@

6、樣高校才能夠長(zhǎng)期穩(wěn)定的發(fā)展下去?,F(xiàn)在的高校在對(duì)自身的管理模式進(jìn)行改變的時(shí)候,深受社會(huì)大數(shù)據(jù)時(shí)代背景的影響,同時(shí)這也是高校自身在進(jìn)行改進(jìn)的時(shí)候必須參考的一個(gè)數(shù)據(jù)。教育管理體制改革需求在我國(guó)教育管理體制的不斷改革與發(fā)展中,各大高校的招生規(guī)模越來(lái)越大,所設(shè)立的專(zhuān)業(yè)也越來(lái)越多,相對(duì)于高校招生量來(lái)說(shuō),其管理人員的數(shù)量卻沒(méi)有增加,更沒(méi)有信息化管理意識(shí)。雖然一些高校也為學(xué)校擴(kuò)招工作作了一系列的準(zhǔn)備工作,加大了高校輔導(dǎo)員等等的管理隊(duì)伍建設(shè),但管理人員的增長(zhǎng)水平遠(yuǎn)遠(yuǎn)達(dá)不到高校學(xué)生管理工作的需求,以至于使很多管理人員一身兼多職,這樣不僅不能夠保證高校的教學(xué)質(zhì)量,而且還使學(xué)生的管理工作難以以達(dá)到理想狀態(tài),這些都是制

7、約高校健康發(fā)展的重要因素。大數(shù)據(jù)時(shí)代里,高校學(xué)生管理工作難度加大 21世紀(jì)是信息化的世紀(jì)、是網(wǎng)絡(luò)化的世紀(jì),大數(shù)據(jù)時(shí)代的到來(lái)不僅給高校的學(xué)生管理工作帶來(lái)了很大的便利性,同時(shí)也讓其面臨著巨大的壓力的挑戰(zhàn),使學(xué)校管理工作的難度越來(lái)越大,這就要求高校學(xué)生管理的模式能夠與時(shí)俱進(jìn),這樣才能夠掌握學(xué)生們的思想變化,適應(yīng)學(xué)生們的生活方式。學(xué)生管理精準(zhǔn)化需求大數(shù)據(jù)時(shí)代對(duì)高校學(xué)生的管理工作有非常巨大的幫助,高校為了更好的適應(yīng)時(shí)代的發(fā)展,對(duì)自身學(xué)生工作的管理模式已經(jīng)做出了巨大的改變。在當(dāng)今的社會(huì)當(dāng)中隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)的最初狀態(tài)已經(jīng)發(fā)生了翻天覆地的變化,高校已經(jīng)不再運(yùn)用以往傳統(tǒng)的管理模式來(lái)進(jìn)行學(xué)生的

8、管理工作,而是在學(xué)生的管理工作中加入了當(dāng)今先進(jìn)的科學(xué)技術(shù)手段,目前高校已經(jīng)把社交網(wǎng)絡(luò)技術(shù)、計(jì)算機(jī)信息技術(shù)、電子商務(wù)技術(shù)、互聯(lián)網(wǎng)技術(shù)等應(yīng)用到自身的學(xué)生管理工作當(dāng)中,這些先進(jìn)技術(shù)的引進(jìn)大大的提高了高校學(xué)生管理工作的工作效率。學(xué)生管理工作模式變革需求隨著社會(huì)的發(fā)展和高等教育的深刻變革,學(xué)生工作的理念和方法也悄然發(fā)生著變化,從最早的世紀(jì)八十年代較為單一的傳統(tǒng)工作模式到“以學(xué)生為中心”“以學(xué)習(xí)為中心”的注重學(xué)生成長(zhǎng)發(fā)展的學(xué)生工作模式,學(xué)生工作理念正逐步實(shí)現(xiàn)從管理到管理服務(wù)并重到服務(wù)的轉(zhuǎn)變。今天,學(xué)生工作面臨的對(duì)象是一個(gè)在移動(dòng)互聯(lián)網(wǎng)時(shí)代成長(zhǎng)起來(lái)的群體,網(wǎng)絡(luò)已經(jīng)成為他們生活的一部分,如網(wǎng)絡(luò)閱讀、網(wǎng)絡(luò)學(xué)習(xí)、網(wǎng)

9、絡(luò)購(gòu)物、網(wǎng)絡(luò)娛樂(lè)等,他們已經(jīng)成為網(wǎng)絡(luò)文化形成參與的主體,且呈現(xiàn)出個(gè)性化發(fā)展的特征。面對(duì)這樣一個(gè)青年大學(xué)生群體,靠傳統(tǒng)的隨機(jī)抽樣或經(jīng)驗(yàn)去了解他們的工作模式已失去了優(yōu)勢(shì),一種新的依托大數(shù)據(jù)技術(shù)開(kāi)展學(xué)生工作的模式應(yīng)運(yùn)而生。1.3 建設(shè)目標(biāo)在大數(shù)據(jù)時(shí)代,教育政策的制定不再是簡(jiǎn)單的經(jīng)驗(yàn)?zāi)7?更不是政策制定者以自己有限的理解、假想、推測(cè)來(lái)取代全面的調(diào)查、論證和科學(xué)的判斷,而是強(qiáng)調(diào)更精細(xì)化地捕捉各個(gè)層面的變化數(shù)據(jù),以及由數(shù)據(jù)展現(xiàn)的復(fù)雜相關(guān)與因果 關(guān)系,將教育治理與政策決策帶來(lái)的危機(jī)化為機(jī)遇。在管理決策方面 , 學(xué)工大數(shù)據(jù)不論是在幫助決策者更為清晰地了解現(xiàn)狀,及時(shí)掌握更為全面、更有價(jià)值的信息方面,還是在制定、

10、實(shí)施、調(diào)整具體的學(xué)生管理政策過(guò)程中,都具有舉足輕重的作用。本項(xiàng)目的建設(shè)將對(duì)重點(diǎn)圍繞學(xué)生管理工作需求,采集學(xué)生在學(xué)校期間的學(xué)習(xí)、生活、作息、消費(fèi)、運(yùn)動(dòng)、圖書(shū)借閱等多位維度的數(shù)據(jù),包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)管理和服務(wù)的全方位大數(shù)據(jù)管理平為每個(gè)學(xué)生進(jìn)行精準(zhǔn)畫(huà)像,這樣讓學(xué)生管理這對(duì)管理對(duì)象能夠深入的了解,便于為每個(gè)學(xué)生提供精準(zhǔn)化和個(gè)性化的服務(wù),同時(shí)實(shí)現(xiàn)之前從后置性應(yīng)急管理轉(zhuǎn)變?yōu)榍爸眯灶A(yù)警引導(dǎo)等服務(wù),促進(jìn)教學(xué)管理改革,提高對(duì)學(xué)校整體狀況的把控,為領(lǐng)導(dǎo)提供數(shù)據(jù)支持和決策參考。實(shí)現(xiàn)精細(xì)化管理到精準(zhǔn)化服務(wù)的模式轉(zhuǎn)變,學(xué)生工作事無(wú)巨細(xì),涉及學(xué)生成長(zhǎng)的方方面面,在大數(shù)據(jù)時(shí)代,在工作

11、模式和方法上,會(huì)對(duì)學(xué)生工作進(jìn)行管理上的變革,運(yùn)用大數(shù)據(jù)技術(shù)將學(xué)生工作從精細(xì)化管理轉(zhuǎn)向精準(zhǔn)化服務(wù)。學(xué)生工作精準(zhǔn)化服務(wù)主要體現(xiàn)在兩方面:一是學(xué)生工作者要掌握學(xué)生精準(zhǔn)特征。青年大學(xué)生,作為年輕的成人,他們思維活躍、個(gè)性獨(dú)立,呈現(xiàn)出思想多元化、需求多樣化的特征,再加上大學(xué)生面臨著前所未有的全球化、國(guó)際化、互聯(lián)互通、復(fù)雜多變的社會(huì)環(huán)境,大學(xué)生的學(xué)習(xí)行為、生活習(xí)慣、思維模式、價(jià)值觀念都發(fā)生了深刻的變化,成長(zhǎng)過(guò)程中也會(huì)碰到諸多現(xiàn)實(shí)困惑,這就要求學(xué)生工作者利用大數(shù)據(jù)的技術(shù)全面精準(zhǔn)地了解學(xué)生的特點(diǎn)和需求。二是為學(xué)生提供私人定制的成長(zhǎng)服務(wù)。每個(gè)學(xué)生都是獨(dú)立個(gè)體,因其教育背景、生源地、家庭狀況等的差異性,會(huì)導(dǎo)致不同

12、個(gè)體或群體的需求,采用團(tuán)體輔導(dǎo)、個(gè)體輔導(dǎo)、朋輩輔導(dǎo)等方式為學(xué)生提供精準(zhǔn)化服務(wù)。當(dāng)然,學(xué)生工作者重在“輔”和“導(dǎo)”,要得到學(xué)生的配合和支持,需要他們主動(dòng)提供自己的各類(lèi)數(shù)據(jù),與學(xué)生工作者一起診斷,認(rèn)知自己,進(jìn)而實(shí)現(xiàn)自我管理、自我成長(zhǎng)。學(xué)工大數(shù)據(jù)作為高校的大數(shù)據(jù)服務(wù)平臺(tái)和高校智慧校園的一個(gè)子集,將為未來(lái)的高校大數(shù)據(jù)服務(wù)平臺(tái)和智慧校園提供豐富的數(shù)據(jù)源和基礎(chǔ)。2 建設(shè)方案2.1 總體架構(gòu)2.1.1 數(shù)據(jù)采集和清洗數(shù)據(jù)源:包括的高校的業(yè)務(wù)系統(tǒng)(學(xué)工、人事、財(cái)務(wù)、教務(wù)、一卡通、科研、后勤、公寓、)等結(jié)構(gòu)化數(shù)據(jù)、硬件的設(shè)備數(shù)據(jù)(防火墻設(shè)備的日志、上網(wǎng)行為審計(jì)的學(xué)生上網(wǎng)相關(guān)數(shù)據(jù)、以及音視頻、無(wú)線WIFI)等非結(jié)

13、構(gòu)化數(shù)據(jù)、互聯(lián)網(wǎng)的數(shù)據(jù)(智聯(lián)、前程無(wú)憂等招聘網(wǎng)站的崗位招聘信息)半結(jié)構(gòu)化數(shù)據(jù)。學(xué)生業(yè)務(wù)系統(tǒng)數(shù)據(jù)調(diào)研情況表數(shù)據(jù)采集層:1、 針對(duì)結(jié)構(gòu)化數(shù)據(jù),采用業(yè)界穩(wěn)定成熟的Sqoop工具。Sqoop是一款強(qiáng)大的開(kāi)源的工具,主要用于在Hive、Hbase與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的傳遞??梢詫⒁粋€(gè)關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中,在項(xiàng)目實(shí)施過(guò)程中使用頻率最高;2、 針對(duì)非結(jié)構(gòu)化數(shù)據(jù),采用業(yè)務(wù)穩(wěn)定成熟的Flume(一個(gè)分布式、高可靠和高可用的海量日志聚合系統(tǒng),支持從各類(lèi)數(shù)據(jù)發(fā)送方采集數(shù)據(jù),同時(shí)也提供對(duì)數(shù)據(jù)的簡(jiǎn)單處理里能,并可以將處理后的數(shù)據(jù)定制化地寫(xiě)

14、入各種數(shù)據(jù)接收方)+kafka(是一個(gè)分布式的、可分區(qū)的、多副本的實(shí)時(shí)消息發(fā)布和訂閱系統(tǒng),提供可擴(kuò)展、高吞吐、低延遲、高可靠的消息分發(fā)服務(wù)),這個(gè)主要實(shí)現(xiàn)對(duì)智能設(shè)備和軟件系統(tǒng)產(chǎn)生的日志信息這類(lèi)型數(shù)據(jù),另外針對(duì)各種文件類(lèi)型的數(shù)據(jù),例如word文檔、視頻、圖片等等。采用http、ftp等協(xié)議,這類(lèi)數(shù)據(jù)采集完成后直接將數(shù)據(jù)存儲(chǔ)到HDFS中。3、 針對(duì)半結(jié)構(gòu)化數(shù)據(jù),主要使用采用爬蟲(chóng)系統(tǒng)、kafka消息隊(duì)列系統(tǒng)、spark數(shù)據(jù)解析和HDFS數(shù)據(jù)存儲(chǔ)(可以選擇使用Elasticsearch)來(lái)配合完成。數(shù)據(jù)預(yù)處理:采集到大數(shù)據(jù)平臺(tái)的數(shù)據(jù)由于原有系統(tǒng)設(shè)計(jì)約束不健全或是業(yè)務(wù)人員錄入等原因造成數(shù)據(jù)可能存在缺失、

15、噪聲、重復(fù)、錯(cuò)誤等問(wèn)題,需要對(duì)于存儲(chǔ)到平臺(tái)中數(shù)據(jù)需要做預(yù)處理(清洗、集成(數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲(chǔ)中的過(guò)程),這部分工作需要業(yè)務(wù)部門(mén)的人員配合梳理,同時(shí)還需要對(duì)之前分散的數(shù)據(jù)按照前端應(yīng)用分析集成面向主題數(shù)據(jù),建立針對(duì)應(yīng)用的主題數(shù)據(jù)庫(kù)(采用MYSQL的分布式架構(gòu)MYCAT部署和存儲(chǔ)數(shù)據(jù))。1、 對(duì)于缺失值:采用人工填寫(xiě)替換(將缺失的屬性值用同一個(gè)常量替換)、邏輯補(bǔ)值(例如根據(jù)身份證號(hào)識(shí)別出生年月日、出生地等信息)、業(yè)務(wù)系統(tǒng)填寫(xiě)(從其他業(yè)務(wù)系統(tǒng)中找出響應(yīng)的數(shù)值)、以業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測(cè)、重新提?。ㄈ绻承┲笜?biāo)非常重要又缺失率高、那就需要和業(yè)

16、務(wù)人員了解和溝通,是否通過(guò)其他渠道可以取到相關(guān)數(shù)據(jù))、放棄(對(duì)于缺失維度較大的數(shù)據(jù),采取放棄的做法);2、 重復(fù)數(shù)據(jù):采用時(shí)間(數(shù)據(jù)錄入的時(shí)間先后順序取舍)、人工刪除、業(yè)務(wù)邏輯去重;3、 錯(cuò)誤數(shù)據(jù):不合理值修正(例如學(xué)生的年齡200歲、學(xué)生的成績(jī)異常1000分,必須指定在某個(gè)區(qū)間內(nèi))、格式錯(cuò)誤修正(包括時(shí)間、日期、數(shù)值、全半角等顯示格式不一致,指定統(tǒng)一的格式進(jìn)行轉(zhuǎn)換)、前后文矛盾修正(例如學(xué)生的身份證號(hào)是1101031980XXXXXXXX,然后年齡填18歲)、人工修正。數(shù)據(jù)標(biāo)準(zhǔn):為確保實(shí)現(xiàn)高校數(shù)據(jù)的集成和共享和實(shí)現(xiàn)校本數(shù)據(jù)的積累,重點(diǎn)參照教育部出臺(tái)的高等學(xué)校管理信息標(biāo)準(zhǔn)“學(xué)生管理數(shù)據(jù)子集”中

17、的規(guī)范,結(jié)合學(xué)校實(shí)際情況,建立大學(xué)生基礎(chǔ)信息編碼規(guī)范和數(shù)據(jù)子集規(guī)范,統(tǒng)一學(xué)生編碼,確保學(xué)生的編碼唯一;統(tǒng)一部門(mén)編碼,保證部門(mén)編碼的唯一;統(tǒng)一所有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)編碼,保證業(yè)務(wù)數(shù)據(jù)的準(zhǔn)確;同時(shí)制訂編碼和數(shù)據(jù)的管理、更新、維護(hù)規(guī)范。數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量監(jiān)控實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的自動(dòng)檢查、監(jiān)控、報(bào)告等功能,包括數(shù)據(jù)質(zhì)量檢查規(guī)則庫(kù)(包括唯一性、重復(fù)性、及時(shí)性、完整性、準(zhǔn)確性、規(guī)范性、一致性等維度)、規(guī)則執(zhí)行引擎(按照指定好的規(guī)則按時(shí)執(zhí)行,例如每天、時(shí)間0:00-06:00)、數(shù)據(jù)質(zhì)量報(bào)告(對(duì)于檢查出的問(wèn)題及時(shí)提交給用戶業(yè)務(wù)部門(mén))、報(bào)告推送等功能。核心是規(guī)則庫(kù),與業(yè)務(wù)無(wú)關(guān)的規(guī)則由技術(shù)人員獨(dú)立開(kāi)發(fā),與業(yè)務(wù)相關(guān)的規(guī)則需

18、要技術(shù)人員和業(yè)務(wù)人員共同確定檢查規(guī)則,然后編寫(xiě)規(guī)則腳本。規(guī)則執(zhí)行引擎可以定時(shí)批量執(zhí)行檢查規(guī)則,及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,將數(shù)據(jù)質(zhì)量報(bào)告第一時(shí)間推送給業(yè)務(wù)部門(mén)和指定相關(guān)人員,便于及時(shí)糾正問(wèn)題數(shù)據(jù)。數(shù)據(jù)質(zhì)量報(bào)告2.1.2 數(shù)據(jù)存儲(chǔ)和檢索數(shù)據(jù)存儲(chǔ):對(duì)于采集到平臺(tái)內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ),1、 結(jié)構(gòu)化數(shù)據(jù):對(duì)于從傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)(mysql、Oracle等)采集過(guò)來(lái)的結(jié)構(gòu)化數(shù)據(jù)則存放在Hive(建立在Hadoop基礎(chǔ)上的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù),提供類(lèi)似SQL的HQL(Hive Query Language)語(yǔ)言對(duì)存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)進(jìn)行存儲(chǔ)、查詢和分析操作)庫(kù)中;2、 非結(jié)構(gòu)化數(shù)據(jù)(音視頻、圖片、Word這類(lèi)

19、型的文件類(lèi)型的數(shù)據(jù))存放在HDFS(Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System),提供高吞吐量的數(shù)據(jù)訪問(wèn)能力,適合用于大規(guī)模海量數(shù)據(jù)的存儲(chǔ))中;3、 半結(jié)構(gòu)化數(shù)據(jù)(設(shè)備的日志、WIFI、一卡通流水)則存放在HBase(是一種構(gòu)建在HDFS之上的分布式、面向列的存儲(chǔ)系統(tǒng),提供海量數(shù)據(jù)存儲(chǔ)功能,適合實(shí)時(shí)讀寫(xiě)、隨機(jī)訪問(wèn)超大規(guī)模數(shù)據(jù)集的應(yīng)用場(chǎng)景)中。數(shù)據(jù)檢索:面對(duì)結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)檢索,將使用Impala標(biāo)準(zhǔn)數(shù)據(jù)檢索框架對(duì)hive數(shù)據(jù)格式存放在HDFS中的數(shù)據(jù)進(jìn)行高速檢索,并且使用Impala的MPP查詢架構(gòu)對(duì)存放信息進(jìn)行高速查詢,同時(shí)還采用ElasticS

20、earch分布式全文檢索框架,用作對(duì)大量索引的高速檢索,其中涉及到大數(shù)據(jù)分析中的語(yǔ)義分析功能(例如:分詞器),可以對(duì)非結(jié)構(gòu)化文件生成結(jié)構(gòu)化索引,達(dá)到轉(zhuǎn)換查詢的目的。2.1.3 分布式計(jì)算和挖掘分布式計(jì)算:對(duì)于實(shí)時(shí)性要求較低的計(jì)算和分析,采用MapReduce分布式離線框架計(jì)算引擎(MapReduce是一種分布式計(jì)算模型。它提供了快速并行處理海量數(shù)據(jù)的能力,主要用解決海量數(shù)據(jù)的批量計(jì)算問(wèn)題。MR由 Map和Reduce兩個(gè)過(guò)程組成。Map過(guò)程將一個(gè)分片數(shù)據(jù)根據(jù)用戶定義的Map邏輯處理后,經(jīng)由MapReduce框架處理,形成輸出結(jié)果,供后續(xù)Reduce過(guò)程使用。Reduce過(guò)程即將Map的結(jié)果作為

21、輸入,根據(jù)用戶定義的Reduce邏輯,將數(shù)據(jù)處理并匯總,輸出最后的結(jié)果。在開(kāi)發(fā)過(guò)程中,用戶只需實(shí)現(xiàn)map()和reduce()兩個(gè)函數(shù),即可實(shí)現(xiàn)分布式計(jì)算。);對(duì)于實(shí)時(shí)性要求較高的應(yīng)用類(lèi)計(jì)算和分析,采用Spark基于內(nèi)存的迭代式運(yùn)算(Spark是基于內(nèi)存計(jì)算的的大數(shù)據(jù)分布式計(jì)算框架。它是基于MapReduce算法實(shí)現(xiàn)的分布式計(jì)算平臺(tái),具有MapReduce所有優(yōu)點(diǎn)。不同于MapReduce的是,Spark計(jì)算任務(wù)的中間結(jié)果和最終結(jié)果都可以保存在內(nèi)存中,從而計(jì)算過(guò)程不再讀寫(xiě)分布式文件系統(tǒng)。因此,Spark更加適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce算法),適合于例如對(duì)一卡通數(shù)據(jù)的分

22、析和各類(lèi)食堂、圖書(shū)館、洗澡堂等推薦功能應(yīng)用場(chǎng)景。算法引擎:采用Apache Mahout(是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù))內(nèi)常見(jiàn)的需要用到的功能算法有時(shí)序分析、主成分分析、關(guān)聯(lián)和推薦、統(tǒng)計(jì)、分類(lèi)、聚類(lèi)、回歸、特征工程、判別、信念網(wǎng)絡(luò)、圖計(jì)算等算法;運(yùn)維監(jiān)控:對(duì)大數(shù)據(jù)環(huán)境系統(tǒng)的分布式組件、硬件資源進(jìn)行實(shí)時(shí)監(jiān)控和運(yùn)維管理,采用Cloudera Manager組件,是一個(gè)擁有集群自動(dòng)化安裝、中心化管理、集群監(jiān)控、報(bào)警功能的一個(gè)工具(軟件),使得安裝集群從幾天的時(shí)間縮短在幾個(gè)小時(shí)內(nèi),運(yùn)維人員從數(shù)十人降低到幾人以內(nèi),極大的提高集群管理的效率(1)管理:對(duì)集群進(jìn)行管理,如添加、刪除節(jié)點(diǎn)等操作。(2)監(jiān)控

23、:監(jiān)控集群的健康情況,對(duì)設(shè)置的各種指標(biāo)和系統(tǒng)運(yùn)行情況進(jìn)行全面監(jiān)控。(3)診斷:對(duì)集群出現(xiàn)的問(wèn)題進(jìn)行診斷,對(duì)出現(xiàn)的問(wèn)題給出建議解決方案。(4)集成:對(duì)hadoop的多組件進(jìn)行整合。其他服務(wù)組件:包括分布式協(xié)調(diào)服務(wù)采用ZooKeeper(提供分布式、高可用性的協(xié)調(diào)服務(wù),幫助系統(tǒng)避免單點(diǎn)故障,建立可靠的應(yīng)用服務(wù))組件對(duì)Hive、HBase、HDFS中的master組件功能提供HA功能,工作流調(diào)度引擎采用oozie工具,實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下個(gè)各類(lèi)資源之間的調(diào)度功能,資源調(diào)度則采用YARN(可以為各類(lèi)應(yīng)用程序進(jìn)行資源管理和調(diào)度),實(shí)時(shí)對(duì)分布式環(huán)境下的CPU、內(nèi)存、硬盤(pán)、網(wǎng)絡(luò)等資源進(jìn)行監(jiān)控,按照前端應(yīng)用的需求

24、動(dòng)態(tài)分配這些資源。2.2 基礎(chǔ)支撐平臺(tái)大數(shù)據(jù)底層基礎(chǔ)支持平臺(tái)統(tǒng)一采用VMware的虛擬化軟件來(lái)構(gòu)建整體云計(jì)算架構(gòu),基礎(chǔ)支撐平臺(tái)虛擬化是實(shí)現(xiàn)業(yè)務(wù)虛擬化的基礎(chǔ)和關(guān)鍵,上層的應(yīng)用支撐和業(yè)務(wù)服務(wù)都要依賴與基礎(chǔ)架構(gòu)平臺(tái),以滿足資源可靠性、可用性及可服務(wù)性需求。目前階段部署和實(shí)施,滿足的當(dāng)前的業(yè)務(wù)應(yīng)用,后期再逐步的完善功能。基礎(chǔ)支撐平臺(tái)進(jìn)行虛擬化設(shè)計(jì)后,可將學(xué)校的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等硬件層設(shè)備形成計(jì)算資源池、存儲(chǔ)資源池和網(wǎng)絡(luò)資源池。在服務(wù)器虛擬化的支撐下,為現(xiàn)階段運(yùn)行、未來(lái)擴(kuò)建的各應(yīng)用系統(tǒng)提供系統(tǒng)級(jí)高可用、容錯(cuò)、系統(tǒng)在線遷移、存儲(chǔ)在線遷移、資源動(dòng)態(tài)負(fù)載均衡、虛擬機(jī)自動(dòng)備份等功能,同時(shí)借助云資源管理服務(wù),資

25、源池在不同組織間的動(dòng)態(tài)調(diào)配等能力。2.2.1 虛擬資源需求運(yùn)行大數(shù)據(jù)平臺(tái)共需15臺(tái)VM,每臺(tái)VM的配置如下,分別用于安裝和部署如下功能組件:2.2.2 物理服務(wù)器配置4臺(tái)物理服務(wù)器,作業(yè)虛擬化的計(jì)算和存儲(chǔ)資源池,每臺(tái)配置如下:CPU:2E5-2600系統(tǒng) (2.5GHz/12c);內(nèi)存:192GB DDR4;存儲(chǔ):71.2TB SAS硬盤(pán);RAID:1GB緩存,支持1/0/5/6;網(wǎng)卡:四千兆,雙端口SFP+萬(wàn)兆網(wǎng)卡+2個(gè)萬(wàn)兆光模塊;計(jì)算資源:21284=768核280核內(nèi)存資源:1924=768GB560GB存儲(chǔ)資源:612004/100029TB27TB2.2.3 網(wǎng)絡(luò)資源1、建議部署Ha

26、doop組件(HDFSHIVEHBASEYRANZK等)的每臺(tái)VM配置雙千兆網(wǎng)卡,有條件最好是配置萬(wàn)兆網(wǎng)路或是鏈路聚合功能,保障一條網(wǎng)絡(luò)鏈路出現(xiàn)故障后,網(wǎng)絡(luò)任可正常服務(wù)和性能要求。2、對(duì)于前端的WEB服務(wù)器(部署HA集群),建議每臺(tái)VM配置單千兆網(wǎng)卡即可;3、大數(shù)據(jù)環(huán)境系統(tǒng)所有VM建議都在一個(gè)網(wǎng)段。大數(shù)據(jù)平臺(tái)網(wǎng)絡(luò)拓?fù)鋱D2.2.4 存儲(chǔ)資源存儲(chǔ)資源如果有條件,可以采用單獨(dú)磁盤(pán)陣列,或是采用服務(wù)器內(nèi)的硬盤(pán)(可以采用SSD(作為緩存)+HDD(數(shù)據(jù)容量)混合模式)作為存儲(chǔ)的資源。2.3 建設(shè)效果2.3.1 精準(zhǔn)畫(huà)像所謂用戶畫(huà)像,即通過(guò)多維的數(shù)據(jù)整體描述用戶的特征,那么學(xué)生的畫(huà)像就是通過(guò)采集學(xué)生在校期

27、間的學(xué)習(xí)、生活、運(yùn)動(dòng)、作息、上網(wǎng)等多個(gè)維度的數(shù)據(jù)量化后,給每個(gè)學(xué)生都賦上特征屬性標(biāo)簽(學(xué)生的作息規(guī)律、努力程度、經(jīng)濟(jì)情況、社交關(guān)系等),進(jìn)行全方位的分析,可以用于揭示學(xué)生在校學(xué)習(xí)、成長(zhǎng)和生活軌跡,從而為學(xué)校針對(duì)學(xué)生進(jìn)行個(gè)性化和精準(zhǔn)化的管理和引導(dǎo)提供重要依據(jù)。2.3.2 社交網(wǎng)絡(luò)社交網(wǎng)絡(luò)的構(gòu)建是通過(guò)分析學(xué)生之間校園行為軌跡相似性來(lái)實(shí)現(xiàn)的,主要是通過(guò)統(tǒng)計(jì)學(xué)生在地點(diǎn)共現(xiàn)(短時(shí)間內(nèi)出現(xiàn)在同一地點(diǎn),例如食堂、圖書(shū)館、澡堂等,通過(guò)WIFI和一卡通、門(mén)禁等數(shù)據(jù)的采集)的頻率,也就是說(shuō)通過(guò)采集學(xué)生之間在某個(gè)時(shí)間點(diǎn)內(nèi)同時(shí)出現(xiàn)的概率,概率越高,就認(rèn)為是朋友關(guān)系,類(lèi)似于微信的朋友圈等,分析共現(xiàn)的顯著性。同時(shí)通過(guò)大數(shù)

28、據(jù)的挖掘與分析,給不同個(gè)體賦上獨(dú)特屬性標(biāo)簽,如專(zhuān)業(yè)、性別、民族等,并以此分析出其個(gè)性化的社交需求,對(duì)其社交圈進(jìn)行刻畫(huà)??梢詷?gòu)建每個(gè)學(xué)生在班級(jí)、年級(jí)、院系的社交網(wǎng)絡(luò)關(guān)系圖,基于個(gè)人的社交網(wǎng)絡(luò)構(gòu)建全校學(xué)生的設(shè)計(jì)網(wǎng)絡(luò)關(guān)系圖,越是處于中心人員,人際交往和社交關(guān)系比較好,越是邊緣或是連接點(diǎn)很少的,人際交往相對(duì)會(huì)差一些,用于發(fā)現(xiàn)校園內(nèi)孤獨(dú)人群、進(jìn)行心里健康輔導(dǎo)、以及一些重點(diǎn)人群監(jiān)控等,同時(shí)可以指定相應(yīng)的社交關(guān)系網(wǎng)絡(luò)推薦或是信息推送服務(wù)等,例如可以為學(xué)生匹配和推薦行為習(xí)慣和興趣愛(ài)好相識(shí)的個(gè)體建立社交關(guān)系等,更好地服務(wù)于學(xué)生個(gè)體的社會(huì)交往需要。2.3.3 成績(jī)預(yù)警高校學(xué)生成績(jī)特別好、特別差和成績(jī)突變的學(xué)生是教

29、育者最關(guān)心的人群,那么影響學(xué)生成績(jī)的因素除了第一課堂(學(xué)習(xí)成績(jī)、到課率、準(zhǔn)點(diǎn)率、基礎(chǔ)知識(shí)掌握情況),還有第二課堂(學(xué)生參加活動(dòng)、獎(jiǎng)懲情況)、經(jīng)濟(jì)消費(fèi)、個(gè)人信息、生活規(guī)律和上網(wǎng)等幾個(gè)方面,針對(duì)成績(jī)預(yù)警,可以綜合這幾個(gè)維度進(jìn)行全方位分析,提示教育者及早發(fā)現(xiàn)問(wèn)題并進(jìn)行干預(yù),盡可能避免掛科問(wèn)題。1、基礎(chǔ)知識(shí)相關(guān)性:基于矩陣分解的降維技術(shù),通過(guò)分析課程之間在基礎(chǔ)知識(shí)上的相關(guān)性來(lái)進(jìn)行掛科預(yù)測(cè)。例如某學(xué)生在第一學(xué)年課程中修高等數(shù)學(xué)1成績(jī)不好掛科了,那么當(dāng)他在修高等數(shù)學(xué)2的時(shí)候,系統(tǒng)就會(huì)提醒該學(xué)生有可能掛科;2、基于學(xué)生努力程度:通過(guò)用學(xué)生在校的打水、出入圖書(shū)館、出入自習(xí)室的次數(shù)以及圖書(shū)借閱情況(例如成績(jī)好的

30、學(xué)生借閱的都是專(zhuān)業(yè)方向的讀物,而成績(jī)差的同學(xué)喜歡借閱諸如小說(shuō)的各類(lèi)課外讀物)綜合來(lái)度量其努力程度,可以反映學(xué)生上自習(xí)或者上課的頻率,間接反映了學(xué)生花在學(xué)習(xí)上的時(shí)間。因而,去教學(xué)樓打水次數(shù)高的學(xué)生、頻繁去圖書(shū)館的同學(xué)成績(jī)較好。3、基于學(xué)生的行為:選用學(xué)生上課監(jiān)控?cái)?shù)據(jù),準(zhǔn)點(diǎn)率,出勤率、努力程度、作息、上網(wǎng)是否健康,并結(jié)合上學(xué)期成績(jī),做加權(quán)求和,目的在于反應(yīng)學(xué)生本學(xué)期的學(xué)習(xí)基礎(chǔ)與學(xué)習(xí)態(tài)度,評(píng)價(jià)學(xué)生學(xué)習(xí)是否健康,公式如下所示:f(成績(jī)(包含德育成績(jī))其中f(x)為歸一化函數(shù)。再根據(jù)學(xué)生飲食是否健康。良好合理的健康飲食習(xí)慣是身體健康的保障;不良的飲食習(xí)慣則會(huì)導(dǎo)致人體正常的生理功能紊亂而感染疾病,嚴(yán)重時(shí)甚

31、至?xí)绊懻9ぷ鲗W(xué)習(xí)生活。因此飲食要按照科學(xué)的比例進(jìn)行,公式如下:飲食指數(shù)=(2f(p_m)+2f(t_d)+f(S)+f(p_n)/6其中f(x)為歸一化函數(shù),p_m,t_d,S,p_n分別為早餐評(píng)價(jià),用餐標(biāo)準(zhǔn)差評(píng)價(jià),消費(fèi)差評(píng)價(jià),宵夜評(píng)價(jià)。還有作息時(shí)間是否規(guī)律、上網(wǎng)時(shí)長(zhǎng)是否合理、準(zhǔn)點(diǎn)率和出勤率是否正常以及歷史學(xué)科成績(jī)等分析,最終形成學(xué)生學(xué)業(yè)成績(jī)分析結(jié)果。這個(gè)算法背后的思想是通過(guò)分析學(xué)生的作息時(shí)間、行為軌跡、上課情況等各事物間的相關(guān)性來(lái)進(jìn)行成績(jī)預(yù)測(cè),例如:作息時(shí)間規(guī)律、出勤率高、去圖書(shū)館較頻繁、按時(shí)吃早餐等的同學(xué)成績(jī)較好。2.3.4 精準(zhǔn)資助準(zhǔn)確識(shí)別扶助對(duì)象是實(shí)施“精準(zhǔn)資助”管理服務(wù)的前提,客

32、觀、動(dòng)態(tài)和多維度大數(shù)據(jù)整合庫(kù),是實(shí)施“精準(zhǔn)資助”的基礎(chǔ)。對(duì)貧困生判定的影響因子主要包括:(1)家庭基本信息,包括學(xué)生家庭成員組成、家庭成員信息、成員學(xué)歷、家庭年收入、負(fù)債金額等基本家庭信息。(2)歷史資助信息,學(xué)生以往獲得的資助信息(是否獲得資助、資助金額以及經(jīng)濟(jì)困難情況)(3)一卡通(食堂、超市、醫(yī)院、開(kāi)水室、自助打印、電費(fèi)、洗衣房、浴室等)消費(fèi)數(shù)據(jù),包括一卡通平均單次消費(fèi)金額、單次充值金額及充值間隔、月消費(fèi)總額、逐月消費(fèi)變化趨勢(shì)、消費(fèi)時(shí)間段規(guī)律等。(4)消費(fèi)趨勢(shì),即獲得資助后消費(fèi)習(xí)慣和軌跡改變的數(shù)據(jù)信息,如在獲得資助之后出現(xiàn)大額消費(fèi)的數(shù)據(jù)信息。(5)調(diào)查問(wèn)卷,收集來(lái)自于輔導(dǎo)員及周?chē)瑢W(xué)日常評(píng)價(jià)并轉(zhuǎn)換為量化數(shù)據(jù)。通過(guò)對(duì)以上數(shù)據(jù)的收集和處理分析,基于大數(shù)據(jù)分析的基礎(chǔ)上,建立精準(zhǔn)資助模型:精準(zhǔn)資助模型精準(zhǔn)資助主要提供一下兩方面的功能:一是識(shí)別虛假貧困生,通過(guò)大數(shù)據(jù)綜合分析學(xué)生的各類(lèi)消費(fèi)數(shù)據(jù),能夠有效識(shí)別家庭經(jīng)濟(jì)情況較好的學(xué)生申報(bào)貧困生名額冒領(lǐng)國(guó)家資助的現(xiàn)象,對(duì)于這類(lèi)學(xué)生取消其資助資格;二是發(fā)現(xiàn)潛在貧困生,對(duì)于一些貧困學(xué)生由于自尊心較強(qiáng)等因素,往往不會(huì)主動(dòng)申請(qǐng)資助,這

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論