




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)導(dǎo)論教案《大數(shù)據(jù)導(dǎo)論》教學(xué)教案第1章什么是大數(shù)據(jù)課時(shí)內(nèi)容大數(shù)據(jù)的概念、發(fā)展歷程和主要特征授課時(shí)間45分鐘課時(shí)1教學(xué)目標(biāo)讓學(xué)生了解什么是大數(shù)據(jù),以及大數(shù)據(jù)的社會(huì)價(jià)值體現(xiàn)在人類生活的哪些方面了解人類息文明的發(fā)展歷程熟悉大數(shù)據(jù)時(shí)代的來臨和具體發(fā)展表現(xiàn)教學(xué)重點(diǎn)掌握大數(shù)據(jù)的主要特征掌握大數(shù)據(jù)的社會(huì)價(jià)值教學(xué)難點(diǎn)熟悉大數(shù)據(jù)的4V特征1、教學(xué)思路:(1)闡釋人類息文明的發(fā)展歷程及其對人類生活產(chǎn)生的影響;(2)講解息技術(shù)主要解決的4個(gè)核心問題的具體發(fā)展表現(xiàn);(3)理論闡述了數(shù)據(jù)生產(chǎn)方式的變革歷程,以及各個(gè)階段的具體發(fā)展情況;(4)從數(shù)據(jù)、技術(shù)特征兩個(gè)方面分析大數(shù)據(jù)的主要特征;(5)大數(shù)據(jù)的社會(huì)價(jià)值體現(xiàn)在哪些方面。教學(xué)設(shè)計(jì)2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)生的研究興趣;(2)從系統(tǒng)的角度動(dòng)身,周全介紹了大數(shù)據(jù)技術(shù)的基礎(chǔ)知識,作為大數(shù)據(jù)技術(shù)的基礎(chǔ)教材,以提升讀者對大數(shù)據(jù)的認(rèn)知,每章結(jié)束都配有習(xí)題,幫助老師進(jìn)行考查。教學(xué)內(nèi)容一、導(dǎo)入新課:“大數(shù)據(jù)”的橫空出生避世半個(gè)世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,息爆炸己經(jīng)積累到一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著以往更多的息,而且其增長速度也在加快。息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。這個(gè)概念幾乎應(yīng)用到所有人類智力與發(fā)展的領(lǐng)域中?!按髷?shù)據(jù)”帶來的影響當(dāng)人們還在津津樂道云計(jì)算、物聯(lián)網(wǎng)等主題時(shí),一個(gè)嶄新的概念“大數(shù)據(jù)”橫空出世。大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)革命,對國家治理模式、企業(yè)決策、組織和業(yè)務(wù)流程,以及個(gè)人生活方式等都將產(chǎn)生巨大的影響。大數(shù)據(jù)的挖掘和應(yīng)用可創(chuàng)造出超萬億美元的價(jià)值,將是未來IT領(lǐng)域最大的市場機(jī)遇之一,其作用堪稱是又一次工業(yè)革命?!按髷?shù)據(jù)”產(chǎn)生的背景隨著網(wǎng)絡(luò)和息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長。大約每兩年翻一番,根據(jù)監(jiān)測,這個(gè)速度在2020年之前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長。息數(shù)據(jù)的單位由TB、PB、EB,再到ZB的級別,這些由我們創(chuàng)造的息背后產(chǎn)生的這些數(shù)據(jù)早己遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇。如何管理和使用這些數(shù)據(jù),逐漸成為一個(gè)新的領(lǐng)域,于是大數(shù)據(jù)的概念應(yīng)運(yùn)而生。從三個(gè)層面認(rèn)知“大數(shù)據(jù)”大數(shù)據(jù)(BigData)又稱為巨量資料,指需要新處理形式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的息資產(chǎn)。第一層面:理論理論是認(rèn)知的必經(jīng)路子,也是被廣泛認(rèn)同和傳播的基線。從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描畫和定性,從對大數(shù)據(jù)價(jià)值的探討來深入解析大數(shù)據(jù)的珍貴所在,洞悉大數(shù)據(jù)的開展趨勢。從大數(shù)據(jù)隱私這個(gè)出格而重要的視角審視人和數(shù)據(jù)之間的長久博弈。第二層面:技術(shù)技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石??梢詮脑朴?jì)算、分布式處理技術(shù)、儲(chǔ)備技術(shù)和感知技術(shù)的開展來申明大數(shù)據(jù)從采集、處理、儲(chǔ)備到構(gòu)成結(jié)果的整個(gè)進(jìn)程。第三層面:實(shí)踐實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn),我們從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)個(gè)人的大數(shù)據(jù)四個(gè)方面來描繪大數(shù)據(jù)己經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。1.1人類息文明的發(fā)展1.2大數(shù)據(jù)時(shí)代的來臨1.2.1息技術(shù)的發(fā)展1.2.2數(shù)據(jù)產(chǎn)生體式格局的厘革1.3大數(shù)據(jù)的主要特征1.3.1大數(shù)據(jù)的數(shù)據(jù)特征1.3.2大數(shù)據(jù)的技術(shù)特征1.4大數(shù)據(jù)的社會(huì)價(jià)值三、討論問題1-1簡述人類息文明的發(fā)展過程并展望未來的發(fā)展方向。1-2大數(shù)據(jù)的技術(shù)特點(diǎn)和技術(shù)優(yōu)勢在哪里?1-3簡單描述大數(shù)據(jù)的主要特征。1-4結(jié)合實(shí)際談?wù)劥髷?shù)據(jù)的社會(huì)價(jià)值。一、歸納小結(jié)思考及作業(yè)隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算的飛速發(fā)展,大量非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級快速增長,數(shù)據(jù)樣式高度復(fù)雜,為人類認(rèn)識世界,改造世界提供了重要的資源,企業(yè)和個(gè)人通過網(wǎng)絡(luò)可以大規(guī)模的收集和闡發(fā)數(shù)據(jù),也能夠產(chǎn)生和發(fā)布數(shù)據(jù),個(gè)體在互聯(lián)的網(wǎng)絡(luò)中既是數(shù)據(jù)的消費(fèi)者又是數(shù)據(jù)的生產(chǎn)者。大規(guī)模生產(chǎn)、分享、使用數(shù)據(jù)的大數(shù)據(jù)時(shí)代己經(jīng)來臨。與此同時(shí),數(shù)量巨大,種類繁多的數(shù)據(jù)給傳統(tǒng)的數(shù)據(jù)獲取、分析、處理、儲(chǔ)備、檢索技術(shù)帶來了挑戰(zhàn),大數(shù)據(jù)成為廣泛關(guān)注且急需解決的熱點(diǎn)問題,并曾經(jīng)開始影響社會(huì)的發(fā)展與人們的日常生活。大數(shù)據(jù)時(shí)代曾經(jīng)來臨,各國將在這一新的領(lǐng)域展開新一輪的競爭,我國應(yīng)當(dāng)與時(shí)俱進(jìn),及時(shí)轉(zhuǎn)型,順應(yīng)大數(shù)據(jù)時(shí)代的到來,可以自創(chuàng)各國的做法,抓住大數(shù)據(jù)時(shí)代樞紐點(diǎn),從國家戰(zhàn)略制定、人才培養(yǎng)、基礎(chǔ)技術(shù)研究、息安全保障系統(tǒng)建設(shè)等方面展開相應(yīng)的工作。二、拓展延伸:(1)大數(shù)據(jù)時(shí)代是在甚么配景環(huán)境下產(chǎn)生的,它對我們的現(xiàn)實(shí)生活產(chǎn)生了哪些方面的影響?(2)大數(shù)據(jù)時(shí)代的個(gè)人隱私如何保護(hù)?(3)結(jié)合實(shí)際生活,談一談大數(shù)據(jù)的社會(huì)價(jià)值主要體目前哪些方面。(4)大數(shù)據(jù)要解決的核心問題是什么?第2章大數(shù)據(jù)技術(shù)基礎(chǔ)課時(shí)內(nèi)容大數(shù)據(jù)技術(shù)基礎(chǔ)授課時(shí)間90分鐘課時(shí)2本章課程在注重大數(shù)據(jù)時(shí)代使用環(huán)境前提下,從初學(xué)者角度動(dòng)身,以輕量級理論、豐富的實(shí)例對應(yīng)性地介紹了大數(shù)據(jù)經(jīng)常使用計(jì)算形式的各類系統(tǒng)和工具。將經(jīng)典和核心的教學(xué)目標(biāo)行業(yè)技術(shù)作為本章的主要內(nèi)容,講解計(jì)算機(jī)操縱系統(tǒng)的基本知識,幫助讀者建立對大數(shù)據(jù)技術(shù)基礎(chǔ)的整體印象。掌握計(jì)算機(jī)操作系統(tǒng)的基礎(chǔ)知識理解和掌握編程語言掌握數(shù)據(jù)庫的主要數(shù)據(jù)類型教學(xué)重點(diǎn)理解算法的涵義掌握大數(shù)據(jù)系統(tǒng)熟數(shù)據(jù)使用開發(fā)流程理解什么是大數(shù)據(jù)技術(shù)基礎(chǔ)熟悉Linux操作系統(tǒng)經(jīng)歷的3個(gè)發(fā)展階段熟悉編程語言的發(fā)展和種類掌握Python語言自身的優(yōu)點(diǎn)和在實(shí)際使用方面的便捷性了解數(shù)據(jù)庫技術(shù)是息技術(shù)的核心技術(shù)教學(xué)難點(diǎn)重點(diǎn)關(guān)注傳統(tǒng)算法和大數(shù)據(jù)時(shí)代算法的區(qū)別Hadoop平臺(tái)和Spark平臺(tái)的基本組成和特征掌握大數(shù)據(jù)的3種主要數(shù)據(jù)類型熟悉典型的大數(shù)據(jù)應(yīng)用開發(fā)流程了解典型的數(shù)據(jù)科學(xué)算法應(yīng)用流程1、教學(xué)思路:(1)通過本章的研究,使讀者掌握計(jì)算機(jī)操縱系統(tǒng)的基本知識,建立對大數(shù)據(jù)技術(shù)基礎(chǔ)的整體印象;(2)介紹Linux操作系統(tǒng)經(jīng)歷的3個(gè)主要發(fā)展階段和目前Linux的主要使用場景;(3)回顧編程語言的開展,詳細(xì)介紹編程語言的種類,并講解了當(dāng)前流行的一門編程語言Python語言的特點(diǎn)和優(yōu)勢;(4)簡述傳統(tǒng)SQL數(shù)據(jù)庫的發(fā)展歷程,講解其技術(shù)特點(diǎn);(5)比較NoSQL和NewSQL數(shù)據(jù)庫的技術(shù)特色和特點(diǎn);(6)分別講述Hadoop和Spark大數(shù)據(jù)平臺(tái)的基本構(gòu)架和工作原理;(7)簡教學(xué)設(shè)計(jì)述大數(shù)據(jù)應(yīng)用開發(fā)的一般流程及典型數(shù)據(jù)科學(xué)算法的應(yīng)用流程。2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的研究興趣;(2)深入講解知識點(diǎn)內(nèi)容,理論與案例相結(jié)合,在教學(xué)進(jìn)程中掌握大數(shù)據(jù)闡發(fā)的實(shí)踐操縱,通過豐富簡樸易上手的實(shí)例,讓學(xué)生能夠切實(shí)體會(huì)和掌握各類類型工具的特點(diǎn)和應(yīng)用。教學(xué)內(nèi)容一、導(dǎo)入新課:大數(shù)據(jù)行業(yè)經(jīng)過最近幾年跨越式的發(fā)展,產(chǎn)生了一批與之相關(guān)的核心行業(yè)技術(shù),我們將其統(tǒng)稱為“大數(shù)據(jù)技術(shù)”。這些經(jīng)典的、核心的行業(yè)技術(shù)就是本書的主要內(nèi)容。計(jì)算機(jī)作為促進(jìn)當(dāng)代息技術(shù)發(fā)展的重要工具,對社會(huì)、經(jīng)濟(jì)發(fā)展的影響越來越顯著,越發(fā)受到人們的重視,其操作系統(tǒng)也越來越龐大和復(fù)雜。因此,理解計(jì)算機(jī)操作系統(tǒng)的基礎(chǔ)知識是研究并掌握大數(shù)據(jù)技術(shù)知識的前提,熟悉各種操作系統(tǒng)經(jīng)歷的發(fā)展階段對于更好的理解其理論和知識架構(gòu)奠定了基礎(chǔ)。大數(shù)據(jù)有幾個(gè)特性,最著名的是數(shù)據(jù)量(volume),速度(velocity),多樣性(variety)。除此以外,還有就是準(zhǔn)確性(veracity),連通性(valence),和價(jià)值(value)。從操作系統(tǒng)的概念入手,簡要分析了操作系統(tǒng)程序和一般的應(yīng)用程序有什么區(qū)別和聯(lián)系,然后講解了誕生于網(wǎng)絡(luò)、成長于網(wǎng)絡(luò)且成熟于網(wǎng)絡(luò)的Linux操作系統(tǒng),并分別講述其經(jīng)歷的3個(gè)發(fā)展階段所具有的特點(diǎn)和目前Linux的主要應(yīng)用場景。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展和完善,編程語言已經(jīng)得到了長足的發(fā)展,并被廣泛地應(yīng)用于實(shí)際,已經(jīng)成為人們與計(jì)算機(jī)進(jìn)行深入“交流”的必需工具??偨Y(jié)介紹了目前市場上所用的主要編程語言種類及其特點(diǎn),重點(diǎn)講解編寫簡單,應(yīng)用廣泛,功能強(qiáng)大和更新速度最快的Python語言。SQL涵蓋數(shù)據(jù)的查詢、操縱、定義和控制,是一個(gè)綜合的、通用的且簡樸易懂的數(shù)據(jù)庫綜合管理語言,同時(shí)又是一種高度非進(jìn)程化的語言,數(shù)據(jù)庫管理者只需要指出做甚么而不需要指出怎樣做,即可完成對數(shù)據(jù)庫的管理。SQL可以實(shí)現(xiàn)對數(shù)據(jù)庫的全生命周期的全部操縱,所以自產(chǎn)生之日起就成了檢驗(yàn)關(guān)系型數(shù)據(jù)庫管理能力的試金石,并且SQL標(biāo)準(zhǔn)的每次變更和美滿都指導(dǎo)著關(guān)系型數(shù)據(jù)庫產(chǎn)品的開展方向,并分述NoSQL數(shù)據(jù)庫、NewSQL數(shù)據(jù)庫的技術(shù)特色和特點(diǎn)。算法(Algorithm)是數(shù)學(xué)處理的靈魂和核心,也是實(shí)現(xiàn)現(xiàn)實(shí)事務(wù)數(shù)學(xué)化、公式化和邏輯化處理的橋梁,可以說算法是息時(shí)代連通現(xiàn)實(shí)社會(huì)和虛擬世界的立交橋。本章內(nèi)容重點(diǎn)關(guān)注傳統(tǒng)算法和大數(shù)據(jù)時(shí)代算法的區(qū)別,系統(tǒng)闡述兩種算法的本質(zhì)區(qū)別在于數(shù)據(jù)分析和數(shù)據(jù)科學(xué)。簡要介紹大數(shù)據(jù)系統(tǒng)目前最為有名和流行的Hadoop平臺(tái)和Spark平臺(tái),分別介紹其主要模塊,平臺(tái)基本特征和典型技術(shù)特點(diǎn)等。隨著大數(shù)據(jù)時(shí)代的到來,我們不得不認(rèn)可如今數(shù)據(jù)量的激增愈來愈明顯,各類百般的數(shù)據(jù)鋪天蓋地的砸下來,企業(yè)挑選相應(yīng)工具來儲(chǔ)備、闡發(fā)與處理它們。那么在大數(shù)據(jù)時(shí)代中,都有哪些數(shù)據(jù)類型?布局化數(shù)據(jù):能夠用數(shù)據(jù)或統(tǒng)一的布局加以透露表現(xiàn),人們稱之為布局化數(shù)據(jù),如數(shù)字、標(biāo)記。傳統(tǒng)的關(guān)系數(shù)據(jù)模型,行數(shù)據(jù),儲(chǔ)備于數(shù)據(jù)庫,可用二維表布局透露表現(xiàn)。半結(jié)構(gòu)化數(shù)據(jù):所謂半結(jié)構(gòu)化數(shù)據(jù),就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),XML、HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變,并且每隔字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫,用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號等息)而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(全文文本,圖像,聲音,影視,超媒體等息)?,F(xiàn)實(shí)中,大數(shù)據(jù)的數(shù)據(jù)類型滲透在日常生活中的各個(gè)方面?,F(xiàn)如今大數(shù)據(jù)更接近于某個(gè)群體行動(dòng)數(shù)據(jù),它是周全的數(shù)據(jù)、準(zhǔn)確的數(shù)據(jù)、有價(jià)值的數(shù)據(jù)。這些新類型數(shù)據(jù)賴大家都很熟習(xí),它們曾經(jīng)比傳統(tǒng)數(shù)據(jù)類型更深上天走進(jìn)了我們生活。1、一些記錄是以模擬形式方式存在的,或者以數(shù)據(jù)形式存在但是存貯在本地,不是公開數(shù)據(jù)資源,沒有開放給互聯(lián)網(wǎng)用戶,例如音樂、照片、視頻、監(jiān)控錄像等影音資料。現(xiàn)在這些數(shù)據(jù)不但數(shù)據(jù)量巨大,并且共享到了互聯(lián)網(wǎng)上,面對所有互聯(lián)網(wǎng)用戶,其數(shù)量之大是前所未有。2、移動(dòng)互聯(lián)網(wǎng)出現(xiàn)后,移動(dòng)設(shè)備的很多傳感器收集了大量的用戶點(diǎn)擊行為數(shù)據(jù),它們每天產(chǎn)生了大量的點(diǎn)擊數(shù)據(jù),這些數(shù)據(jù)被某些公司所有擁有,形成用戶大量行為數(shù)據(jù)。3、電子地圖生了大量的數(shù)據(jù)流數(shù)據(jù),這些數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)代表一個(gè)屬性或一個(gè)度量值,但是這些地圖產(chǎn)生的流數(shù)據(jù)代表著一種行動(dòng)、一種習(xí)慣,這些流數(shù)據(jù)經(jīng)頻率闡發(fā)后會(huì)產(chǎn)生。4、進(jìn)入了社交網(wǎng)絡(luò)的年代后,互聯(lián)網(wǎng)行為主要由用戶參與創(chuàng)造,大量的互聯(lián)網(wǎng)用戶創(chuàng)造出海量的社交行為數(shù)據(jù),這些數(shù)據(jù)是過去未曾出現(xiàn)的。其揭示了人們行為特點(diǎn)和生活習(xí)慣。5、電商戶興起產(chǎn)來了大量網(wǎng)上交易數(shù)據(jù),包含支付數(shù)據(jù),查詢行動(dòng),物流運(yùn)輸、購買喜歡,點(diǎn)擊順序,評價(jià)行動(dòng)等,其是息流和資金流數(shù)據(jù)。6、傳統(tǒng)的互聯(lián)網(wǎng)入口轉(zhuǎn)向搜索引擎之后,用戶的搜索行為和提問行為聚集了海量數(shù)據(jù)。單位存儲(chǔ)價(jià)格的下降也為存儲(chǔ)這些數(shù)據(jù)提供了經(jīng)濟(jì)上的可能。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行共同講解。2.1計(jì)算機(jī)操縱系統(tǒng)2.1.1什么是操作系統(tǒng)2.1.2Linux操作系統(tǒng)2.2編程語言2.2.1編程語言的開展與種類2.2.2Python語言2.3數(shù)據(jù)庫2.3.1SQL數(shù)據(jù)庫的開展與成熟2.3.2NoSQL數(shù)據(jù)庫及其特點(diǎn)2.3.3NoSQL數(shù)據(jù)庫的分類2.3.4NewSQL數(shù)據(jù)庫2.4算法2.4.1甚么是算法2.4.2大數(shù)據(jù)時(shí)代的算法2.5大數(shù)據(jù)系統(tǒng)2.5.1Hadoop平臺(tái)2.5.2Spark平臺(tái)2.6大數(shù)據(jù)的數(shù)據(jù)類型2.6.1結(jié)構(gòu)化數(shù)據(jù)2.6.2半布局化數(shù)據(jù)2.6.3非布局化數(shù)據(jù)2.7大數(shù)據(jù)應(yīng)用的開發(fā)流程2.8數(shù)據(jù)科學(xué)算法的應(yīng)用流程三、討論問題:2-1甚么是操縱系統(tǒng)的核心。操縱系統(tǒng)核心的主要作用有哪些?2-2Linux操作系統(tǒng)的優(yōu)勢和主要的特點(diǎn)有哪些?2-3何為靜態(tài)編程語言,何為動(dòng)態(tài)編程語言?兩者的聯(lián)系和不同有哪些?2-4簡述傳統(tǒng)SQL數(shù)據(jù)庫的發(fā)展歷程。2-5SQL數(shù)據(jù)庫的技術(shù)特點(diǎn)有哪些?2-6NoSQL和NewSQL數(shù)據(jù)庫的技術(shù)特色和技術(shù)特點(diǎn)有哪些?2-7簡述Hadoop和Spark大數(shù)據(jù)平臺(tái)的基本構(gòu)架和工作原理。2-8簡述大數(shù)據(jù)開發(fā)的一般流程。一、歸納小結(jié):課堂上注意講、學(xué)、練相結(jié)合,注重以學(xué)生為主體,積極與學(xué)生互動(dòng),調(diào)動(dòng)學(xué)生的研究主動(dòng)性和研究興趣,培養(yǎng)學(xué)生發(fā)現(xiàn)問題、解決問題的實(shí)際能力。采用任務(wù)驅(qū)動(dòng),問題牽引的方式,提出問題,之后帶動(dòng)學(xué)生在教師的講解下一步步尋找解決方法,再歸納總結(jié)出知識點(diǎn),結(jié)合教學(xué)課件和實(shí)際案例,尋找合適的切入點(diǎn),以講授和實(shí)例分析為主的形式完成教學(xué),讓讀者對理論知識的掌握更直接、更快速。二、拓展延伸:思考及作系統(tǒng)都有哪些“神通”之處?業(yè)(1)為甚么說操縱系統(tǒng)是整個(gè)計(jì)算機(jī)硬件系統(tǒng)的“CEO”?這個(gè)雕蟲小技的操縱(2)NoSQL數(shù)據(jù)庫的特點(diǎn)都有哪些?NoSQL數(shù)據(jù)庫有哪些類型?(3)甚么是算法?傳統(tǒng)的數(shù)據(jù)算法與大數(shù)據(jù)時(shí)代的數(shù)據(jù)算法有甚么本質(zhì)區(qū)別?(4)舉例申明機(jī)器研究具有顯著的技術(shù)特征和計(jì)算特色,以及主要包括的技術(shù)優(yōu)勢有哪些。(5)Hadoop平臺(tái)的三大組成是甚么?在當(dāng)前經(jīng)濟(jì)、商業(yè)、技術(shù)領(lǐng)域里有甚么適應(yīng)性優(yōu)勢?(6)大數(shù)據(jù)的主要數(shù)據(jù)類型主要有哪些?請分別說明其特點(diǎn)和主要應(yīng)用范圍。第3章數(shù)據(jù)采集與預(yù)處理課時(shí)內(nèi)容數(shù)據(jù)采集與預(yù)處理授課時(shí)間90分鐘課時(shí)2教學(xué)目標(biāo)預(yù)處理技術(shù)。教學(xué)重點(diǎn)掌握數(shù)據(jù)的采集方法掌握數(shù)據(jù)預(yù)處理流程教學(xué)難點(diǎn)掌握數(shù)據(jù)的采集方法與數(shù)據(jù)預(yù)處理的主要流程1、教學(xué)思路:(1)從傳統(tǒng)商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù)3個(gè)主要方面剖析大理解和掌握數(shù)據(jù)的采集方法,講解數(shù)據(jù)預(yù)處理的基本流程,介紹數(shù)據(jù)預(yù)處理所包含的內(nèi)容和采用的方法,論述數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中的重要地位和作用。教學(xué)設(shè)計(jì)2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的研究興趣;(2)深入講解知識點(diǎn)內(nèi)容,理論與案例相結(jié)合,在教學(xué)過程中掌握數(shù)據(jù)的采集方法和數(shù)據(jù)預(yù)處理技術(shù)的目的和流程,通過豐富簡單易上手的實(shí)例,讓學(xué)生能夠切實(shí)理解和掌握數(shù)據(jù)采集與預(yù)處理的相關(guān)知識內(nèi)容。教學(xué)內(nèi)容一、導(dǎo)入新課:傳統(tǒng)商業(yè)數(shù)據(jù)是來自于企業(yè)ERP系統(tǒng)、各種POS終端及網(wǎng)上支付系統(tǒng)等業(yè)務(wù)系統(tǒng)的數(shù)據(jù),傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)是指網(wǎng)絡(luò)空間交互過程中產(chǎn)生的大量數(shù)據(jù),包括通記錄及QQ、微、微博等社交媒體產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)復(fù)雜且難以被利用。物聯(lián)網(wǎng)數(shù)據(jù)是除了人和效勞器之外,在射頻識別、物品、設(shè)備、傳感器等節(jié)點(diǎn)產(chǎn)生的大量數(shù)據(jù),包括射頻識別裝置、音頻采集器、視頻采集器、傳感器、全球定位設(shè)備、辦公設(shè)備、家用設(shè)備和生產(chǎn)設(shè)備等產(chǎn)生的數(shù)據(jù)。數(shù)據(jù)采集技術(shù)是數(shù)據(jù)科學(xué)的重要組成部分,已廣泛使用于國民經(jīng)濟(jì)和國防建設(shè)的各個(gè)領(lǐng)域,并且隨著科學(xué)技術(shù)的開展,尤其是計(jì)算機(jī)技術(shù)的開展和遍及,數(shù)據(jù)采集技術(shù)具有更廣泛的開展遠(yuǎn)景。大數(shù)據(jù)的采集技術(shù)為大數(shù)據(jù)處理的樞紐技術(shù)之一。放置在此章系統(tǒng)講解數(shù)據(jù)的采集方法十分必要,能夠幫助讀者熟習(xí)并掌握系統(tǒng)日記的采集方法、網(wǎng)頁數(shù)據(jù)的采集方法和其他數(shù)據(jù)的采集方法,使讀者快速跨入大數(shù)據(jù)技術(shù)的大門,幫助大數(shù)據(jù)技術(shù)的初學(xué)者盡快了解大數(shù)據(jù)技術(shù)。簡要介紹幾款采用分布式架構(gòu)的海量數(shù)據(jù)采集工具,對Scribe、Chukwa、Flume的基本架構(gòu)、主要功能和對日志類數(shù)據(jù)的采集、存儲(chǔ)、分析和展示的全套解決方案展開描述,讓讀者系統(tǒng)理解系統(tǒng)日志的采集方法。網(wǎng)絡(luò)數(shù)據(jù)采集稱為“網(wǎng)頁抓屏”、“數(shù)據(jù)挖掘”或“網(wǎng)絡(luò)收割”,通過“網(wǎng)絡(luò)爬蟲”程序?qū)崿F(xiàn)。網(wǎng)絡(luò)爬蟲普通是先“爬”到對應(yīng)的網(wǎng)頁上,再把需要的息“鏟”下來。網(wǎng)絡(luò)爬蟲采集和處理數(shù)據(jù)包括采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)模塊這3個(gè)重要模塊。了解爬蟲的基本工作流程,并掌握URL抓取策略,我們在實(shí)際使用網(wǎng)絡(luò)爬蟲時(shí)可根據(jù)具體需要挑選適合的策略即可。大數(shù)據(jù)并不在“大”,而在于“有用”,數(shù)據(jù)質(zhì)量比數(shù)量更為重要,然而數(shù)據(jù)通常并非完美。準(zhǔn)確、高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)產(chǎn)生價(jià)值的有力保證。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)質(zhì)量的優(yōu)劣直接影響數(shù)據(jù)價(jià)值的高低,進(jìn)而影響人們的分析和決策。因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前必不可少的準(zhǔn)備工作,是數(shù)據(jù)挖掘中非常關(guān)鍵的一步。數(shù)據(jù)預(yù)處理通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需要,從而保證數(shù)據(jù)挖掘的正解性和有效性。我們首先要弄清什么是影響數(shù)據(jù)質(zhì)量的因素,數(shù)據(jù)質(zhì)量問題可能發(fā)生在大數(shù)據(jù)處理流程的每一個(gè)階段,尤其是在數(shù)據(jù)采集和集成階段最容易出現(xiàn)低質(zhì)量的數(shù)據(jù),從而影響后續(xù)的建模分析和挖掘,最終出現(xiàn)錯(cuò)誤的分析結(jié)果,引起決策失誤。評估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)是衡量數(shù)據(jù)在某一方面的性質(zhì),如準(zhǔn)確性、完整性、一致性、及時(shí)性、可性、可解釋性、重復(fù)性、關(guān)聯(lián)性等。它們反映了數(shù)據(jù)質(zhì)量的特性和用戶的需求。列舉其中幾個(gè)比較重要的特性,分別描述它們的含義和用途。數(shù)據(jù)預(yù)處理的主要流程包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。經(jīng)過這些處理步驟,我們可以從大量的數(shù)據(jù)屬性中提取出一部分對目標(biāo)輸出有重要影響的屬性,降低源數(shù)據(jù)的維數(shù),去除噪聲等,為數(shù)據(jù)挖掘算法提供干凈、準(zhǔn)確且更有針對性的數(shù)據(jù),減少挖掘算法的數(shù)據(jù)處理量,改進(jìn)數(shù)據(jù)的質(zhì)量,提高挖掘效率。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行共同講解。3.1.1傳統(tǒng)商業(yè)數(shù)據(jù)3.1.2互聯(lián)網(wǎng)數(shù)據(jù)3.1.3物聯(lián)網(wǎng)數(shù)據(jù)3.2數(shù)據(jù)的采集方法3.2.1系統(tǒng)日志的采集方法3.2.2網(wǎng)頁數(shù)據(jù)的采集方法3.2.3其他數(shù)據(jù)的采集方法3.3數(shù)據(jù)預(yù)處理3.3.1影響數(shù)據(jù)質(zhì)量的因素3.3.2數(shù)據(jù)預(yù)處理的目的3.3.3數(shù)據(jù)預(yù)處理的流程三、討論問題:3-2針對不同類型的數(shù)據(jù),采用甚么樣的采集方法?3-3數(shù)據(jù)預(yù)處理的目的是什么?3-4數(shù)據(jù)清洗需要清洗哪些數(shù)據(jù),應(yīng)使用哪些方法?3-5數(shù)據(jù)集成過程中需要處理的問題有哪些?一、歸納小結(jié):思考及作業(yè)大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲(chǔ)、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機(jī)器研究、并行計(jì)算、可視化等各種技術(shù)范疇和不同的技術(shù)層面。首先給出一個(gè)通用化的大數(shù)據(jù)處理框架,主要分為下面幾個(gè)方面:數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)查詢分析和數(shù)據(jù)可視化。非結(jié)構(gòu)化的海量數(shù)據(jù)是零散的,也就是所謂的數(shù)據(jù)孤島,此時(shí)的這些數(shù)據(jù)并沒有什么意義,數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入數(shù)據(jù)倉庫中,把零散的數(shù)據(jù)整合在一起,對這些數(shù)據(jù)綜合起來進(jìn)行分析。數(shù)據(jù)采集包括文件日志的采集、數(shù)據(jù)庫日志的采集、關(guān)系型數(shù)據(jù)庫的接入和應(yīng)用程序的接入等。在數(shù)據(jù)量比較小的時(shí)候,可以寫個(gè)定時(shí)的腳本將日記寫入儲(chǔ)備系統(tǒng),但隨著數(shù)據(jù)量的增長,這些方法無法供給數(shù)據(jù)安全保障,并且運(yùn)維困難,需要更強(qiáng)壯的解決方案。讀者通過本章的系統(tǒng)研究,課堂上注意講、學(xué)、練相結(jié)合,注重以學(xué)生為主體,積極與學(xué)生互動(dòng),調(diào)動(dòng)學(xué)生的研究自動(dòng)性和研究興趣,培養(yǎng)學(xué)生發(fā)現(xiàn)問題、解決問題的實(shí)際能力。采用任務(wù)驅(qū)動(dòng),問題牽引的體式格局,提出問題,之后帶動(dòng)學(xué)生在教師的講解下一步步尋找解決方法,再歸納總結(jié)出知識點(diǎn),結(jié)合教學(xué)課件和實(shí)際案例,尋找合適的切入點(diǎn),以講授和實(shí)例分析為主的形式完成教學(xué),讓讀者對理論知識的掌握更直接、更快速。在掌握了數(shù)據(jù)采集的方法和數(shù)據(jù)預(yù)處理的技術(shù)方法后,才能在龐大而復(fù)雜的數(shù)據(jù)中剔除有殘缺的、虛假的、過時(shí)的數(shù)據(jù),為決策帶來高回報(bào),終究獲得高質(zhì)量的闡發(fā)挖掘結(jié)果。二、拓展延伸:(1)網(wǎng)頁數(shù)據(jù)的采集工具有哪些?(2)簡述數(shù)據(jù)預(yù)處理的技術(shù)的必要性和任務(wù)。第4章大數(shù)據(jù)存儲(chǔ)與管理課時(shí)內(nèi)容大數(shù)據(jù)儲(chǔ)備形式與管理使用授課時(shí)間90分鐘課時(shí)2教學(xué)目標(biāo)本章首先討論數(shù)據(jù)的存儲(chǔ)介質(zhì),然后介紹常見的存儲(chǔ)模式,以及大數(shù)據(jù)時(shí)代的存儲(chǔ)管理系統(tǒng)。教學(xué)重點(diǎn)掌握數(shù)據(jù)的儲(chǔ)備形式理解并掌握大數(shù)據(jù)時(shí)代的儲(chǔ)備管理系統(tǒng)理解數(shù)據(jù)儲(chǔ)備的觀點(diǎn)和種類教學(xué)難點(diǎn)熟練掌握常用的3種數(shù)據(jù)存儲(chǔ)模式理解分布式平臺(tái)儲(chǔ)備大數(shù)據(jù)的意義和優(yōu)勢,掌握分布式文件系統(tǒng)基礎(chǔ)架構(gòu)1、教學(xué)思路:(1)介紹早期的存儲(chǔ)介質(zhì)和目前常見的數(shù)據(jù)存儲(chǔ)介質(zhì)種類及其特點(diǎn);(2)簡述數(shù)據(jù)常見的3種儲(chǔ)備形式,列舉各類儲(chǔ)備形式的優(yōu)瑕玷和適用場景;(3)在大數(shù)據(jù)時(shí)代,需要進(jìn)行存儲(chǔ)技術(shù)的變革,采用分布式平臺(tái)存儲(chǔ)大數(shù)據(jù),講解分布式文件系統(tǒng)的基礎(chǔ)架構(gòu);(4)描繪數(shù)據(jù)庫家族圖譜,講解數(shù)據(jù)庫的種類和特點(diǎn),通過數(shù)據(jù)庫供給的多種體式格局來管理數(shù)據(jù)庫里的數(shù)據(jù)。教學(xué)設(shè)計(jì)2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的研究興趣;(2)深入講解知識點(diǎn)內(nèi)容,理論與案例相結(jié)合,引入常見的數(shù)據(jù)儲(chǔ)備形式,通過豐富簡單易上手的實(shí)例,讓學(xué)生能夠切實(shí)理解和掌握大數(shù)據(jù)的存儲(chǔ)管理知識。教學(xué)內(nèi)容一、導(dǎo)入新課:在大數(shù)據(jù)時(shí)代的配景下,海量的數(shù)據(jù)整理成為了各個(gè)企業(yè)急需解決的問題。對于企業(yè)來說,數(shù)據(jù)對于戰(zhàn)略和業(yè)務(wù)繼續(xù)性都十分重要,它是業(yè)務(wù)文檔、計(jì)劃、用戶數(shù)據(jù)和財(cái)政息的積累,是任何業(yè)務(wù)基礎(chǔ)設(shè)施的核心組件。云計(jì)算技術(shù)、物聯(lián)網(wǎng)等技術(shù)快速開展,多樣化曾經(jīng)成為數(shù)據(jù)息的一項(xiàng)顯著特點(diǎn),為充分發(fā)揮息使用價(jià)值,有效儲(chǔ)備曾經(jīng)成為人們關(guān)注的熱點(diǎn)。為了有效應(yīng)對現(xiàn)實(shí)世界中復(fù)雜多樣性的大數(shù)據(jù)處理需求,需要針對不同的大數(shù)據(jù)使用特征,從多個(gè)角度、多個(gè)層次對大數(shù)據(jù)進(jìn)行儲(chǔ)備和管理。管理大數(shù)據(jù)的樞紐是制定戰(zhàn)略,以高自動(dòng)化、高牢靠、高成本效益的體式格局歸檔數(shù)據(jù)。大數(shù)據(jù)現(xiàn)象意味著企業(yè)機(jī)構(gòu)應(yīng)對大量數(shù)據(jù),以及各類數(shù)據(jù)格式的挑戰(zhàn)。多樣化作為有效體式格局而在各行各業(yè)興起,是一種涉及各類產(chǎn)品來支持?jǐn)?shù)據(jù)管理戰(zhàn)略的數(shù)據(jù)儲(chǔ)備形式。這些產(chǎn)品包括自動(dòng)化、磁盤和重復(fù)數(shù)據(jù)刪除、軟件,以及備份和歸檔。支撐這一體式格局的原則就是:特定類型的數(shù)據(jù)堅(jiān)持使用合適的儲(chǔ)備介質(zhì),在現(xiàn)實(shí)中需要一套與各類功能相匹配的解決方案。本章綜述了基于新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)管理技術(shù),分析了現(xiàn)有大數(shù)據(jù)存儲(chǔ)技術(shù)的局限性,介紹了新型存儲(chǔ)的特點(diǎn)和發(fā)展概況,總結(jié)了基于新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)架構(gòu)、基于新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)管理等方向的研究現(xiàn)狀,在此基礎(chǔ)上給出了基于新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)與管理的若干未來研究方向。針對大數(shù)據(jù)高效存儲(chǔ)與管理問題,目前除了Hadoop技術(shù)之外,學(xué)術(shù)界和工業(yè)界也提出了一些其他的設(shè)計(jì),包括以NoSQL數(shù)據(jù)庫為代表的大規(guī)模分布式數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)、基于動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dynamicrandomaccessmemory,DRAM)的內(nèi)存數(shù)據(jù)庫技術(shù)等。但現(xiàn)有的NoSQL分布式數(shù)據(jù)庫技術(shù)仍以磁盤存儲(chǔ)或者“磁盤+閃存(flashmemory)”混合存儲(chǔ)的方式存儲(chǔ)數(shù)據(jù),本質(zhì)上還是傳統(tǒng)的“CPU-DRAM-二級存儲(chǔ)”的存儲(chǔ)架構(gòu),依然存在著內(nèi)存和磁盤之間的“存儲(chǔ)墻”問題,難以從本質(zhì)上解決大數(shù)據(jù)實(shí)時(shí)存取的問題。此外,由于DRAM能耗和成本較高,也限制了其在大規(guī)模數(shù)據(jù)處理中的應(yīng)用。由此可見,如何高效地存儲(chǔ)大數(shù)據(jù)并支持實(shí)時(shí)大數(shù)據(jù)處理與分析是大數(shù)據(jù)技術(shù)發(fā)展面臨的首要問題。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。4.1數(shù)據(jù)儲(chǔ)備概述4.1.1數(shù)據(jù)的存儲(chǔ)介質(zhì)4.1.2數(shù)據(jù)的存儲(chǔ)模式4.2大數(shù)據(jù)時(shí)代的存儲(chǔ)管理系統(tǒng)4.2.1文件系統(tǒng)4.2.2分布式文件系統(tǒng)4.2.3數(shù)據(jù)庫4.2.4鍵-值數(shù)據(jù)庫4.2.5分布式數(shù)據(jù)庫4.2.6關(guān)系型數(shù)據(jù)庫4.2.7數(shù)據(jù)倉庫4.2.8文檔數(shù)據(jù)庫4.2.9圖形數(shù)據(jù)庫4.2.10云儲(chǔ)備三、討論問題:4-1關(guān)系型存儲(chǔ)系統(tǒng)有哪些?4-2非關(guān)系型存儲(chǔ)系統(tǒng)有哪些,它們的特點(diǎn)是什么?4-3描畫你對云儲(chǔ)備的認(rèn)識。一、歸納小結(jié):本章深入講解大數(shù)據(jù)存儲(chǔ)與管理,重點(diǎn)介紹大數(shù)據(jù)時(shí)代數(shù)據(jù)庫存儲(chǔ)技術(shù)的發(fā)展和變化,讓初學(xué)者了解大數(shù)據(jù)時(shí)代的數(shù)據(jù)儲(chǔ)備和管理技術(shù)。目前原有的儲(chǔ)備形式逐漸跟不上時(shí)代發(fā)展的步伐,無法滿足大數(shù)據(jù)時(shí)代的需求,導(dǎo)致息處理技術(shù)無法承載息的負(fù)荷量。這就需要對數(shù)據(jù)的存儲(chǔ)技術(shù)和存儲(chǔ)模式進(jìn)行創(chuàng)新與研究,跟上數(shù)字化儲(chǔ)備的技術(shù)的開展步伐,給用戶供給一個(gè)具有高質(zhì)量的數(shù)據(jù)儲(chǔ)備體驗(yàn)。思考及作業(yè)二、拓展延伸:(1)常用的數(shù)據(jù)存儲(chǔ)和管理手段有哪些?(2)研究并討論華為數(shù)據(jù)存儲(chǔ)與智能管理的優(yōu)點(diǎn)。(3)管理大數(shù)據(jù)儲(chǔ)備有哪些技巧?第5章大數(shù)據(jù)計(jì)算框架課時(shí)內(nèi)容大數(shù)據(jù)計(jì)算框架授課時(shí)間90分鐘課時(shí)2本章討論批處理、流計(jì)算、交互式分析3種類別的框架,然后簡要介紹大數(shù)據(jù)計(jì)算框架的一些開展趨勢,并詳細(xì)介紹MapReduce的批處理框架和Spark基于內(nèi)存的混教學(xué)目標(biāo)合計(jì)算框架。教學(xué)重點(diǎn)理解并掌握MapReduce的計(jì)算模型、資源管理框架和編程特點(diǎn)掌握Spark的基本知識、基本特點(diǎn)和架框道理理解處理框架依照所處理的數(shù)據(jù)狀態(tài)分為批處理框架、流式處理框架及交互式處理框架3種計(jì)算框架教學(xué)難點(diǎn)掌握MapReduce的計(jì)算模型、資源管理框架和編程特點(diǎn)理解并掌握Spark的基本知識、生態(tài)系統(tǒng)、基本特點(diǎn)和架框道理1、教學(xué)思路:(1)對大數(shù)據(jù)的分布式計(jì)算框架進(jìn)行詳細(xì)介紹(在實(shí)際使用中,大數(shù)據(jù)主要涉及3種計(jì)算框架,包括批處理、實(shí)時(shí)流式計(jì)算、交互式闡發(fā)框架);(2)詳細(xì)介紹MapReduce的批處理框架和Spark基于內(nèi)存的混合計(jì)算框架。教學(xué)設(shè)計(jì)2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的研究興趣;(2)深入講解知識點(diǎn)內(nèi)容,理論與案例相結(jié)合,引入MapReduce的批處理框架和Spark基于內(nèi)存的混合計(jì)算框架的相關(guān)理論知識,讓學(xué)生能夠切實(shí)理解并掌握大數(shù)據(jù)計(jì)算框架的基本知識。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著大數(shù)據(jù)、云計(jì)算的到來,各類業(yè)務(wù)都入手下手依賴大數(shù)據(jù),包括各互聯(lián)網(wǎng)公司也對大數(shù)據(jù)有了史無前例的重視,目前的數(shù)據(jù)處理系統(tǒng)主要包括批處理系統(tǒng)和實(shí)時(shí)處理系統(tǒng),并且這些業(yè)務(wù)愈來愈請務(wù)實(shí)時(shí)性,客戶使用云效勞可以避免復(fù)雜的系統(tǒng)設(shè)計(jì)和設(shè)備的多次購買費(fèi)用。計(jì)算機(jī)的基本工作就是處理數(shù)據(jù),包括磁盤文件中的數(shù)據(jù),通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)流或數(shù)據(jù)包,數(shù)據(jù)庫中的布局化數(shù)據(jù)等。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)獲得愈來愈廣泛的使用,數(shù)據(jù)規(guī)模不斷增長,TB、PB量級成為常態(tài),對數(shù)據(jù)的處理已無法由單臺(tái)計(jì)算機(jī)完成,而只能由多臺(tái)機(jī)器共同承擔(dān)計(jì)算任務(wù)。而在分布式環(huán)境中進(jìn)行大數(shù)據(jù)處理,除了與儲(chǔ)備系統(tǒng)打交道外,還涉及計(jì)算任務(wù)的分工,計(jì)算負(fù)荷的分配,計(jì)算機(jī)之間的數(shù)據(jù)遷移等工作,并且要考慮計(jì)算機(jī)或網(wǎng)絡(luò)發(fā)生妨礙時(shí)的數(shù)據(jù)安全,情況要復(fù)雜得多。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)通常都是持續(xù)不斷動(dòng)態(tài)產(chǎn)生的。在很多場合,數(shù)據(jù)需要在非常短的時(shí)間內(nèi)獲得處理,并且還要考慮容錯(cuò)、擁塞控制等問題,避免數(shù)據(jù)遺漏或重復(fù)計(jì)算。流計(jì)算框架則是針對這一類問題的解決方案。理解大數(shù)據(jù)的處理框架負(fù)責(zé)對系統(tǒng)中的數(shù)據(jù)進(jìn)行計(jì)算,例如處理文件系統(tǒng)中儲(chǔ)備的數(shù)據(jù),或處理剛剛從系統(tǒng)中獲取的流式數(shù)據(jù)。本章主要分析了當(dāng)前的計(jì)算框架,以此構(gòu)建基于云服務(wù)的大數(shù)據(jù)分析系統(tǒng),使其具有良好的擴(kuò)展性、兼容性及大數(shù)據(jù)處理引擎的自適應(yīng)性選擇。處理框架按照所處理的數(shù)據(jù)狀態(tài)分為批處理框架、流式處理框架及交互式處理框架。詳細(xì)介紹了MapReduce的批處理框架和Spark基于內(nèi)存的混合計(jì)算框架,分別講解MapReduce的計(jì)算模型、資源管理框架和編程特點(diǎn),以及Spark的基本知識、生態(tài)系統(tǒng)、基本特點(diǎn)和架框原理。Hadoop最初主要包含分布式文件系統(tǒng)HDFS和計(jì)算框架MapReduce兩部分,是從Nutch中獨(dú)立出來的項(xiàng)目。在2.0版本中,又把資源管理和任務(wù)調(diào)度功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce那樣運(yùn)行在Hadoop之上。與之前的分布式計(jì)算框架相比,Hadoop隱藏了很多繁瑣的細(xì)節(jié),如容錯(cuò)、負(fù)載均衡等,更便于使用。Hadoop也具有很強(qiáng)的橫向擴(kuò)展能力,可以很容易地把新計(jì)算機(jī)接入到集群中參與計(jì)算。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。5.1計(jì)算框架5.1.1批處理框架5.1.2流式處理框架5.1.3交互式處理框架5.2MapReduce5.2.1MapReduce編程的特點(diǎn)5.2.2MapReduce的計(jì)算模型5.2.3MapReduce的資源管理框架5.3Spark5.3.1Spark的基本知識5.3.2Spark的生態(tài)系統(tǒng)5.3.3Spark的架構(gòu)與原理5.3.4SparkRDD的基本知識三、討論問題:5-1大數(shù)據(jù)的計(jì)算框架有哪幾類?5-2MapReduce的核心思想是什么?5-3請簡樸圖示MapReduce的基本工作道理。5-4MRv1與YARN的不同之處有哪些?5-5Spark相比Hadoop的優(yōu)勢在哪里?5-6Spark大數(shù)據(jù)平臺(tái)涵蓋了哪些有用的大數(shù)據(jù)分析工具?一、歸納小結(jié):本章闡述了在實(shí)際使用中,大數(shù)據(jù)主要涉及的3種計(jì)算框架,包括批處理、實(shí)時(shí)流式計(jì)算、交互式分析框架,然后圖示MapReduce的基本工作原理,重點(diǎn)介紹了MapReduce的核心思想、計(jì)算模型、資源管理框架和編程特點(diǎn),以及Spark的基本知識、生態(tài)系統(tǒng)、基本特點(diǎn)和架框原理。簡單分析Spark相比Hadoop的優(yōu)勢,介紹了Spark大數(shù)據(jù)平臺(tái)所涵蓋的大數(shù)據(jù)分析工具。思考及作業(yè)二、拓展延伸:請思考并討論Hadoop技術(shù)在移動(dòng)支付行業(yè)的應(yīng)用都有哪些。第6章數(shù)據(jù)挖掘課時(shí)內(nèi)容數(shù)據(jù)挖掘授課時(shí)間135分鐘課時(shí)3本章介紹大數(shù)據(jù)的樞紐核心技術(shù)——數(shù)據(jù)挖掘,重點(diǎn)對經(jīng)常使用的數(shù)據(jù)挖掘算法進(jìn)行介紹,為讀者未來的深入研究打下基礎(chǔ)。數(shù)據(jù)挖掘(DataMining,DM)是一門多學(xué)科交叉應(yīng)教學(xué)目標(biāo)用技術(shù),對各行各業(yè)的決策支持活動(dòng)起著至關(guān)重要的作用。本章首先介紹數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘系統(tǒng)的組成,以及數(shù)據(jù)挖掘的對象與價(jià)值,然后介紹數(shù)據(jù)挖掘的常用技術(shù)與工具,最后簡單介紹數(shù)據(jù)挖掘的典型應(yīng)用。教學(xué)重點(diǎn)理解并掌握數(shù)據(jù)挖掘的概念和典型的數(shù)據(jù)挖掘系統(tǒng)組成掌握數(shù)據(jù)挖掘經(jīng)常使用的技術(shù)與工具理解并掌握數(shù)據(jù)挖掘的觀點(diǎn)和系統(tǒng)組成并體會(huì)其作用掌握數(shù)據(jù)準(zhǔn)備及挖掘的一般過程掌握數(shù)據(jù)挖掘的3種技術(shù)教學(xué)難點(diǎn)熟習(xí)數(shù)據(jù)挖掘經(jīng)常使用的5種工具及特點(diǎn)了解數(shù)據(jù)挖掘的典型應(yīng)用1、教學(xué)思路:(1)引導(dǎo)學(xué)生培養(yǎng)從數(shù)據(jù)挖掘角度闡發(fā)數(shù)據(jù)的意識,使用統(tǒng)計(jì)學(xué)方法尋找蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律,借助它解決研究和生活中的實(shí)際問題;(2)通過圖示知識挖掘的過程,引入數(shù)據(jù)挖掘的系統(tǒng)組成;(3)介紹數(shù)據(jù)挖掘的數(shù)據(jù)類型,分別從技術(shù)價(jià)值、商業(yè)價(jià)值、行業(yè)價(jià)值、社會(huì)價(jià)值4個(gè)方面,對應(yīng)著“三重門”即“交易門”“交互門”“公開市場門”來具體探討數(shù)據(jù)挖掘的價(jià)值;(4)分析講解數(shù)據(jù)挖掘常用的3種技術(shù):關(guān)聯(lián)分析、分類分析、聚類分析,以及各種技術(shù)的優(yōu)缺點(diǎn);(5)介紹數(shù)據(jù)挖掘常用的5種工具:RapidMiner、WEKA、Orange、R語言、Mining,以及各類數(shù)據(jù)挖掘的特點(diǎn);(6)論說數(shù)據(jù)挖掘在社交媒體、市場營銷、科學(xué)研究、電、教育、醫(yī)學(xué)等領(lǐng)域的典型使用,闡明數(shù)據(jù)挖掘技術(shù)對現(xiàn)今社會(huì)的開展有教學(xué)設(shè)計(jì)著不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘技術(shù)中存在的問題,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的質(zhì)量和效率,就成為數(shù)據(jù)挖掘技術(shù)進(jìn)步的方向。2、教學(xué)手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發(fā)學(xué)員的研究興趣;(2)深入講解知識點(diǎn)內(nèi)容,理論與案例相結(jié)合,在教學(xué)中,為了讓學(xué)生深刻體會(huì)數(shù)據(jù)挖掘的意義和價(jià)值,鼓勵(lì)學(xué)生對數(shù)據(jù)進(jìn)行多角度加工與闡發(fā),找到規(guī)律或有用的息,用恰當(dāng)?shù)姆绞街庇^地表達(dá)出來,學(xué)會(huì)搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話,讓數(shù)據(jù)挖掘更好地效勞于生活與研究。教學(xué)內(nèi)容一、導(dǎo)入新課:隨著計(jì)算機(jī)與息技術(shù)的飛速發(fā)展和深入普及,來自商業(yè)、醫(yī)療、科學(xué)、社會(huì)及日常生活中無處不在的數(shù)據(jù),正以指數(shù)的方式無限增長,各行各業(yè)的數(shù)據(jù)規(guī)模已從GB級別上升到TB、PB級別。面臨如此快速擴(kuò)張的數(shù)據(jù)海洋,如何有效利用這一豐富數(shù)據(jù)中蘊(yùn)含的寶藏,已成為人們越來越關(guān)注的焦點(diǎn)。面對全世界如此巨大的數(shù)據(jù)資源,傳統(tǒng)的數(shù)據(jù)闡發(fā)工具和方法,曾經(jīng)無法有效地為決策者供給其決策支持所需要的相關(guān)知識,但各個(gè)行業(yè)又面對著將這些數(shù)據(jù)資源轉(zhuǎn)換為有用的息和知識的迫切需求。人們期望有這樣一種技術(shù),能從這些大量數(shù)據(jù)中去粗求精、去偽求真。這種期望和需求使從數(shù)據(jù)庫中挖掘息的核心技術(shù)——數(shù)據(jù)挖掘應(yīng)運(yùn)而生??梢赃@樣說,數(shù)據(jù)挖掘其實(shí)就是從大量數(shù)據(jù)中找出對人們有用的息的進(jìn)程。數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和使用最活躍的分支。二、內(nèi)容大綱:具體可結(jié)合本章的PPT課件進(jìn)行配合講解。6.1什么是數(shù)據(jù)挖掘6.2數(shù)據(jù)挖掘的對象與價(jià)值6.2.1數(shù)據(jù)挖掘的對象6.2.2數(shù)據(jù)挖掘的價(jià)值6.3數(shù)據(jù)挖掘常用的技術(shù)6.3.1關(guān)聯(lián)分析6.3.2分類分析6.3.3聚類分析6.4數(shù)據(jù)挖掘經(jīng)常使用的工具6.4.1RapidMiner6.4.2WEKA6.4.3Orange6.4.4R語言6.4.5Mining6.5數(shù)據(jù)挖掘的典型使用6.5.1社交媒體領(lǐng)域的使用6.5.2市場營銷領(lǐng)域的應(yīng)用6.5.3科學(xué)研究領(lǐng)域的使用6.5.4電領(lǐng)域的應(yīng)用6.5.5教育領(lǐng)域的應(yīng)用6.5.6醫(yī)學(xué)領(lǐng)域的應(yīng)用三、討論問題:6-1數(shù)據(jù)挖掘的概念。6-2數(shù)據(jù)挖掘常用的技術(shù)有哪3種?其定義分別是什么?6-3關(guān)聯(lián)分析的步驟有哪幾個(gè)?6-4分類分析與聚類分析的區(qū)別有哪些?6-5數(shù)據(jù)挖掘有哪些經(jīng)常使用的工具?各有甚么優(yōu)瑕玷?一、歸納小結(jié):數(shù)據(jù)挖掘的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價(jià)值與需求的數(shù)據(jù)庫,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 借款合同范本中介版
- 云南購房合同范本
- 從化學(xué)校食堂承包合同范本
- 保潔公司人員合同范本
- pu線條安裝合同范本
- fob合同范本日文
- 包架子合同范本
- 公司代管合同范本
- 共同經(jīng)營餐廳合同范本
- 三方合作民宿協(xié)議合同范本
- 企業(yè)承包經(jīng)營合同范本
- 2025年01月公安部第三研究所公開招聘人民警察筆試筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 光纜線路施工安全協(xié)議書范本
- 《我國國有企業(yè)股權(quán)融資效率實(shí)證研究》相關(guān)概念及國內(nèi)外文獻(xiàn)綜述2600字
- 2025-2030全球鋰電池用隔膜行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年湖南交通職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 成本合約規(guī)劃培訓(xùn)
- 《中央集成式商用車電驅(qū)動(dòng)橋總成技術(shù)要求及臺(tái)架試驗(yàn)方法》
- 交通法規(guī)教育課件
- 小學(xué)校長任期五年工作目標(biāo)(2024年-2029年)
- 2022-2024年浙江中考英語試題匯編:閱讀理解(說明文)教師版
評論
0/150
提交評論