大數(shù)據(jù)技術(shù)導(dǎo)論 教案全套 程顯毅 第1-8章 緒論、大數(shù)據(jù)生態(tài)-大數(shù)據(jù)安全_第1頁
大數(shù)據(jù)技術(shù)導(dǎo)論 教案全套 程顯毅 第1-8章 緒論、大數(shù)據(jù)生態(tài)-大數(shù)據(jù)安全_第2頁
大數(shù)據(jù)技術(shù)導(dǎo)論 教案全套 程顯毅 第1-8章 緒論、大數(shù)據(jù)生態(tài)-大數(shù)據(jù)安全_第3頁
大數(shù)據(jù)技術(shù)導(dǎo)論 教案全套 程顯毅 第1-8章 緒論、大數(shù)據(jù)生態(tài)-大數(shù)據(jù)安全_第4頁
大數(shù)據(jù)技術(shù)導(dǎo)論 教案全套 程顯毅 第1-8章 緒論、大數(shù)據(jù)生態(tài)-大數(shù)據(jù)安全_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

教案(首頁)課程名稱云計(jì)算與大數(shù)據(jù)技術(shù)總課時(shí)32周課時(shí)2課程性質(zhì)專業(yè)課學(xué)分2理論課:16課時(shí)實(shí)踐課:16課時(shí)任課教師程顯毅授課對(duì)象計(jì)算機(jī)相關(guān)專業(yè)基本教材和主要參考資料教材:大數(shù)據(jù)導(dǎo)論,程顯毅主編,機(jī)械工業(yè)出版社,2019.4參考書:大數(shù)據(jù)技術(shù)基礎(chǔ)李春芳,石民勇著機(jī)械工業(yè)出版社,2021.6課程目標(biāo)和要求1.知識(shí)目標(biāo)1)了解大數(shù)據(jù)的主要來源,掌握大數(shù)據(jù)的特點(diǎn)和大數(shù)據(jù)的處理流程。2)樹立正確的大數(shù)據(jù)思維觀。3)了解Hadoop主要核心模塊HDFS和MapReduce,并了解其他模塊的功能。4)通過詞頻統(tǒng)計(jì)案例了解Hadoop的工作機(jī)制。5)掌握Hive基本操作。6)掌握Hbase基本操作。7)了解經(jīng)典大數(shù)據(jù)應(yīng)用場(chǎng)景:醫(yī)療大數(shù)據(jù)、交通大數(shù)據(jù)、教育大數(shù)據(jù)、電商大數(shù)據(jù)。2.能力目標(biāo)1)具備良好的編程能力。2)掌握大數(shù)據(jù)基本技術(shù)與應(yīng)用,使大數(shù)據(jù)能夠?yàn)槲宜谩?)具有云計(jì)算運(yùn)維能力4)具有自主學(xué)習(xí)、自我發(fā)展的基本能力,能夠適應(yīng)不斷變化的未來大數(shù)據(jù)技術(shù)發(fā)展的需求。5)分析和解決問題的能力。?6)獲得適應(yīng)未來崗位轉(zhuǎn)變的遷移能力。3.思政目標(biāo)1)理解全量思維源自量變到質(zhì)變,大事業(yè)都是從點(diǎn)滴小事情積累起來的。2)理解相關(guān)思維是善于抓機(jī)遇,良機(jī)只有一次,錯(cuò)過就不再來。3)理解容錯(cuò)思維源理解和大度,學(xué)習(xí)別人的優(yōu)點(diǎn),完善自身。4)理解數(shù)據(jù)分析源自發(fā)現(xiàn)人生價(jià)值,在有限生命中實(shí)現(xiàn)無限價(jià)值的人生。5)理解數(shù)據(jù)敏感源自用數(shù)據(jù)講故事,用數(shù)據(jù)展現(xiàn)祖國(guó)的發(fā)展,感受祖國(guó)的強(qiáng)大。6)理解分布式處理源自協(xié)作,合作可以充實(shí)你的人生。7)理解數(shù)據(jù)清洗源自質(zhì)量第一,保證在激烈競(jìng)爭(zhēng)中利于不敗之地。8)理解業(yè)務(wù)理解源自知己知彼,莫愁前路無知己,天下誰人不識(shí)君。9)理解數(shù)據(jù)安全源自責(zé)任重于泰山,少年智則國(guó)智,少年強(qiáng)則國(guó)強(qiáng)。教學(xué)重點(diǎn)和難點(diǎn)重點(diǎn):hadoop,hbase,hive,flume,spark,zookeeper安裝;HDFS,MapReduce,HBase,Hive操作。hadoop,hbase,hive,flume,spark,zookeeper基本結(jié)構(gòu)和工作原理;數(shù)據(jù)分析全過程:數(shù)據(jù)清洗,數(shù)據(jù)變換,數(shù)據(jù)建模,模型評(píng)估,分析報(bào)告撰寫等。難點(diǎn):JAVA編程,數(shù)據(jù)分析報(bào)告撰寫。授課周次第1周授課時(shí)間2021年9月2日課程章節(jié)模塊1:大數(shù)據(jù)概論1.1揭秘大數(shù)據(jù)教學(xué)目的1、了解大數(shù)據(jù)技術(shù)產(chǎn)生的歷史必然;2、理解大數(shù)據(jù)的特征;3、理解大數(shù)據(jù)處理流程;4、理解大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)之間的相互關(guān)系;5、理解大數(shù)據(jù)思維的基本原理;內(nèi)容提要及板書設(shè)計(jì)自我介紹、點(diǎn)名認(rèn)識(shí)學(xué)生;課程介紹、對(duì)學(xué)生的要求。1.揭秘大數(shù)據(jù)2.大數(shù)據(jù)產(chǎn)生的歷史必然3.大數(shù)據(jù)的概念及特征、4.大數(shù)據(jù)帶來的變革5.大數(shù)據(jù)思維重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):大數(shù)據(jù)4V特征,八大變革,四種科學(xué)研究范式難點(diǎn):大數(shù)據(jù)思維教學(xué)內(nèi)容時(shí)間分配序號(hào)第1次教學(xué)環(huán)節(jié)時(shí)間分配1課程導(dǎo)入(三國(guó)故事)1521.1大數(shù)據(jù)產(chǎn)生2031.2大數(shù)據(jù)特征2041.3大數(shù)據(jù)思維305小結(jié)5教學(xué)手段理論教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)作業(yè)完成方式書面(√)電子()教學(xué)后記全量思維源自量變到質(zhì)變,大事業(yè)都是從點(diǎn)滴小事情積累起來的。容錯(cuò)思維源自理解和大度,學(xué)習(xí)別人的優(yōu)點(diǎn),完善自身。相關(guān)思維源自善于抓機(jī)遇,良機(jī)只有一次,錯(cuò)過就不再來。大數(shù)據(jù)讓社會(huì)變得透明,折射出的哲理:想要了解世界,先要了解自己注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第1次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄新課導(dǎo)入(15’)一、自我介紹、點(diǎn)名認(rèn)識(shí)學(xué)生;二、課程介紹、對(duì)學(xué)生的要求:1、課程定位搭建起通向“大數(shù)據(jù)知識(shí)空間”的橋梁和紐帶構(gòu)建大數(shù)據(jù)知識(shí)體系、闡明大數(shù)據(jù)基本原理引導(dǎo)大數(shù)據(jù)初級(jí)實(shí)踐、了解大數(shù)據(jù)相關(guān)應(yīng)用2學(xué)分32學(xué)時(shí),理論實(shí)踐比2:1。2、課程內(nèi)容理論7個(gè)模塊模塊1:大數(shù)據(jù)概述模塊2:大數(shù)據(jù)生態(tài)系統(tǒng)模塊3:大數(shù)據(jù)存儲(chǔ)模塊4:大數(shù)據(jù)分析模塊5:大數(shù)據(jù)可視化模塊6:大數(shù)據(jù)應(yīng)用模塊7:大數(shù)據(jù)安全實(shí)踐4個(gè)模塊(4章)模塊1:Hadoop安裝與操作模塊2:Hbase安裝與操作模塊3:基于R語言數(shù)據(jù)分析模塊4:基于R語言數(shù)據(jù)可視化3、考核方式考察,以學(xué)生動(dòng)手考核作為評(píng)價(jià)依據(jù)。學(xué)生期末總評(píng)成績(jī):平日成績(jī)30%+期末考試成績(jī)70%平日成績(jī)考核因素:出勤率、上課紀(jì)律、回答問題情況、作業(yè)情況等;根據(jù)多元化評(píng)價(jià)原則,作業(yè)完成情況采用個(gè)人自評(píng)、小組互評(píng)、教師點(diǎn)評(píng)等方式。期末考試(半開卷)4、課堂組織通過分組,每次上課按組就座,這樣在授課或者考勤過程中,都以小組為單位進(jìn)行。5、上課要求課堂上要注意聽課,禁止說話、睡覺、玩手機(jī)等與學(xué)習(xí)無關(guān)的事情;要攜帶教材、筆;杜絕遲到、早退、曠課等現(xiàn)象,有事情要請(qǐng)假(辦理好對(duì)應(yīng)手續(xù)),缺課超過1/3課時(shí)的學(xué)生將取消考試資格;及時(shí)上交作業(yè)等等。課程學(xué)習(xí)(70’)模塊1:大數(shù)據(jù)概述1.1大數(shù)據(jù)讓社會(huì)變得透明【看視頻披薩服務(wù)】通過這個(gè)視頻,大家看到,本來是一個(gè)很小的事件,訂購披薩,牽涉到用戶的銀行卡信息、醫(yī)療信息、通話信息、定位信息、訂酒店信息、家庭信息等。結(jié)論:大數(shù)據(jù)讓所有與之相關(guān)的數(shù)據(jù)進(jìn)行關(guān)聯(lián),大數(shù)據(jù)讓社會(huì)變得透明、讓人變得透明。折射出的哲理,想要了解世界,先要了解自己,越是了解自己的個(gè)性和需要,就越不容易被外界影響。了解自己則更能找到自己合適的位置。1.2七次信息革命和三次信息浪潮第七次信息革命不是在技術(shù)上、機(jī)器設(shè)備上、軟件上或速度上的一場(chǎng)革命,而是一場(chǎng)“概念”上的革命。以往50年信息技術(shù)的重點(diǎn)在“技術(shù)”上,目的在于提升信息傳播范圍、傳播能力和傳播效率。而新的信息革命的重點(diǎn)將會(huì)在“信息”上。第一次浪潮,信息處理;第二次浪潮,信息傳輸?shù)谌卫顺?,信息爆?.數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨數(shù)據(jù)庫網(wǎng)絡(luò)傳感器2.云計(jì)算是大數(shù)據(jù)誕生的前提和必要條件大型機(jī)客戶服務(wù)模式Web模式云IaaS—>PaaS—>SaaS云關(guān)鍵技術(shù):分布式計(jì)算、分布式存儲(chǔ)、多租戶、虛擬化云計(jì)算本質(zhì):從架構(gòu)到資源全面彈性。1.3

大數(shù)據(jù)的概念及特征一、大數(shù)據(jù)畫像1、大數(shù)據(jù)不一定大,強(qiáng)調(diào)關(guān)聯(lián)2、強(qiáng)調(diào)時(shí)效性3、跨領(lǐng)域的數(shù)據(jù)融合(外賣的例子)二、大數(shù)據(jù)描述大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間和空間超過可容忍程度的數(shù)據(jù)集。三、大數(shù)據(jù)4V特點(diǎn)價(jià)值:約翰.奈斯比特在他的成名作《大趨勢(shì)》中層提到:人類正在被信息淹沒,缺饑渴于知識(shí)。1.4大數(shù)據(jù)帶來的變革一、傳圖思維與大數(shù)據(jù)思維二、思維變革(1)全量思維:全量思維源自量變到質(zhì)變,大事業(yè)都是從點(diǎn)滴小事情積累起來的。(2)容錯(cuò)思維容錯(cuò)思維源自理解和大度,學(xué)習(xí)別人的優(yōu)點(diǎn),完善自身。(3)相關(guān)思維相關(guān)思維源自善于抓機(jī)遇,良機(jī)只有一次,錯(cuò)過就不再來??偨Y(jié)(5’)1、大數(shù)據(jù)的本質(zhì)還不在于“大”,強(qiáng)調(diào)的是數(shù)據(jù)之間的關(guān)聯(lián)。2、大數(shù)據(jù)讓社會(huì)變得透明,折射出的哲理:想要了解世界,先要了解自己3、大數(shù)據(jù)思維的轉(zhuǎn)變。約翰.奈斯比特在他的成名作《大趨勢(shì)》中層提到:人類正在被信息淹沒,缺饑渴于知識(shí)。當(dāng)我們借助手機(jī)讓世界的每一個(gè)角落變得觸手可及、讓溝通變得毫無障礙、讓生活變得五彩繽紛的時(shí)候,我們必須承擔(dān)為此付出的代價(jià)——讓你以一種赤裸甚至透明的狀態(tài)呈現(xiàn)在世界面前。舉個(gè)例子,你早晨八點(diǎn)從A地打車到B地,中午再點(diǎn)個(gè)外賣,下午六點(diǎn)再打車回到A地。簡(jiǎn)單的一天生活,你的信息已經(jīng)被大數(shù)據(jù)掌握,根據(jù)你出行的時(shí)間和地點(diǎn)以及生活習(xí)慣整理推斷出你家的位置,你公司的位置,你喜歡吃什么。包括你在互聯(lián)網(wǎng)上瀏覽過搜索過的一些資訊,都會(huì)在電子商務(wù)平臺(tái)上給你推送相關(guān)的商品。很多視頻網(wǎng)站的會(huì)員,甚至通過判斷你手機(jī)的型號(hào),給你推送的不一樣的會(huì)員價(jià)格。比方說同一個(gè)愛奇藝年費(fèi)會(huì)員,用普通的安卓手機(jī)充值就是198元,使用蘋果手機(jī)充值就變成了268元。這種通過大數(shù)據(jù)進(jìn)行的價(jià)格歧視,需要互聯(lián)網(wǎng)的監(jiān)管部門對(duì)其進(jìn)行監(jiān)管。使用音樂軟件聽音樂,一首非常冷門的免費(fèi)音樂,單曲循環(huán)多次,一段時(shí)間后你就發(fā)現(xiàn)這首歌曲竟然開始收費(fèi)了,或者需要充值會(huì)員才可以繼續(xù)聽。要想改變這一狀況,唯一的辦法就是返璞歸真,不用手機(jī),但是,你愿意嗎?可以說,在大數(shù)據(jù)時(shí)代,一切事物都是透明的。哪怕是信息時(shí)代留給人們的遮羞布,也被大數(shù)據(jù)時(shí)代下手機(jī)的“出賣”無情剝奪了,人成為名副其實(shí)的“透明人”。目前大數(shù)據(jù)的發(fā)展依然存在諸多挑戰(zhàn),包括七大方面的挑戰(zhàn):業(yè)務(wù)部門沒有清晰的大數(shù)據(jù)需求導(dǎo)致數(shù)據(jù)資產(chǎn)逐漸流失;企業(yè)內(nèi)部數(shù)據(jù)孤島嚴(yán)重,導(dǎo)致數(shù)據(jù)價(jià)值不能充分挖掘;數(shù)據(jù)可用性低,數(shù)據(jù)質(zhì)量差,導(dǎo)致數(shù)據(jù)無法利用;數(shù)據(jù)相關(guān)管理技術(shù)和架構(gòu)落后,導(dǎo)致不具備大數(shù)據(jù)處理能力;數(shù)據(jù)安全能力和防范意識(shí)差,導(dǎo)致數(shù)據(jù)泄露;大數(shù)據(jù)人才缺乏導(dǎo)致大數(shù)據(jù)工作難以開展;大數(shù)據(jù)越開放越有價(jià)值,但缺乏大數(shù)據(jù)相關(guān)的政策法規(guī),導(dǎo)致數(shù)據(jù)開放和隱私之間難以平衡,也難以更好的開放。但是像可樂貸這樣的互聯(lián)網(wǎng)金融平臺(tái),走在行業(yè)的前沿,緊跟大數(shù)據(jù)步伐,才是真正的好平臺(tái)。

討論,理解大數(shù)據(jù)讓社會(huì)變得透明大數(shù)據(jù)的本質(zhì)還不在于“大”,而是以嶄新的思維和技術(shù)去分析海量數(shù)據(jù),揭示其中隱藏的人類行為等模式,由此創(chuàng)造新產(chǎn)品和服務(wù),或是預(yù)測(cè)未來趨勢(shì)。大數(shù)據(jù)思維的轉(zhuǎn)變授課周次第2周授課時(shí)間2021年9月9日課程章節(jié)第2次課:第1章概論1.2

Linux系統(tǒng)概述教學(xué)目的第2次課:1、熟練掌握基本的Linux操作命令內(nèi)容提要及板書設(shè)計(jì)第2次課:1.2Linux系統(tǒng)概述:Linux版本、Linux系統(tǒng)目錄、Linux命令重點(diǎn)、難點(diǎn)及解決方案第2次課:重點(diǎn):Linux常用命令難點(diǎn):tar命令,權(quán)限設(shè)置命令chmod教學(xué)內(nèi)容時(shí)間分配序號(hào)第2次教學(xué)環(huán)節(jié)時(shí)間分配1Linux簡(jiǎn)介152Linux目錄結(jié)構(gòu)203Linux常用命令204實(shí)驗(yàn)報(bào)告1305小結(jié)5教學(xué)手段第1次課:理論第2次課:上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)第2次課:實(shí)驗(yàn)報(bào)告1作業(yè)完成方式書面(√)電子()教學(xué)后記正視問題需要勇氣,需要肚量,需要實(shí)事求是的態(tài)度,說到底是一種責(zé)任。Windows系統(tǒng)的高普及率,帶動(dòng)了我國(guó)信息化技術(shù)發(fā)展,人民出行、溝通交流變得更加方便。但是,在這些“更加便利”的背后,也給我們種下了可怕的信息炸彈。這顆“炸彈”覆蓋程度是前所未有的,世界局勢(shì)一旦發(fā)生變化,爆發(fā)信息戰(zhàn)爭(zhēng)對(duì)我國(guó)的打擊將是難以想象的。試想,系統(tǒng)被入侵后工廠設(shè)備突然癱瘓無法生產(chǎn);供電設(shè)施停機(jī)大面積停電,影響地面所有通信設(shè)施;醫(yī)院掛號(hào)排隊(duì)、繳費(fèi)終端癱瘓導(dǎo)致病人無法得到及時(shí)的救治等等。這些信息攻擊案例在國(guó)外其實(shí)已經(jīng)發(fā)生過,而且在某一程度上容易造成社會(huì)恐慌。所以,在信息系統(tǒng)領(lǐng)域我們急需解決操作系統(tǒng)的依賴性,或盡可能擺脫單一系統(tǒng)的壟斷性。注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第2次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄導(dǎo)入新課【播放國(guó)產(chǎn)操作的未來發(fā)展視頻】Linux是一種操作系統(tǒng),操作系統(tǒng)在計(jì)算機(jī)應(yīng)用起著重要作用,目前多數(shù)人還是在使用windows。國(guó)產(chǎn)操作系統(tǒng)主要有中興新?點(diǎn),麒麟,統(tǒng)信等,但是市場(chǎng)實(shí)際占有率?常低。影響?個(gè)操作系統(tǒng)市場(chǎng)占有率的重要原因??就是操作系統(tǒng)的?態(tài)問題,在國(guó)產(chǎn)操作系統(tǒng)上很難找到適配的專業(yè)性軟件。舉個(gè)簡(jiǎn)單的例?,例如需要使??業(yè)設(shè)計(jì)等專業(yè)領(lǐng)域軟件的?戶因?yàn)閲?guó)產(chǎn)操作系統(tǒng)缺乏此類軟件從?選擇棄?國(guó)產(chǎn)系統(tǒng),?國(guó)產(chǎn)操作系統(tǒng)?戶較少?導(dǎo)致軟件?商不太愿意投??量資?去研發(fā)軟件。畢竟軟件?商也是要需要盈利的。所以如果沒有?個(gè)健康良好,能夠讓雙?互惠互利的?態(tài)環(huán)境,相信國(guó)產(chǎn)操作系統(tǒng)會(huì)很難?的下去。國(guó)家現(xiàn)在也逐漸出臺(tái)?些政策來扶持我們的國(guó)產(chǎn)操作系統(tǒng)發(fā)展,要求?些黨政企單位使?國(guó)產(chǎn)操作系統(tǒng),提??戶量,吸引更多軟件?商去研發(fā)適配軟件,逐步替代windows和蘋果等系統(tǒng)。由于Linux是開源,可以二次開發(fā),我們學(xué)習(xí)Linux的目的就是為國(guó)產(chǎn)操作系統(tǒng)的研發(fā)儲(chǔ)備人才。新課講解模塊1:大數(shù)據(jù)概述1.6Linux(1)Linux版本在Linux系統(tǒng)各個(gè)發(fā)行版中,CentOS系統(tǒng)和Ubuntu系統(tǒng)在服務(wù)端和桌面端使用占比最高,網(wǎng)絡(luò)上資料最是齊全,所以我們建議使用CentOS6.4系統(tǒng)或UbuntuLTS14.04。一般來說,如果要做服務(wù)器,我們選擇CentOS或者UbuntuServer;如果做桌面系統(tǒng),我們選擇UbuntuDesktop。但是在學(xué)習(xí)Hadoop方面,雖然兩個(gè)系統(tǒng)沒有多大區(qū)別,但是我們強(qiáng)烈推薦新手讀者使用CentOS操作系統(tǒng)。虛擬機(jī)安裝:/sw-search-sp/soft/08/15321/VirtualBox_061_104061_Win.1448355141.exe(2)Linux目錄結(jié)構(gòu)

(3)文本編輯器vi(4)Linux系統(tǒng)常用命令命令含義cd/home/hadoop把/home/hadoop設(shè)置為當(dāng)前目錄cd..返回上一級(jí)目錄cd~或cd返回登錄目錄cd/把用戶帶到整個(gè)目錄的根目錄cd/root把用戶帶到根用戶或超級(jí)用戶的主目錄;只有根用戶才能訪問該目錄ls查看當(dāng)前目錄中的文件ls-l或ll或ls–l文件名查看文件和目錄的權(quán)限信息ls-a顯示隱藏文件mkdirinput在當(dāng)前目錄下創(chuàng)建input子目錄mkdir-psrc/main/scala在當(dāng)前目錄下,創(chuàng)建多級(jí)子目錄src/main/scalacat/proc/version查看Linux系統(tǒng)內(nèi)核版本信息catword.txt把word.txt這個(gè)文件全部?jī)?nèi)容顯示到屏幕上head-5word.txt把word.txt文件中的前5行內(nèi)容顯示到屏幕上cpword.txt/usr/local/把word.txt文件復(fù)制到“/usr/local”目錄下rm./word.txt刪除當(dāng)前目錄下的word.txt文件rm–rf./test刪除當(dāng)前目錄下的test目錄及其下面的所有文件rm–rtest*刪除當(dāng)面目錄下所有以test開頭的目錄和文件tar-zxvf*.tgz-C/usr/local/把*.tgz這個(gè)壓縮文件解壓到/usr/local目錄下tar-zxvf*.tar.gz把*.gz這個(gè)壓縮文件解壓到當(dāng)前目錄下tar-cfall.tar*.jpg將*.jpg文件打包成all.tarmvspark-2.1.0spark把spark-2.1.0目錄重新命名為sparkchown-Rhadoop:hadoop./sparkhadoop是當(dāng)前登錄Linux系統(tǒng)的用戶名,把當(dāng)前目錄下的spark子目錄的所有權(quán)限,賦予給用戶hadoopifconfig查看本機(jī)IP地址信息exit退出并關(guān)閉Linux終端echo$HOSTNAME顯示HOSTNAME環(huán)境變量的值pwd查看當(dāng)前目錄manls獲取ls幫助,獲取其它命令幫助同理,等價(jià)于ls--helpuseradd–d/usr/sa-msa創(chuàng)建了一個(gè)用戶sapasswdsa為用戶sa設(shè)置密碼susa切換到用戶sajps查看進(jìn)程chmod777file修改file權(quán)限為777ifconfig或ipadr查看當(dāng)前節(jié)點(diǎn)的IPclear或reset或ctrl+l清屏sudo命令用超級(jí)用戶執(zhí)行“命令”./當(dāng)前目錄人在旅途中,在特定的生產(chǎn)、工作、學(xué)習(xí)、生活等實(shí)踐中,往往會(huì)遇到有形或無形、巨大或一般、一種或多種、短時(shí)間或長(zhǎng)時(shí)期等方面的困難。這是正常的、必然的。但是,我們必須以積極的心態(tài)了解它、認(rèn)識(shí)它、正視它。困難既有有利的一面,也有不利的一面。不利的一面是,它常常制約、阻礙著人們或事物向良性方向、成功目標(biāo)發(fā)展。困難的出現(xiàn)或存在,往往會(huì)使人們的事業(yè)或人生遭受不同程度的挫折,增加成功的難度。這是人們熟知的一面。然而,困難也有有利的一面,這一點(diǎn)卻常常被人們所忽視。首先,困難可以使人們冷靜頭腦,清醒認(rèn)識(shí)。因?yàn)?,一直身處順境,往往?huì)導(dǎo)致盲目自信,甚至產(chǎn)生驕傲自滿情緒,而“驕兵必?cái) 笔潜厝坏?。其次,困難可以使我們?cè)缛瞻l(fā)現(xiàn)問題。人們之所以身處困難或困境之中,往往是因?yàn)槌霈F(xiàn)了或存在著許多問題。此時(shí),問題充分暴露,便于自我發(fā)現(xiàn),并有助于想出對(duì)策加以解決。再次,困難可以檢驗(yàn)一個(gè)人的品質(zhì)。如果一個(gè)人敢于直面困難,積極主動(dòng)地尋求解決問題的辦法,那么他或遲或早,總會(huì)成功。如果一個(gè)人被困難嚇倒,灰心喪氣,無所作為,那么即使困難消除,他也不會(huì)走出失敗的陰影。人生成功者尤其是那些杰出成功者,從來都是以積極的心態(tài)正視困難,樂觀地面對(duì)困難的。多一些快樂,少一些煩惱,你會(huì)驚奇地發(fā)現(xiàn),這不僅會(huì)使你的工作與努力充滿樂趣,還會(huì)讓你獲得幸福。它把憂慮變?yōu)榭鞓?,?qū)除工作中的痛苦,讓生活充滿驚喜。你會(huì)發(fā)現(xiàn),自己成了一個(gè)更優(yōu)秀,更完美的人。你用充滿陽光的心靈輕松地面對(duì)困難,保持著自己心靈的和諧。而有的人卻因?yàn)檫@些困難而痛苦,失去了心靈的和諧。授課周次第3周授課時(shí)間2021年9月16日課程章節(jié)模塊2:大數(shù)據(jù)生態(tài)系統(tǒng)2.1認(rèn)識(shí)Hadoop2.2HDFS教學(xué)目的認(rèn)識(shí)Hadoop理解大數(shù)據(jù)生態(tài)環(huán)境:兩個(gè)核心技術(shù)理解HDFS結(jié)構(gòu)及讀寫原理內(nèi)容提要及板書設(shè)計(jì)2.1認(rèn)識(shí)Hadoop1、設(shè)計(jì)理念(1)處理的數(shù)據(jù)量巨大;(2)構(gòu)造成本特低;(3)結(jié)構(gòu)彈性特好;兩高:容錯(cuò)、可靠2、Hadoop基礎(chǔ)架構(gòu):(1)兩大核心技術(shù)(2)四種計(jì)算模式:批處理、流模式、圖模式和交互模式2.2HDFS1、HDFS結(jié)構(gòu)2、HDFS讀寫原理3、HDFS操作重點(diǎn)、難點(diǎn)及解決方案第3次課:重點(diǎn):HDFS操作難點(diǎn):HDFS結(jié)構(gòu)教學(xué)內(nèi)容時(shí)間分配序號(hào)第3次教學(xué)環(huán)節(jié)時(shí)間1課程導(dǎo)入5’2一、Hadoop10’3二、核心組件10’一、HDFS結(jié)構(gòu)25’4二、HDFS操作35’4小結(jié)5’教學(xué)手段第3次課:理論+上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)第3次課:P25:一、二作業(yè)完成方式書面(√)電子()教學(xué)后記1.??優(yōu)秀的團(tuán)隊(duì),塑造出優(yōu)秀團(tuán)隊(duì)?化,?個(gè)優(yōu)秀的團(tuán)隊(duì)?化,釀造出優(yōu)秀的?。2.??強(qiáng),不是強(qiáng),再強(qiáng)也是?只?。團(tuán)隊(duì)強(qiáng),才是強(qiáng),團(tuán)結(jié)起來就是狼。3.?個(gè)?要想成功,除了??要有較?的素質(zhì),還必須要有能夠同別?合作的精神。4.只有團(tuán)結(jié)才有強(qiáng)?的能量,凝聚在?起才是團(tuán)隊(duì)!5.凝聚團(tuán)隊(duì),聚焦?標(biāo),為夢(mèng)想創(chuàng)造?限可能。6.能?眾?,則?敵于天下矣;能?眾智,則?畏于圣?矣。7.?往?處使叫團(tuán)隊(duì),?往?處使叫團(tuán)伙。注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第3次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄第3次課:導(dǎo)入新課【播放合作精神視頻】從剛才的視頻我們明白一個(gè)道理,團(tuán)結(jié)就是力量,合作精神,對(duì)在當(dāng)今時(shí)代生存發(fā)展尤為重要。今天要學(xué)習(xí)的大數(shù)據(jù)生態(tài)Hadoop是一個(gè)分布式集群,只有集群各個(gè)節(jié)點(diǎn)各盡其責(zé),才能協(xié)作處理更大的數(shù)據(jù),分布式計(jì)算的思維源自分工合作精神,通過課程的學(xué)習(xí)體會(huì)和感悟合作精神。新課講解1.3大數(shù)據(jù)生態(tài)系統(tǒng)Hadoop一、Hadoop的由來1、小數(shù)據(jù)時(shí)代上網(wǎng)過程用戶從客戶端發(fā)出請(qǐng)求,服務(wù)端接受請(qǐng)求并訪問數(shù)據(jù)庫,將查詢或處理的結(jié)果反饋到客戶端。2、大數(shù)據(jù)時(shí)代上網(wǎng)過程但當(dāng)客戶端的請(qǐng)求量劇增,服務(wù)端的響應(yīng)能力急劇下降,有些數(shù)據(jù)無法及時(shí)處理,要么就丟棄,要么就等待,造成網(wǎng)絡(luò)服務(wù)無法滿足用戶的需求,此時(shí)就需要一種特別的機(jī)制解決這個(gè)問題。這個(gè)機(jī)制就是,將請(qǐng)求通過Flume推送到消息隊(duì)列Kafka,同時(shí)把與請(qǐng)求相關(guān)的業(yè)務(wù)數(shù)據(jù)通過sqoop推送到消息隊(duì)列Kafka,Kafka根據(jù)任務(wù)的輕重緩急,將任務(wù)劃分為實(shí)時(shí)計(jì)算任務(wù)(推送到Spark)和離線計(jì)算任務(wù)(推送到HDFS).Flume、Kafka、sqoop、Spark、HBase、HDFS、MapReduce...組成了Hadoop生態(tài)系統(tǒng),生態(tài)系統(tǒng)各個(gè)組件由Zookeeper進(jìn)行協(xié)調(diào),形成團(tuán)隊(duì)合作模式。二、Hadoop生態(tài)系統(tǒng)谷歌三駕馬車:HDFS,MapReduce,HBase2、主要模塊說明(如果把Hadoop生態(tài)比作廚房)采購員:Flume,Sqoop倉庫:HDFS冰箱:HBase廚師長(zhǎng):Zookeeper廚具:MapReduce、Spark半成品:YARN成品菜肴:hive菜單:Oozie食者:AmbariHDFSHDFS:HDFS(HadoopDistributedFileSystem)是一個(gè)Hadoop分布式文件存儲(chǔ)系統(tǒng),簡(jiǎn)稱分布式文件系統(tǒng)。HDFS本身也是個(gè)集群,由一個(gè)namenode,多個(gè)datanode,一個(gè)secondarynamenode組成,適合需要處理海量數(shù)據(jù)集的應(yīng)用程序。HDFS特征低成本:兼容廉價(jià)的硬件設(shè)備。處理大規(guī)模數(shù)據(jù):典型文件大小GB-TB級(jí)別;關(guān)注橫向擴(kuò)展。批量數(shù)據(jù)訪問:批量讀而非隨機(jī)讀;關(guān)注吞吐量而非相應(yīng)時(shí)間。高容錯(cuò):副本冗余機(jī)制。HDFS體系結(jié)構(gòu)四、HDFS存儲(chǔ)原理1、存儲(chǔ)策略第一個(gè)副本:放置在上傳文件的數(shù)據(jù)節(jié)點(diǎn);如果是集群外提交,則隨機(jī)挑選一臺(tái)磁盤不太滿、CPU不太忙的節(jié)點(diǎn)第二個(gè)副本:放置在與第一個(gè)副本不同的機(jī)架的節(jié)點(diǎn)上第三個(gè)副本:與第一個(gè)副本相同機(jī)架的其他節(jié)點(diǎn)上更多副本:隨機(jī)節(jié)點(diǎn)2、數(shù)據(jù)錯(cuò)誤與恢復(fù)(1)當(dāng)名稱節(jié)點(diǎn)出錯(cuò)時(shí),就可以根據(jù)備份服務(wù)器SecondaryNameNode中的FsImage和Editlog數(shù)據(jù)進(jìn)行恢復(fù)。(2)每個(gè)數(shù)據(jù)節(jié)點(diǎn)會(huì)定期向名稱節(jié)點(diǎn)發(fā)送“心跳”信息,向名稱節(jié)點(diǎn)報(bào)告自己的狀態(tài),名稱節(jié)點(diǎn)會(huì)定期檢查這種情況,一旦發(fā)現(xiàn)某個(gè)數(shù)據(jù)塊的副本數(shù)量小于冗余因子,就會(huì)啟動(dòng)數(shù)據(jù)冗余復(fù)制,為它生成新的副本。五、HDFS編程實(shí)踐1、列出hdfs文件系統(tǒng)——ls命令hdfsdfs-ls/#列出hdfs文件系統(tǒng)根目錄下的目錄和文件hdfsdfs-ls-R/#列出hdfs文件系統(tǒng)所有的目錄和文件2、創(chuàng)建兩個(gè)任意本地文本文件用于實(shí)驗(yàn)echo"helloworld">local.txtecho"hellohadoop">text.txt3、創(chuàng)建用戶工作目錄——mkdir命令hdfsdfs-mkdir<hdfspath>#只能一級(jí)一級(jí)的建目錄例如:hdfsdfs–mkdir/hdfsdirhdfsdfs-mkdir-p<hdfspath>多級(jí)創(chuàng)建的目錄如果父目錄不存在就創(chuàng)建該父目錄例如:hdfsdfs-mkdir-p/user/當(dāng)前用戶名4、檢查文件是否存在hdfsdfs-text/user/56789/text.txthdfsdfs-text<hdsffile>#將文本文件或某些格式的非文本文件通過文本格式輸出5、上傳本地文件到HDFS系統(tǒng)——put命令hdfsdfs-put<localfile/path><hdfspath>hdfsfile的父目錄一定要存在,否則命令不會(huì)執(zhí)行6、查看HDFS文件的內(nèi)容——cat命令hdfsdfs-cattext.txt等價(jià)于hdfsdfs-testtext.txt7、拷貝HDFS文件到本地——get命令hdfsdfs-get<hdfspath/file><localpath>例如:hdfsdfs–get/hdfsdir/README.txt/opt/localdir8、rm命令hdfsdfs-rm<hdfsfile>...hdfsdfs-rm-r<hdfsdir>...每次可以刪除多個(gè)文件或目錄9、getmerge命令hdfsdfs-getmerge<hdfsdir><localfile>將hdfs指定目錄下所有文件排序后合并到local指定的文件中,文件不存在時(shí)會(huì)自動(dòng)創(chuàng)建,文件存在時(shí)會(huì)覆蓋里面的內(nèi)容10、拷貝文件——cp命令hdfsdfs-cp<hdfsfile><hdfsfile>hdfsdfs-cp<hdfsfileordir>...<hdfsdir>11、文件改名——mv命令hdfsdfs-mv<hdfsfile><hdfsfile>hdfsdfs-mv<hdfsfileordir>...<hdfsdir>注意:跨文件系統(tǒng)的移動(dòng)(local到hdfs或者反過來)都是不允許的12、du命令hdfsdfs-du<hdsfpath>顯示hdfs對(duì)應(yīng)路徑下每個(gè)文件夾和文件的大小13、tail命令hdfsdfs-tail<hdfsfile>在標(biāo)準(zhǔn)輸出中顯示文件末尾的1KB數(shù)據(jù)14、balancer命令hdfsbalancer如果管理員發(fā)現(xiàn)某些DataNode保存數(shù)據(jù)過多,某些DataNode保存數(shù)據(jù)相對(duì)較少,可以使用上述命令手動(dòng)啟動(dòng)內(nèi)部的均衡過程15、dfsadmin命令hdfsdfsadmin-help管理員可以通過dfsadmin管理HDFShdfsdfsadmin-report顯示文件系統(tǒng)的基本數(shù)據(jù)六、HBase編程實(shí)踐(1)create:創(chuàng)建表(2)list:列出HBase中所有的表信息例1:創(chuàng)建名稱為tempTable的表,包含3個(gè)列族f1,f2和f3(3)put:向表、行、列指定的單元格添加數(shù)據(jù)一次只能為一個(gè)表的一行數(shù)據(jù)的一個(gè)列添加一個(gè)數(shù)據(jù)(4)scan:瀏覽表的相關(guān)信息(5)get:獲得單元格的值(通過表名、行、列、時(shí)間戳、時(shí)間范圍和版本號(hào)來)例2:向tempTable中的第r1行、第“f1:c1”列,添加數(shù)據(jù)值為“hello,dblab”例3:(1)從tempTable中,獲取第r1行、第“f1:c1”列的值(2)從tempTable中,獲取第r1行、第“f1:c3”列的值(6)enable/disable:使表有效或無效(7)drop:刪除表七、總結(jié)1個(gè)生態(tài)系統(tǒng):Hadoop1個(gè)核心價(jià)值:數(shù)據(jù)分析2個(gè)關(guān)鍵技術(shù):分布式存儲(chǔ)技術(shù)、分布式處理技術(shù)3個(gè)思維轉(zhuǎn)變:整體思維、容錯(cuò)思維、相關(guān)思維3種云的服務(wù)方式:SaaS,PaaS,IaaS3駕馬車(谷歌Hadoop):GFS、MapReduce和BigTable4個(gè)特征:Volume、Variety、Veracity、Value4種計(jì)算模式:批處理計(jì)算、流計(jì)算、圖計(jì)算、查詢分析計(jì)算4種科學(xué)研究范式:實(shí)驗(yàn)、理論、計(jì)算、數(shù)據(jù)4種分析技術(shù):數(shù)據(jù)預(yù)處理、特征工程、數(shù)據(jù)認(rèn)知、數(shù)據(jù)建模5個(gè)核心組件:HDFS、HBase、MapReduce、Spark、NoSQL5大數(shù)據(jù)科學(xué)知識(shí)體系:云計(jì)算、物聯(lián)網(wǎng)、可視化、數(shù)據(jù)思維、領(lǐng)域知識(shí)5種大數(shù)據(jù)相關(guān)崗位:平臺(tái)運(yùn)維、數(shù)據(jù)分析、算法設(shè)計(jì)、產(chǎn)品開發(fā)、數(shù)據(jù)科學(xué)家分布式系統(tǒng)的核心思想是分而治之,用一組計(jì)算機(jī)集群通過計(jì)算機(jī)網(wǎng)絡(luò)協(xié)作,共同完成任務(wù)。根據(jù)傳統(tǒng)思路,處理復(fù)雜問題的方式是不斷提升計(jì)算機(jī)性能,研發(fā)一代更比一代強(qiáng)的“超級(jí)計(jì)算機(jī)”。而分布式系統(tǒng)則另辟蹊徑,解決問題的方式從“一夫當(dāng)關(guān)、萬夫莫開”演變?yōu)椤叭撕?zhàn)術(shù)”,用一組計(jì)算機(jī)集群替換大型機(jī),集群中的每臺(tái)機(jī)器處理原問題的一個(gè)子集,通過成百上千普通計(jì)算機(jī)協(xié)作,實(shí)現(xiàn)與大型機(jī)相同甚至更佳的效果。理解四大大數(shù)據(jù)技術(shù):數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和數(shù)據(jù)可視化授課周次第4周授課時(shí)間2021年9月23日課程章節(jié)模塊2:大數(shù)據(jù)生態(tài)系統(tǒng)2.2MapReduce編程教學(xué)目的掌握MapReduce編程模型理解HadoopMapReduce原理;理解Yarn/MapReduce內(nèi)容提要及板書設(shè)計(jì)2.2MapReduce編程1、MapReduce邏輯結(jié)構(gòu)2、Map與Reduce執(zhí)行3、WordCountMapReduce編程重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):MapReduce邏輯結(jié)構(gòu)難點(diǎn):Map與Reduce執(zhí)行教學(xué)內(nèi)容時(shí)間分配序號(hào)第4次課教學(xué)后記時(shí)間分配1課程導(dǎo)入10′2MapReduce邏輯結(jié)構(gòu)35′3Map與Reduce執(zhí)行30′4WordCountMapReduce編程15′5小結(jié)5′教學(xué)手段第4次課:理論教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)第4次課:P27,一、二作業(yè)完成方式書面()電子(√)教學(xué)后記第4次課:注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第4次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄新課導(dǎo)入MapReduce是一種分布式計(jì)算模型,由兩個(gè)階段組成:Map和Reduce,用戶只需實(shí)現(xiàn)map()和reduce()兩個(gè)函數(shù),即可實(shí)現(xiàn)分布式計(jì)算。比如數(shù)一下圖書館中的所有書。你數(shù)1號(hào)書架,我數(shù)2號(hào)書架。這就是“Map”。人越多,數(shù)得就越快。把所有人的統(tǒng)計(jì)數(shù)加在一起。這就是“Reduce”。新課講解一、MapReduce邏輯結(jié)構(gòu)二、Map與Reduce執(zhí)行三、WordCount本案例為統(tǒng)計(jì)readme.txt文檔中詞頻。第一步:準(zhǔn)備文件#hadoopfs-ls/#hadoopfs-mkdir/input#hadoopfs-put/opt/hadoop-2.1.0/README.txt/input#hadoopfs-mv/input/README.txt/input/readme.txt#hadoopfs-ls/input第二步:執(zhí)行mapreduce統(tǒng)計(jì)詞頻例子#hadoopjar/opt/hadoop-2.1.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.1.0.jarwordcount/input/outputjar包執(zhí)行成功第三步:輸出經(jīng)過計(jì)算后的結(jié)果#hadoopfs-ls/outputFound2items-rw-r--r--3rootsupergroup02018-04-1000:02/output/_SUCCESS-rw-r--r--3rootsupergroup13062018-04-1000:02/output/part-r-00000#hadoopfs-cat/output/part-r-00000readme.txt文檔內(nèi)容不同,可能顯示的信息不同。第四步:將計(jì)算結(jié)果導(dǎo)出到本地系統(tǒng)#hadoopfs-get/output/part-r-00000/home/#ls/home/第5次課:新課導(dǎo)入//FlowCountMap類packagecom.ntuedu.log1;publicclassFlowCountMapextendsMapper<LongWritable,Text,Text,FlowBean>{@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringline=value.toString();//讀一行字符串String[]fields=line.split("\t");//分割字段StringphoneNr=fields[1];//獲取電話號(hào)碼intlen=fields.length;//獲取字段個(gè)數(shù)longupFlow=Long.parseLong(fields[len-3]);//獲取上行流量longdfFolw=Long.parseLong(fields[len-2]);//獲取下行流量context.write(newText(phoneNr),newFlowBean(upFlow,dfFolw));//Map輸出}}publicclassFlowCountReduceextendsReducer<Text,FlowBean,Text,FlowBean>{@Overrideprotectedvoidreduce(Textkey,Iterable<FlowBean>values,Contextcontext)throwsIOException,InterruptedException{//合并相同手機(jī)號(hào)longupFlow_sum=0;//初始化上行流量總和longdfFlow_sum=0;//初始化下行流量總和for(FlowBeanv:values){upFlow_sum+=v.getUpFlow();//計(jì)算上行流量總和dfFlow_sum+=v.getDfFlow();//計(jì)算下行流量總和}FlowBeanrsSum=newFlowBean(upFlow_sum,dfFlow_sum);//獲取想要的字段context.write(key,rsSum);//輸出:手機(jī)號(hào),上行流量,下行流量,總流量}}//FlowBean類publicclassFlowBeanimplementsWritable{privateLongupFlow;privateLongdfFlow;privateLongsumFlow;publicFlowBean(){}publicFlowBean(LongupFlow,LongdfFlow){this.upFlow=upFlow;this.dfFlow=dfFlow;this.sumFlow=upFlow+dfFlow;}publicLonggetUpFlow(){returnupFlow;}publicvoidsetUpFlow(LongupFlow){this.upFlow=upFlow;}publicLonggetDfFlow(){returndfFlow;}publicvoidsetDfFlow(LongdfFlow){this.dfFlow=dfFlow;}publicLonggetSumFlow(){returnsumFlow;}publicvoidsetSumFlow(LongsumFlow){this.sumFlow=sumFlow;}publicvoidwrite(DataOutputout)throwsIOException{out.writeLong(upFlow);out.writeLong(dfFlow);out.writeLong(sumFlow);}publicvoidreadFields(DataInputin)throwsIOException{upFlow=in.readLong();dfFlow=in.readLong();sumFlow=in.readLong();}publicStringtoString(){returnupFlow+"\t"+dfFlow+"\t"+sumFlow;}}//驅(qū)動(dòng)類FlowCountDrive publicclassFlowCountDrive{publicstaticvoidmain(String[]args)throwsIOException,ClassNotFoundException,InterruptedException{Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf);job.setJarByClass(FlowCountDrive.class);//關(guān)聯(lián)驅(qū)動(dòng)類job.setMapperClass(FlowCountMap.class);//關(guān)聯(lián)Map類job.setReducerClass(FlowCountReduce.class);//關(guān)聯(lián)Reduce類job.setMapOutputKeyClass(Text.class);//Map輸出類型job.setMapOutputValueClass(FlowBean.class);job.setOutputKeyClass(Text.class);//ReducE輸出類型job.setOutputValueClass(FlowBean.class);//job.setPartitionerClass(PhonePartation.class);//關(guān)聯(lián)分區(qū)類//job.setNumReduceTasks(5);//指定分區(qū)個(gè)數(shù)FileInputFormat.setInputPaths(job,newPath("/usr/flow/in"));//輸入文件路徑FileOutputFormat.setOutputPath(job,newPath("/usr/flow/out1"));//輸出文件路徑booleanrs=job.waitForCompletion(true);//成功/失敗標(biāo)志System.exit(rs?0:1);}}授課周次第5周授課時(shí)間2021年9月30日課程章節(jié)模塊3:大數(shù)據(jù)采集與預(yù)處理3.1數(shù)據(jù)3.2數(shù)據(jù)采集3.3數(shù)據(jù)清洗教學(xué)目的1、了解數(shù)據(jù)類型;2、了解數(shù)據(jù)采集分類3、掌握數(shù)據(jù)清洗的方法;4、掌握數(shù)據(jù)變換常用方法1第7次課:第3章大數(shù)據(jù)采集與預(yù)處理3.1數(shù)據(jù)1、數(shù)據(jù)定義、分類、度量3.2數(shù)據(jù)采集2、數(shù)據(jù)采集分類、方法、工具3.3數(shù)據(jù)清洗1、數(shù)據(jù)清洗任務(wù);2、數(shù)據(jù)清洗過程;3、基于R的數(shù)據(jù)清洗重點(diǎn)、難點(diǎn)及解決方案第5次課:重點(diǎn):數(shù)據(jù)清洗概念難點(diǎn):數(shù)據(jù)清洗操作教學(xué)內(nèi)容時(shí)間分配序號(hào)第5次教學(xué)環(huán)節(jié)時(shí)間分配1課程導(dǎo)入52數(shù)據(jù)定義、分類、度量303數(shù)據(jù)采集分類、方法、工具254缺失值、異常值、重復(fù)值處理255小結(jié)5教學(xué)手段第5次課:上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)()作業(yè)第5次課:p39:二作業(yè)完成方式書面(√)電子(√)教學(xué)后記第5次課:注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第5次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄第5次課:導(dǎo)入新課大數(shù)據(jù)采集與預(yù)處理是大數(shù)據(jù)處理流程第一步,主要指網(wǎng)絡(luò)爬蟲和ETL技術(shù)。ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。在ETL三個(gè)部分中,花費(fèi)時(shí)間最長(zhǎng)的是“T”(Transform,清洗、轉(zhuǎn)換)的部分,一般情況下,這部分工作量是整個(gè)ETL的2/3。ETL負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后,進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘提供決策支持的數(shù)據(jù)。新課講解一、數(shù)據(jù)定義數(shù)據(jù)不僅僅是數(shù)字,它描繪了現(xiàn)實(shí)的世界,與照片捕捉了瞬間的情景一樣,數(shù)據(jù)是現(xiàn)實(shí)世界的一個(gè)快照。數(shù)據(jù)是對(duì)我們所研究現(xiàn)象的屬性和特征的具體描述。二、數(shù)據(jù)分類類型含義本質(zhì)舉例技術(shù)結(jié)構(gòu)化數(shù)據(jù)直接可以用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲(chǔ)和管理的數(shù)據(jù)先有結(jié)構(gòu),后有管理數(shù)字、符號(hào)、表格SQL非結(jié)構(gòu)化數(shù)據(jù)無法用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲(chǔ)和管理的數(shù)據(jù)難以發(fā)現(xiàn)同一的結(jié)構(gòu)語音、圖像、文本NOsql,NewSql,云技術(shù)半結(jié)構(gòu)化數(shù)據(jù)經(jīng)過轉(zhuǎn)換用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲(chǔ)和管理的數(shù)據(jù)先有數(shù)據(jù),后有結(jié)構(gòu)HTML、XMLRDF、OWL三、度量和維度(1)維度和度量是可以轉(zhuǎn)換的。比如要看“年齡”的平均數(shù),這里的“年齡”就是度量,要看19歲用戶的訂單情況,這里的“年齡”就是維度。對(duì)于一個(gè)數(shù)據(jù)項(xiàng)而言,到底它是維度還是度量,是根據(jù)用戶的需求而定的。(2)維度可以衍生出新的維度和度量,比如用“地區(qū)”維度衍生出一個(gè)大區(qū)維度,“北京”、“天津”都對(duì)應(yīng)“華北大區(qū)”,或者用“年齡”維度衍生出一個(gè)年齡范圍維度,20到29歲=“青年人”,30到39歲=“中年人”,40到49歲=“資深中年人”。再比如上述的平均年齡,就是用“年齡”維度衍生出一個(gè)度量。(3)度量也可以衍生出新的維度和度量,比如用“訂單金額”度量衍生出一個(gè)金額范圍維度,100元以下對(duì)應(yīng)“小額訂單”,500元以上對(duì)應(yīng)“大額訂單”等等。再比如用“收入”度量和“成本”度量相減,可以得到一個(gè)“利潤(rùn)”度量。四、數(shù)據(jù)采集分類數(shù)據(jù)采集(DAQ),又稱數(shù)據(jù)獲取,是指從傳感器、網(wǎng)站和其它待測(cè)設(shè)備等模擬和數(shù)字被測(cè)單元中自動(dòng)采集信息的過程。(1)按采集頻率分:靜態(tài)數(shù)據(jù)采集、低頻數(shù)據(jù)采集、高頻數(shù)據(jù)采集。(2)按采集結(jié)構(gòu)分:結(jié)構(gòu)化數(shù)據(jù)采集、半結(jié)構(gòu)化數(shù)據(jù)采集、非結(jié)構(gòu)化數(shù)據(jù)采集。(3)按采集方式分:定時(shí)采集、實(shí)時(shí)采集。五、數(shù)據(jù)采集方法(1)系統(tǒng)日志采集方法?(2)網(wǎng)絡(luò)數(shù)據(jù)采集方法??(3)數(shù)據(jù)庫采集系統(tǒng)六、數(shù)據(jù)采集工具??(1)Flume?(2)Kafka(3)Sqoop七、數(shù)據(jù)清洗任務(wù)數(shù)據(jù)清理主要任務(wù)是通過識(shí)別缺失值、噪聲數(shù)據(jù)、不一致數(shù)據(jù)和重復(fù)數(shù)據(jù)來“清理臟數(shù)據(jù)”,通過數(shù)據(jù)清洗為大數(shù)據(jù)分析接下來的步驟提供高質(zhì)量的數(shù)據(jù),使分析結(jié)果更客觀、更可靠。八、數(shù)據(jù)清洗過程九、R語言十、基于R語言的數(shù)據(jù)清洗授課周次第6周授課時(shí)間2021年10月6日課程章節(jié)模塊3:大數(shù)據(jù)管理3.1NoSQL3.2HBase教學(xué)目的理解NoSQL的四種類型內(nèi)容提要及板書設(shè)計(jì)1、NoSQL概述2、鍵值對(duì)3、四種NoSQL重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):列式數(shù)據(jù)庫難點(diǎn):NoSQL教學(xué)內(nèi)容時(shí)間分配序號(hào)時(shí)間分配1課程導(dǎo)入5′2NoSQL概述153鍵值對(duì)254四種NoSQL405小結(jié)5教學(xué)手段理論上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)()理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)自擬作業(yè)完成方式書面()電子(√)教學(xué)后記注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第6次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄新課導(dǎo)入HDFS存儲(chǔ)的數(shù)據(jù)是沒有結(jié)構(gòu)的,但實(shí)際應(yīng)用需要把無結(jié)構(gòu)的數(shù)據(jù)轉(zhuǎn)換為有結(jié)構(gòu)的。今天講的HBase就是一種針對(duì)大數(shù)據(jù)設(shè)計(jì)的有結(jié)構(gòu)的NoSQL數(shù)據(jù)庫。新課講解一、NoSQL概述1、NoSQL數(shù)據(jù)庫特點(diǎn):(1)靈活的可擴(kuò)展性(2)與云計(jì)算緊密融合2、NoSQL3、常見NoSQL數(shù)據(jù)庫DynamoDBDynamoDB(3)I/O設(shè)備接口授課周次第7周授課時(shí)間2021年10月13日課程章節(jié)模塊3:大數(shù)據(jù)管理3.2HBase教學(xué)目的掌握HBase基本操作內(nèi)容提要及板書設(shè)計(jì)1、HBase結(jié)構(gòu)2、HBase工作原理3、HBase表操作重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):HBase操作難點(diǎn):Hbase結(jié)構(gòu)教學(xué)內(nèi)容時(shí)間分配序號(hào)時(shí)間分配時(shí)間分配1課程導(dǎo)入5′2HBase結(jié)構(gòu)103HBase工作原理204HBase基本操作505小結(jié)5教學(xué)手段理論上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)實(shí)驗(yàn)報(bào)告4作業(yè)完成方式書面()電子(√)教學(xué)后記注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第7次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄一、HBase1、對(duì)三駕馬車的改造2、HBase描述HBase是一個(gè)高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫,是谷歌BigTable的開源實(shí)現(xiàn),主要用來存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。HBase的目標(biāo)是可以通過水平擴(kuò)展的方式,利用廉價(jià)計(jì)算機(jī)集群處理由超過10億行數(shù)據(jù)和數(shù)百萬列元素組成的數(shù)據(jù)表。3、HBASE數(shù)據(jù)模型(1)四元組HBase中需要根據(jù)行鍵、列族、列限定符和時(shí)間戳來確定一個(gè)單元格,因此,可以視為一個(gè)“四維坐標(biāo)”,即[行鍵,列族,列限定符,時(shí)間戳](2)概念視圖(3)物理視圖4、HBase與傳統(tǒng)關(guān)系數(shù)據(jù)庫的對(duì)比分析(1)數(shù)據(jù)類型:關(guān)系數(shù)據(jù)庫具有豐富的數(shù)據(jù)類型,HBase則把數(shù)據(jù)存儲(chǔ)為未經(jīng)解釋的字符串;(2)數(shù)據(jù)操作:關(guān)系數(shù)據(jù)庫中包含了豐富的操作,其中會(huì)涉及復(fù)雜的多表連接。HBase操作則只有簡(jiǎn)單的插入、查詢、刪除、清空等,因?yàn)镠Base在設(shè)計(jì)上就避免了復(fù)雜的表和表之間的關(guān)系;(3)存儲(chǔ)模式:關(guān)系數(shù)據(jù)庫是基于行模式存儲(chǔ)的。HBase是基于列存儲(chǔ)的,每個(gè)列族都由幾個(gè)文件保存,不同列族的文件是分離的;(4)數(shù)據(jù)索引:關(guān)系數(shù)據(jù)庫通??梢葬槍?duì)不同列構(gòu)建復(fù)雜的多個(gè)索引,以提高數(shù)據(jù)訪問性能。HBase只有一個(gè)索引——行鍵,通過巧妙的設(shè)計(jì),使得整個(gè)系統(tǒng)不會(huì)慢下來;(5)數(shù)據(jù)維護(hù):在關(guān)系數(shù)據(jù)庫中,更新操作會(huì)用最新的值去替換記錄中原來的舊值,舊值被覆蓋后就不會(huì)存在。而在HBase中執(zhí)行更新操作時(shí),并不會(huì)刪除數(shù)據(jù)舊的版本,而是生成一個(gè)新的版本,舊有的版本仍然保留。(6)可伸縮性:關(guān)系數(shù)據(jù)庫很難實(shí)現(xiàn)橫向擴(kuò)展,縱向擴(kuò)展的空間也比較有限。相反,HBase就是為了實(shí)現(xiàn)靈活的水平擴(kuò)展而開發(fā)的,能夠輕易地在集群中實(shí)現(xiàn)性能的伸縮5、HBase系統(tǒng)架構(gòu)6、Hbase實(shí)現(xiàn)原理(1)開始只有一個(gè)Region,后來不斷分裂(2)Region拆分操作非常快,接近瞬間,因?yàn)椴鸱种蟮腞egion讀取的仍然是原存儲(chǔ)文件,直到“合并”過程把存儲(chǔ)文件異步地寫到獨(dú)立的文件之后,才會(huì)讀取新文件(3)每個(gè)Region的最佳大小取決于單臺(tái)服務(wù)器的有效處理能力,目前每個(gè)Region最佳大小建議1GB-2GB總結(jié)HBase四元組模型HBase實(shí)現(xiàn)原理第12次課:新課講解一、HBase常用JAVAAPI首先要在工程中導(dǎo)入hbase安裝目錄中的lib文件中的所有jar包。1、任務(wù)要求:創(chuàng)建表、插入數(shù)據(jù)、瀏覽數(shù)據(jù)創(chuàng)建一個(gè)學(xué)生信息表,用來存儲(chǔ)學(xué)生姓名(姓名作為行鍵,并且假設(shè)姓名不會(huì)重復(fù))以及考試成績(jī),其中,考試成績(jī)是一個(gè)列族,分別存儲(chǔ)了各個(gè)科目的考試成績(jī)。邏輯視圖如表所示。授課周次第8周授課時(shí)間2019年10月20日課程章節(jié)模塊4:大數(shù)據(jù)分析4.1大數(shù)據(jù)分析概述4.2業(yè)務(wù)理解4.3數(shù)據(jù)認(rèn)知4.4特征工程教學(xué)目的1、理解大數(shù)據(jù)分析流程;2、了解業(yè)務(wù)理解的意義3、掌握數(shù)據(jù)認(rèn)知方法;內(nèi)容提要及板書設(shè)計(jì)4.1大數(shù)據(jù)分析概述1、數(shù)據(jù)分析原則2、數(shù)據(jù)分析特點(diǎn)3、數(shù)據(jù)分析流程4、數(shù)據(jù)分析師基本技能和素質(zhì)4.2業(yè)務(wù)理解1、什么是業(yè)務(wù)理解2、如何理解業(yè)務(wù)3、數(shù)據(jù)業(yè)務(wù)化5.3數(shù)據(jù)認(rèn)知1、概率分析;2、相關(guān)分析4.4特征工程1、特征工程面臨的挑戰(zhàn)2、特征選擇3、特征提取4、指標(biāo)設(shè)計(jì)重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):數(shù)據(jù)分析流程難點(diǎn):數(shù)據(jù)業(yè)務(wù)化教學(xué)內(nèi)容時(shí)間分配序號(hào)第13次課教學(xué)環(huán)節(jié)時(shí)間分配第14次課教學(xué)環(huán)節(jié)時(shí)間分配1課程導(dǎo)入5′課程導(dǎo)入5′25.1大數(shù)據(jù)分析概述205.4特征工程1035.2業(yè)務(wù)理解15特征工程面臨的挑戰(zhàn)1545.3數(shù)據(jù)認(rèn)知40特征選擇105特征提取156指標(biāo)設(shè)計(jì)20教學(xué)手段理論教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)()作業(yè)作業(yè)完成方式書面()電子(√)教學(xué)后記注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第8次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄第13次課:5.1大數(shù)據(jù)分析概述1、數(shù)據(jù)分析原則2、數(shù)據(jù)分析特點(diǎn)3、數(shù)據(jù)分析流程4、數(shù)據(jù)分析師基本技能和素質(zhì)5.2業(yè)務(wù)理解1、什么是業(yè)務(wù)理解數(shù)據(jù)分析的第一步,不是分析數(shù)據(jù),而是把業(yè)務(wù)問題定義清晰。判斷的標(biāo)準(zhǔn)是:Y和X是否定義清晰。2、如何理解業(yè)務(wù)(1)粗粒度的全局了解(2)動(dòng)態(tài)了解-流程模型(3)靜態(tài)了解-數(shù)據(jù)模型(4)動(dòng)靜結(jié)合-關(guān)鍵業(yè)務(wù)分析3、數(shù)據(jù)業(yè)務(wù)化數(shù)據(jù)業(yè)務(wù)化的核心是讓數(shù)據(jù)產(chǎn)生價(jià)值。為此,需要三個(gè)環(huán)節(jié):(1)將業(yè)務(wù)問題定義成為數(shù)據(jù)可分析問題;(2)對(duì)數(shù)據(jù)可分析問題作分析建模;(3)對(duì)最后的分析結(jié)果和模型進(jìn)行業(yè)務(wù)實(shí)施。5.3數(shù)據(jù)認(rèn)知1、概率分析;(1)常用統(tǒng)計(jì)量分析(2)假設(shè)檢驗(yàn)2、相關(guān)分析(1)相關(guān)性描述(2)兩個(gè)變量相關(guān)性分類第14次課:5.4特征工程1、特征工程面臨的挑戰(zhàn)自動(dòng)特征抽??;特征的可解釋性;特征的評(píng)價(jià);2、特征選擇(1)特征是否發(fā)散:如果一個(gè)特征不發(fā)散,例如方差接近于0,也就是說樣本在這個(gè)特征上基本上沒有差異,這個(gè)特征對(duì)于樣本的區(qū)分并沒有什么用。(2)特征與目標(biāo)的相關(guān)性:這點(diǎn)比較顯見,與目標(biāo)相關(guān)性高的特征,應(yīng)當(dāng)優(yōu)選選擇。除方差法外,本文介紹的其他方法均從相關(guān)性考慮。3、特征提取(1)PCA(2)因子分析4、指標(biāo)設(shè)計(jì)(1)設(shè)計(jì)指標(biāo)技巧(2)如何設(shè)計(jì)指標(biāo)(3)常用指標(biāo)(4)業(yè)務(wù)指標(biāo)授課周次第9周授課時(shí)間2021年10月27日課程章節(jié)模塊4:大數(shù)據(jù)分析4.5數(shù)據(jù)建模1、熟練使用Rattle包,2、理解K-means聚類算法3、關(guān)聯(lián)分析4、決策樹教學(xué)目的1、了解數(shù)據(jù)建模的意義2、Rattle包安裝使用3、了解關(guān)聯(lián)分析原理和應(yīng)用場(chǎng)景;4、理解Apriori算法;5、了解決策樹原理和應(yīng)用場(chǎng)景;6、理解ID3算法內(nèi)容提要及板書設(shè)計(jì)模塊4:大數(shù)據(jù)分析4.5數(shù)據(jù)建模1、熟練使用Rattle包2、理解K-means聚類算法3、關(guān)聯(lián)分析4、決策樹重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):聚類分析,決策樹、Apriori算法難點(diǎn):Rattle參數(shù)選擇教學(xué)內(nèi)容時(shí)間分配序號(hào)時(shí)間分配1數(shù)據(jù)建模意義202聚類分析603關(guān)聯(lián)規(guī)則挖掘304決策樹305小結(jié)20教學(xué)手段理論+上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)作業(yè)完成方式書面()電子(√)教學(xué)后記注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第9次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄第15次課:第五章大數(shù)據(jù)分析5.6數(shù)據(jù)建模1、熟練使用Rattle包(1)安裝install.packages("cairoDevice")install.packages("RGtk2")install.packages("rattle")用上述代碼可以完成rattle包的安裝。在Rstudio命令控制臺(tái)輸入如下腳本載入Rattle包:>library(rattle)在Rstudio命令控制臺(tái)輸入如下腳本啟動(dòng)Rattle:>rattle()(2)認(rèn)識(shí)界面2、理解K-means聚類算法(1)K-means聚類思想聚類分析模型指將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)類的分析過程。聚類是一種把兩個(gè)觀測(cè)數(shù)據(jù)根據(jù)它們之間的距離計(jì)算相似度來分組的方法(沒有指導(dǎo)樣本)。(2)算法描述K-means聚類算法屬于非層次聚類法的一種,是最簡(jiǎn)單的聚類算法之一,但是運(yùn)用十分廣泛。k-means的計(jì)算方法如下:Step1:隨機(jī)選取k個(gè)中心點(diǎn)。Step2:遍歷所有數(shù)據(jù),將每個(gè)數(shù)據(jù)劃分到最近的中心點(diǎn)中。Step3:計(jì)算每個(gè)聚類的平均值,并作為新的中心點(diǎn)。Step4:重復(fù)Step2-3,直到這k個(gè)中線點(diǎn)不再變化(收斂了),或執(zhí)行了足夠多的迭代。(3)操作實(shí)例(4)參數(shù)選擇(5)算法評(píng)價(jià)①K值選取。在實(shí)際應(yīng)用中,由于Kmean一般作為數(shù)據(jù)預(yù)處理,或者用于輔助分類貼標(biāo)簽,所以k一般不會(huì)設(shè)置很大。可以通過枚舉,令k從2到一個(gè)固定值,如10,在每個(gè)k值上重復(fù)運(yùn)行數(shù)次K-means(避免局部最優(yōu)解),并計(jì)算當(dāng)前k的平均輪廓系數(shù),最后選取輪廓系數(shù)最大的值對(duì)應(yīng)的k作為最終的集群數(shù)目。②度量標(biāo)準(zhǔn)。根據(jù)一定的分類準(zhǔn)則,合理劃分記錄集合,從而確定每個(gè)記錄所屬的類別。不同的聚類算法中,用于描述相似性的函數(shù)也有所不同,有的采用歐氏距離或馬氏距離,有的采用向量夾角的余弦,也有的采用其他的度量方法。第16次課:第五章大數(shù)據(jù)分析5.6數(shù)據(jù)建模1、關(guān)聯(lián)分析(1)基本思想(2)Apriori算法3、案例實(shí)戰(zhàn)Rattle安裝目錄提供一個(gè)例子(dvdtrans.csv),這個(gè)例子包含三個(gè)顧客購買DVD電影商品的事務(wù),數(shù)據(jù)結(jié)構(gòu)如圖所示。2、決策樹(1)決策樹原理(2)ID3算法構(gòu)造決策樹的關(guān)鍵步驟是分裂屬性,即在某個(gè)節(jié)點(diǎn)處按照某一特征屬性值構(gòu)造不同的分支,其目標(biāo)是讓各個(gè)分裂子集盡可能地“純”,盡可能“純”就是盡量讓一個(gè)分裂子集中待分類項(xiàng)屬于同一類別。分裂屬性分為三種不同的情況:(1)屬性是離散值且不要求生成二叉決策樹。此時(shí)用屬性的每個(gè)劃分作為一個(gè)分支。(2)屬性是離散值且要求生成二叉決策樹。此時(shí)使用屬性劃分的一個(gè)子集進(jìn)行測(cè)試,按照“屬于此子集”和“不屬于此子集”分成兩個(gè)分支。(3)屬性是連續(xù)值。此時(shí)確定一個(gè)值作為分裂點(diǎn)split_point,按照>split_point和<=split_point生成兩個(gè)分支。從信息論知識(shí)中我們直到,期望信息越小,信息增益越大。所以ID3算法的核心思想就是以信息增益度量屬性選擇,選擇分裂后信息增益最大的屬性進(jìn)行分裂。設(shè)D為用類別對(duì)訓(xùn)練元組進(jìn)行的劃分,則D的熵(entropy)表示為:假設(shè)將訓(xùn)練元組D按屬性A進(jìn)行劃分,則A對(duì)D劃分的期望信息為:而信息增益即為兩者的差值:(3)案例實(shí)戰(zhàn)通過Model選項(xiàng)卡Type=Tree建立決策樹模型,實(shí)驗(yàn)數(shù)據(jù)為weather.csv,單擊“執(zhí)行”按鈕得到如圖決策樹模型。單擊“Draw”按鈕得到可視化的決策樹,如圖所示。授課周次第10周授課時(shí)間2021年11月4日課程章節(jié)模塊4:大數(shù)據(jù)分析4.6spark1、Spark簡(jiǎn)介,2、Spark運(yùn)行模式4.6spark1、Spark生態(tài)系統(tǒng)BDAS2、常用概念-RDD教學(xué)目的1、了解spark生態(tài)系統(tǒng)2、理解RDD概念和工作原理內(nèi)容提要及板書設(shè)計(jì)4.6spark1、Spark簡(jiǎn)介3、常用概念-RDD四大優(yōu)勢(shì)依賴關(guān)系2、Spark生態(tài)系統(tǒng)BDASRDD有兩種操作方式SparkCoreSpark中的Stage劃分SparkSQL基本工作流程SparkStreamingSparkMLlibSparkGraphX重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):依賴關(guān)系、SparkSQL、RDD有兩種操作方式、基本工作流程難點(diǎn):SparkCore、Spark編程實(shí)踐教學(xué)內(nèi)容時(shí)間分配序號(hào)時(shí)間分配1課程導(dǎo)入5′2Spark簡(jiǎn)介203Spark生態(tài)系統(tǒng)BDAS554常用概念-RDD405Spark編程實(shí)踐40教學(xué)手段理論+上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)P104作業(yè)完成方式書面()電子(√)教學(xué)后記注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第10次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄導(dǎo)入新課hadoop新課講解第17次課:一、Spark簡(jiǎn)介Spark是一個(gè)快速和通用的大數(shù)據(jù)處理引擎。Spark最初是由加州大學(xué)伯克利分校的AMPLab于2009年提交的一個(gè)項(xiàng)目,現(xiàn)在是Apache軟件基金會(huì)旗下最活躍的開源項(xiàng)目之一Spark是一個(gè)分布式的大數(shù)據(jù)處理框架,基于RDD(彈性分布式數(shù)據(jù)集),立足內(nèi)存計(jì)算的一棧式計(jì)算平臺(tái)2016年11月14日發(fā)布Spark2.0.2版本優(yōu)勢(shì)一:快速處理優(yōu)勢(shì)二:易于使用Spark代碼量小;支持Scala、Java、Python,R語言的API。優(yōu)勢(shì)三:通用性強(qiáng)二、Spark生態(tài)系統(tǒng)BDASBDAS(theBerkeleyDataAnalyticsStack),全稱伯克利數(shù)據(jù)分析棧,是AMP實(shí)驗(yàn)室打造的一個(gè)開源的大數(shù)據(jù)處理一體化的技術(shù)生態(tài)系統(tǒng),其核心框架是Spark1、Spark組件-SparkCore2、Spark組件-SparkSQLSparkSQL在Spark內(nèi)核基礎(chǔ)上提供了對(duì)結(jié)構(gòu)化數(shù)據(jù)的處理集成性好:在Spark程序中無縫混合SQL查詢統(tǒng)一的數(shù)據(jù)訪問:以同樣的方式連接到任何數(shù)據(jù)源兼容Hive:已有Hive查詢語句不用修改支持標(biāo)準(zhǔn)連接:JDBC、ODBC3、Spark組件-SparkStreamingSparkStreaming基本原理是將流式計(jì)算分解成一系列短小的批處理作業(yè)。這里的批處理引擎是Spark,也就是把SparkStreaming的輸入數(shù)據(jù)按照batchsize(如1s)分成一段一段的數(shù)據(jù),每一段數(shù)據(jù)都轉(zhuǎn)換成Spark中的RDD,然后將SparkStreaming中對(duì)DStream的Transformation操作變?yōu)獒槍?duì)Spark中對(duì)RDD的Transformation操作,將RDD經(jīng)過操作變成中間結(jié)果保存在內(nèi)存中。整個(gè)流式計(jì)算根據(jù)業(yè)務(wù)的需求可以對(duì)中間結(jié)果進(jìn)行疊加,或者存儲(chǔ)到外部設(shè)備。與另一種流處理框架Storm相比,其吞吐量遠(yuǎn)高于Storm;同時(shí)相比基于Record的Storm,RDD數(shù)據(jù)集更容易做到高效的容錯(cuò)處理。4、Spark組件-GraphXGraphX是一個(gè)基于Spark的分布式圖計(jì)算子框架,提供了圖計(jì)算中用于圖和圖并行計(jì)算的接口。靈活:與圖形和集合無縫工作速度快:性能堪比最快的專業(yè)圖形處理系統(tǒng)算法:從一個(gè)不斷增長(zhǎng)的圖形算法庫選取5、Spark組件-MLlibMLlib(MachineLearninglib)是Spark對(duì)常用的機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫。易于使用:可用于Java,Scala,Python,andR高性能:高質(zhì)量的算法,比MapReduce快100倍易于部署:可在現(xiàn)有的Hadoop集群和數(shù)據(jù)上運(yùn)行第18次課:三、常用概念-RDDRDD(ResilientDistributedDatasets,彈性分布式數(shù)據(jù)集)是Spark的核心和架構(gòu)基礎(chǔ)是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)是一個(gè)只讀的分區(qū)記錄集合是一個(gè)內(nèi)存數(shù)據(jù)集可以簡(jiǎn)單看成是一個(gè)分區(qū)存儲(chǔ)的數(shù)組1、RDD的依賴關(guān)系2、RDD有兩種操作方式:轉(zhuǎn)換(Transformations):返回RDD,如:map,filter,groupBy,join等動(dòng)作(Actions):返回值不是一個(gè)RDD,如:count,collect,save等3、Spark中的Stage劃分從HDFS中讀入數(shù)據(jù)生成3個(gè)不同的RDD,通過一系列操作后,再將計(jì)算結(jié)果保存回HDFS。只有join操作是寬依賴,以此為邊界將其前后劃分成不同的StageStage2中,從map到union都是窄依賴,可以形成流水線操作3、RDD操作-Transformations其他轉(zhuǎn)換操作還包括:mapPartitions、mapPartitionsWithIndex、intersection、distinct、aggregateByKey、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions等4、RDD操作-Action其他Action操作還包括:takeSample、takeOrdered、saveAsSequenceFile、saveAsObjectFile等5、Spark的基本工作流程①①②③③④⑤⑤⑥⑥⑦⑦⑧初始化SparkContext申請(qǐng)資源初始化Executor解析RDD,劃分Stage,調(diào)度任務(wù)發(fā)送任務(wù)到Executor執(zhí)行計(jì)算任務(wù)返回計(jì)算結(jié)果關(guān)閉SparkContex,回收資源授課周次第11周授課時(shí)間2021年11月11日課程章節(jié)模塊4:大數(shù)據(jù)分析4.7大數(shù)據(jù)分析引擎Hive教學(xué)目的1、了解HIVE的特性;2、了解hive結(jié)構(gòu)3、熟練hive基本操作內(nèi)容提要及板書設(shè)計(jì)1、hive簡(jiǎn)介2、hive特性3、hive結(jié)構(gòu)4、安裝hive5、hive操作重點(diǎn)、難點(diǎn)及解決方案重點(diǎn):hive特性、hive結(jié)構(gòu)、hive操作難點(diǎn):hive結(jié)構(gòu)教學(xué)內(nèi)容時(shí)間分配序號(hào)時(shí)間分配1課程導(dǎo)入5′2Hive簡(jiǎn)介153Hive特性204Hive結(jié)構(gòu)405Hive操作80教學(xué)手段理論上機(jī)教學(xué)形式(在右欄勾選)理實(shí)一體教學(xué)(√)理論教學(xué)()實(shí)驗(yàn)()實(shí)訓(xùn)()上機(jī)(√)作業(yè)實(shí)驗(yàn)報(bào)告5作業(yè)完成方式書面()電子(√)教學(xué)后記注:教案按周次填寫,課堂組織和教學(xué)過程設(shè)計(jì)填寫在附頁中。附頁:(第11次)序號(hào)具體內(nèi)容(課堂組織和教學(xué)過程設(shè)計(jì))授課改進(jìn)意見及實(shí)時(shí)教學(xué)效果記錄第19次課:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論