浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第1頁(yè)
浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第2頁(yè)
浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第3頁(yè)
浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第4頁(yè)
浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章數(shù)據(jù)處理與應(yīng)用浙教版

信息技術(shù)(高中)必修1

數(shù)據(jù)與計(jì)算4.2大數(shù)據(jù)處理

第4章數(shù)據(jù)處理與應(yīng)用浙教版信息技術(shù)(高中)必修1學(xué)習(xí)目標(biāo)1234大數(shù)據(jù)處理的基本思想批處理計(jì)算和流計(jì)算、圖計(jì)算,編程處理數(shù)據(jù)文本數(shù)據(jù)處理,文本數(shù)據(jù)分析與應(yīng)用數(shù)據(jù)可視化學(xué)習(xí)目標(biāo)1234大數(shù)據(jù)處理的基本思想批處理計(jì)算和流計(jì)算、圖計(jì)12重點(diǎn)難點(diǎn)重點(diǎn):大數(shù)據(jù)處理的思想和編程處理數(shù)據(jù)。難點(diǎn):編程處理數(shù)據(jù)。12重點(diǎn)難點(diǎn)重點(diǎn):大數(shù)據(jù)處理的思想和編程處理數(shù)據(jù)。課堂導(dǎo)入

大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)來源與類型多樣、處理速度快等特點(diǎn),簡(jiǎn)單的表格處理軟件已經(jīng)無法滿足大數(shù)據(jù)的處理需求,同時(shí),大數(shù)據(jù)技術(shù)、理論和處理方法也在不斷發(fā)展,為大數(shù)據(jù)的處理提供了越來越有力的支持。課堂導(dǎo)入大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)來源與4.2.1大數(shù)據(jù)處理的基本思想與架構(gòu)處理大數(shù)據(jù)時(shí),一般采用分治思想。就是把一個(gè)復(fù)雜的問題分成兩個(gè)或更多相同的可相似的子問題,找到求這幾個(gè)子問題的解法后,再找出合適的方法把它們組合成求整個(gè)問題的解法。4.2.1大數(shù)據(jù)處理的基本思想與架構(gòu)處理大數(shù)據(jù)統(tǒng)計(jì)文件filename中各單詞出現(xiàn)的頻率,用python編程實(shí)現(xiàn)的代碼如下:wordcount={}forwordinopen(filename,’r’).read():

wordcount[word]+=1統(tǒng)計(jì)文件filename中各單詞出現(xiàn)的頻率,用python編拓展鏈接分布式計(jì)算與并行處理分布式計(jì)算(DistributedComputing)是把一個(gè)需要非常巨大的計(jì)算能力才能解決的問題分成許多小部分,然后把這些部分分配給許多計(jì)算機(jī)進(jìn)行處理,最后把這些計(jì)算結(jié)果綜合起來得到最終的結(jié)果。例如,利用分布在世界各地成千上萬臺(tái)閑置計(jì)算機(jī)的計(jì)算能力,分析來自外太空的電訊號(hào),探索可能存在的外星智慧生命。并行處理(ParallelProcessing)是計(jì)算機(jī)系統(tǒng)中能同時(shí)執(zhí)行兩個(gè)或更多處理的一種計(jì)算方法。并行處理的主要目的是節(jié)省大型和復(fù)雜問題的處理時(shí)間。拓展鏈接分布式計(jì)算與并行處理大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)流數(shù)據(jù)圖數(shù)據(jù)批處理計(jì)算(Hadoop、spark等)流計(jì)算(storm、heron等)圖計(jì)算(pregel、graphx等)圖4.2.1大數(shù)據(jù)處理類型大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)流數(shù)據(jù)圖數(shù)據(jù)批處理計(jì)算(Hadoop、sp1、批處理計(jì)算Hadoop是一個(gè)運(yùn)行于計(jì)算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于靜態(tài)數(shù)據(jù)

的批處理計(jì)算。Spark是一種與hadoop相似的,應(yīng)用較廣的開源分布式計(jì)算架構(gòu)。Spark

啟用了內(nèi)存存儲(chǔ)中間結(jié)果,運(yùn)行速度比hadoop快。1、批處理計(jì)算Hadoop是一個(gè)運(yùn)行于計(jì)算機(jī)集群上的分布式系圖4.2.2Hadoop的組成圖4.2.2Hadoop的組成圖4.2.3MapReduce的工作流程圖4.2.3MapReduce的工作流程拓展鏈接:Hadoop的發(fā)展歷史Hadoop最早起源于Nutch項(xiàng)目。Nutch是一個(gè)開源的網(wǎng)絡(luò)搜索引擎,由DougCutting于2002年創(chuàng)建。隨著網(wǎng)頁(yè)數(shù)量的增加,項(xiàng)目組遇到了數(shù)十億網(wǎng)頁(yè)的存儲(chǔ)和索引問題。2003年底,谷歌發(fā)表了關(guān)于谷歌分布式文件系統(tǒng)的論文。該論文描述了谷歌搜索引擎網(wǎng)頁(yè)相關(guān)數(shù)據(jù)的存儲(chǔ)架構(gòu),該架構(gòu)可解決Nutch遇到的網(wǎng)頁(yè)抓取和索引過程中產(chǎn)生的超大文件存儲(chǔ)需求問題。由于谷歌僅開源了思想而未開源代碼,Nutch項(xiàng)目組便根據(jù)論文開源實(shí)現(xiàn)了Nutch的分布式文件系統(tǒng)(NDFS).2004年,谷歌發(fā)表了關(guān)于谷歌分布式計(jì)算框架MapReduce的論文,該框架可用于處理海量網(wǎng)頁(yè)的索引問題。Nutch的開發(fā)人員依據(jù)論文完成了MapReduce的開源實(shí)現(xiàn)。2006年初,NDFS和MapReduce從Nutch項(xiàng)目分離,DougCutting用兒子的棕黃色大象玩具的名字為項(xiàng)目起名為Hadoop.同年2月,ApacheHadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS的獨(dú)立發(fā)展。2008年1月,Hadoop成為Apache頂級(jí)項(xiàng)目,迎來了它的快速發(fā)展期。拓展鏈接:Hadoop的發(fā)展歷史2.流計(jì)算圖4.2.4流計(jì)算的發(fā)展圖4.2.5Twitter的分層數(shù)據(jù)處理架構(gòu)2.流計(jì)算圖4.2.4流計(jì)算的發(fā)展圖4.2.5Twitt拓展鏈接主要的流計(jì)算軟件系統(tǒng)目前,處理流數(shù)據(jù)的軟件系統(tǒng)主要有IBMInfoSphereStreams、TwitterStorm、Yahoo!S4、銀河流數(shù)據(jù)處理平臺(tái)(淘寶)、FacebookPuma等。Storm和S4是目前較為流行的開源分布式實(shí)時(shí)計(jì)算系統(tǒng)。Heron是Storm的替代產(chǎn)品,其外部接口和Storm保持兼容,在流數(shù)據(jù)處理性能方面與Storm相比有了大幅提升。拓展鏈接主要的流計(jì)算軟件系統(tǒng)3、圖計(jì)算圖4.2.6蛋白質(zhì)激素構(gòu)成圖(由2.7萬個(gè)節(jié)點(diǎn)和794萬條邊組成)目前通用的圖處理軟件主要包括兩類:一類是圖數(shù)據(jù)庫(kù),如Neo4j、InfiniGraph、OrientDB等;加一類是并行圖處理系統(tǒng),如GooglePregel、ApacheGiraph等3、圖計(jì)算圖4.2.6蛋白質(zhì)激素構(gòu)成圖(由2.7萬個(gè)節(jié)點(diǎn)和4、實(shí)時(shí)處理與批處理的整合2014年9月,大數(shù)據(jù)處理系統(tǒng)summingbird,它實(shí)現(xiàn)了批處理和流計(jì)算的整合(Hadoop+storm)。4、實(shí)時(shí)處理與批處理的整合2014年9月,大數(shù)據(jù)處理系統(tǒng)su結(jié)合生活實(shí)踐,查找資料,列舉靜態(tài)數(shù)據(jù)、

流數(shù)據(jù)處理實(shí)例。問題與討論:結(jié)合生活實(shí)踐,查找資料,列舉靜態(tài)數(shù)據(jù)、

流數(shù)據(jù)處理實(shí)例。問題Hadoop應(yīng)用實(shí)例:北京城市數(shù)據(jù)映像-流動(dòng)的城市“北京城市數(shù)據(jù)映像”項(xiàng)目采集了北京市地鐵一卡通數(shù)據(jù)、出租車GPS定位軌跡數(shù)據(jù)、移動(dòng)手機(jī)基站定位、地理位置微博數(shù)據(jù)、工商業(yè)POI地點(diǎn)等約2TB的數(shù)據(jù)。數(shù)據(jù)計(jì)算平臺(tái)采用了服務(wù)器集群、Hadoop和HBase架構(gòu)。通過收集北京市各相關(guān)行業(yè)的數(shù)據(jù),運(yùn)用大數(shù)據(jù)分析和可視化表達(dá)技術(shù),將城市的發(fā)展和變化過程變得直觀、透明和可視。大數(shù)據(jù)分析為城市管理提供了技術(shù)支撐,是發(fā)現(xiàn)、分析城市問題的新思維和技術(shù)方法。拓展鏈接Hadoop應(yīng)用實(shí)例:拓展鏈接4.2.2編程處理數(shù)據(jù)1、利用pandas模塊處理數(shù)據(jù)Pandas提供了series和DataFrame兩種數(shù)據(jù)結(jié)構(gòu),這兩種數(shù)據(jù)結(jié)構(gòu)可完成

數(shù)據(jù)的整理、計(jì)算、統(tǒng)計(jì)、分析及簡(jiǎn)單可視化。importpandasaspd4.2.2編程處理數(shù)據(jù)1、利用pandas模塊處理數(shù)據(jù)Pa(1)series(一維)S1=pd.series([166,178,180])Print(s1)運(yùn)行結(jié)果:016611782180dtype:int64S1=pd.series([166,178,180])Print(s1)運(yùn)行結(jié)果:016611782180dtype:int64創(chuàng)建1個(gè)series結(jié)構(gòu)類型的對(duì)象s1,存儲(chǔ)3名同學(xué)的身高值。(1)series(一維)S1=pd.series([166例2查看例1中s1對(duì)象的index、values屬性值。foriins1.index:

print(i)運(yùn)行結(jié)果:012foriins1.values:

print(i)運(yùn)行結(jié)果:166178180foriins1:

print(i)運(yùn)行結(jié)果:166178180例2查看例1中s1對(duì)象的index、values屬性值。f(2)dataFrame(二維)例3使用相等長(zhǎng)度列表的字典構(gòu)建一個(gè)DataFrame對(duì)象dfl,存儲(chǔ)3名同學(xué)的姓名、性別、圖書借閱次數(shù)數(shù)據(jù)。importpandasaspddata=(“姓名”:[“王靜怡”,“張佳妮”,“李臣武”],”性別”:[“女”,“女”,“男”],”借閱次數(shù)”:[28,56,37])dfl=pd.DataFrame(data,columns=["姓名",“性別",“借閱次數(shù)"])print(df1)運(yùn)行結(jié)果:設(shè)定dfl中數(shù)據(jù)列的順序姓名性別借閱次數(shù)0王靜怡女281張佳妮女562李臣武男37(2)dataFrame(二維)例3使用相等長(zhǎng)度列表的字典例4讀取Excel文件“test.xlsx”中的數(shù)據(jù),創(chuàng)建DataFrame對(duì)象df。importpandasaspddf=pd.read_excel("test.xlsx")print(df)運(yùn)行結(jié)果:地區(qū)規(guī)格單位價(jià)格采價(jià)點(diǎn)采集時(shí)間0北京市紅富士一級(jí)元/500克2.98超市211月中旬1北京市紅富士一級(jí)元/500克4.88超市111月中旬

2天津市紅富士一級(jí)元/500克

5.00超市111月中旬

3天津市紅富士一級(jí)元/500克

5.00超市211月中旬石家莊市紅富士一級(jí)元/500克

3.98超市111月中旬石家莊市紅富士一級(jí)元/500克

3.98超市211月中旬例4運(yùn)行結(jié)果:例5查看df1對(duì)象的索引、列標(biāo)題、值,并將行、列轉(zhuǎn)置。foriindf1.index:

print(i)運(yùn)行結(jié)果:012foriindf1.columns:print(i)運(yùn)行結(jié)果:姓名性別借閱次數(shù)foriindf1.index:print(i)運(yùn)行結(jié)果:[‘王靜怡’‘女’56][‘張佳怩’‘女’52][‘李臣武’‘男’68]Df1.T#轉(zhuǎn)置行、列運(yùn)行結(jié)果:012姓名王靜怡張佳怡李臣武性別女女男借閱次數(shù)565268例5查看df1對(duì)象的索引、列標(biāo)題、值,并將行、列轉(zhuǎn)置。fo2.利用matplotlib模塊繪圖表4.2.4常用繪圖函數(shù)2.利用matplotlib模塊繪圖表4.2.4常用繪圖函例10繪制正弦曲線圖importnumpyasnpimportmatplotlib.pyplotaspltx=np.linspace(0,10,1000)yl=np.sin(x)y2=np.sin(x**2)plt.figure(figsize=(8,4))#創(chuàng)建圖表對(duì)象plt.title(“sin(x)andsin(x**2)”)#設(shè)置圖表標(biāo)題文字plt.plot(x,y1,label=“sin(x)”,color=“r”,linewidth=2)

#繪制線形圖plt.scatter(x,y2,label="sin(x**2)")#繪制散點(diǎn)圖plt.ylim(-1.5,1.5)

#設(shè)置y坐標(biāo)軸的取值范圍plt.xlim(0,10)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論