高考信息技術(shù)復(fù)習(xí)專題梳理 【核心知識 精講精研】 表格數(shù)據(jù)的處理及大數(shù)據(jù)處理_第1頁
高考信息技術(shù)復(fù)習(xí)專題梳理 【核心知識 精講精研】 表格數(shù)據(jù)的處理及大數(shù)據(jù)處理_第2頁
高考信息技術(shù)復(fù)習(xí)專題梳理 【核心知識 精講精研】 表格數(shù)據(jù)的處理及大數(shù)據(jù)處理_第3頁
高考信息技術(shù)復(fù)習(xí)專題梳理 【核心知識 精講精研】 表格數(shù)據(jù)的處理及大數(shù)據(jù)處理_第4頁
高考信息技術(shù)復(fù)習(xí)專題梳理 【核心知識 精講精研】 表格數(shù)據(jù)的處理及大數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

專題9表格數(shù)據(jù)的處理及大數(shù)據(jù)處理知識要點1常用表格數(shù)據(jù)的處理1.數(shù)據(jù)整理

(1)目的:檢測和修正錯漏的數(shù)據(jù),整合數(shù)據(jù)資源,規(guī)整數(shù)據(jù)格式,提高數(shù)據(jù)質(zhì)量。(2)常見數(shù)據(jù)問題:數(shù)據(jù)缺失,數(shù)據(jù)重復(fù),數(shù)據(jù)異常,邏輯錯誤,格式不一致等。2.數(shù)據(jù)計算公式:用戶自定義的數(shù)學(xué)表達(dá)式函數(shù):電子表格軟件提供的完成特定計算的命令

格式:(1)必須以“=”開頭(2)連續(xù)區(qū)域用冒號,不連續(xù)用逗號如“=average(A1:A5,A10:A15)”知識要點1常用表格數(shù)據(jù)的處理2.數(shù)據(jù)計算絕對引用和相對引用=D3+E3+F3+H3=SUM(D3:F3,H3)=B3/B$8*100知識要點1常用表格數(shù)據(jù)的處理3.數(shù)據(jù)可視化(1)數(shù)據(jù)可視化的作用

1.快捷觀察與追蹤數(shù)據(jù)2.實時分析數(shù)據(jù)3.增強(qiáng)數(shù)據(jù)的解釋力與吸引力

(2)可視化的基本方法(3)可視化工具Excel魔鏡中國領(lǐng)先的大數(shù)據(jù)云分析平臺Tableau[t??blo?]商業(yè)智能分析軟件d3.jsHighchartsGoogleCharts基于python的matplotlib1.下列關(guān)于數(shù)據(jù)整理的說法,正確的是(

)A.數(shù)據(jù)集中的缺失值一般用任意值填充B.數(shù)據(jù)集中的異常數(shù)據(jù)須直接刪除或忽略C.數(shù)據(jù)集中的重復(fù)數(shù)據(jù)可進(jìn)行合并或刪除D.數(shù)據(jù)集中格式不一致的數(shù)據(jù),一般保留一種格式的數(shù)據(jù),刪除其他格式的數(shù)據(jù)C解析選項A,缺失數(shù)據(jù)可以忽略或采用平均值、中間值或概率統(tǒng)計值進(jìn)行填充,不能用任意值填充,選項錯誤;選項B,異常數(shù)據(jù)可能是要去掉的噪聲數(shù)據(jù)或含有重要信息的數(shù)據(jù),需根據(jù)具體情況進(jìn)行分析判斷,選項錯誤;選項D,格式不一致的數(shù)據(jù)需要根據(jù)后續(xù)分析和挖掘的需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換。2.使用Excel軟件處理某地部分市場菜籃子價格數(shù)據(jù),如圖所示。計算表中“平均值”列數(shù)據(jù):選擇I3單元格輸入公式,然后用自動填充功能完成其他單元格的計算。則I3單元格中可使用的公式為(

)A.=SUM(C3,H3)/6B.=(3.5+3+3+3+3+3)/6C.(C3+D3+E3+F3+G3+H3)/6D.=AVERAGE(C3:H3)D知識要點2大數(shù)據(jù)處理1.大數(shù)據(jù)處理的分治思想分治就是把一個復(fù)雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。分——將問題分解為規(guī)模更小的子問題治——將規(guī)模更小的子問題逐個擊破合——將已解決的子問題合并,最終得出原問題的解知識要點2大數(shù)據(jù)處理2.大數(shù)據(jù)處理類型①靜態(tài)數(shù)據(jù):在處理時已收集完成、在計算時不會發(fā)生改變的數(shù)據(jù),一般采用批處理方式。②流數(shù)據(jù):不間斷地、持續(xù)地到達(dá)的實時數(shù)據(jù),隨著時間的流逝,流數(shù)據(jù)的價值也隨之降低,通過實時分析計算可以得到更有價值的分析結(jié)果。③圖數(shù)據(jù):現(xiàn)實世界中的許多數(shù)據(jù),如社交網(wǎng)絡(luò)、道路交通等數(shù)據(jù),可采用圖計算進(jìn)行處理。知識要點2大數(shù)據(jù)處理3.批處理計算(Hadoop、Spark)Hadoop是一個運(yùn)行于計算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于靜態(tài)數(shù)據(jù)的批處理計算。Spark是一種與hadoop相似的,應(yīng)用較廣的開源分布式計算架構(gòu)。Spark啟用了內(nèi)存存儲中間結(jié)果,運(yùn)行速度比hadoop快。知識要點2大數(shù)據(jù)處理HDFS將大規(guī)模數(shù)據(jù)以文件形式、用多個副本保存在不同的存儲節(jié)點中,并用分布式系統(tǒng)進(jìn)行管理。HDFS容錯性高,適合部署在廉價的機(jī)器上。比如:云盤、網(wǎng)盤的底層一般采用HDFS實現(xiàn)HBase建立在HDFS提供的底層存儲基礎(chǔ)上,采用基于列的存儲方式,主要用來存儲非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。MapReduce能夠處理大規(guī)模數(shù)據(jù)集的并行運(yùn)算,主要由Map(映射)和Reduce(歸納)兩個函數(shù)構(gòu)成。其核心處理思想是將任務(wù)分解并分發(fā)到多個節(jié)點上進(jìn)行處理,最后匯總輸出。知識要點2大數(shù)據(jù)處理知識要點2大數(shù)據(jù)處理4.流計算(Storm、Heron、Streams)

流計算系統(tǒng)可以簡單、高效、可靠地實現(xiàn)實時數(shù)據(jù)的獲取、傳輸和存儲。應(yīng)用于網(wǎng)絡(luò)監(jiān)控、傳感器網(wǎng)絡(luò)、航空航天、氣象測控和金融服務(wù)等領(lǐng)域。5.圖計算(Neo4j、GooglePregel)

現(xiàn)實世界中的很多數(shù)據(jù)是以圖的形式呈現(xiàn)的,或者是可以轉(zhuǎn)換為圖以后再進(jìn)行分析的,如社交網(wǎng)絡(luò)、網(wǎng)絡(luò)瀏覽與購買行為、傳染病的傳播路徑等。6.實時處理與批處理的整合(Hadoop+Storm)平臺的整合縮短了批處理與流處理之間的切換延時時間,有利于減少系統(tǒng)的開銷,降低使用成本。3.在國家級計算機(jī)考試時,由于報名人數(shù)較多,在各地市報名并把數(shù)據(jù)匯總在一起,該算法主要體現(xiàn)的思想是(

)A.順序查找法 B.枚舉法C.分治算法 D.解析法解析把大的問題,分為若干個小的問題,再轉(zhuǎn)換為整的問題進(jìn)行分析,體現(xiàn)了大數(shù)據(jù)的分治思想。C4.(2022·浙江名校協(xié)作體)下列說法正確的是(

)A.HDFS是一個容錯性較低的系統(tǒng),適合部署在廉價的機(jī)器上B.MapReduce是一種聚合式的并行編程模型C.Twitter架構(gòu)實現(xiàn)了批處理系統(tǒng)與流計算在一個平臺架構(gòu)下的整合D.標(biāo)簽云是通過給特征詞賦予權(quán)重進(jìn)行統(tǒng)計分析解析選項A,HDFS是一個高度容錯性的系統(tǒng),選項錯誤;選項B,MapReduce是一種分布式的并行編程模型,選項錯誤;選項D,標(biāo)簽云是文本可視化,選項錯誤。C5.下列關(guān)于Hadoop平臺的說法正確的是(

)A.該平臺只能處理結(jié)構(gòu)化數(shù)據(jù)B.該平臺可以節(jié)省大型和復(fù)雜問題的處理時間C.處理信息必須通過可視化體現(xiàn)處理的結(jié)論D.該平臺中每臺計算機(jī)都在處理相同的數(shù)據(jù)解析選項A,Hadoop平臺可以處理非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);選項C,該平臺可以以可視化形式輸出,也可以文本輸出;選項D,該平臺采用分布式文件格式,不同計算機(jī)處理不同的數(shù)據(jù)。B6.下列應(yīng)用中涉及靜態(tài)數(shù)據(jù)處理的是(

)A.統(tǒng)計上個月的交易量排行榜B.導(dǎo)航系統(tǒng)實時更新數(shù)據(jù)C.統(tǒng)計在線直播的點贊率D.不斷更新的電力數(shù)據(jù)解析

靜態(tài)數(shù)據(jù)為已經(jīng)收集完畢并不會發(fā)生變化的數(shù)據(jù)。選項BCD都處于正在收集狀態(tài)。A7.(2022·金衢六校高二)下列有關(guān)大數(shù)據(jù)的說法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論