版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
常用表格數(shù)據(jù)的處理、大數(shù)據(jù)處理要點導引課標梳理教材重點課標要求學業(yè)質量水平常用表格數(shù)據(jù)的處理1.能根據(jù)實際需求,對表格數(shù)據(jù)進行簡單整理、計算和可視化呈現(xiàn)2.能采用合適的方式分析數(shù)據(jù)和可視化呈現(xiàn)數(shù)據(jù),并能從中提取有用信息、形成結論2-1大數(shù)據(jù)處理1.了解大數(shù)據(jù)處理架構和基本思路2.會使用Python進行簡單的數(shù)據(jù)處理,并能從中提取有用信息形成結論1-1教材研析☆數(shù)據(jù)處理的核心是數(shù)據(jù),在數(shù)據(jù)分析、挖掘前通常先對數(shù)據(jù)進行整理。1數(shù)據(jù)整理(1)目的:數(shù)據(jù)整理的目的是檢測和修正錯漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質量。(2)常見的數(shù)據(jù)問題及處理方法數(shù)據(jù)問題處理方法數(shù)據(jù)缺失問題最簡單的處理辦法是忽略含有缺失值的實例和屬性。還可以采用平均值、中間值或概率統(tǒng)計值來填充缺失值數(shù)據(jù)重復問題檢測數(shù)據(jù)集中的重復數(shù)據(jù)可以從字段和記錄兩個方面著手,檢查到重復數(shù)據(jù),在審核后可進行合并或刪除等操作處理數(shù)據(jù)異常問題異常數(shù)據(jù)指數(shù)據(jù)集中不符合一般規(guī)律的數(shù)據(jù)對象,它可能是要去掉的噪聲,也可能是含有重要信息的數(shù)據(jù)對象邏輯錯誤問題數(shù)據(jù)集中的屬性值與實際值不符,或違背業(yè)務規(guī)則,或不符合邏輯格式不一致問題對于不同來源的數(shù)據(jù)中存在格式不一致的情況,可根據(jù)后續(xù)分析和挖掘的需要進行數(shù)據(jù)轉換典例1下列有關數(shù)據(jù)整理的說法錯誤的是()A.采用平均值、中間值或概率統(tǒng)計值來填充缺失值B.檢查到重復數(shù)據(jù),在審核后可進行合并或刪除操作C.異常數(shù)據(jù)不符合一般規(guī)律,可直接刪除D.對邏輯錯誤的數(shù)據(jù)進行判別和剔除,格式不一致的數(shù)據(jù)可進行數(shù)據(jù)轉換解析
異常數(shù)據(jù)可能是含有重要信息的數(shù)據(jù)對象,需要進行判別后再決定是否剔除。C2Excel數(shù)據(jù)計算1.常用表格數(shù)據(jù)處理和統(tǒng)計分析的工具:SPSS、SAS、MATLAB等,也可以通過R、Python、Java等計算機語言編程進行數(shù)據(jù)處理。2.Excel數(shù)據(jù)計算與分析常見操作:(1)公式計算步驟①選中結果單元格②輸入等號“=”或者單擊“插入函數(shù)”按鈕
③編輯公式(公式顯示在編輯欄內)④回車確認(2)公式中可以引用函數(shù)、單元格、區(qū)域、數(shù)值、字符等。結果單元格內顯示計算結果,編輯欄上顯示公式。(3)常用函數(shù)①SUM求和例如“=SUM(B1,D2:E5)”,對B1單元格和D2:E5區(qū)域的數(shù)據(jù)求和②AVERAGE求平均例如“=AVERAGE(B2:C6,E8)”,對B2:C6區(qū)域和E8單元格的數(shù)據(jù)求平均③MAX求最大值例如“=MAX(B1,D2:E5)”,對B1單元格和D2:E5區(qū)域的數(shù)據(jù)求最大值④MIN求最小值例如“=MIN(B2:C6,E8)”,對B2:C6區(qū)域和E8單元格的數(shù)據(jù)求最小值(4)要點:“=”是公式計算的標志,公式必須以“=”開頭。沒有“=”,系統(tǒng)認為是普通的字符輸入,不予計算。(5)自動填充
相對引用&絕對引用①相對引用<1>被填充單元格和填充的樣板單元格公式在形式上保持一致。<2>填充時公式中行號或列號發(fā)生遞變,遞變值為被填充單元格行號或列號與樣板單元格行號或列號的差值。<3>系統(tǒng)默認在自動填充時發(fā)生相對引用②絕對引用某些情況下,自動填充時不希望行號或列號發(fā)生改變,而因為自動填充會默認發(fā)生相對引用的改變,則在不希望變化而實際上發(fā)生了變化的行號或列號前加上$鎖定不讓其發(fā)生改變。③總結規(guī)律<1>按列縱向填充,默認相對引用變化的是行號,若需某行號不變,則需要在樣板單元格(作為樣板進行自動填充的單元格)相應的行號前加絕對引用符號$進行鎖定。<2>按行橫向填充,默認相對引用變化的是列號,若需某列號不變,則需要在樣板單元格相應的列號前加絕對引用符號$進行鎖定。④以有公式計算的單元格為樣板單元格對其他單元格進行自動填充,則樣板單元格和被填充單元格的公式在形式上保持高度一致。⑤對有公式計算的單元格A進行“復制”操作,在別的單元格B執(zhí)行“粘貼”操作,等同于A向B自動填充。3.用Excel軟件進行數(shù)據(jù)計算的一般方法(1)分析表格數(shù)據(jù)(2)抽象計算模型(3)計算(4)分析計算結果,描述其含義典例2寫出下圖所示數(shù)據(jù)中結果單元格的公式。
(1)F2單元格趙文昊同學的總分公式
=SUM(C2:E2)(或=C2+D2+E2)(2)G2單元格趙文昊同學的平均分公式
=AVERAGE(C2:E2)(或=F2/3)(3)C18單元格語文學科最高分的公式
=MAX(C2:C16)(4)C19單元格語文學科最低分的公式
=MIN(C2:C16)(5)C20單元格的語文“學科百分比(%)”【語文學科總分÷F17單元格中所有學科的總分×100】向右自動填充得到其他兩門學科的“學科百分比(%)”數(shù)據(jù),求C20單元格的公式=C17/$F17
100解析
橫向自動填充,默認發(fā)生相對引用,被填充單元格的列號相對樣板單元格發(fā)生改變,而公式中的分母F17單元格不能變化,所以將分母F17單元格的列號F加上$鎖定不讓它發(fā)生改變。3數(shù)據(jù)圖表呈現(xiàn)1.用Excel軟件創(chuàng)建圖標呈現(xiàn)數(shù)據(jù)的一般方法:分析表格數(shù)據(jù)
選擇圖表類型
創(chuàng)建圖表
檢查圖表,表述數(shù)據(jù)特征。2.圖表類型:依據(jù)數(shù)據(jù)間的關系選擇相應的圖表類型。(圖表是用視覺形式向人們展示數(shù)據(jù)的一種方法。常見的圖表類型有柱形圖、折線圖、餅圖、雷達圖、氣泡圖等)圖表類型作用
柱形圖常常用來顯示一段時間內數(shù)據(jù)變化或比較各項數(shù)據(jù)之間的情況
雷達圖可以用來表現(xiàn)一個周期內數(shù)值的變化,也可以用來表現(xiàn)多個對象/維度之間的關系
折線圖常常用來顯示隨時間而變化的連續(xù)數(shù)據(jù),因此非常適用于顯示在相等時間間隔下數(shù)據(jù)的趨勢
散點圖用于表現(xiàn)2~3個變量之間的關系,以圓點的多少或疏密展示成對的數(shù)和它們所代表的趨勢之間的關系
餅圖常用于顯示一個數(shù)據(jù)系列中各項的大小與各項總和的比例,也可以顯示出整個餅圖的百分比
氣泡圖一次比較3~4個變量,X軸、Y軸各表示1個變量,第3個變量通過氣泡的面積大小表示,第4個變量通過氣泡的顏色來體現(xiàn)4大數(shù)據(jù)處理的基本思想與架構1.大數(shù)據(jù)處理的分治思想(1)把一個復雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。(2)若這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至求出解為止。2.大數(shù)據(jù)處理類型(1)靜態(tài)數(shù)據(jù):在處理時已收集完成,在計算時不會發(fā)生改變的數(shù)據(jù),一般采用批處理計算進行處理。(2)流數(shù)據(jù):不間斷地、持續(xù)地到達的實時數(shù)據(jù),隨著時間的流逝,流數(shù)據(jù)的價值也隨之降低,可采用流計算進行實時分析。(3)圖數(shù)據(jù):現(xiàn)實世界中的許多數(shù)據(jù),如社交網(wǎng)絡、道路交通等數(shù)據(jù),可采用圖計算進行處理。大數(shù)據(jù)處理類型
3.批處理計算(1)Hadoop:一個可運行于大規(guī)模計算機集群上的分布式系統(tǒng)基礎架構,適用于靜態(tài)數(shù)據(jù)的批處理計算。(2)Hadoop計算平臺的組成①Common公共庫②分布式文件系統(tǒng)HDFS③分布式數(shù)據(jù)庫HBase④分布式并行計算模型MapReduce(3)分布式文件系統(tǒng)HDFS①主要功能是將大規(guī)模海量數(shù)據(jù)以文件的形式、用多個副本保存在不同的存儲節(jié)點中,并用分布式系統(tǒng)進行管理。②是一個高度容錯性系統(tǒng),適合部署在廉價的機器上(云盤、網(wǎng)盤的底層一般采用HDFS)。(4)分布式數(shù)據(jù)庫HBase建立在HDFS提供的底層存儲基礎上,采用基于列的存儲方式,主要用來存儲非結構化數(shù)據(jù)和半結構化數(shù)據(jù),可管理PB級的大數(shù)據(jù)。(5)分布式并行計算模型MapReduce①是一種分布式并行編程模型,能夠處理大規(guī)模數(shù)據(jù)集的并行運算,主要由Map(映射)和Reduce(歸納)2個函數(shù)構成。②核心處理思想:將任務分解并分發(fā)到多個節(jié)點上進行處理,最后匯總輸出。4.流計算:流計算系統(tǒng)可以簡單、高效、可靠地實現(xiàn)實時數(shù)據(jù)的獲取、傳輸和存儲,在與數(shù)據(jù)庫、Hadoop、編程語言等整合后可開發(fā)出功能強大的實時計算與分析應用。5.圖計算:現(xiàn)實世界中的很多數(shù)據(jù)是以圖的形式呈現(xiàn)的,或者是可以轉換為圖以后再進行分析的,如社交網(wǎng)絡、網(wǎng)絡瀏覽與購買行為、傳染病的傳播路徑等。6.實時處理與批處理的整合典例3下列有關大數(shù)據(jù)處理的思想與框架的說法正確的是()A.大數(shù)據(jù)采用“分治”思想處理B.對靜態(tài)數(shù)據(jù)進行實時處理C.Hadoop是對流數(shù)據(jù)進行批處理的架構D.實時處理和批處理不能并存解析
B.靜態(tài)數(shù)據(jù)適合進行批處理,流數(shù)據(jù)才需要實時處理;C.Hadoop是對靜態(tài)數(shù)據(jù)進行批處理的架構;D.實時處理和批處理可以并存。A典例4下列關于流數(shù)據(jù)的描述,不正確的是()A.數(shù)據(jù)必須采集完成后處理B.數(shù)據(jù)價值隨著時間的流逝降低C.可以采用流計算進行實時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技驅動農(nóng)產(chǎn)品電商
- 科技農(nóng)業(yè)投資視角
- 專業(yè)房產(chǎn)經(jīng)紀服務協(xié)議2024版范本版
- 二零二四宇通客車零部件銷售代理及市場拓展合作協(xié)議3篇
- 2025年度電商新零售線下體驗店合作合同3篇
- 專業(yè)銷售服務協(xié)議書2024年3篇
- 2025年度跨境電商物流中心場地承包經(jīng)營合同4篇
- 2025年度航空航天復合材料加工技術合同4篇
- 2025年度茶樓裝修工程合同標準樣本8篇
- 2025年度教育機構場地租賃保證金合同8篇
- 2024版塑料購銷合同范本買賣
- 【高一上】【期末話收獲 家校話未來】期末家長會
- JJF 2184-2025電子計價秤型式評價大綱(試行)
- GB/T 44890-2024行政許可工作規(guī)范
- 有毒有害氣體崗位操作規(guī)程(3篇)
- 二年級下冊加減混合豎式練習360題附答案
- 吞咽解剖和生理研究
- TSG11-2020 鍋爐安全技術規(guī)程
- 汽輪機盤車課件
- 異地就醫(yī)備案個人承諾書
- 蘇教版五年級數(shù)學下冊解方程五種類型50題
評論
0/150
提交評論