版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
專題04數(shù)據(jù)處理與應(yīng)用
【學(xué)習目標】
令理解數(shù)據(jù)處理的重要性:使學(xué)生能夠理解數(shù)據(jù)在現(xiàn)代信息社會中的應(yīng)用價值,
以及準確處理數(shù)據(jù)對于數(shù)據(jù)分析結(jié)果的影響。
令掌握基本的數(shù)據(jù)整理技巧:教授學(xué)生如何識別和處理數(shù)據(jù)缺失、重復(fù)、異常、
邏輯錯誤和格式不一致等問題,確保數(shù)據(jù)的質(zhì)量和可用性。
令熟悉常用數(shù)據(jù)處理工具:介紹Excel等常用數(shù)據(jù)處理軟件的基本操作,包括
公式的應(yīng)用、單元格引用、算術(shù)及文本運算符的使用,以及函數(shù)的應(yīng)用等。
【思維導(dǎo)圖】
mimpy、/做事的篌■性和處理目的
/N"失
pandas—/\
1/敦雪處理的鐫見向遇弋一99
ma*plo,l'bPythonaMHR?n?*Kffilfl、/
S?>?劉UrtaFramea種的*ffi方法\
/>嬉程處喇5據(jù)-
H用matploHibBH迸圖展示敵!6分析結(jié)黑//\1/Z效富整理的目的和方法
\1//-3?aWH*?nSWK?H
\1//ate馥失問?及如建方法<—M框“18關(guān)聯(lián)住估計嫌失侵
用£提取/使用手均0.中間(891斷itfSUIJtM失信
文本內(nèi)容的處電諼程、
fflg分折,/\\//7一
結(jié)果矍觀/\\____________________//敢81整理<——V
\Z、,/\、、-合并*事除**改隹的票理方式
中文的拉木及1?法分類泗一,文本效搟處理-T數(shù)據(jù)處理與應(yīng)用概覽
/、一__________Z\\/?栓窩字段中&■性有救敗盤£的網(wǎng)
將liMl的方法曷諄估造款的應(yīng)用,1
/、、SW?a^?KT-BS)?</?KtIR8S£K>n8t
WSS-J
/1、、?1HB”快的心,住與方法(-£*&住W杓it**住的*發(fā)
>-文本款身分析的其里應(yīng)用,
情B分析—/1、-St-標*化表達不同東方相同丁住安定:
大做盤的WASH建筑求、/|x■??開*.?B.豳it.■元18引用*0通)|楊姬僦的公K種圍
H對EW在大政*處理中的座用示例-A
Bt*理計口號海計身的區(qū)別:SW用場?一》大斂據(jù)處理-
?!斑xM的獻《::
MapRe4"&?UI?S!的W押W&用tXM
K?n85ftH8Bea9S91??r/I/,Enel中99公式便用技巧<V\
/^木運*苻m比較適復(fù)用的使用
\數(shù)客計nJy-文*廖我逅*相?4?的應(yīng)用
\、*用由效的使用電注
\/?3?fii8ns?ss
、0據(jù)圖表呈&<利用Ml創(chuàng)建S1*井邊行取!8分析*示
、~險查困*的正修隹和冕S!隹
【知識梳理】
知識點一:數(shù)據(jù)整理
1.常見的數(shù)據(jù)問題及其處理方法:
(1)數(shù)據(jù)缺失:數(shù)據(jù)集中普遍存在的問題,一般可能是數(shù)據(jù)丟失或數(shù)據(jù)本身不
完整
處理方法:忽略或采用平均值、中間值或概率統(tǒng)計值填充。
(2)數(shù)據(jù)重復(fù):在多數(shù)據(jù)源合并時經(jīng)常出現(xiàn),導(dǎo)致資源冗余和浪費。
處理方法:進一步審核的基礎(chǔ)上進行合并或刪除。
(3)異常數(shù)據(jù):數(shù)據(jù)集中的某些數(shù)據(jù)不符合一般規(guī)律,例:健康系統(tǒng)顯示體溫
到達50攝氏度。
處理方法:這些有可能是要去掉的噪聲,也有可能是含有重要信息的數(shù)據(jù)對象。
(4)邏輯錯誤:屬性與實際不符,違背業(yè)務(wù)規(guī)則或邏輯,例:某人的生日為13
月40日
處理方法:對應(yīng)的字段需要設(shè)置取值范圍判斷。
(5)格式不一致:多出現(xiàn)在數(shù)據(jù)來源多樣的系統(tǒng)中
處理方法:將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式后再進行處理。
2.常用的數(shù)據(jù)處理和統(tǒng)計分析工具有Excel、SPSS、SAS、MATLAB等軟件,
也可以通過R、Python、Java等計算機語言編程進行數(shù)據(jù)處理。
3.常見的圖表類型有:柱形圖、折線圖、餅圖、雷達圖、散點圖、氣泡圖等。
知識點二:大數(shù)據(jù)處理
L大數(shù)據(jù)處理的基本思想:"分治思想",即將一個復(fù)雜的問題拆分成兩個或多
個相同或相似的子問題,找到求這幾個問題的解法之后,再找出合適的方法把它
們組合成求整個問題的解法。
2.大數(shù)據(jù)處理的數(shù)據(jù)類型:
(1)靜態(tài)數(shù)據(jù):在處理時已經(jīng)收集完成、在計算時不會發(fā)生改變的數(shù)據(jù)
處理方法:批處理
(2)流數(shù)據(jù):不間斷地、持續(xù)地到達的實時數(shù)據(jù)。流數(shù)據(jù)的價值會隨著時間的
流逝降低。
處理方法:流計算或?qū)崟r分析計算
(3)圖數(shù)據(jù):現(xiàn)實世界中以圖形式展現(xiàn)的數(shù)據(jù)。如社交網(wǎng)絡(luò)、道路交通等
處理方法:圖計算
3批處理
Hadoop是一個可運行于大規(guī)模計算機集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于
靜態(tài)數(shù)據(jù)的批量計算。Hadoop計算平臺主要包括Common公共庫、分布式文
件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、分布式并行計算模型MapReduce等多
個模塊。
(1)分布式文件系統(tǒng)(HDFS):將大規(guī)模海量數(shù)據(jù)以文件的形式、用多個副
本保存在不同的存A儲節(jié)點中,并用分布式系統(tǒng)管理。HDFS是一個高度容錯性
的文件系統(tǒng),云盤、網(wǎng)盤的底層一般采用HDFS實現(xiàn)。
(2)分布式數(shù)據(jù)庫(HBase):HBase建立在HDFS提供的底層存儲基礎(chǔ)上,
采用基于列的存儲方式,主要存儲韭結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),具有良好的橫向
擴展能力。
(3)分布式并行計算模型(MapReduce):MapReduce是一種分布式并行
編程模型,能夠進行大規(guī)模的并行計算。其核心處理思想是將任務(wù)分解并分發(fā)到
多個節(jié)點上進行并行處理,最后匯總輸出。
4.流計算
流計算主要用于處理流數(shù)據(jù),如大型購物網(wǎng)絡(luò)的廣告推薦、社交網(wǎng)絡(luò)的個性化推
薦等。處理流數(shù)據(jù)的軟件主要有TwitterStorm,Heron,Yahoo!S4等。Storm
和S4是目前較為流行的開源分布式實時計算系統(tǒng)。
5.圖計算
現(xiàn)實世界中的很多數(shù)據(jù)以圖的形式呈現(xiàn),或者是需要轉(zhuǎn)換為圖后才能分析。目前
圖處理的軟件主要分為兩類:圖數(shù)據(jù)庫和并行圖處理系統(tǒng)。
知識點三:編程處理數(shù)據(jù)
1.利用pandas模塊處理數(shù)據(jù)
2.利用matplotlib模塊繪圖
3.利用pathon分析數(shù)據(jù)實踐
知識點四:編程處理數(shù)據(jù)
L文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報分析、自動摘要、自動校對、論文查
重、文本分類、
垃圾郵件過濾、機器翻譯、自動應(yīng)答等方面。
2.典型的文本處理過程主要包括分詞、特征提取、數(shù)據(jù)分析、結(jié)果呈現(xiàn)等。
3.中文分詞方法
(1)基于詞典的分詞方法用詞典中的詞語進行比對。案例:Python中的jieba
庫
(2)基于統(tǒng)計的分詞方法:根據(jù)上下文相鄰字出現(xiàn)的頻率統(tǒng)計。
(3)基于規(guī)則的分詞方法:根據(jù)現(xiàn)有資料和規(guī)律學(xué)習實現(xiàn)分詞。
4.特征提取方法
(1)根據(jù)專家知識挑選有價值的特征。(約等于人工分析)
(2)用數(shù)學(xué)建模的方法構(gòu)造評估函數(shù)自動選取特征。(目前大多采用)
5.結(jié)果呈現(xiàn)方式:
(1)標簽云:用文字大小形式表現(xiàn)詞語的重要性
(2)文本情感分析:根據(jù)分析顆粒度可以分為詞語級、語句級、整篇文章級三
類。
知識點五:數(shù)據(jù)可視化
1,數(shù)據(jù)可視化是將數(shù)據(jù)以圖形、圖像等形式表示、直接呈現(xiàn)數(shù)據(jù)中蘊含信息的
處理過程。
2,可視化的作用:快速觀察與追蹤數(shù)據(jù)、實時分析數(shù)據(jù)、增強數(shù)據(jù)的解釋力和
吸引力等。
3.可視化的基本方法
(1)有關(guān)時間趨勢的可視化:展示隨時間的推移而變化的數(shù)據(jù),可采用柱形圖、
折線圖等。
(2)有關(guān)比例的可視化:展示各部分的大小及其占總體比例關(guān)系的數(shù)據(jù),可以
采用餅圖、環(huán)形圖(也稱面包圈圖)等。
(3)有關(guān)關(guān)系的可視化:探究具有關(guān)聯(lián)性數(shù)據(jù)的分布關(guān)系,可以使用散點圖、
氣泡圖等。
(4)有關(guān)差異的可視化:包含多種變量的對象與同類之間的差異和聯(lián)系,可以
采用雷達圖。
(5)有關(guān)空間關(guān)系的可視化:地理數(shù)據(jù)或者基于地理數(shù)據(jù)的分析結(jié)果可以運用
不同顏色或圖表
直接在地圖上進行展示。
知識點六:大數(shù)據(jù)的典型應(yīng)用
L大數(shù)據(jù)應(yīng)用領(lǐng)域:隨著大數(shù)據(jù)在各行業(yè)的應(yīng)用,數(shù)據(jù)成為核心資產(chǎn)。目前,大
數(shù)據(jù)廣泛應(yīng)用于著
金融、交通、環(huán)境、醫(yī)療、能源、農(nóng)業(yè)等領(lǐng)域,極大地促進了各行業(yè)的發(fā)展。
2.大數(shù)據(jù)在電子商務(wù)方面的應(yīng)用;精準營銷基于用戶購買行為挖掘用戶偏好;倉
儲管理實現(xiàn)商品
自動補貨;供應(yīng)鏈管理實現(xiàn)最優(yōu)配送路徑;智能網(wǎng)站分析用戶后向用戶智能推薦
商品。
【題型精講】
例L
在數(shù)據(jù)處理與應(yīng)用中,數(shù)據(jù)整理的目的是什么?
A.提高數(shù)據(jù)存儲量
B.檢測和修正錯漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量
C.加快數(shù)據(jù)處理速度
D.擴大數(shù)據(jù)來源
【答案】B
【講解】數(shù)據(jù)整理的目的是為了確保數(shù)據(jù)的準確性和可用性具體包括以下幾點:
檢測和修正錯漏的數(shù)據(jù):在數(shù)據(jù)收集過程中,可能會出現(xiàn)輸入錯誤、遺漏或其他
形式的誤差,數(shù)據(jù)整理有助于發(fā)現(xiàn)并修正這些錯誤,提高數(shù)據(jù)的準確性。
整合數(shù)據(jù)資源:當數(shù)據(jù)來自不同的來源時,數(shù)據(jù)整理可以幫助合并這些數(shù)據(jù),確
保數(shù)據(jù)的一致性和完整性,便于后續(xù)分析。
規(guī)整數(shù)據(jù)格式:不同來源的數(shù)據(jù)可能有不同的格式,數(shù)據(jù)整理可以將這些數(shù)據(jù)轉(zhuǎn)
換為統(tǒng)一的格式,便于處理和分析。
提高數(shù)據(jù)質(zhì)量:通過上述步驟,數(shù)據(jù)整理最終可以提高數(shù)據(jù)的整體質(zhì)量,為后續(xù)
的數(shù)據(jù)分析和決策提供堅實的基礎(chǔ)。
臃
在Excel軟件中,如何進行數(shù)據(jù)的計算?
A.使用文本連接運算符
B.使用算術(shù)運算符如人、*、/等
C.使用函數(shù)如SUM、AVERAGE等
D.所有以上都包括
【答案】D
【講解】在Excel軟件中進行數(shù)據(jù)計算,可以使用多種方法,包括但不限于:
使用算術(shù)運算符:Excel支持使用常見的算術(shù)運算符進行基本的數(shù)學(xué)運算,如加
(+)、減(-)、乘(*)、除(/)以及乘方(人)等。
使用函數(shù):Excel提供了大量的內(nèi)置函數(shù),如SUM用于求和、AVERAGE用于計
算平均值、MIN和MAX用于查找最小值和最大值等,這些函數(shù)可以進行更復(fù)雜
的數(shù)學(xué)和統(tǒng)計計算。
使用文本連接運算符"&":雖然主要用于文本處理,但運算符也可以用來組
合文本字符串,有時在處理包含數(shù)字的文本數(shù)據(jù)時會用到。
【強化訓(xùn)練】
L大數(shù)據(jù)處理的分治思想主要解決什么問題?
A.數(shù)據(jù)存儲空間不足
B.網(wǎng)絡(luò)傳輸帶寬瓶頸
C.計算資源分配不均
D.機器故障和網(wǎng)絡(luò)故障風險
2.在智能交通系統(tǒng)中,哪個子系統(tǒng)負責實時向交通參與者提供道路交通等信息?
A.交通信息服務(wù)系統(tǒng)
B.交通管理系統(tǒng)
C.電子收費系統(tǒng)
D.公共交通系統(tǒng)
3.Python編程在數(shù)據(jù)處理中的應(yīng)用示例是什么?
A.wordcount={"word":"word","frequency":"1"}
B.forwordinopen(filename,T).read():wordcount[word]+=1
C.wordcount[word]=1000M+wordcount[word]
D.wordcount={};wordcount[word]+=filename[word]
4.Tableau工具主要用于什么類型的可視化分析?
A.實時數(shù)據(jù)分析
B.靜態(tài)數(shù)據(jù)批處理計算
C.流
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 林業(yè)科技成果與知識產(chǎn)權(quán)考核試卷
- 護理工作計劃及總結(jié)
- 服飾業(yè)市場拓展與渠道管理考核試卷
- 信息系統(tǒng)戰(zhàn)略規(guī)劃案例考核試卷
- 南京信息工程大學(xué)《誤差理論與測量平差》2022-2023學(xué)年第一學(xué)期期末試卷
- 初等教育中的行為管理與紀律教育考核試卷
- 寵物智能設(shè)備與科技服務(wù)考核試卷
- 《毛酸漿多糖的結(jié)構(gòu)解析及體外活性研究》
- 教師資格考試初中學(xué)科知識與教學(xué)能力化學(xué)試卷及答案指導(dǎo)
- 《碳纖維復(fù)合材料RTM工藝及其抗溫性能研究》
- 【參考】華為騰訊職位管理0506
- 五年級英語上冊Unit1Getupontime!教案陜旅版
- 風機安裝工程質(zhì)量通病及預(yù)防措施
- 三角形鋼管懸挑斜撐腳手架計算書
- 文件和文件夾的基本操作教案
- 剪紙教學(xué)課件53489.ppt
- 旅游業(yè)與公共關(guān)系PPT課件
- 勞動法講解PPT-定稿..完整版
- 彩色的翅膀_《彩色的翅膀》課堂實錄
- 假如你愛我的正譜
- 銅芯聚氯乙烯絕緣聚氯乙烯護套控制電纜檢測報告可修改
評論
0/150
提交評論