




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章數(shù)據(jù)處理與應(yīng)用數(shù)據(jù)處理的核心是數(shù)據(jù),數(shù)據(jù)的質(zhì)量直接影響數(shù)據(jù)分析的結(jié)果。在數(shù)據(jù)分析和數(shù)據(jù)挖掘前,通常先對(duì)數(shù)據(jù)進(jìn)行整理。數(shù)據(jù)整理的目的是檢測(cè)和修正錯(cuò)漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)缺失問題是數(shù)據(jù)集中普遍存在的問題,通常采用平均值、中間值或概率統(tǒng)計(jì)值來(lái)填充缺失值數(shù)據(jù)重復(fù)問題在多數(shù)據(jù)源進(jìn)行合并集成時(shí)經(jīng)常出現(xiàn),通常在進(jìn)一步審核的基礎(chǔ)上進(jìn)行合并或刪除等處理異常數(shù)據(jù)指數(shù)據(jù)集中不符合一般規(guī)律的數(shù)據(jù)對(duì)象,它可能是要去掉的噪聲,也可能是含有重要信息的數(shù)據(jù)對(duì)象。邏輯錯(cuò)誤問題指數(shù)據(jù)集中的屬性值與實(shí)際值不符,一般通過檢測(cè)字段中各屬性有效數(shù)據(jù)值的范圍可以判斷該值錯(cuò)誤。數(shù)據(jù)計(jì)算是數(shù)據(jù)處理的常用方法之一日常簡(jiǎn)單的數(shù)據(jù)處理可以使用Excel軟件完成,專業(yè)的數(shù)據(jù)處理和統(tǒng)計(jì)分析工具有SPSS、SAS、MATLAB等,也可以通過R、Python、Java等計(jì)算機(jī)語(yǔ)言編程進(jìn)行數(shù)據(jù)處理。在Excel軟件中,可以應(yīng)用公式進(jìn)行數(shù)據(jù)的計(jì)算。公式是以“=”開頭,由常數(shù)、函數(shù)、單元格引用和運(yùn)算符組成的式子。單元格引用是指對(duì)工作表中的單元格或單元格區(qū)域的引用。默認(rèn)情況下,單元格引用是相對(duì)的,如Al;單元格絕對(duì)引用,如$A$1;連續(xù)的單元格區(qū)域引用,如A2:D5;不連續(xù)的單元格區(qū)域引用,如A2:A5,D2:D5。算術(shù)運(yùn)算符有^、%、*、/、十、-,用于進(jìn)行基本的數(shù)學(xué)運(yùn)算。比較運(yùn)算符有=、>、<、>=、<=、<>,用于比較兩個(gè)值,結(jié)果為邏輯值TRUE或FALSE。文本連接運(yùn)算符"&",可以連接一個(gè)或多個(gè)文本字符串,生成一段文本。Excel內(nèi)置函數(shù)函數(shù)名使用說(shuō)明SUMSUM(A1:A10)求和AVERAGEAVERAGE(A1:A10)求平均值MAXMAX(A1:A10)求最大值MINMIN(A1:A10)求最小值COUNTCOUNT(A1:A10)求數(shù)量RANKRANK(A1:A10,A1)求排名表1.1相對(duì)引用與絕對(duì)引用:Excel中對(duì)單元格的引用可以是相對(duì)的,也可以是絕對(duì)的,相對(duì)的例如A1:A10,絕對(duì)引用一般用$符號(hào)標(biāo)識(shí),例如$A1就是鎖定列,在填充的時(shí)候A不會(huì)隨著,單元格位置的變換的變換而變換,同理A$1就是鎖定行,$A$1就是鎖定行列。圖表是用視覺形式向人們展示數(shù)據(jù)的一種方法。常見的圖表類型有柱形圖、折線圖、餅圖、雷達(dá)圖、散點(diǎn)圖、氣泡圖大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)來(lái)源與類型多樣、處理速度快等特點(diǎn)處理大數(shù)據(jù)時(shí),一般采用分治思想處理大數(shù)據(jù)的基本方法有批處理計(jì)算、流計(jì)算、圖計(jì)算三種分布式計(jì)算(DistributedComputing)是把一個(gè)需要非常巨大的計(jì)算能力才能解決的問題分成許多小部分,然后把這些部分分配給許多計(jì)算機(jī)進(jìn)行處理,最后把這些計(jì)算結(jié)果綜合起來(lái)得到最終的結(jié)果并行處理(ParallelProcessing)是計(jì)算機(jī)系統(tǒng)中能同時(shí)執(zhí)行兩個(gè)或更多處理的一種計(jì)算方法大數(shù)據(jù)處理按照類型可劃分為對(duì)靜態(tài)數(shù)據(jù)的批處理、對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算和對(duì)圖結(jié)構(gòu)數(shù)據(jù)的圖計(jì)算【如下圖】Hadoop計(jì)算平臺(tái)主要包括Common公共庫(kù)、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫(kù)HBase、分布式數(shù)據(jù)庫(kù)HBase、分布式并行計(jì)算模型MapReduce等多個(gè)模塊Windows的文件系統(tǒng)采用FAT32或NTFS,Linux的文件系統(tǒng)為Ext2/Ext3/Ext4、云盤、網(wǎng)盤的底層一般采用HDFS實(shí)現(xiàn)HBase是一個(gè)高可靠、高性能、可伸縮、分布式的列式數(shù)據(jù)庫(kù)MapReduce是一種分布式并行編程模型,能夠處理大規(guī)模數(shù)據(jù)集的并行運(yùn)算,主要由Map(映射)和Reduce(歸納)2個(gè)函數(shù)構(gòu)成使用計(jì)算機(jī)語(yǔ)言編程,可以更加靈活、深入地進(jìn)行數(shù)據(jù)分析和挖掘numpy模塊是Python中做科學(xué)計(jì)算的基礎(chǔ)庫(kù),主要提供科學(xué)計(jì)算中常用的隨機(jī)數(shù)、數(shù)組運(yùn)算等基礎(chǔ)函數(shù)。scipy模塊是基于numpy構(gòu)建的一個(gè)模塊,增強(qiáng)了在高等數(shù)學(xué)、信號(hào)處理、圖像處理、統(tǒng)計(jì)等方面的處理能力。pandas模塊基于numpy實(shí)現(xiàn),主要用于數(shù)據(jù)的處理和分析。它提供了大量處理數(shù)據(jù)的函數(shù)和方法,能方便地操作大型數(shù)據(jù)集。pandas提供了Series和DataFrame兩種數(shù)據(jù)結(jié)構(gòu)。使用這兩種數(shù)據(jù)結(jié)構(gòu),可完成數(shù)據(jù)的整理、計(jì)算、統(tǒng)計(jì)、分析及簡(jiǎn)單可視化。在Python中引入pandas模塊的方法:importpandasaspdSeries是一種一維的數(shù)據(jù)結(jié)構(gòu),包含一個(gè)數(shù)組的數(shù)據(jù)和一個(gè)與數(shù)據(jù)關(guān)聯(lián)的索引(index),索引值默認(rèn)是從0起遞增的整數(shù)。列表、字典等可以用來(lái)創(chuàng)建Series數(shù)據(jù)結(jié)構(gòu),與列表不同的是,Series的索引可以指定,類型可以為字符串型。Series樣例使用如下圖通過索引可以選取Series對(duì)象中的值,通過賦值語(yǔ)句可以修改Series對(duì)象中的值。如:s1[0]=168、s2["s01"]=168,可將sl、s2對(duì)象中的“166"改為“168”。DataFrame是一種二維的數(shù)據(jù)結(jié)構(gòu)由1個(gè)索引列(index)和若干個(gè)數(shù)據(jù)列組成,每個(gè)數(shù)據(jù)列可以是不同的類型。DataFrame可以看作是共享同一個(gè)index的Series的集合。創(chuàng)建DataFrame對(duì)象的方法很多,通常用一個(gè)相等長(zhǎng)度的列表或字典來(lái)創(chuàng)建。如下圖Pandas也可以讀取Excel,代碼如下圖DataFrame常見函數(shù)表【本表詳見附表1】matplotlib是一個(gè)繪圖庫(kù),使用其中的pyplot子庫(kù)所提供的函數(shù)可以快速繪圖和設(shè)置圖表的坐標(biāo)軸、坐標(biāo)軸刻度、圖例等。常用繪圖函數(shù)如下表樣例代碼:繪制正弦函數(shù)圖左1代碼圖,左2結(jié)果圖文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一,目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報(bào)分析、自動(dòng)摘要、自動(dòng)校對(duì)、論文查重、文本分類、垃圾郵件過濾、機(jī)器翻譯、自動(dòng)應(yīng)答等方面。文本處理的一般步驟:文本內(nèi)容是非結(jié)構(gòu)化的數(shù)據(jù),要從大量的文本中提取出有用的信息,需要將文本從無(wú)結(jié)構(gòu)的原始狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化的、便于計(jì)算機(jī)處理的數(shù)據(jù)。典型的文本處理過程主要包括:分詞、特征提取、數(shù)據(jù)分析、結(jié)果呈現(xiàn)中文分詞是中文文本信息處理的基礎(chǔ),機(jī)器翻譯、全文檢索等涉及中文的相關(guān)應(yīng)用中都離不開中文分詞。分詞是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程分詞的三種方法基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于規(guī)則的分詞方法標(biāo)簽云用詞頻表現(xiàn)文本特征,將關(guān)鍵詞按照一定的順序和規(guī)律排列,如頻度遞減、字母順序等,并以文字大小的形式代表詞語(yǔ)的重要性文本情感分析是指通過計(jì)算機(jī)技術(shù)對(duì)文本的主觀性、觀點(diǎn)、情緒、極性進(jìn)行挖掘和分析,對(duì)文本的情感傾向做出分類判斷數(shù)據(jù)可視化的作用:快捷觀察與追蹤數(shù)據(jù)、實(shí)時(shí)分析數(shù)據(jù)、增強(qiáng)數(shù)據(jù)的解釋力與吸引力數(shù)據(jù)可視化的基本方法:有關(guān)時(shí)間趨勢(shì)的可視化、有關(guān)比例的可視化、有關(guān)關(guān)系的可視化、有關(guān)差異的可視化、有關(guān)空間關(guān)系的可視化數(shù)據(jù)可視化的工具:用于數(shù)據(jù)可視化的工具有大數(shù)據(jù)魔
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年組織換屆面試題及答案
- 2025年石城中考地理試題及答案
- 2025年駕照考試題試題及答案
- 2025年沉浸式游戲測(cè)試題及答案
- 2025年世界地理0診試題及答案
- 2025年鴨子騎車記測(cè)試題及答案
- 2025年九職大護(hù)理考試題及答案
- 2025年卡車員工考試題及答案
- 生物形成性測(cè)試題及答案
- 2025年虛擬加工考試試題及答案
- 南充市高2025屆高三高考適應(yīng)性考試(二診)生物試卷(含答案)
- 2025年雙方共同離婚協(xié)議書樣本
- 2025年鐘山職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)往年題考
- 2025版七年級(jí)下冊(cè)歷史必背知識(shí)點(diǎn)
- TSG21-2025固定式壓力容器安全技術(shù)(送審稿)
- DBJ50-052-2020公共建筑節(jié)能(綠色建筑)設(shè)計(jì)標(biāo)準(zhǔn)
- 《苗圃生產(chǎn)與管理》教案-第一章 園林苗圃的建立
- 2025年眼藥水項(xiàng)目投資分析及可行性報(bào)告
- 2025年內(nèi)蒙古自治區(qū)政府工作報(bào)告測(cè)試題及參考答案
- 2024年全國(guó)中學(xué)生生物學(xué)聯(lián)賽試題及答案詳解
- 《中藥注射劑大全》課件
評(píng)論
0/150
提交評(píng)論