版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第三章新媒體數(shù)據(jù)的處理導(dǎo)
語1999年美國宇航局NASA丟失了一個價值1.25億美元的火星軌道飛行器,而丟失的原因讓美國人哭笑不得,原來飛行器的設(shè)計者洛克希德·馬丁公司的工程師在設(shè)計時使用的都是英制度量衡(英寸、英尺等),而NASA用的是國際公制(厘米、米等),因此雖然輸入的數(shù)據(jù)是正確的,但因為單位不同而導(dǎo)致導(dǎo)航信息錯誤,飛行器因此丟失。古人云:差之毫厘,謬以千里。1%的錯誤等于100%的失敗,我們不要輕視一個數(shù)據(jù)的作用。毫不夸張地說,一個數(shù)字能影響一個結(jié)果,一個結(jié)果能影響一個決策,一個錯誤的決策能毀掉一個組織!學(xué)習(xí)目標(biāo)由于互聯(lián)網(wǎng)的發(fā)明,“開放”已經(jīng)成為人類社會一個不可逆轉(zhuǎn)、不斷加速的社會思潮。如果說收集數(shù)據(jù)是一種意識,使用數(shù)據(jù)是一種文化、一種習(xí)慣,那么處理數(shù)據(jù)、分析數(shù)據(jù)將成為人人應(yīng)當(dāng)具備的一種能力和生活態(tài)度。在整個數(shù)據(jù)分析過程中,有高達60%的時間是用于數(shù)據(jù)處理,只有對采集過來的數(shù)據(jù)進行精細(xì)化地處理,才能便于后續(xù)分析。處理后的數(shù)據(jù)不僅能提高準(zhǔn)確性,還能減少因為出錯而造成的復(fù)查時間,降低因錯誤分析給帶來的決策風(fēng)險。本章主要講解新媒體數(shù)據(jù)處理的基本原理、通用處理方法,然后通過一些典型的案例展示不同類型數(shù)據(jù)的處理過程。目
錄第一節(jié)新媒體數(shù)據(jù)處理的基本原理第二節(jié)數(shù)據(jù)清洗第三節(jié)數(shù)據(jù)加工第四節(jié)數(shù)據(jù)透視表的使用第一節(jié)新媒體數(shù)據(jù)處理的基本原理一、什么是數(shù)據(jù)處理二、數(shù)據(jù)處理的基本流程三、通用的新媒體數(shù)據(jù)處理方法一、什么是數(shù)據(jù)處理
數(shù)據(jù)處理就是根據(jù)數(shù)據(jù)分析的目的,將收集到的數(shù)據(jù),用適當(dāng)?shù)奶幚矸椒ㄟM行整理加工,形成適合數(shù)據(jù)分析的要求樣式,它是數(shù)據(jù)分析前必不可少的階段。它的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于特定分析目標(biāo)具有價值、有意義的數(shù)據(jù)。二、數(shù)據(jù)處理的基本流程
數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)加工。
首先我們先將有問題的數(shù)據(jù)進行清洗,數(shù)據(jù)清洗的結(jié)果是對各種臟數(shù)據(jù)進行對應(yīng)方式的處理,得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù),提供給數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘等使用。清洗數(shù)據(jù)包括三部分:清除掉不必要的重復(fù)數(shù)據(jù);填充缺失的數(shù)據(jù),檢測邏輯錯誤的數(shù)據(jù)。
其次是進行數(shù)據(jù)加工。經(jīng)過數(shù)據(jù)清洗步驟之后,數(shù)據(jù)表中的數(shù)據(jù)已經(jīng)沒有錯誤值存在了,但這時的數(shù)據(jù)仍然不適合直接進行分析和呈現(xiàn),還需要根據(jù)數(shù)據(jù)分析的目的,對數(shù)據(jù)進行加工。因為數(shù)據(jù)表中現(xiàn)有的數(shù)據(jù)字段不滿足我們的數(shù)據(jù)分析需求,所以需要對現(xiàn)有字段進行抽取、計算或者轉(zhuǎn)換,形成我們分析所需要的一列新數(shù)據(jù)字段。三、通用的新媒體數(shù)據(jù)處理方法
數(shù)據(jù)處理是指根據(jù)數(shù)據(jù)分析的目的,將收集到的原始數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)用適當(dāng)?shù)奶幚矸椒ㄟM行整理加工,使原始數(shù)據(jù)更加符合數(shù)據(jù)分析的目標(biāo)要求樣式。它是數(shù)據(jù)分析前必不可少的階段。它的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于特定分析目標(biāo)具有價值、有意義的數(shù)據(jù),使原始數(shù)據(jù)整理成為一份具備準(zhǔn)確性、完整性和一致性的數(shù)據(jù)。一般要達到這個標(biāo)準(zhǔn)需要對原始數(shù)據(jù)進行清洗和加工。第二節(jié)數(shù)據(jù)清洗一、剔除重復(fù)數(shù)據(jù)二、填補缺失數(shù)據(jù)三、修正錯誤數(shù)據(jù)四、規(guī)范數(shù)據(jù)格式五、數(shù)據(jù)清洗常用函數(shù)一、剔除重復(fù)數(shù)據(jù)
在采集數(shù)據(jù)過程中,同一份數(shù)據(jù)可能由于采集渠道不同而進行了多次輸入,可能因為操作失誤重復(fù)輸入數(shù)據(jù)。種種原因造成數(shù)據(jù)表中的數(shù)據(jù)存在重復(fù)現(xiàn)象,篩選剔除多余的數(shù)據(jù)是開展數(shù)據(jù)處理工作的首要任務(wù)。(一)查找重復(fù)項
要剔除一份數(shù)據(jù)表中的重復(fù)數(shù)據(jù)就需要先找到數(shù)據(jù)表中的重復(fù)項。這里以網(wǎng)站用戶流量為例介紹四種查找重復(fù)項的方法。1.條件格式法2.函數(shù)法3.高級篩選法4.數(shù)據(jù)透視表法1.條件格式法2.函數(shù)法3.高級篩選法4.數(shù)據(jù)透視表法(二)刪除重復(fù)項
通過以上此種方法查找到重復(fù)項之和,就需要將重復(fù)項刪除。除了手動刪除找到的重復(fù)項以外,下面給大家介紹四種刪除重復(fù)項的方法。1.菜單刪除重復(fù)項2.排序刪除重復(fù)項3.條件格式刪除重復(fù)項4.篩選刪除重復(fù)項1.菜單刪除重復(fù)項2.排序刪除重復(fù)項3.條件格式刪除重復(fù)項
使用排序的方法刪除重復(fù)項有兩個弊端,一是只適用數(shù)據(jù)量較小的數(shù)據(jù)表,二是當(dāng)數(shù)據(jù)是一串編碼或非數(shù)字型數(shù)據(jù)時人工就不容易辨識出重復(fù)項。那么,用條件格式可以自動標(biāo)識出重復(fù)項,再手動刪除。4.篩選刪除重復(fù)項(三)利用Python處理重復(fù)數(shù)據(jù)
在Python中利用drop_duplicates()方法,該方法默認(rèn)對所有值進行重復(fù)值判斷,且默認(rèn)保留第一個(行)值。二、填補缺失數(shù)據(jù)
采集的原始數(shù)據(jù)除了會出現(xiàn)數(shù)據(jù)重復(fù)以外,經(jīng)常還會出現(xiàn)數(shù)據(jù)缺失的問題,缺失值指的是現(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完全的。缺失值產(chǎn)生的原因多種多樣,主要分為機械原因和人為原因。
處理缺失值有兩種思路,即刪除和插補。對于主觀數(shù)據(jù),人將影響數(shù)據(jù)的真實性,存在缺失值的樣本的其他屬性的真實值不能保證,所以對于主觀數(shù)據(jù)一般不推薦插補的方法,而采取刪除存在缺失值的個案。插補主要是針對客觀數(shù)據(jù),它的可靠性有保證。(一)缺失值為空值
在數(shù)據(jù)表里,缺失值最常見的表現(xiàn)形式就是空值或者錯誤標(biāo)識符。如果缺失值以空白單元格的形式出現(xiàn),首先是將缺失值的單元格找出來,最快捷的方法是利用Excel的定位功能。
處理缺失值的方法一般有3種:(1)樣本平均值替代法。用一個樣本統(tǒng)計量的值代替缺失值。最典型的做法就是使用該變量的樣本平均值代替缺失值。例如一組銷量數(shù)據(jù)中有缺失值,就可以使用評價銷量來進行替換。(2)模型計算值替代法。用一個統(tǒng)計模型計算出來的值去代替缺失值,常使用的模型有回歸模型、判別模型等,例如連續(xù)時間段內(nèi)公眾號粉絲增長的數(shù)據(jù)中有缺失值,可以通過數(shù)據(jù)預(yù)測回歸分析法,計算出數(shù)值替代缺失值。(3)刪除缺失值法。當(dāng)數(shù)據(jù)量足夠大,且缺失值較數(shù)量不是太多,且變量之間不存在高度相關(guān)的情況下,可以對缺失值做刪除處理。(二)缺失值為錯誤標(biāo)識符
當(dāng)缺失值是以錯誤標(biāo)識符形式出現(xiàn)的時候,處理方法和空值類似,只是步驟由“定位->輸入平均值”改為“查找->替換”。同樣可以利用快捷鍵,查找功能的快捷鍵為“Ctrl+F”,替換功能的快捷鍵為“Ctrl+H”,在“查找內(nèi)容”文本框中輸入要查找的文本或數(shù)字,在“替換為”中輸入要替換的文本或數(shù)字,單擊“替換”即可,如圖3-14。一般情況下選擇將數(shù)字型字段的錯誤標(biāo)識符替換為“0”或平均值。(三)利用Python處理缺失數(shù)據(jù)
在Python中直接調(diào)用info()方法就會返回每一列的缺失情況。Python中缺失值一般用NaN表示。三、修正錯誤數(shù)據(jù)
原始數(shù)據(jù)表中可能存在不符合邏輯的數(shù)據(jù),例如圖文消息送達人數(shù)180人,圖文頁閱讀人數(shù)卻達到300人,這明顯不符合邏輯。在數(shù)據(jù)清洗過程中,需要檢查出這類錯誤并修正數(shù)據(jù)。檢查數(shù)據(jù)是否存在邏輯錯誤,我們不可能逐一進行排查,這樣效率太低,而需要運用函數(shù)或條件格式快速判斷。(一)函數(shù)檢查法
在Excel中,函數(shù)的使用方法是在英文狀態(tài)下輸入“=”后再根據(jù)不同的函數(shù)的語法輸入公式,如“=AVERAGE()”就是返回所有參數(shù)的算術(shù)平均值。IF函數(shù)是用來判斷數(shù)據(jù)邏輯正確與否的常用函數(shù)。
使用IF函數(shù)不僅可以判斷數(shù)字型數(shù)據(jù)是否符合特定的要求,還可以判斷非數(shù)字型數(shù)據(jù)是否符合要求,例如,一張微博粉絲用戶信息表中,“性別”一欄的值中出現(xiàn)了“南”、“32”等非性別數(shù)據(jù),如果數(shù)據(jù)量少可以人工檢測,如果數(shù)據(jù)量過大,使用IF函數(shù)很快就能找出數(shù)據(jù)表中出現(xiàn)錯誤的全部數(shù)據(jù)。(二)條件格式法
在Excel中,函數(shù)的使用方法是在英文狀態(tài)下輸入“=”后再根據(jù)不同的函數(shù)的語法輸入公式,如“=AVERAGE()”就是返回所有參數(shù)的算術(shù)平均值。IF函數(shù)是用來判斷數(shù)據(jù)邏輯正確與否的常用函數(shù)。(三)利用Python處理錯誤數(shù)據(jù)
在Python中,刪除異常值用到的方法和Excel中的方法原理類似,Python中是通過過濾的方法對異常值進行刪除。比如df表中有年齡這個指標(biāo),要把年齡大于100的值刪掉,可以通過篩選把年齡大于100的曬出來,然后刪除篩選出的部分?jǐn)?shù)據(jù)。而如果對異常值進行填充的話,就需要用到replace()方法對特定的值進行替換。(三)利用Python處理錯誤數(shù)據(jù)
在Python中,刪除異常值用到的方法和Excel中的方法原理類似,Python中是通過過濾的方法對異常值進行刪除。比如df表中有年齡這個指標(biāo),要把年齡大于100的值刪掉,可以通過篩選把年齡大于100的曬出來,然后刪除篩選出的部分?jǐn)?shù)據(jù)。而如果對異常值進行填充的話,就需要用到replace()方法對特定的值進行替換。1.一對一替換2.一對多替換3.多對多替換四、規(guī)范數(shù)據(jù)格式
采集過來的原始數(shù)據(jù)包括數(shù)值、文本、日期等多種格式。不同類型的數(shù)據(jù)對應(yīng)不同的格式,數(shù)據(jù)的格式如果有誤,將會影響后期數(shù)據(jù)加工和呈現(xiàn)。因此,規(guī)范數(shù)據(jù)格式是數(shù)據(jù)清洗過程中必不可少的過程。通常情況下,我們檢查數(shù)據(jù)格式需要重點關(guān)注的是數(shù)值格式中的小數(shù)位數(shù)、數(shù)值格式中的千分位分隔符、百分比格式、日期格式以及時間格式等。(一)數(shù)值格式規(guī)范
針對前三個格式問題檢查的方法比較簡單,先選中對應(yīng)的數(shù)據(jù)列,然后在“開始”選項卡中的“數(shù)字”組中對選中的數(shù)據(jù)進行查看,查看格式是否正確,如果格式全部統(tǒng)一,在“設(shè)置單元格格式”對話框中,它會對應(yīng)一種格式,如“常規(guī)”、“數(shù)值”、“百分比”,如果選中的這一列數(shù)據(jù)在“設(shè)置單元格格式”對話框中沒有對應(yīng)的格式,說明這一列的數(shù)據(jù)格式不同統(tǒng)一,可以直接在對話框中進行設(shè)置和調(diào)整。(二)日期格式規(guī)范
日期格式的規(guī)范比起數(shù)值格式規(guī)范相對復(fù)雜一些,尤其是當(dāng)日期書寫方式不統(tǒng)一時,不是直接在“設(shè)置單元格格式”對話框中直接修改就能解決的,而是要借助“分列”功能來實現(xiàn)日期格式的統(tǒng)一修改。(三)利用Python處理數(shù)據(jù)格式
Python不像Excel中對數(shù)據(jù)類型分的那么詳細(xì),主要有6種數(shù)據(jù)類型,如下表。
表
Python數(shù)據(jù)類型類型說明int整形數(shù),即整數(shù)float浮點數(shù),即含有小數(shù)點的數(shù)objectPython對象類型,用O表示string_字符串類型,經(jīng)常用S表示,S10表示長度為10的字符串unicode_固定長度的unicode類型,跟字符串定義方式一樣datetime64[ns]表示時間格式五、數(shù)據(jù)清洗常用函數(shù)函數(shù)功能語法Trim去除單元格兩端的空格。=TRIM(text)Clean刪除文本中所有不能打印的字符。=CLEAN(text)Concatenate連接單元格內(nèi)的內(nèi)容=CONCATENATE(text1,[text2],...)Mid提取字符串中間的字符串=MID(text,start_num,num_chars)Left提取字符串左邊的字符串=LEFT(text,[num_chars])Right提取字符串右邊的字符串=RIGHT(text,[num_chars])Repalce替換字符串中的連續(xù)幾個字符或者某個字符=REPLACE(old_text,start_num,num_chars,new_text)Substitute替換字符串中的連續(xù)幾個字符或者某個字符=SUBSTITUTE(text,old_text,new_text,[instance_num])第三節(jié)數(shù)據(jù)加工一、數(shù)據(jù)轉(zhuǎn)換二、數(shù)據(jù)計算三、數(shù)據(jù)分組四、數(shù)據(jù)重組五、數(shù)據(jù)排序一、數(shù)據(jù)轉(zhuǎn)換
在數(shù)據(jù)分析前,需要考慮數(shù)據(jù)表的呈現(xiàn)形式是否方便后續(xù)的數(shù)據(jù)分析和規(guī)律的把握,如行列字段的設(shè)置、數(shù)據(jù)記錄方式等。數(shù)據(jù)轉(zhuǎn)換就是針對不恰當(dāng)?shù)臄?shù)據(jù)表呈現(xiàn)進行調(diào)整的方法,以滿足后續(xù)數(shù)據(jù)分析的需求。(一)行列互換
通常采集好的原始數(shù)據(jù)表是一維數(shù)據(jù)表,但在采集或記錄時沒有考慮周全,行列設(shè)置不太恰當(dāng),當(dāng)后續(xù)數(shù)據(jù)更新或增加時,不方便查看。針對這種情況,可以借助行列互換的方法將字段設(shè)置進行調(diào)整。(二)記錄方式轉(zhuǎn)換
Excel的替換功能將不統(tǒng)一的表述方式快速統(tǒng)一起來。替換功能的使用方法比較簡單易掌握,但需注意的是,在使用替換功能統(tǒng)一數(shù)據(jù)記錄方式前,要先明確后期數(shù)據(jù)分析的需求,結(jié)合需求進行記錄方式轉(zhuǎn)換。(三)利用Python進行數(shù)據(jù)轉(zhuǎn)換
在Python中通過在源數(shù)據(jù)表的基礎(chǔ)上調(diào)用.T方法實現(xiàn)數(shù)據(jù)表的行列互換。二、數(shù)據(jù)計算
數(shù)據(jù)計算是運用最廣泛的數(shù)據(jù)加工方法,主要是運用簡單的數(shù)學(xué)運算或函數(shù)計算,將原始的采集數(shù)據(jù)處理成為便于后續(xù)數(shù)據(jù)分析的新字段。(一)簡單計算
簡單計算就是Excel表格中單元格對應(yīng)的名稱與加、減、乘、除等簡單運算符結(jié)合使用計算的過程。簡單計算通常包括數(shù)據(jù)求和、計算平均數(shù)、計算比例等。(一)簡單計算
簡單計算就是Excel表格中單元格對應(yīng)的名稱與加、減、乘、除等簡單運算符結(jié)合使用計算的過程。簡單計算通常包括數(shù)據(jù)求和、計算平均數(shù)、計算比例等。(二)函數(shù)計算
當(dāng)簡單的加減乘除運算不能滿足計算需求時,就需要使用函數(shù)進行計算。使用函數(shù)計算數(shù)據(jù),需要掌握函數(shù)計算的格式,即:“=”+函數(shù)名稱+數(shù)據(jù)單元格區(qū)域”,此外,還需要掌握具體的某個函數(shù)的使用方法。表
常用函數(shù)使用方法函數(shù)函數(shù)作用函數(shù)示意SUM求和=SUM(A2:A20)計算A2至A20之間單元格數(shù)據(jù)的總和AVERAGE求平均數(shù)=AVERAGE(A2:A20)計算A2至A20之間單元格數(shù)據(jù)的平均數(shù)COUNTIF條件計算=COUNTIF(A2:A20,"女")計算A2至A20之間含有“女”字的單元格的數(shù)量(三)利用Python進行數(shù)據(jù)計算
1.簡單計算2.比較運算3.匯總運算4.相關(guān)性運算三、數(shù)據(jù)分組
數(shù)據(jù)分組是依據(jù)數(shù)據(jù)分析的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)劃分成不同的組別,分組后的的數(shù)據(jù)稱為分組數(shù)據(jù)。數(shù)據(jù)分組的方法有單變量值分組和組距分組兩種。數(shù)據(jù)分組的主要目的是觀察數(shù)據(jù)的分布特征。
數(shù)據(jù)分組應(yīng)遵循兩個原則,即“相互獨立”和“完全窮盡”。所謂相互獨立,即分組之間不能有交叉,組別之間具有明顯的差異性,每個數(shù)據(jù)只能歸屬于某一組;所謂完全窮盡,即分組中不要遺漏任何數(shù)據(jù),保證完整性,各組的空間足以容納總體的所有數(shù)據(jù)。
Excel是通過運用VLOOKUP函數(shù)實現(xiàn)快速分組的。VLOOKUP函數(shù)是Excel中一個縱向查找函數(shù),可以用來返回數(shù)據(jù)所在分組的名稱。其功能是按列查找,最終返回該列所需查詢序列所對應(yīng)的值。VLOOKUP函數(shù)的語法為:VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)四、數(shù)據(jù)重組
根據(jù)數(shù)據(jù)分析目的的不同,所需要的數(shù)據(jù)項目也有所不同。在采集數(shù)據(jù)時可能考慮不夠細(xì)致,將所有可能用到的數(shù)據(jù)都統(tǒng)計在一起,這難免會出現(xiàn)數(shù)據(jù)多余、數(shù)據(jù)項目不符合需求等情況,此時就需要重新組合現(xiàn)有數(shù)據(jù),使其符合數(shù)據(jù)分析的需要。數(shù)據(jù)分組主要從三個方面著手,即將一個數(shù)據(jù)拆分成兩個數(shù)據(jù)、將兩個數(shù)據(jù)合并成一個數(shù)據(jù)、從多個數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)組合成新的數(shù)據(jù)。(一)數(shù)據(jù)拆分
在采集到的數(shù)據(jù)表中,一列數(shù)據(jù)項可能包含多種類型的信息。例如,IP地址信息包含IP地址、用戶所在省份、用戶所在城市等,在進行后續(xù)數(shù)據(jù)分析時,如果需要單獨統(tǒng)計用戶所在省份、城市分布的話,需要將這組數(shù)據(jù)進行拆分。對數(shù)據(jù)進行拆分時,使用Excel中的分列功能。該功能可以根據(jù)數(shù)據(jù)的規(guī)律,用不同的標(biāo)準(zhǔn)實現(xiàn)數(shù)據(jù)拆分。(二)數(shù)據(jù)合并
數(shù)據(jù)合并與數(shù)據(jù)拆分的作用正好相反,它是將多列數(shù)據(jù)合并成一列數(shù)據(jù)。例如將省份列和城市列合并為歸屬地列(即省份+城市)。數(shù)據(jù)合并主要使用邏輯連接符和文本轉(zhuǎn)換函數(shù)實現(xiàn)多列數(shù)據(jù)的合并。1.使用“&”邏輯連接符2.使用“TEXT”文本轉(zhuǎn)換函數(shù)3.使用“CONCATENATE”文本轉(zhuǎn)換函數(shù)(三)數(shù)據(jù)抽取
數(shù)據(jù)抽取是指從現(xiàn)有原始數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)作為目標(biāo)分析對象。抽取情況分為兩種,一種是從一列數(shù)據(jù)中抽取一部分,另一種是從多列數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)列。兩種抽取方法都要借助函數(shù)實現(xiàn)。1.從一列數(shù)據(jù)中抽取部分?jǐn)?shù)據(jù)2.從多列數(shù)據(jù)中抽取部分列五、數(shù)據(jù)排序
在數(shù)據(jù)加工過程中,面對凌亂的原始數(shù)據(jù),可以采用排序的方法將其進行整理。Excel不僅可以提供諸如按某個字段升序、降序,按顏色、字母、筆劃等方式的簡單排序,還可以提供解決復(fù)雜問題的自定義排序。(一)基礎(chǔ)排序
1.按數(shù)值大小排序
2.按顏色排序3.按筆劃或字母排序(二)自定義排序
基本排序?qū)τ谀承?fù)雜的數(shù)據(jù)處理并不能解決問題。數(shù)值型數(shù)據(jù)的排序規(guī)制比較簡單,根據(jù)大小即可排序;而涉及到非數(shù)字型數(shù)據(jù)的排序規(guī)制就比較復(fù)雜,這時可以通過自定義進行排序。(三)利用Python進行排序
在Python中若想對某一列進行排序,需要用到sort_values()方法,在sort_values后的括號中指明要排序的名列,以及升序還是降序排列。第四節(jié)數(shù)據(jù)透視表的使用一、數(shù)據(jù)透視表的創(chuàng)建二、數(shù)據(jù)透視表的使用技巧三、數(shù)據(jù)透視表的應(yīng)用
數(shù)據(jù)透視表是一種類似于數(shù)據(jù)分組的操作方法,常見于Excel與類似的表格應(yīng)用中。數(shù)據(jù)透視表是將每一列作為輸入,輸出將數(shù)據(jù)不斷細(xì)分為多個維度累計信息的二維數(shù)據(jù)表。
數(shù)據(jù)透視表(PivotTable)是一種交互式的表。之所以稱為數(shù)據(jù)透視表,是因為一張數(shù)據(jù)透視表僅靠鼠標(biāo)拖動字段位置,就可以動態(tài)地改變它的版面布局,變換出各種類型的分析報表,以便按照不同方式展示數(shù)據(jù)特征。使用時只需指定所需分析的字段、數(shù)據(jù)透視表的組織形式,以及要計算的類型(求和、計數(shù)、平均、方差等)。如果原始數(shù)據(jù)發(fā)生更改,則可以刷新數(shù)據(jù)透視表來更改匯總結(jié)果。一、數(shù)據(jù)透視表的創(chuàng)建(一)數(shù)據(jù)透視表的基本構(gòu)造(二)Excel中創(chuàng)建數(shù)據(jù)透視表
用Excel2016建立透視表有兩種方法:一種是使用系統(tǒng)推薦的透視表,可以省去字段設(shè)置的過程;另一種是自定義建立透視表,可以靈活地選擇數(shù)據(jù)區(qū)域及進行字段設(shè)置。(三)Python中創(chuàng)建數(shù)據(jù)透視表
Python中數(shù)據(jù)透視表的制作原理與Excel中的制作原理是一樣的,Python中的數(shù)據(jù)透視表用到的是pivot_table()方法。二、數(shù)據(jù)透視表的使用技巧
數(shù)據(jù)透視表不僅僅能動態(tài)、便捷地改變數(shù)據(jù)表的組織結(jié)構(gòu)形式,還能將數(shù)據(jù)進行多樣的結(jié)構(gòu)分析和對比分析,比如計算百分比、環(huán)比、同比,分組統(tǒng)計,使用篩選器等功能。(一)計算百分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨沂大學(xué)《鋼琴》2021-2022學(xué)年第一學(xué)期期末試卷
- 臨沂大學(xué)《環(huán)境學(xué)科前沿知識講座》2021-2022學(xué)年第一學(xué)期期末試卷
- 聊城大學(xué)東昌學(xué)院《智能制造工業(yè)機器人技術(shù)及應(yīng)用》2021-2022學(xué)年第一學(xué)期期末試卷
- 聊城大學(xué)東昌學(xué)院《即興伴奏與彈唱(三)》2022-2023學(xué)年第一學(xué)期期末試卷
- 聊城大學(xué)東昌學(xué)院《定格動畫》2021-2022學(xué)年第一學(xué)期期末試卷
- 2024年大型購物中心消防設(shè)施設(shè)計與安裝合同
- 2024年城市綠化項目合作合同
- 2024年大型主題公園設(shè)計與建設(shè)合同
- 2024年互聯(lián)網(wǎng)醫(yī)療信息服務(wù)合同
- 2024年大型油田開發(fā)合作經(jīng)營合同
- 生豬買賣合同
- 班會議題探索未來職業(yè)的發(fā)展趨勢
- 跨境電商營銷(第2版 慕課版)教案 項目五 社會化媒體營銷
- 【年產(chǎn)5000噸氯化苯的工藝設(shè)計11000字(論文)】
- 食堂員工培訓(xùn)內(nèi)容-食堂從業(yè)人員培訓(xùn)資料
- 零售督導(dǎo)工作流程
- 道閘系統(tǒng)施工方案
- 常微分方程與動力系統(tǒng)
- 2023年電子油門踏板行業(yè)洞察報告及未來五至十年預(yù)測分析報告
- 國有企業(yè)資金管理制度培訓(xùn)規(guī)范
- 2024年智能物流技術(shù)行業(yè)培訓(xùn)資料全面解析
評論
0/150
提交評論