(模塊三)單元三 數(shù)據(jù)處理_第1頁
(模塊三)單元三 數(shù)據(jù)處理_第2頁
(模塊三)單元三 數(shù)據(jù)處理_第3頁
(模塊三)單元三 數(shù)據(jù)處理_第4頁
(模塊三)單元三 數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

電子商務(wù)數(shù)據(jù)分析基礎(chǔ)模塊三數(shù)據(jù)分類與處理CONTENT目錄單元一認(rèn)識數(shù)據(jù)分類與處理單元二分類統(tǒng)計單元三數(shù)據(jù)處理單元四數(shù)據(jù)計算單元三數(shù)據(jù)處理引導(dǎo)案例某電器官方旗艦店于2022年8月份參加了一期聚劃算活動,因折扣力度大,推廣效果極好?;顒咏Y(jié)束后,該企業(yè)將后臺銷售數(shù)據(jù)導(dǎo)出,交給數(shù)據(jù)分析部門,進(jìn)行此次活動的效果追蹤評價。數(shù)據(jù)分析師拿到數(shù)據(jù)經(jīng)過整理后,發(fā)現(xiàn)該源數(shù)據(jù)存在如圖所示的質(zhì)量問題。引導(dǎo)案例為了保證數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,數(shù)據(jù)分析師先對該源數(shù)據(jù)進(jìn)行了處理,修正了錯誤數(shù)據(jù),統(tǒng)一了日期格式,處理了缺失內(nèi)容,又將混雜在一起的數(shù)據(jù)分開,為之后的數(shù)據(jù)計算和數(shù)據(jù)分析做好了準(zhǔn)備。結(jié)合案例,思考并回答以下問題:(1)在圖3-22中,處理完成后的數(shù)據(jù)是怎樣的?(2)在電商運營中,除了案例中存在的數(shù)據(jù)質(zhì)量問題,還需要進(jìn)行哪些問題的數(shù)據(jù)處理?單元三數(shù)據(jù)處理一、數(shù)據(jù)清洗數(shù)據(jù)清洗是指將數(shù)據(jù)表中多余、重復(fù)的數(shù)據(jù)篩選出來并刪除,將缺失、不完整的數(shù)據(jù)補(bǔ)充完整,將內(nèi)容、格式錯誤的數(shù)據(jù)糾正或剔除的操作行為。數(shù)據(jù)清洗是對數(shù)據(jù)進(jìn)行重新審查和校驗的過程,目的在于提升數(shù)據(jù)的質(zhì)量,確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。缺失值清洗格式內(nèi)容清洗邏輯錯誤清洗重復(fù)數(shù)據(jù)清洗無價值數(shù)據(jù)清洗單元三數(shù)據(jù)處理缺失值清洗數(shù)據(jù)集中某個或某些屬性的值是不完整的。缺失值產(chǎn)生的原因有些信息無法獲取,如在收集顧客婚姻狀況和工作信息時,未婚人士的配偶、未成年兒童的工作單位等都是無法獲取的信息。數(shù)據(jù)收集或者保存失敗造成數(shù)據(jù)缺失,如數(shù)據(jù)存儲的失敗、存儲器損壞、機(jī)械故障等。人為原因?qū)е碌哪承┬畔⒈贿z漏或刪除。單元三數(shù)據(jù)處理空值清洗打開原始數(shù)據(jù)表格,選中數(shù)據(jù)區(qū)域,在“開始”選項卡下的“編輯”功能組中單擊“查找和選擇”按鈕,點擊“定位條件”命令,在彈出的“定位條件”對話框中選中“空值”,點擊“確定”后,所有的空值即可被一次性選中。1單元三數(shù)據(jù)處理定位到空白值后,可以選擇“數(shù)據(jù)補(bǔ)齊”、“刪除記錄”或者“不處理”。如需數(shù)據(jù)補(bǔ)齊,則直接輸入需要補(bǔ)充的內(nèi)容,按“Ctrl+Enter”組合鍵,進(jìn)行批量填充。2單元三數(shù)據(jù)處理知識鏈接處理缺失值的三種方法:(1)數(shù)據(jù)補(bǔ)齊。即使用某個統(tǒng)計指標(biāo)填充缺失數(shù)據(jù),如該變量的樣本平均值等。(2)刪除記錄。將有缺失值的記錄刪掉,但這樣會導(dǎo)致樣本量減少,數(shù)據(jù)量較少時應(yīng)謹(jǐn)慎使用。(3)不處理。樣本較少時,或者該數(shù)據(jù)缺失屬正常情況時,不做處理。單元三數(shù)據(jù)處理錯誤標(biāo)識符清洗######DIV/0!單元格中的數(shù)據(jù)超出了該單元格的寬度,或者單元格中的日期時間公式產(chǎn)生了一個負(fù)值進(jìn)行公式運算時除數(shù)使用了數(shù)值零、指向了空單元格或包含零值單元格的引用如圖,由于2022年7月5日所采購的商品還未采集到因不合格而產(chǎn)生退貨的數(shù)量,因此在計算退貨率時,發(fā)生了“#VALUE!”的錯誤。單元三數(shù)據(jù)處理將鼠標(biāo)定位在出現(xiàn)“I12”單元格中,在公式編輯欄中,修改原公式“=H12/E12”為“=IFERROR(H12/E12,"/")”1單元三數(shù)據(jù)處理確認(rèn)輸入后,“I12”單元格中的“#VALUE!”被修改為“/”,然后拖動“I12”單元格的填充柄,將其他發(fā)生錯誤的單元格進(jìn)行填充修改2單元三數(shù)據(jù)處理格式內(nèi)容清洗由于系統(tǒng)導(dǎo)出渠道或人為輸入習(xí)慣的原因,整合而來的原始數(shù)據(jù)往往不能做到格式統(tǒng)一,內(nèi)容上也容易出現(xiàn)空格?!坝唵蝿?chuàng)建時間”列出現(xiàn)了四種不同的表達(dá)方式,“物流公司”列的字符前面或中間存在空格,需要將其修正。單元三數(shù)據(jù)處理選中“訂單創(chuàng)建時間”整列,右擊打開彈出式菜單,單擊“設(shè)置單元格格式”選項,在彈出的“設(shè)置單元格格式”對話框中,選擇“數(shù)字”選項卡,單擊“日期”,將其類型修改為如圖所示的樣式。單擊“確定”完成。1單元三數(shù)據(jù)處理“物流公司”列數(shù)據(jù)中的空格可以使用“替換”一次性批量去除。選中數(shù)據(jù)區(qū)域,在“開始”選項卡下的“編輯”功能組中單擊“查找和替換”按鈕,單擊“替換”命令,在“查找內(nèi)容”中輸入一個空格,在“替換為”中不輸入任何內(nèi)容,單擊“全部替換”即可全部刪除表格中的空格。2單元三數(shù)據(jù)處理邏輯錯誤清洗違反邏輯規(guī)律的要求和邏輯規(guī)則而產(chǎn)生的錯誤,一般使用邏輯推理就可以發(fā)現(xiàn)問題。123數(shù)據(jù)不合理數(shù)據(jù)自相矛盾數(shù)據(jù)不符合規(guī)則如客戶年齡500歲,或者消費金額為-100元,明顯不符合客觀事實。如客戶的出生年份是1980年,但年齡卻顯示18歲。如限購1件的商品,客戶的購買數(shù)量卻為3件。單元三數(shù)據(jù)處理“多彩橡皮泥套盒”商品的訂單表單元三數(shù)據(jù)處理由于該商品限購1件,因此需要將“購買數(shù)量”大于1的記錄標(biāo)注出來。選中“購買數(shù)量”列,選擇“開始”選項卡—“樣式”功能組—“條件格式”—“突出顯示單元格規(guī)格”—“大于”,在彈出的“大于”對話框中,填入數(shù)值“1”,單擊“確定”,即可將錯誤數(shù)據(jù)標(biāo)注出來。1單元三數(shù)據(jù)處理同理,條件格式選擇“小于”即可將“買家實際支付金額”列的錯誤數(shù)據(jù)標(biāo)注出來。2單元三數(shù)據(jù)處理“簽收時間”應(yīng)晚于“訂單創(chuàng)建時間”,否則該條記錄便屬于異常。選中“簽收時間”列,選擇“開始”選項卡—“樣式”功能組—“條件格式”—“突出顯示單元格規(guī)格”—“其他規(guī)則”,在彈出的“新建格式規(guī)則”對話框中,選擇規(guī)則類型“使用公式確定要設(shè)置格式的單元格”,編輯規(guī)則為“=$M1<$J1”,設(shè)置格式為背景色黃色,單擊“確定”,即可將錯誤數(shù)據(jù)標(biāo)注出來。3單元三數(shù)據(jù)處理重復(fù)數(shù)據(jù)清洗就是數(shù)據(jù)被重復(fù)、多次記錄。重復(fù)數(shù)據(jù)會影響數(shù)據(jù)處理結(jié)果的正確性,從而導(dǎo)致數(shù)據(jù)分析出現(xiàn)偏差,因此需要將其刪除。某店鋪類目結(jié)構(gòu)月表單元三數(shù)據(jù)處理選中工作表中的數(shù)據(jù)區(qū)域,在“數(shù)據(jù)”選項卡下的“數(shù)據(jù)工具”功能組中,單擊“刪除重復(fù)項”,在彈出的“刪除重復(fù)項”對話框中,選擇要刪除的列,注意“統(tǒng)計日期”、“一級類目”、“二級類目”、“葉子類目”應(yīng)同時選中,否則會產(chǎn)生誤刪。1單元三數(shù)據(jù)處理單擊“確定”按鈕完成重復(fù)項刪除,Excel將顯示一條消息,指出有多少重復(fù)值被刪除,多少唯一值被保留。2單元三數(shù)據(jù)處理無價值數(shù)據(jù)清洗是指對本次數(shù)據(jù)統(tǒng)計或數(shù)據(jù)分析沒有產(chǎn)生作用的數(shù)據(jù),直接刪除對應(yīng)的字段即可。但在通常情況下,并不建議刪除。如果數(shù)據(jù)表過大,在匯報展示時用不到又影響操作,可以考慮備份后將其刪除。單元三數(shù)據(jù)處理二、數(shù)據(jù)轉(zhuǎn)化數(shù)據(jù)轉(zhuǎn)化是數(shù)據(jù)處理的前期準(zhǔn)備,包括數(shù)據(jù)表的行列互換、文本數(shù)據(jù)提煉、數(shù)據(jù)類型的轉(zhuǎn)換等。數(shù)據(jù)表的行列互換打開Excel數(shù)據(jù)表,選中目標(biāo)內(nèi)容,按住“Ctrl+C”組合鍵進(jìn)行復(fù)制。1單元三數(shù)據(jù)處理選中要進(jìn)行數(shù)據(jù)復(fù)制的單元格,點擊“開始”選項卡,在“剪貼板”功能組中單擊“粘貼”——“轉(zhuǎn)置”按鈕,即可讓選中的內(nèi)容進(jìn)行行列互換,得到新數(shù)據(jù)表。2單元三數(shù)據(jù)處理使用鍵盤快捷方式,按“Ctrl+Alt+V”組合鍵,會彈出如圖所示的“選擇性粘貼”對話框,勾選“轉(zhuǎn)置”復(fù)選框,即可實現(xiàn)轉(zhuǎn)置粘貼。單元三數(shù)據(jù)處理文本數(shù)據(jù)提煉在導(dǎo)入文本數(shù)據(jù)時,有時多項數(shù)據(jù)會顯示在同一單元格中,需要對數(shù)據(jù)進(jìn)行提煉,使相同屬性的數(shù)據(jù)位于同一列中。單元三數(shù)據(jù)處理文本數(shù)據(jù)的提煉涉及到文本函數(shù)的運用LEFT函數(shù),用于獲取字符串左邊指定個數(shù)的字符LEFT函數(shù)的語法為:=LEFT(text,[num_chars]),其中text為要取得給定值的文本數(shù)據(jù)源,num_chars表示需要從左開始算提取幾個字符數(shù),其中每個字符按1計數(shù)。RIGHT函數(shù),用于獲取字符串右邊指定個數(shù)的字符RIGHT函數(shù)的語法為:=RIGHT(text,num_chars),其中text為要取得給定值的文本數(shù)據(jù)源,num_chars表示需要從右開始算提取幾個字符數(shù),其中每個字符按1計數(shù)。單元三數(shù)據(jù)處理MID函數(shù),用于獲取字符串從指定位置開始指定個數(shù)的字符MID函數(shù)的語法為:=MID(text,start_num,num_chars),其中text為要取得給定值的文本數(shù)據(jù)源,start_num表示指定從第幾位開始提取,num_chars表示需要從指定位置開始算提取幾個字符數(shù),其中每個字符按1計數(shù)。單元三數(shù)據(jù)處理將表格中的客戶姓名提煉出來,可以使用LEFT函數(shù),選定客戶姓名要放置的單元格,單擊插入函數(shù)“fx”,選擇文本函數(shù),從中選取LEFT函數(shù),如圖。隨后分別輸入文本源和數(shù)值,如提取A1單元格中從左開始的5個字符數(shù),如圖。點擊“確定”,完成姓名提取。1文本函數(shù)選取函數(shù)參數(shù)輸入姓名數(shù)據(jù)提煉單元三數(shù)據(jù)處理接下來完成電話號碼的提煉,選取文本函數(shù)中的MID函數(shù),如圖。電話號碼是從第6位字符開始的,需要提取11位字符,輸入函數(shù)參數(shù),如圖。單擊“確定”,即可完成電話號碼的提煉,如圖。2文本函數(shù)選取函數(shù)參數(shù)輸入姓名數(shù)據(jù)提煉單元三數(shù)據(jù)處理提取訂單號,選取文本函數(shù)中的RIGHT函數(shù),訂單號為從右開始的18個字符,輸入函數(shù)參數(shù),如圖。單擊“確定”,即可完成訂單號的提煉,如圖。3函數(shù)參數(shù)輸入訂單號提煉單元三數(shù)據(jù)處理數(shù)據(jù)類型的轉(zhuǎn)換數(shù)值轉(zhuǎn)字符在Excel輸入數(shù)據(jù)的時候,會默認(rèn)使用數(shù)值型數(shù)據(jù),若是數(shù)字超過11位長,會變成科學(xué)計數(shù)法,不利于查看數(shù)據(jù)在Excel中打開數(shù)據(jù)表,選擇要轉(zhuǎn)換的數(shù)字所在的單元格,隨后單擊“數(shù)據(jù)”選項卡中的“分列”按鈕,在文本分列向?qū)е惺褂媚J(rèn)設(shè)置,連續(xù)單擊“下一步”,完成第1步和第2步的設(shè)置。1單元三數(shù)據(jù)處理進(jìn)入文本分列向?qū)У?步,單擊“列數(shù)據(jù)格式”下的“文本”,單擊“完成”,即可完成設(shè)置。2設(shè)置完成后,返回Excel數(shù)據(jù)表,數(shù)據(jù)前有小三角符號,代表已轉(zhuǎn)換成功。3單元三數(shù)據(jù)處理字符轉(zhuǎn)數(shù)值在進(jìn)行數(shù)據(jù)統(tǒng)計時,有時獲取的原始數(shù)據(jù)是以文本字符形式展現(xiàn)的。雖然不影響數(shù)據(jù)展現(xiàn),但無法進(jìn)行計算。單元三數(shù)據(jù)處理參考數(shù)值轉(zhuǎn)文本字符的方法,但在第三步選擇“列數(shù)據(jù)格式”時,勾選“常規(guī)”,單擊“完成”,即可完成轉(zhuǎn)換。直接選中要轉(zhuǎn)換的數(shù)據(jù)列,點擊數(shù)據(jù)列前出現(xiàn)的提醒符號,在給出的選項中點擊“轉(zhuǎn)換為數(shù)據(jù)”,即可將文本型字符轉(zhuǎn)換為數(shù)值。單元三數(shù)據(jù)處理文本日期轉(zhuǎn)標(biāo)準(zhǔn)日期在Excel中打開數(shù)據(jù)列表,選中為文本格式的日期信息,隨后單擊“數(shù)據(jù)”選項卡中的“分列”。在文本分列向?qū)е?,使用默認(rèn)設(shè)置,連續(xù)單擊“下一步”,完成第1步和第2步的設(shè)置,進(jìn)入第3步后,在列數(shù)據(jù)格式選擇“日期”,在其下拉列表中選擇“YMD”選項,如圖。單擊“完成”后,即可完成標(biāo)準(zhǔn)日期的轉(zhuǎn)換,如圖。1設(shè)定列數(shù)據(jù)格式完成日期的轉(zhuǎn)換單元三數(shù)據(jù)處理轉(zhuǎn)換后的月份和日期都是單數(shù)顯示,想要轉(zhuǎn)換成雙數(shù),可以打開“設(shè)置單元格格式”對話框,在設(shè)置頁面選擇分類為“自定義”,右面的類型設(shè)置為“yyyy-mm-dd”,設(shè)置完成后單擊“確定”按鈕,即可完成日期雙數(shù)的設(shè)置。2單元三數(shù)據(jù)處理上述案例中,如果需要將統(tǒng)計日期“2022年7月1日”的格式修改為“7/1/2022",其自定義類型應(yīng)如何設(shè)置?單元三數(shù)據(jù)處理實訓(xùn)專區(qū)3-2調(diào)取源數(shù)據(jù)3-2,對該表中C列數(shù)據(jù)進(jìn)行文本提煉,并放置在相應(yīng)屬性列中。單元三數(shù)據(jù)處理三、數(shù)據(jù)排序簡單排序簡單排序高級排序自定義排序針對單列數(shù)據(jù)進(jìn)行的快速排序,即只有一個關(guān)鍵字段。圖是某網(wǎng)店無線端推廣的流量匯總表,下面以表中數(shù)據(jù)為例,采用從高到低(即降序)的方式,快速找到帶來訪客數(shù)最多的流量來源。單元三數(shù)據(jù)處理選中需要排序的列“訪客數(shù)”,在“數(shù)據(jù)”選項卡下的“排序和篩選”功能組中單擊“降序”按鈕,在彈出的“排序提醒”對話框中,選擇排序依據(jù),這里選擇“擴(kuò)展選定區(qū)域”。1單元三數(shù)據(jù)處理排序完成,即可得到該網(wǎng)店無線端推廣的效果排行情況,如圖。從表中數(shù)據(jù)可以得出,智鉆引流效果最好。2單元三數(shù)據(jù)處理高級排序“訪客數(shù)”從高到低排列引入第二關(guān)鍵字。即修改“某網(wǎng)店無線端推廣的流量匯總表”的排序條件為:按“訪客數(shù)”降序排列,在“訪客數(shù)”相同的情況下按“下單買家數(shù)”降序排列。單元三數(shù)據(jù)處理在“排序”對話框中,“主要關(guān)鍵字”選擇“訪客數(shù)”,“排序依據(jù)”選擇“數(shù)值”,“次序”選擇“降序”。1單元三數(shù)據(jù)處理單擊“添加條件”按鈕,新增“次要關(guān)鍵字”,設(shè)置參數(shù)為“下單買家數(shù)”、“數(shù)值”、“降序”,排序結(jié)果如圖。2單元三數(shù)據(jù)處理自定義排序在進(jìn)行自定義排序時,必須先建立需要排序的自定義序列項目,然后才能根據(jù)設(shè)置的自定義序列對表格進(jìn)行排序。以圖所示的數(shù)據(jù)表為例,對其按照“流量分類”進(jìn)行排序。單元三數(shù)據(jù)處理選擇“文件”選項卡下的“選項”命令,彈出“Excel選項”對話框,在“高級”標(biāo)簽下,找到“常規(guī)”欄目,單擊“編輯自定義列表”按鈕。1單元三數(shù)據(jù)處理在彈出的“自定義序列”對話框中,輸入序列,單擊“添加”按鈕,將其添加到自定義序列中,點擊“確定”按鈕完成。2單元三數(shù)據(jù)處理返回Excel文檔中,在“數(shù)據(jù)”選項卡下的“排序和篩選”功能組中單擊“降序”按鈕,彈出“排序”對話框,“主要關(guān)鍵字”選擇“來源分類”,“排序依據(jù)”選擇“數(shù)值”,“次序”選擇“自定義序列”。3單元三數(shù)據(jù)處理在彈出的“自定義序列”對話框中,選擇已經(jīng)定義好的序列。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論