POWERBI數(shù)據(jù)處理和分析-數(shù)據(jù)處理基礎(chǔ)_第1頁(yè)
POWERBI數(shù)據(jù)處理和分析-數(shù)據(jù)處理基礎(chǔ)_第2頁(yè)
POWERBI數(shù)據(jù)處理和分析-數(shù)據(jù)處理基礎(chǔ)_第3頁(yè)
POWERBI數(shù)據(jù)處理和分析-數(shù)據(jù)處理基礎(chǔ)_第4頁(yè)
POWERBI數(shù)據(jù)處理和分析-數(shù)據(jù)處理基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)處理基礎(chǔ)1章節(jié)內(nèi)容第3章數(shù)據(jù)處理基礎(chǔ)3.1數(shù)據(jù)的清理3.1.1文本編碼的處理3.1.2異常數(shù)據(jù)值的處理 3.1.3行列數(shù)據(jù)的簡(jiǎn)單處理3.2基本數(shù)據(jù)類型數(shù)據(jù)的處理 3.2.1文本數(shù)據(jù)的處理3.2.2數(shù)值數(shù)據(jù)的處理3.2.3日期時(shí)間數(shù)據(jù)處理 3.3高級(jí)類型數(shù)據(jù)的處理2第3章數(shù)據(jù)處理基礎(chǔ)在將數(shù)據(jù)導(dǎo)入到PowerBIDesktop中之后,為了將導(dǎo)入的數(shù)據(jù)整理成為適合于存儲(chǔ)和分析的狀態(tài),需要對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的處理。在“主頁(yè)”中使用“轉(zhuǎn)換數(shù)據(jù)”按鈕將當(dāng)前的數(shù)據(jù)表使用PowerQuery查詢編輯器打開進(jìn)一步處理,從導(dǎo)入數(shù)據(jù)到進(jìn)行數(shù)據(jù)處理的每一個(gè)操作步驟都會(huì)被查詢編輯器記錄下來(lái),以后當(dāng)數(shù)據(jù)源發(fā)生變化之后,則可以通過“轉(zhuǎn)換數(shù)據(jù)”按鈕右邊的“刷新”按鈕重新讀取數(shù)據(jù)源,并自動(dòng)執(zhí)行保存下來(lái)的處理步驟。3第3章數(shù)據(jù)處理基礎(chǔ)PowerQuery查詢編輯器的主要界面由“主頁(yè)”、“轉(zhuǎn)換”、“添加列”、“視圖”、“工具”以及“幫助”等幾個(gè)功能選項(xiàng)卡構(gòu)成;當(dāng)完成數(shù)據(jù)處理工作后,可以使用“關(guān)閉并應(yīng)用”按鈕,將對(duì)導(dǎo)入數(shù)據(jù)表的具體處理步驟記錄并應(yīng)用,并將最終的處理結(jié)果數(shù)據(jù)表保存到當(dāng)前pbix文件中。43.1.1數(shù)據(jù)的清理——文本編碼的處理在獲取數(shù)據(jù)時(shí),如果沒有設(shè)置正確的文本編碼,常常會(huì)導(dǎo)致亂碼問題,通過識(shí)別和設(shè)置正確的文本編碼可以解決亂碼。53.1.2數(shù)據(jù)的清理——異常數(shù)據(jù)值的處理導(dǎo)入的數(shù)據(jù)表中可能會(huì)因?yàn)楦鞣N原因有一些缺失值或錯(cuò)誤的值,為了數(shù)據(jù)建模分析的需要,要使用有意義的值替換這些異常的數(shù)據(jù)值,或者簡(jiǎn)單的過濾掉這些異常的數(shù)據(jù)值。例:導(dǎo)入并處理有關(guān)學(xué)生信息的EXCEL數(shù)據(jù)表格數(shù)據(jù)(studentdata.xlsx),可以看到該表格中有缺失的成績(jī),可能是學(xué)生沒有參加該門課程的考試造成的,此外,表格中還是用了單元格合并等格式,因此,當(dāng)導(dǎo)入該表格數(shù)據(jù)后,使用PowerBI編輯該查詢,可以看到格式和缺失數(shù)據(jù)造成了很多缺失值。63.1.2數(shù)據(jù)的清理——異常數(shù)據(jù)值的處理(1)刪除異常的數(shù)據(jù)值對(duì)于因?yàn)镋XCEL表格格式造成的全是空值的行,直接采用刪除的方法去除掉??梢酝ㄟ^主頁(yè)中“刪除行”按鈕下拉菜單中的“刪除空行”完成刪除操作,也可以通過在表格中任何一列右上角的三角箭頭下拉菜單中選擇“刪除空”菜單項(xiàng)實(shí)現(xiàn)刪除操作。73.1.2數(shù)據(jù)的清理——異常數(shù)據(jù)值的處理(2)將異常的數(shù)據(jù)值替換為特定值將缺失的學(xué)生成績(jī)替換為0是比較合理的,也可以方便后續(xù)的數(shù)據(jù)分析。在表中任何位置單擊,然后按CTRL+A選中整個(gè)表格,在主頁(yè)中選擇“替換值”按鈕,在替換之對(duì)話框中設(shè)置將空值替換為0。83.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理1.將首行數(shù)據(jù)提升為標(biāo)題PowerBIDesktop在導(dǎo)入數(shù)據(jù)時(shí)會(huì)嘗試區(qū)分并識(shí)別可能的列名,在有些列名存在但是無(wú)法區(qū)分列名和數(shù)據(jù)的情況下,列名會(huì)被識(shí)別為數(shù)據(jù)的第一行,此時(shí)生成的數(shù)據(jù)表的列名由默認(rèn)的column1、column2。。。等形式命名;可以在PowerQuery編輯器中使用“將第一行用作標(biāo)題”按鈕來(lái)把數(shù)據(jù)表的第一行提升為列名。93.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理2.修改數(shù)據(jù)列的數(shù)據(jù)類型在導(dǎo)入數(shù)據(jù)時(shí),PowerBIDesktop會(huì)嘗試識(shí)別每一列數(shù)據(jù)的數(shù)據(jù)類型,如果自動(dòng)識(shí)別的數(shù)據(jù)類型不滿足要求,則可以通過鼠標(biāo)右鍵單擊每一列列名左邊的數(shù)據(jù)類型圖標(biāo),調(diào)出數(shù)據(jù)類型設(shè)置菜單并手工設(shè)置來(lái)進(jìn)行修改。103.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理3.刪除行從數(shù)據(jù)源導(dǎo)入的數(shù)據(jù)中,會(huì)因?yàn)楦鞣N情況導(dǎo)致有一些數(shù)據(jù)行是不符合需要的,這時(shí)可以使用“刪除行”功能對(duì)指定的數(shù)據(jù)行進(jìn)行刪除操作。PowerQuery中通過“刪除行”功能按鈕的下拉菜單提供了不同的對(duì)數(shù)據(jù)行進(jìn)行刪除的選擇,包括“刪除最前面幾行”、“刪除最后幾行”、“刪除間隔行”、“刪除重復(fù)項(xiàng)”以及“刪除空行”等。113.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理導(dǎo)入的數(shù)據(jù)表中,可能有一些屬性列是重復(fù)多余的,或者是后續(xù)分析不需要的,此時(shí)可以通過“刪除列”或者“刪除其他列”功能實(shí)現(xiàn)對(duì)不需要的屬性列的刪除。123.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理5.添加列出于后續(xù)數(shù)據(jù)分析的需要,有可能需要根據(jù)當(dāng)前數(shù)據(jù)表中的某一列或者某些列生成新的屬性列,例如生成索引列、提取日期中的年、月、日等分量生成新的屬性列等;在PowerQuery的“添加列”選項(xiàng)卡中,通過各種功能按鈕提供了豐富的生成新的屬性列的方法。133.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理5.添加列——案例將學(xué)生信息表中的學(xué)號(hào)和姓名兩列合并為新的一列,并且規(guī)定學(xué)號(hào)和姓名之間使用符號(hào)“-”作為分隔符,則可以選中學(xué)號(hào)和姓名兩列,然后使用“添加列”中的“合并列”功能按鈕,通過在合并列設(shè)置對(duì)話框中設(shè)置好分隔字符以及新的屬性列的名稱,就可以實(shí)現(xiàn)通過合并列來(lái)生成新屬性列的任務(wù)。143.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理6.拆分列可以通過“轉(zhuǎn)換”選項(xiàng)卡的“拆分列”功能按鈕,根據(jù)指定的規(guī)則將已有的數(shù)據(jù)列拆分為若干列,所生成的新的數(shù)據(jù)列的數(shù)量取決于原始的屬性列的數(shù)據(jù)和拆分的規(guī)則。案例:前面生成的“學(xué)號(hào)-姓名”屬性列,因?yàn)槭俏谋绢愋偷?,則可以設(shè)置拆分規(guī)則為根據(jù)分隔符號(hào)“-”對(duì)原有的屬性列進(jìn)行拆分,這樣就得到了“學(xué)號(hào)”和“姓名”兩列。153.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理7.調(diào)整列的位置出于處理或者觀察的方便需要,可能需要調(diào)整數(shù)據(jù)表中各個(gè)屬性列之間的位置關(guān)系,首先選中需要調(diào)整位置的屬性列,然后可以通過以下三種方法移動(dòng)屬性列的位置:1)通過“轉(zhuǎn)換”選項(xiàng)卡的“移動(dòng)”功能按鈕,如圖3-19所示;2)在選中列上單擊鼠標(biāo)郵件,在彈出菜單中選擇“移動(dòng)”功能菜單;3)直接用鼠標(biāo)左鍵拖動(dòng)選中的屬性列到所需的位置后釋放鼠標(biāo)按鍵。163.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理8.填充屬性列當(dāng)從EXCEL文件等類型的數(shù)據(jù)源導(dǎo)入數(shù)據(jù)表時(shí),由于原始文件中合并單元格顯示等格式控制的原因,會(huì)導(dǎo)致屬于同一類別的多個(gè)數(shù)據(jù)行連續(xù)在一起,但是其中只有一個(gè)數(shù)據(jù)行的相關(guān)屬性列具有值,其他數(shù)據(jù)行的同一屬性列的值為空值,這時(shí)可以通過“轉(zhuǎn)換”選項(xiàng)卡中填充功能,將連續(xù)在一起的屬于一個(gè)類別的多個(gè)數(shù)據(jù)行的類別屬性列的值填充為已有的值。173.1.3數(shù)據(jù)的清理——行列數(shù)據(jù)的簡(jiǎn)單處理9.行列互換對(duì)于有些數(shù)據(jù)表,可以從行列兩個(gè)不同的方向進(jìn)行結(jié)構(gòu)化,因此可以通過行列互換功能,在需要的時(shí)候?qū)⒘修D(zhuǎn)換為行,從而適應(yīng)不同方向數(shù)據(jù)分析的需要。實(shí)現(xiàn)具體的處理步驟是:1)將標(biāo)題降為第一行數(shù)據(jù)2)通過“行列轉(zhuǎn)置”功能實(shí)現(xiàn)行列互換3)再將第一個(gè)數(shù)據(jù)行提升為列標(biāo)題183.2.1文本數(shù)據(jù)的處理1.文本替換案例:通過文本替換去除多余文本。首先選中“評(píng)論數(shù)”屬性列,然后使用“轉(zhuǎn)換”選項(xiàng)卡的“替換值”功能按鈕,在“替換值”對(duì)話框中,設(shè)置要查找的值為“條評(píng)論”,替換為就保留為空,這樣就實(shí)現(xiàn)去掉“評(píng)論數(shù)”屬性列中多余的文本了。接著只需要將該列的數(shù)據(jù)類型修改為整數(shù)類型即可。193.2.1文本數(shù)據(jù)的處理2.提取文本數(shù)據(jù)可以通過“添加列”的“提取”功能按鈕提取已有文本類型的屬性列中的文本生成新的屬性列。案例:通過“學(xué)號(hào)”列數(shù)據(jù)提取學(xué)生的入學(xué)年份,在學(xué)號(hào)中入學(xué)年份是固定的前兩個(gè)字符。先選中“學(xué)號(hào)”屬性列,然后選擇“提取”功能中的“范圍”菜單項(xiàng),在對(duì)話框中設(shè)置提取的首字符位置為索引0(在PowerBI中文本第一個(gè)字符的下標(biāo)是0),然后字符數(shù)為2,就可以提取入學(xué)年份生成新的屬性列。203.2.2數(shù)值數(shù)據(jù)的處理(1)根據(jù)已有的列計(jì)算新的列對(duì)于導(dǎo)入的學(xué)生信息表,根據(jù)已有的各門課程成績(jī),計(jì)算每個(gè)學(xué)生總分。首先選中所有的課程成績(jī)列,接著通過“添加列”選項(xiàng)卡的“統(tǒng)計(jì)信息”按鈕的下拉菜單選擇“總和”,實(shí)現(xiàn)計(jì)算并添加總分列。213.2.2數(shù)值數(shù)據(jù)的處理(2)在當(dāng)前列上進(jìn)行數(shù)值計(jì)算可以對(duì)當(dāng)前的數(shù)據(jù)列數(shù)據(jù)進(jìn)行變換處理;案例:將學(xué)生信息表中每個(gè)人的體育成績(jī)都加5分。選中體育成績(jī)列,在“轉(zhuǎn)換”選項(xiàng)卡中選擇“標(biāo)準(zhǔn)”計(jì)算按鈕,在下列菜單中選擇“添加”,在“添加”計(jì)算對(duì)話框中輸入需要增加的值5。223.2.3日期時(shí)間數(shù)據(jù)處理1.提取日期時(shí)間分量在學(xué)生信息表中,可以通過學(xué)生的出生日期計(jì)算得到學(xué)生的出生年份。首先選中出生日期列,然后在“轉(zhuǎn)換列”選項(xiàng)卡中選擇“日期”按鈕,在下拉菜單中選擇年,即可提取得到學(xué)生的出生年份列。233.2.3日期時(shí)間數(shù)據(jù)處理2.計(jì)算日期間隔在學(xué)生信息表中,根據(jù)出生日期計(jì)算學(xué)生的年齡。選中學(xué)生的生日列,在“添加列”選項(xiàng)卡中,選擇“日期”按鈕,然后在下列菜單中選擇“年限”,可以得到以“天時(shí)分秒毫秒”形式的學(xué)生年齡表示。將新建列的列名改為“年齡”,通過“轉(zhuǎn)換”或“添加列”選項(xiàng)卡的“持續(xù)時(shí)間”按鈕的下拉菜單,選擇“總年數(shù)”將該列的顯示改為以“年”為單位,然后改變?cè)摿械臄?shù)據(jù)類型為“整數(shù)”,則可以按照四舍五入的方式得到學(xué)生的年齡。243.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論