財(cái)務(wù)大數(shù)據(jù)基礎(chǔ)課件:財(cái)務(wù)大數(shù)據(jù)清洗_第1頁
財(cái)務(wù)大數(shù)據(jù)基礎(chǔ)課件:財(cái)務(wù)大數(shù)據(jù)清洗_第2頁
財(cái)務(wù)大數(shù)據(jù)基礎(chǔ)課件:財(cái)務(wù)大數(shù)據(jù)清洗_第3頁
財(cái)務(wù)大數(shù)據(jù)基礎(chǔ)課件:財(cái)務(wù)大數(shù)據(jù)清洗_第4頁
財(cái)務(wù)大數(shù)據(jù)基礎(chǔ)課件:財(cái)務(wù)大數(shù)據(jù)清洗_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

財(cái)務(wù)大數(shù)據(jù)基礎(chǔ)數(shù)據(jù)采集內(nèi)容回顧數(shù)據(jù)采集調(diào)查問卷的要素和注意事項(xiàng)同時(shí)采集多個(gè)Excel文件多家上市公司財(cái)務(wù)數(shù)據(jù)的采集調(diào)查問卷采集EXCEL文件采集Web文件采集

回顧

展示

任務(wù)實(shí)施多網(wǎng)頁采集——同學(xué)上臺登錄網(wǎng)易財(cái)經(jīng)網(wǎng)站,爬取任意板塊股票3家企業(yè)的財(cái)務(wù)數(shù)據(jù)。

財(cái)務(wù)大數(shù)據(jù)清洗數(shù)據(jù)清洗認(rèn)知數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗30招

數(shù)據(jù)清洗運(yùn)用項(xiàng)目實(shí)訓(xùn)(PowerBI數(shù)據(jù)清洗)數(shù)據(jù)清洗認(rèn)知

數(shù)據(jù)清洗概念數(shù)據(jù)清洗:重新檢查和驗(yàn)證數(shù)據(jù)的過程,旨在刪除重復(fù)信息,糾正現(xiàn)有錯(cuò)誤并提供數(shù)據(jù)一致性。臟數(shù)據(jù)高質(zhì)量數(shù)據(jù)數(shù)據(jù)清洗認(rèn)知

數(shù)據(jù)清洗作用數(shù)據(jù)搬運(yùn)工?EXCEL四步曲獲取數(shù)據(jù)匯總數(shù)據(jù)(表格)數(shù)據(jù)透視表分析趨勢及原因數(shù)據(jù)清洗認(rèn)知

數(shù)據(jù)清洗作用80%數(shù)據(jù)處理80%數(shù)據(jù)分析處理的數(shù)據(jù)量較大(千萬);最小的處理單元是行和列(批量處理思維);有操作過程記錄(關(guān)鍵)數(shù)據(jù)清洗認(rèn)知

數(shù)據(jù)清洗——PowerBIPowerBI采集的數(shù)據(jù)是從多個(gè)渠道抽取而來原始數(shù)據(jù),避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。數(shù)據(jù)清洗認(rèn)知PowerQuery介紹

PowerQuery是微軟的數(shù)據(jù)連接和數(shù)據(jù)準(zhǔn)備技術(shù),使業(yè)務(wù)用戶能夠無縫訪問存儲(chǔ)在數(shù)百個(gè)數(shù)據(jù)源中的數(shù)據(jù),并通過易于使用、引人入勝且無代碼的用戶體驗(yàn)來對其進(jìn)行調(diào)整以適應(yīng)他們的需求。數(shù)據(jù)清洗認(rèn)知

PowerQuery認(rèn)知——進(jìn)入PQPowerQuery入口如果還沒有任何數(shù)據(jù),在PowerBIDesktop中,點(diǎn)擊獲取數(shù)據(jù),選擇相應(yīng)的數(shù)據(jù)格式導(dǎo)入后,就可以進(jìn)入PowerQuery編輯器;如果已經(jīng)導(dǎo)入數(shù)據(jù),想再次進(jìn)入查看或者編輯,可以點(diǎn)擊上圖中的“轉(zhuǎn)換數(shù)據(jù)”進(jìn)入。數(shù)據(jù)清洗認(rèn)知

PowerQuery認(rèn)知——PQ界面功能區(qū)包含“文件”“主頁”“轉(zhuǎn)換”“添加列”“視圖”“工具”。1.“文件”菜單:關(guān)閉并應(yīng)用:關(guān)閉查詢編輯器并應(yīng)用所做的更改。應(yīng)用:應(yīng)用所做的更改,但不關(guān)閉查詢編輯器。關(guān)閉:關(guān)閉查詢編輯器。保存:保存當(dāng)前所做的更改。

2.“主頁”選項(xiàng)卡:提供常見的查詢功能。數(shù)據(jù)清洗認(rèn)知

PowerQuery界面——功能區(qū)3.“轉(zhuǎn)換”選項(xiàng)卡“轉(zhuǎn)換”選項(xiàng)卡提供了對數(shù)據(jù)的相關(guān)轉(zhuǎn)換操作。(原列)4.“添加列”選項(xiàng)卡“添加列”選項(xiàng)卡提供了各種添加列的功能。(新增列)數(shù)據(jù)清洗認(rèn)知

PowerQuery界面——功能區(qū)5.“視圖”選項(xiàng)卡“視圖”選項(xiàng)卡提供了查詢編輯器界面相關(guān)的選項(xiàng)設(shè)置。數(shù)據(jù)清洗認(rèn)知

PowerQuery界面——功能區(qū)數(shù)據(jù)清洗認(rèn)知

PowerQuery應(yīng)用步驟區(qū)記錄了在PowerQuery的每一步操作,主要作用是可以對操作的步驟進(jìn)行刪除和修改。PowerQuery界面——應(yīng)用步驟區(qū)數(shù)據(jù)清洗認(rèn)知(1)可以修改之前的操作,其中帶有設(shè)置標(biāo)記“齒輪”的,都是可以更改的。(2)可以刪除某一個(gè)步驟。單擊步驟旁邊的“×”按鈕,就可以刪除該步驟。(3)可以移動(dòng)步驟,互換順序。在進(jìn)行這個(gè)操作時(shí),需要注意前后操作可能出現(xiàn)的沖突。(4)這個(gè)“應(yīng)用的步驟”面板復(fù)制了我們的操作,當(dāng)更新數(shù)據(jù)后,只需要單擊“刷新”按鈕,所有的步驟都會(huì)從頭到尾全自動(dòng)化地操作一遍,不再需要做重復(fù)的工作。PowerQuery界面——應(yīng)用步驟區(qū)

數(shù)據(jù)類型殘缺數(shù)據(jù)——空值——?jiǎng)h除、替換或補(bǔ)充錯(cuò)誤數(shù)據(jù)——異常值——?jiǎng)h除或補(bǔ)全重復(fù)數(shù)據(jù)——?jiǎng)h除數(shù)據(jù)類型規(guī)范

數(shù)據(jù)類型數(shù)據(jù)類型規(guī)范“視圖”選項(xiàng)卡——數(shù)據(jù)概覽數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第1招——提升標(biāo)題數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第2招——行列操作刪除列刪除行數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第3招——更改數(shù)據(jù)類型數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第3招——更改數(shù)據(jù)類型小數(shù)定點(diǎn)小數(shù)整數(shù)百分比數(shù)值日期/時(shí)間日期時(shí)間日期/時(shí)間/時(shí)區(qū)持續(xù)時(shí)間日期文本True/False二進(jìn)制文本數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第4招——檢測數(shù)據(jù)類型任務(wù)實(shí)施

每位同學(xué)使用PowerBI軟件對老師發(fā)給大家的“資產(chǎn)負(fù)債表1”

進(jìn)行處理。數(shù)據(jù)類型規(guī)范

數(shù)據(jù)類型規(guī)范

維度:一種“屬性、范圍、系數(shù)、承受能力”意思的包涵。在不同的對象指代不同的意思?!俣葷h語一維表與二維表數(shù)據(jù)類型規(guī)范一維表:僅靠單行就能鎖定全部信息。二維表:需要行和列來定位數(shù)值的。一維表與二維表一維表二維表數(shù)據(jù)類型規(guī)范一維表與二維表一維表是符合數(shù)據(jù)庫設(shè)計(jì)規(guī)范,數(shù)據(jù)豐富詳實(shí),適合做流水賬,方便存儲(chǔ),有利于做統(tǒng)計(jì)分析;二維表特點(diǎn)是明確直觀,適合打印、匯報(bào)。哪一種類型的表格適合作為源數(shù)據(jù)進(jìn)行數(shù)據(jù)分析?字段——列為單位屬性一維表——數(shù)據(jù)分析數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第5招——逆透視逆透視列的逆透視,是把二維表轉(zhuǎn)換到一維表的過程將表中的列換成了值透視數(shù)據(jù)類型規(guī)范任務(wù)實(shí)施

同學(xué)在新浪財(cái)經(jīng)網(wǎng)址上采集一家公司的資產(chǎn)負(fù)債表,并將采集到的數(shù)據(jù)轉(zhuǎn)換為一維表。網(wǎng)址如下:

采集不同公司或年度的數(shù)據(jù)只需替換上述網(wǎng)址中的股票代碼或年份即可。

數(shù)據(jù)類型殘缺數(shù)據(jù)——空值——?jiǎng)h除、替換或補(bǔ)充錯(cuò)誤數(shù)據(jù)——異常值——?jiǎng)h除或補(bǔ)全重復(fù)數(shù)據(jù)——?jiǎng)h除課前回顧一維表:僅靠單行就能鎖定全部信息。二維表:需要行和列來定位數(shù)值的。

通過處理“資產(chǎn)負(fù)債表2”

復(fù)習(xí)清洗小招數(shù):課前回顧第1招——提升標(biāo)題第2招——逆透視第3招——替換值第4招——檢測并更改數(shù)據(jù)類型第5招——?jiǎng)h除錯(cuò)誤/空值數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第6招——替換值“–”替換為“0”數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第7招——?jiǎng)h除錯(cuò)誤/空值右鍵刪除錯(cuò)誤篩選-去掉null勾選數(shù)據(jù)清洗30招數(shù)據(jù)清洗運(yùn)用場景討論:假如你是某公司數(shù)據(jù)分析人員,表格中存在哪些數(shù)據(jù)問題?數(shù)據(jù)清洗30招數(shù)據(jù)清洗運(yùn)用場景數(shù)據(jù)清洗30招

1匯總文件夾數(shù)據(jù)2第一行用作標(biāo)題3篩選刪除重復(fù)表頭4刪除列5刪除重復(fù)項(xiàng)目6刪除空白項(xiàng)目7數(shù)據(jù)格式調(diào)整8檢測數(shù)據(jù)類型9替換10填充11移動(dòng)12拆分13重命名14提取分隔符之前的文本15修整格式16格式-首字母大寫17排序18逆透視(余下了解)19條件列20索引列21重復(fù)列22數(shù)字計(jì)算23

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論