《財務(wù)大數(shù)據(jù)基礎(chǔ)》課件 項目3、4 財務(wù)大數(shù)據(jù)清洗、財務(wù)大數(shù)據(jù)建模_第1頁
《財務(wù)大數(shù)據(jù)基礎(chǔ)》課件 項目3、4 財務(wù)大數(shù)據(jù)清洗、財務(wù)大數(shù)據(jù)建模_第2頁
《財務(wù)大數(shù)據(jù)基礎(chǔ)》課件 項目3、4 財務(wù)大數(shù)據(jù)清洗、財務(wù)大數(shù)據(jù)建模_第3頁
《財務(wù)大數(shù)據(jù)基礎(chǔ)》課件 項目3、4 財務(wù)大數(shù)據(jù)清洗、財務(wù)大數(shù)據(jù)建模_第4頁
《財務(wù)大數(shù)據(jù)基礎(chǔ)》課件 項目3、4 財務(wù)大數(shù)據(jù)清洗、財務(wù)大數(shù)據(jù)建模_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

財務(wù)大數(shù)據(jù)基礎(chǔ)數(shù)據(jù)采集內(nèi)容回顧數(shù)據(jù)采集調(diào)查問卷的要素和注意事項同時采集多個Excel文件多家上市公司財務(wù)數(shù)據(jù)的采集調(diào)查問卷采集EXCEL文件采集Web文件采集項目二回顧項目二展示

任務(wù)實施多網(wǎng)頁采集——同學(xué)上臺登錄網(wǎng)易財經(jīng)網(wǎng)站,爬取任意板塊股票3家企業(yè)的財務(wù)數(shù)據(jù)。項目三

財務(wù)大數(shù)據(jù)清洗任務(wù)一數(shù)據(jù)清洗認(rèn)知任務(wù)二數(shù)據(jù)類型規(guī)范任務(wù)三

數(shù)據(jù)清洗30招任務(wù)四

數(shù)據(jù)清洗運(yùn)用任務(wù)五項目實訓(xùn)(PowerBI數(shù)據(jù)清洗)任務(wù)一數(shù)據(jù)清洗認(rèn)知

數(shù)據(jù)清洗概念數(shù)據(jù)清洗:重新檢查和驗證數(shù)據(jù)的過程,旨在刪除重復(fù)信息,糾正現(xiàn)有錯誤并提供數(shù)據(jù)一致性。臟數(shù)據(jù)高質(zhì)量數(shù)據(jù)任務(wù)一數(shù)據(jù)清洗認(rèn)知

數(shù)據(jù)清洗作用數(shù)據(jù)搬運(yùn)工?EXCEL四步曲獲取數(shù)據(jù)匯總數(shù)據(jù)(表格)數(shù)據(jù)透視表分析趨勢及原因任務(wù)一數(shù)據(jù)清洗認(rèn)知

數(shù)據(jù)清洗作用80%數(shù)據(jù)處理80%數(shù)據(jù)分析處理的數(shù)據(jù)量較大(千萬);最小的處理單元是行和列(批量處理思維);有操作過程記錄(關(guān)鍵)任務(wù)一數(shù)據(jù)清洗認(rèn)知

數(shù)據(jù)清洗——PowerBIPowerBI采集的數(shù)據(jù)是從多個渠道抽取而來原始數(shù)據(jù),避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。任務(wù)一數(shù)據(jù)清洗認(rèn)知PowerQuery介紹

PowerQuery是微軟的數(shù)據(jù)連接和數(shù)據(jù)準(zhǔn)備技術(shù),使業(yè)務(wù)用戶能夠無縫訪問存儲在數(shù)百個數(shù)據(jù)源中的數(shù)據(jù),并通過易于使用、引人入勝且無代碼的用戶體驗來對其進(jìn)行調(diào)整以適應(yīng)他們的需求。任務(wù)一數(shù)據(jù)清洗認(rèn)知

PowerQuery認(rèn)知——進(jìn)入PQPowerQuery入口如果還沒有任何數(shù)據(jù),在PowerBIDesktop中,點(diǎn)擊獲取數(shù)據(jù),選擇相應(yīng)的數(shù)據(jù)格式導(dǎo)入后,就可以進(jìn)入PowerQuery編輯器;如果已經(jīng)導(dǎo)入數(shù)據(jù),想再次進(jìn)入查看或者編輯,可以點(diǎn)擊上圖中的“轉(zhuǎn)換數(shù)據(jù)”進(jìn)入。任務(wù)一數(shù)據(jù)清洗認(rèn)知

PowerQuery認(rèn)知——PQ界面功能區(qū)包含“文件”“主頁”“轉(zhuǎn)換”“添加列”“視圖”“工具”。1.“文件”菜單:關(guān)閉并應(yīng)用:關(guān)閉查詢編輯器并應(yīng)用所做的更改。應(yīng)用:應(yīng)用所做的更改,但不關(guān)閉查詢編輯器。關(guān)閉:關(guān)閉查詢編輯器。保存:保存當(dāng)前所做的更改。

2.“主頁”選項卡:提供常見的查詢功能。任務(wù)一數(shù)據(jù)清洗認(rèn)知

PowerQuery界面——功能區(qū)3.“轉(zhuǎn)換”選項卡“轉(zhuǎn)換”選項卡提供了對數(shù)據(jù)的相關(guān)轉(zhuǎn)換操作。(原列)4.“添加列”選項卡“添加列”選項卡提供了各種添加列的功能。(新增列)任務(wù)一數(shù)據(jù)清洗認(rèn)知

PowerQuery界面——功能區(qū)5.“視圖”選項卡“視圖”選項卡提供了查詢編輯器界面相關(guān)的選項設(shè)置。任務(wù)一數(shù)據(jù)清洗認(rèn)知

PowerQuery界面——功能區(qū)任務(wù)一數(shù)據(jù)清洗認(rèn)知

PowerQuery應(yīng)用步驟區(qū)記錄了在PowerQuery的每一步操作,主要作用是可以對操作的步驟進(jìn)行刪除和修改。PowerQuery界面——應(yīng)用步驟區(qū)任務(wù)一數(shù)據(jù)清洗認(rèn)知(1)可以修改之前的操作,其中帶有設(shè)置標(biāo)記“齒輪”的,都是可以更改的。(2)可以刪除某一個步驟。單擊步驟旁邊的“×”按鈕,就可以刪除該步驟。(3)可以移動步驟,互換順序。在進(jìn)行這個操作時,需要注意前后操作可能出現(xiàn)的沖突。(4)這個“應(yīng)用的步驟”面板復(fù)制了我們的操作,當(dāng)更新數(shù)據(jù)后,只需要單擊“刷新”按鈕,所有的步驟都會從頭到尾全自動化地操作一遍,不再需要做重復(fù)的工作。PowerQuery界面——應(yīng)用步驟區(qū)

數(shù)據(jù)類型殘缺數(shù)據(jù)——空值——刪除、替換或補(bǔ)充錯誤數(shù)據(jù)——異常值——刪除或補(bǔ)全重復(fù)數(shù)據(jù)——刪除任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)類型任務(wù)二數(shù)據(jù)類型規(guī)范“視圖”選項卡——數(shù)據(jù)概覽任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第1招——提升標(biāo)題任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第2招——行列操作刪除列刪除行任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第3招——更改數(shù)據(jù)類型任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第3招——更改數(shù)據(jù)類型小數(shù)定點(diǎn)小數(shù)整數(shù)百分比數(shù)值日期/時間日期時間日期/時間/時區(qū)持續(xù)時間日期文本True/False二進(jìn)制文本任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第4招——檢測數(shù)據(jù)類型任務(wù)實施

每位同學(xué)使用PowerBI軟件對老師發(fā)給大家的“資產(chǎn)負(fù)債表1”

進(jìn)行處理。任務(wù)二數(shù)據(jù)類型規(guī)范

任務(wù)二數(shù)據(jù)類型規(guī)范

維度:一種“屬性、范圍、系數(shù)、承受能力”意思的包涵。在不同的對象指代不同的意思?!俣葷h語一維表與二維表任務(wù)二數(shù)據(jù)類型規(guī)范一維表:僅靠單行就能鎖定全部信息。二維表:需要行和列來定位數(shù)值的。一維表與二維表一維表二維表任務(wù)二數(shù)據(jù)類型規(guī)范一維表與二維表一維表是符合數(shù)據(jù)庫設(shè)計規(guī)范,數(shù)據(jù)豐富詳實,適合做流水賬,方便存儲,有利于做統(tǒng)計分析;二維表特點(diǎn)是明確直觀,適合打印、匯報。哪一種類型的表格適合作為源數(shù)據(jù)進(jìn)行數(shù)據(jù)分析?字段——列為單位屬性一維表——數(shù)據(jù)分析任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第5招——逆透視逆透視列的逆透視,是把二維表轉(zhuǎn)換到一維表的過程將表中的列換成了值透視任務(wù)二數(shù)據(jù)類型規(guī)范任務(wù)實施

同學(xué)在新浪財經(jīng)網(wǎng)址上采集一家公司的資產(chǎn)負(fù)債表,并將采集到的數(shù)據(jù)轉(zhuǎn)換為一維表。網(wǎng)址如下:/corp/go.php/vFD_BalanceSheet/stockid/002269/ctrl/2020/displaytype/4.phtml采集不同公司或年度的數(shù)據(jù)只需替換上述網(wǎng)址中的股票代碼或年份即可。

數(shù)據(jù)類型殘缺數(shù)據(jù)——空值——刪除、替換或補(bǔ)充錯誤數(shù)據(jù)——異常值——刪除或補(bǔ)全重復(fù)數(shù)據(jù)——刪除課前回顧一維表:僅靠單行就能鎖定全部信息。二維表:需要行和列來定位數(shù)值的。

通過處理“資產(chǎn)負(fù)債表2”

復(fù)習(xí)清洗小招數(shù):課前回顧第1招——提升標(biāo)題第2招——逆透視第3招——替換值第4招——檢測并更改數(shù)據(jù)類型第5招——刪除錯誤/空值任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第6招——替換值“–”替換為“0”任務(wù)二數(shù)據(jù)類型規(guī)范

數(shù)據(jù)清洗第7招——刪除錯誤/空值右鍵刪除錯誤篩選-去掉null勾選任務(wù)三數(shù)據(jù)清洗30招數(shù)據(jù)清洗運(yùn)用場景討論:假如你是某公司數(shù)據(jù)分析人員,表格中存在哪些數(shù)據(jù)問題?任務(wù)三數(shù)據(jù)清洗30招數(shù)據(jù)清洗運(yùn)用場景任務(wù)三數(shù)據(jù)清洗30招

1匯總文件夾數(shù)據(jù)2第一行用作標(biāo)題3篩選刪除重復(fù)表頭4刪除列5刪除重復(fù)項目6刪除空白項目7數(shù)據(jù)格式調(diào)整8檢測數(shù)據(jù)類型9替換10填充11移動12拆分13重命名14提取分隔符之前的文本15修整格式16格式-首字母大寫17排序18逆透視(余下了解)19條件列20索引列21重復(fù)列22數(shù)字計算23對日期列的添加和轉(zhuǎn)換24示例中的列25自定義列26轉(zhuǎn)置27反轉(zhuǎn)行28對行進(jìn)行計數(shù)29分組依據(jù)30復(fù)制-新查詢添加任務(wù)四項目實訓(xùn)任務(wù)實施

每位同學(xué)使用PowerBI軟件對項目2批量采集多家公司不同年份資產(chǎn)負(fù)債表的結(jié)果進(jìn)行數(shù)據(jù)清洗。Thank

you!財務(wù)大數(shù)據(jù)基礎(chǔ)引入數(shù)據(jù)建模項目四

財務(wù)大數(shù)據(jù)建模任務(wù)一數(shù)據(jù)建模認(rèn)知任務(wù)二多表數(shù)據(jù)合并任務(wù)三度量值與DAX函數(shù)任務(wù)四項目實訓(xùn)(PowerBI數(shù)據(jù)建模)任務(wù)一數(shù)據(jù)建模認(rèn)知數(shù)據(jù)打通=數(shù)據(jù)關(guān)聯(lián)=模型=數(shù)據(jù)建模數(shù)據(jù)建模概念

PowerBI的數(shù)據(jù)建模就是識別表之間的關(guān)系,并將表之間的共同字段進(jìn)行關(guān)聯(lián),建立多維數(shù)據(jù)模型,為后續(xù)數(shù)據(jù)可視化指標(biāo)設(shè)計作好數(shù)據(jù)基礎(chǔ)。為什么要進(jìn)行數(shù)據(jù)建模?任務(wù)一數(shù)據(jù)建模認(rèn)知討論:如何將產(chǎn)品表中的產(chǎn)品具體信息加載顯示到銷售數(shù)據(jù)表中?

任務(wù)一數(shù)據(jù)建模認(rèn)知數(shù)據(jù)表的分類(1)事實表事實表描述企業(yè)發(fā)生業(yè)務(wù)的實際數(shù)據(jù)或詳細(xì)記錄,一般數(shù)據(jù)量較大,并且行數(shù)會隨著時間的推移不斷增長,例如企業(yè)銷售業(yè)務(wù)表。任務(wù)一數(shù)據(jù)建模認(rèn)知(2)維度表維度表儲存與事實表的眾多屬性,用于描述業(yè)務(wù)過程中的有關(guān)屬性。維度表通常行數(shù)較少,變動頻率較低。常見的維度表有產(chǎn)品表、科目表等。任務(wù)一數(shù)據(jù)建模認(rèn)知分組討論:以下幾張表格分別屬于哪種類型的表格?任務(wù)一數(shù)據(jù)建模認(rèn)知數(shù)據(jù)關(guān)系分類

數(shù)據(jù)建模常見的關(guān)系有以下三種:(1)一對一

指一個表與另一個表中的記錄是一一對應(yīng)關(guān)系,即列中的每個值在兩個表中都是唯一的。(2)一對多(或多對一)

一對多是指一個表(維度表)中的列具有一個值的一個實例對應(yīng)與其關(guān)聯(lián)的另一個表(事實表)中的列具有一個值的多個實例。(3)多對多多對多關(guān)系是指兩個表格相互對應(yīng)多個關(guān)系,PowerBI支持多對多關(guān)系的建立,不建議使用。任務(wù)一數(shù)據(jù)建模認(rèn)知數(shù)據(jù)模型創(chuàng)建

(1)自動創(chuàng)建

在PowerBI中,點(diǎn)擊【主頁】→【管理關(guān)系】→【自動檢測】,可以實現(xiàn)關(guān)系自動檢測。注意:因為有時自動識別的關(guān)系不準(zhǔn)確,建議采用手動創(chuàng)建關(guān)系。任務(wù)一數(shù)據(jù)建模認(rèn)知數(shù)據(jù)模型創(chuàng)建

(2)手動創(chuàng)建

手動創(chuàng)建關(guān)系的方式有兩種,一種是點(diǎn)擊【主頁】→【管理關(guān)系】→【新建】,選擇要創(chuàng)建的表和相同的字段,還可以設(shè)置基數(shù)、交叉篩選器方向。

另外一種方式,是在模型視圖采用拖曳的方式,將一個字段與另外一個字段相連。任務(wù)一數(shù)據(jù)建模認(rèn)知交叉篩選方向表格與表格數(shù)據(jù)之間的流向。每個模型關(guān)系都要定義交叉篩選方向。交叉篩選方向有“單向”和“雙向”之分,單一方向進(jìn)行篩選的是單向,兩個方向進(jìn)行篩選的關(guān)系通常稱為雙向。

基數(shù)類型交叉篩選選項一對多(或多對一)單向/雙向一對一雙向多對多單向/雙向任務(wù)一數(shù)據(jù)建模認(rèn)知數(shù)據(jù)模型創(chuàng)建

(3)聚合分析

建立模型之后,就可以實現(xiàn)多個數(shù)據(jù)表的聚合分析,而無需使用Vlookup函數(shù)。課前回顧

數(shù)據(jù)建模=識別表關(guān)系+關(guān)聯(lián)共同字段+建立多維度模型事實表維度表一對一

一對多

多對多多表合并:將多個表格的數(shù)據(jù)合并到一個表格之中。按照合并方式的不同,通常分為縱向合并與橫向合并。任務(wù)二多表數(shù)據(jù)合并任務(wù)二多表數(shù)據(jù)合并

縱向合并(追加查詢)縱向合并是指將幾個數(shù)據(jù)表中的數(shù)據(jù)縱向相加,形成一個新的數(shù)據(jù)集。注意:追加查詢需要滿足追加表的表結(jié)構(gòu)必須一致。任務(wù)二多表數(shù)據(jù)合并多個表格采集進(jìn)PQ:縱向合并(追加查詢)實現(xiàn)任務(wù)二多表數(shù)據(jù)合并使用“追加查詢”實現(xiàn)縱向合并:縱向合并(追加查詢)實現(xiàn)任務(wù)二多表數(shù)據(jù)合并縱向合并的結(jié)果:縱向合并(追加查詢)實現(xiàn)任務(wù)二多表數(shù)據(jù)合并

橫向合并(合并查詢)橫向合并是指將幾個數(shù)據(jù)表中的數(shù)據(jù)橫向相加,形成一個新的數(shù)據(jù)集。(列加總,行不變)任務(wù)二多表數(shù)據(jù)合并

橫向合并(合并查詢)任務(wù)三度量值與DAX函數(shù)

度量值認(rèn)知數(shù)據(jù)通常由兩個構(gòu)成部分,一個是類別(非數(shù)值),另一個是度量值(數(shù)值)。度量值是用戶重點(diǎn)關(guān)注的一些數(shù)值和指標(biāo),它取決于使用者的分析需求。度量值可以是對事實數(shù)據(jù)表中某個列或某些列的值的聚合分析,例如形成求和、最大值、平均值等。任務(wù)三度量值與DAX函數(shù)

DAX表達(dá)式認(rèn)知DAX(DataAnalysisExpression)即數(shù)據(jù)分析表達(dá)式,它是一種公式語言,類似Excel函數(shù)的使用規(guī)則,允許用戶在進(jìn)行自定義計算。其特點(diǎn)在于數(shù)據(jù)處理靈活,適合復(fù)雜的計算邏輯以及大量的數(shù)據(jù)運(yùn)算。DAX函數(shù)語法如下:任務(wù)三度量值與DAX函數(shù)

DAX表達(dá)式認(rèn)知DAX函數(shù)語法如下:A:度量值名稱:如“銷售額”,是計算度量值的名稱B:運(yùn)算符:“=”和“*”分別是等于號和乘號C:函數(shù)名稱:“SUM”用來計算某列的數(shù)字之和D:表名:‘銷售表’為表名,引入時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論