大數(shù)據(jù)分析方法與應(yīng)用 課件 第2章 數(shù)據(jù)分析基礎(chǔ)_第1頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課件 第2章 數(shù)據(jù)分析基礎(chǔ)_第2頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課件 第2章 數(shù)據(jù)分析基礎(chǔ)_第3頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課件 第2章 數(shù)據(jù)分析基礎(chǔ)_第4頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課件 第2章 數(shù)據(jù)分析基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析方法與應(yīng)用第2章數(shù)據(jù)分析基礎(chǔ)2.1數(shù)據(jù)的類(lèi)型與分布目錄CONTENTS2.2變量之間的關(guān)系第2章數(shù)據(jù)分析基礎(chǔ)2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.4數(shù)據(jù)的輸入2.1數(shù)據(jù)的類(lèi)型與分布

數(shù)據(jù)的類(lèi)型定性數(shù)據(jù)(也稱(chēng)為名義數(shù)據(jù))是一種用于描述各種類(lèi)別或?qū)傩缘臄?shù)據(jù)。定量數(shù)據(jù)是以數(shù)字表現(xiàn)的數(shù)據(jù),它可以被測(cè)量、計(jì)算和比較。數(shù)據(jù)的收集方式(數(shù)據(jù)收集方式會(huì)影響數(shù)據(jù)的分布特征)

截面數(shù)據(jù)(Cross-sectionaldata)是指在同一時(shí)間點(diǎn)上對(duì)某個(gè)總體進(jìn)行測(cè)量所得到的數(shù)據(jù)。時(shí)間序列數(shù)據(jù)(Time

series

data)是一種按時(shí)間順序排列的觀測(cè)值的集合,這些觀測(cè)值通常時(shí)間間隔采集。2.2變量之間的關(guān)系協(xié)方差(Covariance)是描述兩個(gè)隨機(jī)變量之間關(guān)系的統(tǒng)計(jì)量。它用于衡量?jī)蓚€(gè)變量在同一時(shí)間段內(nèi)的變動(dòng)趨勢(shì)是否同向或相反。當(dāng)協(xié)方差為正值時(shí),表示兩個(gè)變量呈正相關(guān)關(guān)系,即當(dāng)一個(gè)變量增大時(shí),另一個(gè)變量也可能會(huì)增大。當(dāng)協(xié)方差為負(fù)值時(shí),表示兩個(gè)變量呈負(fù)相關(guān)關(guān)系,即當(dāng)一個(gè)變量增大時(shí),另一個(gè)變量可能會(huì)減小。當(dāng)協(xié)方差接近于零時(shí),表示兩個(gè)變量之間沒(méi)有線性關(guān)系。協(xié)方差只能描述變量之間的線性關(guān)系,并不能確定其因果關(guān)系。2.2.1協(xié)方差相關(guān)系數(shù)(Pearsoncorrelationcoefficient)是一種用于衡量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度和方向的統(tǒng)計(jì)量。相關(guān)系數(shù)用希臘字母ρ表示,取值范圍為[-1,1]。相關(guān)系數(shù)定量地刻畫(huà)了X和Y的相關(guān)程度,即|ρxy|越大,相關(guān)程度越大;|ρxy|=0對(duì)應(yīng)相關(guān)程度最低。相關(guān)系數(shù)是一種非參數(shù)統(tǒng)計(jì)量,不受變量分布形狀的影響,適用于各種分布。其中2.2變量之間的關(guān)系2.2.2相關(guān)系數(shù)散點(diǎn)圖是描述變量關(guān)系的一種直觀方法,可以從散點(diǎn)圖中直觀地看出兩個(gè)變量之間是否存在相關(guān)關(guān)系、是正線性相關(guān)還是負(fù)線性相關(guān),也可以大致看出變量之間關(guān)系強(qiáng)度如何,但是對(duì)于具體關(guān)系強(qiáng)度則需要相關(guān)系數(shù)來(lái)判斷。2.3數(shù)據(jù)的可視化——基于Excel的應(yīng)用2.3.1散點(diǎn)圖【例2-1】廣告業(yè)近年來(lái)得到廣泛應(yīng)用,尤其在產(chǎn)品推廣中發(fā)揮了巨大作用,也影響著產(chǎn)品的銷(xiāo)售收入,因此了解廣告費(fèi)對(duì)銷(xiāo)售收入的影響至關(guān)重要。某公司銷(xiāo)售額和廣告費(fèi)用的數(shù)據(jù)如表2-1所示。表2-1某公司銷(xiāo)售額和廣告費(fèi)用廣告費(fèi)用(萬(wàn)元)銷(xiāo)售額1052126015701877208223942.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點(diǎn)圖1)打開(kāi)Excel表格,選中需要制作散點(diǎn)圖的數(shù)據(jù)單元格,單擊“插入”菜單下的散點(diǎn)圖。繪制廣告費(fèi)用對(duì)銷(xiāo)售收入的影響情況的散點(diǎn)圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點(diǎn)圖2)選中“XY散點(diǎn)圖”,然后界面右側(cè)會(huì)顯示很多的散點(diǎn)圖,選擇一個(gè)合適的,單擊確定。3)單擊“圖表標(biāo)題”,輸入標(biāo)題名稱(chēng)。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點(diǎn)圖4)在圖表空白處單擊選中圖表,然后單擊右上角的“+”號(hào),勾選“數(shù)據(jù)標(biāo)簽”,這樣每個(gè)散點(diǎn)圖數(shù)據(jù)點(diǎn)上都會(huì)顯示數(shù)值,單擊“趨勢(shì)線”,還能添加趨勢(shì)線??梢园l(fā)現(xiàn)銷(xiāo)售額和廣告費(fèi)用之間呈現(xiàn)一種線性關(guān)系,即隨著廣告費(fèi)用的增加,銷(xiāo)售額也會(huì)增加。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點(diǎn)圖【例2-2】三大產(chǎn)業(yè)的發(fā)展對(duì)我國(guó)經(jīng)濟(jì)發(fā)展有著舉足輕重的作用,通過(guò)柱形圖和折線圖表示三大產(chǎn)業(yè)在2019-2022年的增加值,可以直觀看出這四年的變化情況。我國(guó)2019-2022年第一、第二和第三產(chǎn)業(yè)增加值如表2-2所示。表2-2我國(guó)2019-2022年第一、第二和第三產(chǎn)業(yè)增加值年份第一產(chǎn)業(yè)增加值第二產(chǎn)業(yè)增加值第三產(chǎn)業(yè)增加值201970,467386,165534,233202077,754384,255553,977202183,086450,904609,680202288,345483,164638,6982.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖1)打開(kāi)Excel,選擇相關(guān)數(shù)據(jù),選定插入,單擊“柱狀圖形”。繪制我國(guó)2019-2022年第一、第二和第三產(chǎn)業(yè)增加值變化的柱形圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2)選擇一種柱形圖,單擊確定。3)單擊“圖表設(shè)計(jì)”菜單項(xiàng),在“圖標(biāo)布局”和“圖表式樣”中選擇需要的布局和式樣。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖4)如果選擇有圖表標(biāo)題和坐標(biāo)軸標(biāo)題的布局,則得到如下的圖表。單擊標(biāo)題可以修改標(biāo)題文本。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖5)修改橫坐標(biāo)軸。右鍵單擊橫坐標(biāo),單擊選擇數(shù)據(jù),在水平(分類(lèi))軸標(biāo)簽下單擊編輯,選擇需要顯示的橫坐標(biāo)數(shù)據(jù),單擊確定。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖6)得到最終的柱狀圖。通過(guò)比較不同柱子的長(zhǎng)度,可以快速看出哪個(gè)類(lèi)別或時(shí)間段的數(shù)據(jù)更大或更小。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖1)打開(kāi)Excel,選擇相關(guān)數(shù)據(jù),選定插入,單擊“折線圖形”。單擊標(biāo)題可以修改標(biāo)題文本。繪制我國(guó)2019-2022年第一、第二和第三產(chǎn)業(yè)增加值變化的折線圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2)修改橫坐標(biāo)軸。右鍵單擊橫坐標(biāo),單擊選擇數(shù)據(jù),在水平(分類(lèi))軸標(biāo)簽下單擊編輯,選擇需要顯示的橫坐標(biāo)數(shù)據(jù),單擊確定。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖3)得到數(shù)據(jù)最終的折線圖。折線圖通常由一系列數(shù)據(jù)點(diǎn)連接而成,表示數(shù)據(jù)隨時(shí)間或某一變量變化而變化的趨勢(shì)。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表數(shù)據(jù)透視表是一種數(shù)據(jù)分析工具,用于對(duì)大量數(shù)據(jù)進(jìn)行匯總、整理和分析。它以電子表格的形式展示數(shù)據(jù),通過(guò)行和列的組合來(lái)提供多維度的統(tǒng)計(jì)信息。數(shù)據(jù)透視表有以下幾個(gè)主要功能:1)匯總數(shù)據(jù)通過(guò)將數(shù)據(jù)按照不同的維度進(jìn)行分組,數(shù)據(jù)透視表可以將大量數(shù)據(jù)匯總并顯示總計(jì)、平均值、最大值、最小值等統(tǒng)計(jì)指標(biāo)。2)過(guò)濾數(shù)據(jù)數(shù)據(jù)透視表可以根據(jù)特定的條件篩選數(shù)據(jù),只顯示符合條件的記錄,從而更精確地進(jìn)行數(shù)據(jù)分析。3)重新排序通過(guò)拖動(dòng)字段或更改字段順序,可以動(dòng)態(tài)調(diào)整數(shù)據(jù)透視表中的數(shù)據(jù)展示方式,使其更符合分析需求。4)數(shù)據(jù)透視圖數(shù)據(jù)透視表可以將數(shù)據(jù)以交叉表格的形式展示,清晰直觀地呈現(xiàn)不同維度之間的關(guān)系,幫助用戶(hù)發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢(shì)和異常情況。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表【例2-3】以銷(xiāo)售月表為例,表中記錄了訂單號(hào)、訂單日期、訂單金額、銷(xiāo)售人員和銷(xiāo)售人員部門(mén),如下表2-3所示。表2-3銷(xiāo)售月表訂單號(hào)訂單日期訂單金額銷(xiāo)售人員部門(mén)202305012023.8.17100,000Alan銷(xiāo)售1部202305022023.8.1720,000Lily銷(xiāo)售2部202305032023.8.185000Alan銷(xiāo)售1部202305042023.8.1930000Alan銷(xiāo)售1部202305052023.8.20200,000Tom銷(xiāo)售1部202305062023.8.2125,000Mike銷(xiāo)售2部202305072023.8.212,000Lily銷(xiāo)售2部202305082023.8.2250,000Helen銷(xiāo)售3部202305092023.8.2323,000Mike銷(xiāo)售2部2023050102023.8.2440,000Tom銷(xiāo)售1部2023050112023.8.2510,000Helen銷(xiāo)售3部2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用1)單擊插入,單擊數(shù)據(jù)透視圖。以銷(xiāo)售人員分類(lèi)查詢(xún)訂單總額2)選擇數(shù)據(jù)透視表,選中需要分析的數(shù)據(jù)區(qū)域。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表3)選擇需要添加到報(bào)表的字段—銷(xiāo)售人員和銷(xiāo)售金額,即顯示各銷(xiāo)售人員負(fù)責(zé)的訂單金額總計(jì)的情況。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表4)根據(jù)數(shù)據(jù)透視圖分析銷(xiāo)售人員、銷(xiāo)售金額和銷(xiāo)售部門(mén)之間關(guān)系通過(guò)使用數(shù)據(jù)透視表,用戶(hù)可以更加靈活和高效地對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行分析和理解,快速找到有意義的數(shù)據(jù)洞察,并支持決策制定和問(wèn)題解決。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表直接鍵盤(pán)輸入用自定義格式輸入LEFT用條件函數(shù)IF輸入用“有效性”工具輸入輸入序列用字符提取函數(shù)RIGHTMID輸入用查找函數(shù)VLOOKUP輸入等2.4數(shù)據(jù)的輸入2.4.1Excel數(shù)據(jù)的輸入方法1)單擊Excel菜單:“數(shù)據(jù)\數(shù)據(jù)驗(yàn)證”。2.4數(shù)據(jù)的輸入2.4.2數(shù)據(jù)有效性2)數(shù)據(jù)驗(yàn)證-設(shè)置日期驗(yàn)證條件。如果輸入的數(shù)據(jù)是2023年某高校大學(xué)生的出生年月,在“允許”下拉菜單中選定“日期”,輸入“開(kāi)始日期”和“結(jié)束”日期。2.4數(shù)據(jù)的輸入2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

3)數(shù)據(jù)驗(yàn)證-設(shè)置文本長(zhǎng)度驗(yàn)證條件。如果輸入的數(shù)據(jù)是學(xué)生的身份證號(hào)碼,在“允許”下拉中選定“文本長(zhǎng)度”,“數(shù)據(jù)”下拉選定“等于”,“長(zhǎng)度”輸入18。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

4)數(shù)據(jù)驗(yàn)證-設(shè)置序列驗(yàn)證條件。設(shè)置還可以建立輸入項(xiàng)目的下拉菜單,特別適合輸入定制的項(xiàng)目。例如:建立畢業(yè)院校的下拉菜單。打開(kāi)“數(shù)據(jù)驗(yàn)證/設(shè)置/允許”下拉菜單,選定“序列”。選定下拉菜單中的院校名稱(chēng),就可以方便地輸入所選內(nèi)容。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

5)數(shù)據(jù)驗(yàn)證-輸入信息提示。“輸入信息”用于用戶(hù)定制選定輸入單元格時(shí)出現(xiàn)的提示信息。例如,對(duì)于輸入身份證號(hào)碼的單元格。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

6)數(shù)據(jù)驗(yàn)證-出錯(cuò)警告。輸入的身份證號(hào)碼超過(guò)18位時(shí)出現(xiàn)的錯(cuò)誤警告。2.4.2數(shù)據(jù)有效性條件函數(shù)IF是Excel中常用的條件判斷函數(shù),其語(yǔ)法格式為:=IF(logical_test,[value_if_true],[value_if_false])。logical_test:表示要進(jìn)行判斷的條件,如果該條件為T(mén)RUE,則返回value_if_true的值,否則返回value_if_false的值。value_if_true:表示當(dāng)logical_test為T(mén)RUE時(shí)返回的值。value_if_false:表示當(dāng)logical_test為FALSE時(shí)返回的值。2.4數(shù)據(jù)的輸入

2.4.3條件函數(shù)IF【例2-4】某公司根據(jù)員工今年的累計(jì)銷(xiāo)售總額計(jì)算員工年終獎(jiǎng)金,計(jì)算規(guī)則為:當(dāng)累計(jì)銷(xiāo)售總額[50000,∞)時(shí),獎(jiǎng)勵(lì)5000元;當(dāng)累計(jì)銷(xiāo)售總額[30000,50000),獎(jiǎng)勵(lì)3000元;當(dāng)累計(jì)銷(xiāo)售總額[20000,30000),獎(jiǎng)勵(lì)2000元,當(dāng)累計(jì)銷(xiāo)售總額[0,20000),沒(méi)有獎(jiǎng)金獎(jiǎng)勵(lì)。該公司本年度員工的累計(jì)銷(xiāo)售金額如表2-4所示。表2-4本年度員工累計(jì)銷(xiāo)售金額員工ID員工銷(xiāo)售金額(元)Alan60,000Alex55,000Helen46,000Lily22,000Mike15,000Tom37,0002.4數(shù)據(jù)的輸入

2.4數(shù)據(jù)的輸入

增設(shè)“獎(jiǎng)勵(lì)金額”一列,插入IF函數(shù)公式。得到最終員工的年終獎(jiǎng)勵(lì)金額。IF函數(shù)嵌套的層數(shù)最多為7層。多個(gè)條件的情況,還是推薦用函數(shù)VLOOKUP來(lái)實(shí)現(xiàn)。VLOOKUP是一種在Excel或其他電子表格程序中使用的函數(shù),用于在一個(gè)區(qū)域中查找指定值,并返回該值所在行或列的相關(guān)數(shù)據(jù)。其語(yǔ)法格式為:VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

lookup_value:要查找的值。table_array:包含要進(jìn)行查找的數(shù)據(jù)區(qū)域,該區(qū)域至少包含兩列。col_index_num:目標(biāo)數(shù)據(jù)所在列的索引號(hào),該值從1開(kāi)始計(jì)數(shù)。range_lookup:指定是否需要進(jìn)行近似匹配的布爾值,可選參數(shù),常用的有0或FALSE表示僅進(jìn)行精確匹配,1或TRUE表示進(jìn)行近似匹配。2.4數(shù)據(jù)的輸入

2.4.4函數(shù)VLOOKUP員工ID員工銷(xiāo)售金額(元)Alan60,000Alex55,000Helen46,000Lily22,000Mike15,000Tom37,0002.4數(shù)據(jù)的輸入

【例2-5】使用VLOOKUP函數(shù)實(shí)現(xiàn)多個(gè)條件數(shù)據(jù)的查找和輸入。表2-3銷(xiāo)售月表中記錄了訂單號(hào)、訂單日期、訂單金額、銷(xiāo)售人員和銷(xiāo)售人員部門(mén)。表2-3銷(xiāo)售月表訂單號(hào)訂單日期訂單金額銷(xiāo)售人員部門(mén)202305012023.8.17100,000Alan銷(xiāo)售1部202305022023.8.17

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論