數(shù)據(jù)分析基礎(chǔ)與實踐課件:數(shù)據(jù)分析_第1頁
數(shù)據(jù)分析基礎(chǔ)與實踐課件:數(shù)據(jù)分析_第2頁
數(shù)據(jù)分析基礎(chǔ)與實踐課件:數(shù)據(jù)分析_第3頁
數(shù)據(jù)分析基礎(chǔ)與實踐課件:數(shù)據(jù)分析_第4頁
數(shù)據(jù)分析基礎(chǔ)與實踐課件:數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一章概論西華大學(xué)數(shù)據(jù)分析基礎(chǔ)與實踐數(shù)據(jù)分析

目錄Contents描述性數(shù)據(jù)分析探索性數(shù)據(jù)分析預(yù)測性數(shù)據(jù)分析撰寫數(shù)據(jù)報告描述性數(shù)據(jù)分析一1描述性數(shù)據(jù)分析41描述性數(shù)據(jù)分析描述數(shù)據(jù)集中趨勢的指標(biāo)有:眾數(shù)、中位數(shù)、平均數(shù)(包含算數(shù)平均數(shù)、加權(quán)平均數(shù)、集合平均數(shù))和分位數(shù)。描述數(shù)據(jù)的離散程度的指標(biāo)有:方差、標(biāo)準(zhǔn)差、極差和平均差(數(shù)值型數(shù)據(jù));四分位差(順序數(shù)據(jù));異眾比率(分類數(shù)據(jù));離散系數(shù)(相對離散程度)描述數(shù)據(jù)分布形態(tài)的指標(biāo):偏態(tài)系數(shù)和峰態(tài)系數(shù)。51.1數(shù)據(jù)集中趨勢描述平均數(shù):算術(shù)平均數(shù)、加權(quán)平均數(shù)、幾何平均數(shù)61.1數(shù)據(jù)集中趨勢描述平均數(shù):算術(shù)平均數(shù)、加權(quán)平均數(shù)、幾何平均數(shù)71.1數(shù)據(jù)集中趨勢描述眾數(shù)、中位數(shù)和分位數(shù)上述代碼執(zhí)行之后即會輸出a中的眾數(shù)2。中位數(shù)是指,將集合中所有的數(shù)值按照數(shù)值從低到高(或從高到低)進(jìn)行排序,處于最中間的一個數(shù)就是中位數(shù),如果中間有兩個數(shù),則中位數(shù)為這兩個數(shù)的算術(shù)平均值。和算數(shù)平均數(shù)相比,中位數(shù)不受極端值的影響。分位數(shù)和中位數(shù)類似,都是從數(shù)值所處的位置來說的,比如四分位數(shù)是指,把所有數(shù)值按由小到大排序分成四等份,處于三個分割點位置的數(shù)就是四分位數(shù)。中位數(shù)是一個特殊的四分位數(shù)。在Python中可以直接利用describe()方法來查看中位數(shù)和三個四分位數(shù)。如圖8-2所示,50%那一行即為中位數(shù),而25%、50%、75%對應(yīng)的即為三個四分位數(shù)。81.2數(shù)據(jù)離散程度描述數(shù)值型數(shù)據(jù)針對數(shù)值型數(shù)據(jù),通??梢杂脴O差、平均偏差、方差和標(biāo)準(zhǔn)差以及離散系數(shù)來描述其離散程度。極差是指數(shù)據(jù)集中最大值與最小值的差,也成為全距。極差容易受到極值的影響,對離散程度的描述不夠準(zhǔn)確。平均偏差是指所有數(shù)值與平均值之間的差的算術(shù)平均值,它描述了所有數(shù)值與平均值之間的平均偏差距離,可以由以下公式計算:91.2數(shù)據(jù)離散程度描述數(shù)值型數(shù)據(jù)方差又包括了總體方差和樣本方差,其計算公式分別如下??傮w方差為:樣本方差為:

通常會用樣本方差來估計總體方差。標(biāo)準(zhǔn)差就是方差的平方根;方差/標(biāo)準(zhǔn)差越大,數(shù)據(jù)的離中趨勢越大。離散系數(shù),又稱為變異系數(shù),是一種對數(shù)據(jù)集相對離散程度的衡量,當(dāng)兩個數(shù)據(jù)集合的算數(shù)平均值不同,但方差和標(biāo)準(zhǔn)差相等時,可以用離散系數(shù)來衡量數(shù)據(jù)集合的離散程度。樣本離散系數(shù)的計算公式如下:101.2數(shù)據(jù)離散程度描述順序數(shù)據(jù):對于已經(jīng)排好序的有序數(shù)據(jù),可以用四分位差來描述其離散程度。對于按照數(shù)值從小到大排好序的有序數(shù)據(jù),排在四分之一位置的數(shù)值就是第一四分位數(shù),排在四分之二位置即第二四分位數(shù),排在四分之三位置就是第三四分位數(shù),很顯然,第二四分位數(shù)即為中位數(shù)。四分位差即為第三四分位數(shù)和第一四分位數(shù)之間的差值,這個差值區(qū)間包含了整個數(shù)據(jù)集合的50%的數(shù)據(jù)。分類數(shù)據(jù):對于分類數(shù)據(jù),可以使用異眾比率描述其離散程度。異眾比率是指總體中非眾數(shù)次數(shù)與總體全部次數(shù)的比值,也即非眾數(shù)組的頻數(shù)占總頻數(shù)的比例。111.3數(shù)據(jù)分布形態(tài)對于數(shù)據(jù)分布形態(tài),可以通過偏態(tài)系數(shù)和峰態(tài)系數(shù)進(jìn)行描述。偏態(tài)系數(shù)用來判斷數(shù)據(jù)集合的分布形態(tài)是否對稱,當(dāng)偏態(tài)系數(shù)等于0時,數(shù)據(jù)為對稱分布;偏態(tài)系數(shù)小于0時,左偏分布,長尾拖在左邊;偏態(tài)系數(shù)大于0時,右偏分布,長尾拖在右邊。峰態(tài)系數(shù)用于描述單峰分布曲線的峰度高低和陡峭程度,峰態(tài)系數(shù)和單峰分布形態(tài)之間的關(guān)系為:當(dāng)峰態(tài)系數(shù)等于3時,代表分布曲線是偏平程度適中的常峰態(tài)(正態(tài)分布的峰形就是常峰態(tài));當(dāng)峰態(tài)系數(shù)小于3時,分布曲線是低峰態(tài);當(dāng)峰態(tài)系數(shù)大于3時,分布曲線是尖峰態(tài)。121.4案例13探索性數(shù)據(jù)分析二2.1探索性分析常用圖形及用法15圖形應(yīng)用場景用法直方圖探索變量的分布規(guī)律sns.distplot(data)條形圖反映數(shù)值變量的集中趨勢以及置信區(qū)間sns.barplot(x,y,data)計數(shù)圖觀察每個類別的具體數(shù)量sns.countplot(x,data)散點圖觀察整體數(shù)據(jù)的分布規(guī)律sns.stripplot(x,y,data)/sns.swarmplot(x,y,data)箱線圖表示數(shù)據(jù)的分散情況,顯示極值、中位數(shù)等sns.boxplot(x,y,data)提琴圖展示分位數(shù)的位置及數(shù)據(jù)的密度分布sns.violinplot(x,y,data)回歸圖尋找數(shù)據(jù)之間的線性關(guān)系sns.reglot(x,y,data)/sns.lmplot(x,y,data)熱力圖通過顏色深淺表示數(shù)值的大小或者相關(guān)性的高低f=flights.pivot(’字段1’,’字段2’,’字段3’)sns.heatmap(f)2.2案例分析——泰坦尼克號數(shù)據(jù)集16詳見Jupyter中的代碼預(yù)測性數(shù)據(jù)分析三3預(yù)測性數(shù)據(jù)分析預(yù)測性的數(shù)據(jù)分析主要用于根據(jù)已有的數(shù)據(jù)對未來的數(shù)據(jù)或發(fā)展趨勢進(jìn)行預(yù)測,比如根據(jù)歷史銷售數(shù)據(jù)預(yù)測未來某段時間的銷售情況,比如通過用戶數(shù)據(jù)預(yù)測未來用戶的行為等,預(yù)測性分析稍難,越深入會涉及更多數(shù)據(jù)挖掘、機器學(xué)習(xí)的知識。對于預(yù)測性數(shù)據(jù)分析,主要有回歸、分類以及聚類三種基本的算法模型。其中回歸模型又包括一元線性回歸、多元線性回歸和邏輯回歸等。分類常用模型有決策樹、樸素貝葉斯以及KNN等。聚類有基于劃分的聚類方法、基于密度的聚類方法以及基于層次的聚類方法等。在Python中實現(xiàn)以上模型常用到機器學(xué)習(xí)庫Scikit-learn,可以方便的進(jìn)行模型的調(diào)用,參數(shù)設(shè)置,同時提供了一些公開的數(shù)據(jù)集。183預(yù)測性數(shù)據(jù)分析回歸分析是一種預(yù)測性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系。和分類問題不同,分類問題需要得到離散的分類結(jié)果,而回歸問題則需要獲得連續(xù)的變化曲線。線性回歸是回歸分析方法中的一種,首先假定自變量和因變量之間的關(guān)系是線性的,然后想辦法求得自變量和因變量之間的線性關(guān)系描述曲線(實際上是直線,為了便于統(tǒng)一,這里統(tǒng)稱為曲線)。線性回歸又分為一元線性回歸和多遠(yuǎn)線性回歸。一元回歸的主要任務(wù)是從兩個相關(guān)變量中的一個變量去估計另一個變量,被估計的目標(biāo)變量,稱因變量,可設(shè)為Y;用于估計的變量,稱自變量,設(shè)為X。多元線性回歸方法與一元線性回歸類似,其主要特點是,自變量不再是一個變量,而是由多于一個以上的變量作為自變量。193預(yù)測性數(shù)據(jù)分析案例:波士頓房價預(yù)測參見講解視頻和Jupyter代碼20撰寫數(shù)據(jù)報告四4撰寫數(shù)據(jù)報告22在撰寫數(shù)據(jù)報告時有以下步驟:(1) 明確任務(wù)目標(biāo)。1) 確定最終的業(yè)務(wù)目的。2) 對問題進(jìn)行拆分。3) 確定必要輸出的數(shù)據(jù)結(jié)果及分析結(jié)論。(2) 確定報告的邏輯。1) 根據(jù)問題拆分結(jié)果進(jìn)行結(jié)構(gòu)化。2) 明確合理的講述邏輯。3) 根據(jù)邏輯進(jìn)行細(xì)化及補充。(3) 選擇合適的呈現(xiàn)形式。1) 選擇合適的數(shù)據(jù)。2) 選擇合適的圖表。3) 整體報告的設(shè)計美化。4撰寫數(shù)據(jù)報告23在寫分析報告時,有一些一定要注意的地方:(1)一定要有框架,最簡單的就是以問題拆分的邏輯來進(jìn)行搭建,在每個分支進(jìn)行內(nèi)容填充,分點說明;(2)數(shù)據(jù)的選擇不要過于片面,要多元化,進(jìn)行對比分析,否則結(jié)論可能有失偏頗。數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論