單變量的描述統(tǒng)計(jì)集中趨勢(shì)分析_第1頁(yè)
單變量的描述統(tǒng)計(jì)集中趨勢(shì)分析_第2頁(yè)
單變量的描述統(tǒng)計(jì)集中趨勢(shì)分析_第3頁(yè)
單變量的描述統(tǒng)計(jì)集中趨勢(shì)分析_第4頁(yè)
單變量的描述統(tǒng)計(jì)集中趨勢(shì)分析_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

單變量的描述統(tǒng)計(jì)集中趨勢(shì)分析匯報(bào)人:AA2024-01-252023AAREPORTING引言集中趨勢(shì)度量方法偏態(tài)與峰態(tài)分析數(shù)據(jù)可視化與解讀集中趨勢(shì)度量方法比較與選擇案例分析與實(shí)戰(zhàn)演練目錄CATALOGUE2023PART01引言2023REPORTING123通過(guò)集中趨勢(shì)分析,可以了解數(shù)據(jù)分布的中心位置,即數(shù)據(jù)分布的“平均水平”或“中心趨勢(shì)”。描述數(shù)據(jù)分布特征集中趨勢(shì)分析可以揭示數(shù)據(jù)內(nèi)在的規(guī)律性和特征,為進(jìn)一步的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘提供基礎(chǔ)。揭示數(shù)據(jù)規(guī)律通過(guò)比較不同數(shù)據(jù)集的集中趨勢(shì)指標(biāo),可以評(píng)估它們之間的差異和相似性,為決策提供支持。比較不同數(shù)據(jù)集目的和背景數(shù)據(jù)來(lái)源根據(jù)實(shí)際研究問(wèn)題和目的,選擇適當(dāng)?shù)臄?shù)據(jù)來(lái)源,如調(diào)查數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、觀測(cè)數(shù)據(jù)等。變量選擇選擇與研究問(wèn)題相關(guān)的變量進(jìn)行分析,可以是連續(xù)變量、離散變量或分類變量等。在選擇變量時(shí),需要考慮變量的測(cè)量水平、分布特征以及與研究問(wèn)題的相關(guān)性等因素。數(shù)據(jù)來(lái)源和變量選擇PART02集中趨勢(shì)度量方法2023REPORTING所有觀測(cè)值的總和除以觀測(cè)值的個(gè)數(shù)。定義優(yōu)點(diǎn)缺點(diǎn)適用于等距和比率數(shù)據(jù),充分利用所有數(shù)據(jù),適用性強(qiáng)。易受極端值影響,需要每個(gè)觀測(cè)值都存在且有限。030201算術(shù)平均數(shù)將數(shù)據(jù)按大小排列后位于中間位置的數(shù)。定義不受極端值影響,對(duì)于偏態(tài)分布數(shù)據(jù)也能較好反映集中趨勢(shì)。優(yōu)點(diǎn)缺乏敏感性,對(duì)于數(shù)據(jù)的波動(dòng)不如平均數(shù)敏感。缺點(diǎn)中位數(shù)定義一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)。優(yōu)點(diǎn)適用于各類數(shù)據(jù),尤其是分類數(shù)據(jù),能夠反映數(shù)據(jù)的分布情況。缺點(diǎn)可能不唯一或不存在,對(duì)于數(shù)據(jù)的波動(dòng)也不如平均數(shù)敏感。眾數(shù)PART03偏態(tài)與峰態(tài)分析2023REPORTING偏態(tài)分布是指數(shù)據(jù)分布不對(duì)稱,呈現(xiàn)出明顯的偏向某一側(cè)的趨勢(shì)。定義用于量化數(shù)據(jù)分布的偏態(tài)程度,正值表示右偏,負(fù)值表示左偏。偏態(tài)系數(shù)(Skewness)在右偏分布中,眾數(shù)<中位數(shù)<均值;在左偏分布中,眾數(shù)>中位數(shù)>均值。眾數(shù)、中位數(shù)與均值的關(guān)系右偏分布中,數(shù)據(jù)右側(cè)有較多極端值;左偏分布中,數(shù)據(jù)左側(cè)有較多極端值。數(shù)據(jù)分布的形態(tài)偏態(tài)分布及其特點(diǎn)峰態(tài)分布及其特點(diǎn)定義峰態(tài)分布是指數(shù)據(jù)分布的尖峰程度和平坦程度。峰態(tài)系數(shù)(Kurtosis)用于量化數(shù)據(jù)分布的峰態(tài)程度,正值表示尖峰分布,負(fù)值表示平坦分布。數(shù)據(jù)分布的形態(tài)尖峰分布中,數(shù)據(jù)更集中于均值附近,兩側(cè)極端值較少;平坦分布中,數(shù)據(jù)相對(duì)分散,兩側(cè)極端值較多。與正態(tài)分布的比較正態(tài)分布具有適中的峰態(tài),峰態(tài)系數(shù)為0。尖峰分布比正態(tài)分布更集中,平坦分布比正態(tài)分布更分散。PART04數(shù)據(jù)可視化與解讀2023REPORTING箱線圖構(gòu)成箱線圖由箱體、上下須線和異常值點(diǎn)構(gòu)成,箱體反映數(shù)據(jù)的集中趨勢(shì),上下須線表示數(shù)據(jù)的波動(dòng)范圍,異常值點(diǎn)則反映數(shù)據(jù)中的極端值。箱體解讀箱體的上下邊分別代表數(shù)據(jù)的上四分位數(shù)(Q3)和下四分位數(shù)(Q1),箱體高度反映數(shù)據(jù)的四分位距(IQR),即數(shù)據(jù)的離散程度。箱體中的橫線表示中位數(shù)(Q2),反映數(shù)據(jù)的集中趨勢(shì)。上下須線和異常值點(diǎn)解讀上下須線一般分別延伸至數(shù)據(jù)中的最大值和最小值,但有時(shí)會(huì)去除一些極端異常值。異常值點(diǎn)則以點(diǎn)的形式在圖中標(biāo)出,幫助識(shí)別數(shù)據(jù)中的極端值。箱線圖展示集中趨勢(shì)直方圖將數(shù)據(jù)按照一定的組距進(jìn)行分組,并用矩形的面積表示各組頻數(shù),從而展示數(shù)據(jù)的分布情況。通過(guò)直方圖可以直觀地看出數(shù)據(jù)的分布形態(tài)、中心位置和離散程度。直方圖核密度估計(jì)是一種非參數(shù)方法,通過(guò)平滑的曲線展示數(shù)據(jù)的概率密度分布。與直方圖相比,核密度估計(jì)更加平滑,能夠更好地反映數(shù)據(jù)的分布情況。核密度估計(jì)直方圖與核密度估計(jì)對(duì)稱分布01如果數(shù)據(jù)呈現(xiàn)出以均值為中心的對(duì)稱分布,那么可以認(rèn)為數(shù)據(jù)是正態(tài)分布的。此時(shí),均值和中位數(shù)相等,且數(shù)據(jù)的分布形態(tài)呈現(xiàn)出鐘型曲線。偏態(tài)分布02如果數(shù)據(jù)呈現(xiàn)出偏態(tài)分布,即數(shù)據(jù)向一側(cè)傾斜,那么可以通過(guò)偏度系數(shù)來(lái)判斷偏態(tài)的方向和程度。偏度系數(shù)大于0表示右偏態(tài),小于0表示左偏態(tài)。峰態(tài)分布03峰態(tài)反映數(shù)據(jù)分布的尖峭程度。如果數(shù)據(jù)分布的峰值高于正態(tài)分布,則稱為尖峰分布;如果峰值低于正態(tài)分布,則稱為平峰分布。數(shù)據(jù)分布形態(tài)判斷PART05集中趨勢(shì)度量方法比較與選擇2023REPORTING計(jì)算簡(jiǎn)便,易于理解,是最常用的集中趨勢(shì)度量方法。優(yōu)點(diǎn)對(duì)極端值敏感,當(dāng)數(shù)據(jù)分布偏態(tài)時(shí),算術(shù)平均數(shù)可能不能很好地代表數(shù)據(jù)的中心位置。缺點(diǎn)不同度量方法優(yōu)缺點(diǎn)比較不同度量方法優(yōu)缺點(diǎn)比較優(yōu)點(diǎn)不受極端值影響,對(duì)于偏態(tài)分布數(shù)據(jù),中位數(shù)能更好地代表數(shù)據(jù)的中心位置。缺點(diǎn)計(jì)算相對(duì)復(fù)雜,對(duì)于大量數(shù)據(jù)需要排序處理。VS反映數(shù)據(jù)分布的峰值,對(duì)于某些特定分布(如正態(tài)分布)有很好的代表性。缺點(diǎn)可能不存在(如數(shù)據(jù)分布均勻時(shí)),或存在多個(gè)眾數(shù),不易確定哪一個(gè)更具代表性。優(yōu)點(diǎn)不同度量方法優(yōu)缺點(diǎn)比較適用場(chǎng)景與選擇依據(jù)01當(dāng)數(shù)據(jù)分布對(duì)稱且無(wú)明顯異常值時(shí),算術(shù)平均數(shù)、中位數(shù)和眾數(shù)通常接近,此時(shí)可選擇算術(shù)平均數(shù)作為集中趨勢(shì)的度量。02當(dāng)數(shù)據(jù)分布偏態(tài)或存在異常值時(shí),中位數(shù)能更好地反映數(shù)據(jù)的中心位置,因此應(yīng)優(yōu)先選擇中位數(shù)。03當(dāng)需要了解數(shù)據(jù)分布的峰值或特定情境下的代表性數(shù)值時(shí),可以考慮使用眾數(shù)。但需注意眾數(shù)可能不存在或存在多個(gè)的情況。04在實(shí)際應(yīng)用中,可以根據(jù)數(shù)據(jù)的具體分布情況和需求,綜合比較各種度量方法的優(yōu)缺點(diǎn),選擇最合適的集中趨勢(shì)度量方法。PART06案例分析與實(shí)戰(zhàn)演練2023REPORTING數(shù)據(jù)收集數(shù)據(jù)清洗集中趨勢(shì)分析結(jié)果解讀案例一:某公司員工薪資水平分析01020304收集該公司員工的薪資數(shù)據(jù),包括基本工資、獎(jiǎng)金、津貼等。對(duì)數(shù)據(jù)進(jìn)行清洗,處理異常值和缺失值。計(jì)算薪資數(shù)據(jù)的均值、中位數(shù)和眾數(shù),了解薪資水平的集中趨勢(shì)。結(jié)合公司規(guī)模、行業(yè)特點(diǎn)等因素,對(duì)薪資水平的集中趨勢(shì)進(jìn)行解讀。數(shù)據(jù)收集數(shù)據(jù)清洗集中趨勢(shì)分析結(jié)果解讀案例二:某電商平臺(tái)用戶消費(fèi)行為分析收集用戶在電商平臺(tái)上的消費(fèi)數(shù)據(jù),包括購(gòu)買商品種類、數(shù)量、價(jià)格等。計(jì)算消費(fèi)數(shù)據(jù)的均值、中位數(shù)和眾數(shù),了解用戶消費(fèi)行為的集中趨勢(shì)。對(duì)數(shù)據(jù)進(jìn)行清洗,處理異常值和缺失值。結(jié)合平臺(tái)特點(diǎn)、用戶群體等因素,對(duì)用戶消費(fèi)行為的集中趨勢(shì)進(jìn)行解讀。選擇一個(gè)具體的數(shù)據(jù)集,如某城市房?jī)r(jià)數(shù)據(jù)、某學(xué)校學(xué)生成績(jī)數(shù)據(jù)等。數(shù)據(jù)集選擇對(duì)數(shù)據(jù)進(jìn)行清洗,處理異常值和缺失值。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論