描述性統(tǒng)計分析_第1頁
描述性統(tǒng)計分析_第2頁
描述性統(tǒng)計分析_第3頁
描述性統(tǒng)計分析_第4頁
描述性統(tǒng)計分析_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

描述性統(tǒng)計分析1、概述\quad\quad描述性統(tǒng)計分析(DescriptionStatistics)是通過圖表或數(shù)學(xué)方法,對數(shù)據(jù)資料進行整理、分析,并對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機變量之間的關(guān)系進行估計和描述的方法。\quad\quad描述性統(tǒng)計分析分為集中趨勢分析和離中趨勢分析和相關(guān)分析三大部分。2、數(shù)據(jù)的集中趨勢分析\quad\quad集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點的位置所在;集中趨勢測度就是尋找數(shù)據(jù)水平的代表值或中心值。2.1定量數(shù)據(jù):平均數(shù)\quad\quad平均數(shù)可以描述定量數(shù)據(jù)的集中趨勢,只適用于定量數(shù)據(jù),而且受極值的影響較大,容易向極值附近移動。有以下幾種平均數(shù):算數(shù)平均數(shù):x ̄=∑i=1nxin\overline{x}=\frac{\sum_{i=1}^nx_i}{n}x=n∑i=1n?xi??加權(quán)平均數(shù):x ̄=x1f1+x2f2+...+xnfnn\overline{x}=\frac{x_1f_1+x_2f_2+...+x_nf_n}{n}x=nx1?f1?+x2?f2?+...+xn?fn??。分組數(shù)據(jù)中,x表示各組水平值,f代表各組變量值出現(xiàn)的頻數(shù)。幾何平均數(shù):x ̄=x1x2...xn\overline{x}=\sqrt{x_1x_2...x_n}x=x1?x2?...xn??這幾種平均數(shù)的應(yīng)用場景算數(shù)平均數(shù):日常生活中用到最多的平均數(shù),比如計算一個班的平均成績,平均身高加權(quán)平均數(shù):加權(quán)算術(shù)平均數(shù)一般用于分組數(shù)據(jù)。加權(quán)平均值是考慮每個值的重要性或權(quán)重的平均值。一個很好的例子是根據(jù)學(xué)生在各種不同的作業(yè)和測驗中的表現(xiàn)來計算他們的最終成績。通常,個人作業(yè)對期末成績的重視程度不及期末考試的重要程度,例如測驗,測試和期末考試的權(quán)重都不同。加權(quán)平均值計算為所有值的總和乘以其權(quán)重再除以所有權(quán)重的總和。幾何平均數(shù):幾何平均適用于對比率、指數(shù)等進行平均,主要用于平均增長(變化)率,對數(shù)正態(tài)分布。幾何平均數(shù)和算數(shù)平均數(shù)如何選擇(1)變量值之間的關(guān)系不同\quad\quad如果被平均的各變量值之間是平行關(guān)系,相互無影響,則平均數(shù)用算數(shù)平均數(shù)求解。例如,求3人的平均年齡,用算數(shù)平均數(shù)。如求流水作業(yè)的3個車間平均合格率,由于被平均的3個車間合格率之間存在相互影響關(guān)系,即其中第一年合格率改變,必然造成第一車間合格品數(shù)量也即第二車間的投產(chǎn)數(shù)量的改變,最終造成第二車間合格率改變。(2)表現(xiàn)形式不同\quad\quad算數(shù)平均數(shù)求解的變量可以是絕對數(shù)、相對數(shù)或平均數(shù),幾何平均數(shù)求解的一般只是相對數(shù)。(3)用途不同\quad\quad幾何平均數(shù)在社會經(jīng)濟統(tǒng)計中,主要解決屬于流水作業(yè)的車間平均合格率問題、平均(本)利率問題和平均增長(發(fā)展)速度等問題,除此之外的平均問題基本上屬于算數(shù)平均數(shù)問題。2.2順序數(shù)據(jù):中位數(shù)和分位數(shù)\quad\quad將數(shù)據(jù)按大小排序后,處在數(shù)據(jù)中點位置的數(shù)值就是中位數(shù),它將數(shù)據(jù)一分為二;分位數(shù)是特殊的中位數(shù),比如四分位數(shù)就是用3個點將有序數(shù)據(jù)四等分。\quad\quad中位數(shù)主要用于測試順序數(shù)據(jù)的集中趨勢,也適用于定量數(shù)據(jù)的集中趨勢,但不適用于分類數(shù)據(jù)。中位數(shù)是一個位置代表值,其特點就是不受極端值影響。2.3分類數(shù)據(jù):眾數(shù)\quad\quad眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的值,它不唯一,可能沒有,可能不止一個。眾數(shù)是描述分類數(shù)據(jù)的集中趨勢,一般只有在數(shù)據(jù)量較大的情況下才有意義。2.4均值vs中位數(shù)vs眾數(shù)2.5python實現(xiàn)importnumpyasnpimportstatsassts#統(tǒng)計模塊scores=[31,24,23,25,14,25,13,12,14,23,32,34,43,41,21,23,26,26,34,42,43,25,24,23,24,44,23,14,52,32,42,44,35,28,17,21,32,42,12,34]#集中趨勢的度量print('求和:',np.sum(scores))print('個數(shù):',len(scores))print('平均值:',np.mean(scores))print('中位數(shù):',np.median(scores))print('眾數(shù):',sts.mode(scores))print('上四分位數(shù)',sts.quantile(scores,p=0.25))print('下四分位數(shù)',sts.quantile(scores,p=0.75))。求和:1137個數(shù):40平均值:28.425中位數(shù):25.5眾數(shù):23上四分位數(shù)23下四分位數(shù)343、數(shù)據(jù)的離中趨勢\quad\quad離中趨勢是指一組數(shù)據(jù)向某一中心值分散的程度,它反映的是數(shù)據(jù)遠離其中心點的程度,表示離中趨勢的指標(biāo)主要有極差、四分位距、平均差、方差、標(biāo)準(zhǔn)差和離散系數(shù)。3.1極差\quad\quad極差也叫全距,展示了數(shù)據(jù)的整體跨度,是一個比較粗糙的離中趨勢指標(biāo)。極差越大,數(shù)據(jù)越分散。\quad\quad極差=最大值-最小值3.2四分位差\quad\quad四分位差(quartiledeviation),它是上四分位數(shù)(Q3,即位于75%)與下四分位數(shù)(Q1,即位于25%)的差。計算公式為:Q=Q3?Q1Q=Q3-Q1Q=Q3?Q1\quad\quad是將一組數(shù)據(jù)由小到大排序后,用3個點將全部數(shù)據(jù)分為4等份,與這3個點位置上相對應(yīng)的數(shù)值稱為四分位數(shù),分別記為Q1(第一四分位數(shù)),說明數(shù)據(jù)中有25%的數(shù)據(jù)小于或等于Q1,Q2(第二四分位數(shù),即中位數(shù))說明數(shù)據(jù)中有50%的數(shù)據(jù)小于或等于Q2、Q3(第三四分位數(shù))說明數(shù)據(jù)中有75%的數(shù)據(jù)小于或等于Q3。其中,Q3到Q1之間的距離的差的一半又稱為分半四分位差,記為(Q3-Q1)/2。\quad\quad分位差是對全距的一種改進,它剔除掉了兩端的極值區(qū)域,常用的有四分位距、八分位距、十分位距等;它也是度量樣本分散性的重要數(shù)字特征,特別對于具有異常值的數(shù)據(jù),它作為分散性具有穩(wěn)健性(見百分位數(shù)示意圖)。四分位差放映了數(shù)據(jù)中間50%部分的離散程度,其數(shù)值越小表明數(shù)據(jù)越集中,數(shù)值越大表明數(shù)據(jù)越離散,同時由于中位數(shù)位于四分位數(shù)之間,故四分位差也放映出中位數(shù)對于數(shù)據(jù)樣本的代表程度,越小代表程度越高,越大代表程度越低。四分位差主要用于測度順序數(shù)據(jù)的離散程度。對于數(shù)值型數(shù)據(jù)也可以計算四分位差,但不適合分類數(shù)據(jù)。3.3平均差\quad\quad平均差是數(shù)據(jù)組中各數(shù)據(jù)值與其算術(shù)平均數(shù)離差絕對值的算術(shù)平均數(shù);M.D=∑∣x?x ̄∣nM.D=\frac{\sum_{}|x-\overline{x}|}{n}M.D=n∑?∣x?x∣?\quad\quad當(dāng)變量數(shù)列是由沒有分組的數(shù)組組成或分組后每組的次數(shù)相等的數(shù)據(jù)組成時采用。由于平均差是根據(jù)數(shù)列中所有的數(shù)值計算出來的,受極端值影響較小,所以對整個統(tǒng)計數(shù)列的離中趨勢有較充分的代表性。3.4方差與標(biāo)準(zhǔn)差\quad\quad方差是數(shù)據(jù)組中各數(shù)據(jù)值與其算術(shù)平均數(shù)離差平方的算術(shù)平均數(shù),用σ2\sigma^2σ2表示。實際工作中,總體均數(shù)難以得到時,應(yīng)用樣本統(tǒng)計量代替總體參數(shù),經(jīng)校正后,樣本方差計算公式:σ2=∑i=1n(xi?x ̄)2n?1\sigma^2=\frac{\sum_{i=1}^n{(x_i-\overline{x})^2}}{n-1}σ2=n?1∑i=1n?(xi??x)2?。\quad\quad標(biāo)準(zhǔn)差是方差開根號。標(biāo)準(zhǔn)差(StandardDeviation),是用σ表示。標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反映一個數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù),標(biāo)準(zhǔn)差未必相同。統(tǒng)計學(xué)意義:\quad\quad當(dāng)數(shù)據(jù)分布比較分散(即數(shù)據(jù)在平均數(shù)附近波動較大)時,各個數(shù)據(jù)與平均數(shù)的差的平方和較大,方差就較大;當(dāng)數(shù)據(jù)分布比較集中時,各個數(shù)據(jù)與平均數(shù)的差的平方和較小。因此方差越大,數(shù)據(jù)的波動越大;方差越小,數(shù)據(jù)的波動就越小。3.5變異系數(shù)\quad\quad極差、平均差、標(biāo)準(zhǔn)差評定的離中趨勢與變量平均水平的高低有關(guān),如果要比較數(shù)據(jù)平均水平不同的兩組數(shù)據(jù)的離中程度的大小,我們需要計算它們的相對離中程度指標(biāo),即變異系數(shù)。\quad\quad在概率論和統(tǒng)計學(xué)中,變異系數(shù),又稱“離散系數(shù)”(英文:coefficientofvariation),是概率分布離散程度的一個歸一化量度,其定義為標(biāo)準(zhǔn)差與平均值之比:CV=σx ̄CV=\frac{\sigma}{\overline{x}}CV=xσ?。是刻畫數(shù)據(jù)相對分散性的一種度量。變異系數(shù)只在平均值不為零時有定義,而且一般適用于平均值大于零的情況。當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時候,如果兩組數(shù)據(jù)的測量尺度相差太大,或者數(shù)據(jù)量綱的不同,變異系數(shù)可以消除測量尺度和量綱的影響。3.6總結(jié)\quad\quad一般比較數(shù)據(jù)的離中趨勢時,我么首先計算兩組數(shù)據(jù)的極差和四分位距,看看數(shù)據(jù)的大致跨度,然后計算算術(shù)平均數(shù)查看數(shù)據(jù)的大致中心位置,如果平均數(shù)相同,可以計算一下平均差或者標(biāo)準(zhǔn)差來查看,如果平均數(shù)不同則可計算標(biāo)準(zhǔn)差系數(shù)來查看離中趨勢。3.7python實現(xiàn)importnumpyasnpimportstatsassts#統(tǒng)計模塊scores=[31,24,23,25,14,25,13,12,14,23,32,34,43,41,21,23,26,26,34,42,43,25,24,23,24,44,23,14,52,32,42,44,35,28,17,21,32,42,12,34]#離散趨勢的度量print('最大值:',np.max(scores))print('最小值:',np.min(scores))print('極差:',np.max(scores)-np.min(scores))print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))print('標(biāo)準(zhǔn)差:',np.std(scores))print('方差:',np.var(scores))print('離散系數(shù):',np.std(scores)/np.mean(scores))。最大值:52最小值:12極差:40四分位差11標(biāo)準(zhǔn)差:10.312340907863742方差:106.34437499999999離散系數(shù):0.3627912368641598。4、數(shù)據(jù)分布的測度\quad\quad在描述性統(tǒng)計中,處理集中趨勢和離中趨勢,我們還可以用數(shù)據(jù)的分布形狀來分析,數(shù)據(jù)分布形態(tài)主要以正態(tài)分布為標(biāo)準(zhǔn)進行衡量。4.1數(shù)據(jù)偏態(tài)及其測定\quad\quad數(shù)據(jù)分布的不對稱性稱作偏態(tài)。偏態(tài)是指數(shù)據(jù)分布的偏斜方向和程度。在對稱分布的情況下,平均數(shù)、中位數(shù)和眾數(shù)是相同的;但在偏態(tài)分布的情況下,他們是不同的。如果眾數(shù)在左邊,平均數(shù)在右邊,這說明數(shù)據(jù)的極端值在右邊,數(shù)據(jù)分布曲線向右延伸,這稱為右向偏態(tài)(正向偏態(tài));如果眾數(shù)在右邊邊,平均數(shù)在左邊,這說明數(shù)據(jù)的極端值在左邊,數(shù)據(jù)分布曲線向右延伸,這稱為左向偏態(tài)(正向偏態(tài))。左偏分布:尾巴在左(極端值異常值在左)右偏分布:尾巴在右(極端值異常值在右)\quad\quad測定偏態(tài)的指標(biāo)是偏態(tài)系數(shù)(SK),它說明了數(shù)據(jù)分布的不對稱性(偏斜程度)程度。SK=0時,分布是對稱的;SK<0時,樣本分布為左偏分布,并且值越小,負(fù)偏程度越高;SK>0時,樣本為右偏分布,并且值越大,正偏程度越高。4.2數(shù)據(jù)峰度及其測定\quad\quad峰度是指數(shù)據(jù)分布的尖峭程度或峰凸程度。根據(jù)變量值的集中與分散程度,峰度一般可表現(xiàn)為三種形態(tài):尖頂峰度、平頂峰度和標(biāo)準(zhǔn)峰度。但是這種形態(tài)的描述都是相對于正態(tài)分布曲線的標(biāo)準(zhǔn)峰度而言的。\quad\quad測定峰度的指標(biāo)是峰度系數(shù)(K)。峰度系數(shù)描述的是數(shù)據(jù)分布曲線上峰的尖峭程度。K<0,與正態(tài)分布相比該分布一般扁平、瘦尾、肩部較胖;K>0,與正態(tài)分布相比該分布一般尖峰、肥尾、肩部較瘦。4.3數(shù)據(jù)偏度和峰度的作用\quad\quad在實際數(shù)據(jù)分析過程中,偏度和峰度的作用主要表現(xiàn)在以下兩個方面:一是將偏度和峰度結(jié)合起來用于檢查樣本的分布是否屬于正態(tài)分布,以便判斷總體的分布。例如,樣本的偏度接近于0而峰度接近于3,可以推測總體分布接近于正態(tài)分布。二是利用資料之間存在的偏度關(guān)系,對算術(shù)平均數(shù)、眾數(shù)、中位數(shù)進行推斷。一般情況下,不是正態(tài)分布時,他們有如下關(guān)系:右偏:均值>中位數(shù)>眾數(shù)左偏:均值<中位數(shù)<眾數(shù)\quad\quad根據(jù)經(jīng)驗,一般在偏態(tài)適度時,不管是左偏還是右偏,三者的距離有近似的固定關(guān)系:中位數(shù)與算術(shù)平均數(shù)的距離約等于眾數(shù)與算術(shù)平均數(shù)距離的1/3。因此,有如下公式:3(均值?中位數(shù))=均值?眾數(shù)3(均值-中位數(shù))=均值-眾數(shù)3(均值?中位數(shù))=均值?眾數(shù)。4.4python實現(xiàn)importnumpyasnpimportstatsassts#統(tǒng)計模塊scores=[31,24,23,25,14,25,13,12,14,23,32,34,43,41,21,23,26,26,34,42,43,25,24,23,24,44,23,14,52,32,42,44,35

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論