數(shù)據(jù)分析及可視化 課件 第5章-數(shù)據(jù)基本分析及可視化;第6章 數(shù)據(jù)綜合評價及可視化_第1頁
數(shù)據(jù)分析及可視化 課件 第5章-數(shù)據(jù)基本分析及可視化;第6章 數(shù)據(jù)綜合評價及可視化_第2頁
數(shù)據(jù)分析及可視化 課件 第5章-數(shù)據(jù)基本分析及可視化;第6章 數(shù)據(jù)綜合評價及可視化_第3頁
數(shù)據(jù)分析及可視化 課件 第5章-數(shù)據(jù)基本分析及可視化;第6章 數(shù)據(jù)綜合評價及可視化_第4頁
數(shù)據(jù)分析及可視化 課件 第5章-數(shù)據(jù)基本分析及可視化;第6章 數(shù)據(jù)綜合評價及可視化_第5頁
已閱讀5頁,還剩110頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計1.次序統(tǒng)計2.集中趨勢3.離散程度4.箱線圖【Excel的基本操作】5.1.2數(shù)據(jù)的綜合統(tǒng)計1.多變量數(shù)據(jù)統(tǒng)計2.數(shù)據(jù)的分組統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析描述性統(tǒng)計,是指運用制表和分類,圖形以及計算概括性數(shù)據(jù)來描述數(shù)據(jù)特征的各項活動。主要包括數(shù)據(jù)的次序分析、集中趨勢分析、離散程度分析、頻數(shù)分析,分布圖形以及一些基本的統(tǒng)計圖形。第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析對一組數(shù)據(jù)X1,X2,...,Xn,X(i)稱為該其第i個次序統(tǒng)計量,其取值是將數(shù)據(jù)由小到大排列后得到的第i個值。從小到大排序為X(1),X(2),...,X(n),則稱X(1),X(2),...,X(n)為順序統(tǒng)計量。5.1.1數(shù)據(jù)的描述統(tǒng)計1.次序統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析(1)順序統(tǒng)計5.1.1數(shù)據(jù)的描述統(tǒng)計1.次序統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析(1)順序統(tǒng)計對2019年珠三角9個地區(qū)的人均GDP數(shù)據(jù)進(jìn)行排序:5.1.1數(shù)據(jù)的描述統(tǒng)計1.次序統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計1.次序統(tǒng)計(2)極值一組數(shù)據(jù)中最小的數(shù)據(jù),即最小次序統(tǒng)計量X(1),記為X.min一組數(shù)據(jù)中最大的數(shù)據(jù),即最大次序統(tǒng)計量X(n),記為X.maxInX.min()Out5.39InX.max()Out20.35第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計1.次序統(tǒng)計(3)分位數(shù)分位數(shù)(亦稱分位點,Quantile),是指將一組數(shù)據(jù)分為多個等份的數(shù)值點,如百分位數(shù)就是將數(shù)據(jù)分成100個等份。常用的分位數(shù)有二分位數(shù)、四分位數(shù)和五分位數(shù)。第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計1.次序統(tǒng)計(3)分位數(shù)Python提供了函數(shù)quantile()對數(shù)據(jù)計算分位數(shù):InX.quantile([0,0.25,0.5,0.75,1])Out0.005.390.258.600.5011.250.7515.641.0020.35第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計2.集中趨勢對于數(shù)值型定量數(shù)據(jù),經(jīng)常要分析它的集中趨勢和離散程度,用來描述集中趨勢的主要統(tǒng)計指標(biāo)稱為平均統(tǒng)計量,如均值、中位數(shù);用于描述離散程度的統(tǒng)計量主要有方差、標(biāo)準(zhǔn)差。Python只需要一個命令就可以簡單地得到這些結(jié)果,計算均值、中位數(shù)、方差、標(biāo)準(zhǔn)差的命令分別是mean()、median()、var()、std()第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計2.集中趨勢(1)均值均值(mean,也稱均數(shù),即為算術(shù)平均數(shù)):指一組數(shù)據(jù)的和除以這組數(shù)據(jù)的個數(shù)所得到的商,它反映一組數(shù)據(jù)的總體水平。對于正態(tài)分布數(shù)據(jù):InX.mean()Out12.027777777777777第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計2.集中趨勢(2)中值中值(median,也稱中位數(shù),即二分位數(shù)):指一組數(shù)據(jù)按大小順序排列,處于中間位置的一個數(shù)值,它也是反映了一組數(shù)據(jù)的集中趨勢。對偏態(tài)分布數(shù)據(jù),通常計算其中位數(shù),來表示其平均水平。InX.median()#=X.quantile(0.5)Out11.25第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計3.離散程度(1)極差或四分位差極差指一組數(shù)據(jù)中最大數(shù)據(jù)與最小數(shù)據(jù)的差,在統(tǒng)計中常用極差來刻畫一組數(shù)據(jù)的離散程度。該指標(biāo)由于只考慮數(shù)據(jù)的最大和最小值,通常用處不是很大。IndefR(x):return(x.max()-x.min())R(X)#X.max()-X.min();Out14.96第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計3.離散程度(1)極差或四分位差四分位差(也稱四分位數(shù)間距,InterQuartileRange,IQR),是第三分位數(shù)與第一分位數(shù)的差距。IndefIQR(x):return(x.quantile(0.75)-x.quantile(0.25))IQR(X)#X.quantile(0.75)-X.quantile(0.25)Out7.040000000000001第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計3.離散程度(2)方差與標(biāo)準(zhǔn)差方差(variance,簡記var)指各個數(shù)據(jù)與均值之差的平方的平均數(shù),它表示數(shù)據(jù)的離散程度和數(shù)據(jù)的波動大小。InX.var()Out25.721494444444446第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計3.離散程度(2)方差與標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standevation,簡記std)是方差的算術(shù)平方根。作用等同于方差,但單位與原數(shù)據(jù)單位是一致的。InX.std()Out5.071636268941656第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計Excel的基本操作(1)在透視表中選需要分析的數(shù)據(jù),本例是2019年珠三角“人均GDP”數(shù)據(jù)。(2)在格子B15中輸入=MIN(B4:B12)。(3)在格子B16中輸入=MAX(B4:B12)。(4)在格子B17中輸入=AVERAGE(B4:B12)。(5)在格子B18中輸入=MEDIAN(B4:B12)。(6)在格子B19中輸入=STDEV.S(B4:B12)。第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析Excel的基本操作第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計pandas中有一個描述統(tǒng)計分析的函數(shù)describe,一次可以計算大多統(tǒng)計量。InX.describe()Outcount9.000mean12.028std5.072min5.39025%8.60050%11.25075%15.640max20.350第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析下面是采用Excel菜單的數(shù)據(jù)分析模塊所做的描述統(tǒng)計。(1)在透視表中選需要分析的數(shù)據(jù),本例是2019年珠三角“人均GDP”數(shù)據(jù)。(2)切換到“數(shù)據(jù)”選項卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“描述統(tǒng)計”。(3)輸入:

輸入?yún)^(qū)域:B4:B12

分組方式:逐列(4)輸出選項:

輸出區(qū)域:D2匯總統(tǒng)計:勾選第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.1數(shù)據(jù)的描述統(tǒng)計4.箱線圖箱線圖(Box-plot)又稱為盒須圖、箱式圖或箱形圖,是一種用作顯示一組數(shù)據(jù)散布情況的統(tǒng)計圖。它主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法是:先找出一組數(shù)據(jù)的最大值、最小值、中位數(shù)和上下兩個四分位數(shù);然后,連接兩個四分位數(shù)畫出箱子;再將最大值和最小值與箱子相連接,中位數(shù)在箱子中間。第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析【Excel的基本操作】將透視表中的B4:B12數(shù)據(jù)復(fù)制到G4:G12,選擇G4:G12單元格區(qū)域,切換到“插入”選項卡,在“圖表”組中單擊“箱型圖”按鈕,即可生成如下圖。第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析利用Python繪制箱線圖:5.1.1數(shù)據(jù)的描述統(tǒng)計4.箱線圖第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析(1)橫向數(shù)據(jù)描述分析5.1.2數(shù)據(jù)的綜合統(tǒng)計1.多變量數(shù)據(jù)統(tǒng)計【Excel的基本操作】第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析【Excel的基本操作】第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析【Excel的基本操作】選擇篩選的D401:I401單元格區(qū)域,切換到“插入”選項卡,在“圖表”組中單擊“箱型圖”按鈕,即可生成如下圖。第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析(1)橫向數(shù)據(jù)描述分析5.1.2數(shù)據(jù)的綜合統(tǒng)計1.多變量數(shù)據(jù)統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析(1)橫向數(shù)據(jù)描述分析5.1.2數(shù)據(jù)的綜合統(tǒng)計1.多變量數(shù)據(jù)統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析(2)縱向數(shù)據(jù)描述分析5.1.2數(shù)據(jù)的綜合統(tǒng)計1.多變量數(shù)據(jù)統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析(2)縱向數(shù)據(jù)描述分析5.1.2數(shù)據(jù)的綜合統(tǒng)計1.多變量數(shù)據(jù)統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析pandas提供靈活高效的分組(groupby)功能,使得用戶能以一種自然的方式對數(shù)據(jù)集進(jìn)行切片、切塊、摘要等操作;根據(jù)一個或多個變量拆分pandas對象;計算分組摘要統(tǒng)計,如計數(shù)、均值、標(biāo)準(zhǔn)差以及用戶自定義函數(shù)等。5.1.2數(shù)據(jù)的綜合統(tǒng)計2.數(shù)據(jù)的分組統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析對分組變量應(yīng)用size、mean、count等統(tǒng)計函數(shù),可分別統(tǒng)計分組數(shù)量、不同變量的分組均值和標(biāo)準(zhǔn)差等。5.1.2數(shù)據(jù)的綜合統(tǒng)計2.數(shù)據(jù)的分組統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.2數(shù)據(jù)的綜合統(tǒng)計2.數(shù)據(jù)的分組統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.2數(shù)據(jù)的綜合統(tǒng)計2.數(shù)據(jù)的分組統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析5.1.2數(shù)據(jù)的綜合統(tǒng)計2.數(shù)據(jù)的分組統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.1描述性數(shù)據(jù)分析也可以應(yīng)用聚集函數(shù)agg可以對分組后的數(shù)據(jù)計算多個統(tǒng)計量(如例數(shù)、均值、標(biāo)準(zhǔn)差等)函數(shù)。5.1.2數(shù)據(jù)的綜合統(tǒng)計2.數(shù)據(jù)的分組統(tǒng)計第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.1聚類分析的思想1.聚類分析的起源2.聚類分析的類型3.聚類分析統(tǒng)計量5.2.2層次聚類分析1.層次聚類分析方法2.層次聚類步驟3.實例分析練習(xí)題5第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.1聚類分析的思想1.聚類分析的起源聚類分析(clusteranalysis)是研究“物以類聚”的一種現(xiàn)代統(tǒng)計分析方法。過去人們受分析工具的限制,主要依靠經(jīng)驗和專業(yè)知識做定性分類處理,很少利用統(tǒng)計方法,致使許多分類帶有主觀性和隨意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別和聯(lián)系,特別是對于多個指標(biāo)的分類問題,定性分類更難以實現(xiàn)準(zhǔn)確分類。為了克服定性分類的不足,多元統(tǒng)計分析中引入數(shù)值分類方法,形成了聚類分析分支。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.1聚類分析的思想2.聚類分析的類型聚類分析的基本思路:把分類對象按一定規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征來確定的。在同一類中,這些對象在某種意義上趨向于彼此相似;而在不同類中,對象趨向于不相似。常見的聚類分析方法有系統(tǒng)聚類法、快速聚類法、有序聚類法和模糊聚類法等。根據(jù)分類對象的不同:Q型聚類——對樣品進(jìn)行分類處理

R型聚類——對變量進(jìn)行分類處理第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.1聚類分析的思想3.聚類分析統(tǒng)計量在實際聚類分析中,很多情況下都是對樣品做聚類。進(jìn)行樣品聚類分析統(tǒng)計量主要是距離。對樣品進(jìn)行聚類時,我們把樣品間的“靠近”程度用某種距離來刻畫;對指標(biāo)的聚類,往往用某種相關(guān)系數(shù)來刻畫。當(dāng)選用n

個樣品、p個指標(biāo)時,就可以得到一個n×p

的數(shù)據(jù)矩陣

X=(xij)n×p。該矩陣的元素xij

表示第i

個樣品的第j

個變量值。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.1聚類分析的思想3.聚類分析統(tǒng)計量從數(shù)據(jù)中取出任意兩個變量,在直角坐標(biāo)系中顯示它們在空間的距離分布情況第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.1聚類分析的思想3.聚類分析統(tǒng)計量有多個變量時,計算距離的常用方法:設(shè)xij=(i

1,2

,

,n,j

1,2,

,

p)為第i個樣品的第j個指標(biāo)的觀測數(shù)據(jù),即每個樣品有p個變量,則每個樣品都可以看成p維空間中的一個點,n個樣品就是p維空間中的n個點,定義dij

為樣品xi

與xj

的距離,于是得到n

n的距離矩陣:第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.1聚類分析的思想3.聚類分析統(tǒng)計量聚類分析中最常用的計算樣品間距離的方法是歐氏距離(Euclidean)第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.2層次法聚類分析1.層次聚類分析方法確定了距離后就要進(jìn)行分類,分類有許多種方法,最常用的一類方法是在樣品距離的基礎(chǔ)上定義類與類之間的距離:將n個樣品分成n類,每個樣品自成一類每次將具有最小距離的兩類合并,合并后重新計算類與類之間的距離一直繼續(xù)到所有的樣品歸為一類為止,并把這個過程作成一張聚類圖。因為聚類圖類似于一張系統(tǒng)圖,所以這類方法就稱為層次聚類法(hierachicalclusteringmethod)。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.2層次法聚類分析1.層次聚類分析方法不同的定義方法就產(chǎn)生了不同的系統(tǒng)聚類方法,常用的有以下六種:①最短距離法(single):類與類之間的距離等于兩類最近樣品之間的距離。如何定義類與類之間的距離?第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.2層次法聚類分析1.層次聚類分析方法②最長距離法(complete):類與類之間的距離等于兩類最遠(yuǎn)樣品之間的距離。③中間距離法(median):最長距離法夸大了類間距離,最短距離法低估了類間距離,介于兩者間的距離法即中間距離法。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.2層次法聚類分析1.層次聚類分析方法④類平均法(average):類與類之間的距離等于各類元素兩兩之間的平方距離的平均值。⑤重心法(centroid):類與類之間的距離定義為對應(yīng)這兩類重心(均值)之間的距離。⑥離差平方和法(Ward):基于方差分析的思想,如果類分得正確,同類樣品之間的離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.2層次法聚類分析2.層次聚類步驟系統(tǒng)聚類的基本步驟如下:①計算n個樣品兩兩間的距離陣,記作D={dij}n×n;②構(gòu)造n個類,每個類只包含一個樣品;③合并距離最近的兩類為一個新類;④計算新類與當(dāng)前各類的距離,若類個數(shù)為1,則轉(zhuǎn)到步驟(5),否則回到步驟(3);⑤繪制系統(tǒng)聚類圖;⑥根據(jù)系統(tǒng)聚類圖確定類的個數(shù)和類的內(nèi)容。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.2層次法聚類分析2.層次聚類步驟首先使用默認(rèn)最短距離法(single)進(jìn)行系統(tǒng)聚類,具體如下。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析5.2.2層次法聚類分析3.實例分析繼續(xù)對廣東21個地區(qū)20年的數(shù)據(jù)進(jìn)行9個變量的樣品聚類,根據(jù)聚類結(jié)果做區(qū)域經(jīng)濟(jì)發(fā)展的劃分。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析(1)橫向數(shù)據(jù)第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析(1)橫向數(shù)據(jù)第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析按經(jīng)濟(jì)發(fā)展水平進(jìn)行分類,如分兩類:廣州深圳為發(fā)達(dá)地區(qū),其他為發(fā)展中地區(qū)。如分三類:廣州、深圳為發(fā)達(dá)地區(qū),佛山、東莞為中等發(fā)達(dá)地區(qū),其他為欠發(fā)達(dá)地區(qū)地區(qū)。第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析(2)縱向數(shù)據(jù)第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析(2)縱向數(shù)據(jù)第5章數(shù)據(jù)基本分析及可視化5.2數(shù)據(jù)的聚類分析(2)縱向數(shù)據(jù)按經(jīng)濟(jì)發(fā)展時間分類,如分兩類:2013年前為一個階段,2013年后為一個階段。如分三類:2000~2007年為一個階段,2008~2013年為一個階段,2013~2019年為一個階段。第5章數(shù)據(jù)基本分析及可視化第5章數(shù)據(jù)基本分析及可視化第6章數(shù)據(jù)綜合評價及可視化6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.1單指標(biāo)數(shù)據(jù)分析

1.單指標(biāo)數(shù)據(jù)比較分析

【Excel的基本操作】

2.數(shù)據(jù)的無量綱化方法

【Excel的基本操作】6.1.2綜合評價指數(shù)的構(gòu)建

1.指標(biāo)權(quán)重計算

【Excel的基本操作】

2.綜合評價指數(shù)計算

【Excel的基本操作】

3.綜合評價指數(shù)的可視化6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.1單指標(biāo)數(shù)據(jù)分析1.

單指標(biāo)數(shù)據(jù)分析

如果對單個指標(biāo)數(shù)據(jù)進(jìn)行評價,通常只需計算其次序統(tǒng)計量和秩次并進(jìn)行排序。這里說的秩次即次序統(tǒng)計量中的序數(shù),是一組數(shù)據(jù)排序后對應(yīng)的位置次序。如要對廣東經(jīng)濟(jì)運行數(shù)據(jù)進(jìn)行單變量綜合分析,可對各指標(biāo)進(jìn)行編秩排名,由于這時是單指標(biāo),故可直接對其進(jìn)行比較評價。對單指標(biāo)可這樣編秩:

GD2019.GDP.rank(ascending=False)。

但Python可直接對數(shù)據(jù)框中各變量一次排序,下面對每個變量進(jìn)行排名。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化Excel的基本操作在透視表中選需要的數(shù)據(jù),本例是在篩選的年份中選2019年的廣東省21個地區(qū)的數(shù)據(jù)。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

這里參數(shù)ascending=False表示數(shù)據(jù)從大到小排序或編秩(rank),默認(rèn)為True。

在B27格子中輸入=RANK(B4,B$4:B$24),然后通過拉伸或復(fù)制擴展到G47。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

但該方法不適于對多變量原始數(shù)據(jù)進(jìn)行綜合排名,因為數(shù)據(jù)之間單位和量綱有可能不同,無法直接相加,故而也就無法進(jìn)行綜合評價。要對對指標(biāo)進(jìn)行綜合評價,需首先對數(shù)據(jù)進(jìn)行無量綱化。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.1單指標(biāo)數(shù)據(jù)分析2.數(shù)據(jù)的無量綱化方法

雖然數(shù)據(jù)框中的所有變量都是數(shù)值數(shù)據(jù),但顯然這些變量的單位和量綱還是不同的,通常需要將它們進(jìn)行無量綱化轉(zhuǎn)換。觀測指標(biāo)的無量綱化指通過某種變換方式消除各個觀測指標(biāo)的計量單位,使其統(tǒng)一、可比的變換過程。把數(shù)據(jù)無量綱化之后,數(shù)據(jù)在橫向和縱向的對比清晰,便于比較分析。

對于正向指標(biāo)(越大越好),數(shù)據(jù)的無量綱化一般方法是6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.1單指標(biāo)數(shù)據(jù)分析2.數(shù)據(jù)的無量綱化方法

其中x是觀測值,x0是評價標(biāo)準(zhǔn)值。經(jīng)過這種變換,既可以消除評價指標(biāo)的計量單位,又可以統(tǒng)一其數(shù)量級,但這種變換并不能消除各個指標(biāo)內(nèi)部取值之間差異程度。所以常用下面的無量綱化方法對數(shù)據(jù)進(jìn)行變換。對于負(fù)向指標(biāo)(越小越好),通常是先對數(shù)據(jù)取倒數(shù)1/x,再進(jìn)行無量綱化。在社會科學(xué)的研究中常用的無量綱化方法主要是規(guī)范化(歸一化)6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.1單指標(biāo)數(shù)據(jù)分析2.數(shù)據(jù)的無量綱化方法

式中,x是某一列變量的觀測值,xmin是x的最小觀測值,xmax是x的最大觀測值。常對不是正態(tài)分布數(shù)據(jù)進(jìn)行規(guī)格化,經(jīng)過規(guī)范化變換,消除了觀測值的計量單位,變換后指標(biāo)z值都在0~1之間。

在實際變換中,人們習(xí)慣于按百分制來進(jìn)行評價,故常將上述變換函數(shù)乘以100。有時為使綜合評價指標(biāo)不出現(xiàn)0和負(fù)值,常在變換函數(shù)后加一個常數(shù)項,改進(jìn)的歸一化方法如下:6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.1單指標(biāo)數(shù)據(jù)分析2.數(shù)據(jù)的無量綱化方法

通過這種變換,可使數(shù)據(jù)限定在[a,b]之間變化,使得數(shù)值可比,如取a=0,b=100可使數(shù)據(jù)變?yōu)閇0,100]之間的數(shù)值。

這種無量綱方法的好處是,它不僅在縱向上消除了不同指標(biāo)的不同數(shù)量級的影響,在橫向上還能使得各地區(qū)的得分處于a~b之間,易于比較。

對每個變量,用上述的公式進(jìn)行規(guī)范化,于是可形成無量綱化矩陣

Z=[z1,z2,...,zm],這里m時變量的個數(shù)。

下面用規(guī)范化方法計算各個指標(biāo)的單向評價分?jǐn)?shù),這里我們?nèi)=0,b=100,計算結(jié)果如下。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

把數(shù)據(jù)無量綱化之后,在橫向和縱向上對比清晰,便于理解分析。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化Excel的基本操作在格子B49中輸入

=(B4-MIN(B$4:B$24))/(MAX(B$4:B$24)-MIN(B$4:B$24))*100然后通過拉伸或復(fù)制擴展到G69。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建1.綜合評價指數(shù)的構(gòu)建

綜合評價方法具有以下特點:包含若干指標(biāo),分別說明被評價對象的不同方面;評價方法最終要對被評價對象做出一個整體性的評判,用一個總指標(biāo)來說明被評價對象的一般水平。

評價指標(biāo)的權(quán)重指在評價指標(biāo)體系中每個指標(biāo)的重要程度占該指標(biāo)群的比重。在多指標(biāo)綜合評價中,各指標(biāo)在指標(biāo)群中的重要性不同,因此,不能等量齊觀,必須客觀地確定各指標(biāo)的權(quán)重。權(quán)重值的確定準(zhǔn)確與否直接影響綜合評價的結(jié)果,因而,科學(xué)地確定指標(biāo)權(quán)重在多指標(biāo)綜合評價中具有舉足輕重的作用。目前國內(nèi)外關(guān)于多指標(biāo)綜合評價的方法很多,根據(jù)權(quán)重確定方法的不同,這些方法可以大致分為主觀賦權(quán)法和客觀賦權(quán)法兩類。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

下面給出兩種簡單實用的確定指標(biāo)權(quán)重的客觀方法:

(1)等權(quán)法

當(dāng)我們不能確定指標(biāo)的權(quán)重時,可給每個指標(biāo)賦以相同的權(quán)重。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建1.綜合評價指數(shù)的構(gòu)建(2)變異系數(shù)法確定權(quán)重

變異系數(shù)又稱“標(biāo)準(zhǔn)差率”,是衡量數(shù)據(jù)中各觀測值變異程度的一種統(tǒng)計量。當(dāng)進(jìn)行兩個或多個資料變異程度的比較時,如果度量單位與平均數(shù)相同,可以直接利用標(biāo)準(zhǔn)差來比較;如果單位或均數(shù)不同,比較其變異程度就不能采用標(biāo)準(zhǔn)差,而要采用標(biāo)準(zhǔn)差與均數(shù)的比值(相對值)來比較。在評價指標(biāo)體系中,指標(biāo)取值差異越大的指標(biāo),也就是越難以實現(xiàn)的指標(biāo),這樣的指標(biāo)更能反映被評價對象的差距。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

(2)變異系數(shù)法確定權(quán)重

變量Xj的標(biāo)準(zhǔn)差與均值的比值稱為變異系數(shù),記為Vj。于是變量的權(quán)重為6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

(2)變異系數(shù)法確定權(quán)重

6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化Excel的基本操作1)在格子B70中輸入

=STDEV(B$49:B$69)/AVERAGE(B$49:B$69)

然后通過拉伸或復(fù)制擴展到G70。2)在格子B71中輸入

=B70/SUM($B70:$G70)

然后通過拉伸或復(fù)制擴展到G71。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建2.綜合評價指數(shù)計算

評價指數(shù)的合成方法指無量綱化變換后的各個指標(biāo)按照某種方法進(jìn)行綜合,得出一個可用于評價比較的綜合指標(biāo)。綜合指數(shù)計算方法較多,如平均評分法、加權(quán)求和法、層次分析法等幾種具有代表性的評價方法。

簡單算術(shù)平均法將不同評價指標(biāo)的重要性同等看待,但現(xiàn)實中綜合評價指標(biāo)體系各指標(biāo)的重要性是不同的,故應(yīng)賦予不同分量的權(quán)重,才能準(zhǔn)確地反映綜合指標(biāo)的合成值。

采用綜合評價法進(jìn)行計算時,對不同指標(biāo)給出合適的權(quán)重是一個關(guān)鍵的問題,選擇不同的權(quán)重,很可能會出現(xiàn)不同的評價結(jié)果。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建2.綜合評價指數(shù)計算(1)平均法求綜合評價指數(shù)

平均法的計算是把各指標(biāo)(列變量)的規(guī)范化數(shù)據(jù)直接相加,得到一個總分,然后除以指標(biāo)個數(shù),最后根據(jù)這個平均得分的高低來判定評價對象的優(yōu)劣。這種方法的好處是,對各指標(biāo)賦予同樣的權(quán)重來同等看待,省去了確定指標(biāo)權(quán)重的復(fù)雜步驟,是最簡單的綜合評分法。

式中,zij為無量綱數(shù)據(jù),wj為指標(biāo)權(quán)重,Si是評價總體中第i個觀察單位的評價評價值,m是指標(biāo)個數(shù)。

寫成矩陣式即為S=Z.W,其中Z為無量綱矩陣,W為指標(biāo)權(quán)重向量。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化下面對規(guī)范化數(shù)據(jù)使用平均法計算得分:6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建2.綜合評價指數(shù)計算(1)平均法求綜合評價指數(shù)

從綜合評價指數(shù)可以看出,綜合水平位列前4位的地區(qū)分別為深圳、廣州、東莞、佛山,其中廣東分值最高,排名靠后的事汕尾和潮州。

上面是按照平均法計算的綜合評價指數(shù)得分,從排名中可以清楚地看出每個地區(qū)經(jīng)過平均法計算后的排名,選用其他方法可能會得到不同的綜合得分和排名,下面是變異系數(shù)法計算的綜合得分。

6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建2.綜合評價指數(shù)計算(2)變異系數(shù)法綜合得分

由變異系數(shù)法計算各地區(qū)經(jīng)濟(jì)指標(biāo)權(quán)重后,運用加權(quán)綜合評價模型,對經(jīng)濟(jì)指數(shù)進(jìn)行測算,評價模型為:

式中,zij是無量綱化數(shù)據(jù),wj是第j個指標(biāo)的權(quán)重,Si是評價總體中第i個觀察單位的綜合評價值,m是指標(biāo)個數(shù)。

也可以寫成矩陣式S=

ZW

這里,Z是規(guī)范化得分,W是變異系數(shù)法法權(quán)重,S是變異系數(shù)法得分。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化

從簡單評分法和加權(quán)分析法的結(jié)果可以看出,兩種計算結(jié)果還是有一些差別的,因為綜合評分法用的是等權(quán),而變異系數(shù)法是根據(jù)不同指標(biāo)的權(quán)重來計算綜合得分的,但總的趨勢應(yīng)該差不多。下表是兩種方法計算的綜合得分結(jié)果比較。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化Excel的基本操作(1)在格子H49中輸入=AVERAGE(B49:G49),然后通過拉伸或復(fù)制擴展到H69。(2)在格子I49中輸入=RANK(H49,H$49:H$69),然后通過拉伸或復(fù)制擴展到I69。(3)在格子J49中輸入=B49*B$71+C49*C$71+D49*D$71+E49*E$71+F49*F$71+G49*G$71,然后通過拉伸或復(fù)制擴展到J69。(4)在格子K49中輸入=RANK(J49,J$49:J$69),然后通過拉伸或復(fù)制擴展到K69。6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建3.綜合評價指數(shù)的可視化(1)方法得分條圖

6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建3.綜合評價指數(shù)的可視化(1)方法得分條圖

6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建3.綜合評價指數(shù)的可視化(2)方法比較條圖

6.1綜合評價方法及應(yīng)用第6章數(shù)據(jù)綜合評價及可視化6.1.2

綜合評價指數(shù)的構(gòu)建3.綜合評價指數(shù)的可視化(3)得分和排名比較條圖

6.2綜合指數(shù)的預(yù)警監(jiān)測第6章數(shù)據(jù)綜合評價及可視化6.2.1綜合指數(shù)的構(gòu)建6.2.2綜合指數(shù)的差異分析

1.絕對差異分析

2.相對差異分析圖6.2.3綜合指數(shù)的監(jiān)測預(yù)警方法

1.單地區(qū)監(jiān)測圖

2.多地區(qū)監(jiān)測圖練習(xí)題66.2綜合指數(shù)的預(yù)警監(jiān)測第6章數(shù)據(jù)綜合評價及可視化6.2.1

綜合指數(shù)的構(gòu)建

上面我們計算了2019年廣東省21個地區(qū)的經(jīng)濟(jì)運行情況,然而我們建立綜合評價的一個目的不僅是進(jìn)行橫向比較,更多的是進(jìn)行縱向比較,下面我們將上述的綜合得分的使用的方法和代碼形成一個計算綜合指數(shù)的函數(shù)。6.2綜合指數(shù)的預(yù)警監(jiān)測第6章數(shù)據(jù)綜合評價及可視化6.2.1

綜合指數(shù)的構(gòu)建

這里我們用的是變異系數(shù)法計算權(quán)重。6.2綜合指數(shù)的預(yù)警監(jiān)測第6章數(shù)據(jù)綜合評價及可視化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論