廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第11章_多變量的可視化分析_第1頁
廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第11章_多變量的可視化分析_第2頁
廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第11章_多變量的可視化分析_第3頁
廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第11章_多變量的可視化分析_第4頁
廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第11章_多變量的可視化分析_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第十一章第十一章 多變量的可視化分析多變量的可視化分析 第一節(jié)第一節(jié) 引言引言 第二節(jié)第二節(jié) 折線圖分析法折線圖分析法 第三節(jié)第三節(jié) 條形圖分析法條形圖分析法 第四節(jié)第四節(jié) 散點(diǎn)圖分析法散點(diǎn)圖分析法 第五節(jié)第五節(jié) 雷達(dá)圖分析法雷達(dá)圖分析法 第六節(jié)第六節(jié) 星座圖分析法星座圖分析法 第一節(jié)第一節(jié) 引言引言n眾所周知,圖形是我們直觀了解、認(rèn)識(shí)數(shù)據(jù)的一種可視化手眾所周知,圖形是我們直觀了解、認(rèn)識(shí)數(shù)據(jù)的一種可視化手段。如果能將所研究的數(shù)據(jù)直接顯示在一個(gè)平面圖上,便可段。如果能將所研究的數(shù)據(jù)直接顯示在一個(gè)平面圖上,便可以一目了然地看出分析變量間的數(shù)量關(guān)系。直方圖、散點(diǎn)圖以一目了然地看出分析變量間的數(shù)量關(guān)系

2、。直方圖、散點(diǎn)圖等就是我們常用的二維平面圖示方法。雖然三維數(shù)據(jù)也可以等就是我們常用的二維平面圖示方法。雖然三維數(shù)據(jù)也可以用三維圖形來表示,但觀測(cè)三維數(shù)據(jù)卻存在一定的難度,而用三維圖形來表示,但觀測(cè)三維數(shù)據(jù)卻存在一定的難度,而且在許多實(shí)際問題中,多變量數(shù)據(jù)的維數(shù)通常又都大于且在許多實(shí)際問題中,多變量數(shù)據(jù)的維數(shù)通常又都大于3,那么如何用圖形直觀表現(xiàn)三維以上的數(shù)據(jù)呢?自上世紀(jì)那么如何用圖形直觀表現(xiàn)三維以上的數(shù)據(jù)呢?自上世紀(jì)70年年代以來,多變量數(shù)據(jù)的可視化分析研究就一直是人們關(guān)注的代以來,多變量數(shù)據(jù)的可視化分析研究就一直是人們關(guān)注的一個(gè)問題。一個(gè)問題。n從研究的成果來看,主要可以分為兩類從研究的成果

3、來看,主要可以分為兩類:一類是使高維空間的點(diǎn)與平面上的某種圖形對(duì)應(yīng),這種一類是使高維空間的點(diǎn)與平面上的某種圖形對(duì)應(yīng),這種圖形能反映高維數(shù)據(jù)的某些特點(diǎn)或數(shù)據(jù)間的某些關(guān)系;圖形能反映高維數(shù)據(jù)的某些特點(diǎn)或數(shù)據(jù)間的某些關(guān)系;另一類是對(duì)多變量數(shù)據(jù)進(jìn)行降維處理,在盡可能多地保另一類是對(duì)多變量數(shù)據(jù)進(jìn)行降維處理,在盡可能多地保留原始信息的原則下,將數(shù)據(jù)的維數(shù)降為留原始信息的原則下,將數(shù)據(jù)的維數(shù)降為2維或維或1維,然維,然后再在平面上表示。例如前面介紹的主成分分析方法、后再在平面上表示。例如前面介紹的主成分分析方法、因子分析方法、多維尺度法等就屬于此類方法。這里僅因子分析方法、多維尺度法等就屬于此類方法。這里僅

4、介紹介紹5種實(shí)用而有效的多變量可視化方法。種實(shí)用而有效的多變量可視化方法。 n表表11.1是我國(guó)華北地區(qū)是我國(guó)華北地區(qū)5個(gè)省市個(gè)省市2003年城鎮(zhèn)居民家庭平均每人年城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的六項(xiàng)指標(biāo)數(shù)據(jù),下面分別用全年消費(fèi)性支出的六項(xiàng)指標(biāo)數(shù)據(jù),下面分別用5種可視化方種可視化方法對(duì)數(shù)據(jù)進(jìn)行分析。法對(duì)數(shù)據(jù)進(jìn)行分析。n考慮微機(jī)的普及應(yīng)用,本章主要介紹考慮微機(jī)的普及應(yīng)用,本章主要介紹5種圖形的制作方法,種圖形的制作方法,圖形的制作則通過電腦實(shí)現(xiàn)。折線圖、條形圖、矩陣散點(diǎn)圖圖形的制作則通過電腦實(shí)現(xiàn)。折線圖、條形圖、矩陣散點(diǎn)圖在在SPSS中制作,雷達(dá)圖和星座圖則在中制作,雷達(dá)圖和星座圖則在EXC

5、EL中實(shí)現(xiàn)。中實(shí)現(xiàn)。 表表11.1 華北華北5省市城鎮(zhèn)居民家庭消費(fèi)性支出省市城鎮(zhèn)居民家庭消費(fèi)性支出第二節(jié)第二節(jié) 折線圖分析法折線圖分析法n折線圖是將多個(gè)樣品觀測(cè)數(shù)據(jù)以折線的方式表示在平面圖中折線圖是將多個(gè)樣品觀測(cè)數(shù)據(jù)以折線的方式表示在平面圖中的一種多變量可視化圖形。折線圖用線段的升降來表示變量的一種多變量可視化圖形。折線圖用線段的升降來表示變量的大小,常用于表示現(xiàn)象在時(shí)間上的變化趨勢(shì)、現(xiàn)象的分配的大小,常用于表示現(xiàn)象在時(shí)間上的變化趨勢(shì)、現(xiàn)象的分配情況和兩個(gè)現(xiàn)象之間的依存關(guān)系等。情況和兩個(gè)現(xiàn)象之間的依存關(guān)系等。n折線圖的作圖原理如下:折線圖的作圖原理如下: (1)作平面坐標(biāo)系,橫坐標(biāo)?。┳髌矫孀?/p>

6、標(biāo)系,橫坐標(biāo)取p個(gè)點(diǎn),表示個(gè)點(diǎn),表示p個(gè)變量,縱坐個(gè)變量,縱坐 標(biāo)表示變量取值。標(biāo)表示變量取值。 (2)對(duì)給定的樣品觀測(cè)值,在)對(duì)給定的樣品觀測(cè)值,在p個(gè)點(diǎn)的縱坐標(biāo)上標(biāo)出相應(yīng)的個(gè)點(diǎn)的縱坐標(biāo)上標(biāo)出相應(yīng)的 變量取值。變量取值。 (3)將表示)將表示p個(gè)變量取值的點(diǎn)連接成一條折線,即得到了表個(gè)變量取值的點(diǎn)連接成一條折線,即得到了表 示一個(gè)樣品觀測(cè)數(shù)據(jù)的折線,示一個(gè)樣品觀測(cè)數(shù)據(jù)的折線,n次觀測(cè)可繪出次觀測(cè)可繪出n條折條折 線,構(gòu)成多變量折線圖。線,構(gòu)成多變量折線圖。 n在在SPSS中作折線圖的方法如下:中作折線圖的方法如下: (1)將原始數(shù)據(jù)輸入)將原始數(shù)據(jù)輸入SPSS中。注意數(shù)據(jù)的組織形式要像圖中。

7、注意數(shù)據(jù)的組織形式要像圖11.1那樣。即把不同地區(qū)當(dāng)成變量,而把支出指標(biāo)當(dāng)成觀測(cè)。那樣。即把不同地區(qū)當(dāng)成變量,而把支出指標(biāo)當(dāng)成觀測(cè)。圖圖11.1 作折線圖時(shí)的數(shù)據(jù)組織形式作折線圖時(shí)的數(shù)據(jù)組織形式 (2)選擇菜單項(xiàng))選擇菜單項(xiàng)GraphsLine,打開,打開Line Charts對(duì)話框,對(duì)話框,如圖如圖11.2。在對(duì)話框上方的三個(gè)選項(xiàng)用于選擇折線圖的形式,。在對(duì)話框上方的三個(gè)選項(xiàng)用于選擇折線圖的形式,由于是這里是多變量作圖,所以選擇由于是這里是多變量作圖,所以選擇Multiple。在對(duì)話框下。在對(duì)話框下面的三個(gè)選項(xiàng)中選擇面的三個(gè)選項(xiàng)中選擇Value of individual cases。單擊。

8、單擊Define按鈕,打開按鈕,打開Define Multiple Line對(duì)話框。對(duì)話框。 圖圖11.2 Line Charts對(duì)話框?qū)υ捒?(3)在)在Define Multiple Line對(duì)話框中,將代表不同地區(qū)的對(duì)話框中,將代表不同地區(qū)的5個(gè)變量移入個(gè)變量移入Lines Represent列表框中,將代表支出指標(biāo)的變列表框中,將代表支出指標(biāo)的變量(量(variable)移入)移入Variable框中。單擊框中。單擊OK按鈕,即可作出按鈕,即可作出如圖如圖11.4所示的折線圖。從圖中可以清楚地看出北京市幾乎所示的折線圖。從圖中可以清楚地看出北京市幾乎各項(xiàng)支出都排在第一,而山西省則幾乎每

9、項(xiàng)支出都是最低的。各項(xiàng)支出都排在第一,而山西省則幾乎每項(xiàng)支出都是最低的。 圖圖11.3 Define Multiple Line對(duì)話框?qū)υ捒驁D圖11.4 折線圖折線圖第三節(jié)第三節(jié) 條形圖分析法條形圖分析法n條形圖是由若干平行條狀的矩形所構(gòu)成,而以每一個(gè)矩形的條形圖是由若干平行條狀的矩形所構(gòu)成,而以每一個(gè)矩形的高度來代表數(shù)值的大小。高度來代表數(shù)值的大小。n按圖按圖11.1所示的方式在所示的方式在SPSS中組織好數(shù)據(jù)后,條形圖的制作中組織好數(shù)據(jù)后,條形圖的制作步驟如下:步驟如下: (1)選擇菜單項(xiàng))選擇菜單項(xiàng)GraphsLine,打開,打開Bar Charts對(duì)話框,該對(duì)話框,該對(duì)話框與圖對(duì)話框與

10、圖11.2所示的所示的Line Charts對(duì)話框有相同的選項(xiàng)。在對(duì)話框有相同的選項(xiàng)。在對(duì)話框上方的三個(gè)選項(xiàng)用于選擇條形圖的形式,由于是這里對(duì)話框上方的三個(gè)選項(xiàng)用于選擇條形圖的形式,由于是這里是多變量作圖,所以選擇是多變量作圖,所以選擇Clustered。在對(duì)話框下面的三個(gè)選。在對(duì)話框下面的三個(gè)選項(xiàng)中選擇項(xiàng)中選擇Value of individual cases。單擊。單擊Define按鈕,打開按鈕,打開Define Clustered Bar對(duì)話框。對(duì)話框。 (2)在)在Define Clustered Bar對(duì)話框中,將代表不同地區(qū)的對(duì)話框中,將代表不同地區(qū)的5個(gè)變量移入個(gè)變量移入Bars

11、 Represent列表框中,將代表支出指標(biāo)的變列表框中,將代表支出指標(biāo)的變量移入量移入Variable框中。單擊框中。單擊OK按鈕,即可作出如圖按鈕,即可作出如圖11.5所示所示的條形圖。的條形圖。 圖圖11.5 條形圖條形圖n可以發(fā)現(xiàn),折線圖和條行圖的作圖過程幾乎相同,作圖原理可以發(fā)現(xiàn),折線圖和條行圖的作圖過程幾乎相同,作圖原理也大同小異,折線圖是以折線的高低來表示變量的大小,條也大同小異,折線圖是以折線的高低來表示變量的大小,條形圖是以矩形的高低來表示變量的大小。形圖是以矩形的高低來表示變量的大小。n從圖從圖11.5也可以得出與折線圖同樣的結(jié)論:北京市各項(xiàng)支出也可以得出與折線圖同樣的結(jié)論

12、:北京市各項(xiàng)支出都比較高,而山西省各項(xiàng)支出都比較低。都比較高,而山西省各項(xiàng)支出都比較低。第四節(jié)第四節(jié) 散點(diǎn)圖分析法散點(diǎn)圖分析法n散點(diǎn)圖又稱散布圖,它是以點(diǎn)的分布反映變量之間相關(guān)關(guān)系散點(diǎn)圖又稱散布圖,它是以點(diǎn)的分布反映變量之間相關(guān)關(guān)系的可視化方法。矩陣散點(diǎn)圖則是一種反映多個(gè)變量之間相關(guān)的可視化方法。矩陣散點(diǎn)圖則是一種反映多個(gè)變量之間相關(guān)關(guān)系的二維散點(diǎn)圖。關(guān)系的二維散點(diǎn)圖。n利用利用SPSS制作矩陣散點(diǎn)圖的步驟如下:制作矩陣散點(diǎn)圖的步驟如下: (1)在)在SPSS中按圖中按圖11.6的形式組織數(shù)據(jù),即把支出指標(biāo)當(dāng)成的形式組織數(shù)據(jù),即把支出指標(biāo)當(dāng)成變量,而把不同地區(qū)當(dāng)成觀測(cè)。變量,而把不同地區(qū)當(dāng)成觀

13、測(cè)。 圖圖11.6 作散點(diǎn)圖時(shí)的數(shù)據(jù)組織形式作散點(diǎn)圖時(shí)的數(shù)據(jù)組織形式 (2)選擇菜單項(xiàng))選擇菜單項(xiàng)GraphsScatter,打開,打開Scatter plot對(duì)話框?qū)υ捒?如圖如圖11.7。該對(duì)話框用于選擇散點(diǎn)圖的形式。選定。該對(duì)話框用于選擇散點(diǎn)圖的形式。選定Matrix,即矩陣散點(diǎn)圖即矩陣散點(diǎn)圖 ,單擊,單擊Define按鈕,打開按鈕,打開Scatter plot Matrix對(duì)對(duì)話框,如圖話框,如圖11.8。 圖圖11.7 Scatter plot對(duì)話框?qū)υ捒驁D圖11.8 Scatter plot Matrix對(duì)話框?qū)υ捒?(3)在打開的)在打開的Scatter plot Matrix對(duì)

14、話框中,將食品、衣著、對(duì)話框中,將食品、衣著、居住三個(gè)變量移入居住三個(gè)變量移入Matrix Variables列表框中,將標(biāo)志變量列表框中,將標(biāo)志變量region移入移入Label Cases by列表框中。列表框中。 (4)點(diǎn)擊)點(diǎn)擊OK按鈕,得到如圖按鈕,得到如圖11.9所示的矩陣散點(diǎn)圖。所示的矩陣散點(diǎn)圖。 n從圖從圖11.9可以看出,河北、山西、內(nèi)蒙古在居住和食品消費(fèi)可以看出,河北、山西、內(nèi)蒙古在居住和食品消費(fèi)支出方面與北京、天津相比較低,食品與居住支出變量之間支出方面與北京、天津相比較低,食品與居住支出變量之間存在一定的線性關(guān)系。天津在衣著支出方面較低,與最低的存在一定的線性關(guān)系。天津

15、在衣著支出方面較低,與最低的河北接近,與最高居住支出形成鮮明對(duì)比。北京則除在居住河北接近,與最高居住支出形成鮮明對(duì)比。北京則除在居住支出方面低于天津外,其他方面支出均高于華北其他省市。支出方面低于天津外,其他方面支出均高于華北其他省市。內(nèi)蒙古則在衣著支出方面僅次于北京,顯示出某種特殊消費(fèi)內(nèi)蒙古則在衣著支出方面僅次于北京,顯示出某種特殊消費(fèi)特征。特征。 圖圖11.9 矩陣散點(diǎn)圖矩陣散點(diǎn)圖 n另外,還可以作三維立體散點(diǎn)圖。只需在另外,還可以作三維立體散點(diǎn)圖。只需在Scatter plot對(duì)話框?qū)υ捒颍▓D(圖11.7)中選擇)中選擇3-D選項(xiàng)。在跳出的選項(xiàng)。在跳出的3-D Scatter plot對(duì)

16、話框?qū)υ捒蛑袑⑹称贰⒁轮?、居住三個(gè)變量分別移入中將食品、衣著、居住三個(gè)變量分別移入X Axis、Y Axis和和Z Axis列表框中,將標(biāo)志變量列表框中,將標(biāo)志變量region移入移入Label Cases by列表列表框中。單擊框中。單擊OK按鈕,則作出圖按鈕,則作出圖11.10所示的三維立體散點(diǎn)圖。所示的三維立體散點(diǎn)圖。n矩陣散點(diǎn)圖不僅可以在二維平面上同時(shí)反映多個(gè)變量數(shù)值,矩陣散點(diǎn)圖不僅可以在二維平面上同時(shí)反映多個(gè)變量數(shù)值,而且可以用于直觀反映多個(gè)變量間是否存在某種關(guān)系。與三而且可以用于直觀反映多個(gè)變量間是否存在某種關(guān)系。與三維立體圖相比,有著更好的可視性。比較圖維立體圖相比,有著更好的可

17、視性。比較圖11.9與圖與圖11.10不不難看出這一點(diǎn)。難看出這一點(diǎn)。 圖圖11.10 三維立體散點(diǎn)圖三維立體散點(diǎn)圖 第五節(jié)第五節(jié) 雷達(dá)圖分析法雷達(dá)圖分析法n雷達(dá)圖是一種較為常用的多變量可視化圖形。在雷達(dá)圖中,雷達(dá)圖是一種較為常用的多變量可視化圖形。在雷達(dá)圖中,每個(gè)變量都有它自己的數(shù)值軸,每個(gè)數(shù)值軸都是從中心向外每個(gè)變量都有它自己的數(shù)值軸,每個(gè)數(shù)值軸都是從中心向外輻射。由于圖形就好像雷達(dá)熒光屏上的圖像,故稱其為雷達(dá)輻射。由于圖形就好像雷達(dá)熒光屏上的圖像,故稱其為雷達(dá)圖。又像蜘蛛網(wǎng),所以也稱蛛網(wǎng)圖。圖。又像蜘蛛網(wǎng),所以也稱蛛網(wǎng)圖。n雷達(dá)圖的作圖方法:雷達(dá)圖的作圖方法: (1)作一圓,并按變量的個(gè)

18、數(shù))作一圓,并按變量的個(gè)數(shù)p將圓周分成將圓周分成p等分。等分。 (2)連接圓心和各分點(diǎn),將這)連接圓心和各分點(diǎn),將這p條半徑連線依次定義為各變條半徑連線依次定義為各變量的坐標(biāo)軸,并標(biāo)以適當(dāng)?shù)目潭?。量的坐?biāo)軸,并標(biāo)以適當(dāng)?shù)目潭取?(3)對(duì)給定的一次觀測(cè)值,將每個(gè)變量值分別標(biāo)在相應(yīng)的)對(duì)給定的一次觀測(cè)值,將每個(gè)變量值分別標(biāo)在相應(yīng)的坐標(biāo)軸上,把坐標(biāo)軸上,把p個(gè)點(diǎn)相連就形成了一個(gè)個(gè)點(diǎn)相連就形成了一個(gè)p邊形,邊形,n次觀測(cè)值就次觀測(cè)值就可畫出可畫出n個(gè)個(gè)p邊形。邊形。 n例如,根據(jù)表例如,根據(jù)表11.1中的數(shù)據(jù),調(diào)用中的數(shù)據(jù),調(diào)用EXCEL圖表向?qū)?,選擇雷圖表向?qū)?,選擇雷達(dá)圖,然后按圖表向?qū)崾?,即可?/p>

19、作出如圖達(dá)圖,然后按圖表向?qū)崾?,即可制作出如圖11.1117所示所示的雷達(dá)圖。圖的雷達(dá)圖。圖11.5畫出了北京、天津和河北的雷達(dá)圖,從圖畫出了北京、天津和河北的雷達(dá)圖,從圖可以看出,三省市消費(fèi)支出結(jié)構(gòu)有較大差異。北京人均消費(fèi)可以看出,三省市消費(fèi)支出結(jié)構(gòu)有較大差異。北京人均消費(fèi)支出的各項(xiàng)指標(biāo)都高,對(duì)應(yīng)面積最大的六邊形,其次是天津,支出的各項(xiàng)指標(biāo)都高,對(duì)應(yīng)面積最大的六邊形,其次是天津,在三個(gè)省市中面積最小的是河北,天津在居住支出方面與北在三個(gè)省市中面積最小的是河北,天津在居住支出方面與北京較為接近,而在衣著和交通、通訊支出方面則與河北接近。京較為接近,而在衣著和交通、通訊支出方面則與河北接近。其他支出方面三地存在較大差異。利用雷達(dá)圖的形狀、面積其他支出方面三地存在較大差異。利用雷達(dá)圖的形狀、面積大小,可以對(duì)樣品進(jìn)行初始分類分析。大小,可以對(duì)樣品進(jìn)行初始分類分析。n為了加強(qiáng)雷達(dá)圖的效果,在雷達(dá)圖中適當(dāng)?shù)姆峙渥鴺?biāo)軸是很為了加強(qiáng)雷達(dá)圖的效果,在雷達(dá)圖中適當(dāng)?shù)姆峙渥鴺?biāo)軸是很重要的,具體的分配辦法要結(jié)合分析的問題而定。例如可將重要的,具體的分配辦法要結(jié)合分析的問題而定。例如可將要對(duì)比的指標(biāo)分布在左、右或上、下方,以便

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論