應(yīng)用多元統(tǒng)計(jì)分析課件_第1頁
應(yīng)用多元統(tǒng)計(jì)分析課件_第2頁
應(yīng)用多元統(tǒng)計(jì)分析課件_第3頁
應(yīng)用多元統(tǒng)計(jì)分析課件_第4頁
應(yīng)用多元統(tǒng)計(jì)分析課件_第5頁
已閱讀5頁,還剩513頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元正態(tài)分佈2

第一節(jié)多元分布的基本概念

本節(jié)基本內(nèi)容:一、隨機(jī)向量二、多元分佈函數(shù)和多元密度函數(shù)三、邊緣密度、獨(dú)立性與條件分佈四、多維隨機(jī)向量的數(shù)字特徵

3一、隨機(jī)向量所隨機(jī)變數(shù)通俗理解就是“其值隨機(jī)會(huì)而定”的量。本課程討論的是多變量的情形,也即隨機(jī)向量:設(shè)為個(gè)隨機(jī)變數(shù),由它們組成向量,則稱作維隨機(jī)向量。在不做特別說明的情況下,向量、矩陣用粗體表示;涉及總體的變數(shù)用大寫字母表示,涉及樣本的變數(shù)用小寫字母表示;隨機(jī)變數(shù)用大寫字母表示,其實(shí)現(xiàn)值用小寫字母表示。4在理論上,對(duì)多維隨機(jī)向量的研究和對(duì)一維隨機(jī)變數(shù)的研究思路是類似的,通過分佈及其特徵進(jìn)行刻畫。不同的是,可能要考慮變數(shù)之間的相關(guān)關(guān)係。在統(tǒng)計(jì)應(yīng)用上,對(duì)多維隨機(jī)向量的研究和對(duì)一維隨機(jī)變數(shù)的研究思路也是一樣的,要通過樣本資料來推斷總體。一、隨機(jī)向量5如果同時(shí)對(duì)個(gè)變數(shù)作一次觀測(cè),得到觀測(cè)值:,稱觀測(cè)值為一個(gè)樣品;若這樣的觀測(cè)重複進(jìn)行次,可得到個(gè)樣品

()。把這樣的個(gè)樣品放在一起,稱之為一個(gè)樣本。常排成矩陣:一、隨機(jī)向量6需要說明的是,從橫向看,矩陣的第行

表示對(duì)第個(gè)樣品的一次觀測(cè)值。當(dāng)然,在獲得具體觀測(cè)之前,是一個(gè)維隨機(jī)向量。從縱向上看,矩陣的第列表示對(duì)第個(gè)變數(shù)的次重複觀測(cè)值,在獲得具體觀測(cè)之前,是一個(gè)隨機(jī)變數(shù)。一、隨機(jī)向量7二、多元分佈函數(shù)和多元密度函數(shù)隨機(jī)向量(變數(shù))離散型、連續(xù)型刻畫隨機(jī)向量(變數(shù))分佈函數(shù)、密度函數(shù)8分佈函數(shù)設(shè)為一隨機(jī)向量,它的多元分佈函數(shù)定義為:記為。

隨機(jī)向量的統(tǒng)計(jì)特性可用它的分佈函數(shù)來完整地描述。二、多元分佈函數(shù)和多元密度函數(shù)9密度函數(shù)(設(shè)為維隨機(jī)向量)連續(xù)型。若稱為的的聯(lián)合分佈密度函數(shù)。

離散型。若存在有限或可列個(gè)維向量,使得,且滿足,則稱()為的概率分佈(本質(zhì)上為密度函數(shù))。二、多元分佈函數(shù)和多元密度函數(shù)10以連續(xù)型變數(shù)為例進(jìn)行討論。多維隨機(jī)向量的邊緣密度。若為維隨機(jī)向量,由它的()個(gè)分量組成的子向量的分佈稱為的邊緣(邊際)分佈。通過變換中的各分量的次序,總可以假定正好是的前個(gè)分量,其餘個(gè)分量記為,則可表示為:

三、多維隨機(jī)向量的邊緣密度、獨(dú)立性與條件分佈11此時(shí),的分佈函數(shù)為。若的聯(lián)合分佈密度為,則的邊緣密度函數(shù)為:,(2.3)多維隨機(jī)向量的獨(dú)立性。若個(gè)隨機(jī)變數(shù)的聯(lián)合分佈密度等於各自邊緣分佈的乘積,則稱是互相獨(dú)立的。三、多維隨機(jī)向量的邊緣密度、獨(dú)立性與條件分佈12多維隨機(jī)向量的條件分佈。當(dāng)?shù)拿芏群瘮?shù)為,的密度函數(shù)為時(shí),給定時(shí)的條件密度為

稱給定時(shí)的分佈為條件分佈。三、多維隨機(jī)向量的邊緣密度、獨(dú)立性與條件分佈13概率分佈是對(duì)隨機(jī)變數(shù)的概率性質(zhì)最完整的刻畫。優(yōu)點(diǎn)是刻畫的完整性,不便之處在於表示形式有時(shí)是非常複雜的。而隨機(jī)變數(shù)的數(shù)字特徵,則是指某些由隨機(jī)變數(shù)的分佈所決定的常數(shù),它刻畫了隨機(jī)變數(shù)(或者其分佈)的某一方面的性質(zhì)。對(duì)於多維隨機(jī)變數(shù)刻畫其性質(zhì)的最重要的數(shù)字特徵有均值、自協(xié)差陣與協(xié)差陣及相關(guān)矩陣。為了便於討論,設(shè)為維隨機(jī)向量,為維隨機(jī)向量。四、多維隨機(jī)向量的數(shù)字特徵14若()存在,則隨機(jī)向量的均值可定義為:其中是一個(gè)維向量,稱為均值向量。四、多維隨機(jī)向量的數(shù)字特徵15若和的協(xié)方差()存在,則稱為的自協(xié)差陣(簡(jiǎn)稱協(xié)差陣),有時(shí),把簡(jiǎn)記為。四、多維隨機(jī)向量的數(shù)字特徵16若和的協(xié)方差()存在,則隨機(jī)向量、的協(xié)差陣記為若(表示零矩陣),則稱與不相關(guān)。四、多維隨機(jī)向量的數(shù)字特徵17隨機(jī)向量均值及協(xié)差陣具有如下性質(zhì):(1);(2);(3);(4);(5)為非負(fù)定對(duì)稱矩陣;(6);(7)。四、多維隨機(jī)向量的數(shù)字特徵18

若維隨機(jī)向量的協(xié)差陣存在,且每個(gè)分量的方差大於零,則稱隨機(jī)向量的相關(guān)陣為

其中四、多維隨機(jī)向量的數(shù)字特徵19若記為自協(xié)差陣對(duì)角線元素的平方根形成的對(duì)角矩陣,則自協(xié)差陣和相關(guān)陣的關(guān)係可表述為:四、多維隨機(jī)向量的數(shù)字特徵20

第二節(jié)多元正態(tài)分佈及其參數(shù)估計(jì)

本節(jié)基本內(nèi)容:一、多元正態(tài)分佈密度函數(shù)二、多元正態(tài)分佈的數(shù)字特徵三、多元正態(tài)分佈的參數(shù)估計(jì)四、多維隨機(jī)向量的數(shù)字特徵

21用來刻畫多維隨機(jī)向量統(tǒng)計(jì)特性的常見的多元分佈有很多,除了多元正態(tài)分佈還有多元對(duì)數(shù)正態(tài)分佈、多項(xiàng)式分佈、多元超幾何分佈、多元分佈、多元分佈、多元指數(shù)分佈等。這裏主要介紹多元正態(tài)分佈,其原因是多元統(tǒng)計(jì)分析的主要方法是建立在多元正態(tài)分佈的假設(shè)之上的。儘管實(shí)際分析數(shù)據(jù)可能不會(huì)嚴(yán)格服從多元正態(tài)分佈的,但有三個(gè)原因使多元正態(tài)分佈在實(shí)際中有著廣泛的應(yīng)用:一是,正態(tài)分佈在許多情況下確實(shí)能作為真實(shí)總體的一個(gè)近似;二是,根據(jù)中心極限定理,不論總體的分佈如何,許多統(tǒng)計(jì)量的分佈是近似正態(tài)分佈的;三是,很多檢驗(yàn)統(tǒng)計(jì)量的分佈對(duì)正態(tài)分佈條件是穩(wěn)健的,即原始資料對(duì)正態(tài)的偏離對(duì)檢驗(yàn)結(jié)果影響不大。22若維隨機(jī)向量的概率密度函數(shù)為,(2.6)則稱服從維正態(tài)分佈,簡(jiǎn)記為,其中是維向量,是階正定矩陣。一、多元正態(tài)分佈密度函數(shù)23多元正態(tài)隨機(jī)向量具有以下的性質(zhì):(1)若,其協(xié)差陣是對(duì)角陣,則的各分量是相互獨(dú)立的隨機(jī)變數(shù)。(2)多元正態(tài)分佈隨機(jī)向量的任何一個(gè)分量子集的分佈仍然服從正態(tài)分佈。(3)多元正態(tài)分佈隨機(jī)向量的任意線性變換仍然是服從多元正態(tài)分佈。若,令,為階方陣,則。一、多元正態(tài)分佈密度函數(shù)24若,則,,即恰好是多維隨機(jī)向量的均值向量,恰好是多維隨機(jī)向量的協(xié)差陣。其中,,二、多元正態(tài)分佈的數(shù)字特徵25在實(shí)際應(yīng)用中,多元正態(tài)分佈中的均值向量和協(xié)差陣通常是未知的,需要由樣本資料來估計(jì),而參數(shù)估計(jì)的方法很多,最常見的是極大似然估計(jì)法給出估計(jì)量:用樣本均值向量估計(jì)總體均值向量,用樣本協(xié)差陣估計(jì)總體協(xié)差陣。三、多元正態(tài)分佈的參數(shù)估計(jì)26一般情況下,從多元正態(tài)總體中按照隨機(jī)原則,抽取容量為的樣本,則樣本數(shù)據(jù)矩陣為三、多元正態(tài)分佈的參數(shù)估計(jì)27設(shè)每個(gè)樣品是相互獨(dú)立的,則利用極大似然估計(jì)可求出三、多元正態(tài)分佈的參數(shù)估計(jì)28矩陣是實(shí)對(duì)稱矩陣,因此只寫出上三角部分。事實(shí)上,按照最大似然估計(jì)的結(jié)果,是的無偏估計(jì),但不是的無偏估計(jì)。為了得到無偏估計(jì)量,通常作出調(diào)整:令,

(2.7)則是的無偏估計(jì)。在一定得假設(shè)下,可以證明和還是和的“最小方差”無偏估計(jì)量,即和是和的有效估計(jì)。常稱為樣本均值,為樣本協(xié)差陣。三、多元正態(tài)分佈的參數(shù)估計(jì)29

第三節(jié)多元正態(tài)分佈的假設(shè)檢驗(yàn)

本節(jié)基本內(nèi)容:一、多元正態(tài)總體的三個(gè)重要抽樣分佈二、一個(gè)正態(tài)總體均值向量的假設(shè)檢驗(yàn)三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)——多元方差分析五、正態(tài)總體的協(xié)方差陣檢驗(yàn)

30

一元正態(tài)總體中,參數(shù)、的檢驗(yàn)要設(shè)計(jì)到一個(gè)總體、兩個(gè)總體乃至多個(gè)總體的檢驗(yàn)問題。用於檢驗(yàn)、的抽樣分佈主要有分佈、分佈、分佈等,它們都是由來自正態(tài)總體的隨機(jī)樣本導(dǎo)出的檢驗(yàn)統(tǒng)計(jì)量的分佈。推廣到多元正態(tài)總體,類似於一元假設(shè)檢驗(yàn)情形,多元統(tǒng)計(jì)分析中也需要對(duì)各種均值向量和協(xié)差陣進(jìn)行假設(shè)檢驗(yàn),涉及到三個(gè)重要的統(tǒng)計(jì)量:維希特(Wishart)統(tǒng)計(jì)量、霍特林(Hotelling)統(tǒng)計(jì)量、威爾克斯(Wilks)統(tǒng)計(jì)量。一、多元正態(tài)總體的三個(gè)重要抽樣分佈31假設(shè)檢驗(yàn)的基本步驟均可歸納為四步:第一步,提出待檢驗(yàn)的假設(shè)和。第二步,給出檢驗(yàn)的統(tǒng)計(jì)量及其服從的分佈。第三步,給定檢驗(yàn)水準(zhǔn),查統(tǒng)計(jì)量的分佈表,確定臨界值,從而得到拒絕域。第四步,根據(jù)樣本觀測(cè)值計(jì)算出統(tǒng)計(jì)量的值,看是否落入拒絕域中,以便對(duì)待判假設(shè)檢驗(yàn)做出決策。一、多元正態(tài)總體的三個(gè)重要抽樣分佈32設(shè)總體服從,。現(xiàn)從中獲得樣本(),樣本均值向量為,要檢驗(yàn)假設(shè),(為已知向量)(1)總體協(xié)差陣為已知,且為正定時(shí),可用檢驗(yàn)統(tǒng)計(jì)量:當(dāng)原假設(shè)成立時(shí),統(tǒng)計(jì)量,給定檢驗(yàn)水準(zhǔn),查分佈表使,可得臨二、一個(gè)正態(tài)總體均值向量的假設(shè)檢驗(yàn)33界值,再由樣本值計(jì)算,若,則拒絕原假設(shè),否則假設(shè)相容,不能拒絕原假設(shè)。(2)當(dāng)總體協(xié)方差陣未知時(shí),用的無偏估計(jì)量代替,則檢驗(yàn)統(tǒng)計(jì)量為

當(dāng)原假設(shè)成立時(shí),統(tǒng)計(jì)量服從分佈,再利用分佈與分佈的關(guān)係,有

二、一個(gè)正態(tài)總體均值向量的假設(shè)檢驗(yàn)34所以,給定檢驗(yàn)水準(zhǔn),查分佈表使,可得臨界值,再由樣本值計(jì)算,若,則拒絕原假設(shè),否則假設(shè)相容,不能拒絕原假設(shè)。二、一個(gè)正態(tài)總體均值向量的假設(shè)檢驗(yàn)35設(shè)有總體(),從中獲得樣本,樣本均值向量為,另有一總體(),從中獲得樣本,樣本均值向量為,兩組樣本相互獨(dú)立,協(xié)差陣和為正定矩陣,且,?,F(xiàn)在要檢驗(yàn)假設(shè),

(1)當(dāng)協(xié)差陣相等,即,且未知時(shí),可用檢驗(yàn)統(tǒng)計(jì)量:

三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)36其中,,當(dāng)原假設(shè)成立時(shí),統(tǒng)計(jì)量服從霍特林分佈,再利用霍特林分佈與分佈的關(guān)係,有

所以,給定檢驗(yàn)水準(zhǔn),查分佈表可得出,再由樣本值計(jì)算,若,則拒絕原假設(shè),否則相容,不能拒絕原假設(shè)。三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)37(2)協(xié)差陣不相等,即,且為未知時(shí),具體分兩種情況:第一種情況:時(shí),令

(),,於是利用分佈與分佈的關(guān)係,可得檢驗(yàn)統(tǒng)計(jì)量為:

第二種情況:時(shí),不妨設(shè)時(shí),令三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)38

()

,於是利用分佈與分佈的關(guān)係,可得檢驗(yàn)統(tǒng)計(jì)量為:

三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)39設(shè)有個(gè)元正態(tài)總體,,…,,為正定矩陣,從每個(gè)總體中抽取獨(dú)立樣品個(gè)數(shù)分別為,,具體樣本觀測(cè)數(shù)據(jù)如下:

第一個(gè)總體:四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)——多元方差分析40第二個(gè)總體:第個(gè)總體:樣本的均值向量為(),要檢驗(yàn)的假設(shè)為,不全相等四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)——多元方差分析41記,,,利用一元情況下方差分析的思想,令總離差陣為,組內(nèi)離差陣為,組間離差陣為,那麼,各離差陣的計(jì)算公式為:

四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)——多元方差分析42則檢驗(yàn)用的統(tǒng)計(jì)量是通過廣義似然比導(dǎo)出的統(tǒng)計(jì)量(這裏的廣義似然比統(tǒng)計(jì)量等價(jià)威爾克斯統(tǒng)計(jì)量)為:

給定檢驗(yàn)水準(zhǔn),查威爾克斯分佈表,確定臨界值,然後作出統(tǒng)計(jì)判斷。當(dāng)然,若沒有查威爾克斯分佈表的情況下,可近似用分佈或分佈來進(jìn)行檢驗(yàn):設(shè),令四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)——多元方差分析43,其中,,,

則近似服從分佈,近似服從分佈,這裏不一定是整數(shù),可用與它接近的整數(shù)來作為分佈的自由度。

四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)——多元方差分析44

設(shè),協(xié)差陣為正定矩陣,且為未知。從中獲得樣本,,為一個(gè)單位陣,是一個(gè)已知的正定矩陣,要檢驗(yàn)假設(shè):(1),檢驗(yàn)所使用的似然比統(tǒng)計(jì)量為

其中,。五、正態(tài)總體的協(xié)方差陣檢驗(yàn)45(2),因?yàn)闉檎ň仃?,所以存?)使得,令(),則因此,檢驗(yàn)等價(jià)於檢驗(yàn),檢驗(yàn)所使用的似然比統(tǒng)計(jì)量為:

其中,。五、正態(tài)總體的協(xié)方差陣檢驗(yàn)46在實(shí)際應(yīng)用中,由於分佈的計(jì)算比較困難,實(shí)際應(yīng)用中,往往採(cǎi)用分佈的近似分佈分佈來近似,在原假設(shè)成立的情況下,當(dāng)很大時(shí),近似服從。五、正態(tài)總體的協(xié)方差陣檢驗(yàn)47

設(shè)有個(gè)元正態(tài)總體,,…,,進(jìn)一步假定()為正定矩陣,且為為未知。分別從各總體中取個(gè)樣本,,要檢驗(yàn)的假設(shè)為,不全相等令,其中,

。五、正態(tài)總體的協(xié)方差陣檢驗(yàn)48檢驗(yàn)所用的似然比統(tǒng)計(jì)量為

在實(shí)際應(yīng)用中,將改為,改為,得修正的統(tǒng)計(jì)量,記為,則的近似分佈為分佈。

五、正態(tài)總體的協(xié)方差陣檢驗(yàn)49其中,

五、正態(tài)總體的協(xié)方差陣檢驗(yàn)

多元回歸分析第一節(jié)多元線性回歸分析本節(jié)基本內(nèi)容:

一、模型和參數(shù)估計(jì)二、模型檢驗(yàn)三、多重共線性

一、模型和參數(shù)估計(jì)(一)總體回歸模型其中:

因變數(shù)為隨機(jī)變數(shù),引數(shù)為確定變數(shù),是固定的但未知的參數(shù),稱為總體回歸係數(shù);稱為隨機(jī)誤差項(xiàng),表示除了引數(shù)以外被忽略的或無法考慮的其他隨機(jī)的影響因素。線性:指可表述為未知參數(shù)的線性函數(shù)。一、模型和參數(shù)估計(jì)對(duì)於一個(gè)實(shí)際問題,如果我們獲得組觀測(cè)數(shù)據(jù):則線性回歸模型可表述為一、模型和參數(shù)估計(jì)寫成矩陣形式為其中,為了估計(jì)模型,要求:,

一、模型和參數(shù)估計(jì)為了能對(duì)回歸模型進(jìn)行假設(shè)檢驗(yàn),還需假定隨機(jī)誤差項(xiàng)服從正態(tài)分佈:

值得注意的是,對(duì)回歸模型的解釋,主要是對(duì)參數(shù)()的解釋,的含義為保持其他引數(shù)不變,當(dāng)變動(dòng)一個(gè)單位時(shí),對(duì)因變數(shù)的平均影響程度。(二)參數(shù)估計(jì)一、模型和參數(shù)估計(jì)現(xiàn)實(shí)情況下,總體參數(shù)未知,一般需根據(jù)樣本資料建立樣本回歸模型,從而推斷總體模型,利用樣本資料,可以構(gòu)建模型

其中,是對(duì)的估計(jì)。需要指出的是,不是像那樣是固定的數(shù)值,而是隨著樣本的不同,可以有不同取值,由於樣本是隨機(jī)的,也是隨機(jī)變數(shù)。可由最小二乘法估計(jì)得到。一、模型和參數(shù)估計(jì)最小二乘法:其原理是使殘差平方和達(dá)到最小,即達(dá)到最小。解形如下式的正規(guī)方程:一、模型和參數(shù)估計(jì)將其寫為矩陣形式:即經(jīng)過一系列求解,可得:

一、模型和參數(shù)估計(jì)上式中的估計(jì)量稱為回歸參數(shù)的最小二乘估計(jì),具有以下的統(tǒng)計(jì)特性:(1)線性性。由其運(yùn)算式可以看出,估計(jì)量是()的線性函數(shù)。進(jìn)一步地,()在獲得具體觀測(cè)之前是隨機(jī)變數(shù),由此來講,估計(jì)量也是隨機(jī)變數(shù)。(2)無偏性。在假定(3.6)的情況下,估計(jì)量的期望分別為總體參數(shù)。也就是說,估計(jì)量是總體參數(shù)的無偏估計(jì)。一、模型和參數(shù)估計(jì)(3)最小方差性。在假定(3.6)的情況下,的協(xié)差陣為,

(

)的方差是乘以正規(guī)方程係數(shù)矩陣逆矩陣中相應(yīng)對(duì)角線元素??梢宰C明最小二乘估計(jì)量線上性無偏估計(jì)中具有最小方差。(4)正態(tài)性。在隨機(jī)誤差項(xiàng)服從正態(tài)分佈的假定下,還可以進(jìn)一步證明最小二乘法估計(jì)量服從正態(tài)分佈,即此時(shí),最小二乘估計(jì)是一切無偏估計(jì)中方差最小的估計(jì)。特別地,有(

),其中,表示矩陣中第行第列的元素。二、模型檢驗(yàn)通常來說,模型的設(shè)定只是基於定性分析作出的假設(shè)。這種假設(shè)是否符合實(shí)際,能否得到樣本數(shù)據(jù)的支持,還需要在求出線性回歸方程後,對(duì)回歸方程進(jìn)行顯著性檢驗(yàn)。多元線性回歸方程的顯著性檢驗(yàn)與一元線性回歸方程的顯著性檢驗(yàn)思想是一致的,但也有不同之處。這裏我們介紹兩種方法,一是回歸方程整體顯著性的檢驗(yàn),另一個(gè)是回歸係數(shù)顯著性的檢驗(yàn)。同時(shí),我們還介紹度量回歸擬合程度的可決係數(shù),並討論可決係數(shù)與檢驗(yàn)的聯(lián)繫。(一)回歸方程的顯著性檢驗(yàn)回歸方程檢驗(yàn),檢驗(yàn)回歸方程的回歸擬合效果是否顯著,實(shí)質(zhì)是對(duì)回歸模型的整體線性關(guān)係的顯著性檢驗(yàn),即檢驗(yàn)下列假設(shè)是否為真如果假設(shè)不能被拒絕,則表明隨機(jī)變數(shù)與解釋變數(shù)之間的關(guān)係由線性回歸模型來表述是不恰當(dāng)?shù)?。該檢驗(yàn)我們可以通過構(gòu)建統(tǒng)計(jì)量來進(jìn)行:二、模型檢驗(yàn)二、模型檢驗(yàn)當(dāng)原假設(shè)成立時(shí),可以利用該分佈對(duì)回歸方程的整體顯著性水準(zhǔn)進(jìn)行檢驗(yàn)。(二)回歸係數(shù)的顯著性檢驗(yàn)在多元回歸模型中,引數(shù)對(duì)因變數(shù)的影響是否顯著,主要體現(xiàn)為回歸係數(shù)是否與0存在差異,當(dāng)某個(gè)引數(shù)回歸係數(shù)為0時(shí),該引數(shù)在回歸方程中就不會(huì)產(chǎn)生實(shí)質(zhì)影響效應(yīng)。因此,檢驗(yàn)轉(zhuǎn)化為回歸係數(shù)是否等於0的問題。二、模型檢驗(yàn)因此,待檢驗(yàn)的假設(shè)為注意:在檢驗(yàn)中往往未知,一般採(cǎi)用無偏估計(jì)量由此,可構(gòu)造t統(tǒng)計(jì)量其中當(dāng)原假設(shè)成立時(shí),構(gòu)造的統(tǒng)計(jì)量服從自由度為的t分佈。二、模型檢驗(yàn)(三)可決係數(shù)以及修正可決係數(shù)可決係數(shù)用以描述回歸方程對(duì)樣本觀測(cè)值的擬合程度。其計(jì)算公式為可決係數(shù)就是被回歸模型解釋的波動(dòng)(回歸平方和)占因變數(shù)觀測(cè)值總波動(dòng)(總離差平方和)的比重,其取值在的區(qū)間內(nèi)。越接近1,表明回歸方程對(duì)樣本數(shù)據(jù)擬合程度越高,模型對(duì)預(yù)測(cè)越有意義;反之,越接近0,表明回歸方程擬合效果越差。二、模型檢驗(yàn)為了擬合優(yōu)度受模型中引數(shù)個(gè)數(shù)的影響,可採(cǎi)用自由度修正可決係數(shù)。修正可決係數(shù)公式為:分子是殘差項(xiàng)的樣本方差,分母是因變數(shù)的樣本方差,二者都考慮了自由度,剔除了受引數(shù)個(gè)數(shù)影響的問題。實(shí)際應(yīng)用中,常常將與結(jié)合應(yīng)用,以說明回歸效果的有效性。將上面兩式的結(jié)果結(jié)合,可得相互的關(guān)係為

二、模型檢驗(yàn)還可進(jìn)一步得到統(tǒng)計(jì)量與的關(guān)係為:需要指出,是測(cè)定因變數(shù)觀測(cè)值的總離差平方和由回歸模型解釋的部分所占比重。而檢驗(yàn)是因變數(shù)和一組變數(shù)(

)之間是否有線性回歸關(guān)係的檢驗(yàn)。三、多重共線性在總體模型中,我們?cè)俣ㄒ龜?shù)為非隨機(jī)變數(shù),且不存在完全的線性關(guān)係(即假定滿秩),否則,回歸模型無法求解。一般在實(shí)際應(yīng)用中,只要變數(shù)選擇得當(dāng),不會(huì)出現(xiàn)引數(shù)之間完全的線性關(guān)係。但如果引數(shù)的觀測(cè)值之間表現(xiàn)出明顯的高度相關(guān),近似地形成相互線性表述關(guān)係,這在實(shí)際問題,特別是經(jīng)濟(jì)研究中經(jīng)常出現(xiàn)。這一問題稱為多重共線性,是多元回歸分析中出現(xiàn)的特有問題。若出現(xiàn)嚴(yán)重的多重共線性問題,則前面的一系列統(tǒng)計(jì)方法就可能失效,導(dǎo)致錯(cuò)誤的判定,使預(yù)測(cè)失誤。需要特別引起注意。三、多重共線性(一)多重共線性的影響多重共線性的存在會(huì)改變回歸係數(shù)?;貧w係數(shù)並不反映方程中任何一個(gè)具體引數(shù)對(duì)因變數(shù)的影響,而只是方程中給定與其他相關(guān)的引數(shù)後一個(gè)“偏”的影響。多重共線性不降低模型的擬合能力,但使回歸平方和、剩餘平方和的含義變得模糊。參數(shù)估計(jì)量的方差隨著變數(shù)之間的樣本相關(guān)性增加而增大。三、多重共線性(二)多重共線性的識(shí)別相關(guān)係數(shù)識(shí)別法。初步識(shí)別,較高的相關(guān)係數(shù)意味著可能存在多重共線性。方差膨脹因數(shù)識(shí)別法。方差膨脹因數(shù)越接近於1,說明引數(shù)之間多重共線性越弱,反之則越嚴(yán)重。直觀判定法。①當(dāng)模型中引入或剔除一個(gè)引數(shù),或小幅改變一個(gè)觀測(cè)值時(shí),回歸係數(shù)的估計(jì)值有較大的變化;②回歸係數(shù)估計(jì)值的符號(hào)與實(shí)際經(jīng)驗(yàn)判斷相違背;③F檢驗(yàn)通過,而有的回歸係數(shù)的t檢驗(yàn)未通過。三、多重共線性(三)多重共線性的消除增加樣本量剔除對(duì)共線性程度影響較大的引數(shù)逐步回歸法變數(shù)變換法如採(cǎi)用對(duì)數(shù)變換,差分變換有偏的估計(jì)方法如嶺回歸、主成分回歸下麵一節(jié)主要介紹逐步回歸分析。72

第二節(jié)引數(shù)選擇與逐步回歸分析

本節(jié)基本內(nèi)容:

一、回歸模型的變數(shù)子集合選擇二、逐步回歸分析

一、回歸模型的變數(shù)子集合選擇在引數(shù)的選擇過程中,若遺漏對(duì)因變數(shù)有重要影響的引數(shù),建立的回歸模型效果肯定不好。若回歸模型中包含太多的變數(shù),且其中一些變數(shù)對(duì)因變數(shù)的影響不大,有些引數(shù)之間存在大量資訊的重疊(多重共線性問題),會(huì)影響模型精度。因此,引數(shù)的選擇無疑是建立回歸模型過程中一個(gè)極為重要的問題。下麵我們介紹一些回歸模型的引數(shù)選擇技術(shù)。一、回歸模型的變數(shù)子集合選擇設(shè)一個(gè)實(shí)際問題回歸建模中,有個(gè)備選引數(shù),每個(gè)引數(shù)都有入選回歸方程和不入選回歸方程兩種情況。因變數(shù)關(guān)於這些引數(shù)的所有可能回歸方程有個(gè),其中是指所有引數(shù)都不入選,回歸模型只包含

一個(gè)常數(shù)項(xiàng)的情形。我們的目的是在這些所有可能的回歸方程中,選擇一個(gè)

“最優(yōu)”的。最優(yōu)的標(biāo)準(zhǔn)要綜合考慮:從回歸模型的擬合角度看,殘差平方和越小越好,或者

說複相關(guān)係數(shù)越接近1越好;從回歸模型的簡(jiǎn)潔性上看,回歸方程中包含引數(shù)個(gè)數(shù)

越小越好。一、回歸模型的變數(shù)子集合選擇應(yīng)該說,上述的單個(gè)標(biāo)準(zhǔn)只能看作“最優(yōu)”方程的某個(gè)方面,不能獨(dú)立作為變數(shù)選擇的準(zhǔn)則。兼顧上述兩條標(biāo)準(zhǔn),可以得到許多選擇變數(shù)子集合的準(zhǔn)則:修正可決係數(shù)AIC準(zhǔn)則Cp準(zhǔn)則……一、回歸模型的變數(shù)子集合選擇所謂建立“最優(yōu)”回歸方程,實(shí)際上就是引數(shù)的選擇問題??蓲?cǎi)用以下的方法:從所有可能的引數(shù)組合中選擇最優(yōu)。(工作量太大)逐步剔除法(Backward)。逐步引入法(Forward)。逐步回歸分析法(Stepwise)。逐步回歸分析法“有進(jìn)有出”,綜合逐步引入和逐步剔除兩種方法特點(diǎn),是一種自動(dòng)地從大量可供選擇的變數(shù)中,選擇對(duì)建立回歸方程重要的變數(shù)的方法。下麵我們著重介紹這種方法。二、逐步回歸分析從一個(gè)引數(shù)出發(fā),依據(jù)引數(shù)對(duì)因變數(shù)的影響顯著性大小,從大到小逐個(gè)引入回歸方程。同時(shí),在逐個(gè)引數(shù)選入回歸方程的過程中,如果發(fā)現(xiàn)先前被引入的引數(shù)在其後由於某些引數(shù)的引入而失去其重要性時(shí),可以從回歸方程中隨時(shí)予以剔除。(二)逐步回歸分析的基本原理二、逐步回歸分析每步都要進(jìn)行顯著性檢驗(yàn),以便保證每次引入變數(shù)前回歸方程中只包括顯著性變數(shù)。這個(gè)過程反復(fù)進(jìn)行,直到既無不顯著變數(shù)從回歸方程中剔除,又無顯著變數(shù)需要選入回歸方程時(shí)為止。二、逐步回歸分析(三)逐步回歸的基本步驟(1)考慮能否剔除變數(shù)的基本步驟。假設(shè)已經(jīng)引入回歸方程的變數(shù)為()。①計(jì)算已在方程中的變數(shù)的偏回歸平方和()其中,表示包含括弧中這些下標(biāo)對(duì)所應(yīng)變量的回歸平方和,表示相應(yīng)的殘差平方和。②尋找所有引入方程中偏回歸平方和達(dá)到最小的變數(shù)二、逐步回歸分析即相應(yīng)變數(shù)是方程中對(duì)因變數(shù)影響最小的變數(shù)。③檢驗(yàn)對(duì)因變數(shù)的影響是否顯著。對(duì)變數(shù)進(jìn)行回歸係數(shù)的顯著性檢驗(yàn),即檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量為在原假設(shè)成立的情況下,。給定顯著性水準(zhǔn),查得臨界值為。若,表明顯著,不能剔除,轉(zhuǎn)入考慮能否引入新變數(shù)(步驟(2))。若,則表明不顯著,剔除。

二、逐步回歸分析重新建立因變數(shù)與其餘個(gè)引數(shù)的回歸方程,然後再重複上面步驟,檢驗(yàn)方程中最不重要的變數(shù)是否可以剔除,直到方程中沒有變數(shù)可以剔除為止,轉(zhuǎn)入考慮能否引入新變數(shù)(步驟(2))。(2)考慮能否引入新變數(shù)的基本步驟。假定已經(jīng)入選個(gè)變數(shù),不在方程中的變數(shù)記為。①計(jì)算不在方程中的變數(shù)的偏回歸平方和():二、逐步回歸分析②尋找所有未在方程中的偏回歸平方和達(dá)到最大的變數(shù):即不在方程中的變數(shù)是對(duì)因變數(shù)影響最大的變數(shù)。③檢驗(yàn)變數(shù)對(duì)因變數(shù)的影響是否顯著。對(duì)變數(shù)作回歸係數(shù)的顯著性檢驗(yàn),即檢驗(yàn):檢驗(yàn)統(tǒng)計(jì)量為在原假設(shè)成立的情況下,。給定顯著性水準(zhǔn),查得臨界值為。

二、逐步回歸分析若,表明是顯著的,則引入,並轉(zhuǎn)入到考慮能否剔除變數(shù)(步驟(1))。若,則逐步篩選變數(shù)過程結(jié)束。假設(shè)用逐步回歸法得到個(gè)變數(shù),再建立因變數(shù)與這個(gè)變數(shù)的回歸方程,方法與一般回歸分析相同。這就是用逐步回歸法得到的“最優(yōu)”回歸方程。84

第三節(jié)回歸分析應(yīng)用實(shí)例

本節(jié)基本內(nèi)容:

一、多元回歸分析應(yīng)用實(shí)例二、逐步回歸分析應(yīng)用實(shí)例

問題描述糧食產(chǎn)量一般指全社會(huì)的糧食產(chǎn)量,包括國(guó)有經(jīng)濟(jì)經(jīng)營(yíng)的、集體統(tǒng)一經(jīng)營(yíng)的和農(nóng)民家庭經(jīng)營(yíng)的糧食產(chǎn)量,還包括工礦企業(yè)辦的農(nóng)場(chǎng)和其他生產(chǎn)單位的產(chǎn)量。糧食除包括稻穀、小麥、玉米、高粱、穀子及其他雜糧外,還包括薯類和豆類。我國(guó)歷年的糧食產(chǎn)量總體上呈現(xiàn)出穩(wěn)步增長(zhǎng)的趨勢(shì),但由於受到播種面積、氣候自然條件、人力、物力等多方面的因素影響,我國(guó)每年的糧食產(chǎn)量都會(huì)出現(xiàn)一些波動(dòng)。在綜合考慮對(duì)糧食產(chǎn)量起影響作用的多方面因素情況下,這裏擬對(duì)影響我國(guó)糧食產(chǎn)量的預(yù)測(cè)模型進(jìn)行分析。一、多元回歸分析應(yīng)用實(shí)例一、多元回歸分析應(yīng)用實(shí)例選擇糧食作物播種面積、化肥施用量、受災(zāi)面積、和農(nóng)業(yè)勞動(dòng)力人數(shù)四個(gè)變數(shù)作為對(duì)糧食產(chǎn)量起影響因素的引數(shù),將糧食產(chǎn)量視為因變數(shù)。採(cǎi)用多元線性回歸分析擬合多因素影響條件下的糧食產(chǎn)量回歸模型。數(shù)據(jù)全部取自《中國(guó)統(tǒng)計(jì)年鑒2006》,具體見下原始數(shù)據(jù)表。數(shù)據(jù)一、多元回歸分析應(yīng)用實(shí)例年份糧食總產(chǎn)量(萬噸)糧食作物播種面積(千公頃)化肥施用量(萬噸)受災(zāi)面積(千公頃)農(nóng)業(yè)勞動(dòng)力數(shù)(萬人)198537910.80108845.001775.8044365.0030351.50198639151.00110933.001930.6047140.0030467.90198740298.00111268.001999.3042090.0030870.00198939408.00110123.002141.5050870.0031455.70198940754.90112204.672357.1046991.0032440.50199044624.30113465.872590.3038474.0033336.40199143529.30112313.602805.1055472.0034186.30199244265.80110559.702930.2051333.0034037.00199345648.80110508.703151.9048829.0033258.20199444510.10109543.703317.9055043.0032690.30199546661.80110060.403593.7045821.0032334.50199650453.50112547.923827.9046989.0032260.40199749417.10112912.103980.7053429.0032677.90199851229.53113787.404083.7050145.0032626.40199950838.58113160.984124.3249981.0032911.76200046217.52108462.544146.4154688.0032797.50200145263.67106080.034253.7652215.0032451.01200245705.75103890.834339.3947119.1031990.58200343069.5399410.374411.5654506.3031259.63200446946.95101606.034636.5837106.2630596.00200548402.19104278.384766.2238818.2329975.54一、多元回歸分析應(yīng)用實(shí)例打開SPSS統(tǒng)計(jì)軟體,點(diǎn)擊介面下方的VariableView選項(xiàng)定義變數(shù)名和變數(shù)類型。如下圖所示。多元回歸分析在SPSS中的實(shí)現(xiàn)過程一、多元回歸分析應(yīng)用實(shí)例點(diǎn)擊介面下方的DataView選項(xiàng),錄入(或?qū)?數(shù)據(jù)一、多元回歸分析應(yīng)用實(shí)例在菜單中點(diǎn)擊Analyze-Regression-LinearRegression因變數(shù):糧食產(chǎn)量引數(shù):糧食播種面積、化肥施用量、受災(zāi)面積、農(nóng)業(yè)從業(yè)人數(shù)?;貧w方法:默認(rèn)方式(同時(shí)進(jìn)入,Method:Enter)

如圖所示。一、多元回歸分析應(yīng)用實(shí)例單擊Statistics選項(xiàng),作必要設(shè)置。如係數(shù)估計(jì)(Estimates)、模型擬合(Modelfit)、描述性統(tǒng)計(jì)(Descriptive)、共線性識(shí)別(Colinearitydiagnostics)等。如圖所示一、多元回歸分析應(yīng)用實(shí)例糧食總產(chǎn)量糧食播種面積化肥施用量受災(zāi)面積農(nóng)業(yè)勞動(dòng)力人數(shù)PearsonCorrelation糧食總產(chǎn)量1.000.089.793.040.317糧食播種面積.0891.000-.508.135.510化肥施用量.793-.5081.000.068.019受災(zāi)面積.040.135.0681.000.527農(nóng)業(yè)勞動(dòng)力人數(shù).317.510.019.5271.000Sig.(1-tailed)糧食總產(chǎn)量..351.000.431.081糧食播種面積.351..009.279.009化肥施用量.000.009..384.467受災(zāi)面積.431.279.384..007農(nóng)業(yè)勞動(dòng)力人數(shù).081.009.467.007.點(diǎn)擊OK,得到輸出結(jié)果如下:一、多元回歸分析應(yīng)用實(shí)例ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.985.970.963754.14555ModelSumofSquaresdfMeanSquareFSig.1Regression296300432.244474075108.061130.245.000

Residual9099768508

Total305400200.37820

四引數(shù)模型概述方差分析一、多元回歸分析應(yīng)用實(shí)例ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-39956.3365865.333-6.812.000

糧食播種面積

.654.062

.67710.600.000.4572.189化肥施用量

4.609.2181.14621.167.000.6361.573受災(zāi)面積

-.100.036-.143-2.756.014.6961.436農(nóng)業(yè)勞動(dòng)力人數(shù)

.082.208

.025.395.698.4632.162係數(shù)檢驗(yàn)一、多元回歸分析應(yīng)用實(shí)例當(dāng)四個(gè)引數(shù)全部進(jìn)入回歸的情況下,為0.970,修正可決係數(shù)為0.963,回歸模型擬合程度很高。進(jìn)一步通過檢驗(yàn)發(fā)現(xiàn),統(tǒng)計(jì)量的取值為130.245,在給定顯著水準(zhǔn)的情況下,應(yīng)當(dāng)拒絕原假設(shè),說明回歸方程整體顯著。一、多元回歸分析應(yīng)用實(shí)例通過進(jìn)一步觀察,發(fā)現(xiàn)模型的一些回歸係數(shù)不能通過顯著性檢驗(yàn)。以最小的兩個(gè)變數(shù)即受災(zāi)面積和農(nóng)業(yè)勞動(dòng)力人數(shù)為例,來說明回歸係數(shù)的顯著與否。這兩個(gè)變數(shù)的

統(tǒng)計(jì)量取值分別為-2.756和0.395。當(dāng)給定顯著性水

平,通過查分佈表得,比較發(fā)現(xiàn),受災(zāi)面積對(duì)模型的影響是顯著的(),

農(nóng)業(yè)勞動(dòng)力人數(shù)是不顯著的。一、多元回歸分析應(yīng)用實(shí)例通過上述檢驗(yàn)發(fā)現(xiàn),模型中存在變數(shù)未通過檢驗(yàn),而模型整體是顯著的,據(jù)此可以懷疑模型存在多重共線性。然而,各個(gè)引數(shù)間的相關(guān)係數(shù)並不高,進(jìn)一步地,方差膨脹因數(shù)顯示,模型中的多重共線性並不嚴(yán)重。因此,有理由認(rèn)為農(nóng)業(yè)勞動(dòng)力人數(shù)對(duì)糧食產(chǎn)量的影響不顯著。為了驗(yàn)證這一說法,剔除農(nóng)業(yè)勞動(dòng)力人數(shù),再重複上述步驟進(jìn)行回歸,模型擬合情況如下所示。一、多元回歸分析應(yīng)用實(shí)例ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.985.970.965735.19473Model

SumofSquaresdfMeanSquareFSig.1Regression296211508.500398737169.500182.674.000

Residual9188691.87817540511.287

Total305400200.37820

保留三個(gè)字變數(shù)的模型概述保留三個(gè)引數(shù)模型的方差分析一、多元回歸分析應(yīng)用實(shí)例ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-39377.8965537.247

-7.111.000

糧食播種面積.669.048.69213.889.000.7131.402化肥施用量4.639.1991.15323.305.000.7231.383受災(zāi)面積-.093.030-.132-3.065.007.9561.046保留三個(gè)引數(shù)模型的係數(shù)檢驗(yàn)一、多元回歸分析應(yīng)用實(shí)例保留三個(gè)引數(shù)情況下模型概述表,反映了模型的擬合優(yōu)度檢驗(yàn),為0.970,基本與四變數(shù)模型保持一致,說明模型對(duì)原始數(shù)據(jù)的擬合較好;修正可決係數(shù)為0.965,略高於四變數(shù)模型,則進(jìn)一步支持了我們剔除農(nóng)業(yè)勞動(dòng)力人數(shù)的決策。對(duì)保留三個(gè)引數(shù)回歸模型的方差分析,檢驗(yàn)結(jié)果顯示,說明模型整體顯著。對(duì)回歸係數(shù)顯著性檢驗(yàn),三個(gè)引數(shù)對(duì)模型的影響都是顯著的;方差膨脹因數(shù)進(jìn)一步顯示,由於剔除的引數(shù),模型的多重共線性得到進(jìn)一步地改進(jìn)。一、多元回歸分析應(yīng)用實(shí)例按照上述判定,三變數(shù)模型是適當(dāng)?shù)?,可以寫出回歸方程為邊際影響分析例如,保持其他因素不變的情況下,當(dāng)化肥施用量增加1萬噸,則糧食產(chǎn)量可提高4.639萬噸。預(yù)測(cè)若已經(jīng)知道2006年的糧食播種面積為105489千公頃、化肥施用量為4928萬噸、受災(zāi)面積為41091千公頃,根據(jù)回歸方程,得到2006年的國(guó)內(nèi)糧食產(chǎn)量預(yù)測(cè)值為50234萬噸。二、逐步回歸分析應(yīng)用實(shí)例問題已知某中水泥在凝固時(shí)放出的熱量(卡/克)與水泥中下列四種化學(xué)成分有關(guān):的成分(%,),的成分(%,),的成分(%,),的成分(%,)。現(xiàn)要對(duì)影響水泥在凝固時(shí)放熱的影響成分因素作分析。本例將通過逐步回歸分析法對(duì)多重線性回歸分析中的引數(shù)進(jìn)行篩選。實(shí)際數(shù)據(jù)如下:二、逐步回歸分析應(yīng)用實(shí)例樣品x1x2x3x4178.5726660274.312915523104.31156820487.61131847595.97526336109.211559227102.7371176872.51312244993.1254182210115.921474261183.8140233412113.31166912原始數(shù)據(jù)二、逐步回歸分析應(yīng)用實(shí)例點(diǎn)擊介面下方的VariableView選項(xiàng)定義變數(shù)名和變數(shù)類型,錄入數(shù)據(jù),如下圖所示?;貧w分析在SPSS中的實(shí)現(xiàn)過程二、逐步回歸分析應(yīng)用實(shí)例點(diǎn)擊Analyze→Regression→LinearRegression,操作形成下圖結(jié)果。注意:回歸方法選擇Stepwise,即採(cǎi)用逐步回歸自動(dòng)對(duì)進(jìn)入模型的多個(gè)引數(shù)進(jìn)行篩選。二、逐步回歸分析應(yīng)用實(shí)例單擊Statistics選項(xiàng),選擇必要的描述性統(tǒng)計(jì)量,如係數(shù)估計(jì)值、係數(shù)置信區(qū)間、模型擬合、描述性統(tǒng)計(jì)、偏相關(guān)係數(shù)等。如下圖所示。二、逐步回歸分析應(yīng)用實(shí)例單擊Options選項(xiàng),選擇逐步回歸篩選引數(shù)的統(tǒng)計(jì)量臨界值,如下圖所示。二、逐步回歸分析應(yīng)用實(shí)例ModelVariablesEnteredVariablesRemovedMethod1X4.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).2X1.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).3X2.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).4.X4Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).逐步回歸過程中引入或剔除的變數(shù)二、逐步回歸分析應(yīng)用實(shí)例逐步回歸過程中一共進(jìn)行了四步模型篩選:第一步進(jìn)入模型;第二步進(jìn)入模型;第三步進(jìn)入模型;最後一步將剔除出模型。因此,最終模型中只保留了和兩個(gè)引數(shù)。對(duì)逐步回歸結(jié)果的解釋,與一般回歸模型是相同,不再進(jìn)一步分析。輸出的結(jié)果110

聚類分析第一節(jié)聚類分析概述本節(jié)基本內(nèi)容一、聚類分析的定義二、聚類分析的分類111一、聚類分析的定義

聚類分析是將樣品或變數(shù)進(jìn)行分類的多元統(tǒng)計(jì)分析方法。其功能是建立一種分類方法,它將一批樣品或變數(shù),按照它們?cè)谛再|(zhì)上的親疏、相似程度進(jìn)行分類。112二、聚類分析的分類按照分組的方法論基礎(chǔ)不同系統(tǒng)聚類法動(dòng)態(tài)聚類模糊聚類圖論聚類……按照分析對(duì)象不同R型聚類Q型聚類113第二節(jié)樣品或變數(shù)親疏程度的測(cè)定用來描述樣品或變數(shù)的親疏程度通常有兩個(gè)途徑:把每個(gè)樣品或變數(shù)看成是多維空間上的一個(gè)點(diǎn),在多維座標(biāo)中,定義點(diǎn)與點(diǎn)、類與類之間的距離,用以描述樣品或變數(shù)之間的親疏程度;計(jì)算樣品或變數(shù)的相似係數(shù),用相似係數(shù)來描述樣品或變數(shù)之間的親疏程度。一般情況下,樣品之間的親疏程度用距離度量,而變數(shù)之間的親疏程度用相似係數(shù)度量。114第二節(jié)樣品或變數(shù)親疏程度的測(cè)定本節(jié)基本內(nèi)容:一、變數(shù)類型與數(shù)據(jù)變換

二、多維空間的距離三、相似係數(shù)四、距離以及相似係數(shù)的選擇原則

115第二節(jié)樣品或變數(shù)親疏程度的測(cè)定符號(hào)說明:對(duì)於n個(gè)樣品,每個(gè)樣品有p個(gè)變數(shù),則觀測(cè)數(shù)據(jù)矩陣為其中,為第個(gè)樣品在第個(gè)變數(shù)上的觀測(cè)數(shù)據(jù)值;第個(gè)樣品觀測(cè)值由觀測(cè)數(shù)據(jù)矩陣的第行描述,第個(gè)變數(shù)觀測(cè)值由矩陣的第列描述。116一、變數(shù)類型與數(shù)據(jù)變換原始數(shù)據(jù)可能受量綱和數(shù)量級(jí)的影響。不同量綱、不同數(shù)量級(jí)的數(shù)據(jù)放在一起比較,聚類效果可能受到影響。在聚類分析處理過程中,有時(shí)需要先對(duì)原始數(shù)據(jù)矩陣進(jìn)行變換處理:中心化變換標(biāo)準(zhǔn)化變換規(guī)格化變換對(duì)數(shù)變換117二、多維空間的距離對(duì)樣品進(jìn)行分類時(shí),通常採(cǎi)用距離來表示樣品之間的親疏程度。因此,需定義樣品之間的距離,即第個(gè)樣品與第個(gè)樣品之間的距離,記為。所定義的距離須滿足:正定性對(duì)稱性三角不等式118二、多維空間的距離對(duì)於定量數(shù)據(jù)資料,常用的距離有:明氏距離蘭氏距離馬氏距離斜交空間距離

119二、多維空間的距離明氏距離第個(gè)樣品與第個(gè)樣品之間的明氏距離公式為

這裏q為某一自然數(shù),由明氏距離可以得到幾個(gè)最常用、最直觀的距離:120()二、多維空間的距離

當(dāng)時(shí),稱為絕對(duì)值距離。當(dāng)時(shí),稱為歐式距離。當(dāng)時(shí),稱為切比雪夫距離。121()()()蘭氏距離當(dāng)全部數(shù)據(jù)大於零,即時(shí),可以定義第個(gè)樣品與第個(gè)樣品之間的蘭氏距離為蘭氏距離是一個(gè)無量綱的量,其受極端值的影響較??;適用於具有高度偏倚的數(shù)據(jù)。122()二、多維空間的距離二、多維空間的距離馬氏距離第個(gè)樣品與第個(gè)樣品之間的馬氏距離記為

其中,為樣本協(xié)差陣。馬氏距離的優(yōu)點(diǎn)是考慮到個(gè)變數(shù)之間的相關(guān)性,並且與各變數(shù)的單位無關(guān)。123二、多維空間的距離斜交空間距離定義第個(gè)樣品與第個(gè)樣品之間的斜交空間距離為其中,是變數(shù)與變數(shù)之間的相關(guān)係數(shù)。124()三、相似係數(shù)對(duì)變數(shù)進(jìn)行聚類分析,通常採(cǎi)用相似係數(shù)來表示變數(shù)之間的親疏程度。設(shè)表示變數(shù)與變數(shù)之間的相似係數(shù),則應(yīng)滿足下列條件:

(為非零常數(shù));,對(duì)一切成立;

,對(duì)一切成立。125三、相似係數(shù)越接近於1,則表示變數(shù)與變數(shù)之間關(guān)係越密切,

越接近於0,則表示變數(shù)與變數(shù)之間關(guān)係越疏遠(yuǎn)。聚類時(shí),關(guān)係密切的變數(shù)應(yīng)歸於同一類,關(guān)係疏遠(yuǎn)的變數(shù)歸於不同類。常用的相似係數(shù)有夾角余弦和相關(guān)係數(shù)等。126三、相似係數(shù)夾角余弦在維空間中,變數(shù)與觀測(cè)值形成的向量與的夾角為,則夾角余弦為:

它是與兩個(gè)向量在原點(diǎn)處的夾角的余弦。127三、相似係數(shù)相關(guān)係數(shù)相關(guān)係數(shù)是數(shù)據(jù)作中心化或標(biāo)準(zhǔn)化處理後的夾角余弦,設(shè)表示變數(shù)與之間的相關(guān)係數(shù),則128三、相似係數(shù)指數(shù)相似係數(shù)設(shè)表示變數(shù)的樣本標(biāo)準(zhǔn)差,則變數(shù)與之間的指數(shù)相似係數(shù)為:指數(shù)相似係數(shù)不受變數(shù)量綱的影響。129三、相似係數(shù)相似係數(shù)的非參數(shù)方法非參數(shù)方法主要應(yīng)用於()大於零的情況,常用的相似係數(shù)有:

130(1)

(2)(3)四、距離以及相似係數(shù)的選擇原則在進(jìn)行數(shù)值分類時(shí),應(yīng)注意相似性尺度的選擇,選擇的基本原則是:所選擇的相似性尺度在實(shí)際應(yīng)用中應(yīng)有明確的意義;根據(jù)原始數(shù)據(jù)的性質(zhì),選擇適當(dāng)?shù)淖儞Q方法,再根據(jù)不同的變換方法選擇不同的距離或相似係數(shù);適當(dāng)?shù)乜紤]計(jì)算量的大小。131第三節(jié)系統(tǒng)聚類分析本節(jié)基本內(nèi)容:一、系統(tǒng)聚類分析的基本思想和分析步驟二、常用系統(tǒng)聚類分析方法三、系統(tǒng)聚類分析方法的統(tǒng)一公式四、系統(tǒng)聚類法的性質(zhì)及類的確定132一、系統(tǒng)聚類分析的基本思想和分析步驟基本思想把個(gè)樣品看成維空間(個(gè)變數(shù))的個(gè)點(diǎn),而把每個(gè)變數(shù)看成維空間的坐標(biāo)軸,根據(jù)空間上點(diǎn)與點(diǎn)的距離來進(jìn)行分類。

133一、系統(tǒng)聚類分析的基本思想和分析步驟基本步驟在樣品距離的基礎(chǔ)上,定義類與類之間的距離;將幾個(gè)樣品自成一類,然後每次將具有最小距離的兩類合併,合併後重新計(jì)算類與類之間的距離;這個(gè)過程一直繼續(xù)到所有樣品歸為一類為止。把這個(gè)過程作成一個(gè)聚類譜系圖。134二、常用系統(tǒng)聚類分析方法最短距離法最長(zhǎng)距離法中間距離法重心法類平均法可變類平均法可變法離差平方和法135二、常用系統(tǒng)聚類分析方法最短距離法設(shè)表示樣品與之間的距離,表示類與之間的距離。最短距離法是把兩個(gè)類之間的距離定義為一個(gè)類中的所有樣品與另—個(gè)類中所有樣品之間距離中最近者。即類與之間的距離定義為:136二、常用系統(tǒng)聚類分析方法

(1)計(jì)算樣品之間的距離,得到n個(gè)樣品之間的距離矩陣為,這時(shí)每一個(gè)樣品自成一類,有,顯然該距離矩陣是一個(gè)對(duì)稱矩陣。

(2)選擇非主對(duì)角線上最小元素,設(shè)為,則將對(duì)應(yīng)的兩個(gè)樣品與合併為一個(gè)新類,記為類,即。137基本步驟二、常用系統(tǒng)聚類分析方法

(3)計(jì)算新類與其他類()之間的距離,並得到新的距離矩陣。其中新類與其他類()之間的距離為

(4)對(duì)重複進(jìn)行上述步驟,得到新的距離矩陣,對(duì)重複進(jìn)行上述步驟,得到新的距離矩陣,……,這樣一直下去,直到所有的樣品都?xì)w為一類為止。

138二、常用系統(tǒng)聚類分析方法最長(zhǎng)距離法最長(zhǎng)距離法與最短距離法在並類步驟上是完全一致的,只是在定義類與類之間的距離是相反的,類與類之間的距離定義為兩類之間所有樣品間距離最大者,即類與之間的距離為:139二、常用系統(tǒng)聚類分析方法中間距離法採(cǎi)用介於兩者之間的中間距離,即當(dāng)類與合併為一新類後,任一類()與的中間距離定義為:140二、常用系統(tǒng)聚類分析方法重心法在定義類與類的距離時(shí),把每一類中所包括的樣品數(shù)目也考慮進(jìn)去,並把兩個(gè)類重心之間的距離定義為類與類的距離,用這種距離分類的方法就稱為重心法。所謂每一類的重心就是該類樣品的均值。其中單個(gè)樣品的重心就是它本身,兩個(gè)樣品的類的重心就是兩點(diǎn)連線的中點(diǎn)。141二、常用系統(tǒng)聚類分析方法

設(shè)與合併為一新類,它們各含有、和個(gè)樣品,它們的重心分別為、和,其中

設(shè)某一類()的重心為,與新類的距離記為。若樣品間的採(cǎi)用歐氏距離,則有合併後新類與其它類距離平方的遞推公式為:142二、常用系統(tǒng)聚類分析方法類平均法不僅把每一類中所包括的樣品數(shù)目考慮進(jìn)來,而且把各樣品的資訊都充分地考慮進(jìn)來,把兩個(gè)類之間的距離平方定義為兩類元素兩兩之間距離平方的平均。143二、常用系統(tǒng)聚類分析方法

設(shè)與合併為一新類,它們各含有、和個(gè)樣品,它與的距離定義為

144二、常用系統(tǒng)聚類分析方法可變類平均法將任一類與的距離定義改為其中,是可變的,且,稱為聚集強(qiáng)度係數(shù),隨著的取值的不同,會(huì)有不同的聚類結(jié)果。一般的情況下,均取負(fù)值,絕對(duì)值越大,其擴(kuò)張性越強(qiáng),空間擴(kuò)張的性質(zhì)使分辨能力提高。145二、常用系統(tǒng)聚類分析方法可變法將任一類與的距離定義改為其中,是可變的,且,一般選取。146二、常用系統(tǒng)聚類分析方法離差平方和法基本思想:基於方差分析的思想,如果類分得合理,則同類樣品之間離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。147三、系統(tǒng)聚類分析方法的統(tǒng)一公式

設(shè)表示類與之間的平方距離,則有其中,、、分別表示、、類中的離差平方和。任一類與新類的距離遞推公式為148三、系統(tǒng)聚類分析方法的統(tǒng)一公式

由於上述聚類方法的合併類原則和步驟是完全一樣的,所不同的是類與類之間的距離公式有不同的定義,所以可得到不同的遞推公式。設(shè)與合併為一新類,當(dāng)採(cǎi)用歐氏距離時(shí),任一類與新類的距離為其中係數(shù)、、和對(duì)不同聚類方法有不同的取值。149150方法單調(diào)性說明最短距離法0

單調(diào)最長(zhǎng)距離法0單調(diào)中間距離法0非單調(diào)重心法

0非單調(diào)類平均法00單調(diào)可變法0單調(diào)可變類平均法0單調(diào)離差平方和法

0單調(diào)四、系統(tǒng)聚類法的性質(zhì)及類的確定系統(tǒng)聚類法的性質(zhì)討論單調(diào)性空間擴(kuò)張與收縮常見的分類數(shù)判斷方法適當(dāng)閾值判定數(shù)據(jù)散點(diǎn)圖直觀判斷151四、系統(tǒng)聚類法的性質(zhì)及類的確定畢爾曼(Bemirmen)1972年提出了一些根據(jù)譜系圖來分類的準(zhǔn)則。準(zhǔn)則A:任何類都必須在鄰近各類中是突出的,即各類重心之間距離必須很大。準(zhǔn)則B:確定的類中,各類所包含的元素都不要過分地多。準(zhǔn)則C:分類的數(shù)目必須符合實(shí)用目的。準(zhǔn)則D:若採(cǎi)用幾種不同的聚類方法處理,則在各自的聚類圖中應(yīng)發(fā)現(xiàn)相同的類。152譜系分類的確定第四節(jié)動(dòng)態(tài)聚類法本節(jié)基本內(nèi)容:一、動(dòng)態(tài)聚類法基本思想

二、選擇凝聚點(diǎn)和確定初始分類三、動(dòng)態(tài)聚類方法153

一、基本思想首先按照一定的方法選取一批凝聚點(diǎn),然後讓樣品向最近的凝聚點(diǎn)靠近形成初始分類。進(jìn)一步按最近距離的原則修改不合理的分類,直到分類比較合理為止,這樣就形成了一個(gè)最終的分類結(jié)果。154動(dòng)態(tài)聚類過程圖

由圖可知,動(dòng)態(tài)聚類過程主要有兩個(gè)方面:一是初始設(shè)定,包括凝聚點(diǎn)的選擇和初始分類的確定;二是動(dòng)態(tài)聚類方法,即修改初始分類,直到分類合理。155二、選擇凝聚點(diǎn)和確定初始分類選擇凝聚點(diǎn)凝聚點(diǎn)是一批有代表性的點(diǎn),待形成類的中心。通常選擇凝聚點(diǎn)的方法有:憑經(jīng)驗(yàn)選擇凝聚點(diǎn);由K類樣品的重心作為凝聚點(diǎn);用密度法選擇凝聚點(diǎn);人為規(guī)定分類數(shù),並用前個(gè)樣品作為凝聚點(diǎn)。156二、選擇凝聚點(diǎn)和確定初始分類初始分類(1)人為地分類,憑經(jīng)驗(yàn)將樣品進(jìn)行初步分類;(2)選擇一批凝聚點(diǎn)以後,每個(gè)樣品按與其距離最近的凝聚點(diǎn)歸類;(3)選擇一批凝聚點(diǎn)後,每個(gè)凝聚點(diǎn)自成一類,將樣品依次歸入與其距離最近的凝聚點(diǎn)的那一類,並立即重新計(jì)算該類的重心,以代替原來的凝聚點(diǎn),再計(jì)算下一個(gè)樣品的歸類,直至所有的樣品都劃到相應(yīng)的類中為止;(4)用其他某種聚類方法得到一個(gè)分類,這個(gè)分類就可直接作為初始分類。157二、選擇凝聚點(diǎn)和確定初始分類(5)先將數(shù)據(jù)作標(biāo)準(zhǔn)化處理,用表示已標(biāo)準(zhǔn)化後的第i個(gè)樣品關(guān)於第j個(gè)變數(shù)的觀測(cè)值。令

如欲將全部樣品分為K類,對(duì)每一個(gè)樣品計(jì)算:

假設(shè)與這個(gè)數(shù)最接近的整數(shù)為k,則將第個(gè)樣品歸入到第k類中去()。

158三、動(dòng)態(tài)聚類方法按批修改法

當(dāng)樣品全部歸類後才改變凝聚點(diǎn)?;静襟E為:選擇一批凝聚點(diǎn)(個(gè)數(shù)人為指定),並選定所用距離定義。將所有樣品按照與其距離最近的凝聚點(diǎn)歸類。計(jì)算每一類的重心,將重心作為新的凝聚點(diǎn),然後計(jì)算所有樣品與新凝聚點(diǎn)的距離,並將各個(gè)樣品歸入與新凝聚點(diǎn)距離最近的那一類別。如果某一步計(jì)算的所有新凝聚點(diǎn)與前一次的老凝聚點(diǎn)重合,則分類過程終止,否則重複這一步驟,直至分類過程終止。159三、動(dòng)態(tài)聚類方法逐個(gè)修改法每對(duì)一個(gè)樣品進(jìn)行分類後,同時(shí)改變凝聚點(diǎn)。具體步驟如下:選擇凝聚點(diǎn)和初始分類,比如取個(gè)初始凝聚點(diǎn),將個(gè)樣品初始分為K類;計(jì)算初始個(gè)類的重心,將重心作為新凝聚點(diǎn),然後計(jì)算每一個(gè)樣品與新凝聚點(diǎn)的距離,若樣品到它原來所在的類距離最近,則它仍在原類;否則,並將它歸入與凝聚點(diǎn)距離最近的那一類別,重新計(jì)算每一類的重心替代原凝聚點(diǎn)。如果某一步計(jì)算的所有新凝聚點(diǎn)與前一次的老凝聚點(diǎn)重合,則分類過程終止,否則重複這一步驟,直至分類過程終止。160第五節(jié)聚類分析應(yīng)用實(shí)例

案例一:系統(tǒng)聚類分析問題城鎮(zhèn)居民的消費(fèi)在我國(guó)居民消費(fèi)中佔(zhàn)有很高的比重,分析對(duì)比不同省市間城鎮(zhèn)居民消費(fèi)結(jié)構(gòu)的差異,有利於發(fā)現(xiàn)不同地區(qū)城鎮(zhèn)居民消費(fèi)結(jié)構(gòu)的相似點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論