應(yīng)用多元統(tǒng)計分析講稿(朱建平)_第1頁
應(yīng)用多元統(tǒng)計分析講稿(朱建平)_第2頁
應(yīng)用多元統(tǒng)計分析講稿(朱建平)_第3頁
應(yīng)用多元統(tǒng)計分析講稿(朱建平)_第4頁
應(yīng)用多元統(tǒng)計分析講稿(朱建平)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

精心整理精心整理精心整理第一章多元分析概述第一節(jié)引言多元統(tǒng)計分析是運用數(shù)理統(tǒng)計方法來研究解決多指標(biāo)問題的理論和方法。近30年來,隨著計算機應(yīng)用技術(shù)的發(fā)展和科研生產(chǎn)的迫切需要,多元統(tǒng)計分析技術(shù)被廣泛地應(yīng)用于地質(zhì)、氣象、水文、醫(yī)學(xué)、工業(yè)、農(nóng)業(yè)和經(jīng)濟等許多領(lǐng)域,已經(jīng)成為解決實際問題的有效方法。然而,隨著Internet的日益普及,各行各業(yè)都開始采用計算機及相應(yīng)的信息技術(shù)進(jìn)行管理和決策,這使得各企事業(yè)單位生成、收集、存儲和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增,大量復(fù)雜信息層出不窮。在信息爆炸的今天,人們已經(jīng)意識到數(shù)據(jù)最值錢的時代已經(jīng)到來。顯然,大量信息在給人們帶來方便的同時也帶來一系列問題。比如:信息量過大,超過了人們掌握、消化的能力;一些信息真?zhèn)坞y辯,從而給信息的正確應(yīng)用帶來困難;信息組織形式的不一致性導(dǎo)致難以對信息進(jìn)行有效統(tǒng)一處理等等,這種變化使傳統(tǒng)的數(shù)據(jù)庫技術(shù)和數(shù)據(jù)處理手段已經(jīng)不能滿足要求.Internet的迅猛發(fā)展也使得網(wǎng)絡(luò)上的各種資源信息異常豐富,在其中進(jìn)行信息的查找真如大海撈針。這樣又給多元統(tǒng)計分析理論的發(fā)展和方法的應(yīng)用提出了新的挑戰(zhàn)。多元統(tǒng)計分析起源于上世紀(jì)初,1928年Wishart發(fā)表論文《多元正態(tài)總體樣本協(xié)差陣的精確分布》,可以說是多元分析的開端。20世紀(jì)30年代R.A.Fisher、H.Hotelling、、許寶騄等人作了一系列得奠基性工作,使多元分析在理論上得到了迅速得發(fā)展。20世紀(jì)40年代在心理、教育、生物等方面有不少得應(yīng)用,但由于計算量大,使其發(fā)展受到影響,甚至停滯了相當(dāng)長得時間。20世紀(jì)50年代中期,隨著電子計算機得出現(xiàn)和發(fā)展,使多元分析方法在地質(zhì)、氣象、醫(yī)學(xué)、社會學(xué)等方面得到廣泛得應(yīng)用。20世紀(jì)60年代通過應(yīng)用和實踐又完善和發(fā)展了理論,由于新的理論、新的方法不斷涌現(xiàn)又促使它的應(yīng)用范圍更加擴大。20世紀(jì)70年代初期在我國才受到各個領(lǐng)域的極大關(guān)注,并在多元統(tǒng)計分析的理論研究和應(yīng)用上也取得了很多顯著成績,有些研究工作已達(dá)到國際水平,并已形成一支科技隊伍,活躍在各條戰(zhàn)線上。在20世紀(jì)末與本世紀(jì)初,人們獲得的數(shù)據(jù)正以前所未有的速度急劇增加,產(chǎn)生了很多超大型數(shù)據(jù)庫,遍及超級市場銷售、銀行存款、天文學(xué)、粒子物理、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計等領(lǐng)域,多元統(tǒng)計與人工智能和數(shù)據(jù)庫技術(shù)相結(jié)合,已在經(jīng)濟、商業(yè)、金融、天文等行業(yè)得到了成功的應(yīng)用。為了讓人們更好的較為系統(tǒng)地掌握多元統(tǒng)計分析的理論與方法,本書重點介紹多元正態(tài)總體的參數(shù)估計和假設(shè)檢驗以及常用的統(tǒng)計方法。這些方法包括判別分析、聚類分析、主成分分析、因子分析、對應(yīng)分析、典型相關(guān)分析、多維標(biāo)度法以及多變量的可視化分析等。與此同時,我們將利用在我國廣泛流行的SPSS統(tǒng)計軟件來實現(xiàn)實證分析,做到在理論的學(xué)習(xí)中體會應(yīng)用,在應(yīng)用的分析中加深理論。第二節(jié)應(yīng)用背景二、多元統(tǒng)計分析方法的應(yīng)用這里我們要通過一些實際的問題,解釋選擇統(tǒng)計方法和研究目的之間的關(guān)系,這些問題以及本書中的大量案例能夠使得讀者對多元統(tǒng)計分析方法在各個領(lǐng)域中的廣泛應(yīng)用有一定的了解。多元分析方法從研究問題的角度可以分為不同的類,相應(yīng)有具體解決問題的方法,參看表1.1。多元統(tǒng)計分析方法在經(jīng)濟管理、農(nóng)業(yè)、醫(yī)學(xué)、教育學(xué)、體育科學(xué)、生態(tài)學(xué)、地質(zhì)學(xué)、社會學(xué)、考古學(xué)、環(huán)境保護、軍事科學(xué)、文學(xué)等方面都有廣泛的應(yīng)用,這里我們例舉一些實際問題,進(jìn)一步了解多元統(tǒng)計分析的應(yīng)用領(lǐng)域,讓讀者從感性上加深對多元統(tǒng)計分析的認(rèn)識。問題內(nèi)容方法數(shù)據(jù)或結(jié)構(gòu)性化簡盡可能簡單地表示所研究的現(xiàn)象,但不損失很多有用的信息,并希望這種表示能夠很容易的解釋。多元回歸分析、聚類分析、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析分類和組合基于所測量到的一些特征,給出好的分組方法,對相似的對象或變量分組。判別分析、聚類分析、主成分分析、可視化分析變量之間的相關(guān)關(guān)系變量之間是否存在相關(guān)關(guān)系,相關(guān)關(guān)系又是怎樣體現(xiàn)。多元回歸、典型相關(guān)、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析預(yù)測與決策通過統(tǒng)計模型或最優(yōu)準(zhǔn)則,對未來進(jìn)行預(yù)見或判斷。多元回歸、判別分析、聚類分析、可視化分析假設(shè)的提出及檢驗檢驗由多元總體參數(shù)表示的某種統(tǒng)計假設(shè),能夠證實某種假設(shè)條件的合理性。多元總體參數(shù)估計、假設(shè)檢驗1、城鎮(zhèn)居民消費水平通常用八項指標(biāo)來描述,如人均糧食支出、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項指標(biāo)存在一定的線性關(guān)系。為了研究城鎮(zhèn)居民的消費結(jié)構(gòu),需要將相關(guān)強的指標(biāo)歸并到一起,這實際就是對指標(biāo)進(jìn)行聚類分析。2、在企業(yè)經(jīng)濟效益的評價中,涉及到的指標(biāo)往往很多,如百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值、百元固定資產(chǎn)原值實現(xiàn)利稅、百元資金實現(xiàn)利稅、百元工業(yè)總產(chǎn)值實現(xiàn)利稅、百元銷售收入實現(xiàn)利稅、每噸標(biāo)準(zhǔn)煤實現(xiàn)工業(yè)產(chǎn)值、每千瓦時電力實現(xiàn)工業(yè)產(chǎn)值、全員勞動生產(chǎn)率、百元流動資金實現(xiàn)產(chǎn)值。如何將這些具有錯綜復(fù)雜關(guān)系的指標(biāo)綜合成幾個較少的因子,既有利于對問題進(jìn)行分析和解釋,又能便于抓住主要矛盾做出科學(xué)的評價??捎弥鞒煞址治龊鸵蜃臃治龇?。3、某一產(chǎn)品是用兩種不同原料生產(chǎn)的,試問此兩種原料生產(chǎn)的產(chǎn)品壽命有無顯著差異?又比如,若考察某商業(yè)行業(yè)今年和去年的經(jīng)營狀況,這時需要看這兩年經(jīng)營指標(biāo)的平均水平是否有顯著差異以及經(jīng)營指標(biāo)之間的波動是否有顯著差異??捎枚嘣龖B(tài)總體均值向量和協(xié)差陣的假設(shè)檢驗。4、按現(xiàn)行統(tǒng)計報表制度,農(nóng)村家庭純收入是指農(nóng)村常住居民家庭總收入中扣除從事生產(chǎn)和非生產(chǎn)經(jīng)營用支出、稅款和上交承包集體任務(wù)金額以后剩余的、可直接用于進(jìn)行生產(chǎn)的、非生產(chǎn)性建設(shè)投資、生產(chǎn)性消費的那一部分收入。如果我們收集某年各個省、自治區(qū)、直轄市農(nóng)民家庭人均純收入的數(shù)據(jù),可以用相應(yīng)分析,揭示全國農(nóng)民人均純收入的特征以及各省、自治區(qū)、直轄市與各收入指標(biāo)的關(guān)系。5、某醫(yī)院已有100個分別患有胃炎、肝炎、冠心病、糖尿病等的病人資料,記錄了他們每個人若干項癥狀指標(biāo)數(shù)據(jù)。如果對于一個新的病人,當(dāng)也測得這若干項癥狀指標(biāo)時,可以利用判別分析方法判定他患的是哪種病。6、有100種酒,品嘗家可以對每兩種酒進(jìn)行品嘗對比,給出一種相近程度的得分(越相近得分越高,相差越遠(yuǎn)得分越低),希望用這些得分?jǐn)?shù)據(jù)來了解這100種酒之間的結(jié)構(gòu)關(guān)系。這樣的問題就可以用多維標(biāo)度法來解決。7、在地質(zhì)學(xué)中,常常要研究礦石中所含化學(xué)成分之間的關(guān)系。設(shè)在某礦體中采集了60個標(biāo)本,對每個標(biāo)本測得20個化學(xué)成分的含量。我們希望通過對這20個化學(xué)成分的分析,了解礦體的性質(zhì)和礦體形成的主要原因。8、對1000個類似的魚類樣本,如何根據(jù)測量的特征如體重、身長、鰭數(shù)、鰭長、頭寬等,我們可以利用聚類分析方法將這類魚分成幾個不同品種。9、考古學(xué)家對挖掘出來的人頭蓋骨的高、寬等特征來判斷是男或女,根據(jù)挖掘出的動物牙齒的有關(guān)測試指標(biāo),判別它是屬于哪一類動物牙齒、是哪一個時代的。10、在高考招生工作中,我們知道每個考生的基本情況,通過分析我們不僅可以了解到學(xué)生喜歡學(xué)習(xí)的科目,還可以進(jìn)一步從考生每門課程的成績,分析出學(xué)生的邏輯思維能力、形象思維能力和記憶力等等對學(xué)習(xí)成績的影響。第二章多元正態(tài)分布的參數(shù)估計第一節(jié)引言多元統(tǒng)計分析涉及到的都是隨機向量或多個隨機向量放在一起組成的隨機矩陣。例如在研究公司的運營情況時,要考慮公司的獲利能力、資金周轉(zhuǎn)能力、競爭能力以及償債能力等財務(wù)指標(biāo);又如在研究國家財政收入時,稅收收入、企業(yè)收入、債務(wù)收入、國家能源交通重點建設(shè)基金收入、基本建設(shè)貸款歸還收入、國家預(yù)算調(diào)節(jié)基金收入、其他收入等都是需要同時考察的指標(biāo)。顯然,如果我們只研究一個指標(biāo)或是將這些指標(biāo)割裂開分別研究,是不能從整體上把握研究問題的實質(zhì)的,解決這些問題就需要多元統(tǒng)計分析方法。為了更好的探討這些問題,本章我們首先論述有關(guān)隨機向量的基本概念和性質(zhì)。在實用中遇到的隨機向量常常是服從正態(tài)分布或近似正態(tài)分布,或雖本身不是正態(tài)分布,但它的樣本均值近似于正態(tài)分布。因此現(xiàn)實世界中許多實際問題的解決辦法都是以總體服從正態(tài)分布或近似正態(tài)分布為前提的。在多元統(tǒng)計分析中,多元正態(tài)分布占有很重要地位,本書所介紹的方法大都假定數(shù)據(jù)來之多元正態(tài)分布。為此,本章將要介紹多元正態(tài)分布的定義和有關(guān)性質(zhì)。然而在實際問題中,多元正態(tài)分布中均值向量和協(xié)差陣通常是未知的,一般的做法是由樣本來估計。這是本章討論的重要內(nèi)容之一,在此我們介紹最常見的最大似然估計法對參數(shù)進(jìn)行估計,并討論其有關(guān)的性質(zhì)。第二節(jié)基本概念一、隨機向量我們所討論的是多個變量的總體,所研究的數(shù)據(jù)是同時p個指標(biāo)(變量),又進(jìn)行了n次觀測得到的,我們把這個p指標(biāo)表示為X1,X2,L,Xp,常用向量X=(X1,X2,L,XP)'表示對同一個體觀測的p個變量。這里我們應(yīng)該強調(diào),在多元統(tǒng)計分析中,仍然將所研究對象的全體稱為總體,它是由許多(有限和無限)的個體構(gòu)成的集合,如果構(gòu)成總體的個體是具有p個需要觀測指標(biāo)的個體,我們稱這樣的總體為p維總體(或p元總體)。上面的表示便于人們用數(shù)學(xué)方法去研究p維總體的特性。這里“維”(或“元”)的概念,表示共有幾個分量。若觀測了n個個體,則可得到如表2.1的數(shù)據(jù),稱每一個個體的p個變量為一個樣品,而全體n個樣品組成一個樣本。表2.1數(shù)據(jù)變量序號12在這里橫看表2.1,記為,表示第個樣品的觀測值。豎看表2.1,第列的元素,表示對第個變量的次觀測數(shù)值。因此,表2.1所反映出的樣本資料可用矩陣表示為(2.1)簡記為X。定義2.1將個隨機變量的整體稱為維隨機向量,記為。在對隨機向量的研究仍然限于討論離散型和連續(xù)型兩類隨機向量。二、多元分布先回顧一下一元統(tǒng)計中分布函數(shù)和密度函數(shù)的定義。設(shè)是一個隨機變量,稱為的概率分布函數(shù)或簡稱為分布函數(shù),記為。若隨機變量在有限或可列個值上取值,記,且,則稱為離散型隨機變量,稱,為的概率分布。設(shè),若存在一個非負(fù)函數(shù),使得一切實數(shù)有:,則稱為的分布密度函數(shù),簡稱為密度函數(shù)。一個函數(shù)能作為某個隨機變量的分布密度函數(shù)的重要條件是:(1),對一切實數(shù);(2)。定義2.2設(shè)是維隨機向量,它的多元分布函數(shù)定義為(2.2)記為,其中,表示維歐氏空間。多維隨機向量的統(tǒng)計特性可用它的分布函數(shù)來完整地描述。定義2.3設(shè)是維隨機向量,若存在有限個或可列個維數(shù)向量,記,且滿足,則稱為離散型隨機向量,稱,為的概率分布。設(shè),若存在一個非負(fù)函數(shù),使得對一切有(2.3)則稱為連續(xù)型隨機變量,稱為分布密度函數(shù),簡稱為密度函數(shù)或分布密度。一個元函數(shù)能作為中某個隨機向量的密度函數(shù)的主要條件是:(1),;(2)離散型隨機向量的統(tǒng)計性質(zhì)可由它的概率分布完全確定,連續(xù)型隨機向量的統(tǒng)計性質(zhì)可由它的分布密度完全確定?!纠?.1】試證函數(shù)為隨機向量密度函數(shù)。證:只要驗證滿足密度函數(shù)兩個條件即可(1)顯然,當(dāng)時有(2)定義2.4設(shè)是維隨機向量,稱由它的個分量組成的子向量的分布為的邊緣(或邊際)分布,相對地把的分布稱為聯(lián)合分布。通過變換中各分量的次序,總可假定正好是的前個分量,其余個分量為,則,相應(yīng)的取值也可分為兩部分。當(dāng)?shù)姆植己瘮?shù)是時,的分布函數(shù)即邊緣分布函數(shù)為:當(dāng)有分布密度時(亦稱聯(lián)合分布密度函數(shù)),則也有分布密度,即邊緣密度函數(shù)為:【例2.2】對例2.1中的求邊緣密度函數(shù)。解:同理定義2.5若個隨機變量的聯(lián)合分布等于各自的邊緣分布的乘積,則稱是相互獨立的。【例2.3】問例2.2中的與是否相互獨立?解:由于,故與相互獨立。這里我們應(yīng)該注意,由相互獨立,可推知任何與獨立,但反之不真。定義2.6設(shè),若存在且有限,則稱為的均值(向量)或數(shù)學(xué)期望,有時也把和分別記為和,即,容易推得均值(向量)具有以下性質(zhì):(1)(2)(3)其中,、為隨機向量,、為大小適合運算的常數(shù)矩陣。定義2.7設(shè),,稱(2.4)為的方差或協(xié)差陣,有時把簡記為,簡記為,從而有;稱隨機向量和的協(xié)差陣為(2.5)當(dāng)時,即為。若,則稱和不相關(guān),由和相互獨立易推得,即和不相關(guān);但反過來,當(dāng)和不相關(guān)時,一般不能推知它們獨立。當(dāng)、為常數(shù)矩陣時,由定義可以推出協(xié)方差陣有如下性質(zhì):(1)對于常數(shù)向量,有(2)(3)(4)設(shè)為維隨機向量,期望和協(xié)方差存在,記,,為常數(shù)陣,則這里我們應(yīng)該注意到,對于任何的隨機向量來說,其協(xié)差陣都是對稱陣,同時總是非負(fù)定(半正定)的。大多數(shù)情況是正定的。若的協(xié)差陣存在,且每個分量的方差大于零,則稱隨機向量的相關(guān)陣為,其中(2.6)為與的相關(guān)系數(shù)。在數(shù)據(jù)處理時,為了克服由于指標(biāo)的量綱不同對統(tǒng)計分析結(jié)果帶來的影響,往往在使用各種統(tǒng)計分析之前,常需要將每個指標(biāo)“標(biāo)準(zhǔn)化”,即進(jìn)行如下變換,(2.7)那么由(2.7)構(gòu)成的隨機向量。令,,有:那么,標(biāo)準(zhǔn)化后的隨機向量均值和協(xié)差陣分別為即標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)差陣正好是原指標(biāo)的相關(guān)陣。第三節(jié)多元正態(tài)分布一、多元正態(tài)分布的定義我們先來回顧一元正態(tài)分布的密度函數(shù),即為上式可以改寫為(2.8)由于(2.8)式中的,均為一維的數(shù)字,可以用代表的轉(zhuǎn)置。根據(jù)上面的表述形式,我們可以將其推廣,給出多元正態(tài)分布的定義。定義2.8若維隨機向量的密度函數(shù)為:(2.9)其中,是維隨機向量,是階正定陣,則稱服從元正態(tài)分布,也稱為維正態(tài)隨機向量,簡記為,顯然當(dāng)時,即為一元正態(tài)分布密度函數(shù)??梢宰C明為的均值(向量),為的協(xié)差陣。這里我們應(yīng)該提及的是,當(dāng)時,不存在,也就不存在通常意義下的密度函數(shù),然而可以形式的給出一個表達(dá)式,是的有些問題可以利用這一形式對及的情況給出一個統(tǒng)一的處理。當(dāng)時,設(shè)服從二元正態(tài)分布,則,這里,分別是與的方差,是與的相關(guān)系數(shù)。即有故與的密度函數(shù)為對于,那么與是相互獨立的;若,則與趨于正相關(guān);若,則與趨于負(fù)相關(guān)。定理2.1設(shè),則有,。關(guān)于這個定理的證明可以參考文獻(xiàn)[1],該定理將多元正態(tài)分布的參數(shù)和賦予了明確的統(tǒng)計意義。這里我們需要明確的是,多元正態(tài)分布的定義不止是一種,更廣泛的可以采用特征函數(shù)來定義,也可以用一切線性組合均為正態(tài)的性質(zhì)來定義。二、多元正態(tài)分布的性質(zhì)在討論多元統(tǒng)計分析的理論和方法時,經(jīng)常用到多元正態(tài)變量的某些性質(zhì),利用這些性質(zhì)可使得正態(tài)分布的處理變得容易一些。1.若,是對角陣,則相互獨立。2.若,為階常數(shù)陣,為維常數(shù)向量,則即正態(tài)隨機向量的線性函數(shù)還是正態(tài)的。3.若,將,,作如下剖分則,。這里需要指出的是:第一,多元正態(tài)分布的任何邊緣分布為正態(tài)分布,但反之不真。第二,由于,故表示和不相關(guān),因此可知,對于多元正態(tài)變量而言,和的不相關(guān)與獨立是等價的?!纠?.4】若其中,設(shè),,則(1)其中(2)其中(3)記則其中在此我們應(yīng)該注意到,如果服從元正態(tài)分布,則它的每個分量必服從一元正態(tài)分布,因此把某個分量的個樣品值作成直方圖,如果斷定不呈正態(tài)分布,則就可以斷定隨機向量也不可能服從元正態(tài)分布。第四節(jié)多元正態(tài)分布的參數(shù)估計一、多元樣本的數(shù)字特征設(shè)樣本資料可用矩陣表示為在這里我們給出樣本均值向量、樣本離差陣、樣本協(xié)差陣以及樣本相關(guān)陣的定義。定義2.9設(shè)為來自元總體的樣本,其中,。樣本均值向量定義為其中(2)樣本離差陣定義為(2.11)這里,(3)樣本協(xié)差陣定義為(2.12)這里,(4)樣本相關(guān)陣定義為(2.13)其中在此,我們應(yīng)該提及的是,樣本均值向量和離差陣也可用樣本資料陣直接表示如下:其中由于那么,(2.11)式可以表示為:(2.14)其中二、均值向量與協(xié)差陣的最大似然估計多元正態(tài)分布有兩組參數(shù),均值和協(xié)差陣,在許多問題中它們是未知的,需要通過樣本來估計。那么,通過樣本來估計總體的參數(shù)叫做參數(shù)估計,參數(shù)估計的原則和方法是很多的,這里用最常見的且具有很多優(yōu)良性質(zhì)的最大似然法給出和的估計量。設(shè)來自正態(tài)總體容量為的樣本,每個樣品,,樣本資料陣為(2.1)式表示,即則可由最大似然法求出和的估計量,即有,(2.15)實際上,最大似然法求估計量可以這樣得到。針對來自正態(tài)總體容量為的樣本,構(gòu)造似然函數(shù),即(2.16)為了求出使(2.16)式取極值的和的值,將(2.16)兩邊取對數(shù),即(2.17)因為對數(shù)函數(shù)是一個嚴(yán)格單調(diào)增函數(shù),所以可以通過對的極大值而得到和的估計量。這里我們要注意到,根據(jù)矩陣代數(shù)理論,對于實對稱矩陣,有,,。那么,針對對數(shù)似然函數(shù)(2.17)分別對和求偏導(dǎo)數(shù),則有(2.18)由(2.18)式可以得到極大似然估計量分別為由此可見,多元正態(tài)總體的均值向量的極大似然估計量就是樣本均值向量,其協(xié)差陣的極大似然估計就是樣本協(xié)差陣。和的估計量有如下基本性質(zhì):1.,即是的無偏估計;,即不是的無偏估計,而,即是的無偏估計;2.,分別是,的有效估計;3.,(或)分別是,的一致估計(相合估計)。樣本均值向量和樣本離差陣在多元統(tǒng)計推斷中具有十分重要的作用,并有如下結(jié)論:定理2.2設(shè)和分別是正態(tài)總體的樣本均值向量和離差陣,則1.;2.離差陣可以寫為其中,獨立同分布于;3.和相互獨立;4.為正定陣的充要條件是。三、Wishart分布在實際應(yīng)用中,常采用和來估計和,前面已指出,均值向量的分布仍為正態(tài)分布,而離差陣的分布又是什么呢?為此給出維希特(Wishart)分布,并指出它是一元分布的推廣,也是構(gòu)成其它重要分布的基礎(chǔ)。Wishart分布是Wishart在1928年推導(dǎo)出來的,而該分布的名稱也即由此得來。定義2.10設(shè),且相互獨立,則由組成的隨機矩陣:(2.19)的分布稱為非中心Wishart分布,記為。其中,稱為非中心參數(shù);當(dāng)時稱為中心Wishart分布,記為,當(dāng),,有密度存在,其表達(dá)式為:(2.20)顯然,當(dāng),時,就是的分布密度,此時(2.19)式為,有。因此,Wishart分布是分布在維正態(tài)情況下的推廣。下面給出Wishart分布的基本性質(zhì):1.若,且相互獨立,則樣本離差陣,其中。2.若,,且相互獨立,則。3.若,為非奇異陣,則。這里我們有必要說明一下什么是隨機矩陣的分布。隨機矩陣的分布有不同的定義,此處是利用已知向量分布的定義給出矩陣分布的定義。這里我們有必要說明一下什么是隨機矩陣的分布。隨機矩陣的分布有不同的定義,此處是利用已知向量分布的定義給出矩陣分布的定義。設(shè)隨機矩陣將該矩陣的列向量(或行向量)一個接一個地連接起來,組成一個長的向量,即拉直向量:的分布定義為該陣的分布。若為對稱陣時,由于,,故只取其下三角部分組成的拉直向量,即。第三章多元正態(tài)分布均值向量和協(xié)差陣的檢驗第一節(jié)引言在單一變量的統(tǒng)計分析中,已經(jīng)給出了正態(tài)總體N(?,?2)的均值?和方差?2的各種檢驗。對于多變量的正態(tài)總體Np(?,∑),各種實際問題同樣要求對?和∑進(jìn)行統(tǒng)計推斷。例如,我們要考察全國各省、自治區(qū)和直轄市的社會經(jīng)濟發(fā)展?fàn)顩r,與全國平均水平相比較有無顯著性差異等,就涉及到多元正態(tài)總體均值向量的檢驗問題等。本章類似單一變量統(tǒng)計分析中的各種均值和方差的檢驗,相應(yīng)地給出多元統(tǒng)計分析中的各種均值向量和協(xié)差陣的檢驗。其基本思想和步驟均可歸納為:第一,提出待檢驗的假設(shè)H0和H1; 第二,給出檢驗的統(tǒng)計量及其服從的分布; 第三,給定檢驗水平,查統(tǒng)計量的分布表,確定相應(yīng)的臨界值,從而得到否定域; 第四,根據(jù)樣本觀測值計算出統(tǒng)計量的值,看是否落入否定域中,以便對待判假設(shè)做出決策(拒絕或接受)。在檢驗的過程中,關(guān)鍵在于對不同的檢驗給出不同的統(tǒng)計量,而有關(guān)統(tǒng)計量的給出大多用似然比方法得到。由于多變量問題的復(fù)雜性,本章只側(cè)重于解釋選取統(tǒng)計量的合理性,而不給出推導(dǎo)過程,最后給出幾個實例。為了更好的說明檢驗過程中統(tǒng)計量的分布,本章還要介紹HotellingT2分布和Wilks分布的定義。第二節(jié)均值向量的檢驗一、單一變量檢驗的回顧及HotellingT2分布為了對多元正態(tài)總體均值向量作檢驗,首先需要給出HotellingT2分布的定義。在單一變量的檢驗問題中,設(shè)來自總體的樣本,我們要檢驗假設(shè)當(dāng)已知時,用統(tǒng)計量(3.1)其中,為樣本均值。當(dāng)假設(shè)成立時,統(tǒng)計量服從正態(tài)分布,從而否定域為,為的上分位點。當(dāng)未知時,用(3.2)作為的估計量,用統(tǒng)計量:(3.3)來做檢驗。當(dāng)假設(shè)成立時,統(tǒng)計量服從自由度為的分布,從而否定域為,為自由度為的分布上的分位點。這里我們應(yīng)該注意到,(3.3)式可以表示為(3.4)對于多元變量而言,可以將分布推廣為下面將要介紹的Hotelling分布。定義3.1設(shè),且與相互獨立,,則稱統(tǒng)計量的分布為非中心HotellingT2分布,記為。當(dāng)時,稱服從(中心)Hotelling分布。記為。由于這一統(tǒng)計量的分布首先由HaroldHotelling提出來的,故稱為Hotelling分布,值得指出的是,我國著名統(tǒng)計學(xué)家許寶祿先生在1938年用不同方法也導(dǎo)出分布的密度函數(shù),因表達(dá)式很復(fù)雜,故略去。在單一變量統(tǒng)計分析中,若統(tǒng)計量分布,則分布,即把分布的統(tǒng)計量轉(zhuǎn)化為統(tǒng)計量來處理,在多元統(tǒng)計分析中統(tǒng)計量也具有類似的性質(zhì)。定理3.1若,且與相互獨立,令,則(3.5)在我們后面所介紹的檢驗問題中,經(jīng)常會用到這一性質(zhì)。設(shè)是來自維正態(tài)總體的樣本,且,。協(xié)差陣已知時均值向量的檢驗(為已知向量)假設(shè)成立,檢驗統(tǒng)計量為(3.6)給定檢驗水平,查分布表使,可確定出臨界值,再用樣本值計算出,若,則否定,否則接受。這里要對統(tǒng)計量的選取做一些解釋,為什么該統(tǒng)計量服從分布。根據(jù)二次型分布定理知道,若,則。顯然,其中,,因此,(二)協(xié)差陣未知時均值向量的檢驗(為已知向量)假設(shè)成立,檢驗統(tǒng)計量為(3.7)其中,給定檢驗水平,查分布表,使,可確定出臨界值,再用樣本值計算出,若,則否定,否則接受。這里需要解釋的是,當(dāng)未知時,自然想到要用樣本協(xié)差陣取代替,因是的無偏估計量,而樣本離差陣由定義3.1知再根據(jù)Hotelling分布的性質(zhì),所以在處理實際問題時,單一變量的檢驗和多變量檢驗可以聯(lián)合使用,多元的檢驗具有概括和全面考察的特點,而一元的檢驗容易發(fā)現(xiàn)各變量之間的關(guān)系和差異,能給人們提供更多的統(tǒng)計分析信息。三、兩個正態(tài)總體均值向量的檢驗(一)當(dāng)協(xié)差陣相等時,兩個正態(tài)總體均值向量的檢驗設(shè),,為來自維正態(tài)總體的容量為的樣本;,,為來自維正態(tài)總體的容量為的樣本。兩組樣本相互獨立,,且,。1.針對有共同已知協(xié)差陣的情形對假設(shè)進(jìn)行檢驗。對此問題,假設(shè)成立時,所構(gòu)造的檢驗統(tǒng)計量為(3.8)給出檢驗水平,查分布表使,可確定出臨界值,再用樣本值計算出,若,則否定,否則接受。這里,我們應(yīng)該注意到,在單一變量統(tǒng)計中進(jìn)行均值相等檢驗所給出的統(tǒng)計量為顯然此式恰為上邊統(tǒng)計量當(dāng)時的情況,不難看出這里給出的檢驗統(tǒng)計量是單一變量檢驗情況的推廣。2.針對有共同的未知協(xié)差陣的情形對假設(shè)進(jìn)行檢驗。對此問題,假設(shè)成立時,所構(gòu)造的檢驗統(tǒng)計量為(3.9)其中,,,給定檢驗水平,查分布表,使,可確定出臨界值,再用樣本值計算出,若,則否定,否則接受。這里我們需要解釋的是,當(dāng)兩個總體的協(xié)差陣未知時,自然想到用每個總體的樣本協(xié)差陣和去代替,而從而。又由于所以下述假設(shè)檢驗統(tǒng)計量的選取和前邊統(tǒng)計量的選取思路是一樣的,以下只提出待檢驗的假設(shè),然后給出統(tǒng)計量及其分布,為節(jié)省篇幅,不做重復(fù)解釋。(二)協(xié)差陣不等時,兩個正態(tài)總體均值向量的檢驗設(shè)從兩個總體和中,分別抽取兩個樣本,即,;,,其容量分別為和,且兩組樣本相互獨立,,,。對假設(shè)進(jìn)行檢驗。1.針對的情形令假設(shè)成立時,構(gòu)造檢驗統(tǒng)計量為(3.10)2.針對的情形在此,我們不妨假設(shè),令假設(shè)成立時,構(gòu)造檢驗統(tǒng)計量為四、多個正態(tài)總體均值向量的檢驗解決多個正態(tài)總體均值向量的檢驗問題,實際上應(yīng)用到多元方差分析的知識。多元方差分析是單因素方差分析直接的推廣。為了容易理解多元方差分析方法,我們有必要先回顧單因素方差分析方法。(一)單因素方差分析的基本思想及Wilks分布設(shè)個正態(tài)總體分別為,,從個總體取個獨立樣本如下:假設(shè)成立時,構(gòu)造檢驗統(tǒng)計量為(3.11)這里稱為組間平方和;稱為組內(nèi)平方和;稱為總平方和。其中給定檢驗水平,查分布表,使,可確定出臨界值,再用樣本值計算出值,若,則否定,否則接受。定義3.2若,則稱協(xié)差陣的行列式為的廣義方差。稱為樣本廣義方差。其中。定義3.3若,,且和相互獨立,則稱為Wilks統(tǒng)計量,的分布稱為Wilks分布,簡記為,其中為自由度。這里我們需要說明的是,在實際應(yīng)用中經(jīng)常把統(tǒng)計量化為統(tǒng)計量進(jìn)而化為統(tǒng)計量,利用統(tǒng)計量來解決多元統(tǒng)計分析中有關(guān)檢驗問題。表3.1列舉常見的一些情形。表3.1與統(tǒng)計量的關(guān)系統(tǒng)計量及分別任意任意1任意任意21任意任意2任意任意以上幾個關(guān)系式說明對一些特殊的統(tǒng)計量可以化為統(tǒng)計量,而當(dāng),時,可用統(tǒng)計量或統(tǒng)計量來近似表示,后面給出。(二)多元方差分析法設(shè)有個維正態(tài)總體,,從每個總體抽取獨立樣本個數(shù)分別為,,每個樣品觀測個指標(biāo)得觀測數(shù)據(jù)如下:第一個總體:,第二個總體:,………………第個總體:,全部樣品的總均值向量:各總體樣品的均值向量:,此處類似一元方差分析辦法,將諸平方和變成了離差陣即:這里,我們稱為組間離差陣;為組內(nèi)離差陣;為總離差陣。很顯然有。我們的問題是檢驗假設(shè)用似然比原則構(gòu)成的檢驗統(tǒng)計量為(3.13)給定檢驗水平,查Wilks分布表,確定臨界值,然后作出統(tǒng)計判斷。在這里我們特別要注意,Wilks分布表可用分布或分布來近似。巴特萊特(Bartlett)提出了用分布來近似。設(shè),令(3.14)則近似服從分布。其中,。Rao后來又研究用分布來近似。設(shè),令(3.15)則近似服從,這里不一定為整數(shù),可用與它最近的整數(shù)來作為的自由度,且。其中,第三節(jié)協(xié)差陣的檢驗一、一個正態(tài)總體協(xié)差陣的檢驗設(shè)來自維正態(tài)總體的樣本,未知,且。首先,我們考慮檢驗假設(shè)所構(gòu)造的檢驗統(tǒng)計量為(3.16)其中然后,我們考慮檢驗假設(shè)因為,所以存在(),使得。令則因此,檢驗等價于檢驗此時構(gòu)造檢驗統(tǒng)計量為(3.17)其中給定檢驗水平,因為直接由分布計算臨界值很困難,所以通常采用的近似分布。在成立時,極限分布是分布。因此當(dāng),由樣本值計算出值,若即,則拒絕,否則接受。設(shè)有個正態(tài)總體分別為,,且未知,。從個總體分別取個樣本;這里為總樣本容量。我們考慮檢驗假設(shè)構(gòu)造檢驗統(tǒng)計量為(3.18)其中巴特萊特(Bartlett)建議,將改為,從而變?yōu)椋儞Q以后的記為,稱為修正的統(tǒng)計量,則近似分布。其中第四章判別分析第一節(jié)引言在我們的日常生活和工作實踐中,常常會遇到判別分析問題,即根據(jù)歷史上劃分類別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個新的樣本歸屬哪一類。例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個患者若干項癥狀指標(biāo)數(shù)據(jù)。現(xiàn)在想利用現(xiàn)有的這些資料找出一種方法,使得對于一個新的病人,當(dāng)測得這些癥狀指標(biāo)數(shù)據(jù)時,能夠判定其患有哪種病。又如,在天氣預(yù)報中,我們有一段較長時間關(guān)于某地區(qū)每天氣象的記錄資料(晴陰雨、氣溫、氣壓、濕度等),現(xiàn)在想建立一種用連續(xù)五天的氣象資料來預(yù)報第六天是什么天氣的方法。這些問題都可以應(yīng)用判別分析方法予以解決。把這類問題用數(shù)學(xué)語言來表達(dá),可以敘述如下:設(shè)有n個樣本,對每個樣本測得p項指標(biāo)(變量)的數(shù)據(jù),已知每個樣本屬于k個類別(或總體)G1,G2,…,Gk中的某一類,且它們的分布函數(shù)分別為F1(x),F(xiàn)2(x),…,F(xiàn)k(x)。我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來,并對測得同樣p項指標(biāo)(變量)數(shù)據(jù)的一個新樣本,能判定這個樣本歸屬于哪一類。判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分,有兩個總體判別分析和多總體判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;按判別時所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、Fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,按判別準(zhǔn)則的不同又提出多種判別方法。本章僅介紹常用的幾種判別分析方法:距離判別法、Fisher判別法、Bayes判別法和逐步判別法。第二節(jié)距離判別法一、馬氏距離的概念設(shè)維歐氏空間中的兩點和,通常我們所說的兩點之間的距離,是指歐氏距離,即(4.1)在解決實際問題時,特別是針對多元數(shù)據(jù)的分析問題,歐氏距離就顯示出了它的薄弱環(huán)節(jié)。第一、設(shè)有兩個正態(tài)總體,~和~,現(xiàn)有一個樣品位于如圖4.1所示的點,距總體的中心遠(yuǎn),距總體的中心遠(yuǎn),那么,點處的樣品到底離哪一個總體近呢?若按歐氏距離來量度,點離總體要比離總體“近一些”。但是,從概率的角度看,點位于右側(cè)的處,而位于左側(cè)處,應(yīng)該認(rèn)為點離總體“近一些”。顯然,后一種量度更合理些。第二、設(shè)有量度重量和長度的兩個變量與,以單位分別為kg和cm得到樣本,,,。今按照歐氏距離計算,有;如果我們將長度單位變?yōu)閙m,那么,有;量綱的變化,將影響歐氏距離計算的結(jié)果。為此,我們引入一種由印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(Mahalanobis,1936)提出的“馬氏距離”的概念。設(shè)和是來自均值向量為,協(xié)方差為的總體中的維樣本,則總體內(nèi)兩點與之間的馬氏距離定義為(4.2)定義點到總體的馬氏距離為(4.3)這里應(yīng)該注意到,當(dāng)(單位矩陣)時,即為歐氏距離的情形。二、距離判別的思想及方法1、兩個總體的距離判別問題問題:設(shè)有協(xié)方差矩陣∑相等的兩個總體G1和G2,其均值分別是?1和?2,對于一個新的樣品X,要判斷它來自哪個總體。一般的想法是計算新樣品X到兩個總體的馬氏距離D2(X,G1)和D2(X,G2),并按照如下的判別規(guī)則進(jìn)行判斷(4.4)這個判別規(guī)則的等價描述為:求新樣品X到G1的距離與到G2的距離之差,如果其值為正,X屬于G2;否則X屬于G1。我們考慮其中是兩個總體均值的平均值,,記(4.5)則判別規(guī)則(4.4)式可表示為(4.6)這里稱為兩總體距離判別的判別函數(shù),由于它是的線性函數(shù),故又稱為線性判別函數(shù),稱為判別系數(shù)。在實際應(yīng)用中,總體的均值和協(xié)方差矩陣一般是未知的,可由樣本均值和樣本協(xié)方差矩陣分別進(jìn)行估計。設(shè)來自總體的樣本,是來自總體的樣本,和的一個無偏估計分別為和的一個聯(lián)合無偏估計為這里此時,兩總體距離判別的判別函數(shù)為其中,。這樣,判別規(guī)則為(4.7)這里我們應(yīng)該注意到:(1)當(dāng),和的分布分別為和時,均為已知,且,則判別系數(shù)為,判別函數(shù)為判別規(guī)則為(2)當(dāng),時,我們采用(4.4)式作為判別規(guī)則的形式。選擇判別函數(shù)為它是的二次函數(shù),相應(yīng)的判別規(guī)則為2、多個總體的距離判別問題問題:設(shè)有個總體,其均值和協(xié)方差矩陣分別是和,而且。對于一個新的樣品,要判斷它來自哪個總體。該問題與兩個總體的距離判別問題的解決思想一樣。計算新樣品到每一個總體的距離,即4.8)這里,,。由(4.8)式,可以取線性判別函數(shù)為,相應(yīng)的判別規(guī)則為如果(4.9)針對實際問題,當(dāng)和均未知時,可以通過相應(yīng)的樣本值來替代。設(shè)是來自總體中的樣本(),則()和可估計為,和,其中同樣,我們注意到,如果總體的協(xié)方差矩陣分別是,而且它們不全相等,則計算到各總體的馬氏距離,即則判別規(guī)則為如果(4.10)當(dāng)和均未知時,()的估計同前,()的估計為,三、判別分析的實質(zhì)我們知道,判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來。為了更清楚的認(rèn)識判別分析的實質(zhì),以便能靈活的應(yīng)用判別分析方法解決實際問題,我們有必要了解“劃分”這樣概念。設(shè)R1,R2,…,Rk是p維空間Rp的k個子集,如果它們互不相交,且它們的和集為Rp,則稱R1,R2,…,Rk為Rp的一個劃分。在兩個總體的距離判別問題中,利用可以得到空間的一個劃分(4.11)新的樣品落入推斷,落入推斷這樣我們將會發(fā)現(xiàn),判別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對p維空間Rp構(gòu)造一個“劃分”,這個“劃分”就構(gòu)成了一個判別規(guī)則。這一思想將在后面的各節(jié)中體現(xiàn)的更加清楚。第三節(jié)貝葉斯(Bayes)判別法從上節(jié)看距離判別法雖然簡單,便于使用。但是該方法也有它明顯的不足之處。 第一,判別方法與總體各自出現(xiàn)的概率的大小無關(guān); 第二,判別方法與錯判之后所造成的損失無關(guān)。Bayes判別法就是為了解決這些問題而提出的一種判別方法。一、Bayes判別的基本思想問題:設(shè)有個總體,其各自的分布密度函數(shù)互不相同的,假設(shè)個總體各自出現(xiàn)的概率分別為(先驗概率),,。假設(shè)已知若將本來屬于總體的樣品錯判到總體時造成的損失為,。在這樣的情形下,對于新的樣品判斷其來自哪個總體。下面我們對這一問題進(jìn)行分析。首先應(yīng)該清楚、,對于任意的成立。設(shè)個總體相應(yīng)的維樣本空間為,即為一個劃分,故我們可以簡記一個判別規(guī)則為。從描述平均損失的角度出發(fā),如果原來屬于總體且分布密度為的樣品,正好取值落入了,我們就將會錯判為屬于。故在規(guī)則下,將屬于的樣品錯判為的概率為如果實屬的樣品,錯判到其它總體所造成的損失為,則這種判別規(guī)則對總體而言,樣品錯判后所造成的平均損失為其中由于個總體出現(xiàn)的先驗概率分別為,則用規(guī)則來進(jìn)行判別所造成的總平均損失為(4.12)所謂Bayes判別法則,就是要選擇,使得(4.12)式表示的總平均損失達(dá)到極小。二、Bayes判別的基本方法設(shè)每一個總體的分布密度為,,來自總體的樣品被錯判為來自總體()時所造成的損失記為,并且。那么,對于判別規(guī)則產(chǎn)生的誤判概率記為,有如果已知樣品X來自總體Gi的先驗概率為qi,則在規(guī)則R下,由(4.12)式知,誤判的總平均損失為(4.13)令,那么,(4.13)式為如果空間有另一種劃分,則它的總平均損失為那么,在兩種劃分下的總平均損失之差為(4.14)由的定義,在上對一切成立,故(4.14)式小于或等于零,這說明確能使總平均損失達(dá)到極小,它是Bayes判別的解。這樣,我們以Bayes判別的思想得到的劃分為(4.15)具體說來,當(dāng)抽取了一個未知總體的樣本值,要判斷它屬于哪個總體,只要前計算出個按先驗分布加權(quán)的誤判平均損失(4.16)然后比較這個誤判平均損失的大小,選取其中最小的,則判定樣品來自該總體。這里我們看一個特殊情形,當(dāng)時,由(4.16)式得從而若令,則判別規(guī)則可表示為(4.17)如果在此,與分別為和,那么其中由(4.5)所定義。于是,判定樣品來自該總體時,判別規(guī)則(4.17)成(4.18)對比判別規(guī)則(4.6),唯一的差別僅在于閾值點,(4.6)用0作為閾值點,而這里用。當(dāng),時,,,則(4.6)與(4.18)完全一致。第四節(jié)費歇(Fisher)判別法Fisher判別法是1936年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個方向上,投影的原則是將總體與總體之間盡可能的放開,然后再選擇合適的判別規(guī)則,將新的樣品進(jìn)行分類判別。一、Fisher判別的基本思想從個總體中抽取具有個指標(biāo)的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù)(4.19)其中系數(shù)確定的原則是使得總體之間區(qū)別最大,而使每個總體內(nèi)部的離差最小。有了線性判別函數(shù)后,對于一個新的樣品,將它的個指標(biāo)值代入線性判別函數(shù)(4.19)式中求出值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個總體。二、Fisher判別函數(shù)的構(gòu)造 1、針對兩個總體的情形假設(shè)有兩個總體,其均值分別為和,協(xié)方差矩陣為和。當(dāng)時,我們可以求出的均值和方差,即,,在求線性判別函數(shù)時,盡量使得總體之間差異大,也就是要求盡可能的大,即變大;同時要求每一個總體內(nèi)的離差平方和最小,即,則我們可以建立一個目標(biāo)函數(shù)(4.20)這樣,將問題轉(zhuǎn)化為,尋找使得目標(biāo)函數(shù)達(dá)到最大。從而可以構(gòu)造出所要求的線性判別函數(shù)。 2、針對多個總體的情形假設(shè)有個總體,其均值和協(xié)方差矩陣分別為和()。同樣,我們考慮線性判別函數(shù),在的條件下,有令其中,。這里相當(dāng)于一元方差分析中的組間差相當(dāng)于組內(nèi)差,應(yīng)用方差分析的思想,選擇使得目標(biāo)函數(shù)(4.21)達(dá)到極大。這里我們應(yīng)該說明的是,如果我們得到線性判別函數(shù),對于一個新的樣品可以這樣構(gòu)造一個判別規(guī)則,如果(4.22)則判定來自總體。三、線性判別函數(shù)的求法針對多個總體的情形,我們討論使目標(biāo)函數(shù)(4.21)式達(dá)到極大的求法。設(shè)為維空間的樣品,那么其中注意到從而這里,,為的單位陣,。即有(4.23)求使得(4.23)式達(dá)到極大的。為了確保解的唯一性,不妨設(shè),這樣問題轉(zhuǎn)化為,在的條件下,求使得式達(dá)到極大??紤]目標(biāo)函數(shù)(4.24)對(4.24)式求導(dǎo),有對(4.25)式兩邊同乘,有從而,的極大值為。再用左乘(4.25)式,有(4.27)由(4.27)式說明為特征值,為的特征向量。在此最大特征值所對應(yīng)的特征向量為我們所求結(jié)果。這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。為了避免用較多的數(shù)學(xué)知識或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。在解決實際問題時,當(dāng)總體參數(shù)未知,需要通過樣本來估計,我們僅對的情形加以說明。設(shè)樣本分別為和,則那么當(dāng)和均未知時,()的估計同前,()的估計為,第五章聚類分析第一節(jié)引言“物以類聚,人以群分”。對事物進(jìn)行分類,是人們認(rèn)識事物的出發(fā)點,也是人們認(rèn)識世界的一種重要方法。因此,分類學(xué)已成為人們認(rèn)識世界的一門基礎(chǔ)科學(xué)。在生物、經(jīng)濟、社會、人口等領(lǐng)域的研究中,存在著大量量化分類研究。例如:在生物學(xué)中,為了研究生物的演變,生物學(xué)家需要根據(jù)各種生物不同的特征對生物進(jìn)行分類。在經(jīng)濟研究中,為了研究不同地區(qū)城鎮(zhèn)居民生活中的收入和消費情況,往往需要劃分不同的類型去研究。在地質(zhì)學(xué)中,為了研究礦物勘探,需要根據(jù)各種礦石的化學(xué)和物理性質(zhì)和所含化學(xué)成分把它們歸于不同的礦石類。在人口學(xué)研究中,需要構(gòu)造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規(guī)律。但歷史上這些分類方法多半是人們主要依靠經(jīng)驗作定性分類,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系;特別是對于多因素、多指標(biāo)的分類問題,定性分類的準(zhǔn)確性不好把握。為了克服定性分類存在的不足,人們把數(shù)學(xué)方法引入分類中,形成了數(shù)值分類學(xué)。后來隨著多元統(tǒng)計分析的發(fā)展,從數(shù)值分類學(xué)中逐漸分離出了聚類分析方法。隨著計算機技術(shù)的不斷發(fā)展,利用數(shù)學(xué)方法研究分類不僅非常必要而且完全可能,因此近年來,聚類分析的理論和應(yīng)用得到了迅速的發(fā)展。聚類分析就是分析如何對樣品(或變量)進(jìn)行量化分類的問題。通常聚類分析分為Q型聚類和R型聚類。Q型聚類是對樣品進(jìn)行分類處理,R型聚類是對變量進(jìn)行分類處理。第二節(jié)相似性的量度一、樣品相似性的度量在聚類之前,要首先分析樣品間的相似性。Q型聚類分析,常用距離來測度樣品之間的相似程度。每個樣品有p個指標(biāo)(變量)從不同方面描述其性質(zhì),形成一個p維的向量。如果把n個樣品看成p維空間中的n個點,則兩個樣品間相似程度就可用p維空間中的兩點距離公式來度量。兩點距離公式可以從不同角度進(jìn)行定義,令dij表示樣品Xi與Xj的距離,存在以下的距離公式:1.明考夫斯基距離明考夫斯基距離簡稱明氏距離,按的取值不同又可分成:(1)絕對距離()(5.2)(2)歐氏距離()(5.3)(3)切比雪夫距離()歐氏距離是常用的距離,大家都比較熟悉,但是前面已經(jīng)提到,在解決多元數(shù)據(jù)的分析問題時,歐氏距離就顯示出了它的不足之處。一是它沒有考慮到總體的變異對“距離”遠(yuǎn)近的影響,顯然一個變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對多元數(shù)據(jù)的處理是不利的。為了克服這方面的不足,可用“馬氏距離”的概念。 2.馬氏距離設(shè)Xi與Xj是來自均值向量為?,協(xié)方差為∑=(>0)的總體G中的p維樣品,則兩個樣品間的馬氏距離為馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是它考慮了觀測變量之間的相關(guān)性。如果各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。馬氏距離還考慮了觀測變量之間的變異性,不再受各指標(biāo)量綱的影響。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。3.蘭氏距離它僅適用于一切Xij>0的情況,這個距離也可以克服各個指標(biāo)之間量綱的影響。這是一個自身標(biāo)準(zhǔn)化的量,由于它對大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù)。雖然這個距離有助于克服明氏距離的第一個缺點,但它也沒有考慮指標(biāo)之間的相關(guān)性。 4.距離選擇的原則一般說來,同一批數(shù)據(jù)采用不同的距離公式,會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的距離公式的側(cè)重點和實際意義都有不同。因此我們在進(jìn)行聚類分析時,應(yīng)注意距離公式的選擇。通常選擇距離公式應(yīng)注意遵循以下的基本原則:(1)要考慮所選擇的距離公式在實際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理,則通常就可采用歐氏距離。(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行對比分析,以確定最合適的距離測度方法。二、變量相似性的度量多元數(shù)據(jù)中的變量表現(xiàn)為向量形式,在幾何上可用多維空間中的一個有向線段表示。在對多元數(shù)據(jù)進(jìn)行分析時,相對于數(shù)據(jù)的大小,我們更多地對變量的變化趨勢或方向感興趣。因此,變量間的相似性,我們可以從它們的方向趨同性或“相關(guān)性”進(jìn)行考察,從而得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。1、夾角余弦兩變量Xi與Xj看作p維空間的兩個向量,這兩個向量間的夾角余弦可用下式進(jìn)行計算顯然,∣cos?ij∣?1。2.相關(guān)系數(shù) 相關(guān)系數(shù)經(jīng)常用來度量變量間的相似性。變量Xi與Xj的相關(guān)系數(shù)定義為顯然也有,∣rij∣?1。無論是夾角余弦還是相關(guān)系數(shù),它們的絕對值都小于1,作為變量近似性的度量工具,我們把它們統(tǒng)記為cij。當(dāng)∣cij∣=1時,說明變量Xi與Xj完全相似;當(dāng)∣cij∣近似于1時,說明變量Xi與Xj非常密切;當(dāng)∣cij∣=0時,說明變量Xi與Xj完全不一樣;當(dāng)∣cij∣近似于0時,說明變量Xi與Xj差別很大。 據(jù)此,我們把比較相似的變量聚為一類,把不太相似的變量歸到不同的類內(nèi)。在實際聚類過程中,為了計算方便,我們把變量間相似性的度量公式作一個變換為dij=1?∣cij∣(5.9) 或者dij2=1?cij2(5.10)用表示變量間的距離遠(yuǎn)近,小則與先聚成一類,這比較符合人們的一般思維習(xí)慣。第三節(jié)系統(tǒng)聚類分析法一、系統(tǒng)聚類的基本思想系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)行下去,每個樣品(或變量)總能聚到合適的類中。系統(tǒng)聚類過程是:假設(shè)總共有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有n類;第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n?1類;第三步將“距離”最近的兩個類進(jìn)一步聚成一類,共聚成n?2類;……,以上步驟一直進(jìn)行下去,最后將所有的樣品(或變量)全聚成一類。為了直觀地反映以上的系統(tǒng)聚類過程,可以把整個分類系統(tǒng)畫成一張譜系圖。所以有時系統(tǒng)聚類也稱為譜系分析。除系統(tǒng)聚類法外,還有有序聚類法、動態(tài)聚類法、圖論聚類法、模糊聚類法等,限于篇幅,我們只介紹系統(tǒng)聚類方法。二、類間距離與系統(tǒng)聚類法在進(jìn)行系統(tǒng)聚類之前,我們首先要定義類與類之間的距離,由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。常用的類間距離定義有8種之多,與之相應(yīng)的系統(tǒng)聚類法也有8種,分別為最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。它們的歸類步驟基本上是一致的,主要差異是類間距離的計算方法不同。以下用dij表示樣品Xi與Xj之間距離,用Dij表示類Gi與Gj之間的距離。1.最短距離法 定義類與之間的距離為兩類最近樣品的距離,即為設(shè)類與合并成一個新類記為,則任一類與的距離為最短距離法進(jìn)行聚類分析的步驟如下: (1)定義樣品之間距離,計算樣品的兩兩距離,得一距離陣記為D(0),開始每個樣品自成一類,顯然這時Dij=dij。 (2)找出距離最小元素,設(shè)為Dpq,則將Gp和Gq合并成一個新類,記為Gr,即Gr={Gp,Gq}。 (3)按(5.12)計算新類與其它類的距離。(4)重復(fù)(2)、(3)兩步,直到所有元素。并成一類為止。如果某一步距離最小的元素不止一個,則對應(yīng)這些最小元素的類可以同時合并?!纠?.1】設(shè)有六個樣品,每個只測量一個指標(biāo),分別是1,2,5,7,9,10,試用最短距離法將它們分類。 (1)樣品采用絕對值距離,計算樣品間的距離陣D(0),見表5.1G1G2G3G4G5G6G10G210G3430G46520G587420G6985310(2)D(0)中最小的元素是D12=D56=1,于是將G1和G2合并成G7,G5和G6合并成G8,并利用(5.12)式計算新類與其它類的距離D(1),見表5.2G7G3G4G8G70G330G4520G87420(3)在D(1)中最小值是D34=D48=2,由于G4與G3合并,又與G8合并,因此G3、G4、G8合并成一個新類G9,其與其它類的距離D(2),見表5.3G7G9G70G930(4)最后將G7和G9合并成G10,這時所有的六個樣品聚為一類,其過程終止。 上述聚類的可視化過程見圖5.1所示,橫坐標(biāo)的刻度表示并類的距離。這里我們應(yīng)該注意,聚類的個數(shù)要以實際情況所定,其詳細(xì)內(nèi)容將在后面討論。2.最長距離法定義類與之間的距離為兩類最遠(yuǎn)樣品的距離,即為(5.13)最長距離法與最短距離法的并類步驟完全一樣,也是將各樣品先自成一類,然后將距離最小的兩類合并。將類與合并為,則任一類與的類間距離公式為再找距離最小兩類并類,直至所有的樣品全歸為一類為止。可以看出最長距離法與最短距離法只有兩點不同:一是類與類之間的距離定義不同;另一是計算新類與其它類的距離所用的公式不同。 3.中間距離法最短、最長距離定義表示都是極端情況,我們定義類間距離可以既不采用兩類之間最近的距離也不采用兩類之間最遠(yuǎn)的距離,而是采用介于兩者之間的距離,稱為中間距離法。 中間距離將類Gp與Gq類合并為類Gr,則任意的類Gk和Gr的距離公式為(?1/4???0)(5.15)設(shè)Dkq>Dkp,如果采用最短距離法,則Dkr=Dkp,如果采用最長距離法,則Dkr=Dkq。如圖5.2所示,(5.15)式就是取它們(最長距離與最短距離)的中間一點作為計算Dkr的根據(jù)。特別當(dāng)?=?1/4,它表示取中間點算距離,公式為圖5.2中間距離法4.重心法重心法定義類間距離為兩類重心(各類樣品的均值)的距離。重心指標(biāo)對類有很好的代表性,但利用各樣本的信息不充分。設(shè)與分別有樣品,個,其重心分別為和,則與之間的距離定義為和之間的距離,這里我們用歐氏距離來表示,即(5.17)設(shè)將和合并為,則內(nèi)樣品個數(shù)為,它的重心是,類的重心是,那么依據(jù)(5.17)式它與新類的距離為(5.18)這里我們應(yīng)該注意,實際上(5.18)式表示的類與新類的距離為:利用代入上式,有(5.19)【例5.2】針對例5.1的數(shù)據(jù),試用重心法將它們聚類。(1)樣品采用歐氏距離,計算樣品間的平方距離陣D2(0),見表5.4所示。G1G2G3G4G5G6G10G210G31690G4362540G564491640G6816425910(2)D2(0)中最小的元素是D212=D256=1,于是將G1和G2合并成G7,G5和G6合并成G8,并利用(5.18)式計算新類與其它類的距離得到距離陣D2(1),見表5.5:G1G2G3G4G10G212.250G330.2540G46420.256.250其它結(jié)果類似可以求得(3)在D2(1)中最小值是D234=4,那么G3與G4合并一個新類G9,其與與其它類的距離D2(2),見表5.6:G7G9G8G70G920.250G86412.50(4)在中最小值是=12.5,那么與合并一個新類,其與與其它類的距離,見表5.7:G7G10G70G1039.06250(5)最后將G7和G10合并成G11,這時所有的六個樣品聚為一類,其過程終止。 上述重心法聚類的可視化過程見圖5.3所示,橫坐標(biāo)的刻度表示并類的距離。

5.類平均法類平均法定義類間距離平方為這兩類元素兩兩之間距離平方的平均數(shù),即為(5.20)設(shè)聚類的某一步將和合并為,則任一類類與的距離為:(5.21)類平均法的聚類過程與上述方法完全類似,這里就不在詳述了。6.可變類平均法由于類平均法中沒有反映出Gp和Gq之間的距離Dpq的影響,因此將類平均法進(jìn)一步推廣,如果將Gp和Gq合并為新類Gr,類Gk與新并類Gr的距離公式為:其中?是可變的且?<1,稱這種系統(tǒng)聚類法為可變類平均法。7.可變法針對于中間法而言,如果將中間法的前兩項的系數(shù)也依賴于,那么,如果將和合并為新類,類與新并類的距離公式為:(5.23)其中是可變的,且。顯然在可變類平均法中取,即為可變法??勺冾惼骄ㄅc可變法的分類效果與的選擇關(guān)系很大,在實際應(yīng)用中常取負(fù)值。8.離差平方和法該方法是Ward提出來的,所以又稱為Ward法。該方法的基本思想來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類的離差平方和較大。具體做法是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。 設(shè)將n個樣品分成k類G1,G2,…,Gk,用Xit表示Gt中的第I個樣品,nt表示Gt中樣品的個數(shù),是Gt的重心,則Gt的樣品離差平方和為如果和合并為新類類內(nèi)離差平方和分別為它們反映了各自類內(nèi)樣品的分散程度,如果和這兩類相距較近,則合并后所增加的離散平方和應(yīng)較?。环駝t,應(yīng)較大。于是定義和之間的平方距離為:其中,可以證明類間距離的遞推公式為這種系統(tǒng)聚類法稱為離差平方和法或Ward方法。下面論證離差平方和法的距離遞推(5.26)式。從而,由(5.25)式知(5.27)那么,由(5.27)式和(5.19)式,可以得到離差平方和法的平方距離的遞推公式為:上述八種系統(tǒng)聚類法的步驟完全一樣,只是距離的遞推公式不同。蘭斯(Lance)和威廉姆斯(Williams)于1967年給出了一個統(tǒng)一的公式。(5.28)其中ap、aq、?、?是參數(shù),不同的系統(tǒng)聚類法,它們?nèi)〔煌臄?shù),詳見表5.8。這里應(yīng)該注意,不同的聚類方法結(jié)果不一定完全相同,一般只是大致相似。如果有很大的差異,則應(yīng)該仔細(xì)考查,找到問題所在;另外,可將聚類結(jié)果與實際問題對照,看哪一個結(jié)果更符合經(jīng)驗。表5.8系統(tǒng)聚類法參數(shù)表方法最短距離法1/21/20-1/2最長距離法1/21/201/2中間距離法1/21/2-1/40重心法0類平均法00可變類平均法0可變法0離差平方和法0第四節(jié)K均值聚類分析系統(tǒng)聚類法需要計算出不同樣品或變量的距離,還要在聚類的每一步都要計算“類間距離”,相應(yīng)的計算量自然比較大;特別是當(dāng)樣本的容量很大時,需要占據(jù)非常大的計算機內(nèi)存空間,這給應(yīng)用帶來一定的困難。而K—均值法是一種快速聚類法,采用該方法得到的結(jié)果比較簡單易懂,對計算機的性能要求不高,因此應(yīng)用也比較廣泛。K均值法是麥奎因(MacQueen,1967)提出的,這種算法的基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法至少包括以下三個步驟:1.將所有的樣品分成K個初始類;2.通過歐氏距離將某個樣品劃入離中心最近的類中,并對獲得樣品與失去樣品的類,重新計算中心坐標(biāo);3.重復(fù)步驟2,直到所有的樣品都不能再分配時為止。K均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的,但是兩者的不同之處也是明顯的:系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定,離不開實踐經(jīng)驗的積累;有時也可以借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類,其結(jié)果作為K—均值法確定類數(shù)的參考。下面通過一個具體問題說明K均值法的計算過程?!纠?.3】假定我們對A、B、C、D四個樣品分別測量兩個變量和得到結(jié)果見表5.9。樣品變量A53B-11C1-2D-3-2試將以上的樣品聚成兩類。第一步:按要求取K=2,為了實施均值法聚類,我們將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計算這兩個聚類的中心坐標(biāo),見表5.10所示。聚類中心坐標(biāo)(A、B)22(C、D)-1-2表5.10中的中心坐標(biāo)是通過原始數(shù)據(jù)計算得來的,比如(A、B)類的,等等。第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對于樣品有變動的類,重新計算它們的中心坐標(biāo),為下一步聚類做準(zhǔn)備。先計算A到兩個類的平方距離:,由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計算B到兩類的平方距離:,由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類,得到新的聚類是(A)和(B、C、D)。更新中心坐標(biāo)如表5.11所示。聚類中心坐標(biāo)(A)53(B、C、D)-1-1第三步:再次檢查每個樣品,以決定是否需要重新分類。計算各樣品到各中心的距離平方,得結(jié)果見表5.12。聚類樣品到中心的距離平方ABCD(A)0404189(B、C、D)52455到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨自成一類,B、C、D聚成一類。第五節(jié)有序樣品的聚類分析法以上的系統(tǒng)聚類和K—均值聚類中,樣品的地位是彼此獨立的,沒有考慮樣品的次序。但在實際應(yīng)用中,有時樣品的次序是不能變動的,這就產(chǎn)生了有序樣品的聚類分析問題。例如對動植物按生長的年齡段進(jìn)行分類,年齡的順序是不能改變的,否則就沒有實際意義了;又例如在地質(zhì)勘探中,需要通過巖心了解地層結(jié)構(gòu),此時按深度順序取樣,樣品的次序也不能打亂。如果用X(1),X(2),…,X(n)表示n個有序的樣品,則每一類必須是這樣的形式,即X(i),X(i+1),…,X(j),其中1?r?n,且j?n,簡記為Gi={i,i+1,…,j}。在同一類中的樣品是次序相鄰的。這類問題稱為有序樣品的聚類分析。一、有序樣品可能的分類數(shù)目n個有序樣品分成k類,則一切可能的分法有種。實際上,n個有序樣品共有(n?1)個間隔,分成k類相當(dāng)于在這(n?1)個間隔中插入k?1根“棍子”。由于不考慮棍子的插入順序,是一個組合問題,共有種插法。這就是n個有序樣品分成k類的一切可能分法。因此,對于有限的n和k,有序樣品的所有可能分類結(jié)果是有限的,可以在某種損失函數(shù)意義下,求得最優(yōu)解。所以有序樣品聚類分析又稱為最優(yōu)分割,該算法是費希爾(Fisher)最先提出來的,故也稱之為費希爾最優(yōu)求解法。二、費希爾最優(yōu)求解法2.定義分類的損失函數(shù)。費希爾最優(yōu)求解法定義的分類損失函數(shù)的思想類似于系統(tǒng)聚類分析中的Ward法,即要求分類后產(chǎn)生的離差平方和的增量最小。用表示將個有序樣品分為類的某一種分法:,,,其中。定義上述分類法的損失函數(shù)為(5.31)上式中的。對于固定的和,越小,表示各類的離差平方和越小,分類就是越有效的。因此,要求尋找一種分法,使分類的損失函數(shù)最小,這種最優(yōu)分類法記為。3.求最優(yōu)分類法的遞推公式。具體計算最優(yōu)分類的過程是通過遞推公式獲得的。先考慮的情形對所有的考慮使得,最小的。得到最優(yōu)分類:,。圖5.5時的情形進(jìn)一步考慮對于,求。這里需要注意,若要尋找將n個樣品分為k類的最優(yōu)分割,則對于任意的j(k?j?n),先將前面j?1個樣品最優(yōu)分割為k?1類,得到p(j?1,k?1),否則從j到n這最后一類就不可能構(gòu)成k類的最優(yōu)分割,參見圖5.6。再考慮使L[b(n,k)]最小的j*,得到p(n,k)。因此我們得到費希爾最優(yōu)求解法的遞推公式為4.費希爾最優(yōu)求解法的實際計算。從遞推公式(5.32)可知,要得到分點,使得從而獲得第類:,必須先計算使得從而獲得第類:。依此類推,…,要得到分點,使得從而獲得第3類:,必須先計算從而獲得第2類:。這時自然獲得。最后獲得最優(yōu)分割:。因此,實際計算過程中是從計算開始的,一直到最后計算出為止??傊?,為了求最優(yōu)解,主要是計算和,}。三、一個典型例子【例5.4】為了了解兒童的生長發(fā)育規(guī)律,今隨機抽樣統(tǒng)計了男孩從出生到11歲每年平均增長的重量數(shù)據(jù)表5.13,試問男孩發(fā)育可分為幾個階段?年齡(歲)123增重(公斤)在分析這是一個有序樣品的聚類問題時,我們通過圖形可以看到男孩增重隨年齡順序變化的規(guī)律,從圖5.6中發(fā)現(xiàn)男孩發(fā)育確實可以分為幾個階段。下面通過有序樣品的聚類分析確定男孩發(fā)育分成幾個階段較合適。步驟如下:(1)計算直徑{},結(jié)果如表5.14。例如計算,此類包含兩個樣品{9.3,1.8},故有:=5.55,=28.125其它依此計算,其結(jié)果見表5.14。12345678910228.125337.0070.005442.2080.0200.020545.9920.0880.0800.020649.1280.2320.2000.0800.020751.1000.2800.2320.0880.0200.005851.5290.4170.3930.3080.2900.2870.180951.9800.4670.4540.3930.3880.3700.2070.0051052.0290.8020.8000.7740.7730.7080.4200.0870.0801152.1820.9090.9090.8950.8890.7930.4520.0880.0800.020(2)計算最小分類損失函數(shù)},結(jié)果如表5.15。234567891030.005(2)40.020(2)0.005(4)50.088(2)0.020(5)0.005(5)60.232(2)0.040(5)0.020(6)0.005(6)70.280(2)0.040(5)0.025(6)0.010(6)0.005(6)80.417(2)0.280(8)0.040(8)0.025(8)0.010(8)0.005(8)90.469(2)0.285(8)0.045(8)0.030(8)0.015(8)0.010(3)0.005(8)100.802(2)0.367(8)0.127(8)0.045(10)0.030(10)0.015(10)0.010(10)0.005(8)110.909(2)0.368(8)0.128(8)0.065(10)0.045(11)0.030(11)0.015(11)0.010(11)0.005(11)首先計算{}(即表中的列),例如計算:極小值是在處達(dá)到,故記,其它類似計算。再計算{}(即表中的列),例如計算:表5.15中其它數(shù)值同樣計算,括弧內(nèi)的數(shù)字表示最優(yōu)分割處的序號。(3)分類個數(shù)的確定。如果能從生理角度事先確定k當(dāng)然最好;有時不能事先確定k時,可以從L[p(l,k)]隨k的變化趨勢圖中找到拐點處,作為確定k的根據(jù)。當(dāng)曲線拐點很平緩時,可選擇的k很多,這時需要用其它的辦法來確定,比如均方比和特征根法,限于篇幅此略,有興趣的讀者可以查看其它資料。本例從表5.15中的最后一行可以看出k=3,4處有拐點,即分成3類或4類都是較合適的,從圖5.8中可以更明顯看出這一點。(4)求最優(yōu)分類。例如我們把兒童生長分成4個階段,即可查表5.15中例的最后一行(即行)得,說明最優(yōu)損失函數(shù)值為0.128,最后的最優(yōu)分割在第8個元素處,因此或。進(jìn)一步從表中查,因此或,再從表中查得最后或,剩下的。第六章主成分分析第一節(jié)引言多元統(tǒng)計分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標(biāo)相差不多時為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。我們知道,當(dāng)一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))提供的信息量是非常有限的,當(dāng)這個變量取一系列不同數(shù)據(jù)時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說明它對各種場景的“遍歷性”越強,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準(zhǔn)差或方差表示它。主成分分析的數(shù)學(xué)模型是,設(shè)p個變量構(gòu)成的p維隨機向量為X=(X1,…,Xp)′。對X作正交變換,令Y=T′X,其中T為正交陣,要求Y的各分量是不相關(guān)的,并且Y的第一個分量的方差是最大的,第二個分量的方差次之,……,等等。為了保持信息不丟失,Y的各分量方差和與X的各分量方差和相等。第二節(jié)主成分的幾何意義及數(shù)學(xué)推導(dǎo)一、主成分的幾何意義主成分分析數(shù)學(xué)模型中的正交變換,在幾何上就是作一個坐標(biāo)旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。假設(shè)共有n個樣品,每個樣品都測量了兩個指標(biāo)(X1,X2),它們大致分布在一個橢圓內(nèi)如圖6.1所示。事實上,散點的分布總有可能沿著某一個方向略顯擴張,這個方向就把它看作橢圓的長軸方向。顯然,在坐標(biāo)系x1Ox2中,單獨看這n個點的分量X1和X2,它們沿著x1方向和x2方向都具有較大的離散性,其離散的程度可以分別用的X1方差和X2的方差測定。如果僅考慮X1或X2中的任何一個分量,那么包含在另一分量中的信息將會損失,因此,直接舍棄某個分量不是“降維”的有效辦法。如果我們將該坐標(biāo)系按逆時針方向旋轉(zhuǎn)某個角度變成新坐標(biāo)系,這里是橢圓的長軸方向,是橢圓的短軸方向。旋轉(zhuǎn)公式為(6.1)我們看到新變量和是原變量和的線性組合,它的矩陣表示形式為:(6.2)其中,為旋轉(zhuǎn)變換矩陣,它是正交矩陣,即有或。易見,n個點在新坐標(biāo)系下的坐標(biāo)Y1和Y2幾乎不相關(guān)。稱它們?yōu)樵甲兞縓1和X2的綜合變量,n個點y1在軸上的方差達(dá)到最大,即在此方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論