版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.第一章 多元分析概述第一節(jié) 引言多元統(tǒng)計(jì)分析是運(yùn)用數(shù)理統(tǒng)計(jì)方法來研究解決多指標(biāo)問題的理論和方法。近30年來,隨著計(jì)算機(jī)應(yīng)用技術(shù)的發(fā)展和科研生產(chǎn)的迫切需要,多元統(tǒng)計(jì)分析技術(shù)被廣泛地應(yīng)用于地質(zhì)、氣象、水文、醫(yī)學(xué)、工業(yè)、農(nóng)業(yè)和經(jīng)濟(jì)等許多領(lǐng)域,已經(jīng)成為解決實(shí)際問題的有效方法。然而,隨著internet的日益普及,各行各業(yè)都開始采用計(jì)算機(jī)及相應(yīng)的信息技術(shù)進(jìn)行管理和決策,這使得各企事業(yè)單位生成、收集、存儲(chǔ)和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增,大量復(fù)雜信息層出不窮。在信息爆炸的今天,人們已經(jīng)意識(shí)到數(shù)據(jù)最值錢的時(shí)代已經(jīng)到來。顯然,大量信息在給人們帶來方便的同時(shí)也帶來一系列問題。比如:信息量過大,超過了人
2、們掌握、消化的能力;一些信息真?zhèn)坞y辯,從而給信息的正確應(yīng)用帶來困難;信息組織形式的不一致性導(dǎo)致難以對(duì)信息進(jìn)行有效統(tǒng)一處理等等,這種變化使傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)和數(shù)據(jù)處理手段已經(jīng)不能滿足要求.internet的迅猛發(fā)展也使得網(wǎng)絡(luò)上的各種資源信息異常豐富,在其中進(jìn)行信息的查找真如大海撈針。這樣又給多元統(tǒng)計(jì)分析理論的發(fā)展和方法的應(yīng)用提出了新的挑戰(zhàn)。多元統(tǒng)計(jì)分析起源于上世紀(jì)初,1928年wishart發(fā)表論文多元正態(tài)總體樣本協(xié)差陣的精確分布,可以說是多元分析的開端。20世紀(jì)30年代r.a. fisher 、h.hotelling、s.n.roy、許寶騄等人作了一系列得奠基性工作,使多元分析在理論上得到了迅速
3、得發(fā)展。20世紀(jì)40年代在心理、教育、生物等方面有不少得應(yīng)用,但由于計(jì)算量大,使其發(fā)展受到影響,甚至停滯了相當(dāng)長(zhǎng)得時(shí)間。20世紀(jì)50年代中期,隨著電子計(jì)算機(jī)得出現(xiàn)和發(fā)展,使多元分析方法在地質(zhì)、氣象、醫(yī)學(xué)、社會(huì)學(xué)等方面得到廣泛得應(yīng)用。20世紀(jì)60年代通過應(yīng)用和實(shí)踐又完善和發(fā)展了理論,由于新的理論、新的方法不斷涌現(xiàn)又促使它的應(yīng)用范圍更加擴(kuò)大。20世紀(jì)70年代初期在我國(guó)才受到各個(gè)領(lǐng)域的極大關(guān)注,并在多元統(tǒng)計(jì)分析的理論研究和應(yīng)用上也取得了很多顯著成績(jī),有些研究工作已達(dá)到國(guó)際水平,并已形成一支科技隊(duì)伍,活躍在各條戰(zhàn)線上。 在20世紀(jì)末與本世紀(jì)初,人們獲得的數(shù)據(jù)正以前所未有的速度急劇增加,產(chǎn)生了很多超大型
4、數(shù)據(jù)庫(kù),遍及超級(jí)市場(chǎng)銷售、銀行存款、天文學(xué)、粒子物理、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計(jì)等領(lǐng)域,多元統(tǒng)計(jì)與人工智能和數(shù)據(jù)庫(kù)技術(shù)相結(jié)合,已在經(jīng)濟(jì)、商業(yè)、金融、天文等行業(yè)得到了成功的應(yīng)用。為了讓人們更好的較為系統(tǒng)地掌握多元統(tǒng)計(jì)分析的理論與方法,本書重點(diǎn)介紹多元正態(tài)總體的參數(shù)估計(jì)和假設(shè)檢驗(yàn)以及常用的統(tǒng)計(jì)方法。這些方法包括判別分析、聚類分析、主成分分析、因子分析、對(duì)應(yīng)分析、典型相關(guān)分析、多維標(biāo)度法以及多變量的可視化分析等。與此同時(shí),我們將利用在我國(guó)廣泛流行的spss統(tǒng)計(jì)軟件來實(shí)現(xiàn)實(shí)證分析,做到在理論的學(xué)習(xí)中體會(huì)應(yīng)用,在應(yīng)用的分析中加深理論。第二節(jié) 應(yīng)用背景二、多元統(tǒng)計(jì)分析方法的應(yīng)用 這里我們要通過一些實(shí)際的問題,
5、解釋選擇統(tǒng)計(jì)方法和研究目的之間的關(guān)系,這些問題以及本書中的大量案例能夠使得讀者對(duì)多元統(tǒng)計(jì)分析方法在各個(gè)領(lǐng)域中的廣泛應(yīng)用有一定的了解。多元分析方法從研究問題的角度可以分為不同的類,相應(yīng)有具體解決問題的方法,參看表1.1。多元統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理、農(nóng)業(yè)、醫(yī)學(xué)、教育學(xué)、體育科學(xué)、生態(tài)學(xué)、地質(zhì)學(xué)、社會(huì)學(xué)、考古學(xué)、環(huán)境保護(hù)、軍事科學(xué)、文學(xué)等方面都有廣泛的應(yīng)用,這里我們例舉一些實(shí)際問題,進(jìn)一步了解多元統(tǒng)計(jì)分析的應(yīng)用領(lǐng)域,讓讀者從感性上加深對(duì)多元統(tǒng)計(jì)分析的認(rèn)識(shí)。問題 內(nèi)容 方法 數(shù)據(jù)或結(jié)構(gòu)性化簡(jiǎn) 盡可能簡(jiǎn)單地表示所研究的現(xiàn)象,但不損失很多有用的信息,并希望這種表示能夠很容易的解釋。 多元回歸分析、聚類分析
6、、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析 分類和組合 基于所測(cè)量到的一些特征,給出好的分組方法,對(duì)相似的對(duì)象或變量分組。 判別分析、聚類分析、主成分分析、可視化分析 變量之間的相關(guān)關(guān)系 變量之間是否存在相關(guān)關(guān)系,相關(guān)關(guān)系又是怎樣體現(xiàn)。 多元回歸、典型相關(guān)、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析 預(yù)測(cè)與決策 通過統(tǒng)計(jì)模型或最優(yōu)準(zhǔn)則,對(duì)未來進(jìn)行預(yù)見或判斷。 多元回歸、判別分析、聚類分析、可視化分析 假設(shè)的提出及檢驗(yàn)檢驗(yàn)由多元總體參數(shù)表示的某種統(tǒng)計(jì)假設(shè),能夠證實(shí)某種假設(shè)條件的合理性。 多元總體參數(shù)估計(jì)、假設(shè)檢驗(yàn) 1、城鎮(zhèn)居民消費(fèi)水平通常用八項(xiàng)指標(biāo)來描述,如人均糧食支出
7、、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項(xiàng)指標(biāo)存在一定的線性關(guān)系。為了研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),需要將相關(guān)強(qiáng)的指標(biāo)歸并到一起,這實(shí)際就是對(duì)指標(biāo)進(jìn)行聚類分析。2、在企業(yè)經(jīng)濟(jì)效益的評(píng)價(jià)中,涉及到的指標(biāo)往往很多,如百元固定資產(chǎn)原值實(shí)現(xiàn)產(chǎn)值、百元固定資產(chǎn)原值實(shí)現(xiàn)利稅、百元資金實(shí)現(xiàn)利稅、百元工業(yè)總產(chǎn)值實(shí)現(xiàn)利稅、百元銷售收入實(shí)現(xiàn)利稅、每噸標(biāo)準(zhǔn)煤實(shí)現(xiàn)工業(yè)產(chǎn)值、每千瓦時(shí)電力實(shí)現(xiàn)工業(yè)產(chǎn)值、全員勞動(dòng)生產(chǎn)率、百元流動(dòng)資金實(shí)現(xiàn)產(chǎn)值。如何將這些具有錯(cuò)綜復(fù)雜關(guān)系的指標(biāo)綜合成幾個(gè)較少的因子,既有利于對(duì)問題進(jìn)行分析和解釋,又能便于抓住主要矛盾做出科學(xué)的評(píng)價(jià)。可用主成分
8、分析和因子分析法。3、某一產(chǎn)品是用兩種不同原料生產(chǎn)的,試問此兩種原料生產(chǎn)的產(chǎn)品壽命有無顯著差異?又比如,若考察某商業(yè)行業(yè)今年和去年的經(jīng)營(yíng)狀況,這時(shí)需要看這兩年經(jīng)營(yíng)指標(biāo)的平均水平是否有顯著差異以及經(jīng)營(yíng)指標(biāo)之間的波動(dòng)是否有顯著差異??捎枚嘣龖B(tài)總體均值向量和協(xié)差陣的假設(shè)檢驗(yàn)。4、按現(xiàn)行統(tǒng)計(jì)報(bào)表制度,農(nóng)村家庭純收入是指農(nóng)村常住居民家庭總收入中扣除從事生產(chǎn)和非生產(chǎn)經(jīng)營(yíng)用支出、稅款和上交承包集體任務(wù)金額以后剩余的、可直接用于進(jìn)行生產(chǎn)的、非生產(chǎn)性建設(shè)投資、生產(chǎn)性消費(fèi)的那一部分收入。如果我們收集某年各個(gè)省、自治區(qū)、直轄市農(nóng)民家庭人均純收入的數(shù)據(jù),可以用相應(yīng)分析,揭示全國(guó)農(nóng)民人均純收入的特征以及各省、自治區(qū)、
9、直轄市與各收入指標(biāo)的關(guān)系。5、某醫(yī)院已有100個(gè)分別患有胃炎、肝炎、冠心病、糖尿病等的病人資料,記錄了他們每個(gè)人若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)。如果對(duì)于一個(gè)新的病人,當(dāng)也測(cè)得這若干項(xiàng)癥狀指標(biāo)時(shí),可以利用判別分析方法判定他患的是哪種病。6、有100種酒,品嘗家可以對(duì)每?jī)煞N酒進(jìn)行品嘗對(duì)比,給出一種相近程度的得分(越相近得分越高,相差越遠(yuǎn)得分越低),希望用這些得分?jǐn)?shù)據(jù)來了解這100種酒之間的結(jié)構(gòu)關(guān)系。這樣的問題就可以用多維標(biāo)度法來解決。7、在地質(zhì)學(xué)中,常常要研究礦石中所含化學(xué)成分之間的關(guān)系。設(shè)在某礦體中采集了60個(gè)標(biāo)本,對(duì)每個(gè)標(biāo)本測(cè)得20個(gè)化學(xué)成分的含量。我們希望通過對(duì)這20個(gè)化學(xué)成分的分析,了解礦體的性質(zhì)和礦
10、體形成的主要原因。8、對(duì)1000個(gè)類似的魚類樣本,如何根據(jù)測(cè)量的特征如體重、身長(zhǎng)、鰭數(shù)、鰭長(zhǎng)、頭寬等,我們可以利用聚類分析方法將這類魚分成幾個(gè)不同品種。9、考古學(xué)家對(duì)挖掘出來的人頭蓋骨的高、寬等特征來判斷是男或女,根據(jù)挖掘出的動(dòng)物牙齒的有關(guān)測(cè)試指標(biāo),判別它是屬于哪一類動(dòng)物牙齒、是哪一個(gè)時(shí)代的。10、在高考招生工作中,我們知道每個(gè)考生的基本情況,通過分析我們不僅可以了解到學(xué)生喜歡學(xué)習(xí)的科目,還可以進(jìn)一步從考生每門課程的成績(jī),分析出學(xué)生的邏輯思維能力、形象思維能力和記憶力等等對(duì)學(xué)習(xí)成績(jī)的影響。第二章 多元正態(tài)分布的參數(shù)估計(jì)第一節(jié) 引言 多元統(tǒng)計(jì)分析涉及到的都是隨機(jī)向量或多個(gè)隨機(jī)向量放在一起組成的隨
11、機(jī)矩陣。例如在研究公司的運(yùn)營(yíng)情況時(shí),要考慮公司的獲利能力、資金周轉(zhuǎn)能力、競(jìng)爭(zhēng)能力以及償債能力等財(cái)務(wù)指標(biāo);又如在研究國(guó)家財(cái)政收入時(shí),稅收收入、企業(yè)收入、債務(wù)收入、國(guó)家能源交通重點(diǎn)建設(shè)基金收入、基本建設(shè)貸款歸還收入、國(guó)家預(yù)算調(diào)節(jié)基金收入、其他收入等都是需要同時(shí)考察的指標(biāo)。顯然,如果我們只研究一個(gè)指標(biāo)或是將這些指標(biāo)割裂開分別研究,是不能從整體上把握研究問題的實(shí)質(zhì)的,解決這些問題就需要多元統(tǒng)計(jì)分析方法。為了更好的探討這些問題,本章我們首先論述有關(guān)隨機(jī)向量的基本概念和性質(zhì)。在實(shí)用中遇到的隨機(jī)向量常常是服從正態(tài)分布或近似正態(tài)分布,或雖本身不是正態(tài)分布,但它的樣本均值近似于正態(tài)分布。因此現(xiàn)實(shí)世界中許多實(shí)際問
12、題的解決辦法都是以總體服從正態(tài)分布或近似正態(tài)分布為前提的。在多元統(tǒng)計(jì)分析中, 多元正態(tài)分布占有很重要地位,本書所介紹的方法大都假定數(shù)據(jù)來之多元正態(tài)分布。為此,本章將要介紹多元正態(tài)分布的定義和有關(guān)性質(zhì)。然而在實(shí)際問題中,多元正態(tài)分布中均值向量和協(xié)差陣通常是未知的,一般的做法是由樣本來估計(jì)。這是本章討論的重要內(nèi)容之一,在此我們介紹最常見的最大似然估計(jì)法對(duì)參數(shù)進(jìn)行估計(jì),并討論其有關(guān)的性質(zhì)。第二節(jié) 基本概念一、隨機(jī)向量我們所討論的是多個(gè)變量的總體,所研究的數(shù)據(jù)是同時(shí)p個(gè)指標(biāo)(變量),又進(jìn)行了n次觀測(cè)得到的,我們把這個(gè)p指標(biāo)表示為x1 ,x2,l,xp,常用向量x = (x1 , x2 , l , xp
13、)' 表示對(duì)同一個(gè)體觀測(cè)的p個(gè)變量。這里我們應(yīng)該強(qiáng)調(diào),在多元統(tǒng)計(jì)分析中,仍然將所研究對(duì)象的全體稱為總體,它是由許多(有限和無限)的個(gè)體構(gòu)成的集合,如果構(gòu)成總體的個(gè)體是具有p個(gè)需要觀測(cè)指標(biāo)的個(gè)體,我們稱這樣的總體為p維總體(或p元總體)。上面的表示便于人們用數(shù)學(xué)方法去研究p維總體的特性。這里“維”(或“元”)的概念,表示共有幾個(gè)分量。若觀測(cè)了n個(gè)個(gè)體,則可得到如表2.1的數(shù)據(jù),稱每一個(gè)個(gè)體的p個(gè)變量為一個(gè)樣品,而全體n個(gè)樣品組成一個(gè)樣本。表2.1 數(shù)據(jù)變量 序號(hào)12在這里橫看表2.1,記為 , 表示第個(gè)樣品的觀測(cè)值。豎看表2.1,第列的元素 , 表示對(duì)第個(gè)變量的次觀測(cè)數(shù)值。因此,表2.1
14、所反映出的樣本資料可用矩陣表示為 (2.1)簡(jiǎn)記為x。定義2.1 將個(gè)隨機(jī)變量的整體稱為維隨機(jī)向量,記為。在對(duì)隨機(jī)向量的研究仍然限于討論離散型和連續(xù)型兩類隨機(jī)向量。二、多元分布先回顧一下一元統(tǒng)計(jì)中分布函數(shù)和密度函數(shù)的定義。設(shè)是一個(gè)隨機(jī)變量,稱為的概率分布函數(shù)或簡(jiǎn)稱為分布函數(shù),記為。若隨機(jī)變量在有限或可列個(gè)值上取值,記,且,則稱為離散型隨機(jī)變量,稱,為的概率分布。設(shè),若存在一個(gè)非負(fù)函數(shù),使得一切實(shí)數(shù)有:,則稱為的分布密度函數(shù),簡(jiǎn)稱為密度函數(shù)。一個(gè)函數(shù)能作為某個(gè)隨機(jī)變量的分布密度函數(shù)的重要條件是:(1),對(duì)一切實(shí)數(shù);(2)。定義2.2 設(shè)是維隨機(jī)向量,它的多元分布函數(shù)定義為 (2.2)記為,其中,
15、表示維歐氏空間。多維隨機(jī)向量的統(tǒng)計(jì)特性可用它的分布函數(shù)來完整地描述。定義2.3 設(shè)是維隨機(jī)向量,若存在有限個(gè)或可列個(gè)維數(shù)向量,記,且滿足,則稱為離散型隨機(jī)向量,稱,為的概率分布。設(shè),若存在一個(gè)非負(fù)函數(shù),使得對(duì)一切有(2.3)則稱為連續(xù)型隨機(jī)變量,稱為分布密度函數(shù),簡(jiǎn)稱為密度函數(shù)或分布密度。一個(gè)元函數(shù)能作為中某個(gè)隨機(jī)向量的密度函數(shù)的主要條件是:(1),;(2)離散型隨機(jī)向量的統(tǒng)計(jì)性質(zhì)可由它的概率分布完全確定,連續(xù)型隨機(jī)向量的統(tǒng)計(jì)性質(zhì)可由它的分布密度完全確定?!纠?.1】 試證函數(shù) 為隨機(jī)向量密度函數(shù)。證:只要驗(yàn)證滿足密度函數(shù)兩個(gè)條件即可 (1)顯然,當(dāng)時(shí)有 (2)定義2.4 設(shè)是維隨機(jī)向量,稱由
16、它的個(gè)分量組成的子向量的分布為的邊緣(或邊際)分布,相對(duì)地把的分布稱為聯(lián)合分布。通過變換中各分量的次序,總可假定正好是的前個(gè)分量,其余個(gè)分量為,則,相應(yīng)的取值也可分為兩部分。當(dāng)?shù)姆植己瘮?shù)是時(shí),的分布函數(shù)即邊緣分布函數(shù)為: 當(dāng)有分布密度時(shí)(亦稱聯(lián)合分布密度函數(shù)),則也有分布密度,即邊緣密度函數(shù)為:【例2.2】對(duì)例2.1中的求邊緣密度函數(shù)。解: 同理定義2.5 若個(gè)隨機(jī)變量的聯(lián)合分布等于各自的邊緣分布的乘積,則稱是相互獨(dú)立的?!纠?.3】 問例2.2中的與是否相互獨(dú)立? 解: 由于,故與相互獨(dú)立。這里我們應(yīng)該注意,由相互獨(dú)立,可推知任何與獨(dú)立,但反之不真。定義2.6 設(shè),若存在且有限,則稱為的均值
17、(向量)或數(shù)學(xué)期望,有時(shí)也把和分別記為和,即,容易推得均值(向量)具有以下性質(zhì):(1)(2)(3)其中,、為隨機(jī)向量,、為大小適合運(yùn)算的常數(shù)矩陣。定義2.7 設(shè),稱(2.4)為的方差或協(xié)差陣,有時(shí)把簡(jiǎn)記為,簡(jiǎn)記為,從而有;稱隨機(jī)向量和的協(xié)差陣為(2.5)當(dāng)時(shí),即為。若,則稱和不相關(guān),由和相互獨(dú)立易推得,即和不相關(guān);但反過來,當(dāng)和不相關(guān)時(shí),一般不能推知它們獨(dú)立。當(dāng)、為常數(shù)矩陣時(shí),由定義可以推出協(xié)方差陣有如下性質(zhì):(1)對(duì)于常數(shù)向量,有(2)(3)(4)設(shè)為維隨機(jī)向量,期望和協(xié)方差存在,記,為常數(shù)陣,則 這里我們應(yīng)該注意到,對(duì)于任何的隨機(jī)向量來說,其協(xié)差陣都是對(duì)稱陣,同時(shí)總是非負(fù)定(半正定)的。大
18、多數(shù)情況是正定的。若的協(xié)差陣存在,且每個(gè)分量的方差大于零,則稱隨機(jī)向量的相關(guān)陣為,其中 (2.6)為與的相關(guān)系數(shù)。在數(shù)據(jù)處理時(shí),為了克服由于指標(biāo)的量綱不同對(duì)統(tǒng)計(jì)分析結(jié)果帶來的影響,往往在使用各種統(tǒng)計(jì)分析之前,常需要將每個(gè)指標(biāo)“標(biāo)準(zhǔn)化”,即進(jìn)行如下變換, (2.7)那么由(2.7)構(gòu)成的隨機(jī)向量。令,有:那么,標(biāo)準(zhǔn)化后的隨機(jī)向量均值和協(xié)差陣分別為 即標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)差陣正好是原指標(biāo)的相關(guān)陣。第三節(jié) 多元正態(tài)分布一、多元正態(tài)分布的定義我們先來回顧一元正態(tài)分布的密度函數(shù),即為上式可以改寫為(2.8)由于(2.8)式中的,均為一維的數(shù)字,可以用代表的轉(zhuǎn)置。根據(jù)上面的表述形式,我們可以將其推廣,給出多元正
19、態(tài)分布的定義。定義2.8 若維隨機(jī)向量的密度函數(shù)為: (2.9)其中,是維隨機(jī)向量,是階正定陣,則稱服從元正態(tài)分布,也稱為維正態(tài)隨機(jī)向量,簡(jiǎn)記為,顯然當(dāng)時(shí),即為一元正態(tài)分布密度函數(shù)??梢宰C明為的均值(向量),為的協(xié)差陣。這里我們應(yīng)該提及的是,當(dāng)時(shí),不存在,也就不存在通常意義下的密度函數(shù),然而可以形式的給出一個(gè)表達(dá)式,是的有些問題可以利用這一形式對(duì)及的情況給出一個(gè)統(tǒng)一的處理。當(dāng)時(shí),設(shè)服從二元正態(tài)分布,則,這里,分別是與的方差,是與的相關(guān)系數(shù)。即有故與的密度函數(shù)為對(duì)于,那么與是相互獨(dú)立的;若,則與趨于正相關(guān);若,則與趨于負(fù)相關(guān)。定理2.1 設(shè),則有,。關(guān)于這個(gè)定理的證明可以參考文獻(xiàn)1,該定理將多元
20、正態(tài)分布的參數(shù)和賦予了明確的統(tǒng)計(jì)意義。這里我們需要明確的是,多元正態(tài)分布的定義不止是一種,更廣泛的可以采用特征函數(shù)來定義,也可以用一切線性組合均為正態(tài)的性質(zhì)來定義。二、多元正態(tài)分布的性質(zhì) 在討論多元統(tǒng)計(jì)分析的理論和方法時(shí),經(jīng)常用到多元正態(tài)變量的某些性質(zhì),利用這些性質(zhì)可使得正態(tài)分布的處理變得容易一些。1若,是對(duì)角陣,則相互獨(dú)立。2若,為階常數(shù)陣,為維常數(shù)向量,則 即正態(tài)隨機(jī)向量的線性函數(shù)還是正態(tài)的。3若,將,作如下剖分 則,。這里需要指出的是:第一,多元正態(tài)分布的任何邊緣分布為正態(tài)分布,但反之不真。第二,由于,故表示和不相關(guān),因此可知,對(duì)于多元正態(tài)變量而言,和的不相關(guān)與獨(dú)立是等價(jià)的?!纠?.4】
21、 若其中, 設(shè) ,則(1) 其中 (2) 其中 (3) 記 則 其中 在此我們應(yīng)該注意到,如果服從元正態(tài)分布,則它的每個(gè)分量必服從一元正態(tài)分布,因此把某個(gè)分量的個(gè)樣品值作成直方圖,如果斷定不呈正態(tài)分布,則就可以斷定隨機(jī)向量也不可能服從元正態(tài)分布。第四節(jié) 多元正態(tài)分布的參數(shù)估計(jì) 一、多元樣本的數(shù)字特征 設(shè)樣本資料可用矩陣表示為在這里我們給出樣本均值向量、樣本離差陣、樣本協(xié)差陣以及樣本相關(guān)陣的定義。定義2.9 設(shè)為來自元總體的樣本,其中,。(1) 樣本均值向量定義為其中(2)樣本離差陣定義為 (2.11)這里, (3)樣本協(xié)差陣定義為 (2.12)這里,(4)樣本相關(guān)陣定義為 (2.13) 其中在
22、此,我們應(yīng)該提及的是,樣本均值向量和離差陣也可用樣本資料陣直接表示如下: 其中 由于 那么,(2.11)式可以表示為: (2.14)其中 二、均值向量與協(xié)差陣的最大似然估計(jì) 多元正態(tài)分布有兩組參數(shù),均值和協(xié)差陣,在許多問題中它們是未知的,需要通過樣本來估計(jì)。那么,通過樣本來估計(jì)總體的參數(shù)叫做參數(shù)估計(jì),參數(shù)估計(jì)的原則和方法是很多的,這里用最常見的且具有很多優(yōu)良性質(zhì)的最大似然法給出和的估計(jì)量。設(shè)來自正態(tài)總體容量為的樣本,每個(gè)樣品,樣本資料陣為(2.1)式表示,即 則可由最大似然法求出和的估計(jì)量,即有 , (2.15)實(shí)際上,最大似然法求估計(jì)量可以這樣得到。針對(duì)來自正態(tài)總體容量為的樣本,構(gòu)造似然函數(shù)
23、,即 (2.16)為了求出使(2.16)式取極值的和的值,將(2.16)兩邊取對(duì)數(shù),即 (2.17)因?yàn)閷?duì)數(shù)函數(shù)是一個(gè)嚴(yán)格單調(diào)增函數(shù),所以可以通過對(duì)的極大值而得到和的估計(jì)量。這里我們要注意到,根據(jù)矩陣代數(shù)理論,對(duì)于實(shí)對(duì)稱矩陣,有,。那么,針對(duì)對(duì)數(shù)似然函數(shù)(2.17)分別對(duì)和求偏導(dǎo)數(shù),則有(2.18)由(2.18)式可以得到極大似然估計(jì)量分別為由此可見,多元正態(tài)總體的均值向量的極大似然估計(jì)量就是樣本均值向量,其協(xié)差陣的極大似然估計(jì)就是樣本協(xié)差陣。和的估計(jì)量有如下基本性質(zhì):1,即是的無偏估計(jì); ,即不是的無偏估計(jì),而,即是的無偏估計(jì);2,分別是,的有效估計(jì);3,(或)分別是,的一致估計(jì)(相合估計(jì))
24、。樣本均值向量和樣本離差陣在多元統(tǒng)計(jì)推斷中具有十分重要的作用,并有如下結(jié)論:定理2.2 設(shè)和分別是正態(tài)總體的樣本均值向量和離差陣,則1;2離差陣可以寫為 其中,獨(dú)立同分布于;3和相互獨(dú)立;4為正定陣的充要條件是。三、wishart分布在實(shí)際應(yīng)用中,常采用和來估計(jì)和,前面已指出,均值向量的分布仍為正態(tài)分布,而離差陣的分布又是什么呢?為此給出維希特(wishart)分布,并指出它是一元分布的推廣,也是構(gòu)成其它重要分布的基礎(chǔ)。wishart分布是wishart在1928年推導(dǎo)出來的,而該分布的名稱也即由此得來。定義2.10 設(shè),且相互獨(dú)立,則由組成的隨機(jī)矩陣: (2.19)的分布稱為非中心wisha
25、rt分布,記為。其中,稱為非中心參數(shù);當(dāng)時(shí)稱為中心wishart分布,記為,當(dāng),有密度存在,其表達(dá)式為: (2.20)顯然,當(dāng),時(shí),就是的分布密度,此時(shí)(2.19)式為,有。因此,wishart分布是分布在維正態(tài)情況下的推廣。下面給出wishart分布的基本性質(zhì):若,且相互獨(dú)立,則樣本離差陣,其中。2若,且相互獨(dú)立,則。3若,為非奇異陣,則。這里我們有必要說明一下什么是隨機(jī)矩陣的分布。隨機(jī)矩陣的分布有不同的定義,此處是利用已知向量分布的定義給出矩陣分布的定義。這里我們有必要說明一下什么是隨機(jī)矩陣的分布。隨機(jī)矩陣的分布有不同的定義,此處是利用已知向量分布的定義給出矩陣分布的定義。設(shè)隨機(jī)矩陣 將該
26、矩陣的列向量(或行向量)一個(gè)接一個(gè)地連接起來,組成一個(gè)長(zhǎng)的向量,即拉直向量:的分布定義為該陣的分布。若為對(duì)稱陣時(shí),由于,故只取其下三角部分組成的拉直向量,即。.第三章 多元正態(tài)分布均值向量和協(xié)差陣的檢驗(yàn)第一節(jié) 引言 在單一變量的統(tǒng)計(jì)分析中,已經(jīng)給出了正態(tài)總體n( m, s2) 的均值m和方差s2的各種檢驗(yàn)。對(duì)于多變量的正態(tài)總體np( m, ) ,各種實(shí)際問題同樣要求對(duì)m和進(jìn)行統(tǒng)計(jì)推斷。例如,我們要考察全國(guó)各省、自治區(qū)和直轄市的社會(huì)經(jīng)濟(jì)發(fā)展?fàn)顩r,與全國(guó)平均水平相比較有無顯著性差異等,就涉及到多元正態(tài)總體均值向量的檢驗(yàn)問題等。本章類似單一變量統(tǒng)計(jì)分析中的各種均值和方差的檢驗(yàn),相應(yīng)地給出多元統(tǒng)計(jì)分析
27、中的各種均值向量和協(xié)差陣的檢驗(yàn)。 其基本思想和步驟均可歸納為: 第一,提出待檢驗(yàn)的假設(shè)h0和h1;第二,給出檢驗(yàn)的統(tǒng)計(jì)量及其服從的分布;第三,給定檢驗(yàn)水平,查統(tǒng)計(jì)量的分布表,確定相應(yīng)的臨界值,從而得到否定域;第四,根據(jù)樣本觀測(cè)值計(jì)算出統(tǒng)計(jì)量的值,看是否落入否定域中,以便對(duì)待判假設(shè)做出決策(拒絕或接受)。在檢驗(yàn)的過程中,關(guān)鍵在于對(duì)不同的檢驗(yàn)給出不同的統(tǒng)計(jì)量,而有關(guān)統(tǒng)計(jì)量的給出大多用似然比方法得到。由于多變量問題的復(fù)雜性,本章只側(cè)重于解釋選取統(tǒng)計(jì)量的合理性,而不給出推導(dǎo)過程,最后給出幾個(gè)實(shí)例。為了更好的說明檢驗(yàn)過程中統(tǒng)計(jì)量的分布,本章還要介紹hotellingt2分布和wilks分布的定義。第二節(jié)
28、 均值向量的檢驗(yàn) 一、單一變量檢驗(yàn)的回顧及hotellingt2分布為了對(duì)多元正態(tài)總體均值向量作檢驗(yàn),首先需要給出hotellingt2分布的定義。在單一變量的檢驗(yàn)問題中,設(shè)來自總體的樣本,我們要檢驗(yàn)假設(shè)當(dāng)已知時(shí),用統(tǒng)計(jì)量 (3.1)其中,為樣本均值。當(dāng)假設(shè)成立時(shí),統(tǒng)計(jì)量服從正態(tài)分布,從而否定域?yàn)椋瑸榈纳戏治稽c(diǎn)。當(dāng)未知時(shí),用 (3.2)作為的估計(jì)量,用統(tǒng)計(jì)量: (3.3)來做檢驗(yàn)。當(dāng)假設(shè)成立時(shí),統(tǒng)計(jì)量服從自由度為的分布,從而否定域?yàn)椋瑸樽杂啥葹榈姆植忌系姆治稽c(diǎn)。 這里我們應(yīng)該注意到,(3.3)式可以表示為 (3.4)對(duì)于多元變量而言,可以將分布推廣為下面將要介紹的hotelling分布。定義3
29、.1 設(shè),且與相互獨(dú)立,則稱統(tǒng)計(jì)量的分布為非中心hotellingt2分布,記為。當(dāng)時(shí),稱服從(中心)hotelling分布。記為。由于這一統(tǒng)計(jì)量的分布首先由harold hotelling 提出來的,故稱為hotelling分布,值得指出的是,我國(guó)著名統(tǒng)計(jì)學(xué)家許寶祿先生在1938年用不同方法也導(dǎo)出分布的密度函數(shù),因表達(dá)式很復(fù)雜,故略去。在單一變量統(tǒng)計(jì)分析中,若統(tǒng)計(jì)量分布,則分布,即把分布的統(tǒng)計(jì)量轉(zhuǎn)化為統(tǒng)計(jì)量來處理,在多元統(tǒng)計(jì)分析中統(tǒng)計(jì)量也具有類似的性質(zhì)。定理3.1 若,且與相互獨(dú)立,令,則 (3.5)在我們后面所介紹的檢驗(yàn)問題中,經(jīng)常會(huì)用到這一性質(zhì)。設(shè)是來自維正態(tài)總體的樣本,且,。(一) 協(xié)
30、差陣已知時(shí)均值向量的檢驗(yàn)(為已知向量)假設(shè)成立,檢驗(yàn)統(tǒng)計(jì)量為 (3.6)給定檢驗(yàn)水平,查分布表使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里要對(duì)統(tǒng)計(jì)量的選取做一些解釋,為什么該統(tǒng)計(jì)量服從分布。根據(jù)二次型分布定理知道,若,則。顯然,其中,因此,(二)協(xié)差陣未知時(shí)均值向量的檢驗(yàn)(為已知向量)假設(shè)成立,檢驗(yàn)統(tǒng)計(jì)量為 (3.7)其中,給定檢驗(yàn)水平,查分布表,使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里需要解釋的是,當(dāng)未知時(shí),自然想到要用樣本協(xié)差陣取代替,因是的無偏估計(jì)量,而樣本離差陣 由定義3.1知 再根據(jù)hotelling 分布的性質(zhì),所以 在處理實(shí)際問題時(shí),單
31、一變量的檢驗(yàn)和多變量檢驗(yàn)可以聯(lián)合使用,多元的檢驗(yàn)具有概括和全面考察的特點(diǎn),而一元的檢驗(yàn)容易發(fā)現(xiàn)各變量之間的關(guān)系和差異,能給人們提供更多的統(tǒng)計(jì)分析信息。三、兩個(gè)正態(tài)總體均值向量的檢驗(yàn)(一)當(dāng)協(xié)差陣相等時(shí),兩個(gè)正態(tài)總體均值向量的檢驗(yàn)設(shè),為來自維正態(tài)總體的容量為的樣本;,為來自維正態(tài)總體的容量為的樣本。兩組樣本相互獨(dú)立,且,。1針對(duì)有共同已知協(xié)差陣的情形對(duì)假設(shè) 進(jìn)行檢驗(yàn)。對(duì)此問題,假設(shè)成立時(shí),所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為 (3.8)給出檢驗(yàn)水平,查分布表使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里,我們應(yīng)該注意到,在單一變量統(tǒng)計(jì)中進(jìn)行均值相等檢驗(yàn)所給出的統(tǒng)計(jì)量為 顯然此式恰為上邊統(tǒng)計(jì)量當(dāng)
32、時(shí)的情況,不難看出這里給出的檢驗(yàn)統(tǒng)計(jì)量是單一變量檢驗(yàn)情況的推廣。2針對(duì)有共同的未知協(xié)差陣的情形對(duì)假設(shè) 進(jìn)行檢驗(yàn)。對(duì)此問題,假設(shè)成立時(shí),所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為 (3.9)其中, , , 給定檢驗(yàn)水平,查分布表,使,可確定出臨界值,再用樣本值計(jì)算出,若,則否定,否則接受。這里我們需要解釋的是,當(dāng)兩個(gè)總體的協(xié)差陣未知時(shí),自然想到用每個(gè)總體的樣本協(xié)差陣和去代替,而 從而。又由于 所以 下述假設(shè)檢驗(yàn)統(tǒng)計(jì)量的選取和前邊統(tǒng)計(jì)量的選取思路是一樣的,以下只提出待檢驗(yàn)的假設(shè),然后給出統(tǒng)計(jì)量及其分布,為節(jié)省篇幅,不做重復(fù)解釋。(二)協(xié)差陣不等時(shí),兩個(gè)正態(tài)總體均值向量的檢驗(yàn)設(shè)從兩個(gè)總體和中,分別抽取兩個(gè)樣本,即,;,其
33、容量分別為和,且兩組樣本相互獨(dú)立,。對(duì)假設(shè) 進(jìn)行檢驗(yàn)。1針對(duì)的情形令 假設(shè)成立時(shí),構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為 (3.10) 2針對(duì)的情形 在此,我們不妨假設(shè),令 假設(shè)成立時(shí),構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為 四、多個(gè)正態(tài)總體均值向量的檢驗(yàn)解決多個(gè)正態(tài)總體均值向量的檢驗(yàn)問題,實(shí)際上應(yīng)用到多元方差分析的知識(shí)。多元方差分析是單因素方差分析直接的推廣。為了容易理解多元方差分析方法,我們有必要先回顧單因素方差分析方法。(一)單因素方差分析的基本思想及wilks分布設(shè)個(gè)正態(tài)總體分別為,從個(gè)總體取個(gè)獨(dú)立樣本如下: 假設(shè)成立時(shí),構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為 (3.11) 這里稱為組間平方和; 稱為組內(nèi)平方和;稱為總平方和。其中 給定檢驗(yàn)水平,查分
34、布表,使,可確定出臨界值,再用樣本值計(jì)算出值,若,則否定,否則接受。定義3.2 若,則稱協(xié)差陣的行列式為的廣義方差。稱為樣本廣義方差。其中。定義3.3 若,且和相互獨(dú)立,則稱 為wilks統(tǒng)計(jì)量,的分布稱為wilks分布,簡(jiǎn)記為,其中為自由度。這里我們需要說明的是,在實(shí)際應(yīng)用中經(jīng)常把統(tǒng)計(jì)量化為統(tǒng)計(jì)量進(jìn)而化為統(tǒng)計(jì)量,利用統(tǒng)計(jì)量來解決多元統(tǒng)計(jì)分析中有關(guān)檢驗(yàn)問題。表3.1列舉常見的一些情形。表3.1 與統(tǒng)計(jì)量的關(guān)系統(tǒng)計(jì)量及分別任意任意1任意任意21任意任意2任意任意以上幾個(gè)關(guān)系式說明對(duì)一些特殊的統(tǒng)計(jì)量可以化為統(tǒng)計(jì)量,而當(dāng),時(shí),可用統(tǒng)計(jì)量或統(tǒng)計(jì)量來近似表示,后面給出。(二)多元方差分析法設(shè)有個(gè)維正態(tài)總
35、體,從每個(gè)總體抽取獨(dú)立樣本個(gè)數(shù)分別為,每個(gè)樣品觀測(cè)個(gè)指標(biāo)得觀測(cè)數(shù)據(jù)如下: 第一個(gè)總體: ,第二個(gè)總體: , 第個(gè)總體: ,全部樣品的總均值向量: 各總體樣品的均值向量: ,此處 類似一元方差分析辦法,將諸平方和變成了離差陣即: 這里,我們稱為組間離差陣;為組內(nèi)離差陣;為總離差陣。很顯然有 。我們的問題是檢驗(yàn)假設(shè) 用似然比原則構(gòu)成的檢驗(yàn)統(tǒng)計(jì)量為 (3.13)給定檢驗(yàn)水平,查wilks分布表,確定臨界值,然后作出統(tǒng)計(jì)判斷。在這里我們特別要注意,wilks分布表可用分布或分布來近似。巴特萊特(bartlett)提出了用分布來近似。設(shè),令 (3.14)則近似服從分布。其中,。rao后來又研究用分布來近
36、似。設(shè),令 (3.15)則近似服從,這里不一定為整數(shù),可用與它最近的整數(shù)來作為的自由度,且。其中, 第三節(jié) 協(xié)差陣的檢驗(yàn) 一、一個(gè)正態(tài)總體協(xié)差陣的檢驗(yàn)設(shè)來自維正態(tài)總體的樣本,未知,且。首先,我們考慮檢驗(yàn)假設(shè) 所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為 (3.16)其中 然后,我們考慮檢驗(yàn)假設(shè) 因?yàn)椋源嬖?),使得。令 則 因此,檢驗(yàn)等價(jià)于檢驗(yàn)此時(shí)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為 (3.17)其中 給定檢驗(yàn)水平,因?yàn)橹苯佑煞植加?jì)算臨界值很困難,所以通常采用的近似分布。在成立時(shí),極限分布是分布。因此當(dāng),由樣本值計(jì)算出值,若即,則拒絕,否則接受。設(shè)有個(gè)正態(tài)總體分別為,且未知,。從個(gè)總體分別取個(gè)樣本 ;這里為總樣本容量。我們考慮檢驗(yàn)假
37、設(shè) 構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為 (3.18)其中 巴特萊特(bartlett)建議 ,將改為,從而變?yōu)?,變換以后的記為,稱為修正的統(tǒng)計(jì)量,則近似分布。 其中 第四章 判別分析第一節(jié) 引言在我們的日常生活和工作實(shí)踐中,常常會(huì)遇到判別分析問題,即根據(jù)歷史上劃分類別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個(gè)新的樣本歸屬哪一類。例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個(gè)患者若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)?,F(xiàn)在想利用現(xiàn)有的這些資料找出一種方法,使得對(duì)于一個(gè)新的病人,當(dāng)測(cè)得這些癥狀指標(biāo)數(shù)據(jù)時(shí),能夠判定其患有哪種病。又如,在天氣預(yù)報(bào)中,我們有一段較長(zhǎng)時(shí)間關(guān)于某地區(qū)每天氣象的記錄資料(晴陰雨
38、、氣溫、氣壓、濕度等),現(xiàn)在想建立一種用連續(xù)五天的氣象資料來預(yù)報(bào)第六天是什么天氣的方法。這些問題都可以應(yīng)用判別分析方法予以解決。把這類問題用數(shù)學(xué)語(yǔ)言來表達(dá),可以敘述如下:設(shè)有n個(gè)樣本,對(duì)每個(gè)樣本測(cè)得p項(xiàng)指標(biāo)(變量)的數(shù)據(jù),已知每個(gè)樣本屬于k個(gè)類別(或總體)g1,g2, ,gk中的某一類,且它們的分布函數(shù)分別為f1(x),f2(x), ,fk(x)。我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來,并對(duì)測(cè)得同樣p項(xiàng)指標(biāo)(變量)數(shù)據(jù)的一個(gè)新樣本,能判定這個(gè)樣本歸屬于哪一類。判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分,有兩
39、個(gè)總體判別分析和多總體判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;按判別時(shí)所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,按判別準(zhǔn)則的不同又提出多種判別方法。本章僅介紹常用的幾種判別分析方法:距離判別法、fisher判別法、bayes判別法和逐步判別法。第二節(jié) 距離判別法一、馬氏距離的概念設(shè)維歐氏空間中的兩點(diǎn)和,通常我們所說的兩點(diǎn)之間的距離,是指歐氏距離,即 (4.1)在解決實(shí)際問題時(shí),特別是針對(duì)多元數(shù)據(jù)的分析問題,歐
40、氏距離就顯示出了它的薄弱環(huán)節(jié)。第一、設(shè)有兩個(gè)正態(tài)總體,和,現(xiàn)有一個(gè)樣品位于如圖4.1所示的點(diǎn),距總體的中心遠(yuǎn),距總體的中心遠(yuǎn),那么,點(diǎn)處的樣品到底離哪一個(gè)總體近呢?若按歐氏距離來量度,點(diǎn)離總體要比離總體 “近一些”。但是,從概率的角度看,點(diǎn)位于右側(cè)的處,而位于左側(cè)處,應(yīng)該認(rèn)為點(diǎn)離總體“近一些”。顯然,后一種量度更合理些。第二、設(shè)有量度重量和長(zhǎng)度的兩個(gè)變量與,以單位分別為kg和cm得到樣本,。今按照歐氏距離計(jì)算,有; 如果我們將長(zhǎng)度單位變?yōu)閙m,那么,有; 量綱的變化,將影響歐氏距離計(jì)算的結(jié)果。為此,我們引入一種由印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(mahalanobis, 1936)提出的“馬氏距離
41、”的概念。設(shè)和是來自均值向量為,協(xié)方差為的總體中的維樣本,則總體內(nèi)兩點(diǎn)與之間的馬氏距離定義為 (4.2) 定義點(diǎn)到總體的馬氏距離為 (4.3) 這里應(yīng)該注意到,當(dāng)(單位矩陣)時(shí),即為歐氏距離的情形。二、距離判別的思想及方法1、兩個(gè)總體的距離判別問題問題:設(shè)有協(xié)方差矩陣相等的兩個(gè)總體g1和g2,其均值分別是m1和m 2,對(duì)于一個(gè)新的樣品x,要判斷它來自哪個(gè)總體。一般的想法是計(jì)算新樣品x到兩個(gè)總體的馬氏距離d2(x,g1)和d2(x,g2),并按照如下的判別規(guī)則進(jìn)行判斷 (4.4)這個(gè)判別規(guī)則的等價(jià)描述為:求新樣品x到g1的距離與到g2的距離之差,如果其值為正,x屬于g2;否則x屬于g1。 我們考
42、慮 其中是兩個(gè)總體均值的平均值,記 (4.5)則判別規(guī)則(4.4)式可表示為 (4.6)這里稱為兩總體距離判別的判別函數(shù),由于它是的線性函數(shù),故又稱為線性判別函數(shù),稱為判別系數(shù)。在實(shí)際應(yīng)用中,總體的均值和協(xié)方差矩陣一般是未知的,可由樣本均值和樣本協(xié)方差矩陣分別進(jìn)行估計(jì)。設(shè)來自總體的樣本,是來自總體的樣本,和的一個(gè)無偏估計(jì)分別為 和 的一個(gè)聯(lián)合無偏估計(jì)為 這里 此時(shí),兩總體距離判別的判別函數(shù)為 其中,。這樣,判別規(guī)則為 (4.7)n 這里我們應(yīng)該注意到:(1) 當(dāng),和的分布分別為和時(shí),均為已知,且,則判別系數(shù)為,判別函數(shù)為判別規(guī)則為(2) 當(dāng),時(shí),我們采用(4.4)式作為判別規(guī)則的形式。選擇判別
43、函數(shù)為它是的二次函數(shù),相應(yīng)的判別規(guī)則為2、多個(gè)總體的距離判別問題問題:設(shè)有個(gè)總體,其均值和協(xié)方差矩陣分別是和,而且。對(duì)于一個(gè)新的樣品,要判斷它來自哪個(gè)總體。該問題與兩個(gè)總體的距離判別問題的解決思想一樣。計(jì)算新樣品到每一個(gè)總體的距離,即 4.8)這里,。由(4.8)式,可以取線性判別函數(shù)為, 相應(yīng)的判別規(guī)則為 如果 (4.9)針對(duì)實(shí)際問題,當(dāng)和均未知時(shí),可以通過相應(yīng)的樣本值來替代。設(shè)是來自總體中的樣本(),則()和可估計(jì)為, 和 , 其中 同樣,我們注意到,如果總體的協(xié)方差矩陣分別是,而且它們不全相等,則計(jì)算到各總體的馬氏距離,即 則判別規(guī)則為 如果 (4.10)當(dāng)和均未知時(shí),()的估計(jì)同前,(
44、)的估計(jì)為, 三、判別分析的實(shí)質(zhì)我們知道,判別分析就是希望利用已經(jīng)測(cè)得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來。為了更清楚的認(rèn)識(shí)判別分析的實(shí)質(zhì),以便能靈活的應(yīng)用判別分析方法解決實(shí)際問題,我們有必要了解“劃分”這樣概念。設(shè)r1,r2,rk是p維空間r p的k個(gè)子集,如果它們互不相交,且它們的和集為r p,則稱r1,r2, ,rk為r p的一個(gè)劃分。在兩個(gè)總體的距離判別問題中,利用可以得到空間的一個(gè)劃分 (4.11)新的樣品落入推斷,落入推斷這樣我們將會(huì)發(fā)現(xiàn),判別分析問題實(shí)質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對(duì)p維空間r p構(gòu)造一個(gè)“劃分”
45、,這個(gè)“劃分”就構(gòu)成了一個(gè)判別規(guī)則。這一思想將在后面的各節(jié)中體現(xiàn)的更加清楚。 第三節(jié) 貝葉斯(bayes)判別法從上節(jié)看距離判別法雖然簡(jiǎn)單,便于使用。但是該方法也有它明顯的不足之處。第一,判別方法與總體各自出現(xiàn)的概率的大小無關(guān);第二,判別方法與錯(cuò)判之后所造成的損失無關(guān)。bayes判別法就是為了解決這些問題而提出的一種判別方法。一、bayes判別的基本思想問題:設(shè)有個(gè)總體,其各自的分布密度函數(shù)互不相同的,假設(shè)個(gè)總體各自出現(xiàn)的概率分別為(先驗(yàn)概率),。假設(shè)已知若將本來屬于總體的樣品錯(cuò)判到總體時(shí)造成的損失為,。在這樣的情形下,對(duì)于新的樣品判斷其來自哪個(gè)總體。下面我們對(duì)這一問題進(jìn)行分析。首先應(yīng)該清楚、
46、,對(duì)于任意的成立。設(shè)個(gè)總體相應(yīng)的維樣本空間為 ,即為一個(gè)劃分,故我們可以簡(jiǎn)記一個(gè)判別規(guī)則為。從描述平均損失的角度出發(fā),如果原來屬于總體且分布密度為的樣品,正好取值落入了,我們就將會(huì)錯(cuò)判為屬于。故在規(guī)則下,將屬于的樣品錯(cuò)判為的概率為 如果實(shí)屬的樣品,錯(cuò)判到其它總體所造成的損失為,則這種判別規(guī)則對(duì)總體而言,樣品錯(cuò)判后所造成的平均損失為 其中由于個(gè)總體出現(xiàn)的先驗(yàn)概率分別為,則用規(guī)則來進(jìn)行判別所造成的總平均損失為 (4.12)所謂bayes判別法則,就是要選擇,使得(4.12)式表示的總平均損失達(dá)到極小。二、bayes判別的基本方法設(shè)每一個(gè)總體的分布密度為,來自總體的樣品被錯(cuò)判為來自總體()時(shí)所造成的
47、損失記為,并且。那么,對(duì)于判別規(guī)則產(chǎn)生的誤判概率記為,有如果已知樣品x來自總體gi 的先驗(yàn)概率為qi,則在規(guī)則r下,由(4.12)式知,誤判的總平均損失為 (4.13)令,那么,(4.13)式為 如果空間有另一種劃分,則它的總平均損失為那么,在兩種劃分下的總平均損失之差為 (4.14) 由的定義,在上對(duì)一切成立,故(4.14)式小于或等于零,這說明確能使總平均損失達(dá)到極小,它是bayes判別的解。這樣,我們以bayes判別的思想得到的劃分為 (4.15)具體說來,當(dāng)抽取了一個(gè)未知總體的樣本值,要判斷它屬于哪個(gè)總體,只要前計(jì)算出個(gè)按先驗(yàn)分布加權(quán)的誤判平均損失 (4.16)然后比較這個(gè)誤判平均損失
48、的大小,選取其中最小的,則判定樣品來自該總體。這里我們看一個(gè)特殊情形,當(dāng)時(shí),由(4.16)式得 從而 若令 , 則判別規(guī)則可表示為 (4.17)如果在此,與分別為和,那么其中由(4.5)所定義。于是,判定樣品來自該總體時(shí),判別規(guī)則(4.17)成 (4.18)對(duì)比判別規(guī)則(4.6),唯一的差別僅在于閾值點(diǎn),(4.6)用0作為閾值點(diǎn),而這里用。當(dāng),時(shí),則(4.6)與(4.18)完全一致。第四節(jié) 費(fèi)歇(fisher)判別法fisher判別法是1936年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個(gè)方向上,投影的原則是將總體與總體之間盡可能的放開,然后再選擇合適的判別規(guī)則,將新的樣品進(jìn)行分類判別
49、。一、fisher判別的基本思想從個(gè)總體中抽取具有個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)線性判別函數(shù) (4.19)其中系數(shù)確定的原則是使得總體之間區(qū)別最大,而使每個(gè)總體內(nèi)部的離差最小。有了線性判別函數(shù)后,對(duì)于一個(gè)新的樣品,將它的個(gè)指標(biāo)值代入線性判別函數(shù)(4.19)式中求出值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個(gè)總體。二、fisher判別函數(shù)的構(gòu)造1、針對(duì)兩個(gè)總體的情形假設(shè)有兩個(gè)總體,其均值分別為和,協(xié)方差矩陣為和。當(dāng)時(shí),我們可以求出的均值和方差,即, , 在求線性判別函數(shù)時(shí),盡量使得總體之間差異大,也就是要求盡可能的大,即變大;同時(shí)要求每一個(gè)總體內(nèi)的離差平方和最小,即,
50、則我們可以建立一個(gè)目標(biāo)函數(shù) (4.20)這樣,將問題轉(zhuǎn)化為,尋找使得目標(biāo)函數(shù)達(dá)到最大。從而可以構(gòu)造出所要求的線性判別函數(shù)。2、針對(duì)多個(gè)總體的情形假設(shè)有個(gè)總體,其均值和協(xié)方差矩陣分別為和()。同樣,我們考慮線性判別函數(shù),在的條件下,有 令 其中,。這里相當(dāng)于一元方差分析中的組間差相當(dāng)于組內(nèi)差,應(yīng)用方差分析的思想,選擇使得目標(biāo)函數(shù)(4.21)達(dá)到極大。這里我們應(yīng)該說明的是,如果我們得到線性判別函數(shù),對(duì)于一個(gè)新的樣品可以這樣構(gòu)造一個(gè)判別規(guī)則,如果(4.22)則判定來自總體。三、線性判別函數(shù)的求法針對(duì)多個(gè)總體的情形,我們討論使目標(biāo)函數(shù)(4.21)式達(dá)到極大的求法。設(shè)為維空間的樣品,那么 其中 注意到
51、從而 這里, 為的單位陣,。即有 (4.23)求使得(4.23)式達(dá)到極大的。為了確保解的唯一性,不妨設(shè),這樣問題轉(zhuǎn)化為,在的條件下,求使得式達(dá)到極大??紤]目標(biāo)函數(shù) (4.24)對(duì)(4.24)式求導(dǎo),有對(duì)(4.25)式兩邊同乘,有 從而,的極大值為。再用左乘(4.25)式,有 (4.27)由(4.27)式說明為特征值,為的特征向量。在此最大特征值所對(duì)應(yīng)的特征向量為我們所求結(jié)果。這里值得注意的是,本書有幾處利用極值原理求極值時(shí),只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因?yàn)樵趯?shí)際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點(diǎn)只有一個(gè),這時(shí)就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點(diǎn)就是所求的最大值(或最小值)。為了避免用較多的數(shù)學(xué)知識(shí)或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。在解決實(shí)際問題時(shí),當(dāng)總體參數(shù)未知,需要通過樣本來估計(jì),我們僅對(duì)的情形加以說明。設(shè)樣本分別為和,則 那么 當(dāng)和均未知時(shí),()的估計(jì)同前,()的估計(jì)為, 第五章 聚類分析第一節(jié) 引言“物以類聚,人以群分”。對(duì)事物進(jìn)行分類,是人們認(rèn)識(shí)事物的出發(fā)點(diǎn),也是人們認(rèn)識(shí)世界的一種重要方法。因此,分類學(xué)已成為人們認(rèn)識(shí)世界的一門基礎(chǔ)科學(xué)。在生物、經(jīng)濟(jì)、社會(huì)、人口等領(lǐng)域的研究中,存在著大量量化分類研究。例如:在生物學(xué)中,為了研究生物的演變,生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度農(nóng)業(yè)保險(xiǎn)代理與服務(wù)合同
- 2025年度高端制造裝備研發(fā)股權(quán)投資及市場(chǎng)拓展合同
- 二零二五年度南昌商品房買賣合同2025版標(biāo)準(zhǔn)文本
- 2025年度個(gè)人門面出租合同附贈(zèng)增值服務(wù)范本3篇
- 2025年度鋼材運(yùn)輸服務(wù)合同模板
- 二零二五年度跨境電商進(jìn)口生鮮食品采購(gòu)合同范本4篇
- 華為認(rèn)證智能協(xié)作中級(jí) HCIP-Collaboration H11-861考試題庫(kù)及答案
- 2025年度汽車租賃車輛租賃價(jià)格調(diào)整合同6篇
- 2025年度模具行業(yè)學(xué)徒培養(yǎng)用工合同示范4篇
- 2025年度南匯工商行政管理志編纂服務(wù)合同4篇
- 農(nóng)村自建房安全合同協(xié)議書
- 《教科版》二年級(jí)科學(xué)下冊(cè)全冊(cè)課件(完整版)
- 杜仲葉藥理作用及臨床應(yīng)用研究進(jìn)展
- 4S店售后服務(wù)6S管理新規(guī)制度
- 高性能建筑鋼材的研發(fā)與應(yīng)用
- 無線廣播行業(yè)現(xiàn)狀分析
- 漢語(yǔ)言溝通發(fā)展量表(長(zhǎng)表)-詞匯及手勢(shì)(8-16月齡)
- 高速公路相關(guān)知識(shí)講座
- 兒科關(guān)于抗生素使用的PDCA
- 小學(xué)生必備古詩(shī)
- 手術(shù)室護(hù)理實(shí)踐指南2023年
評(píng)論
0/150
提交評(píng)論