同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第1頁(yè)
同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第2頁(yè)
同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第3頁(yè)
同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第4頁(yè)
同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元統(tǒng)計(jì)復(fù)習(xí)概要1 考試范圍 本次考試共分作9個(gè)考點(diǎn),其中有4個(gè)考點(diǎn):抽樣分布、方差分析、卡方檢驗(yàn)以及回歸分析是老師課件上的內(nèi)容,多元正態(tài)分布、均值向量、協(xié)方差矩陣、聚類分析、主成分分析以及因子分析5個(gè)考點(diǎn)均為書本上的內(nèi)容??瓷先?nèi)容很多,實(shí)質(zhì)上除了最后兩個(gè)考點(diǎn)計(jì)算涉及到矩陣和行列式的運(yùn)算外,其他的都基本只是將數(shù)值代入公式進(jìn)行計(jì)算,掌握其原理就行了。2 題型: A卷:1道簡(jiǎn)答題,7道計(jì)算題 B卷:3道簡(jiǎn)答題,5道計(jì)算題 根據(jù)本校生透露,同濟(jì)考試一般來(lái)說(shuō)都采用A卷3 預(yù)備知識(shí) 數(shù)理統(tǒng)計(jì): (1)假設(shè)檢驗(yàn):z檢驗(yàn)、t檢驗(yàn)都可以針對(duì)均值的檢驗(yàn),卡方(2)檢驗(yàn)是針對(duì)方差的檢驗(yàn),z檢驗(yàn)是針對(duì)樣本比例的檢驗(yàn)。(2)點(diǎn)估計(jì)以及區(qū)間估計(jì):與參數(shù)的假設(shè)檢驗(yàn)是一個(gè)問(wèn)題的兩個(gè)方面。 線性代數(shù): (1)矩陣的基本運(yùn)算法則 (2)矩陣的相關(guān)性質(zhì),如(正交矩陣、對(duì)稱矩陣、逆矩陣、相似矩陣等性質(zhì)) (3)行列式的基本運(yùn)算法則及基本變換 (4)齊次方程的求解方法 4 考試內(nèi)容:1、抽樣分布a) 比例的區(qū)間估計(jì)、精度、樣本容量的確定說(shuō)明:1)比例的區(qū)間估計(jì)。這是本科學(xué)的數(shù)理統(tǒng)計(jì)的內(nèi)容,有時(shí)間的同學(xué)可以對(duì)照任一本數(shù)理統(tǒng)計(jì)的書中“參數(shù)檢驗(yàn)”章節(jié)進(jìn)行學(xué)習(xí),區(qū)間估計(jì)與單總體的參數(shù)檢驗(yàn)其實(shí)是一個(gè)問(wèn)題的兩個(gè)方面,前者是以一定的把握(如95%)估計(jì)理想的總體參數(shù)(未知)存在于以我們所得的樣本參數(shù)(如平均值、方差、比例)什么樣的允許誤差范圍內(nèi);后者則是已知理想的總體參數(shù),以一定的把握檢驗(yàn)所得的樣本參數(shù)是否在此把握對(duì)應(yīng)的誤差范圍內(nèi)。 2)精度。即d,估計(jì)區(qū)間的誤差大小 3)樣本容量。即n,即需要抽樣的個(gè)數(shù),越大越能達(dá)到精度的要求。公式: 其中,Z為標(biāo)準(zhǔn)正態(tài)分布的分位點(diǎn),p為樣本比例,n為樣本容量,d為誤差大小例題:“抽樣分布和參數(shù)估計(jì)”課件p6061頁(yè)、p702、多元正態(tài)分布 a)數(shù)字特征、性質(zhì) b)馬氏距離、歐氏距離 c)均值向量和協(xié)方差陣的估計(jì)說(shuō)明:a)因?yàn)殡S機(jī)抽樣的樣本是隨機(jī)的,只能由不同的統(tǒng)計(jì)數(shù)字表示,所以我們可用統(tǒng)計(jì)的參數(shù)來(lái)代表所有的統(tǒng)計(jì)樣本,稱作數(shù)字特征。一般來(lái)說(shuō),有三個(gè)參數(shù)最重要,平均值、方差以及樣本比例。從概率論的理想角度來(lái)說(shuō),對(duì)應(yīng)分別就是均值、方差、總體比例。樣本向量指的是有許多個(gè)變量的樣本,于是就成為了向量。對(duì)應(yīng)這個(gè)向量X,于是它的數(shù)字特征也成為了向量,分別對(duì)應(yīng)為均值向量、協(xié)方差矩陣(無(wú)論及樣本比例向量了)。性質(zhì)是不必死記的,考試也不會(huì)直接考,但可通過(guò)概率論的基礎(chǔ)知識(shí)類比得出(參看書本P4P5)。 b)歐氏距離就是n維空間里的距離,沒(méi)有考慮到統(tǒng)計(jì)樣本的概率分布情況,馬氏距離相當(dāng)于是空間距離與概率單位距離的比值。不理解不要緊,直接代入公式計(jì)算就行了。但在這里還要記清楚二元正態(tài)方差的逆矩陣表達(dá)式以及矩陣的相關(guān)運(yùn)算。 c)對(duì)應(yīng)一元統(tǒng)計(jì)的參數(shù)估計(jì),對(duì)于均值向量用平均值的矩陣估計(jì),對(duì)于協(xié)方差均值則用離差陣估計(jì),不過(guò)貌似都不考公式:馬氏距離 p9;二正態(tài)分布的協(xié)方差逆矩陣p11例題:課本p633、均值向量和協(xié)方差陣的檢驗(yàn)說(shuō)明:其實(shí)原理與一元參數(shù)檢驗(yàn)的方法是一致的,只是所用到的檢驗(yàn)函數(shù)不一樣(如t檢驗(yàn)變成了T檢驗(yàn))。但考試應(yīng)該只考p26的均值檢驗(yàn)步驟。4、方差分析 1a) 方差分析的目的、原理b) 單因素方差分析表c) 雙因素方差分析表說(shuō)明:a)本章節(jié)十分重要,是對(duì)那些具有多種影響水平的因素對(duì)實(shí)際試驗(yàn)的影響,簡(jiǎn)而言之,前面的章節(jié)著眼與對(duì)單個(gè)正態(tài)總體的數(shù)字特征的研究;而本章節(jié)則涉及到因變量以及統(tǒng)計(jì)變量(即具有不同水平的因素)之間的關(guān)系,確定因素變量對(duì)因變量的影響顯著性。但是,方差分析并不能得出因變量與自變量的具體線性關(guān)系,只能基于對(duì)統(tǒng)計(jì)數(shù)據(jù)總偏差平方和的分解而進(jìn)行方差分析,進(jìn)而確定其對(duì)試驗(yàn)影響的顯著性。而回歸分析則補(bǔ)充了單純的方差分析所帶來(lái)的缺陷,能夠得出具體的回歸方程。因此,有些教材(概率論與數(shù)理統(tǒng)計(jì),劉次華,高等教育出版社)將方差分析與回歸分析合在一起作為一個(gè)章節(jié)。 b)單因素分析是指僅對(duì)一種影響因素的影響顯著性進(jìn)行分析,目標(biāo)是為了清楚到底試驗(yàn)的總體偏差是由于不同水平效應(yīng)差異(組間平均和)引起的還是由隨機(jī)誤差(組內(nèi)平均和)引起的,于是我們將兩者相除得出F值,看F值是否能通過(guò)F檢驗(yàn),如果能則說(shuō)明該因素對(duì)試驗(yàn)影響十分顯著。 c)雙因素分析與單因素分析的原理是一樣的,只是多了一個(gè)因素,公式上有所調(diào)整。而考慮到因素與因素之間的交互作用的雙因素分析是我們的考試內(nèi)容。的確,在這個(gè)分析里,因素與因素之間的交互作用是最值得我們注意的地方,但是課件上已經(jīng)沒(méi)有將這種交互作用的量化公式給出,證明這題的計(jì)算過(guò)程在考試中是不必考的。對(duì)統(tǒng)計(jì)學(xué)有興趣的同學(xué)可以隨便借一本統(tǒng)計(jì)學(xué)的教材看交互作用效應(yīng)差異是如何用統(tǒng)計(jì)數(shù)據(jù)表示的(統(tǒng)計(jì)學(xué),賈俊平,清華大學(xué)出版社,p270)但是,我們起碼應(yīng)該將方差分析表中各個(gè)字母代表的含義記住,分別是a、b、n;以及記住自由度和F值的計(jì)算公式。公式或表格: 其中,a為A因素的樣本的影響水平,b為B因素的樣本的影響水平,n為每個(gè)交互作用的試驗(yàn)結(jié)果的樣本容量例題:“方差分析”課件:p35385、回歸分析 1a) 回歸分析的主要內(nèi)容和分析步驟b) 一元部分:b0,1c) 回歸方程的顯著性檢驗(yàn)、方差分析表d) 預(yù)測(cè)區(qū)間的近似計(jì)算、精度控制、回歸方程的標(biāo)準(zhǔn)誤差e) 控制:以案例1為例。f) 曲線回歸的分析步驟、線性化說(shuō)明:回歸分析是統(tǒng)計(jì)學(xué)里三大分析之首(主成分分析、判別分析),因?yàn)榧群?jiǎn)單又實(shí)用。過(guò)程和原理我就不必多說(shuō)了,因?yàn)榇蠹叶紝W(xué)了這么久了。0,1是不必我們手算的。只是增加了方程的檢驗(yàn)、預(yù)測(cè)和控制,也是考試的重點(diǎn)所在。c)方程的顯著性檢驗(yàn)其實(shí)就是上一章單因素分析的一個(gè)特例,其中參數(shù)的個(gè)數(shù)就是因素的水平個(gè)數(shù)。此時(shí),我們可以注意到,對(duì)于一元回歸分析:方差分析表中對(duì)應(yīng)a=2(對(duì)應(yīng)兩個(gè)參數(shù)0,1);對(duì)于多元回歸分析,a=p+1,p為解釋變量的個(gè)數(shù)。同樣地,我們需要知道方差分析表的各項(xiàng)指標(biāo)需要我們知道是怎么得來(lái)的。d)方程的預(yù)測(cè)區(qū)間估計(jì)比樣本的區(qū)間估計(jì)要來(lái)的復(fù)雜,有比較多繁瑣的證明,所以同學(xué)們只要記住公式就行了。在運(yùn)用公式的時(shí)候,記得所查t函數(shù)的自由度為N-2,又因?yàn)槲覀兯龅碾p邊區(qū)間估計(jì)(即d),所以用到對(duì)應(yīng)的分位點(diǎn)為/2.這在我們查表時(shí)是需要注意到的。至于SE ,即我們所說(shuō)的殘差平方和,是很容易通過(guò)統(tǒng)計(jì)數(shù)據(jù)計(jì)算出來(lái)的(見(jiàn)“一元回歸”課件p21)e)預(yù)測(cè)與控制是回歸分析里的同一個(gè)問(wèn)題的兩個(gè)方面。前者是已知解釋變量求因變量的區(qū)間;后者是預(yù)設(shè)了因變量的區(qū)間反求解釋變量的控制區(qū)間??刂频挠?jì)算方法是建立在區(qū)間預(yù)測(cè)的基礎(chǔ)上的(此時(shí)假定每一點(diǎn)的區(qū)間估計(jì)值都是常量d),然后將預(yù)設(shè)因變量y代入控制的不等式來(lái)求x。我們需要注意的是分位點(diǎn)選取問(wèn)題以及不等式的建立問(wèn)題,當(dāng)雙側(cè)控制需要用Z檢驗(yàn)的1/2分位點(diǎn),當(dāng)單側(cè)控制是用單側(cè)分位點(diǎn);建立控制不等式時(shí),y的可能最小值(y-d)應(yīng)大于控制值下界;最大值(y+d)應(yīng)小于控制值上界。f)考試基本不考,大家注重曲線回歸的分析步驟和線性化的方法即可。公式或表格:1、方程檢驗(yàn)的方差分析表(一元回歸分析) 注:多元回歸的將自由度1改作p,N-2改作N-p-1 2、一元回歸的區(qū)間預(yù)測(cè)以及控制:注:SE為殘差平方和,N為樣本容量(取的點(diǎn)個(gè)數(shù)),Z為標(biāo)準(zhǔn)正態(tài)分布的分位點(diǎn)值,雙側(cè)控制時(shí)用1/2分位點(diǎn)/2,單側(cè)控制時(shí)則改用單側(cè)分位點(diǎn)。3、 多元回歸的區(qū)間預(yù)測(cè)以及控制(p為解釋變量Xi的個(gè)數(shù)):例題:“回歸分析”課件p2425 ,p36, p4344 “多元回歸分析”課件:p18196、聚類分析 1a) 數(shù)據(jù)標(biāo)準(zhǔn)化、無(wú)量綱化b) 馬氏距離,計(jì)算a) 系統(tǒng)聚類法、基本思想b) 幾種實(shí)施方法c) K-Mean法、思想說(shuō)明:a)主要分標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化以及極差標(biāo)準(zhǔn)化,其實(shí)就是將指標(biāo)無(wú)量綱化的過(guò)程,這個(gè)很容易,套公式。 b)在第2個(gè)考點(diǎn)講過(guò)了,不再贅述。 c)通俗來(lái)講,系統(tǒng)聚類的基本思想就是將樣本按各自指標(biāo)的相似度進(jìn)行分類,剛開(kāi)始每個(gè)樣本自成一小類,然后,小類與小類在分類過(guò)程中按照著某種距離長(zhǎng)短進(jìn)行不斷地匯合,最終匯聚成一個(gè)大類。這些不同的距離正是我們研究的重點(diǎn)所在。 d)即計(jì)算多指標(biāo)樣本之間的距離的各種計(jì)算方法。包括長(zhǎng)距離法(重點(diǎn))、短距離法(重點(diǎn))、重心法、類平均法以及離差平方和法(不考)等。要注意的是在計(jì)算這些距離時(shí)可以采取不同的方法,但在做樣本分類的時(shí)候我們還是將計(jì)算出的距離最短的歸作一類。不同的距離計(jì)算方法會(huì)有不同的分類效果和特點(diǎn),此處不作細(xì)表。 e)K快速聚類法:先按分類要求分作K類,用每一類的重心作為每一類的凝聚點(diǎn),之后比較每個(gè)樣本與這K個(gè)凝聚點(diǎn)的距離,重新確定每個(gè)樣本的所歸的新類;重新分類一遍后,再按照步驟一走一遍,依次類推,直到分類不變?yōu)橹埂5荒芟裣到y(tǒng)距離那樣可以形成譜系聚類圖,即不能了解類與類之間、類內(nèi)部之間的距離關(guān)系,因?yàn)榉诸悢?shù)是預(yù)設(shè)的。公式:分類時(shí),都用的是歐氏距離的公式,只是距離的主體以及選取距離的方法不一樣。例題:書本:p7173,老師所給的K聚類例題7、卡方檢驗(yàn)a) 總體分布的卡方檢驗(yàn)、思想原理b) 兩個(gè)比例差異的檢驗(yàn)c) 獨(dú)立性檢驗(yàn)d) 兩個(gè)相關(guān)樣本比例差異檢驗(yàn)說(shuō)明:a)在以往我們學(xué)過(guò)的但總體正態(tài)分布的比例檢驗(yàn)當(dāng)中,對(duì)比例的檢驗(yàn)用到的還是Z檢驗(yàn),如今從另一個(gè)角度出發(fā),針對(duì)多個(gè)正態(tài)總體的比例進(jìn)行卡方檢驗(yàn),不僅僅大大降低了計(jì)算強(qiáng)度,還能夠?qū)哂卸嘀笜?biāo)的正態(tài)主體進(jìn)行檢驗(yàn),其參數(shù)檢驗(yàn)的范圍可以說(shuō)是大大擴(kuò)展了。 b)在復(fù)習(xí)總體間的比例差異檢驗(yàn)的時(shí)候,不妨可以對(duì)比一下這個(gè)與方差分析的差別(形式相似但實(shí)質(zhì)差異很大),在兩個(gè)總體的比例檢驗(yàn)中,其實(shí)只有一個(gè)因子(酒店),每個(gè)存在兩個(gè)水平(酒店1和2),但是這兩個(gè)水平是獨(dú)立的,其和是一個(gè)常數(shù)ni(即樣本i的容量),我們的研究對(duì)象是在每個(gè)水平下的結(jié)果(成功或失?。?。而且,它并非如方差分析那樣是分析樣本的具體指標(biāo)值,而是分析樣本的頻數(shù)。有了這樣的類比之后,可能對(duì)兩種統(tǒng)計(jì)分析方法都會(huì)有比較清楚的理解。 c)相較于比例差異檢驗(yàn),獨(dú)立性檢驗(yàn)就是多引入了一個(gè)因子(例題中是不入住的理由),而且每個(gè)因子都有2個(gè)或2個(gè)以上的水平(酒店n),我們研究的對(duì)象是在不同因子的不同水平下的頻數(shù)大小,從而分析這兩種因子是否獨(dú)立。還得注意卡方檢驗(yàn)函數(shù)的自由度為(a-1)(b-1),a、b為兩個(gè)因子的水平多少。d)因?yàn)橐胍粋€(gè)條件,這個(gè)條件使得原來(lái)的一個(gè)的因子(酒店)變作了兩個(gè)(改革前的酒店和改革后的酒店),并且這兩個(gè)因子(即樣本)存在相關(guān)關(guān)系,如今的研究目的就集中在了二者之間的差異性上。還有另一個(gè)區(qū)別就是最后的檢驗(yàn)用到的方法是Z檢驗(yàn),在通過(guò)顯著性檢驗(yàn)后,我們還可以通過(guò)比較樣本比例得出樣本比例的變化趨勢(shì)。公式:1、兩個(gè)比例差異檢驗(yàn): 注:其中f0為列聯(lián)表中特定單元的觀測(cè)頻數(shù),fe為列聯(lián)表中特定單元的期望頻數(shù)。,ni為第i個(gè)因子的樣本容量, 即為比例估計(jì)值 2、獨(dú)立性檢驗(yàn) 其他同比例差異檢驗(yàn),只是對(duì)于每一個(gè)單元格來(lái)說(shuō),都有各自不一樣的期望頻數(shù)。 3、相關(guān)樣本的比例差異檢驗(yàn) 檢驗(yàn)此統(tǒng)計(jì)量Z能否通過(guò)z檢驗(yàn),能通過(guò)則說(shuō)明兩個(gè)樣本存在顯著差異。例題:“卡方檢驗(yàn)與非參數(shù)檢驗(yàn)”課件 p1417;p2529;p33348、主成分分析 1e) 思想、累計(jì)貢獻(xiàn)率、信息提取率f) 計(jì)算過(guò)程、例題9、因子分析 1a) 因子分析模型b) 各個(gè)符號(hào)(aij、hi2、gj2)的統(tǒng)計(jì)學(xué)意義c) 利用主成分法尋找因子分析模型、計(jì)算說(shuō)明:這兩章聯(lián)系的太緊密了,必須合起來(lái)講。 1)這是本次考試當(dāng)中技術(shù)含量比較高的章節(jié),詳細(xì)原理什么的我就直接略去了,因?yàn)檎f(shuō)起來(lái)又一大通了,大家容易煩。簡(jiǎn)單來(lái)說(shuō),主成分分析就是用幾個(gè)X的線性組合來(lái)表示幾個(gè)Y,因子分析則用幾個(gè)X的線性組合來(lái)表示幾個(gè)Y。前者是為了能將指標(biāo)減少到幾個(gè)(即方差的重新分配);后者則是為了能夠找到指標(biāo)之間的共性(同樣是方差的重新分配)。共同點(diǎn)是同樣用方差來(lái)表示指標(biāo)的信息量,原始方差損失越少代表信息損失越少。課件上說(shuō),因子分析比主成分分析更加有實(shí)際的意義,這個(gè)問(wèn)題可以留待大家去挖掘。2)概念說(shuō)明:累計(jì)貢獻(xiàn)率:每個(gè)Yi特征值通過(guò)排序所加起來(lái)占總方差的百分比(可以證明Yi的總方差等于Xi的總方差),表示從前幾個(gè)主成分中提取總信息的百分比。信息提取率:每個(gè)主成分對(duì)Xi貢獻(xiàn)的方差與Xi總方差的比值,表示前幾個(gè)主成分提取了某個(gè)變量的信息的百分比aij: Xi與Fj之間的協(xié)方差。若Xi為各分量已標(biāo)準(zhǔn)化了的隨機(jī)變量,則aij為Xi與Fj之間的相關(guān)系數(shù) hi2:反映了公共因子對(duì)Xi的影響,可以看成是公共因子對(duì)Xi的方差貢獻(xiàn),稱為共性方差(communality)gj2:反映了公共因子Fj對(duì)所有指標(biāo)變量X1、X2的影響,可視為公共因子Fj對(duì)X1、X2 的總方差貢獻(xiàn)。其實(shí)這兩個(gè)很容易分辨,慣例上i為行,j為列,因此含有i的字母自然是表示對(duì)行的影響(每一行代表一個(gè)Xi); 含有j的字母表示對(duì)列的影響(每一列代表一個(gè)公共因子Fj)3) 計(jì)算過(guò)程:求解兩個(gè)分析模型的荷載矩陣的方法是一致的,但實(shí)際上主成分法求解因子分析模型是有問(wèn)題的(課本上有介紹,p198),有興趣的同學(xué)可以自行研究一下?,F(xiàn)在總結(jié)一下求解步驟: (1)利用協(xié)方差矩陣,列行列式方程求解特征值。別看這個(gè)很簡(jiǎn)單,但如果這協(xié)方差陣變得一般化以后就必須解三次方程了。對(duì)于較為特殊的協(xié)方差陣,如“主成分分析”課件p10的例題,可以通過(guò)行列式的行列變換先將行列式化簡(jiǎn),再用行或列展開(kāi)行列式,避免三次方的出現(xiàn)。本例題的特殊性在于矩陣對(duì)角線上存在兩個(gè)相同的數(shù)值,因此可以通過(guò)用第3行加上第2行(性質(zhì):行列式值不變),使得2行1列的值為0,2行2列與3列的數(shù)值相同,然后又可以用第3列減去第2列,使得

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論