同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要

上傳人：r*** IP屬地：貴州上傳時(shí)間：2020-06-03 格式：DOC 頁數(shù)：11 大?。?38KB 積分：20 舉報(bào) 版權(quán)申訴

同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第2頁

同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第3頁

同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第4頁

同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要_第5頁

已閱讀5頁，還剩6頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多元統(tǒng)計(jì)復(fù)習(xí)概要1 考試范圍本次考試共分作9個(gè)考點(diǎn)，其中有4個(gè)考點(diǎn)：抽樣分布、方差分析、卡方檢驗(yàn)以及回歸分析是老師課件上的內(nèi)容，多元正態(tài)分布、均值向量、協(xié)方差矩陣、聚類分析、主成分分析以及因子分析5個(gè)考點(diǎn)均為書本上的內(nèi)容?？瓷先?nèi)容很多，實(shí)質(zhì)上除了最后兩個(gè)考點(diǎn)計(jì)算涉及到矩陣和行列式的運(yùn)算外，其他的都基本只是將數(shù)值代入公式進(jìn)行計(jì)算，掌握其原理就行了。2 題型： A卷：1道簡答題，7道計(jì)算題 B卷：3道簡答題，5道計(jì)算題根據(jù)本校生透露，同濟(jì)考試一般來說都采用A卷3 預(yù)備知識(shí) 數(shù)理統(tǒng)計(jì)：（1）假設(shè)檢驗(yàn)：z檢驗(yàn)、t檢驗(yàn)都可以針對(duì)均值的檢驗(yàn)，卡方（2)檢驗(yàn)是針對(duì)方差的檢驗(yàn)，z檢驗(yàn)是針對(duì)樣本比例的檢驗(yàn)。（2）點(diǎn)估計(jì)以及區(qū)間估計(jì)：與參數(shù)的假設(shè)檢驗(yàn)是一個(gè)問題的兩個(gè)方面。線性代數(shù)：（1）矩陣的基本運(yùn)算法則（2）矩陣的相關(guān)性質(zhì)，如（正交矩陣、對(duì)稱矩陣、逆矩陣、相似矩陣等性質(zhì)）（3）行列式的基本運(yùn)算法則及基本變換（4）齊次方程的求解方法 4 考試內(nèi)容：1、抽樣分布a) 比例的區(qū)間估計(jì)、精度、樣本容量的確定說明：1）比例的區(qū)間估計(jì)。這是本科學(xué)的數(shù)理統(tǒng)計(jì)的內(nèi)容，有時(shí)間的同學(xué)可以對(duì)照任一本數(shù)理統(tǒng)計(jì)的書中“參數(shù)檢驗(yàn)”章節(jié)進(jìn)行學(xué)習(xí)，區(qū)間估計(jì)與單總體的參數(shù)檢驗(yàn)其實(shí)是一個(gè)問題的兩個(gè)方面，前者是以一定的把握（如95%）估計(jì)理想的總體參數(shù)（未知）存在于以我們所得的樣本參數(shù)（如平均值、方差、比例）什么樣的允許誤差范圍內(nèi)；后者則是已知理想的總體參數(shù)，以一定的把握檢驗(yàn)所得的樣本參數(shù)是否在此把握對(duì)應(yīng)的誤差范圍內(nèi)。 2)精度。即d，估計(jì)區(qū)間的誤差大小 3)樣本容量。即n，即需要抽樣的個(gè)數(shù)，越大越能達(dá)到精度的要求。公式：其中，Z為標(biāo)準(zhǔn)正態(tài)分布的分位點(diǎn)，p為樣本比例，n為樣本容量，d為誤差大小例題：“抽樣分布和參數(shù)估計(jì)”課件p6061頁、p702、多元正態(tài)分布 a）數(shù)字特征、性質(zhì) b）馬氏距離、歐氏距離 c）均值向量和協(xié)方差陣的估計(jì)說明：a)因?yàn)殡S機(jī)抽樣的樣本是隨機(jī)的，只能由不同的統(tǒng)計(jì)數(shù)字表示，所以我們可用統(tǒng)計(jì)的參數(shù)來代表所有的統(tǒng)計(jì)樣本，稱作數(shù)字特征。一般來說，有三個(gè)參數(shù)最重要，平均值、方差以及樣本比例。從概率論的理想角度來說，對(duì)應(yīng)分別就是均值、方差、總體比例。樣本向量指的是有許多個(gè)變量的樣本，于是就成為了向量。對(duì)應(yīng)這個(gè)向量X，于是它的數(shù)字特征也成為了向量，分別對(duì)應(yīng)為均值向量、協(xié)方差矩陣（無論及樣本比例向量了）。性質(zhì)是不必死記的，考試也不會(huì)直接考，但可通過概率論的基礎(chǔ)知識(shí)類比得出（參看書本P4P5）。 b)歐氏距離就是n維空間里的距離，沒有考慮到統(tǒng)計(jì)樣本的概率分布情況，馬氏距離相當(dāng)于是空間距離與概率單位距離的比值。不理解不要緊，直接代入公式計(jì)算就行了。但在這里還要記清楚二元正態(tài)方差的逆矩陣表達(dá)式以及矩陣的相關(guān)運(yùn)算。 c)對(duì)應(yīng)一元統(tǒng)計(jì)的參數(shù)估計(jì)，對(duì)于均值向量用平均值的矩陣估計(jì)，對(duì)于協(xié)方差均值則用離差陣估計(jì)，不過貌似都不考公式：馬氏距離 p9；二正態(tài)分布的協(xié)方差逆矩陣p11例題：課本p633、均值向量和協(xié)方差陣的檢驗(yàn)說明：其實(shí)原理與一元參數(shù)檢驗(yàn)的方法是一致的，只是所用到的檢驗(yàn)函數(shù)不一樣（如t檢驗(yàn)變成了T檢驗(yàn)）。但考試應(yīng)該只考p26的均值檢驗(yàn)步驟。4、方差分析 1a) 方差分析的目的、原理b) 單因素方差分析表c) 雙因素方差分析表說明：a）本章節(jié)十分重要，是對(duì)那些具有多種影響水平的因素對(duì)實(shí)際試驗(yàn)的影響，簡而言之，前面的章節(jié)著眼與對(duì)單個(gè)正態(tài)總體的數(shù)字特征的研究；而本章節(jié)則涉及到因變量以及統(tǒng)計(jì)變量（即具有不同水平的因素）之間的關(guān)系，確定因素變量對(duì)因變量的影響顯著性。但是，方差分析并不能得出因變量與自變量的具體線性關(guān)系，只能基于對(duì)統(tǒng)計(jì)數(shù)據(jù)總偏差平方和的分解而進(jìn)行方差分析，進(jìn)而確定其對(duì)試驗(yàn)影響的顯著性。而回歸分析則補(bǔ)充了單純的方差分析所帶來的缺陷，能夠得出具體的回歸方程。因此，有些教材（概率論與數(shù)理統(tǒng)計(jì)，劉次華，高等教育出版社）將方差分析與回歸分析合在一起作為一個(gè)章節(jié)。 b)單因素分析是指僅對(duì)一種影響因素的影響顯著性進(jìn)行分析，目標(biāo)是為了清楚到底試驗(yàn)的總體偏差是由于不同水平效應(yīng)差異（組間平均和）引起的還是由隨機(jī)誤差（組內(nèi)平均和）引起的，于是我們將兩者相除得出F值，看F值是否能通過F檢驗(yàn)，如果能則說明該因素對(duì)試驗(yàn)影響十分顯著。 c）雙因素分析與單因素分析的原理是一樣的，只是多了一個(gè)因素，公式上有所調(diào)整。而考慮到因素與因素之間的交互作用的雙因素分析是我們的考試內(nèi)容。的確，在這個(gè)分析里，因素與因素之間的交互作用是最值得我們注意的地方，但是課件上已經(jīng)沒有將這種交互作用的量化公式給出，證明這題的計(jì)算過程在考試中是不必考的。對(duì)統(tǒng)計(jì)學(xué)有興趣的同學(xué)可以隨便借一本統(tǒng)計(jì)學(xué)的教材看交互作用效應(yīng)差異是如何用統(tǒng)計(jì)數(shù)據(jù)表示的（統(tǒng)計(jì)學(xué)，賈俊平，清華大學(xué)出版社，p270）但是，我們起碼應(yīng)該將方差分析表中各個(gè)字母代表的含義記住，分別是a、b、n；以及記住自由度和F值的計(jì)算公式。公式或表格：其中，a為A因素的樣本的影響水平，b為B因素的樣本的影響水平，n為每個(gè)交互作用的試驗(yàn)結(jié)果的樣本容量例題：“方差分析”課件：p35385、回歸分析 1a) 回歸分析的主要內(nèi)容和分析步驟b) 一元部分：b0，1c) 回歸方程的顯著性檢驗(yàn)、方差分析表d) 預(yù)測區(qū)間的近似計(jì)算、精度控制、回歸方程的標(biāo)準(zhǔn)誤差e) 控制：以案例1為例。f) 曲線回歸的分析步驟、線性化說明：回歸分析是統(tǒng)計(jì)學(xué)里三大分析之首（主成分分析、判別分析），因?yàn)榧群唵斡謱?shí)用。過程和原理我就不必多說了，因?yàn)榇蠹叶紝W(xué)了這么久了。0，1是不必我們手算的。只是增加了方程的檢驗(yàn)、預(yù)測和控制，也是考試的重點(diǎn)所在。c)方程的顯著性檢驗(yàn)其實(shí)就是上一章單因素分析的一個(gè)特例，其中參數(shù)的個(gè)數(shù)就是因素的水平個(gè)數(shù)。此時(shí)，我們可以注意到，對(duì)于一元回歸分析：方差分析表中對(duì)應(yīng)a=2（對(duì)應(yīng)兩個(gè)參數(shù)0，1）；對(duì)于多元回歸分析，a=p+1，p為解釋變量的個(gè)數(shù)。同樣地，我們需要知道方差分析表的各項(xiàng)指標(biāo)需要我們知道是怎么得來的。d)方程的預(yù)測區(qū)間估計(jì)比樣本的區(qū)間估計(jì)要來的復(fù)雜，有比較多繁瑣的證明，所以同學(xué)們只要記住公式就行了。在運(yùn)用公式的時(shí)候，記得所查t函數(shù)的自由度為N-2，又因?yàn)槲覀兯龅碾p邊區(qū)間估計(jì)（即d），所以用到對(duì)應(yīng)的分位點(diǎn)為/2.這在我們查表時(shí)是需要注意到的。至于SE ，即我們所說的殘差平方和，是很容易通過統(tǒng)計(jì)數(shù)據(jù)計(jì)算出來的（見“一元回歸”課件p21）e)預(yù)測與控制是回歸分析里的同一個(gè)問題的兩個(gè)方面。前者是已知解釋變量求因變量的區(qū)間；后者是預(yù)設(shè)了因變量的區(qū)間反求解釋變量的控制區(qū)間。控制的計(jì)算方法是建立在區(qū)間預(yù)測的基礎(chǔ)上的（此時(shí)假定每一點(diǎn)的區(qū)間估計(jì)值都是常量d），然后將預(yù)設(shè)因變量y代入控制的不等式來求x。我們需要注意的是分位點(diǎn)選取問題以及不等式的建立問題，當(dāng)雙側(cè)控制需要用Z檢驗(yàn)的1/2分位點(diǎn)，當(dāng)單側(cè)控制是用單側(cè)分位點(diǎn)；建立控制不等式時(shí)，y的可能最小值（y-d）應(yīng)大于控制值下界；最大值（y+d）應(yīng)小于控制值上界。f）考試基本不考，大家注重曲線回歸的分析步驟和線性化的方法即可。公式或表格：1、方程檢驗(yàn)的方差分析表（一元回歸分析）注：多元回歸的將自由度1改作p，N-2改作N-p-1 2、一元回歸的區(qū)間預(yù)測以及控制：注：SE為殘差平方和，N為樣本容量（取的點(diǎn)個(gè)數(shù)），Z為標(biāo)準(zhǔn)正態(tài)分布的分位點(diǎn)值，雙側(cè)控制時(shí)用1/2分位點(diǎn)/2，單側(cè)控制時(shí)則改用單側(cè)分位點(diǎn)。3、多元回歸的區(qū)間預(yù)測以及控制（p為解釋變量Xi的個(gè)數(shù)）：例題：“回歸分析”課件p2425 ，p36， p4344 “多元回歸分析”課件：p18196、聚類分析 1a) 數(shù)據(jù)標(biāo)準(zhǔn)化、無量綱化b) 馬氏距離，計(jì)算a) 系統(tǒng)聚類法、基本思想b) 幾種實(shí)施方法c) K-Mean法、思想說明：a）主要分標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化以及極差標(biāo)準(zhǔn)化，其實(shí)就是將指標(biāo)無量綱化的過程，這個(gè)很容易，套公式。 b）在第2個(gè)考點(diǎn)講過了，不再贅述。 c）通俗來講，系統(tǒng)聚類的基本思想就是將樣本按各自指標(biāo)的相似度進(jìn)行分類，剛開始每個(gè)樣本自成一小類，然后，小類與小類在分類過程中按照著某種距離長短進(jìn)行不斷地匯合，最終匯聚成一個(gè)大類。這些不同的距離正是我們研究的重點(diǎn)所在。 d）即計(jì)算多指標(biāo)樣本之間的距離的各種計(jì)算方法。包括長距離法（重點(diǎn)）、短距離法（重點(diǎn)）、重心法、類平均法以及離差平方和法（不考）等。要注意的是在計(jì)算這些距離時(shí)可以采取不同的方法，但在做樣本分類的時(shí)候我們還是將計(jì)算出的距離最短的歸作一類。不同的距離計(jì)算方法會(huì)有不同的分類效果和特點(diǎn)，此處不作細(xì)表。 e）K快速聚類法：先按分類要求分作K類，用每一類的重心作為每一類的凝聚點(diǎn)，之后比較每個(gè)樣本與這K個(gè)凝聚點(diǎn)的距離，重新確定每個(gè)樣本的所歸的新類；重新分類一遍后，再按照步驟一走一遍，依次類推，直到分類不變?yōu)橹?。但不能像系統(tǒng)距離那樣可以形成譜系聚類圖，即不能了解類與類之間、類內(nèi)部之間的距離關(guān)系，因?yàn)榉诸悢?shù)是預(yù)設(shè)的。公式：分類時(shí)，都用的是歐氏距離的公式，只是距離的主體以及選取距離的方法不一樣。例題：書本：p7173，老師所給的K聚類例題7、卡方檢驗(yàn)a) 總體分布的卡方檢驗(yàn)、思想原理b) 兩個(gè)比例差異的檢驗(yàn)c) 獨(dú)立性檢驗(yàn)d) 兩個(gè)相關(guān)樣本比例差異檢驗(yàn)說明：a）在以往我們學(xué)過的但總體正態(tài)分布的比例檢驗(yàn)當(dāng)中，對(duì)比例的檢驗(yàn)用到的還是Z檢驗(yàn)，如今從另一個(gè)角度出發(fā)，針對(duì)多個(gè)正態(tài)總體的比例進(jìn)行卡方檢驗(yàn)，不僅僅大大降低了計(jì)算強(qiáng)度，還能夠?qū)哂卸嘀笜?biāo)的正態(tài)主體進(jìn)行檢驗(yàn)，其參數(shù)檢驗(yàn)的范圍可以說是大大擴(kuò)展了。 b）在復(fù)習(xí)總體間的比例差異檢驗(yàn)的時(shí)候，不妨可以對(duì)比一下這個(gè)與方差分析的差別（形式相似但實(shí)質(zhì)差異很大），在兩個(gè)總體的比例檢驗(yàn)中，其實(shí)只有一個(gè)因子（酒店），每個(gè)存在兩個(gè)水平（酒店1和2），但是這兩個(gè)水平是獨(dú)立的，其和是一個(gè)常數(shù)ni（即樣本i的容量），我們的研究對(duì)象是在每個(gè)水平下的結(jié)果（成功或失?。６?，它并非如方差分析那樣是分析樣本的具體指標(biāo)值，而是分析樣本的頻數(shù)。有了這樣的類比之后，可能對(duì)兩種統(tǒng)計(jì)分析方法都會(huì)有比較清楚的理解。 c）相較于比例差異檢驗(yàn)，獨(dú)立性檢驗(yàn)就是多引入了一個(gè)因子（例題中是不入住的理由），而且每個(gè)因子都有2個(gè)或2個(gè)以上的水平（酒店n），我們研究的對(duì)象是在不同因子的不同水平下的頻數(shù)大小，從而分析這兩種因子是否獨(dú)立。還得注意卡方檢驗(yàn)函數(shù)的自由度為（a-1）（b-1），a、b為兩個(gè)因子的水平多少。d）因?yàn)橐胍粋€(gè)條件，這個(gè)條件使得原來的一個(gè)的因子（酒店）變作了兩個(gè)（改革前的酒店和改革后的酒店），并且這兩個(gè)因子（即樣本）存在相關(guān)關(guān)系，如今的研究目的就集中在了二者之間的差異性上。還有另一個(gè)區(qū)別就是最后的檢驗(yàn)用到的方法是Z檢驗(yàn)，在通過顯著性檢驗(yàn)后，我們還可以通過比較樣本比例得出樣本比例的變化趨勢(shì)。公式：1、兩個(gè)比例差異檢驗(yàn)：注：其中f0為列聯(lián)表中特定單元的觀測頻數(shù)，fe為列聯(lián)表中特定單元的期望頻數(shù)。，ni為第i個(gè)因子的樣本容量，即為比例估計(jì)值 2、獨(dú)立性檢驗(yàn) 其他同比例差異檢驗(yàn)，只是對(duì)于每一個(gè)單元格來說，都有各自不一樣的期望頻數(shù)。 3、相關(guān)樣本的比例差異檢驗(yàn) 檢驗(yàn)此統(tǒng)計(jì)量Z能否通過z檢驗(yàn)，能通過則說明兩個(gè)樣本存在顯著差異。例題：“卡方檢驗(yàn)與非參數(shù)檢驗(yàn)”課件 p1417；p2529；p33348、主成分分析 1e) 思想、累計(jì)貢獻(xiàn)率、信息提取率f) 計(jì)算過程、例題9、因子分析 1a) 因子分析模型b) 各個(gè)符號(hào)（aij、hi2、gj2）的統(tǒng)計(jì)學(xué)意義c) 利用主成分法尋找因子分析模型、計(jì)算說明：這兩章聯(lián)系的太緊密了，必須合起來講。 1）這是本次考試當(dāng)中技術(shù)含量比較高的章節(jié)，詳細(xì)原理什么的我就直接略去了，因?yàn)檎f起來又一大通了，大家容易煩。簡單來說，主成分分析就是用幾個(gè)X的線性組合來表示幾個(gè)Y，因子分析則用幾個(gè)X的線性組合來表示幾個(gè)Y。前者是為了能將指標(biāo)減少到幾個(gè)(即方差的重新分配）；后者則是為了能夠找到指標(biāo)之間的共性（同樣是方差的重新分配）。共同點(diǎn)是同樣用方差來表示指標(biāo)的信息量，原始方差損失越少代表信息損失越少。課件上說，因子分析比主成分分析更加有實(shí)際的意義，這個(gè)問題可以留待大家去挖掘。2）概念說明：累計(jì)貢獻(xiàn)率：每個(gè)Yi特征值通過排序所加起來占總方差的百分比（可以證明Yi的總方差等于Xi的總方差），表示從前幾個(gè)主成分中提取總信息的百分比。信息提取率：每個(gè)主成分對(duì)Xi貢獻(xiàn)的方差與Xi總方差的比值，表示前幾個(gè)主成分提取了某個(gè)變量的信息的百分比aij： Xi與Fj之間的協(xié)方差。若Xi為各分量已標(biāo)準(zhǔn)化了的隨機(jī)變量，則aij為Xi與Fj之間的相關(guān)系數(shù) hi2：反映了公共因子對(duì)Xi的影響，可以看成是公共因子對(duì)Xi的方差貢獻(xiàn)，稱為共性方差(communality)gj2：反映了公共因子Fj對(duì)所有指標(biāo)變量X1、X2的影響，可視為公共因子Fj對(duì)X1、X2 的總方差貢獻(xiàn)。其實(shí)這兩個(gè)很容易分辨，慣例上i為行，j為列，因此含有i的字母自然是表示對(duì)行的影響（每一行代表一個(gè)Xi）；含有j的字母表示對(duì)列的影響（每一列代表一個(gè)公共因子Fj）3）計(jì)算過程：求解兩個(gè)分析模型的荷載矩陣的方法是一致的，但實(shí)際上主成分法求解因子分析模型是有問題的（課本上有介紹，p198），有興趣的同學(xué)可以自行研究一下?，F(xiàn)在總結(jié)一下求解步驟：（1）利用協(xié)方差矩陣，列行列式方程求解特征值。別看這個(gè)很簡單，但如果這協(xié)方差陣變得一般化以后就必須解三次方程了。對(duì)于較為特殊的協(xié)方差陣，如“主成分分析”課件p10的例題，可以通過行列式的行列變換先將行列式化簡，再用行或列展開行列式，避免三次方的出現(xiàn)。本例題的特殊性在于矩陣對(duì)角線上存在兩個(gè)相同的數(shù)值，因此可以通過用第3行加上第2行（性質(zhì)：行列式值不變），使得2行1列的值為0,2行2列與3列的數(shù)值相同，然后又可以用第3列減去第2列，使得

人人文庫> 全部分類> 應(yīng)用文書 > 事務(wù)文書

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要

文檔簡介

溫馨提示

最新文檔

評(píng)論

同濟(jì)大學(xué)多元統(tǒng)計(jì)學(xué)復(fù)習(xí)總概要

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔