




已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
多元統(tǒng)計復習概要1 考試范圍 本次考試共分作9個考點,其中有4個考點:抽樣分布、方差分析、卡方檢驗以及回歸分析是老師課件上的內(nèi)容,多元正態(tài)分布、均值向量、協(xié)方差矩陣、聚類分析、主成分分析以及因子分析5個考點均為書本上的內(nèi)容??瓷先?nèi)容很多,實質(zhì)上除了最后兩個考點計算涉及到矩陣和行列式的運算外,其他的都基本只是將數(shù)值代入公式進行計算,掌握其原理就行了。2 題型: A卷:1道簡答題,7道計算題 B卷:3道簡答題,5道計算題 根據(jù)本校生透露,同濟考試一般來說都采用A卷3 預備知識 數(shù)理統(tǒng)計: (1)假設檢驗:z檢驗、t檢驗都可以針對均值的檢驗,卡方(2)檢驗是針對方差的檢驗,z檢驗是針對樣本比例的檢驗。(2)點估計以及區(qū)間估計:與參數(shù)的假設檢驗是一個問題的兩個方面。 線性代數(shù): (1)矩陣的基本運算法則 (2)矩陣的相關性質(zhì),如(正交矩陣、對稱矩陣、逆矩陣、相似矩陣等性質(zhì)) (3)行列式的基本運算法則及基本變換 (4)齊次方程的求解方法 4 考試內(nèi)容:1、抽樣分布a) 比例的區(qū)間估計、精度、樣本容量的確定說明:1)比例的區(qū)間估計。這是本科學的數(shù)理統(tǒng)計的內(nèi)容,有時間的同學可以對照任一本數(shù)理統(tǒng)計的書中“參數(shù)檢驗”章節(jié)進行學習,區(qū)間估計與單總體的參數(shù)檢驗其實是一個問題的兩個方面,前者是以一定的把握(如95%)估計理想的總體參數(shù)(未知)存在于以我們所得的樣本參數(shù)(如平均值、方差、比例)什么樣的允許誤差范圍內(nèi);后者則是已知理想的總體參數(shù),以一定的把握檢驗所得的樣本參數(shù)是否在此把握對應的誤差范圍內(nèi)。 2)精度。即d,估計區(qū)間的誤差大小 3)樣本容量。即n,即需要抽樣的個數(shù),越大越能達到精度的要求。公式: 其中,Z為標準正態(tài)分布的分位點,p為樣本比例,n為樣本容量,d為誤差大小例題:“抽樣分布和參數(shù)估計”課件p6061頁、p702、多元正態(tài)分布 a)數(shù)字特征、性質(zhì) b)馬氏距離、歐氏距離 c)均值向量和協(xié)方差陣的估計說明:a)因為隨機抽樣的樣本是隨機的,只能由不同的統(tǒng)計數(shù)字表示,所以我們可用統(tǒng)計的參數(shù)來代表所有的統(tǒng)計樣本,稱作數(shù)字特征。一般來說,有三個參數(shù)最重要,平均值、方差以及樣本比例。從概率論的理想角度來說,對應分別就是均值、方差、總體比例。樣本向量指的是有許多個變量的樣本,于是就成為了向量。對應這個向量X,于是它的數(shù)字特征也成為了向量,分別對應為均值向量、協(xié)方差矩陣(無論及樣本比例向量了)。性質(zhì)是不必死記的,考試也不會直接考,但可通過概率論的基礎知識類比得出(參看書本P4P5)。 b)歐氏距離就是n維空間里的距離,沒有考慮到統(tǒng)計樣本的概率分布情況,馬氏距離相當于是空間距離與概率單位距離的比值。不理解不要緊,直接代入公式計算就行了。但在這里還要記清楚二元正態(tài)方差的逆矩陣表達式以及矩陣的相關運算。 c)對應一元統(tǒng)計的參數(shù)估計,對于均值向量用平均值的矩陣估計,對于協(xié)方差均值則用離差陣估計,不過貌似都不考公式:馬氏距離 p9;二正態(tài)分布的協(xié)方差逆矩陣p11例題:課本p633、均值向量和協(xié)方差陣的檢驗說明:其實原理與一元參數(shù)檢驗的方法是一致的,只是所用到的檢驗函數(shù)不一樣(如t檢驗變成了T檢驗)。但考試應該只考p26的均值檢驗步驟。4、方差分析 1a) 方差分析的目的、原理b) 單因素方差分析表c) 雙因素方差分析表說明:a)本章節(jié)十分重要,是對那些具有多種影響水平的因素對實際試驗的影響,簡而言之,前面的章節(jié)著眼與對單個正態(tài)總體的數(shù)字特征的研究;而本章節(jié)則涉及到因變量以及統(tǒng)計變量(即具有不同水平的因素)之間的關系,確定因素變量對因變量的影響顯著性。但是,方差分析并不能得出因變量與自變量的具體線性關系,只能基于對統(tǒng)計數(shù)據(jù)總偏差平方和的分解而進行方差分析,進而確定其對試驗影響的顯著性。而回歸分析則補充了單純的方差分析所帶來的缺陷,能夠得出具體的回歸方程。因此,有些教材(概率論與數(shù)理統(tǒng)計,劉次華,高等教育出版社)將方差分析與回歸分析合在一起作為一個章節(jié)。 b)單因素分析是指僅對一種影響因素的影響顯著性進行分析,目標是為了清楚到底試驗的總體偏差是由于不同水平效應差異(組間平均和)引起的還是由隨機誤差(組內(nèi)平均和)引起的,于是我們將兩者相除得出F值,看F值是否能通過F檢驗,如果能則說明該因素對試驗影響十分顯著。 c)雙因素分析與單因素分析的原理是一樣的,只是多了一個因素,公式上有所調(diào)整。而考慮到因素與因素之間的交互作用的雙因素分析是我們的考試內(nèi)容。的確,在這個分析里,因素與因素之間的交互作用是最值得我們注意的地方,但是課件上已經(jīng)沒有將這種交互作用的量化公式給出,證明這題的計算過程在考試中是不必考的。對統(tǒng)計學有興趣的同學可以隨便借一本統(tǒng)計學的教材看交互作用效應差異是如何用統(tǒng)計數(shù)據(jù)表示的(統(tǒng)計學,賈俊平,清華大學出版社,p270)但是,我們起碼應該將方差分析表中各個字母代表的含義記住,分別是a、b、n;以及記住自由度和F值的計算公式。公式或表格: 其中,a為A因素的樣本的影響水平,b為B因素的樣本的影響水平,n為每個交互作用的試驗結(jié)果的樣本容量例題:“方差分析”課件:p35385、回歸分析 1a) 回歸分析的主要內(nèi)容和分析步驟b) 一元部分:b0,1c) 回歸方程的顯著性檢驗、方差分析表d) 預測區(qū)間的近似計算、精度控制、回歸方程的標準誤差e) 控制:以案例1為例。f) 曲線回歸的分析步驟、線性化說明:回歸分析是統(tǒng)計學里三大分析之首(主成分分析、判別分析),因為既簡單又實用。過程和原理我就不必多說了,因為大家都學了這么久了。0,1是不必我們手算的。只是增加了方程的檢驗、預測和控制,也是考試的重點所在。c)方程的顯著性檢驗其實就是上一章單因素分析的一個特例,其中參數(shù)的個數(shù)就是因素的水平個數(shù)。此時,我們可以注意到,對于一元回歸分析:方差分析表中對應a=2(對應兩個參數(shù)0,1);對于多元回歸分析,a=p+1,p為解釋變量的個數(shù)。同樣地,我們需要知道方差分析表的各項指標需要我們知道是怎么得來的。d)方程的預測區(qū)間估計比樣本的區(qū)間估計要來的復雜,有比較多繁瑣的證明,所以同學們只要記住公式就行了。在運用公式的時候,記得所查t函數(shù)的自由度為N-2,又因為我們所要做的雙邊區(qū)間估計(即d),所以用到對應的分位點為/2.這在我們查表時是需要注意到的。至于SE ,即我們所說的殘差平方和,是很容易通過統(tǒng)計數(shù)據(jù)計算出來的(見“一元回歸”課件p21)e)預測與控制是回歸分析里的同一個問題的兩個方面。前者是已知解釋變量求因變量的區(qū)間;后者是預設了因變量的區(qū)間反求解釋變量的控制區(qū)間??刂频挠嬎惴椒ㄊ墙⒃趨^(qū)間預測的基礎上的(此時假定每一點的區(qū)間估計值都是常量d),然后將預設因變量y代入控制的不等式來求x。我們需要注意的是分位點選取問題以及不等式的建立問題,當雙側(cè)控制需要用Z檢驗的1/2分位點,當單側(cè)控制是用單側(cè)分位點;建立控制不等式時,y的可能最小值(y-d)應大于控制值下界;最大值(y+d)應小于控制值上界。f)考試基本不考,大家注重曲線回歸的分析步驟和線性化的方法即可。公式或表格:1、方程檢驗的方差分析表(一元回歸分析) 注:多元回歸的將自由度1改作p,N-2改作N-p-1 2、一元回歸的區(qū)間預測以及控制:注:SE為殘差平方和,N為樣本容量(取的點個數(shù)),Z為標準正態(tài)分布的分位點值,雙側(cè)控制時用1/2分位點/2,單側(cè)控制時則改用單側(cè)分位點。3、 多元回歸的區(qū)間預測以及控制(p為解釋變量Xi的個數(shù)):例題:“回歸分析”課件p2425 ,p36, p4344 “多元回歸分析”課件:p18196、聚類分析 1a) 數(shù)據(jù)標準化、無量綱化b) 馬氏距離,計算a) 系統(tǒng)聚類法、基本思想b) 幾種實施方法c) K-Mean法、思想說明:a)主要分標準差標準化以及極差標準化,其實就是將指標無量綱化的過程,這個很容易,套公式。 b)在第2個考點講過了,不再贅述。 c)通俗來講,系統(tǒng)聚類的基本思想就是將樣本按各自指標的相似度進行分類,剛開始每個樣本自成一小類,然后,小類與小類在分類過程中按照著某種距離長短進行不斷地匯合,最終匯聚成一個大類。這些不同的距離正是我們研究的重點所在。 d)即計算多指標樣本之間的距離的各種計算方法。包括長距離法(重點)、短距離法(重點)、重心法、類平均法以及離差平方和法(不考)等。要注意的是在計算這些距離時可以采取不同的方法,但在做樣本分類的時候我們還是將計算出的距離最短的歸作一類。不同的距離計算方法會有不同的分類效果和特點,此處不作細表。 e)K快速聚類法:先按分類要求分作K類,用每一類的重心作為每一類的凝聚點,之后比較每個樣本與這K個凝聚點的距離,重新確定每個樣本的所歸的新類;重新分類一遍后,再按照步驟一走一遍,依次類推,直到分類不變?yōu)橹?。但不能像系統(tǒng)距離那樣可以形成譜系聚類圖,即不能了解類與類之間、類內(nèi)部之間的距離關系,因為分類數(shù)是預設的。公式:分類時,都用的是歐氏距離的公式,只是距離的主體以及選取距離的方法不一樣。例題:書本:p7173,老師所給的K聚類例題7、卡方檢驗a) 總體分布的卡方檢驗、思想原理b) 兩個比例差異的檢驗c) 獨立性檢驗d) 兩個相關樣本比例差異檢驗說明:a)在以往我們學過的但總體正態(tài)分布的比例檢驗當中,對比例的檢驗用到的還是Z檢驗,如今從另一個角度出發(fā),針對多個正態(tài)總體的比例進行卡方檢驗,不僅僅大大降低了計算強度,還能夠?qū)哂卸嘀笜说恼龖B(tài)主體進行檢驗,其參數(shù)檢驗的范圍可以說是大大擴展了。 b)在復習總體間的比例差異檢驗的時候,不妨可以對比一下這個與方差分析的差別(形式相似但實質(zhì)差異很大),在兩個總體的比例檢驗中,其實只有一個因子(酒店),每個存在兩個水平(酒店1和2),但是這兩個水平是獨立的,其和是一個常數(shù)ni(即樣本i的容量),我們的研究對象是在每個水平下的結(jié)果(成功或失?。6?,它并非如方差分析那樣是分析樣本的具體指標值,而是分析樣本的頻數(shù)。有了這樣的類比之后,可能對兩種統(tǒng)計分析方法都會有比較清楚的理解。 c)相較于比例差異檢驗,獨立性檢驗就是多引入了一個因子(例題中是不入住的理由),而且每個因子都有2個或2個以上的水平(酒店n),我們研究的對象是在不同因子的不同水平下的頻數(shù)大小,從而分析這兩種因子是否獨立。還得注意卡方檢驗函數(shù)的自由度為(a-1)(b-1),a、b為兩個因子的水平多少。d)因為引入一個條件,這個條件使得原來的一個的因子(酒店)變作了兩個(改革前的酒店和改革后的酒店),并且這兩個因子(即樣本)存在相關關系,如今的研究目的就集中在了二者之間的差異性上。還有另一個區(qū)別就是最后的檢驗用到的方法是Z檢驗,在通過顯著性檢驗后,我們還可以通過比較樣本比例得出樣本比例的變化趨勢。公式:1、兩個比例差異檢驗: 注:其中f0為列聯(lián)表中特定單元的觀測頻數(shù),fe為列聯(lián)表中特定單元的期望頻數(shù)。,ni為第i個因子的樣本容量, 即為比例估計值 2、獨立性檢驗 其他同比例差異檢驗,只是對于每一個單元格來說,都有各自不一樣的期望頻數(shù)。 3、相關樣本的比例差異檢驗 檢驗此統(tǒng)計量Z能否通過z檢驗,能通過則說明兩個樣本存在顯著差異。例題:“卡方檢驗與非參數(shù)檢驗”課件 p1417;p2529;p33348、主成分分析 1e) 思想、累計貢獻率、信息提取率f) 計算過程、例題9、因子分析 1a) 因子分析模型b) 各個符號(aij、hi2、gj2)的統(tǒng)計學意義c) 利用主成分法尋找因子分析模型、計算說明:這兩章聯(lián)系的太緊密了,必須合起來講。 1)這是本次考試當中技術(shù)含量比較高的章節(jié),詳細原理什么的我就直接略去了,因為說起來又一大通了,大家容易煩。簡單來說,主成分分析就是用幾個X的線性組合來表示幾個Y,因子分析則用幾個X的線性組合來表示幾個Y。前者是為了能將指標減少到幾個(即方差的重新分配);后者則是為了能夠找到指標之間的共性(同樣是方差的重新分配)。共同點是同樣用方差來表示指標的信息量,原始方差損失越少代表信息損失越少。課件上說,因子分析比主成分分析更加有實際的意義,這個問題可以留待大家去挖掘。2)概念說明:累計貢獻率:每個Yi特征值通過排序所加起來占總方差的百分比(可以證明Yi的總方差等于Xi的總方差),表示從前幾個主成分中提取總信息的百分比。信息提取率:每個主成分對Xi貢獻的方差與Xi總方差的比值,表示前幾個主成分提取了某個變量的信息的百分比aij: Xi與Fj之間的協(xié)方差。若Xi為各分量已標準化了的隨機變量,則aij為Xi與Fj之間的相關系數(shù) hi2:反映了公共因子對Xi的影響,可以看成是公共因子對Xi的方差貢獻,稱為共性方差(communality)gj2:反映了公共因子Fj對所有指標變量X1、X2的影響,可視為公共因子Fj對X1、X2 的總方差貢獻。其實這兩個很容易分辨,慣例上i為行,j為列,因此含有i的字母自然是表示對行的影響(每一行代表一個Xi); 含有j的字母表示對列的影響(每一列代表一個公共因子Fj)3) 計算過程:求解兩個分析模型的荷載矩陣的方法是一致的,但實際上主成分法求解因子分析模型是有問題的(課本上有介紹,p198),有興趣的同學可以自行研究一下。現(xiàn)在總結(jié)一下求解步驟: (1)利用協(xié)方差矩陣,列行列式方程求解特征值。別看這個很簡單,但如果這協(xié)方差陣變得一般化以后就必須解三次方程了。對于較為特殊的協(xié)方差陣,如“主成分分析”課件p10的例題,可以通過行列式的行列變換先將行列式化簡,再用行或列展開行列式,避免三次方的出現(xiàn)。本例題的特殊性在于矩陣對角線上存在兩個相同的數(shù)值,因此可以通過用第3行加上第2行(性質(zhì):行列式值不變),使得2行1列的值為0,2行2列與3列的數(shù)值相同,然后又可以用第3列減去第2列,使得
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 滑雪場地建設與維護合同書
- 深圳市冷凍水產(chǎn)品購銷合同
- 重大突破:中國與尼日爾簽訂基礎設施建設項目合同
- 正式婚后財產(chǎn)歸屬合同樣本
- 設備采購與租賃合同樣本
- 社區(qū)衛(wèi)生服務中心藥師聘用合同范本
- 建筑工程總承包合同中新防水工程條款
- 緊急設備配送及維護合同
- 樓盤分銷代理合同范本
- 衛(wèi)浴產(chǎn)品標準制定與質(zhì)量認證考核試卷
- (正式版)JBT 10437-2024 電線電纜用可交聯(lián)聚乙烯絕緣料
- 誦讀經(jīng)典傳承文明課件
- 高中數(shù)學選擇性必修3 教材習題答案
- 智能語音技術(shù)與應用-基于Python實現(xiàn)(高職)全套教學課件
- 北師大版二年級下冊數(shù)學第一單元 除法教案
- 2024年兒童托管行業(yè)分析報告及未來發(fā)展趨勢
- 野生動植物保護
- 2024年安徽省合肥熱電集團招聘筆試參考題庫含答案解析
- 商品條碼使用許可協(xié)議
- 2023德佑房屋租賃合同
- PI形式發(fā)票范文模板
評論
0/150
提交評論