版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
建模中的統(tǒng)計方法2013年數(shù)學(xué)建模暑期培訓(xùn)選講主講勾明內(nèi)容要點:一、幾個案例二、實用的統(tǒng)計方法
三、幾種特殊方法
四、常用的統(tǒng)計軟件五、實例分析案例一:本科生就業(yè)影響因素分析
據(jù)有關(guān)統(tǒng)計表明,具有大學(xué)以上學(xué)歷者占中國全部勞動者的比例非常低,中國的高等教育也正在處于“精英教育”向大眾化的高等教育過渡階段。社會對于高學(xué)歷人才的總體需求大于畢業(yè)生的總?cè)藬?shù),但最近幾年大學(xué)畢業(yè)生找工作卻有越來越難的趨勢。特別自1999年起,中國高校連年大幅擴招。其中,2000年擴招60.9萬人,增幅38.16%;2001年擴招29.4萬人,增幅13.3%。目前中國在校大學(xué)生已突破1350萬人,這種大力度推進高校擴招的方式對于中國在21世紀實施人才戰(zhàn)略,建設(shè)現(xiàn)代化強國,具有極為重要的意義,但隨著大幅擴招,也產(chǎn)生了教育質(zhì)量滑坡以及就業(yè)形式嚴峻等問題。根據(jù)問卷調(diào)查的數(shù)據(jù),對各種影響因素進行描述,頻數(shù)分析,并分析影響就業(yè)的顯著因素,建立數(shù)學(xué)模型并給出一些相關(guān)的建議,為同學(xué)們以后就業(yè)提供一定的參考。案例二:中國35個主要城市購房能力比較分析現(xiàn)在,房價越來越成為人們的一個中心議題,上至中央領(lǐng)導(dǎo),下至普通民眾,可以說,人人談房價,而住房作為拉動我國經(jīng)濟的三駕馬車之一,對國民經(jīng)濟的作用更是舉足輕重。房子,無論對國家還是個人,其重要性不言而喻,它牽動著絕大多數(shù)中國人的神經(jīng),我們中大多數(shù)人也面臨購房壓力。但是,由于中國幅員遼闊,在各地區(qū)由于經(jīng)濟發(fā)展水平低于差距等種種因素,各地區(qū)房價不盡相同。根據(jù)所給的資料,分析:各地房價是否合理?各地區(qū)之間的居民購房能力有無明顯差異?若有差異,哪些地區(qū)購房能力相對較強,哪些地區(qū)購房能力相對較弱?如何建立適當(dāng)?shù)臄?shù)學(xué)模型進行描述?案例三:中國35個主要城市經(jīng)濟效益分析根據(jù)35個主要城市某年關(guān)于年底總?cè)丝?、地區(qū)生產(chǎn)總值(GDP)、工業(yè)總產(chǎn)值、客運總量、貨運總量、地方財政預(yù)算內(nèi)收入、固定資產(chǎn)投資總額、城鄉(xiāng)居民儲蓄年末余額、在崗職工平均人數(shù)、在崗職工工資總額10個指標的數(shù)據(jù),以期對這些城市的經(jīng)濟效益進行橫向和縱向的比較,找出它們之間的差別并分析原因,同時針對個別城市分析其自身經(jīng)濟效益的發(fā)展趨勢。建模方法運籌優(yōu)化概率方法統(tǒng)計方法微分方程隨機分析數(shù)學(xué)規(guī)劃建模方法……實用的統(tǒng)計方法
數(shù)據(jù)的描述性統(tǒng)計統(tǒng)計推斷相關(guān)分析方差分析回歸分析因子分析聚類分析數(shù)據(jù)的描述性統(tǒng)計在對數(shù)據(jù)進行深入加工之前,總應(yīng)該對數(shù)據(jù)有所印象??梢越柚趫D形和簡單的運算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個近似的描述。數(shù)據(jù)的描述性統(tǒng)計初步整理和直觀描述(頻數(shù)表和直方圖)進一步加工、提取有用信息(計算統(tǒng)計量)位置的統(tǒng)計量:均值和中位數(shù)變異程度的統(tǒng)計量:標準差、方差、極差分布形態(tài)的統(tǒng)計量:偏度、峰度公交車調(diào)度方案的優(yōu)化模型(2001)文獻【2,p6】,對模型I的描述性分析,通過直方圖,得出上行、下行各時間段最大客容量的雙峰直方圖,對各時間段的車次給出了一個初步的調(diào)度方案。數(shù)據(jù)的描述性統(tǒng)計分布形態(tài)的統(tǒng)計量:偏度(skewness)、峰度(kurtosis)偏度:RV標準化的三階中心距。反映分布的對稱性峰度:隨機變量標準化的四階中心距。>0,右偏態(tài),此時數(shù)據(jù)位于均值右邊的比位于左邊多>3,表示分布有沉重的尾巴,說明樣本中含有較多遠離均值的數(shù)據(jù)偏度為:-1.233,<0.左偏態(tài),說明數(shù)據(jù)位于均值左邊的比位于右邊多峰度為1.009,<3.細尾分布92年施肥方案數(shù)據(jù)分析:數(shù)據(jù)的描述性統(tǒng)計數(shù)據(jù)的探索性分析數(shù)據(jù)的概率分布三大分布及他們之間的關(guān)系。統(tǒng)計推斷假設(shè)檢驗參數(shù)估計點估計(估計方法及評判的標準)區(qū)間估計相關(guān)分析但是僅僅有滿意顧客的比例是不夠的;商家希望了解什么是影響顧客觀點的因素,及這些因素如何起作用對于現(xiàn)實世界,不僅要知其然,而且要知其所以然。顧客對商品和服務(wù)的反映對于企業(yè)是至關(guān)重要的,類似地,醫(yī)療衛(wèi)生部門不能僅僅知道某流行病的發(fā)病率,而且想知道什么變量影響發(fā)病率,以及如何影響。
目前的問題是:如何相關(guān)(相關(guān)程度多大)?
如何度量他們的相關(guān)性?如何判斷這些因素(變量)是否相關(guān)?
相關(guān)分析Pearson相關(guān)系數(shù):Pearson相關(guān)矩陣:做散點圖初步判斷兩個變量間是否存在相關(guān)趨勢,是否為直線趨勢,以及數(shù)據(jù)中是否存在異常點計算相關(guān)系數(shù)R>0正相關(guān),R<0負相關(guān)R的絕對值越接近1,表示兩個變量愈接近線性關(guān)系,R絕對值等于1時,兩者為完全線性關(guān)系R的絕對值越接近0,表示兩個變量愈沒有線性關(guān)系,R絕對值等于0時,兩者為完全沒有線性關(guān)系R的絕對值大于0.8時,視為高度相關(guān)
R的絕對值介于0.5-0.8時,視為中度相關(guān)
R的絕對值小于0.3時,視為不相關(guān)處理方法:“深發(fā)展”和“四川長虹”在中國股市上像一對孿生姐妹,它們的發(fā)展表現(xiàn)出同升、同降的現(xiàn)象。它們是否具有一定的內(nèi)在聯(lián)系?如果存在內(nèi)在聯(lián)系,那么根據(jù)任一股票的變化能否判斷另一股票的變動趨勢?由于兩者都是龍頭股,根據(jù)它們的變動進而能否對大盤的變動做出推測?X1:“深發(fā)展”日收盤價X2:“四川長虹”日收盤價X3:“深證指數(shù)”日收盤價X4:“上證指數(shù)”日收盤價分析要求:(1)探求個股與個股、個股與大盤間是否有典型的相關(guān)關(guān)系(2)如果有,它們是否服從某種模型?(3)更進一步,如果服從某種模型,能否根據(jù)這種模型做一些預(yù)測用于支持投資決策?案例分析:股票分析“深發(fā)展”與深證指數(shù)的散點圖“四川長虹”與上證指數(shù)的散點圖“深發(fā)展”與深證指數(shù)的相關(guān)系數(shù)“四川長虹”與上證指數(shù)的相關(guān)系數(shù)相關(guān)系數(shù)矩陣“深發(fā)展”與“四川長虹”的相關(guān)系數(shù)方差分析單因素方差分析多因素方差分析單因素方差分析一、單因素方差分析的基本思想單因素方差分析用來研究一個控制變量的不同水平是否對觀測變量產(chǎn)生了顯著影響。主要解決多于兩個總體樣本或變量間均值的比較問題。是一種對多個總體樣本的均值是否存在顯著差異的檢驗方法。二、應(yīng)用的條件服從方差分析的三個假設(shè):1、觀測變量各總體服從正態(tài)分布。2、觀測變量各總體的方差相同。3、觀測變量各總體獨立的??傠x差平方和及組內(nèi)、組間離差平方和令:總離差平方和:組間離差平方和:組內(nèi)離差平方和:SST=SSA+SSE四、基本步驟五、結(jié)果解釋step1:明確觀測變量和控制變量。step2:剖析觀測變量的方差。step3:通過比較觀測變量總離差平方和各部分所占的比例,推斷控制變量是否給觀測變量帶來了顯著影響。在觀測變量總離差平方和中,如果組間離差平方所占比例較大,則說明觀測變量的變動主要是由控制變量引起的,可以主要由控制變量來解釋,控制變量給觀測變量帶來了顯著影響;反之,如果組間離差平方所占比例較小,則說明觀測變量的變動不是主要由控制變量引起的,不可以主要由控制變量來解釋,控制變量的不同水平?jīng)]有給觀測變量帶來顯著影響,觀測變量值的變動是由隨機變量因素引起的。
單因素方差分析單因素方差分析,是指僅分析一個因素對試驗結(jié)果的影響是否顯著的問題。例:用火焰原子吸收光譜法測定試樣中的鉍,研究溶液的酸度對測定吸光度的影響,得到如下結(jié)果,求分析酸含量的變化對測定結(jié)果的影響是否顯著?含酸量(%)012340.1400.1530.1600.1810.175吸光度0.1410.1500.1580.1850.1730.1440.1530.1630.1830.174平均值0.1420.1530.1610.1830.174在方差分析中,把所有數(shù)據(jù)之間的差異叫做總變差。產(chǎn)生總變差的原因有兩類,一類是條件變差(本例中即是酸度的影響),另一類就是試驗誤差。方差分析解決這個問題的辦法就是:1、從總變差中區(qū)分出試驗變差和條件變差,也就是將不同因素的影響給區(qū)分開來。2、利用F檢驗比較這兩個變差的大小,確定出主要變差。3、根據(jù)主要的變差,去選擇較好的分析條件,或確定進一步試驗的方向。方差分析的基本思想方差分析的依據(jù)是建立在變差平方和具有加和性的基礎(chǔ)上的。因此,如果用變差平方和來表征測定結(jié)果的總變差,那么總變差的平方和就等于各變異因素形成的變差平方和的總和。方差分析的基本思想,就是將總變差分解為各構(gòu)成部分之和,然后對它們作統(tǒng)計檢驗。總變差:
其中m為試驗水平數(shù),n為重復(fù)次數(shù),自由度vT=mn–1=N–1條件變差(組間方差)每一組的測定平均值和總平均值差值的平方和再乘以重復(fù)次數(shù):
自由度vA=m–1試驗誤差(組內(nèi)方差)各組內(nèi)的每次測定值和組內(nèi)平均值差值的平方和:
自由度ve=m(n–1)=N–m總變差的分解定義
我們的目的是研究溶液的酸度對測定吸光度的影響,為此,需要做一些基本假定,把所研究的問題歸結(jié)為一個統(tǒng)計問題,然后用方差分析的方法進行解決。
單因子方差分析的統(tǒng)計模型
在例中我們只考察了一個因子,稱其為單因子試驗。通常,在單因子試驗中,記因子為A,設(shè)其有r個水平,記為A1,A2,…,Ar。在每一水平下考察的指標可以看成一個總體,因為現(xiàn)共有r個水平,故有r個總體,假定:各總體的方差相同:12=22=…=r2=2
;(即,具有方差齊次性)從每一總體中抽取的樣本是相互獨立的,即所有的試驗結(jié)果yij
都相互獨立。每一總體均為正態(tài)總體,記為N(i,i2),i=1,2,…,r;
我們要比較各水平下的均值是否相同,即要對如下的一個假設(shè)進行檢驗:H0
:1
=2=…=r
備擇假設(shè)為H1
:1,2,…,r不全相等在不會引起誤解的情況下,H1通??墒÷圆粚?。如果檢驗結(jié)果為H0成立,因子A的r個水平均值相同,稱因子A的r個水平間沒有顯著差異,簡稱因子A不顯著;反之,當(dāng)H0不成立時,因子A的r個水平均值不全相同,這時稱因子A的不同水平間有顯著差異,簡稱因子A顯著。
一般情況下,在水平Ai下的試驗結(jié)果yij與該水平下的指標均值i一般總是有差距的,記ij=yiji,ij稱為隨機誤差。于是有yij=
i+ij
ij~N(0,2)且ij相互獨立,i,i
2均為未知參數(shù)稱為單因素試驗方差分析的數(shù)學(xué)模型。方差分析的基本思想就是通過條件誤差和隨機誤差的比較來判斷假設(shè)H0是否成立。如果條件誤差比隨機誤差大得多,我們就認為因素A的不同水平對試驗結(jié)果有顯著影響,從而拒絕H0
;如果條件誤差與隨機誤差得數(shù)值差別不大,則認為因素A的不同水平對試驗結(jié)果沒有顯著影響,從而接受H0
;檢驗統(tǒng)計量當(dāng)H0為真時,對給定的,可作如下判斷:若F=<F(fA,fe),則說明因子A不顯著。該檢驗的p值也可利用統(tǒng)計軟件求出,若以Y記服從F(fA,fe)的隨機變量,則檢驗的p值為p=P(YF)。如果F>F(fA,fe),則認為因子A顯著;當(dāng)H0為真,即i間的差距不大,則因素A的各個水平對總體的影響應(yīng)差不多,SSA中也應(yīng)只含有隨機誤差,因而F的值不應(yīng)太大,如果F值很大,超過臨界值F0.05,就應(yīng)當(dāng)否定H0,即認為之間有顯著差異;若F>F0.01時,稱為有高度顯著差異,或A因素高度顯著。例1含酸量(%)01234
0.1400.1530.1600.1810.175吸光度0.1410.1500.1580.1850.173
0.1440.1530.1630.1830.174平均值0.1420.1520.1600.1830.174Ti0.4250.4560.4810.5490.5220.3946PTi2/ni0.060210.069310.077120.100470.090830.3979QA0.060220.069320.077130.100480.090830.3980Rx=[0.1400.1530.1600.181 0.175;0.141 0.150 0.158 0.185 0.173;0.144 0.153 0.163 0.183 0.174];Anova1(x’);例1方差來源變差平方和自由度平均變差平方和F臨界值SSA3.30E-0348.26E-04(SSA/vA)/(SSe/ve)=221.2F0.05,4,103.48SSe3.73E-05103.73E-06F0.01,4,105.99SST3.34E-03142.39E-04結(jié)論:酸度對測定結(jié)果有非常顯著的影響方差分析要注意以下幾點1、從理論上可推知,當(dāng)ve很小時,F(xiàn)檢驗的靈敏度是很低的,ve很大時,靈敏度就高。增加實驗次數(shù),有利于靈敏度提高。一般ve應(yīng)在5-10,如達不到,須將
放寬至0.20。2、當(dāng)F值特別小時,表明可能取樣或測量中有系統(tǒng)誤差,一般不應(yīng)發(fā)生,一旦發(fā)生就應(yīng)仔細尋找原因,決不能放過。3、試驗應(yīng)采取隨機的方式,而不能按照先后次序(例如溫度從高到低)。因為有可能在整個試驗過程中,前后尺度掌握不均,或者有其它因素也在有規(guī)律或周期性地變化。4、如果是評定實驗室之間及實驗室內(nèi)部的精度,當(dāng)F
F時,就說明實驗室之間的精度與實驗室內(nèi)部的精度是一致的。雙因素方差分析1、多因素全面試驗的試驗設(shè)計方法類型交差分組:每個因素的每個水平與其它因素的所有水平都要搭配到,試驗A和B處于完全平等的地位系統(tǒng)分組:先按A的a個水平分成a組,然后在不同的組里再按B的水平來分組,如果有第三個,還可再安排C,它們的各自水平數(shù)不必相同,也不需要均勻搭配混合分組:可以使其中兩個先采用一種分組方法,然后對第三個采取另一種方法于是有yij=
+αi+βj+ij
ij~N(0,2)且ij相互獨立,,αi,βj,i
2
均為未知參數(shù)式稱為雙因素試驗方差分析的數(shù)學(xué)模型。我們要比較各水平下的均值是否相同,即要作如下的假設(shè)檢驗:。要判斷因素A的影響是否顯著就等價于檢驗假設(shè)H01
:α
1
=α
2=…=αr=0要判斷因素B的影響是否顯著就等價于檢驗假設(shè)
H02
:β1=β2=…=βr=0
雙因素方差分析1、交叉分組的雙因素試驗 設(shè)因素A有l(wèi)個水平,A1,A2……Al,因素B有m個水平B1,B2……Bm,在每一組合(Ai,Bj)下進行一次試驗,得到觀察值A(chǔ)ij,其方差分析計算方法如下:
雙因素方差分析表例2:為考察蒸餾水的pH值和硫酸銅溶液濃度對化驗血清中白蛋白的球蛋白的影響,將蒸餾水pH值(A)和硫酸銅濃度(B)分成如下的水平進行試驗:水平因素1234pH值(A)5.405.605.705.80硫酸銅濃度(B)0.040.080.10
A1A2A3A4TjB(TjB)2/lB13.52.62.01.49.522.56B22.32.01.50.86.610.89B32.01.91.20.35.47.29TiA7.86.54.72.5
(TiA)2/m20.2814.087.362.0821.5414.377.692.69T21.5P38.5QA43.8QB40.7R46.3x=[3.5 2.6 2.0 1.4;2.3 2.0 1.5 0.8;2.0 1.9 1.2 0.3];Anova2(x’);結(jié)果方差來源變差平方和自由度平均變差平方和F臨界值SSA5.2931.7640.9F0.01,3,69.78SSB2.2221.1125.8F0.01,2,610.92SSe0.2660.043結(jié)論:A和B對測定白蛋白與球蛋白的影響非常顯著,其中A因素(pH值)的影響比B因素(CuSO4濃度)影響更大。某企業(yè)在制定某商品的廣告策略時,收集了該商品在不同地區(qū)采用不同廣告形式促銷后的銷售額數(shù)據(jù),希望對廣告形式和地區(qū)是否對商品銷售額產(chǎn)生影響進行分析。案例分析:廣告形式、地區(qū)對銷售額的影響F值較大,F值的相伴概率小于或等于用戶給定的顯著性水平a,則拒絕H0,認為不同水平下各總體均值有顯著差異;F值較小,F值的相伴概率大于用戶給定的顯著性水平a,則不能拒絕H0,可以認為不同水平下各總體均值無顯著差異.廣告形式對銷售額的單因素方差分析結(jié)果可以看到:觀測變量銷售額的離差平方總和為26169.306;如果僅考慮廣告形式單個因素的影響,則銷售額總變差中,不同廣告形式可解釋的變差為5866.083,抽樣誤差引起的變差為20303.222,它們的方差分別為1955.361和145.023,相除所得的F統(tǒng)計量的觀測值為13.43,對應(yīng)的概率P值近似為0。如果顯著水平為0.05,由于P值<0,則應(yīng)拒絕原假設(shè),認為不同廣告形式銷售額產(chǎn)生了顯著影響,不同廣告形式對銷售額的影響效應(yīng)不全為0。地區(qū)對銷售額的單因素方差分析結(jié)果可以看到:觀測變量銷售額的離差平方總和為26169.306;如果僅考慮地區(qū)單個因素的影響,則銷售額總變差中,不同地區(qū)可解釋的變差為9265.306,抽樣誤差引起的變差為16904.0,它們的方差分別為545.018和134.159,相除所得的F統(tǒng)計量的觀測值為4.062,對應(yīng)的概率P值近似為0。如果顯著水平為0.05,由于P值<0.05,則應(yīng)拒絕原假設(shè),認為不同地區(qū)銷售額產(chǎn)生了顯著影響,不同地區(qū)對銷售額的影響效應(yīng)不全為0?;貧w分析回歸分析:是研究隨機變量之間的相關(guān)關(guān)系的一種統(tǒng)計方法。主要包括:一元線性回歸多元線性回歸非線性回歸逐步回歸Logistic回歸這里,稱為偏回歸系數(shù)。回歸分析的數(shù)學(xué)模型:從1978年改革開放以來,中國國民經(jīng)濟一直保持著較高的增長速度,人民生活水平大幅提高。但近年來由于全球競爭加劇,中國對外開放程度的加深,國民經(jīng)濟的發(fā)展面臨著很大的挑戰(zhàn)。財政收入水平的高低是反映一國經(jīng)濟實力的重要標志。在一定時期內(nèi),財政收入規(guī)模大小受許多因素的影響,如國民生產(chǎn)總值大小、進出口額、社會從業(yè)人員數(shù)多少、稅收規(guī)模大小、稅率高低因素等。分析要求:(1)分析影響財政收入的有哪些因素,對財政收入影響最大的又是哪些因素。(2)分析各因素對財政收入的影響程度,說明各個影響因素重要程度不同的原因。(3)對五各省市的財政收入作單獨考察,分析影響各省市財政收入的影響因素。案例分析:財政收入決定因素分析財政收入與稅收的關(guān)系財政收入與GNP的關(guān)系全國財政收入回歸模型的建立財政收入與進出口額的關(guān)系財政收入與從業(yè)人數(shù)的關(guān)系建立多元回歸模型四元線性回歸模型結(jié)論:從模型上可以看出(1)其他收入對財政收入增長的直接作用最大,稅收形成的作用次之。國民生產(chǎn)總值的作用微弱。(2)從業(yè)人數(shù)與財政收入呈負相關(guān)關(guān)系,說明隨著從業(yè)人員人數(shù)的增多,并沒有相應(yīng)的明顯增加財政收入。它實際反映了人均勞動生產(chǎn)率較低,潛在失業(yè)現(xiàn)象較為嚴重,生產(chǎn)方式多為勞動密集型,且勞動者整體素質(zhì)不高。這與我國實際的就業(yè)狀況比較吻合。各地區(qū)財政收入多元回歸分析(北京市)財政收入與從業(yè)人數(shù)的散點圖(北京市)財政收入與從業(yè)人數(shù)的散點圖(全國)變量剔除后兩模型比較分析主成分分析與因子分析主成分分析主要是一種降維的思想。原先有幾個變量,最多有幾個主成分。因子分析的基本目的在于:用少數(shù)幾個隨機變量刻畫較多變量之間的協(xié)方差關(guān)系。這少數(shù)的隨機變量是不可觀測的,人們稱之為“因子(factor)”?;舅悸肥牵焊鶕?jù)相關(guān)性大小將變量分組,使得組內(nèi)的變量之間具有較高的相關(guān)性,不同組內(nèi)的變量之間相關(guān)性較低
。
因子分析而因子分析是事先確定要找?guī)讉€成分,或叫因子(factor)(比如兩個),那就找兩個。主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m<p)因子得分的p×p矩陣.而對于觀測值X=(x1,…,xp),其中xi=(x1i,…,xni),i=1,…,p,的樣本相關(guān)陣第(ij)-元素為X=(X1,…,Xp)的相關(guān)陣為第(ij)-元素為的p×p矩陣,其中sij為第i和第j觀測的樣本相關(guān)系數(shù)關(guān)于特征值和特征向量特征方程|R-lI|=0的解為特征值l,這里B為一個p維正定方陣.l通常有p個根l1≥l2≥…≥lp.滿足(R-liI)xi=0的向量xi為li的特征向量.對任意向量a有性質(zhì)前m個主成分的累積貢獻率:這里R為X的樣本相關(guān)陣,第i個特征值li=ai’Rai=V(ai’x);ai為第i個特征向量.Cov(ai’x,aj’x)=0.這里aij為第i個特征向量的第j個分量;第i個主成分的載荷平方和為該主成分的方差,等于其特征值li.所選的m個主成分對變量xj的總方差貢獻為主成分負荷(載荷,loading):Yi與Xj的相關(guān)系數(shù):因子分析數(shù)學(xué)模型
矩陣表示為:設(shè)有n個樣本,每個樣本由p個指標來描述,且每個指標都已標準化即每個指標的樣本均值為零,方差為1。正交因子模型為:
mi=變量i的均值ei=第i個特殊因子Fi=第i個公共因子aij=第i個變量在第j個因子上的載荷不能觀測的值滿足下列條件:F和e獨立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是對角矩陣,
正交因子模型:X-m=AF+eF為公共因子向量,每個公共因子(如Fi)是對模型中每個變量都起作用的因子;而e為特殊因子向量,每個特殊因子(如ei)只對一個變量(第i個)起作用.因子分析的方法在于估計S=AA’+Y和Y,再分解以得到A.X的協(xié)方差陣S可以分解成這里l1≥l2≥…≥lp為S的特征值;而e1,…,ep為相應(yīng)的特征向量(e1,…,ep為主成分的系數(shù),因此稱為主成分法).上面分解總是取和數(shù)的重要的頭幾項來近似.X的協(xié)方差陣S可以近似為(如Y忽略)如Y不忽略,S可以近似為應(yīng)用中,S可以用樣本相關(guān)陣R代替.正交模型X=m+AF+e的協(xié)方差結(jié)構(gòu)
根據(jù)前面模型,可得出下面結(jié)果:上面sii2=Sjaij2+yi2中,Sjaij2稱為共性方差(公共方差或變量共同度commonvariance,communalities),而yi2稱為特殊方差.變量共同度刻畫全部公共因子對變量Xi的總方差所做的貢獻.的統(tǒng)計意義就是第i個變量與第j個公共因子的相關(guān)系數(shù),表示Xi依賴Fj的份量,這里eij是相應(yīng)于特征值li的特征向量ei的第j個分量.因子載荷陣中各列元素的平方和Sj=Siaij2稱為公共因子Fj對X諸變量的方差貢獻之總和因子載荷令T為任意m正交方陣(TT’=T’T=I),則X-m=AF+e=ATT’F+e=A*F*+e,這里A*=AT,F*=T’F.因此S=AA’+Y=ATT’A’+Y=(A*)(A*)’+Y因此,因子載荷A只由一個正交陣T決定.載荷A*=AT與A都給出同一個表示.由AA’=(A*)(A*)’對角元給出的共性方差,也不因T的選擇而改變.正交變換T相當(dāng)于剛體旋轉(zhuǎn)(或反射),因子載荷A的正交變換AT稱為因子旋轉(zhuǎn)
估計的協(xié)方差陣或相關(guān)陣,殘差陣,特殊方差及共性方差都不隨旋轉(zhuǎn)而變.
這里“殘差陣”為協(xié)方差陣或相關(guān)陣與估計的AA’+Y之差.因子旋轉(zhuǎn)的一個準則為最大方差準則.它使旋轉(zhuǎn)后的因子載荷的總方差達到最大.如即要選變換T使下式最大(計算機循環(huán)算法)需要由X=AF變成F=bX.或
Fj=bj1X1+…+bjpXpj=1,…,m,
稱為因子得分(函數(shù)).
這通常用加權(quán)最小二乘法或回歸法等來求得.總結(jié)
模型X=m+AF+e因子分析的步驟1.根據(jù)問題選取原始變量;
2.求其相關(guān)陣R,探討其相關(guān)性;
3.從R求解初始公共因子F及因子載荷矩陣A(主成分法或最大似然法)4.因子旋轉(zhuǎn);
5.由X=AF到F=bX(因子得分函數(shù))
6.根據(jù)因子得分值進行進一步分析.例題分析以02級信息與計算科學(xué)專業(yè)45名畢業(yè)生的22門課的考試成績?yōu)榛举Y料,對學(xué)生的成績進行因子分析.原始數(shù)據(jù)來自02信息與計算科學(xué)學(xué)生的學(xué)籍管理檔案(注:此處沒有考慮每門課程的教學(xué)時數(shù);考查課的成績根據(jù)正態(tài)分布曲線下的面積應(yīng)用進行了標準化,英語三個學(xué)期的成績之和記為英語成績;體育成績?nèi)〉谝粚W(xué)期的成績;不及格的科目按第一次考試成績計算)。
表2:檢驗結(jié)果表2給出了KMO檢驗和巴特利特球形檢驗的結(jié)果。其中KMO統(tǒng)計量為0.874接近于1,說明變量間的相關(guān)性極強,因子分析的效果非常好。巴特利特球形檢驗給出的相伴概率為0.000小于顯著性水平0.05因此拒絕零假設(shè),認為適合于因子分析。巴特利特微球度檢驗以原有變量相關(guān)系數(shù)矩陣為出發(fā)點,其原假設(shè)是:相關(guān)系數(shù)矩陣是單位陣,即相關(guān)系數(shù)矩陣為對角陣且主對角元素均為1。巴特利特球度檢驗的檢驗統(tǒng)計量根據(jù)相關(guān)系數(shù)矩陣的行列式計算得到,且近似服從卡方分布。如果該統(tǒng)計量的觀測值比較大,且對應(yīng)的概率p-值小于給定的顯著性水平,則應(yīng)拒絕原假設(shè),認為相關(guān)系數(shù)矩陣不太可能是單位陣,原有變量適合作因子分析;反之,如果檢驗統(tǒng)計量的觀測值比較小且對應(yīng)的概率p-值大于給定的顯著性水平,則不能拒絕原假設(shè),可以認為相關(guān)系數(shù)矩陣與單位陣無顯著差別,原有變量不適合做因子分析。巴特利(Bartlett)系數(shù)KMO檢驗統(tǒng)計量是用于比較變量間簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標,數(shù)學(xué)定義為:KMO的統(tǒng)計量取值在0~1之間。當(dāng)所有變量間的簡單相關(guān)系數(shù)平方和遠遠大于偏相關(guān)系數(shù)平方和時,KMO值接近1。KMO值越接近1,意味著變量間的相關(guān)性越強,原有變量越適合作因子分析;當(dāng)所有變量的簡單相關(guān)系數(shù)平方和越接近0時,KMO值越接近0,KMO值越接近于0,意味著變量間的相關(guān)性越弱,原有變量越不適合作因子分析。Kaiser給出了常用的KMO度量標準;0.9以上表示非常適合;0.8表示適合;0.7表示一般;0.6表示不太適合;0.5以下表示極不適合。第一因子變量中數(shù)學(xué)分析1、數(shù)學(xué)分析2,高等代數(shù)1、高等代數(shù)2、空間解析幾何都有較大的載荷,這些課程大部分是專業(yè)基礎(chǔ)課,因此第一因子可以定義為數(shù)學(xué)專業(yè)基礎(chǔ)理論因子。在第一因子變量各科載荷中,數(shù)學(xué)分析和高等代數(shù)較大,說明數(shù)學(xué)分析和高等代數(shù)對第一因子變量的影響較大。第二因子變量中C語言程序設(shè)計,數(shù)據(jù)結(jié)構(gòu)與算法,離散數(shù)學(xué)都有較大的載荷,這些課程大部分是計算機專業(yè)基礎(chǔ)因子。第三因子變量中概率論與數(shù)理統(tǒng)計,復(fù)變函數(shù),常微分方程,哲學(xué)原理,運籌學(xué)都有較大的載荷,這些大部分是三年級開設(shè)的數(shù)學(xué)專業(yè)課程,因此我們把第三因子變量定義為數(shù)學(xué)專業(yè)能力因子。(為什么會有哲學(xué)原理呢?因為哲學(xué)原理有很強的邏輯相關(guān)性,這正好與數(shù)學(xué)專業(yè)的培養(yǎng)學(xué)生邏輯思維能力相吻合)。
第四因子變量中數(shù)字信號處理,數(shù)字圖像處理,面向?qū)ο蟮某绦蛟O(shè)計都有較大的載荷,這些課程都是大學(xué)三年級開設(shè)的是在計算機基礎(chǔ)理論的前提下應(yīng)用計算機基礎(chǔ)理論解決實際問題的課程,反映了學(xué)生解決實際問題的能力水平,因此定義為計算機能力因子。第五個因子變量中體育基本上占了全部載荷,這正好和我們說的德智體全面發(fā)展相結(jié)合,說明體育也是很重要的,定義為體育因子。
第六因子變量中大學(xué)英語載荷最大,達到了0.825說明英語在大學(xué)生的學(xué)習(xí)中地位非常重要,定義為英語素質(zhì)因子。
第七因子變量中毛澤東思想概論和鄧小平理論概論思想道德教育都有很大的載荷,定義為思想理論素質(zhì)因子,這幾門課程是學(xué)習(xí)其它課程的理論指導(dǎo)學(xué)科,不論大學(xué)生以后從事哪方面的工作都離不開毛澤東鄧小平理論指導(dǎo),思想道德理論基礎(chǔ)又為大學(xué)生的思想素質(zhì)打下了堅實的基礎(chǔ)。
表6:因子轉(zhuǎn)換矩陣
因子課程名稱潛在變量Factor1數(shù)學(xué)分析1、2,高等代數(shù)1、2空間解析幾何數(shù)學(xué)基礎(chǔ)能力Factor2C語言程序設(shè)計,數(shù)據(jù)結(jié)構(gòu)與算法,離散數(shù)學(xué)計算機基礎(chǔ)能力Factor3概率論與數(shù)理統(tǒng)計,復(fù)變函數(shù),常微分方程,哲學(xué)原理,運籌學(xué)數(shù)學(xué)專業(yè)能力Factor4數(shù)字信號處理,數(shù)字圖像處理,面向?qū)ο蟪绦蛟O(shè)計計算機能力Factor5體育體育因子Factor6英語英語因子Factor7毛澤東思想概論,鄧小平理論概論,思想道德修養(yǎng)思想理論因子因子分析和主成分分析的一些注意事項:可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系應(yīng)用因子分析法進行分析的步驟如下:1、根據(jù)研究問題選取原始變量;2、對原始變量進行標準化并求其相關(guān)矩陣,分析變量之間的相關(guān)性;3、求解初始公共因子及因子載荷矩陣;4、因子旋轉(zhuǎn);5、因子得分;6、根據(jù)因子得分進行進一步分析聚類分析案例分析:中國35個主要城市經(jīng)濟效益分析根據(jù)35個主要城市某年關(guān)于年底總?cè)丝?、地區(qū)生產(chǎn)總值(GDP)、工業(yè)總產(chǎn)值、客運總量、貨運總量、地方財政預(yù)算內(nèi)收入、固定資產(chǎn)投資總額、城鄉(xiāng)居民儲蓄年末余額、在崗職工平均人數(shù)、在崗職工工資總額10個指標的數(shù)據(jù),以期對這些城市的經(jīng)濟效益進行橫向和縱向的比較,找出它們之
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國嬰兒紙尿布市場競爭格局展望及投資策略分析報告
- 2024-2030年中國復(fù)方氫氧化鋁咀嚼片項目申請報告
- 2024年三方環(huán)保項目居間服務(wù)合同2篇
- 2024年某汽車公司與經(jīng)銷商之間的汽車銷售代理合同
- 梅河口康美職業(yè)技術(shù)學(xué)院《納米材料自科類》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年版新員工停薪留職協(xié)議模板下載版B版
- 微專題化學(xué)與生活-2024高考化學(xué)一輪考點擊破
- 滿洲里俄語職業(yè)學(xué)院《生物工程與技術(shù)導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年智能工廠建設(shè)與運營合同
- 2024書法藝術(shù)展覽館建設(shè)與運營合作協(xié)議2篇
- 人教版二年級數(shù)學(xué)上冊全冊表格式教案
- 2024-2030年中國高壓電力變壓器行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 國家開放大學(xué)電大本科《工程經(jīng)濟與管理》2023-2024期末試題及答案(試卷號:1141)
- 監(jiān)理項目管理 投標方案(技術(shù)方案)
- 電影作品讀解智慧樹知到期末考試答案章節(jié)答案2024年西北大學(xué)
- 公務(wù)員職業(yè)道德建設(shè)和素質(zhì)能力提升培訓(xùn)課件(共37張)
- 稻田流轉(zhuǎn)合同范本
- 幼兒園故事繪本《賣火柴的小女孩兒》課件
- 2024年人教版初二政治上冊期末考試卷(附答案)
- 2024年新高考Ⅰ卷作文審題立意及寫作指導(dǎo)+課件
- 臨床骨質(zhì)疏松患者護理查房
評論
0/150
提交評論