數(shù)學(xué)建模方法詳解-三十四種常用算法_第1頁
數(shù)學(xué)建模方法詳解-三十四種常用算法_第2頁
數(shù)學(xué)建模方法詳解-三十四種常用算法_第3頁
數(shù)學(xué)建模方法詳解-三十四種常用算法_第4頁
數(shù)學(xué)建模方法詳解-三十四種常用算法_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

...wd......wd......wd...數(shù)學(xué)建模方法詳解--三十四種常用算法目錄TOC\o"1-1"\h\z\u一、主成分分析法2二、因子分析法5三、聚類分析9四、最小二乘法與多項(xiàng)式擬合16五、回歸分析〔略〕22六、概率分布方法〔略〕22七、插值與擬合〔略〕22八、方差分析法23九、逼近理想點(diǎn)排序法28十、動(dòng)態(tài)加權(quán)法29十一、灰色關(guān)聯(lián)分析法31十二、灰色預(yù)測(cè)法33十三、模糊綜合評(píng)價(jià)35十四、隸屬函數(shù)的刻畫〔略〕37十五、時(shí)間序列分析法38十六、蒙特卡羅(MC)仿真模型42十七、BP神經(jīng)網(wǎng)絡(luò)方法44十八、數(shù)據(jù)包絡(luò)分析法〔DEA〕51十九、多因素方差分析法〔〕基于SPSS〕54二十、拉格朗日插值70二十一、回歸分析〔略〕75二十二、概率分布方法〔略〕75二十三、插值與擬合〔略〕75二十四、隸屬函數(shù)的刻畫〔參考?數(shù)學(xué)建模及其方法應(yīng)用?〕75二十五、0-1整數(shù)規(guī)劃模型〔參看書籍〕75二十六、Board評(píng)價(jià)法〔略〕75二十七、納什均衡〔參看書籍〕75二十八、微分方程方法與差分方程方法〔參看書籍〕75二十九、萊斯利離散人口模型〔參看數(shù)據(jù)〕75三十、一次指數(shù)平滑預(yù)測(cè)法〔主要是軟件的使用〕75三十一、二次曲線回歸方程〔主要是軟件的使用〕75三十二、成本-效用分析〔略〕75三十三、逐步回歸法〔主要是軟件的使用〕75三十四、雙因子方差分析〔略〕75一、主成分分析法一〕、主成分分析法介紹:主成分分析〔principalcomponentsanalysis,PCA〕又稱:主分量分析,主成分回歸分析法。旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差奉獻(xiàn)最大的特征。這是通過保存低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保存住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應(yīng)用而定。二〕、主成分分析法的基本思想:在實(shí)證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。因?yàn)槊總€(gè)變量都在不同程度上反映了所研究問題的某些信息,并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì)數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法研究多變量問題時(shí),變量太多會(huì)增加計(jì)算量和增加分析問題的復(fù)雜性,人們希望在進(jìn)展定量分析的過程中,涉及的變量較少,得到的信息量較多。主成分分析正是適應(yīng)這一要求產(chǎn)生的,是解決這類題的理想工具。同樣,在科普效果評(píng)估的過程中也存在著這樣的問題??破招Ч呛茈y具體量化的。在實(shí)際評(píng)估工作中,我們常常會(huì)選用幾個(gè)有代表性的綜合指標(biāo),采用打分的方法來進(jìn)展評(píng)估,故綜合指標(biāo)的選取是個(gè)重點(diǎn)和難點(diǎn)。如上所述,主成分分析法正是解決這一問題的理想工具。因?yàn)樵u(píng)估所涉及的眾多變量之間既然有一定的相關(guān)性,就必然存在著起支配作用的因素。根據(jù)這一點(diǎn),通過對(duì)原始變量相關(guān)矩陣內(nèi)部構(gòu)造的關(guān)系研究,找出影響科普效果某一要素的幾個(gè)綜合指標(biāo),使綜合指標(biāo)為原來變量的線性擬合。這樣,綜合指標(biāo)不僅保存了原始變量的主要信息,且彼此間不相關(guān),又比原始變量具有某些更優(yōu)越的性質(zhì),就使我們?cè)谘芯繌?fù)雜的科普效果評(píng)估問題時(shí),容易抓住主要矛盾。上述想法可進(jìn)一步概述為:設(shè)某科普效果評(píng)估要素涉及個(gè)指標(biāo),這指標(biāo)構(gòu)成的維隨機(jī)向量為。對(duì)作正交變換,令,其中為正交陣,的各分量是不相關(guān)的,使得的各分量在某個(gè)評(píng)估要素中的作用容易解釋,這就使得我們有可能從主分量中選擇主要成分,削除對(duì)這一要素影響微弱的局部,通過對(duì)主分量的重點(diǎn)分析,到達(dá)對(duì)原始變量進(jìn)展分析的目的。的各分量是原始變量線性組合,不同的分量表示原始變量之間不同的影響關(guān)系。由于這些基本關(guān)系很可能與特定的作用過程相聯(lián)系,主成分分析使我們能從錯(cuò)綜復(fù)雜的科普評(píng)估要素的眾多指標(biāo)中,找出一些主要成分,以便有效地利用大量統(tǒng)計(jì)數(shù)據(jù),進(jìn)展科普效果評(píng)估分析,使我們?cè)谘芯靠破招Чu(píng)估問題中,可能得到深層次的一些啟發(fā),把科普效果評(píng)估研究引向深入。例如,在對(duì)科普產(chǎn)品開發(fā)和利用這一要素的評(píng)估中,涉及科普創(chuàng)作人數(shù)百萬人、科普作品發(fā)行量百萬人、科普產(chǎn)業(yè)化〔科普示范基地?cái)?shù)百萬人〕等多項(xiàng)指標(biāo)。經(jīng)過主成分分析計(jì)算,最后確定個(gè)或個(gè)主成分作為綜合評(píng)價(jià)科普產(chǎn)品利用和開發(fā)的綜合指標(biāo),變量數(shù)減少,并到達(dá)一定的可信度,就容易進(jìn)展科普效果的評(píng)估。三〕、主成分分析法的數(shù)學(xué)模型:其中:為第j個(gè)指標(biāo)對(duì)應(yīng)于第個(gè)主成分的初始因子載荷,為第l個(gè)主成分對(duì)應(yīng)的特征值根據(jù)主成分表達(dá)式得出綜合得分模型:四〕、主成分分析法的基本原理:主成分分析法是一種降維的統(tǒng)計(jì)方法,它借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差陣變換成對(duì)角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的p個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)展降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通過構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。五〕、主成分分析法的作用:概括起來說,主成分分析主要由以下幾個(gè)方面的作用。1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即m=1)時(shí),這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部x的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法。2.有時(shí)可通過因子負(fù)荷aij的結(jié)論,弄清X變量間的某些關(guān)系。3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問題大都多于3個(gè)變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對(duì)樣本進(jìn)展分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。4.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做構(gòu)造分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最正確變量,構(gòu)成最正確變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來選擇量,獲得選擇最正確變量子集合的效果。六〕、主成分分析法的計(jì)算步驟:1、原始指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化采集p維隨機(jī)向量x=(x1,X2,...,Up)T)n個(gè)樣品xi=(xi1,xi2,...,dip)T,I=1,2,…,n,n>p,構(gòu)造樣本陣,對(duì)樣本陣元進(jìn)展如下標(biāo)準(zhǔn)化變換:其中,得標(biāo)準(zhǔn)化陣Z。2、對(duì)標(biāo)準(zhǔn)化陣Z求相關(guān)系數(shù)矩陣其中,。3、解樣本相關(guān)矩陣R的特征方程得p個(gè)特征根,確定主成分按確定m值,使信息的利用率達(dá)85%以上,對(duì)每個(gè)job,j=1,2,...,m,解方程組Rib=job得單位特征向量。4、將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分U1稱為第一主成分,U2稱為第二主成分,…,Up稱為第p主成分。5、對(duì)m個(gè)主成分進(jìn)展綜合評(píng)價(jià)對(duì)m個(gè)主成分進(jìn)展加權(quán)求和,即得最終評(píng)價(jià)值,權(quán)數(shù)為每個(gè)主成分的方差奉獻(xiàn)率。PS另一種易于理解的步驟:1、數(shù)據(jù)標(biāo)準(zhǔn)化;2、求相關(guān)系數(shù)矩陣;3、一系列正交變換,使非對(duì)角線上的數(shù)置0,加到主對(duì)角上;得特征根xi〔即相應(yīng)那個(gè)主成分引起變異的方差),并按照從大到小的順序把特征根排列;4、求各個(gè)特征根對(duì)應(yīng)的特征向量;用下式計(jì)算每個(gè)特征根的奉獻(xiàn)率Vi;VI=xi/(x1+x2+)5、根據(jù)特征根及其特征向量解釋主成分物理意義七〕、主成分分析法的案例:參見:基于主成分分析的力量構(gòu)造指標(biāo)的權(quán)重的計(jì)算、基于主成分析的江蘇省地方高校創(chuàng)新力研究二、因子分析法一〕因子分析法介紹:主成分分析通過線性組合將原變量綜合成幾個(gè)主成分,用較少的綜合指標(biāo)來代替原來較多的指標(biāo)(變量)。在多變量分析中,某些變量間往往存在相關(guān)性。是什么原因使變量間有關(guān)聯(lián)呢是否存在不能直接觀測(cè)到的、但影響可觀測(cè)變量變化的公共因子因子分析法(FactorAnalysis)就是尋找這些公共因子的模型分析方法,它是在主成分的根基上構(gòu)筑假設(shè)干意義較為明確的公因子,以它們?yōu)榭蚣芊纸庠兞浚源丝疾煸兞块g的聯(lián)系與區(qū)別。例:隨著年齡的增長,兒童的身高、體重會(huì)隨著變化,具有一定的相關(guān)性,身高和體重之間為何會(huì)有相關(guān)性呢因?yàn)榇嬖谥粋€(gè)同時(shí)支配或影響著身高與體重的生長因子。那么,我們能否通過對(duì)多個(gè)變量的相關(guān)系數(shù)矩陣的研究,找出同時(shí)影響或支配所有變量的共性因子呢因子分析就是從大量的數(shù)據(jù)中“由表及里〞、“去粗取精〞,尋找影響或支配變量的多變量統(tǒng)計(jì)方法。因此,可以說因子分析是主成分分析的推廣,也是一種把多個(gè)變量化為少數(shù)幾個(gè)綜合變量的多變量分析方法,其目的是用有限個(gè)不可觀測(cè)的隱變量來解釋原始變量之間的相關(guān)關(guān)系。因子分析主要用于:1、減少分析變量個(gè)數(shù);2、通過對(duì)變量間相關(guān)關(guān)系探測(cè),將原始變量進(jìn)展分類。即將相關(guān)性高的變量分為一組,用共性因子代替該組變量。二〕、因子分析法的基本模型:因子分析法是從研究變量內(nèi)部相關(guān)的依賴關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。它的基本思想是將觀測(cè)變量進(jìn)展分類,將相關(guān)性較高,即聯(lián)系比較嚴(yán)密的分在同一類中,而不同類變量之間的相關(guān)性那么較低,那么每一類變量實(shí)際上就代表了一個(gè)基本構(gòu)造,即公共因子。對(duì)于所研究的問題就是試圖用最少個(gè)數(shù)的不可測(cè)的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測(cè)的每一分量。因子分析模型描述如下:1、X=(x1,x2,…,xp)是可觀測(cè)隨機(jī)向量,均值向量E(X)=0,協(xié)方差陣Cov(X)=∑,且協(xié)方差陣∑與相關(guān)矩陣R相等〔只要將變量標(biāo)準(zhǔn)化即可實(shí)現(xiàn)〕。2、F=(F1,F(xiàn)2,…,F(xiàn)m)〔m<p〕是不可測(cè)的向量,其均值向量E(F)=0,協(xié)方差矩陣Cov(F)=I,即向量的各分量是相互獨(dú)立的。3、e=(e1,e2,…,ep)與F相互獨(dú)立,且E(e)=0,e的協(xié)方差陣∑是對(duì)角陣,即各分量e之間是相互獨(dú)立的,那么模型:x1=a11F1+a12F2+…+a1mFm+e1x2=a21F1+a22F2+…+a2mFm+e2xp=ap1F1+ap2F2+…+apmFm+ep稱為因子分析模型,由于該模型是針對(duì)變量進(jìn)展的,各因子又是正交的,所以也稱為R型正交因子模型。其矩陣形式為:x=AF+e其中:x=,A=,F(xiàn)=,e=這里〔1〕m£p;〔2〕Cov(F,e)=0,即F和e是不相關(guān)的;〔3〕D(F)=Im,即F1,F(xiàn)2,…,F(xiàn)m不相關(guān)且方差均為1;〔4〕D(e)=,即e1,e2,…,ep不相關(guān),且方差不同。我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e稱為X的特殊因子。A=(aij),aij為因子載荷。數(shù)學(xué)上可以證明,因子載荷aij就是第i變量與第j因子的相關(guān)系數(shù),反映了第i變量在第j因子上的重要性。三〕、模型的統(tǒng)計(jì)意義:模型中F1,F(xiàn)2,…,F(xiàn)m叫做主因子或公共因子,它們是在各個(gè)原觀測(cè)變量的表達(dá)式中都共同出現(xiàn)的因子,是相互獨(dú)立的不可觀測(cè)的理論變量。公共因子的含義,必須結(jié)合具體問題的實(shí)際意義而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨(dú)立的。模型中載荷矩陣A中的元素(aij)是為因子載荷。因子載荷aij是xi與Fj的協(xié)方差,也是xi與Fj的相關(guān)系數(shù),它表示xi依賴Fj的程度??蓪ij看作第i個(gè)變量在第j公共因子上的權(quán),aij的絕對(duì)值越大(|aij|£1),說明xi與Fj的相依程度越大,或稱公共因子Fj對(duì)于xi的載荷量越大。為了得到因子分析結(jié)果的經(jīng)濟(jì)解釋,因子載荷矩陣A中有兩個(gè)統(tǒng)計(jì)量十分重要,即變量共同度和公共因子的方差奉獻(xiàn)。因子載荷矩陣A中第i行元素之平方和記為hi2,稱為變量xi的共同度。它是全部公共因子對(duì)xi的方差所做出的奉獻(xiàn),反映了全部公共因子對(duì)變量xi的影響。hi2大說明x的第i個(gè)分量xi對(duì)于F的每一分量F1,F(xiàn)2,…,F(xiàn)m的共同依賴程度大。將因子載荷矩陣A的第j列(j=1,2,…,m)的各元素的平方和記為gj2,稱為公共因子Fj對(duì)x的方差奉獻(xiàn)。gj2就表示第j個(gè)公共因子Fj對(duì)于x的每一分量xi(i=1,2,…,p)所提供方差的總和,它是衡量公共因子相對(duì)重要性的指標(biāo)。gj2越大,說明公共因子Fj對(duì)x的奉獻(xiàn)越大,或者說對(duì)x的影響和作用就越大。如果將因子載荷矩陣A的所有g(shù)j2(j=1,2,…,m)都計(jì)算出來,使其按照大小排序,就可以依此提煉出最有影響力的公共因子。四〕、因子旋轉(zhuǎn):建設(shè)因子分析模型的目的不僅是找出主因子,更重要的是知道每個(gè)主因子的意義,以便對(duì)實(shí)際問題進(jìn)展分析。如果求出主因子解后,各個(gè)主因子的典型代表變量不很突出,還需要進(jìn)展因子旋轉(zhuǎn),通過適當(dāng)?shù)男D(zhuǎn)得到比較滿意的主因子。旋轉(zhuǎn)的方法有很多,正交旋轉(zhuǎn)(orthogonalrotation)和斜交旋轉(zhuǎn)(obliquerotation)是因子旋轉(zhuǎn)的兩類方法。最常用的方法是最大方差正交旋轉(zhuǎn)法(Varimax)。進(jìn)展因子旋轉(zhuǎn),就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個(gè)方向分化,使大的載荷更大,小的載荷更小。因子旋轉(zhuǎn)過程中,如果因子對(duì)應(yīng)軸相互正交,那么稱為正交旋轉(zhuǎn);如果因子對(duì)應(yīng)軸相互間不是正交的,那么稱為斜交旋轉(zhuǎn)。常用的斜交旋轉(zhuǎn)方法有Promax法等。五〕、因子得分:因子分析模型建設(shè)后,還有一個(gè)重要的作用是應(yīng)用因子分析模型去評(píng)價(jià)每個(gè)樣品在整個(gè)模型中的地位,即進(jìn)展綜合評(píng)價(jià)。例如地區(qū)經(jīng)濟(jì)開展的因子分析模型建設(shè)后,我們希望知道每個(gè)地區(qū)經(jīng)濟(jì)開展的情況,把區(qū)域經(jīng)濟(jì)劃分歸類,哪些地區(qū)開展較快,哪些中等興旺,哪些較慢等。這時(shí)需要將公共因子用變量的線性組合來表示,也即由地區(qū)經(jīng)濟(jì)的各項(xiàng)指標(biāo)值來估計(jì)它的因子得分。設(shè)公共因子F由變量x表示的線性組合為:Fj=uj1xj1+uj2xj2+…+ujpxjpj=1,2,…,m該式稱為因子得分函數(shù),由它來計(jì)算每個(gè)樣品的公共因子得分。假設(shè)取m=2,那么將每個(gè)樣品的p個(gè)變量代入上式即可算出每個(gè)樣品的因子得分F1和F2,并將其在平面上做因子得分散點(diǎn)圖,進(jìn)而對(duì)樣品進(jìn)展分類或?qū)υ紨?shù)據(jù)進(jìn)展更深入的研究。但因子得分函數(shù)中方程的個(gè)數(shù)m小于變量的個(gè)數(shù)p,所以并不能準(zhǔn)確計(jì)算出因子得分,只能對(duì)因子得分進(jìn)展估計(jì)。估計(jì)因子得分的方法較多,常用的有回歸估計(jì)法,Bartlett估計(jì)法,Thomson估計(jì)法。具體方法為:〔1〕回歸估計(jì)法F=Xb=X(X¢X)-1A¢=XR-1A¢(這里R為相關(guān)陣,且R=X¢X)?!?〕Bartlett估計(jì)法Bartlett估計(jì)因子得分可由最小二乘法或極大似然法導(dǎo)出。F=(W-1/2A)¢W-1/2A]-1(W-1/2A)¢W-1/2X=(A¢W-1A)-1A¢W-1X〔3〕Thomson估計(jì)法在回歸估計(jì)法中,實(shí)際上是忽略特殊因子的作用,取R=X¢X,假設(shè)考慮特殊因子的作用,此時(shí)R=X¢X+W,于是有:F=XR-1A¢=X(X¢X+W)-1A¢這就是Thomson估計(jì)的因子得分,使用矩陣求逆算法(參考線性代數(shù)文獻(xiàn))可以將其轉(zhuǎn)換為:F=XR-1A¢=X(I+A¢W-1A)-1W-1A¢六〕、因子分析的步驟:因子分析的核心問題有兩個(gè):一是如何構(gòu)造因子變量;二是如何對(duì)因子變量進(jìn)展命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個(gè)核心問題展開的。因子分析常常有以下四個(gè)基本步驟:1、確認(rèn)待分析的原變量是否適合作因子分析。2、構(gòu)造因子變量。3、利用旋轉(zhuǎn)方法使因子變量更具有可解釋性。4、計(jì)算因子變量得分。因子分析的計(jì)算過程:1、將原始數(shù)據(jù)標(biāo)準(zhǔn)化,以消除變量間在數(shù)量級(jí)和量綱上的不同。2、求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣;3、求相關(guān)矩陣的特征值和特征向量;4、計(jì)算方差奉獻(xiàn)率與累積方差奉獻(xiàn)率;5、確定因子:設(shè)F1,F(xiàn)2,…,F(xiàn)p為p個(gè)因子,其中前m個(gè)因子包含的數(shù)據(jù)信息總量〔即其累積奉獻(xiàn)率〕不低于80%時(shí),可取前m個(gè)因子來反映原評(píng)價(jià)指標(biāo);6、因子旋轉(zhuǎn):假設(shè)所得的m個(gè)因子無法確定或其實(shí)際意義不是很明顯,這時(shí)需將因子進(jìn)展旋轉(zhuǎn)以獲得較為明顯的實(shí)際含義。7、用原指標(biāo)的線性組合來求各因子得分:采用回歸估計(jì)法,Bartlett估計(jì)法或Thomson估計(jì)法計(jì)算因子得分。8、綜合得分:以各因子的方差奉獻(xiàn)率為權(quán),由各因子的線性組合得到綜合評(píng)價(jià)指標(biāo)函數(shù)。F=(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)此處wi為旋轉(zhuǎn)前或旋轉(zhuǎn)后因子的方差奉獻(xiàn)率。9、得分排序:利用綜合得分可以得到得分名次。七〕、主成分分析法的使用范圍:1、簡(jiǎn)化系統(tǒng)構(gòu)造,探討系統(tǒng)內(nèi)核。可采用主成分分析、因子分析、對(duì)應(yīng)分析等方法,在眾多因素中找出各個(gè)變量最正確的子集合,從子集合所包含的信息描述多變量的系統(tǒng)結(jié)果及各個(gè)因子對(duì)系統(tǒng)的影響?!皬臉淠究瓷吱暎プ≈饕?,把握主要矛盾的主要方面,舍棄次要因素,以簡(jiǎn)化系統(tǒng)的構(gòu)造,認(rèn)識(shí)系統(tǒng)的內(nèi)核。2、構(gòu)造預(yù)測(cè)模型,進(jìn)展預(yù)報(bào)控制。在自然和社會(huì)科學(xué)領(lǐng)域的科研與生產(chǎn)中,探索多變量系統(tǒng)運(yùn)動(dòng)的客觀規(guī)律及其與外部環(huán)境的關(guān)系,進(jìn)展預(yù)測(cè)預(yù)報(bào),以實(shí)現(xiàn)對(duì)系統(tǒng)的最優(yōu)控制,是應(yīng)用多元統(tǒng)計(jì)分析技術(shù)的主要目的。在多元分析中,用于預(yù)報(bào)控制的模型有兩大類。一類是預(yù)測(cè)預(yù)報(bào)模型,通常采用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術(shù)。另一類是描述性模型,通常采用聚類分析的建模技術(shù)。3、進(jìn)展數(shù)值分類,構(gòu)造分類模式。在多變量系統(tǒng)的分析中,往往需要將系統(tǒng)性質(zhì)相似的事物或現(xiàn)象歸為一類。以便找出它們之間的聯(lián)系和內(nèi)在規(guī)律性。過去許多研究多是按單因素進(jìn)展定性處理,以致處理結(jié)果反映不出系統(tǒng)的總的特征。進(jìn)展數(shù)值分類,構(gòu)造分類模式一般采用聚類分析和判別分析技術(shù)。如何選擇適當(dāng)?shù)姆椒▉斫鉀Q實(shí)際問題,需要對(duì)問題進(jìn)展綜合考慮。對(duì)一個(gè)問題可以綜合運(yùn)用多種統(tǒng)計(jì)方法進(jìn)展分析。例如一個(gè)預(yù)報(bào)模型的建設(shè),可先根據(jù)有關(guān)生物學(xué)、生態(tài)學(xué)原理,確定理論模型和試驗(yàn)設(shè)計(jì);根據(jù)試驗(yàn)結(jié)果,收集試驗(yàn)資料;對(duì)資料進(jìn)展初步提煉;然后應(yīng)用統(tǒng)計(jì)分析方法(如相關(guān)分析、逐步回歸分析、主成分分析等)研究各個(gè)變量之間的相關(guān)性,選擇最正確的變量子集合;在此根基上構(gòu)造預(yù)報(bào)模型,最后對(duì)模型進(jìn)展診斷和優(yōu)化處理,并應(yīng)用于生產(chǎn)實(shí)際。三、聚類分析一〕聚類分析的概念:聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。它是一種重要的人類行為。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析是通過數(shù)據(jù)建模簡(jiǎn)化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、參加法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點(diǎn)等算法的聚類分析工具已被參加到許多著名的統(tǒng)計(jì)分析軟件包中,如SPSS、SAS等。二〕、聚類分析的主要應(yīng)用:在商業(yè)上聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購置模式刻畫不同的客戶群的特征;在生物上聚類分析被用來動(dòng)植物分類和對(duì)基因進(jìn)展分類,獲取對(duì)種群固有構(gòu)造的認(rèn)識(shí)在地理上聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性在保險(xiǎn)行業(yè)上聚類分析通過一個(gè)高的平均消費(fèi)來鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類型,價(jià)值,地理位置來鑒定一個(gè)城市的房產(chǎn)分組在因特網(wǎng)應(yīng)用上聚類分析被用來在網(wǎng)上進(jìn)展文檔歸類來修復(fù)信息在電子商務(wù)上聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個(gè)方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更適宜的服務(wù)。三〕聚類分析的主要步驟:1、數(shù)據(jù)預(yù)處理,2、為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù),3、聚類或分組,4、評(píng)估輸出。數(shù)據(jù)預(yù)處理包括選擇數(shù)量,類型和特征的標(biāo)度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉(zhuǎn)化為一個(gè)新的顯著特征,它們經(jīng)常被用來獲取一個(gè)適宜的特征集來為防止“維數(shù)災(zāi)〞進(jìn)展聚類,數(shù)據(jù)預(yù)處理還包括將孤立點(diǎn)移出數(shù)據(jù),孤立點(diǎn)是不依附于一般數(shù)據(jù)行為或模型的數(shù)據(jù),因此孤立點(diǎn)經(jīng)常會(huì)導(dǎo)致有偏差的聚類結(jié)果,因此為了得到正確的聚類,我們必須將它們剔除。既然相類似性是定義一個(gè)類的根基,那么不同數(shù)據(jù)之間在同一個(gè)特征空間相似度的衡量對(duì)于聚類步驟是很重要的,由于特征類型和特征標(biāo)度的多樣性,距離度量必須慎重,它經(jīng)常依賴于應(yīng)用,例如,通常通過定義在特征空間的距離度量來評(píng)估不同對(duì)象的相異性,很多距離度都應(yīng)用在一些不同的領(lǐng)域,一個(gè)簡(jiǎn)單的距離度量,如Euclidean距離,經(jīng)常被用作反映不同數(shù)據(jù)間的相異性,一些有關(guān)相似性的度量,例如PMC和SMC,能夠被用來特征化不同數(shù)據(jù)的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來衡量兩個(gè)圖形的相似性。將數(shù)據(jù)對(duì)象分到不同的類中是一個(gè)很重要的步驟,數(shù)據(jù)基于不同的方法被分到不同的類中,劃分方法和層次方法是聚類分析的兩個(gè)主要方法,劃分方法一般從初始劃分和最優(yōu)化一個(gè)聚類標(biāo)準(zhǔn)開場(chǎng)。CrispClustering,它的每一個(gè)數(shù)據(jù)都屬于單獨(dú)的類;FuzzyClustering,它的每個(gè)數(shù)據(jù)可能在任何一個(gè)類中,CrispClustering和FuzzyClusterin是劃分方法的兩個(gè)主要技術(shù),劃分方法聚類是基于某個(gè)標(biāo)準(zhǔn)產(chǎn)生一個(gè)嵌套的劃分系列,它可以度量不同類之間的相似性或一個(gè)類的可別離性用來合并和分裂類,其他的聚類方法還包括基于密度的聚類,基于模型的聚類,基于網(wǎng)格的聚類。評(píng)估聚類結(jié)果的質(zhì)量是另一個(gè)重要的階段,聚類是一個(gè)無管理的程序,也沒有客觀的標(biāo)準(zhǔn)來評(píng)價(jià)聚類結(jié)果,它是通過一個(gè)類有效索引來評(píng)價(jià),一般來說,幾何性質(zhì),包括類間的別離和類內(nèi)部的耦合,一般都用來評(píng)價(jià)聚類結(jié)果的質(zhì)量,類有效索引在決定類的數(shù)目時(shí)經(jīng)常扮演了一個(gè)重要角色,類有效索引的最正確值被期望從真實(shí)的類數(shù)目中獲取,一個(gè)通常的決定類數(shù)目的方法是選擇一個(gè)特定的類有效索引的最正確值,這個(gè)索引能否真實(shí)的得出類的數(shù)目是判斷該索引是否有效的標(biāo)準(zhǔn),很多已經(jīng)存在的標(biāo)準(zhǔn)對(duì)于相互別離的類數(shù)據(jù)集合都能得出很好的結(jié)果,但是對(duì)于復(fù)雜的數(shù)據(jù)集,卻通常行不通,例如,對(duì)于交疊類的集合。四〕聚類分析的計(jì)算方法:1、劃分法(partitioningmethods):給定一個(gè)有N個(gè)元組或者紀(jì)錄的數(shù)據(jù)集,分裂法將構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,K<N。而且這K個(gè)分組滿足以下條件:〔1〕每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;〔2〕每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組〔注意:這個(gè)要求在某些模糊聚類算法中可以放寬〕;對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越好。使用這個(gè)基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;2、層次法(hierarchicalmethods):這種方法對(duì)給定的數(shù)據(jù)集進(jìn)展層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上〞和“自頂向下〞兩種方案。例如在“自底向上〞方案中,初始時(shí)每一個(gè)數(shù)據(jù)紀(jì)錄都組成一個(gè)單獨(dú)的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿足為止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;3、基于密度的方法(density-basedmethods):基于密度的方法與其它方法的一個(gè)基本區(qū)別是:它不是基于各種各樣的距離的,而是基于密度的。這樣就能抑制基于距離的算法只能發(fā)現(xiàn)“類圓形〞的聚類的缺點(diǎn)。這個(gè)方法的指導(dǎo)思想就是,只要一個(gè)區(qū)域中的點(diǎn)的密度大過某個(gè)閥值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;4、基于網(wǎng)格的方法(grid-basedmethods):這種方法首先將數(shù)據(jù)空間劃分成為有限個(gè)單元〔cell〕的網(wǎng)格構(gòu)造,所有的處理都是以單個(gè)的單元為對(duì)象的。這么處理的一個(gè)突出的優(yōu)點(diǎn)就是處理速度很快,通常這是與目標(biāo)數(shù)據(jù)庫中記錄的個(gè)數(shù)無關(guān)的,它只與把數(shù)據(jù)空間分為多少個(gè)單元有關(guān)。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;5、基于模型的方法(model-basedmethods):基于模型的方法給每一個(gè)聚類假定一個(gè)模型,然后去尋找能個(gè)很好的滿足這個(gè)模型的數(shù)據(jù)集。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。它的一個(gè)潛在的假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統(tǒng)計(jì)的方案和神經(jīng)網(wǎng)絡(luò)的方案。具體的有:1、K-MEANS算法k-means算法承受輸入量k;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象〞〔引力中心〕來進(jìn)展計(jì)算的。k-means算法的工作過程說明如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下其它對(duì)象,那么根據(jù)它們與這些聚類中心的相似度〔距離〕,分別將它們分配給與其最相似的〔聚類中心所代表的〕聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心〔該聚類中所有對(duì)象的均值〕;不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開場(chǎng)收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù).k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。2、K-MEDOIDS算法K-MEANS有其缺點(diǎn):產(chǎn)生類的大小相差不會(huì)很大,對(duì)于臟數(shù)據(jù)很敏感。改進(jìn)的算法:k—medoids方法。這兒選取一個(gè)對(duì)象叫做mediod來代替上面的中心的作用,這樣的一個(gè)medoid就標(biāo)識(shí)了這個(gè)類。步驟:〔1〕、任意選取K個(gè)對(duì)象作為medoids〔O1,O2,…Oi…Ok〕。以下是循環(huán)的:〔2〕、將余下的對(duì)象分到各個(gè)類中去〔根據(jù)與medoid最相近的原那么〕;〔3〕、對(duì)于每個(gè)類〔Oi〕中,順序選取一個(gè)Or,計(jì)算用Or代替Oi后的消耗—E〔Or〕。選擇E最小的那個(gè)Or來代替Oi。這樣K個(gè)medoids就改變了,下面就再轉(zhuǎn)到2。〔4〕、這樣循環(huán)直到K個(gè)medoids固定下來。這種算法對(duì)于臟數(shù)據(jù)和異常數(shù)據(jù)不敏感,但計(jì)算量顯然要比K均值要大,一般只適合小數(shù)據(jù)量。3、Clara算法上面提到K-medoids算法不適合于大數(shù)據(jù)量的計(jì)算?,F(xiàn)在介紹Clara算法,這是一種基于采用的方法,它能夠處理大量的數(shù)據(jù)。Clara算法的思想就是用實(shí)際數(shù)據(jù)的抽樣來代替整個(gè)數(shù)據(jù),然后再在這些抽樣的數(shù)據(jù)上利用K-medoids算法得到最正確的medoids。Clara算法從實(shí)際數(shù)據(jù)中抽取多個(gè)采樣,在每個(gè)采樣上都用K-medoids算法得到相應(yīng)的〔O1,O2…Oi…Ok〕,然后在這當(dāng)中選取E最小的一個(gè)作為最終的結(jié)果。4、Clarans算法Clara算法的效率取決于采樣的大小,一般不太可能得到最正確的結(jié)果。在Clara算法的根基上,又提出了Clarans的算法,與Clara算法不同的是:在Clara算法尋找最正確的medoids的過程中,采樣都是不變的。而Clarans算法在每一次循環(huán)的過程中所采用的采樣都是不一樣的。與上次課所講的尋找最正確medoids的過程不同的是,必須人為地來限定循環(huán)的次數(shù)。模糊聚類分析方法聚類分析方法形成思路變量的數(shù)據(jù)預(yù)處理分類前,對(duì)原始數(shù)據(jù)進(jìn)展預(yù)處理,使其所有變量尺度均勻化。方法有以下幾種:變量的標(biāo)準(zhǔn)化設(shè)有個(gè)樣品,個(gè)特征變量,設(shè)第個(gè)樣品,第個(gè)變量的觀測(cè)值為,由此可構(gòu)成一個(gè)階矩陣為〔1〕將式〔1〕中每個(gè)變量根據(jù)以下公式變換,稱為標(biāo)準(zhǔn)化。對(duì)每個(gè)變量的標(biāo)準(zhǔn)化計(jì)算公式為〔2〕式中,標(biāo)準(zhǔn)化后變量的平均值為0,標(biāo)準(zhǔn)離差為1。變量的正規(guī)化對(duì)每個(gè)變量施行以下變換,稱為正規(guī)化?!?〕式中,和分別為第個(gè)變量的最大值和最小值。顯然,。變量的規(guī)格化對(duì)每個(gè)變量施行以下變換,稱為規(guī)格化。〔4〕式中,,為第個(gè)變量的最大值。顯然,。注:數(shù)據(jù)的預(yù)處理以不喪失原有信息為前提。三種預(yù)處理方法的選擇應(yīng)根據(jù)現(xiàn)有數(shù)據(jù)的特點(diǎn)來考慮。分類統(tǒng)計(jì)量確實(shí)定及其聚類方法的選擇分類統(tǒng)計(jì)量確實(shí)定一般是把相似程度大的并成一類,把相似程度小的分為不同的類,因此要定量地表示樣品間的相似程度。設(shè)論域,,即數(shù)據(jù)矩陣為,如果與的相似程度為,那么稱之為相似系數(shù),確定相似系數(shù)有多種不同的方法。常用的方法如下:(1)數(shù)量積法對(duì)于,令,那么取,顯然。假設(shè)出現(xiàn)有某些,可令,那么有。也可以用平移-極差變換將其壓縮到上,即可以得到模糊相似矩陣。(2)夾角余弦法〔相似系數(shù)統(tǒng)計(jì)量〕:令那么。(3)相關(guān)系數(shù)法〔相關(guān)系數(shù)統(tǒng)計(jì)量〕:令其中,,那么。注意:中的樣本屬于同一個(gè)樣本空間。(4)指數(shù)相似系數(shù)法:令其中,。那么。注意:中的樣本屬于不同的樣本空間,即。(5)最大最小值法:令那么。(6)算術(shù)平均值法:令那么。(7)幾何平均值法:令那么。(8)絕對(duì)值倒數(shù)法:令其中為使得所有確實(shí)定常數(shù),那么。(9)絕對(duì)值指數(shù)法:令那么。(10)海明距離法〔距離系數(shù)統(tǒng)計(jì)量。如果變量的量綱不同,原始數(shù)據(jù)變異范圍相差懸殊時(shí),建議首先進(jìn)展數(shù)據(jù)的標(biāo)準(zhǔn)化處理,然后再計(jì)算距離〕:令其中為使得所有確實(shí)定常數(shù)。那么。(11)歐氏距離法〔最常用〕:令其中為使得所有確實(shí)定常數(shù)。那么。(12)契比雪夫距離法:令其中為使得所有確實(shí)定常數(shù)。那么。(13)主觀評(píng)分法:設(shè)有個(gè)專家組成專家組,讓每一位專家對(duì)所研究的對(duì)象與相似程度給出評(píng)價(jià),并對(duì)自己的自信度作出評(píng)估。如果第位專家關(guān)于對(duì)象與的相似度評(píng)價(jià)為,對(duì)自己的自信度評(píng)估為,那么相關(guān)系數(shù)定義為那么。綜上所述,以上給出了實(shí)際中能夠使用的一些方法,具體地選擇要根據(jù)具體問題的性質(zhì)和使用的方便來確定。在實(shí)際工作中,當(dāng)需要研究樣品與樣品之間關(guān)系時(shí),一般用距離系數(shù)統(tǒng)計(jì)量或者相似系數(shù)統(tǒng)計(jì)量作為分類計(jì)算依據(jù),這種方法又稱為Q型聚類法;當(dāng)需要研究變量與變量之間的關(guān)系時(shí),常用相關(guān)系數(shù)統(tǒng)計(jì)量作為分類計(jì)算依據(jù),這種方法又稱R型聚類法。選擇適當(dāng)?shù)木垲惙椒ň酆戏ㄩ_場(chǎng)把每個(gè)樣品看成自成一類,計(jì)算各類之間的相似程度的統(tǒng)計(jì)量,把最相似的兩類合并為一類,再計(jì)算各類相似程度統(tǒng)計(jì)量,把最相似的兩類合并,照此繼續(xù)下去,一直到所有樣品都聚合成一類為止,最后人為確定適宜的分類數(shù),得到分類結(jié)果。分解法它的聚類過程恰好和聚合法相反,開場(chǎng)把全體樣品看成一類,然后分成二類,……,一直到每個(gè)樣品為一類或分到不能再分時(shí)為止,通常要設(shè)計(jì)一個(gè)分類函數(shù)〔目標(biāo)函數(shù)〕來控制整個(gè)分類過程。調(diào)優(yōu)法開場(chǎng)人為將樣品作初始分類,在一定準(zhǔn)那么下判斷這個(gè)分類是否最優(yōu),如果不是最優(yōu),那么對(duì)分類進(jìn)展修改,再判斷修改后的分類是否最優(yōu),假設(shè)仍不是最優(yōu),再作修改,不斷重復(fù)上述步驟,一直到分類方案最優(yōu)為止。*動(dòng)態(tài)聚類法步驟:1、按照一定的原那么選擇一批凝聚點(diǎn)〔聚核〕,2、讓樣品向最近的凝聚點(diǎn)凝聚,這樣就由點(diǎn)凝聚成類,得到初始分類。3、初始分類不一定合理,可按最近距離原那么進(jìn)展修改,直到分類合理得到最終的分類為止。四、最小二乘法與多項(xiàng)式擬合一〕、最小二乘法的基本原理從整體上考慮近似函數(shù)同所給數(shù)據(jù)點(diǎn)(i=0,1,…,m)誤差(i=0,1,…,m)的大小,常用的方法有以下三種:一是誤差(i=0,1,…,m)絕對(duì)值的最大值,即誤差向量的∞—范數(shù);二是誤差絕對(duì)值的和,即誤差向量r的1—范數(shù);三是誤差平方和的算術(shù)平方根,即誤差向量r的2—范數(shù);前兩種方法簡(jiǎn)單、自然,但不便于微分運(yùn)算,后一種方法相當(dāng)于考慮2—范數(shù)的平方,因此在曲線擬合中常采用誤差平方和來度量誤差(i=0,1,…,m)的整體大小。數(shù)據(jù)擬合的具體作法是:對(duì)給定數(shù)據(jù)(i=0,1,…,m),在取定的函數(shù)類中,求,使誤差(i=0,1,…,m)的平方和最小,即=從幾何意義上講,就是尋求與給定點(diǎn)(i=0,1,…,m)的距離平方和為最小的曲線〔圖6-1〕。函數(shù)稱為擬合函數(shù)或最小二乘解,求擬合函數(shù)的方法稱為曲線擬合的最小二乘法。在曲線擬合中,函數(shù)類可有不同的選取方法.6—1二〕、多項(xiàng)式擬合假設(shè)給定數(shù)據(jù)點(diǎn)(i=0,1,…,m),為所有次數(shù)不超過的多項(xiàng)式構(gòu)成的函數(shù)類,現(xiàn)求一,使得(1)當(dāng)擬合函數(shù)為多項(xiàng)式時(shí),稱為多項(xiàng)式擬合,滿足式〔1〕的稱為最小二乘擬合多項(xiàng)式。特別地,當(dāng)n=1時(shí),稱為線性擬合或直線擬合。顯然為的多元函數(shù),因此上述問題即為求的極值問題。由多元函數(shù)求極值的必要條件,得(2)即(3)〔3〕是關(guān)于的線性方程組,用矩陣表示為(4)式〔3〕或式〔4〕稱為正規(guī)方程組或法方程組??梢宰C明,方程組〔4〕的系數(shù)矩陣是一個(gè)對(duì)稱正定矩陣,故存在唯一解。從式〔4〕中解出(k=0,1,…,n),從而可得多項(xiàng)式(5)可以證明,式〔5〕中的滿足式〔1〕,即為所求的擬合多項(xiàng)式。我們把稱為最小二乘擬合多項(xiàng)式的平方誤差,記作由式(2)可得(6)多項(xiàng)式擬合的一般方法可歸納為以下幾步:(1)由數(shù)據(jù)畫出函數(shù)粗略的圖形——散點(diǎn)圖,確定擬合多項(xiàng)式的次數(shù)n;(2)列表計(jì)算和;(3)寫出正規(guī)方程組,求出;(4)寫出擬合多項(xiàng)式。在實(shí)際應(yīng)用中,或;當(dāng)時(shí)所得的擬合多項(xiàng)式就是拉格朗日或牛頓插值多項(xiàng)式。例1測(cè)得銅導(dǎo)線在溫度(℃)時(shí)的電阻如表6-1,求電阻R與溫度T的近似函數(shù)關(guān)系。i0123456(℃)19.125.030.136.040.045.150.076.3077.8079.2580.8082.3583.9085.10解畫出散點(diǎn)圖〔圖6-2〕,可見測(cè)得的數(shù)據(jù)接近一條直線,故取n=1,擬合函數(shù)為列表如下i019.176.30364.811457.330125.077.80625.001945.000230.179.25906.012385.425336.080.801296.002908.800440.082.351600.003294.000545.183.902034.013783.890650.085.102500.004255.000245.3565.59325.8320029.445正規(guī)方程組為解方程組得故得R與T的擬合直線為利用上述關(guān)系式,可以預(yù)測(cè)不同溫度時(shí)銅導(dǎo)線的電阻值。例如,由R=0得T=-242.5,即預(yù)測(cè)溫度T=-242.5℃時(shí),銅導(dǎo)線無電阻。6-2例2實(shí)驗(yàn)數(shù)據(jù)如下表i01234567813456789101054211234試用最小二乘法求它的二次擬合多項(xiàng)式。解設(shè)擬合曲線方程為列表如下I0110111101013592781154524416642561664352251256251050461362161296636571493432401749682645124096161287938172965612724381041001000100004040053323813017253171471025得正規(guī)方程組解得故擬合多項(xiàng)式為*三最小二乘擬合多項(xiàng)式的存在唯一性定理1設(shè)節(jié)點(diǎn)互異,那么法方程組〔4〕的解存在唯一。證由克萊姆法那么,只需證明方程組〔4〕的系數(shù)矩陣非奇異即可。用反證法,設(shè)方程組〔4〕的系數(shù)矩陣奇異,那么其所對(duì)應(yīng)的齊次方程組〔7〕有非零解。式(7)可寫為〔8〕將式〔8〕中第j個(gè)方程乘以(j=0,1,…,n),然后將新得到的n+1個(gè)方程左右兩端分別相加,得因?yàn)槠渲兴?i=0,1,…,m)是次數(shù)不超過n的多項(xiàng)式,它有m+1>n個(gè)相異零點(diǎn),由代數(shù)基本定理,必須有,與齊次方程組有非零解的假設(shè)矛盾。因此正規(guī)方程組〔4〕必有唯一解。定理2設(shè)是正規(guī)方程組〔4〕的解,那么是滿足式〔1〕的最小二乘擬合多項(xiàng)式。證只需證明,對(duì)任意一組數(shù)組成的多項(xiàng)式,恒有即可。因?yàn)?k=0,1,…,n)是正規(guī)方程組〔4〕的解,所以滿足式〔2〕,因此有故為最小二乘擬合多項(xiàng)式。*四多項(xiàng)式擬合中抑制正規(guī)方程組的病態(tài)在多項(xiàng)式擬合中,當(dāng)擬合多項(xiàng)式的次數(shù)較高時(shí),其正規(guī)方程組往往是病態(tài)的。而且①正規(guī)方程組系數(shù)矩陣的階數(shù)越高,病態(tài)越嚴(yán)重;②擬合節(jié)點(diǎn)分布的區(qū)間偏離原點(diǎn)越遠(yuǎn),病態(tài)越嚴(yán)重;③(i=0,1,…,m)的數(shù)量級(jí)相差越大,病態(tài)越嚴(yán)重。為了抑制以上缺點(diǎn),一般采用以下措施:①盡量少作高次擬合多項(xiàng)式,而作不同的分段低次擬合;②不使用原始節(jié)點(diǎn)作擬合,將節(jié)點(diǎn)分布區(qū)間作平移,使新的節(jié)點(diǎn)關(guān)于原點(diǎn)對(duì)稱,可大大降低正規(guī)方程組的條件數(shù),從而減低病態(tài)程度。平移公式為:(9)③對(duì)平移后的節(jié)點(diǎn)(i=0,1,…,m),再作壓縮或擴(kuò)張?zhí)幚恚骸?0〕其中,〔r是擬合次數(shù)〕〔11〕經(jīng)過這樣調(diào)整可以使的數(shù)量級(jí)不太大也不太小,特別對(duì)于等距節(jié)點(diǎn),作式〔10〕和式〔11〕兩項(xiàng)變換后,其正規(guī)方程組的系數(shù)矩陣設(shè)為A,那么對(duì)1~4次多項(xiàng)式擬合,條件數(shù)都不太大,都可以得到滿意的結(jié)果。變換后的條件數(shù)上限表如下:擬合次數(shù)1234=1<9.9<50.3<435④在實(shí)際應(yīng)用中還可以利用正交多項(xiàng)式求擬合多項(xiàng)式。一種方法是構(gòu)造離散正交多項(xiàng)式;另一種方法是利用切比雪夫節(jié)點(diǎn)求出函數(shù)值后再使用正交多項(xiàng)式。這兩種方法都使正規(guī)方程組的系數(shù)矩陣為對(duì)角矩陣,從而防止了正規(guī)方程組的病態(tài)。我們只介紹第一種,見第三節(jié)。例如m=19,=328,h=1,=+ih,i=0,1,…,19,即節(jié)點(diǎn)分布在[328,347],作二次多項(xiàng)式擬合時(shí)①直接用構(gòu)造正規(guī)方程組系數(shù)矩陣,計(jì)算可得嚴(yán)重病態(tài),擬合結(jié)果完全不能用。②作平移變換用構(gòu)造正規(guī)方程組系數(shù)矩陣,計(jì)算可得比降低了13個(gè)數(shù)量級(jí),病態(tài)顯著改善,擬合效果較好。③取壓縮因子作壓縮變換用構(gòu)造正規(guī)方程組系數(shù)矩陣,計(jì)算可得又比降低了3個(gè)數(shù)量級(jí),是良態(tài)的方程組,擬合效果十分理想。如有必要,在得到的擬合多項(xiàng)式中使用原來節(jié)點(diǎn)所對(duì)應(yīng)的變量x,可寫為仍為一個(gè)關(guān)于x的n次多項(xiàng)式,正是我們要求的擬合多項(xiàng)式。五、回歸分析〔略〕六、概率分布方法〔略〕七、插值與擬合〔略〕八、方差分析法一〕、方差分析的意義前述的t檢驗(yàn)和u檢驗(yàn)適用于兩個(gè)樣本均數(shù)的比較,對(duì)于k個(gè)樣本均數(shù)的比較,如果仍用t檢驗(yàn)或u檢驗(yàn),需比較次,如四個(gè)樣本均數(shù)需比較次。假設(shè)每次比較所確定的檢驗(yàn)水準(zhǔn)=0.05,那么每次檢驗(yàn)拒絕H0不犯第一類錯(cuò)誤的概率為1-0.05=0.95;那么6次檢驗(yàn)都不犯第一類錯(cuò)誤的概率為(1-0.05)6=0.7351,而犯第一類錯(cuò)誤的概率為0.2649,因而t檢驗(yàn)和u檢驗(yàn)不適用于多個(gè)樣本均數(shù)的比較。用方差分析比較多個(gè)樣本均數(shù),可有效地控制第一類錯(cuò)誤。方差分析(analysisofvariance,ANOVA)由英國統(tǒng)計(jì)學(xué)家R.A.Fisher首先提出,以F命名其統(tǒng)計(jì)量,故方差分析又稱F檢驗(yàn)。二〕、方差分析的基本思想下面通過表5.1資料介紹方差分析的基本思想。例如,有4組進(jìn)食高脂飲食的家兔,承受不同處理后,測(cè)定其血清腎素血管緊張素轉(zhuǎn)化酶〔ACE〕濃度〔表5.1〕,試比較四組家兔的血清ACE濃度。表5.1對(duì)照組及各實(shí)驗(yàn)組家兔血清ACE濃度〔u/ml〕對(duì)照組實(shí)驗(yàn)組A降脂藥B降脂藥C降脂藥61.2482.3526.2325.4658.6556.4746.8738.7946.7961.5724.3613.5537.4348.7938.5419.4566.5462.5442.1634.5659.2760.8730.3310.9620.6848.23329.92372.59229.17191.001122.68()667726〔N〕54.9962.1032.7427.2943.18〔〕18720.9723758.128088.596355.4356923.11()由表5.1可見,26只家兔的血清ACE濃度各不一樣,稱為總變異;四組家兔的血清ACE濃度均數(shù)也各不一樣,稱為組間變異;即使同一組內(nèi)部的家兔血清ACE濃度相互間也不一樣,稱為組內(nèi)變異。該例的總變異包括組間變異和組內(nèi)變異兩局部,或者說可把總變異分解為組間變異和組內(nèi)變異。組內(nèi)變異是由于家兔間的個(gè)體差異所致。組間變異可能由兩種原因所致,一是抽樣誤差;二是由于各組家兔所承受的處理不同。正如第四章所述,在抽樣研究中抽樣誤差是不可防止的,故導(dǎo)致組間變異的第一種原因肯定存在;第二種原因是否存在,需通過假設(shè)檢驗(yàn)作出推斷。假設(shè)檢驗(yàn)的方法很多,由于該例為多個(gè)樣本均數(shù)的比較,應(yīng)選用方差分析。方差分析的檢驗(yàn)假設(shè)H0為各樣本來自均數(shù)相等的總體,H1為各總體均數(shù)不等或不全相等。假設(shè)不拒絕H0時(shí),可認(rèn)為各樣本均數(shù)間的差異是由于抽樣誤差所致,而不是由于處理因素的作用所致。理論上,此時(shí)的組間變異與組內(nèi)變異應(yīng)相等,兩者的比值即統(tǒng)計(jì)量F為1;由于存在抽樣誤差,兩者往往不恰好相等,但相差不會(huì)太大,統(tǒng)計(jì)量F應(yīng)接近于1。假設(shè)拒絕H0,承受H1時(shí),可認(rèn)為各樣本均數(shù)間的差異,不僅是由抽樣誤差所致,還有處理因素的作用。此時(shí)的組間變異遠(yuǎn)大于組內(nèi)變異,兩者的比值即統(tǒng)計(jì)量F明顯大于1。在實(shí)際應(yīng)用中,當(dāng)統(tǒng)計(jì)量F值遠(yuǎn)大于1且大于某界值時(shí),拒絕H0,承受H1,即意味著各樣本均數(shù)間的差異,不僅是由抽樣誤差所致,還有處理因素的作用?!?.1〕方差分析的基本思想是根據(jù)研究目的和設(shè)計(jì)類型,將總變異中的離均差平方和SS及其自由度分別分解成相應(yīng)的假設(shè)干局部,然后求各相應(yīng)局部的變異;再用各局部的變異與組內(nèi)〔或誤差〕變異進(jìn)展比較,得出統(tǒng)計(jì)量F值;最后根據(jù)F值的大小確定P值,作出統(tǒng)計(jì)推斷。例如,完全隨機(jī)設(shè)計(jì)的方差分析,是將總變異中的離均差平方和SS及其自由度分別分解成組間和組內(nèi)兩局部,SS組間/組間和SS組內(nèi)/組內(nèi)分別為組間變異〔MS組間〕和組內(nèi)變異〔MS組內(nèi)〕,兩者之比即為統(tǒng)計(jì)量F〔MS組間/MS組內(nèi)〕。又如,隨機(jī)區(qū)組設(shè)計(jì)的方差分析,是將總變異中的離均差平方和SS及其自由度分別分解成處理間、區(qū)組間和誤差3局部,然后分別求得以上各局部的變異〔MS處理、MS區(qū)組和MS誤差〕,進(jìn)而得出統(tǒng)計(jì)量F值〔MS處理/MS誤差、MS區(qū)組/MS誤差〕。3、方差分析的計(jì)算方法下面以完全隨機(jī)設(shè)計(jì)資料為例,說明各局部變異的計(jì)算方法。將N個(gè)受試對(duì)象隨機(jī)分為k組,分別承受不同的處理。歸納整理數(shù)據(jù)的格式、符號(hào)見下表:處理組〔i〕123…k……合計(jì)……1〕總離均差平方和〔sumofsquares,SS〕及自由度〔freedom,ν〕總變異的離均差平方和為各變量值與總均數(shù)〔〕差值的平方和,離均差平方和和自由度分別為:〔5.2〕=N-1〔5.3〕2〕組間離均差平方和、自由度和均方組間離均差平方和為各組樣本均數(shù)()與總均數(shù)()差值的平方和〔5.4〕〔5.5〕〔5.6〕3〕組內(nèi)離均差平方和、自由度和均方組內(nèi)離均差平方和為各處理組內(nèi)部觀察值與其均數(shù)〔〕差值的平方和之和,數(shù)理統(tǒng)計(jì)證明,總離均差平方和等于各局部離均差平方和之和,因此,〔5.7〕〔5.8〕〔5.9〕4〕三種變異的關(guān)系:=N-1=(k-1)+(N-k)=可見,完全隨機(jī)設(shè)計(jì)的單因素方差分析時(shí),總的離均差平方和〔SS總〕可分解為組間離均差平方和〔SS組間〕與組內(nèi)離均差平方和〔SS組內(nèi)〕兩局部;相應(yīng)的總自由度〔〕也分解為組間自由度〔〕和組內(nèi)自由度〔〕兩局部。5〕方差分析的統(tǒng)計(jì)量:〔5.10〕4、方差分析的應(yīng)用條件與用途方差分析的應(yīng)用條件為①各樣本須是相互獨(dú)立的隨機(jī)樣本;②各樣本來自正態(tài)分布總體;③各總體方差相等,即方差齊。方差分析的用途①兩個(gè)或多個(gè)樣本均數(shù)間的比較;②分析兩個(gè)或多個(gè)因素間的交互作用;③回歸方程的線性假設(shè)檢驗(yàn);④多元線性回歸分析中偏回歸系數(shù)的假設(shè)檢驗(yàn);⑤兩樣本的方差齊性檢驗(yàn)等。九、逼近理想點(diǎn)排序法原理:通過測(cè)度各個(gè)被測(cè)評(píng)對(duì)象的指標(biāo)評(píng)價(jià)值向量與評(píng)價(jià)的理想解和負(fù)理想解的相對(duì)距離進(jìn)展測(cè)評(píng)排序,同時(shí)計(jì)算各評(píng)價(jià)對(duì)象的綜合評(píng)價(jià)指數(shù)。確定標(biāo)準(zhǔn)化決策矩陣無量綱化處理→標(biāo)準(zhǔn)化決策矩陣〔第個(gè)被測(cè)評(píng)對(duì)象的第個(gè)指標(biāo)的無量綱化處理公式〕確定指標(biāo)的權(quán)重系數(shù)〔以變異系數(shù)法為例〕先求不同指標(biāo)下指標(biāo)評(píng)價(jià)的均值和標(biāo)準(zhǔn)差再計(jì)算各指標(biāo)的變異系數(shù),取其絕對(duì)值為對(duì)作歸一化處理,得各指標(biāo)的權(quán)重再由標(biāo)準(zhǔn)化決策矩陣和權(quán)重構(gòu)成加權(quán)標(biāo)準(zhǔn)陣確定理想解和負(fù)理想解計(jì)算各被測(cè)評(píng)對(duì)象到理想解距離與負(fù)理想解的距離(j=1,…,n)計(jì)算被測(cè)評(píng)對(duì)象與理想解的相對(duì)接近度,作為其綜合評(píng)價(jià)指數(shù)值越大,那么顧客滿意程度越高十、動(dòng)態(tài)加權(quán)法動(dòng)態(tài)加權(quán):關(guān)于不同的指標(biāo)可以取一樣的權(quán)函數(shù),也可以取不同的權(quán)函數(shù)。舉例:長江水質(zhì)……數(shù)據(jù):求解:十一、灰色關(guān)聯(lián)分析法灰色關(guān)聯(lián)度是兩個(gè)系統(tǒng)或兩個(gè)因素間關(guān)聯(lián)性大小的量度,它描述系統(tǒng)開展過程中因素間相對(duì)變化的情況,也就是變化大小、方向與速度等的相對(duì)性。如果兩因素在開展過程中相對(duì)變化態(tài)勢(shì)一致性高,那么兩者的灰色關(guān)聯(lián)度大;反之,灰色關(guān)聯(lián)度就小。所謂灰色關(guān)聯(lián)分析,就是系統(tǒng)的因素分析,是對(duì)一個(gè)系統(tǒng)開展變化態(tài)勢(shì)的定量比較和反映?;疑P(guān)聯(lián)分析是通過灰色關(guān)聯(lián)度來分析和確定系統(tǒng)因素間的影響程度或因素對(duì)系統(tǒng)主行為的奉獻(xiàn)測(cè)度的一種方法。灰色關(guān)聯(lián)分析的基本思想是根據(jù)序列曲線幾何形狀的相似程度來判斷其聯(lián)系是否嚴(yán)密。曲線越接近,相應(yīng)序列之間的關(guān)聯(lián)度就越大,反之就越小?;疑P(guān)聯(lián)分析方法彌補(bǔ)了用數(shù)理統(tǒng)計(jì)作系統(tǒng)分析所導(dǎo)致的缺憾。它對(duì)樣本量的多少和樣本有無規(guī)律都同樣適用,而且計(jì)算量小,十分方便,更不會(huì)出現(xiàn)量化結(jié)果與定性分析結(jié)果不符的情況。具體步驟:灰色系統(tǒng)關(guān)聯(lián)分析的具體計(jì)算步驟如下:〔1〕確定反映系統(tǒng)行為特征的參考數(shù)列和影響系統(tǒng)行為的比較數(shù)列反映系統(tǒng)行為特征的數(shù)據(jù)序列,稱為參考數(shù)列。影響系統(tǒng)行為的因素組成的數(shù)據(jù)序列,稱比較數(shù)列?!?〕對(duì)參考數(shù)列和比較數(shù)列進(jìn)展無量綱化處理由于系統(tǒng)中各因素的物理意義不同,導(dǎo)致數(shù)據(jù)的量綱也不一定一樣,不便于比較,或在比較時(shí)難以得到正確的結(jié)論。因此在進(jìn)展灰色關(guān)聯(lián)度分析時(shí),一般都要進(jìn)展無量綱化的數(shù)據(jù)處理?!?〕求參考數(shù)列與比較數(shù)列的灰色關(guān)聯(lián)系數(shù)ξ〔Xi〕所謂關(guān)聯(lián)程度,實(shí)質(zhì)上是曲線間幾何形狀的差異程度。因此曲線間差值大小,可作為關(guān)聯(lián)程度的衡量尺度。對(duì)于一個(gè)參考數(shù)列X0有假設(shè)干個(gè)比較數(shù)列X1,X2,…,Xn,各比較數(shù)列與參考數(shù)列在各個(gè)時(shí)刻〔即曲線中的各點(diǎn)〕的關(guān)聯(lián)系數(shù)ξ〔Xi〕可由以下公式算出:稱為關(guān)聯(lián)系數(shù),其中稱為分辨系數(shù),〔0,1〕,常取0.5.實(shí)數(shù)第二級(jí)最小差,記為Δmin。兩級(jí)最大差,記為Δmax。為各比較數(shù)列Xi曲線上的每一個(gè)點(diǎn)與參考數(shù)列X0曲線上的每一個(gè)點(diǎn)的絕對(duì)差值。記為Δoi(k)。所以關(guān)聯(lián)系數(shù)ξ〔Xi〕也可簡(jiǎn)化如以下公式:〔4〕求關(guān)聯(lián)度ri因?yàn)殛P(guān)聯(lián)系數(shù)是比較數(shù)列與參考數(shù)列在各個(gè)時(shí)刻〔即曲線中的各點(diǎn)〕的關(guān)聯(lián)程度值,所以它的數(shù)不止一個(gè),而信息過于分散不便于進(jìn)展整體性比較。因此有必要將各個(gè)時(shí)刻〔即曲線中的各點(diǎn)〕的關(guān)聯(lián)系數(shù)集中為一個(gè)值,即求其平均值,作為比較數(shù)列與參考數(shù)列間關(guān)聯(lián)程度的數(shù)量表示,關(guān)聯(lián)度ri公式如下:稱為與的關(guān)聯(lián)度〔5〕排關(guān)聯(lián)序因素間的關(guān)聯(lián)程度,主要是用關(guān)聯(lián)度的大小次序描述,而不僅是關(guān)聯(lián)度的大小。將m個(gè)子序列對(duì)同一母序列的關(guān)聯(lián)度按大小順序排列起來,便組成了關(guān)聯(lián)序,記為{x},它反映了對(duì)于母序列來說各子序列的“優(yōu)劣〞關(guān)系。假設(shè)r0i>r0j,那么稱{xi}對(duì)于同一母序列{x0}優(yōu)于{xj},記為{xi}>{xj};假設(shè)r0i表1代表旗縣參考數(shù)列、比較數(shù)列特征值。十二、灰色預(yù)測(cè)法灰色預(yù)測(cè)注:參考人口預(yù)測(cè)論文<紀(jì)江版>〔灰色預(yù)測(cè)+時(shí)間序列的一次平滑指數(shù)預(yù)測(cè)法〕1、灰色預(yù)測(cè)一般有四種類型:〔1〕、數(shù)列預(yù)測(cè)。對(duì)某現(xiàn)象隨時(shí)間的順延而發(fā)生的變化所做的預(yù)測(cè)定義為數(shù)列預(yù)測(cè)。例如對(duì)消費(fèi)物價(jià)指數(shù)的預(yù)測(cè),需要確定兩個(gè)變量,一個(gè)是消費(fèi)物價(jià)指數(shù)的水平。另一個(gè)是這一水平所發(fā)生的時(shí)間?!?〕、災(zāi)變預(yù)測(cè)。對(duì)發(fā)生災(zāi)害或異常突變時(shí)間可能發(fā)生的時(shí)間預(yù)測(cè)稱為災(zāi)變預(yù)測(cè)。例如對(duì)地震時(shí)間的預(yù)測(cè)。〔3〕、系統(tǒng)預(yù)測(cè)。對(duì)系統(tǒng)中眾多變量間相互協(xié)調(diào)關(guān)系的開展變化所進(jìn)展的預(yù)測(cè)稱為系統(tǒng)預(yù)測(cè)。例如市場(chǎng)中替代商品、相互關(guān)聯(lián)商品銷售量互相制約的預(yù)測(cè)?!?〕、拓?fù)漕A(yù)測(cè)。將原始數(shù)據(jù)作曲線,在曲線上按定值尋找該定值發(fā)生的所有時(shí)點(diǎn),并以該定值為框架構(gòu)成時(shí)點(diǎn)數(shù)列,然后建設(shè)模型預(yù)測(cè)未來該定值所發(fā)生的時(shí)點(diǎn)。2、使用方法前一定要在段前作一個(gè)引子,連接問題分析和數(shù)據(jù)特點(diǎn),以下便是:通過對(duì)數(shù)據(jù)的分析,隨著時(shí)間的變化,排污量一直呈增長趨勢(shì),并且增長的很快。在這里利用灰色預(yù)測(cè)模型對(duì)〔〕進(jìn)展預(yù)測(cè)。通過對(duì)數(shù)據(jù)的分析,傳統(tǒng)的數(shù)理統(tǒng)計(jì)預(yù)測(cè)方法往往需要足夠多的數(shù)據(jù),而本問題的數(shù)據(jù)給出的數(shù)據(jù)偏小,如果采用傳統(tǒng)的方法誤差太大。根據(jù)上述的特點(diǎn)可采用灰色預(yù)測(cè)模型。3、灰色預(yù)測(cè)具體步驟:〔1〕、首先是數(shù)據(jù)的檢驗(yàn)處理,要求級(jí)比A、如果不全屬于,那么要做必要的變換處理〔如取適當(dāng)?shù)某?shù)C,作平移變換〕,使其落入?yún)^(qū)域中。B、假設(shè)A不成立,那么建設(shè)GM〔1,1〕模型〔2〕、建設(shè)GM〔1,1〕模型步驟一:一次累加生成數(shù)列AGO,〔目的是弱化原始時(shí)間序列的隨機(jī)性,增加其穩(wěn)定程度〕步驟二:求均值數(shù)列步驟三:建設(shè)GM〔1,1〕模型相應(yīng)的白化微分方程其中:α稱為開展灰數(shù);μ稱為內(nèi)生控制灰數(shù)。步驟四:求的參數(shù)估計(jì)a、b〔最小二乘法〕步驟五:給出累加時(shí)間數(shù)列預(yù)測(cè)模型,步驟六:做差得到原始預(yù)測(cè)值4、檢驗(yàn)預(yù)測(cè)值A(chǔ)、殘差檢驗(yàn)〔假設(shè)<0.2,那么到達(dá)一般要求;假設(shè)<0.1,那么效果好B\級(jí)比偏差值檢驗(yàn)步驟一;首先有參考數(shù)據(jù)計(jì)算出級(jí)比,再由開展系數(shù)a,求出相應(yīng)級(jí)比偏差假設(shè)<0.2,那么到達(dá)一般要求;假設(shè)<0.1,那么效果好程序?qū)崿F(xiàn):采用EXCEl的方法實(shí)現(xiàn)灰色預(yù)測(cè)。十三、模糊綜合評(píng)價(jià)1.模糊綜合評(píng)判的一般提法設(shè)為研究對(duì)象的種因素〔或指標(biāo)〕,稱之為因素集〔或指標(biāo)集〕.為諸因素〔或指標(biāo)〕的種評(píng)判所構(gòu)成的評(píng)判集〔或稱語集、評(píng)價(jià)集、決策集等〕,它們的元素個(gè)數(shù)和名稱均可根據(jù)實(shí)際問題的需要和決策人主觀確定.實(shí)際中,很多問題的因素評(píng)判集都是模糊的,因此,綜合評(píng)判應(yīng)該是上的一個(gè)模糊子集其中為評(píng)判對(duì)模糊子集的隸屬度:,即反映了第種評(píng)判在綜合評(píng)價(jià)中所起的作用.綜合評(píng)判依賴于各因素的權(quán)重,即它應(yīng)該是上的模糊子集,且,其中表示第種因素的權(quán)重.于是,當(dāng)權(quán)重給定以后,那么相應(yīng)地就可以給定一個(gè)綜合評(píng)判.2.模糊綜合評(píng)判的一般步驟(1)確定因素集;(2)確定評(píng)判集;(3)確定模糊評(píng)判矩陣:首先,對(duì)每一個(gè)因素做一個(gè)評(píng)判,那么可以得到的一個(gè)模糊映射,即然后,由模糊映射可以誘導(dǎo)出模糊關(guān)系,即因此,可以確定出模糊評(píng)判矩陣.而且稱為模糊綜合評(píng)判模型,稱為該模型的三要素.(4)綜合評(píng)判:對(duì)于權(quán)重,用模型取最大-最小合成運(yùn)算,可以得到綜合評(píng)判注意到:關(guān)于評(píng)判集的權(quán)重確實(shí)定在綜合評(píng)判中起重要的作用,通常情況下可以由決策人憑經(jīng)歷給出,但往往帶有一定的主觀性.要從實(shí)際出發(fā),或更客觀地反映實(shí)際情況可采用專家評(píng)估法、加權(quán)統(tǒng)計(jì)法和頻數(shù)統(tǒng)計(jì)法,或更一般的模糊協(xié)調(diào)決策法、模糊關(guān)系方法等來確定.綜合評(píng)判模型的構(gòu)成如果模糊綜合評(píng)判模型為,對(duì)于權(quán)重,模糊評(píng)判矩陣為,那么用模型運(yùn)算得綜合評(píng)判為,其中.事實(shí)上,由于,對(duì)于某些情況可能會(huì)出現(xiàn),即.這樣可能導(dǎo)致模糊評(píng)判矩陣中的許多信息的喪失,即人們對(duì)某些因素所作的評(píng)判信息在決策中未得到充分的利用.從而導(dǎo)致綜合評(píng)判結(jié)果失真.為此,實(shí)際中可以對(duì)模型進(jìn)展改進(jìn).(1)模型法:對(duì)于和,那么用模型運(yùn)算得,即.(2)模型法:對(duì)于和,那么用模型運(yùn)算得,即.(3)模型法:對(duì)于和,那么用模型運(yùn)算得,即.在實(shí)際應(yīng)用時(shí),主因素〔即權(quán)重最大的因素〕在綜合中起主導(dǎo)作用時(shí),那么可首選“主因素決定型〞模型;當(dāng)模型失效時(shí),再來選用“主因素突出型〞模型和;當(dāng)需要對(duì)所有因素的權(quán)重均衡時(shí),可選用加權(quán)平均模型.在模型的選擇時(shí),還要特別注意實(shí)際問題的需求.多層次模糊綜合評(píng)判對(duì)于實(shí)際中的許多問題往往都是涉及因素多,各因素的權(quán)重分配較為均衡的情況,此時(shí),可采用將諸因素分為假設(shè)干個(gè)層次進(jìn)展研究.即首先分別對(duì)單層次的各因素進(jìn)展評(píng)判,然后再對(duì)所有的各層次因素作綜合評(píng)判.這里僅就兩個(gè)層次的情況進(jìn)展說明,具體方法如下:將因素集分成假設(shè)干個(gè)組使得,且,稱為一級(jí)因素集。不妨設(shè),稱之為二級(jí)因素集.設(shè)評(píng)判集,對(duì)二級(jí)因素集的個(gè)因素進(jìn)展單因素評(píng)判,即建設(shè)模糊映射于是得到評(píng)判矩陣為不妨設(shè)的權(quán)重為,那么可以求得綜合評(píng)判為其中由模型,或、、確定.對(duì)于一級(jí)因素集作綜合評(píng)判,不妨設(shè)其權(quán)重,總評(píng)判矩陣為.按模型,或、,、運(yùn)算得到綜合評(píng)判.十四、隸屬函數(shù)的刻畫〔略〕十五、時(shí)間序列分析法ARIMA(autoregressiveintegratedmovingaveragemodels)時(shí)間序列模型一般概念;系統(tǒng)中某一變量的觀測(cè)值按時(shí)間序列〔時(shí)間間隔一樣〕排列成一個(gè)數(shù)值序列,展示研究對(duì)象在一定時(shí)期內(nèi)的變動(dòng)過程,從中尋找和分析事物的變化特征、開展趨勢(shì)和規(guī)律。他是系統(tǒng)中某一變量受其他各種因素影響的總結(jié)果。變動(dòng)特點(diǎn):趨勢(shì)性:某個(gè)變量隨時(shí)間進(jìn)展或自變量變化,呈現(xiàn)一種比較緩慢而長期的持續(xù)上升、下降、停留的同性質(zhì)變動(dòng)趨勢(shì),但變動(dòng)幅度可能不等。周期性:某因素由于外部影響隨著自然季節(jié)的交替出現(xiàn)頂峰與低谷的規(guī)律。隨機(jī)性:個(gè)別為隨機(jī)變動(dòng),整體呈統(tǒng)計(jì)規(guī)律綜合性:實(shí)際變化情況一般是幾種變動(dòng)的疊加或組合。預(yù)測(cè)時(shí)一般設(shè)法過濾去不規(guī)那么變動(dòng),突出反映趨勢(shì)性和周期性變動(dòng)。特征識(shí)別:認(rèn)識(shí)時(shí)間序列所具有的變動(dòng)特征,以便在系統(tǒng)預(yù)測(cè)時(shí)選擇采用不同的方法隨機(jī)性:均勻分布、無規(guī)那么分布,可能符合某統(tǒng)計(jì)分布〔用因變量的散點(diǎn)圖和直方圖及其包含的正態(tài)分布檢驗(yàn)隨機(jī)性,大多服從正態(tài)分布〕平穩(wěn)性:樣本序列的自相關(guān)函數(shù)在某一固定水平線附近擺動(dòng),即方差和數(shù)學(xué)期望穩(wěn)定為常數(shù)特征識(shí)別利用自相關(guān)函數(shù)ACF:,其中是的k階自協(xié)方差,且,-1<<1平穩(wěn)過程的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)都會(huì)以某種方式衰減趨于0,前者測(cè)度當(dāng)前序列與先前序列之間簡(jiǎn)單和常規(guī)的相關(guān)程度,后者是在控制其它先前序列的影響后,測(cè)度當(dāng)前序列與某一先前序列之間的相關(guān)程度。實(shí)際上,預(yù)測(cè)模型大都難以滿足這些條件,現(xiàn)實(shí)的經(jīng)濟(jì)、金融、商業(yè)等序列都是非穩(wěn)定的,但通過數(shù)據(jù)處理可以變換為平穩(wěn)的?;静襟E:分析數(shù)據(jù)序列的變化特征選擇模型形式和參數(shù)檢驗(yàn)利用模型進(jìn)展趨勢(shì)預(yù)測(cè)評(píng)估預(yù)測(cè)結(jié)果并修正模型自回歸AR(p)模型〔自己影響自己,但可能存在誤差,誤差即沒有考慮到的因素〕模型意義僅通過時(shí)間序列變量的自身歷史觀測(cè)值來反映有關(guān)因素對(duì)預(yù)測(cè)目標(biāo)的影響和作用,不受模型變量互相獨(dú)立的假設(shè)條件約束,所構(gòu)成的模型可以消除普通回歸預(yù)測(cè)方法中由于自變量選擇、多重共線性的比你更造成的困難用PACF函數(shù)判別〔從p階開場(chǎng)的所有偏自相關(guān)系數(shù)均為0〕移動(dòng)平均MA(q)模型模型含義用過去各個(gè)時(shí)期的隨機(jī)干擾或預(yù)測(cè)誤差的線性組合來表達(dá)當(dāng)前預(yù)測(cè)值。AR(q)的假設(shè)條件不滿足時(shí)可以考慮用此形式。用ACF函數(shù)判別〔從q階開場(chǎng)的所有自相關(guān)系數(shù)均為0〕自回歸移動(dòng)平均ARMA(p,q)模型識(shí)別條件平穩(wěn)時(shí)間序列的偏相關(guān)系數(shù)和自相關(guān)系數(shù)均不截尾,但較快收斂到0,那么該時(shí)間序列可能是ARMA(p,q)模型。實(shí)際問題中,多數(shù)要用此模型。因此建模解模的主要工作時(shí)求解p,q和、的值,檢驗(yàn)和的值。模型階數(shù)實(shí)際應(yīng)用中p,q一般不超過2.自回歸綜合移動(dòng)平均ARIMA(p,d,q)模型模型含義模型形式類似ARMA(p,q)模型,但數(shù)據(jù)必須經(jīng)過特殊處理。特別當(dāng)線性時(shí)間序列非平穩(wěn)時(shí),不能直接利用ARMA(p,q)模型,但可以利用有限階差分使非平穩(wěn)時(shí)間序列平穩(wěn)化,實(shí)際應(yīng)用中d〔差分次數(shù)〕一般不超過2.模型識(shí)別平穩(wěn)時(shí)間序列的偏相關(guān)系數(shù)和自相關(guān)系數(shù)均不截尾,且緩慢衰減收斂,那么該時(shí)間序列可能是ARIMA(p,d,q)模型。假設(shè)時(shí)間序列存在周期性波動(dòng),那么可按時(shí)間周期進(jìn)展差分,目的是將隨機(jī)誤差有長久影響的時(shí)間序列變成僅有暫時(shí)影響的時(shí)間序列。即差分處理后新序列符合ARMA(p,q)模型,元序列符合ARIMA(p,d,q)模型。一個(gè)平穩(wěn)的隨機(jī)過程有以下要求:均數(shù)不隨時(shí)間變化,方差不隨時(shí)間變化,自相關(guān)系數(shù)只與時(shí)間間隔有關(guān),而與所處的時(shí)間無關(guān)。偏自相關(guān)函數(shù)〔PACF〕解決如下問題:高階的自相關(guān)是否真的非常重要是他確實(shí)有意義,還是因?yàn)榈碗A自相關(guān)系數(shù)較大才引起高階自相關(guān)系數(shù)也大如果建設(shè)一個(gè)以前值預(yù)測(cè)現(xiàn)在值的回歸模型,需要包括多少個(gè)以前值指數(shù)平滑法用序列過去值的加權(quán)均數(shù)來預(yù)測(cè)將來的值,并且給序列中近期的數(shù)據(jù)以較大的權(quán)重,遠(yuǎn)期的數(shù)據(jù)給以較小的權(quán)重。理由是隨著時(shí)間流逝,過去值的影響逐漸減小。指數(shù)平滑法應(yīng)用時(shí)存在以下問題:指數(shù)平滑法只適合于影響時(shí)間的消逝呈指數(shù)下降的數(shù)據(jù)、指數(shù)平滑法的每次預(yù)測(cè)都是根據(jù)上一個(gè)數(shù)來的,一般來說,用序列的第一個(gè)數(shù)作為初始值。如果數(shù)據(jù)點(diǎn)較多,那么經(jīng)過指數(shù)衰減后,初始值的影響就不明顯了。但是如果數(shù)據(jù)點(diǎn)少,那么初始值的影響會(huì)很大,甚至大于近期的數(shù)據(jù)點(diǎn),這就違背指數(shù)平滑影響呈指數(shù)衰減的假設(shè)了。所以,如果數(shù)據(jù)點(diǎn)少時(shí)應(yīng)該考慮初始值的問題,一般來說,數(shù)據(jù)點(diǎn)大于40初始值的影響就不太明顯。需要指出的是,時(shí)間序列模型的預(yù)測(cè)一般不能太超前,對(duì)過于遙遠(yuǎn)的時(shí)間預(yù)測(cè)結(jié)果大多是不準(zhǔn)確的。十六、蒙特卡羅(MC)仿真模型模型介紹:蒙特卡羅〔MonteCarlo〕方法,又稱隨機(jī)抽樣或統(tǒng)計(jì)試驗(yàn)方法,屬于計(jì)算數(shù)學(xué)的一個(gè)分支,它是在本世紀(jì)四十年代中期為了適應(yīng)當(dāng)時(shí)原子能事業(yè)的開展而開展起來的。傳統(tǒng)的經(jīng)歷方法由于不能逼近真實(shí)的物理過程,很難得到滿意的結(jié)果,而蒙特卡羅方法由于能夠真實(shí)地模擬實(shí)際物理過程,故解決問題實(shí)際非常符合,可以得到很圓滿的結(jié)果。這也是我們采用該方的原因。蒙特卡羅的基本原理及思想:當(dāng)所要求解的問題是某種事件出現(xiàn)的概率,或者是某個(gè)隨機(jī)變量的期望值時(shí),它們可以通過某種“試驗(yàn)〞的方法,得到這種事件出現(xiàn)的頻率,或者這個(gè)隨機(jī)變數(shù)的平均值,并用它們作為問題的解。這就是蒙特卡羅方法的基本思想。蒙特卡羅方法通過抓住事物運(yùn)動(dòng)的幾何數(shù)量和幾何特征,利用數(shù)學(xué)方法來加以模擬,即進(jìn)展一種數(shù)字模擬實(shí)驗(yàn)。它是以一個(gè)概率模型為根基,按照這個(gè)模型所描繪的過程,通過模擬實(shí)驗(yàn)的結(jié)果,作為問題的近似解??梢园衙商乜_解題歸結(jié)為三個(gè)主要步驟:構(gòu)造或描述概率過程;實(shí)現(xiàn)從概率分布抽樣;建設(shè)各種估計(jì)量。蒙特卡羅解題的三個(gè)主要步驟:〔1〕、構(gòu)造或描述概率過程:對(duì)于本身就具有隨機(jī)性質(zhì)的問題,如粒子輸運(yùn)問題,主要是正確描述和模擬這個(gè)概率過程,對(duì)于本來不是隨機(jī)性質(zhì)確實(shí)定性問題,比方計(jì)算定積分,就必須事先構(gòu)造一個(gè)人為的概率過程,它的某些參量正好是所要求問題的解。即要將不具有隨機(jī)性質(zhì)的問題轉(zhuǎn)化為隨機(jī)性質(zhì)的問題。〔2〕、實(shí)現(xiàn)從概率分布抽樣:構(gòu)造了概率模型以后,由于各種概率模型都可以看作是由各種各樣的概率分布構(gòu)成的,因此產(chǎn)生概率分布的隨機(jī)變量〔或隨機(jī)向量〕,就成為實(shí)現(xiàn)蒙特卡羅方法模擬實(shí)驗(yàn)的基本手段,這也是蒙特卡羅方法被稱為隨機(jī)抽樣的原因。最簡(jiǎn)單、最基本、最重要的一個(gè)概率分布是(0,1)上的均勻分布〔或稱矩形分布〕。隨機(jī)數(shù)就是具有這種均勻分布的隨機(jī)變量。隨機(jī)數(shù)序列就是具有這種分布的總體的一個(gè)簡(jiǎn)單子樣,也就是一個(gè)具有這種分布的相互獨(dú)立的隨機(jī)變數(shù)序列。產(chǎn)生隨機(jī)數(shù)的問題,就是從這個(gè)分布的抽樣問題。在計(jì)算機(jī)上,可以用物理方法產(chǎn)生隨機(jī)數(shù),但價(jià)格昂貴,不能重復(fù),使用不便。另一種方法是用數(shù)學(xué)遞推公式產(chǎn)生。這樣產(chǎn)生的序列,與真正的隨機(jī)數(shù)序列不同,所以稱為偽隨機(jī)數(shù),或偽隨機(jī)數(shù)序列。不過,經(jīng)過多種統(tǒng)計(jì)檢驗(yàn)說明,它與真正的隨機(jī)數(shù),或隨機(jī)數(shù)序列具有相近的性質(zhì),因此可把它作為真正的隨機(jī)數(shù)來使用。由分布隨機(jī)抽樣有各種方法,與從(0,1)上均勻分布抽樣不同,這些方法都是借助于隨機(jī)序列來實(shí)現(xiàn)的,也就是說,都是以產(chǎn)生隨機(jī)數(shù)為前提的。由此可見,隨機(jī)數(shù)是我們實(shí)現(xiàn)蒙特卡羅模擬的基本工具?!?〕、建設(shè)各種估計(jì)量:一般說來,構(gòu)造了概率模型并能從中抽樣后,即實(shí)現(xiàn)模擬實(shí)驗(yàn)后,我們就要確定一個(gè)隨機(jī)變量,作為所要求的問題的解,我們稱它為無偏估計(jì)。建設(shè)各種估計(jì)量,相當(dāng)于對(duì)模擬實(shí)驗(yàn)的結(jié)果進(jìn)展考察和登記,從中得到問題的解。蒙特卡羅的特點(diǎn)及優(yōu)缺點(diǎn):蒙特卡羅方法與一般計(jì)算方法有很大區(qū)別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論