實驗設(shè)計與數(shù)據(jù)處理_第1頁
實驗設(shè)計與數(shù)據(jù)處理_第2頁
實驗設(shè)計與數(shù)據(jù)處理_第3頁
實驗設(shè)計與數(shù)據(jù)處理_第4頁
實驗設(shè)計與數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、標(biāo)準(zhǔn)偏差的計算標(biāo)準(zhǔn)偏差時,可按照公式一步步計算,這種方法比較麻煩,而且在計算平均值時,由于最后一位數(shù)字的取舍,可能帶來一些誤差。因此,通常將計算公式稍加變換,以便直接根據(jù)各測量值計算標(biāo)準(zhǔn)偏差。由于因此分子中原為“偏差平方和(又稱差方和)”,經(jīng)適當(dāng)變換后,變?yōu)椤睖y量值的平方和減去測量值和的平方的1/n,可直接利用測量值來計算標(biāo)準(zhǔn)偏差。例:測定鋼鐵中Ni的百分含量,得到結(jié)果如下表,計算標(biāo)準(zhǔn)偏差。表1 數(shù)據(jù)計算表Ni含量/%10.4810.3710.4710.4310.400.050.060.040.000.030.00250.00360.00160.00000.00090.480.370.470.

2、430.400.2300.1370.2210.1850.16011010631210100369平均10.43=0.046%=0.046%=4.6%1、誤差傳遞基本公式設(shè)分析結(jié)果N與各直接測量值、.之間的函數(shù)關(guān)系為N=f(,) (1)對上式進(jìn)行全微分,可得(2)(2)式為絕對誤差的傳遞公式,它表明間接測量值或函數(shù)的誤差等于各直接測量值或自變量的各項分誤差之和,而分誤差的大小又取決于直接測量誤差和誤差傳遞系數(shù)。所以函數(shù)或間接測量值的絕對誤差為 (3)相對誤差的計算公式為 (4)從最保險的角度,不考慮誤差實際上有正負(fù)抵消的可能,所以上兩式中各分誤差都取絕對值,此時函數(shù)的誤差最大。 所以間接測量值或

3、函數(shù)的真值 例:測量靜止流體內(nèi)部某處的靜壓強(qiáng)p(Pa),計算公式為:式中液面上方的壓強(qiáng),Pa;液體的密度,;重力加速度,取9.81;測壓點距液面的距離,m。已知在某次測量中,。試求p的最大絕對誤差、最大相對誤差。解:各變量的絕對誤差為:根據(jù)靜壓強(qiáng)p的計算公式,各變量的誤差傳遞系數(shù)為:根據(jù)誤差傳遞公式,最大絕對誤差為:又故真值為:最大相對誤差為:離群值檢驗(2)Q檢驗法將一組數(shù)據(jù)從小到大排列,其中或可能為離群值,計算統(tǒng)計量Q。若為離群值,則 若為離群值,則 Q即鄰差與極差之比。如果Q不小于下表中所列的臨界值,離群值應(yīng)舍去,否則應(yīng)保留。置信度即“舍去離群值的判斷是正確的”這一事件的概率。Q值表測定

4、次數(shù) 3 4 5 6 7 8 9 100.940.970.990.760.840.930.640.730.820.560.640.740.510.590.680.470.540.630.440.510.600.410.490.57 例:測定堿灰的總堿量(),得到5個數(shù)據(jù):40.02,40.13,40.15, 40.16, .40.20。試用Q檢驗法判斷40.02是否應(yīng)舍去?(P=95%)解: 因為所以40.02應(yīng)保留。 (4)格魯布斯(Grubbs)法 用格魯布斯(Grubbs)法判斷上例中40.02是否應(yīng)舍去?(P=95%)解:,s=0.068 所以40.02應(yīng)保留。32雙因素試驗的方差分析

5、 雙因素試驗的方差分析是討論兩個因素對試驗結(jié)果影響的顯著性,所以又稱二元方差分析。根據(jù)兩因素每種組合水平上的試驗次數(shù),可以將雙因素試驗的方差分析分為無重復(fù)試驗和重復(fù)試驗的方差分析。 321 雙因素?zé)o重復(fù)試驗的方差分析設(shè)在某試驗中,有兩個因素A和B在變化,A有r種水平A1,A2,ArB有s種水平B1,B2,Bs,在每一種組合水平()上做1次試驗,試驗結(jié)果為(i=1,2,r; j=1,2,s),所有相互獨立,且服從正態(tài)分布。雙因素?zé)o重復(fù)試驗數(shù)據(jù)如下表1所示。表1 雙因素?zé)o重復(fù)試驗數(shù)據(jù)表因素 對于任一個試驗值,其中i表示A因素對應(yīng)的水平,j表示B因素對應(yīng)的水平。例如,表示的是在(,)組合水平上的試驗

6、,顯然總試驗次數(shù)n=rs。 雙因素?zé)o重復(fù)試驗的方差分析的基本步驟如下。 (1)計算平均值 令式中所有試驗值的算術(shù)平均值,稱為總平均; 水平時所有試驗值的算術(shù)平均值;水平時所有試驗值的算術(shù)平均值。(2)計算偏差平方和總偏差平方和:各偏差平方和可用以下簡化公式計算: 式中 水平時,S個試驗值之和; 水平時,r個試驗值之和; 水平時,S個試驗值的平方和; 水平時,r個試驗值的平方和; T所有n個試驗值之和; Q一所有n個試驗值的平方和。 于是有: (3)計算自由度的自由度為:的自由度為:的自由度為:的自由度為:顯然: (4)計算均方(5)F檢驗 無重復(fù)試驗雙因素方差分析表差異源偏差平方和自由度均方F

7、顯著性因素A因素B誤差總和 例:為了考察pH值和硫酸銅溶液濃度對化驗血清中白蛋白與球蛋白的影響,對蒸餾水中的pH值(A)取了4個不同水平,對硫酸銅溶液濃度(B)取了3個不同水平,在不同水平組合下各測了一次白蛋白與球蛋白之比,結(jié)果列于下表中,試檢驗兩個因素對化驗結(jié)果有無顯著影響。試驗結(jié)果pH值硫酸銅溶液濃度BlB2B3A1A2A3A4352620142320150820191203 解:依題意,A因素水平數(shù)r=4,i=1,2,3,4;因素B水平數(shù)s=3,i=1,2,3;總試驗次數(shù)n=rs=12,方差分析計算表如下表所示。pH值硫酸銅溶液濃度BlB2B3A1A2A3A43.52.62.01.42.

8、32.01.50.82.01.91.20.37.86.54.72.560.8442.2522.096.2521.5414.377.692.699.5 6.6 5.4 T=21.5 90.25 43.56 29.16 Q=46.2924.97 12.18 9.14計算自由度: 均方:F值:方差分析表差異源偏差平方和自由度均方F顯著性pH值硫酸銅溶液濃度誤差5.292.220.263261.761.110.04340.625.6*總和7.7711從F分布表中查得,所以pH值和硫酸銅溶液濃度對化驗結(jié)果都有非常顯著的影響。例2:為了研究酵解作用對血糖濃度的影響,分別從8位健康人體中抽取血液并制備成血濾

9、液。再將每一個受試者的血濾液分成4份,分別放置0min,45min,90min,135min,測定其中的血糖濃度,試問1)不同受試者的血糖濃度是否存在顯著性差異?2)放置不同時間段血糖濃度的差別是否明顯?受試者放置時間t0min45min90min135min12345678959510698102112105959594105979811210392898887959710197908384909088948880362361388380385419393357131044130321150544144400148225175561154449127449328603266137930361

10、383716144125387873198980865286481888796633616795167445535366937869748580960869T=3045 Q= 291651 計算自由度: 均方:F值:方差分析表差異源偏差平方和自由度均方FF臨界值顯著性受試者差異放置時間誤差747.47977.34175.417321106.78325.788.3512.7939.01*總和1900.223161.30結(jié)論:不同受試者的血糖濃度的差異是顯著的,不同放置時間引起的血糖濃度的差異更顯著。322雙因素重復(fù)試驗的方差分析 在以上的討論中,假設(shè)兩因素是相互獨立的。但是在雙因素試驗中,有時還

11、存在著兩因素對試驗結(jié)果的聯(lián)合影響,這種聯(lián)合影響稱作交互作用(interaction),記為AB。如果要檢驗交互作用對試驗指標(biāo)的影響是否顯著,則要求在兩個因素的每一個組合(,)上至少做2次試驗。設(shè)在某項試驗中,有A,B兩個因素在變化,A有r種水平A1,A2,Ar。B有s種水平B1,B2,Bs,為研究交互作用AB的影響,在每一種組合水平(,) 上重復(fù)做c(c2)次試驗(稱為等重復(fù)性試驗),每個試驗值記為(i=1,2,r; j=1,2,s;k=1,2,.,c),如下表所示。 雙因素重復(fù)試驗方差分析試驗表因素從上表可以看出,對于任一個試驗值,其中i表示A因素對應(yīng)的水平,j表示B因素對應(yīng)的水平,k表示在

12、組合水平(,) 上的第k次試驗。例如,表示的是在(A1,B2)組合水平上的第3次試驗。顯然總試驗次數(shù)n=rsc。雙因素等重復(fù)試驗的方差分析的基本步驟如下。 (1)計算平均值 令式中所有試驗值的算術(shù)平均值,稱為總平均; 在任一組合水平(,) 上c次試驗值的算術(shù)平均值;水平時所有試驗值的算術(shù)平均值。水平時所有試驗值的算術(shù)平均值。(2)計算偏差平方和總偏差平方和:各偏差平方和可用以下簡化公式計算: 式中在任一組合水平(,) 上c次試驗值之和;水平時,sc個試驗值之和; 水平時,rc個試驗值之和; T所有n個試驗值之和; Q一所有n個試驗值的平方和。 于是有: (3)計算自由度的自由度為:的自由度為:

13、的自由度為的自由度為:的自由度為:顯然: (4)計算均方(5)F檢驗 有重復(fù)試驗雙因素方差分析表差異源偏差平方和自由度均方F顯著性ABAB誤差總和 例:下表給出了某種化工產(chǎn)品在3種濃度、4種溫度水平下得率的數(shù)據(jù),設(shè)濃度為A因素,其水平數(shù)r=3,i=1,2,3;溫度為B因素,其水平數(shù)s=4,j=1,2,3,4;在因素A,B的每種組合水平上重復(fù)試驗次數(shù)c=2,總試驗次數(shù)n=rsc=342=24。試檢驗各因素及交互作用對產(chǎn)品得率的影響是否顯著。濃度/%1024385224624(14,10)16(9,7)16(5,11)5622(11,11)18(10,8)27(13,14)6722(13,9)18

14、(7,11)25(12,13)6522(10,12)16(6,10)24(14,10)62906892T=250 于是有: 差異源偏差平方和自由度均方F顯著性濃度溫度交互誤差44.311.527.065.0*總和147.8=23 從F分布表中查得, ,所以只有因素A,即濃度對產(chǎn)品得率有顯著影響,溫度和交互作號對試驗結(jié)果的影響不顯著。例2 為探討化學(xué)反應(yīng)中溫度和催化劑對收率的影響,有人選了4個溫度(B)和3種催化劑(A)甲、乙、丙進(jìn)行實驗,結(jié)果如表1所示,試進(jìn)行方差分析。表1 實驗結(jié)果及數(shù)據(jù)初步處理因素A(催化劑)因素B(溫度)708090100甲乙丙61,63(124)63,64(127)65

15、,67(132)3831466892446964,66(130)66,67(133)67,68(135)3981584042641065,66(131)67,69(136)69,70(139)4061648362749269,68(137)68,71(139)72,74(146)422178084297105225355521609(T)648013108081(Q)272484286225304704863413108081 于是有: 差異源偏差平方和自由度均方FF臨界值顯著性催化劑溫度交互誤差571324.517.5r-1=2s-1=33.89,6.933.49,5.95*總和211=23

16、9.174從F分布表中查得,所以因素A和B均對試驗結(jié)果的影響高度顯著。習(xí) 題3 1、某飲料生產(chǎn)企業(yè)研制出一種新型飲料。飲料的顏色共有四種,分別為橘黃色、粉色、綠色和無色透明。隨機(jī)從五家超級市場收集了前一期該種飲料的銷售量,如下表所示,試問飲料的顏色是否對銷售量產(chǎn)生影響。超 市橘黃色粉 色綠 色無 色123452652872512912723122833082792962792512852422653082963243173282、在用原子吸收分光光度法測定鎳電解液中微量雜質(zhì)銅時,研究了乙炔和空氣流量變化對銅在某波長上吸光度的影響,得到下表所示的吸光度數(shù)據(jù)。試根據(jù)表中數(shù)據(jù)分析乙炔和空氣流量的變化

17、對銅吸光度的影響。乙缺流量(Lmin)8(Lmin)9(Lmin)10(Lmin)11(Lmin)12(Lmin)1O152O2581181475060481581876167980379475468780O791754698 77O7597086873、為了研究鋁材材質(zhì)的差異對于它們在高溫水中腐蝕性能的影響,用三種不同的鋁材在去離子水和自來水中于170進(jìn)行一個月的腐蝕試驗,測得的深蝕率(um)如下表所示。試由下表所述結(jié)果考察鋁材材質(zhì)和水質(zhì)對鋁材腐蝕的影響。鋁材材質(zhì)去離子水自來水12323,1815,1518,2356,5353,4874,7483主成分分析831 概述 上節(jié)介紹了如何建立兩個

18、變量或三個變量之間的線性回歸方程。但對于許多實際問題,僅僅二三個變量遠(yuǎn)遠(yuǎn)不能描述客觀事物的全貌。仍以小學(xué)生的健康狀況為例,如果要進(jìn)行全面、深入的研究,除了身高、年齡、體重這三個指標(biāo)外,還需測量胸圍、腕力、百米成績、肺活量、血壓、視力、語言表達(dá)能力、運算能力等,或其中的一部分。又如,要研究某玉米新品種的性狀,需測定株高、穗位、生長期、千粒重、單株產(chǎn)量、籽粒蛋白質(zhì)含量、干物重、抗螟及抗倒伏能力等多項指標(biāo)。此外,土壤肥力的測定,疾病診斷,心理學(xué)研究,考評干部,考核公司職員,考核工廠或商業(yè)企業(yè)的經(jīng)濟(jì)效益,乃至對一個國家的綜合國力的研究,都需要測定許多指標(biāo),即需要處理維數(shù)很大的多元變量。變量個數(shù)越多,問

19、題就越復(fù)雜。 能否對問題進(jìn)行簡化使變量減少,又如何使多變量問題得以簡化呢?一個重要方法就是通過適當(dāng)變換,得到少數(shù)幾個(如一二個,二三個)有代表性的綜合指標(biāo),用以描述客觀對象的基本特征,如小學(xué)生的綜合健康指標(biāo),土壤的綜合肥力指標(biāo),企業(yè)的綜合效益指標(biāo)等。綜合指標(biāo)就是新的變量。用少數(shù)綜合指標(biāo)代替原來的變量,新變量的維數(shù)就大大減小了。這就是主成分分析法的實質(zhì),其中的綜合指標(biāo)都叫原來變量的主成分。 設(shè)兩個變量測得了數(shù)據(jù)如表87所示。表87測得的變量數(shù)據(jù)2468103691215 若以為坐標(biāo)作圖,則可得一條直線,5個樣品點完全落在該直線上,這條直線的方程是如圖8-3所示。圖8-3 在這條直線上建立數(shù)軸,并

20、在圖83中的坐標(biāo)系中考察這6個樣品點,顯然軸是不必要的。于是原來的()兩個變量可用一個新的變量來代替,新變量的6個樣品值依次為 顯然,這5個數(shù)據(jù)包含了原來10個數(shù)據(jù)的全部信息,用變量代替變量(),變量的維數(shù)就從2降為1,如圖84所示。圖8 -4這就是對主成分分析法的一個簡單圖示,但這只是一個特例,一般情況下數(shù)據(jù)可能相當(dāng)分散。 如果用圖84中新的坐標(biāo)()來表示樣品點,則可明顯看出樣品點的坐標(biāo)變化幅度很大,即的方差較大,而的變化幅度相對較小,即的方差較小。即變量()的信息大部分集中在新變量上,小部分集中在新變量上。故稱是()的第一主成分,是()的第二主成分。在一定條件下,第二主成分可以省略,而只用

21、第一主成分來度量原來的全部樣品,從而維數(shù)由2降為1。與此類似,3維變量可以降為2維或1維,10維變量呵以降為3維或2維。這就是主成分分析的基本思路。 總之,主成分分析經(jīng)常用于簡化數(shù)據(jù)結(jié)構(gòu),尋找綜合因子,進(jìn)行樣品排序等。樣本數(shù)據(jù)經(jīng)過主成分變換得以簡化后,為進(jìn)一步的統(tǒng)計分析(如回歸分析、聚類分析等)打下基礎(chǔ)。因此,主成分分析在生物科學(xué)、醫(yī)學(xué)、氣象、經(jīng)濟(jì)、心理學(xué)、教育學(xué)、管理科學(xué)等領(lǐng)域有著廣泛的應(yīng)用。832主成分的計算 設(shè)圖84的兩個變量()的樣本數(shù)據(jù)如表88所示。表8-8樣本數(shù)據(jù) . . . . 求得平均值和協(xié)方差矩陣分別為 在圖84中,的坐標(biāo)原點已經(jīng)處于平均值()處,從而使。因而 適當(dāng)選取()使

22、處于方差最大的方向。 數(shù)學(xué)上已證明,協(xié)方差矩陣S的最大特征值所對應(yīng)的單位特征向量就是所求的(),而且該特征值正是的方差。同樣,的方差和方向由S的較小的特征值及對應(yīng)的單位特征向量來決定。 【例88】表8-9是8個學(xué)生兩門課的成績。表8-9 8個學(xué)生兩門課的成績英語100 90 70 70 85 55 55 45數(shù)學(xué)65 85 70 90 65 45 55 65試進(jìn)行主成因分析。 解 平均值和協(xié)方差分別為 可得求特征值的方程為 進(jìn)而求出所對應(yīng)的單位特征向量()=(0.88,0.47) 所對應(yīng)的單位特征向量 ()=(0.47,0.88) 于是可得第一主成分的表達(dá)式為 把()的數(shù)值代入,就得到主成分的

23、樣品數(shù)據(jù),如將樣品的數(shù)據(jù)代入,得 而第二主成分的數(shù)學(xué)表達(dá)式為可以求得8個學(xué)生的主成分如表810所示。表810 8個學(xué)生的主成分24.125 24.725 0.075 9.475 10.925 -24.875 -20.175 -24.27515.7125 -6.5875 1.6125 -20.3875 8.6625 12.2625 3.3625 -10.1375 討論 由于右端的兩個系數(shù)都取正值,故可看成是和的加權(quán)和,的權(quán)是088,的權(quán)是0.47,二者之和不是l,因為這不是歸一化。顯然,當(dāng)英語和數(shù)學(xué)成績都高時,主成分的得分也高,因此可根據(jù)得分對學(xué)生排序。這與普通的平均值排序不同。因為權(quán)與方差有關(guān)

24、,方差大,權(quán)也大;而普通的排序不考慮方差的影響,雖然有時也加權(quán),但一般情況下權(quán)是人為規(guī)定的。從數(shù)理的角度說,這種排序可能更有意義。因為它客觀,沒有人為因素的影響。 按不同計算方法得到不同的排序結(jié)果,這并不是自相矛盾,而是反映了用統(tǒng)計方法解決實際問題的靈活性。在一個具體問題中,如果主成分是原變量的一個有重要實用價值的綜合指標(biāo),并集中了原數(shù)據(jù)的絕大部分信息(這一點下面將要詳述),則按的得分來排序就具有重要意義和可靠性,這正是主成分分析法的實際功能之一。例如在小學(xué)健康狀況研究中,可能是反映健康程度的綜合指標(biāo)。當(dāng)然,對一個主成分如何加以解釋,不僅僅是個統(tǒng)計學(xué)或數(shù)學(xué)問題,更重要的是要依據(jù)專業(yè)知識,具體加

25、以分析。 在本例中,觀察的表達(dá)式,發(fā)現(xiàn)這個主成分的解釋是很容易的:如果一個學(xué)生的英語成績偏高,而數(shù)學(xué)成績偏低,則主成分的得分偏高。可見是英語成績與數(shù)學(xué)成績的比較。當(dāng)大時,意味著與8個學(xué)生的平均傾向相比,該生的兩科成績不平衡,當(dāng)接近零時,說明該生的兩科成績較均衡。 一般情況下,設(shè)在某一批(幾個)樣品中共測定p個指標(biāo),即p個變量,, ,則樣品數(shù)據(jù)排成的矩陣為 這是一個P行n列矩陣,簡記為 其中,是對j個樣品測得的第i個指標(biāo)的值。根據(jù)測量數(shù)據(jù)可算出全部方差、協(xié)方差,從而列出協(xié)方差矩陣為其特征方程為 解上述方程,就可得出S的特征值。但應(yīng)注意的是特征值不能為負(fù)數(shù)。 例 89】 表811列出了lO名初中男

26、學(xué)生的身高()、胸圍()、體重()的數(shù)據(jù),進(jìn)行主成分分析并討論。表8-11 10名初中男學(xué)生相關(guān)數(shù)據(jù) 身高()119.6 162.5 162.7 162.2 156.3 156.1 l72.0 173.2 159.5 157.7胸圍()69.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79體重()38.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5解:協(xié)方差矩陣的特征方程為解出三個特征值和對應(yīng)的三個特征向量分別為1) 三個主成因的表達(dá)式分別為2) 貢獻(xiàn)率 主成分的方差占總方差的比率,稱為主成分的貢獻(xiàn)率。它表示

27、了主成分的相對重要性。主成分的貢獻(xiàn)率也可用特征值的相對比率來計算。因此,三個主成分的貢獻(xiàn)率分別為由于第三個主成分的貢獻(xiàn)率極小,故可以舍掉。只保留前兩個主成分,從而變量的維數(shù)從3降為2.而前兩個主成分的累積貢獻(xiàn)率是它們各自的貢獻(xiàn)率之和,即8.3.3 主成因分析在企業(yè)效益中的應(yīng)用例:某市為了全面分析機(jī)械類各企業(yè)的經(jīng)濟(jì)效益,選擇了8種不同的利潤指標(biāo),14個企業(yè)的統(tǒng)計數(shù)據(jù)(%)如下表所示,各指標(biāo)的平均值和標(biāo)準(zhǔn)差也同時列入表內(nèi)。表 企業(yè)統(tǒng)計數(shù)據(jù)企業(yè)序號凈產(chǎn)值利潤率固定資產(chǎn)利潤率總產(chǎn)值利潤率銷售收入利潤率產(chǎn)品成本利潤率物耗利潤率人均利潤率流動資金利潤率123456789101112131440.425.0

28、13.322.234.335.622.948.440.624.812.51.832.338.524.712.73.36.711.812.57.813.419.18.09.70.013.99.17.211.23.95.67.115.49.910.919.89.84.20.79.111.36.111.04.33.77.116.710.29.910.08.94.20.78.39.58.312.94.46.08.022.812.610.929.711.94.60.89.812.28.720.25.57.48.929.317.613.930.616.26.51.113.316.42.4423.5420.

29、5780.1761.7263.0170.8471.7722.4490.7890.8740.0562.1261.32720.09.13.67.327.526.610.617.835.813.73.91.017.111.6平均標(biāo)準(zhǔn)差28.0412.9410.916.189.014.887.903.9711.067.4913.978.611.551.0714.6910.13計算得相關(guān)矩陣如下:利用相關(guān)矩陣進(jìn)行主成因分析。由于前三個主成分的累積貢獻(xiàn)率已達(dá)到95%,故舍去其余5個主成分,特征向量的計算結(jié)果見下表:表 特征向量的計算結(jié)果變量主成分0.8150.7330.9550.8630.9200.913

30、0.8170.8630.3870.622-0.230-0.305-0.296-0.3940.1990.209-0.1530.055-0.1150.242-0.1670.0180.501-0.334累積貢獻(xiàn)率74.3786.9793.08是原來8個變量的加權(quán)和,是反映總效益大小的綜合指標(biāo)。由于的貢獻(xiàn)率高達(dá)74.37%,故用的得分來排序,能從整體上反映企業(yè)之間的效益差別。求得14個企業(yè)的得分依次為1)0.32028;2)0.51415;3)-1.18004;4)-0.91586;5)0.04426;6)1.51854;7)-0.05574;8)0.46897;9)1.82725;10)-0.084

31、94;11)-0.99033;12)-1.86169;13)0.19285;14)0.2023。14個企業(yè)按得分的大小順序為9-6-2-8-1-14-13-5-7-10-4-11-3-12第2個主成分的貢獻(xiàn)率12.6也不容忽視。的系數(shù)表明,它是中間4個效益指標(biāo)與前后4個效益指標(biāo)的比較,的正負(fù)代表了企業(yè)的兩種不同效益類型。但細(xì)致的解釋需參考相關(guān)其他經(jīng)濟(jì)學(xué)概念和知識,在此不多敘述。有兩個變量(一個因變量、一個自變量),就可以根據(jù)”對觀測數(shù)據(jù)在直角坐標(biāo)系上點j冬由散點圖大致便可看出它們是否存在線性相關(guān)。因此,在聚類分析中尋找將多變量的樣晶在平面上進(jìn)行點圖的方法長期以來為人們所關(guān)注的一個課題。非線性映

32、像降維法和比較實的星座圖法是比較常用的方法。主成分分析法就是一種較常用的降維的方法。若將。個維點畫在一個上半圓內(nèi),一個樣品點對應(yīng)一顆星,同類樣品組成一個星座,不同類的樣品。不同的星座,稱為星座圖,這就是星座圖法的含義。 有序樣品聚類 有些實際問題中樣品是有順序的,分類不能打亂順序。如地質(zhì)勘j中通過鉆井的巖心樣品將地層分類,此時,巖心樣品是由淺到深的順序排列的;又如氣象:料是按時問排列的,其樣品也是有序的。 按順序的”個樣品,它們之間有”一1個空隙,在某空隙進(jìn)行分割,則分割為二段;在某兩個空隙進(jìn)行分割,則分割為三段若在每個空隙處進(jìn)行分割,則每一個樣品各成段。要將”個樣品分成走段,所有可能的分割有

33、c:二;種。找出一種分割使得是個段的段差異盡可能小,各段之問的差異盡可能大,稱這種分割為相應(yīng)于是個樣品段的最優(yōu)分割。在科學(xué)研究領(lǐng)域,分類問題的重要性自不必說,因為許多研究本身,就是(或包含)分類問題,分類問題無處不在。例如作物品種的分類,企業(yè)或干部的分類,教師、學(xué)生的分類,學(xué)校分類,家庭分類,化工產(chǎn)品分類,化工原料分類,煤炭分類,礦石分類等。 例如作物品種的分類問題,不僅儀足產(chǎn)量,還有成熟期、千粒重、抗倒伏能力以及某些物質(zhì)的容量等,都是必須考慮的重要方面,因此必須同時測量多個指標(biāo)。一位教師如果僅就學(xué)習(xí)成績對學(xué)生進(jìn)行分類,就要分析多門課程的得分。如果還要考慮到學(xué)生的發(fā)育和健康狀況,那就要增加更多

34、的變量。一位管理者要對企業(yè)進(jìn)行分類,僅儀使用總產(chǎn)值這個指標(biāo)是遠(yuǎn)遠(yuǎn)不夠的,還要使用人均利潤率,固定資產(chǎn)利潤率等重要指標(biāo)。 隨著近代科學(xué)和計算技術(shù)的發(fā)展,分類已成為人們認(rèn)識世界的不可缺少的手段。聚類分析的應(yīng)用也日益廣泛,在許多領(lǐng)域都發(fā)揮了重要作用。842樣品間的距離 測得一批礦石中某成分的含量如表814所示。 轟814礦石中某成分的含量若按含量將礦石分類,首先按該成分含量將6個樣品描繪出來,見圖85。 一j ,;、 9|、, 塵 皇 芏 型 t34 I 36 13 8 140 142 圖8 5礦石成分含量分布 9t1l中很容易看出,與兩個樣品比較接近,、和四個樣品比較接近,6個樣品被分成I、兩組,

35、即 I:, 1I:, 顯然,通常是將距離近的若干點歸為一類或并為一類。這樣并類的結(jié)果,同一類的點距離較近,而不同類的點之問距離較遠(yuǎn)??梢娺@種并類方法符合分類的目的。聚類分析法的基本原理即在于此。所以,在對一批樣品進(jìn)行聚類的時候,第一步是計算兩樣品問的距離。但在多變量的場合,如何計算樣品問的距離呢? 聚類分析中可用的距離算法有多種,此處介紹其中的四種。 (1)歐氏距離 歐氏距離是幾何學(xué)上應(yīng)用最多的計。算距離的方法之一,這種方法是基于勾股定理。歐氏距離很容易推廣到三個以上變量的情況。對于變量(z-,Tz),兩樣品問的歐氏距離為 d。一d(Xll-rlj)2+(352i-X2j)2 (838) 若變

36、量多于兩個,則可以作如下推廣,即 d滬、億ii百嚴(yán)玎i二弭(弧一zs+【例8一ll】 表815是某中學(xué)女生身高(cm)和體重(kg)的數(shù)值。用上述公式可求得任意兩同學(xué)問的歐氏距離,如 d。:=、億百i百F玎i=j(839)鑫1000 0675 1000 0773071307780600O78706860622。會利累翟委蓑陣差凳去譬竺分塹?由于前二個主成分的累積貢獻(xiàn)率已1達(dá)00到0。9。,故舍去5曇余 個主成分,特征向量的計算結(jié)果見表813所示。 一“以石態(tài)表8。13 特征向量的計算結(jié)果yl 81 5 733955863920 _vl091 3081 70863主成分0394 01 99020

37、98697001805010334 9308累積貢獻(xiàn)率7437一 j:是墨來8個變量的加權(quán)和,是反映總效益大小的綜合指標(biāo)。一。三翟,。警骨-的得分來排序,能從整體上反映企業(yè)之高晶聶親:-得分依次為 一由于1的貢獻(xiàn)率高達(dá)別。求得14個企業(yè)的: 032028二、0。415;一118004;091586;o04426;151854;-三005574二。4。897;182725;川08494;噸咖33;玉二贏篙0 019285;02023。 一 “ 14個企業(yè)按yl得分的大小順序為 ll:,篆言簍老璧竺蘭墨獻(xiàn)率1。26當(dāng)二穿忽視。yz的系數(shù)表明,它是中問4個效益指標(biāo)與前三三S慧簍冀簍竺堂竺:簟的l負(fù)代

38、表了企業(yè)的兩種不同效益類型。細(xì)妄牙茹蕃言簍罷嘲關(guān)其他經(jīng)濟(jì)學(xué)概念和知識,在此不多敘述。 。一一。一“仟“。羅勺84聚類分析 聚類分析是用多元統(tǒng)計技術(shù)進(jìn)行分類的一種方法。0 7 4 2 7跳研叭勉啪叭m m眈眈7 O 9 D 9跏伽嘲渤嘲眈C;吼吼吼9 9 5 7 )渤啪聊吼m m m L弘M仰6 4 8 0 m吼嘰L=二讓K歹臥叭C;吼L汀舊孫眥m L叭O 船5 M 2盯蘭m ll O一0一 善黧 爵一:。: 馴n n“B(160163)。干萬乒面:以i一361(xl s-X1 9)。f五i習(xí)(157172)。干葡可一麗:=1860(2)閔氏距離閔氏距離的表達(dá)式為一。 d玎一(J zl zTlJ

39、 I七十I z2i-x2j f。)1i同例810,當(dāng)志一1時k一2時,同歐氏距離;是一3時d1 2一f 160163f+I 4850j一5d39一f 157172 J+i 4152 J:26 d12一(j 160163 f。+J 4850 f。)ii一麗一327 d39一(f 157172 l。+4152 i。)_i:刁麗一1676kCxD時(840) d12。maxf 160163 f+4850 f一3 d39一maxf 157172 f+J 4152 f一15 (3)標(biāo)準(zhǔn)化歐氏距離鷹墾耋夏望簍“杏鍪苧竺簍:氅現(xiàn)象,也為了避免不同量綱導(dǎo)致的混亂,將每個變量除以該婁妻呈甚孽靦麒賄標(biāo)準(zhǔn)的均方秈州

40、,。這個過是親淼囂柔甚霍于漂羞籠蜒鷺氏距離為 一”。小恥兒dii圻亭露=(;li-JClj)2(122i-X2j)2j對于例810,求得斫以sll一4929,j222889九挈罕 r:?一一坐0163)。(48-50)一劉麗礦十麗一03210一如i厚三童葺亟三孌 V 51l 522一應(yīng)亙了匝F1可可刈面礦十游一875320567959(841) (4)氏趴離:述距離都沒有考慮到變量之問的豐【】關(guān)關(guān)系。沒變量(,艘)的樣本饑方篾矩陣足 一P軋。I (8 42S 4 一l I (5 Ls2I$22 J并用s表示s的退矩陣,則馬氏距離的公式是 妒(xll-xU,x2i-x2j)S 1臣列 4j cU

41、l例810,求得 r 49291089 S一 j L1089 2889 j 1 r2889 1089 Fo0221 00083l S l一二I 1一l l 。 l S I L1089 4929 J Lo0083 00378J 所以口J得 忙(Tt J-1 2,21-X22)S 1T。11-21 2I Jh,J f FO0221 00083-1 r160163-1 1 一(160一16348一。0lo0083 o0378J14850 J f r0022l 00083-1 r 3l 1- 一卜孔2)l O(。83 0(378兒一2 J 7 00221(一3)2200083(一3)(一2)4-O03

42、78(一2)。 一025 f F00221 00083-1 r一15-1 1- (,舶一一瓦1 1)lo0083 o0378兒一11 J f 一00221(一1 5)。一200083(一15)(一11)4-O0378(一11)。 一681843 聚類方法 (1)系統(tǒng)聚類法 聚類分析最常剛的方法是系統(tǒng)聚類法?,F(xiàn)以例8 11為例介紹這一方法。 首先,視10個學(xué)生為】0類。選定某一公式計算兩兩學(xué)生問的距離。從傘部距離中找出最小距離,把相應(yīng)的兩個學(xué)生并為一類,從而類數(shù)由10減為9。按一定法則計算新并成的類與其余8個類問的距離,從而得到9類之問的全部相互距離。再從中找m最小距離并把ll Jastq,J兩

43、類并為一類,從而類數(shù)從9減為8。依此類推,直至把1()個學(xué)生并成一類為止。這就足系統(tǒng)聚類的幕本思路。下而是具體做法。 首咒,計算1()個學(xué),卜之間的歐氏距離,并排成矩陣格式,如表816所示。 表t,最小距離足2,它是和之11I】的距離,故將和并為一類,按順序定為類 一,) 這樣,類數(shù)變?yōu)?類分別為 ,。, 【1I于類是合并產(chǎn)生的新的一類。它與其他類之fhj的距離還需進(jìn)行計算。表8一16 10個學(xué)生間的歐氏距離矩陣(一)由于類含兩個樣品,它們與的距離分別是 d21361,d2,10一224取最短距離d2m為第類與第類之間的距離,這就足“最短距離”的概念。即!一224。同理 d113一d13,d1

44、(,3中的最小者一762,860中的最小者=762 d114一dl,4,d10,4中的最小者一316,316中的最小行一316 d11j一“l(fā),j,dl中的最小者一15。1664中的最小者一15 d6一d16,dlo,6中的最小者一1487,1360中的最小者一1360 d7一(,17,dlo。7中的最小者一608,671中的最小者一608 d1I8一d,d10,8)中的最小者一949,762)中的最小者一762 d11,9一d1,9,d10,9巾的最小者一1 265。1077ff】的最小者一1077這樣,新的9類問的距離可以排成如表817的距離矩陣。 表8-17距離矩陣(二:)DI類問的最短

45、距離為224為與、與問的距離,該j一類合并為新的一類,即妻: 一,這樣,類數(shù)減為7類,這7類為 , 0類與其他類問的距離需重新計算,如 +:3一d2,3,d,“l(fā)l,3中的最小者一1082,】O77,762【fl的最小者一762 茸出類與其他各類的距離,排成新的矩陣如表818所示。表818距離矩陣(1二) 睦到1860l 9237類問的最短距離仍為224,為與之間的距離。二者合并為一類,為類,即 一,)這樣,類數(shù)減為6類,這6類為 ,類與其他類問的距離需重新計算,如 d1一d蛐,7,5)中的最小者 一1836,1860中的最小者一1836算出類與其他各類的距離,排成新的矩陣如表819所示。表8一19距離矩陣(四)6類問的最短距離為283,它為與問的距離。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論