加權(quán)回歸建模管理論文

上傳人：瑪*** IP屬地：四川上傳時(shí)間：2021-06-12 格式：DOC 頁數(shù)：15 大?。?1KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩10頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、加權(quán)回歸建模管理論文摘要：以加權(quán)回歸估計(jì)方法為核心，對(duì)林業(yè)上常用模型的異方差性進(jìn)行了研究，提出了能徹底消除異方差的最佳權(quán)函數(shù)。并對(duì)模型的評(píng)價(jià)指標(biāo)進(jìn)行了探討，提出了評(píng)價(jià)通用性回歸模型的3大指標(biāo)，并分析了加權(quán)回歸估計(jì)與這些評(píng)價(jià)指標(biāo)之間的關(guān)系。最后對(duì)樣本資料的收集進(jìn)行了討論，提出了收集建模樣本應(yīng)遵循的基本原則。關(guān)鍵詞：加權(quán)回歸建模異方差模型評(píng)價(jià) 林業(yè)數(shù)表模型是森林經(jīng)營決策必不可少的計(jì)量、預(yù)測、評(píng)價(jià)依據(jù)，保證模型質(zhì)量至關(guān)重要，而樣本組織、模型擬合方法和模型評(píng)價(jià)是保證質(zhì)量的3個(gè)重要環(huán)節(jié)。實(shí)踐證明，林業(yè)數(shù)表模型所描述的問題普遍存在異方差性，在模型擬合中若不采取消除異方差影響的有效方法，必然導(dǎo)致模型有偏。

2、為此，一般可采取加權(quán)最小二乘法擬合模型，但在權(quán)函數(shù)的選擇上尚存在兩個(gè)有待進(jìn)一步解決的問題：一是權(quán)函數(shù)的形式因模型所描述的事物的性質(zhì)不同而異，確定最佳權(quán)函數(shù)十分繁瑣；二是到目前為止，尚未找出能完全消除異方差的權(quán)函數(shù)。本文旨在提出一種可以完全消除異方差影響的權(quán)函數(shù)通式，并給出正確評(píng)價(jià)模型的指標(biāo)體系及組織建模樣本的基本原則。 1加權(quán)回歸的概念確定變量之間的回歸關(guān)系，一般情況下是利用普通最小二乘法。假設(shè)隨機(jī)變量y,其中，E(y)=f(x)。也就是說，隨機(jī)變量y與x滿足下列模型： y=f(x)+(1) 式中的有3個(gè)基本假定，即“獨(dú)立、正態(tài)、等方差”，它們是采用普通最小二乘法建立回歸模型的先決條件。3個(gè)

3、條件中的“獨(dú)立”與“正態(tài)”在一般情況下都是基本滿足的，而“等方差”這一條件，則在很多情況下都難以滿足。為解決誤差項(xiàng)的異方差性問題，應(yīng)設(shè)法校正原有的模型，使校正后的模型其誤差項(xiàng)具有常數(shù)方差，而模型的校正取決于方差2i與自變量xi之間的關(guān)系。假設(shè)i的方差與xi的函數(shù)g(xi)呈比例關(guān)系，即： 2i=g(xi)2(2) 這里2是一個(gè)有限常數(shù)。于是用去除原有模型，可使新模型的誤差項(xiàng)具有常數(shù)方差。用這種方法估計(jì)模型中相應(yīng)的參數(shù)，叫做加權(quán)最小二乘法(俞大剛，1987)。 2權(quán)函數(shù)的選擇 2.1異方差性的基本概念根據(jù)回歸估計(jì)理論，當(dāng)建立的回歸模型的誤差項(xiàng)存在異方差時(shí)，必須采用加權(quán)最小二乘法來消除異方差對(duì)參

4、數(shù)估計(jì)的影響。在林業(yè)上所涉及的許多數(shù)學(xué)模型，如材積模型、生物量模型、生長率模型、削度模型等，其誤差項(xiàng)的方差都不為常數(shù)，而是隨解釋變量的變化而變化(駱期邦等，1992；曾偉生等，1992；曾偉生，1996)。一般而言，模型預(yù)估值隨解釋變量的增大而增大時(shí)，其誤差項(xiàng)的方差也隨解釋變量的增大而增大，如材積模型和生物量模型；模型預(yù)估值隨解釋變量的增大而減小時(shí)，其誤差項(xiàng)方差也隨解釋變量的增大而減小，如生長率模型。在殘差圖上反映出來，二者都為喇叭型。另外，預(yù)估變量的變化范圍愈大，異方差性一般也愈明顯。因此，采用適當(dāng)形式縮小預(yù)估變量的變動(dòng)幅度，可在一定程度上消除異方差性。如將材積轉(zhuǎn)化為形數(shù)來建模，可將預(yù)估變量

5、的取值大致控制在0.350.65的范圍，使預(yù)估值的最大相差倍數(shù)從數(shù)千倍縮小至2倍以內(nèi)，從而基本上消除了異方差性。將生長量轉(zhuǎn)化為生長率再建模，也在很大程度上縮小了預(yù)估值的變動(dòng)幅度，可明顯削弱其異方差性。 2.2權(quán)函數(shù)選擇的研究現(xiàn)狀上面提到的一些常用模型，由于存在異方差，因此必須選用適當(dāng)?shù)臋?quán)函數(shù)來進(jìn)行加權(quán)回歸估計(jì)。關(guān)于這一點(diǎn)，近幾年已經(jīng)逐步有了認(rèn)識(shí)。如對(duì)材積模型V=aDbHc的估計(jì)，一般認(rèn)為選用權(quán)函數(shù)W=1/(D4H2)可有效地消除異方差的影響(駱期邦等，1992)；對(duì)生長率模型PV=aDbAc的估計(jì)，取權(quán)函數(shù)W=1/(D2A)效果較佳(曾偉生等，1992)。而且，還認(rèn)識(shí)到了最合適的權(quán)函數(shù)是針對(duì)

6、某一個(gè)模型而不是某一類模型(曾偉生，1992)。但是，針對(duì)一個(gè)具體的回歸模型，如何確定其最合適權(quán)函數(shù)的問題仍然沒有得到圓滿解決。一般情況下，如果不具有異方差性形式的信息，可通過對(duì)剩余值ei=g(xi)進(jìn)行試驗(yàn)，以挑選出一種合適的擬合形式(俞大剛，1987)。另外，也有人提出直接尋找方差S2ei與自變量xi的關(guān)系式S2ei=g(xi)，再以W=1/g(xi)為權(quán)函數(shù)進(jìn)行加權(quán)回歸，新模型的誤差項(xiàng)方差S2ei就會(huì)近似為常數(shù)1。還進(jìn)一步提出了較具通用性的拋物線形式的權(quán)函數(shù)，并取得了較好的效果(曾偉生，1996)。但是這樣來確定權(quán)函數(shù)，一方面比較繁瑣；另一方面也難保證拋物線形式能適合所有模型，尤其是含

7、多個(gè)自變量的模型；再就是必須有比較大的建模樣本才可能得到誤差項(xiàng)方差與變量x之間的回歸關(guān)系。誠然，在此基礎(chǔ)上還可以作些改進(jìn)，如：借鑒曾偉生文(曾偉生等，1997)中可變參數(shù)模型的設(shè)計(jì)，將狹義的拋物線形式y(tǒng)=a+bx+cx2擴(kuò)展為廣義的拋物線形式y(tǒng)=a+bxn+c(xn)2(n=0.5,1,2)以更好地適應(yīng)各個(gè)模型不同程度的異方差性；從自變量集中選出最主要的變量(如材積模型中的直徑)來構(gòu)造權(quán)函數(shù)等。即使這樣，效果仍然不太理想。 2.3最佳權(quán)函數(shù)的確定前面已經(jīng)提到，最佳權(quán)函數(shù)是針對(duì)某個(gè)模型而不是某類模型，即同類模型中不同的回歸方程式應(yīng)有不同的最佳權(quán)函數(shù)?；谶@一認(rèn)識(shí)，我們?cè)賮韺?duì)一些經(jīng)典模型及其合適

8、權(quán)函數(shù)作進(jìn)一步分析。不難發(fā)現(xiàn)，認(rèn)為以W=1/(D2H)2為權(quán)函數(shù)效果較好的材積模型V=aDbHc,其參數(shù)b、c的估計(jì)值分別接近于2和1；以W=1/(D2A)為權(quán)函數(shù)的生長率模型PV=aDbAc,其參數(shù)b、c的估計(jì)值分別接近于1和0.5。最近筆者還發(fā)現(xiàn)，形如W=a(D2H)b的生物量模型，取W=1/(D2H)2為權(quán)函數(shù)效果也很佳，此時(shí)b的估計(jì)值接近于1。如果定義W=1/g(x)2為權(quán)函數(shù)，因?yàn)樯鲜瞿Ｐ椭械膮?shù)估計(jì)值與權(quán)函數(shù)中的相應(yīng)參數(shù)值接近，故模型兩邊同時(shí)除以g(x)時(shí)，右邊都近似等于參數(shù)a;若權(quán)函數(shù)中的相應(yīng)參數(shù)取模型的參數(shù)估計(jì)值，則模型兩邊同除g(x)時(shí)右邊就會(huì)恒等于參數(shù)a了。更進(jìn)一步，若取

9、： W=1/f(x)2(3) 作為權(quán)函數(shù)，則模型兩邊同除以f(x)后得到的新模型，右邊都等于1?？梢宰C明，此時(shí)得到的新模型，其誤差項(xiàng)的期望值為0，方差為常數(shù)。亦即，以模型本身構(gòu)造的權(quán)函數(shù)就是要尋找的最佳權(quán)函數(shù)。這剛好應(yīng)證了“不同模型有不同的最佳權(quán)函數(shù)”的觀點(diǎn)。該模型為： y=f(x)+(4) 兩邊同時(shí)除以f(x)得新模型： y=y/f(x)=1+/f(x)=1+(5) 對(duì)新模型(5)采用普通最小二乘法進(jìn)行估計(jì)(相當(dāng)于原有模型(4)的加權(quán)回歸估計(jì))，有： (6) 下面討論新模型誤差項(xiàng)的性質(zhì)。期望值： E()=E/f(x)=Ey/f(x)-1 由(6)式知，Ey/f(x)=1,故E()=0。

10、方差：式中f(ei)為頻數(shù)(董德元等，1987)。可用建模樣本對(duì)上述方差D()作出如下無偏估計(jì)：因此，新模型誤差項(xiàng)的期望值為0，其方差為常數(shù)，即對(duì)所有xi來說，每個(gè)i的方差都相同；滿足等方差的條件。至此可以得出結(jié)論：以模型本身構(gòu)造的權(quán)函數(shù)(3)式就是要尋找的最佳權(quán)函數(shù)。 3模型評(píng)價(jià)與加權(quán)回歸 3.1回歸模型評(píng)價(jià)指標(biāo) 建立回歸模型，從一般的意義上講有以下3個(gè)目的(劉璋溫等，1983)：結(jié)構(gòu)分析對(duì)觀測數(shù)據(jù)進(jìn)行分析，以便描述存在于解釋變量與目標(biāo)變量之間的結(jié)構(gòu)關(guān)系；預(yù)測以已知解釋變量的值來預(yù)測目標(biāo)變量的未來值或期望值；控制為使目標(biāo)變量的值保持在一個(gè)理想的水平上，而適當(dāng)調(diào)整解釋變量中可調(diào)整的變

11、量值。在上述3個(gè)目的中，預(yù)測是最根本的。因?yàn)榻Y(jié)構(gòu)分析可以考慮為在更一般的條件下預(yù)測目標(biāo)變量的變化問題，而控制可以考慮為針對(duì)解釋變量的不同水平來預(yù)測相應(yīng)的目標(biāo)變量的值，以便從中選擇最佳變量的問題。事實(shí)上，林業(yè)上的所有通用性數(shù)表的編制都可以看成是用于預(yù)測的超總體回歸模型的建立問題。如何評(píng)價(jià)這類模型的優(yōu)劣，一直是林業(yè)數(shù)表領(lǐng)域所面臨的一個(gè)課題。關(guān)于回歸模型評(píng)價(jià)的常用指標(biāo)，包括殘差平方和Q、剩余標(biāo)準(zhǔn)差S、復(fù)相關(guān)系數(shù)R、修正復(fù)相關(guān)系數(shù)R、參數(shù)變動(dòng)系數(shù)(穩(wěn)定性)、殘差分布(隨機(jī)性)、參數(shù)的可解釋性以及信息量準(zhǔn)則AIC和CP準(zhǔn)則等(駱期邦等，1992；劉璋溫等，1983；鐘義山，1992；盛承懋等譯，19

12、89)。除此之外，筆者認(rèn)為對(duì)用于預(yù)測目的的回歸模型，尚需考慮以下4大指標(biāo)： (7) (8) 平均相對(duì)誤差絕對(duì)值(9) 預(yù)估精度(10) 或，預(yù)估誤差(11)式中：yi為實(shí)測值；i為預(yù)估值；n為樣本單元數(shù)；t為置信水平時(shí)的t分布值；T為回歸模型參數(shù)個(gè)數(shù)；為平均預(yù)估值，可由f()給出。另外，因?yàn)檫@類回歸模型必須具有通用性質(zhì)，需滿足隨自變量x從小到大時(shí)模型的上述指標(biāo)應(yīng)基本保持一致，所以還需分段對(duì)上述指標(biāo)作出評(píng)價(jià)。應(yīng)特別強(qiáng)調(diào)的一點(diǎn)是，因?yàn)橄鄬?duì)誤差公式一般表示為：從而在林業(yè)應(yīng)用上對(duì)(7)（9）式過去幾乎都是寫成(預(yù)估值-實(shí)測值)/實(shí)測值，即習(xí)慣性地將實(shí)測值當(dāng)成了真值。將實(shí)測值當(dāng)真值正確與否，需視具體

13、情況而定。如某一株D=20cm、H=15m的杉木，經(jīng)實(shí)測其材積為0.24m3。如果用于立木材積的目測訓(xùn)練，正確的做法自然是將0.24m3作為該樹的材積真值來檢測每個(gè)人的目測水平；如果是用于立木材積表的編制，則0.24m3只是滿足D=20cm、H=15m這一條件的某株杉木的材積實(shí)測值，在這種情況下不存在真值的概念，而只有實(shí)測值與預(yù)估值(或期望值)之分。誤差計(jì)算在林業(yè)數(shù)表領(lǐng)域的應(yīng)用基本上都是后一種情形，因此一般應(yīng)采用前面給出的(7)(9)式。預(yù)估精度(10)式或預(yù)估誤差(11)式是筆者提出的評(píng)價(jià)通用性模型的新指標(biāo)，從后面的討論將看到，它是反映模型預(yù)估效果的最重要的評(píng)價(jià)指標(biāo)。它的成立需滿足條件總體

14、為正態(tài)分布這一前提條件。對(duì)于林業(yè)生產(chǎn)應(yīng)用中的絕大多數(shù)情況，這一條件都是基本滿足或近似滿足的。 3.2模型評(píng)價(jià)與加權(quán)回歸為了說明加權(quán)回歸方法對(duì)建立通用性模型的重要性，現(xiàn)以一組實(shí)測數(shù)據(jù)為例，來對(duì)普通最小二乘法和加權(quán)最小二乘法得出的模型進(jìn)行評(píng)價(jià)。所用數(shù)據(jù)為杉木地上部分干物質(zhì)生物量，采集自江西省德興市的人工杉木林中。共計(jì)50株樣木，來自6個(gè)樣地，樣地按幼、中、成3個(gè)齡組和中、好兩個(gè)立地等級(jí)各分布1塊。如果從建立立木生物量模型這一目的考慮，所用數(shù)據(jù)嚴(yán)格講并不符合建模要求(后面將討論到)，但用作不同方法結(jié)果的對(duì)比是可以的。表1給出了常規(guī)生物量模型W=a(D2H)b兩種回歸估計(jì)方法的對(duì)比結(jié)果，表2列出了

15、(7)(10)式的評(píng)價(jià)指標(biāo)值，其中包括將整個(gè)建模樣本按胸徑D的大小以株數(shù)平分為5段所算出的評(píng)價(jià)指標(biāo)值。從表1、表2可以明顯看出，盡管加權(quán)回歸(特指按前面的最佳權(quán)函數(shù)(3)式加權(quán)，下同)的殘差平方和為普通回歸的2.1倍，剩余標(biāo)準(zhǔn)差為1.4倍，但按(7)(10)式所給指標(biāo)進(jìn)行分段檢驗(yàn)的結(jié)果，加權(quán)回歸模型明顯優(yōu)于普通回歸模型。普通回歸模型隨自變量x從小到大各評(píng)價(jià)指標(biāo)從劣到優(yōu)，即主要只照顧絕對(duì)值大的樣點(diǎn)，而對(duì)絕對(duì)值小的樣點(diǎn)很少考慮。但是，加權(quán)回歸模型卻各段的檢驗(yàn)結(jié)果基本一致，而且加權(quán)回歸模型還有一個(gè)很好的特性，即總系統(tǒng)誤差為0，這從(6)式可以推知。表1普通回歸與加權(quán)回歸估計(jì)的擬合結(jié)果 Tab.1

16、Fittingresultsofordinaryregressionandweightingregressionestimation 方法 Regressionmethod 參數(shù)估計(jì)值(變動(dòng)系數(shù)%) Parameterestimates(coefficientsofvariation%) 統(tǒng)計(jì)指標(biāo) Statisticalindices a b Q S R R* 普通回歸 Ordinaryregression 0.029074(22.72%) 0.94180(2.68%) 2455.23 7.1520 0.99144 0.99126 加權(quán)回歸 Weightingregression 0.0699

17、23(11.01%) 0.83353(1.92%) 5137.91 10.3460 0.98201 0.98163 表2普通回歸與加權(quán)回歸估計(jì)的檢測結(jié)果 Tab.2Testresultsofordinaryregressionandweightingregressionestimation 樣本范圍 Samplesize 普通回歸 Ordinaryregression 加權(quán)回歸 Weightingregression RS E RMA P RS E RMA P 全部 Total 1.26 958.00 25.59 94.36 4.20 0.00 14.18 92.30 第1段 SectionN

18、o.1 43.35 543.45 54.35 38.36 -2.86 -4.86 10.47 83.60 第2段 SectionNo.2 33.05 400.12 41.84 61.38 4.15 75.82 22.92 77.67 第3段 SectionNo.3 5.74 65.24 8.14 91.45 -6.79 -72.34 9.88 91.54 第4段 SectionNo.4 -4.67 -58.41 16.03 86.10 -6.87 -91.67 16.35 85.71 第5段 SectionNo.5 0.49 7.60 7.61 91.72 10.76 93.06 11.28

19、85.56 需要說明的一點(diǎn)是，由于模型本身的參數(shù)是未知的(假定模型結(jié)構(gòu)為已知模型結(jié)構(gòu)設(shè)計(jì)也是建模的重要環(huán)節(jié)之一，本文不作討論)，因此，只有事先得到其普通回歸估計(jì)值，才能進(jìn)行加權(quán)回歸估計(jì)。嚴(yán)格來講，以模型本身為權(quán)函數(shù)進(jìn)行的加權(quán)回歸估計(jì)，應(yīng)該是權(quán)函數(shù)所賦參數(shù)值與回歸估計(jì)得出的參數(shù)完全相等；如果不相等，應(yīng)再以新的回歸模型為權(quán)函數(shù)重新進(jìn)行擬合。一般地，要達(dá)到完全穩(wěn)定需經(jīng)數(shù)次的反復(fù)擬合，而且參數(shù)越多，所要擬合的次數(shù)也越多。如上述表1中的例子，就經(jīng)過了7次加權(quán)回歸才使參數(shù)完全穩(wěn)定不變(指5位有效數(shù))。但是，從消除異方差這一目的考慮，經(jīng)過12次加權(quán)回歸就基本上具有齊性方差了，模型的總系統(tǒng)誤差已接近于0。加

20、權(quán)回歸估計(jì)與普通回歸估計(jì)的結(jié)果之所以產(chǎn)生如此大的差別，根本原因在于求解模型參數(shù)的準(zhǔn)則不同。普通回歸是使Q=(y-)2最小，即保證總相對(duì)誤差為0(由于非線性回歸估計(jì)中的非線性模型是用泰勒級(jí)數(shù)展開式近似表示的，故存在一定偏差，使估計(jì)出來的模型其總相對(duì)誤差并不等于0，可參見表2)，必然優(yōu)先考慮y絕對(duì)值較大的點(diǎn)；而加權(quán)回歸是使Q=(y/-1)2最小，即保證總系統(tǒng)誤差為0，考慮的是相對(duì)值，每個(gè)樣點(diǎn)都同等重要，故必然會(huì)照顧到所有的樣點(diǎn)。總之，不論理論分析還是實(shí)際對(duì)比結(jié)果都表明，通用性回歸模型的建立必須采用加權(quán)回歸估計(jì)方法。關(guān)于回歸模型的評(píng)價(jià)，Q、S、R、R及參數(shù)穩(wěn)定性等指標(biāo)主要用于比較確定不同的模型形式

21、，最終回歸模型的評(píng)價(jià)則必須重點(diǎn)考慮(7)(10)式中的指標(biāo)值，而且其分段檢驗(yàn)結(jié)果尤為重要。 4收集建模樣本的基本原則要建立一個(gè)好的通用性模型，對(duì)建模樣本是有一定要求的。如林業(yè)上一些通用性數(shù)表的編制，對(duì)樣本資料的要求在部頒技術(shù)規(guī)定(林業(yè)部，1990)中都作了具體規(guī)定。但是也不難發(fā)現(xiàn)，其中對(duì)建模樣本的要求仍然不是很明確，還有必要再作進(jìn)一步探討。 4.1樣本單元數(shù) 作為建模樣本，首先涉及樣本單元數(shù)的問題。文(中華人民共和國林業(yè)部，1990)中提到了一條原則：“樣本單元數(shù)應(yīng)根據(jù)各項(xiàng)因子的變動(dòng)范圍和精度要求按數(shù)理統(tǒng)計(jì)原理確定”，但是對(duì)精度要求都是用“系統(tǒng)誤差”這一指標(biāo)來規(guī)定的，如“蓄積量計(jì)量數(shù)表的系統(tǒng)

22、誤差不超過3%”。這里的系統(tǒng)誤差是(7)式的總相對(duì)誤差還是(8)式的總系統(tǒng)誤差或其它什么含義，并未明確。根據(jù)數(shù)理統(tǒng)計(jì)原理，體現(xiàn)精度要求的誤差概念應(yīng)該是(11)式所表示的預(yù)估誤差，這樣才可據(jù)此確定樣本單元數(shù)。作為通用性模型，預(yù)估精度是針對(duì)每一個(gè)預(yù)估值而言，因此必須落實(shí)到與每一個(gè)自變量xi所對(duì)應(yīng)的預(yù)估值i。對(duì)于林業(yè)上的常用模型，xi為連續(xù)變量，因此應(yīng)該在其取值范圍內(nèi)確定m個(gè)能反映因變量yi的變化規(guī)律的點(diǎn)，再分別根據(jù)與這m個(gè)xi所對(duì)應(yīng)的yi的變動(dòng)系數(shù)及精度要求，確定各點(diǎn)的子樣本單元數(shù)，m個(gè)子樣本單元數(shù)之和即為整個(gè)建模樣本的單元數(shù)。只有當(dāng)各點(diǎn)的變動(dòng)系數(shù)相同，其對(duì)應(yīng)的子樣本單元數(shù)才要求相等。上面只是

23、考慮一個(gè)自變量的情況。如果有多個(gè)自變量，則情況要復(fù)雜一些，但原則相同。以二元立木材積表的編制為例，首先需定出m個(gè)直徑值，再針對(duì)每個(gè)直徑值定出k個(gè)樹高值，最后按一定要求收集mk個(gè)子樣本，合起來形成整個(gè)建模樣本。假定每個(gè)子樣本有相同的變動(dòng)系數(shù)(如10%)，按5%的預(yù)估誤差要求(置信水平95%)，則各需16個(gè)樣本單元(取t0.05=2,實(shí)際操作時(shí)應(yīng)隨n作調(diào)整)。按最低限度取m=5、k=3,則共需240個(gè)樣本單元。如果要求預(yù)估誤差為3%，且其它條件不變，則共需667個(gè)樣本單元。一般情況下，材積變動(dòng)系數(shù)會(huì)隨D、H的增大而增大，因此，如果建模樣本中對(duì)應(yīng)較大D、H組合的點(diǎn)所取子樣本單元數(shù)較少，則必然會(huì)造成大

24、徑級(jí)立木的材積估計(jì)值達(dá)不到預(yù)定的精度要求。 4.2樣本構(gòu)成樣本構(gòu)成指樣本單元數(shù)隨自變量的分布情況。仍以二元立木材積模型為例，樣本構(gòu)成涉及上述m、k的確定及每一個(gè)子樣本中具體建模樣木的選取。關(guān)于徑級(jí)數(shù)m和每個(gè)徑級(jí)中的樹高級(jí)數(shù)k，文(中華人民共和國林業(yè)部，1990)中建議分別在1015左右和不少于3個(gè)。因?yàn)閙、k的大小直接影響收集樣本的工作量，提供一個(gè)最低限度指標(biāo)是必要的。對(duì)于材積模型，因?yàn)槠淝€變化趨勢比較單一，故取m=58、k=35即可。如果是變化趨勢比較復(fù)雜的模型(如“S”型生長曲線)，可適當(dāng)增加至m=710。在確定m、k之后，具體選取哪些徑級(jí)和樹高級(jí)時(shí)，應(yīng)掌握如下原則：最小、中等和最大

25、者必選，然后再在其間適當(dāng)增選；目標(biāo)變量變化規(guī)律未知時(shí)考慮等距均勻分布，變化規(guī)律已知時(shí)宜典型選取，其中變曲點(diǎn)處必選。由于樹高級(jí)的確定是在已定徑級(jí)基礎(chǔ)上進(jìn)行的，故應(yīng)考慮影響樹高變動(dòng)的各種因素。具體針對(duì)某一徑級(jí)和樹高級(jí)組合的子樣本，其樣木的選取必須考慮影響材積變動(dòng)的各種因素，在根據(jù)各種影響因素劃分的類型中去典型選樣。因?yàn)楫惙讲钚缘拇嬖?，筆者認(rèn)為各子樣本樣木的D、H應(yīng)盡可能地一致，以正確地估計(jì)其平均數(shù)的方差和變動(dòng)系數(shù)。盡管整個(gè)樣本看起來呈現(xiàn)離散性，但不會(huì)影響建模效果。相反，因?yàn)楦髯訕颖镜氖占歼_(dá)到了建模要求，只要模型選取得當(dāng)，其預(yù)估精度是肯定可以達(dá)到預(yù)定要求的。樣本資料的收集是建模的首要環(huán)節(jié)，其質(zhì)

26、量好壞直接影響建模效果。通過模擬數(shù)據(jù)的對(duì)比檢驗(yàn)結(jié)果可以發(fā)現(xiàn)，一套理想的建模樣本數(shù)據(jù)，不管是采用普通回歸還是加權(quán)回歸估計(jì)方法，其結(jié)果幾乎是一致的。也即由一套好的樣本資料所建立的模型，其總相對(duì)誤差和總系統(tǒng)誤差都應(yīng)該接近于0。因此可以說，2種估計(jì)方法得出的回歸模型的差異大小，在一定程度上反映了建模樣本的質(zhì)量好壞。 4.3檢驗(yàn)樣本與精度檢驗(yàn) 建立通用性回歸模型時(shí)，一般要求在收集建模樣本的同時(shí)，還另收一套檢驗(yàn)樣本。如文(中華人民共和國林業(yè)部，1990)中提到收集編表資料的另一條原則：“要同時(shí)收集編表和檢驗(yàn)兩套樣本，用編表樣本編表，用檢驗(yàn)樣本檢驗(yàn)所編數(shù)表的精度。”檢驗(yàn)樣本的收集原則和方法類似于建模樣本，此

27、處只著重討論檢驗(yàn)方法及這一檢驗(yàn)的必要程度。利用檢驗(yàn)樣本進(jìn)行所謂“適用精度”檢驗(yàn)，必須分別徑級(jí)進(jìn)行。正確的方法應(yīng)是先按(7)式算出總相對(duì)誤差E，然后判斷它是否超過公式： (12) 的計(jì)算結(jié)果。式中，CV為檢驗(yàn)徑級(jí)的預(yù)估材積的變動(dòng)系數(shù)，n為該徑級(jí)檢驗(yàn)樣本單元數(shù)，t為置信水平時(shí)的t分布值(自由度為n-T,T為模型參數(shù)個(gè)數(shù))。如果不超過，則認(rèn)為模型是可以接受的。由(11)式知，(12)式中的變動(dòng)系數(shù)CV可表示為： (13) 式中Ep為檢驗(yàn)徑級(jí)的材積預(yù)估誤差，n為該徑級(jí)的建模樣本單元數(shù)，t為置信水平時(shí)的t分布值(自由度為n-T)。將(13)式代入(12)式，可得到接受模型的條件為： (14) 如果n

28、=n，則只要檢驗(yàn)樣本的總相對(duì)誤差不大于建模樣本的預(yù)估誤差就行了。另外，(14)式還反映出了一條信息，即各徑級(jí)檢驗(yàn)樣本單元數(shù)必須滿足nT。從上述檢驗(yàn)方法可看出，整個(gè)檢驗(yàn)行為并不能提出一個(gè)反映所建回歸模型預(yù)估精度的指標(biāo)值，而只是作出一個(gè)可否接受模型的判定。可以推斷，只要建模樣本的收集符合要求，就基本上能以(1-)的概率作為接受模型的判定，也即作出否決模型的判定只是一個(gè)小概率事件。萬一真是出現(xiàn)此種情況，也只能按要求去完善樣本資料重新建模。因此，與其花費(fèi)一部分工作量去收集檢驗(yàn)樣本，還不如在收集建模樣本時(shí)多花點(diǎn)功夫以確保其質(zhì)量。真正體現(xiàn)回歸模型預(yù)測精度的，還是預(yù)估誤差這一指標(biāo)。 5結(jié)論樣本資料收集、

29、回歸估計(jì)方法和模型評(píng)價(jià)是建立回歸模型的3個(gè)重要環(huán)節(jié)。建模樣本單元數(shù)必須根據(jù)預(yù)定精度要求和目標(biāo)變量的變動(dòng)系數(shù)及變化規(guī)律綜合確定。樣本的構(gòu)成關(guān)系到樣本的質(zhì)量，而樣本的質(zhì)量好壞將直接影響所建回歸模型的精度。加權(quán)回歸估計(jì)方法是建立通用性回歸模型所應(yīng)采取的方法。任何回歸模型的最佳權(quán)函數(shù)就是模型本身。以模型本身為權(quán)函數(shù)所進(jìn)行的加權(quán)回歸估計(jì)，一方面將所有建模樣本單元同等對(duì)待，從而保證了模型的總系統(tǒng)誤差為0；另一方面徹底消除了模型中可能存在的異方差性。對(duì)回歸模型的評(píng)價(jià)，除了殘差平方和、剩余標(biāo)準(zhǔn)差、復(fù)相關(guān)系數(shù)、修正復(fù)相關(guān)系數(shù)、參數(shù)變動(dòng)系數(shù)、殘差分布圖以及信息量準(zhǔn)則AIC和Cp準(zhǔn)則等等指標(biāo)以外，還需考慮另外4大重要指標(biāo)，即總相對(duì)誤差、總系統(tǒng)誤差、平均相對(duì)誤差絕對(duì)值和預(yù)估精度(或預(yù)估誤差)。參考文獻(xiàn) 董德元，楊

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

加權(quán)回歸建模管理論文

文檔簡介

溫馨提示

最新文檔

評(píng)論

加權(quán)回歸建模管理論文

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔