多元回歸分析應注意的兩個問題_第1頁
多元回歸分析應注意的兩個問題_第2頁
多元回歸分析應注意的兩個問題_第3頁
多元回歸分析應注意的兩個問題_第4頁
多元回歸分析應注意的兩個問題_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、體育科研中運用多元回歸分析時應注意的兩個問題回歸分析是研究變量之間的相關關系的一種數(shù)理統(tǒng)計方法。在體育領域中存在著大量 多因素(變量)的問題。所以,近年來體育科研中多元回歸和逐步回歸分析方法運用得越來 越多了。回歸分析主要可用于解決下列問題:(一)確定幾個變量之間是否存在相關關系。如果存在,則找出它們之間合適的數(shù)學 表達式一一回歸方程。如在體質研究、運動員選材研究中為了研究各項形態(tài)、機能、素質指 標之間的相關關系,常常通過大樣本統(tǒng)計數(shù)據(jù)計算各指標之間的相關系數(shù)rij,并建立各指 標之間的回歸方程。如1979年全國體質調研后建立了 1825歲男青年的身高、體重對肺活量 的二元回歸方程:Y = 2

2、708 + 27.89X1 + 35.56X2(肺活量)(身高)(體重)(二)根據(jù)回歸方程用一個或幾個自變量的值預測或控制另一個因變量的取值。對于 一些不容易測的指標,可以通過建立回歸方程用幾個比較容易測的指標來推測它的估計值。 如果自變量選得恰當,這樣的回歸方程是很有實用價值的。如北京體院高強等人研究建立了 推測快肌纖維百分比的三元回歸方程:Y=5.90+35.53 X1 + 18.2 X2 一 6.41 X3(快肌)(相對肌力)(MPE %) (IEMG)只要進行肌肉力量和肌電圖的幾項測試,就可以實現(xiàn)肌纖維成分的無損傷測定。(三)進行因素分析。當許多個變量(因素)都對某一個變量有影響時,可

3、以通過回歸 分析找出其中哪幾個是重要因素,哪幾個是次要因素。如對田徑十項全能世界級優(yōu)秀運動員 的十項全能總分和十個單項成績進行逐步回歸計算,從中可篩選出四個比較重要的項自是: 400米、鉛球、110米欄、跳高。有的研究還根據(jù)多元回歸方程的系數(shù)bi?;驑藴驶貧w系數(shù) b i來確定各指標的“權重”。但是,近來在運用多元回歸和逐步回歸的研究論文中也出現(xiàn)了一些對回歸分析的運用條 件注意不夠的問題。一、樣本含量n和自變量個數(shù)k之間的關系問題復相關系數(shù)R是檢驗多元回歸方程效果的重要指標。一般講,R越接近1即表示回歸方 程的效果越好。因此當計算的結果R值接近1時,有些作者就立即認定計算結果十分理想。 如“廣東

4、省少體校游泳運動員因素分析與運動模型,(1983年全國體育統(tǒng)計報告會論文) 一文中,男1516歲組自由泳成績與形態(tài)機能指標的十元回歸方程R=0.999,十三元回歸 方程R=1。又如“對男女優(yōu)秀籃球運動員五大關節(jié)活動幅度與運動成績逐步回歸的探討” (體育科學86年1期)一文中,遼寧男籃隊員運動成績與四項關節(jié)活動幅度建立的四元回 歸方程R=0.995,遼寧女籃隊員運動成績與七項關節(jié)活動幅度建立的七元回歸方程R=l。 作者都認為回歸方程十分理想,并根據(jù)回歸方程作了進一步的分析和結論。但是,再看回歸 方程中各個指標與因變量(Y)的相關系數(shù)則發(fā)現(xiàn)有許多指標和Y是不相關的(p0.05)。 可見,R接近1的

5、原因并不是這些指標和Y相關程度極高,而是作者用于計算的樣本n太?。ㄓ斡疽晃膎=15,籃球一文n=10)。在體育統(tǒng)計方法及一些數(shù)理統(tǒng)計書中,都指出:復相關系數(shù)R與多元回歸方程中自 變量的個數(shù)k及樣本含量n有關。當n相對于k并不很大時,常有較大的R,當n=k+1時, 即使這k個自變量與Y并不相關,也會R=1。如設變量Y與另外K個變量X1, X2Xk的內在聯(lián)系是線性的,它的第a次測試 數(shù)據(jù)是:(Ya, Xa1, Xa2,Xak)a=1,2,,n則這一組數(shù)據(jù)可以有如下的結構式:Y1 = p 0+8 1X11 + 8 2X12 + + 8 kX1k+& 1Y2 = p 0+8 1X21 + 8 2X22

6、 + + 8 kX2k+& 2Yn=8 0+8 1Xn1 + 8 2Xn2 + 8 kXnk+& n其中:8 0,8 1是K+ 1個待估計參數(shù),X1,X2,Xk是K個可以精確測得 的變量,& 1,& 2,& n是n個相互獨立且服從正態(tài)分布N (0,6 )的隨機變量,這就 是多元回歸的數(shù)學模型。把它寫成矩陣形式:Y = X8 +g用最小二乘法原理,建立正規(guī)方程,可解出bo,bl,bk。它們是參數(shù)8 0,8 18 k的最小二乘估計,則多元回歸方程為:Y=bo+b1X1+b2X2 + +bkXk計算bo, b1, b2,,bk時要計算下列四個矩陣:X,A,C,B其中:X是n組側試數(shù)據(jù)Ya的結構矩陣,

7、A=XX是正規(guī)方程組的系數(shù)L ij矩陣,C=A-1是系數(shù)矩陣A的逆矩陣,B是正規(guī)方程組的常數(shù)項Liy矩陣。多元回歸的系數(shù)b=A-1 B.可見,多元回歸方程的系數(shù)bi的解是和所側得的原始數(shù)據(jù)的 組數(shù)(樣本含量)n緊密相系的??梢酝茖С觯寒攏=k + 1時,結構矩陣X是方陣,這時解 出的bi,即使X,和Y全都不相關,仍可以得到:Q=E(Y-Y)=0亦即:U=Z bi Lij=Lyy所 以 R=sqrt(U/Lyy) = 1。為了用計算實例來說明以上的理論推導,我們隨機抽取了 K=34, n=10的一個樣本。其 中大部分X和Y是不相關的(即r iy的值,經檢驗為P0.05)。選取其中9個和Y不相關

8、的X作九元回歸計算,riy最小的為一 0.011,最大的為0.471,均為P0.05,計算結果見表1, 雖然每個X的偏回歸平方和Pi作F檢驗時,都是P0.05,但復相關系數(shù)R=0.9999975。 把多元回歸的X增加到15,20和34個時,R值分別為:0.9999891,1.000009,1.0000830 可見當樣本含量n太小與自變量個數(shù)K的比例不恰當時,解出的bi是不能正確地反映各自 變量和Y之間的內在關系的。如果用這樣的多元回歸方程為依據(jù)去分析和作結論,就一定會 產生謬誤。表1:K =9n=10的多元回歸計算結果ib iP iF iR iyB iXLiy0-60.3588910.3407

9、0091.0238856.017856 E-39-0.094-2.16617621.5172844.2104442.474677 E-38-0.32926.61042032.0023413.5692782.097833 E-38-0.011-1.65717340.25529280.05146970-0.201-0.25325035-6.1716812.0577761.209452 E-380.148-16.4932261.6205042.745021.613378 E-380.47112.784167-0.080389620.052341800.068-0.245107881.8359661.

10、78691.050245 E-380.0654.71669-2.2152762.4977591.468051 E-380.16013.23939R=0 .9999975Lyy= 10.05696U= 10.05692有的數(shù)理統(tǒng)計專著上提出:n應是K的510倍,這是我們在計算時應特別注意的問題。體育科研中,特別是研究優(yōu)秀運動員的時候,樣本含量一般都比較小。而希望分析與專 項成績有關的指標時,又常常取許多個Xi,所以,K和n的比例常是一個大問題。我們認為:在運用多元回歸分析時,首先應盡可能地擴大樣本含量n,特別要注意n與 K的比例。其次,在算出多元回歸方程后,不僅要看R值的大小(或對方程作方差分析

11、后的 F值大?。€必須仔細看一下每個自變量的Pi的F檢驗結果,以決定這個方程是否具有實 用價值。二、自變量之間相關的問題在體育科研中常常運用多元回歸或逐步回歸來進沂因素分析。即從許多個自變量Xi中 分析哪幾個是影響Y的主要因素,哪幾個是影響Y的次要因素。按照回歸分析的原理,在多元回歸中,回歸平方和U是所有自變量對Y變差(波動)的 總貢獻。在原有的自變量中減去一個自變量后,U就會減小,減小的數(shù)值越大,就說明這個 自變量對Y的作用越大。所以,把取消一個自變量后,回歸平方和U減少的值稱為:Y對這 個自變量的偏回歸平方和Pi。但是,通常情況下由于自變量之間互相存在著相關關系,所 以E Pi尹U,只有

12、當各自變量之間的相關系數(shù)rij=0即正規(guī)方程的系數(shù)矩陣為對角陣(除主 對角線元素L11,L22,Lkk外其余元素全為0)時,才有U=E Pi。通過計算偏回歸平方和Pi后可以作比較,Pi值越大的自變量對Y的作用就越大。如果 Pi經F檢驗為P0.05,就可認為它對Y的影響不顯著。但是,這樣用Pi來進行比較的前提是:各自變量之間的相關程度應該很小,即r ij的絕對值都不大,其分析結果才正確??墒?,體育科研中對許多指標作回歸分析時,往往自變量之間的相關程度都很高。如以 100米跑成績?yōu)閅,分析各項形態(tài)、機能、素質指標和100米跑成績之間的關系時,形態(tài)指標 中的身高、指距、下肢長這類長度指標之間的rij

13、都在0.8 一 0.9左右,體重和胸圍、 上臂緊張圍、大腿圍等圍度類指標之間的rij約在0.8-0.9之間,素質指標中30米跑、 立定跳遠、縱跳之間的rij也在0.7 7左右。如果計算者不注意自變量之間的相關性的 問題,按計算的結果下結論,也會出現(xiàn)錯誤的。因為,假設在一個多元回歸中,X1和X2對Y的影響都很大,但是它們之間高度相關。 由于X1對Y的影響中很大部分可以從X2對Y的影響中反映出來,這時如從回歸方程中減去 X1,U并不會減小很多,即P1的值一定不大,同樣的理由,P2也不會很大。因此,這時看 P1、P2的值就不能正確地反映出X1, X2對Y的重要性。我們在一次四元回歸計算中遇到這樣一個

14、實例(n=31),四個變量和Y之間的相關系數(shù) 如表2:由表2可見,X1與X2的相關系數(shù)r12=0.949呈高度相關,而其他Xi之間不僅相關系數(shù)rij的絕對值較小.而且P0. 05,即相互之間相關不顯著。再看表上r3y=0.245 (P0. 05),即X3與Y相關不顯著。但做四元回歸計算出的Pi (見表3),P2VP3而且對 P2作F檢驗,F(xiàn):=0. 528( P0.05),似乎可得出結論X2對Y的影響比X3小,而且由于 經F檢驗不顯著應把X2剔除。表2X 2X 3X 4YX 10.949 *0.151-0.120-0.499 *X 20.188-0.099-0.434 *X 30.1900.245X 40.741 *注:*為 PV0.01* 為 PV0.05表3四元三元P 10.9330939P 20.10691123.364034P 30.63685670.7613853P 48.620649.039985當我們考慮到X1和X2之間高度相關,而把X1剔除后再作三元回歸計算(見表3),P2 就大大地增大為3.364034不僅F檢驗結果PP3說明X2比X3的作用更 大些。同時從表3上還可以看出,在四元回歸中P1、P2都小于1,遠比三元回歸中的P2小。 這個實例可以讓我們更加理解回歸分析原理中關于:自變量之間的相關性會給因素分析帶來 麻煩的闡述。我們

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論