高等教育51回歸模型_第1頁
高等教育51回歸模型_第2頁
高等教育51回歸模型_第3頁
高等教育51回歸模型_第4頁
高等教育51回歸模型_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第一節(jié)回歸模型回歸分析是研究隨機現(xiàn)象中變量之間關系的一種數(shù)理統(tǒng)計方法。它的主要內(nèi)容是:從一組數(shù)據(jù)出發(fā),確定這些變量間的關系式,對這些關系式的可信程度進行統(tǒng)計檢驗,從影響一個量的許多變量中,判斷哪些變量的影響是顯著的,哪些是不顯著的,尋找具有較好統(tǒng)計性質(zhì)的回歸設計,利用所求得的關系式進行預報和控制。一、一元線性回歸模型一元回歸分析是處理隨機變量y和變量x之間關系的一種方法,即通過分析數(shù)據(jù),找出變量x和y間的一種關系。如果兩個變量的關系是線性的,那就是一元線性回歸分析所研究問題。那么,怎樣建立一元線性回歸的數(shù)學模型呢?首先,把觀察得到的n對數(shù)據(jù)(x1,y1),(x2,y2),(xn,yn)表示在平

2、面直角坐標系(圖51)中,考察這些點的大致分布情況,如果這些點之間近似存在著線性關系yabx,那么,由最小二乘法可得量x和y之間的規(guī)律,即y和x是否顯著地存在線性關系呢?這可以用F方和為S剩,則 如果在給定顯著性水平下,有PFF(1,n2)1,于是有1的把握確定回歸直線的顯著性。否則,在給定顯著性水平下,回歸不顯著,即變量x和y的線性關系不顯著。二、多元線性回歸模型對于一元以上的線性回歸,這里先討論二元線性回歸。設隨機變量y和另外兩個變量x1和x2近似存在線性關系yab1x1b2x2,同樣可以討論二元以上的線性回歸。為了書寫簡便,可以用矩陣的形式來表示回歸系數(shù)。設隨機變量y與另外p個變量x1,

3、x2,x3,xp近似存在線性關系y01x12x2pxp,經(jīng)過n次試驗,得到數(shù)據(jù)組(yi,xi1,xi2,xip)(i1,2,n)。這就有上述方程組就可以寫成YX。經(jīng)過矩陣的運算,并運用最小二乘法,(XTX)-1是XTX的逆矩陣。二元線性回歸也可以用矩陣的形式來表示。設y01x12x2,于是在數(shù)據(jù)處理過程中,兩個或兩個以上變量之間的回歸關系,并非總是線性的。這時,選擇恰當類型的曲線比直線更符合實際情況。但在許多情況下,非線性回歸可以通過某些簡單的變量變換,轉(zhuǎn)化為線性回歸。例如,假設變量y和x之間有關系式y(tǒng)0ex,只要兩邊取對數(shù),并令ylny,0ln0,就可以將上述非線性回歸問題轉(zhuǎn)化為線性回歸問題

4、。三、回歸模型在教學評估中的應用舉例1同一學科成績的一元線性回歸分析從一組學生某學科的平時成績與期中考試成績或兩次不同考試的成績,分析這組學生學習該學科的水平狀況,便是一元線性回歸模型在教學評估中的一個應用。例如,從某班隨機抽取15名學生兩個學期的數(shù)學期末考試成績?nèi)绫?1(x、y分別表示第一學期、第二學期的期末成績),下面用一元線性回歸進行分析。所以,這組學生的成績相關。根據(jù)一元線性回歸計算方法,得lxy1117,lyy1365.6,下面用F檢驗進行方差分析,檢驗回歸的顯著性。查表得F0.01(1,13)9.07,可見FF0.01(1,13),于是我們有99%的把握認為回歸是顯著的,即x和y之

5、間存在線性關系。如果把第二次考試成績作為基礎,根據(jù)上面得到的一元線性回歸方程預測第三次考試學生的成績,可以把第三次考試的成績填入表52(x表示預測成績,y表示實際的考試成績)。同樣,用第三次考試成績作為基礎,又可以預測第四次考試成績,依此類推。當然,每一次的預測都應該與實際分數(shù)進行比較,判斷預測的準確性,并加以修正。在不需要較為精確地對學生學習水平作出預測的情況下,為避免較大的計算量,也可以采用比較簡單的“平均數(shù)”法,粗略地對學生的學習狀況作出回歸分析。具體地可以按下面步驟完成。第一步,分組。把n個測驗數(shù)據(jù)點(xi,yi)(i1,2,n)分成大致均勻的兩組。若n為偶數(shù),則平分成兩組;若n為奇數(shù)

6、,可第二步,求平均數(shù)。分別求出這兩組數(shù)據(jù)的各個平均數(shù),并組成新第三步,求過P、Q兩點的直線可以認為,這條直線是過這n個點的一元線性回歸直線。對上面提到的15名學生的數(shù)學成績,按照前8名為一組,后7名為另一組,分成兩組,然后用表53(x、y分別表示第一學期、第二學期期末成績)的數(shù)據(jù)計算。因此,得到P(79.3, 76.5), Q(73.7, 70.1),而通過P,Q的直線這樣,我們也可以用這條回歸直線來預測這15名學生的學習成績。2同一學科成績的二元線性回歸分析利用二元線性回歸,可以從一組學生某學科更多的測驗數(shù)據(jù)(如平時成績,考試成績)中,預測這組學生該學科的成績。現(xiàn)在對上述15名學生三個學期數(shù)

7、學期末成績(在表54中,x1、x2和y分別表示高一第一學期、第二學期和高二第一學期期末成績)進行二元線性回歸分析由二元線性回歸計算方法,得到:解得 b10.282,b20.622。由此可得這組學生的二元線性回歸方程是雖然通過上面回歸方法得到了二元線性回歸方程,但兩個因素x1和x2對y的回歸并不一定是顯著的。這里存在著以下幾種情況:因素x1對y回歸顯著,而因素x2對y回歸不顯著;因素x1對y回歸不顯著,而因素x2對y回歸顯著;因素x1和x2對y回歸都顯著;因素x1和x2對y回歸都不顯著。下面通過表55,對前面的二元線性回歸方程進行檢驗。由于F0.05(2,12)3.89F,所以得到的回歸直線是顯

8、著的。既然上面回歸是顯著的,那么,我們可以根據(jù)這15名學生的兩個學期期末成績,預測第三個學期的期末成績,然后,照樣可以把第三個學期的成績作為一個因素(如因素x2),去預測第四個學期的期末成績。不過,每一次預測值與實際值都應進行檢驗,并且加以修正。如果用F檢驗法檢驗回歸不顯著,那么就應該對每個因素進行單獨方差分析,剔除回歸不顯著的因素。一般來說,凡是偏回歸平方和(所謂偏回歸平方和,是指總的回歸平方和,減去剔除某因素后所得的回歸平方和的值)大的變量一定是顯著的;凡是偏回歸平方和小的變量,卻并不一定不顯著。3同一學科成績的中位數(shù)穩(wěn)健性回歸分析用最小二乘法求回歸直線,對所有的測驗數(shù)據(jù)都是一視同仁的,顯

9、然個別遠離數(shù)據(jù)群體的“離群值”影響了回歸的顯著性(擬合度)。若用“中位數(shù)”的方法,可以求出一種較為穩(wěn)健的回歸,其步驟是:第一步,分組。將各數(shù)據(jù)點按某一變量(例如x)值從小到大的順序重新排列,得x(1)x(2)x(n);另一變量y值隨之相應地排列。然后將n個點大致均勻地分成左(L),中(M),右(R)三組,并使左右兩組點數(shù)盡可能相等,如遇有相同的x值,則應該將相應的點劃歸為同一組,不可分割開。第二步,求中位數(shù)、綜合點。在按第一步分出的左、中、右三組中各求出x值和y值的中位數(shù),分別得到三個組的綜合點:L(xL,yL),M(xM,yM),R(xR,yR)。這些“綜合點”不一定是原始數(shù)據(jù)點。第三步,用

10、“中位數(shù)”的綜合點求回歸直線。由綜合點先求出斜率的初始值再取分別過這三個綜合點,且以b1為斜率的三條直線的截距的平均數(shù)為截距,即第四步,求殘差及其中位數(shù),迭代。求出各點(xi,yi)(i1,2,n)與初始回歸直線的初始殘差:若10或10,迭代結(jié)束。否則繼續(xù)按照上面方法迭代,直到第k步出現(xiàn)k0或k0為止。這時最終的回歸直線為aka1a。下面對前面提到的15名學生的成績作中位數(shù)穩(wěn)健性回歸。第一步,由表56,左、中、右三組的中位數(shù)分別為xL66,yL67,xM73,yM78,xR89,yR79,于是,初始的回歸直線是數(shù),得綜合點:L(66,3.35),M(73,1.73),R(89,2.83)。 由

11、于10,所以迭代結(jié)束,最終的回歸直線是從表56中的第五列可以看出(74,60)、(97,98)這兩個“離群點”,由于中位數(shù)比平均數(shù)回歸更具有穩(wěn)健性,所以,在用中位數(shù)法求回歸直線的過程中,自然降低了“離群值”的影響。4題目難度的回歸分析題目的難度指數(shù)對測驗結(jié)果反應最敏感。為了對題目的難度有一個比較準確,又可操作的定量化估計,可以利用回歸分析,根據(jù)學生的實際得分率與決定題目難度的有關因素的賦值建立回歸關系,預測題目的難度。學科專家研究確認,數(shù)學測驗題目的難度因素主要取決于測驗涉及知識的廣度、運算量、邏輯推理量、失誤點、障礙點、綜合度、熟悉度等因素??梢哉J為通常意義下的難度由這七個因素所確定,只要對

12、這七個因素客觀地賦值,可以克服主觀估計帶來的偏差。具體方法是:(1)利用已有測驗的數(shù)據(jù),求得各題難度指數(shù)pL(l1,2,k,k為題目數(shù))。(2)對各題給出對應的難度因素值nil。(3)利用邏輯斯蒂回歸模型:用與pL對應的nil建立回歸方程。由于數(shù)學測驗一般由三類題型(填空題、選擇題和解答題)組成,它們的測試功能和考查要求各有所異,因此,應該分別建立三個回歸方程著,以便判別回歸方程本身的優(yōu)劣。(5)當新的題目編制完后,通過對每題難度因素nil的賦值,代(6)計算剩余標準差,衡量估計難度值WL變差的大小,確定估計難度與實際得分率的平均誤差。例如,用1989年和1990年高考數(shù)學上海試卷中的數(shù)據(jù),分別建立三類題型的回歸方程:1.369n41.363n50.91495n6,0.27023n40.13013n50.29579n61.5384n7,0.10652n41.1799n50.064717n61.2517n7。平方和之比的算術平方根)分別為R10.85,R20.91;R30.88??梢哉J為估計難度與實際考試結(jié)果的擬合度較好,同時也說明了難度因素的確定是合理的。對上述三個線性回歸方程的方差分析,可分別得到F

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論