最小二乘法探究_第1頁
最小二乘法探究_第2頁
最小二乘法探究_第3頁
最小二乘法探究_第4頁
最小二乘法探究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、最小二乘法探究0. 前言最小二乘法發(fā)源于天體物理學(xué),并廣泛應(yīng)用于其他各個學(xué)科。最小二乘法(Least squares)又稱最小平方法,一元線性回歸法,是一種數(shù)學(xué)優(yōu)化技術(shù),用于建立經(jīng)驗公式,利用它可以把生產(chǎn)或?qū)嶒炛兴e累的某些經(jīng)驗提高到理論上加以分析。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。最小二乘法還可用于曲線擬合,是我們在建模競賽中常用的一種手段。一些優(yōu)化問題也可通過最小化能量或最大化熵用最小二乘法來表達(dá)。最小二乘法發(fā)源于天體物理學(xué),并廣泛應(yīng)用于其他各個學(xué)科。最小二乘法對于統(tǒng)計學(xué)具有十分重要

2、的意義。相關(guān)回歸分析,方差分析和線性模型理論等數(shù)理統(tǒng)計學(xué)的幾大分支都以最小二乘法為理論基礎(chǔ),正如美國統(tǒng)計學(xué)家斯蒂格勒(S.M,Stigler)所說,“最小二乘法之于數(shù)理統(tǒng)計學(xué)猶如微積分之于數(shù)學(xué)”。故對最小二乘法做一番探究進(jìn)而理解并掌握這一思想是十分有必要的。1. 原理在古漢語中“平方”稱為“二乘”,“最小”指的是參數(shù)的估計值要保證各個觀測點與估計點的距離的平方和達(dá)到最小。根據(jù)教材中的描述(兩個變量間的函數(shù)關(guān)系),其基本原理為:根據(jù)已知的自變量與因變量數(shù)據(jù)做出散點圖,進(jìn)而觀察判定出兩者間的函數(shù)關(guān)系,本次探討以一次函數(shù)關(guān)系為例,其他類型的函數(shù)關(guān)系也可通過兩邊取對數(shù)等方法轉(zhuǎn)化為一次函數(shù)形式進(jìn)行求解。

3、認(rèn)定y=fx是線性函數(shù):fx=ax+b a,b即為待求的常數(shù)。對于求的函數(shù),我們希望它可以盡可能多的擬合到已知的數(shù)據(jù)點,或者說盡可能的靠近。轉(zhuǎn)化為量化形式即為使偏差yi-fxi 都很小,對此經(jīng)過綜合分析我們用M=i=0imaxyi-axi+b2最小來保證每個偏差的絕對值都很小,即根據(jù)偏差的平方和為最小的條件來確定常數(shù)a,b。然后運用多遠(yuǎn)函數(shù)的極值求法知識來求解求M=(a,b)的極小值,具體步驟為:Maa,b=0Mba,b=0>>>>>>>>>>>>>>Ma=-2i=0imaxyi-axi+bxi=0Mb=-2i

4、=0imaxyi-axi+b=0 >>>>i=0imaxyi-axi+bxi=0i=0imaxyi-axi+b=0>>>>>>ai=0imaxxi2+bi=0imaxxi=i=0imaxyixiai=0imaxxi + 8b=i=0imaxyi (1)然后再列表計算i=0imaxxi2, i=0imaxxi, i=0imaxyixi,及 i=0imaxyi,代入方程組(1),即可求出a,b。2. 證明最小二乘法的本質(zhì)是最小化系數(shù)矩陣所張成的向量空間到觀測向量的歐式誤差距離,故本次探究選擇從歐式空間來證明最小二乘法:為便于討論以及深入理

5、解該問題,我們從一般的最小二乘法問題入手證明。 實系數(shù)線性方程:a11x1+a12x2+a1nxn-b1=0a21x1+a22x2+a2nxn-b2=0 am1x1+am2x2+amnxn-bm=0據(jù)經(jīng)驗,方程組很有可能無解,所以我們退而求其次,對于式M=i=1mai1x1+ai2x2+ainxn-bi2,我們設(shè)法找實數(shù)組x1,x2xn(方程組的最小二乘解),使M最小即可,并不強(qiáng)求其一定要為零。到此,已整理出了一般最小二乘法問題求解的形式,下面據(jù)此利用歐式空間的概念來表達(dá)最小二乘法,并給出最小二乘法所滿足的代數(shù)條件: 令A(yù)=a11a12a1na21a22a2nam1am2amn B=b1b2b

6、m X=x1x2xn Y=j=1naj1x1j=1naj2x2j=1najmxn=AX用距離的概念,M=Y-B2。最小二乘法就是找x1,x2xn,使Y與B的距離最短,但從M式知向量Y就是Y=x1a11a21am1+x2a12a22am2+xna1na2namn 把A的各列向量分別記為1,2,n。由他們生成的子空間為L=(1,2,n),Y就是L=(1,2,n)中的向量。于是最小二乘法問題可敘述成:找X使M最小,就是在L=(1,2,n)中找一向量Y,使得B它的距離比到子空間L=(1,2,n)中其它向量的距離都短。 應(yīng)用前面所講的結(jié)論,設(shè)Y=AX=x11+x22+xnn是所要求的向量,則C=B-Y=

7、B-AX必須垂直于子空間L=(1,2,n)。為此只需而且必須C,1=C,2=C,n=0,根據(jù)矩陣乘法規(guī)則,上述一串等式可以寫成矩陣相乘的形式,即:1*C=0,2*C=0,n*C=0,而1*,2*,n*,按行正好排列成A*,上述一串等式結(jié)合起來就是A*B-AX=0或A*AX=A*B,這就是最小二乘所滿足的代數(shù)方程,它是一個線性方程組,系數(shù)矩陣是A*A,常數(shù)項是A*B。3高斯與最小二乘法 1809年,高斯發(fā)表天體運動理論。在該書的末尾,他寫了一節(jié)關(guān)于”數(shù)據(jù)結(jié)合“的問題,以極其簡單的手法導(dǎo)出誤差分布,并用最小二乘加以驗證。關(guān)于最小二乘法,高斯宣稱自1795年以來他一直使用這個定理。這立刻引起了勒讓德

8、的強(qiáng)烈反擊,他提醒說科學(xué)發(fā)現(xiàn)的優(yōu)先權(quán)只能以出版物確定(最小二乘法最早出現(xiàn)在勒讓德1805年發(fā)表的論著計算彗星軌道的新方法附錄中),并嚴(yán)斥高斯剽竊了他人的發(fā)明。這兩位數(shù)學(xué)家之間持續(xù)多年的關(guān)于優(yōu)先權(quán)的爭論,在數(shù)學(xué)史上的知名度僅次于牛頓和萊布尼茲之間關(guān)于微積分發(fā)明權(quán)的爭論。現(xiàn)在一般認(rèn)為,二人之間各自獨立地發(fā)明了最小二乘法。盡管是高斯早十年使用了這個原理,但第一個用文字發(fā)表的是勒讓德。 高斯是“能以九霄云外的高度按照某種觀點掌握星空和深奧數(shù)學(xué)的天才“。的確,相比而言高斯不愧為數(shù)學(xué)王子,他把最小二乘法推進(jìn)的更遠(yuǎn),更深刻,進(jìn)而極大地推進(jìn)了數(shù)理統(tǒng)計的發(fā)展。故本次探究以分析研究高斯的推導(dǎo)研究為主,他是由誤差函

9、數(shù)推導(dǎo)出這個方法并詳盡闡述了最小二乘法的理論依據(jù)。其推導(dǎo)過程如下: 設(shè)誤差密度函數(shù)為f(x),真值為x , x1,x2xn為n個獨立測定值,因為觀測是相互獨立的,因而這些誤差出現(xiàn)的概率為:Lx=Lx;x1,x2xn=i=1nf(xi-x)。要找出最有希望的誤差函數(shù)應(yīng)使Lx達(dá)到極大,高斯認(rèn)為x就是x的估計值,并使Lx取得極大值。對上式兩端取對數(shù)得:lnLx=i=1nlnf(xi-x)>>>>求導(dǎo)得:dlnxdx=i=1nf'(xi-x)f(xi-x) ,記gx=f'(x)f(x) 則有i=1ng(xi-x)=0 >>>> 求對xi的

10、偏導(dǎo)數(shù): gxi+gxnxnxi=0 ,而i=1nxi-nx=0,則有xnxi=-1(in),則對于任意i有g(shù)xi=gxn ,即gxi=c (c為常數(shù))>>>>可得gx=cx+b ,以及 i=1ng(xi-x)=i=1ncxi-x+b=ci=1nxi-x+nb=0 ,因i=1nxi-x=0,可推導(dǎo)的b=0,則有g(shù)x=f'(x)f(x)=cx >>>>積分可得fx=ke12cx2 ,由-fxdx=1 ,則應(yīng)有c<0 ,取c=-12 >>>>可得k=12 ,則有fx=12e-x222 此即正態(tài)分布N(0,2)。這

11、樣可知(x1,x2xn)誤差密度函數(shù)為 (2)-nexp-122i=1nxi-x2 ,要使此時達(dá)到極大值,選取x1,x2xn而使i=1nxi-x2達(dá)到極小值。于是可得x1,x2xn最小二乘法估計。 由以上推證過程可知,高斯是用逆向思維來思考這個問題,即先承認(rèn)算術(shù)平均值x是所求的估計,即“如果在相同的環(huán)境和相同的管理下對任一個量經(jīng)過多次直接觀測確定,則這些觀測的算術(shù)平均值是最希望要的值“。這是高斯大膽采用了人們千百年來的實際經(jīng)驗,實為高斯之獨創(chuàng)思維。這也正如他所說:”數(shù)學(xué),要有靈感,必須接觸現(xiàn)實世界”。4質(zhì)疑 我們信仰科學(xué),但絕不迷信科學(xué),科學(xué)精神應(yīng)持有懷疑的態(tài)度。對于如此經(jīng)典的最小二乘法,我還

12、是不禁要問一句:他真的是一種完美的理論嗎?有疑問總歸不是壞事,自以為是不是更可怕嗎?疑問:從最簡單的具有線性的最小二乘問題的幾何意義上去理解,最小二乘就是要找一條直線去盡可能的擬合數(shù)據(jù)點,那好,我們本能的自然想法是:“應(yīng)該用這樣的直線,它使得每個點到直線的距離之和最小”,注意我們此時所理解的距離不就是點到直線的距離嗎?而最小二乘法提供的約束條件卻是M=i=0imaxyi-axi+b2最小,即考慮的是要使豎直方向上的偏差yi-fxi盡可能的小,這顯然與我們的“相當(dāng)然”有出入。下面就對這一疑問試著做如下探究:經(jīng)過查閱相關(guān)內(nèi)容,我發(fā)現(xiàn)這個自然的想法很多人在初學(xué)時也都有想過。最后明白原來最根本的原因是

13、哲學(xué)邏輯上的。我們做回歸分析,有自變量x,有因變量y,尋找的是y和x之間的聯(lián)系,更確切的說是知道x怎么求y。所以x和y是兩個本質(zhì)不一樣的量,一個是因,一個是果。現(xiàn)在再來看我們的自然想法:“應(yīng)該用這樣的直線,它使得每個點到直線的距離之和最小”,這種方法其實是將因果混為一談了,試圖在(x,y)這個向量空間里找一個最好的超平面。不說錯誤吧,這至少是一個不自然的邏輯。最小二乘的邏輯就自然多了。比如說我有一個因變量y和兩個自變量x1,x2,它們在我觀測到的樣本里都表現(xiàn)為一個個的向量。最小二乘是在做什么呢?它是在觀測到的x1和x2的向量所生成的線性空間中,找一個離觀測到的y向量最近的點。從幾何上看,這就是

14、正交投影。有很多人說最小二乘不一定最好,我們也可以用別的距離。這固然不錯,但最小二乘的優(yōu)越性恰恰體現(xiàn)在它最“自然”這一點上。我們最習(xí)慣的空間是有內(nèi)積的歐式空間,如果用其它任何一種距離,這種“自然”的內(nèi)積就沒有了,不變性就沒有了。不用這個距離,最小方差(BLUE)的性質(zhì)就沒有了。不用這個距離,相當(dāng)于是假設(shè)噪聲服從另外一種分布(不再是正態(tài)分布)。說的高一點,整個現(xiàn)代科學(xué)的方法就是”歸納“和”演繹“兩條。從歸納的角度出發(fā),實際問題中碰到什么分布的噪聲就應(yīng)該用那種分布;從演繹的角度出發(fā),什么方法最”自然“,最”漂亮“,最“易于理解”就盡量去用這種方法。歐式距離是最自然最直觀的距離,正態(tài)分布是最常見最容易處理的噪聲分布,那自然最小二乘就是最優(yōu)的方法了。5.結(jié)語 最小二乘法在19世紀(jì)初發(fā)明后,很快得到歐洲一些國家的天文學(xué)家的廣泛關(guān)注。據(jù)不完全統(tǒng)計,自1805年至1864年的60年間,有關(guān)最小二乘法的研究論文達(dá)256篇,一些百科全書包括1837年出版的大不列顛百科全書第七版,亦收入有關(guān)方法介紹?,F(xiàn)如今,在CNKI中國知網(wǎng)檢索“最小二乘法”詞條,可查到412191篇有關(guān)研究論文; 在EMIS( 歐洲數(shù)學(xué)學(xué)會)官網(wǎng)上搜索“Least squares”詞條,可出現(xiàn)21482篇相關(guān)文獻(xiàn),最小二乘法的廣泛應(yīng)用與研究由此可見一斑。本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論