第4章回歸分析-1118v1有注解_第1頁
第4章回歸分析-1118v1有注解_第2頁
第4章回歸分析-1118v1有注解_第3頁
第4章回歸分析-1118v1有注解_第4頁
第4章回歸分析-1118v1有注解_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、12第四章第四章回歸分析回歸分析Regression AnalysisRegression Analysis3第一節(jié)、引言第一節(jié)、引言第二節(jié)、一元線性回歸分析第二節(jié)、一元線性回歸分析第三節(jié)、多元線性回歸分析第三節(jié)、多元線性回歸分析第四節(jié)、非線性回歸分析第四節(jié)、非線性回歸分析4統(tǒng)計(jì)關(guān)系統(tǒng)計(jì)關(guān)系函數(shù)關(guān)系函數(shù)關(guān)系函數(shù)關(guān)系函數(shù)關(guān)系變量間的確定性關(guān)系,有精確的數(shù)學(xué)表達(dá)式。變量間的確定性關(guān)系,有精確的數(shù)學(xué)表達(dá)式。統(tǒng)計(jì)關(guān)系統(tǒng)計(jì)關(guān)系大量觀測或試驗(yàn)以后建立起來的一種經(jīng)驗(yàn)關(guān)系,大量觀測或試驗(yàn)以后建立起來的一種經(jīng)驗(yàn)關(guān)系,并不一定包含這因果關(guān)系。并不一定包含這因果關(guān)系。5一、回歸分析(一、回歸分析(Regressio

2、n AnalysisRegression Analysis)1. 定義:定義:是在分析變量之間是在分析變量之間相關(guān)關(guān)系的基礎(chǔ)上相關(guān)關(guān)系的基礎(chǔ)上,進(jìn)一,進(jìn)一步考察變量之間的數(shù)量變化規(guī)律,并通過回歸方程步考察變量之間的數(shù)量變化規(guī)律,并通過回歸方程的形式加以描述和反映變量之間的關(guān)系,幫助人們的形式加以描述和反映變量之間的關(guān)系,幫助人們準(zhǔn)確把握準(zhǔn)確把握變量受其他一個或多個變量影響的程度變量受其他一個或多個變量影響的程度,進(jìn)而進(jìn)而為控制和預(yù)測提供依據(jù)為控制和預(yù)測提供依據(jù)?;貧w分析一般在回歸分析一般在Pearson相關(guān)系數(shù)相關(guān)系數(shù)r(回歸分析中(回歸分析中簡稱為簡稱為“相關(guān)系數(shù)相關(guān)系數(shù)”)測定的基礎(chǔ)上,對

3、自變量和)測定的基礎(chǔ)上,對自變量和因變量的變動趨勢擬合數(shù)學(xué)模型進(jìn)行量的推算的一因變量的變動趨勢擬合數(shù)學(xué)模型進(jìn)行量的推算的一種統(tǒng)計(jì)分析方法?;貧w分析是一種種統(tǒng)計(jì)分析方法?;貧w分析是一種由因索果由因索果的定量的定量分析、預(yù)測技術(shù)。分析、預(yù)測技術(shù)。對地質(zhì)變量而言,也就是對地質(zhì)變量而言,也就是從不存在確定性關(guān)系的大從不存在確定性關(guān)系的大量觀測數(shù)據(jù)中,建立一個地質(zhì)變量與另一個或其它量觀測數(shù)據(jù)中,建立一個地質(zhì)變量與另一個或其它幾個地質(zhì)變量之間相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式幾個地質(zhì)變量之間相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式。62.回歸分析的由來回歸分析的由來英國遺傳學(xué)家英國遺傳學(xué)家F. Galton: 18221911統(tǒng)計(jì)學(xué)之父統(tǒng)

4、計(jì)學(xué)之父K. Pearson: 18571936 二人在研究父母及其子女身高的遺傳問題時,將二人在研究父母及其子女身高的遺傳問題時,將1078對夫妻的平均身高作為對夫妻的平均身高作為x,取他們一個成年兒子的身高作為,取他們一個成年兒子的身高作為y,將結(jié)果繪成散點(diǎn)圖后發(fā)現(xiàn)呈一條直線。計(jì)算出回歸方程,將結(jié)果繪成散點(diǎn)圖后發(fā)現(xiàn)呈一條直線。計(jì)算出回歸方程為:為:即假設(shè)父母的平均身高為即假設(shè)父母的平均身高為1.75m,則預(yù)測子女的身高為,則預(yù)測子女的身高為1.7597m。這種趨勢及回歸方程表明父母身高每增加一個單。這種趨勢及回歸方程表明父母身高每增加一個單位時,其成年兒子的身高平均增加位時,其成年兒子的身

5、高平均增加0.516個單位。這就是回個單位。這就是回歸一詞最初在遺傳學(xué)上的含義。歸一詞最初在遺傳學(xué)上的含義。73.回歸的現(xiàn)代意義:回歸的現(xiàn)代意義:它要比其原始意義廣泛的多。具體地說,回歸分析的內(nèi)容包括:它要比其原始意義廣泛的多。具體地說,回歸分析的內(nèi)容包括: 根據(jù)研究問題性質(zhì)、要求根據(jù)研究問題性質(zhì)、要求建立回歸模型建立回歸模型; 根據(jù)樣本觀測值根據(jù)樣本觀測值對回歸參數(shù)進(jìn)行估計(jì)對回歸參數(shù)進(jìn)行估計(jì),求得回歸方程求得回歸方程。 對回歸方程對回歸方程、參數(shù)估計(jì)值進(jìn)行顯著性檢驗(yàn)參數(shù)估計(jì)值進(jìn)行顯著性檢驗(yàn)。并從影響因變量的。并從影響因變量的自變量中判斷哪些顯著,哪些不顯著;自變量中判斷哪些顯著,哪些不顯著;

6、 利用回歸方程進(jìn)行利用回歸方程進(jìn)行預(yù)測預(yù)測。4. 分類:分類: 根據(jù)涉及的自變量多少根據(jù)涉及的自變量多少A. 一元回歸分析一元回歸分析B. 多元回歸分析多元回歸分析 自變量和因變量之間的關(guān)系類型自變量和因變量之間的關(guān)系類型A. 線性回歸分析線性回歸分析B. 非線性回歸分析非線性回歸分析8一、一元線性回歸一、一元線性回歸1.定義:定義:只涉及一個自變量只涉及一個自變量的簡單線性回歸模型。回歸模型公式為:的簡單線性回歸模型。回歸模型公式為:模型中:模型中:y是是x的線性函數(shù)(部分)的線性函數(shù)(部分)+ 誤差項(xiàng)誤差項(xiàng)i N(0, 2); 線性部分反映了由于線性部分反映了由于x的變化而引起的的變化而引

7、起的y的變化;的變化; 誤差項(xiàng)誤差項(xiàng)i反映了反映了a、除了、除了x和和y之間的線性關(guān)系之外的之間的線性關(guān)系之外的隨機(jī)因素隨機(jī)因素對對y的影響;的影響;b、不能由、不能由x和和y之間的線性關(guān)系所解釋的之間的線性關(guān)系所解釋的變異性變異性;0和和1稱為模型的稱為模型的回歸系數(shù);回歸系數(shù); 1 0,x與與y正相關(guān);反之亦反。正相關(guān);反之亦反。 稱為一元線性回歸模型的稱為一元線性回歸模型的回歸方程回歸方程01iiiyx 名稱因變量被解釋變量自變量解釋變量隨機(jī)擾動誤差項(xiàng)回歸系數(shù)性質(zhì)已知隨機(jī)未知隨機(jī)已知非隨機(jī)未知隨機(jī)可觀測因素確定性部分不確定性部分可觀測因素不可觀測因素93.參數(shù)參數(shù)0和和1的最小二乘估計(jì)(

8、的最小二乘估計(jì)(OLS:Ordinary Least Square) 定義:使因變量的觀察值定義:使因變量的觀察值yi與估計(jì)值與估計(jì)值 之間的殘差平方和達(dá)到最之間的殘差平方和達(dá)到最小來求得小來求得 和和 的方法。即:的方法。即:2. 一元線性回歸模型的回歸(直線)方程一元線性回歸模型的回歸(直線)方程 是估計(jì)的回歸直線在是估計(jì)的回歸直線在y軸上的截距,是當(dāng)軸上的截距,是當(dāng)x=0時時y的期望值;的期望值; 是直線的斜率,稱為回歸系數(shù),表示當(dāng)是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動一個單位時,每變動一個單位時,y的的平均變動值平均變動值。最小最小 用最小二乘法擬合的直線用最小二乘法擬合的直線來代

9、表來代表x與與y之間的關(guān)系與之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比任何其實(shí)際數(shù)據(jù)的誤差比任何其他直線都小,他直線都小,因?yàn)樵谒幸驗(yàn)樵谒械木€性無偏估計(jì)中,回歸的線性無偏估計(jì)中,回歸系數(shù)的最小二乘估計(jì)的方系數(shù)的最小二乘估計(jì)的方差最小。差最小。10為什么引入隨機(jī)擾動項(xiàng)為什么引入隨機(jī)擾動項(xiàng)i?表示被解釋變量表示被解釋變量y與解釋變量與解釋變量x的不確定性關(guān)系;的不確定性關(guān)系;模型不可能包含所有變量,模型不可能包含所有變量,次要變量次要變量要省略;要省略;確定模型確定模型數(shù)學(xué)形式數(shù)學(xué)形式肯定會有肯定會有誤差誤差;樣本數(shù)據(jù)會有樣本數(shù)據(jù)會有測量誤差測量誤差;一些一些隨機(jī)因素隨機(jī)因素?zé)o法選入模型。無法選入模型。i特

10、性:特性:眾多影響因素的代表;眾多影響因素的代表;對被解釋變量對被解釋變量y影響方向是各異的,有正有負(fù);影響方向是各異的,有正有負(fù);對被解釋變量對被解釋變量y平均影響是平均影響是0;是非趨勢性的隨機(jī)變量。是非趨勢性的隨機(jī)變量。11根據(jù)求極值原理,根據(jù)求極值原理, 取最小值得必要條件是取最小值得必要條件是Q對對 和和 的兩個一階偏導(dǎo)數(shù)為的兩個一階偏導(dǎo)數(shù)為0,即有:,即有:上式整理后可得正規(guī)方程組(上式整理后可得正規(guī)方程組(Normal Equations)因此,因此,回歸參數(shù)的估計(jì)值為:回歸參數(shù)的估計(jì)值為:0011011001112()02()0niiiniiiiQyxQyx x 1100nii

11、ni iiexe 或11niixxn11niiyyn1()()nxyiiiLxxyy21()nxxiiLxx 222212121)()()()()(YYnXXnYXXYnYYXXYYXXRniiniiniii124. 離差平方和及其分解離差平方和及其分解在一元線性回歸模型中,受自變量變動的影響,即在一元線性回歸模型中,受自變量變動的影響,即x取值不同對取值不同對y的的影響,或其他因素(包括觀測和實(shí)驗(yàn)中產(chǎn)生的誤差)的影響,觀測影響,或其他因素(包括觀測和實(shí)驗(yàn)中產(chǎn)生的誤差)的影響,觀測值值yi的數(shù)值會發(fā)生波動,這種波動稱為變差。對于每一個觀測值,變的數(shù)值會發(fā)生波動,這種波動稱為變差。對于每一個觀測

12、值,變差的大小可以用該觀測值差的大小可以用該觀測值yi與其算數(shù)平均數(shù)與其算數(shù)平均數(shù) 的離差的離差 來表示,來表示,而全部而全部n次觀測值的總變差可由這些離差的平方和次觀測值的總變差可由這些離差的平方和Lyy來表示:來表示:或記為:或記為:Q1稱為稱為剩余變差剩余變差(或稱(或稱殘差平方和殘差平方和),也就是),也就是 ,反映的是,反映的是總總變差中未被自變量變差中未被自變量x解釋的部分解釋的部分;Q2稱為稱為回歸變差回歸變差(或稱(或稱回歸平方和回歸平方和),反映了),反映了y的估計(jì)值的估計(jì)值 與與yi的平的平均值均值 之間的變差,是由自由變量之間的變差,是由自由變量x的變動而引起的,的變動而

13、引起的,是總變差中自是總變差中自變量變量x解釋的部分解釋的部分。總離差平方和總離差平方和(總變差)(總變差)Total回歸平方和回歸平方和(回歸變差)(回歸變差)Regression殘差(剩余)平方和殘差(剩余)平方和(殘差(剩余)變差)(殘差(剩余)變差)ErrorSST = SSR + SSE131()yyxx等價公式:等價公式:(回歸直線過樣本數(shù)據(jù)點(diǎn)重心)(回歸直線過樣本數(shù)據(jù)點(diǎn)重心)離差分解圖離差分解圖由回歸方程解由回歸方程解釋的部分釋的部分由誤差項(xiàng)解釋由誤差項(xiàng)解釋的部分的部分145. 決定系數(shù)(決定系數(shù)(Coefficient of Determination)決定系數(shù)決定系數(shù)R2的大

14、小表明了在的大小表明了在y的總變差中自變量的總變差中自變量x變動所引起變動所引起的回歸變差所占的比例,故的回歸變差所占的比例,故0 R2 1。參數(shù)反映由回歸模型。參數(shù)反映由回歸模型解釋的解釋的y變差在變差在y總變差中所占的比例,由于總變差恒定,故總變差中所占的比例,由于總變差恒定,故R2越大說明越大說明回歸方程的擬合程度越高回歸方程的擬合程度越高。根據(jù)上述定義,有:。根據(jù)上述定義,有:可以看出:可以看出: 當(dāng)當(dāng)所有觀測值都位于回歸直線上所有觀測值都位于回歸直線上時,殘差平方和等于時,殘差平方和等于0,這時,這時R2= 1,說明總離差可以完全由所估計(jì)的樣本回歸直線來解釋;說明總離差可以完全由所估

15、計(jì)的樣本回歸直線來解釋; 當(dāng)當(dāng)觀測值不完全位于回歸直線上觀測值不完全位于回歸直線上,殘差平方和大于,殘差平方和大于0,此時,此時R20; 當(dāng)當(dāng)回歸直線沒有解釋任何離差回歸直線沒有解釋任何離差,即模型中自變量,即模型中自變量x和因變量和因變量y完全無完全無關(guān)時,關(guān)時,y的總離差全部歸于殘差平方和,這時的總離差全部歸于殘差平方和,這時R2= 0; R2 1,說明回歸方程擬合越好;,說明回歸方程擬合越好; R2 0,說明回歸方程擬合越差。,說明回歸方程擬合越差。(可決系數(shù))(可決系數(shù))(判定系數(shù))(判定系數(shù))15決定系數(shù)與相關(guān)系數(shù)的關(guān)系決定系數(shù)與相關(guān)系數(shù)的關(guān)系niiniiniiiYYXXYYXXR1

16、2121)()()(決定系數(shù)決定系數(shù)相關(guān)系數(shù)相關(guān)系數(shù)一元線性回歸中,決定系數(shù)等于一元線性回歸中,決定系數(shù)等于y和和x相關(guān)系數(shù)的平方相關(guān)系數(shù)的平方166. 估計(jì)標(biāo)準(zhǔn)誤差估計(jì)標(biāo)準(zhǔn)誤差Sy (standard error of estimate)1.實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根;實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根;2.反映實(shí)際觀察值在回歸直線周圍的分散狀況;反映實(shí)際觀察值在回歸直線周圍的分散狀況;3.對誤差項(xiàng)對誤差項(xiàng) 的標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)差 的估計(jì)的估計(jì)Sy ,是在排除了,是在排除了x對對y的線的線性影響后,性影響后,y隨機(jī)波動大小的一個估計(jì)隨機(jī)波動大小的一個估計(jì)4.反映用估計(jì)的回歸方程

17、預(yù)測反映用估計(jì)的回歸方程預(yù)測y時預(yù)測誤差的大小時預(yù)測誤差的大小 5.計(jì)算公式為:計(jì)算公式為:n-2為自由度為自由度17例:傳統(tǒng)的腕足動物系統(tǒng)古生物研究例:傳統(tǒng)的腕足動物系統(tǒng)古生物研究中,往往都會繪制殼長殼寬的散點(diǎn)圖,中,往往都會繪制殼長殼寬的散點(diǎn)圖,并進(jìn)行回歸分析,得出一個線性回歸并進(jìn)行回歸分析,得出一個線性回歸方程。這表明腕足動物符合等速生長方程。這表明腕足動物符合等速生長模型(周航行和黃冰,模型(周航行和黃冰,20182018,云南曲,云南曲靖 志 留 系 關(guān) 底 組 腕 足 類 無 洞 貝靖 志 留 系 關(guān) 底 組 腕 足 類 無 洞 貝AtrypoideaAtrypoidea foxi

18、foxi JonesJones居群分析)。居群分析)。 小個體小個體 Vs. 大個體?大個體? R218二、一元回歸方程的檢驗(yàn)二、一元回歸方程的檢驗(yàn)回歸方程統(tǒng)計(jì)檢驗(yàn)的主要內(nèi)容:回歸方程統(tǒng)計(jì)檢驗(yàn)的主要內(nèi)容:1. 回歸方程的顯著性檢驗(yàn)(回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))檢驗(yàn))2. 變量的顯著性檢驗(yàn)(變量的顯著性檢驗(yàn)(t檢驗(yàn))檢驗(yàn))3. 參數(shù)的置信區(qū)間估計(jì)參數(shù)的置信區(qū)間估計(jì)191. 回歸方程的顯著性檢驗(yàn)(線性關(guān)系的檢驗(yàn))回歸方程的顯著性檢驗(yàn)(線性關(guān)系的檢驗(yàn))(采用(采用F檢驗(yàn))檢驗(yàn))檢驗(yàn)檢驗(yàn)自變量和因變量之間的線性關(guān)系自變量和因變量之間的線性關(guān)系是否顯著是否顯著。將將回歸均方回歸均方(MSR)同同殘差均

19、方殘差均方(MSE)加以比較,加以比較,應(yīng)用應(yīng)用F檢驗(yàn)來分析二者之間的差別是否顯著檢驗(yàn)來分析二者之間的差別是否顯著回歸均方回歸均方(MSR) = 回歸變差回歸變差/(相應(yīng))自由度(相應(yīng))自由度殘差均方殘差均方(MSE) = 殘差變差殘差變差/(相應(yīng))自由度(相應(yīng))自由度201.提出提出假設(shè)假設(shè)H0: 1=0 線性關(guān)系不顯著線性關(guān)系不顯著H1: 1=0 線性關(guān)系顯著線性關(guān)系顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量計(jì)算檢驗(yàn)統(tǒng)計(jì)量F3.確定顯著性水平確定顯著性水平 ,并根據(jù)分子自由度,并根據(jù)分子自由度1(一(一元回歸)和分母自由度元回歸)和分母自由度n-2求統(tǒng)計(jì)量的求統(tǒng)計(jì)量的P值值4.作出決策作出決策:若:若P0時,

20、時, R2 當(dāng)當(dāng)R2 F(k, n-k-1),則否定假設(shè),則否定假設(shè)H0,認(rèn)為一組自變量,認(rèn)為一組自變量x1, x2, , xk與因變量與因變量y之間的回歸效果顯著;反之,則不顯著。之間的回歸效果顯著;反之,則不顯著。回歸效果不顯著的原因:回歸效果不顯著的原因: 還有其他不可忽略的因素;還有其他不可忽略的因素; Y與與X之間的關(guān)系不是線性的;之間的關(guān)系不是線性的; Y與與X之間無關(guān)。之間無關(guān)。43二、二、 多元線性回歸方程的檢驗(yàn)多元線性回歸方程的檢驗(yàn)回歸方程統(tǒng)計(jì)檢驗(yàn)的主要內(nèi)容:回歸方程統(tǒng)計(jì)檢驗(yàn)的主要內(nèi)容:1. 決定系數(shù)與修正的決定系數(shù)決定系數(shù)與修正的決定系數(shù)2. 回歸方程的顯著性檢驗(yàn)(回歸方程

21、的顯著性檢驗(yàn)(F檢驗(yàn))檢驗(yàn))3. 變量的顯著性檢驗(yàn)(變量的顯著性檢驗(yàn)(t檢驗(yàn))檢驗(yàn))4. 參數(shù)的置信區(qū)間估計(jì)參數(shù)的置信區(qū)間估計(jì)443. 3. 變量的顯著性檢驗(yàn)變量的顯著性檢驗(yàn)4546例:例:礦石體重礦石體重是資源儲量估算的重要參數(shù)之一是資源儲量估算的重要參數(shù)之一, , 最直接最直接影響礦石體重影響礦石體重因素是礦石中礦物含量因素是礦石中礦物含量。福建順昌山后礦區(qū)福建順昌山后礦區(qū)鉛鋅礦鉛鋅礦的的49 49 件礦石小體重樣分析測試成果件礦石小體重樣分析測試成果( (表表) )表明表明PbPb 、Zn Zn 、其他硫化物、其他硫化物中的中的S (S (黃鐵礦黃鐵礦) ) 含量是影響礦石體重的主要因素

22、含量是影響礦石體重的主要因素。(林喜,(林喜,20092009,礦石體重的多元線性回歸分析及其檢驗(yàn)),礦石體重的多元線性回歸分析及其檢驗(yàn))計(jì)算得到:復(fù)相關(guān)系數(shù)計(jì)算得到:復(fù)相關(guān)系數(shù)(R) =0.7262 、可決系數(shù)、可決系數(shù)R2 =0.5274。F檢驗(yàn):檢驗(yàn):構(gòu)建統(tǒng)計(jì)量構(gòu)建統(tǒng)計(jì)量F0 =16.7361 , 對于給定的對于給定的=0.05 (95 %置信度置信度) 得到臨界值得到臨界值F0.05 =1.91E -07 , 因因F0 F0.05 , 說明回歸方程是顯著的。說明回歸方程是顯著的。t檢驗(yàn):檢驗(yàn): t1 =4.4422 (對應(yīng)概率值為對應(yīng)概率值為5.7387E-05); t2 =0.925

23、 3 (對應(yīng)概率值為對應(yīng)概率值為0.3598);t3 =2.464 (對應(yīng)概率對應(yīng)概率值為值為0.0176), 即若即若=0.05 , 3 個個t 檢驗(yàn)都是拒絕檢驗(yàn)都是拒絕H0 ,也也就是說回歸系數(shù)就是說回歸系數(shù)1 、2 、3 是有意義的。是有意義的。通過上述回歸效果顯著性假設(shè)檢驗(yàn)通過上述回歸效果顯著性假設(shè)檢驗(yàn), 說明該線性方程回說明該線性方程回歸效果是顯著的。歸效果是顯著的。體重值(體重值(T/m3)0.0217Pb + 0.0063 Zn + 0.0268 其他硫化物中的其他硫化物中的S經(jīng)相關(guān)分析經(jīng)相關(guān)分析, 礦區(qū)鉛鋅礦中的全礦區(qū)鉛鋅礦中的全S主要為主要為黃鐵礦黃鐵礦, 而且而且Pb 、Z

24、n 硫化物中亦含有一硫化物中亦含有一定量的定量的S , 所以最終確定所以最終確定Pb 、Zn 、其他、其他硫化物中的硫化物中的S (黃鐵礦黃鐵礦)含量是影響礦石體含量是影響礦石體重的主要因素重的主要因素, 從而應(yīng)用多元線性回歸分從而應(yīng)用多元線性回歸分析。析。獲得礦區(qū)礦石體重值與礦石獲得礦區(qū)礦石體重值與礦石Pb 、Zn 、其他硫化物中的、其他硫化物中的S 含量的含量的回歸方程回歸方程:d =2.8565 +0.0217Pb + 0.0063 Zn + 0.0268 其他硫化物中的其他硫化物中的S47三、逐步回歸三、逐步回歸1. 回歸分析中變量的選擇問題回歸分析中變量的選擇問題既保證盡量高的預(yù)測精

25、度,同時最大限度地減少自變量是運(yùn)算方便又不失信息,這就存在回歸方程中最優(yōu)變量組合問題。2. 最優(yōu)回歸方程最優(yōu)回歸方程 對因變量有顯著作用的自變量全部選入回歸方程; 對因變量無顯著作用的自變量一個也不引入回歸方程。選擇”最優(yōu)回歸方程”的方法有:最優(yōu)子集回歸法向后剔除法(backward selection)向前引入法(forward selection)逐步回歸法(stepwise selection)逐步選擇法48最優(yōu)子集回歸法最優(yōu)子集回歸法按一定準(zhǔn)則選擇最優(yōu)模型,常用的準(zhǔn)則有:按一定準(zhǔn)則選擇最優(yōu)模型,常用的準(zhǔn)則有: 校正決定系數(shù)校正決定系數(shù)(考慮了自變量的個數(shù)):(考慮了自變量的個數(shù)):R

26、R2 2adjadj達(dá)到最大。達(dá)到最大。 CpCp準(zhǔn)則準(zhǔn)則(C C即即criterioncriterion,p p為所選模型中變量的個數(shù):為所選模型中變量的個數(shù):CpCp統(tǒng)計(jì)量達(dá)到最小。統(tǒng)計(jì)量達(dá)到最小。 AICAIC準(zhǔn)則準(zhǔn)則 (Akaikes Information Criterion) (Akaikes Information Criterion) :AICAIC越小越好。越小越好。49逐步選擇法:逐步選擇法:前進(jìn)法(前進(jìn)法(forward selection) -只進(jìn)不出只進(jìn)不出若若max(Fj)F,引入引入j變量,但后續(xù)變量的引入變量,但后續(xù)變量的引入可能使先進(jìn)入方可能使先進(jìn)入方程的自變

27、量變得不重要程的自變量變得不重要;后退法(后退法(backward elimination)-只出不進(jìn)只出不進(jìn)若若min(Fj)F,剔除,剔除j變量,自變量高度相關(guān)時,開始時剔除掉變量,自變量高度相關(guān)時,開始時剔除掉的變量即使后來變得有顯著性也不能再進(jìn)入方程。的變量即使后來變得有顯著性也不能再進(jìn)入方程。逐步回歸法逐步回歸法(stepwise regression)-有進(jìn)有出有進(jìn)有出它們的共同特點(diǎn)是每一步只引入或剔除一個自變量?;趯ζ貧w平方和的F 檢驗(yàn)決定其取舍則小樣本小樣本檢驗(yàn)水準(zhǔn)檢驗(yàn)水準(zhǔn)一般定為一般定為0.10或或0.15,大樣本大樣本把把值定為值定為0.05。 值越小表示選取自變量的標(biāo)

28、準(zhǔn)越嚴(yán)值越小表示選取自變量的標(biāo)準(zhǔn)越嚴(yán)503. 逐步回歸法逐步回歸法雙向篩選:引入有意義的變量(前進(jìn)法),剔除無意雙向篩選:引入有意義的變量(前進(jìn)法),剔除無意義變量(后退法)義變量(后退法)- 逐步回歸逐步回歸步驟:步驟:在供選擇的m個自變量中,依偏回歸平方和的大小,即各自變量對因變量作用的大小,由大到小把自變量依次逐個引入。每引入一個變量,就對它進(jìn)行假設(shè)檢驗(yàn)。當(dāng)該自變量的偏回歸平方和經(jīng)檢驗(yàn)是顯著時,將該自變量引入回歸方程。新變量引入回歸方程后,對方程中原有的自變量也要進(jìn)行假設(shè)檢驗(yàn),并把貢獻(xiàn)最小且退化為不顯著的自變量逐個剔出方程。51回歸前后檢驗(yàn)回歸前后檢驗(yàn)增加或剔除變量增加或剔除變量終得最優(yōu)

29、方程終得最優(yōu)方程逐步回歸分析計(jì)算步驟框圖52例:通過對長沙、株洲、湘潭地區(qū)現(xiàn)有的遙感圖像線性構(gòu)造解譯成果和已有的地質(zhì)、例:通過對長沙、株洲、湘潭地區(qū)現(xiàn)有的遙感圖像線性構(gòu)造解譯成果和已有的地質(zhì)、地震、重力、航磁等資料進(jìn)行分析地震、重力、航磁等資料進(jìn)行分析, 選取與該區(qū)構(gòu)造穩(wěn)定性有關(guān)的選取與該區(qū)構(gòu)造穩(wěn)定性有關(guān)的二十個變量二十個變量, 采用采用多元回歸分析多元回歸分析、逐步回歸分析逐步回歸分析方法建立該區(qū)方法建立該區(qū)構(gòu)造穩(wěn)定性評價構(gòu)造穩(wěn)定性評價數(shù)學(xué)模型對該區(qū)的構(gòu)造數(shù)學(xué)模型對該區(qū)的構(gòu)造穩(wěn)定性進(jìn)行定量研究和評價。穩(wěn)定性進(jìn)行定量研究和評價。(陳炳貴、黃梅,(陳炳貴、黃梅,2005,長、株、潭地區(qū)構(gòu)造穩(wěn)定性

30、數(shù)學(xué)模擬研究),長、株、潭地區(qū)構(gòu)造穩(wěn)定性數(shù)學(xué)模擬研究)變量取值:變量取值: 定量變量定量變量直接取其數(shù)值直接取其數(shù)值 定性變量定性變量采用采用0/1賦值法取值賦值法取值回歸回歸類型類型回歸平方和回歸平方和 剩余平方和剩余平方和自由度自由度F值值回歸方程顯著性檢驗(yàn)回歸方程顯著性檢驗(yàn)多元多元線性線性11.721974.871217.132 1.2157 FF0.012.533,否定,否定H0,顯著,顯著逐步回歸方程:逐步回歸方程:Y =0. 0952 - 0. 2124X1 +0. 1293X4+0. 4083X5 +0. 04097X8 +0. 0695X10+0. 0168X11 - 0. 1

31、691X12 +0. 2328X14+0. 1060X16 上述因素與地質(zhì)發(fā)生率存在一定的線性關(guān)系;上述因素與地質(zhì)發(fā)生率存在一定的線性關(guān)系; 正相關(guān)變量表示:正相關(guān)變量表示:NW向、向、NE向和向和NNE向構(gòu)造發(fā)育向構(gòu)造發(fā)育地段和各方向構(gòu)造交匯部位、重力梯度變化值大的地段和各方向構(gòu)造交匯部位、重力梯度變化值大的地段,發(fā)生地震的可能性較大,尤其是構(gòu)造交匯部地段,發(fā)生地震的可能性較大,尤其是構(gòu)造交匯部位已形成應(yīng)力釋放通道,被已發(fā)生地震所證實(shí);位已形成應(yīng)力釋放通道,被已發(fā)生地震所證實(shí); 5 4 10,說明地震活動與,說明地震活動與NNE向斷裂關(guān)系最為向斷裂關(guān)系最為密切,其次是密切,其次是NW向和向和NE向;向; 負(fù)相關(guān):單元構(gòu)造越發(fā)育,地震發(fā)生率越低,說明負(fù)相關(guān):單元構(gòu)造越發(fā)育,地震發(fā)生率越低,說明斷裂能使能量存儲幾率變小,導(dǎo)致地震率降低。斷裂能使能量存儲幾率變小,導(dǎo)致地震率降低。密度密度密度密度密度密度密度密度密度密度531.因變量因變量 y 與與 x 之間不是線性關(guān)系之間不是線性關(guān)系2.可通過變量代換轉(zhuǎn)換成線性關(guān)系可通過變量代換轉(zhuǎn)換成線性關(guān)系3.用最小二乘法求出參數(shù)的估計(jì)值用最小二乘法求出參數(shù)的估計(jì)值4.并非所有的非線性模型都可以化為線并非所有的非線性模型都可以化為線性模型性模型54指數(shù)函數(shù)2. 線性化方法兩端取對數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論