




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、簡單線性回歸第1頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二本章內(nèi)容 第一節(jié) 簡單線性回歸 第二節(jié) 線性回歸的應(yīng)用 第三節(jié) 殘差分析 第四節(jié) 非線性回歸 第2頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二雙變量計(jì)量資料:每個個體有兩個變量值 總體:無限或有限對變量值 樣本:從總體隨機(jī)抽取的n對變量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:研究X和Y的數(shù)量關(guān)系 方法:回歸與相關(guān) 簡單、基本直線回歸、直線相關(guān)第一節(jié) 簡單線性回歸第3頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 英國人類學(xué)家 F.Galton首次在自然遺傳一書中,提出并闡明了
2、“相關(guān)”和“相關(guān)系數(shù)”兩個概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國統(tǒng)計(jì)學(xué)家 Karl Pearson對上千個家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,發(fā)現(xiàn):歷史背景:第4頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系: 。 也即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”第5頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 “回歸”已成為表示變量之間某種數(shù)量依存
3、關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語,相關(guān)并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究兒童年齡與體重的關(guān)系等。第6頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二線性回歸的概念及其統(tǒng)計(jì)描述第7頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二直線回歸的概念 目的:研究因變量Y對自變量X的數(shù)量依 存關(guān)系。特點(diǎn):統(tǒng)計(jì)關(guān)系。 X值和Y的均數(shù)的關(guān)系, 不同于一般數(shù)學(xué)上的X 和Y的函數(shù)關(guān)系第8頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 為了直觀地說明直線回歸的概念,以15名健康人凝血酶濃度(X)與凝血時間(Y)數(shù)據(jù)(表12-1)進(jìn)行回歸分析,得到圖
4、12-1所示散點(diǎn)圖(scatter plot) 第9頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二No.123456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y141315151314161714161516141517第10頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 在定量描述健康人凝血酶濃度(X)與凝血時間(Y)數(shù)據(jù)的數(shù)量上的依存關(guān)系時,將凝血酶濃度稱為自變量(independent variable),用 X 表示;凝血時間稱為因變量(dependent variable),用 Y 表
5、示第11頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第12頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 由圖12-1可見,凝血時間隨凝血酶濃度的增加而減低且呈直線趨勢,但并非所有點(diǎn)子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linear regression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程?;貧w是回歸分析中最基本、最簡單的一種,故又稱簡單回歸。第13頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二樣本線回歸方程 為各X處Y的總體均數(shù)的估計(jì)。簡單線性回歸模型 第14頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期
6、二1a 為回歸直線在 Y 軸上的截距a 0,表示直線與縱軸的交點(diǎn)在原點(diǎn)的上方a 0,直線從左下方走向右上方,Y 隨 X 增大而增大; b0,直線從左上方走向右下方,Y 隨 X 增大而減??; b=0,表示直線與 X 軸平行,X 與Y 無直線關(guān)系b 的統(tǒng)計(jì)學(xué)意義是:X 每增加(減)一個單位,Y 平均改變b個單位 第16頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二回歸模型的前提假設(shè)線性回歸模型的前提條件是:線性(linear)獨(dú)立(independent)正態(tài)(normal)等方差(equal variance)第17頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 第18頁,共
7、75頁,2022年,5月20日,5點(diǎn)59分,星期二第19頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二殘差(residual)或剩余值,即實(shí)測值Y與假定回歸線上的估計(jì)值 的縱向距離 。求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢的直線。原則:最小二乘法(least sum of squares),即可保證各實(shí)測點(diǎn)至直線的縱向距離的平方和最小回歸參數(shù)的估計(jì)最小二乘原則 第20頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 回歸參數(shù)的估計(jì)方法 第21頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二本例:n=15 X=14.7 X2=14.81 Y=2
8、24 XY=216.7 Y2=3368第22頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第23頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第24頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二解題步驟第25頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二3、計(jì)算有關(guān)指標(biāo)的值4、計(jì)算回歸系數(shù)和截距5、列出回歸方程第26頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 此直線必然通過點(diǎn)( , )且與縱坐標(biāo)軸相交于截距a 。如果散點(diǎn)圖沒有從坐標(biāo)系原點(diǎn)開始,可在自變量實(shí)測范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的 值代入回歸方程得到一個點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)( , )也可繪
9、出回歸直線。 繪制回歸直線第27頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二總體回歸系數(shù)的的統(tǒng)計(jì)推斷樣本回歸系數(shù)b的標(biāo)準(zhǔn)誤 第28頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二回歸方程的假設(shè)檢驗(yàn) 建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實(shí)存在,即是否對總體有 ?第29頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第30頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第31頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二1方差分析 第32頁,共75頁,2022年,5月20日,5
10、點(diǎn)59分,星期二Y的離均差,總變異殘差回歸的變異第33頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二數(shù)理統(tǒng)計(jì)可證明:第34頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二上式用符號表示為 式中 第35頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第36頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二上述三個平方和,各有其相應(yīng)的自由度 ,并有如下的關(guān)系: 第37頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 如果兩變量間總體回歸關(guān)系確實(shí)存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時可以認(rèn)為具有統(tǒng)計(jì)意義,可計(jì)算統(tǒng)計(jì)量F:第38頁,共75頁,2022年
11、,5月20日,5點(diǎn)59分,星期二式中第39頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二t 檢驗(yàn) 第40頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二(1)方差分析第41頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 方差分析表 第42頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二(2)t 檢驗(yàn)參數(shù)的意義是:若自變量X增加一個單位,反因變量Y的平均值便增加 第43頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二注意:第44頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二總體回歸系數(shù) 的可信區(qū)間 利用上述對回歸系數(shù)的t檢驗(yàn),可以得到的1雙側(cè)
12、可信區(qū)間為第45頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二 本例b=-6.9802, 自由度=13,t0.05,13=2.16,Sb=0.78655, 代入公式(12-7)得參數(shù)的95%置信區(qū)間為 =(-8.6791 -5.2813) 第46頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第47頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第二 節(jié) 線性回歸的應(yīng)用(估計(jì)和預(yù)測) 第48頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為第49頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二例12-1中,第一觀測值X1=1.
13、1, 0.4994, 0.404, 代入(12.8)式獲得第一觀測點(diǎn)X1對應(yīng)的 的標(biāo)準(zhǔn)誤為 0.1599Y的總體均數(shù)的95%置信區(qū)間為 14.0957(2.16)(0.1599)(13.7502,14.4412) 第50頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二實(shí)測值實(shí)測值預(yù)測Y的均值Y的均值的標(biāo)準(zhǔn)誤Y的均值的95%置信區(qū)間Y值的95%預(yù)測區(qū)間殘差對象實(shí)測值 X實(shí)測值 Y預(yù)測值均值均值的標(biāo)準(zhǔn)誤Y均值的95%CIY值的95%預(yù)測區(qū)間殘差下限上限下限上限11.11414.09570.159913.750214.441212.961815.2297-0.095721.21313.397
14、70.215912.931313.864112.221214.5741-0.397731.01514.79370.130014.512815.074713.677715.90970.206340.91515.49170.143615.181515.802014.368016.6155-0.491751.21313.39770.215912.931313.864112.221214.5741-0.397761.11414.09570.159913.750214.441212.961815.2297-0.095770.91615.49170.143615.181515.802014.368016.
15、61550.508380.61717.58580.325616.882518.289216.296918.8747-0.585891.01414.79370.130014.512815.074713.677715.9097-0.7937100.91615.49170.143615.181515.802014.368016.61550.5083111.11514.09570.159913.750214.441212.961815.22970.9043120.91615.49170.143615.181515.802014.368016.61550.5083131.11414.09570.1599
16、13.750214.441212.961815.2297-0.0957141.01514.79370.130014.512815.074713.677715.90970.2063150.71716.88780.255316.336317.439315.675118.10050.1122第51頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二以上是給定某一X值時所對應(yīng)的總體均數(shù)的置信區(qū)間。當(dāng)同時考慮X的所有可能取值時,總體均數(shù)的點(diǎn)估計(jì)就是根據(jù)樣本算得的回歸直線 (1-)置信區(qū)間的上下限連起來形成一個弧形區(qū)帶,稱為回歸直線的(1-)置信帶(confidence band)。同樣,因?yàn)槠錁?biāo)準(zhǔn)誤
17、是X的函數(shù),所以在均數(shù)( )點(diǎn)處置信帶寬度最小,越遠(yuǎn)離該均數(shù)點(diǎn),置信帶寬度越大。 第52頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二圖12-4中,左圖顯示位于最小二乘回歸線上下兩側(cè)的兩條弧形虛線為總體回歸線的(1-)置信區(qū)帶。右圖的實(shí)線表示可能的總體回歸線,它們落在弧形虛線所確定的置信帶內(nèi)。(1-)置信帶的意義是:在滿足線性回歸的假設(shè)條件下,可以認(rèn)為真實(shí)的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi), 置信度為(1-) 第53頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第54頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第55頁,共75頁,2022年,5月20日,5
18、點(diǎn)59分,星期二以第一觀測點(diǎn)數(shù)據(jù)(X1=1.1)點(diǎn)為例,該點(diǎn)預(yù)測值的標(biāo)準(zhǔn)差為 =0.52489182 第一數(shù)據(jù)點(diǎn)的預(yù)測區(qū)間為: 14.0957(2.16)(0.0.5249)=12.961815.2297當(dāng)同時考慮X的所有可能取值時,個體Y值的95%預(yù)測區(qū)間形成一個帶子,稱為Y值的95%預(yù)測帶,它比總體回歸線95%置信帶更寬。 圖12-5和圖12-6同時顯示個體Y值的預(yù)測帶與總體回歸線的置信帶,可見,在相同信度下,個體值預(yù)測帶的曲線要比回歸線置信帶的曲線離回歸直線更遠(yuǎn)。 第56頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二PICI第57頁,共75頁,2022年,5月20日,5點(diǎn)59分
19、,星期二決定系數(shù)(coefficient of determination) 定義為回歸平方和與總平方和之比,計(jì)算公式為: 取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。 第58頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第59頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第三節(jié) 殘差分析 殘差(residual)是指觀測值Yi與回歸模型擬合值之差 殘差分析(residual analysis)旨在通過殘差深入了解數(shù)據(jù)與模型之間的關(guān)系,評價實(shí)際資料是否符合回歸模型假設(shè),識別異常點(diǎn)等。 例如,第一數(shù)據(jù)點(diǎn)的殘差e1
20、=14-14.0957=-0.0957,如此類推,計(jì)算出各數(shù)據(jù)點(diǎn)的殘差值示于表12-2的第10列中。將第10列的殘差減去其均數(shù),除以其標(biāo)準(zhǔn)差,便得標(biāo)準(zhǔn)化殘差。 第60頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二若以反因變量取值Yi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖如圖12-7所示。類似地,也可以自變量取值Xi為橫坐標(biāo), 以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖。這類散點(diǎn)圖統(tǒng)稱為標(biāo)準(zhǔn)化殘差圖。 第61頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二圖12-8給出的是以自變量取值為縱坐標(biāo),以殘差為橫坐標(biāo)的殘差圖的常見類型。其中,圖(e)顯示殘差呈隨機(jī)分布;圖(a)、(b )
21、 和(f)表示殘差不滿足方差齊性條件;圖(c)顯示存在非線性關(guān)系;圖(d)顯示有的點(diǎn)處于2倍標(biāo)準(zhǔn)差以外,可能是異常點(diǎn)。 第62頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第63頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第四節(jié) 非線性回歸非線性回歸要比線性回歸更能充分地表達(dá)變量間的關(guān)系。當(dāng)今線性回歸之所以比非線性回歸應(yīng)用甚多,原因在于無論從數(shù)學(xué)理論還是計(jì)算方法,線性回歸都比非線性回歸模型簡單得多。第64頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二通過自變量的變換實(shí)現(xiàn)線性化實(shí)踐中有兩類非線性關(guān)系,一類是通過自變量X的適當(dāng)變換可線性化的,另一類是不可能通過自變量
22、X的變換實(shí)現(xiàn)線性化的 X數(shù)據(jù)變換不能線性化的關(guān)系第65頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二變換自變量實(shí)現(xiàn)線性回歸步驟 1.將觀測數(shù)據(jù)(Xi, Yi), i=1,2,n作散點(diǎn)圖,觀察散點(diǎn)分布特征類似于何種函數(shù)類型;2.按照所選定的函數(shù)進(jìn)行相應(yīng)的變量變換;3.對變換后的數(shù)據(jù)用常規(guī)最小二乘法(OLS)作線性模型的參數(shù)估計(jì)。4.一般擬合多個相近的模型,然后通過對各個模型的擬合優(yōu)度評價挑選較為合適的模型。 第66頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二例12-2 為了研究某藥物濃度與腎上腺素釋放的量關(guān)系,選取10個給藥物濃度水平,每種藥物劑量水平上重復(fù)5次試驗(yàn),觀測結(jié)
23、果如表12-3所示。欲用合適的回歸模型描述該藥品劑量與反應(yīng)的規(guī)律 第67頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二藥物劑量(mg)腎上腺素釋放量(pg/ml)1519.2614.2917.6018.3616.532021.2021.7820.7720.6523.382521.7722.6122.7021.1721.653023.4723.2221.7424.0224.053523.8825.3222.9024.8423.704025.2724.6924.6724.4825.244524.2024.9425.5225.0227.435027.9825.8826.6726.3125.
24、945527.4224.9126.4228.2425.496028.4127.0929.0428.8527.89第68頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二第69頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二由結(jié)果可見:在所擬合的三種模型中,以x對數(shù)函數(shù)回歸的效果最佳,該模型擬合的殘差均方最小,決定系數(shù)最大 模型名稱回歸方程MSEF值P值R2值簡單線性1.91786212.480.00010.8157對數(shù)函數(shù)1.39592309.88.00010.8659二次函數(shù)2.72770135.050.00010.852第70頁,共75頁,2022年,5月20日,5點(diǎn)59分,星期二值得一提的是,本節(jié)只涉及對自變量X進(jìn)行變換,然后以變換后的數(shù)據(jù)用標(biāo)準(zhǔn)最小二乘(OLS)法求解模型的參數(shù)估計(jì)與模型評價。當(dāng)涉及到對反因變量y實(shí)施非線性變換 如Z=ln(Y) 時,因?yàn)镺LS只保證變換后的Z,即ln(Y)的殘差平方和最小,并不能保證原變量Y的殘差平方和也最小,所以在此情況下,我們建議用統(tǒng)計(jì)軟件來完成非線性擬合,例如,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 有機(jī)化學(xué)原料的環(huán)保合成方法優(yōu)化研究進(jìn)展分析預(yù)測考核試卷
- 機(jī)器人服務(wù)創(chuàng)新模式與實(shí)踐案例考核試卷
- 景區(qū)旅游信息化平臺運(yùn)營與管理考核試卷
- 制作氣球培訓(xùn)課件
- 家電公司轉(zhuǎn)讓合同范本
- 委托汽車融資合同范本
- 正規(guī)吊車租賃合同范本
- 圍墻制作安裝合同范本
- 項(xiàng)目建設(shè)策劃合同范本
- 酒店餐飲服務(wù)流程優(yōu)化與提升制度
- 物流系統(tǒng)建模與仿真課件
- 小??Х仍耘嗉夹g(shù)措施課件
- 運(yùn)輸企業(yè)消防應(yīng)急救援預(yù)案
- 高邊坡掛網(wǎng)錨噴支護(hù)專項(xiàng)施工方案
- 10KV系統(tǒng)短路電流整定計(jì)算表格
- 初中英語 滬教牛津版 8B U1-4 More Practice Success for Spring Buds 課件
- 壓水堆核電廠在役檢查課件
- 前房角鏡檢查法及其在眼科的應(yīng)用教學(xué)課件
- 2017年度項(xiàng)目生產(chǎn)部工作計(jì)劃推進(jìn)表甘特圖
- 地下室車庫綜合管線施工布置
- 采購訂單模板
評論
0/150
提交評論