版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
SANZHANG
第三章統(tǒng)計(jì)案例
,你坐過火車、乘過飛機(jī)嗎?暈車、暈機(jī)與性別有無關(guān)系?肺癌是人類的一大殺手,
吸煙與患肺癌的關(guān)聯(lián)性究竟有多大?你了解過你們班同學(xué)的身高與體重嗎,身高與體重是否
線性相關(guān)?你統(tǒng)計(jì)過你們班同學(xué)的考試成績(jī)嗎,物理成績(jī)的高低與數(shù)學(xué)成績(jī)關(guān)聯(lián)度有多
大?……這些都是統(tǒng)計(jì)學(xué)研究的內(nèi)容.
本章我們將要學(xué)習(xí)獨(dú)立性檢驗(yàn)和回歸分析的基本思想、方法.學(xué)習(xí)本章要注意學(xué)習(xí)收集、
整理、分析數(shù)據(jù)的方法,體會(huì)統(tǒng)計(jì)分析的基本思想、建模思想和現(xiàn)代計(jì)算技術(shù)在統(tǒng)計(jì)中的應(yīng)
用,體會(huì)統(tǒng)計(jì)思維和確定性思維的差異.
3.1回歸分析的基本思想及其初步應(yīng)用
自主預(yù)習(xí)?探新知
情景引入
2019年6月17日四川宜賓發(fā)生6.1級(jí)地震,此后40分鐘內(nèi)連發(fā)四次余震,最高震級(jí)
5.1級(jí),此次地震余震頻繁而且震級(jí)還高,你知道地震的震級(jí)與地震次數(shù)之間有什么關(guān)系嗎?
新知導(dǎo)學(xué)
一、回歸直線方程
1.回歸分析是處理兩個(gè)變量之間相關(guān)關(guān)系的一種統(tǒng)計(jì)方法.若兩個(gè)變量之間具有
線性相關(guān)關(guān)系,則稱相應(yīng)的回歸分析為線性回歸分析.
n__
A-,—
2.回歸直線方程為y=bx+a,其中方=L=^-----=——.a=—y—x
X?曰0二七1
—(工J2)_稱為樣本點(diǎn)的中心?
3.線性相關(guān)關(guān)系強(qiáng)與弱的判斷:用相關(guān)系數(shù)工來描述線性相關(guān)關(guān)系的強(qiáng)弱.
對(duì)于變量x、y隨機(jī)抽取到的"對(duì)數(shù)據(jù)(xi,%)、(物”)、…、(X”,力),其相關(guān)系數(shù)r=
n__n__
y(x/-x)8-y)》沙一〃xy
1=1i=【
A/Z(Xi-X)2s(y,-y)2A(Xxr-nx伙玄彳一”>,2)
\/I=Ii=i\/rij=i
當(dāng)r>0時(shí),表明兩個(gè)變量正相關(guān):當(dāng)K0時(shí),表明兩個(gè)變量負(fù)相關(guān),的絕對(duì)侑
越接近1,表明兩個(gè)變量的線性相關(guān)性越」1_;/?的絕對(duì)值接近于0時(shí),表明兩個(gè)變量之
間幾乎不存在線性相關(guān)關(guān)系.通常當(dāng)歷大于0.75時(shí),認(rèn)為兩個(gè)變量有很強(qiáng)的線性相關(guān)關(guān)
系.
二、線性回歸分析
1.隨機(jī)誤差
(1)隨機(jī)誤差的概念:當(dāng)樣本點(diǎn)散布在某一條直線的附近,而不是在一條直線上時(shí),不
能用一次函數(shù)),=法+。來描述兩個(gè)變量之間的關(guān)系,而是用線性回歸模型y=fer+“+e
來表示,這里x稱為解釋變量,v稱為預(yù)報(bào)變量,e稱為隨機(jī)誤差,E(e)=0,
D(e)=<r.
(2)隨機(jī)誤差及其產(chǎn)生的原因
從散點(diǎn)圖中我們可以看到,樣本點(diǎn)散布在某一條直線附近,而不是在一條直線上,所以
不能用一次函數(shù)y=bx+a來描述它們之間的關(guān)系,我們用下面的線性回歸模型來表示:y
^bx+a+e,其中隊(duì)b為模型的未知數(shù),e稱為隨機(jī)誤差.產(chǎn)生隨機(jī)誤差的主要原因有以
下3個(gè)方面:
①用線性回歸模型近似真實(shí)模型(真實(shí)模型是客觀存在的,通常我們并不知道真實(shí)模型
是什么)所引起的誤差.可能存在非線性的函數(shù)能更好地描述y與x之間的關(guān)系,但是現(xiàn)在
卻用線性函數(shù)來表述這種關(guān)系,結(jié)果會(huì)產(chǎn)生誤差.這種由模型近似所引起的誤差包含在e
中.
②忽略了某些因素的影響.影響變量y的因素不只變量x,可能還包括其他許多因素(例
如在描述身高和體重關(guān)系的模型中,體重不僅受身高的影響,還會(huì)受遺傳基因、飲食習(xí)慣、
生長(zhǎng)環(huán)境等其他因素的影響),它們的影響都體現(xiàn)在e中.
③觀測(cè)誤差.由于測(cè)量工具等原因,導(dǎo)致y的觀測(cè)值產(chǎn)生誤差(比如一個(gè)人的體重是確
定的數(shù),但由于測(cè)量工具的影響和測(cè)量人技術(shù)的影響可能會(huì)得到不同的觀測(cè)值,與真實(shí)值之
間存在誤差),這樣的誤差也包含在e中.
2.殘差
對(duì)于樣本點(diǎn)(X1,>|)、(X2,次)、…、(Xn,yn),其回歸方程為用),作為回歸模型
[y=bx+a+eA2A
|一、八,、,中6x+a的估計(jì)值,隨機(jī)誤差ei=VLbxi-a的估計(jì)值e:=y,—fer,一a
[E(e)=O,D(e)=(r
_(i=l,2,…,〃),稱為相應(yīng)于點(diǎn)(孫%)的殘差.
3.殘差圖
以為縱坐標(biāo),一樣本編號(hào)一(或身高數(shù)據(jù),或體重的估計(jì)值等)為橫坐標(biāo)作出的
圖形,稱為殘差圖.
4.在線性回歸模型中,」表示解釋變量對(duì)預(yù)報(bào)變量變化的一貢獻(xiàn)率一#2越接近于1,
表示解釋變量和預(yù)報(bào)變量的線性相關(guān)性越強(qiáng);反之,改越小,說明隨機(jī)誤差對(duì)預(yù)報(bào)變量的
效應(yīng)越大.
nA
IT
相關(guān)指數(shù)R2的計(jì)算公式是/?2=1—什——.
Ji(>'/-y)2
R2的值越大,說明殘差平方和越小,也就是說模型的擬合效果(即回歸效果)越_好_.
在含有一個(gè)解釋變量的線性模型中,一恰好等于一相關(guān)系數(shù)匚的平方.
預(yù)習(xí)自測(cè)
1.在對(duì)兩個(gè)變量X,y進(jìn)行線性回歸分析時(shí),有下列步驟:
①對(duì)所求出的回歸直線方程作出解釋;
②收集數(shù)據(jù)(為,%),i—\,2,???,n;
③求線性回歸方程;
④求相關(guān)系數(shù);
⑤根據(jù)所搜集的數(shù)據(jù)繪制散點(diǎn)圖.
如果根據(jù)可行性要求能夠作出變量X,y具有線性相關(guān)的結(jié)論,則在下列操作順序中正
確的是(D)
A.①②⑤③④B.③②④⑤①
C.②④③①⑤D.②⑤④③①
[解析]對(duì)兩個(gè)變量進(jìn)行回歸分析時(shí),
首先收集數(shù)據(jù)8,?),i=l,2,…,”;根據(jù)所搜集的數(shù)據(jù)繪制散點(diǎn)圖.
觀察散點(diǎn)圖的形狀,判斷線性相關(guān)關(guān)系的強(qiáng)弱,
求相關(guān)系數(shù),寫出線性回歸方程,
最后依據(jù)所求出的回歸直線方程作出解釋;
故正確順序是②⑤④③①,
故選D.
2.(2020?南充模擬)已知變量x與變量y之間具有相關(guān)關(guān)系,并測(cè)得如下一組數(shù)據(jù):
X651012
y6532
則變量尤與),之間的線性回歸直線方程可能為(B)
AA
A.>=0.7》一2.3B.y=-0.7x+10.3
AA
C.y=-10.3x+0.7D.y=10.3x~0.7
[解析1根據(jù)表中數(shù)據(jù),得;
—133
x=4(6+5+10+12)=彳,
—1
y=*+5+3+2)=4,
且變量y隨變量x的增大而減小,是負(fù)相關(guān),
所以,驗(yàn)證x=乎時(shí),y=-0.7X^+10.3^4,
A
即回歸直線y=-0.7x+10.3過樣本中心點(diǎn)(x,y).
故選B.
3.(2020?武漢高二檢測(cè))在一次對(duì)人體脂肪含量和年齡關(guān)系的研究中,研究人員獲得了
一組樣本數(shù)據(jù):
年齡2327394145495053565860
脂肪9.517.821.225.927.526.328.229.631.433.535.2
A
通過計(jì)算得到回歸方程為y=0.577x—0.448,利用這個(gè)方程,我們得到年齡37歲時(shí)體內(nèi)
脂肪含量為20.90%,那么數(shù)據(jù)20.90%的意義是(D)
A.某人年齡37歲,他體內(nèi)脂肪含量為20.90%
B.某人年齡37歲,他體內(nèi)脂肪含量為20.90%的概率最大
C.某人年齡37歲,他體內(nèi)脂肪含量的期望值為20.90%
D.20.90%是對(duì)年齡為37歲的人群中的大部分人的體內(nèi)脂肪含量所作出的估計(jì)
A
[解析]利用回歸方程),=0.577x—0.448,
可得x=37時(shí),£=20.901,
即到年齡37歲時(shí)體內(nèi)脂肪含量約為20.90%,
故20.90%是對(duì)年齡為37歲的人群中的大部分人的體內(nèi)脂肪含量所作出的估計(jì),
故選D.
4.為了考察兩個(gè)變量x和y之間的線性相關(guān)性,甲、乙兩位同學(xué)各自獨(dú)立地做了100
次和150次試驗(yàn),并且利用線性回歸方法,求得回歸直線分別為6和自已知兩個(gè)人在試驗(yàn)
中發(fā)現(xiàn)對(duì)變量x的觀測(cè)數(shù)據(jù)的平均值都是s,對(duì)變量y的觀測(cè)數(shù)據(jù)的平均值都是t,那么下
列說法正確的是(A)
A./i和b有交點(diǎn)(s,f)
B.與/2相交,但交點(diǎn)不一定是(s,f)
C./|與/2必定平行
D.與/2必定重合
I解析]由題意知(S,。是甲、乙兩位同學(xué)所做試驗(yàn)的樣本點(diǎn)的中心,而線性回歸直線恒
過樣本點(diǎn)的中心,故選A.
5.(202。全國(guó)卷I)某校一個(gè)課外學(xué)習(xí)小組為研究某作物種子的發(fā)芽率>■和溫度x(單
位:°C)的關(guān)系,在20個(gè)不同的溫度條件下進(jìn)行種子發(fā)芽實(shí)驗(yàn),由實(shí)驗(yàn)數(shù)據(jù)得到下面的散
點(diǎn)圖:
由此散點(diǎn)圖,在10℃至40℃之間,下面四個(gè)回歸方程類型中最適宜作為發(fā)芽率y和溫
度x的回歸方程類型的是(D)
A.y—a+bxB.y—a+bx2
C.y=a+be'D.y=a-Yb\nx
[解析]由散點(diǎn)圖分布可知,散點(diǎn)圖分布在一個(gè)對(duì)數(shù)函數(shù)的圖象附近,因此,最適合作
為發(fā)芽率),和溫度x的回歸方程類型的是y=a+b]nx.
故選D.
互動(dòng)探究?攻重難
V
V
互動(dòng)探究解疑
命題方向?
變量間的相關(guān)性檢測(cè)
典例1關(guān)于兩個(gè)變量X和y的7組數(shù)據(jù)如下表所示:
X21232527293235
y711212466115325
試判斷y與x是否線性相關(guān).
[解析]7=1(21+23+25+27+29+32+35)^27.4,
—1
y=亍(7+11+21+24+66+115+325)^81.3,
7
2>?=212+232+252+272+292+322+352=5414,
/=1
7
f=21X7+23X11+25X21+27X24+29X66+32X115+35X325=18542.
X=1
7
Z^=72+ll2+212+242+662+1152+3252=124393,
1=1
7____
刀渺一7xy
7_7_
(端—7x2)(9-7y2)
i=\i=\
________18542-7X27.4X81.3________
4(5414—7X27.42)X(124393-7X81.32)
2948.66
=0.8639.
3520.92
由于r=0.8639>0.75,??.x與y具有線性相關(guān)關(guān)系.
『規(guī)律總結(jié)』變量間是否具有線性相關(guān)關(guān)系,可通過散點(diǎn)圖或相關(guān)系數(shù)作出判斷,散
點(diǎn)圖只是粗略作出判斷,用相關(guān)系數(shù)能夠較準(zhǔn)確的判斷相關(guān)的程度.
II跟蹤練習(xí)1■
現(xiàn)隨機(jī)抽取了我校10名學(xué)生在入學(xué)考試中的數(shù)學(xué)成績(jī)(X)與入學(xué)后的第一次考試數(shù)學(xué)成
績(jī)。),數(shù)據(jù)如下表:
學(xué)生號(hào)1234567891()
X12010811710410311010410599108
y84648468696869465771
請(qǐng)問:這10個(gè)學(xué)生的兩次數(shù)學(xué)考試成績(jī)是否具有顯著的線性相關(guān)關(guān)系?
_1
【解析]x-JQ(120+108H---F99+108)=107.8,
7=-^(84+644---:57+71)=68,
10
1>7=1202+1082H----F992+1082=116584,
1=1
10
Xy?=842+642H----F572+712=47384,
/=1
10
120X84+108X64H----H08X71=73796,
i-i
所以,相關(guān)系數(shù)為
__________73796—10X107.8X68________
16584-10X107.82)(47384-10X68?)
?0.7506,
由0.7506>0.75知,兩次數(shù)學(xué)考試成績(jī)有顯著的線性相關(guān)關(guān)系.
命題方向?
求線性回歸方程
典例2某班5名學(xué)生的數(shù)學(xué)和物理成績(jī)?nèi)绫?
學(xué)生學(xué)科成績(jī)ABCDE
數(shù)學(xué)成績(jī)(X)8876736663
物理成績(jī)。)7865716461
(1)畫出散點(diǎn)圖;
(2)求物理成績(jī)),對(duì)數(shù)學(xué)成績(jī)x的線性回歸方程;
(3)一名學(xué)生的數(shù)學(xué)成績(jī)是96,預(yù)測(cè)他的物理成績(jī).
[解析](1)散點(diǎn)圖如圖.
90-
80-?
70-?
60—?—?—?—?—?_?
60657075808590x
——I
⑵x=gX(88+76+73+66+63)=73.2,
—1
y=§X(78+65+71+64+61)=67.8.
5
£@?=88X78+76X65+73X71+66X64+63X61
i=l
=25054.
5
£X?=882+762+732+662+632=27174,
i=\
5_____
8yL5x?y
f=l
所以方=-------------=*0.625,
玉-5工2
1=1
含=y一8工n67.8—0.625X73.2=22.05,
所以y對(duì)x的回歸直線方程是$=0.625x+22.05.
(3)當(dāng)x=96時(shí),2=0.625X96+22.05482,即可以預(yù)測(cè)他的物理成績(jī)是82.
『規(guī)律總結(jié)』1.散點(diǎn)圖是定義在具有相關(guān)關(guān)系的兩個(gè)變量基礎(chǔ)上的,對(duì)于性質(zhì)不明確
的兩組數(shù)據(jù),可先作散點(diǎn)圖,從圖中看它們有無關(guān)系,關(guān)系的密切程度,再進(jìn)行相關(guān)的回歸
分析.
2.求回歸直線方程,首先應(yīng)注意到,只有在散點(diǎn)圖大致呈線性時(shí),求出的回歸直線方
程才有實(shí)際意義,否則,求出的回歸直線方程毫無意義.
II跟蹤練習(xí)2.■
(2020.湖南郴州質(zhì)檢)為了探究車流量與PM2.5的濃度是否相關(guān),現(xiàn)采集到北方某城市
2016年12月份某星期星期一到星期日某一時(shí)間段車流量與PM2.5的數(shù)據(jù)如下表:
時(shí)間星期一星期二星期三星期四星期五星期六星期日
車流量X/萬輛1234567
PM2.5的濃度
28303541495662
M微克/立方米)
(1)由散點(diǎn)圖知y與x具有線性相關(guān)關(guān)系,求了關(guān)于x的線性回歸方程:
⑵①利用⑴所求的回歸方程,預(yù)測(cè)該市車流量為8萬輛時(shí)PM2.5的濃度;
②規(guī)定:當(dāng)一天內(nèi)PM2.5的濃度平均值在(0,50]內(nèi),空氣質(zhì)量等級(jí)為優(yōu);當(dāng)一天內(nèi)PM2.5
的濃度平均值在(50,100]內(nèi),空氣質(zhì)量等級(jí)為良.為使該市某日空氣質(zhì)量為優(yōu)或良,則應(yīng)控
制當(dāng)天車流量在多少萬輛以內(nèi)?(結(jié)果以萬輛為單位,保留整數(shù).)
n____
ZAO'I-?Xy
八八八AA_A_
參考公式:回歸直線的方程是其中〃=,a=y~bx.
》,一〃x2
i=?
一1
[解析]⑴由數(shù)據(jù)可得x=,(1+2+3+4+5+6+7)=4,
-177A
y=,(28+30+35+41+49+56+62)=43,1372,140,b=
i=li=\
〉》一7xy
/=I1372-1204A_A_
=~-=6,u=y—bx=43-6X4=19,故y關(guān)于x的線性回歸方
7_140—112
-7x2
i=l
程為y=6x+19.
(2)①當(dāng)車流量為8萬輛,即x=8時(shí),f=6X8+19=67.故當(dāng)車流量為8萬輛時(shí),PM2.5
的濃度約為67微克/立方米.
②根據(jù)題意得6x+19W100,即XW13.5,故要使該市某日空氣質(zhì)量為優(yōu)或良,應(yīng)控制
當(dāng)天車流量在13萬輛以內(nèi).
命題方向?
線性回歸分析
典例3某運(yùn)動(dòng)員訓(xùn)練次數(shù)與訓(xùn)練成績(jī)之間的數(shù)據(jù)關(guān)系如下:
次數(shù)(X)3033353739444650
成績(jī)。)3034373942464851
(1)作出散點(diǎn)圖;
(2)求出回歸方程;
(3)作出殘差圖;
(4)計(jì)算R2,并說明運(yùn)動(dòng)員的訓(xùn)練次數(shù)對(duì)成績(jī)的影響占百分之幾.
I解析[(1)作出該運(yùn)動(dòng)員訓(xùn)練次數(shù)x與成績(jī)y的散點(diǎn)圖,如圖所示.由散點(diǎn)圖可知,它
們之間具有相關(guān)關(guān)系.
60
50J
4。.1
3()?*
20
10
TJl-102030405060x
__88
(2)X=39.25,y=40.875,)=12656,力渺=13180,
/=!/=!
8__
X(加一次)8-y)
Ai=l
所以6=---;-------------、1.04]5,
E(為一x)2
i=\
A____A
a=~~bx=-0.003875,
A
.,.回歸直線方程為y=1.0415x-0.003875.
(3)殘差分析:下面的表格列出了運(yùn)動(dòng)員訓(xùn)練次數(shù)和成績(jī)的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)
據(jù).
AA
Xy
3030-1.2411
3334-0.3656
35370.5514
37390.4684
39421.3854
44460.1779
46480.0949
5051-1.0711
作殘差圖如圖所示.
由圖可知,殘差點(diǎn)比較均勻地分布在水平帶狀區(qū)域內(nèi),說明選擇的模型比較合適.
(4)計(jì)算相關(guān)指數(shù)R2比0.9855,說明了該運(yùn)動(dòng)員的成績(jī)的差異有98.55%是由訓(xùn)練次數(shù)引
起的.
『規(guī)律總結(jié)』1.解答本類題目應(yīng)先通過散點(diǎn)圖來分析兩個(gè)變量間的關(guān)系是否線性相
關(guān),再利用求回歸方程的公式求解回歸方程,并利用殘差圖或R2來分析函數(shù)模型的擬合效
果,在此基礎(chǔ)上,借助回歸方程對(duì)實(shí)際問題進(jìn)行分析.
2.“咫、殘差圖”在回歸分析中的作用:
nA
ZGif/
i=\
(1)R2是用來刻畫回歸效果的,由R2=l------------------可知/?2越大,意味著殘差平方和
n-
£yy
/-i
越小,也就是說模型的擬合效果就越好.
(2)殘差圖也是用來刻畫回歸效果的,判斷依據(jù)是:殘差點(diǎn)比較均勻地分布在水平帶狀
區(qū)域中,帶狀區(qū)域越窄,說明模型擬合精度越高,回歸方程預(yù)報(bào)精度越高.
II跟蹤練習(xí)3一■
為研究質(zhì)量x(單位:克)對(duì)彈簧長(zhǎng)度),(單位:厘米)的影響,對(duì)不同質(zhì)量的6個(gè)物體進(jìn)行
測(cè)量,數(shù)據(jù)如表所示:
X51015202530
y7.258.128.959.9010.911.8
(1)作出散點(diǎn)圖,并求線性回歸方程;
(2)求出R?;
(3)進(jìn)行殘差分析.
I解析I(1)散點(diǎn)圖如圖所示.
——1
因?yàn)閄=不乂(5+10+15+20+25+30)=17.5,
7=、X(7.25+8.12+8.95+9.90+10.9+11.8戶9.487,
66
??=2275,1076.2
/=1
AA
計(jì)算得,40.183,a七6.285,
所求線性回歸方程為y=0.183x+6.285.
(2)列表如下:
A
yi-yi0.050.005-0.08-0.0450.040.025
yi-y-2.24-1.37-0.540.411.412.31
6A6―
所以Z8一對(duì)2*0.01318,Z(y,—y)2=14.6784.
/=1f=l
所以,必=1—:):)祟上0.9991,
14.0/O4
回歸模型的擬合效果較好.
(3)由殘差表中的數(shù)值可以看出第3個(gè)樣本點(diǎn)的殘差比較大,需要確認(rèn)在采集這個(gè)數(shù)據(jù)
的時(shí)候是否有人為的錯(cuò)誤,如果有的話,需要糾正數(shù)據(jù),重新建立回歸模型;由表中數(shù)據(jù)可
以看出殘差點(diǎn)比較均勻地落在不超過0.15的狹窄的水平帶狀區(qū)域中,說明選用的線性回歸
模型的精度較高,由以上分析可知,彈簧長(zhǎng)度與重量成線性關(guān)系.
命題方向?
非線性回歸問題
典例4有一測(cè)量水流的實(shí)驗(yàn)裝置——量水堰,測(cè)得試驗(yàn)數(shù)據(jù)如下表:
i1234567
水高Zz(厘米)0.71.12.54.98.110.213.5
流量。(升/分)0.0820.251.811.237.866.5134
根據(jù)表中數(shù)據(jù),建立。與〃之間的回歸方程.
[思路分析]作散點(diǎn)圖,觀察確定y與x的近似函數(shù)關(guān)系,作變量替換,列出新的對(duì)應(yīng)
值表求出對(duì)應(yīng)的線性回歸方程,再作變量替換得回歸方程.
[解析1根據(jù)測(cè)得數(shù)據(jù)作出散點(diǎn)圖,如圖,根據(jù)已有的函數(shù)知識(shí),可以發(fā)現(xiàn)樣本點(diǎn)分布
在某一條嘉函數(shù)型曲線。=a/(a、夕是待定的正常數(shù))①的周圍.為此將Q=a/兩邊取對(duì)數(shù),
得到lgQ=/flg/z+lga②,令lgQ=y,lg〃=x,于是②式可化為y=/r+lga.這樣y就是x的線
性函數(shù)了.可以利用線性回歸模型來建立y和x之間的線性回歸方程y=bx+“3=〃,lga=
〃)了.
ihiQiXi=lghixi孫?
10.70.082-0.1549-1.08620.0240.1683
21.10.250.0414一0.60210.0017-0.0249
32.51.80.39790.25530.15830.1016
44.911.20.69021.04920.47640.7242
58.137.80.90851.57400.82541.4300
610.266.51.00861.82281.01731.8385
713.51341.13032.12711.27762.4043
7777
L2為=4.022ZM=5.1401Z%?=3.7807X和尸6.642
尸i/=]廠i
先作出上面數(shù)據(jù)表,由表得到£比2.5097,lga~-0.7077,則。p0.1960.于是所得的
回歸方程為。=0.193廬5097.
『規(guī)律總結(jié)』1.在建立經(jīng)驗(yàn)公式時(shí),選擇合適的函數(shù)類型是十分重要的.通常是根據(jù)
實(shí)驗(yàn)數(shù)據(jù),畫出散點(diǎn)圖,從中觀察其變化規(guī)律,并與已知函數(shù)的圖象對(duì)比,看接近于什么函
數(shù),根據(jù)實(shí)踐經(jīng)驗(yàn)來決定選取公式的類型,所選的類型是否符合實(shí)際,還需要通過實(shí)踐來檢
驗(yàn).有時(shí)候還需要選擇不同的模擬函數(shù)作比較.
2.如果觀察散點(diǎn)圖,發(fā)現(xiàn)點(diǎn)的分布不呈條狀分布,而是與某種曲線相近,這時(shí)可選擇
這條曲線對(duì)應(yīng)的函數(shù)作為擬合函數(shù),作恰當(dāng)變換,轉(zhuǎn)化為線性函數(shù),用線性回歸模型求解.
例如:
h1
①反比例函數(shù)可作變換t=~,得
②寐函數(shù)型>=加">0)可作變換Y=lny,m=}na,t—\nx,則有
Y=m+bt.
③指數(shù)型函數(shù)y=k?v(a>0且“Wl,k>0)可作變換Y=\ny,m=\nk,則有:Y=m+(b\na)x
II跟蹤練習(xí)4_?
為了研究某種細(xì)菌隨時(shí)間x的變化繁殖個(gè)數(shù)y的變化,收集數(shù)據(jù)如下:
時(shí)間x/天123456
繁殖個(gè)數(shù)y612254995190
(1)將天數(shù)作解釋變量,繁殖個(gè)數(shù)作預(yù)報(bào)變量,作出這些數(shù)據(jù)的散點(diǎn)圖;
(2)描述解釋變量與預(yù)報(bào)變量之間的關(guān)系;
(3)計(jì)算殘差、相關(guān)指數(shù)
|解析|(1)由表中數(shù)據(jù)作散點(diǎn)圖如下圖所示.
“個(gè)
200
80
60
40
20
00
80
60
40
20
--■--
23456
(2)由散點(diǎn)圖看出樣本點(diǎn)分布在一條指數(shù)函數(shù)y=ciec加的圖象的周圍,其中。和。2是待
定系數(shù).于是令z=lny,則z=〃x+a(n=lna,b-c2),因此變換后的樣本點(diǎn)應(yīng)該分布在直
線z=%x+〃的周圍,因此可以用線性回歸模型來擬合z與x的關(guān)系,則變換后的樣本數(shù)據(jù)
如下表:
X123456
Z1.792.483.223.894.555.25
由表中數(shù)據(jù)得到線性回歸方程?=0.69x+1.115.
因此細(xì)菌繁殖個(gè)數(shù)關(guān)于時(shí)間的回歸方程為£=e°69/LU5.
(3)列出殘差表:
編號(hào)i123456
A6.0812.1224.1796.06191.52
V/48.18
%612254995190
A
ei-0.08-0.120.830.82-1.06-1.52
6A6八
E〃=£Gf)2=4.8161,
/=1/=1
6_
X(M-y)2=24630.1,
i=l
乃=I__48161_9998
K1241630.1
故解釋變量天數(shù)對(duì)預(yù)報(bào)變量繁殖個(gè)數(shù)解釋了99.98%,說明該回歸模型擬合效果非常好.
學(xué)科核心素養(yǎng)
利用線性回歸方程進(jìn)行預(yù)報(bào)變量的估計(jì)(規(guī)律方法)
利用線性回歸方程可以進(jìn)行預(yù)報(bào),線性回歸方程將部分觀測(cè)值所反映的規(guī)律進(jìn)行延伸,
是我們對(duì)有線性相關(guān)關(guān)系的兩個(gè)變量進(jìn)行分析和控制的依據(jù).
典例5(2020?福州模擬)對(duì)具有線性相關(guān)關(guān)系的變量x,y,測(cè)得一組數(shù)據(jù)如
下表:
X24568
y2040607980
AA
根據(jù)上表,利用最小二乘法得它們的回歸直線方程為y=10.5x+〃,據(jù)此模型來預(yù)測(cè)當(dāng)x
=20時(shí),y的估計(jì)值為(C)
A.210B.210.5
C.211.5D.212.5
————AAA
[解析]由已知得x=5,y=54,則(5,54)滿足回歸直線方程)=10.5]+“,解得4=1.5.
因此f=10.5x+1.5,當(dāng)x=20時(shí),£=10.5X20+1.5=211.5.故選C.
『規(guī)律總結(jié)』已知變量的某個(gè)值去預(yù)測(cè)相應(yīng)預(yù)報(bào)變量的某個(gè)值時(shí),先求出其所滿足的
回歸直線方程£=>+2把已知x取某一個(gè)值代入回歸方程£=晨+1中,從而可求出y的估
計(jì)值.
II跟蹤練習(xí)工■
某車間為了規(guī)定工時(shí)定額,需要確定加工零件所花費(fèi)的時(shí)間,為此做了4次試驗(yàn),得到
數(shù)據(jù)如下:
零件的個(gè)數(shù)M個(gè))2345
加工的時(shí)間y(小時(shí))2.5344.5
(1)在給定的坐標(biāo)系中畫出表中數(shù)據(jù)的散點(diǎn)圖;
y
5----:一…?;
4---;--J--W---;--?
2--W..I..i---i--1
1……-i……-i……-i……\……i
-01~~2~~3~45x
AAA
(2)求y關(guān)于x的線性回歸方程y=bx+〃;
(3)試預(yù)測(cè)加工10個(gè)零件需要的時(shí)間.
Z(為一x)8-y)Xx-yi-nxy
Ai=\i=l
b-=
參考公式:<i(xi~~)2f^-nT2
i=li=\
A—人—
、a=y-bx
[解析](1)散點(diǎn)圖如圖所示:
y
012345%
(2)由題中表格數(shù)據(jù)得x=3.5,y=3.5,
4__4_
X(羽一x)8-y)=3.5,X(為一工y=5.
/=1i=\
4__
z(X/—x)(yi-y)
由公式計(jì)算得,=二------------A——A—
=0.7,a=y-bx,
4_
Z(Xi-X尸
所以所求線性回歸方程為f=6x+1=0.7x+1.05.
AAA
⑶當(dāng)x=10時(shí),y=6x+a=0.7X10+1.05=8.05,
所以預(yù)測(cè)加工10個(gè)零件需要8.05小時(shí).
V
V
易混易錯(cuò)警示
求回歸方程
典例6在一化學(xué)反應(yīng)過程中,某化學(xué)物質(zhì)的反應(yīng)速度y(g/min)與一種催化劑
的量x(g)有關(guān),現(xiàn)收集了如表所示的8組數(shù)據(jù),則y與x的回歸方程是f=e°-⑻2L°=85.
催化劑是x(g)1518212427303336
化學(xué)物質(zhì)反應(yīng)速度Mg/min)6830277020565350
——88
[錯(cuò)解]由表中數(shù)據(jù)可得x=25.5,>=95.125,??=5580,£卬,,=24297,
i=li=\
8__
2>加一8xy
A1=1八__A__八
所以6=----------------------七12.94,a=~~b~=-234.845.所以回歸方程式為y=一
8_
8X2
i=l
234.845+12.94元
[辨析]錯(cuò)誤原因:未畫散點(diǎn)圖來確定回歸類型,題中要求回歸方程但不一定是回歸直
線方程,錯(cuò)解中盲目地求成了回歸直線方程.
防范措施:回歸分析時(shí),必須先畫散點(diǎn)圖,確定兩個(gè)變量是否有關(guān)系,有什么樣的關(guān)系,
然后確定是哪種回歸模型才能進(jìn)一步求解.
I正解]根據(jù)收集的數(shù)據(jù)作散點(diǎn)圖,如圖所示.
化學(xué)物質(zhì)反應(yīng)速度
400
350?
300
250
200?
150
100
50,
0I??*'_1_1~―-
121518212427303336催化劑量/&
根據(jù)樣本點(diǎn)的分布情況,可選用指數(shù)型函數(shù)模型、=。但。21=(口,C2為待定的參數(shù)),令
z=\ny,則z=C2x+lnc”即變換后樣本點(diǎn)應(yīng)該分布在直線z=fer+〃(〃=ln臼,/?=◎)的周圍,
由y與X的數(shù)據(jù)表得Z與X的數(shù)據(jù)表如下:
化學(xué)物質(zhì)反應(yīng)速度的對(duì)數(shù)
8
6,??
4,?
2,?'"
_,_,_,_,_,-----.
10152025303540催化劑敏/g
X1518212427303336
Z1.7922.0793.4013.2964.2485.3234.1745.858
作出Z與X的散點(diǎn)圖,如圖所示,由圖可以看出變換后的樣本點(diǎn)分布在一條直線附近,
所以可用線性回歸方程來擬合.
由表中數(shù)據(jù)可得6^0.1812,-0.8485,故2=0.1812%—0.8485,所以£=一⑻浜-。的
5,因此該化學(xué)物質(zhì)的反應(yīng)速度與催化劑的量的非線性回歸方程為f=e。?⑻2「。.8485.
課堂達(dá)標(biāo)?固基礎(chǔ)
1.關(guān)于回歸分析,下列說法錯(cuò)誤的是(D)
A.回歸分析是研究?jī)蓚€(gè)具有相關(guān)關(guān)系的變量的方法
B.散點(diǎn)圖中,解釋變量在x軸,預(yù)報(bào)變量在),軸
C.回歸模型中一定存在隨機(jī)誤差
D.散點(diǎn)圖能明確反映變量間的關(guān)系
[解析】用散點(diǎn)圖反映兩個(gè)變量間的關(guān)系時(shí),存在誤差.
2.甲、乙、丙、丁四位同學(xué)在建立變量x,y的回歸模型時(shí),分別選擇了4種不同模型,
計(jì)算可得它們的相關(guān)指數(shù)K分別如下表:
甲乙丙T
R20.980.780.500.85
哪位同學(xué)建立的回歸模型擬合效果最好(A)
A.甲B.乙
C.丙D.丁
[解析]相關(guān)指數(shù)收越大,表示回歸模型的效果越好.
3.設(shè)某大學(xué)的女生體重y(單位:kg)與身高x(單位:cm)具有線性相關(guān)關(guān)系.根據(jù)一組
樣本數(shù)據(jù)(為,…,n),用最小二乘法建立的回歸方程為£=0.85x—85.71,則下列
結(jié)論中不正確的是(D)
A.),與x具有正的線性相關(guān)關(guān)系
B.回歸直線過樣本點(diǎn)的中心(二,7)
C.若該大學(xué)某女生身高增加1cm,則其體重約增加0.85kg
D.若該大學(xué)某女生身高為170cm,則可斷定其體重必為58.79kg
[解析]A,B,C均正確,是回歸方程的性質(zhì),D項(xiàng)是錯(cuò)誤的,線性回歸方程只能預(yù)測(cè)
學(xué)生的體重,選項(xiàng)D應(yīng)改為“若該大學(xué)生某女生身高為170cm,則估計(jì)其體重大約為58.79
kg”.
4.某單位為了了解用電量y度與氣溫x"C之間的關(guān)系,隨機(jī)統(tǒng)計(jì)了某4天的用電量與
當(dāng)天氣溫,并制作了對(duì)照表:
氣溫(℃)181310-1
用電量(度)24343864
由表中數(shù)據(jù)得線性回歸方程£=隊(duì)+〃中匕=-2,預(yù)測(cè)當(dāng)氣溫為一4℃時(shí),用電
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年餐飲管理軟件項(xiàng)目資金需求報(bào)告
- 2023年LED室內(nèi)應(yīng)用燈具資金需求報(bào)告
- 臨床輸血制度
- 夫妻感情不合離婚協(xié)議書(標(biāo)準(zhǔn)版)
- 2024年山東省濟(jì)南市中考物理試卷(附答案)
- 食品質(zhì)量安全管理手冊(cè)
- 服裝設(shè)計(jì)技能考卷
- 高二下學(xué)期月考卷
- 科學(xué)三年級(jí)上冊(cè)《觀測(cè)風(fēng)》教學(xué)課件10
- 地圖的閱讀- 2024-2025學(xué)年七年級(jí)地理上冊(cè)同步課件(人教版2024)
- 基于課程標(biāo)準(zhǔn)的學(xué)生創(chuàng)新素養(yǎng)培育的學(xué)科教學(xué)改進(jìn)研究課題申報(bào)評(píng)審書
- KA-T 20.1-2024 非煤礦山建設(shè)項(xiàng)目安全設(shè)施設(shè)計(jì)編寫提綱 第1部分:金屬非金屬地下礦山建設(shè)項(xiàng)目安全設(shè)施設(shè)計(jì)編寫提綱
- 員工崗前消防安全教育培訓(xùn)記錄范文(三篇)
- 江蘇省南京市聯(lián)合體2023-2024學(xué)年七年級(jí)上學(xué)期期中語文試題-
- 校園方責(zé)任保險(xiǎn)方案
- 2024年湖南旅游集團(tuán)智慧文旅科技有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 2024-2030年中國(guó)軌交減振降噪行業(yè)市場(chǎng)發(fā)展監(jiān)測(cè)及投資戰(zhàn)略規(guī)劃報(bào)告
- 人工智能在地質(zhì)與地球物理中的應(yīng)用
- 人工智能對(duì)人類社會(huì)的影響
- (高清版)DZT 0347-2020 礦山閉坑地質(zhì)報(bào)告編寫規(guī)范
- 2023年度學(xué)校食堂每月食品安全調(diào)度會(huì)議紀(jì)要
評(píng)論
0/150
提交評(píng)論