成對數(shù)據(jù)的統(tǒng)計相關(guān)性高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第1頁
成對數(shù)據(jù)的統(tǒng)計相關(guān)性高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第2頁
成對數(shù)據(jù)的統(tǒng)計相關(guān)性高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第3頁
成對數(shù)據(jù)的統(tǒng)計相關(guān)性高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第4頁
成對數(shù)據(jù)的統(tǒng)計相關(guān)性高二下學期數(shù)學人教A版(2019)選擇性必修第三冊_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

“統(tǒng)計”數(shù)據(jù)獲取數(shù)據(jù)記錄數(shù)據(jù)分析抽樣統(tǒng)計圖表數(shù)據(jù)特征變量關(guān)系

在必修課程中,我們學習了單個變量的觀察數(shù)據(jù)的直觀表示和統(tǒng)計特征的刻畫等知識與方法.例如,用直方圖描述樣本數(shù)據(jù)的分布規(guī)律,用均值刻畫樣本數(shù)據(jù)的集中趨勢,用方差刻畫樣本數(shù)據(jù)的離散程度等.這些方法主要適用于通過樣本認識單個變量的統(tǒng)計規(guī)律.在現(xiàn)實中,我們還經(jīng)常需要了解兩個或兩個以上變量之間的關(guān)系.例如,教育部門為掌握學生身體健康狀況,需要了解身高變量和體重變量之間的關(guān)系;醫(yī)療衛(wèi)生部門要制定預(yù)防青少年近視的措施,需要了解有哪些因素會影響視力,以及這些因素是如何影響視力的;商家要根據(jù)顧客的意見改進服務(wù)水平,希望了解哪些因素影響服務(wù)水平,以及這些因素是如何起作用的;等等.為此,我們需要進一步學習通過樣本推斷變量之間關(guān)系的知識和方法.章首語

本章的學習內(nèi)容有成對數(shù)據(jù)的統(tǒng)計相關(guān)性、一元線性回歸模型和2×2列聯(lián)表等,這些知識與方法在解決實際問題中非常有用.可以發(fā)現(xiàn),兩個隨機變量的相關(guān)性可以通過成對樣本數(shù)據(jù)進行分析;利用一元線性回歸模型可以研究變量之間的隨機關(guān)系,進行預(yù)測;利用2×2列聯(lián)表可以檢驗兩個隨機變量的獨立性.本章的學習對于提高我們解決實際問題的能力,提升數(shù)據(jù)分析、數(shù)學建模等素養(yǎng)都是非常有幫助的.章首語變量A:變量B:該如何著手分析不同變量間的關(guān)系?分析順序1先分析是否相關(guān)2判斷是何種相關(guān)關(guān)系4判斷擬合效果是否良好3能否量化關(guān)系

相關(guān)關(guān)系的概念

相關(guān)關(guān)系的概念相關(guān)關(guān)系的概念兩個變量有關(guān)系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關(guān)系稱為相關(guān)關(guān)系.相關(guān)關(guān)系的概念例(多選)下列兩個變量存在相關(guān)關(guān)系的為A.扇形的半徑與面積之間的關(guān)系B.降雪量與交通事故的發(fā)生率之間的關(guān)系C.人的身高與體重之間的關(guān)系D.家庭的支出與收入之間的關(guān)系BCD函數(shù)關(guān)系是一種確定的關(guān)系,而相關(guān)關(guān)系是非隨機變量與隨機變量的關(guān)系.函數(shù)關(guān)系是一種因果關(guān)系,而相關(guān)關(guān)系不一定是因果關(guān)系,也可能是伴隨關(guān)系.(課本p104).某地區(qū)的環(huán)境條件適合天鵝棲息繁衍.有人發(fā)現(xiàn)了一個有趣的現(xiàn)象,該地區(qū)有5個村莊,其中3個村莊附近棲息的天鵝較多,嬰兒出生率也較高;2個村莊附近棲息的天鵝較少,嬰兒的出生率也較低.有人認為嬰兒出生率和天鵝數(shù)之間存在相關(guān)關(guān)系,并得出一個結(jié)論:天鵝能夠帶來孩子.你同意這個結(jié)論嗎?為什么?子女身高y與父親身高x之間的關(guān)系商品銷售收入y與廣告支出x之間的關(guān)系空氣污染指數(shù)y與汽車保有量x之間的關(guān)系糧食畝產(chǎn)量y與施肥量x之間的關(guān)系在相關(guān)關(guān)系中,無法直接用函數(shù)去描述變量y與變量x之間的關(guān)系。根據(jù)以往積累的經(jīng)驗做出推斷,“經(jīng)驗之中有規(guī)律”,經(jīng)驗的確可以為我們的決策提供一定的依據(jù),但僅憑經(jīng)經(jīng)驗推斷又有不足,比如:不同經(jīng)驗的人對同一情形可能會得出不同的結(jié)論,不是所有的情形都有經(jīng)驗可循等.借助數(shù)據(jù)說話,即通過樣本數(shù)據(jù)分析,從數(shù)據(jù)中提取信息,并構(gòu)建適當?shù)哪P?,再利用模型進行估計或推斷.相關(guān)關(guān)系的概念油膩大叔是怎樣煉成的年齡越大越“油”?變量1:年齡變量2:脂肪含量變量間的相關(guān)關(guān)系編號1234567年齡/歲23273941454950脂肪含量/%9.517.821.225.927.526.328.2編號891011121314年齡/歲53545657586061脂肪含量/%29.630.231.430.833.535.234.6問題1:脂肪含量隨著年齡的變化有什么規(guī)律嗎?答:從整體上看,脂肪含量隨著年齡的增大而增大變量間的相關(guān)關(guān)系編號1234567年齡/歲23273941454950脂肪含量/%9.517.821.225.927.526.328.2編號891011121314年齡/歲53545657586061脂肪含量/%29.630.231.430.833.535.234.6追問1:根據(jù)規(guī)律,23歲的脂肪含量一定比30歲的脂肪含量低嗎?答:不一定變量間的相關(guān)關(guān)系編號1234567年齡/歲23273941454950脂肪含量/%9.517.821.225.927.526.328.2編號891011121314年齡/歲53545657586061脂肪含量/%29.630.231.430.833.535.234.6問題2:如果用橫軸表示年齡,縱軸表示脂肪含量,上述數(shù)據(jù)用直角坐標系中的點表示出來,圖有什么特征?變量間的相關(guān)關(guān)系散點圖特征:散點大致落在一條從左下角到右上角的直線附近正相關(guān):從整體上看,當一個變量的值增加時,另一個變量的相應(yīng)值

也呈現(xiàn)增加的趨勢負相關(guān):從整體上看,當一個變量的值增加時,另一個變量的相應(yīng)值

也呈現(xiàn)減少的趨勢線性相關(guān):兩個變量呈正相關(guān)或負相關(guān),且散點圖落在一條直線附近變量間的相關(guān)關(guān)系結(jié)論:脂肪含量與年齡成線性正相關(guān)關(guān)系練習.下列四個散點圖中,變量x與y之間具有負的線性相關(guān)關(guān)系的是(

)D練習鞏固問題3:這兩組成對變量都是線性正相關(guān),你能判斷哪一組的線性相關(guān)性更強嗎?答:不能探究:線性相關(guān)的定量分析問題:散點圖雖然直觀,但無法確切地反映成對樣本數(shù)據(jù)的相關(guān)程度,也就無法量化兩個變量之間相關(guān)程度的大小.能否像引入平均值、方差等數(shù)字特征對單個變量數(shù)據(jù)進行分析那樣,引入一個適當?shù)摹皵?shù)字特征”,對成對樣本數(shù)據(jù)的相關(guān)程度進行定量分析呢?探究:線性相關(guān)的定量分析線性負相關(guān)線性正相關(guān)無相關(guān)關(guān)系非線性相關(guān)觀察下面四個散點圖所表示的四組成對變量

,從兩類變量數(shù)據(jù)的正負、大小角度比較,是否有明顯區(qū)別?探究:線性相關(guān)的定量分析

數(shù)據(jù)預(yù)處理的常用方法:中心化(零均值化)數(shù)據(jù)平移以后,作出散點圖如下探究:線性相關(guān)的定量分析線性負相關(guān)線性正相關(guān)無相關(guān)關(guān)系非線性相關(guān)(x,y)基本異號(x,y)基本同號一般情形下,Lxy>0表明成對樣本數(shù)據(jù)正相關(guān);Lxy<0表明成對樣本數(shù)據(jù)負相關(guān).根據(jù)散點圖特征,初步構(gòu)造統(tǒng)計量.利用散點的橫縱坐標是否同號,可以構(gòu)造一個量探究:線性相關(guān)的定量分析在研究體重與身高之間的相關(guān)程度時,如果體重的單位不變,把身高單位由米改為厘米,單位的改變不會改變體重與身高之間的相關(guān)程度.變換單位前變換單位后變換單位后是變換前的100倍我們發(fā)現(xiàn),Lxy的大小與數(shù)據(jù)的度量單位有關(guān),所以不能直接用它度量成對樣本數(shù)據(jù)相關(guān)程度的大小.探究:線性相關(guān)的定量分析為了消除單位的影響,進一步做“標準化”處理,用

仿照Lxy的構(gòu)造,可以得到我們稱r為變量x和變量y的樣本線性相關(guān)系數(shù),簡稱樣本相關(guān)系數(shù).接下來我們來考察r的合理性探究:線性相關(guān)的定量分析相關(guān)系數(shù)是最早由統(tǒng)計學家卡爾·皮爾遜設(shè)計的統(tǒng)計指標,是研究變量之間線性相關(guān)程度的量,一般用字母r表示。由于研究對象的不同,相關(guān)系數(shù)有多種定義方式,較為常用的是皮爾遜相關(guān)系數(shù)。當r>0時,稱成對樣本數(shù)據(jù)正相關(guān);當其中一個數(shù)據(jù)的值變小時,另一個數(shù)據(jù)的值通常也變小;當其中一個數(shù)據(jù)的值變大時,另一個數(shù)據(jù)的值通常也變大。當r<0時,稱成對樣本數(shù)據(jù)負相關(guān);當其中一個數(shù)據(jù)的值變小時,另一個數(shù)據(jù)的值通常會變大:當其中一個數(shù)據(jù)的值變大時,另一個數(shù)據(jù)的值通常會變小。問題4:樣本相關(guān)系數(shù)r的正負能反映出成對變量的什么關(guān)系?樣本的相關(guān)系數(shù)類似于平面或空間向量的坐標表示,對于向量我們有設(shè)“標準化”處理后的成對數(shù)據(jù)

的第一分量構(gòu)成n維向量第二分量構(gòu)成向量樣本的相關(guān)系數(shù)問題5:樣本相關(guān)系數(shù)r的取值與成對樣本數(shù)據(jù)的相關(guān)程度有什么內(nèi)在聯(lián)系?觀察r的結(jié)構(gòu),聯(lián)想到二維(平面)向量、三維(空間)向量數(shù)量積的坐標表示,我們將向量的維數(shù)推廣到n維,n維向量的

數(shù)量積仍然定義為其中

為向量

的夾角.首先我們來考察r的取值范圍樣本的相關(guān)系數(shù)思考:

時,成對樣本數(shù)據(jù)之間有怎樣的關(guān)系

?樣本的相關(guān)系數(shù)

或共線由向量的共線定理得即這表明成對樣本數(shù)據(jù)

都落在直線

說明成對樣本數(shù)據(jù)的兩個分量之間滿足一種線性關(guān)系樣本的相關(guān)系數(shù)

由此可見,樣本相關(guān)系數(shù)r的取值范圍為[-1,1].樣本相關(guān)系數(shù)r的絕對值大小可以反映成對數(shù)據(jù)之間線性相關(guān)的程度。問題5:樣本相關(guān)系數(shù)r的取值與成對樣本數(shù)據(jù)的相關(guān)程度有什么內(nèi)在聯(lián)系?當|r|越接近0時,成對數(shù)據(jù)的線性相關(guān)程度越弱.當|r|越接近1時,成對數(shù)據(jù)的線性相關(guān)程度越強;答:樣本的相關(guān)系數(shù)追問5:樣本相關(guān)系數(shù)r=0時,樣本一定是無相關(guān)關(guān)系嗎?r=0時,只表明成對樣本數(shù)據(jù)間沒有線性相關(guān)關(guān)系,但不排除它們之間有其他相關(guān)關(guān)系.答:小貼士:利用相關(guān)系數(shù)r來檢驗線性相關(guān)顯著性水平時,通常與0.75作比較,

若|r|>0.75,則線性相關(guān)較為顯著,否則不顯著.樣本的相關(guān)系數(shù)①r的正負:反映成對樣本數(shù)據(jù)的變化趨勢②r的范圍:?1≤r≤1③|r|的大?。悍从吵蓪颖緮?shù)據(jù)線性相關(guān)的程度(即散點集中于某條直線的程度):|r|越接近1:線性相關(guān)程度越強;|r|越接近0:線性相關(guān)程度越弱.r=0時,只表明成對樣本數(shù)據(jù)間無線性相關(guān)關(guān)系,但不排除它們有其他相關(guān)關(guān)系.④樣本容量越大,用樣本相關(guān)系數(shù)估計兩個變量的相關(guān)系數(shù)的效果越好.樣本相關(guān)系數(shù)的性質(zhì)總結(jié)例1.根據(jù)表中脂肪含量和年齡的樣本數(shù)據(jù),推斷兩個變量是否線性相關(guān),計算樣本相關(guān)系數(shù),并推斷它們的相關(guān)程度.編號1234567891011121314年齡2327394145495053545657586061脂肪9.517.821.225.927.526.328.229.630.231.430.833.535.234.6解:先畫出散點圖,如圖所示.觀察散點圖,可看出樣本點都集中在一條直線附近,由此推斷脂肪含量和年齡線性相關(guān).代入公式可得樣本相關(guān)系數(shù)r≈0.97,可以推斷脂肪含量和年齡這兩個變量正線性相關(guān),且相關(guān)程度很強.例題點撥練習鞏固練習.有一個同學家開了一個小賣部,他為了研究氣溫對熱飲料銷售的影響,經(jīng)過統(tǒng)計,得到一個賣出的熱飲杯數(shù)與當天氣溫的數(shù)據(jù)的散點圖和對比表.解:觀察散點圖,可看出樣本點都集中在一條直線附近,由此推斷脂肪含量和年齡線性相關(guān).代入公式可得樣本相關(guān)系數(shù)r≈﹣0.97,可以推斷脂肪含量和年齡這兩個變量的負線性相關(guān)程度很強.攝氏溫度x-5471015233036熱飲杯數(shù)y16212811513589716337畫出散點圖,并用相關(guān)系數(shù)r判斷熱飲杯數(shù)與當天氣溫的關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論