大數(shù)據(jù)本科系列教材教學課件之《數(shù)據(jù)挖掘》:第4章回歸_第1頁
大數(shù)據(jù)本科系列教材教學課件之《數(shù)據(jù)挖掘》:第4章回歸_第2頁
大數(shù)據(jù)本科系列教材教學課件之《數(shù)據(jù)挖掘》:第4章回歸_第3頁
大數(shù)據(jù)本科系列教材教學課件之《數(shù)據(jù)挖掘》:第4章回歸_第4頁
大數(shù)據(jù)本科系列教材教學課件之《數(shù)據(jù)挖掘》:第4章回歸_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用DATA MINING數(shù)據(jù)挖掘第1頁,共56頁。第四章回歸of592高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用回歸是一種基于統(tǒng)計原理,對大量統(tǒng)計數(shù)據(jù)進行數(shù)學處理,并確定變量(或?qū)傩裕┲g的相關(guān)關(guān)系,建立一個相關(guān)性的回歸方程(函數(shù)表達式),并加以外推,用于預測今后的因變量的變化的方法。根據(jù)因變量和自變量的函數(shù)表達式分為:線性回歸分析、非線性回歸分析。根據(jù)因變量和自變量的個數(shù)可分為:一元回歸分析、多元回歸分析、邏輯回歸分析和其它回歸分析等。More應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預測及有針

2、對性的促銷活動等。第2頁,共56頁。4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習題4.4邏輯回歸分析of593高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用4.6實戰(zhàn):用回歸分析方法給自己的房子定價第3頁,共56頁。對于社會經(jīng)濟現(xiàn)象,很難確定因變量和自變量之間的關(guān)系,因為它們大多是隨機的,只有通過大量的觀察統(tǒng)計,才能找出其中的規(guī)律,隨機分析是利用統(tǒng)計學原理描述隨機變量關(guān)系的一種方法。回歸分析可簡單理解為信息分析與預測,信息即統(tǒng)計數(shù)據(jù),分析即對信息進行數(shù)據(jù)處理,預測就是加以外推,也就是適當擴大已有自變量取值范圍,并承認該回歸方程在該

3、擴大的定義域內(nèi)成立,然后就可以在該定義域上取值進行“未來預測”。當然,對回歸方程可以進行有效的控制。因此,回歸分析主要解決下面兩方面的問題:1) 確定變量之間是否存在相關(guān)關(guān)系,若存在,則找出數(shù)學表達式。2)根據(jù)一個或幾個變量的值,預測或控制另一個或幾個變量的值,且要估計這種控制或預測或以達到何種精確度。4.1.1 回歸分析的定義of5944.1回歸基本概念第四章 回歸第4頁,共56頁。4.1.2 回歸分析步驟of5954.1回歸基本概念第四章 回歸第5頁,共56頁。為使回歸分析方程較能符合實際,首先應盡可能判斷自變量的可能種類和個數(shù),并在觀察事物發(fā)展規(guī)律的基礎上定性回歸方程的可能類型;其次,力

4、求掌握較充分的高質(zhì)量統(tǒng)計數(shù)據(jù),再運用統(tǒng)計方法,利用數(shù)學工具和相關(guān)軟件,從定量方面計算或改進定性判斷。4.1.2 回歸分析要注意的問題of5964.1回歸基本概念第四章 回歸第6頁,共56頁。4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習題4.4邏輯回歸分析of597高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用4.6實戰(zhàn):用回歸分析方法給自己的房子定價第7頁,共56頁。4.2.1 一元回歸分析的模型設定of5984.2一元回歸分析第四章 回歸第8頁,共56頁。4.2.1 一元回歸分析的模型設定of5994.2一元回歸分析第四章 回歸

5、第9頁,共56頁。在進行消費行為研究中,從一個地區(qū)抽取20 個不同家庭的月可支配收入和消費數(shù)據(jù),如下表所示:例4.1of59104.2一元回歸分析第四章 回歸序號消費(百元)可支配收入(百元)序號消費(百元)可支配收入(百元)172.310011132.3189292.5112012149.82143135.220013115.318849413014132.21975163.524015149.5206610011416100.25142786.51261779.61128142.362131890.2134912015619116.516910112.5616720126170第10頁,共

6、56頁。以可支配收入為橫軸、消費為縱軸畫出樣本數(shù)據(jù)的散點圖例4.1of59114.2一元回歸分析第四章 回歸從圖中可以看出,可支配收入和消費之間存在明顯的線性關(guān)系。但所有點并不在一條直線上,表明二者之間的關(guān)系是一種隨機關(guān)系。第11頁,共56頁。4.2.1 一元回歸分析的模型設定of59124.2一元回歸分析第四章 回歸第12頁,共56頁。4.2.2 一元線性回歸模型的參數(shù)估計of59134.2一元回歸分析第四章 回歸第13頁,共56頁。4.2.3 基本假設下OLS估計的統(tǒng)計性質(zhì)of59144.2一元回歸分析第四章 回歸第14頁,共56頁。4.2.3 基本假設下OLS估計的統(tǒng)計性質(zhì)of59154

7、.2一元回歸分析第四章 回歸(4.4)第15頁,共56頁。4.2.4 誤差方差估計of59164.2一元回歸分析第四章 回歸第16頁,共56頁。4.2.6 擬合優(yōu)度和模型檢驗(F 檢驗)of59174.2一元回歸分析第四章 回歸第17頁,共56頁。4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習題4.4邏輯回歸分析of5918高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用4.6實戰(zhàn):用回歸分析方法給自己的房子定價第18頁,共56頁。多元回歸分析預測法,是指通過對兩上或兩個以上的自變量與一個因變量的相關(guān)分析,建立預測模型進行預測的方法。

8、當自變量與因變量之間存在線性關(guān)系時,稱為多元線性回歸分析。多元回歸分析可以達到以下目的:1. 了解因變量和自變量之間的關(guān)系是否存在,以及這種關(guān)系的強度。也就是以自變量所解釋的因變量的變異部分是否顯著,且因變量變異中有多大部分可以由自變量來解釋。2. 估計回歸方程,求在自變量已知的情況下因變量的理論值或預測值 ,達到預測目的。3. 評價特定自變量對因變量的貢獻,也就是在控制其他自變量不變的情況下,該處變量的變化所導致的因變量變化情況。4. 比較各處變量在擬合的回歸方程中相對作用大小,尋找最重要的和比較重要的自變量。4.3.1多元線性回歸模型of59194.3多元線性回歸分析第四章 回歸第19頁,

9、共56頁。4.3.1多元線性回歸模型of59204.3多元線性回歸分析第四章 回歸第20頁,共56頁。建立多元性回歸模型時,為了保證回歸模型具有優(yōu)良的解釋能力和預測效果,應首先注意自變量的選擇,其準則是: 1. 自變量對因變量必須有顯著的影響,并呈密切的線性相關(guān);2. 自變量與因變量之間的線性相關(guān)必須是真實的,而不是形式上的; 3. 自變量之間應具有一定的互斥性,即自變量之間的相關(guān)程度不應高于自變量與因變量之因的相關(guān)程度; 4. 自變量應具有完整的統(tǒng)計數(shù)據(jù),其預測值容易確定。4.3.1多元線性回歸模型of59214.3多元線性回歸分析第四章 回歸第21頁,共56頁。4.3.2 多元線性回歸模型

10、的假定of59224.3多元線性回歸分析第四章 回歸第22頁,共56頁。4.3.3 多元線性回歸模型的參數(shù)估計of59234.3多元線性回歸分析第四章 回歸第23頁,共56頁。4.3.3 多元線性回歸模型的參數(shù)估計of59244.3多元線性回歸分析第四章 回歸第24頁,共56頁。4.3.3 多元線性回歸模型的參數(shù)估計of59254.3多元線性回歸分析第四章 回歸第25頁,共56頁。3.估計參數(shù)的統(tǒng)計性質(zhì)(1)線性性(2)無偏性(3)最小方差性4.3.3 多元線性回歸模型的參數(shù)估計of59264.3多元線性回歸分析第四章 回歸第26頁,共56頁。4.3.4 顯著性檢驗of59274.3多元線性回

11、歸分析第四章 回歸第27頁,共56頁。1. 變量選擇問題選擇合適的變量用于建立一個“最優(yōu)”的回歸方程(1)逐步回歸法(Stepwise)(2)向前引入法(Forward)(3)向后剔除法(Backward)。4.3.4 回歸變量的選擇與逐步回歸of59284.3多元線性回歸分析第四章 回歸第28頁,共56頁。2. 逐步回歸分析(1)基本思想逐個引入自變量。每次引入對影響最顯著的自變量,并對方程中的老變量逐個進行檢驗,把變?yōu)椴伙@著的變量逐個從方程中剔除掉,最終得到的方程中既不漏掉對影響顯著的變量,又不包含對影響不顯著的變量。4.3.4 回歸變量的選擇與逐步回歸of59294.3多元線性回歸分析第

12、四章 回歸第29頁,共56頁。2. 逐步回歸分析(2)篩選的步驟從回歸方程中考慮剔除不顯著變量。從不在方程中的變量考慮引入新變量。4.3.4 回歸變量的選擇與逐步回歸of59304.3多元線性回歸分析第四章 回歸第30頁,共56頁。4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習題4.4邏輯回歸分析of5931高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用4.6實戰(zhàn):用回歸分析方法給自己的房子定價第31頁,共56頁。4.4.2 logit變換of59324.4邏輯回歸分析第四章 回歸第32頁,共56頁。4.4.3 Logistic分布

13、of59334.4邏輯回歸分析第四章 回歸第33頁,共56頁。4.4.4 列連表的Logistic回歸模型of59344.4邏輯回歸分析第四章 回歸第34頁,共56頁。4.4.4 列連表的Logistic回歸模型of59354.4邏輯回歸分析第四章 回歸第35頁,共56頁。4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習題4.4邏輯回歸分析of5936高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用4.6實戰(zhàn):用回歸分析方法給自己的房子定價第36頁,共56頁。對于一個回歸方程,如果自變量的指數(shù)大于1,那么它就是多項式回歸方程。如果自變量

14、只有一個時,稱為一元多項式回歸;如果自變量有多個時,稱為多元多項式回歸。在一元回歸分析中,如果依變量y與自變量x的關(guān)系為非線性的,但是又找不到適當?shù)暮瘮?shù)曲線來擬合,則可以采用一元多項式回歸。在這種回歸技術(shù)中,最佳擬合線不是直線。而是一個用于擬合數(shù)據(jù)點的曲線。多項式回歸的最大優(yōu)點就是可以通過增加x的高次項對實測點進行逼近,直至滿意為止。事實上,多項式回歸可以處理相當一類非線性問題,它在回歸分析中占有重要的地位,因為任一函數(shù)都可以分段用多項式來逼近。因此,在通常的實際問題中,不論依變量與其他自變量的關(guān)系如何,我們總可以用多項式回歸來進行分析。多項式回歸問題可以通過變量轉(zhuǎn)換化為多元線性回歸問題來解決

15、。多項式回歸在回歸分析中很重要,因為任意一個函數(shù)至少在一個較小的范圍內(nèi)都可以用多項式任意逼近,因此在比較復雜的實際問題中,有時不問y與諸元素的確切關(guān)系如何,而用回歸分析進行分析運算。4.5.1 多項式回歸(Polynomial Regression)of59374.5其他回歸分析第四章 回歸第37頁,共56頁。在處理多個自變量時,我們可以使用這種形式的回歸。在這種技術(shù)中,自變量的選擇是在一個自動的過程中完成的,其中包括非人為操作。這一壯舉是通過觀察統(tǒng)計的值,如R-square,t-stats和AIC指標,來識別重要的變量。逐步回歸通過同時添加/刪除基于指定標準的協(xié)變量來擬合模型。下面列出了一些

16、最常用的逐步回歸方法:標準逐步回歸法做兩件事情。即增加和刪除每個步驟所需的預測。向前選擇法從模型中最顯著的預測開始,然后為每一步添加變量。向后剔除法與模型的所有預測同時開始,然后在每一步消除最小顯著性的變量。這種建模技術(shù)的目的是使用最少的預測變量數(shù)來最大化預測能力。這也是處理高維數(shù)據(jù)集的方法之一。4.5.2 逐步回歸(Stepwise Regression)of59384.5其他回歸分析第四章 回歸第38頁,共56頁。4.5.3 嶺回歸(Ridge Regression)of59394.5其他回歸分析第四章 回歸第39頁,共56頁。套索回歸類似于嶺回歸,(Least Absolute Shri

17、nkage and Selection Operator, Lasso)也會懲罰回歸系數(shù)的絕對值大小。此外,它能夠減少變化程度并提高線性回歸模型的精度。Lasso 回歸與Ridge回歸有一點不同,它使用的懲罰函數(shù)是絕對值,而不是平方。這導致懲罰(或等于約束估計的絕對值之和)值使一些參數(shù)估計結(jié)果等于零。使用懲罰值越大,進一步估計會使得縮小值趨近于零。這將導致我們要從給定的n個變量中選擇變量。除常數(shù)項以外,這種回歸的假設與最小二乘回歸類似;它收縮系數(shù)接近零(等于零),這確實有助于特征選擇;這是一個正則化方法,使用的是L1正則化。如果預測的一組變量是高度相關(guān)的,Lasso 會選出其中一個變量并且將其

18、它的收縮為零。4.5.4 套索回歸(Lasso Regression)of59404.5其他回歸分析第四章 回歸第40頁,共56頁。ElasticNet是Lasso和Ridge回歸技術(shù)的混合體。它使用L1來訓練并且L2優(yōu)先作為正則化矩陣。當有多個相關(guān)的特征時,ElasticNet是很有用的。Lasso 會隨機挑選他們其中的一個,而ElasticNet則會選擇兩個。Lasso和Ridge之間的實際的優(yōu)點是,它允許ElasticNet繼承循環(huán)狀態(tài)下Ridge的一些穩(wěn)定性。在高度相關(guān)變量的情況下,它會產(chǎn)生群體效應;選擇變量的數(shù)目沒有限制;它可以承受雙重收縮。4.5.5 彈性網(wǎng)絡(ElasticNet

19、)of59414.5其他回歸分析第四章 回歸第41頁,共56頁。4.1回歸基本概念第四章回歸4.2一元回歸分析4.3多元線性回歸分析3.1數(shù)據(jù)挖掘概述4.5其他回歸分析習題4.4邏輯回歸分析of5942高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用4.6實戰(zhàn):用回歸分析方法給自己的房子定價第42頁,共56頁。房子的價格(因變量)是很多自變量-房子的面積、占地的大小、廚房是否有花崗石以及衛(wèi)生間是否剛重裝過等的結(jié)果。所以,不管是購買過一個房子還是銷售過一個房子,您都可能會創(chuàng)建一個回歸模型來為房子定價。這個模型建立在鄰近地區(qū)內(nèi)的其他有可比性的房子的售價的基礎上(模型),然后再把您自己房子的值放入此

20、模型來產(chǎn)生一個預期價格。用回歸分析方法給自己的房子定價of59434.6實戰(zhàn):第四章 回歸房子面積(平方英尺)占地的大小臥室花崗巖衛(wèi)生間有無重裝?銷售價格35299191600$205,000324710061511$224,900403210150501$197,900239714156410$189,90022009600401$195,000353619994611$325,00029839351501$230,00031989669511?第43頁,共56頁。RELATION houseATTRIBUTE houseSize NUMERICATTRIBUTE lotSize NUMER

21、ICATTRIBUTE bedrooms NUMERICATTRIBUTE granite NUMERICATTRIBUTE bathroom NUMERICATTRIBUTE sellingPrice NUMERICDATA3529,9191,6,0,0,205000 3247,10061,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983,9351,5,0,1,2300004.6.1 為WEKA構(gòu)建數(shù)據(jù)集of59444

22、.6實戰(zhàn):第四章 回歸第44頁,共56頁。4.6.2 將數(shù)據(jù)載入WEKAof59454.6實戰(zhàn):第四章 回歸啟動 WEKA,然后選擇 Explorer。將會出現(xiàn) Explorer 屏幕,其中 Preprocess 選項卡被選中。選擇 Open File 按鈕并選擇前面創(chuàng)建的ARFF文件。第45頁,共56頁。4.6.3 用WEKA創(chuàng)建一個回歸模型of59464.6實戰(zhàn):第四章 回歸為了創(chuàng)建這個模型,單擊 Classify 選項卡。第一個步驟是選擇我們想要創(chuàng)建的這個模型,以便 WEKA 知道該如何處理數(shù)據(jù)以及如何創(chuàng)建一個適當?shù)哪P停簡螕?Choose 按鈕,然后擴展 functions 分支。選擇

23、 LinearRegression 頁。第46頁,共56頁。4.6.4 結(jié)果分析of59474.6實戰(zhàn):第四章 回歸準備好創(chuàng)建模型后,單擊 Start。第47頁,共56頁。4.6.4 結(jié)果分析of59484.6實戰(zhàn):第四章 回歸得到回歸模型的預測輸出公式sellingPrice = (-26.6882 * houseSize) + (7.0551 * lotSize) + (43166.0767 * bedrooms) + (42292.0901 * bathroom) - 21661.1208把我的房屋的相關(guān)數(shù)據(jù)輸入,就得到我的房屋的價格sellingPrice = (-26.6882 *

24、3198) + (7.0551 * 9669) + (43166.0767 * 5) + (42292.0901 * 1) - 21661.1208sellingPrice = 219,328第48頁,共56頁。4.6.4 結(jié)果分析of59494.6實戰(zhàn):第四章 回歸除了房屋價格,還得到如下信息:1. 花崗石無關(guān)緊要 WEKA 將只使用在統(tǒng)計上對模型的正確性有貢獻的那些列(以 R-squared 量度,但這超出了本文的范圍)。它將會拋棄并忽視對創(chuàng)建好的模型沒有任何幫助的那些列。所以這個回歸模型告訴我們廚房里的花崗石并不會影響房子的價值。2. 衛(wèi)生間是有關(guān)系的 因衛(wèi)生間使用了簡單的 0 或 1

25、值,所以我們可以使用來自回歸模型的這個系數(shù)來決定衛(wèi)生間的這個值對房屋價值的影響。這個模型告訴我們它使房子的價值增加了 $42,292。3. 較大的房子價格反而低 WEKA 告訴我們房子越大,銷售價格越低?這可以從 houseSize 變量前面負的系數(shù)看出來。此模型告訴我們房子每多出一平方英尺都會使房價減少 $26?這根本沒有意義。這是無用數(shù)據(jù)入、無用數(shù)據(jù)出的一個很好的例子。房子的大小并不是一個自變量,它還與臥室變量相關(guān),因為房子大通常臥室也多。所以我們的模型并不完美。但是我們可以修復這個問題。在 Preprocess 選項卡,可以從數(shù)據(jù)集中刪除列。對于本例,我們刪除 houseSize 列并創(chuàng)建另一個模型。那么它會如何影響房子的價格呢?這個新模型又

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論