線性回歸與邏輯回歸模型_第1頁(yè)
線性回歸與邏輯回歸模型_第2頁(yè)
線性回歸與邏輯回歸模型_第3頁(yè)
線性回歸與邏輯回歸模型_第4頁(yè)
線性回歸與邏輯回歸模型_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1目錄線性回歸案例邏輯回歸23線性回歸1邏輯回歸案例42房屋應(yīng)用做一個(gè)房屋價(jià)值的評(píng)估系統(tǒng),一個(gè)房屋的價(jià)值來(lái)自很多地方,比如說(shuō)面積、房間的數(shù)量(幾室?guī)讖d)、地段、朝向等等,這些影響房屋價(jià)值的變量被稱(chēng)為特征(feature) 。在此處,為了簡(jiǎn)單,假設(shè)我們的房屋就是一個(gè)變量影響的,就是房屋的面積。假設(shè)有一個(gè)房屋銷(xiāo)售的數(shù)據(jù)如下:3線性回歸及其模型線性回歸,是利用數(shù)理統(tǒng)計(jì)中回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴(lài)的定量關(guān)系的一種統(tǒng)計(jì)分析方法。其表達(dá)形式為 y = wx+e,e為誤差服從均值為0的正態(tài)分布。 wj是系數(shù),W就是這個(gè)系數(shù)組成的向量,它影響著不同維度的j(x)在回歸函數(shù)中的影響度,比如說(shuō)對(duì)

2、于房屋的售價(jià)來(lái)說(shuō),房間朝向的w一定比房間面積的w更小。(x)可以換成不同的函數(shù),不一定要求(x)=x假設(shè)特征和結(jié)果都滿(mǎn)足線性。收集的數(shù)據(jù)中,每一個(gè)分量,就可以看做一個(gè)特征數(shù)據(jù)。每個(gè)特征至少對(duì)應(yīng)一個(gè)未知的參數(shù)。這樣就形成了一個(gè)線性模型函數(shù),向量表示形式:4回歸問(wèn)題的常規(guī)步驟p 尋找模型函數(shù);p 構(gòu)造J函數(shù)(損失函數(shù));p 最小化J函數(shù)并求得回歸參數(shù)(w)5線性回歸的損失函數(shù)誤差最小。模型與數(shù)據(jù)差的平方和最小:最小二乘法梯度下降法模型函數(shù):損失函數(shù)6線性回歸的兩個(gè)用途p 如果目標(biāo)是預(yù)測(cè)或者映射,線性回歸可以用來(lái)對(duì)觀測(cè)數(shù)據(jù)集的和X的值擬合出一個(gè)預(yù)測(cè)模型。當(dāng)完成這樣一個(gè)模型以后,對(duì)于一個(gè)新增的X值,在

3、沒(méi)有給定與它相配對(duì)的y的情況下,可以用這個(gè)擬合過(guò)的模型預(yù)測(cè)出一個(gè)y值。這是比方差分析進(jìn)一步的作用,就是根據(jù)現(xiàn)在,預(yù)測(cè)未來(lái)。雖然,線性回歸和方差都是需要因變量為連續(xù)變量,自變量為分類(lèi)變量,自變量可以有一個(gè)或者多個(gè),但是,線性回歸增加另一個(gè)功能,也就是憑什么預(yù)測(cè)未來(lái),就是憑回歸方程。這個(gè)回歸方程的因變量是一個(gè)未知數(shù),也是一個(gè)估計(jì)數(shù),雖然估計(jì),但是,只要有規(guī)律,就能預(yù)測(cè)未來(lái)。p 給定一個(gè)變量y和一些變量X1,.,Xp,這些變量有可能與y相關(guān),線性回歸分析可以用來(lái)量化y與Xj之間相關(guān)性的強(qiáng)度,評(píng)估出與y不相關(guān)的Xj,并識(shí)別出哪些Xj的子集包含了關(guān)于y的冗余信息。7目錄線性回歸案例邏輯回歸23線性回歸1

4、邏輯回歸案例48線性回歸案例分析案例9目錄線性回歸案例邏輯回歸23線性回歸1邏輯回歸案例4案例引入在致癌因素的研究中,我們收集了若干人的健康記錄,包括年齡、性別、抽煙史、日常飲食以及家庭病史等變量的數(shù)據(jù)。響應(yīng)變量在這里是一個(gè)兩點(diǎn)(0-1)分布變量,Y=1(一個(gè)人得了癌癥),Y=0(沒(méi)得癌癥)。如果我們建立一般線性模型:) 1.(.(Y)E22110kkXXX10模型解釋因?yàn)閅只能取0或1,而 的取值是連續(xù)的。顯然不能用 來(lái)預(yù)測(cè)因變量 Y 。我們注意到,對(duì)于0-1型變量, E(Y)=P(Y=1)=p因而,我們似乎可以用 來(lái)預(yù)測(cè)Y=1的概率,即:(Y)E(Y)E(Y)E)2.(.p22110kkX

5、XX11概率與自變量之間的關(guān)系圖形往往是一個(gè)概率與自變量之間的關(guān)系圖形往往是一個(gè)S型型曲線曲線概率與自變量之間的關(guān)系曲線模型解釋12模型解釋我們可以通過(guò)對(duì)P進(jìn)行一種變換(logit變換) logit(p)= ln(p/(1-p)使得logit(p)與自變量之間存在線性相關(guān)的關(guān)系。)3.()(logit1ln22110kkXXXppp)(exp11)exp(1)exp(110110110kkkkkkXXXXXXp13同時(shí),經(jīng)過(guò)變換得到的模型也解決了(同時(shí),經(jīng)過(guò)變換得到的模型也解決了(2 2)中,概率的預(yù)測(cè)值)中,概率的預(yù)測(cè)值可能是可能是0,10,1之外的數(shù)的缺陷。之外的數(shù)的缺陷。(3 3)式建立

6、的模型,我們稱(chēng)為)式建立的模型,我們稱(chēng)為logisticlogistic模型模型(邏輯回歸邏輯回歸模模型)。型)。模型解釋14最終,我們可能關(guān)心的是根據(jù)自變量的值來(lái)對(duì)最終,我們可能關(guān)心的是根據(jù)自變量的值來(lái)對(duì)Y的取值的取值0或或1進(jìn)進(jìn)行預(yù)測(cè)。而我們的邏輯回歸模型得到的只是關(guān)于行預(yù)測(cè)。而我們的邏輯回歸模型得到的只是關(guān)于PY=1|x的的預(yù)測(cè)。預(yù)測(cè)。但是,我們可以根據(jù)模型給出的但是,我們可以根據(jù)模型給出的Y=1的概率(可能性)的大小的概率(可能性)的大小來(lái)判斷預(yù)測(cè)來(lái)判斷預(yù)測(cè)Y的取值。的取值。一般,以一般,以0.5為界限,預(yù)測(cè)為界限,預(yù)測(cè)p大于大于0.5時(shí),我們判斷此時(shí)時(shí),我們判斷此時(shí)Y更可更可能為能為

7、1,否則認(rèn)為,否則認(rèn)為Y=0。1516邏輯回歸Logistic回歸與多重線性回歸實(shí)際上有很多相同之處,最大的區(qū)別就在于它們的因變量不同,其他的基本都差不多。正是因?yàn)槿绱耍@兩種回歸可以歸于同一個(gè)家族,即廣義線性模型(generalizedlinear model)。Logistic回歸主要在流行病學(xué)中應(yīng)用較多,比較常用的情形是探索某疾病的危險(xiǎn)因素,根據(jù)危險(xiǎn)因素預(yù)測(cè)某疾病發(fā)生的概率,等等。例如,想探討胃癌發(fā)生的危險(xiǎn)因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,自變量就可以包括很多了,例如年齡、性別、飲食習(xí)慣

8、、幽門(mén)螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類(lèi)的。17邏輯回歸的IIA效應(yīng)邏輯回歸的“Independent and irrelevant alternatives”假設(shè),也稱(chēng)作“IIA效應(yīng)”,指Logit模型中的各個(gè)可選項(xiàng)是獨(dú)立的不相關(guān)的。如:市場(chǎng)上有A,B,C三個(gè)商品相互競(jìng)爭(zhēng),分別占有市場(chǎng)份額:60%,30%和10%,三者比例為:6:3:1一個(gè)新產(chǎn)品D引入市場(chǎng),有能力占有20%的市場(chǎng)如果滿(mǎn)足IIA假設(shè),各個(gè)產(chǎn)品獨(dú)立作用,互不關(guān)聯(lián):新產(chǎn)品D占有20%的市場(chǎng)份額,剩下的80%在A、B、C之間按照6:3:1的比例瓜分,分別占有48%,24%和8%。如果不滿(mǎn)足IIA假設(shè),比如新產(chǎn)品D跟產(chǎn)品B幾乎相同,則新產(chǎn)品D跟產(chǎn)品B嚴(yán)重相關(guān):新產(chǎn)品D奪去產(chǎn)品B的部分市場(chǎng),占有總份額的20%,產(chǎn)品B占有剩余的10%,而產(chǎn)品A和C的市場(chǎng)份額保持60%

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論