回歸分析線性回歸Logistic回歸對數(shù)線性模型.ppt_第1頁
回歸分析線性回歸Logistic回歸對數(shù)線性模型.ppt_第2頁
回歸分析線性回歸Logistic回歸對數(shù)線性模型.ppt_第3頁
回歸分析線性回歸Logistic回歸對數(shù)線性模型.ppt_第4頁
回歸分析線性回歸Logistic回歸對數(shù)線性模型.ppt_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、退貨分析線性退貨邏輯回歸對數(shù)線性模型,吳喜志,2,退貨分析,顧客對商品和服務(wù)的反映對企業(yè)來說非常重要,但僅僅滿足顧客的比例是不夠的,企業(yè)想知道哪些因素影響顧客的看法,這些因素是如何工作的。一般來說,統(tǒng)計可以根據(jù)人們目前所擁有的信息(數(shù)據(jù))來建立人們關(guān)心的變量與其他相關(guān)變量(稱為模型)之間的關(guān)系。如果y用于表示感興趣的變量,x用于表示可能相關(guān)的其他變量(可能是由幾個變量組成的向量)。需要的是建立一個函數(shù)關(guān)系Y=f(X)。這里y被稱為因變量或響應(yīng)變量,而x被稱為自變量或解釋變量或協(xié)變量。建立這種關(guān)系的過程叫做返回。3,收益分析,一旦建立了收益模型,我們就可以對各變量之間的關(guān)系有進一步的定量了解,我

2、們也可以用這個模型(函數(shù))通過自變量來預測因變量。這里所說的預測是通過模型利用已知的獨立變量值來估計未知的因變量值;它不一定涉及時間序列的概念。有50名學生從初中升到了高中。為了比較三年級和高中的成績是否相關(guān),獲得了三年級和一年級學生的平均成績(數(shù)據(jù):highschool.sav)。從這幅畫中能看到什么?5,有定性變量,在這個數(shù)據(jù)中,除了三年級和一年級,還有一個定性變量,即一年級學生的家庭收入;它有三個級別:低、中、高,在數(shù)據(jù)中分別用1、2、3表示。6,還有定性變量,下面是一年級和一年級與三年級三個收入差異的方框圖,7,案例1:相關(guān)系數(shù),8,SPSS相關(guān)分析,相關(guān)分析(hischool.sav

3、)利用SPSS選項:AnalizeCorrelateBivariate變量,然后選擇兩個相關(guān)變量(這里是j3和s1),選擇皮爾森,斯皮曼和肯德爾。9,定量變量的線性回歸分析,示例1中兩個變量的數(shù)據(jù)的線性回歸是為了找到一條直線來最好地表示散點圖中的那些點。10、測試問題等。對于系數(shù)b1=0的測試,對于擬合f檢驗R2(確定系數(shù))SSR/SST,它可能由于獨立變量的增加而增加(有一個根據(jù)自由度修改的確定系數(shù):調(diào)整后的R2),并且R等于簡單回歸中的相關(guān)系數(shù),11,回到示例1: R2等。12,SPSS的回歸分析,線性回歸分析(hischool.sav),當獨立變量和因變量都是定量變量時,使用SPSS選項

4、:AnalizeRegressionLinear,然后選擇相關(guān)的獨立變量作為自變量,因變量作為因變量,然后確定。如果有多個獨立變量(多元回歸模型),它們都可以選擇。,多元自變量的回歸,如何解釋擬合線?什么是逐步返回方法?14,示例:RISKFAC.sav,不包括序列號和(192)個國家,有21個變量,包括地區(qū)、清潔水的使用(在城鎮(zhèn)和鄉(xiāng)村)、生活污水處理、酒精消耗(升/年人)、醫(yī)生人數(shù)(每10,000人)、護士和助產(chǎn)士人數(shù)、衛(wèi)生工作者人數(shù)、醫(yī)院床位數(shù)、護士和助產(chǎn)士與醫(yī)生的比例、衛(wèi)生支出占總支出的比例、成人識字率、人均收入美元、每1,000名新生兒中5歲前死亡人數(shù), 人口增長率,預期壽命(年),每

5、100,000名新生兒中母親的死亡人數(shù),15,16,例如:RISKFAC.sav,這一數(shù)據(jù)中有許多相關(guān)變量和許多缺失值。 假設(shè)應(yīng)該使用各種變量來描述五歲前的死亡人數(shù)(因變量)。你可以做定量變量的成對相關(guān)或成對散點圖等。或者使用逐步返回來消除變量,以便找出關(guān)系的細節(jié)。17,示例:RISTFAC . sav :相關(guān)性,18,示例:RISTFAC . sav :逐步回歸,選擇婦女預期壽命和農(nóng)村清潔水作為獨立變量(第二個獨立變量相對不太重要,p值=0.019),模型:婦女預期壽命模型:農(nóng)村清潔水,19,RISTFAC . sav:散點圖和獨立變量相關(guān)性皮爾遜相關(guān)性,20,RISTFAC . sav:散

6、點圖和獨立變量相關(guān)性非參數(shù)測量,KendallSpearman,21,介紹Levarage值。它描述了到數(shù)據(jù)總體的距離。高杠桿點對收益率參數(shù)有很大影響,但其殘差通常很小。庫克統(tǒng)計。它結(jié)合了剩余誤差和杠桿價值,因此它反映了剩余誤差和杠桿的影響(更全面)。整個模型(兩個獨立變量:女性預期壽命和農(nóng)村清潔水),23,風險因素分析系統(tǒng):整個模型中異常點的診斷:殘差,96(萊索托),23(博茨瓦納),153(塞拉利昂),11模型:女性預期壽命模型:農(nóng)村清潔水,24,風險因素分析系統(tǒng):整個模型中異常點診斷的高杠桿點,23(博茨瓦納),140(羅馬尼亞),192(津巴布韋),模型:女性預期壽命模型:農(nóng)村清潔水

7、,25,風險因素分析系統(tǒng)140(羅馬尼亞),模型:女性預期壽命模型:農(nóng)村清潔水,26,模型1因變量和獨立變量散點圖X:女性預期壽命(年數(shù))Y:每千名出生人口中5歲前死亡人數(shù),27,RISCFAC . sav:僅女性預期壽命用作獨立變量,模型:全模型:農(nóng)村清潔水,28,RISCFAC . sav模型1異常點診斷殘差,23(博茨瓦納),96(萊索托),192(津巴布韋),模型:全模型:農(nóng)村清潔水,29,RISCFAC . sav 異常點診斷的高杠桿點并不突出,模型:全模型:農(nóng)村清潔水,30,RISCFAC . sav:異常點診斷的庫克距離,192(津巴布韋),96(萊索托),23(博茨瓦納),模型

8、:全模型:農(nóng)村清潔水模型2的因變量和自變量的散點圖x:農(nóng)村清潔水使用y:每千名出生人口中5歲前的死亡人數(shù),32,RISCFAC . sav:僅農(nóng)村清潔水使用,模型:全模型模型:女性預期壽命,33,140(羅馬尼亞),RISCFAC . sav:農(nóng)村清潔水使用模型2:異常點診斷的高杠桿點不突出,模型:全模型:女性預期壽命,35,模型2:異常點診斷的庫克距離,140(羅馬尼亞),模型3:全模型:女性預期壽命,36。解釋這個例子的結(jié)果,它們可能不適合這個模型。模型2(對應(yīng)模型)的“異常點”是羅馬尼亞;它可能不適合此型號。從散點圖來看,第一個模型更加線性。兩個獨立變量模型的“異常值”是單個模型的“異常

9、值”的混合。事實上,一個獨立變量就足夠了。這兩個獨立變量是相關(guān)的。當然是第一個。也許最好去掉異常點,然后重新建模。,37,自變量中有定性變量,在例1的數(shù)據(jù)中,也有一個定性變量“收入”,它以虛擬變量或虛擬變量的形式出現(xiàn);這里,“低”、“中”和“高”的收入用1、2和3表示。因此,使用該假人進行之前的返回是不合理的。以例1的數(shù)據(jù)為例,下面的模型可以用來描述:和38,以及自變量中帶有定性變量的收益率?,F(xiàn)在,只需估計b0、b1、A1、A2和A3。假人本身的每個參數(shù)a1、a2、a3只有相對重要性,因此不可能估計所有三個參數(shù),只能在約束條件下進行。約束條件有多種選擇。默認條件之一是將參數(shù)設(shè)置為0,例如a3=

10、0,這樣就可以估計出a1和a2,這兩個參數(shù)具有相對的含義。對于示例1,B0、B1、A1、A2和A3的估計值分別為28.708、0.688、-11.066、-4.679和0。此時,有三條擬合線,三個家庭收入各有一條為33,360,39,例如:RISKFAC.sav:因變量:成人識字率,自變量:地區(qū)(屬性變量),人口增長率,人均收入,40,41,SPSS實現(xiàn)(hischool.sav),分析一般線性模型單變量,在選項中選擇參數(shù)估計,然后在主對話框中選擇因變量(s1),協(xié)變量(j3)和因素(收入)。然后單擊“模型”,在“指定模型”中選擇“自定義”,在右側(cè)選擇兩個相關(guān)的獨立變量,并在以下“建筑術(shù)語”中

11、選擇“主要效果”。繼續(xù)-好,你得到結(jié)果(系數(shù)和測試等)。)。SPSS語法:單因素方差分析S1按收入與JBOY3樂隊/方法=SS類型(3)/截距=包含/標準=(05)/設(shè)計=收入JBOY3樂隊。43歲。注意這里的線性回歸只是回歸,然而,任何模型都是近似的;線性回歸當然沒有什么不同。長期以來,人們對它進行了廣泛而深入的研究,主要是因為它在數(shù)學上比較簡單。它已經(jīng)成為其他回歸的基礎(chǔ)。這些模型應(yīng)該總是被批判性地看待。44,示例2這是200個不同年齡和性別的人對服務(wù)產(chǎn)品的認知數(shù)據(jù)。年齡是一個連續(xù)變量,性別是一個定性變量,有男性和女性兩個級別(分別用1和0表示),而(定性)變量“觀點”是一個定性變量,有兩個

12、級別的認可(用1表示)和不認可(用0表示)。從這兩幅圖中你能看到什么?45,邏輯回歸,示例2是關(guān)于200個不同年齡和性別的人對服務(wù)產(chǎn)品的看法的數(shù)據(jù)(二元定性變量)。這里,視圖是只有兩個值的因變量;然而,與簡單的伯努利檢驗不同,這里的概率p是年齡和性別的函數(shù)。可以假設(shè)下面的(邏輯回歸)模型,46,邏輯回歸,被擬合到一個沒有性別作為獨立變量(只有年齡x)的模型,以便逐漸接近,47,并且邏輯回歸模型的擬合結(jié)果很容易得到b0和b1分別估計為2。合適的型號是,48。Logistic模型的擬合結(jié)果,結(jié)合性別變量,顯示b0,b1和a0,a1分別估計為1.722,-0.072,1.778和0。可以看出,當男女

13、混合時,年齡的影響與男女相似(0.069),而女性比男性更有可能被認可(A0,49,擬合的年齡概率圖,50,hos mer-lemeshow-fit-善良,其中p=0.602(不顯著)。請注意,在這里是“重要的”,這意味著配件不好!51,SPSS邏輯回歸(logi.sav),當自變量是一個數(shù)量變量時:使用SPSS選項:分析回歸二元邏輯回歸,然后選擇因變量(意見)和自變量(年齡)成協(xié)變量,就可以得到結(jié)果。當獨立變量是數(shù)量變量和數(shù)量變量時:使用SPSS意見:分析回歸二元邏輯,然后選擇因變量,選擇獨立變量(年齡和性別)為協(xié)變量,然后單擊分類。選擇定性變量性別進入定性協(xié)變,并返回主對話框。您可以在選項

14、中選擇Hosmer-Leme顯示擬合優(yōu)度測試,然后單擊確定獲得結(jié)果。對數(shù)線性模型,多元對數(shù)線性模型,泊松對數(shù)線性模型,53,高維列聯(lián)表和多元對數(shù)線性模型。上例中的原始數(shù)據(jù)是一個三維列聯(lián)表,三維列聯(lián)表的測試是相似的。然而,在計算機軟件中,高維列聯(lián)表的選項可以不同,并且可以構(gòu)建所謂的(多項分布)對數(shù)線性模型用于分析。使用對數(shù)線性模型的優(yōu)點是,它不僅可以直接預測,而且還可以添加定量變量作為模型的一部分。54,多項式分布的對數(shù)線性模型?,F(xiàn)在,我們通過二維表格簡單直觀地介紹對數(shù)線性模型,假設(shè)不同的行代表第一個變量的不同級別,不同的列代表第二個變量的不同級別。用mij表示二維列聯(lián)表第I行和第j列的頻率。人

15、們經(jīng)常假設(shè)這個頻率可以由下面的公式來確定:這就是所謂的多項式分布的對數(shù)線性模型。這里ai是行變量的第I級對ln(mij)的影響,而bj是列變量的第jth級對ln(mij)的影響。這兩種影響被稱為主要影響。Eij代表隨機誤差。55,一個多項式分布的對數(shù)線性模型,它看起來非常類似于回歸模型,但由于對分布的不同假設(shè),它不能簡單地應(yīng)用于線性回歸方法(類似于邏輯回歸);計算過程也非常不同。當然,我們把這個留給電腦去擔心。只要用數(shù)據(jù)來擬合這個模型,就可以得到參數(shù)m(無意義)的估計以及ai和bj的“估計”。利用估計的參數(shù),我們可以預測I和j的任何水平組合的頻率mij(通過其對數(shù))。注意,這里引用估計的原因是因為變量的每個級別的影響都是相對的,所以僅通過預先固定參數(shù)值(例如a1=0)或設(shè)置類似Sai=0的約束就可以估計每個值。沒有約束,這些參數(shù)就無法估計。56,多項式分布的對數(shù)線性模型,以及更完整的二維列聯(lián)表的對數(shù)線性模型,其中(ab)ij表示第一變量的ith水平和第二變量的jth水平對ln(mij)的聯(lián)合影響(交叉效應(yīng))。也就是說,當單獨行動時,每個變量的一個級別對ln(mi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論