市場調(diào)查與預(yù)測課件：回歸分析預(yù)測方法

上傳人：熊*** IP屬地：山東上傳時間：2024-02-24 格式：PPTX 頁數(shù)：101 大小：2.30MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩96頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

回歸分析預(yù)測方法本章內(nèi)容：13.1一元線性回歸模型分析13.2多元線性回歸模型分析13.3邏輯回歸模型分析學(xué)習(xí)目標：掌握一元線性回歸模型分析的基本原理；掌握利用多元回歸模型分析變量間因果關(guān)系和預(yù)測的方法；掌握利用邏輯回歸模型分析定性因變量和自變量之間關(guān)系的方法；理解和掌握各個模型的解釋和說明的技巧。13.1一元線性回歸模型分析回歸分析是一種研究變量間因果關(guān)系的方法，不僅可以揭示自變量對因變量是否有影響以及影響的大小，而且還可以用回歸方程進行預(yù)測?；貧w分析中的因變量是隨機變量，處在被解釋的地位；自變量是用于解釋因變量的，通常假定是非隨機變量?；貧w分析與研究變量間的相關(guān)關(guān)系不同，相關(guān)關(guān)系中的變量地位是平等的，沒有解釋和被解釋的關(guān)系要求，且變量都是隨機變量。因此，回歸分析中具有因果關(guān)系的變量一定具有相關(guān)關(guān)系，但是具有相關(guān)關(guān)系的變量不一定具有因果關(guān)系。13.1一元線性回歸模型分析回歸模型是描述因變量如何依賴于自變量和隨機誤差項的方程。線性回歸分析是調(diào)研人員經(jīng)常使用的研究變量間關(guān)系和預(yù)測建模的方法。在市場調(diào)研中，線性回歸模型可以被廣泛用于分析影響市場占有率、銷售量、利潤額的因素，并對其發(fā)展進行預(yù)測。一元線性回歸模型分析的主要步驟：（１）根據(jù)研究需要選擇自變量和因變量，繪制散點圖；（２）根據(jù)變量數(shù)據(jù)類型選擇適當?shù)幕貧w模型；（３）進行回歸模型的參數(shù)估計；（４）進行回歸模型的檢驗；（５）進行市場預(yù)測。13.1.1構(gòu)建一元線性回歸模型一元線性回歸模型是只涉及一個自變量x和因變量y之間關(guān)系的模型。一元線性回歸在一定的精確度下估計因變量和自變量之間的相關(guān)關(guān)系，并依據(jù)回歸模型對因變量進行預(yù)測。模型顯示，變量y和x之間的關(guān)系由兩個部分來描述：一是確定性函數(shù)關(guān)系，由回歸函數(shù)β０＋β１x給出，解釋由x的變化而引起的y的變化的部分；二是隨機誤差項ε，恰恰是隨機誤差項的引入，才使變量間的關(guān)系可以被描述為一個隨機方程。對上述模型兩邊求數(shù)學(xué)期望，可得總體回歸方程：該方程反映了總體的平均變化規(guī)律，即在給定x的條件下y分布的均值，ε是隨機誤差項。在方程中，β０和β１稱為總體回歸參數(shù)，也叫回歸系數(shù)。β０是截距項，是x＝０時y的（條件）均值；β１是斜率，斜率系數(shù)表明x每變動一單位，y（條件）均值的變化率為β１，平均變化值為β１x。在實際研究中，我們很難獲得總體的數(shù)據(jù)，因此通常會通過抽樣調(diào)查獲得樣本數(shù)據(jù)，并用樣本觀測值來估計參數(shù)。假設(shè)從總體中抽取了n對觀察值，分別為（x１，y１），（x２，y２），…，（xn，yn），對于第i個x值，我們可以針對樣本數(shù)據(jù)擬合一個回歸方程，這個方程被稱作樣本回歸方程，也稱作經(jīng)驗回歸方程。對于x和y的n對觀察值之間的關(guān)系可以有多條直線來描述，研究者關(guān)心的是：如何從多條直線中選擇一條最佳擬合的直線。判斷的標準可以確定為：使模型擬合的總誤差（也稱作總離差）達到最小。達到這個目標的方法有多種，最常用的方法是普通最小二乘法（OLS）。13.1.2估計回歸系數(shù)及誤差（１）估計回歸系數(shù)。所謂最小二乘法，就是估計回歸系數(shù)，尋找參數(shù)β０，β１的估計值通過回歸模型擬合一條最好的趨勢線，以滿足所有數(shù)據(jù)的觀察值與估計值的殘差平方和最小，即：根據(jù)微積分求導(dǎo)數(shù)的極值定理，可以得出一元線性回歸方程的估計系數(shù)為：（２）參數(shù)估計誤差。參數(shù)估計誤差是指估計值與真值β１的偏差。樣本不同，估計的誤差大小也不同，因此誤差是一個隨機變量，需要考慮其平均誤差。參數(shù)估計量的平均誤差為：（3）置信區(qū)間。按照給定的可靠程度確定估計系數(shù)的取值范圍。構(gòu)建t統(tǒng)計量為：在一定的置信水平１－α下，根據(jù)t分布表查得tα／２（n-2）的臨界值，使得:進而推出參數(shù)β１的置信區(qū)間為：同理?？傻脜?shù)β０在置信水平為１－α?xí)r的置信區(qū)間為：在構(gòu)建了回歸方程，估計了回歸系數(shù)后，必須對構(gòu)建的回歸方程進行檢驗和診斷。一般利用判定系數(shù)R２檢驗擬合優(yōu)度；利用相關(guān)系數(shù)r檢驗自變量和因變量之間的相關(guān)程度；利用F檢驗法檢驗回歸方程的顯著性；利用t檢驗法檢驗回歸系數(shù)的顯著性。13.1.3回歸方程的擬合優(yōu)度檢驗（１）判定系數(shù)R２。擬合優(yōu)度檢驗通常可以用判定系數(shù)R２來測量，它是建立在對總離差平方和進行分析的基礎(chǔ)之上的。在一元線性回歸模型中，觀察值yi的取值是上下波動的，這種波動被稱作變差。變差的大小可以通過觀察值yi與其算數(shù)平均數(shù)的離差來表示。全部n次觀察值的總變差可以用總離差的平方和來表達：。在y的總體變化中，能夠被回歸模型解釋的部分越多，那么模型的擬合誤差相對就越小。我們可以用回歸平方和占總離差平方和的比重作為檢驗樣本擬合優(yōu)度的指標，稱作判定系數(shù)，記作R２，表達式為：（２）相關(guān)系數(shù)r。相關(guān)系數(shù)r是一元線性回歸方程中用來衡量自變量和因變量之間相關(guān)程度的重要指標，其值是判定系數(shù)的平方根。相關(guān)系數(shù)r的取值范圍為－１≤r≤１。當r＝０時，說明自變量的變動對總變差沒有任何影響，稱作零相關(guān)。當r＝±１時，說明總變差的變化完全是由自變量的變化引起的，稱作完全相關(guān)。當－１＜r＜１時，說明自變量的變動對總變差有部分影響，稱作普通相關(guān)。r值越大，表明相關(guān)程度越高。一般情況下，當r≥0.7，也就是R２≥0.49時，說明自變量的變動對總變差的影響占一半以上，稱作高度相關(guān)；當r＜0.3，也就是R２＜0.09時，說明自變量的變動對總變差的影響小于9%，稱作低度相關(guān)；當0.3≤r＜0.7，也就是0.09≤R２＜0.49時，說明自變量的變動對總變差的影響在9%～50％之間，稱作中等相關(guān)。13.1.4回歸方程的顯著性檢驗回歸方程的顯著性檢驗用于檢驗因變量和自變量之間的線性關(guān)系是否顯著。通常使用F統(tǒng)計量對回歸方程的顯著性進行檢驗。通過構(gòu)建F統(tǒng)計量進行檢驗的步驟：（１）提出假設(shè)。H０：β１＝０，自變量對因變量無影響。H１：β１≠０，自變量對因變量有影響。（２）構(gòu)建F統(tǒng)計量。（３）確定臨界值。給定顯著性水平α、分子自由度k和分母自由度n-k-1，查F分布表，可得臨界值Fα（k，n-k-1）。一元線性回歸方程中的k=1。（４）進行統(tǒng)計決策。將計算出的統(tǒng)計量F與Fα（k,n-k-1）進行比較。如果F＞Fα（k,n-k-1），則拒絕H０，接受H１，說明自變量對因變量有顯著影響，模型的線性關(guān)系是顯著的。如果F＜Fα（k,n-k-1），則不能拒絕H０，說明模型的線性關(guān)系不顯著，方程估計不可靠。13.15案例：便利店廣告費用對銷售額的影響分析按照經(jīng)濟理論和實踐經(jīng)驗，我們認為企業(yè)廣告費用支出可能影響銷售額。以某連鎖便利店為調(diào)查對象，獲得30家便利店的廣告費用x（萬元）和銷售額y（萬元）的數(shù)據(jù)。(樣表資料見表13.1）此章節(jié)內(nèi)容可以作為課程訓(xùn)練，幫助同學(xué)練習(xí)一元線性回歸方程的分析和檢驗。該部分的數(shù)據(jù)可從人大社網(wǎng)站下載，文件名為“ch13advertsimplereg”。按照課程第210-212頁上的相關(guān)步驟進行練習(xí)。先練習(xí)，后講解。綜上可以看出，一元線性回歸模型分析具有如下作用：（１）判定自變量是否能夠影響因變量，以識別二者之間是否存在關(guān)系；（２）判定自變量能夠在多大程度上解釋因變量，以識別二者之間的關(guān)系強度；（３）構(gòu)建自變量和因變量之間的數(shù)學(xué)表達模型，可以用來預(yù)測因變量。13.2多元線性回歸模型分析多元線性回歸分析的主要步驟是：（１）根據(jù)理論、經(jīng)驗和研究需要選擇自變量和因變量；（２）繪制散點圖（散點矩陣）；（３）根據(jù)變量數(shù)據(jù)類型建立回歸模型；（４）進行回歸模型的參數(shù)估計；（５）進行回歸參數(shù)和模型的檢驗；（６）利用回歸方程進行市場預(yù)測13.2.1多元線性回歸模型的表達和估計多元線性理論回歸模型的表達形式為：多元線性總體回歸模型的表達形式為：對上述模型兩邊求數(shù)學(xué)期望，可得多元線性樣本回歸方程：如果利用最小二乘法估計模型的參數(shù)，那么與一元線性回歸方程一樣，也要求殘差平方和達到最小。多元線性樣本回歸模型的估計方程為：與一元線性回歸方程不同，多元線性回歸方程的參數(shù)估計是對偏回歸系數(shù)進行的估計，用來表達各個自變量對因變量的影響。偏回歸系數(shù)的含義是：當控制變量保持不變時，自變量x１每變化一個單位所引起的y的預(yù)期平均變化幅度。同理，可以分別解釋的含義。在多元回歸分析中，所有自變量共同變動對因變量的影響，稱為復(fù)相關(guān)，用判定系數(shù)R２來表示，可以用來解釋總變差中由自變量解釋的比例。如果一個多元回歸分析中R２的值為0.92，這說明因變量變差的92%可由自變量來解釋。與一元線性回歸分析一樣，多元線性回歸分析也需要進行模型檢驗、系數(shù)檢驗。一是利用樣本決定系數(shù)R２的大小來衡量模型的擬合優(yōu)度。二是利用F統(tǒng)計量對回歸方程的顯著性進行檢驗，判斷原假設(shè)是否成立。三是利用t統(tǒng)計量來檢驗回歸模型中各個自變量對因變量的顯著性，即回歸系數(shù)顯著性檢驗。13.2.2多元回歸模型設(shè)定要注意的問題（１）變量選擇要合邏輯。（２）避免高共線性問題。（３）非線性模型設(shè)置。（４）當自變量為虛擬變量時的處理。（５）標準化系數(shù)。13.2.3案例：便利店銷售額的多因素影響分析某咨詢公司調(diào)查了某品牌20家便利店的年銷售額y（萬元）、平均每天經(jīng)過店鋪的車流量x１（輛）、兩公里范圍內(nèi)的居民數(shù)量x２（人）和月平均家庭收入x３（元）的數(shù)據(jù)?；诶碚摵徒?jīng)驗認知，研究者認為“平均每天經(jīng)過店鋪的車流量x１”、“兩公里范圍內(nèi)的居民數(shù)量x２”、“月平均家庭收入x３”三個變量對“年銷售額y”有顯著影響。數(shù)據(jù)見表13.2。此章節(jié)內(nèi)容可以作為課程訓(xùn)練，幫助同學(xué)練習(xí)多元線性回歸方程的分析和檢驗。該部分的數(shù)據(jù)可從人大社網(wǎng)站下載，文件名為“ch13multiplereg”。按照課程第216-219頁上的相關(guān)步驟進行練習(xí)。該練習(xí)需要使用軟件。（１）分析結(jié)果及解釋。利用spss26軟件進行回歸，輸出回歸分析的結(jié)果如下：根據(jù)數(shù)據(jù)分析的結(jié)果可得回歸方程的表達式為：回歸方程通過了t檢驗和F檢驗，這表明變量x１、x２、x３與y之間的線性關(guān)系顯著，或者說線性回歸方程是有效的。但這并不能保證數(shù)據(jù)擬合得很好，不能排除因為數(shù)據(jù)異常值、周期性因素干擾或其他意外原因而導(dǎo)致的數(shù)據(jù)不完全可靠。因此，分析工作到此并沒有結(jié)束，我們還應(yīng)該對數(shù)據(jù)是否滿足線性回歸模型的適用條件做進一步的分析。（２）利用殘差考察模型適用條件。線性回歸模型的適用條件均可以通過對殘差進行分析來判斷。模型的殘差有非標準化殘差、標準化殘差、學(xué)生化殘差、剔除殘差和學(xué)生化剔除殘差５種。當模型中的殘差項符合獨立性、正態(tài)性和方差齊性假定時，則可以應(yīng)用回歸方程進行點預(yù)測。對于本案例回歸方程，給定自變量值，可以估計銷售額的大小。①殘差的獨立性檢驗。殘差是否相互獨立，可以利用德賓沃森（Durbin-Watson)檢驗法進行判斷。該檢驗法構(gòu)建的DW統(tǒng)計量取值在０～４之間。若殘差正自相關(guān)，DW→０；若殘差負自相關(guān)，DW→４；若殘差不存在自相關(guān)或相關(guān)程度很小，DW→２。表13.7是DW檢驗判別表，用來判別檢驗結(jié)論。前文的表13.4顯示，SPSS輸出的德賓-沃森DW統(tǒng)計量的值為2.297。給定５％的顯著性水平，根據(jù)案例中變量個數(shù)３和樣本單位個數(shù)20，查DW檢驗表，可得：DW統(tǒng)計量相應(yīng)臨界值下限，臨界值上限。②殘差的正態(tài)性檢驗?？疾鞖埐钍欠穹恼龖B(tài)分布，可以通過繪制標準化殘差的直方圖、正態(tài)概率分布圖（Ｐ-Ｐ圖）來直觀判斷。利用SPSS軟件可以直接生成這些圖形。圖13.2展示了案例所擬合回歸模型的殘差直方圖和P-P圖?？梢钥闯?，回歸模型的殘差比較好地服從正態(tài)分布，基本上沒有嚴重偏離正態(tài)性假設(shè)。但是由于樣本數(shù)據(jù)比較少，對正態(tài)性分布有可能存在影響。③方差齊性檢驗?？疾鞖埐畹姆讲铨R性可以通過繪制因變量與各種殘差的散點圖進行觀察。圖13.3是SPSS軟件輸出的案例數(shù)據(jù)的回歸標準化預(yù)測值和回歸標準化殘差的散點圖，從中可以看出殘差基本上在參考線的上下范圍內(nèi)波動，且波動幅度較小，沒有殘差絕對值大于3的情況，符合回歸分析方差齊性的要求。13.3邏輯回歸模型分析邏輯回歸模型是當因變量是定性變量時的一類回歸模型。在市場調(diào)研中經(jīng)常會遇到因變量是定性變量的情況。例如，調(diào)查消費者是否購買過進口奶粉，消費者的購買行為就經(jīng)常被分為“購買過”和“未購買過”兩類。在把“消費者的購買行為”作為因變量時，因變量就是一個二分定性變量，取值只有兩個。當然，除了二分類的定性變量，三分類、五分類等多分類的定性變量也都可以作為因變量?；诙ㄐ砸蜃兞康姆诸愄攸c，邏輯回歸模型也有多種形式13.3.1從線性回歸到邏輯回歸的理論解釋假設(shè)線性回歸方程為。如果因變量y為定量數(shù)據(jù)，那么與前面介紹的多元線性回歸方程一樣，采用最小二乘法估計β１，β２，…，βk的值。當因變量yi的取值為０、１兩個值時，因變量均值為：因為y是０-１型貝努利隨機變量，所以當yi=1時概率分布為:當yi＝０時概率分布為：根據(jù)二分類離散型隨機變量的期望值定義，計算可得：進一步推導(dǎo)可得：這說明，當因變量只取值為０和１時，因變量均值總是代表給定自變量時y=1的概率。同時，當因變量是二分類變量時，模型估計違背了一般線性回歸方程的假設(shè)條件。（１）違背了誤差正態(tài)分布的假設(shè)。當因變量取值為０和１時，誤差項也只能取兩個值。這說明誤差項是兩點分布，不滿足線性回歸方程誤差正態(tài)分布的假設(shè)條件。（２）違背了誤差同方差的假設(shè)。當因變量取值為０和１時，誤差項εi保持零均值，但是εi的方差不相等。０-１型隨機變量εi的方差為：可見，誤差項εi

的方差隨著x的變化而變化，因此當誤差項εi是異方差的，不滿足線性回歸方程同方差的假設(shè)條件時，用最小二乘法進行模型估計的效果就不好。（３）回歸方程受到因變量取值的限制。在普通線性回歸方程中，右側(cè)自變量的取值不受限制，左側(cè)因變量的取值也不受限制；當回歸方程左側(cè)因變量的取值只為０和１時，方程右側(cè)的自變量取值仍然不受限制,但是左側(cè)因變量的取值則只有兩個，致使自變量和因變量之間的對應(yīng)關(guān)系與普通線性回歸方程不同，因變量均值０≤E(yi)≤１?；谝陨弦蜃兞渴嵌ㄐ宰兞康奶攸c，為了能夠繼續(xù)使用線性回歸的估計理念，統(tǒng)計學(xué)家就使用一個變換的方法，選擇了Logistic函數(shù)（也稱作邏輯函數(shù)）進行分析。13.3.2二元邏輯回歸模型的應(yīng)用當因變量是二分類變量時，通常應(yīng)用二元邏輯回歸模型進行分析。根據(jù)邏輯函數(shù)的表達式，將線性回歸方程改寫為如下形式：事件發(fā)生的概率：事件不發(fā)生的概率：令,表示事件發(fā)生的概率與事件不發(fā)生的概率之比。因此，odds被稱作比值、幾率。令表示實驗組事件發(fā)生的幾率odds1與對照組事件發(fā)生的幾率odds2的比值，因此，OR（oddsratio）被稱作比值比。進一步進行Logit變換，可得：令根據(jù)變換后的回歸模型可以估計參數(shù)值。邏輯回歸模型的估計一般采用最大似然法。似然比檢驗就是通過比較包含、未包含某個或某幾個參數(shù)的兩個模型的似然比值來判斷模型擬合的情況。令二元邏輯回歸案例：消費者新能源汽車購買意愿的影響因素分析。該案例用于學(xué)生訓(xùn)練使用，學(xué)生實際操作和教材具體講解相結(jié)合。案例數(shù)據(jù)資料可人大社網(wǎng)站下載，文件名為“ch13binarylogisticreg”。詳析參見教材第221-222頁。數(shù)據(jù)中變量描述：“消費者購買意愿”（will）為二分類因變量，令“有購買意愿”＝１,“無購買意愿”＝０?！跋M者的年齡”（age）和“消費者家庭年收入”（income）為定量自變量，數(shù)據(jù)類型是定距數(shù)據(jù)。“消費者對購買新能源汽車政府補貼政策的認知情況”（subsidy）為定類自變量，數(shù)據(jù)類型是定類數(shù)據(jù)；令“了解補貼政策”＝１，“不了解補貼政策”＝０。數(shù)據(jù)見表13.8。利用SPSS26版本進行二元邏輯回歸分析，可得如表13.9所示結(jié)果：在表１３．９顯示的輸出結(jié)果中，B是回歸系數(shù)估計量，EXP(B)是回歸系數(shù)估計量的指數(shù)形式；標準誤差是回歸系數(shù)估計量的標準差；瓦爾德是回歸系數(shù)檢驗的統(tǒng)計量值（Wald統(tǒng)計量值）；顯著性是瓦爾德檢驗的顯著性概率。邏輯回歸模型的作用主要有兩個：一是對經(jīng)濟現(xiàn)象中研究人員關(guān)注的可能影響因變量的因素進行分析;二是預(yù)測。在上述分析結(jié)果中，針對income變量對因變量的影響統(tǒng)計上不顯著的情況，如果研究人員是為了分析影響因變量的因素，而且有理論和經(jīng)驗支持收入可能影響人們購買意愿的研究假說，那么盡管income變量不是統(tǒng)計上顯著的，該變量也應(yīng)該保留在模型中，以顯示研究假說檢驗的結(jié)果。邏輯回歸方程可以表示為：回歸結(jié)果解釋：（１）age變量：輸出結(jié)果顯示該變量的瓦爾德統(tǒng)計量的值為48.698，數(shù)值比較大，且顯著性為0.000，說明該自變量對因變量具有統(tǒng)計上的顯著影響。在income和subsidy不變的情況下，age每增加1歲，odds（消費者對新能源汽車有購買意愿的幾率）的對數(shù)減少了0.310,折算對數(shù)形式，就表現(xiàn)為輸出結(jié)果中的exp(-0.310)=0.734，這意味著新能源汽車購買意愿的幾率降低了26.6%(0.734-1=-0.266)；也就是說，隨著年齡的增長，消費者購買新能源汽車的意愿下降。（２）income變量：輸出結(jié)果顯示該變量的瓦爾德統(tǒng)計量的值為1.230。數(shù)值比較小，且顯著性為0.267，說明income對因變量的影響不顯著。（３）subsidy變量：輸出結(jié)果顯示該變量的瓦爾德統(tǒng)計量的值為27.674，數(shù)值比較大，且顯著性為0.000，說明該自變量對因變量具有統(tǒng)計上的顯著影響。在age和income不變的情況下，subsidy每增加１單位，odds（消費者有新能源汽車購買意愿的幾率）的對數(shù)增加2.752，折算對數(shù)形式，就表現(xiàn)為輸出結(jié)果中的exp（2.752）=15.681，這意味著消費者新能源汽車購買意愿的幾率提高了14.681倍（15.681-1=14.681）；也就是說，隨著消費者對政府支持購買新能源汽車政策認知的提升，其購買新能源汽車的意愿會大幅度提升。如果邏輯回歸的目的是用于預(yù)測，那么研究者可以根據(jù)研究需要，剔除統(tǒng)計上不顯著的變量，重新運算回歸結(jié)果，以建立回歸預(yù)測模型（見表13.10）?？傻脴颖窘?jīng)驗回歸方程為：也可以將經(jīng)驗回歸方程寫成邏輯回歸方程形式：利用邏輯回歸方程，可以對消費者新能源汽車購買意愿做出預(yù)測。例如，對age=40，subsidy=0進行計算，可得：該結(jié)果表明，年齡為40歲、對新能源汽車的政府支持政策不了解的消費者，預(yù)期有新能源汽車購買意愿的概率為32%。13.3.3無序多分類邏輯回歸模型的應(yīng)用無序多分類邏輯回歸模型是指定性因變量y是超過兩個分類的多分類變量，且各分類沒有在順序上排列的模型。一般來講，因變量y的分類選項個數(shù)在３～８個之間。無序多分類邏輯回歸模型是一種非常實用的市場研究技術(shù)，適用于對市場決策進行分析。假設(shè)定性因變量y有m個類別，每個類別給予的數(shù)字符號記為１,２,…，m；一組個數(shù)為k的自變量為樣本數(shù)據(jù)為i=1,2，…，n表示有n組觀察者。

假定因變量的每個類別可能出現(xiàn)的概率為：將二分類邏輯回歸模型的基本原理推廣到多分類邏輯回歸模型，以P１為對照組，可得：對于m個分類的因變量，可以通過運行m-１個獨立二分類邏輯回歸模型進行分析。在上述表達式中，我們選擇了編號為１的分類作為對照組。無序多分類邏輯回歸模型案例：消費者愿意購買新能源汽車類型的影響因素分析數(shù)據(jù)來源：表數(shù)據(jù)可從人大社網(wǎng)站下載，文件名為“ch13unorderedlogisticreg”。變量設(shè)置：假定新能源汽車的類型為因變量，數(shù)據(jù)類型為三分類的定類數(shù)據(jù)。令“消費者愿意購買純電動汽車”=1，“消費者愿意購買混動汽車”＝２，“消費者愿意購買新型燃料汽車”＝３。數(shù)據(jù)見表13.11.利用SPSS26版本進行無序多分類邏輯回歸分析，可得結(jié)果如下：表13.12是軟件運行結(jié)果中首先輸出的因變量和離散型自變量不同取值水平的邊際頻數(shù)分布。表13.13是對模型中是否所有自變量偏回歸系數(shù)全為０進行的似然比檢驗。模型中只有截距項，沒有引入自變量時的-2對數(shù)似然（-2lnL）為241.018，引入自變量后減少至154.975，二者之差為86.042，即為卡方檢驗值，自由度為６，顯著性水平小于0.001。結(jié)果表明該模型中至少有一個自變量的偏回歸系數(shù)不為０。表13.14中的偽R2值反映了當前模型中自變量解釋的因變量的變異占因變量總變異的比例。通常對于邏輯回歸而言，模型偽決定系數(shù)的大小不會像線性回歸模型的決定系數(shù)那么大，這主要是因為分類自變量中所能容納的數(shù)據(jù)信息是有限的。對于分類數(shù)據(jù)的統(tǒng)計分析，可以不必太在意偽決定系數(shù)的高低。表13.15顯示模型中的定量自變量income具有統(tǒng)計上的顯著性，而age和subsidy則表現(xiàn)為統(tǒng)計上不顯著。表13.16給出了具體擬合的兩個模型中的參數(shù)估計結(jié)果。在回歸結(jié)果中，只有income是統(tǒng)計上顯著的，在其他因素不變的情況下，相對于“消費者愿意購買新燃料汽車”，消費者家庭收入每增長１萬元，“消費者愿意購買純電動車”的幾率下降4.8%；同理，“消費者愿意購買混動汽車”的幾率下降8.9%。模型參考類別為３，即以“消費者愿意購買新型燃料汽車”為對照組，可以擬合出兩個邏輯回歸模型。具體可以寫為：13.3.4有序多分類邏輯回歸模型的應(yīng)用與無序多分類邏輯回歸模型不同的是，有序多分類邏輯回歸模型的因變量是分類且有序的定性變量。例如，市場調(diào)查中關(guān)于產(chǎn)品滿意度、工作滿意度的劃分往往會采用“非常不滿意”“不滿意”“一般”“比較滿意”“非常滿意”這樣的分類方法，對產(chǎn)品滿意度從低到高進行五分類的評價，屬于有序多分類數(shù)據(jù)形式的變量，當然也可以是有序三分類、有序四分類的數(shù)據(jù)形式的變量。以有序五分類的因變量y為例，從低到高的取值分別為１，２，３，４，５，令因變量相應(yīng)取值的概率分別為：對k個自變量x１，x２，…，xk，因變量有序多分類邏輯回歸模型的假設(shè)前提之一是各自變量對因變量的影響在回歸方程中相同，因此各自變量的偏回歸系數(shù)只有一個。擬合４個模型如下：從上述模型的表達式可以看出，模型實際上依次將因變量按不同的取值水平分割成兩個等級，對這兩個等級建立因變量為二分類的邏輯回歸模型。此時，不管模型中因變量的分割點在什么位置，模型中各自變量的系數(shù)保持不變，改變的只有常數(shù)項，模型求出的犗犚值是自變量每改變一個單位、因變量提高一個及一個以上等級的比值比。需要注意的是，擬合模型中標識出的常數(shù)項前面的符號是負號，原因是此處的常數(shù)項表示低級別和高級別相比的結(jié)果，與之前的常數(shù)項含義不同。但是研究人員往往比較關(guān)心的是自變量系數(shù)的大小，因此這種差異的影響不大。有序多分類邏輯回歸模型分析案例：消費者氣候變化關(guān)注度的影響因素分析。數(shù)據(jù)來源：可從人大社網(wǎng)站下載，文件名為“ch13orderedlogisticreg”。分析中使用的因變量和自變量的設(shè)置見表13.17。此案例幫助學(xué)生學(xué)習(xí)有序多分類邏輯回歸模型的分析過程和解釋，學(xué)習(xí)如何應(yīng)用模型進行預(yù)測。分析過程參照教材第227-228頁。利用SPSS26版本進行的有序多分類變量的分析結(jié)果如下：首先，軟件輸出了因變量與離散型自變量不同取值水平的邊際頻數(shù)分布，此處省略。接著，軟件輸出了表13.18所示的模型擬合信息。似然比檢驗顯示：顯著性水平為0.000，小于0.001。結(jié)果表明該模型中至少有一個自變量的偏回歸系數(shù)不為０。也就是說，包含年齡、性別、是否關(guān)注環(huán)保宣傳、受教育水平等自變量的模型的擬合優(yōu)度好于僅包含常數(shù)項的模型。隨后，軟件輸出的是模型擬合優(yōu)度檢驗結(jié)果和偽R2，這兩部分內(nèi)容與之前的解釋是一樣的，此處省略。最后，最重要的參數(shù)估計結(jié)果見表13.19。因變量為５分類，所以建立４個回歸方程，有４個常數(shù)項。根據(jù)估計結(jié)果，可建立如下模型：模型中的常數(shù)項估計值直接就是負值，不需要再添加負號。偏回歸系數(shù)的解釋與二分類邏輯回歸模型的解釋原理上是一致的。結(jié)果表明：隨著年齡的增長，消費者對氣候變化的關(guān)注度會降低；性別對消費者氣候變化關(guān)注度在統(tǒng)計上沒有顯著性的影響；相對于關(guān)注環(huán)保宣傳的消費者，不關(guān)注環(huán)保宣傳對消費者對氣候變化的關(guān)注度有負向影響；教育水平越高的消費者對氣候變化的關(guān)注度越高。關(guān)于有序多分類邏輯回歸模型應(yīng)用的平行線檢驗。有序多分類邏輯回歸模型使用的一個前提條件是：各個回歸方程在多維空間中相互平行，也被稱作平行性假定。平行線檢驗的原假設(shè)是：各自變量對因變量的影響在各個回歸方程中是相同的。SPSS提供了該條件的檢驗方法，表13.20顯示了平行線檢驗的結(jié)果是顯著性水平為0.667，大于0.05，接受原假設(shè)，說明每個回歸方程是相互平行的，可以應(yīng)用有序多分類邏輯回歸模型進行分析。原假設(shè)指出，位置參數(shù)（斜率系數(shù)）在各個響應(yīng)類別中相同。如果進行有序多分類邏輯回歸分析的平行性假設(shè)不成立，那么可以考慮是否換一下關(guān)聯(lián)函數(shù)的形式，重新進行擬合分析。SPSS提供了5種關(guān)聯(lián)函數(shù)，見表13.21。在進行SPSS擬合分析時，一般會使用默認選項。如果各種關(guān)聯(lián)函數(shù)形式都不能滿足平行性假設(shè)條件，那么可以考慮使用無序多分類的邏輯回歸模型進行擬合分析，根據(jù)系數(shù)估計值的結(jié)果考慮進行下一步的數(shù)據(jù)處理。思考題：練習(xí)題１：參見教材第229頁上課后思考題的第2題。數(shù)據(jù)：1981-2018年國內(nèi)生產(chǎn)總值（億元）與全社會固定資產(chǎn)投資額（億元）的數(shù)據(jù)如表13.22所示(參見教材第229頁）。令國內(nèi)生產(chǎn)總值為y，固定資產(chǎn)投資額為x。電子版數(shù)據(jù)可從人大社網(wǎng)站下載，文件名為““ch13practice1”。任務(wù)：（１）請繪制x和y之間的散點圖，并從散點圖觀察和分析狓和狔之間是不是線性關(guān)系。是否可以建立一元線性回歸模型？（２）建立x和y之間的一元線性回歸方程，計算回歸系數(shù)估計值，并解釋回歸系數(shù)的含義。（３）在y的總變差中，擬合出來的回歸方程解釋了該變差的多少？（４）在置信水平α＝0.05下，分別利用相關(guān)系數(shù)、F檢驗法、t檢驗法對線性關(guān)系的顯著性進行檢驗，并對解釋結(jié)果進行比較和分析。（５）若2019年固定資產(chǎn)投資額為66100億元，在置信水平α＝０．０５下，預(yù)測2019年國內(nèi)生產(chǎn)總值的置信區(qū)間。練習(xí)題2：參見教材第229頁上課后思考題的第4題。利用SPSS自帶的數(shù)據(jù)文件“bankloan

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

市場調(diào)查與預(yù)測課件：回歸分析預(yù)測方法

文檔簡介

溫馨提示

最新文檔

評論

市場調(diào)查與預(yù)測課件：回歸分析預(yù)測方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔