版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語言第四章邏輯回歸邏輯回歸原理01邏輯回歸算法示例02模型理解03R編程04章節(jié)內(nèi)容4.1邏輯回歸原理圖4-1邏輯函數(shù)對應(yīng)的函數(shù)圖像
邏輯回歸模型簡介
邏輯回歸函數(shù)
邏輯回歸推導(dǎo)
邏輯回歸推導(dǎo)
4.2邏輯回歸算法示例現(xiàn)在已知兩套房子的面積和朝向以及房子好壞的信息,如下表所示。根據(jù)這些信息,利用邏輯回歸模型實(shí)現(xiàn)房子好壞的分類。房屋面積房屋朝向房屋好壞20011120204.2邏輯回歸算法示例1200111202
4.2邏輯回歸算法示例
4.2邏輯回歸算法示例第二輪迭代:
4.2邏輯回歸算法示例
4.3模型理解邏輯回歸模型的優(yōu)點(diǎn)邏輯回歸的基礎(chǔ)是線性回歸,對于問題的抽象相對容易。邏輯回歸使用廣泛,有著許多開源的資料。比如:邏輯回歸在R、Python、Java等眾多編程語言方面均有相應(yīng)的集成。數(shù)學(xué)角度講,邏輯回歸模型的參數(shù)估計(jì)很簡單,使用簡單的梯度下降方法便可以對模型的參數(shù)進(jìn)行估計(jì),并且可以保證找到最優(yōu)參數(shù)。邏輯回歸模型的參數(shù)估計(jì)可以通過可靠的統(tǒng)計(jì)理論進(jìn)行置信區(qū)間的檢驗(yàn),這相比于一些神經(jīng)網(wǎng)絡(luò)模型具有更好的可信度和解釋性。邏輯回歸模型簡單易懂,且易于拓展,從而適應(yīng)于不同的場景和任務(wù)。邏輯回歸模型不僅是一個分類模型,而且還提供概率。這與只能提供最終分類結(jié)果的模型相比,是一個很大的優(yōu)勢,通過概率可以更加清楚地知道某一樣本被劃分為某一類別的量化信息。4.3模型理解邏輯回歸模型的缺點(diǎn)邏輯回歸模型在預(yù)測性能方面通常不是很好,因?yàn)榭梢詫W(xué)習(xí)的關(guān)系非常有限,并且通常簡化了現(xiàn)實(shí)場景的復(fù)雜程度。邏輯回歸模型的解釋相比于線性回歸更困難,邏輯回歸可能會受到完全分離樣本的影響。4.4R編程本節(jié)利用R語言將邏輯回歸建模的整個過程進(jìn)行實(shí)踐。對于一個新的問題,邏輯回歸建模主要包括四個部分:數(shù)據(jù)導(dǎo)入、數(shù)據(jù)預(yù)處理、邏輯回歸模型訓(xùn)練、邏輯回歸模型驗(yàn)證。實(shí)例中使用R語言C50包中自帶數(shù)據(jù)集churnTrain和churnTest進(jìn)行建模過程的演示。數(shù)據(jù)集中共包含19個變量,其中“是否流失”、“州”、“國際長途計(jì)劃”、“信箱語言計(jì)劃”列作為因子型變量,其余變量均為數(shù)值型變量。區(qū)域編碼(area_code)變量對于整個模型的構(gòu)建過程沒有實(shí)際意義,因此后續(xù)對該變量進(jìn)行排除,實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理。數(shù)據(jù)導(dǎo)入install.packages("C50")
#導(dǎo)入相關(guān)庫library(C50)
#導(dǎo)入自帶的數(shù)據(jù)集data(churn)data(mlc_churn)#訓(xùn)練數(shù)據(jù)集train<-churnTrain#測試數(shù)據(jù)集test<-churnTeststr(train)輸出:該數(shù)據(jù)集是關(guān)于電信行業(yè)客戶流失的真實(shí)數(shù)據(jù)。數(shù)據(jù)集導(dǎo)入過程代碼如下:屬性名稱屬性解釋屬性示例數(shù)據(jù)類型state用戶所屬州AK字符串a(chǎn)ccount_length用戶對應(yīng)的賬號長度128整型international_plan用戶對應(yīng)的國際長途計(jì)劃yes/no(1/2)布爾類型voice_mail_plan用戶對應(yīng)的信箱語音計(jì)劃yes/no(1/2)布爾類型number_vmail_messages用戶對用的郵件信息25整型total_day_minutes用戶白天使用時長265整型total_day_calls用戶白天呼叫數(shù)110整型total_day_charge用戶白天轉(zhuǎn)接數(shù)45.1浮點(diǎn)型total_eve_minutes用戶傍晚使用時長197.4浮點(diǎn)型變量解釋如下:數(shù)據(jù)導(dǎo)入屬性名稱屬性解釋屬性示例數(shù)據(jù)類型total_eve_calls用戶傍晚呼叫數(shù)99整型total_eve_charge用戶傍晚轉(zhuǎn)接數(shù)16.78浮點(diǎn)型total_night_minutes用戶夜晚使用時長245整型total_night_calls用戶夜晚呼叫數(shù)91整型total_night_charge用戶夜晚轉(zhuǎn)接數(shù)11.01浮點(diǎn)型total_intl_minutes用戶國際長途使用時長10整型total_intl_calls用戶國際長途呼叫數(shù)3整型total_intl_charge用戶國際長途轉(zhuǎn)接數(shù)2.7浮點(diǎn)型number_customer_service_calls用戶服務(wù)電話數(shù)1整型churn用戶是否流失yes/no(1/2)布爾型變量解釋續(xù)表:數(shù)據(jù)導(dǎo)入數(shù)據(jù)預(yù)處理#剔除區(qū)域編碼(area_code)列train<-train[,-3]test<-test[,-3]train$churn<-factor(train$churn,levels=c("no","yes"),order=TRUE)test$churn<-factor(test$churn,,levels=c("no","yes"),order=TRUE)對數(shù)據(jù)進(jìn)行預(yù)處理用戶流失數(shù)據(jù)集中的區(qū)域編碼(area_code)對于整個模型的構(gòu)建過程沒有實(shí)際意義,因此對其進(jìn)行刪除,代碼如下:由于整個模型更關(guān)心的是用戶流失整個結(jié)果(churn=yes),所以對churn列的元素進(jìn)行排序,代碼如下:邏輯回歸模型訓(xùn)練model<-glm(churn~.,data=train,family="binomial")summary(model)利用訓(xùn)練數(shù)據(jù)集對邏輯回歸模型進(jìn)行訓(xùn)練邏輯回歸模型構(gòu)建的過程中,以除churn外的其他變量為自變量,以churn為因變量。即該邏輯回歸模型旨在通過除churn外的19個特征,對churn進(jìn)行分類。接著利用summary函數(shù)對邏輯回歸模型的訓(xùn)練結(jié)果進(jìn)行查看,代碼如下:邏輯回歸模型訓(xùn)練對邏輯回歸模型的訓(xùn)練結(jié)果如下圖所示:通過實(shí)驗(yàn)結(jié)果可以看出許多變量對于模型并不顯著(“*”越多表示顯著性越高,沒有“*”則表示不顯著利用summary函數(shù)對邏輯回歸模型的訓(xùn)練結(jié)果進(jìn)行查看邏輯回歸模型訓(xùn)練#step函數(shù)用于變量選擇model2<-step(object=model,trace=0)summary(model2)采用逐步回歸法剔除那些不顯著的變量逐步回歸法是指通過剔除無關(guān)特征和一些高度相關(guān)的特征,降低變量間多重共線程度的過程。逐步回歸法的具體代碼實(shí)現(xiàn)如下:續(xù):邏輯回歸模型訓(xùn)練逐步回歸法的代碼運(yùn)行結(jié)果如下:根據(jù)結(jié)果可知,所有變量的P值均小于0.05,通過了顯著性檢驗(yàn)。邏輯回歸模型訓(xùn)練#卡方檢驗(yàn)anova(object=model2,test="Chisq")對模型進(jìn)行卡方檢驗(yàn)為了保證模型整體的正確性和合理性,我們在確保模型的各變量通過顯著性檢驗(yàn)的同時還需確保整個模型是顯著的,因此下面對模型進(jìn)行卡方檢驗(yàn),代碼如下:卡方檢驗(yàn)的結(jié)果如右圖所示,可知變量從第一個到最后一個逐漸加入模型的過程中,模型均能夠通過顯著性檢驗(yàn),說明了當(dāng)前模型的適用性和各個特征選擇的合理性。邏輯回歸模型驗(yàn)證prob<-predict(object=model2,newdata=test,type="response")pred<-ifelse(prob>=0.5,"yes","no")pred<-factor(pred,levels=c("no","yes"),order=TRUE)f<-table(test$churn,pred)F輸出:為了評估邏輯回歸模型的性能,我們將訓(xùn)練好的模型在測試集上進(jìn)行驗(yàn)證,代碼與結(jié)果如下所示:符號表示符號解釋TP實(shí)際為正樣本,且判斷為正樣本的樣本數(shù)量FP實(shí)際為負(fù)樣本,但判斷為正樣本的樣本數(shù)量TN實(shí)際為負(fù)樣本,且判斷為負(fù)樣本的樣本數(shù)量FN實(shí)際為正樣本,但判斷為負(fù)樣本的樣本數(shù)量邏輯回歸模型驗(yàn)證表4-4符號解釋表評估指標(biāo)計(jì)算公式中的TP、FP、TN、FN的解釋如下表所示:邏輯回歸模型驗(yàn)證
邏輯回歸模型驗(yàn)證
預(yù)測為負(fù)類預(yù)測為正類實(shí)際為負(fù)類TN=1408FP=182實(shí)際為正類FN=35TP=42表4-5邏輯回歸模型在測試集上的混淆矩陣結(jié)果表根據(jù)下表邏輯回歸模型在測試集上的混淆矩陣結(jié)果,可得出以下幾點(diǎn)結(jié)論:模型對非流失客戶(no)的預(yù)測準(zhǔn)確率為1408/(1408+35)=97.6%,相對較為準(zhǔn)確;模型對流失客戶(yes)的預(yù)測準(zhǔn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 方式服務(wù)合同中的用戶權(quán)益3篇
- 旅游服務(wù)行業(yè)聯(lián)合投資合同
- 安徽物業(yè)行業(yè)勞動合同樣本3篇
- 工業(yè)煤氣供應(yīng)與環(huán)保責(zé)任合同3篇
- 數(shù)據(jù)庫培訓(xùn)與信息服務(wù)合同3篇
- 政府采購合同中的合同變更3篇
- 教育援助實(shí)施協(xié)議3篇
- 教育扶貧協(xié)議3篇
- 教育資源租賃協(xié)議3篇
- 文化墻建設(shè)招標(biāo)文件范本3篇
- DB41T2781-2024公路大厚度水泥穩(wěn)定碎石基層施工技術(shù)規(guī)程
- 2025年婦產(chǎn)科工作計(jì)劃
- 報(bào)關(guān)稅費(fèi)代繳服務(wù)合同
- 小學(xué)體育新課標(biāo)培訓(xùn)
- 2024年應(yīng)急預(yù)案知識考試題庫及答案(共60題)
- 2024湖南株洲攸縣城關(guān)國家糧食儲備庫員工招聘2人歷年高頻難、易錯點(diǎn)500題模擬試題附帶答案詳解
- Python試題庫(附參考答案)
- 有關(guān)于企業(yè)的調(diào)研報(bào)告范文(10篇)
- 重慶市康德卷2025屆高一上數(shù)學(xué)期末檢測模擬試題含解析
- 君樂寶在線測評題答案
- 2024版《安全生產(chǎn)法》考試題庫附答案(共100題)
評論
0/150
提交評論