版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語言第四章邏輯回歸邏輯回歸原理01邏輯回歸算法示例02模型理解03R編程04章節(jié)內(nèi)容4.1邏輯回歸原理圖4-1邏輯函數(shù)對應(yīng)的函數(shù)圖像
邏輯回歸模型簡介
邏輯回歸函數(shù)
邏輯回歸推導(dǎo)
邏輯回歸推導(dǎo)
4.2邏輯回歸算法示例現(xiàn)在已知兩套房子的面積和朝向以及房子好壞的信息,如下表所示。根據(jù)這些信息,利用邏輯回歸模型實現(xiàn)房子好壞的分類。房屋面積房屋朝向房屋好壞20011120204.2邏輯回歸算法示例1200111202
4.2邏輯回歸算法示例
4.2邏輯回歸算法示例第二輪迭代:
4.2邏輯回歸算法示例
4.3模型理解邏輯回歸模型的優(yōu)點邏輯回歸的基礎(chǔ)是線性回歸,對于問題的抽象相對容易。邏輯回歸使用廣泛,有著許多開源的資料。比如:邏輯回歸在R、Python、Java等眾多編程語言方面均有相應(yīng)的集成。數(shù)學(xué)角度講,邏輯回歸模型的參數(shù)估計很簡單,使用簡單的梯度下降方法便可以對模型的參數(shù)進行估計,并且可以保證找到最優(yōu)參數(shù)。邏輯回歸模型的參數(shù)估計可以通過可靠的統(tǒng)計理論進行置信區(qū)間的檢驗,這相比于一些神經(jīng)網(wǎng)絡(luò)模型具有更好的可信度和解釋性。邏輯回歸模型簡單易懂,且易于拓展,從而適應(yīng)于不同的場景和任務(wù)。邏輯回歸模型不僅是一個分類模型,而且還提供概率。這與只能提供最終分類結(jié)果的模型相比,是一個很大的優(yōu)勢,通過概率可以更加清楚地知道某一樣本被劃分為某一類別的量化信息。4.3模型理解邏輯回歸模型的缺點邏輯回歸模型在預(yù)測性能方面通常不是很好,因為可以學(xué)習(xí)的關(guān)系非常有限,并且通常簡化了現(xiàn)實場景的復(fù)雜程度。邏輯回歸模型的解釋相比于線性回歸更困難,邏輯回歸可能會受到完全分離樣本的影響。4.4R編程本節(jié)利用R語言將邏輯回歸建模的整個過程進行實踐。對于一個新的問題,邏輯回歸建模主要包括四個部分:數(shù)據(jù)導(dǎo)入、數(shù)據(jù)預(yù)處理、邏輯回歸模型訓(xùn)練、邏輯回歸模型驗證。實例中使用R語言C50包中自帶數(shù)據(jù)集churnTrain和churnTest進行建模過程的演示。數(shù)據(jù)集中共包含19個變量,其中“是否流失”、“州”、“國際長途計劃”、“信箱語言計劃”列作為因子型變量,其余變量均為數(shù)值型變量。區(qū)域編碼(area_code)變量對于整個模型的構(gòu)建過程沒有實際意義,因此后續(xù)對該變量進行排除,實現(xiàn)數(shù)據(jù)的預(yù)處理。數(shù)據(jù)導(dǎo)入install.packages("C50")
#導(dǎo)入相關(guān)庫library(C50)
#導(dǎo)入自帶的數(shù)據(jù)集data(churn)data(mlc_churn)#訓(xùn)練數(shù)據(jù)集train<-churnTrain#測試數(shù)據(jù)集test<-churnTeststr(train)輸出:該數(shù)據(jù)集是關(guān)于電信行業(yè)客戶流失的真實數(shù)據(jù)。數(shù)據(jù)集導(dǎo)入過程代碼如下:屬性名稱屬性解釋屬性示例數(shù)據(jù)類型state用戶所屬州AK字符串a(chǎn)ccount_length用戶對應(yīng)的賬號長度128整型international_plan用戶對應(yīng)的國際長途計劃yes/no(1/2)布爾類型voice_mail_plan用戶對應(yīng)的信箱語音計劃yes/no(1/2)布爾類型number_vmail_messages用戶對用的郵件信息25整型total_day_minutes用戶白天使用時長265整型total_day_calls用戶白天呼叫數(shù)110整型total_day_charge用戶白天轉(zhuǎn)接數(shù)45.1浮點型total_eve_minutes用戶傍晚使用時長197.4浮點型變量解釋如下:數(shù)據(jù)導(dǎo)入屬性名稱屬性解釋屬性示例數(shù)據(jù)類型total_eve_calls用戶傍晚呼叫數(shù)99整型total_eve_charge用戶傍晚轉(zhuǎn)接數(shù)16.78浮點型total_night_minutes用戶夜晚使用時長245整型total_night_calls用戶夜晚呼叫數(shù)91整型total_night_charge用戶夜晚轉(zhuǎn)接數(shù)11.01浮點型total_intl_minutes用戶國際長途使用時長10整型total_intl_calls用戶國際長途呼叫數(shù)3整型total_intl_charge用戶國際長途轉(zhuǎn)接數(shù)2.7浮點型number_customer_service_calls用戶服務(wù)電話數(shù)1整型churn用戶是否流失yes/no(1/2)布爾型變量解釋續(xù)表:數(shù)據(jù)導(dǎo)入數(shù)據(jù)預(yù)處理#剔除區(qū)域編碼(area_code)列train<-train[,-3]test<-test[,-3]train$churn<-factor(train$churn,levels=c("no","yes"),order=TRUE)test$churn<-factor(test$churn,,levels=c("no","yes"),order=TRUE)對數(shù)據(jù)進行預(yù)處理用戶流失數(shù)據(jù)集中的區(qū)域編碼(area_code)對于整個模型的構(gòu)建過程沒有實際意義,因此對其進行刪除,代碼如下:由于整個模型更關(guān)心的是用戶流失整個結(jié)果(churn=yes),所以對churn列的元素進行排序,代碼如下:邏輯回歸模型訓(xùn)練model<-glm(churn~.,data=train,family="binomial")summary(model)利用訓(xùn)練數(shù)據(jù)集對邏輯回歸模型進行訓(xùn)練邏輯回歸模型構(gòu)建的過程中,以除churn外的其他變量為自變量,以churn為因變量。即該邏輯回歸模型旨在通過除churn外的19個特征,對churn進行分類。接著利用summary函數(shù)對邏輯回歸模型的訓(xùn)練結(jié)果進行查看,代碼如下:邏輯回歸模型訓(xùn)練對邏輯回歸模型的訓(xùn)練結(jié)果如下圖所示:通過實驗結(jié)果可以看出許多變量對于模型并不顯著(“*”越多表示顯著性越高,沒有“*”則表示不顯著利用summary函數(shù)對邏輯回歸模型的訓(xùn)練結(jié)果進行查看邏輯回歸模型訓(xùn)練#step函數(shù)用于變量選擇model2<-step(object=model,trace=0)summary(model2)采用逐步回歸法剔除那些不顯著的變量逐步回歸法是指通過剔除無關(guān)特征和一些高度相關(guān)的特征,降低變量間多重共線程度的過程。逐步回歸法的具體代碼實現(xiàn)如下:續(xù):邏輯回歸模型訓(xùn)練逐步回歸法的代碼運行結(jié)果如下:根據(jù)結(jié)果可知,所有變量的P值均小于0.05,通過了顯著性檢驗。邏輯回歸模型訓(xùn)練#卡方檢驗anova(object=model2,test="Chisq")對模型進行卡方檢驗為了保證模型整體的正確性和合理性,我們在確保模型的各變量通過顯著性檢驗的同時還需確保整個模型是顯著的,因此下面對模型進行卡方檢驗,代碼如下:卡方檢驗的結(jié)果如右圖所示,可知變量從第一個到最后一個逐漸加入模型的過程中,模型均能夠通過顯著性檢驗,說明了當前模型的適用性和各個特征選擇的合理性。邏輯回歸模型驗證prob<-predict(object=model2,newdata=test,type="response")pred<-ifelse(prob>=0.5,"yes","no")pred<-factor(pred,levels=c("no","yes"),order=TRUE)f<-table(test$churn,pred)F輸出:為了評估邏輯回歸模型的性能,我們將訓(xùn)練好的模型在測試集上進行驗證,代碼與結(jié)果如下所示:符號表示符號解釋TP實際為正樣本,且判斷為正樣本的樣本數(shù)量FP實際為負樣本,但判斷為正樣本的樣本數(shù)量TN實際為負樣本,且判斷為負樣本的樣本數(shù)量FN實際為正樣本,但判斷為負樣本的樣本數(shù)量邏輯回歸模型驗證表4-4符號解釋表評估指標計算公式中的TP、FP、TN、FN的解釋如下表所示:邏輯回歸模型驗證
邏輯回歸模型驗證
預(yù)測為負類預(yù)測為正類實際為負類TN=1408FP=182實際為正類FN=35TP=42表4-5邏輯回歸模型在測試集上的混淆矩陣結(jié)果表根據(jù)下表邏輯回歸模型在測試集上的混淆矩陣結(jié)果,可得出以下幾點結(jié)論:模型對非流失客戶(no)的預(yù)測準確率為1408/(1408+35)=97.6%,相對較為準確;模型對流失客戶(yes)的預(yù)測準
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年中國沙地探測中繼閥行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國有柄厄絨棒數(shù)據(jù)監(jiān)測研究報告
- 2024年柔和凈白潔面乳項目可行性研究報告
- 隔離dcdc變換器課程設(shè)計
- 光與影的創(chuàng)作課程設(shè)計
- 中國銀亮鋼絲行業(yè)市場運營模式及未來發(fā)展動向預(yù)測研究報告(2024-2030版)
- 2024年中國平推式自動門市場調(diào)查研究報告
- 中國責任保險行業(yè)運行態(tài)勢分析及發(fā)展前景展望研究報告(2024-2030版)
- 中國藥械檢驗檢測行業(yè)運營趨勢與未來前景預(yù)測研究報告(2024-2030版)
- 中國舷外機行業(yè)發(fā)展機遇與前景動態(tài)預(yù)測研究報告(2024-2030版)
- 干部人事檔案任前審核登記表范表
- 北京市道德與法治初一上學(xué)期期中試卷及答案指導(dǎo)(2024年)
- 高校實驗室安全基礎(chǔ)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 四川省綿陽市高中2025屆高三一診考試物理試卷含解析
- 朗致集團邏輯測評試卷2024
- 焦化廠生產(chǎn)工序及工藝流程圖
- 汽車排放控制系統(tǒng)的檢修
- 《新能源》題庫(試題及答案29個)
- (完整版)油罐換底工程施工方案
- 懸吊技術(shù)的臨床應(yīng)
- 精益管理與精益服務(wù)
評論
0/150
提交評論