版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
構(gòu)建分類與回歸模型1了解回歸分析目錄常用的分類與回歸算法2了解樸素貝葉斯3分類算法用于構(gòu)造一個(gè)分類模型,模型的輸入為樣本的屬性值,輸出為對(duì)應(yīng)的類別,將每個(gè)樣本映射到預(yù)先定義好的類別。回歸算法用于建立兩種或兩種以上變量間相互依賴的函數(shù)模型,然后使用函數(shù)模型預(yù)測(cè)目標(biāo)的值。分類和回歸模型的實(shí)現(xiàn)過程類似,以分類模型為例,其實(shí)現(xiàn)步驟如右圖所示。常用的分類與回歸算法分類模型的具體實(shí)現(xiàn)步驟分為兩步:第一步是訓(xùn)練步,通過歸納、分析訓(xùn)練集來建立分類模型,得到分類規(guī)則;第二步是預(yù)測(cè)步,先用已知的測(cè)試集評(píng)估分類模型的準(zhǔn)確率,如果準(zhǔn)確率是可以接受的,則使用該模型對(duì)未知類標(biāo)號(hào)的驗(yàn)證集進(jìn)行預(yù)測(cè)?;貧w模型的實(shí)現(xiàn)步驟也有兩步,類似于分類模型,第一步是通過訓(xùn)練集建立數(shù)值型的預(yù)測(cè)屬性的函數(shù)模型;第二步是在模型通過檢驗(yàn)后進(jìn)行預(yù)測(cè)或控制。常用的分類與回歸算法常用的分類與回歸算法如下表所示。常用的分類與回歸算法算法名稱算法描述回歸分析回歸分析是確定預(yù)測(cè)屬性(數(shù)值型)與其他變量間相互依賴的定量關(guān)系常用的統(tǒng)計(jì)學(xué)方法,包括線性回歸、非線性回歸、邏輯(Logistic)回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型決策樹決策樹采用自頂向下的遞歸方式,在內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同的屬性值從該節(jié)點(diǎn)向下分支,最終得到的葉節(jié)點(diǎn)是學(xué)習(xí)劃分的類判別分析利用已知類別的若干樣本的數(shù)據(jù)信息,對(duì)客觀事物分類的規(guī)律性進(jìn)行總結(jié),從而建立判別公式和判別準(zhǔn)則的一種統(tǒng)計(jì)方法。包括線性判別分析、K最近鄰(KNN)、樸素貝葉斯等模型支持向量機(jī)支持向量機(jī)是一種通過某種非線性映射,將低維的非線性可分轉(zhuǎn)化為高維的線性可分,在高維空間進(jìn)行線性分析的算法人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是一種模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的信息處理系統(tǒng),是表示神經(jīng)網(wǎng)絡(luò)的輸入與輸出變量之間關(guān)系的模型集成學(xué)習(xí)集成學(xué)習(xí)使用多種算法的組合進(jìn)行預(yù)測(cè),其比單一分類器具有更高的準(zhǔn)確率和魯棒性,通常分為Bagging(聚合)、Boosting(提升)和Stacking(堆疊)3種模式1了解回歸分析目錄常用的分類與回歸算法2了解樸素貝葉斯3回歸分析是通過建立模型來研究變量之間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)及進(jìn)行模型預(yù)測(cè)的一種有效工具,在工商管理、經(jīng)濟(jì)、社會(huì)、醫(yī)學(xué)和生物學(xué)等領(lǐng)域應(yīng)用十分廣泛。從19世紀(jì)初高斯提出最小二乘估計(jì)法起,回歸分析的歷史已有200多年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的范圍大致如右圖所示。了解回歸分析在數(shù)據(jù)挖掘環(huán)境下,自變量與因變量具有相關(guān)關(guān)系,自變量的值是已知的,因變量的值是要預(yù)測(cè)的。常用的回歸模型如下表所示。了解回歸分析回歸模型名稱適用條件描述線性回歸因變量與自變量是線性關(guān)系對(duì)一個(gè)或多個(gè)自變量和因變量之間的線性關(guān)系進(jìn)行建模,可用最小二乘法求解模型系數(shù)非線性回歸因變量與自變量之間不都是線性關(guān)系對(duì)一個(gè)或多個(gè)自變量和因變量之間的非線性關(guān)系進(jìn)行建模。如果非線性關(guān)系可以通過簡(jiǎn)單的函數(shù)變換轉(zhuǎn)化成線性關(guān)系,則用線性回歸的思想求解;如果不能轉(zhuǎn)化,則用非線性最小二乘法求解邏輯回歸一般因變量有1、0(是、否)兩種取值是廣義線性回歸模型的特例,利用Logistic函數(shù)將因變量的取值范圍控制在0~1,表示取值為1的概率嶺回歸參與建模的自變量之間具有多重共線性是一種改進(jìn)最小二乘估計(jì)的方法主成分回歸參與建模的自變量之間具有多重共線性主成分回歸是根據(jù)主成分分析的思想提出來的,是對(duì)最小二乘法的一種改進(jìn),它是參數(shù)估計(jì)的一種有偏估計(jì),可以消除自變量之間的多重共線性線性回歸模型是相對(duì)簡(jiǎn)單的回歸模型,但是當(dāng)因變量和自變量之間呈現(xiàn)某種曲線關(guān)系時(shí),就需要建立非線性回歸模型。邏輯回歸屬于概率型非線性回歸,分為二分類和多分類的邏輯回歸模型。對(duì)于二分類的邏輯回歸,因變量y只有“是、否”兩個(gè)取值,記為1和0。假設(shè)在自變量作用下,y取“是”的概率是p,則取“否”的概率是,二分類的邏輯回歸研究的是當(dāng)y取“是”的概率p與自變量的關(guān)系。當(dāng)自變量之間出現(xiàn)多重共線性時(shí),用最小二乘估計(jì)法估計(jì)的回歸系數(shù)可能會(huì)不準(zhǔn)確,消除多重共線性的參數(shù)改進(jìn)的估計(jì)方法主要有嶺回歸和主成分回歸。了解回歸分析公式為線性回歸的一般形式,它給出了自變量x與因變量y成線性關(guān)系時(shí)的函數(shù)關(guān)系。但是,現(xiàn)實(shí)場(chǎng)景中更多的情況下x不是與y成線性關(guān)系,而是與y的某個(gè)函數(shù)成線性關(guān)系,此時(shí)需要引入廣義線性回歸模型。需要注意的是,邏輯回歸雖然稱作“回歸”,但實(shí)際上是一種分類算法。具體的分類方法:設(shè)定一個(gè)分類閾值,將預(yù)測(cè)結(jié)果y大于分類閾值的樣本歸為正類,反之歸為反類。邏輯回歸模型如式(6-1)所示。 (6-1)其中的取值范圍是,表示回歸系數(shù)的集合,其中回歸系數(shù)表示屬性在預(yù)測(cè)目標(biāo)變量時(shí)的重要性,b為常數(shù)。了解回歸分析1.邏輯回歸模型式(6-1)經(jīng)過變形,轉(zhuǎn)為標(biāo)準(zhǔn)邏輯回歸形式,如式(6-2)所示。 (6-2)了解回歸分析2.邏輯回歸模型解釋邏輯回歸模型的建模步驟如右圖所示,具體步驟如下。根據(jù)分析目的設(shè)置因變量和自變量,然后收集數(shù)據(jù),根據(jù)收集到的數(shù)據(jù),再次進(jìn)行屬性篩選。取1的概率是,則取0的概率是。根據(jù)自變量列出線性回歸方程,估計(jì)出模型中的回歸系數(shù)。模型檢驗(yàn)。模型有效性的檢驗(yàn)指標(biāo)有很多,最基本的有準(zhǔn)確率,其次有混淆矩陣、ROC曲線、KS值等。模型預(yù)測(cè)。輸入自變量的取值,就可以得到預(yù)測(cè)變量的值。
了解回歸分析3.邏輯回歸模型的建模步驟LogisticRegression類常用的參數(shù)及其說明如下表所示。代碼的結(jié)果顯示邏輯回歸模型預(yù)測(cè)結(jié)果的準(zhǔn)確率為100%,說明模型分類效果比較理想,但是有過擬合的風(fēng)險(xiǎn)。了解回歸分析參數(shù)名稱參數(shù)說明penalty接收str。表示正則化選擇參數(shù),可選l1或l2。默認(rèn)為l2solver接收str。表示優(yōu)化算法選擇參數(shù),可選newton-cg、lbfg、liblinear、sag,當(dāng)penalty='l2'時(shí),4種都可選;當(dāng)penalty='l1'時(shí),只能選liblinear。默認(rèn)為liblinearmulti_class接收str。表示分類方式選擇參數(shù),可選ovr和multinomial。默認(rèn)為ovrclass_weight接收balanced以及字典。表示類型權(quán)重參數(shù),如對(duì)于因變量取值為0或1的二元模型,可以定義class_weight={0:0.9,1:0.1},這樣類型0的權(quán)重為90%,而類型1的權(quán)重為10%。默認(rèn)為Nonen_jobs接收int。表示運(yùn)行的并行作業(yè)數(shù)。默認(rèn)為11了解回歸分析目錄常用的分類與回歸算法2了解樸素貝葉斯3樸素貝葉斯是基于貝葉斯定理與條件獨(dú)立假設(shè)的分類方法。對(duì)于給定的訓(xùn)練數(shù)據(jù)集,首先基于條件獨(dú)立假設(shè)學(xué)習(xí)輸入輸出的聯(lián)合概率分布;然后基于此模型,對(duì)給定的輸入X,利用貝葉斯定理求出后驗(yàn)概率最大的輸出y。樸素貝葉斯實(shí)現(xiàn)簡(jiǎn)單,學(xué)習(xí)與預(yù)測(cè)的效率都很高,是一種常用的方法。樸素貝葉斯算法有許多優(yōu)點(diǎn),如,對(duì)大數(shù)據(jù)集訓(xùn)練速度快;支持增量式運(yùn)算,可以實(shí)時(shí)對(duì)新增樣本進(jìn)行訓(xùn)練;結(jié)果可解釋性強(qiáng)。同時(shí)也存在因?yàn)槭褂昧藰颖緦傩元?dú)立性的假設(shè),所以屬性間有關(guān)聯(lián)性時(shí)有效果不佳的缺點(diǎn)。了解樸素貝葉斯常用的樸素貝葉斯模型的構(gòu)建類是GaussianNB,其基本語法格式如下。classsklearn.naive_bayes.GaussianNB(priors=None)GaussianNB類常用的參數(shù)及其說明,如下表所示?;趌oad_breast_cancer數(shù)據(jù)集,使用GaussianNB類構(gòu)建樸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中外土地租賃合同范本
- 產(chǎn)品加工定制合同
- 業(yè)務(wù)并購(gòu)合同范本
- 中外合資建設(shè)項(xiàng)目合同范本(環(huán)保設(shè)施)
- 個(gè)人物流配送合同范例
- 個(gè)人與朋友借款購(gòu)房合同模板
- 中藥原料采購(gòu)框架合同
- 產(chǎn)品銷售合同模板:標(biāo)準(zhǔn)合同文本
- 2025年車輛融資租賃協(xié)議范本
- 2025年標(biāo)準(zhǔn)土地及房產(chǎn)買賣協(xié)議
- 體檢科運(yùn)營(yíng)可行性報(bào)告
- 廣東省廣州市黃埔區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末生物試卷+
- 北京市豐臺(tái)區(qū)市級(jí)名校2024屆數(shù)學(xué)高一第二學(xué)期期末檢測(cè)模擬試題含解析
- 設(shè)立項(xiàng)目管理公司組建方案
- 薪酬戰(zhàn)略與實(shí)踐
- 答案之書(解答之書)-電子版精選答案
- 中國(guó)古代文學(xué)史 馬工程課件(上)01總緒論
- GB/T 22085.1-2008電子束及激光焊接接頭缺欠質(zhì)量分級(jí)指南第1部分:鋼
- 上海中心大廈-介紹 課件
- 非酒精性脂肪性肝病防治指南解讀課件
- 地理微格教學(xué)課件
評(píng)論
0/150
提交評(píng)論