版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第10章特征選擇:過(guò)濾、包裹和嵌入策略特征選擇概述過(guò)濾式策略下的特征選擇包裹式策略下的特征選擇嵌入式策略下的特征選擇特征選擇概述
第10章特征選擇:過(guò)濾和包裹策略特征選擇概述
特征選擇的角度:第一,考察變量取值的差異程度第二,考察輸入變量與輸出變量的相關(guān)性第三,考察輸入變量對(duì)模型誤差的影響具體策略:第一,過(guò)濾式(Filter)策略特征選擇與預(yù)測(cè)建?!胺侄沃钡诙?,包裹式(wrapper)策略將特征選擇“包裹”到一個(gè)指定的預(yù)測(cè)模型中,通過(guò)預(yù)測(cè)模型評(píng)價(jià)變量重要性,并完成變量篩選第三,嵌入式(embedding)策略(以后講)即特征選擇“嵌入”到整個(gè)預(yù)測(cè)建模中,與預(yù)測(cè)建?!叭跒橐惑w”第10章特征選擇:過(guò)濾和包裹策略考察變量取值的差異程度:低方差過(guò)濾法(LowVarianceFilter)輸入變量與輸出變量的相關(guān)性:高相關(guān)過(guò)濾法(HighCorrelationFilter)
過(guò)濾式策略下的特征選擇
Chapter10-2.ipynb第10章特征選擇:過(guò)濾和包裹策略
計(jì)算原假設(shè)成立下,得到當(dāng)前樣本的特征或更極端特征的概率:概率-P值概率-P值很小且小于顯著性水平α,依據(jù)小概率原理,推翻原假設(shè)接受備擇假設(shè)
第10章特征選擇:過(guò)濾和包裹策略
Chapter10-2.ipynb第10章特征選擇:過(guò)濾和包裹策略
包裹式策略下的特征選擇
第10章特征選擇:過(guò)濾和包裹策略
包裹式策略下的特征選擇
第10章特征選擇:過(guò)濾和包裹策略
嵌入式策略下的特征選擇第10章特征選擇:過(guò)濾和包裹策略
約束條件:目標(biāo)函數(shù):
或
第10章特征選擇:過(guò)濾和包裹策略嵌入式策略下的特征選擇:等價(jià)表述為:以上為嶺回歸(RidgeRegression)的目標(biāo)函數(shù)以上為L(zhǎng)asso(Leastabsoluteshrinkageandselectionoperator)回歸的目標(biāo)函數(shù)
第10章特征選擇:過(guò)濾和包裹策略
Python中的目標(biāo)函數(shù):第10章特征選擇:過(guò)濾和包裹策略
Chapter10-4.ipynb
第10章特征選擇:過(guò)濾和包裹策略基于Lasso回歸篩選重要變量
Lasso回歸和嶺回歸的比較Chapter10-4.ipynb第10章特征選擇:過(guò)濾和包裹策略Lasso回歸和嶺回歸的比較:L2正則化(嶺回歸)還是L1正則化(Lasso回歸)?
L2范數(shù)約束(嶺回歸)最優(yōu)解下的損失函數(shù)小于L1范數(shù)約束最優(yōu)解下的損失函數(shù)第10章特征選擇:過(guò)濾和包裹策略彈性網(wǎng)回歸L1范數(shù)約束(Lasso回歸)更適于進(jìn)行特征選擇平方L2范數(shù)約束(嶺回歸)最優(yōu)解下的損失函數(shù)小于L1范數(shù)約束最優(yōu)解下的損失函數(shù)彈性網(wǎng)回歸是對(duì)Lasso回歸和嶺回歸的結(jié)合及拓展,同時(shí)引入L1正則化和L2正則化目標(biāo)函數(shù):Python中彈性網(wǎng)回歸的目標(biāo)函數(shù)為:
第10章特征選擇:過(guò)濾和包裹策略Chapter10-5.ipynb
彈性網(wǎng)回歸示例相同復(fù)雜度懲罰下,L1范數(shù)約束的錯(cuò)判率高于L2第10章特征選擇:過(guò)濾和包裹策略彈性網(wǎng)回歸示例第10章特征選擇:過(guò)濾和包裹策略第11章特征提?。嚎臻g變換策略特征提取概述主成分分析矩陣的奇異值分解因子分析特征提取概述
第11章特征提?。嚎臻g變換策略特征提?。簭谋姸嗑哂邢嚓P(guān)性的輸入變量中提取出較少的綜合變量,用綜合變量代替原有輸入變量,從而實(shí)現(xiàn)輸入變量空間的降維基于空間變換主成分分析
第11章特征提?。嚎臻g變換策略
第11章特征提?。嚎臻g變換策略主成分分析的基本原理數(shù)學(xué)表述為:
示例:
第11章特征提?。嚎臻g變換策略
第11章特征提?。嚎臻g變換策略
第11章特征提取:空間變換策略
第11章特征提取:空間變換策略
主成分分析
第11章特征提?。嚎臻g變換策略Python模擬與啟示:認(rèn)識(shí)主成分
chapter11-1.ipynb第11章特征提?。嚎臻g變換策略
矩陣的奇異值分解第11章特征提?。嚎臻g變換策略矩陣的奇異值分解
第11章特征提?。嚎臻g變換策略奇異值分解的Python應(yīng)用實(shí)踐:臉部數(shù)據(jù)特征提取奇異值分解第11章特征提取:空間變換策略chapter11-2.ipynb因子分析:一種常用的通過(guò)空間變換策略實(shí)施特征提取的經(jīng)典統(tǒng)計(jì)方法核心目的:將眾多具有相關(guān)性的輸入變量綜合成較少的綜合變量,用綜合變量代替原有輸入變量,實(shí)現(xiàn)輸入變量空間的降維因子分析的基本出發(fā)點(diǎn)六門(mén)課程成績(jī)的相關(guān)系數(shù)矩陣(斯皮爾曼研究一個(gè)班級(jí)學(xué)生課程成績(jī)相關(guān)性時(shí)提出的方法)因子分析
原因:學(xué)習(xí)成績(jī)一定受某種潛在的共性因素影響,它可能是班級(jí)整體某方面的學(xué)習(xí)能力或者智力水平等第11章特征提?。嚎臻g變換策略因子分析的基本出發(fā)點(diǎn):六門(mén)課程成績(jī)的相關(guān)系數(shù)矩陣原因:學(xué)習(xí)成績(jī)一定受某種潛在的共性因素影響,它可能是班級(jí)整體某方面的學(xué)習(xí)能力或者智力水平等,數(shù)學(xué)刻畫(huà):因子分析
第11章特征提取:空間變換策略
第11章特征提取:空間變換策略
第11章特征提?。嚎臻g變換策略
因子分析第11章特征提取:空間變換策略
因子分析第11章特征提?。嚎臻g變換策略
第11章特征提?。嚎臻g變換策略
第11章特征提取:空間變換策略Python模擬和啟示:認(rèn)識(shí)因子分析的計(jì)算過(guò)程chapter11-5.ipynb(包括手工計(jì)算過(guò)程、調(diào)包)pipinstallfactor_analyzer第11章特征提?。嚎臻g變換策略因子分析的其他問(wèn)題因子的適用性:適合原有變量有中度以上相關(guān)性的情況因子的可解釋性問(wèn)題:因子載荷矩陣的旋轉(zhuǎn)因子矩陣旋轉(zhuǎn):將因子載荷矩陣A右乘一個(gè)正交矩陣τ后得到一個(gè)新矩陣B常見(jiàn)方法:方差極大法因子旋轉(zhuǎn)并不影響原有變量的共同度第11章特征提取:空間變換策略因子分析的Python應(yīng)用實(shí)踐:空氣質(zhì)量綜合評(píng)測(cè)chapter11-6.ipynb第11章特征提取:空間變換策略第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析聚類分析的一般問(wèn)題基于質(zhì)心的聚類模型:K-均值聚類基于聯(lián)通性的聚類模型:系統(tǒng)聚類基于密度的聚類:DBSCAN聚類聚類分析的一般問(wèn)題聚類分析的目的例如:基于RFM的市場(chǎng)細(xì)分RFM:最近一次消費(fèi)(Recency)、消費(fèi)頻率(Frequency)、消費(fèi)金額(Monetary)主觀分組
基本概念:聚類變量有監(jiān)督算法和無(wú)監(jiān)督算法聚類解類中心第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析聚類分析的一般問(wèn)題類的定義:類是一組樣本觀測(cè)的集合,包括:聚類變量空間中距離較近的各樣本觀測(cè)點(diǎn),可形成一個(gè)小類聚類變量空間中樣本觀測(cè)點(diǎn)分布較為密集的區(qū)域,可視為一個(gè)小類來(lái)自某特定統(tǒng)計(jì)分布的一組樣本觀測(cè),可視為一個(gè)小類從聚類結(jié)果角度,包括:確定性聚類和模糊聚類基于層次的聚類和非層次的聚類從聚類模型角度,包括:基于質(zhì)心的聚類模型(CentroidModels)基于聯(lián)通性的聚類模型(ConnectivityModels)基于統(tǒng)計(jì)分布的聚類模型(Distributionmodels)基于密度的聚類模型(Densitymodels)其他聚類模型第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析
第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析
第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析聚類解的可視化:利用二維圖散點(diǎn)圖直觀展示小類內(nèi)部樣本觀測(cè)點(diǎn)的分布,以及小類間的相對(duì)位置將高維聚類變量空間中的樣本觀測(cè)點(diǎn)展示到二維平面上:先降維(如PCA),再畫(huà)圖聚類分析的一般問(wèn)題第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析
基于質(zhì)心的聚類模型:K-均值聚類
第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析K-均值聚類中的聚類數(shù)目K基于K-均值聚類的預(yù)測(cè)Chapter12-1.ipynb第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析系統(tǒng)聚類的特點(diǎn):系統(tǒng)聚類也稱層次聚類,從距離和聯(lián)通性角度設(shè)計(jì)算法算法視聚類變量空間中距離較近的多個(gè)樣本觀測(cè)點(diǎn)為一個(gè)小類,并基于聯(lián)通性完成最終的聚類得到的聚類結(jié)果一般為確定性的且具有層次關(guān)系通常,系統(tǒng)聚類是將各個(gè)樣本觀測(cè)點(diǎn)逐步合并成小類,再將小類逐步合并成中類乃至大類的過(guò)程基于聯(lián)通性的聚類模型:系統(tǒng)聚類
第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析聯(lián)通性:所謂聯(lián)通性也是一種距離的定義,測(cè)度的是聚類變量空間中,樣本觀測(cè)點(diǎn)聯(lián)通一個(gè)小類或一個(gè)小類聯(lián)通另一個(gè)小類,所需的距離長(zhǎng)度最近鄰(singlelinkage)法最遠(yuǎn)距離(maximumlinkage)法組間平均鏈鎖(averagelinkage)法類內(nèi)方差ward法基于聯(lián)通性的聚類模型:系統(tǒng)聚類第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析
Chapter12-2-1.ipynb[9,12-N]第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析聚類數(shù)目的確定:圖形化工具:碎石圖Chapter12-2-2.ipynb第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析
Chapter12-3.ipynb第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析K-均值聚類和系統(tǒng)聚類的對(duì)比第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析
基于密度的聚類:DBSCAN聚類第12章揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析基于密度的聚類:DBSCAN聚類
核心點(diǎn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥理學(xué)知識(shí)培訓(xùn)課件
- 論文寫(xiě)作指南
- 2025年度餐飲加盟連鎖經(jīng)營(yíng)合作協(xié)議書(shū)3篇
- 2025年度廣告?zhèn)髅讲鸹锖贤瑓f(xié)議4篇
- 專業(yè)藝術(shù)教師勞務(wù)合作合同(2024版)一
- 二零二四醫(yī)院護(hù)士勞動(dòng)合同范本:護(hù)理危機(jī)管理與責(zé)任界定3篇
- 2025年茶山茶葉采摘與加工承包經(jīng)營(yíng)合同4篇
- 2025年度快遞快遞業(yè)務(wù)市場(chǎng)營(yíng)銷承包合同3篇
- 2025年度餐飲行業(yè)節(jié)能減排合作協(xié)議范本3篇
- 2025年度情侶忠誠(chéng)保障不分手協(xié)議書(shū)電子版下載3篇
- 直播帶貨助農(nóng)現(xiàn)狀及發(fā)展對(duì)策研究-以抖音直播為例(開(kāi)題)
- 腰椎間盤(pán)突出疑難病例討論
- 《光伏發(fā)電工程工程量清單計(jì)價(jià)規(guī)范》
- 2023-2024學(xué)年度人教版四年級(jí)語(yǔ)文上冊(cè)寒假作業(yè)
- (完整版)保證藥品信息來(lái)源合法、真實(shí)、安全的管理措施、情況說(shuō)明及相關(guān)證明
- 營(yíng)銷專員績(jī)效考核指標(biāo)
- 陜西麟游風(fēng)電吊裝方案專家論證版
- 供應(yīng)商審核培訓(xùn)教程
- 【盒馬鮮生生鮮類產(chǎn)品配送服務(wù)問(wèn)題及優(yōu)化建議分析10000字(論文)】
- 肝硬化心衰患者的護(hù)理查房課件
- 2023年四川省樂(lè)山市中考數(shù)學(xué)試卷
評(píng)論
0/150
提交評(píng)論