




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第10章數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)1概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過程2工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘-從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測模型。工業(yè)控制技術(shù)研究所國民經(jīng)濟(jì)和社會(huì)的信息化國民經(jīng)濟(jì)和社會(huì)的信息化工業(yè)控制技術(shù)研究所數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大數(shù)據(jù)庫越來越大有價(jià)值的知識(shí)有價(jià)值的知識(shí)可怕的數(shù)據(jù)可怕的數(shù)據(jù)工業(yè)控制技術(shù)研究所 苦惱: 淹沒在數(shù)據(jù)中 ; 不能制定合適的決策! n模式模式n趨勢趨勢n事實(shí)事實(shí)n關(guān)系
2、關(guān)系n模型模型n關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則n序列序列n目標(biāo)市場目標(biāo)市場n資金分配資金分配n貿(mào)易選擇貿(mào)易選擇n在哪兒做廣告在哪兒做廣告n銷售的地理位置銷售的地理位置n金融金融n經(jīng)濟(jì)經(jīng)濟(jì)n政府政府nPOS.n人口統(tǒng)計(jì)人口統(tǒng)計(jì)n生命周期生命周期數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘任務(wù)有兩類: 第一類是描述性挖掘任務(wù):刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性; 第二類是預(yù)測性挖掘任務(wù):在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。工業(yè)控制技術(shù)研究所l技術(shù)分類 預(yù)言(Predication):用歷史預(yù)測未來 描述(Description):了解數(shù)據(jù)中潛在的規(guī)律l數(shù)據(jù)挖掘技術(shù) 關(guān)聯(lián)分析 序列模式 分類(預(yù)言) 聚集 異常檢測工業(yè)控制技術(shù)研究所數(shù)據(jù)的特征知識(shí)
3、的特征算法的特征礦山(數(shù)據(jù))挖掘工具(算法)金子(知識(shí))工業(yè)控制技術(shù)研究所大容量POS數(shù)據(jù)(某個(gè)超市每天要處理高達(dá)2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)工業(yè)控制技術(shù)研究所構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識(shí)模式評(píng)價(jià):反映了什么樣的模式可以稱為知識(shí)模式探索:包括針對(duì)某一特定模式對(duì)參數(shù)空間的探索和對(duì)模式空間的探索工業(yè)控制技術(shù)研究所分類(Classification)聚類(Clustering)相關(guān)規(guī)則(Association
4、 Rule)回歸(Regression)其他工業(yè)控制技術(shù)研究所代代特征特征數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘算法集成集成分布計(jì)算分布計(jì)算模型模型數(shù)據(jù)模型數(shù)據(jù)模型第一代第一代數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘作為一個(gè)獨(dú)立的應(yīng)一個(gè)獨(dú)立的應(yīng)用用支持一個(gè)或者支持一個(gè)或者多個(gè)算法多個(gè)算法 獨(dú)立的系獨(dú)立的系統(tǒng)統(tǒng)單個(gè)機(jī)單個(gè)機(jī)器器向量數(shù)據(jù)向量數(shù)據(jù)第二代第二代和數(shù)據(jù)庫以及和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成數(shù)據(jù)倉庫集成多個(gè)算法:能夠多個(gè)算法:能夠挖掘一次不能放挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系數(shù)據(jù)管理系統(tǒng),包括數(shù)統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)據(jù)庫和數(shù)據(jù)倉庫倉庫同質(zhì)同質(zhì)/ /局局部區(qū)域部區(qū)域的計(jì)算的計(jì)算機(jī)群集機(jī)群集有些系統(tǒng)支有些系統(tǒng)支持對(duì)象、文持對(duì)
5、象、文本、和連續(xù)本、和連續(xù)的媒體數(shù)據(jù)的媒體數(shù)據(jù)第三代第三代和預(yù)言模型和預(yù)言模型系統(tǒng)集成系統(tǒng)集成 多個(gè)算法多個(gè)算法數(shù)據(jù)管理和數(shù)據(jù)管理和預(yù)言模型系預(yù)言模型系統(tǒng)統(tǒng)intranet/extranet網(wǎng)網(wǎng)絡(luò)計(jì)算絡(luò)計(jì)算支持半結(jié)構(gòu)支持半結(jié)構(gòu)化 數(shù) 據(jù) 和化 數(shù) 據(jù) 和webweb數(shù)據(jù)數(shù)據(jù)第四代第四代和移動(dòng)數(shù)據(jù)和移動(dòng)數(shù)據(jù)/ /各種計(jì)算數(shù)各種計(jì)算數(shù)據(jù)聯(lián)合據(jù)聯(lián)合 多個(gè)算法多個(gè)算法數(shù)據(jù)管理、數(shù)據(jù)管理、預(yù)言模型、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)系統(tǒng)移動(dòng)和各移動(dòng)和各種計(jì)算設(shè)種計(jì)算設(shè)備備普 遍 存 在普 遍 存 在的 計(jì) 算 模的 計(jì) 算 模型型工業(yè)控制技術(shù)研究所第一代數(shù)據(jù)挖掘系統(tǒng) 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法,這些算法設(shè)計(jì)用來
6、挖掘向量數(shù)據(jù)(vector-valued data),這些數(shù)據(jù)模型在挖掘時(shí)候,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng) 目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。 工業(yè)控制技術(shù)研究所第三代數(shù)據(jù)挖掘系統(tǒng) 第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),
7、并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對(duì)建立在異質(zhì)系統(tǒng)上的多個(gè)預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級(jí)別(first class)的支持。 第四代數(shù)據(jù)挖掘系統(tǒng) 第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 。數(shù)據(jù)挖掘的功能/算法/應(yīng)用的比較 數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘的具體應(yīng)用市場-購物藍(lán)分析客戶關(guān)系管理尋找潛在客戶提高客戶終生價(jià)值保持客戶忠誠度行銷活動(dòng)規(guī)劃預(yù)測金融市場方向 保險(xiǎn)欺詐偵察 客戶信用風(fēng)險(xiǎn)評(píng)級(jí) 電話盜打 NBA球員強(qiáng)弱分析 信用卡可能呆帳預(yù)警 星際星體分類數(shù)據(jù)挖掘的步驟
8、*一種步驟劃分方式理解資料與進(jìn)行的工作獲取相關(guān)知識(shí)與技術(shù)(Acquisition)整合與查核資料(Integration and checking)去除錯(cuò)誤、不一致的資料(Data cleaning)模式與假設(shè)的演化(Model and hypothesis development)實(shí)際數(shù)據(jù)挖掘工作測試與核查所分析的資料(Testing and verification)解釋與運(yùn)用(Interpretation and use)工業(yè)控制技術(shù)研究所第一代數(shù)據(jù)挖掘軟件第一代數(shù)據(jù)挖掘軟件CBA 新加坡國立大學(xué)。基于關(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測
9、工業(yè)控制技術(shù)研究所第二代數(shù)據(jù)挖掘軟件第二代數(shù)據(jù)挖掘軟件l特點(diǎn) 與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成 支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 通過支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進(jìn)行挖掘操作l缺陷 只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)工業(yè)控制技術(shù)研究所第二代數(shù)據(jù)挖掘軟件第二代數(shù)據(jù)挖掘軟件 DBMiner工業(yè)控制技術(shù)研究所第二代軟件第二代軟件 SAS Enterprise Miner工業(yè)控制技術(shù)研究
10、所第三代數(shù)據(jù)挖掘軟件第三代數(shù)據(jù)挖掘軟件l特點(diǎn) 和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成l缺陷不能支持移動(dòng)環(huán)境工業(yè)控制技術(shù)研究所第三代軟件第三代軟件 SPSS Clementine工業(yè)控制技術(shù)研究所第四代數(shù)據(jù)挖掘軟件第四代數(shù)據(jù)挖掘軟件l特點(diǎn) 目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。 第四
11、代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(University of Maryland Baltimore County)正在研制的CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。 工業(yè)控制技術(shù)研究所l 第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)
12、據(jù)預(yù)處理方面有一定缺陷 l 第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)測模型的使用和操作型環(huán)境的部署 l 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 l 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口 l 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo) 工業(yè)控制技術(shù)研究所l 獨(dú)立的數(shù)據(jù)挖掘軟件l 橫向的數(shù)據(jù)挖掘工具集l 縱向的數(shù)據(jù)挖掘解決方案工業(yè)控制技術(shù)研究所l國內(nèi)大部分處于科研階段
13、各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究 國內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有) 數(shù)據(jù)挖掘討論組()l有一些公司在國外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用 IBM Intelligent Miner SAS Enterprise Minerl自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件 復(fù)旦德門()等工業(yè)控制技術(shù)研究所Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) Neural NetworksNeural Networks聚類分析聚類分析 ClusteringClusteringOpenAccntAdd NewP
14、roductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標(biāo)市場 價(jià)格彈性分析 客戶細(xì)分 市場細(xì)分 傾向性分析 客戶保留 目標(biāo)市場 欺詐檢測關(guān)聯(lián)分析關(guān)聯(lián)分析 AssociationAssociation 市場組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售10.1分類一般問題定義:給定 , 為離散值,表示每個(gè)樣例的分類,目標(biāo)是找到一個(gè)函數(shù) ,對(duì)于新觀測點(diǎn) ,能夠用 預(yù)測分類 。11(,),(,)nnX YXYiY
15、fX( )f XY工業(yè)控制技術(shù)研究所分類:(與回歸相比較)預(yù)測分類標(biāo)號(hào)(或離散值離散值)(特點(diǎn))根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值典型應(yīng)用信譽(yù)證實(shí)目標(biāo)市場醫(yī)療診斷性能預(yù)測工業(yè)控制技術(shù)研究所第一步,建立一個(gè)模型建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)類標(biāo)號(hào)屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供第二步,使用模型,對(duì)將來的或未知的對(duì)象進(jìn)行分類進(jìn)行分類首先評(píng)估模型的預(yù)測準(zhǔn)確率對(duì)每個(gè)
16、測試樣本,將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準(zhǔn)確率是正確被模型分類的測試樣本的百分比測試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況工業(yè)控制技術(shù)研究所訓(xùn)練數(shù)據(jù)集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分類算法IF rank = professorOR years 6THEN tenured = yes 分類規(guī)
17、則工業(yè)控制技術(shù)研究所分類規(guī)則測試集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知數(shù)據(jù)(Jeff, Professor, 4)Tenured?損失函數(shù)損失函數(shù)評(píng)價(jià)法損失函數(shù)為 ,擬合函數(shù) 的預(yù)測風(fēng)險(xiǎn)定義為 估計(jì)方法為 ,由于數(shù)據(jù)聯(lián)合分布未知,無法用E 計(jì)算。故用風(fēng)險(xiǎn)的矩風(fēng)險(xiǎn)的矩 估計(jì)經(jīng)驗(yàn)風(fēng)險(xiǎn)(代替預(yù)測風(fēng)險(xiǎn)) 36( ,)L y ff*argmin( )R,( )( , ( , ),x yRE L y f x11()(,
18、(,)niiiRL yf xn估計(jì)方法為 ,如果 ,期望風(fēng)險(xiǎn)經(jīng)驗(yàn)風(fēng)險(xiǎn) ,當(dāng)不滿足 ,37*argmin( )R/n p *()(),RR*()()RR/n p 根據(jù)Vladimir N. Vapnik(1995)估算:在 時(shí),38/( )20N VC n *4 ()()()11.2BRRRB以上給出了期望風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn)之間的關(guān)系。結(jié)構(gòu)風(fēng)險(xiǎn)最小化結(jié)構(gòu)風(fēng)險(xiǎn)最小化定義定義統(tǒng)計(jì)學(xué)習(xí)理論提出了一種新的策略,即把函數(shù)集構(gòu)造為一個(gè)函數(shù)子集序列,使各個(gè)子集按照VC維的大小排列;在每個(gè)子集中尋找最小經(jīng)驗(yàn)風(fēng)險(xiǎn),在子集間折衷考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍,取得實(shí)際風(fēng)險(xiǎn)的最小。這種思想稱作結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural
19、 Risk Minimization),即SRM準(zhǔn)則。39vc維VC維(Vapnik-Chervonenkis Dimension)的概念是為了研究學(xué)習(xí)過程一致收斂的速度和推廣性,由統(tǒng)計(jì)學(xué)習(xí)理論定義的有關(guān)函數(shù)集學(xué)習(xí)性能的一個(gè)重要指標(biāo)。40結(jié)構(gòu)風(fēng)險(xiǎn)最小化結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)的的基本思想基本思想所謂的結(jié)構(gòu)風(fēng)險(xiǎn)最小化就是在保證分類精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))的同時(shí),降低學(xué)習(xí)機(jī)器的 VC 維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制。傳統(tǒng)機(jī)器學(xué)習(xí)方法中普遍采用的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則在樣本數(shù)目有限時(shí)是不合理的,因此,需要同時(shí)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍。機(jī)器學(xué)習(xí)過程不但要使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,還要使VC維盡量小以縮小
20、置信范圍,才能取得較小的實(shí)際風(fēng)險(xiǎn),即對(duì)未來樣本有較好的推廣性。41在有限訓(xùn)練樣本下,學(xué)習(xí)機(jī)器的VC維越高則置信范圍越大,真實(shí)風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn)之間可能的差別越大.這就是為什么會(huì)出現(xiàn)過學(xué)習(xí)現(xiàn)象的原因。實(shí)現(xiàn)實(shí)現(xiàn)SRM的思路的思路之一就是設(shè)計(jì)函數(shù)集的某種結(jié)構(gòu)使每個(gè)子集中都能取得最小的經(jīng)驗(yàn)風(fēng)險(xiǎn)(如使訓(xùn)練誤差為0),然后只需選擇適當(dāng)?shù)淖蛹怪眯欧秶钚?,則這個(gè)子集中使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的函數(shù)就是最優(yōu)函數(shù)。SVM方法實(shí)際上就是這種思想的具體實(shí)現(xiàn)。4210.2 Logistic回歸回歸普通回歸是對(duì)連續(xù)變量依賴關(guān)系建模的過程。然而,分類在現(xiàn)實(shí)中經(jīng)常發(fā)生。典型的是兩類問題(0-1)變量。如發(fā)病 ,與不發(fā)病 。431Y 0
21、Y 44(一)基本概念和原理(一)基本概念和原理 1.1.應(yīng)用背景應(yīng)用背景 LogisticLogistic回歸模型是一種概率模型,適合于病例對(duì)照研究、隨訪研究和橫斷面研究,且結(jié)果發(fā)生的變量取值必須是二分的或多項(xiàng)分類??捎糜绊懡Y(jié)果變量發(fā)生的因素為自變量與因變量,建立回歸方程。45 設(shè)資料中有一個(gè)因變量y、p個(gè)自變量x1, x2,xp,對(duì)每個(gè)實(shí)驗(yàn)對(duì)象共有n次觀測結(jié)果,可將原始資料列成表2形式。2、LogisticLogistic回歸模型的數(shù)據(jù)結(jié)構(gòu)46 表2 LogisticLogistic回歸模型的數(shù)據(jù)結(jié)構(gòu)實(shí)驗(yàn)對(duì)象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y
22、2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是二值或多項(xiàng)分類 表3 肺癌與危險(xiǎn)因素的調(diào)查分析例號(hào) 是否患病 性別 吸煙 年齡 地區(qū) 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性別中1代表男,0代表女,吸煙中1代表吸煙,0代表不吸煙。地區(qū)中,1代表農(nóng)村,0代表城市。 表4 配對(duì)資料(1:1)對(duì)子號(hào) 病例 對(duì)照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1
23、 2 0 2 0 10 2 2 2 0 0 0注:X1蛋白質(zhì)攝入量,取值:0,1,2,3 X2不良飲食習(xí)慣,取值:0,1,2,3 X3精神狀況 ,取值:0,1,2 49LogisticLogistic回歸回歸- Logistic- Logistic回歸與回歸與多重多重線性回歸聯(lián)系與區(qū)別線性回歸聯(lián)系與區(qū)別聯(lián)系聯(lián)系: : 用于分析多個(gè)自變量與一個(gè)因變量的關(guān)用于分析多個(gè)自變量與一個(gè)因變量的關(guān)系,目的是矯正混雜因素、篩選自變量和更系,目的是矯正混雜因素、篩選自變量和更精確地對(duì)因變量作預(yù)測等。精確地對(duì)因變量作預(yù)測等。區(qū)別區(qū)別: : 線性模型中因變量為連續(xù)性隨機(jī)變量,線性模型中因變量為連續(xù)性隨機(jī)變量,且要
24、求呈正態(tài)分布且要求呈正態(tài)分布. Logistic. Logistic回歸因變量的回歸因變量的取值僅有兩個(gè),不滿足正態(tài)分布。取值僅有兩個(gè),不滿足正態(tài)分布。503 3、 Logistic回歸模型l 令:令: y=1 發(fā)?。栃?、死亡、治愈等)發(fā)病(陽性、死亡、治愈等)l y=0 未發(fā)?。幮浴⑸?、未治愈等)未發(fā)?。幮浴⑸?、未治愈等)l 將發(fā)病的概率記為將發(fā)病的概率記為P,它與自變量,它與自變量x x1 1, , x x2 2, ,x,xp p 之間的之間的Logistic回歸模型為:回歸模型為:(10.4) P(Y=1|X X)=l可知,不發(fā)病的概率為:可知,不發(fā)病的概率為:l )exp(1
25、)exp(110110ppppXXXXp )exp(111110ppXXp 經(jīng)數(shù)學(xué)變換得:定義:為Logistic變換,即: ppXXpp 110)1/(ln)1/(ln)(logpppitppXXpLogit 110)(10.2.2Logistic回歸模型的極大似然估計(jì)回歸模型的極大似然估計(jì)Logistic回歸模型是通過極大似然估計(jì)法得到的,應(yīng)變量 取值為0和1,設(shè)事件發(fā)生記為y=1,否則為0,設(shè)自變量 ,n組觀測數(shù)據(jù)記為 , 。記 , ,則 與 的Logistic回歸模型是:2022年5月13日星期五Data Mining: Concepts and Techniques52yTkxxxx
26、),(21),(21iikiiyxxxni, 2 , 1TikiiixxxX), 1 (2110ixiyikiixxx,21iXTiXTikxkixikxkixikkiiieeeexxfyE11)()(110110110易知, 是均值為 的0-1型分布,其分布律為 ,則 的似然函數(shù)和對(duì)數(shù)似然函數(shù)分別為: 2022年5月13日星期五Data Mining: Concepts and Techniques53iyiiyiiyiiyf1)1 ()(niyi, 2 , 1; 1 , 0nyyy,21niiyiiyiL11)1 (niiiiiniiiiiyyyL11)1ln(1ln)1ln()1 (ln
27、ln代入 ,得記 ,選取 的估計(jì) 使得 達(dá)到極大,這就是Logistic回歸模型的極大似然估,該過程的求解需要采用牛頓(Newton-Raphson)迭代法。 2022年5月13日星期五Data Mining: Concepts and Techniques54ikxkixikxkixiee1101101niiXTiTiniikxkixikkiieXyexxyL11110110)1ln()1ln()(ln)(ln)(LLLTk),(10Tk),(10)(LL構(gòu)造得分函數(shù) ,共k+1個(gè)非線性方程組,令其=0求解 ,其中2022年5月13日星期五55( )( ),0,1,2,ggLLSgk0( ),0,1,2,1TXiniggiigTXiix eSy xgke構(gòu)造得分函數(shù) ,共k+1個(gè)非線性方程組,令其=0求解 ,其中2022年5月13日星期五56( )( ),0,1,2,ggLLSgk0( ),0,1,2,1TXi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年環(huán)氧漆稀釋劑項(xiàng)目投資價(jià)值分析報(bào)告
- 2025年快速軟簾門項(xiàng)目可行性研究報(bào)告
- 2025年室外三基色顯示屏項(xiàng)目可行性研究報(bào)告
- 石油管道安裝施工質(zhì)量控制與注意事項(xiàng)
- 農(nóng)村信用體系建設(shè)工作總結(jié)(10篇)
- 中學(xué)生遵紀(jì)守法演講稿1000字(31篇)
- 2025年中國醫(yī)用干式激光相機(jī)市場深度分析及行業(yè)前景展望報(bào)告
- AR游戲未來發(fā)展趨勢分析及投資規(guī)劃建議研究報(bào)告
- 2024河南道路貨物運(yùn)輸市場前景及投資研究報(bào)告
- 2025年度租賃房屋押金退還服務(wù)合同-@-1
- 《病理檢驗(yàn)技術(shù)》課程標(biāo)準(zhǔn)
- 立式加工中心說明書
- NcStudio-V15-激光平面切割控制系統(tǒng)用戶手冊(cè)(LS1500)
- 氮?dú)庵舷⑹鹿拾咐?jīng)驗(yàn)分享
- 國家安全人人有責(zé)國家安全主題教育PPT模板
- BowTieXP風(fēng)險(xiǎn)與管理軟件介紹
- 污水管網(wǎng)計(jì)算說明書
- 原子雜化軌道理論
- 文化產(chǎn)業(yè)園項(xiàng)目建議書范文
- 互聯(lián)網(wǎng)銷售卷煙(煙草)案件的分析
- 公務(wù)員考察政審表樣本
評(píng)論
0/150
提交評(píng)論