版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第10章
數(shù)據(jù)挖掘與機器學習1
第10章
數(shù)據(jù)挖掘與機器學習1概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程2概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(工業(yè)控制技術研究所數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關聯(lián)、變化、異常和有意義的結構;數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術改善預測模型。工業(yè)控制技術研究所數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求國民經濟和社會的信息化社會信息化后,社會的運轉是軟件的運轉社會信息化后,社會的歷史是數(shù)據(jù)的歷史工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求國民經濟和社會的信息化社工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏
苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關系模型關聯(lián)規(guī)則序列目標市場資金分配貿易選擇在哪兒做廣告銷售的地理位置金融經濟政府POS.人口統(tǒng)計生命周期工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏苦惱數(shù)據(jù)挖掘功能
數(shù)據(jù)挖掘任務有兩類:第一類是描述性挖掘任務:刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性;第二類是預測性挖掘任務:在當前數(shù)據(jù)上進行推斷,以進行預測。數(shù)據(jù)挖掘功能 數(shù)據(jù)挖掘任務有兩類:工業(yè)控制技術研究所數(shù)據(jù)挖掘技術技術分類預言(Predication):用歷史預測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術關聯(lián)分析序列模式分類(預言)聚集異常檢測工業(yè)控制技術研究所數(shù)據(jù)挖掘技術技術分類工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識的特征算法的特征礦山(數(shù)據(jù))挖掘工具(算法)金子(知識)工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征礦山(數(shù)據(jù))挖工業(yè)控制技術研究所數(shù)據(jù)的特征大容量POS數(shù)據(jù)(某個超市每天要處理高達2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù))互聯(lián)網數(shù)據(jù)含噪音(不完全、不正確)異質數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網的數(shù)據(jù)是典型的例子)工業(yè)控制技術研究所數(shù)據(jù)的特征大容量工業(yè)控制技術研究所數(shù)據(jù)挖掘算法的特征構成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價:反映了什么樣的模式可以稱為知識模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索工業(yè)控制技術研究所數(shù)據(jù)挖掘算法的特征構成數(shù)據(jù)挖掘算法的三要素工業(yè)控制技術研究所數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering)相關規(guī)則(AssociationRule)回歸(Regression)其他工業(yè)控制技術研究所數(shù)據(jù)挖掘的主要方法分類(Classific工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質/局部區(qū)域的計算機群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預言模型系統(tǒng)intranet/extranet網絡計算支持半結構化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預言模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)
支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設計用來挖掘向量數(shù)據(jù)(vector-valueddata),這些數(shù)據(jù)模型在挖掘時候,一般一次性調進內存進行處理。許多這樣的系統(tǒng)已經商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)
目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。
工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)
第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關鍵的技術之一是提供對建立在異質系統(tǒng)上的多個預言模型以及管理這些預言模型的元數(shù)據(jù)提供第一級別(firstclass)的支持。
第四代數(shù)據(jù)挖掘系統(tǒng)
第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產生的各種類型的數(shù)據(jù)。工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘的功能/算法/應用的比較數(shù)據(jù)挖掘的功能/算法/應用的比較數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘的具體應用市場--購物藍分析客戶關系管理尋找潛在客戶提高客戶終生價值保持客戶忠誠度行銷活動規(guī)劃預測金融市場方向保險欺詐偵察客戶信用風險評級電話盜打NBA球員強弱分析信用卡可能呆帳預警星際星體分類數(shù)據(jù)挖掘的具體應用市場--購物藍分析保險欺詐偵察數(shù)據(jù)挖掘的步驟*一種步驟劃分方式理解資料與進行的工作獲取相關知識與技術(Acquisition)整合與查核資料(Integrationandchecking)去除錯誤、不一致的資料(Datacleaning)模式與假設的演化(Modelandhypothesisdevelopment)實際數(shù)據(jù)挖掘工作測試與核查所分析的資料(Testingandverification)解釋與運用(Interpretationanduse)數(shù)據(jù)挖掘的步驟*一種步驟劃分方式工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件
CBA
新加坡國立大學。基于關聯(lián)規(guī)則的分類算法,能從關系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關聯(lián)規(guī)則,使用關聯(lián)規(guī)則進行分類和預測工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成
支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性
能夠挖掘大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集
通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性
典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASE工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點和預言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產生的模型的變化能夠及時反映到預言模型系統(tǒng)中
由數(shù)據(jù)挖掘軟件產生的預言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預言模型相聯(lián)合提供決策支持的功能
能夠挖掘網絡環(huán)境下(Internet/Extranet)的分布式和高度異質的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成
缺陷不能支持移動環(huán)境工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預言模型系統(tǒng)的接口工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSS工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結合是當前的一個研究領域。
第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導,PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項目的負責人,該項目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質數(shù)據(jù)(Ubiquitous設備)的第四代數(shù)據(jù)挖掘系統(tǒng)。
工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預處理方面有一定缺陷
第三、四代系統(tǒng)強調預測模型的使用和操作型環(huán)境的部署
第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口
第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預言模型系統(tǒng)之間的有效的接口
目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應的第三代數(shù)據(jù)挖掘系統(tǒng),比如IBMIntelligentScoreService。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導
工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階段獨立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的現(xiàn)狀國內大部分處于科研階段各大學和科研機構從事數(shù)據(jù)挖掘算法的研究國內著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()有一些公司在國外產品基礎上開發(fā)的特定的應用IBMIntelligentMinerSASEnterpriseMiner自主知識產權的數(shù)據(jù)挖掘軟件復旦德門()等工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的現(xiàn)狀國內大部分處于科研階段工業(yè)控制技術研究所數(shù)據(jù)挖掘應用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經網絡NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees
傾向性分析
客戶保留客戶生命周期管理目標市場價格彈性分析
客戶細分市場細分
傾向性分析客戶保留目標市場欺詐檢測關聯(lián)分析Association
市場組合分析套裝產品分析目錄設計交叉銷售工業(yè)控制技術研究所數(shù)據(jù)挖掘應用Debt<10%ofInc10.1分類一般問題定義:給定,為離散值,表示每個樣例的分類,目標是找到一個函數(shù),對于新觀測點,能夠用預測分類。10.1分類一般問題定義:工業(yè)控制技術研究所分類VS.預測分類:(與回歸相比較)預測分類標號(或離散值)(特點)根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預測:建立連續(xù)函數(shù)值模型,比如預測空缺值典型應用信譽證實目標市場醫(yī)療診斷性能預測工業(yè)控制技術研究所分類VS.預測分類:(與回歸相比較)工業(yè)控制技術研究所數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描述預定數(shù)據(jù)類集和概念集假定每個元組屬于一個預定義的類,由一個類標號屬性確定基本概念訓練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓練樣本:訓練數(shù)據(jù)集中的單個樣本(元組)學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供第二步,使用模型,對將來的或未知的對象進行分類首先評估模型的預測準確率對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分適應數(shù)據(jù)”的情況工業(yè)控制技術研究所數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描工業(yè)控制技術研究所第一步:建立模型訓練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則工業(yè)控制技術研究所第一步:建立模型訓練數(shù)分類算法IFran工業(yè)控制技術研究所第二步:用模型進行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?工業(yè)控制技術研究所第二步:用模型進行分類分類規(guī)則測試集未知數(shù)損失函數(shù)損失函數(shù)評價法損失函數(shù)為,擬合函數(shù)的預測風險定義為
估計方法為
,由于數(shù)據(jù)聯(lián)合分布未知,無法用E
計算。故用風險的矩
估計經驗風險(代替預測風險)
36損失函數(shù)損失函數(shù)評價法36估計方法為
,如果,期望風險經驗風險,當不滿足,37估計方法為根據(jù)VladimirN.Vapnik(1995)估算:在時,38根據(jù)VladimirN.Vapnik(1995)估算:3以上給出了期望風險與經驗風險之間的關系。結構風險最小化定義統(tǒng)計學習理論提出了一種新的策略,即把函數(shù)集構造為一個函數(shù)子集序列,使各個子集按照VC維的大小排列;在每個子集中尋找最小經驗風險,在子集間折衷考慮經驗風險和置信范圍,取得實際風險的最小。這種思想稱作結構風險最小化(StructuralRiskMinimization),即SRM準則。39以上給出了期望風險與經驗風險之間的關系。39vc維VC維(Vapnik-ChervonenkisDimension)的概念是為了研究學習過程一致收斂的速度和推廣性,由統(tǒng)計學習理論定義的有關函數(shù)集學習性能的一個重要指標。40vc維40結構風險最小化(SRM)的
基本思想所謂的結構風險最小化就是在保證分類精度(經驗風險)的同時,降低學習機器的VC維,可以使學習機器在整個樣本集上的期望風險得到控制。傳統(tǒng)機器學習方法中普遍采用的經驗風險最小化原則在樣本數(shù)目有限時是不合理的,因此,需要同時最小化經驗風險和置信范圍。機器學習過程不但要使經驗風險最小,還要使VC維盡量小以縮小置信范圍,才能取得較小的實際風險,即對未來樣本有較好的推廣性。41結構風險最小化(SRM)的
基本思想所謂的結構風險最小化就是在有限訓練樣本下,學習機器的VC維越高則置信范圍越大,真實風險與經驗風險之間可能的差別越大.這就是為什么會出現(xiàn)過學習現(xiàn)象的原因。實現(xiàn)SRM的思路之一就是設計函數(shù)集的某種結構使每個子集中都能取得最小的經驗風險(如使訓練誤差為0),然后只需選擇適當?shù)淖蛹怪眯欧秶钚。瑒t這個子集中使經驗風險最小的函數(shù)就是最優(yōu)函數(shù)。SVM方法實際上就是這種思想的具體實現(xiàn)。42在有限訓練樣本下,學習機器的VC維越高則置信范圍越大,真實風10.2Logistic回歸普通回歸是對連續(xù)變量依賴關系建模的過程。然而,分類在現(xiàn)實中經常發(fā)生。典型的是兩類問題(0-1)變量。如發(fā)病,與不發(fā)病。4310.2Logistic回歸普通回歸是對連續(xù)變量依賴關系建44(一)基本概念和原理
1.應用背景
Logistic回歸模型是一種概率模型,適合于病例—對照研究、隨訪研究和橫斷面研究,且結果發(fā)生的變量取值必須是二分的或多項分類??捎糜绊懡Y果變量發(fā)生的因素為自變量與因變量,建立回歸方程。44(一)基本概念和原理
1.應用背景
45
設資料中有一個因變量y、p個自變量x1,x2,…,xp,對每個實驗對象共有n次觀測結果,可將原始資料列成表2形式。2、Logistic回歸模型的數(shù)據(jù)結構452、Logistic回歸模型的數(shù)據(jù)結構46
表2Logistic回歸模型的數(shù)據(jù)結構實驗對象y
X1X2X3
….XP
1y1a11a12a13
…a1p
2y2a21a22a23
…a2p
3y3a31a32a33
…a3p
…
…
…
…
…
…
…
nynan1an2an3
…anp
━━━━━━━━━━━━━━━━━━其中:y取值是二值或多項分類46表2Logistic回歸模型的數(shù)據(jù)結構
表3肺癌與危險因素的調查分析例號是否患病性別吸煙年齡地區(qū)
111030021014613000351………………30000261
注:是否患病中,‘0’代表否,‘1’代表是。性別中‘1’代表男,‘0’代表女,吸煙中‘1’代表吸煙,‘0’代表不吸煙。地區(qū)中,‘1’代表農村,‘0’代表城市。
數(shù)據(jù)挖掘與機器學習(非參數(shù)統(tǒng)計)課件
表4配對資料(1:1)對子號病例對照
x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白質攝入量,取值:0,1,2,3X2不良飲食習慣,取值:0,1,2,3X3精神狀況,取值:0,1,2
數(shù)據(jù)挖掘與機器學習(非參數(shù)統(tǒng)計)課件49Logistic回歸
--Logistic回歸與多重線性回歸聯(lián)系與區(qū)別聯(lián)系:
用于分析多個自變量與一個因變量的關系,目的是矯正混雜因素、篩選自變量和更精確地對因變量作預測等。區(qū)別:
線性模型中因變量為連續(xù)性隨機變量,且要求呈正態(tài)分布.Logistic回歸因變量的取值僅有兩個,不滿足正態(tài)分布。49Logistic回歸
--Logistic回歸與多重線503、Logistic回歸模型
令:y=1發(fā)病(陽性、死亡、治愈等)
y=0未發(fā)?。幮?、生存、未治愈等)將發(fā)病的概率記為P,它與自變量x1,x2,…,xp之間的Logistic回歸模型為:(10.4)P(Y=1|X)=可知,不發(fā)病的概率為:
503、Logistic回歸模型令:y=1
經數(shù)學變換得:定義:為Logistic變換,即:
經數(shù)學變換得:10.2.2
Logistic回歸模型的極大似然估計Logistic回歸模型是通過極大似然估計法得到的,應變量
取值為0和1,設事件發(fā)生記為y=1,否則為0,設自變量
,n組觀測數(shù)據(jù)記為
,
。記
,
,則
與
的Logistic回歸模型是:16十二月2022DataMining:ConceptsandTechniques5210.2.2
Logistic回歸模型的極大似然估計Logi易知,
是均值為
的0-1型分布,其分布律為
,則
的似然函數(shù)和對數(shù)似然函數(shù)分別為:
16十二月2022DataMining:ConceptsandTechniques53易知,是均值為的0-1型分布,其分布律為12十代入
,得記
,選取
的估計
使得
達到極大,這就是Logistic回歸模型的極大似然估,該過程的求解需要采用牛頓(Newton-Raphson)迭代法。
16十二月2022DataMining:ConceptsandTechniques5412十二月2022DataMining:Concep構造得分函數(shù)
,共k+1個非線性方程組,令其=0求解
,其中16十二月20225512十二月202255構造得分函數(shù)
,共k+1個非線性方程組,令其=0求解
,其中16十二月20225612十二月202256構造信息矩陣
,即
二階導矩陣的負矩陣,其中很明顯
,故
是一個對稱矩陣。16十二月202257構造信息矩陣構造信息矩陣
,即
二階導矩陣的負矩陣,其中很明顯
,故
是一個對稱矩陣。16十二月202258構造信息矩陣牛頓(Newton-Raphson)迭代法為16十二月202259牛頓(Newton-Raphson)迭代法為12十二月210.2.3
Logistic回歸和線性判別函數(shù)LDA的比較LDA16十二月20226010.2.3
Logistic回歸和線性判別函數(shù)LDA的牛頓(Newton-Raphson)迭代法16十二月202261牛頓(Newton-Raphson)迭代法12十二月206262用決策樹歸納分類決策樹一個類似于流程圖的數(shù)結構內部節(jié)點表示一個屬性上的測試每個分支代表一個測試的輸出葉結點代表類或類分布決策樹的生成包括兩個過程樹的建構首先所有的訓練樣本都在根結點基于所選的屬性循環(huán)的劃分樣本樹剪枝識別和刪除哪些反應映噪聲或孤立點的分支決策樹的使用:為一個未知的樣本分類在決策樹上測試樣本的屬性值16十二月2022DataMining:ConceptsandTechniques63用決策樹歸納分類決策樹12十二月2022DataMin16十二月2022DataMining:ConceptsandTechniques64決策樹歸納的算法基本算法以自頂向下遞歸的各個擊破方式構造決策樹首先,所有的訓練樣本都在根結點所有屬性都是分類的(如果值是連續(xù)的,它們應預先被離散化)基于所選屬性遞歸的劃分樣本在啟發(fā)式或統(tǒng)計度量的基礎上選擇測試屬性(例如,信息增益)停止劃分的條件給定節(jié)點的所有樣本屬于同一個類沒有剩余屬性可以用來進一步劃分樣本-使用多數(shù)表決來分類葉節(jié)點沒有剩余的樣本12十二月2022DataMining:Concep
第10章
數(shù)據(jù)挖掘與機器學習65
第10章
數(shù)據(jù)挖掘與機器學習1概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程66概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(工業(yè)控制技術研究所數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關聯(lián)、變化、異常和有意義的結構;數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術改善預測模型。工業(yè)控制技術研究所數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求國民經濟和社會的信息化社會信息化后,社會的運轉是軟件的運轉社會信息化后,社會的歷史是數(shù)據(jù)的歷史工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求國民經濟和社會的信息化社工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏
苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關系模型關聯(lián)規(guī)則序列目標市場資金分配貿易選擇在哪兒做廣告銷售的地理位置金融經濟政府POS.人口統(tǒng)計生命周期工業(yè)控制技術研究所數(shù)據(jù)挖掘的社會需求數(shù)據(jù)爆炸,知識貧乏苦惱數(shù)據(jù)挖掘功能
數(shù)據(jù)挖掘任務有兩類:第一類是描述性挖掘任務:刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性;第二類是預測性挖掘任務:在當前數(shù)據(jù)上進行推斷,以進行預測。數(shù)據(jù)挖掘功能 數(shù)據(jù)挖掘任務有兩類:工業(yè)控制技術研究所數(shù)據(jù)挖掘技術技術分類預言(Predication):用歷史預測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術關聯(lián)分析序列模式分類(預言)聚集異常檢測工業(yè)控制技術研究所數(shù)據(jù)挖掘技術技術分類工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識的特征算法的特征礦山(數(shù)據(jù))挖掘工具(算法)金子(知識)工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征礦山(數(shù)據(jù))挖工業(yè)控制技術研究所數(shù)據(jù)的特征大容量POS數(shù)據(jù)(某個超市每天要處理高達2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù))互聯(lián)網數(shù)據(jù)含噪音(不完全、不正確)異質數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網的數(shù)據(jù)是典型的例子)工業(yè)控制技術研究所數(shù)據(jù)的特征大容量工業(yè)控制技術研究所數(shù)據(jù)挖掘算法的特征構成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價:反映了什么樣的模式可以稱為知識模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索工業(yè)控制技術研究所數(shù)據(jù)挖掘算法的特征構成數(shù)據(jù)挖掘算法的三要素工業(yè)控制技術研究所數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering)相關規(guī)則(AssociationRule)回歸(Regression)其他工業(yè)控制技術研究所數(shù)據(jù)挖掘的主要方法分類(Classific工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質/局部區(qū)域的計算機群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預言模型系統(tǒng)intranet/extranet網絡計算支持半結構化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預言模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)
支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設計用來挖掘向量數(shù)據(jù)(vector-valueddata),這些數(shù)據(jù)模型在挖掘時候,一般一次性調進內存進行處理。許多這樣的系統(tǒng)已經商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)
目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。
工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)
第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關鍵的技術之一是提供對建立在異質系統(tǒng)上的多個預言模型以及管理這些預言模型的元數(shù)據(jù)提供第一級別(firstclass)的支持。
第四代數(shù)據(jù)挖掘系統(tǒng)
第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產生的各種類型的數(shù)據(jù)。工業(yè)控制技術研究所數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘的功能/算法/應用的比較數(shù)據(jù)挖掘的功能/算法/應用的比較數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘常用方法的綜合比較*數(shù)據(jù)挖掘的具體應用市場--購物藍分析客戶關系管理尋找潛在客戶提高客戶終生價值保持客戶忠誠度行銷活動規(guī)劃預測金融市場方向保險欺詐偵察客戶信用風險評級電話盜打NBA球員強弱分析信用卡可能呆帳預警星際星體分類數(shù)據(jù)挖掘的具體應用市場--購物藍分析保險欺詐偵察數(shù)據(jù)挖掘的步驟*一種步驟劃分方式理解資料與進行的工作獲取相關知識與技術(Acquisition)整合與查核資料(Integrationandchecking)去除錯誤、不一致的資料(Datacleaning)模式與假設的演化(Modelandhypothesisdevelopment)實際數(shù)據(jù)挖掘工作測試與核查所分析的資料(Testingandverification)解釋與運用(Interpretationanduse)數(shù)據(jù)挖掘的步驟*一種步驟劃分方式工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件
CBA
新加坡國立大學?;陉P聯(lián)規(guī)則的分類算法,能從關系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關聯(lián)規(guī)則,使用關聯(lián)規(guī)則進行分類和預測工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成
支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性
能夠挖掘大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集
通過支持數(shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性
典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASE工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點和預言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產生的模型的變化能夠及時反映到預言模型系統(tǒng)中
由數(shù)據(jù)挖掘軟件產生的預言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預言模型相聯(lián)合提供決策支持的功能
能夠挖掘網絡環(huán)境下(Internet/Extranet)的分布式和高度異質的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成
缺陷不能支持移動環(huán)境工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預言模型系統(tǒng)的接口工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSS工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結合是當前的一個研究領域。
第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導,PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項目的負責人,該項目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質數(shù)據(jù)(Ubiquitous設備)的第四代數(shù)據(jù)挖掘系統(tǒng)。
工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預處理方面有一定缺陷
第三、四代系統(tǒng)強調預測模型的使用和操作型環(huán)境的部署
第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口
第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預言模型系統(tǒng)之間的有效的接口
目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應的第三代數(shù)據(jù)挖掘系統(tǒng),比如IBMIntelligentScoreService。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導
工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階段獨立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的現(xiàn)狀國內大部分處于科研階段各大學和科研機構從事數(shù)據(jù)挖掘算法的研究國內著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()有一些公司在國外產品基礎上開發(fā)的特定的應用IBMIntelligentMinerSASEnterpriseMiner自主知識產權的數(shù)據(jù)挖掘軟件復旦德門()等工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的現(xiàn)狀國內大部分處于科研階段工業(yè)控制技術研究所數(shù)據(jù)挖掘應用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經網絡NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees
傾向性分析
客戶保留客戶生命周期管理目標市場價格彈性分析
客戶細分市場細分
傾向性分析客戶保留目標市場欺詐檢測關聯(lián)分析Association
市場組合分析套裝產品分析目錄設計交叉銷售工業(yè)控制技術研究所數(shù)據(jù)挖掘應用Debt<10%ofInc10.1分類一般問題定義:給定,為離散值,表示每個樣例的分類,目標是找到一個函數(shù),對于新觀測點,能夠用預測分類。10.1分類一般問題定義:工業(yè)控制技術研究所分類VS.預測分類:(與回歸相比較)預測分類標號(或離散值)(特點)根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預測:建立連續(xù)函數(shù)值模型,比如預測空缺值典型應用信譽證實目標市場醫(yī)療診斷性能預測工業(yè)控制技術研究所分類VS.預測分類:(與回歸相比較)工業(yè)控制技術研究所數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描述預定數(shù)據(jù)類集和概念集假定每個元組屬于一個預定義的類,由一個類標號屬性確定基本概念訓練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓練樣本:訓練數(shù)據(jù)集中的單個樣本(元組)學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供第二步,使用模型,對將來的或未知的對象進行分類首先評估模型的預測準確率對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分適應數(shù)據(jù)”的情況工業(yè)控制技術研究所數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描工業(yè)控制技術研究所第一步:建立模型訓練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則工業(yè)控制技術研究所第一步:建立模型訓練數(shù)分類算法IFran工業(yè)控制技術研究所第二步:用模型進行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?工業(yè)控制技術研究所第二步:用模型進行分類分類規(guī)則測試集未知數(shù)損失函數(shù)損失函數(shù)評價法損失函數(shù)為,擬合函數(shù)的預測風險定義為
估計方法為
,由于數(shù)據(jù)聯(lián)合分布未知,無法用E
計算。故用風險的矩
估計經驗風險(代替預測風險)
100損失函數(shù)損失函數(shù)評價法36估計方法為
,如果,期望風險經驗風險,當不滿足,101估計方法為根據(jù)VladimirN.Vapnik(1995)估算:在時,102根據(jù)VladimirN.Vapnik(1995)估算:3以上給出了期望風險與經驗風險之間的關系。結構風險最小化定義統(tǒng)計學習理論提出了一種新的策略,即把函數(shù)集構造為一個函數(shù)子集序列,使各個子集按照VC維的大小排列;在每個子集中尋找最小經驗風險,在子集間折衷考慮經驗風險和置信范圍,取得實際風險的最小。這種思想稱作結構風險最小化(StructuralRiskMinimization),即SRM準則。103以上給出了期望風險與經驗風險之間的關系。39vc維VC維(Vapnik-ChervonenkisDimension)的概念是為了研究學習過程一致收斂的速度和推廣性,由統(tǒng)計學習理論定義的有關函數(shù)集學習性能的一個重要指標。104vc維40結構風險最小化(SRM)的
基本思想所謂的結構風險最小化就是在保證分類精度(經驗風險)的同時,降低學習機器的VC維,可以使學習機器在整個樣本集上的期望風險得到控制。傳統(tǒng)機器學習方法中普遍采用的經驗風險最小化原則在樣本數(shù)目有限時是不合理的,因此,需要同時最小化經驗風險和置信范圍。機器學習過程不但要使經驗風險最小,還要使VC維盡量小以縮小置信范圍,才能取得較小的實際風險,即對未來樣本有較好的推廣性。105結構風險最小化(SRM)的
基本思想所謂的結構風險最小化就是在有限訓練樣本下,學習機器的VC維越高則置信范圍越大,真實風險與經驗風險之間可能的差別越大.這就是為什么會出現(xiàn)過學習現(xiàn)象的原因。實現(xiàn)SRM的思路之一就是設計函數(shù)集的某種結構使每個子集中都能取得最小的經驗風險(如使訓練誤差為0),然后只需選擇適當?shù)淖蛹怪眯欧秶钚?,則這個子集中使經驗風險最小的函數(shù)就是最優(yōu)函數(shù)。SVM方法實際上就是這種思想的具體實現(xiàn)。106在有限訓練樣本下,學習機器的VC維越高則置信范圍越大,真實風10.2Logistic回歸普通回歸是對連續(xù)變量依賴關系建模的過程。然而,分類在現(xiàn)實中經常發(fā)生。典型的是兩類問題(0-1)變量。如發(fā)病,與不發(fā)病。10710.2Logistic回歸普通回歸是對連續(xù)變量依賴關系建108(一)基本概念和原理
1.應用背景
Logistic回歸模型是一種概率模型,適合于病例—對照研究、隨訪研究和橫斷面研究,且結果發(fā)生的變量取值必須是二分的或多項分類??捎糜绊懡Y果變量發(fā)生的因素為自變量與因變量,建立回歸方程。44(一)基本概念和原理
1.應用背景
109
設資料中有一個因變量y、p個自變量x1,x2,…,xp,對每個實驗對象共有n次觀測結果,可將原始資料列成表2形式。2、Logistic回歸模型的數(shù)據(jù)結構452、Logistic回歸模型的數(shù)據(jù)結構110
表2Logistic回歸模型的數(shù)據(jù)結構實驗對象y
X1X2X3
….XP
1y1a11a12a13
…a1p
2y2a21a22a23
…a2p
3y3a31a32a33
…a3p
…
…
…
…
…
…
…
nynan1an2an3
…anp
━━━━━━━━━━━━━━━━━━其中:y取值是二值或多項分類46表2Logistic回歸模型的數(shù)據(jù)結構
表3肺癌與危險因素的調查分析例號是否患病性別吸煙年齡地區(qū)
111030021014613000351………………30000261
注:是否患病中,‘0’代表否,‘1’代表是。性別中‘1’代表男,‘0’代表女,吸煙中‘1’代表吸煙,‘0’代表不吸煙。地區(qū)中,‘1’代表農村,‘0’代表城市。
數(shù)據(jù)挖掘與機器學習(非參數(shù)統(tǒng)計)課件
表4配對資料(1:1)對子號病例對照
x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白質攝入量,取值:0,1,2,3X2不良飲食習慣,取值:0,1,2,3X3精神狀況,取值:0,1,2
數(shù)據(jù)挖掘與機器學習(非參數(shù)統(tǒng)計)課件113Logistic回歸
--Logistic回歸與多重線性回歸聯(lián)系與區(qū)別聯(lián)系:
用于分析多個自變量與一個因變量的關系,目的是矯正混雜因素、篩選自變量和更精確地對因變量作預測等。區(qū)別:
線性模型中因變量為連續(xù)性隨機變量,且要求呈正態(tài)分布.Logistic回歸因變量的取值僅有兩個,不滿足正態(tài)分布。49Logistic回歸
--Logistic回歸與多重線1143、Logistic回歸模型
令:y=1發(fā)病(陽性、死亡、治愈等)
y=0未發(fā)病(陰性、生存、未治愈等)將發(fā)病的概率記為P,它與自變量x1,x2,…,xp之間的Logistic回歸模型為:(10.4)P(Y=1|X)=可知,不發(fā)病的概率為:
503、Logistic回歸模型令:y=1
經數(shù)學變換得:定義:為L
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新型城鎮(zhèn)化項目宿舍建設承包合同4篇
- 2024銅門制安合同糾紛解決協(xié)議
- 2025年度醫(yī)院感染控制中心建設與承包合同4篇
- 2025年度智慧社區(qū)建設項目承包合作協(xié)議范文4篇
- 2025年度出租車行業(yè)駕駛員職業(yè)保險合作協(xié)議3篇
- 2025年度智能車庫使用權轉讓合同與范本4篇
- 2025年度智能化車庫租賃服務合同范本4篇
- 2024版熟石灰購銷協(xié)議范本
- 2025年度危險廢物承包裝卸處理協(xié)議4篇
- 2025年度智能穿戴設備租賃與健康管理服務合同4篇
- 二零二五年度無人駕駛車輛測試合同免責協(xié)議書
- 北京市海淀區(qū)2024-2025學年高一上學期期末考試歷史試題(含答案)
- 常用口服藥品的正確使用方法
- 2025年湖北華中科技大學招聘實驗技術人員52名歷年高頻重點提升(共500題)附帶答案詳解
- 2024年鉆探工程勞務協(xié)作協(xié)議樣式版B版
- 《心肺復蘇機救治院內心搏驟?;颊咦o理專家共識》解讀
- 計算機二級WPS考試試題
- 智聯(lián)招聘行測題庫及答案
- 前程無憂測評題庫及答案
- 2023中華護理學會團體標準-注射相關感染預防與控制
- 超潔凈管道(CL-PVC)施工技術
評論
0/150
提交評論