數(shù)據(jù)挖掘中的特征選擇_第1頁
數(shù)據(jù)挖掘中的特征選擇_第2頁
數(shù)據(jù)挖掘中的特征選擇_第3頁
數(shù)據(jù)挖掘中的特征選擇_第4頁
數(shù)據(jù)挖掘中的特征選擇_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘中的數(shù)據(jù)歸約問題為什么需要數(shù)據(jù)挖掘

數(shù)據(jù)爆炸問題自動數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術使得大量的數(shù)據(jù)被收集,存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息數(shù)據(jù)爆炸但知識貧乏

/dx//dx/150630/4647616.html/dx/150630/4647625.html/dx/150630/4647627.html/dx/150630/4647631.html/dx/150630/4647632.html/dx/150630/4647633.html/dx/150630/4647634.html/dx/150630/4647637.html/dx/150630/4647641.html/dx/150630/4647643.html/dx/150630/4647644.html/dx/150701/4648269.html/dx/150701/4648273.html/dx/150701/4648274.html/dx/150701/4648279.html/dx/150701/4648289.html/dx/150701/4648290.html/dx/150701/4648295.html/dx/150701/4648298.html/dx/150701/4648300.html數(shù)據(jù)挖掘的作用數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(規(guī)則,規(guī)律,模式,約束)數(shù)據(jù)挖掘是一種從大量數(shù)據(jù)中尋找其規(guī)律的技術。它綜合了統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術2023/2/4數(shù)據(jù)挖掘中的特征選擇3數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識海量的數(shù)據(jù)2023/2/4數(shù)據(jù)挖掘中的特征選擇4數(shù)據(jù)挖掘的應用數(shù)據(jù)分析和決策支持市場分析和管理客戶關系管理(CRM),市場占有量分析,交叉銷售,目標市場風險分析和管理風險預測,客戶保持,保險業(yè)的改良,質量控制,競爭分析欺騙檢測和異常模式的監(jiān)測(孤立點)其他的應用文本挖掘(新聞組,電子郵件,文檔)和Web挖掘流數(shù)據(jù)挖掘DNA和生物數(shù)據(jù)分析2023/2/4數(shù)據(jù)挖掘中的特征選擇5數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識挖掘(KDD)數(shù)據(jù)挖掘—知識挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫Knowledge任務相關數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估2023/2/4數(shù)據(jù)挖掘中的特征選擇6數(shù)據(jù)挖掘的步驟了解應用領域了解相關的知識和應用的目標創(chuàng)建目標數(shù)據(jù)集:選擇數(shù)據(jù)數(shù)據(jù)清理和預處理:(這個可能要占全過程60%的工作量)數(shù)據(jù)縮減和變換找到有用的特征,維數(shù)縮減/變量縮減,不變量的表示選擇數(shù)據(jù)挖掘的功能數(shù)據(jù)總結,分類模型數(shù)據(jù)挖掘,回歸分析,關聯(lián)規(guī)則挖掘,聚類分析等2023/2/4數(shù)據(jù)挖掘中的特征選擇7選擇挖掘算法數(shù)據(jù)挖掘:尋找感興趣的模式模式評估和知識表示可視化,轉換,消除冗余模式等等運用發(fā)現(xiàn)的知識2023/2/4數(shù)據(jù)挖掘中的特征選擇8數(shù)據(jù)挖掘和商業(yè)智能支持商業(yè)決策的潛能不斷增長最終用戶商業(yè)分析家

數(shù)據(jù)分析家DBA

決策支持數(shù)據(jù)表示可視化技術數(shù)據(jù)挖掘信息發(fā)現(xiàn)數(shù)據(jù)探索在線分析處理(OLAP),多維分析(MDA)統(tǒng)計分析,查詢和報告數(shù)據(jù)倉庫/數(shù)據(jù)市場數(shù)據(jù)源論文,文件,信息提供商,數(shù)據(jù)庫系統(tǒng),聯(lián)機事務處理系統(tǒng)(OLTP)2023/2/4數(shù)據(jù)挖掘中的特征選擇9典型數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)清洗過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫數(shù)據(jù)集成2023/2/4數(shù)據(jù)挖掘中的特征選擇10數(shù)據(jù)挖掘:多個學科的融合數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計學其他學科算法機器學習可視化2023/2/4數(shù)據(jù)挖掘中的特征選擇11數(shù)據(jù)挖掘的分類預言(Predication):用歷史預測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律2023/2/4數(shù)據(jù)挖掘中的特征選擇12數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering)相關規(guī)則(AssociationRule)回歸(Regression)其他2023/2/4數(shù)據(jù)挖掘中的特征選擇13特征歸約在數(shù)據(jù)挖掘中的作用因為在文本分類、信息檢索和生物信息學等數(shù)據(jù)挖掘的應用領域中,數(shù)據(jù)的維數(shù)往往是很高的。高維的數(shù)據(jù)集中包含了大量的特征(屬性)。比如一個文本數(shù)據(jù)集中,每一個文本都可以用一個向量來表示,向量中的每一個元素就是每一個詞在該文本中出現(xiàn)的頻率。在這種情況下,這個數(shù)據(jù)集中就存在著成千上萬的特征。這種高維的數(shù)據(jù)給數(shù)據(jù)挖掘帶來了“維災難”(TheCurseofDimensionality)問題。

2023/2/4數(shù)據(jù)挖掘中的特征選擇14特征選擇和特征降維是兩類特征歸約方法。2023/2/4數(shù)據(jù)挖掘中的特征選擇15特征選擇特征選擇的一般過程包括:首先從特征全集中產(chǎn)生出一個特征子集,然后用評價函數(shù)對該特征子集進行評價,評價的結果與停止準則進行比較,若評價結果比停止準則好就停止,否則就繼續(xù)產(chǎn)生下一組特征子集,繼續(xù)進行特征選擇。選出來的特征子集一般還要驗證其有效性。2023/2/4數(shù)據(jù)挖掘中的特征選擇16

特征選擇的過程(M.DashandH.Liu1997)2023/2/4數(shù)據(jù)挖掘中的特征選擇17特征選擇大體上可以看作是一個搜索過程,搜索空間中的每一個狀態(tài)都可以看成是一個可能特征子集。搜索的算法分為完全搜索(Complete),啟發(fā)式搜索(Heuristic),隨機搜索(Random)3大類。2023/2/4數(shù)據(jù)挖掘中的特征選擇18完全搜索分為窮舉搜索與非窮舉搜索兩類。(1)廣度優(yōu)先搜索(BFS)(2)分支限界搜索(BAB)(3)定向搜索(BS)(4)最優(yōu)優(yōu)先搜索(BestFirstSearch)

2023/2/4數(shù)據(jù)挖掘中的特征選擇19啟發(fā)式搜索(1)序列前向選擇(SFS)(2)序列后向選擇(SBS)(3)雙向搜索(BDS)(4)增L去R選擇算法(LRS)(5)序列浮動選擇(SequentialFloatingSelection)(6)決策樹(DTM)2023/2/4數(shù)據(jù)挖掘中的特征選擇20隨機算法(1)隨機產(chǎn)生序列選擇算法(RGSS)(2)模擬退火算法(SA)(3)遺傳算法(GA)

2023/2/4數(shù)據(jù)挖掘中的特征選擇21特征的評價函數(shù)特征的評估函數(shù)分為五類:相關性,距離,信息增益,一致性和分類錯誤率。常用的有平方距離,歐氏距離,非線性測量,Minkowski距離,信息增益,最小描述長度,互信息,依賴性度量或相關性度量,一致性度量,分類錯誤率,分類正確率

2023/2/4數(shù)據(jù)挖掘中的特征選擇22特征選擇方法的模型一般地,特征選擇方法可以分為三種模型,分別是:過濾模型、封裝模型和混合模型。2023/2/4數(shù)據(jù)挖掘中的特征選擇23過濾模型:根據(jù)訓練集進行特征選擇,在特征選擇的過程中并不涉及任何學習算法。即特征子集在學習算法運行之前就被單獨選定。但學習算法用于測試最終特征子集的性能。過濾模型簡單且效率很高。由于過濾模型中的特征選擇過程獨立于學習算法,這就容易與后面的學習算法產(chǎn)生偏差,因此為了克服這個缺點提出了封裝模型。2023/2/4數(shù)據(jù)挖掘中的特征選擇242023/2/4數(shù)據(jù)挖掘中的特征選擇25基于過濾模型的算法主要有兩類:特征權重和子集搜索。這兩類算法的不同之處在于是對單個特征進行評價還是對整個特征子集進行評價。

2023/2/4數(shù)據(jù)挖掘中的特征選擇26特征權重算法對每個特征指定一個權值,并按照它與目標概念的相關度對其進行排序,如果一個特征的相關度權值大于某個閾值,則認為該特征優(yōu)秀,并且選擇該特征。該算法缺點在于:他們可以捕獲特征與目標概念間的相關性,卻不能發(fā)現(xiàn)特征間的冗余性。而經(jīng)驗證明除了無關特征對學習任務的影響,冗余特征同樣影響學習算法的速度和準確性,也應盡可能消除冗余特征。Relief算法是一個比較著名的特征權重類方法。2023/2/4數(shù)據(jù)挖掘中的特征選擇27子集搜索算法通過在一定的度量標準指導下遍歷候選特征子集,對每個子集進行優(yōu)劣評價,當搜索停止時即可選出最優(yōu)(或近似最優(yōu))的特征子集。2023/2/4數(shù)據(jù)挖掘中的特征選擇28封裝模型:在此模型中,學習算法封裝在特征選擇的過程中,用特征子集在學習算法上得到的挖掘性能作為特征子集優(yōu)劣的評估準則。在初始特征空間內進行多次搜索,直至得到最佳的特征子集。與過濾模型相比,封裝模型具有更高的精度,但效率較低,運行速度慢于過濾模型。2023/2/4數(shù)據(jù)挖掘中的特征選擇292023/2/4數(shù)據(jù)挖掘中的特征選擇30過濾模型與包裹模型的根本區(qū)別在于對學習算法的使用方式。

混合模型:由于過濾模型與封裝模型之間的互補性,混合模型把這兩種模型進行組合,也就是先用過濾模式進行初選,再用封裝模型來獲得最佳的特征子集。2023/2/4數(shù)據(jù)挖掘中的特征選擇312023/2/4數(shù)據(jù)挖掘中的特征選擇32數(shù)據(jù)降維數(shù)據(jù)降維是指通過線性或非線性映射將樣本空間從高維空間映射到低維空間。降維方法主要分為兩類:線性或非線性。

2023/2/4數(shù)據(jù)挖掘中的特征選擇33數(shù)據(jù)降維是指通過線性或非線性映射將樣本空間從高維空間映射到低維空間。降維方法主要分為兩類:線性或非線性。而非線性降維方法又可分為基于核函數(shù)和基于特征值的方法。

2023/2/4數(shù)據(jù)挖掘中的特征選擇34線性降維方法有:主成分分析(PCA),獨立成分分析(ICA),線性判別分析(PCA),局部特征分析(LFA)。2023/2/4數(shù)據(jù)挖掘中的特征選擇35基于核函數(shù)的非線性降維方法有:基于核函數(shù)的主成分分析(KPCA),基于核函數(shù)獨立成分(KICA),基于核函數(shù)的判別分析(KLDA)。基于特征值(流形)的非線性降維方法有:ISOMAP(Isometricfeaturemapping),局部線性嵌入(LLE),拉普拉斯特征映射(LE)。

2023/2/4數(shù)據(jù)挖掘中的特征選擇36成果結合LDA與二分K均值聚類的特點,提出了針對高維數(shù)據(jù)集的自適應聚類方法。利用線性判別分析(LDA)來實現(xiàn)維歸約,然后在低維數(shù)據(jù)集上執(zhí)行二分k均值聚類來生成類。低維空間的聚類結果又可以通過某種機制構造出原數(shù)據(jù)集上的類。然后在此基礎上再利用LDA進行維歸約,這個過程反復進行下去,不斷地修正前面得到的聚類結果,直到得到全局最優(yōu)。

2023/2/4數(shù)據(jù)挖掘中的特征選擇37結合某種基于標準化互信息和遺傳算法提出所謂的兩階段特征選擇方法。該方法首先采用標

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論