My數(shù)據(jù)挖掘復習_第1頁
My數(shù)據(jù)挖掘復習_第2頁
My數(shù)據(jù)挖掘復習_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第一章數(shù)據(jù)挖掘:從大量數(shù)據(jù)中挖掘出令人感興趣的、有用的知識模式,又稱為KDD (數(shù)據(jù)庫中的知識發(fā)現(xiàn)) KDD:數(shù)據(jù)清理一一數(shù)據(jù)集成一一數(shù)據(jù)選擇數(shù)據(jù)變換數(shù)據(jù)挖掘一一模式評估一一知識表現(xiàn)1數(shù)據(jù)清理:清理臟數(shù)據(jù)2數(shù)據(jù)集成:多種數(shù)據(jù)源可以組合在一起3數(shù)據(jù)選擇:從數(shù)據(jù)庫中提取與分析任務相關的數(shù)據(jù)4數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式5數(shù)據(jù)挖掘:選擇適當?shù)乃惴▉碚业礁信d趣的模式6模式評估:根據(jù)興趣度,識別提供知識的真正有趣的模式7知識表示:使用可視化表示技術,向用戶提供挖掘知識數(shù)據(jù)挖掘的主要功能:描述性的數(shù)據(jù)挖掘和預測性的數(shù)據(jù)挖掘通常還有以下功能:1概念描述:特性化和區(qū)分:為數(shù)據(jù)的特征化和比較產(chǎn)生描述

2、(當所描述的概念所指的是一類對象時,也稱為類描 述)。特征化:提供給定數(shù)據(jù)集的簡潔匯總。區(qū)分:提供兩個或多個數(shù)據(jù)集的比較描述。2關聯(lián)分析:從大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性。3分類和預測:根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)(分類),用來預測 類型標志未知的對象類(預測)。4聚類分析:將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。5孤立點分析孤立點:一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)6趨勢和演變分析第二章DW數(shù)據(jù)倉庫:數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決 策過程

3、。OLTP:聯(lián)機事物處理OLAP:聯(lián)機分析處理OLTP和OLAP的區(qū)別OLAP:面向市場,高靈活性,面向主題,能讀取百萬條記錄,只能查詢,用戶數(shù)量數(shù)百個,數(shù)據(jù)庫規(guī)模GB甚至 TB級OLTP :面向顧客,性能高,可用性高,面向應用,一次讀寫數(shù)十條紀錄,能執(zhí)行事物操作,用戶數(shù)量可以上萬個, 數(shù)據(jù)規(guī)模在100MB或者GB級別 多維數(shù)據(jù)模型上的OLAP操作:1上卷:在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù)2下鉆:從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察,增加了維數(shù)3切片:在給定的數(shù)據(jù)立方體的一個維上進行選擇,導致一個子方概念分層:一個概念分層(concept hierarchy)定義一個映射序列,將

4、低層概念映射到更一般的高層概念。概念分層可 以由系統(tǒng)用戶、領域專家、知識工程師人工的提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動的產(chǎn)生多維數(shù)據(jù)模型:星型模型(主表上聯(lián)系很多維表);雪花模型(維表上再聯(lián)系維表);事實星座模型(主表與主表之間 共享維表)DW的應用:信息處理、分析處理、數(shù)據(jù)挖掘第三章數(shù)據(jù)預處理:1數(shù)據(jù)清理:填寫空缺的值,平滑噪聲數(shù)據(jù),識別、刪除孤立點,解決不一致性2數(shù)據(jù)集成:集成多個數(shù)據(jù)庫、數(shù)據(jù)立方體或文件3數(shù)據(jù)變換:規(guī)范化和聚集4數(shù)據(jù)歸約:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結果5數(shù)據(jù)離散化:通過概念分層和數(shù)據(jù)的離散化來規(guī)約數(shù)據(jù),對數(shù)字型數(shù)據(jù)特別重要 處理空缺值:1忽

5、略元組:用于類標號缺少2人工填寫工作量大,可行性低3使用全局變量如unknown4使用屬性的平均值5使用與給定元組屬同一類的所有樣本的平均值6使用最可能的值填充空缺值噪聲處理:1分箱滑等等2聚類首先排序數(shù)據(jù),并將他們分到等深的箱中,然后可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平監(jiān)測并且去除孤立點3計算機和人工檢查結合計算機檢測可疑數(shù)據(jù),然后對它們進行人工判斷4回歸通過讓數(shù)據(jù)適應回歸函數(shù)來平滑數(shù)據(jù)規(guī)范化:最小最大規(guī)范化,z-score規(guī)范化(v-平均值/標準差),小數(shù)定標規(guī)范化第四章數(shù)據(jù)挖掘原語的組成部分:1任務相關的數(shù)據(jù):數(shù)據(jù)庫(倉庫)名、數(shù)據(jù)立方體、選擇條件、相關屬性、分組條件2挖掘的

6、知識類型:特征化、區(qū)分、關聯(lián)、分類/預測、聚類3背景知識:概念分層,關聯(lián)的確信度4模式興趣度量:簡單性、確定性、實用性、新穎性5發(fā)現(xiàn)模式的的可視化:規(guī)則、表、圖表、圖、判定樹.支持度置信度DW和DM的耦合方式:不耦合,松散耦合,半緊密耦合,緊密耦合第五章描述性挖掘:以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質。預測性數(shù)據(jù)挖掘:通過分析數(shù)據(jù)建立一個或一組模型,并試圖預測新數(shù)據(jù)集的行為。第六章關聯(lián)規(guī)則挖掘:從事務數(shù)據(jù)庫,關系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性Apriori算法由連接和剪枝組成第七章分類:根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分

7、類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預測:建立連續(xù)函數(shù)值模型,用來預測類型標識未知的對象類有指導的學習(用于分類):模型的學習在被告知每個訓練樣本屬于哪個類的“指導”下進行;新數(shù)據(jù)使用訓練數(shù)據(jù)集中 得到的規(guī)則進行分類無指導的學習(用于聚類):每個訓練樣本的類編號是未知的,要學習的類集合或數(shù)量也可能是事先未知的;通過一系 列的度量、觀察來建立數(shù)據(jù)中的類編號或進行聚類由判定樹推出推導規(guī)則 預測是構造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。預測和分類的異同相同點:兩者都需要構建模型都用模型來估計未知值不同點:分類法主要是用來預測類標號(分類屬性值)預測法主要是用來估計連續(xù)值(量化屬性值

8、)第八章聚類:數(shù)據(jù)對象的集合在同一個聚類(簇)中的對象彼此相似不同簇中的對象則相異聚類分析:將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程聚類是一種無指導的學習:沒有預定義的類編號聚類分析的數(shù)據(jù)挖掘功能:作為一個獨立的工具來獲得數(shù)據(jù)分布的情況;作為其他算法(如:特征和分類)的預處理步驟好的聚類結果:高類內(nèi)相似度低類間相似性數(shù)據(jù)挖掘對聚類分析的要求1可擴展性(Scalability):大多數(shù)來自于機器學習和統(tǒng)計學領域的聚類算法在處理數(shù)百條數(shù)據(jù)時能表現(xiàn)出高效率2處理不同數(shù)據(jù)類型的能力:數(shù)字型;二元類型,分類型/標稱型,序數(shù)型,比例標度型等等3發(fā)現(xiàn)任意形狀的能力:基于距離的聚類算法往往發(fā)現(xiàn)的是球形的聚類,其實現(xiàn)實的聚類是任意形狀的4用于決定輸入?yún)?shù)的領域知識最小化:對于高維數(shù)據(jù),參數(shù)很難決定,聚類的質量也很難控制5處理噪聲數(shù)據(jù)的能力:對空缺值、孤立點、數(shù)據(jù)噪聲不敏

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論