數(shù)據(jù)挖掘之基本流程課件_第1頁
數(shù)據(jù)挖掘之基本流程課件_第2頁
數(shù)據(jù)挖掘之基本流程課件_第3頁
數(shù)據(jù)挖掘之基本流程課件_第4頁
數(shù)據(jù)挖掘之基本流程課件_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘之基本流程1.什么是數(shù)據(jù)挖掘?2.數(shù)據(jù)挖掘的基本方法?1內(nèi)容回顧數(shù)據(jù)挖掘(英語:Datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(英語:Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。(a)根據(jù)性別劃分公司的顧客。(b)根據(jù)可贏利性劃分公司的顧客。(c)預(yù)測投一對骰子的結(jié)果。(d)使用歷史記錄預(yù)測某公司未來的股票價(jià)格。2下列每項(xiàng)活動(dòng)是否是數(shù)據(jù)挖掘任務(wù)?簡單陳述你的理由?理解什么是KDD(知識(shí)發(fā)現(xiàn))與KDD的基本流程;了解CRISPDM的含義與基本流程;了解數(shù)據(jù)挖掘的基本流程;理解并掌握使用SPSSModeler進(jìn)行數(shù)據(jù)挖掘的基本方法;3內(nèi)容要點(diǎn)4KDD(KnowledgeDiscoveryinDatabase)-知識(shí)發(fā)現(xiàn)知識(shí)發(fā)現(xiàn)知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。1.什么是知識(shí)?2.知識(shí)發(fā)現(xiàn)的概念描述!概念規(guī)律模式規(guī)則約束5知識(shí)發(fā)現(xiàn)過程數(shù)據(jù)集變換后數(shù)據(jù)預(yù)處理數(shù)據(jù)目標(biāo)數(shù)據(jù)選取抽樣變換預(yù)處理知識(shí)數(shù)據(jù)挖掘解釋評價(jià)抽取的信息可視化知識(shí)發(fā)現(xiàn)過程示意圖數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果表達(dá)與解釋選擇算法主要考慮兩個(gè)因素:一是盡量選取與數(shù)據(jù)特征相關(guān)的算法二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求。數(shù)據(jù)挖掘質(zhì)量的好壞有兩個(gè)影響要素:一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性;二是用于采掘的數(shù)據(jù)的質(zhì)量和數(shù)量6知識(shí)發(fā)現(xiàn)的任務(wù)

知識(shí)發(fā)現(xiàn)的任務(wù)數(shù)據(jù)總結(jié)概念描述分類與預(yù)測聚類分析關(guān)聯(lián)分析異常分析建模7一、數(shù)據(jù)總結(jié)數(shù)據(jù)總結(jié)的目的:對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述數(shù)據(jù)總結(jié)的方法:傳統(tǒng)的也是最簡單的方法是對數(shù)據(jù)庫的各個(gè)字段求和值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示8二、概念描述一個(gè)對含有大量數(shù)據(jù)的數(shù)據(jù)集合進(jìn)行概述性的總結(jié)并獲得簡明、準(zhǔn)確的描述,這種描述就稱為概念描述(conceptdescription)。例子:一個(gè)數(shù)據(jù)挖掘系統(tǒng)需要從我校職工數(shù)據(jù)庫中,挖掘出我校講師情況的概要總結(jié),并給出(我校)講師概念描述。提取信息總結(jié)算法概要總結(jié)概念描述62%(age<30)and(age>24)9三、分類與預(yù)測分類:就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識(shí)別未知數(shù)據(jù)的歸屬或類別(class),即將未知事例映射到某種離散類別之一。

分類通常用于預(yù)測未知數(shù)據(jù)實(shí)例的歸屬類別(有限離散值),如一個(gè)銀行客戶的信用等級是屬于A級、B級還是C級。10四、聚類分析聚類分析(clusteringanalysis)中,首先需要根據(jù)“各聚集(clusters)內(nèi)部數(shù)據(jù)對象間的相似度最大化;而各聚集(clusters)對象間相似度最小化”的基本聚類分析原則,以及度量數(shù)據(jù)對象之間相似度的計(jì)算公式,將聚類分析的數(shù)據(jù)對象劃分為若干組(groups)。因此一個(gè)組中數(shù)據(jù)對象間的相似度要比不同組數(shù)據(jù)對象間的相似度要大。每一個(gè)聚類分析所獲得的組就可以視為是一個(gè)同類別歸屬的數(shù)據(jù)對象集合,更進(jìn)一步從這些同類別數(shù)據(jù)集,又可以通過分類學(xué)習(xí)11五、關(guān)聯(lián)分析關(guān)聯(lián)分析(associationanalysis):從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)(又稱為關(guān)聯(lián)規(guī)則,associationrules)。關(guān)聯(lián)分析廣泛應(yīng)用于市場營銷,事務(wù)分析等應(yīng)用領(lǐng)域。

對于一個(gè)商場經(jīng)理,或許更想知道哪些商品是常在一起購買,描述這樣的情況的一條關(guān)聯(lián)規(guī)則說明如下:12六、異類分析異類(outlier):那些不符合大多數(shù)數(shù)據(jù)對象所構(gòu)成的規(guī)律(模型)的數(shù)據(jù)對象就被稱為異類。示例:異類分析可以用于從大量商品購買記錄中,依據(jù)各帳戶平常所發(fā)生的購買行為,發(fā)現(xiàn)正在進(jìn)行信用卡詐騙的購買行為(異類行為)。13七、演化分析數(shù)據(jù)演化分析(evolutionanalysis):對隨時(shí)間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進(jìn)行建模描述。示例:利用演化分析方法可對股市主要股票交易數(shù)據(jù)(時(shí)序數(shù)據(jù),time-seriesdata)進(jìn)行分析,以便獲得整個(gè)股票市場的股票演化規(guī)律,以及一個(gè)特定股票的變化規(guī)律請回憶知識(shí)發(fā)現(xiàn)的過程包括哪些?14實(shí)踐一15KDD過程可以概括為三部分:數(shù)據(jù)準(zhǔn)備(DataPreparation)數(shù)據(jù)挖掘(DataMining)結(jié)果的解釋和評估(Interpretation&Evaluation)。數(shù)據(jù)目標(biāo)數(shù)據(jù)預(yù)處理數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)模式知識(shí)選擇預(yù)處理轉(zhuǎn)換數(shù)據(jù)挖掘模式評價(jià)模式評價(jià)數(shù)據(jù)挖掘數(shù)據(jù)準(zhǔn)備

KDD過程圖數(shù)據(jù)選取(DataSelection):數(shù)據(jù)選取的目的是:確定發(fā)現(xiàn)任務(wù)的操作對象,即目標(biāo)數(shù)據(jù)(TargetData),是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)數(shù)據(jù)預(yù)處理(DataPreprocessing):一般包括:消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等。如把連續(xù)值型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),以便于符號歸納;或是把離散型數(shù)據(jù)轉(zhuǎn)換為連續(xù)值型數(shù)據(jù),以便于神經(jīng)網(wǎng)絡(luò)計(jì)算。161.第一階段數(shù)據(jù)準(zhǔn)備(又可分為3個(gè)子步驟)數(shù)據(jù)變換(DataTransformation):主要目的是:削減數(shù)據(jù)維數(shù)或降維即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時(shí)要考慮的特征或變量個(gè)數(shù)。171.第一階段數(shù)據(jù)準(zhǔn)備(又可分為3個(gè)子步驟)

首先要確定挖掘的任務(wù)或目的,如分類、聚類或關(guān)聯(lián)規(guī)則等。

確定任務(wù)后,就要決定使用的挖掘算法;選擇實(shí)現(xiàn)算法有兩個(gè)考慮因素:

一是不同的數(shù)據(jù)有不同的特點(diǎn);

二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求。

有的用戶可能希望獲取描述型的、容易理解的知識(shí);而有的只是希望獲取預(yù)測準(zhǔn)確度盡可能高的預(yù)測型知識(shí)。選擇了挖掘算法后,就可以實(shí)施數(shù)據(jù)挖掘操作,獲取有用的模式。182.第二階段數(shù)據(jù)挖掘數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)評估:可能存在冗余或無關(guān)的模式,需將其剔除;也可能有不滿足用戶要求模式,則需要退回到發(fā)現(xiàn)過程前面的階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種挖掘算法等等。另外,KDD由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂方式,如把分類決策樹轉(zhuǎn)換為“if…then…”規(guī)則。193.第三階段結(jié)果的解釋和評估數(shù)據(jù)挖掘僅僅是整個(gè)過程中的一個(gè)步驟。數(shù)據(jù)挖掘質(zhì)量的好壞有兩個(gè)影響要素:一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性;二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)量(數(shù)據(jù)量的大小)。如果選擇了錯(cuò)誤的數(shù)據(jù)或不適當(dāng)?shù)膶傩?或?qū)?shù)據(jù)進(jìn)行了不適當(dāng)?shù)霓D(zhuǎn)換則挖掘的結(jié)果不會(huì)成功。整個(gè)挖掘過程是一個(gè)不斷反饋的過程。比如,用戶在挖掘途中發(fā)現(xiàn)選擇的數(shù)據(jù)不太滿意,或使用的技術(shù)產(chǎn)生不了期望的結(jié)果。這時(shí),用戶需要重復(fù)先前的過程,甚至從頭重新開始。20數(shù)據(jù)挖掘僅僅是整個(gè)過程中的一個(gè)步驟。

21數(shù)據(jù)挖掘的常見過程模型

CRISP-DMSEMMA5A22SEMMA1Sample——數(shù)據(jù)取樣2Explore——數(shù)據(jù)特征探索、分析和予處理3Modify——問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇4Model——模型的研發(fā)、知識(shí)的發(fā)現(xiàn)5Assess——模型和知識(shí)的綜合解釋和評價(jià)235A

評價(jià)需求Assess存取數(shù)據(jù)Access

完備分析Analyze模型演示Act結(jié)果展現(xiàn)Automate跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程(CRISP-DM)定位是面向行業(yè)、工具導(dǎo)向、面向應(yīng)用適用于大型工業(yè)和商業(yè)實(shí)踐的一般標(biāo)準(zhǔn)24CRISPDM25CRISP-DM

1:businessunderstanding:即商業(yè)理解.在第一個(gè)階段我們必須從商業(yè)的角度上面了解項(xiàng)目的要求和最終目的是什么.并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來.2.dataunderstanding:數(shù)據(jù)的理解以及收集,對可用的數(shù)據(jù)進(jìn)行評估.3:datapreparation:數(shù)據(jù)的準(zhǔn)備,對可用的原始數(shù)據(jù)進(jìn)行一系列的組織以及清洗,使之達(dá)到建模需求.4:modeling:即應(yīng)用數(shù)據(jù)挖掘工具建立模型.5:evaluation:對建立的模型進(jìn)行評估,重點(diǎn)具體考慮得出的結(jié)果是否符合第一步的商業(yè)目的.6:deployment:部署,即將其發(fā)現(xiàn)的結(jié)果以及過程組織成為可讀文本形式26CRISP-DM——商業(yè)理解商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布確定商業(yè)目標(biāo)形勢評估確定數(shù)據(jù)挖掘目標(biāo)制定項(xiàng)目計(jì)劃背景商業(yè)目標(biāo)成功標(biāo)準(zhǔn)擁有資源需求、假定和限制風(fēng)險(xiǎn)和偶然性專業(yè)術(shù)語成本和收益數(shù)據(jù)挖掘目標(biāo)數(shù)據(jù)挖掘成功標(biāo)準(zhǔn)項(xiàng)目計(jì)劃工具和方法評估27CRISP-DM——數(shù)據(jù)理解商業(yè)理解

數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布收集原始數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索性分析數(shù)據(jù)質(zhì)量描述數(shù)據(jù)收集報(bào)告數(shù)據(jù)描述報(bào)告探索性數(shù)據(jù)分析報(bào)告數(shù)據(jù)質(zhì)量報(bào)告28CRISP-DM——數(shù)據(jù)準(zhǔn)備商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布選擇數(shù)據(jù)確定分析包含/剔除數(shù)據(jù)數(shù)據(jù)集數(shù)據(jù)集描述數(shù)據(jù)清理數(shù)據(jù)清理報(bào)告數(shù)據(jù)重構(gòu)生成新的變量(字段)生成新的記錄整合數(shù)據(jù)合并相關(guān)數(shù)據(jù)格式化數(shù)據(jù)改變數(shù)據(jù)格式,適應(yīng)分析29CRISP-DM——建立模型商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布選擇建模技術(shù)產(chǎn)生檢驗(yàn)設(shè)計(jì)建立模型評價(jià)模型模型技術(shù)模型假設(shè)檢驗(yàn)設(shè)計(jì)參數(shù)設(shè)定建模模型評價(jià)參數(shù)設(shè)定的修訂模型描述30CRISP-DM——模型評估商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布結(jié)果評估數(shù)據(jù)挖掘過程回顧確定下一步的工作評估數(shù)據(jù)挖掘結(jié)果被認(rèn)可的模型數(shù)據(jù)挖掘過程的回顧列出可能的行動(dòng)決策31CRISP-DM——結(jié)果發(fā)布商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布發(fā)布結(jié)果計(jì)劃監(jiān)測和維護(hù)模型計(jì)劃生成最終數(shù)據(jù)挖掘報(bào)告項(xiàng)目回顧結(jié)果發(fā)布計(jì)劃監(jiān)測和維護(hù)模型計(jì)劃最終數(shù)據(jù)挖掘報(bào)告數(shù)據(jù)挖掘報(bào)告展現(xiàn)項(xiàng)目檢驗(yàn)總結(jié)32SPSSModeler用戶界面數(shù)據(jù)流區(qū)域工具欄菜單欄選項(xiàng)板區(qū)節(jié)點(diǎn)數(shù)據(jù)流,輸出和模型管理器項(xiàng)目窗口參考書中33頁習(xí)題指導(dǎo)從DRUG.txt文件的數(shù)據(jù)為以往有大批患有同種疾病的不同病人,服用五種藥物中的一種(drugA,

drugB,drugC,drugX,drugY)之后取得了同樣的治療效果。案例數(shù)據(jù)是隨機(jī)選擇挑選的部分病人服用藥物前的基本臨床檢查數(shù)據(jù),包括:血壓(BP,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論