數(shù)據(jù)挖掘算法綜述

上傳人：文*** IP屬地：貴州上傳時(shí)間：2021-04-26 格式：DOCX 頁(yè)數(shù)：8 大?。?3.09KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩3頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘算法綜述摘要：數(shù)據(jù)挖掘技術(shù)在當(dāng)前研究領(lǐng)域中算是比較熱門(mén)的一項(xiàng)技術(shù)，從國(guó)外發(fā)展到中國(guó)，具有廣闊的商業(yè)應(yīng)用前景。本文主要概述了當(dāng)前數(shù)據(jù)挖掘的七大方法（分類(lèi)、回歸分析、聚類(lèi)、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘）和十大經(jīng)典算法（C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes,CART），以及數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。關(guān)鍵詞：數(shù)據(jù)挖掘，常用方法，經(jīng)典算法1 引言在當(dāng)今信息爆炸的時(shí)代，伴隨著社會(huì)事件和自然活動(dòng)的大量產(chǎn)生（數(shù)據(jù)的海量增長(zhǎng)），人類(lèi)正面臨著“被信息所淹沒(méi)，但卻饑渴于知識(shí)”的困境。隨著計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展

2、、企業(yè)信息化水平的不斷提高和數(shù)據(jù)庫(kù)技術(shù)的日臻完善，人類(lèi)積累的數(shù)據(jù)量正以指數(shù)方式增長(zhǎng) 。面對(duì)海量的、雜亂無(wú)序的數(shù)據(jù)，人們迫切需要一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理海量數(shù)據(jù)的復(fù)雜算法有機(jī)結(jié)合的技術(shù)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生的。它可以從大量的數(shù)據(jù)中去偽存真，提取有用的信息，并將其轉(zhuǎn)換成知識(shí)。數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域，它融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、模糊數(shù)學(xué)和數(shù)理統(tǒng)計(jì)等最新技術(shù)的研究成果，可以用來(lái)支持商業(yè)智能應(yīng)用和決策分析。例如顧客細(xì)分、交叉銷(xiāo)售、欺詐檢測(cè)、顧客流失分析、商品銷(xiāo)量預(yù)測(cè)等等，目前廣泛應(yīng)用于銀行、金融、醫(yī)療、工業(yè)、零售和電信等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對(duì)于各行各業(yè)來(lái)

3、說(shuō)，都具有重要的現(xiàn)實(shí)意義。2 數(shù)據(jù)挖掘的概念2.1 什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)，也叫數(shù)據(jù)開(kāi)采，數(shù)據(jù)采掘等，是按照既定的業(yè)務(wù)目標(biāo)從海量數(shù)據(jù)中提取出潛在、有效并能被人理解的模式的高級(jí)處理過(guò)程在較淺的層次上，它利用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢、檢索及報(bào)表功能，與多維分析、統(tǒng)計(jì)分析方法相結(jié)合，進(jìn)行聯(lián)機(jī)分析處理(O乙心)，從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)在深層次上，則從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)前所未有的、隱含的知識(shí)OLAF的出現(xiàn)早于數(shù)據(jù)挖掘，它們都是從數(shù)據(jù)庫(kù)中抽取有用信息的方法，就決策支持的需要而言兩者是相輔相成的。 OLAP可以看作一種廣義的數(shù)據(jù)挖掘方法，它旨在簡(jiǎn)化和支持聯(lián)機(jī)分析，而數(shù)據(jù)挖掘的

4、目的是便這一過(guò)程盡可能自動(dòng)化。數(shù)據(jù)挖掘基于的數(shù)據(jù)庫(kù)類(lèi)型主要有：關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、演繹數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、主動(dòng)數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、遺留數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本型、Internet信息庫(kù)以及新興的數(shù)據(jù)倉(cāng)庫(kù)。而挖掘后獲得的知識(shí)包括關(guān)聯(lián)規(guī)則、特征規(guī)則、區(qū)分規(guī)則、分類(lèi)規(guī)則、總結(jié)規(guī)則、偏差規(guī)則、聚類(lèi)規(guī)則、模式分析及趨勢(shì)分析等。2.2 數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn)：1. 處理的數(shù)據(jù)規(guī)模十分龐大，達(dá)到GB、TB數(shù)量級(jí)，甚至更大。2. 查詢一般是決策制定者(用戶)提出的即時(shí)隨機(jī)查詢，往往不能形成精確的查詢要求，需要靠系統(tǒng)本身尋找其可能感興趣的東西。3. 在一些應(yīng)用

5、(如商業(yè)投資等)中，由于數(shù)據(jù)變化迅速，因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時(shí)提供決策支持。4. 數(shù)據(jù)挖掘中，規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律因此，所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù)，而是當(dāng)達(dá)到某一臨界值時(shí)，即認(rèn)為有效因此，利用數(shù)據(jù)挖掘技術(shù)可能會(huì)發(fā)現(xiàn)大量的規(guī)則。5. 數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動(dòng)態(tài)的，它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫(kù)具有的規(guī)則，隨著不斷地向數(shù)據(jù)庫(kù)中加入新數(shù)據(jù)，需要隨時(shí)對(duì)其進(jìn)行更新。2.3 數(shù)據(jù)挖掘的應(yīng)用基礎(chǔ) 數(shù)據(jù)挖掘是一種獲得知識(shí)的技術(shù)。它的基礎(chǔ)是數(shù)據(jù)，手段是各種算法，目的是獲得數(shù)據(jù)中蘊(yùn)含的知識(shí)。發(fā)現(xiàn)知識(shí)并非易事，人們總是受到各種各樣的局限，目前數(shù)據(jù)缺乏仍然是發(fā)現(xiàn)知識(shí)的瓶頸。隨著數(shù)據(jù)采集和存儲(chǔ)技術(shù)的發(fā)

6、展，對(duì)大量數(shù)據(jù)的分析和使用成為一個(gè)新的難題。對(duì)數(shù)據(jù)挖掘應(yīng)用而言，知識(shí)的發(fā)現(xiàn)存在兩個(gè)極限，一個(gè)是數(shù)據(jù)極限，即數(shù)據(jù)要么非常龐大，要么數(shù)據(jù)量足夠小，或者數(shù)據(jù)量小但維度非常大；另一個(gè)是算法極限，即針對(duì)很多數(shù)據(jù)（不同的性質(zhì)，不同的形式）和很多需求，目前所有的算法尚不能很好地解決某些問(wèn)題。因此，數(shù)據(jù)挖掘應(yīng)用具有三個(gè)要素：數(shù)據(jù)，算法，知識(shí)。數(shù)據(jù)挖掘應(yīng)用是一個(gè)多層次、流程化的工程任務(wù)，開(kāi)展數(shù)據(jù)挖掘應(yīng)用也需要從每個(gè)層面加以處理，才能保證整個(gè)數(shù)據(jù)挖掘的成功運(yùn)行。數(shù)據(jù)挖掘應(yīng)用從上到下可分為三個(gè)大層面，具體結(jié)構(gòu)如下圖1所示：圖1數(shù)據(jù)挖掘應(yīng)用的三大層面應(yīng)用層：把數(shù)據(jù)挖掘結(jié)果應(yīng)用于實(shí)踐。算法層：提供算法、引擎和界面。

7、數(shù)據(jù)層：提供數(shù)據(jù)源、數(shù)據(jù)探索、數(shù)據(jù)準(zhǔn)備。3 數(shù)據(jù)挖掘的常用方法數(shù)據(jù)挖掘從一個(gè)新的視角將數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識(shí)別與人工智能等領(lǐng)域有機(jī)結(jié)合起來(lái)，它能組合各個(gè)領(lǐng)域的優(yōu)點(diǎn)，從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識(shí)。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類(lèi)、回歸分析、聚類(lèi)、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等，它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。1. 分類(lèi)分類(lèi)就是應(yīng)用已知的一些屬性數(shù)據(jù)去推測(cè)一個(gè)未知的離散型屬性數(shù)據(jù)，而這個(gè)被推測(cè)的屬性數(shù)據(jù)的可取值是預(yù)先定義的。要很好地實(shí)現(xiàn)這種推測(cè)，就需要事先在已知的一些屬性和未知的離散型屬性之間建立一個(gè)

8、有效的模型，即分類(lèi)模型。它可以應(yīng)用到客戶的分類(lèi)、客戶的屬性和特征分析、客戶滿意度分析、客戶的購(gòu)買(mǎi)趨勢(shì)預(yù)測(cè)等，如一個(gè)汽車(chē)零售商將客戶按照對(duì)汽車(chē)的喜好劃分成不同的類(lèi)，這樣營(yíng)銷(xiāo)人員就可以將新型汽車(chē)的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中，從而大大增加了商業(yè)機(jī)會(huì)。2. 回歸分析回歸分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征，產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù)，發(fā)現(xiàn)變量或?qū)傩蚤g的依賴(lài)關(guān)系，其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場(chǎng)營(yíng)銷(xiāo)的各個(gè)方面，如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷(xiāo)售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷(xiāo)活動(dòng)等。3

9、. 聚類(lèi) 聚類(lèi)是將數(shù)據(jù)劃分為簇的過(guò)程，根據(jù)數(shù)據(jù)本身的自然分布性質(zhì)，數(shù)據(jù)變量之間存在的程度不同的相似性（親屬關(guān)系），按一定的準(zhǔn)則將最相似的數(shù)據(jù)聚集成簇。使得屬于同一類(lèi)別的數(shù)據(jù)間的相似性盡可能大，不同類(lèi)別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類(lèi)、客戶背景分析、客戶購(gòu)買(mǎi)趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。4. 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則，即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn)，即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中，通過(guò)對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘，可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系，找出影響市場(chǎng)營(yíng)銷(xiāo)效果的關(guān)鍵因素，為產(chǎn)

10、品定位、定價(jià)與定制客戶群，客戶尋求、細(xì)分與保持，市場(chǎng)營(yíng)銷(xiāo)與推銷(xiāo)，營(yíng)銷(xiāo)風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。5. 特征分析特征分析是從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式，這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營(yíng)銷(xiāo)人員通過(guò)對(duì)客戶流失因素的特征提取，可以得到導(dǎo)致客戶流失的一系列原因和主要特征，利用這些特征可以有效地預(yù)防客戶的流失。6. 變化和偏差分析偏差包括很大一類(lèi)潛在有趣的知識(shí)，如分類(lèi)中的反常實(shí)例，模式的例外，觀察結(jié)果對(duì)期望的偏差等，其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中，管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)

11、、分析、識(shí)別、評(píng)價(jià)和預(yù)警等方面。7. Web頁(yè)挖掘隨著Internet的迅速發(fā)展及Web 的全球普及，使得Web上的信息量無(wú)比豐富，通過(guò)對(duì)Web的挖掘，可以利用Web 的海量數(shù)據(jù)進(jìn)行分析，收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息，集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息，并根據(jù)分析結(jié)果找出企業(yè)管理過(guò)程中出現(xiàn)的各種問(wèn)題和可能引起危機(jī)的先兆，對(duì)這些信息進(jìn)行分析和處理，以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。數(shù)據(jù)挖掘是一種決策支持過(guò)程，它通過(guò)高度自動(dòng)化地分析企業(yè)的數(shù)據(jù)，做出歸納性的推理，從中挖掘出潛在的模式，幫助決策者調(diào)整市場(chǎng)策

12、略，減少風(fēng)險(xiǎn)，做出正確的決策。這對(duì)于一個(gè)企業(yè)的發(fā)展十分重要。4 數(shù)據(jù)挖掘的算法1. C4.5算法C4.5算法是機(jī)器學(xué)習(xí)算法中的一種分類(lèi)決策樹(shù)算法,其核心算法是ID3算法。C4.5算法繼承了ID3算法的優(yōu)點(diǎn)，并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn)：1) 用信息增益率來(lái)選擇屬性，克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足；2) 在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝；3) 能夠完成對(duì)連續(xù)屬性的離散化處理；4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法有如下優(yōu)點(diǎn)：產(chǎn)生的分類(lèi)規(guī)則易于理解，準(zhǔn)確率較高。其缺點(diǎn)是：在構(gòu)造樹(shù)的過(guò)程中，需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序，因而導(dǎo)致算法的低效。2. K-Means算法k

13、-means算法是一個(gè)聚類(lèi)算法。給定一個(gè)含有N個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集，以及要生成的簇的數(shù)目K。每一個(gè)分組就代表一個(gè)聚類(lèi)，KN。而N得數(shù)量不能過(guò)少，否則聚類(lèi)的效果就會(huì)大打折扣，一般實(shí)踐中N最好大于K10.K個(gè)分組滿足每一個(gè)分組至少包含一條數(shù)據(jù)記錄，每一個(gè)數(shù)據(jù)記錄屬于且僅屬于一個(gè)分組。對(duì)于給定的K，算法首先得任務(wù)就是將數(shù)據(jù)構(gòu)建成K個(gè)劃分，以后通過(guò)反復(fù)迭代以改變分組的重定位技術(shù)，使得每一次改進(jìn)之后的分組方案都較前一次的好。一個(gè)好的劃分準(zhǔn)則是同一簇中數(shù)據(jù)點(diǎn)盡可能“相似”，不同數(shù)據(jù)點(diǎn)中的數(shù)據(jù)盡可能“相異”。3. 支持向量機(jī)支持向量機(jī)簡(jiǎn)稱(chēng)SVM，它是一種監(jiān)督式學(xué)習(xí)的方法，它廣泛的應(yīng)用于統(tǒng)計(jì)分類(lèi)以及回歸分析中。支

14、持向量機(jī)將向量映射到一個(gè)更高維的空間里，在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開(kāi)數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面，分隔超平面使兩個(gè)平行超平面的距離最大化。平行超平面間的距離或差距越大，分類(lèi)器的總誤差越小。支持向量機(jī)可以很好地解決小樣本、非線性及高維數(shù)據(jù)識(shí)別分類(lèi)問(wèn)題，在實(shí)踐應(yīng)用中與其他算法比較時(shí)，總能表現(xiàn)出表現(xiàn)出更好的性能和效果。4.Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori算法基于先驗(yàn)原理，它反映了子集與超集之間的關(guān)系：即頻繁項(xiàng)集的所有非空子集都必須是頻繁的，非頻繁項(xiàng)集的所有超集都必須是非頻繁的。如果項(xiàng)集I不滿最小支持度閾值

15、s，則I不是頻繁的，即P(I)s。如果A添加到I，則結(jié)果項(xiàng)集（）不可能比I更頻繁出現(xiàn)。因此，（I,A）也不是頻繁的，即P()s。因此，Apriori算法的性質(zhì)主要是用于搜索頻繁項(xiàng)集的時(shí)候?qū)蜻x式的篩選過(guò)程。利用Apriori性質(zhì)，能夠比較好的避免盲目的搜索，提高頻繁項(xiàng)集的查找效率。5. 最大期望(EM)算法在統(tǒng)計(jì)計(jì)算中，最大期望（EM）算法是在概率模型中尋找參數(shù)最大似然估計(jì)的算法，其中概率模型依賴(lài)于無(wú)法觀測(cè)的隱藏變量。最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算，第一步是計(jì)算期望（E），利用對(duì)隱藏變量的現(xiàn)有估計(jì)值，計(jì)算其最大似然估計(jì)值；第二步是最大化（M），最大化在 E 步上求得的最大似然值來(lái)計(jì)算參數(shù)

16、的值。M 步上找到的參數(shù)估計(jì)值被用于下一個(gè) E 步計(jì)算中，這個(gè)過(guò)程不斷交替進(jìn)行。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的數(shù)據(jù)集聚領(lǐng)域。6.PageRank算法如果網(wǎng)頁(yè)T存在一個(gè)指向網(wǎng)頁(yè)A的連接，則表明T的所有者認(rèn)為A比較重要，從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為：PR（T）/C(T)。其中PR（T）為T(mén)的PageRank值，C(T)為T(mén)的出鏈數(shù)，則A的PageRank值為一系列類(lèi)似于T的頁(yè)面重要性得分值的累加。算法的優(yōu)點(diǎn)是該算法是一個(gè)與查詢無(wú)關(guān)的靜態(tài)算法，所有網(wǎng)頁(yè)的PageRank值通過(guò)離線計(jì)算獲得；有效減少在線查詢時(shí)的計(jì)算量，極大降低了查詢響應(yīng)時(shí)間。算法的缺點(diǎn)是人們的查詢具有主

17、題特征PageRank忽略了主題相關(guān)性，導(dǎo)致結(jié)果的相關(guān)性和主題性降低；另外，PageRank有很?chē)?yán)重的對(duì)新網(wǎng)頁(yè)的歧視。7.AdaBoost算法AdaBoostt是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器)，然后把這些弱分類(lèi)器集合起來(lái)，構(gòu)成一個(gè)更強(qiáng)的最終分類(lèi)器 (強(qiáng)分類(lèi)器)。其算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的，它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類(lèi)是否正確，以及上次的總體分類(lèi)的準(zhǔn)確率，來(lái)確定每個(gè)樣本的權(quán) 值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類(lèi)器進(jìn)行訓(xùn)練，最后將每次訓(xùn)練得到的分類(lèi)器最后融合起來(lái)，作為最后的決策分類(lèi)器。8.KNN算法K最近鄰(KNN)分類(lèi)算法，是一個(gè)理論上比

18、較成熟的方法，也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是：如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別，則該樣本也屬于這個(gè)類(lèi)別。9.樸素貝葉斯分類(lèi)算法樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論，有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，以及穩(wěn)定的分類(lèi)效率。同時(shí)，其模型所需估計(jì)的參數(shù)很少，對(duì)缺失數(shù)據(jù)不太敏感，算法也比較簡(jiǎn)單。理論上，該模型與其他分類(lèi)方法相比具有最小的誤差率，但是實(shí)際上并非總是如此。這是因?yàn)樵撃Ｐ图僭O(shè)屬性之間相互獨(dú)立，這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的，這給模型的正確分類(lèi)帶來(lái)了一定影響。樸素貝葉斯分類(lèi)算法思想是，對(duì)于給定的待分類(lèi)項(xiàng)，求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出想

19、的概率，哪個(gè)概率最大就認(rèn)為此待分類(lèi)項(xiàng)屬于哪個(gè)類(lèi)別。10.CART算法分類(lèi)與回歸樹(shù)（ CART）也屬于一種決策樹(shù)。在分類(lèi)樹(shù)下面有兩個(gè)關(guān)鍵的思想，第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法；第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。分類(lèi)回歸樹(shù)是一棵二叉樹(shù)，且每個(gè)非葉子節(jié)點(diǎn)都有兩個(gè)孩子，所以對(duì)于第一棵子樹(shù)其葉子節(jié)點(diǎn)數(shù)比非葉子節(jié)點(diǎn)數(shù)多1。CART中用于選擇變量的不純性度量是Gini指數(shù)；如果目標(biāo)變量是標(biāo)稱(chēng)的，并且是具有兩個(gè)以上的類(lèi)別，則CART可能考慮將目標(biāo)類(lèi)別合并成兩個(gè)超類(lèi)別（雙化）；如果目標(biāo)變量是連續(xù)的，則CART算法找出一組基于樹(shù)的回歸方程來(lái)預(yù)測(cè)目標(biāo)變量。 5 數(shù)據(jù)挖掘發(fā)展趨勢(shì)現(xiàn)今，數(shù)據(jù)挖掘的發(fā)展趨勢(shì)主要在

20、以下幾個(gè)方面：數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化：語(yǔ)言的標(biāo)準(zhǔn)化對(duì)于數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā)和數(shù)據(jù)挖掘技術(shù)的普遍使用是至關(guān)重要的。其可改進(jìn)多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作，促進(jìn)其在企業(yè)和社會(huì)中的使用。數(shù)據(jù)挖掘的可視化：可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)?？梢栽诎l(fā)現(xiàn)知識(shí)的過(guò)程中進(jìn)行很好的人機(jī)交互。數(shù)據(jù)的可視化起到了推動(dòng)人們主動(dòng)進(jìn)行知識(shí)發(fā)現(xiàn)的作用。分布式數(shù)據(jù)挖掘：分布式技術(shù)的到來(lái)為日益增長(zhǎng)的數(shù)據(jù)提供了有力支持，而分布式數(shù)據(jù)挖掘中將分布式技術(shù)和數(shù)據(jù)挖掘技術(shù)的結(jié)合，也使對(duì)分離數(shù)據(jù)庫(kù)的可協(xié)作數(shù)據(jù)挖掘工作開(kāi)發(fā)了一個(gè)重要領(lǐng)域。數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成：數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)已經(jīng)成為信息處理系統(tǒng)的

21、主流。數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的緊耦合。挖掘復(fù)雜數(shù)據(jù)類(lèi)型的新方法：挖掘復(fù)雜數(shù)據(jù)類(lèi)型是數(shù)據(jù)挖掘的重要前沿研究課題，也有人稱(chēng)復(fù)雜類(lèi)型的數(shù)據(jù)挖掘是“下一代數(shù)據(jù)挖掘”。伴隨著數(shù)據(jù)的增多，需要處理的數(shù)據(jù)類(lèi)型也變得越來(lái)越復(fù)雜，例如數(shù)據(jù)流、時(shí)間序列、時(shí)間空間、多媒體和文本數(shù)據(jù)，雖然現(xiàn)在在很多復(fù)雜數(shù)據(jù)類(lèi)型的挖掘方面取得了一些進(jìn)展，但是在應(yīng)用需求和可用技術(shù)之間仍然存在較大的距離。數(shù)據(jù)挖掘中的隱私保護(hù)和信息安全：隨著信息技術(shù)的發(fā)展，越來(lái)越多的數(shù)據(jù)涌入了網(wǎng)絡(luò)，其中包括大量電子形式的個(gè)人信息，而挖掘技術(shù)的發(fā)展和科技的更新，在相反的一面上也使大量的個(gè)人信息受到了威脅，因此保護(hù)隱私的數(shù)據(jù)挖掘方法愈顯重要。參考文獻(xiàn)1 張銀奎，廖麗，宋俊等譯.數(shù)據(jù)挖掘原理.機(jī)械工業(yè)出版社，20032 楊杰，姚莉秀.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.上海交通大學(xué)出版社，20113 閃四清，陳茵，程雁等譯.數(shù)據(jù)挖掘概念、模型、方法和算法.清華大學(xué)出版社.20034 洪松林，莊映輝，李堃.數(shù)據(jù)挖掘技術(shù)與工程實(shí)踐.機(jī)械工業(yè)出版社.20145 呂紀(jì)榮，王士虎.數(shù)據(jù)中聚類(lèi)算法研究綜述.理論廣角.2014.1(下)6 胡慶林，葉念渝，朱明富.數(shù)據(jù)挖掘中聚類(lèi)算法的綜述.計(jì)算機(jī)與數(shù)字工程.2007第2期7 應(yīng)劭霖.數(shù)據(jù)挖掘中的聚類(lèi)算綜述.2014.68 方媛，車(chē)啟鳳.數(shù)據(jù)挖掘之聚類(lèi)算法綜述.河西學(xué)院學(xué)報(bào).2012第5

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘算法綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘算法綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔