




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘算法綜述摘要:數(shù)據(jù)挖掘技術(shù)在當(dāng)前研究領(lǐng)域中算是比較熱門(mén)的一項(xiàng)技術(shù),從國(guó)外發(fā)展到中國(guó),具有廣闊的商業(yè)應(yīng)用前景。本文主要概述了當(dāng)前數(shù)據(jù)挖掘的七大方法(分類(lèi)、回歸分析、聚類(lèi)、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘)和十大經(jīng)典算法(C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes,CART),以及數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。關(guān)鍵詞:數(shù)據(jù)挖掘,常用方法,經(jīng)典算法1 引言在當(dāng)今信息爆炸的時(shí)代,伴隨著社會(huì)事件和自然活動(dòng)的大量產(chǎn)生(數(shù)據(jù)的海量增長(zhǎng)),人類(lèi)正面臨著“被信息所淹沒(méi),但卻饑渴于知識(shí)”的困境。隨著計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展
2、、企業(yè)信息化水平的不斷提高和數(shù)據(jù)庫(kù)技術(shù)的日臻完善,人類(lèi)積累的數(shù)據(jù)量正以指數(shù)方式增長(zhǎng) 。面對(duì)海量的、雜亂無(wú)序的數(shù)據(jù),人們迫切需要一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理海量數(shù)據(jù)的復(fù)雜算法有機(jī)結(jié)合的技術(shù)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生的。它可以從大量的數(shù)據(jù)中去偽存真,提取有用的信息,并將其轉(zhuǎn)換成知識(shí)。 數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、模糊數(shù)學(xué)和數(shù)理統(tǒng)計(jì)等最新技術(shù)的研究成果,可以用來(lái)支持商業(yè)智能應(yīng)用和決策分析。例如顧客細(xì)分、交叉銷(xiāo)售、欺詐檢測(cè)、顧客流失分析、商品銷(xiāo)量預(yù)測(cè)等等,目前廣泛應(yīng)用于銀行、金融、醫(yī)療、工業(yè)、零售和電信等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對(duì)于各行各業(yè)來(lái)
3、說(shuō),都具有重要的現(xiàn)實(shí)意義。2 數(shù)據(jù)挖掘的概念2.1 什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining),也叫數(shù)據(jù)開(kāi)采,數(shù)據(jù)采掘等,是按照既定的業(yè)務(wù)目標(biāo)從海量數(shù)據(jù)中提取出潛在、有效并能被人理解的模式的高級(jí)處理過(guò)程在較淺的層次上,它利用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢、檢索及報(bào)表功能,與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行聯(lián)機(jī)分析處理(O乙心),從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)在深層次上,則從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)前所未有的、隱含的知識(shí)OLAF的出現(xiàn)早于數(shù)據(jù)挖掘,它們都是從數(shù)據(jù)庫(kù)中抽取有用信息的方法,就決策支持的需要而言兩者是相輔相成的。 OLAP可以看作一種廣義的數(shù)據(jù)挖掘方法,它旨在簡(jiǎn)化和支持聯(lián)機(jī)分析,而數(shù)據(jù)挖掘的
4、目的是便這一過(guò)程盡可能自動(dòng)化。數(shù)據(jù)挖掘基于的數(shù)據(jù)庫(kù)類(lèi)型主要有:關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、演繹數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、主動(dòng)數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、遺留數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本型、Internet信息庫(kù)以及新興的數(shù)據(jù)倉(cāng)庫(kù)。而挖掘后獲得的知識(shí)包括關(guān)聯(lián)規(guī)則、特征規(guī)則、區(qū)分規(guī)則、分類(lèi)規(guī)則、總結(jié)規(guī)則、偏差規(guī)則、聚類(lèi)規(guī)則、模式分析及趨勢(shì)分析等。2.2 數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):1. 處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級(jí),甚至更大。2. 查詢一般是決策制定者(用戶)提出的即時(shí)隨機(jī)查詢,往往不能形成精確的查詢要求,需要靠系統(tǒng)本身尋找其可能感興趣的東西。3. 在一些應(yīng)用
5、(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時(shí)提供決策支持。4. 數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律因此,所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),而是當(dāng)達(dá)到某一臨界值時(shí),即認(rèn)為有效因此,利用數(shù)據(jù)挖掘技術(shù)可能會(huì)發(fā)現(xiàn)大量的規(guī)則。5. 數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動(dòng)態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫(kù)具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫(kù)中加入新數(shù)據(jù),需要隨時(shí)對(duì)其進(jìn)行更新。2.3 數(shù)據(jù)挖掘的應(yīng)用基礎(chǔ) 數(shù)據(jù)挖掘是一種獲得知識(shí)的技術(shù)。它的基礎(chǔ)是數(shù)據(jù),手段是各種算法,目的是獲得數(shù)據(jù)中蘊(yùn)含的知識(shí)。發(fā)現(xiàn)知識(shí)并非易事,人們總是受到各種各樣的局限,目前數(shù)據(jù)缺乏仍然是發(fā)現(xiàn)知識(shí)的瓶頸。隨著數(shù)據(jù)采集和存儲(chǔ)技術(shù)的發(fā)
6、展,對(duì)大量數(shù)據(jù)的分析和使用成為一個(gè)新的難題。對(duì)數(shù)據(jù)挖掘應(yīng)用而言,知識(shí)的發(fā)現(xiàn)存在兩個(gè)極限,一個(gè)是數(shù)據(jù)極限,即數(shù)據(jù)要么非常龐大,要么數(shù)據(jù)量足夠小,或者數(shù)據(jù)量小但維度非常大;另一個(gè)是算法極限,即針對(duì)很多數(shù)據(jù)(不同的性質(zhì),不同的形式)和很多需求,目前所有的算法尚不能很好地解決某些問(wèn)題。因此,數(shù)據(jù)挖掘應(yīng)用具有三個(gè)要素:數(shù)據(jù),算法,知識(shí)。 數(shù)據(jù)挖掘應(yīng)用是一個(gè)多層次、流程化的工程任務(wù),開(kāi)展數(shù)據(jù)挖掘應(yīng)用也需要從每個(gè)層面加以處理,才能保證整個(gè)數(shù)據(jù)挖掘的成功運(yùn)行。數(shù)據(jù)挖掘 應(yīng)用從上到下可分為三個(gè)大層面,具體結(jié)構(gòu)如下圖1所示:圖1數(shù)據(jù)挖掘應(yīng)用的三大層面應(yīng)用層:把數(shù)據(jù)挖掘結(jié)果應(yīng)用于實(shí)踐。算法層:提供算法、引擎和界面。
7、數(shù)據(jù)層:提供數(shù)據(jù)源、數(shù)據(jù)探索、數(shù)據(jù)準(zhǔn)備。3 數(shù)據(jù)挖掘的常用方法 數(shù)據(jù)挖掘從一個(gè)新的視角將數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識(shí)別與人工智能等領(lǐng)域有機(jī)結(jié)合起來(lái),它能組合各個(gè)領(lǐng)域的優(yōu)點(diǎn),從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識(shí)。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類(lèi)、回歸分析、聚類(lèi)、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等, 它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。1. 分類(lèi)分類(lèi)就是應(yīng)用已知的一些屬性數(shù)據(jù)去推測(cè)一個(gè)未知的離散型屬性數(shù)據(jù),而這個(gè)被推測(cè)的屬性數(shù)據(jù)的可取值是預(yù)先定義的。要很好地實(shí)現(xiàn)這種推測(cè),就需要事先在已知的一些屬性和未知的離散型屬性之間建立一個(gè)
8、有效的模型,即分類(lèi)模型。它可以應(yīng)用到客戶的分類(lèi)、客戶的屬性和特征分析、客戶滿意度分析、客戶的購(gòu)買(mǎi)趨勢(shì)預(yù)測(cè)等,如一個(gè)汽車(chē)零售商將客戶按照對(duì)汽車(chē)的喜好劃分成不同的類(lèi),這樣營(yíng)銷(xiāo)人員就可以將新型汽車(chē)的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。2. 回歸分析 回歸分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴(lài)關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場(chǎng)營(yíng)銷(xiāo)的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷(xiāo)售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷(xiāo)活動(dòng)等。3
9、. 聚類(lèi) 聚類(lèi)是將數(shù)據(jù)劃分為簇的過(guò)程,根據(jù)數(shù)據(jù)本身的自然分布性質(zhì),數(shù)據(jù)變量之間存在的程度不同的相似性(親屬關(guān)系),按一定的準(zhǔn)則將最相似的數(shù)據(jù)聚集成簇。使得屬于同一類(lèi)別的數(shù)據(jù)間的相似性盡可能大,不同類(lèi)別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類(lèi)、客戶背景分析、客戶購(gòu)買(mǎi)趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。4. 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過(guò)對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷(xiāo)效果的關(guān)鍵因素,為產(chǎn)
10、品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷(xiāo)與推銷(xiāo),營(yíng)銷(xiāo)風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。5. 特征分析 特征分析是從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營(yíng)銷(xiāo)人員通過(guò)對(duì)客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。6. 變化和偏差分析 偏差包括很大一類(lèi)潛在有趣的知識(shí),如分類(lèi)中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)
11、、分析、識(shí)別、評(píng)價(jià)和預(yù)警等方面。7. Web頁(yè)挖掘 隨著Internet的迅速發(fā)展及Web 的全球普及, 使得Web上的信息量無(wú)比豐富,通過(guò)對(duì)Web的挖掘,可以利用Web 的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息,并根據(jù)分析結(jié)果找出企業(yè)管理過(guò)程中出現(xiàn)的各種問(wèn)題和可能引起危機(jī)的先兆,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它通過(guò)高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策
12、略,減少風(fēng)險(xiǎn),做出正確的決策。這對(duì)于一個(gè)企業(yè)的發(fā)展十分重要。4 數(shù)據(jù)挖掘的算法1. C4.5算法C4.5算法是機(jī)器學(xué)習(xí)算法中的一種分類(lèi)決策樹(shù)算法,其核心算法是ID3算法。C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn):1) 用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;2) 在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝;3) 能夠完成對(duì)連續(xù)屬性的離散化處理;4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類(lèi)規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。2. K-Means算法k
13、-means算法是一個(gè)聚類(lèi)算法。給定一個(gè)含有N個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,以及要生成的簇的數(shù)目K。每一個(gè)分組就代表一個(gè)聚類(lèi),KN。而N得數(shù)量不能過(guò)少,否則聚類(lèi)的效果就會(huì)大打折扣,一般實(shí)踐中N最好大于K10.K個(gè)分組滿足每一個(gè)分組至少包含一條數(shù)據(jù)記錄,每一個(gè)數(shù)據(jù)記錄屬于且僅屬于一個(gè)分組。對(duì)于給定的K,算法首先得任務(wù)就是將數(shù)據(jù)構(gòu)建成K個(gè)劃分,以后通過(guò)反復(fù)迭代以改變分組的重定位技術(shù),使得每一次改進(jìn)之后的分組方案都較前一次的好。一個(gè)好的劃分準(zhǔn)則是同一簇中數(shù)據(jù)點(diǎn)盡可能“相似”,不同數(shù)據(jù)點(diǎn)中的數(shù)據(jù)盡可能“相異”。3. 支持向量機(jī)支持向量機(jī)簡(jiǎn)稱(chēng)SVM,它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類(lèi)以及回歸分析中。支
14、持向量機(jī)將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開(kāi)數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面,分隔超平面使兩個(gè)平行超平面的距離最大化。平行超平面間的距離或差距越大,分類(lèi)器的總誤差越小。支持向量機(jī)可以很好地解決小樣本、非線性及高維數(shù)據(jù)識(shí)別分類(lèi)問(wèn)題,在實(shí)踐應(yīng)用中與其他算法比較時(shí),總能表現(xiàn)出表現(xiàn)出更好的性能和效果。4.Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori算法基于先驗(yàn)原理,它反映了子集與超集之間的關(guān)系:即頻繁項(xiàng)集的所有非空子集都必須是頻繁的,非頻繁項(xiàng)集的所有超集都必須是非頻繁的。如果項(xiàng)集I不滿最小支持度閾值
15、s,則I不是頻繁的,即P(I)s。如果A添加到I,則結(jié)果項(xiàng)集()不可能比I更頻繁出現(xiàn)。因此,(I,A)也不是頻繁的,即P()s。因此,Apriori算法的性質(zhì)主要是用于搜索頻繁項(xiàng)集的時(shí)候?qū)蜻x式的篩選過(guò)程。利用Apriori性質(zhì),能夠比較好的避免盲目的搜索,提高頻繁項(xiàng)集的查找效率。5. 最大期望(EM)算法在統(tǒng)計(jì)計(jì)算中,最大期望(EM)算法是在概率模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴(lài)于無(wú)法觀測(cè)的隱藏變量。最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算,第一步是計(jì)算期望(E),利用對(duì)隱藏變量的現(xiàn)有估計(jì)值,計(jì)算其最大似然估計(jì)值;第二步是最大化(M),最大化在 E 步上求得的最大似然值來(lái)計(jì)算參數(shù)
16、的值。M 步上找到的參數(shù)估計(jì)值被用于下一個(gè) E 步計(jì)算中,這個(gè)過(guò)程不斷交替進(jìn)行。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的數(shù)據(jù)集聚領(lǐng)域。6.PageRank算法如果網(wǎng)頁(yè)T存在一個(gè)指向網(wǎng)頁(yè)A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為:PR(T)/C(T)。其中PR(T)為T(mén)的PageRank值,C(T)為T(mén)的出鏈數(shù),則A的PageRank值為一系列類(lèi)似于T的頁(yè)面重要性得分值的累加。算法的優(yōu)點(diǎn)是該算法是一個(gè)與查詢無(wú)關(guān)的靜態(tài)算法,所有網(wǎng)頁(yè)的PageRank值通過(guò)離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。算法的缺點(diǎn)是人們的查詢具有主
17、題特征PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很?chē)?yán)重的對(duì)新網(wǎng)頁(yè)的歧視。7.AdaBoost算法AdaBoostt是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器),然后把這些弱分類(lèi)器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類(lèi)器 (強(qiáng)分類(lèi)器)。其算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類(lèi)是否正確,以及上次的總體分類(lèi)的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán) 值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類(lèi)器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類(lèi)器最后融合起來(lái),作為最后的決策分類(lèi)器。8.KNN算法K最近鄰(KNN)分類(lèi)算法,是一個(gè)理論上比
18、較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。9.樸素貝葉斯分類(lèi)算法 樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類(lèi)效率。同時(shí),其模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。理論上,該模型與其他分類(lèi)方法相比具有最小的誤差率,但是實(shí)際上并非總是如此。這是因?yàn)樵撃P图僭O(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給模型的正確分類(lèi)帶來(lái)了一定影響。樸素貝葉斯分類(lèi)算法思想是,對(duì)于給定的待分類(lèi)項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出想
19、的概率,哪個(gè)概率最大就認(rèn)為此待分類(lèi)項(xiàng)屬于哪個(gè)類(lèi)別。10.CART算法 分類(lèi)與回歸樹(shù)( CART)也屬于一種決策樹(shù)。在分類(lèi)樹(shù)下面有兩個(gè)關(guān)鍵的思想,第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法;第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。分類(lèi)回歸樹(shù)是一棵二叉樹(shù),且每個(gè)非葉子節(jié)點(diǎn)都有兩個(gè)孩子,所以對(duì)于第一棵子樹(shù)其葉子節(jié)點(diǎn)數(shù)比非葉子節(jié)點(diǎn)數(shù)多1。CART中用于選擇變量的不純性度量是Gini指數(shù);如果目標(biāo)變量是標(biāo)稱(chēng)的,并且是具有兩個(gè)以上的類(lèi)別,則CART可能考慮將目標(biāo)類(lèi)別合并成兩個(gè)超類(lèi)別(雙化);如果目標(biāo)變量是連續(xù)的,則CART算法找出一組基于樹(shù)的回歸方程來(lái)預(yù)測(cè)目標(biāo)變量。 5 數(shù)據(jù)挖掘發(fā)展趨勢(shì)現(xiàn)今,數(shù)據(jù)挖掘的發(fā)展趨勢(shì)主要在
20、以下幾個(gè)方面:數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化:語(yǔ)言的標(biāo)準(zhǔn)化對(duì)于數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā)和數(shù)據(jù)挖掘技術(shù)的普遍使用是至關(guān)重要的。其可改進(jìn)多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進(jìn)其在企業(yè)和社會(huì)中的使用。數(shù)據(jù)挖掘的可視化:可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)??梢栽诎l(fā)現(xiàn)知識(shí)的過(guò)程中進(jìn)行很好的人機(jī)交互。數(shù)據(jù)的可視化起到了推動(dòng)人們主動(dòng)進(jìn)行知識(shí)發(fā)現(xiàn)的作用。分布式數(shù)據(jù)挖掘:分布式技術(shù)的到來(lái)為日益增長(zhǎng)的數(shù)據(jù)提供了有力支持,而分布式數(shù)據(jù)挖掘中將分布式技術(shù)和數(shù)據(jù)挖掘技術(shù)的結(jié)合,也使對(duì)分離數(shù)據(jù)庫(kù)的可協(xié)作數(shù)據(jù)挖掘工作開(kāi)發(fā)了一個(gè)重要領(lǐng)域。數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成:數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)已經(jīng)成為信息處理系統(tǒng)的
21、主流。數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的緊耦合。挖掘復(fù)雜數(shù)據(jù)類(lèi)型的新方法:挖掘復(fù)雜數(shù)據(jù)類(lèi)型是數(shù)據(jù)挖掘的重要前沿研究課題,也有人稱(chēng)復(fù)雜類(lèi)型的數(shù)據(jù)挖掘是“下一代數(shù)據(jù)挖掘”。伴隨著數(shù)據(jù)的增多,需要處理的數(shù)據(jù)類(lèi)型也變得越來(lái)越復(fù)雜,例如數(shù)據(jù)流、時(shí)間序列、時(shí)間空間、多媒體和文本數(shù)據(jù),雖然現(xiàn)在在很多復(fù)雜數(shù)據(jù)類(lèi)型的挖掘方面取得了一些進(jìn)展,但是在應(yīng)用需求和可用技術(shù)之間仍然存在較大的距離。數(shù)據(jù)挖掘中的隱私保護(hù)和信息安全:隨著信息技術(shù)的發(fā)展,越來(lái)越多的數(shù)據(jù)涌入了網(wǎng)絡(luò),其中包括大量電子形式的個(gè)人信息,而挖掘技術(shù)的發(fā)展和科技的更新,在相反的一面上也使大量的個(gè)人信息受到了威脅,因此保護(hù)隱私的數(shù)據(jù)挖掘方法愈顯重要。參考文獻(xiàn)1 張銀奎,廖麗,宋俊等譯.數(shù)據(jù)挖掘原理.機(jī)械工業(yè)出版社,20032 楊杰,姚莉秀.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.上海交通大學(xué)出版社,20113 閃四清,陳茵,程雁等譯.數(shù)據(jù)挖掘概念、模型、方法和算法.清華大學(xué)出版社.20034 洪松林,莊映輝,李堃.數(shù)據(jù)挖掘技術(shù)與工程實(shí)踐.機(jī)械工業(yè)出版社.20145 呂紀(jì)榮,王士虎.數(shù)據(jù)中聚類(lèi)算法研究綜述.理論廣角.2014.1(下)6 胡慶林,葉念渝,朱明富.數(shù)據(jù)挖掘中聚類(lèi)算法的綜述.計(jì)算機(jī)與數(shù)字工程.2007第2期7 應(yīng)劭霖.數(shù)據(jù)挖掘中的聚類(lèi)算綜述.2014.68 方媛,車(chē)啟鳳.數(shù)據(jù)挖掘之聚類(lèi)算法綜述.河西學(xué)院學(xué)報(bào).2012第5
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全質(zhì)量述職報(bào)告
- 2025年花藝師職業(yè)資格考試花藝師團(tuán)隊(duì)管理與溝通技巧試題
- 2025年健身教練職業(yè)技能考核試卷:健身教練運(yùn)動(dòng)生理學(xué)案例分析試題
- 2025年消防安全培訓(xùn):消防應(yīng)急演練組織與演練效果評(píng)估試題
- 安全教育:預(yù)防走丟
- 居家設(shè)計(jì)的美學(xué)探索
- 勞動(dòng)課件:水果沙拉
- 腹外傷的護(hù)理常規(guī)
- 2024-2025學(xué)年人教版高二化學(xué)選擇性必修3配套課件 基礎(chǔ)課時(shí)9 苯的同系物
- 工業(yè)泵安裝課件
- 2025年合肥幼兒師范高等專(zhuān)科學(xué)校單招職業(yè)適應(yīng)性測(cè)試題庫(kù)新版
- 2025年浙江寧波交投公路營(yíng)運(yùn)管理限公司招聘12人高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 勞務(wù)派遣勞務(wù)外包項(xiàng)目方案投標(biāo)文件(技術(shù)方案)
- 第四單元 第三課 拍攝學(xué)校創(chuàng)意短視頻教學(xué)設(shè)計(jì) 2024-2025學(xué)年西交大版(2024)初中信息技術(shù)七年級(jí)上冊(cè)
- 2025年蘇州工業(yè)職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年常考版參考題庫(kù)含答案解析
- 2024年尖葉菠菜種子項(xiàng)目可行性研究報(bào)告
- DB3306T 074-2025 餐用具消毒房管理規(guī)范
- 2025年重慶市初中學(xué)業(yè)水平暨高中招生考試數(shù)學(xué)試題預(yù)測(cè)卷(二)
- “記憶中的人、事兒”為副標(biāo)題(四川眉山原題+解題+范文+副標(biāo)題作文“追求”主題)-2025年中考語(yǔ)文一輪復(fù)習(xí)之寫(xiě)作
- 醫(yī)療器械進(jìn)院流程
- 2024年吉安職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)附答案
評(píng)論
0/150
提交評(píng)論