![先驗(yàn)法關(guān)聯(lián)規(guī)則挖掘綜述以及其實(shí)現(xiàn)_第1頁](http://file4.renrendoc.com/view/e5f2df0017b3055d90472688b4e962dc/e5f2df0017b3055d90472688b4e962dc1.gif)
![先驗(yàn)法關(guān)聯(lián)規(guī)則挖掘綜述以及其實(shí)現(xiàn)_第2頁](http://file4.renrendoc.com/view/e5f2df0017b3055d90472688b4e962dc/e5f2df0017b3055d90472688b4e962dc2.gif)
![先驗(yàn)法關(guān)聯(lián)規(guī)則挖掘綜述以及其實(shí)現(xiàn)_第3頁](http://file4.renrendoc.com/view/e5f2df0017b3055d90472688b4e962dc/e5f2df0017b3055d90472688b4e962dc3.gif)
![先驗(yàn)法關(guān)聯(lián)規(guī)則挖掘綜述以及其實(shí)現(xiàn)_第4頁](http://file4.renrendoc.com/view/e5f2df0017b3055d90472688b4e962dc/e5f2df0017b3055d90472688b4e962dc4.gif)
![先驗(yàn)法關(guān)聯(lián)規(guī)則挖掘綜述以及其實(shí)現(xiàn)_第5頁](http://file4.renrendoc.com/view/e5f2df0017b3055d90472688b4e962dc/e5f2df0017b3055d90472688b4e962dc5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
先驗(yàn)法關(guān)聯(lián)規(guī)則挖掘綜述以及其實(shí)現(xiàn)報告人:張震指導(dǎo)老師:榮岡2008.12.301235關(guān)聯(lián)知識挖掘主要內(nèi)容數(shù)據(jù)挖掘軟件weka應(yīng)用介紹探索--在weka中添加免疫算法6數(shù)據(jù)挖掘結(jié)果分析4先驗(yàn)法在weka上的實(shí)現(xiàn)先驗(yàn)法及其優(yōu)化理論1235關(guān)聯(lián)知識挖掘主要內(nèi)容數(shù)據(jù)挖掘軟件weka應(yīng)用介紹探索--在weka中添加免疫算法6數(shù)據(jù)挖掘結(jié)果分析4先驗(yàn)法在weka上的實(shí)現(xiàn)先驗(yàn)法及其優(yōu)化理論數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。知識發(fā)現(xiàn)(KDD)是指從數(shù)據(jù)中識別合法的、新穎的、有潛在價值的、以及最終的可理解的模式的非常規(guī)的過程。知識發(fā)現(xiàn)的過程包括數(shù)據(jù)準(zhǔn)備、模式搜索、知識評估以及知識提煉等許多步驟,而這些步驟構(gòu)成一個多重循環(huán)的過程。一般認(rèn)為,數(shù)據(jù)挖掘是組成知識發(fā)現(xiàn)過程的一個環(huán)節(jié),它是在某種可接受的約束條件下,應(yīng)用數(shù)據(jù)分析和數(shù)據(jù)發(fā)現(xiàn)算法,從數(shù)據(jù)中獲取某些特定模式的過程。廣義的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(KDD)是一樣的,可以不加區(qū)分。一般情況下,在研究領(lǐng)域習(xí)慣稱為數(shù)據(jù)庫中知識發(fā)現(xiàn),在工程領(lǐng)域稱之為數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘的流程23451數(shù)據(jù)挖掘:選擇適當(dāng)?shù)乃惴?,從?shù)據(jù)中提取出適當(dāng)?shù)哪J?。知識評估:將發(fā)現(xiàn)的模式以人能理解的方式表達(dá)出來,成為知識。數(shù)據(jù)預(yù)處理:檢查數(shù)據(jù)的完整性、一致性,對噪音數(shù)據(jù)和丟失的數(shù)據(jù)進(jìn)行處理。數(shù)據(jù)提?。焊鶕?jù)需求從數(shù)據(jù)庫中提取相關(guān)數(shù)據(jù)。問題定義:熟悉應(yīng)用領(lǐng)域的背景知識,明確發(fā)現(xiàn)任務(wù)的需求。數(shù)據(jù)挖掘的流程關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是由Agrawal等人首先提出的一個重要KDD研究課題,它反映了大量數(shù)據(jù)中項(xiàng)目集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。關(guān)聯(lián)規(guī)則的數(shù)學(xué)表達(dá):設(shè)I=
是二進(jìn)制文字的集合,其中的元素稱為項(xiàng)(item)
。記D
為交易(transaction)T的集合,這里交易T
是項(xiàng)的集合,并且T屬于I
。對應(yīng)每一個交易有惟一的標(biāo)識,如交易號,記作TID。設(shè)X
是一個I
中項(xiàng)的集合,如果X屬于T,那么稱交易T
包含X
。一個關(guān)聯(lián)規(guī)則是形如XY的蘊(yùn)涵式,這里X屬于I,Y屬于I,并且X∩Y=非空。
關(guān)聯(lián)規(guī)則的基本概念項(xiàng)的集合稱為項(xiàng)集(itemset)
。包含k個項(xiàng)的項(xiàng)集稱為k-項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡稱為項(xiàng)集的頻率、支持度或計數(shù)。如果項(xiàng)集滿足最小支持度(由用戶或領(lǐng)域?qū)<以O(shè)定),則稱它為頻繁項(xiàng)集。給定一個交易集D,挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度和置信度分別大于最小支持度(minsupp)
和最小置信度(minconf)
的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的種類·按變量的類別
按數(shù)據(jù)的抽象層次
按數(shù)據(jù)的維數(shù)
按變量類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系。數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進(jìn)行處理,將其進(jìn)行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理?;谝?guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個不同的層次的。在多層關(guān)聯(lián)規(guī)則中,對數(shù)據(jù)的多層性進(jìn)行了充分的考慮?;谝?guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維和多維。單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。1235關(guān)聯(lián)知識挖掘主要內(nèi)容數(shù)據(jù)挖掘軟件weka應(yīng)用介紹探索--在weka中添加免疫算法6數(shù)據(jù)挖掘結(jié)果分析4先驗(yàn)法在weka上的實(shí)現(xiàn)先驗(yàn)法及其優(yōu)化理論先驗(yàn)法(Apriori算法)
Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則[1],并設(shè)計了一個基本算法,其核心是基于頻集理論的遞推方法,即基于兩階段頻集思想的方法。算法使用的基本性質(zhì):性質(zhì)1
任何頻集的子集必定是頻集。性質(zhì)2
任何非頻繁項(xiàng)集的超集必定是非頻繁項(xiàng)集。算法的基本思想:首先找出所有的頻集,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。[1]AgrawalR,ImielinskiT,SwamiA.MiningAssociationRulesbetweenSetsofItemsinLargeDatabases[C].In:ProcoftheACMSIGMODInternationalconferenceonManagementofData,WashingtonDC,1993:207~216先驗(yàn)法的計算方法先驗(yàn)法將關(guān)聯(lián)規(guī)則的設(shè)計分解為兩個子問題:①發(fā)現(xiàn)頻集。這個子問題是最重要的,開銷最大,因此,各種算法主要致力于提高發(fā)現(xiàn)頻集的效率。②根據(jù)所獲得的頻繁項(xiàng)集,產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)定義這些規(guī)則必須滿足信任度閾值。由于步驟②中的操作極為簡單,因此挖掘關(guān)聯(lián)規(guī)則的整個性能就由步驟①中的操作處理所決定。其基本思路是重復(fù)掃描數(shù)據(jù)庫。其核心程序簡要描述如下:L1={large1-itemsets};for(k=2;Lk
-1≠空;k++)dobeginCk=apriori_gen(Lk
-1);∥新的候選集foralltransactionst∈DdobeginCt=subset(Ck,t);∥事務(wù)t中包含的候選集doforallcandidatesc∈Ctc.count++;endLk={c∈Ck|c.countminsup}endAnswer=∪k
Lk
;先驗(yàn)法的缺點(diǎn)及其改進(jìn)(1)Apriori算法的主要缺點(diǎn)是算法執(zhí)行過程可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫。對Apriori算法的改進(jìn)算法有雜湊算法,劃分法,采樣法,動態(tài)項(xiàng)集計數(shù)法,基于棧變換的算法等。1.雜湊算法:Park等在1995年提出了一個高效地產(chǎn)生頻集的基于雜湊(hash)的算法——DynamicHashingandPruning(DHP)算法。通過實(shí)驗(yàn)可以發(fā)現(xiàn)尋找頻集主要的計算是在生成頻繁2-項(xiàng)集上。DHP利用一個雜湊表在計算頻繁1-項(xiàng)集時先大概計算出2-項(xiàng)集的支持度,從而減少了候選2-項(xiàng)集的數(shù)量。2.劃分法:Savasere等設(shè)計了一個基于劃分的算法,這個算法把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨(dú)考慮一個分塊并對它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計算這些項(xiàng)集的支持度。Partition算法很大程度上減小了I/O負(fù)載,但在處理高項(xiàng)集時存在一些問題,而且它可能導(dǎo)致頻集的錯誤處理。先驗(yàn)法的缺點(diǎn)及其改進(jìn)(2)3.采樣算法:Sampling算法是由Toivenen提出的。其基本思想是對給定數(shù)據(jù)的一個子集進(jìn)行挖掘,其核心是隨機(jī)從數(shù)據(jù)集D中采集樣本S,然后搜索S中的頻繁項(xiàng)集。樣本S的大小以能夠在內(nèi)存中完成頻繁項(xiàng)集的挖掘?yàn)闇?zhǔn)。因此,整個算法只需要掃描一遍數(shù)據(jù)庫,由于搜索的是S中的頻繁項(xiàng)集而不是D中的,可能漏掉一些全局的頻繁項(xiàng)集。4.動態(tài)項(xiàng)集計數(shù)法:Brin等人提出了動態(tài)項(xiàng)集計數(shù)算法。該算法把數(shù)據(jù)庫分成若干個特定大小的區(qū)間,首先計算候選1項(xiàng)目集在第一個區(qū)間上的支持度,根據(jù)這些支持度產(chǎn)生候選2-項(xiàng)目集,并且2-項(xiàng)目集的支持度和1-項(xiàng)目集的支持度在剩余的區(qū)間上繼續(xù)計算。算法的停止條件是沒有新的候選集產(chǎn)生和所有候選集都在整個數(shù)據(jù)庫上計算了支持度。該算法通過區(qū)間劃分減少了遍歷數(shù)據(jù)庫的次數(shù)。5.基于棧變換的算法:惠曉濱等提出了一個基于頻繁模式棧變換的高效關(guān)聯(lián)規(guī)則算法,該算法采用一種頻繁模式棧的數(shù)據(jù)結(jié)構(gòu)來儲存所有的頻繁模式信息,所有的棧單元都具有偏序關(guān)系,并分成構(gòu)造算法和變換算法兩個子算法,算法效率提高,且在數(shù)據(jù)集的記錄數(shù)較大時有很好的線性性和伸縮性。1235關(guān)聯(lián)知識挖掘主要內(nèi)容數(shù)據(jù)挖掘軟件weka應(yīng)用介紹探索--在weka中添加免疫算法6數(shù)據(jù)挖掘結(jié)果分析4先驗(yàn)法在weka上的實(shí)現(xiàn)先驗(yàn)法及其優(yōu)化理論Weka軟件介紹
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine)的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machinelearning)以及數(shù)據(jù)挖掘(dataminining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。該軟件的縮寫WEKA也是NewZealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時恰好來自NewZealand的theUniversityofWaikato。
WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用Weka的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。讀者如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看weka的接口文檔。在weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。Weka軟件介紹
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine)的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machinelearning)以及數(shù)據(jù)挖掘(dataminining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。該軟件的縮寫WEKA也是NewZealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時恰好來自NewZealand的theUniversityofWaikato。
WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用Weka的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。讀者如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看weka的接口文檔。在weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。Weka軟件界面
Weka程序界面如左圖,主程序之下分為SimpleCLI,explorer,experimenter,knowledge等四個模塊。SimpleCLI類似于dos環(huán)境,使用命令行的形式進(jìn)行操作。Explorer則是用戶界面的環(huán)境,可以在里面進(jìn)行各種數(shù)據(jù)挖掘操作,以下的操作主要在explorer模塊里面完成。其界面如下圖所示:Weka的數(shù)據(jù)處理Weka的數(shù)據(jù)格式:WEKA存儲數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。這也就是WEKA自帶的“weather.arff”文件,在WEKA安裝目錄的“data”子目錄下可以找到。此外WEKA還提供了對CSV文件的支持,而這種格式是被很多其他軟件所支持的。此外,WEKA還提供了通過JDBC訪問數(shù)據(jù)庫的功能。weka提供對數(shù)據(jù)的操作有:關(guān)系聲明、屬性聲明、數(shù)值屬性、分類屬性、字符串屬性、日期和時間屬性等??梢詫ο∈钄?shù)據(jù)進(jìn)行有效的管理,才外還包括Relational型屬性,類型使得可以像關(guān)系型數(shù)據(jù)庫那樣處理多個維度。Weka的數(shù)據(jù)挖掘操作
Weka對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘操作可以分兩種方式實(shí)現(xiàn)。一是命令行方式,而是用戶界面方式。以關(guān)聯(lián)規(guī)則挖掘?yàn)槔?,若使用命令行方式,輸入命令行“javaweka.associations.Apriori-N100-T1-C1.5-D0.05-U1.0-M0.1-S-1.0-I-td:\weka\bank-data-final.arff”就可以對“d:\weka\bank-data-final.arff”文件進(jìn)行滿足“l(fā)owerBoundMinSupport”和“upperBoundMinSupport”分別為0.1和1,“metricType”為lift,“minMetric”為1.5,“numRules”為100規(guī)則的挖掘。同樣的操作可以在界面中設(shè)置如圖。確定之后就能輸出滿足規(guī)則的關(guān)聯(lián)以及中間步驟。Weka的二次開發(fā)如前所述,Weka是開源的,因此可以在其基礎(chǔ)上進(jìn)行新算法的開發(fā)。具體的實(shí)現(xiàn)步驟分以下三步:1、根據(jù)算法原理,利用Java語言編寫算法程序,注意算法要符合weka的接口,要能接收prepare面板的數(shù)據(jù)。2、建立正確的目錄。weka的目錄和它的代碼的包結(jié)構(gòu)要求是一致的。3、修改weka啟動時加載的系統(tǒng)配置文件。把.class文件按照目錄結(jié)構(gòu)放在本地weka目錄中后,對照修改weka.gui.GenericPropertiesCps
文件的內(nèi)容。1235關(guān)聯(lián)知識挖掘主要內(nèi)容數(shù)據(jù)挖掘軟件weka應(yīng)用介紹探索--在weka中添加免疫算法6數(shù)據(jù)挖掘結(jié)果分析4先驗(yàn)法在weka上的實(shí)現(xiàn)先驗(yàn)法及其優(yōu)化理論先驗(yàn)法數(shù)據(jù)挖掘?qū)嵗龜?shù)據(jù)挖掘目的:某銀行需要從已有的數(shù)據(jù)中,尋找出客戶的屬性之間存在怎樣的關(guān)聯(lián)規(guī)則。數(shù)據(jù)源:銀行的客戶記錄600條,每條記錄有12個屬性如下id:客戶的賬戶Age:客戶的年齡(以年為單位,數(shù)值型)Sex:性別(分類型)Region:客戶所屬地區(qū)(有inner_city/rural/suburban/town四種)Income:客戶的收入(數(shù)值型)Married:是否已婚(分類型)Children:子女個數(shù)(數(shù)值型)Car:客戶是否擁有車(分類型YES/NO)save_acct
:客戶是否有定期存款(分類型YES/NO)current_acct:客戶是否有活期存款(分類型YES/NO)Mortgage:客戶是否有貸款(分類型YES/NO)PEP:客戶是否購買了
PEP(PersonalEquityPlan)(分類型YES/NO)數(shù)據(jù)預(yù)處理1.將原csv格式的數(shù)據(jù)轉(zhuǎn)換成為ARFF格式。使用命令行實(shí)現(xiàn):javaweka.core.converters.CSVLoader
filename.csv>filename.arff
2.通常本次數(shù)據(jù)挖掘任務(wù)來說,ID這樣的信息是無用的,我們將之刪除。在explorer面板中勾選屬性“id”,并點(diǎn)擊“Remove”完成操作。3.Apriori算法只能處理所有的屬性都是分類型的情況,需要對數(shù)值型的屬性進(jìn)行離散化。在這個數(shù)據(jù)集中有3個變量是數(shù)值型的,分別是“age”,“income”和“children”。其中“children”只有4個取值:0,1,2,3。這時我們在UltraEdit中直接修改ARFF文件,把@attributechildrennumeric改為@attributechildren{0,1,2,3}?!癮ge”和“income”的離散化借助WEKA中名為“Discretize”的Filter來完成。在面板中點(diǎn)“Choose”,找到weka.filters.unsupervised.attribute.Discretize”,點(diǎn)擊修改離散化的參數(shù),將年齡分為三段,工資也分為三段。4.將處理好的數(shù)據(jù)另存為文件E:\weka\data\bank-data.csv.arff,完成數(shù)據(jù)預(yù)處理工作。關(guān)聯(lián)規(guī)則挖掘現(xiàn)在計劃挖掘出支持度在10%到100%之間,并且置信度超過80%,按照置信度排前100條的關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)規(guī)則挖掘面板中把“l(fā)owerBoundMinSupport”和“upperBoundMinSupport”分別設(shè)為0.1和1,“metricType”設(shè)為lift,“minMetric”設(shè)為1.5,“numRules”設(shè)為100。其他選項(xiàng)保持默認(rèn)?!癘K”之后在“Explorer”中點(diǎn)擊“Start”開始運(yùn)行算法,在右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果。運(yùn)行情況如下圖:
1235關(guān)聯(lián)知識挖掘主要內(nèi)容數(shù)據(jù)挖掘軟件weka應(yīng)用介紹探索--在weka中添加免疫算法6數(shù)據(jù)挖掘結(jié)果分析4先驗(yàn)法在weka上的實(shí)現(xiàn)先驗(yàn)法及其優(yōu)化理論結(jié)果分析1.運(yùn)行過程數(shù)據(jù)分析有一下幾行Generatedsetsoflargeitemsets:SizeofsetoflargeitemsetsL(1):27SizeofsetoflargeitemsetsL(2):221SizeofsetoflargeitemsetsL(3):588SizeofsetoflargeitemsetsL(4):407SizeofsetoflargeitemsetsL(5):56SizeofsetoflargeitemsetsL(6):1這說明第一層頻繁集一共有27個,第二層221個,以此類推,一共計算了6層。2.雖然參數(shù)設(shè)置中要求顯示100條規(guī)則,但是此處只有47條,因此只能顯示47條。3.此處47條關(guān)聯(lián)規(guī)則的置信度都達(dá)到了90%以上,每條都很高的前提下,我們進(jìn)行2個方面的規(guī)則分析,一是與儲蓄行為相關(guān),二是與收入行為相關(guān)。結(jié)果分析—儲蓄相關(guān)(1)經(jīng)過處理,在600條記錄中,一共得到一下47條規(guī)則,其中有四條與儲蓄相關(guān)的置信度(用conv標(biāo)記)都達(dá)到了100%,記錄中箭頭前的數(shù)值表示記錄數(shù)量,conf:(1)表示置信度為1.
1.income='(43758.136667-inf)'80==>save_act=YES80conf:(1)2.age='(50.666667-inf)'income='(43758.136667-inf)'76==>save_act=YES76conf:(1)3.income='(43758.136667-inf)'current_act=YES63==>save_act=YES63conf:(1)4.age='(50.666667-inf)'income='(43758.136667-inf)'current_act=YES61==>save_act=YES61conf:(1)通過對次四條關(guān)聯(lián)規(guī)則的研究,可以發(fā)現(xiàn)第2、3、4條規(guī)則其實(shí)是第一條規(guī)則的演繹。綜合起來我們得到知識①:年收入在4.3萬以上的客戶,都有定期儲蓄的行為。這個是顯然的,高收入的人群自然會有定期儲蓄的投資行為,符合客觀事實(shí)。支持度為80/600=13.3%,置信度=100%結(jié)果分析—與儲蓄相關(guān)(2)除了收入的因素,可能還有其他屬性會影響客戶的經(jīng)濟(jì)行為。以此指導(dǎo)思想出發(fā),可以找到以下三條關(guān)聯(lián)規(guī)則:
1.income='(43758.136667-inf)'80==>age='(50.666667-inf)'save_act=YES76conf:(0.95)2.children='(-inf-1]'mortgage=YESpep=NO72==>save_act=YES65conf:(0.9)3.married=NOchildren='(-inf-1]'mortgage=NO76==>pep=YES70conf:(0.92)可以接著得到三條知識:知識②:若一個客戶年收入在4.3萬元以上,那么他必定在50歲以上,并且有儲蓄行為。支持度為80/600=13.3%,置信度=95%知識③:若客戶子女不超過1個,有貸款并且沒有個人投資計劃,那么他必然會有儲蓄行為。支持度為72/600=12%,置信度=90%知識④:若客戶未婚,子女不超過1個,且沒有貸款,那么他必然會有個人投資計劃。支持度為76/600=12.7%,置信度=92%結(jié)果分析—與收入相關(guān)在47條產(chǎn)生的規(guī)則中,有大量是關(guān)于客戶收入的規(guī)則。從以下兩條規(guī)則中可以得到較好的知識。age='(-inf-34.333333]'children='(-inf-1]'car=NO69==>income='(-inf-24386.173333]'66conf:(0.96)2.age='(-inf-34.333333]'married=YEScar=NO69==>income='(-inf-24386.173333]'66conf:(0.96)可以接著得到2條知識:知識⑤:若一個客戶年齡在34歲以下,子女不超過1個,無車,那么他的收入必定在2.4萬以下。知識⑥:若一個客戶年齡在34歲以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 供排水合同范本
- 別墅出租居間合同范本
- 養(yǎng)殖山羊合作合同范本
- 三間住房合同范本
- 買礦山合同范本
- 判決終止服務(wù)合同范本
- 2025年度國際貨物鐵路運(yùn)輸與全面保險服務(wù)合同
- 三人合伙開店分紅合同范本
- 勞動合同個人申請書
- 會務(wù)會展合同范例
- GB/T 1094.1-2013電力變壓器第1部分:總則
- 2023年益陽醫(yī)學(xué)高等??茖W(xué)校單招綜合素質(zhì)考試筆試題庫及答案解析
- 非國有企業(yè)職務(wù)犯罪課件共58p
- 耳鼻咽喉科臨床診療指南
- 第二部分-3 植物纖維化學(xué)部分-纖維素
- 民法原理與實(shí)務(wù)課程教學(xué)大綱
- 2019北師大版高中英語選擇性必修四單詞表
- 園藝產(chǎn)品的品質(zhì)講義
- 鋼筋混凝土框架結(jié)構(gòu)工程監(jiān)理的質(zhì)量控制
- 桃花節(jié)活動方案
- 社區(qū)醫(yī)院建設(shè)標(biāo)準(zhǔn)
評論
0/150
提交評論