電子商務(wù)數(shù)據(jù)挖掘的分類_第1頁
電子商務(wù)數(shù)據(jù)挖掘的分類_第2頁
電子商務(wù)數(shù)據(jù)挖掘的分類_第3頁
電子商務(wù)數(shù)據(jù)挖掘的分類_第4頁
電子商務(wù)數(shù)據(jù)挖掘的分類_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

電子商務(wù)數(shù)據(jù)挖掘的分類

本章就數(shù)據(jù)挖掘過程中所涉及的分類方法進行介紹,在后續(xù)的章節(jié)中將分別就關(guān)聯(lián)規(guī)則、聚

類分析等方法進行介紹。

5.1分類的概念

給定一個數(shù)據(jù)庫分{。,3…,乙}和一組類?。鸃,a,…,cj,分類問題就是去確定一個

映射工AC,使得每個單元組乙被分配到某一個類中。分類的主要思想是首先從數(shù)據(jù)中選

出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘中的分類技術(shù),建立分類模型,并根據(jù)

分類模型對沒有分類的數(shù)據(jù)進行分類。因此,分類是一種有監(jiān)督的學(xué)習(xí)過程,有監(jiān)督的學(xué)習(xí)

是讓計算機去學(xué)習(xí)我們已經(jīng)建立好的分類系統(tǒng)。

分類在現(xiàn)實情況中有著廣泛的應(yīng)用,如商場中判斷顧客的等級,網(wǎng)上書店分析客戶流失情

況,負責借貸的銀行官員利用分類技術(shù)來決定支持哪些貸款和拒絕哪些貸款等。本部分主要

介紹三種分類方法,即決策樹分類、貝葉斯分類和人工神經(jīng)網(wǎng)絡(luò)分類。

5.2決策樹分類

5.2.1基本概念

決策樹m一般都是自上而下地來生成的。每個決策或事件(即自然狀態(tài))都可能引出兩個

或多個事件,從而導(dǎo)致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹,故稱決策樹。

圖5-1決策樹工作示意

從決策樹工作示意圖中可以看出,生成的決策樹是一棵倒立的樹,開始時,訓(xùn)練集中的所有

記錄都在根節(jié)點,根據(jù)相應(yīng)的分類方法從根節(jié)點開始遞歸地進行分割,一般來說選擇分割的

方法有好幾種,但是目的都是一致的:對目標類嘗試進行最佳的分割。分割結(jié)束后,從根到

每個葉子節(jié)點都有一條路徑,這條路徑就是一條“規(guī)則”。

5.2.2決策樹的生成過程

決策樹的生成過程如下:

1.開始的時候所有記錄都在根節(jié)點;

2.選擇記錄的某一個屬性對節(jié)點進行分割,分割后生成若干個新節(jié)點;

3.分別判斷新生成的節(jié)點中的記錄是否都屬于一個類別,若是,則對該節(jié)點的拆分結(jié)束,否

則判斷是否滿足其他停止拆分的條件,如節(jié)點中記錄的個數(shù)少于某個給定的閾值等;如果不

滿足停止拆分的條件,則遞歸地繼續(xù)選擇其他屬性對節(jié)點進行拆分;

4.拆分結(jié)束后每個節(jié)點代表一個指定的類別;

5.樹的修剪:去掉一些可能是噪聲或者異常的數(shù)據(jù)。

在這個過程中要解決的主要問題是:如何對節(jié)點進行拆分,即拆分的原則是什么。因為即使

對同樣的數(shù)據(jù),不同的拆分原則可能得到不同的決策樹。本部分以表5T所示的一組有關(guān)客

戶流失的訓(xùn)練數(shù)據(jù)為例來說明不同的拆分原則所得到的決策樹是不同的。

Id性別教師收入是否流失

1男是高否

2女否中否

3女是低否

4男否中否

5女是中是

6女否高否

7男是中否

8女是高是

9女否低否

10女是中是

表5-1訓(xùn)練數(shù)據(jù)

這組數(shù)據(jù)如果先按性別這個屬性進行拆分,則可得如下結(jié)果:

圖5-2先按性別進行拆分后得到的決策樹

同樣一組數(shù)據(jù),如果先按收入進行拆分,則可得到如下的決策樹:

圖5-3另外一種拆分方式得到的決策樹

得到?jīng)Q策樹后,就可以根據(jù)決策樹對新數(shù)據(jù)進行分類預(yù)測,如對于給定記錄,有下列情況

(見表5-2)o

性別教師收入是否流失

男否高?

表5-2分類預(yù)測的記錄

根據(jù)圖5-3所示的決策樹,我們可以預(yù)測出該顧客的是否流失的類別為否。

由此可見,同樣的數(shù)據(jù)由于拆分方式的不同,所構(gòu)成的決策樹不止一個!那么究竟哪一個是

最佳拆分呢?最佳拆分是能夠把記錄很好地分成不同的組,使每個群組里的單個類成為主

導(dǎo)。拆分的度量是純度,低純度意味著該集合包含了各個類的典型分布,高純度意味著單個

類別的成員占主流。以兩個各有10個節(jié)點的集合A、B為例,集合A中含有5個類別為C

的節(jié)點和5個類別為C的節(jié)點,集合B中含有8個類別為。的節(jié)點和2個類別為C的節(jié)

點。集合A意味著包含了。和C這兩個類的典型分布,因此該集合為低純度集合;而在集

合B中C.這個類別占主流,是一個相對較高純度的集合。根據(jù)最佳拆分的思想,在圖5-4

和圖5-5的拆分中,圖5-4的拆分結(jié)果要好一些,因為相對于圖5-5的拆分結(jié)果而言,圖

5-4拆分成了兩個都是高純度的集合,而圖5-5的拆分結(jié)果為兩個低純度的集合。

圖5-4數(shù)據(jù)拆分結(jié)果之一

圖5-5數(shù)據(jù)拆分結(jié)果之二

應(yīng)用比較廣泛的關(guān)于純度的測量方式是基尼(Gini,也稱總體發(fā)散性)和燃(Entropy,也

稱信息增益)。它們的核心思想都是信息量的大小取決于信息內(nèi)容消除人們認識的“不確定

程度”,所消除的不確定程度越大,所包含的信息量就越大。因此,在幾種拆分方式的比較

中,獲得最大信息量的那種拆分方式就是最佳拆分方式。下面分別介紹這兩種拆分方式。

1.基尼準則

基尼是一個通用的拆分標準。一個節(jié)點的基尼值⑶就是該節(jié)點中各類節(jié)點比例的平方之

和。根據(jù)這個定義,對于只有兩個類的含有偶數(shù)個記錄的節(jié)點來說:一個完美的純節(jié)點的基

尼值為1,而一個均衡節(jié)點的基尼值是0.5。要計算拆分后的效果,可以分別計算每一子節(jié)

點的基尼值乘以到達那個節(jié)點的樣本數(shù)的比例,然后把所有得到的數(shù)值求和。根據(jù)這個思

想,在圖5-4和圖5-5的兩種拆分中,根節(jié)點的基尼值都是0.5,而圖5-4拆分后的子節(jié)點

的基尼值之和為1,因此基尼值增值為:『0.5=0.5。

圖5-5拆分后的子節(jié)點的基尼值之和為:0.56。

基尼值增值為0.56-0.5=0.06o

由于0.5>0.06,所以這兩種拆分方式中圖5-4中的拆分方式好。

2.燧(Entropy,也稱信息增益)

燧是對一個系統(tǒng)紊亂程度的度量。它是該節(jié)點所代表的全部類中,每個特定類的記錄的比例

乘以該比例以2為底的對數(shù)后的總和(實際上,這一結(jié)果通常乘以T以便得到一個正

數(shù))。信息增益"]可定義如下:

已知:被分好類的一組例子6(或稱樣本),£的一個劃分片{瓦…,£}的信息增益為:

entropy{E)->entropy(£,)xJ(5.1)

,:=i'I£I,

式(5.1)中,entropy(皮是拆分前節(jié)點的燧,entropy(£,)是拆分后的N個節(jié)點中第i

個節(jié)點的烯,|£是拆分后的第1?個節(jié)點中的樣本數(shù),£是拆分前的節(jié)點中的樣本數(shù)。此處

我們根據(jù)蠟的公式計算圖5-5的信息增益,只是想通過這個計算過程來說明這種方法。

根節(jié)點的炳為:-(0.51og20.5+0.51og20.5)=1;

拆分后的左節(jié)點的墉為:

-《1。829+《1空2:二-(-0.528-0.39)=0.918

?

同理,右節(jié)點的燧為:

(1122、

-4-log2?+孤2T=-(-0.528-0.39)=0.918

拆分后的端為:

2x0.918+2x0.918=0.918

1212

?

信息增益為:1-0.918=0.072o

綜上所述,通過基尼方式和端的方式都可以生成相應(yīng)的決策樹。但使用基尼方式建立的樹更

傾向于產(chǎn)生兩個純度都較高的子節(jié)點的拆分,而不是一個更純的加上一個大而不是很純的子

節(jié)點的拆分。焙準則更傾向于純度,即使得到的節(jié)點很小。因此焙準則適合于確有清晰的潛

在規(guī)則的領(lǐng)域,對市場營銷這類模糊領(lǐng)域,會導(dǎo)致不穩(wěn)定的樹。

5.2.3決策樹停止的條件

決策樹在生長過程中,當節(jié)點滿足下列條件之一時就停止增長:

①當某一節(jié)點中所有樣本屬于一個類時就停止;

②當某一節(jié)點中樣本的個數(shù)少于某個指定的閾值時就停止;

③當拆分的層數(shù)大于某個給定的閾值時停止擴展節(jié)點。

一般來說,可以把根節(jié)點的層數(shù)設(shè)定為0,其他節(jié)點的層數(shù)是其父節(jié)點層數(shù)加1。

例5.1對表5T給定的數(shù)據(jù)集,用基尼值的方式生成決策樹。

一個節(jié)點的基尼值就是該節(jié)點中各類節(jié)點比例的平方之和。

根據(jù)表5-1中給定的數(shù)據(jù),根節(jié)點的基尼值為:

—Y+(―V=0.49+0.09=0.58

10/V10/

如果按性別這個屬性拆分,拆分后的節(jié)點的基尼值為:

3173242」

ioxl+loxI+=0.657

770

因此,若按性別這個屬性進行拆分,基尼值增值為:0.657-0.58=().077。

如果按教師這個屬性拆分,拆分后的節(jié)點的基尼值為:

因此,若按教師這個屬性進行拆分,基尼值增值為:0.7-0.58=0.12o

如果按收入這個屬性拆分,拆分后的節(jié)點的基尼值為:

尋[(打+('+系[信>+信汴。627。

因此,若按收入這個屬性進行拆分,基尼值增值為:0.627-0.58=0.047。

由此可見,按教師這個屬性進行拆分,所得到的基尼值增值最大,因此,若對表5T中的數(shù)

據(jù)拆分,首先,應(yīng)該按教師這個屬性進行拆分,教師屬性為“是”的樣本進入左子女節(jié)點,

教師屬性為“否”的樣本進入右子女節(jié)點,因此拆分后左子女節(jié)點共有6個樣本,這6個樣

本中有3條樣本的流失類別為“是",3條樣本的流失類別為“否”,所以還需要繼續(xù)拆

分;而拆分后的右子女節(jié)點中共有4條樣本,而且這4條樣本的流失類別都是“否”,滿足

決策樹停止生長條件中的第1條,因此該節(jié)點停止生長。最后,對剛拆分后得到的含有6個

樣本的左子女節(jié)點繼續(xù)進行拆分,若按性別繼續(xù)進行拆分,拆分后的基尼值增值為:

信*】+劄(9+信濟[閨+閨卜,皿=。.況

若按收入繼續(xù)進行拆分,拆分后的基尼值增值為:

由于0.25>0.11,所以該左子女節(jié)點應(yīng)該按性別這個屬性繼續(xù)拆分,性別屬性為“男”的

樣本進入新的左子女節(jié)點,該節(jié)點中所有樣本的流失屬性都為“否”,根據(jù)決策樹停止的條

件中的第1條,該節(jié)點停止生長;性別屬性為“女”的樣本進入新的右子女節(jié)點,新的右子

女節(jié)點中有4個記錄,其中3個樣本的流失類別為“是”,1個樣本的流失類別為“否”,

對該節(jié)點繼續(xù)按收入屬性進行拆分,拆分后,三個子女節(jié)點中的樣本個數(shù)分別為1、2、1,

其中樣本數(shù)為2的節(jié)點中兩個樣本的流失類別都為“是”,因此這三個節(jié)點都滿足決策樹停

止生長的條件,故決策樹生長完畢。根據(jù)上述分析,對表5T中數(shù)據(jù)按著基尼的方法進行拆

分,最終得到的決策樹如圖5-6所示。

圖5-6按基尼進行拆分后得到的決策樹

由上面的拆分過程可以看出,一般來說,決策樹具有如下的優(yōu)點:

①決策樹的形式比較清晰,容易理解;

②很容易轉(zhuǎn)換成規(guī)則;

根據(jù)圖5-6所示的決策樹可以得到如下一條規(guī)則:if教師="是"and性別="男"then流

失="否",即從根節(jié)點到每個葉子節(jié)點都存在一條唯一的路徑,而這條路徑就對應(yīng)著一條

規(guī)則;

③能夠應(yīng)用到對真實問題的處理中;

④能處理數(shù)值和分類數(shù)據(jù)。

同時,決策樹也具有一定的缺點:

①輸出的屬性必須是分類的;

②只有一個輸出屬性。

5.2.4決策樹的修剪

決策樹生成后可能會存在一定的問題,圖5-7所示的過度擬合是可能產(chǎn)生的問題之一。

圖5-7過度擬合

所謂過度擬合⑵是指給定一個假設(shè)〃,如果在假設(shè)空間上存在另外一個假設(shè)〃',使得在訓(xùn)

練集上〃的錯誤率比〃小,而在測試集上〃的錯誤率比〃大,那么稱假設(shè)〃過度擬合。

由圖5-7可以看出,隨著決策樹中節(jié)點個數(shù)的增加,訓(xùn)練集中數(shù)據(jù)的準確度逐漸增加,而測

試集中數(shù)據(jù)的準確度卻逐漸減少。

形成過度擬合的主要原因⑶主要有以下兩種:

①分類噪聲或者屬性噪聲都可能導(dǎo)致過度擬合。比方說有兩個記錄,這兩個記錄除了分類屬

性外,其他屬性都有相同的描述,但分類屬性卻完全不同;

②樣本數(shù)據(jù)描述的屬性不完備,不足以判別分類標準等。

實際應(yīng)用過程中,即使訓(xùn)練數(shù)據(jù)沒有噪聲,過度擬合也非常有可能發(fā)生,特別是當某些決策

與客觀事實不符合、僅基于少量訓(xùn)練數(shù)據(jù)構(gòu)建決策樹時,過度擬合便是一種常見的現(xiàn)象。

避免決策樹學(xué)習(xí)過程中過度擬合的方法主要有兩種:先剪枝和后剪枝用⑸。

L先剪枝

先剪枝就是在完全正確分類訓(xùn)練集之前,較早地停止決策樹的生長聞。決策樹停止生長的

規(guī)則主要有兩個:一是如果節(jié)點中記錄的個數(shù)少于用戶指定的閾值,該節(jié)點就停止生長;二

是如果節(jié)點擴展過程中,擴展純度的增益小于某個閾值,這時即使有些葉子節(jié)點的記錄不屬

于同一類,也可以使決策樹的生長停止。

由于先剪枝方法在實現(xiàn)過程中不需要生成整棵決策樹,所以相對來說效率比較高,但該方法

的主要問題是如何客觀、恰當?shù)卮_定每個節(jié)點記錄個數(shù)的閾值或是相鄰層節(jié)點之間純度的增

益閾值。

2.后剪枝

后剪枝的主要思想是:初始決策樹按照最大規(guī)模增長,允許決策樹過度擬合訓(xùn)練數(shù)據(jù),然后

再進行剪枝的步驟,按照自底向上的方式修剪完全增長的決策樹,在這個過程中,一方面可

以用葉子節(jié)點來替代子樹節(jié)點,這個葉子節(jié)點的類別為該節(jié)點中大多數(shù)樣本所屬的類別;另

一方面也可以把一個子樹上移到?jīng)Q策樹中更高一級上,替代它的父節(jié)點。

圖5-8是用一個葉子節(jié)點替代一個子樹節(jié)點的示意圖。

7/84/52/3

12/16

圖5-8用一個葉子節(jié)點替代一個子樹節(jié)點的示意

圖中葉子節(jié)點中的“是”和“否”代表樣本所屬的類別。7/8代表到達該葉子節(jié)點的樣本數(shù)

為8個,其中有7個樣本的類別為“是”,1個樣本的類別為“否”,即有1個樣本被錯誤

地分類;2/3代表到達該葉子節(jié)點的樣本數(shù)為3個,其中2個樣本的類別為“否”,1個樣

本的類別為“是”,這1個樣本被錯誤地分類。其他分數(shù)的含義類似。

到目前為止,后剪枝方法有很多種閉,比較有代表性的有:悲觀錯誤剪枝法(Pessimistic

ErrorPruning,簡稱PEP),最小錯誤剪枝法(MinimumErrorPruning,簡稱MEP)等。

本小節(jié)將簡單介紹一下悲觀錯誤剪枝法。

悲觀錯誤剪枝法是根據(jù)剪枝前后的錯誤率來判定子樹是否需要修剪。假定每生成一個節(jié)點的

代價(后邊用錯誤的方式來進行計算)為0.5,若到達一個節(jié)點時的錯誤率為10/30,即30

個節(jié)點中有10個是分類錯誤的節(jié)點,如果按照某個屬性繼續(xù)拆分成4個節(jié)點,則拆分后的

錯誤率變成9/30。那么按照悲觀錯誤剪枝法來計算的話,拆分前的錯誤率為:

(10+0.5X1)/30=10.5/30,拆分后的錯誤率為:(9+4X0.5)/30=11/30,這就意味著拆

分后的錯誤率要高于拆分前的錯誤率,所以就不需要拆分,可以直接剪枝。

5.2.5決策樹的評估

決策樹的評估重點將放在決策樹的預(yù)測能力而不是這個決策樹運行快或穩(wěn)定性等方面上,決

策樹評估方式是通過表5-3所示的分類矩陣來考核的。

預(yù)測的類

類=丫65類二No

實際的類類=丫€5ab

類=NoCd

表5-3分類矩陣

從表中可以看出,當實際類別是Yes,而預(yù)測出來也是Yes的樣本數(shù)為a,這個是正確的預(yù)

測;當實際類別是Yes,而預(yù)測出來是No的樣本數(shù)為b,這個是錯誤的預(yù)測;當實際類別是

No,而預(yù)測出來也是No的樣本數(shù)為d,這個是正確的預(yù)測;當實際類別是No,而預(yù)測出來

是Yes的樣本數(shù)為c,這個是錯誤的預(yù)測。因此,在這種情況下,決策樹預(yù)測的準確度為:

Accuracy=-----:+"-----(5.2)

a+b+c+d

例5.2根據(jù)例5.1所構(gòu)建的決策樹;根據(jù)表5-4所示的驗證集數(shù)據(jù)來計算決策樹預(yù)測的準

確度。

Id性別教師收入是否流失

1男是中是

2女否高否

3女是低否

4男否高否

5女是低是

表5-4驗證集數(shù)據(jù)

相應(yīng)的分類矩陣如表5-5所示:

預(yù)測的類

類=是類=否

實際的類類=是02

類=否03

表5-5分類矩陣

因此,模型預(yù)測的準確度為:

0+3

=60%

0+2+0+3

實際應(yīng)用中,有兩種方法可以用于對分類的錯誤率進行評估,它們都假定待預(yù)測記錄和訓(xùn)練

集取自同樣的樣本分布。

1.保留方法(Holdout)

記錄集中的一部分(通常是2/3)用作訓(xùn)練集,保留剩余的部分用作測試集。使用2/3的數(shù)

據(jù)來構(gòu)造分類模型,然后使用這個分類模型對測試集中的數(shù)據(jù)進行分類,得出的錯誤率就是

評估錯誤率。

雖然這種方法速度快,但由于僅使用2/3的數(shù)據(jù)來構(gòu)造分類模型,因此它沒有充分利用所有

的數(shù)據(jù)來進行學(xué)習(xí)。如果使用所有的數(shù)據(jù),那么可能構(gòu)造出更精確的分類模型。

2.交叉糾錯方法(CrossValidation)

數(shù)據(jù)集被分成A個沒有交叉數(shù)據(jù)的子集,所有子集的大小大致相同。訓(xùn)練和測試共進行A

次;每一次使用去除一個子集的剩余數(shù)據(jù)作為訓(xùn)練集,然后在被去除的子集上進行測試。最

后把所有得到的錯誤率的平均值作為評估錯誤率。

通常Holdout評估方法被用在最初試驗性的場合,或者多于5000條記錄的數(shù)據(jù)集;交叉糾

錯方法被用于建立最終的分類模型或者很小的數(shù)據(jù)集。

5.3貝葉斯分類

話說一個嬰兒第一次觀看日落。因為他對這個世界還比較陌生,所以他不會知道明天的太陽

是否會再次升起。他作了一個假設(shè):每天可以有日出也可以無日出,如果他將一塊黑色的大

理石放到袋子中,則表示沒有日出,如果將一塊白色的大理石放到袋子中,則表示有日出。

隨著時間一天天過去,黑色石頭淹沒在白色石頭的海洋中,因此這個小孩幾乎可以肯定地預(yù)

測:每一天都有日出。

1763年托馬斯?貝葉斯⑻在他的一篇文章中引用了上面這段話,在他的這篇文章中提出了

一種方法論,該方法論是現(xiàn)代機器學(xué)習(xí)的一個基本原理。貝葉斯算法支持快速地創(chuàng)建有預(yù)測

功能的挖掘模型,并且提供一種瀏覽數(shù)據(jù)和理解數(shù)據(jù)的新方法??紤]前面所說的比喻,很明

顯貝葉斯技術(shù)能夠應(yīng)用于預(yù)測分析。

貝葉斯分類是統(tǒng)計學(xué)分類法,它可以預(yù)測類成員關(guān)系的可能性,如給定樣本屬于一個特定類

的概率。

設(shè)才是類標號未知的樣本數(shù)據(jù),才)是后驗概率,也稱條件片下〃的后驗概率。例

如,假定數(shù)據(jù)樣本域由水果組成,用它們的顏色和形狀描述。假定才表示紅色和圓的,〃表

示假定犬是蘋果,則尸(“的反映當我們看到乃是紅色并且是圓的時,我們對犬是蘋果的

確信程度。作為對比,是先驗概率,也稱〃的先驗概率。對于我們的例子,它是任意

給定的數(shù)據(jù)樣本為蘋果的概率,而不管數(shù)據(jù)樣本看上去如何。后驗概率尸(〃1加比先先驗

概率尸(M基于更多的信息。

類似地,尸(才|必是條件〃下,片的后驗概率。即它已知〃是蘋果,才是紅色并且是圓的概

率。尸(冷是開的先驗概率。使用我們的例子,它是由水果集取出一個數(shù)據(jù)樣本是紅的和圓

的概率。貝葉斯定理可用如下公式表示:

P(XIH)P(H)

P(H\X)=(5.3)

P(X)

貝葉斯定理在分類中的應(yīng)用方式是:給定一個帶有屬性(4,4,…,4)的記錄,目標就

是預(yù)測其類別C即P(CI4,4,…,4)的概率有多大,即求:

”4力..?人)一⑸&…4s(G

(1,2,Jp(44r)(5.4)

如果假設(shè)結(jié)果類別有兩種,分別為C和C”由于

…,4/G)P(G)

P(GI4,,??,4)(5.5)

一(4,乜)

。。也…出"Cj)P(C)

。(。/4,兒…4)(5.6)

另外,由于4,4…,4屬性相互獨立,所以有:

G)C(.)P(A21G)…,p(4"G)(5.7)

P(f4ICj)=P(4ICj)尸(4IC7.)-,P(A?ICj)(5.8)

把公式(5.7)和公式(5.8)分別代入公式(5.5)和公式(5.6),可得,

IG"(&lC)…,P(4"G)/(G)

P(GI4,&…,4)(5.9)

勺M)

p(4I叱(%!q)…,0(4"Cj)p(c)

44…,4)(5.10)

P(CJ。(4向…4,)

由于公式(5.9)和公式(5.10)中的分母相同,因此,這兩個公式的大小由分子來決定,

如果公式(5.9)的值大于公式(5.10)的值,則意味著此記錄在4,4,…,4的屬性前提

下,該記錄所屬類別為扇反之則屬于以

5.4人工神經(jīng)網(wǎng)絡(luò)分類

5.4.1人工神經(jīng)網(wǎng)絡(luò)概述

人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,簡稱ANN)是目前發(fā)展迅速的一門交叉學(xué)

科,它是在現(xiàn)代神經(jīng)科學(xué)研究基礎(chǔ)上,通過模擬人類大腦的基本特性,力圖對外界的感知作

出反應(yīng)的一門科學(xué)。T.Koholen⑼對人工神經(jīng)網(wǎng)絡(luò)的定義為:“由具有適應(yīng)性的簡單單元組

成的廣泛并行互聯(lián)的網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對真實世界物體所作出的交互反

應(yīng)?!?/p>

神經(jīng)網(wǎng)絡(luò)的基本組成單元是神經(jīng)元,如圖5-9所示,數(shù)學(xué)上的神經(jīng)元模型是和生物學(xué)上的神

經(jīng)細胞對應(yīng)的?;蛘哒f,人工神經(jīng)網(wǎng)絡(luò)理論是用神經(jīng)元這種抽象的數(shù)學(xué)模型來描述客觀世界

的生物細胞的。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本元素。只有了解神經(jīng)元才能認識神經(jīng)網(wǎng)絡(luò)的本質(zhì)。

5.4.2神經(jīng)元的數(shù)學(xué)模型

神經(jīng)元的數(shù)學(xué)模型⑼如圖5-10所示:

/X

X._____/

圖5-10神經(jīng)元的數(shù)學(xué)模型

圖5-10中的%,尤是神經(jīng)元,的輸入,%,如…,仍“分別是兄友,…,%的權(quán)

重系數(shù),fl.3是激發(fā)函數(shù),它決定神經(jīng)元/受到輸入X,%,…,X的共同作用達到閾值

時以何種方式輸出,卜是神經(jīng)元,的輸出。

激發(fā)函數(shù)FL]有多種形式,其中最常見的有階躍形、線性形和S形三種形式,這三種形

式分別如圖5-11所示。其中:

(a)(b)(c)

圖5T1典型激發(fā)函數(shù)

n

3=(5.11)

j=l

5.4.3人工神經(jīng)網(wǎng)絡(luò)模型

人工神經(jīng)網(wǎng)絡(luò)模型有很多種,如反向傳播(BackPropagation,簡稱BP)網(wǎng)絡(luò),Hopfield

神經(jīng)網(wǎng)絡(luò)等,本小節(jié)將介紹BP網(wǎng)絡(luò)。BP網(wǎng)絡(luò)是一種多層前向反饋神經(jīng)網(wǎng)絡(luò),其神經(jīng)元的變

換函數(shù)是S形函數(shù),因此輸出量為0至打之間的數(shù)值,它可以實現(xiàn)從輸入到輸出的任意的非

線性映射。分類只是BP網(wǎng)絡(luò)的應(yīng)用之一。BP算法主要由兩部分組成:信息的正向傳遞和誤

差的反向傳播。在信息的正向傳遞過程中,輸入信息從輸入層經(jīng)過計算后經(jīng)由隱藏層傳向輸

出層;如果在輸出層沒有得到理想的輸出,則計算出輸出層的誤差值,通過網(wǎng)絡(luò)將誤差值沿

原來的連接通路反傳過去來修改各層神經(jīng)元的權(quán)值。接著輸入信息根據(jù)修改后的各層神經(jīng)元

的權(quán)值重新讓信息正向傳遞,得到輸出值后重新計算誤差值。此過程一直進行到網(wǎng)絡(luò)輸出的

誤差減少到可接受的程度,或進行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。反向傳播通過迭代處理一組

訓(xùn)練樣本,每次迭代過程中都對每個訓(xùn)練樣本所對應(yīng)的權(quán)值進行修改,從而使網(wǎng)絡(luò)預(yù)測值與

實際值之間的均方誤差最小。具體方法.如下:

1.初始化權(quán)

網(wǎng)絡(luò)的權(quán)被初始化為很小的隨機數(shù)。

2.信息的正向傳遞

計算隱藏層和輸出層的每個單元的凈輸入和輸出。事實上,單元的輸入是鏈接它的前一層的

單元的輸出,為計算它的凈輸入,連接該單元的每個輸入乘以其對應(yīng)的權(quán),然后求和。給定

隱藏層或輸出層的單元J,到單元J.的凈輸入是:

<=2叫m(5.12)

i

其中,叫是由上一層的單元,到單元J的連接的權(quán);,是上一層的單元,的輸出;,,是單

元j的偏置。

隱藏層和輸出層的每個單元取其凈輸入,然后將一個激活函數(shù)(sigmoid)作用它,即:

3.誤差的后向傳播

通過更新權(quán)和偏置以反映網(wǎng)絡(luò)預(yù)測的誤差,進而將該誤差向后傳播。對于輸出層單元/誤

差為:

Eg=。(1-。,)(7)-。,)(5.14)

其中,0.是單元)的實際輸出,而。是,基于給定訓(xùn)練樣本的已知類標號的真正輸出。為計

算隱藏層單元)的誤差,考慮下一層中連接j的單元的誤差加權(quán)和。隱藏層單元j的誤差

是:

Er。=0/1-。,)X^rw(5.15)

kkkj

其中,%是由下一較高層中單元4到單元j的連接權(quán),而出r.是單元衣的誤差。

4.更新權(quán)和偏差

權(quán)由下式更新,/為學(xué)習(xí)率,偏差由下式更新:

w;;=w;;+(I)Err-0;(5.16)

9-=0j4-(I)Err-(5.17)

5.停止

當滿足下列條件之一時,運算結(jié)束。

(1)前一周期的所有(1)都很小,小于某個指定的權(quán)值。

(2)前一周期正確分類的樣本百分比小于某個閾值。

(3)超過預(yù)先指定的周期數(shù)。

神經(jīng)網(wǎng)絡(luò)作為一種可應(yīng)用于分類的方法,它的優(yōu)點在于對于噪聲數(shù)據(jù)的高承受能力,一般來

說神經(jīng)網(wǎng)絡(luò)訓(xùn)練時間長,但是精度相對來說很高。它的缺點是神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)難以確定,并

且簡單的神經(jīng)網(wǎng)絡(luò)不能提取規(guī)則。

5.4.4神經(jīng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)的確定

1.隱藏層的層數(shù)

一般認為,增加隱藏層的層數(shù)可以降低網(wǎng)絡(luò)誤差,提高精度,但隱藏層數(shù)的增加將使網(wǎng)絡(luò)復(fù)

雜化,從而增加了網(wǎng)絡(luò)的訓(xùn)練時間和出現(xiàn)“過擬合”的傾向。Honikim等早已證明:若輸入

層和輸出層采用線性轉(zhuǎn)換函數(shù),隱層采用Sigmoid轉(zhuǎn)換函數(shù),則含一個隱藏層的MLP

(MultiLayerPerception)網(wǎng)絡(luò)能夠以任意精度逼近任何有理函數(shù)。在設(shè)計BP網(wǎng)絡(luò)時可

參考這一點,應(yīng)優(yōu)先考慮3層BP網(wǎng)絡(luò)(即有1個隱層)。一般地,靠增加隱藏層節(jié)點數(shù)來

獲得較低的誤差,其訓(xùn)練效果要比增加隱藏層的層數(shù)更容易實現(xiàn)。對于沒有隱藏層的神經(jīng)網(wǎng)

絡(luò)模型,實際上就是一個線性或非線性(取決于輸出層采用線性或非線性轉(zhuǎn)換函數(shù)形式)回

歸模型。

2.隱藏層中的節(jié)點數(shù)

在BP網(wǎng)絡(luò)中,隱藏層節(jié)點數(shù)的選擇非常重要,它不僅對建立的神經(jīng)網(wǎng)絡(luò)模型的性能影響很

大,而且是訓(xùn)練時出現(xiàn)“過擬合”的直接原因,但是目前理論上還沒有一種科學(xué)的和普遍的

確定方法。目前多數(shù)文獻中皿提出的確定隱藏層節(jié)點數(shù)的計算公式都是針對訓(xùn)練樣本任意

多的情況,而且多數(shù)是針對最不利的情況,一般工程實踐中很難滿足,不宜采用。事實上,

各種計算公式得到的隱藏層節(jié)點數(shù)有時相差幾倍甚至上百倍。為盡可能避免訓(xùn)練時出現(xiàn)“過

擬合”現(xiàn)象,保證足夠高的網(wǎng)絡(luò)性能和泛化能力,確定隱藏層節(jié)點數(shù)的最基本原則是:在滿

足精度要求的前提下取盡可能緊湊的結(jié)構(gòu),即取盡可能少的隱藏層節(jié)點數(shù)。

5.5分類過程中面臨的問題一一不均衡數(shù)據(jù)集

決策樹、貝葉斯等方法在處理實際問題中有著廣泛的應(yīng)用,但這些分類方法在有些應(yīng)用中也

面臨著一些挑戰(zhàn),如不均衡數(shù)據(jù)集所帶來的對小類樣本檢測準確率低等問題。不均衡數(shù)據(jù)集

⑻是指在同一個數(shù)據(jù)集中有些類別的樣本總數(shù)比另外一些類別樣本總數(shù)多很多,我們稱樣

本數(shù)量很多的類別為大類,樣本數(shù)量很少的類別為小類。很多實際應(yīng)用都存在不均衡數(shù)據(jù)集

問題,如黑客入侵、信用卡欺詐等諸多實際應(yīng)用,都涉及類分布不均衡數(shù)據(jù)集問題。舉個例

子,銀行想要構(gòu)造一個分類器來預(yù)測客戶在未來幾年是否會有信托貸款的需求,假設(shè)信托貸

款需求的客戶只占全部客戶的2%,如果這個信托貸款分類器將所有客戶都預(yù)測為沒有信托

貸款需求。它將有高達98班的預(yù)測準確率。然而,這個分類器卻無法找出這2%有信托貸款需

求的目標人群。因此,如果分類器能正確有效地預(yù)測出小類樣本,那么就能幫助企業(yè)做出正

確決策,節(jié)省許多成本。傳統(tǒng)的分類算法是在假設(shè)各類樣本分布均衡的前提下提出的,即針

對均衡數(shù)據(jù)集來進行分類的,這些算法對數(shù)量占有絕對優(yōu)勢的大類有很高的檢測率,而對小

類的檢測率則不理想。為了解決這個問題,很多學(xué)者提出了一些方法,其中有代表性的方法

有過抽樣方法、欠抽樣方法等。下面分別簡單介紹這兩種方法。

1.過抽樣方法

過抽樣方法主要是通過增加小類樣本的數(shù)量來使整個數(shù)據(jù)集大類和小類的分布均衡化。它的

關(guān)鍵問題在于從現(xiàn)有的數(shù)據(jù)集中如何對小類抽樣,抽樣比例該確定為多少。1998?2000年

有學(xué)者w描述了如何用過抽樣方法將一個類分布不平衡數(shù)據(jù)集轉(zhuǎn)化為均衡數(shù)據(jù)集。大部

分過抽樣方法都是通過復(fù)制了小類的樣本來增加其數(shù)量的,但這種處理方法會帶來分類器學(xué)

習(xí)的過擬合問題。2004年有學(xué)者I”,間針對簡單復(fù)制小類樣本造成的過擬合問題,改進了過

抽樣方法,2006年有學(xué)者卬提出了新的方法一一SMOTE,用人工生成小類樣本取代了以往的

簡單復(fù)制小類樣本,避免了過擬合問題。

2.欠抽樣方法

欠抽樣方法通過減少大類樣本的數(shù)量來使得數(shù)據(jù)集的類分布均衡化。該方法的關(guān)鍵在于如何

找出大類中不影響分類的樣本,將其去掉。欠抽樣方法一般是去掉大類樣本中的噪聲、邊界

和冗余樣本,通常只能去掉大類樣本的一小部分。欠抽樣技術(shù)有可能去掉大類中一些對分類

很重要的信息,從而造成分類結(jié)果的不準確。

實際應(yīng)用中,就某個不均衡數(shù)據(jù)集來說應(yīng)選擇何種方法,應(yīng)根據(jù)具體情況實際驗證后來決

定。

5.6其他分類方法

本節(jié)將介紹其他兩種分類方法,即k-最近鄰居分類法和粗糙集分類法。

5.6.1k-最近鄰居法

k-最近鄰居分類法m的基本思想是:對于一個給定的未知其類別的樣本,計算該未知樣本

與每個訓(xùn)練樣本之間的距離,找出與其距離最近的4個訓(xùn)練樣本,兩個樣本之間的距離可以

用歐幾里德距離來表示,如存(X,生,…,X)和六(弘,必,…,匕)之間的距離被定義

為:

°(X,y)(陽--%)2(5.18)

這A個訓(xùn)練樣本就是未知類別樣本的最近鄰居,進而可以把該樣本的類別確定為A個最近鄰

居樣本數(shù)據(jù)中所具有的最普遍類別中去。

例5.3用3-最近鄰居法根據(jù)表5-6中的模擬數(shù)據(jù)來預(yù)測顧客David是否對某營銷戰(zhàn)略給予

響應(yīng),假設(shè)衡量顧客是否對某營銷戰(zhàn)略給予響應(yīng)的屬性有三個,并已得到相應(yīng)顧客的評價,

評價的級別為1~5。

顧客屬性1屬性2屬性3是否響應(yīng)

John343Y

Rachel252N

Hannah351Y

Tom531Y

Nellie224N

David322?

表5-6表示顧客信息的模擬數(shù)據(jù)

根據(jù)上表中的數(shù)據(jù),分別計算David的評價與其他每個顧客評價的距離,結(jié)果如表5-7所

zj\O

顧客屬性1屬性2屬性3是否響應(yīng)與David的距離

sqrt[(3-3>+(4-2)2+(3-

John343Y

2尸]=2.2

sqrt[(2-3尸+(5-2)2+(2-

Rachel252N

2尸]=3.1

sqrt[(3-3)2+(5-2尸+(1-

Hannah351Y

2>]=3.1

sqrt[(3-3)2+(3-2/+(1-

Tom531Y

2尸]=1.4

sqrt[(2-3尸+(2_2尸+(4,

Nellie224N

2)2]=2.2

David3229

表5-7帶有距離的顧客信息

從表5-7可以看出,與David距離最近的三個鄰居分別是:John,Tom和Nellie。這三個人

中,有兩個人對此營銷戰(zhàn)役作出了響應(yīng),一個人沒有,由此可以判斷David也會對此營銷戰(zhàn)

役作出響應(yīng)。

從上面的例子中可以看出,如果要找與David看法相近的顧客,需要計算每個顧客與David

的距離,因此,當訓(xùn)練樣本數(shù)量很大時,用力-最近鄰居法來進行分類可能會由于計算量過

大而帶來一定的困難。丘最近鄰居分類法中的另一個問題是對于給定的一組數(shù)據(jù)如何選定

院以圖5T2為例,當在值選擇為1時,未知樣本x由于與分類結(jié)果為的樣本距離最

近,故未知樣本x的類別被確定為[見圖5T2(a)];當4值選擇為2時,由于未

知樣本x的兩個最近鄰居,一個類別為另一個類別為“+”,因此此時無法確定未知

樣本x的類別[見圖5T2(b)];當4值選擇為3時,由于未知樣本x的三個最近鄰居

中,一個類別為,兩個類別為“+”,因此未知樣本x的類別被確定為“+”,見圖5-

12(c)o

++++++

(a)1-最近鄰居(b)2-最近鄰居(c)3-最近鄰居

圖5-12k-最近鄰居示意圖

由上面的討論可以看出,4值的選擇會影響最后的結(jié)果。一般來說,對于一組數(shù)據(jù),可以通

過實驗的方法來確定女的值,即進行若干次實驗,取分類誤差率最小的A值。

5.6.2粗糙集分類法

粗糙集理論由1982年由波蘭科學(xué)家PawlakZ.在“RoughSets”⑻一文中首次提出,1991

年P(guān)awlakZ.出版的專著Roug力Set:TheoreticalAspectsofReasoningAboutDataC2':I

更進一步全面闡述了以數(shù)學(xué)做基礎(chǔ)的粗糙集理論。該理論能有效地分析不精確、不一致、不

完整等各種不完備的信息,它的核心思想是利用已知的知識庫,將不精確或不確定的知識用

已知的知識庫中的知識來(近似)刻畫,從而可以對數(shù)據(jù)進行分析和推理,從中發(fā)現(xiàn)隱含的

知識,揭示潛在的規(guī)律。粗糙集算法的優(yōu)點就是對于要研究的數(shù)據(jù),不用提供任何先驗的知

識,就能自動學(xué)習(xí)出知識來,這也是它能夠廣泛應(yīng)用的根源所在。下面以表5-8為例來說明

粗糙集中涉及的一些概念。

顧客姓名地區(qū)性別是否流失

T-朝陽區(qū)男否

丁二高新區(qū)女是

丁三高新區(qū)男否

丁四朝陽區(qū)男否

丁五經(jīng)開區(qū)女是

表5-8顧客信息

在這個由5個顧客組成的一個集合A中,每個顧客都有地區(qū)屬性,按照地區(qū)的不同,我們可

以把顧客分成R『{朝陽區(qū),高新區(qū),經(jīng)開區(qū)}三個大類,所有朝陽區(qū)的顧客構(gòu)成集合Xl/丁

一,丁四},高新區(qū)的顧客構(gòu)成集合X2={丁二,丁三},經(jīng)開區(qū)的顧客構(gòu)成集合X3={丁五}。

按照地區(qū)這個屬性我們把顧客集合A進行了一次劃分,這種劃分就是使A中的任意一個元素

必然屬于且僅屬于一個分類,我們說地區(qū)屬性就是一種知識。本例中,除了地區(qū)屬性外,這

些顧客還可以按性別屬性來劃分,如R2={男性,女性}。因此,本例中的基本知識庫如下:

A/Rl={X1,X2,X3}={{丁一,丁四},{丁二,丁三},{丁五}}(地區(qū)分類)

A/R2={Y1,Y2}={{丁一,丁三,丁四},{丁二,丁五}}(性別分類)

有了基本知識庫后,我們就可以獲得其他的一些知識,如朝陽地區(qū)且是男性{丁一,丁

四}C{丁一,丁三,丁四}={丁一,丁四};經(jīng)開地區(qū)或是女性{丁五}U{丁二,丁五}={丁

二,丁五}。由上面的兩個基本知識(A/Rl,A/R2)和它們的交、并一起就可以構(gòu)成一個已

知的知識系統(tǒng)。實際應(yīng)用中,有些數(shù)據(jù)可能無法由知識系統(tǒng)中的知識明確地表示,如A上的

一個子集X={丁一,丁二,丁五}。因此如何用知識庫中的知識描述它就成了一個問題,無

論是單屬性知識還是由幾個知識進行交、并運算合成的知識,都不能得到這個集合X,在這

種情況下,我們可以用已知的知識去近似它,近似分為上近似和下近似。下近似集是通過在

那些所有的包含于X的知識庫中的集合中求并得到的,而上近似則是通過將那些包含X的知

識庫中的集合求交得到的。根據(jù)這個定義,表5-8中顧客的可能的知識集如下:

朝陽區(qū)男性:{丁一,丁四}

朝陽區(qū)女性:無

朝陽區(qū)或男性:{丁一,丁三丁四}

朝陽區(qū)或女性:{丁一,丁二,丁四,丁五}

高新區(qū)男性:{丁三}

高新區(qū)女性:{丁二}

高新區(qū)或女性:{丁二,丁三,丁五}

高新區(qū)或男性:(丁一,丁二,丁三,丁四}

經(jīng)開區(qū)男性:無

經(jīng)開區(qū)女性:{丁五}

經(jīng)開區(qū)或男性:{丁一,丁三,丁四,丁五}

經(jīng)開區(qū)或女性:{丁二,丁五}

朝陽區(qū):{丁一,丁四}

高新區(qū):{丁二,丁三}

經(jīng)開區(qū):{丁五}

男性:{丁一,丁三,丁四}

女性:(丁二,丁五}

由以上的知識集和本例中給出的數(shù)據(jù)集可知,x={丁一,丁二,丁五}的下近似為:{丁二,

丁五},該下近似如果用概念來描述就是“女性”;它的上近似為:{丁一,丁二,丁四,丁

五},該上近似的概念描述就是“朝陽區(qū)或女性”。

在了解了上述概念后,我們來介紹一下如何通過粗糙集理論來進行分類。在表5-8中有一列

是決策屬性,也就是判斷顧客的流失情況,表中的每一行都表達了一定的信息,如高新區(qū)女

性流失等??紤]決策屬性為“是”的集合{丁二,丁五},它在知識系統(tǒng)中的下近似為:{丁

二,丁五},上近似為{丁二,丁五},“否”的集合為{丁一,丁三,丁四},下近似為{丁

一,丁三,丁四},上近似為{丁一,丁三,丁四}。由此可以看出決策屬性無論為“是”的

集合還是“否”的集合,其上近似和下近似的集合都與原集合相同。這說明該知識庫能夠?qū)?/p>

這個概念進行很好的描述。下面考慮是否所有的基本知識如地區(qū)、性別都是必要的。如果我

們把這個集合在知識系統(tǒng)中去掉“地區(qū)”這個基本知識,那么知識系統(tǒng)就變成A/(R-R1)

={(丁一,丁三,丁四},{丁二,丁五}}。如果用這個新的知識系統(tǒng)表達“是流失”概念得

到上下近似仍舊都是:{丁二,丁五},“否流失”概念的上下近似也還是{丁一,丁三,丁

四},由此看出在本例中去掉“地區(qū)”屬性我們表達是否流失的知識不會有變化,所以說地

區(qū)屬性是多余的,可以刪除。

進而我們可以得出如下規(guī)則:

if男性then(流失類別為)否

if女性then(流失類別為)是

這就是表5-8中所包含的知識,而這些知識都是利用表中的數(shù)據(jù)通過粗糙集方法自動學(xué)習(xí)得

到的。因此,粗糙集是對數(shù)據(jù)進行分類的有效方法。

5.7Microsoft分類挖掘模型的操作過程一一以基于決策樹的客戶分類為例

考慮到Foodmart2000.mdb數(shù)據(jù)集中customer這個表中,有一個顧客類別屬性,我們想研

究顧客具有什么屬性才能屬于某個確定的類別,這樣將來就可根據(jù)新顧客的屬性來預(yù)測該顧

客所屬的類別,從而可對該顧客進行有針對性的營銷。具體步驟如下。

1.拆分數(shù)據(jù)

在此過程中,我們將customer表中大約2/3的數(shù)據(jù),即前7000條作為訓(xùn)練集,用它來生成

訓(xùn)練模型,后3281條作為驗證集。數(shù)據(jù)處理是在SQLServerManagementSludio中的新建

查詢中進行。具體語句如下:

select*intotraincustomerfromcustomerwherecustomer_id<=7000

select*intotestcustomerfromcustomerwherecustomer_id>7000

2.新建一個分析項目

執(zhí)行菜單欄的“文件”一“新建”一“項目”命令,選中"AnalysisServices項目”,打

開如圖5T3所示的“新建項目”對話框。

圖5T3新建一個分析項目

單擊“確定”后,進入“解決方案資源管理器”界面,如圖5T4所示。

3.選擇數(shù)據(jù)源和數(shù)據(jù)源視圖

選擇數(shù)據(jù)源的步驟參見第2章內(nèi)容。該數(shù)據(jù)源與Foodmart2000.mdb相連,在數(shù)據(jù)源視圖向

導(dǎo)中,把dbo.testcustomer和dbo.traincustomer表放入包含的對象中,如圖5T5所示。

解決方案資源管理器-分類▼4X

嘎10

分類

與數(shù)據(jù)源

力數(shù)據(jù)源視圖

|&多維數(shù)據(jù)集

以維度

后挖掘結(jié)構(gòu)

&角色

原程序集

匕雜項

圖5-14解決方案資源管理器

圖5-15選擇表和視圖

4.選擇挖掘結(jié)構(gòu)

點擊解決資源管理器下的挖掘結(jié)構(gòu),右鍵單擊,在彈出菜單中選擇“新建挖掘結(jié)構(gòu)”進入數(shù)

據(jù)挖掘向?qū)?如圖5-16所示。

圖5-16選擇數(shù)據(jù)挖掘技術(shù)

5.單擊“下一步”,進入“指定表類型”界面。

在此界面中選擇testcustomer數(shù)據(jù)表為示例表,如圖5T7所示,點擊“下一步”,進入

“指定定型數(shù)據(jù)”界面。

圖5-17指定表類型

6.在本界面中,把customer_id選作關(guān)鍵字段項,member_card作可預(yù)測項,如圖5T8所

zJKo

單擊“建議”,可以看到可預(yù)測項member_card與其他輸入項之間的相關(guān)關(guān)系。如圖5T9

所示,分數(shù)值越大,意味著該項與可預(yù)測項的相關(guān)性越強,可以根據(jù)這個圖中的分數(shù)值選取

輸入項。

《數(shù)據(jù)校提向?qū)?/p>

指定定型數(shù)據(jù)

指定分析中所用的列.

乏掘模型結(jié)構(gòu)⑤):

表/列鍵□輸入回可.?.八

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論