數(shù)據(jù)挖掘-決策分析_第1頁(yè)
數(shù)據(jù)挖掘-決策分析_第2頁(yè)
數(shù)據(jù)挖掘-決策分析_第3頁(yè)
數(shù)據(jù)挖掘-決策分析_第4頁(yè)
數(shù)據(jù)挖掘-決策分析_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn)報(bào)告一:決策樹(shù)方法

實(shí)驗(yàn)?zāi)康模?/p>

使用SQLServerBusinessIntelligenceDevelopmentStudio

對(duì)上述數(shù)據(jù)建立數(shù)據(jù)立方體,并進(jìn)行數(shù)據(jù)挖掘分析,挖掘的知識(shí)類(lèi)型

不限,將挖掘過(guò)程和結(jié)果形成實(shí)驗(yàn)報(bào)告。

實(shí)驗(yàn)內(nèi)容:

(1)利用給定的數(shù)據(jù)庫(kù),新建一個(gè)數(shù)據(jù)挖掘項(xiàng)目;

(2)依次建立數(shù)據(jù)源,數(shù)據(jù)源視圖,維度,多維度數(shù)據(jù)集,挖掘機(jī)構(gòu);

(3)選擇不同的算法對(duì)挖掘的結(jié)果進(jìn)行分析,預(yù)測(cè).

(4)根據(jù)以上分析,提出可以執(zhí)行的決策

實(shí)驗(yàn)步驟:

創(chuàng)建AnalysisServices項(xiàng)目

更改存儲(chǔ)數(shù)據(jù)挖掘?qū)ο蟮膶?shí)例

創(chuàng)建數(shù)據(jù)源視圖

創(chuàng)建用于目標(biāo)郵件方案的挖掘結(jié)構(gòu)

創(chuàng)建目標(biāo)郵件方案的第一步是使用BusinessIntelligence

DevelopmentStudio中的數(shù)據(jù)挖掘向?qū)?chuàng)建新的挖掘結(jié)構(gòu)和決策樹(shù)

挖掘模型。

在本任務(wù)中,您將基于Microsoft決策樹(shù)算法創(chuàng)建初始挖掘結(jié)構(gòu)。

若要?jiǎng)?chuàng)建此結(jié)構(gòu),需要首先選擇表和視圖,然后標(biāo)識(shí)將用于定型的列和

將用于測(cè)試的列

1.在解決方案資源管理器中,右鍵單擊''挖掘結(jié)構(gòu)”并選擇"新建挖掘結(jié)

構(gòu)“啟動(dòng)數(shù)據(jù)挖掘向?qū)А?/p>

2.在“歡迎使用數(shù)據(jù)挖掘向?qū)А表?yè)上,單擊”下一步

3.在“選擇定義方法”頁(yè)上,確保已選中“從現(xiàn)有關(guān)系數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)

庫(kù)“,再單擊"下一步“。

4.在“創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)“頁(yè)的”您要使用何種數(shù)據(jù)挖掘技術(shù)?”下,選

Microsoft決策樹(shù)

5.單擊”下一步〃。

6.在“選擇數(shù)據(jù)源視圖“頁(yè)上的”可用數(shù)據(jù)源視圖“窗格中,選擇

TargetedMailingo可單擊"瀏覽”查看數(shù)據(jù)源視圖中的各表,然

后單擊”關(guān)閉〃返回該向?qū)А?/p>

7.單擊''下一步〃。

8.在“指定表類(lèi)型"頁(yè)上,選中vTargetMail的”事例〃列中的復(fù)選框

以將其用作事例表,然后單擊“下一步“。稍后您將使用

ProspectiveBuyer表進(jìn)行測(cè)試,不過(guò)現(xiàn)在可以忽略它。

9.在“指定定型數(shù)據(jù)“頁(yè)上,您將為模型至少標(biāo)識(shí)一個(gè)可預(yù)測(cè)列、一個(gè)

鍵列以及一個(gè)輸入列。選中BikeBuyer行中的''可預(yù)測(cè)”列中的復(fù)

選框。

10.單擊''建議"打開(kāi)”提供相關(guān)列建議”對(duì)話框。

只要選中至少一個(gè)可預(yù)測(cè)屬性,即可啟用"建議〃按鈕。”提供相關(guān)

列建議”對(duì)話框?qū)⒘谐雠c可預(yù)測(cè)列關(guān)聯(lián)最密切的列,并按照與可預(yù)測(cè)

屬性的相互關(guān)系對(duì)屬性進(jìn)行排序。顯著相關(guān)的列(置信度高于

95%)將被自動(dòng)選中以添加到模型中。

查看建議,然后單擊"取消“忽略建議。

11.確認(rèn)在CustomerKey行中已選中''鍵〃列中的復(fù)選框。

12.選中以下行中“輸入“列中的復(fù)選框。可通過(guò)下面的方法來(lái)同時(shí)

選中多個(gè)列:突出顯示一系列單元格,然后在按住Ctrl的同時(shí)選中

一個(gè)復(fù)選框。

1.Age

2.CommuteDistance

3.EnglishEducation

4.EnglishOccupation

5.Gender

6.GeographyKey

7.HouseOwnerFlag

8.MaritalStatus

9.NumberCarsOwned

10.NumberChildrenAtHome

11.Region

12.Totalchildren

13.Yearlylncome

13.在該頁(yè)的最左側(cè)的列中,選中以下行中的復(fù)選框。

1.AddressLinel

2.AddressLineZ

3.DateFirstPurchase

4.EmailAddress

5.FirstName

6.LastName

確保這些行僅選擇了左側(cè)列中的復(fù)選標(biāo)記。這些列將添加到結(jié)構(gòu)中,

但不會(huì)包含在模型中。但是,模型生成后,它們將可用于鉆取和測(cè)

試。有關(guān)鉆取的詳細(xì)信息,請(qǐng)參閱針對(duì)挖掘模型和挖掘結(jié)構(gòu)使用鉆

?。ˋnalysisServices-數(shù)據(jù)挖掘)。

14.單擊“下一步“。

檢查和修改每列的內(nèi)容類(lèi)型和數(shù)據(jù)類(lèi)型

15.在”指定列的內(nèi)容和數(shù)據(jù)類(lèi)型“頁(yè)上,單擊”檢測(cè)〃運(yùn)行用來(lái)確定

每列的默認(rèn)數(shù)據(jù)類(lèi)型和內(nèi)容類(lèi)型的算法。

16.查看”內(nèi)容類(lèi)型〃和“數(shù)據(jù)類(lèi)型"列中的各項(xiàng);如有必要,請(qǐng)進(jìn)行

更改,以確保設(shè)置與下表所示一致。

通常,向?qū)?huì)檢測(cè)數(shù)值,并分配相應(yīng)的數(shù)值數(shù)據(jù)類(lèi)型;但有些情況

下,您可能想要將數(shù)值作為文本處理。例如,GeographyKey應(yīng)

作為文本處理,因?yàn)閷?duì)此標(biāo)識(shí)符進(jìn)行數(shù)學(xué)運(yùn)算是不對(duì)的。

列內(nèi)容類(lèi)型數(shù)據(jù)rm類(lèi)MZ-型Ttji

AddressLinelDiscreteText

AddressLine2DiscreteText

AgeContinuousLong

BikeBuyerDiscreteLong

CommuteDistanceDiscreteText

CustomerKeyKeyLong

DateLastPurchaseContinuousDate

EmailAddressDiscreteText

EnglishEducationDiscreteText

EnglishOccupationDiscreteText

FirstNameDiscreteText

GenderDiscreteText

GeographyKeyDiscreteText

HouseOwnerFlagDiscreteText

LastNameDiscreteText

MaritalStatusDiscreteText

NumberCarsOwnedDiscreteLong

NumberChildrenAtHomeDiscreteLong

RegionDiscreteText

TotalChildrenDiscreteLong

YearlyIncomeContinuousDouble

17.單擊''下一步"。

指定測(cè)試集

1.在“創(chuàng)建測(cè)試集“頁(yè)上,將”測(cè)試數(shù)據(jù)百分比''保留其默認(rèn)值:30。

2.對(duì)于“測(cè)試數(shù)據(jù)集中的最大事例數(shù)〃,請(qǐng)鍵入1000o

3.單擊“下一步“。

司指定鉆取

可以針對(duì)模型和結(jié)構(gòu)啟用鉆取。該窗口中的復(fù)選框針對(duì)命名模型啟用鉆

取,并允許您從用來(lái)為模型定型的模型事例檢索詳細(xì)信息。

如果基礎(chǔ)挖掘結(jié)構(gòu)也已經(jīng)配置為允許進(jìn)行鉆取,則可以從模型事例和挖

掘結(jié)構(gòu)返回詳細(xì)信息(其中包括挖掘模型中所不包含的列)。有關(guān)詳細(xì)

信息,請(qǐng)參閱針對(duì)挖掘模型和挖掘結(jié)構(gòu)使用鉆取(AnalysisServices-

數(shù)據(jù)挖掘)

口命名模型和結(jié)構(gòu)并指定鉆取

1.在“完成向?qū)А绊?yè)上的”挖掘結(jié)構(gòu)名稱(chēng)“中,鍵入Targeted

Mailing。

2.在“挖掘模型名稱(chēng)“中,鍵入TM_Decision_Tree。

3.選中“允許鉆取''復(fù)選框。

4.查看“預(yù)覽“窗格。請(qǐng)注意,僅顯示出那些選作”鍵輸入"或"可

預(yù)測(cè)”的列。您選擇的其他列(例如,AddressLinel)不能用于生

成模型,但是將在基礎(chǔ)結(jié)構(gòu)中可用,您可以在處理和部署模型之后

查詢(xún)這些列。

創(chuàng)建聚類(lèi)分析挖掘模型

1.切換到BusinessIntelligenceDevelopmentStudio中數(shù)據(jù)

挖掘設(shè)計(jì)器的“挖掘模型”選項(xiàng)卡。

請(qǐng)注意,設(shè)計(jì)器顯示兩列,一列是挖掘結(jié)構(gòu),另一列是在前一課中

創(chuàng)建的TM_Decision_Tree挖掘模型。

2.右鍵單擊“結(jié)構(gòu)“列,選擇”新建挖掘模型

3.在“新建挖掘模型”對(duì)話框中的''模型名稱(chēng)"中,鍵入

TM_Clusteringo

4.在“算法名稱(chēng)"中,選擇"Microsoft聚類(lèi)分析”。

5.單擊''確定〃。

新模型現(xiàn)在顯示在數(shù)據(jù)挖掘設(shè)計(jì)器的''挖掘模型"選項(xiàng)卡中。此模型是用

Microsoft聚類(lèi)分析算法生成的,它將具有相似特征的客戶(hù)進(jìn)行分類(lèi)并

預(yù)測(cè)每個(gè)分類(lèi)的自行車(chē)購(gòu)買(mǎi)行為。雖然您可以修改新模型的列用法和屬

性,但在本教程中不需要對(duì)TM_Clustering模型進(jìn)行任何更改。

司創(chuàng)建NaiveBayes挖掘模型

1.在數(shù)據(jù)挖掘設(shè)計(jì)器的"挖掘模型”選項(xiàng)卡中,右鍵單擊"結(jié)構(gòu)“列,

并選擇“新建挖掘模型

2.在“新建挖掘模型”對(duì)話框中的“模型名稱(chēng)“下,鍵入

TM_NaiveBayeSo

3.在“算法名稱(chēng)“中,選擇MicrosoftNaiveBayes,再單擊''確

定”。

此時(shí)將顯示一條消息,說(shuō)明MicrosoftNaiveBayes算法不支持

Age和YearlyIncome歹!J,這些都是連續(xù)列。

4.單擊”是“,以確認(rèn)此消息并繼續(xù)下面的操作。

設(shè)置HoldoutSeed

1.在BusinessIntelligenceDevelopmentStudio的數(shù)據(jù)挖掘

設(shè)計(jì)器中,單擊"挖掘結(jié)構(gòu)“選項(xiàng)卡或“挖掘模型”選項(xiàng)卡。

TargetedMailingMiningstructure顯示在‘'屬性”窗格中。

2,確保按F4可以打開(kāi)“屬性“窗格。

3.確保CacheMode已設(shè)置為KeepTrainingCaseSo

4.為HoldoutSeed輸入12。

臼部署并處理模型

在數(shù)據(jù)挖掘設(shè)計(jì)器中,可以處理挖掘結(jié)構(gòu)、與挖掘結(jié)構(gòu)關(guān)聯(lián)的特定挖掘

模型,或者結(jié)構(gòu)以及與該結(jié)構(gòu)關(guān)聯(lián)的所有模型。在本任務(wù)中,我們將同

時(shí)處理結(jié)構(gòu)和所有模型。

口部署項(xiàng)目并處理所有挖掘模型

1.在“挖掘模型”菜單上選擇”處理挖掘結(jié)構(gòu)和所有模型

如果更改了結(jié)構(gòu),系統(tǒng)將提示您在處理模型之前生成和部署項(xiàng)目。

單擊”是

2.在”處理挖掘結(jié)構(gòu)-TargetedMailing”對(duì)話框中單擊“運(yùn)

行“。

”處理進(jìn)度〃對(duì)話框?qū)⒋蜷_(kāi)以顯示有關(guān)模型處理的詳細(xì)信息。模型處

理可能需要一些時(shí)間,具體取決于您的計(jì)算機(jī)。

3.模型處理完成后,在“處理進(jìn)度”對(duì)話框中單擊“關(guān)閉

4.在”處理挖掘結(jié)構(gòu)-V結(jié)構(gòu)〉〃對(duì)話框中單擊”關(guān)閉〃。

在”決策樹(shù)〃選項(xiàng)卡中瀏覽模型

1.在"數(shù)據(jù)挖掘設(shè)計(jì)器“中,選擇''挖掘模型查看器”選項(xiàng)卡。

默認(rèn)情況下,設(shè)計(jì)器將打開(kāi)添加到結(jié)構(gòu)中的第一個(gè)模型(在本例中

為T(mén)M_Decision_Tree)。

2.使用放大鏡按鈕調(diào)整樹(shù)的顯示大小。

默認(rèn)情況下,Microsoft樹(shù)查看器僅顯示樹(shù)的前三個(gè)級(jí)別。如果樹(shù)

級(jí)別不到三個(gè),則查看器僅顯示現(xiàn)有級(jí)別??梢允褂谩帮@示級(jí)別“滑

塊或''默認(rèn)擴(kuò)展〃列表查看更多級(jí)別。

3.將“顯示級(jí)別“滑到第四條。

4.將“背景“值更改為lo

通過(guò)更改“背景”設(shè)置,可以迅速查看每個(gè)節(jié)點(diǎn)中[BikeBuyer]的

目標(biāo)值為1的事例的數(shù)量。請(qǐng)注意,在這種特定的情況下,每個(gè)

事例均表示一個(gè)客戶(hù)。值1指示該客戶(hù)之前購(gòu)買(mǎi)了自行車(chē);值。

指示該客戶(hù)尚未購(gòu)買(mǎi)自行車(chē)。節(jié)點(diǎn)的底紋顏色越深,節(jié)點(diǎn)中具有目

標(biāo)值的事例所占的百分比越大。

5.將光標(biāo)放在標(biāo)記為“全部”的節(jié)點(diǎn)上。將出現(xiàn)顯示以下信息的工具

提示:

?事例總數(shù)

?非自行車(chē)購(gòu)買(mǎi)者事例的數(shù)量

?自行車(chē)購(gòu)買(mǎi)者事例的數(shù)量

?缺少[BikeBuyer]值的事例的數(shù)量

或者,將光標(biāo)放在樹(shù)中的任何節(jié)點(diǎn)上,查看從上級(jí)節(jié)點(diǎn)到達(dá)該節(jié)點(diǎn)

所需的條件。還可以在''挖掘圖例〃中查看同樣的信息。

6.單擊"Age>=34且V41〃的節(jié)點(diǎn)。直方圖將顯示為一個(gè)穿過(guò)

該節(jié)點(diǎn)的窄水平條,并表示此年齡范圍中以前買(mǎi)過(guò)自行車(chē)的客戶(hù)(粉

色)和沒(méi)有買(mǎi)過(guò)自行車(chē)的客戶(hù)(藍(lán)色)的分布情況。查看器顯示:

沒(méi)有汽車(chē)或者有一輛汽車(chē)、年齡在34到40的客戶(hù)有可能購(gòu)買(mǎi)自

行車(chē)。再進(jìn)一步考察發(fā)現(xiàn),實(shí)際年齡在38到40的客戶(hù)購(gòu)買(mǎi)自行

車(chē)的可能性會(huì)增加。

由于您在創(chuàng)建結(jié)構(gòu)和模型時(shí)啟用了鉆取,因此,可以從模型事例和挖掘

結(jié)構(gòu)中檢索詳細(xì)的信息,其中包括挖掘模型中所不包含的列(例如,

emailAddress和FirstName)。

有關(guān)詳細(xì)信息,請(qǐng)參閱針對(duì)挖掘模型和挖掘結(jié)構(gòu)使用鉆取(Analysis

Services-數(shù)據(jù)挖掘)。

口鉆取到事例數(shù)據(jù)

1.右鍵單擊某個(gè)節(jié)點(diǎn),然后依次選擇“鉆取“和”僅限模型列

每個(gè)定型事例的詳細(xì)信息將以電子表格方式顯示。這些詳細(xì)信息來(lái)

自您在生成挖掘結(jié)構(gòu)時(shí)選作事例表的vTargetMail視圖。

2.右鍵單擊某個(gè)節(jié)點(diǎn),然后依次選擇“鉆取“和”模型和結(jié)構(gòu)列

將顯示同一個(gè)電子表格,并在末尾處附加結(jié)構(gòu)列。

返回頁(yè)首

、、依賴(lài)關(guān)系網(wǎng)絡(luò)〃選項(xiàng)卡

''依賴(lài)關(guān)系網(wǎng)絡(luò)”選項(xiàng)卡顯示決定挖掘模型預(yù)測(cè)能力的各個(gè)屬性之間的

關(guān)系。依賴(lài)關(guān)系網(wǎng)絡(luò)查看器進(jìn)一步證實(shí)了我們的發(fā)現(xiàn):年齡和地區(qū)是預(yù)

測(cè)自行車(chē)購(gòu)買(mǎi)行為的重要因素。

「在"依賴(lài)關(guān)系網(wǎng)絡(luò)〃選項(xiàng)卡中瀏覽模型

1.單擊BikeBuyer節(jié)點(diǎn)以確定它的依賴(lài)關(guān)系。

依賴(lài)關(guān)系網(wǎng)絡(luò)的中間節(jié)點(diǎn)(BikeBuyer)表示挖掘模型中的可預(yù)

測(cè)屬性。粉色陰影指示所有屬性都會(huì)對(duì)自行車(chē)購(gòu)買(mǎi)行為產(chǎn)生影響。

2.調(diào)整”所有鏈接“滑塊可確定影響最大的屬性。

向下滑動(dòng)滑塊時(shí),將只保留對(duì)[BikeBuyer]列影響最大的屬性。

通過(guò)調(diào)整滑塊,可以發(fā)現(xiàn)年齡和地區(qū)是預(yù)測(cè)個(gè)人自行車(chē)購(gòu)買(mǎi)行為的

最主要因素

Microsoft聚類(lèi)分析算法將事例分組為包含類(lèi)似特征的分類(lèi)。在瀏覽數(shù)

據(jù)、標(biāo)識(shí)數(shù)據(jù)中的異常及創(chuàng)建預(yù)測(cè)時(shí)、這些分組十分有用。

Microsoft分類(lèi)查看器提供了以下選項(xiàng)卡,用于瀏覽聚類(lèi)分析挖掘模

型:

分類(lèi)關(guān)系圖

分類(lèi)剖面圖

分類(lèi)特征

分類(lèi)對(duì)比

以下部分介紹如何選擇適當(dāng)?shù)牟榭雌饕约叭绾螢g覽其他挖掘模型。

?瀏覽決策樹(shù)模型(數(shù)據(jù)挖掘基礎(chǔ)教程)

?瀏覽NaiveBayes模型(數(shù)據(jù)挖掘基礎(chǔ)教程)

小分類(lèi)關(guān)系圖〃選項(xiàng)卡

''分類(lèi)關(guān)系圖〃選項(xiàng)卡顯示挖掘模型中的所有分類(lèi)。分類(lèi)之間的線條表示

''接近程度”,其明暗度取決于分類(lèi)之間的相似程度。每個(gè)分類(lèi)的實(shí)際顏

色表示分類(lèi)中變量和狀態(tài)的出現(xiàn)頻率。

法”分類(lèi)關(guān)系圖〃選項(xiàng)卡中瀏覽模型

1,使用“挖掘模型查看器”選項(xiàng)卡頂部的“挖掘模型”列表,可切換到

TM_Clustering模型。

2.在''查看器”列表中,選擇“Microsoft分類(lèi)查看器”。

3.在“明暗度變量”框中,選擇BikeBuyer。

默認(rèn)變量是Population,但可將其更改為模型中的任意屬性,以

發(fā)現(xiàn)其包含的成員具有所需屬性的分類(lèi)。

4.在''狀態(tài)”框中選擇1,可以瀏覽那些購(gòu)買(mǎi)自行車(chē)的事例。

“密度”圖例描述了在''明暗度變量〃和''狀態(tài)〃中選定的屬性狀態(tài)對(duì)的

密度。在此示例中,明暗度最深的分類(lèi)就是自行車(chē)購(gòu)買(mǎi)者百分比最

高的分類(lèi)。

5.將鼠標(biāo)懸停在明暗度最深的分類(lèi)上。

工具提示將顯示具有BikeBuyer=1屬性的事例所占的百分

比。

6.選擇密度最高的分類(lèi),右鍵單擊該分類(lèi),然后選擇“重命名分類(lèi)”

并鍵入BikeBuyersHigh以用作日后標(biāo)識(shí)。單擊''確定"。

7.查找明暗度最淺(也就是密度最低)的分類(lèi)。右鍵單擊該分類(lèi),

然后選擇"重命名分類(lèi)”并鍵入BikeBuyersLow。單擊''確定〃。

8.單擊BikeBuyersHigh分類(lèi),并將其拖到窗格的適當(dāng)區(qū)域,

以便清楚地查看它與其他分類(lèi)的連接。

選擇某個(gè)分類(lèi)時(shí),將此分類(lèi)連接到其他分類(lèi)的線條將突出顯示,以

便您方便地查看此分類(lèi)的所有關(guān)系。如果該分類(lèi)處于未選定狀態(tài),

則可以通過(guò)線條的暗度來(lái)確定關(guān)系圖中所有分類(lèi)之間關(guān)系的緊密程

度。如果明暗度較淺或無(wú)明暗度,則表示分類(lèi)的相似程度較低。

9.使用網(wǎng)絡(luò)左側(cè)的滑塊,可篩選掉強(qiáng)度較低的鏈接,找出關(guān)系最接

近的分類(lèi)。AdventureWorksCycles市場(chǎng)部可能希望將相似的

分類(lèi)組合在一起,以便確定提供目標(biāo)郵件的最佳方法。

返回頁(yè)首

目、分類(lèi)剖面圖〃選項(xiàng)卡

”分類(lèi)剖面圖〃選項(xiàng)卡提供TM_Clustering模型的總體視圖?!狈诸?lèi)

剖面圖”選項(xiàng)卡對(duì)于模型中的每個(gè)分類(lèi)都包含一列。第一列列出至少與

一個(gè)分類(lèi)關(guān)聯(lián)的屬性。查看器的其余部分包含每個(gè)分類(lèi)的某個(gè)屬性的狀

態(tài)分布。離散變量的分布以彩色條顯示,最大條數(shù)在”直方圖條”列表中

顯示。連續(xù)屬性以菱形圖顯示,表示每個(gè)分類(lèi)中的平均偏差和標(biāo)準(zhǔn)偏差。

「在”分類(lèi)剖面圖〃選項(xiàng)卡中瀏覽模型

1.將”直方圖''條數(shù)設(shè)置為5。

在我們的模型中,任意一個(gè)變量的最大狀態(tài)數(shù)均為50

2.如果''挖掘圖例”妨礙了"屬性配置文件”的顯示,請(qǐng)移開(kāi)圖例。

3.選擇BikeBuyersHigh歹!J,并將其拖到Population歹(J

的右側(cè)。

4.選擇BikeBuyersLow歹!J,并將其拖到

BikeBuyersHigh列的右側(cè)。

5.單擊BikeBuyersHigh歹h

”變量〃列按照其對(duì)該分類(lèi)的重要性來(lái)進(jìn)行排序。滾動(dòng)瀏覽該列,查

看BikeBuyerHigh分類(lèi)的特征。例如,他們上下班路程較短的

可能性較大。

6.雙擊BikeBuyersHigh列中的Age單元格。

”挖掘圖例〃顯示更詳細(xì)的視圖,您可以看到這些客戶(hù)的年齡范圍,

也可以看到他們的平均年齡。

7.右鍵單擊BikeBuyersLow列并選擇“隱藏列“。

返回頁(yè)首

目、分類(lèi)特征〃選項(xiàng)卡

使用"分類(lèi)特征“選項(xiàng)卡,您可以更加詳細(xì)地檢查組成分類(lèi)的特征。您可

以一次瀏覽一個(gè)分類(lèi),而不是比較所有分類(lèi)的特征(就像在''分類(lèi)剖面

圖”選項(xiàng)卡中那樣)。例如,如果從''分類(lèi)”列表中選擇

BikeBuyersHigh,則可以看到此分類(lèi)中的客戶(hù)的特征。盡管顯示

方式與分類(lèi)剖面圖查看器不同,但查找結(jié)果卻是相同的。

&意:

除非設(shè)置了holdoutseed的初始值,否則在您每次處理模型時(shí),結(jié)

果都會(huì)有所不同。有關(guān)詳細(xì)信息,請(qǐng)參閱Holdoutseed元素。

返回頁(yè)首

工、分類(lèi)對(duì)比〃選項(xiàng)卡

使用"分類(lèi)對(duì)比“選項(xiàng)卡,可以瀏覽區(qū)分分類(lèi)的特征。當(dāng)您從''分類(lèi)1"

和“分類(lèi)2”列表中各選擇一個(gè)分類(lèi)后,查看器會(huì)計(jì)算這兩個(gè)分類(lèi)之間

的區(qū)別,并顯示各分類(lèi)最獨(dú)特的屬性的列表。

拉”分類(lèi)對(duì)比〃選項(xiàng)卡中瀏覽模型

1.在“分類(lèi)1”框中,選擇BikeBuyersHigho

2.在“分類(lèi)2”框中,選擇BikeBuyersLow。

3.單擊“變量“按字母順序排序。

BikeBuyersLow和BikeBuyersHigh分類(lèi)中的客戶(hù)之

間的其他一些顯著差異包括年齡、汽車(chē)擁有情況、子女?dāng)?shù)量和所在

地區(qū)。

依賴(lài)關(guān)系網(wǎng)絡(luò)

”依賴(lài)關(guān)系網(wǎng)絡(luò)”選項(xiàng)卡的工作方式與Microsoft樹(shù)查看器的”依賴(lài)關(guān)

系網(wǎng)絡(luò)”選項(xiàng)卡的工作方式相同。查看器中的每個(gè)節(jié)點(diǎn)代表一個(gè)屬性,

而節(jié)點(diǎn)之間的線條代表關(guān)系。在查看器中,您可以查看影響可預(yù)測(cè)屬性

BikeBuyer的狀態(tài)的所有屬性。

「在“依賴(lài)關(guān)系網(wǎng)絡(luò)〃選項(xiàng)卡中瀏覽模型

1,使用“挖掘模型查看器”選項(xiàng)卡頂部的“挖掘模型”列表切換到

TM_NaiveBayes模型。

2.使用“查看器“列表切換到"MicrosoftNaiveBayes查看

器”。

3.單擊BikeBuyer節(jié)點(diǎn)以確定它的依賴(lài)關(guān)系。

粉色陰影指示所有屬性都會(huì)對(duì)自行車(chē)購(gòu)買(mǎi)行為產(chǎn)生影響。

4,調(diào)整滑塊可標(biāo)識(shí)影響最大的屬性。

向下滑動(dòng)滑塊時(shí),將只保留對(duì)[BikeBuyer]列影響最大的屬性。

通過(guò)調(diào)整滑塊,可以發(fā)現(xiàn)影響最大的幾個(gè)屬性為:擁有汽車(chē)的數(shù)量、

通勤距離以及子女總數(shù)。

返回頁(yè)首

口屬性配置文件

''屬性配置文件”選項(xiàng)卡說(shuō)明輸入屬性的不同狀態(tài)如何影響可預(yù)測(cè)屬性

的結(jié)果。

嵇''屬性配置文件〃選項(xiàng)卡中瀏覽模型

1.在"可預(yù)測(cè)”框中,確認(rèn)已選中BikeBuyero

2.如果“挖掘圖例“妨礙”屬性配置文件”的顯示,請(qǐng)將它移開(kāi)。

3.在“直方圖“條框中,選擇5。

在我們的模型中,任意一個(gè)變量的最大狀態(tài)數(shù)均為

50

系統(tǒng)會(huì)列出影響該可預(yù)測(cè)屬性的狀態(tài)的屬性以及輸入屬性的每個(gè)狀

態(tài)的值及其在該可預(yù)測(cè)屬性的每個(gè)狀態(tài)中的分布。

4.在''屬性"列中,查找NumberCarsOwned0請(qǐng)注意,自行

車(chē)購(gòu)買(mǎi)者(標(biāo)為1的列)與非自行車(chē)購(gòu)買(mǎi)者(標(biāo)為0的列)的直

方圖的差異。如果一個(gè)人擁有的汽車(chē)數(shù)量為0或1,則此人很有

可能會(huì)購(gòu)買(mǎi)自行車(chē)。

5.雙擊自行車(chē)購(gòu)買(mǎi)者(標(biāo)為1的列)列中的NumberCars

Owned單元格。

"挖掘圖例”將顯示一個(gè)更為詳細(xì)的視圖。

返回頁(yè)首

口屬性特征

使用“屬性特征”選項(xiàng)卡,可以選擇屬性和值,以查看所選值事例中出現(xiàn)

其他屬性值的頻率。

整”屬性特征〃選項(xiàng)卡中瀏覽模型

1.在“屬性“列表中,確認(rèn)已選中BikeBuyero

2.將"值“設(shè)置為T(mén)。

在查看器中,您將看到,家中無(wú)子女、通勤距離較近和居住在北美

洲地區(qū)的客戶(hù)更有可能購(gòu)買(mǎi)自行車(chē)。

國(guó)屬性對(duì)比

使用“屬性對(duì)比”選項(xiàng)卡,可以調(diào)查自行車(chē)購(gòu)買(mǎi)的兩個(gè)離散值與其他屬性

值之間的關(guān)系。由于TM_NaiveBayes模型只有1和0兩個(gè)狀

態(tài),因此您無(wú)需對(duì)查看器進(jìn)行任何更改。

在查看器中,您會(huì)看到,沒(méi)有汽車(chē)的人一般會(huì)購(gòu)買(mǎi)自行車(chē),而有兩輛汽

車(chē)的人一般不會(huì)購(gòu)買(mǎi)自行車(chē)。

選擇輸入數(shù)據(jù)

測(cè)試挖掘模型準(zhǔn)確性的第一步是選擇將用于測(cè)試的數(shù)據(jù)源。您將根據(jù)測(cè)

試數(shù)據(jù)測(cè)試模型的準(zhǔn)確性,然后將它們與外部數(shù)據(jù)一起使用。

口選擇數(shù)據(jù)集

1.切換到BusinessIntelligenceDevelopmentStudio中的數(shù)

據(jù)挖掘設(shè)計(jì)器的“挖掘準(zhǔn)確性圖表”選項(xiàng)卡,并選擇“輸入選擇“選項(xiàng)

卡。

2.在"選擇要用于準(zhǔn)確性圖表的數(shù)據(jù)集〃組框中,選擇”使用挖掘結(jié)

構(gòu)測(cè)試事例”,以便使用您在創(chuàng)建挖掘結(jié)構(gòu)時(shí)保留的測(cè)試數(shù)據(jù)來(lái)測(cè)試

模型。

有關(guān)其他選項(xiàng)的詳細(xì)信息,請(qǐng)參閱測(cè)量挖掘模型準(zhǔn)確性(Analysis

Services-數(shù)據(jù)挖掘)。

。選擇模型、可預(yù)測(cè)列和值

下一步是選擇要包含在提升圖中的模型、用于比較模型的可預(yù)測(cè)列以及

要預(yù)測(cè)的值。

w注意:

''可預(yù)測(cè)列名稱(chēng)”列表中的挖掘模型列限制為用法類(lèi)型設(shè)置為Predict

或PredictOnly而且內(nèi)容類(lèi)型為Discrete或Discretized的

列。

工顯示模型的提升

1.在數(shù)據(jù)挖掘設(shè)計(jì)器的''輸入選擇”選項(xiàng)卡上,在”選擇要在提升圖

中顯示的可預(yù)測(cè)的挖掘模型列"下選中''同步預(yù)測(cè)列和值”復(fù)選框。

2.在“可預(yù)測(cè)列名稱(chēng)〃列中,確認(rèn)為每個(gè)模型都選擇了Bike

Buyero

3.在”顯示〃列中,選擇每個(gè)模型。

默認(rèn)情況下,系統(tǒng)會(huì)選中挖掘結(jié)構(gòu)中的所有模型。可以決定不包含

某一模型,但對(duì)于本教程,請(qǐng)選中所有模型。

4.在''預(yù)測(cè)值〃列中,選擇lo對(duì)于具有相同可預(yù)測(cè)列的每個(gè)模型,

將自動(dòng)填充相同的值。

5.選擇''提升圖"選項(xiàng)卡以顯示提升圖。

當(dāng)您單擊該選項(xiàng)卡時(shí),便會(huì)對(duì)服務(wù)器和數(shù)據(jù)庫(kù)的挖掘結(jié)構(gòu)和輸入表

或測(cè)試數(shù)據(jù)運(yùn)行預(yù)測(cè)查詢(xún)。結(jié)果將繪制在圖上。

輸入”預(yù)測(cè)值”時(shí),提示圖會(huì)繪制隨機(jī)推測(cè)模型和理想模型。您創(chuàng)建

的挖掘模型將處于這兩種極限情況之間,即介于隨機(jī)推測(cè)模型和精

確無(wú)誤的預(yù)測(cè)模型之間。與隨機(jī)推測(cè)相比,任何提高均被視為''提

升〃。

6,使用圖例可以查找表示理想模型和隨機(jī)推測(cè)模型的彩色線。

您將注意到TM_Decision_Tree模型提供最大的提升,其表現(xiàn)

優(yōu)于聚類(lèi)分析模型和NaiveBayes模型。

使用篩選器

通過(guò)篩選,您可以輕松地創(chuàng)建基于數(shù)據(jù)子集生成的模型。篩選器只應(yīng)用

于該模型,而且不會(huì)更改基礎(chǔ)數(shù)據(jù)源。有關(guān)如何將篩選器應(yīng)用于嵌套表

的信息,請(qǐng)參閱數(shù)據(jù)挖掘中級(jí)教程(AnalysisServices-數(shù)據(jù)挖掘)。

口事例表的篩選器

首先,您將復(fù)制TM_Decision_Tree模型。

口復(fù)制決策樹(shù)模型

1.在BusinessIntelligenceDevelopmentStudio中,在解決

方案資源管理器中選擇ASDataMining2008。

2.單擊“挖掘模型”選項(xiàng)卡。

3.右鍵單擊TM_Decision_Tree模型,然后選擇“新建挖掘模

型”。

4.在"模型名稱(chēng)"字段中,鍵入TM_Decision_Tree_Male。

5.單擊“確定

然后為模型創(chuàng)建一個(gè)篩選器,用于根據(jù)客戶(hù)的性別選擇客戶(hù)0

創(chuàng)建挖掘模型的事例篩選器

1.右鍵單擊TM_Decision_Tree_Male挖掘模型以打開(kāi)快捷

菜單。

-或-

選擇該模型。在''挖掘模型”菜單上,選擇''設(shè)置模型篩選器

2.在“模型篩選器”對(duì)話框的”挖掘結(jié)構(gòu)列”文本框中,單擊網(wǎng)格中的

第一行。

下拉列表只顯示該表中列的名稱(chēng)。

3.在''挖掘結(jié)構(gòu)列〃文本框中,選擇“性別

文本框左側(cè)的圖標(biāo)會(huì)發(fā)生改變,以指示所選項(xiàng)是表還是列。

4.單擊“運(yùn)算符”文本框,并從列表中選擇等于(=)運(yùn)算符。

5.單擊”值〃文本框,然后鍵入Mo

6.單擊網(wǎng)格中的下一行。

7.單擊“確定“關(guān)閉模型篩選器。

篩選器顯示在“屬性“窗口中。或者,您也可以從“屬性"窗口啟動(dòng)''模

型篩選器”對(duì)話框。

8.重復(fù)上述步驟,但這次應(yīng)將

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論