數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘案例分析_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘案例分析_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘案例分析_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘案例分析_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘案例分析_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、補(bǔ)充:結(jié)合電信領(lǐng)域的特點(diǎn),通過(guò)一個(gè)應(yīng)用實(shí)例來(lái)說(shuō)明數(shù)據(jù)倉(cāng)庫(kù)的具體實(shí)施。第一階段:項(xiàng)目的需求和目標(biāo)分析一主題劃分 圖1 一個(gè)簡(jiǎn)單的電信企業(yè)模型 在電信企業(yè)中,現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)一般包括客戶服務(wù)DB、網(wǎng)管DB、計(jì)費(fèi)DB、賬務(wù)DB、市場(chǎng)信息DB、營(yíng)銷信息DB等。通常按照電信公司的業(yè)務(wù)需求可能將其主題域劃分為:1客戶發(fā)展:主要是對(duì)客戶群體進(jìn)行分類后,從不同的角度展現(xiàn)公司提供服務(wù)的客戶數(shù)量情況??梢园凑湛蛻舯旧淼淖匀粚傩裕ㄈ缒挲g、入網(wǎng)時(shí)間、受教育程度等)、客戶的擴(kuò)展屬性(如信用度、客戶價(jià)值、流失概率、挽留價(jià)值等)等不同的角度進(jìn)行劃分。2收益分析:主要是通過(guò)不同的角度對(duì)電信企業(yè)的收益情況進(jìn)行分析。收益分析

2、的角度可以按照客戶的自然屬性和擴(kuò)展屬性劃分,也可以按照電信公司的業(yè)務(wù)運(yùn)營(yíng)進(jìn)行劃分,還可以按照機(jī)構(gòu)設(shè)置、地理角度對(duì)收益進(jìn)行劃分。3呼叫特征分析:分析不同類型客戶在呼叫上具有的特征。具體的衡量指標(biāo)包括很多,例如:把呼叫分成長(zhǎng)呼叫、中呼叫、短呼叫。 4業(yè)務(wù)發(fā)展:主要是對(duì)電信公司提供的各種業(yè)務(wù)的使用客戶人數(shù)、客戶特征、收益金額進(jìn)行比較,以發(fā)現(xiàn)具有潛力的業(yè)務(wù)或者為開(kāi)展能夠吸引更多客戶的新業(yè)務(wù)提供指導(dǎo)。 5營(yíng)銷管理:主要是對(duì)各電信營(yíng)業(yè)廳、電信分銷商、代銷商的經(jīng)營(yíng)狀況進(jìn)行分析。 6市場(chǎng)競(jìng)爭(zhēng):主要是對(duì)電信運(yùn)營(yíng)商的競(jìng)爭(zhēng)對(duì)手的客戶發(fā)展、收益、業(yè)務(wù)運(yùn)營(yíng)等多方面的信息進(jìn)行收集并分析,從而為本企業(yè)提供市場(chǎng)競(jìng)爭(zhēng)的策略。其

3、中涉及的數(shù)據(jù)主要是外部數(shù)據(jù)和非格式化數(shù)據(jù)。 7服務(wù)質(zhì)量:主要包括發(fā)現(xiàn)客戶投訴、咨詢的焦點(diǎn),發(fā)現(xiàn)公司內(nèi)部在運(yùn)營(yíng)上存在的問(wèn)題等。 8網(wǎng)絡(luò)優(yōu)化管理:分析如何有優(yōu)化網(wǎng)絡(luò)的配置、如何更好的對(duì)網(wǎng)絡(luò)進(jìn)行管理等問(wèn)題。二電信領(lǐng)域常見(jiàn)的數(shù)據(jù)挖掘?qū)哟蔚膯?wèn)題1客戶群體劃分:客戶群具有兩個(gè)金字塔(占總客戶數(shù)10%的大客戶的消費(fèi)金額占了總客戶消費(fèi)金額的70%)。對(duì)客戶群體進(jìn)行合理的劃分,有利于公司了解一下信息:l 公司的主要客戶群體的情況;l 主要客戶群體的呼叫特征行為;l 主要客戶群體對(duì)業(yè)務(wù)的需求;l 大客戶群體的呼叫特征行為;l 大客戶群體對(duì)業(yè)務(wù)的需求;在對(duì)客戶進(jìn)行合理劃分的基礎(chǔ)上,可以針對(duì)不同客戶群體的特點(diǎn)采用不同

4、的策略,對(duì)其消費(fèi)行為進(jìn)行合理的引導(dǎo)。(可以采用聚類或分類的方法)2客戶流失劃分:挽留一個(gè)老客戶比爭(zhēng)取一個(gè)新客戶付出的代價(jià)要小得多。 3客戶欺詐分析:主要針對(duì)可能出現(xiàn)的客戶惡意欠費(fèi)問(wèn)題進(jìn)行分析。 4網(wǎng)絡(luò)規(guī)劃優(yōu)化 5網(wǎng)管中的分析問(wèn)題:網(wǎng)絡(luò)優(yōu)化、網(wǎng)管故障的相關(guān)性分析、統(tǒng)計(jì)設(shè)備的故障率等。三項(xiàng)目規(guī)劃在項(xiàng)目初期,應(yīng)當(dāng)選擇當(dāng)前最急需、能在較短時(shí)間內(nèi)發(fā)生效益、業(yè)務(wù)模型清晰、能從現(xiàn)有系統(tǒng)或通過(guò)其他方式獲取數(shù)據(jù)的決策目標(biāo)作為系統(tǒng)初期的任務(wù)。在后續(xù)階段,根據(jù)新的需求、現(xiàn)有系統(tǒng)的改造情況、積累的經(jīng)驗(yàn)確定新的決策目標(biāo),逐步發(fā)展完善數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。在建設(shè)初期,可以將以下五個(gè)主題列在前期任務(wù)考慮之內(nèi)??蛻舭l(fā)展分析收益情況分

5、析呼叫特征分析營(yíng)銷管理分析業(yè)務(wù)發(fā)展分析作為螺旋開(kāi)發(fā)的第一個(gè)循環(huán),建議先將客戶發(fā)展、收益分析、呼叫特征分析列入第一階段的任務(wù)。四需求分析的形成 1任務(wù)說(shuō)明書(shū):在任務(wù)書(shū)中,指明了DW中涉及的主題有3個(gè):客戶發(fā)展、收益分析、呼叫特征分析。在DM層次上,需要完成對(duì)客戶的流失概率、客戶價(jià)值、客戶挽留價(jià)值進(jìn)行合理的評(píng)估。 2需求說(shuō)明書(shū):任務(wù)說(shuō)明書(shū)需要設(shè)計(jì)人員進(jìn)一步將其細(xì)化成需求說(shuō)明書(shū)。在進(jìn)行需求分析的時(shí)候,設(shè)計(jì)人員最少應(yīng)當(dāng)訪問(wèn)如下的幾類人: (1)項(xiàng)目負(fù)責(zé)人:對(duì)整個(gè)項(xiàng)目的宏觀目標(biāo)和方向有比較準(zhǔn)確的把握,對(duì)DW項(xiàng)目有全境式的認(rèn)識(shí)。 (2)主題涉及部門的管理人員:了解部門內(nèi)部對(duì)數(shù)據(jù)的需求。使得設(shè)計(jì)人員能夠站在

6、管理人員對(duì)數(shù)據(jù)需求的角度來(lái)看問(wèn)題,而不是站在技術(shù)的角度看問(wèn)題。 (3)DSS分析員和未來(lái)使用DW系統(tǒng)的最終用戶:從他們那里了解他們目前是如何為管理層提供決策輔助信息的,提供信息的內(nèi)容包括哪些,信息的來(lái)源有哪些,在處理數(shù)據(jù)中遇到的棘手問(wèn)題有哪些,另一方面是他們對(duì)DW系統(tǒng)的需求和希望,并可以從最終用戶那里了解比較細(xì)致的需求。 (4)企業(yè)的信息技術(shù)人員,包括數(shù)據(jù)管理人員(對(duì)數(shù)據(jù)質(zhì)量進(jìn)行管理的人員,不是DBA)、數(shù)據(jù)庫(kù)管理員、數(shù)據(jù)庫(kù)設(shè)計(jì)人員、程序員:從他們那里了解現(xiàn)有業(yè)務(wù)系統(tǒng)是如何構(gòu)造的、現(xiàn)有系統(tǒng)的運(yùn)行情況、現(xiàn)有系統(tǒng)中存在哪些問(wèn)題、應(yīng)該從哪兒獲取需要的數(shù)據(jù)。 各類人員同項(xiàng)目需求的關(guān)系如下圖所示: 設(shè)計(jì)

7、人員需要將從上述人員那兒了解到的信息進(jìn)行歸納總結(jié),權(quán)衡各方面的因素,最終給出一個(gè)比較具體的功能需求描述。下表給出一個(gè)收益分析主題的功能需求分析例子。收益分析不同時(shí)期的收入總量分析及預(yù)測(cè)。收益結(jié)構(gòu)分析(月租費(fèi)、本地話費(fèi)、漫游費(fèi)、入網(wǎng)費(fèi)、卡費(fèi)等)功能名稱功能描述度量涉及維度維成員品牌和業(yè)務(wù)構(gòu)成收益的品牌構(gòu)成各種品牌在企業(yè)總收益中所占比重和數(shù)量收益、收益百分比品牌神州行、全球通收益的業(yè)務(wù)構(gòu)成各項(xiàng)業(yè)務(wù)在企業(yè)總收益中所占比重和數(shù)量收益、收益百分比業(yè)務(wù)類別通話、短信息呼叫特征企業(yè)收益的主/被叫構(gòu)成主叫、被叫對(duì)于企業(yè)收益的貢獻(xiàn)收益、收益百分比主/被叫主叫、被叫企業(yè)收益的呼叫類型構(gòu)成長(zhǎng)途、漫游、本地對(duì)于企業(yè)收

8、益的貢獻(xiàn)收益、收益百分比通話類型長(zhǎng)途、漫游、本地企業(yè)收益的呼叫時(shí)長(zhǎng)構(gòu)成不同時(shí)長(zhǎng)的呼叫對(duì)于企業(yè)收益的貢獻(xiàn)收益、收益百分比呼叫時(shí)長(zhǎng)1分鐘以下15分鐘510分鐘10分鐘以上等客戶特征企業(yè)收益的客戶性別構(gòu)成不同性別客戶對(duì)于企業(yè)收益的貢獻(xiàn)收益、收益百分比、客戶數(shù)量客戶性別男女未知企業(yè)收益的客戶年齡構(gòu)成不同年齡段客戶對(duì)于企業(yè)收益的貢獻(xiàn)收益、收益百分比、客戶數(shù)量客戶年齡段18以下1822。企業(yè)收益的大客戶構(gòu)成大客戶和普通客戶對(duì)于企業(yè)收益的貢獻(xiàn)收益、收益百分比是否大客戶維大客戶普通客戶企業(yè)收益的客戶類型構(gòu)成企業(yè)收益客戶類型的百分比構(gòu)成客戶數(shù)量、百分比客戶類型單位、個(gè)人企業(yè)收益的不同在網(wǎng)時(shí)間客戶構(gòu)成不同在網(wǎng)時(shí)間

9、客戶對(duì)于企業(yè)收益的貢獻(xiàn)收益、收益百分比、客戶數(shù)量在網(wǎng)時(shí)間維一年以下12年。企業(yè)收益的客戶信用積分構(gòu)成。收益、收益百分比、客戶數(shù)量客戶信用積分根據(jù)數(shù)據(jù)的具體分布企業(yè)收益的客戶信用度層次構(gòu)成。信用度客戶信用度按照挖掘后的結(jié)果進(jìn)行劃分企業(yè)收益的客戶消費(fèi)層次構(gòu)成。收益、收益百分比、客戶數(shù)量客戶消費(fèi)層次按照挖掘后的結(jié)果進(jìn)行劃分企業(yè)收益的客戶離網(wǎng)概率層次構(gòu)成。收益、收益百分比、客戶數(shù)量客戶離網(wǎng)概率層次按照挖掘后的結(jié)果進(jìn)行劃分企業(yè)收益的客戶挽留價(jià)值層次構(gòu)成。收益、收益百分比、客戶數(shù)量客戶挽留價(jià)值層次按照挖掘后的結(jié)果進(jìn)行劃分企業(yè)收益的客戶價(jià)值層次構(gòu)成。收益、收益百分比、客戶數(shù)量客戶價(jià)值層次按照挖掘后的結(jié)果進(jìn)行

10、劃分企業(yè)收益中小客戶成為大客戶概率層次構(gòu)成。收益、收益百分比、客戶數(shù)量中小客戶成為大客戶概率層次按照挖掘后的結(jié)果進(jìn)行劃分欠費(fèi)情況和預(yù)測(cè)欠繳費(fèi)比例。金額(收益)、金額百分比、客戶數(shù)量、客戶數(shù)量百分比欠繳費(fèi)欠費(fèi)、繳費(fèi)不同時(shí)期的企業(yè)欠費(fèi)金額。欠費(fèi)金額時(shí)間月、季、半年、年不同時(shí)期的企業(yè)欠費(fèi)數(shù)量。欠費(fèi)客戶數(shù)量時(shí)間月、季、半年、年收益預(yù)測(cè)話費(fèi)收益預(yù)測(cè)。短信費(fèi)收益預(yù)測(cè)。不同時(shí)期的企業(yè)收益情況。收益收益/欠費(fèi)百分比時(shí)間月、季、半年、年在完成功能需求后,可以用一個(gè)數(shù)據(jù)搜集報(bào)告把所需的不同的數(shù)據(jù)源的屬性列出來(lái)。此報(bào)告至少包含如下的內(nèi)容:l 數(shù)據(jù)源(內(nèi)/外部數(shù)據(jù)源)l 負(fù)責(zé)維護(hù)此數(shù)據(jù)的個(gè)人/組織l 設(shè)計(jì)該數(shù)據(jù)庫(kù)的D

11、BAl 數(shù)據(jù)使用的存儲(chǔ)方式l 數(shù)據(jù)中包含的表、字段、記錄的數(shù)據(jù)l 數(shù)據(jù)的大小l 數(shù)據(jù)的物理存儲(chǔ)介質(zhì)l 安全需求l 數(shù)據(jù)在使用上的限制l 數(shù)據(jù)是否涉及用戶的隱私問(wèn)題 數(shù)據(jù)描述報(bào)告中應(yīng)包含如下內(nèi)容:l 字段/列的數(shù)據(jù)l 字段是空缺值的數(shù)據(jù)/百分比l 字段的名字對(duì)于每個(gè)字段,通常需要記錄:l 數(shù)據(jù)類型l 數(shù)據(jù)定義l 數(shù)據(jù)描述l 計(jì)量單位l 所有不同值的個(gè)數(shù)l 值的列表l 值的范圍l 空值的百分比l 收集信息(例如怎么得到、在哪、什么條件下)l 時(shí)間頻度(每天、每周、每月)l 特別時(shí)間數(shù)據(jù)l 主鍵/外鍵關(guān)系第二階段 系統(tǒng)結(jié)構(gòu)和模型設(shè)計(jì)一系統(tǒng)結(jié)構(gòu)設(shè)計(jì) 1數(shù)據(jù)量的估算 2系統(tǒng)硬件結(jié)構(gòu)/軟件結(jié)構(gòu)選擇:根據(jù)數(shù)

12、據(jù)量的估算,選擇相應(yīng)的軟硬件配制。二DW模型的設(shè)計(jì) 1可利用的數(shù)據(jù):要確定完成以上3個(gè)主題,需要3部分信息:l 客戶的基本信息表l 客戶的賬單l 客戶的呼叫信息表(CDR表) 2粒度的確定:設(shè)計(jì)DW中,最重要的步驟。l 對(duì)于客戶基本信息表采用單一的數(shù)據(jù)粒度即可。l 對(duì)于客戶的賬務(wù)信息也采用單一的數(shù)據(jù)粒度。但是要增加合適的時(shí)間段和合適的導(dǎo)出數(shù)據(jù)(按季度綜合、按年度綜合)l 對(duì)于客戶的呼叫信息采用雙重粒度:對(duì)于近34個(gè)月的細(xì)節(jié)呼叫/計(jì)費(fèi)數(shù)據(jù),保留在DW中,并定期聚合成按月綜合表,然后將細(xì)節(jié)數(shù)據(jù)導(dǎo)出至磁帶設(shè)備,為新的細(xì)節(jié)數(shù)據(jù)騰出空間。 3定義DW的關(guān)系模式:這個(gè)過(guò)程需要第二階段形成的數(shù)據(jù)搜集報(bào)告進(jìn)行

13、記錄系統(tǒng)的定義。所謂記錄系統(tǒng)的定義就是指明DW中關(guān)系表各個(gè)字段來(lái)源于哪個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)的哪張表的哪個(gè)字段。還需要建立一個(gè)數(shù)據(jù)字典,將問(wèn)題中涉及的關(guān)鍵詞語(yǔ)的含義、在字段命名中將采用什么關(guān)鍵字等信息記載在數(shù)據(jù)字典中。 三OLAP模型設(shè)計(jì) OLAP模型設(shè)計(jì)的思路是先分析問(wèn)題中可能涉及的所有維度,針對(duì)每一個(gè)主題確定需要的維度和度量變量,然后為每一個(gè)主題定義關(guān)系模式,從而形成一個(gè)星型結(jié)構(gòu)。在這個(gè)星型結(jié)構(gòu)的基礎(chǔ)上,可以生成多維數(shù)據(jù)表,建立多維數(shù)據(jù)庫(kù)。 1項(xiàng)目設(shè)計(jì)的維度分析l 靜態(tài)維度:指客戶詳細(xì)資料維、狀態(tài)維、年齡段維、品牌維等不經(jīng)常發(fā)生變化的緯度。靜態(tài)維度并不一定是完全不變的,只是相對(duì)動(dòng)態(tài)維度而言。l 動(dòng)態(tài)

14、維度:指經(jīng)常會(huì)發(fā)生變化的維度,例如客戶的呼叫地理維度、呼叫時(shí)間維度、客戶的費(fèi)用層次緯度,這些維信息都將隨著時(shí)間的變化而變化。l 目標(biāo)維度:需要通過(guò)數(shù)據(jù)挖掘分析的目標(biāo)。根據(jù)項(xiàng)目任務(wù)書(shū)中,我們主要的目標(biāo)有分析客戶的價(jià)值、客戶的流失概率、客戶的挽留價(jià)值、客戶的信用度等。這些維度在進(jìn)行DM之前是空缺的,在進(jìn)行DM之后,利用DM的模型給這幾個(gè)指標(biāo)打分,然后在將這些數(shù)據(jù)補(bǔ)充回OLAP的維表和事實(shí)表中,供數(shù)據(jù)展現(xiàn)使用。 2各個(gè)主題的維度設(shè)計(jì):以收益分析主體的維度設(shè)計(jì)說(shuō)明書(shū)為例:模型名稱: 收益分析模塊功能: 用于企業(yè)收益構(gòu)成分析對(duì)應(yīng)的事實(shí)表:profit_s度量: 收益,每個(gè)用戶賬單記錄產(chǎn)生的總費(fèi)用金額數(shù)據(jù)

15、粒度: 在事實(shí)表中,記錄每個(gè)用戶每月的費(fèi)用信息。事實(shí)表存放5年之內(nèi)的數(shù)據(jù),5年以上的數(shù)據(jù)按時(shí)間(月)進(jìn)行匯總后從事實(shí)表中導(dǎo)出。相關(guān)的維度:(1)客戶詳細(xì)資料維(2)客戶性別維(3)客戶年齡段維(4)品牌維(5)收益類別維(6)通話類型維(7)是否大客戶維(8)月總呼叫次數(shù)層次維(9)平均呼叫時(shí)長(zhǎng)層次維(10)信用積分維(11)信用度層次維(12)消費(fèi)層次維(13)離網(wǎng)概率層次維(14)挽留價(jià)值層次維(15)價(jià)值層次維(16)時(shí)間維(17)客戶類型維(18)在網(wǎng)時(shí)間維 注釋:以上各維均與客戶相關(guān),用于分析不同客戶群體對(duì)企業(yè)收益的貢獻(xiàn),維的層次和元素與客戶數(shù)量分析模型中相同。收益分析主題的星型結(jié)構(gòu)

16、如下:第三部分 系統(tǒng)裝載、數(shù)據(jù)挖掘和界面設(shè)計(jì)一數(shù)據(jù)裝載/數(shù)據(jù)綜合模塊設(shè)計(jì) 數(shù)據(jù)裝載模塊負(fù)責(zé)從業(yè)務(wù)系統(tǒng)的數(shù)據(jù)表中提取、清洗數(shù)據(jù)以及轉(zhuǎn)化格式變?yōu)镈W中的細(xì)節(jié)表。 數(shù)據(jù)綜合模塊利用裝載模塊生成的細(xì)節(jié)表生成各個(gè)綜合層次的數(shù)據(jù)表和導(dǎo)出表。 在進(jìn)行數(shù)據(jù)裝載模塊設(shè)計(jì)時(shí),需要注意以下幾個(gè)問(wèn)題:l 定義良好的數(shù)據(jù)清洗規(guī)則:數(shù)據(jù)質(zhì)量的重要保證l 注重代碼的模塊化和重用性、可維護(hù)性。l 提高代碼的處理效率l 制定一個(gè)調(diào)度計(jì)劃:不同的裝載程序需要在不同的時(shí)間運(yùn)行,設(shè)計(jì)人員需要根據(jù)實(shí)際系統(tǒng)的情況,確定一個(gè)合理的數(shù)據(jù)抽取計(jì)劃,并在DW管理工具中實(shí)施這個(gè)調(diào)度計(jì)劃。二OLAP模型生成程序OLAP模型生成模塊利用DW中的數(shù)據(jù)構(gòu)

17、建維表和事實(shí)表(通常先實(shí)現(xiàn)一個(gè)主題)。如果需要?jiǎng)?chuàng)建多維數(shù)據(jù)庫(kù),則需要將維表和事實(shí)表連接后生成一張?jiān)敿?xì)的多維數(shù)據(jù)表,然后在這張多維數(shù)據(jù)表的基礎(chǔ)上創(chuàng)建多維數(shù)據(jù)庫(kù)。三數(shù)據(jù)挖掘?qū)挶碓O(shè)計(jì)和生成 要進(jìn)行DM,需要將所有能夠收集的對(duì)分析有用的信息組織成一張非?!皩挕钡臄?shù)據(jù)表,將這張表稱為數(shù)據(jù)挖掘?qū)挶怼?1首先確定同目標(biāo)變量相關(guān)的數(shù)據(jù):通常需要向該方面的分析專家請(qǐng)教。 2創(chuàng)建新變量:即對(duì)細(xì)節(jié)數(shù)據(jù)要進(jìn)行一定程度的綜合,比原始細(xì)節(jié)數(shù)據(jù)更具有現(xiàn)實(shí)意義。 3準(zhǔn)備訓(xùn)練集合與驗(yàn)證集合l 數(shù)據(jù)質(zhì)量的檢驗(yàn)l 選擇合適的數(shù)據(jù)抽樣方法l 為目標(biāo)變量附上初始值:目的是為模型準(zhǔn)備訓(xùn)練/驗(yàn)證數(shù)據(jù)集合,這些初始值并不是最終的結(jié)果。l 根

18、據(jù)算法的需要,對(duì)寬表中的變量,特別是目標(biāo)變量的形式進(jìn)行轉(zhuǎn)化:常常將目標(biāo)變量轉(zhuǎn)化成布爾型變量。例如將目標(biāo)變量“客戶流失概率”轉(zhuǎn)化為新的目標(biāo)變量“是否流失”。4 確定分析的次序:由于目標(biāo)變量之間存在相關(guān)性,因此需要確定分析的次序。5 變量選擇:在準(zhǔn)備好數(shù)據(jù)訓(xùn)練/驗(yàn)證集后,需要將同目標(biāo)變量具有強(qiáng)相關(guān)性的變量去除。例如:我們要分析客戶價(jià)值,就需要將計(jì)算客戶價(jià)值公式中出現(xiàn)的變量去除,否則DM工具將直接在這些變量和目標(biāo)變量間建立關(guān)系,而不是我們所希望的通過(guò)劃分客戶是否高價(jià)值客戶來(lái)發(fā)現(xiàn)高價(jià)值客戶在呼叫行為、消費(fèi)行為、背景信息上的特征。6 挖掘建模:將訓(xùn)練/驗(yàn)證集合作為輸入數(shù)據(jù),利用挖掘工具/算法進(jìn)行建模。模型通常是以一個(gè)數(shù)據(jù)處理程序的形式給出的。使用模型程序?qū)挶碇械乃袛?shù)據(jù)進(jìn)行處理就得到了模型對(duì)目標(biāo)變量的評(píng)定。7 模型的維護(hù)和完善:數(shù)據(jù)挖掘模型得建立不是一勞永逸得事,模型需要每隔一段時(shí)間重新建立一次。另外,隨著數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目得不斷發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)可以為數(shù)據(jù)挖掘提供更為完善的數(shù)據(jù),因此還需要將新的數(shù)據(jù)內(nèi)容補(bǔ)充進(jìn)數(shù)據(jù)挖掘?qū)挶?,以建立更好的模型。四?chuàng)建多維數(shù)據(jù)庫(kù)模塊設(shè)計(jì)通過(guò)DM后,需要將得到的目標(biāo)維度數(shù)值填寫進(jìn)空缺的目標(biāo)維表中,然后建立多維DB,供展現(xiàn)工具使用。1將星型結(jié)構(gòu)中的維表和事實(shí)表進(jìn)行連接,生成一張多維數(shù)據(jù)表2結(jié)合功能需求和最終數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論