[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營(yíng)分析系統(tǒng)中的研究與應(yīng)用.pdf_第1頁(yè)
[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營(yíng)分析系統(tǒng)中的研究與應(yīng)用.pdf_第2頁(yè)
[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營(yíng)分析系統(tǒng)中的研究與應(yīng)用.pdf_第3頁(yè)
[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營(yíng)分析系統(tǒng)中的研究與應(yīng)用.pdf_第4頁(yè)
[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營(yíng)分析系統(tǒng)中的研究與應(yīng)用.pdf_第5頁(yè)
已閱讀5頁(yè),還剩69頁(yè)未讀 繼續(xù)免費(fèi)閱讀

[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營(yíng)分析系統(tǒng)中的研究與應(yīng)用.pdf.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

南京郵i u 人學(xué) 峽l j :l i j f 究生學(xué)位論義 捅要 隨著國(guó)內(nèi)電信市場(chǎng)競(jìng)爭(zhēng)的同趨激烈,電信運(yùn)營(yíng)商的經(jīng)營(yíng)模式逐漸從“業(yè)務(wù)驅(qū)動(dòng)向 “客戶驅(qū)動(dòng)”轉(zhuǎn)化、從“粗放式經(jīng)營(yíng)向“精確化管理轉(zhuǎn)變。為了更好地做到對(duì)企業(yè)的 決策支持,經(jīng)營(yíng)分析系統(tǒng)孕育而生。本文的目標(biāo)是在電信經(jīng)營(yíng)分析系統(tǒng)下,研究數(shù)據(jù)的處 理流程,重點(diǎn)研究數(shù)據(jù)挖掘理論與技術(shù)在系統(tǒng)中的應(yīng)用。 本文首先簡(jiǎn)要概述數(shù)據(jù)挖掘的概念、挖掘過(guò)程模型、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘分類、常 用技術(shù)、熱點(diǎn)研究方向,以及數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和o l a p 之間的關(guān)系:接著 介紹經(jīng)營(yíng)分析系統(tǒng)中客戶細(xì)分所應(yīng)用的數(shù)據(jù)挖掘技術(shù)一一聚類算法,包括聚類的定義、算 法的要求、主要的聚類方法以及k - m e a n s 算法原型和改進(jìn)方向,并著重介紹基于k - d 樹的 改進(jìn)k - m e a n s 算法:然后對(duì)電信經(jīng)營(yíng)分析系統(tǒng)進(jìn)行概述,主要涉及該系統(tǒng)的建設(shè)背景、功 能架構(gòu)、數(shù)據(jù)挖掘技術(shù)在系統(tǒng)中的實(shí)際應(yīng)用,并結(jié)合數(shù)據(jù)倉(cāng)庫(kù)、o l a p 、數(shù)據(jù)挖掘在系統(tǒng)中 的定位對(duì)系統(tǒng)中的核心數(shù)據(jù)處理流程進(jìn)行詳細(xì)介紹。 本文第5 章( 核心章節(jié)) 根據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)挖掘過(guò)程模型c r i s p - d m 、應(yīng)用改進(jìn)的初始 聚類中心選取方法和基于k d 樹的改進(jìn)k - m e a n s 算法對(duì)某地電信公司經(jīng)營(yíng)分析系統(tǒng)的客戶 細(xì)分過(guò)程進(jìn)行詳細(xì)的描述。首先是電信客戶信息的組成、數(shù)據(jù)挖掘的基礎(chǔ)一寬表結(jié)構(gòu)等的 介紹,接著給出聚類模型的整體結(jié)構(gòu)、各主要模塊功能及處理流程,并從業(yè)務(wù)上對(duì)細(xì)分的 結(jié)果進(jìn)行解釋和特征描述,給出相關(guān)的營(yíng)銷建議,起到?jīng)Q策支持的作用。最后結(jié)合實(shí)驗(yàn)數(shù) 據(jù),分析改進(jìn)算法的參數(shù)設(shè)置問(wèn)題,驗(yàn)證改進(jìn)的k - m e a n s 算法相比標(biāo)準(zhǔn)的k - m e a n s 算法在 效率上和穩(wěn)定性上都有較大提升;同時(shí)針對(duì)本文算法中的不足提出進(jìn)一步的改進(jìn)意見(jiàn)。 關(guān)鍵詞:數(shù)據(jù)挖掘、c r i s p d m 、電信經(jīng)營(yíng)分析系統(tǒng)、客戶細(xì)分、k - d 樹,k - m e a n s 算法 南京郵電大學(xué)碩一i :研究生學(xué)位論文 a bs t r a c t a st h ee n h a n c e m e n to fc o m p e t i t i o ni nt e l e c o mm a r k e t ,t h em a n a g e m e n tp a t t e r no fc h i n at e l e c o mh a s c h a n g e df r o m “b u s i n e s s o r i e n t e d t o “c u s t o m o r i e n t e d ”,f r o m e x t e n s i v em a n a g e m e n t t o a c c u r a t e m a n a g e m e n t ”i no r d e rt os u p p o r td e c i s i o n m a k i n ge f f e c t i v e l y , t h et e l e c o mm a n a g e - a n a l y s i ss y s t e mh a sb e e n b u i l du p t h ep a p e rr e s e a r c hh o wd a t ai sd e a lw i t hi nt h es y s t e ma n dt h em o s ti m p o r t a n to n ei st h ea p p l i c a t i o n o fd a t am i n i n gi nt h es y s t e m f i r s t l y , s o m eb a c k g r o u n dk n o w l e d g ei ss u m m a r i z e db r i e f l yi nt h ef r o n to ft h ep a p e li n c l u d i n gt h e c o n c e p t i o no fd a t am i n i n g 、t h ep r o c e s so fd a t am i n i n gm o d e l 、t h ec l a s s i f i c a t i o no ft e c h n o l o g ya b o u td a t a m i n i n g 、t h er e l a t i o n s h i po fd a mm i n i n ga n dd a t aw a r e h o u s e 、t h er e l a t i o n s h i po fd a t am i n i n ga n do l a p ;a n d t h e ns o m e t h i n ga b o u to n et e c h n o l o g yo fd a t am i n i n g c l u s t e ra n a l y s i si s i n t r o d u c e d ,s u c ha sd e f i n i t i o n 、t h e r e q u i r e m e n to ft h ea l g o r i t h m 、s o m em e t h o d so fc l u s t e ra n a l y s i s 、k - m e a n sa l g o r i t h mw h i c hi su s e df r e q u e n t l yi n c l u s t e ra n a l y s i sa n dam o r ee f f e c t i v ek - m e a n sa l g o r i t h mb a s e do nk - dt r e e ;s u b s e q u e n t l y , t h et e l e c o m m a n a g e - a n a l y s i ss y s t e mi sr e c o m m e n d e db r i e f l y , i n c l u d i n gt h eb a c k g r o u n d 、s t r u c t u r eo ft h es y s t e m 、t h e a p p l i c a t i o no f d a t am i n i n gi nt h es y s t e m ,t h ee m p h a s e so f t h ep a r ti st h ec o r ep r o c e s so f d e a l i n gw i t hd a t a 。 l a s t l y ,a c c o r d i n gt ot h es t a n d a r dp r o c e s sm o d e lo fd a t am i n i n g - c r i s p - d m ,t h ep r o c e s so fc u s t o m e r s e g m e n t a t i o nw h i c hu s e sk - m e a n sa l g o r i t h mb a s e do nk dt r e ei sr e s e a r c h e dd e e p l y ,a n dt h ed e t a i l si n v o l v e t h es t r u c t u r eo fc l u s t e r i n gm o d e l 、t h ef u n c t i o n 、r e a l i z a t i o no fe a c hm o d u l e t h er e s u l ta b o u tt h ec o m p a r e b e t w e e ns t a n d a r dk - m e a n sa l g o r i t h ma n dk - m e a n sa l g o r i t h mb a s e do nk dt r e e 、t h ee x p l a n a t i o no fc u s t o m e r s e g m e n t a t i o nr e s u l ta n ds o m ea d v i c eb a s e do na n a l y s i sa r eg i v e no u ti nt h ee n do ft h ep a p e ra n dk - m e a n s a l g o r i t h mb a s e d0 1 1k - dt r e ei sp r o v e dm o r ee f f e c t i v ea c c o r d i n gt ot h er e s u l t k e y w o r d s :d a t am i n i n g 、c r i s p d m 、t e l e c o mm a n a g e a n a l y s i ss y s t e m 、c u s t o m e r s e g m e n t a tio n 、k - dt r e e 、k - m e a n s n 南京| | l l j i u 人學(xué)f 哆! i j 研究生學(xué)位論文 縮略詞 縮略詞英文全稱譯文 o l a p o n - l i n ea n a l y t i c a lp r o c e s s i n g 聯(lián)機(jī)分析處理 d md a t am i n i n g 數(shù)據(jù)挖掘 d wd a t aw a r e h o u s e 數(shù)據(jù)倉(cāng)庫(kù) e t l e x t r a c t i o n 、t r a n s f o r m a t i o n 、 抽取、轉(zhuǎn)換和加載 l o a d i n g 0 d s o p e r a t i o n a ld a t as t o r e操作數(shù)據(jù)倉(cāng)儲(chǔ) k p i k e yp e r f o i t n a n c ei n d i c a t o r關(guān)鍵績(jī)效指標(biāo) g u i g r a p h i c a lu s e ri n t e r f a c e圖形用戶接口 a p i a p p l i c a t i o np r o g r a m m i n g應(yīng)用程序接口 i n t e r f a c e a i 沖u a v e r a g er e v e n u ep e ru s e r每用戶平均收入 b s sb u s i n e s ss u p p o r ts y s t e m 業(yè)務(wù)支撐系統(tǒng) o s s o p e r a t i n gs u p p o r ts y s t e m運(yùn)營(yíng)支撐系統(tǒng) m s s m a n a g e m e n ts u p p o r ts y s t e m 管理與經(jīng)營(yíng)支撐系統(tǒng) 6 7 南京郵電人學(xué)碩l :f f 究生學(xué)位論義 圖表清單 圖2 - 1 數(shù)據(jù)挖掘和各學(xué)科之闖褶互滲透的關(guān)系。3 圖2 2 數(shù)據(jù)挖掘庫(kù)從數(shù)據(jù)倉(cāng)庫(kù)中得出一5 圖2 3 數(shù)據(jù)挖掘庫(kù)從操作犁數(shù)據(jù)庫(kù)巾得出5 圖2 - 4o r l s p - d m 模顰7 圖3 一lk d 樹結(jié)構(gòu),j 例2 0 圖3 2k - d 樹對(duì)二維空間的劃分2 0 圖4 1 經(jīng)營(yíng)分析系統(tǒng)架構(gòu)圖2 5 圖4 2 數(shù)據(jù)倉(cāng)庫(kù)中的客戶模型3 0 圖4 3 客戶信息構(gòu)成圖3 l 圖4 4c o g n o s 中收入分析展現(xiàn),3 2 圖4 5 數(shù)據(jù)挖掘往經(jīng)營(yíng)分析巾的應(yīng)用3 2 圖5 一l 客戶信息處理流程3 7 圖5 2 聚類算法流程圖3 9 圖5 - 3 各函數(shù)之間的調(diào)用關(guān)系4 l 圖5 - 4k - d 樹構(gòu)造流稃圖4 4 圖5 5k - d 樹遍歷流程圖4 7 圖5 - 6 在維坐標(biāo)r f l 最小距離計(jì)算的二二種不同情況4 8 圖5 7 p r u n i n g 函數(shù)流程圖一5 0 圖5 - 8 葉節(jié)點(diǎn)聚類流程圖5 2 圖5 9 聚類結(jié)果中各個(gè)分群的對(duì)比圖5 3 圖5 一l o 備分群的費(fèi)用組成,5 4 圖5 - l l 標(biāo)準(zhǔn)和改進(jìn)的k - i , i e a n s 算法的時(shí)問(wèn)比較5 8 圖5 一1 2 不同的l e f s i z e 的選擇對(duì)算法效率的影響6 0 表5 1 客戶信息組成表3 6 表5 2 寬表部分價(jià)值字段3 8 表5 3 算法巾涉及的函數(shù)列表3 9 表5 4 分群結(jié)果的a r p u 值、趨勢(shì)、客戶數(shù)及相應(yīng)比例,5 3 表5 5 分群結(jié)果的各種費(fèi)用占比5 4 表5 6 程序運(yùn)行環(huán)境說(shuō)明5 5 表5 7 初始聚類中心選取方法測(cè)試集5 6 表5 8 隨機(jī)選取初始聚類中心測(cè)試結(jié)果,5 6 表5 9 改進(jìn)的初始聚類中心選取方法測(cè)試結(jié)果一5 7 表5 一l o 標(biāo)準(zhǔn)的k - m e a n s 算法和基于k d 樹的改進(jìn)的k m e a n s 算法的比較結(jié)果5 8 表5 1l 小同l e a f s i z l ! 的選擇對(duì)比5 9 - 6 8 南京郵電大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究 工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的 地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包 含為獲得南京郵電大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過(guò)的材 料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了 明確的說(shuō)明并表示了謝意。 研究生簽名:慷日期:犁乙 南京郵電大學(xué)學(xué)位論文使用授權(quán)聲明 南京郵電大學(xué)、中國(guó)科學(xué)技術(shù)信息研究所、國(guó)家圖書館有權(quán)保留 本人所送交學(xué)位論文的復(fù)印件和電子文檔,可以采用影印、縮印或其 他復(fù)制手段保存論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一 致。除在保密期內(nèi)的保密論文外,允許論文被查閱和借閱,可以公布 ( 包括刊登) 論文的全部或部分內(nèi)容。論文的公布( 包括刊登) 授權(quán) 南京郵電大學(xué)研究生部辦理。 研究生始獸嗥導(dǎo)師始絲絲魄歪塑 南j 劉f i :l 【1 人學(xué)壩i j f 究生學(xué)位論文 第1 章引言 1 1 中國(guó)電信發(fā)展現(xiàn)狀 第1 章引言 中國(guó)電信行業(yè)經(jīng)過(guò)近十多年的發(fā)展,取得了舉世矚目的成就。其中,電話用戶規(guī)模世 界排名第一,信產(chǎn)部公布了2 0 0 6 年電信業(yè)務(wù)數(shù)據(jù),中國(guó)電話用戶總數(shù)已突破8 億戶大關(guān); 互聯(lián)網(wǎng)用戶僅次于美國(guó),世界排名第二?!鞍宋濉焙汀熬盼濉睍r(shí)期電信業(yè)保持3 0 - 4 0 的高增長(zhǎng),近幾年趨于平穩(wěn),只有1 2 - - “ 1 5 的增長(zhǎng)率,但都遠(yuǎn)遠(yuǎn)高于同期g d p 的增幅【i 】。 從國(guó)內(nèi)市場(chǎng)看,目前我國(guó)電信業(yè)已形成中國(guó)電信、移動(dòng)、聯(lián)通、網(wǎng)通、鐵通等多家公 司競(jìng)爭(zhēng)的格局,在所有業(yè)務(wù)領(lǐng)域都有兩家或兩家以上的公司經(jīng)營(yíng),電信市場(chǎng)競(jìng)爭(zhēng)日趨激烈。 價(jià)格戰(zhàn)、服務(wù)戰(zhàn)表現(xiàn)最為突出,各運(yùn)營(yíng)商為爭(zhēng)奪客戶、留住客戶,紛紛采取各種名目繁多 的套餐,變相或直接降低資費(fèi),吸引用戶,移動(dòng)通信市場(chǎng)競(jìng)爭(zhēng)尤為突出。 從國(guó)際市場(chǎng)看,2 0 0 1 年1 1 月1 0 日我國(guó)正式加入w t o ,標(biāo)志著我國(guó)電信市場(chǎng)將融入國(guó) 際市場(chǎng),逐步對(duì)外開放。如今,5 年的過(guò)渡期已經(jīng)過(guò)去,從2 0 0 6 年開始,我國(guó)全面實(shí)現(xiàn)對(duì) 外承諾,取消地域限制,國(guó)外跨國(guó)電信公司逐步進(jìn)入中國(guó)市場(chǎng),電信市場(chǎng)競(jìng)爭(zhēng)將更加激烈, 尤其是增值業(yè)務(wù)市場(chǎng)競(jìng)爭(zhēng)更趨白熱化。 在激烈的市場(chǎng)競(jìng)爭(zhēng)中,中國(guó)電信面臨著增量市場(chǎng)日趨減緩、市場(chǎng)競(jìng)爭(zhēng)愈演愈烈、移動(dòng) 分流不斷加劇、傳統(tǒng)語(yǔ)音業(yè)務(wù)增長(zhǎng)下降、缺乏新的業(yè)務(wù)增長(zhǎng)點(diǎn)等諸多難題。同時(shí),3 g 時(shí)代 的即將來(lái)臨,也給中國(guó)電信一個(gè)新的發(fā)展契機(jī)。如何抓住機(jī)遇、應(yīng)對(duì)挑戰(zhàn),則是中國(guó)電信 發(fā)展過(guò)程中的重要研究課題。 1 2電信客戶細(xì)分的必要性 隨著中國(guó)電信市場(chǎng)的對(duì)外開放和3 g 時(shí)代的臨近,電信市場(chǎng)的競(jìng)爭(zhēng)愈加激烈。在中國(guó) 電信用戶持續(xù)快速增長(zhǎng)的同時(shí),電信運(yùn)營(yíng)商不得不面對(duì)a r p u 值不斷降低、增量不增收的 現(xiàn)象,特別是國(guó)內(nèi)電信運(yùn)營(yíng)商所推出的比較簡(jiǎn)單的價(jià)格比拼和優(yōu)惠活動(dòng)。面對(duì)這種惡性循 環(huán)各電信運(yùn)營(yíng)商從簡(jiǎn)單的價(jià)格競(jìng)爭(zhēng)過(guò)渡到電信品牌、業(yè)務(wù)、服務(wù)的競(jìng)爭(zhēng),提高用戶的滿 憊度和忠誠(chéng)度i 2 i 。 電信客戶數(shù)量巨大,每個(gè)客戶都用不同的需求,如何最大限度地滿足不同客戶的需 求? 實(shí)踐證明,客戶細(xì)分是一種行之有效的方法。所謂的客戶細(xì)分就是根據(jù)消費(fèi)者之間通 1 南京l l l l :i u 人學(xué)碩i :_ i i j i 究生學(xué)位論義第1 章引言 信需求的差異以及消費(fèi)者的自身情況,如客戶對(duì)電信產(chǎn)品的需求、偏好、消費(fèi)行為、消費(fèi) 能力等方面的差異,把一個(gè)電信市場(chǎng)劃分成多個(gè)通信客戶群體,針對(duì)不同的群體實(shí)施不同 的服務(wù),提供差異化營(yíng)銷服務(wù)。 1 3 本文的工作以及思路 本文結(jié)合數(shù)據(jù)挖掘的理論和電信經(jīng)營(yíng)分析系統(tǒng)的實(shí)際應(yīng)用,介紹數(shù)據(jù)挖掘在經(jīng)營(yíng)分析 中的應(yīng)用,詳細(xì)描述客戶細(xì)分過(guò)程。內(nèi)容安排如下: 第1 章:引言。介紹我國(guó)電信行業(yè)的發(fā)展現(xiàn)狀,引出電信客戶細(xì)分的必要性。 第2 章:數(shù)據(jù)挖掘概述。介紹數(shù)據(jù)挖掘的概念,數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)、o l a p 的關(guān)系, 數(shù)據(jù)挖掘過(guò)程模型c r i s p - d m 以及數(shù)據(jù)挖掘技術(shù)分類、熱點(diǎn)研究方向等。 第3 章:數(shù)據(jù)挖掘中的聚類算法。由于客戶細(xì)分中應(yīng)用了聚類算法,因此本章重點(diǎn)介 紹了數(shù)捌挖掘中的聚類算法的定義、要求、主要的聚類算法,并詳細(xì)介紹了k - m e a n s 算法 的實(shí)現(xiàn),在這個(gè)基礎(chǔ)上提出了基于k - d 樹的改進(jìn)的k - m e a n s 算法。 第4 章:電信經(jīng)營(yíng)分析系統(tǒng)概述。本章介紹電信經(jīng)營(yíng)分析系統(tǒng)的建設(shè)背景、功能框架, 著重介紹了系統(tǒng)中的核心數(shù)據(jù)處理模塊。最后介紹數(shù)據(jù)挖掘在電信經(jīng)營(yíng)分析系統(tǒng)中的實(shí)際 應(yīng)用。 第5 章:應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶細(xì)分。本章根據(jù)數(shù)據(jù)挖掘過(guò)程模型c r i s p d m 介 紹客戶細(xì)分的詳細(xì)過(guò)程,應(yīng)用改進(jìn)的k - m e a n s 算法改善客戶細(xì)分,并通過(guò)對(duì)比分析,直觀 地體現(xiàn)出改進(jìn)算法在效率和穩(wěn)定性方面要大大優(yōu)于標(biāo)準(zhǔn)的k - m e a n s 算法。 第6 章:總結(jié)。對(duì)已完成工作的總結(jié)和對(duì)未來(lái)的展望。 自80 i e i u 學(xué)iu f 咒 m 論第2 章數(shù)據(jù)挖掘技術(shù)概述 第2 章數(shù)據(jù)挖掘技術(shù)概述 2 1 數(shù)據(jù)挖掘的概念 隨著社會(huì)信息化的飛速發(fā)展,各行各業(yè)都積累了大量的生產(chǎn)和管理數(shù)據(jù)。數(shù)據(jù)的極大 豐富是否就意味著信息的極大豐富呢? 事實(shí)l 兌明沒(méi)有經(jīng)過(guò)整理和分析的大量數(shù)據(jù)就像“墳 墓”根本無(wú)法為決策者提供決策依掘。如何把“數(shù)據(jù)墳?zāi)埂鞭D(zhuǎn)變成為“知識(shí)金庫(kù)”就 是數(shù)據(jù)挖掘需要做的事情。 數(shù)據(jù)挖掘l i4 ( d a t am i n i n g ) 作為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)的核心技術(shù),就是從大量的、不完 全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱舍在其中的、人們事先不知道的、但又 是潛在有用的信息和知識(shí)的過(guò)程,提取的知識(shí)一般可以表示為概念、規(guī)則、規(guī)律、模式肄 形式。確切地?cái)?,?shù)據(jù)挖掘過(guò)程就是一種決策支持過(guò)程主要基于人工職能、機(jī)器學(xué)習(xí)、 統(tǒng)計(jì)學(xué)等技術(shù)高度自動(dòng)化地分析生產(chǎn)業(yè)務(wù)中原有的數(shù)據(jù),做出歸納性的推理,從中挖掘 | l ;特盤的摸,t 預(yù)測(cè)客戶的行為,幫助企j k a , 3 決策者調(diào)整市場(chǎng)策略減少風(fēng)險(xiǎn),做出正確 的決策。 還有很多和數(shù)據(jù)挖掘相近似的術(shù)語(yǔ),如從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)( k d d ) 、數(shù)據(jù)分析、數(shù)據(jù)融 合( d a t af u s i o n ) 以及決策支持等。數(shù)據(jù)挖掘是門很廣義的交叉學(xué)科,圖2 - l 形象地表 現(xiàn)出數(shù)據(jù)挖掘與很多學(xué)科之| 日j 的相互滲透的關(guān)系。數(shù)據(jù)挖掘匯聚了不同領(lǐng)域的研究者,尤 其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。 幽2l 數(shù)據(jù)挖掘自f 備學(xué)科之間相互潘透的關(guān)系 22i ) w 項(xiàng)目的知識(shí)技能需求 + j 片:i u 人學(xué)壩j f 究生學(xué)位論義 第2 章數(shù)據(jù)挖掘技術(shù)概述 在實(shí)施一個(gè)具體的數(shù)據(jù)挖掘項(xiàng)目時(shí),需要具備的知識(shí)和技能包括: 某個(gè)領(lǐng)域的業(yè)務(wù)知識(shí)( 業(yè)務(wù)專家) :能夠理解業(yè)務(wù)問(wèn)題的細(xì)節(jié)和特殊性、背景業(yè)務(wù) 知識(shí)、內(nèi)容含義、術(shù)語(yǔ),知道對(duì)該業(yè)務(wù)問(wèn)題的當(dāng)前處理方法和優(yōu)劣。 數(shù)據(jù)知識(shí)和處理能力( 數(shù)據(jù)專家) :理解數(shù)據(jù)的結(jié)構(gòu)、格式,數(shù)據(jù)源的狀況,數(shù)據(jù) 量的大小,有對(duì)數(shù)據(jù)操作的能力。 分析方法和技能( 分析專家) :理解和該業(yè)務(wù)問(wèn)題相關(guān)的分析方法的特點(diǎn)和局限, 有使用相關(guān)算法進(jìn)行數(shù)據(jù)分析和建模的能力。 2 3數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系 2 3 1什么是數(shù)據(jù)倉(cāng)庫(kù) 國(guó)內(nèi)外很多學(xué)者都提出數(shù)據(jù)倉(cāng)庫(kù)的描述,但很難給出數(shù)據(jù)倉(cāng)庫(kù)嚴(yán)格的定義。寬松地講, 數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)數(shù)據(jù)庫(kù),但是在這個(gè)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)內(nèi)容和數(shù)據(jù)組織方式以及維護(hù) 方式和一般的操作型數(shù)據(jù)庫(kù)不同。數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)大量的歷史數(shù)據(jù),允許將各種應(yīng)用集成在 起,對(duì)各種歷史數(shù)據(jù)進(jìn)行分析挖掘,為分析人員提供信息處理平臺(tái)。 w h h i n m o n 這位數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)構(gòu)造方面的領(lǐng)頭設(shè)計(jì)師給數(shù)據(jù)倉(cāng)庫(kù)的定義是:“數(shù)據(jù)倉(cāng) 庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理決策制定“ 【。 從這四個(gè)方面能看出數(shù)據(jù)倉(cāng)庫(kù)與普通的操作型數(shù)據(jù)庫(kù)的區(qū)別。 ( 1 ) 面向主題的:數(shù)據(jù)倉(cāng)庫(kù)圍繞著一些特定的主題建立,例如電信業(yè)務(wù)中的客戶、收 入、業(yè)務(wù)使用量等,數(shù)據(jù)倉(cāng)庫(kù)關(guān)注的是對(duì)決策支持有用的數(shù)據(jù),排除無(wú)用的數(shù)據(jù), 提供特定主題的簡(jiǎn)明視圖。 ( 2 ) 集成的:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)通常來(lái)自多個(gè)數(shù)據(jù)源,可能是多個(gè)不同廠商的關(guān)系數(shù)據(jù) 庫(kù)。也可能是一般的文件。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),將不同數(shù)據(jù)源的數(shù)據(jù) 導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)中,確保命名規(guī)則、編碼結(jié)構(gòu)以及屬性度量等的一致性。 ( 3 ) 時(shí)變的:數(shù)據(jù)倉(cāng)庫(kù)從歷史的角度提供信息。數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵結(jié)構(gòu),隱式或顯式 地包含有時(shí)間元素。 ( 4 ) 非易失的:數(shù)據(jù)倉(cāng)庫(kù)在物理上分離存放數(shù)據(jù),這些數(shù)據(jù)源自操作環(huán)境下的應(yīng)用數(shù) 據(jù)。通常數(shù)據(jù)倉(cāng)庫(kù)需要兩種數(shù)據(jù)訪問(wèn):數(shù)據(jù)的初始裝入和數(shù)據(jù)訪問(wèn),數(shù)據(jù)倉(cāng)庫(kù)與 面向生產(chǎn)的操作型數(shù)據(jù)庫(kù)相分離,不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。 2 3 2數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系 4 南京l | | l :l u 人學(xué)順i : i j l 究生學(xué)位論義第2 章數(shù)據(jù)挖掘技術(shù)概述 大部分的情況下,數(shù)據(jù)挖掘要在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上實(shí)現(xiàn),先把數(shù)據(jù)從數(shù)據(jù)源( 各種操 作型數(shù)據(jù)庫(kù)及手工錄入數(shù)據(jù)) 加載到數(shù)據(jù)倉(cāng)庫(kù)中,再將數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)提取到專門的數(shù)據(jù) 挖掘庫(kù)或者數(shù)據(jù)集市中。在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘有很多好處,原因是數(shù)據(jù)倉(cāng)庫(kù) 的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中已經(jīng)進(jìn)行了 清理,那么在數(shù)據(jù)挖掘過(guò)程中就可以省略這一步驟。 幽2 2數(shù)據(jù)挖掘厙從數(shù)據(jù)倉(cāng)庫(kù)中得出 數(shù)掘挖掘庫(kù)可以是數(shù)據(jù)倉(cāng)庫(kù)上的一個(gè)邏輯子集,而不一定非要是物理上單獨(dú)的數(shù)據(jù) 庫(kù)。如果數(shù)據(jù)倉(cāng)庫(kù)的資源比較緊張,從挖掘效率的角度考慮,建議最好還是單獨(dú)建立一個(gè) 數(shù)據(jù)挖掘庫(kù)。 當(dāng)然數(shù)據(jù)挖掘也不是非要經(jīng)過(guò)建立數(shù)據(jù)倉(cāng)庫(kù)這一階段,數(shù)據(jù)倉(cāng)庫(kù)不是必需的。建立一 個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各種數(shù)據(jù)源的數(shù)據(jù)整合到一起,解決所有的數(shù)據(jù)一致性問(wèn)題,并把 所有的數(shù)據(jù)導(dǎo)到數(shù)據(jù)倉(cāng)庫(kù)中,是一項(xiàng)巨大的工程,需要花費(fèi)巨大的人力、物力、財(cái)力。一 個(gè)便于實(shí)現(xiàn)的方法是把操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)到一個(gè)只讀數(shù)據(jù)庫(kù)中,就把它當(dāng)成數(shù)據(jù)集市 或數(shù)據(jù)挖掘庫(kù),然后在上面進(jìn)行數(shù)據(jù)挖掘工作。 圖2 3 數(shù)據(jù)挖掘庫(kù)從操作型數(shù)據(jù)庫(kù)中得出 2 4 數(shù)據(jù)挖掘和0 l a p 的關(guān)系 2 4 1什么是o l a p o l a p 6i ( o n - l i n e a n a l y t i c a lp r o c e s s i n g ,聯(lián)機(jī)分析處理) 和數(shù)據(jù)倉(cāng)庫(kù)都是決策支 持領(lǐng)域的一部分。o l a p 是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重于決策支 持,提供直觀易懂的查詢結(jié)果。 南京郵l 乜人學(xué)碩。l 。研究生學(xué)位論文第2 章數(shù)據(jù)挖掘技術(shù)概述 o l a p 能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶所理解的、并真實(shí) 反映企業(yè)經(jīng)營(yíng)維度特性的信息進(jìn)行快速、一致、交互地存取,技術(shù)核心是“維“ 這個(gè)概念。 2 4 2o l a p 和傳統(tǒng)報(bào)表工具的區(qū)別 傳統(tǒng)的查詢和報(bào)表工具只能告訴你數(shù)據(jù)庫(kù)中有什么,o l a p 則迸一步告訴你下一步會(huì) 怎么樣、以及如果采取這樣的措施又會(huì)怎么樣。o l a p 分析過(guò)程本質(zhì)上是一個(gè)演繹推理的過(guò) 程。用戶首先建立一個(gè)假設(shè),然后用o l a p 檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否成立。比如, 分析人員想找出是什么原因?qū)е码娦庞脩羟焚M(fèi),他可能會(huì)先假設(shè)低收入的用戶容易產(chǎn)生欠 費(fèi),然后用o l a p 來(lái)驗(yàn)證這個(gè)假設(shè)??赡芮闆r并不是他假設(shè)的這樣,因?yàn)榈褪杖氲挠脩粝?應(yīng)的消費(fèi)額也較低。那么這個(gè)假設(shè)就沒(méi)有被證實(shí),他就可能轉(zhuǎn)而去分析那些高收入的用戶。 一直到找到他想要的結(jié)果或者放棄i 。 2 4 3數(shù)據(jù)挖掘和o l a p 的區(qū)別 o l a p 是基于“維”的分析,如果在維度較少的情況下,分析人員可以通過(guò)o l a p 工具 簡(jiǎn)明直觀地看到分析結(jié)果,但如果分析的變量( 即維) 達(dá)到幾十個(gè)甚至上百個(gè),那么再用 o l a p 手動(dòng)分析驗(yàn)證這些假設(shè)就變得非常困難。 數(shù)據(jù)挖掘和o l a p 不同的地方是,數(shù)據(jù)挖掘不是用來(lái)驗(yàn)證分析人員的某個(gè)假定是否成 立,而是在數(shù)據(jù)庫(kù)中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過(guò)程。比如分析人員想找到 哪些客戶容易產(chǎn)生欠費(fèi),數(shù)據(jù)挖掘工具可以幫他歸納出產(chǎn)生欠費(fèi)的客戶群體的特征,例如 收入特征、信用度特征,還有可能是一些分析人員沒(méi)有注意到的因素,比如說(shuō)年齡。o l a p 側(cè)重于與用戶的交互、快速的響應(yīng)以及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動(dòng)發(fā)現(xiàn) 隱藏在數(shù)據(jù)中的模式和有用的信息,用戶可以指導(dǎo)這一過(guò)程1 。 數(shù)據(jù)挖掘和o l a p 有一定的互補(bǔ)性。例如,通過(guò)定義合適的“維“ ( 更進(jìn)一步,通過(guò) 確定在維中如何斷丌連續(xù)值) ,數(shù)據(jù)挖掘能夠幫助o l a p 建立更好的立方體。而o l a p 提供 了強(qiáng)大的可視化能力,可以幫助用戶更好地理解數(shù)據(jù)挖掘的結(jié)果,如聚類和神經(jīng)網(wǎng)絡(luò)。聯(lián) 合使用o l a p 和數(shù)據(jù)挖掘,二者優(yōu)勢(shì)互補(bǔ),為數(shù)據(jù)開發(fā)提供更多的機(jī)會(huì)【。 2 5數(shù)據(jù)挖掘過(guò)程模型c r i s p - d m 業(yè)界流行的數(shù)掘挖掘過(guò)程模型很多,典型的如:s p s s 的c r i s p - d m ,s a s 的s e m m a 等等, 塑塞! ! ! ! ! ! 堡叁蘭塑! 型壅圭蘭垡笙蘭 釜! 童鏊塑絲塑墊查堡壟 其中c r i s p - d m 是事實(shí)上的工業(yè)標(biāo)準(zhǔn)。 c r i s p - d m f 9l 模型定義的一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期包括六個(gè)階段。如圖2 - 4 所示。 各個(gè)階段的順序不是僵硬不變的,有時(shí)需要在不同階段之間向前和向后移動(dòng)。這取決于每 一個(gè)階段的成果和下一個(gè)階段的具體任務(wù)。 圖2 - 4c r i s p d m 模型 ( 1 ) 商業(yè)理解 這一仞始階段集中在從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求,然后把理解轉(zhuǎn)化為數(shù)據(jù) 挖掘問(wèn)題的定義和一個(gè)旨在實(shí)現(xiàn)目標(biāo)的初步計(jì)劃。 ( 2 ) 數(shù)據(jù)理解 數(shù)據(jù)理解階段丌始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù),表明數(shù)據(jù)質(zhì)量問(wèn)題,探 索對(duì)數(shù)據(jù)的初步理解,發(fā)覺(jué)有趣的子集以形成對(duì)隱藏信息的假設(shè)。 ( 3 ) 數(shù)掘準(zhǔn)備 數(shù)據(jù)準(zhǔn)備階段包括所有從原始的未加工的數(shù)據(jù)構(gòu)造最終數(shù)據(jù)集的活動(dòng)( 這些數(shù)據(jù) 集指將要嵌入建模工具中的數(shù)據(jù)) 。數(shù)據(jù)準(zhǔn)備任務(wù)可能要被實(shí)施多次,而且沒(méi)有任何 規(guī)定的順序。這些任務(wù)包括表格、記錄和屬性選擇以及按照建模工具的要求,對(duì)數(shù)據(jù) 的轉(zhuǎn)換和清洗。 ( 4 ) 建模 在此階段。主要是選擇和應(yīng)用各種建模技術(shù),同時(shí)對(duì)它們的參數(shù)進(jìn)行校準(zhǔn)以達(dá)到 最優(yōu)值。通常對(duì)于同一個(gè)數(shù)據(jù)挖掘問(wèn)題類型,會(huì)有多種模型技術(shù)。一些技術(shù)對(duì)數(shù)據(jù)格 式有特殊的要求。因此常常需要返回到數(shù)據(jù)準(zhǔn)備階段。 ( 5 ) 評(píng)估 進(jìn)入項(xiàng)目中的這個(gè)階段時(shí),你已經(jīng)建立了一個(gè)模型( 或者多個(gè)) ,從數(shù)據(jù)分析的 角度來(lái)看,該模型似乎有很高的質(zhì)量。在模型最后發(fā)布前,有一點(diǎn)是很重要的一更為 南京郵i 也人學(xué)碩:j :研究生學(xué)位論文 第2 章數(shù)據(jù)挖掘技術(shù)概述 徹底地評(píng)估模型和檢查建立模型的各個(gè)步驟,從而確保它真正達(dá)到商業(yè)目標(biāo)。此階段 關(guān)鍵目的是決定是否存在一些重要的商業(yè)問(wèn)題仍未得到充分的考慮。關(guān)于數(shù)據(jù)挖掘結(jié) 果的使用決定應(yīng)該在此階段結(jié)束時(shí)確定下來(lái)。 ( 6 ) 發(fā)布 模型的創(chuàng)建通常不是項(xiàng)目的結(jié)尾。即使模型的目的是增加對(duì)數(shù)據(jù)的了解,所獲得 的了解也需要進(jìn)行組織并以一種客戶能夠使用的方式呈現(xiàn)出來(lái)。 2 6數(shù)據(jù)挖掘過(guò)程中的數(shù)據(jù)預(yù)處理 在實(shí)際應(yīng)用系統(tǒng)中收集到的原始數(shù)據(jù)往往是雜亂、重復(fù)和不完整的,因此數(shù)據(jù)預(yù)處理 是數(shù)據(jù)挖掘中的一個(gè)重要環(huán)節(jié)。數(shù)據(jù)預(yù)處理應(yīng)該包括以下幾方面的功能:【1 ( 1 ) 數(shù)據(jù)集成:數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并 處理,解決語(yǔ)義的模型性。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問(wèn)題以及不 一致數(shù)據(jù)的處理問(wèn)題。 ( 2 ) 數(shù)據(jù)清洗:數(shù)據(jù)清洗要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和 清洗臟數(shù)據(jù),去除空白數(shù)據(jù)域和知識(shí)背景上的自噪聲,考慮時(shí)間順序和數(shù)據(jù)變化 等。主要包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理,并完成一些數(shù)據(jù)類型的轉(zhuǎn)換。 ( 3 ) 數(shù)據(jù)變換:數(shù)掘變換主要是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方式減少有效 變量的數(shù)目或找到數(shù)據(jù)的不變式,包括格式化、歸納、切換、旋轉(zhuǎn)和投影等操作。 ( 4 ) 數(shù)據(jù)簡(jiǎn)化:數(shù)據(jù)簡(jiǎn)化是在對(duì)發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于 發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌 的日仃提下最大限度地精簡(jiǎn)數(shù)據(jù)量。它主要有兩個(gè)途徑:屬性選擇和數(shù)據(jù)抽樣,分 別針對(duì)數(shù)據(jù)庫(kù)中的屬性和記錄。 2 7 數(shù)據(jù)挖掘常用算法 ( 1 ) 決策樹 決策樹提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。決策樹 是一個(gè)類似流程圖的樹型結(jié)構(gòu),建立決策樹的過(guò)程,即樹的生長(zhǎng)過(guò)程是不斷的把數(shù)據(jù) 進(jìn)行切分的過(guò)程,每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn)。對(duì)每個(gè)切分都要求分 成的組之間的“差異”最大。各種決策樹算法之間的主要區(qū)別就是對(duì)這個(gè)“差異衡 量方式的區(qū)別。f 7 1 r 南京郵1 乜人學(xué)碩- :i :研究生學(xué)位論文 第2 章數(shù)據(jù)挖掘技術(shù)概述 決策樹的優(yōu)點(diǎn)是效率高、容易理解,并且很擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),這與神經(jīng)網(wǎng) 絡(luò)只能處理數(shù)值型數(shù)據(jù)比較起來(lái),免去了很多數(shù)據(jù)預(yù)處理的工作。 ( 2 ) 神經(jīng)網(wǎng)絡(luò) 就是一組相互連接的輸入輸出單元,這些單元之間都關(guān)聯(lián)一個(gè)權(quán)重。在網(wǎng)絡(luò)學(xué)習(xí) 階段,通過(guò)調(diào)整權(quán)重來(lái)實(shí)現(xiàn)輸入樣本與其相應(yīng)類別的對(duì)應(yīng)。神經(jīng)網(wǎng)絡(luò)可以很容易的解 決具有上百個(gè)參數(shù)的問(wèn)題。神經(jīng)網(wǎng)絡(luò)常用于兩類問(wèn)題:分類和回歸。在結(jié)構(gòu)上,可以 把一個(gè)神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層。輸入層的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)個(gè)的預(yù) 測(cè)變量。輸出層的節(jié)點(diǎn)對(duì)應(yīng)目標(biāo)變量,可有多個(gè)。在輸入層和輸出層之間是隱含層( 對(duì) 神經(jīng)網(wǎng)絡(luò)使用者來(lái)說(shuō)不可見(jiàn)) ,隱含層的層數(shù)和每層節(jié)點(diǎn)的個(gè)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù) 雜度。調(diào)整節(jié)點(diǎn)問(wèn)連接的權(quán)重就是在建立( 也稱訓(xùn)練) 神經(jīng)網(wǎng)絡(luò)時(shí)要做的工作?!? 1 l ( 3 ) 遺傳算法 基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技 術(shù)。遺傳算法模擬進(jìn)化適者生存的過(guò)程,以隨機(jī)的形式將最適合特定目標(biāo)函數(shù)的種群 通過(guò)重組產(chǎn)生新的一代,在進(jìn)化過(guò)程中通過(guò)選擇、重組和突變逐漸產(chǎn)生優(yōu)化的問(wèn)題解 決方案。它通過(guò)選擇、交叉和變異等進(jìn)化概念,產(chǎn)生出解決問(wèn)題的新方法和策略。選 擇是指挑出好的解決方案,交叉是將各個(gè)好的方案中的部分進(jìn)行組合連接,而變異則 是隨機(jī)地改變解決方案的某些部分,這樣當(dāng)提供了一系列可能的解決方案后,遺傳算 法就可以得出最優(yōu)解決方案?!尽? 1 ( 4 ) 近鄰算法:將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。 ( 5 ) 規(guī)則推導(dǎo):從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果- n 么“ 規(guī)則進(jìn)行尋找和推導(dǎo)。 2 8數(shù)據(jù)挖掘技術(shù)的分類 數(shù)據(jù)挖掘技術(shù)基本上分為兩大類:描述型數(shù)據(jù)挖掘和預(yù)測(cè)型數(shù)據(jù)挖掘,下面就這兩種 挖掘類型進(jìn)行說(shuō)明i 4 it 7 1 。 2 8 1描述型數(shù)據(jù)挖掘 描述型數(shù)據(jù)挖掘是用來(lái)了解數(shù)據(jù)中潛在的規(guī)律。主要包括: ( 1 ) 統(tǒng)計(jì)和可視化 統(tǒng)計(jì):了解自己的數(shù)據(jù)的最基本的方法就是計(jì)算各種統(tǒng)計(jì)變量,如平均值、方差、 標(biāo)準(zhǔn)差等。盡管統(tǒng)計(jì)分析需要專業(yè)的技能,但它卻是所有數(shù)據(jù)挖掘技術(shù)中發(fā)展最成熟 9 南京郵電人學(xué)頌- i :研究生學(xué)位論文 第2 章數(shù)據(jù)挖掘技術(shù)概述 同時(shí)也是最容易理解的一種技術(shù)i 】。 可視化:幫助快速地、直觀地分析數(shù)據(jù)。 ( 2 ) 聚類( 分群) 聚類是把整個(gè)數(shù)據(jù)集劃分成不同的群組。它的目的是要群和群之間的差別很明 顯而同一個(gè)群內(nèi)的數(shù)據(jù)盡量相似。 聚類與分類是不同的,聚類在開始之前并不知道要把數(shù)據(jù)集分成幾類,也不知道 依據(jù)哪些變量來(lái)分,而分類之前是知道要分成哪幾類的,每個(gè)類的特征是什么。 通過(guò)聚類得到的分群結(jié)果需要有一個(gè)很熟悉業(yè)務(wù)的人來(lái)解釋這些分群的意義,對(duì) 每個(gè)具體的分群給出特征描述。聚類是一個(gè)反復(fù)的過(guò)程,很多時(shí)候一次聚類的結(jié)果對(duì) 業(yè)務(wù)來(lái)說(shuō)可能并不好,這時(shí)就需要增加或者刪除變量以影響分群的方式,最終得到理 想的結(jié)果。神經(jīng)元網(wǎng)絡(luò)和k 一均值是比較常用的聚類方法。 ( 3 ) 關(guān)聯(lián)分析 關(guān)聯(lián)規(guī)則是尋找數(shù)據(jù)庫(kù)中值的相關(guān)性。關(guān)聯(lián)規(guī)則最早提出的動(dòng)機(jī)是針對(duì)購(gòu)物籃分 析問(wèn)題提出的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品之間的聯(lián)系規(guī)則。 2 8 2預(yù)言型數(shù)據(jù)挖掘 預(yù)言型數(shù)據(jù)挖掘是用歷史來(lái)預(yù)測(cè)將來(lái)。主要包括: ( 1 ) 分類挖掘 按照分類對(duì)象的屬性分l 7 另j j 類加以定義,建立分組。換句話說(shuō),分類要解決的問(wèn) 題是為一個(gè)事件或者對(duì)象歸類。在實(shí)際使用中,既可以用分類來(lái)分析已有的數(shù)據(jù),也 可以用它來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)。例如在電信業(yè)務(wù)應(yīng)用中,用分類來(lái)區(qū)分不同屬性的客戶, 預(yù)測(cè)哪些客戶可能會(huì)使用電信新業(yè)務(wù)等等。 ( 2 ) 回歸挖掘 回歸是通過(guò)具有已知值的變量來(lái)預(yù)測(cè)其他變量的值,如果此變量隨事件變化,可 成為時(shí)間序列預(yù)測(cè)。在最簡(jiǎn)單的情況下,回歸采用的是像線性回歸這樣的標(biāo)準(zhǔn)統(tǒng)計(jì)技 術(shù)。但在大多數(shù)現(xiàn)實(shí)世界中,很多問(wèn)題是無(wú)法用簡(jiǎn)單的線性回歸來(lái)預(yù)測(cè)的。如電信業(yè) 務(wù)的價(jià)格、使用量,很難找到簡(jiǎn)單有效的方法來(lái)預(yù)測(cè),因?yàn)橐枋鲞@些事件的變化需 要數(shù)以百計(jì)的變量,且這些變量本身往往是非線性的。為此,人們又發(fā)明了許多新的 手段來(lái)試圖解決這個(gè)問(wèn)題,如邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等。 ( 3 ) 時(shí)序挖掘 南京i | f l :, i z 人學(xué)碩l j 研究生學(xué)位論文第2 章數(shù)據(jù)挖掘技術(shù)概述 時(shí)1 1 日j 序列是用變量過(guò)去的值來(lái)預(yù)測(cè)未來(lái)的值。與回歸一樣,它也是用己知的值來(lái) 預(yù)測(cè)未來(lái)的值,區(qū)別在于這些值的變量所處的時(shí)間不同,存在時(shí)間上的先后關(guān)系。時(shí) 間序列采用的方法一般是在連續(xù)的時(shí)間流中截取一個(gè)時(shí)間窗口( 一個(gè)時(shí)間段) ,窗口內(nèi) 的數(shù)據(jù)作為一個(gè)數(shù)據(jù)單元,然后讓這個(gè)時(shí)間窗口在時(shí)間流上滑動(dòng),以獲得建立模型所 需要的訓(xùn)練集。比如用前六天的數(shù)據(jù)來(lái)預(yù)測(cè)第七天的值,這樣就可以建立一個(gè)區(qū)間大 小為七的時(shí)間窗口。 2 9 數(shù)據(jù)挖掘熱點(diǎn)研究方向 就目荷訂來(lái)看,數(shù)據(jù)挖掘?qū)?lái)的熱點(diǎn)包括:文本挖掘、w e b 挖掘、生物信息或基因的數(shù) 據(jù)挖掘、多媒體挖掘等。下面就這幾個(gè)方面加以簡(jiǎn)單介紹。 ( 1 ) 文本挖掘l 。4 1 文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知 識(shí)的過(guò)程。文本數(shù)據(jù)包括技術(shù)報(bào)告、文本集、新聞、電子郵件、網(wǎng)頁(yè)、用戶手冊(cè)等。 文本挖掘?qū)蝹€(gè)文本或文本集( 如w e b 搜索中返回的結(jié)果集) 進(jìn)行分析,從中提取概 念,并按照指定的方案組織、概括文本,發(fā)現(xiàn)文本集中重要的主題。它除了從文本中 提取關(guān)鍵詞外,還要提取事實(shí)、作者的意圖、期望和主張等。這些知識(shí)對(duì)許多應(yīng)用目 標(biāo),如市場(chǎng)營(yíng)銷、趨勢(shì)分析、需求處理等,都是很有用的。 相對(duì)于一般的數(shù)據(jù)挖掘,文本挖掘面臨的主要問(wèn)題在于挖掘的對(duì)象是半結(jié)構(gòu)化或 非結(jié)構(gòu)化的,而且自然語(yǔ)言文本中包含多層次的歧義( 如詞匯、句法、語(yǔ)義、語(yǔ)用等) 等。 ( 2 ) w e b 挖掘1 l w e b 挖掘是從w w w 的資源和行為中抽取感興趣的、有用的模式和隱含的信息,一 般可以分為三類:w e b 內(nèi)容挖掘、w e b 結(jié)構(gòu)挖掘和w e b 應(yīng)用挖掘。 w e b 內(nèi)容挖掘:用來(lái)提取文字、圖片或者其他組成網(wǎng)頁(yè)內(nèi)容成分的信息和知識(shí)。 w e b 結(jié)構(gòu)挖掘:用來(lái)提取網(wǎng)絡(luò)的拓?fù)湫畔ⅲ淳W(wǎng)頁(yè)之間的鏈接信息。從w w w 的 組織結(jié)構(gòu)和鏈接關(guān)系中挖掘知識(shí)。 w e b 應(yīng)用挖掘:用來(lái)提取關(guān)于客戶如何運(yùn)用瀏覽器瀏覽和使用頁(yè)面鏈接的信息。 從w e b 的訪問(wèn)記錄中抽取感興趣的模式。 ( 3 ) 生物信息或基因的數(shù)據(jù)挖掘 生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià) 南京郵l u 入學(xué)壩i f i j f 究生學(xué)位論文 第2 章數(shù)據(jù)挖掘技術(shù)概述 值,但對(duì)于人類卻受益非淺。例如,基因的組合干變?nèi)f化,得某種病的人的基因和正 常人的基因到底差別多大? 能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變, 使之成為正?;? 這都需要數(shù)據(jù)挖掘技術(shù)的支持。 對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論在數(shù)據(jù)的復(fù)雜程度、 數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一 些新的和好的算法。現(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而言, 還遠(yuǎn)沒(méi)有達(dá)到成熟的地步。l ”】 ( 4 ) 多媒體挖掘 多媒體挖掘就是從大量多媒體數(shù)據(jù)集中,通過(guò)綜合分析視聽特性和語(yǔ)義,發(fā)現(xiàn)隱 含的、有效的、有價(jià)值的、可理解的模式,得出事件的趨向和關(guān)聯(lián),為用戶提供問(wèn)題 求解層次的決策支持能力。i 怕1 2 1 0 本章小結(jié) 本章對(duì)數(shù)據(jù)挖掘技術(shù)作了簡(jiǎn)要的概述,是全文的理論基礎(chǔ)部分。其中涉及到數(shù)據(jù)挖掘 的概念、挖掘過(guò)程模型、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘分類、常用算法、熱點(diǎn)研究方向,以及數(shù) 掘倉(cāng)庫(kù)介紹、o l a p 介紹、數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和o l a p 之間的關(guān)系等。 南京i l l u i u 人學(xué)f ! 1 研究生學(xué)位論文第3 章數(shù)據(jù)挖掘中的聚類算法 第3 章數(shù)據(jù)挖掘中的聚類算法 3 1聚類的定義 聚類【“ ii 侶1 ( c l u s t e r i n g ) 是一個(gè)將數(shù)據(jù)集劃分成若干組( c l a s s ) 或類( c l u s t e r ) 的過(guò)程,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度;而不同組中的數(shù)據(jù)對(duì)象相似度 較低。相似或不相似的描述是基于數(shù)據(jù)對(duì)象屬性的取值來(lái)確定的,通常是利用各對(duì)象間的 距離來(lái)進(jìn)行表示。 3 2聚類算法的典型要求 聚類分析是一個(gè)富有挑戰(zhàn)的研究領(lǐng)域,每一個(gè)應(yīng)用都有自己獨(dú)特的要求。以下就是對(duì) 數(shù)據(jù)挖掘中的聚類分析的一些典型要求71 。 ( 1 ) 可擴(kuò)展性。許多聚類算法在小數(shù)據(jù)集( 少于2 0 0 個(gè)數(shù)據(jù)對(duì)象) 時(shí)可以工作地很好, 隨著數(shù)據(jù)對(duì)象的增加,這些聚類算法的處理能力就會(huì)下降;但一個(gè)大的數(shù)據(jù)庫(kù)可 能會(huì)包含數(shù)以百萬(wàn)的對(duì)象。利用采樣方法進(jìn)行聚類分析可能得到一個(gè)有偏差的結(jié) 果,這時(shí)就需要可擴(kuò)展的聚類分析算法。 ( 2 ) 處理不同類型屬性的能力。許多算法是針對(duì)基于區(qū)間的數(shù)值屬性而設(shè)計(jì)的。但是 有些應(yīng)用需要對(duì)其它類型的數(shù)據(jù),如:二值類型、符號(hào)類型、順序類型,或這些 數(shù)據(jù)類型的組合進(jìn)行分析。 ( 3 ) 發(fā)現(xiàn)任意形狀的聚類。許多聚類算法是根據(jù)歐氏距離和m a n h a t t a n 距離來(lái)進(jìn)行聚 類的?;谶@類距離的聚類方法一般只能發(fā)現(xiàn)具有類似大小和密度的圓形或球狀 聚類。而實(shí)際上一個(gè)聚類是可以具有任意形狀的,因此設(shè)計(jì)出能夠發(fā)現(xiàn)任意形狀 類集的聚類算法是非常重要的。 ( 4 ) 需要( 由用戶) 決定的輸入?yún)?shù)最少。許多聚類算法需要用戶輸入聚類分析中所 需要的一些參數(shù)( 如:期望所獲聚類的個(gè)數(shù)) 。而聚類結(jié)果通常都與輸入?yún)?shù)密 切相關(guān):而這些參數(shù)常常也很難決定,特別是包含高維對(duì)象的數(shù)據(jù)集。這不僅構(gòu) 成了用戶的負(fù)擔(dān);也使得聚類質(zhì)量難以控制。 ( 5 ) 處理噪聲數(shù)據(jù)的能力。大多數(shù)現(xiàn)實(shí)世界的數(shù)據(jù)庫(kù)均包含異常數(shù)據(jù)、不明數(shù)據(jù)、數(shù) 據(jù)丟失和噪聲數(shù)據(jù),有些聚類算法對(duì)這樣的數(shù)據(jù)非常敏感并會(huì)導(dǎo)致獲得質(zhì)量較差 1 1 南京| i | i j i u 人學(xué)順l j f i j f 究生學(xué)位論義 第3 章數(shù)據(jù)挖掘中的聚類算法 的聚類結(jié)果。 ( 6 ) 對(duì)輸入記錄的順序不敏感。一些聚類算法對(duì)輸入數(shù)據(jù)的順序敏感,也就是不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論