[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營分析系統(tǒng)中的研究與應(yīng)用.pdf_第1頁
[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營分析系統(tǒng)中的研究與應(yīng)用.pdf_第2頁
[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營分析系統(tǒng)中的研究與應(yīng)用.pdf_第3頁
[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營分析系統(tǒng)中的研究與應(yīng)用.pdf_第4頁
[碩士論文精品]數(shù)據(jù)挖掘在電信經(jīng)營分析系統(tǒng)中的研究與應(yīng)用.pdf_第5頁
已閱讀5頁,還剩69頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

南京郵i u 人學(xué) 峽l j :l i j f 究生學(xué)位論義 捅要 隨著國內(nèi)電信市場競爭的同趨激烈,電信運(yùn)營商的經(jīng)營模式逐漸從“業(yè)務(wù)驅(qū)動向 “客戶驅(qū)動”轉(zhuǎn)化、從“粗放式經(jīng)營向“精確化管理轉(zhuǎn)變。為了更好地做到對企業(yè)的 決策支持,經(jīng)營分析系統(tǒng)孕育而生。本文的目標(biāo)是在電信經(jīng)營分析系統(tǒng)下,研究數(shù)據(jù)的處 理流程,重點(diǎn)研究數(shù)據(jù)挖掘理論與技術(shù)在系統(tǒng)中的應(yīng)用。 本文首先簡要概述數(shù)據(jù)挖掘的概念、挖掘過程模型、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘分類、常 用技術(shù)、熱點(diǎn)研究方向,以及數(shù)據(jù)挖掘和數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和o l a p 之間的關(guān)系:接著 介紹經(jīng)營分析系統(tǒng)中客戶細(xì)分所應(yīng)用的數(shù)據(jù)挖掘技術(shù)一一聚類算法,包括聚類的定義、算 法的要求、主要的聚類方法以及k - m e a n s 算法原型和改進(jìn)方向,并著重介紹基于k - d 樹的 改進(jìn)k - m e a n s 算法:然后對電信經(jīng)營分析系統(tǒng)進(jìn)行概述,主要涉及該系統(tǒng)的建設(shè)背景、功 能架構(gòu)、數(shù)據(jù)挖掘技術(shù)在系統(tǒng)中的實(shí)際應(yīng)用,并結(jié)合數(shù)據(jù)倉庫、o l a p 、數(shù)據(jù)挖掘在系統(tǒng)中 的定位對系統(tǒng)中的核心數(shù)據(jù)處理流程進(jìn)行詳細(xì)介紹。 本文第5 章( 核心章節(jié)) 根據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)挖掘過程模型c r i s p - d m 、應(yīng)用改進(jìn)的初始 聚類中心選取方法和基于k d 樹的改進(jìn)k - m e a n s 算法對某地電信公司經(jīng)營分析系統(tǒng)的客戶 細(xì)分過程進(jìn)行詳細(xì)的描述。首先是電信客戶信息的組成、數(shù)據(jù)挖掘的基礎(chǔ)一寬表結(jié)構(gòu)等的 介紹,接著給出聚類模型的整體結(jié)構(gòu)、各主要模塊功能及處理流程,并從業(yè)務(wù)上對細(xì)分的 結(jié)果進(jìn)行解釋和特征描述,給出相關(guān)的營銷建議,起到?jīng)Q策支持的作用。最后結(jié)合實(shí)驗(yàn)數(shù) 據(jù),分析改進(jìn)算法的參數(shù)設(shè)置問題,驗(yàn)證改進(jìn)的k - m e a n s 算法相比標(biāo)準(zhǔn)的k - m e a n s 算法在 效率上和穩(wěn)定性上都有較大提升;同時針對本文算法中的不足提出進(jìn)一步的改進(jìn)意見。 關(guān)鍵詞:數(shù)據(jù)挖掘、c r i s p d m 、電信經(jīng)營分析系統(tǒng)、客戶細(xì)分、k - d 樹,k - m e a n s 算法 南京郵電大學(xué)碩一i :研究生學(xué)位論文 a bs t r a c t a st h ee n h a n c e m e n to fc o m p e t i t i o ni nt e l e c o mm a r k e t ,t h em a n a g e m e n tp a t t e r no fc h i n at e l e c o mh a s c h a n g e df r o m “b u s i n e s s o r i e n t e d t o “c u s t o m o r i e n t e d ”,f r o m e x t e n s i v em a n a g e m e n t t o a c c u r a t e m a n a g e m e n t ”i no r d e rt os u p p o r td e c i s i o n m a k i n ge f f e c t i v e l y , t h et e l e c o mm a n a g e - a n a l y s i ss y s t e mh a sb e e n b u i l du p t h ep a p e rr e s e a r c hh o wd a t ai sd e a lw i t hi nt h es y s t e ma n dt h em o s ti m p o r t a n to n ei st h ea p p l i c a t i o n o fd a t am i n i n gi nt h es y s t e m f i r s t l y , s o m eb a c k g r o u n dk n o w l e d g ei ss u m m a r i z e db r i e f l yi nt h ef r o n to ft h ep a p e li n c l u d i n gt h e c o n c e p t i o no fd a t am i n i n g 、t h ep r o c e s so fd a t am i n i n gm o d e l 、t h ec l a s s i f i c a t i o no ft e c h n o l o g ya b o u td a t a m i n i n g 、t h er e l a t i o n s h i po fd a mm i n i n ga n dd a t aw a r e h o u s e 、t h er e l a t i o n s h i po fd a t am i n i n ga n do l a p ;a n d t h e ns o m e t h i n ga b o u to n et e c h n o l o g yo fd a t am i n i n g c l u s t e ra n a l y s i si s i n t r o d u c e d ,s u c ha sd e f i n i t i o n 、t h e r e q u i r e m e n to ft h ea l g o r i t h m 、s o m em e t h o d so fc l u s t e ra n a l y s i s 、k - m e a n sa l g o r i t h mw h i c hi su s e df r e q u e n t l yi n c l u s t e ra n a l y s i sa n dam o r ee f f e c t i v ek - m e a n sa l g o r i t h mb a s e do nk - dt r e e ;s u b s e q u e n t l y , t h et e l e c o m m a n a g e - a n a l y s i ss y s t e mi sr e c o m m e n d e db r i e f l y , i n c l u d i n gt h eb a c k g r o u n d 、s t r u c t u r eo ft h es y s t e m 、t h e a p p l i c a t i o no f d a t am i n i n gi nt h es y s t e m ,t h ee m p h a s e so f t h ep a r ti st h ec o r ep r o c e s so f d e a l i n gw i t hd a t a 。 l a s t l y ,a c c o r d i n gt ot h es t a n d a r dp r o c e s sm o d e lo fd a t am i n i n g - c r i s p - d m ,t h ep r o c e s so fc u s t o m e r s e g m e n t a t i o nw h i c hu s e sk - m e a n sa l g o r i t h mb a s e do nk dt r e ei sr e s e a r c h e dd e e p l y ,a n dt h ed e t a i l si n v o l v e t h es t r u c t u r eo fc l u s t e r i n gm o d e l 、t h ef u n c t i o n 、r e a l i z a t i o no fe a c hm o d u l e t h er e s u l ta b o u tt h ec o m p a r e b e t w e e ns t a n d a r dk - m e a n sa l g o r i t h ma n dk - m e a n sa l g o r i t h mb a s e do nk dt r e e 、t h ee x p l a n a t i o no fc u s t o m e r s e g m e n t a t i o nr e s u l ta n ds o m ea d v i c eb a s e do na n a l y s i sa r eg i v e no u ti nt h ee n do ft h ep a p e ra n dk - m e a n s a l g o r i t h mb a s e d0 1 1k - dt r e ei sp r o v e dm o r ee f f e c t i v ea c c o r d i n gt ot h er e s u l t k e y w o r d s :d a t am i n i n g 、c r i s p d m 、t e l e c o mm a n a g e a n a l y s i ss y s t e m 、c u s t o m e r s e g m e n t a tio n 、k - dt r e e 、k - m e a n s n 南京| | l l j i u 人學(xué)f 哆! i j 研究生學(xué)位論文 縮略詞 縮略詞英文全稱譯文 o l a p o n - l i n ea n a l y t i c a lp r o c e s s i n g 聯(lián)機(jī)分析處理 d md a t am i n i n g 數(shù)據(jù)挖掘 d wd a t aw a r e h o u s e 數(shù)據(jù)倉庫 e t l e x t r a c t i o n 、t r a n s f o r m a t i o n 、 抽取、轉(zhuǎn)換和加載 l o a d i n g 0 d s o p e r a t i o n a ld a t as t o r e操作數(shù)據(jù)倉儲 k p i k e yp e r f o i t n a n c ei n d i c a t o r關(guān)鍵績效指標(biāo) g u i g r a p h i c a lu s e ri n t e r f a c e圖形用戶接口 a p i a p p l i c a t i o np r o g r a m m i n g應(yīng)用程序接口 i n t e r f a c e a i 沖u a v e r a g er e v e n u ep e ru s e r每用戶平均收入 b s sb u s i n e s ss u p p o r ts y s t e m 業(yè)務(wù)支撐系統(tǒng) o s s o p e r a t i n gs u p p o r ts y s t e m運(yùn)營支撐系統(tǒng) m s s m a n a g e m e n ts u p p o r ts y s t e m 管理與經(jīng)營支撐系統(tǒng) 6 7 南京郵電人學(xué)碩l :f f 究生學(xué)位論義 圖表清單 圖2 - 1 數(shù)據(jù)挖掘和各學(xué)科之闖褶互滲透的關(guān)系。3 圖2 2 數(shù)據(jù)挖掘庫從數(shù)據(jù)倉庫中得出一5 圖2 3 數(shù)據(jù)挖掘庫從操作犁數(shù)據(jù)庫巾得出5 圖2 - 4o r l s p - d m 模顰7 圖3 一lk d 樹結(jié)構(gòu),j 例2 0 圖3 2k - d 樹對二維空間的劃分2 0 圖4 1 經(jīng)營分析系統(tǒng)架構(gòu)圖2 5 圖4 2 數(shù)據(jù)倉庫中的客戶模型3 0 圖4 3 客戶信息構(gòu)成圖3 l 圖4 4c o g n o s 中收入分析展現(xiàn),3 2 圖4 5 數(shù)據(jù)挖掘往經(jīng)營分析巾的應(yīng)用3 2 圖5 一l 客戶信息處理流程3 7 圖5 2 聚類算法流程圖3 9 圖5 - 3 各函數(shù)之間的調(diào)用關(guān)系4 l 圖5 - 4k - d 樹構(gòu)造流稃圖4 4 圖5 5k - d 樹遍歷流程圖4 7 圖5 - 6 在維坐標(biāo)r f l 最小距離計算的二二種不同情況4 8 圖5 7 p r u n i n g 函數(shù)流程圖一5 0 圖5 - 8 葉節(jié)點(diǎn)聚類流程圖5 2 圖5 9 聚類結(jié)果中各個分群的對比圖5 3 圖5 一l o 備分群的費(fèi)用組成,5 4 圖5 - l l 標(biāo)準(zhǔn)和改進(jìn)的k - i , i e a n s 算法的時問比較5 8 圖5 一1 2 不同的l e f s i z e 的選擇對算法效率的影響6 0 表5 1 客戶信息組成表3 6 表5 2 寬表部分價值字段3 8 表5 3 算法巾涉及的函數(shù)列表3 9 表5 4 分群結(jié)果的a r p u 值、趨勢、客戶數(shù)及相應(yīng)比例,5 3 表5 5 分群結(jié)果的各種費(fèi)用占比5 4 表5 6 程序運(yùn)行環(huán)境說明5 5 表5 7 初始聚類中心選取方法測試集5 6 表5 8 隨機(jī)選取初始聚類中心測試結(jié)果,5 6 表5 9 改進(jìn)的初始聚類中心選取方法測試結(jié)果一5 7 表5 一l o 標(biāo)準(zhǔn)的k - m e a n s 算法和基于k d 樹的改進(jìn)的k m e a n s 算法的比較結(jié)果5 8 表5 1l 小同l e a f s i z l ! 的選擇對比5 9 - 6 8 南京郵電大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究 工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的 地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包 含為獲得南京郵電大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材 料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了 明確的說明并表示了謝意。 研究生簽名:慷日期:犁乙 南京郵電大學(xué)學(xué)位論文使用授權(quán)聲明 南京郵電大學(xué)、中國科學(xué)技術(shù)信息研究所、國家圖書館有權(quán)保留 本人所送交學(xué)位論文的復(fù)印件和電子文檔,可以采用影印、縮印或其 他復(fù)制手段保存論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一 致。除在保密期內(nèi)的保密論文外,允許論文被查閱和借閱,可以公布 ( 包括刊登) 論文的全部或部分內(nèi)容。論文的公布( 包括刊登) 授權(quán) 南京郵電大學(xué)研究生部辦理。 研究生始獸嗥導(dǎo)師始絲絲魄歪塑 南j 劉f i :l 【1 人學(xué)壩i j f 究生學(xué)位論文 第1 章引言 1 1 中國電信發(fā)展現(xiàn)狀 第1 章引言 中國電信行業(yè)經(jīng)過近十多年的發(fā)展,取得了舉世矚目的成就。其中,電話用戶規(guī)模世 界排名第一,信產(chǎn)部公布了2 0 0 6 年電信業(yè)務(wù)數(shù)據(jù),中國電話用戶總數(shù)已突破8 億戶大關(guān); 互聯(lián)網(wǎng)用戶僅次于美國,世界排名第二。“八五”和“九五”時期電信業(yè)保持3 0 - 4 0 的高增長,近幾年趨于平穩(wěn),只有1 2 - - “ 1 5 的增長率,但都遠(yuǎn)遠(yuǎn)高于同期g d p 的增幅【i 】。 從國內(nèi)市場看,目前我國電信業(yè)已形成中國電信、移動、聯(lián)通、網(wǎng)通、鐵通等多家公 司競爭的格局,在所有業(yè)務(wù)領(lǐng)域都有兩家或兩家以上的公司經(jīng)營,電信市場競爭日趨激烈。 價格戰(zhàn)、服務(wù)戰(zhàn)表現(xiàn)最為突出,各運(yùn)營商為爭奪客戶、留住客戶,紛紛采取各種名目繁多 的套餐,變相或直接降低資費(fèi),吸引用戶,移動通信市場競爭尤為突出。 從國際市場看,2 0 0 1 年1 1 月1 0 日我國正式加入w t o ,標(biāo)志著我國電信市場將融入國 際市場,逐步對外開放。如今,5 年的過渡期已經(jīng)過去,從2 0 0 6 年開始,我國全面實(shí)現(xiàn)對 外承諾,取消地域限制,國外跨國電信公司逐步進(jìn)入中國市場,電信市場競爭將更加激烈, 尤其是增值業(yè)務(wù)市場競爭更趨白熱化。 在激烈的市場競爭中,中國電信面臨著增量市場日趨減緩、市場競爭愈演愈烈、移動 分流不斷加劇、傳統(tǒng)語音業(yè)務(wù)增長下降、缺乏新的業(yè)務(wù)增長點(diǎn)等諸多難題。同時,3 g 時代 的即將來臨,也給中國電信一個新的發(fā)展契機(jī)。如何抓住機(jī)遇、應(yīng)對挑戰(zhàn),則是中國電信 發(fā)展過程中的重要研究課題。 1 2電信客戶細(xì)分的必要性 隨著中國電信市場的對外開放和3 g 時代的臨近,電信市場的競爭愈加激烈。在中國 電信用戶持續(xù)快速增長的同時,電信運(yùn)營商不得不面對a r p u 值不斷降低、增量不增收的 現(xiàn)象,特別是國內(nèi)電信運(yùn)營商所推出的比較簡單的價格比拼和優(yōu)惠活動。面對這種惡性循 環(huán)各電信運(yùn)營商從簡單的價格競爭過渡到電信品牌、業(yè)務(wù)、服務(wù)的競爭,提高用戶的滿 憊度和忠誠度i 2 i 。 電信客戶數(shù)量巨大,每個客戶都用不同的需求,如何最大限度地滿足不同客戶的需 求? 實(shí)踐證明,客戶細(xì)分是一種行之有效的方法。所謂的客戶細(xì)分就是根據(jù)消費(fèi)者之間通 1 南京l l l l :i u 人學(xué)碩i :_ i i j i 究生學(xué)位論義第1 章引言 信需求的差異以及消費(fèi)者的自身情況,如客戶對電信產(chǎn)品的需求、偏好、消費(fèi)行為、消費(fèi) 能力等方面的差異,把一個電信市場劃分成多個通信客戶群體,針對不同的群體實(shí)施不同 的服務(wù),提供差異化營銷服務(wù)。 1 3 本文的工作以及思路 本文結(jié)合數(shù)據(jù)挖掘的理論和電信經(jīng)營分析系統(tǒng)的實(shí)際應(yīng)用,介紹數(shù)據(jù)挖掘在經(jīng)營分析 中的應(yīng)用,詳細(xì)描述客戶細(xì)分過程。內(nèi)容安排如下: 第1 章:引言。介紹我國電信行業(yè)的發(fā)展現(xiàn)狀,引出電信客戶細(xì)分的必要性。 第2 章:數(shù)據(jù)挖掘概述。介紹數(shù)據(jù)挖掘的概念,數(shù)據(jù)挖掘與數(shù)據(jù)倉庫、o l a p 的關(guān)系, 數(shù)據(jù)挖掘過程模型c r i s p - d m 以及數(shù)據(jù)挖掘技術(shù)分類、熱點(diǎn)研究方向等。 第3 章:數(shù)據(jù)挖掘中的聚類算法。由于客戶細(xì)分中應(yīng)用了聚類算法,因此本章重點(diǎn)介 紹了數(shù)捌挖掘中的聚類算法的定義、要求、主要的聚類算法,并詳細(xì)介紹了k - m e a n s 算法 的實(shí)現(xiàn),在這個基礎(chǔ)上提出了基于k - d 樹的改進(jìn)的k - m e a n s 算法。 第4 章:電信經(jīng)營分析系統(tǒng)概述。本章介紹電信經(jīng)營分析系統(tǒng)的建設(shè)背景、功能框架, 著重介紹了系統(tǒng)中的核心數(shù)據(jù)處理模塊。最后介紹數(shù)據(jù)挖掘在電信經(jīng)營分析系統(tǒng)中的實(shí)際 應(yīng)用。 第5 章:應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶細(xì)分。本章根據(jù)數(shù)據(jù)挖掘過程模型c r i s p d m 介 紹客戶細(xì)分的詳細(xì)過程,應(yīng)用改進(jìn)的k - m e a n s 算法改善客戶細(xì)分,并通過對比分析,直觀 地體現(xiàn)出改進(jìn)算法在效率和穩(wěn)定性方面要大大優(yōu)于標(biāo)準(zhǔn)的k - m e a n s 算法。 第6 章:總結(jié)。對已完成工作的總結(jié)和對未來的展望。 自80 i e i u 學(xué)iu f 咒 m 論第2 章數(shù)據(jù)挖掘技術(shù)概述 第2 章數(shù)據(jù)挖掘技術(shù)概述 2 1 數(shù)據(jù)挖掘的概念 隨著社會信息化的飛速發(fā)展,各行各業(yè)都積累了大量的生產(chǎn)和管理數(shù)據(jù)。數(shù)據(jù)的極大 豐富是否就意味著信息的極大豐富呢? 事實(shí)l 兌明沒有經(jīng)過整理和分析的大量數(shù)據(jù)就像“墳 墓”根本無法為決策者提供決策依掘。如何把“數(shù)據(jù)墳?zāi)埂鞭D(zhuǎn)變成為“知識金庫”就 是數(shù)據(jù)挖掘需要做的事情。 數(shù)據(jù)挖掘l i4 ( d a t am i n i n g ) 作為數(shù)據(jù)庫知識發(fā)現(xiàn)的核心技術(shù),就是從大量的、不完 全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱舍在其中的、人們事先不知道的、但又 是潛在有用的信息和知識的過程,提取的知識一般可以表示為概念、規(guī)則、規(guī)律、模式肄 形式。確切地攪,數(shù)據(jù)挖掘過程就是一種決策支持過程主要基于人工職能、機(jī)器學(xué)習(xí)、 統(tǒng)計學(xué)等技術(shù)高度自動化地分析生產(chǎn)業(yè)務(wù)中原有的數(shù)據(jù),做出歸納性的推理,從中挖掘 | l ;特盤的摸,t 預(yù)測客戶的行為,幫助企j k a , 3 決策者調(diào)整市場策略減少風(fēng)險,做出正確 的決策。 還有很多和數(shù)據(jù)挖掘相近似的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識( k d d ) 、數(shù)據(jù)分析、數(shù)據(jù)融 合( d a t af u s i o n ) 以及決策支持等。數(shù)據(jù)挖掘是門很廣義的交叉學(xué)科,圖2 - l 形象地表 現(xiàn)出數(shù)據(jù)挖掘與很多學(xué)科之| 日j 的相互滲透的關(guān)系。數(shù)據(jù)挖掘匯聚了不同領(lǐng)域的研究者,尤 其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。 幽2l 數(shù)據(jù)挖掘自f 備學(xué)科之間相互潘透的關(guān)系 22i ) w 項(xiàng)目的知識技能需求 + j 片:i u 人學(xué)壩j f 究生學(xué)位論義 第2 章數(shù)據(jù)挖掘技術(shù)概述 在實(shí)施一個具體的數(shù)據(jù)挖掘項(xiàng)目時,需要具備的知識和技能包括: 某個領(lǐng)域的業(yè)務(wù)知識( 業(yè)務(wù)專家) :能夠理解業(yè)務(wù)問題的細(xì)節(jié)和特殊性、背景業(yè)務(wù) 知識、內(nèi)容含義、術(shù)語,知道對該業(yè)務(wù)問題的當(dāng)前處理方法和優(yōu)劣。 數(shù)據(jù)知識和處理能力( 數(shù)據(jù)專家) :理解數(shù)據(jù)的結(jié)構(gòu)、格式,數(shù)據(jù)源的狀況,數(shù)據(jù) 量的大小,有對數(shù)據(jù)操作的能力。 分析方法和技能( 分析專家) :理解和該業(yè)務(wù)問題相關(guān)的分析方法的特點(diǎn)和局限, 有使用相關(guān)算法進(jìn)行數(shù)據(jù)分析和建模的能力。 2 3數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系 2 3 1什么是數(shù)據(jù)倉庫 國內(nèi)外很多學(xué)者都提出數(shù)據(jù)倉庫的描述,但很難給出數(shù)據(jù)倉庫嚴(yán)格的定義。寬松地講, 數(shù)據(jù)倉庫就是一個數(shù)據(jù)庫,但是在這個數(shù)據(jù)庫中存儲的數(shù)據(jù)內(nèi)容和數(shù)據(jù)組織方式以及維護(hù) 方式和一般的操作型數(shù)據(jù)庫不同。數(shù)據(jù)倉庫存儲大量的歷史數(shù)據(jù),允許將各種應(yīng)用集成在 起,對各種歷史數(shù)據(jù)進(jìn)行分析挖掘,為分析人員提供信息處理平臺。 w h h i n m o n 這位數(shù)據(jù)倉庫系統(tǒng)構(gòu)造方面的領(lǐng)頭設(shè)計師給數(shù)據(jù)倉庫的定義是:“數(shù)據(jù)倉 庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理決策制定“ 【。 從這四個方面能看出數(shù)據(jù)倉庫與普通的操作型數(shù)據(jù)庫的區(qū)別。 ( 1 ) 面向主題的:數(shù)據(jù)倉庫圍繞著一些特定的主題建立,例如電信業(yè)務(wù)中的客戶、收 入、業(yè)務(wù)使用量等,數(shù)據(jù)倉庫關(guān)注的是對決策支持有用的數(shù)據(jù),排除無用的數(shù)據(jù), 提供特定主題的簡明視圖。 ( 2 ) 集成的:數(shù)據(jù)倉庫的數(shù)據(jù)通常來自多個數(shù)據(jù)源,可能是多個不同廠商的關(guān)系數(shù)據(jù) 庫。也可能是一般的文件。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),將不同數(shù)據(jù)源的數(shù)據(jù) 導(dǎo)入數(shù)據(jù)倉庫中,確保命名規(guī)則、編碼結(jié)構(gòu)以及屬性度量等的一致性。 ( 3 ) 時變的:數(shù)據(jù)倉庫從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu),隱式或顯式 地包含有時間元素。 ( 4 ) 非易失的:數(shù)據(jù)倉庫在物理上分離存放數(shù)據(jù),這些數(shù)據(jù)源自操作環(huán)境下的應(yīng)用數(shù) 據(jù)。通常數(shù)據(jù)倉庫需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始裝入和數(shù)據(jù)訪問,數(shù)據(jù)倉庫與 面向生產(chǎn)的操作型數(shù)據(jù)庫相分離,不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。 2 3 2數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系 4 南京l | | l :l u 人學(xué)順i : i j l 究生學(xué)位論義第2 章數(shù)據(jù)挖掘技術(shù)概述 大部分的情況下,數(shù)據(jù)挖掘要在數(shù)據(jù)倉庫的基礎(chǔ)上實(shí)現(xiàn),先把數(shù)據(jù)從數(shù)據(jù)源( 各種操 作型數(shù)據(jù)庫及手工錄入數(shù)據(jù)) 加載到數(shù)據(jù)倉庫中,再將數(shù)據(jù)從數(shù)據(jù)倉庫提取到專門的數(shù)據(jù) 挖掘庫或者數(shù)據(jù)集市中。在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘有很多好處,原因是數(shù)據(jù)倉庫 的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫的過程中已經(jīng)進(jìn)行了 清理,那么在數(shù)據(jù)挖掘過程中就可以省略這一步驟。 幽2 2數(shù)據(jù)挖掘厙從數(shù)據(jù)倉庫中得出 數(shù)掘挖掘庫可以是數(shù)據(jù)倉庫上的一個邏輯子集,而不一定非要是物理上單獨(dú)的數(shù)據(jù) 庫。如果數(shù)據(jù)倉庫的資源比較緊張,從挖掘效率的角度考慮,建議最好還是單獨(dú)建立一個 數(shù)據(jù)挖掘庫。 當(dāng)然數(shù)據(jù)挖掘也不是非要經(jīng)過建立數(shù)據(jù)倉庫這一階段,數(shù)據(jù)倉庫不是必需的。建立一 個巨大的數(shù)據(jù)倉庫,把各種數(shù)據(jù)源的數(shù)據(jù)整合到一起,解決所有的數(shù)據(jù)一致性問題,并把 所有的數(shù)據(jù)導(dǎo)到數(shù)據(jù)倉庫中,是一項(xiàng)巨大的工程,需要花費(fèi)巨大的人力、物力、財力。一 個便于實(shí)現(xiàn)的方法是把操作型數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)到一個只讀數(shù)據(jù)庫中,就把它當(dāng)成數(shù)據(jù)集市 或數(shù)據(jù)挖掘庫,然后在上面進(jìn)行數(shù)據(jù)挖掘工作。 圖2 3 數(shù)據(jù)挖掘庫從操作型數(shù)據(jù)庫中得出 2 4 數(shù)據(jù)挖掘和0 l a p 的關(guān)系 2 4 1什么是o l a p o l a p 6i ( o n - l i n e a n a l y t i c a lp r o c e s s i n g ,聯(lián)機(jī)分析處理) 和數(shù)據(jù)倉庫都是決策支 持領(lǐng)域的一部分。o l a p 是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重于決策支 持,提供直觀易懂的查詢結(jié)果。 南京郵l 乜人學(xué)碩。l 。研究生學(xué)位論文第2 章數(shù)據(jù)挖掘技術(shù)概述 o l a p 能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí) 反映企業(yè)經(jīng)營維度特性的信息進(jìn)行快速、一致、交互地存取,技術(shù)核心是“維“ 這個概念。 2 4 2o l a p 和傳統(tǒng)報表工具的區(qū)別 傳統(tǒng)的查詢和報表工具只能告訴你數(shù)據(jù)庫中有什么,o l a p 則迸一步告訴你下一步會 怎么樣、以及如果采取這樣的措施又會怎么樣。o l a p 分析過程本質(zhì)上是一個演繹推理的過 程。用戶首先建立一個假設(shè),然后用o l a p 檢索數(shù)據(jù)庫來驗(yàn)證這個假設(shè)是否成立。比如, 分析人員想找出是什么原因?qū)е码娦庞脩羟焚M(fèi),他可能會先假設(shè)低收入的用戶容易產(chǎn)生欠 費(fèi),然后用o l a p 來驗(yàn)證這個假設(shè)。可能情況并不是他假設(shè)的這樣,因?yàn)榈褪杖氲挠脩粝?應(yīng)的消費(fèi)額也較低。那么這個假設(shè)就沒有被證實(shí),他就可能轉(zhuǎn)而去分析那些高收入的用戶。 一直到找到他想要的結(jié)果或者放棄i 。 2 4 3數(shù)據(jù)挖掘和o l a p 的區(qū)別 o l a p 是基于“維”的分析,如果在維度較少的情況下,分析人員可以通過o l a p 工具 簡明直觀地看到分析結(jié)果,但如果分析的變量( 即維) 達(dá)到幾十個甚至上百個,那么再用 o l a p 手動分析驗(yàn)證這些假設(shè)就變得非常困難。 數(shù)據(jù)挖掘和o l a p 不同的地方是,數(shù)據(jù)挖掘不是用來驗(yàn)證分析人員的某個假定是否成 立,而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個歸納的過程。比如分析人員想找到 哪些客戶容易產(chǎn)生欠費(fèi),數(shù)據(jù)挖掘工具可以幫他歸納出產(chǎn)生欠費(fèi)的客戶群體的特征,例如 收入特征、信用度特征,還有可能是一些分析人員沒有注意到的因素,比如說年齡。o l a p 側(cè)重于與用戶的交互、快速的響應(yīng)以及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動發(fā)現(xiàn) 隱藏在數(shù)據(jù)中的模式和有用的信息,用戶可以指導(dǎo)這一過程1 。 數(shù)據(jù)挖掘和o l a p 有一定的互補(bǔ)性。例如,通過定義合適的“維“ ( 更進(jìn)一步,通過 確定在維中如何斷丌連續(xù)值) ,數(shù)據(jù)挖掘能夠幫助o l a p 建立更好的立方體。而o l a p 提供 了強(qiáng)大的可視化能力,可以幫助用戶更好地理解數(shù)據(jù)挖掘的結(jié)果,如聚類和神經(jīng)網(wǎng)絡(luò)。聯(lián) 合使用o l a p 和數(shù)據(jù)挖掘,二者優(yōu)勢互補(bǔ),為數(shù)據(jù)開發(fā)提供更多的機(jī)會【。 2 5數(shù)據(jù)挖掘過程模型c r i s p - d m 業(yè)界流行的數(shù)掘挖掘過程模型很多,典型的如:s p s s 的c r i s p - d m ,s a s 的s e m m a 等等, 塑塞! ! ! ! ! ! 堡叁蘭塑! 型壅圭蘭垡笙蘭 釜! 童鏊塑絲塑墊查堡壟 其中c r i s p - d m 是事實(shí)上的工業(yè)標(biāo)準(zhǔn)。 c r i s p - d m f 9l 模型定義的一個數(shù)據(jù)挖掘項(xiàng)目的生命周期包括六個階段。如圖2 - 4 所示。 各個階段的順序不是僵硬不變的,有時需要在不同階段之間向前和向后移動。這取決于每 一個階段的成果和下一個階段的具體任務(wù)。 圖2 - 4c r i s p d m 模型 ( 1 ) 商業(yè)理解 這一仞始階段集中在從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求,然后把理解轉(zhuǎn)化為數(shù)據(jù) 挖掘問題的定義和一個旨在實(shí)現(xiàn)目標(biāo)的初步計劃。 ( 2 ) 數(shù)據(jù)理解 數(shù)據(jù)理解階段丌始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù),表明數(shù)據(jù)質(zhì)量問題,探 索對數(shù)據(jù)的初步理解,發(fā)覺有趣的子集以形成對隱藏信息的假設(shè)。 ( 3 ) 數(shù)掘準(zhǔn)備 數(shù)據(jù)準(zhǔn)備階段包括所有從原始的未加工的數(shù)據(jù)構(gòu)造最終數(shù)據(jù)集的活動( 這些數(shù)據(jù) 集指將要嵌入建模工具中的數(shù)據(jù)) 。數(shù)據(jù)準(zhǔn)備任務(wù)可能要被實(shí)施多次,而且沒有任何 規(guī)定的順序。這些任務(wù)包括表格、記錄和屬性選擇以及按照建模工具的要求,對數(shù)據(jù) 的轉(zhuǎn)換和清洗。 ( 4 ) 建模 在此階段。主要是選擇和應(yīng)用各種建模技術(shù),同時對它們的參數(shù)進(jìn)行校準(zhǔn)以達(dá)到 最優(yōu)值。通常對于同一個數(shù)據(jù)挖掘問題類型,會有多種模型技術(shù)。一些技術(shù)對數(shù)據(jù)格 式有特殊的要求。因此常常需要返回到數(shù)據(jù)準(zhǔn)備階段。 ( 5 ) 評估 進(jìn)入項(xiàng)目中的這個階段時,你已經(jīng)建立了一個模型( 或者多個) ,從數(shù)據(jù)分析的 角度來看,該模型似乎有很高的質(zhì)量。在模型最后發(fā)布前,有一點(diǎn)是很重要的一更為 南京郵i 也人學(xué)碩:j :研究生學(xué)位論文 第2 章數(shù)據(jù)挖掘技術(shù)概述 徹底地評估模型和檢查建立模型的各個步驟,從而確保它真正達(dá)到商業(yè)目標(biāo)。此階段 關(guān)鍵目的是決定是否存在一些重要的商業(yè)問題仍未得到充分的考慮。關(guān)于數(shù)據(jù)挖掘結(jié) 果的使用決定應(yīng)該在此階段結(jié)束時確定下來。 ( 6 ) 發(fā)布 模型的創(chuàng)建通常不是項(xiàng)目的結(jié)尾。即使模型的目的是增加對數(shù)據(jù)的了解,所獲得 的了解也需要進(jìn)行組織并以一種客戶能夠使用的方式呈現(xiàn)出來。 2 6數(shù)據(jù)挖掘過程中的數(shù)據(jù)預(yù)處理 在實(shí)際應(yīng)用系統(tǒng)中收集到的原始數(shù)據(jù)往往是雜亂、重復(fù)和不完整的,因此數(shù)據(jù)預(yù)處理 是數(shù)據(jù)挖掘中的一個重要環(huán)節(jié)。數(shù)據(jù)預(yù)處理應(yīng)該包括以下幾方面的功能:【1 ( 1 ) 數(shù)據(jù)集成:數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并 處理,解決語義的模型性。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問題以及不 一致數(shù)據(jù)的處理問題。 ( 2 ) 數(shù)據(jù)清洗:數(shù)據(jù)清洗要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和 清洗臟數(shù)據(jù),去除空白數(shù)據(jù)域和知識背景上的自噪聲,考慮時間順序和數(shù)據(jù)變化 等。主要包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理,并完成一些數(shù)據(jù)類型的轉(zhuǎn)換。 ( 3 ) 數(shù)據(jù)變換:數(shù)掘變換主要是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方式減少有效 變量的數(shù)目或找到數(shù)據(jù)的不變式,包括格式化、歸納、切換、旋轉(zhuǎn)和投影等操作。 ( 4 ) 數(shù)據(jù)簡化:數(shù)據(jù)簡化是在對發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于 發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌 的日仃提下最大限度地精簡數(shù)據(jù)量。它主要有兩個途徑:屬性選擇和數(shù)據(jù)抽樣,分 別針對數(shù)據(jù)庫中的屬性和記錄。 2 7 數(shù)據(jù)挖掘常用算法 ( 1 ) 決策樹 決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。決策樹 是一個類似流程圖的樹型結(jié)構(gòu),建立決策樹的過程,即樹的生長過程是不斷的把數(shù)據(jù) 進(jìn)行切分的過程,每次切分對應(yīng)一個問題,也對應(yīng)著一個節(jié)點(diǎn)。對每個切分都要求分 成的組之間的“差異”最大。各種決策樹算法之間的主要區(qū)別就是對這個“差異衡 量方式的區(qū)別。f 7 1 r 南京郵1 乜人學(xué)碩- :i :研究生學(xué)位論文 第2 章數(shù)據(jù)挖掘技術(shù)概述 決策樹的優(yōu)點(diǎn)是效率高、容易理解,并且很擅長處理非數(shù)值型數(shù)據(jù),這與神經(jīng)網(wǎng) 絡(luò)只能處理數(shù)值型數(shù)據(jù)比較起來,免去了很多數(shù)據(jù)預(yù)處理的工作。 ( 2 ) 神經(jīng)網(wǎng)絡(luò) 就是一組相互連接的輸入輸出單元,這些單元之間都關(guān)聯(lián)一個權(quán)重。在網(wǎng)絡(luò)學(xué)習(xí) 階段,通過調(diào)整權(quán)重來實(shí)現(xiàn)輸入樣本與其相應(yīng)類別的對應(yīng)。神經(jīng)網(wǎng)絡(luò)可以很容易的解 決具有上百個參數(shù)的問題。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。在結(jié)構(gòu)上,可以 把一個神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層。輸入層的每個節(jié)點(diǎn)對應(yīng)一個個的預(yù) 測變量。輸出層的節(jié)點(diǎn)對應(yīng)目標(biāo)變量,可有多個。在輸入層和輸出層之間是隱含層( 對 神經(jīng)網(wǎng)絡(luò)使用者來說不可見) ,隱含層的層數(shù)和每層節(jié)點(diǎn)的個數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù) 雜度。調(diào)整節(jié)點(diǎn)問連接的權(quán)重就是在建立( 也稱訓(xùn)練) 神經(jīng)網(wǎng)絡(luò)時要做的工作?!? 1 l ( 3 ) 遺傳算法 基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計方法的優(yōu)化技 術(shù)。遺傳算法模擬進(jìn)化適者生存的過程,以隨機(jī)的形式將最適合特定目標(biāo)函數(shù)的種群 通過重組產(chǎn)生新的一代,在進(jìn)化過程中通過選擇、重組和突變逐漸產(chǎn)生優(yōu)化的問題解 決方案。它通過選擇、交叉和變異等進(jìn)化概念,產(chǎn)生出解決問題的新方法和策略。選 擇是指挑出好的解決方案,交叉是將各個好的方案中的部分進(jìn)行組合連接,而變異則 是隨機(jī)地改變解決方案的某些部分,這樣當(dāng)提供了一系列可能的解決方案后,遺傳算 法就可以得出最優(yōu)解決方案?!?。2 1 ( 4 ) 近鄰算法:將數(shù)據(jù)集合中每一個記錄進(jìn)行分類的方法。 ( 5 ) 規(guī)則推導(dǎo):從統(tǒng)計意義上對數(shù)據(jù)中的“如果- n 么“ 規(guī)則進(jìn)行尋找和推導(dǎo)。 2 8數(shù)據(jù)挖掘技術(shù)的分類 數(shù)據(jù)挖掘技術(shù)基本上分為兩大類:描述型數(shù)據(jù)挖掘和預(yù)測型數(shù)據(jù)挖掘,下面就這兩種 挖掘類型進(jìn)行說明i 4 it 7 1 。 2 8 1描述型數(shù)據(jù)挖掘 描述型數(shù)據(jù)挖掘是用來了解數(shù)據(jù)中潛在的規(guī)律。主要包括: ( 1 ) 統(tǒng)計和可視化 統(tǒng)計:了解自己的數(shù)據(jù)的最基本的方法就是計算各種統(tǒng)計變量,如平均值、方差、 標(biāo)準(zhǔn)差等。盡管統(tǒng)計分析需要專業(yè)的技能,但它卻是所有數(shù)據(jù)挖掘技術(shù)中發(fā)展最成熟 9 南京郵電人學(xué)頌- i :研究生學(xué)位論文 第2 章數(shù)據(jù)挖掘技術(shù)概述 同時也是最容易理解的一種技術(shù)i 】。 可視化:幫助快速地、直觀地分析數(shù)據(jù)。 ( 2 ) 聚類( 分群) 聚類是把整個數(shù)據(jù)集劃分成不同的群組。它的目的是要群和群之間的差別很明 顯而同一個群內(nèi)的數(shù)據(jù)盡量相似。 聚類與分類是不同的,聚類在開始之前并不知道要把數(shù)據(jù)集分成幾類,也不知道 依據(jù)哪些變量來分,而分類之前是知道要分成哪幾類的,每個類的特征是什么。 通過聚類得到的分群結(jié)果需要有一個很熟悉業(yè)務(wù)的人來解釋這些分群的意義,對 每個具體的分群給出特征描述。聚類是一個反復(fù)的過程,很多時候一次聚類的結(jié)果對 業(yè)務(wù)來說可能并不好,這時就需要增加或者刪除變量以影響分群的方式,最終得到理 想的結(jié)果。神經(jīng)元網(wǎng)絡(luò)和k 一均值是比較常用的聚類方法。 ( 3 ) 關(guān)聯(lián)分析 關(guān)聯(lián)規(guī)則是尋找數(shù)據(jù)庫中值的相關(guān)性。關(guān)聯(lián)規(guī)則最早提出的動機(jī)是針對購物籃分 析問題提出的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則。 2 8 2預(yù)言型數(shù)據(jù)挖掘 預(yù)言型數(shù)據(jù)挖掘是用歷史來預(yù)測將來。主要包括: ( 1 ) 分類挖掘 按照分類對象的屬性分l 7 另j j 類加以定義,建立分組。換句話說,分類要解決的問 題是為一個事件或者對象歸類。在實(shí)際使用中,既可以用分類來分析已有的數(shù)據(jù),也 可以用它來預(yù)測未來的數(shù)據(jù)。例如在電信業(yè)務(wù)應(yīng)用中,用分類來區(qū)分不同屬性的客戶, 預(yù)測哪些客戶可能會使用電信新業(yè)務(wù)等等。 ( 2 ) 回歸挖掘 回歸是通過具有已知值的變量來預(yù)測其他變量的值,如果此變量隨事件變化,可 成為時間序列預(yù)測。在最簡單的情況下,回歸采用的是像線性回歸這樣的標(biāo)準(zhǔn)統(tǒng)計技 術(shù)。但在大多數(shù)現(xiàn)實(shí)世界中,很多問題是無法用簡單的線性回歸來預(yù)測的。如電信業(yè) 務(wù)的價格、使用量,很難找到簡單有效的方法來預(yù)測,因?yàn)橐枋鲞@些事件的變化需 要數(shù)以百計的變量,且這些變量本身往往是非線性的。為此,人們又發(fā)明了許多新的 手段來試圖解決這個問題,如邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等。 ( 3 ) 時序挖掘 南京i | f l :, i z 人學(xué)碩l j 研究生學(xué)位論文第2 章數(shù)據(jù)挖掘技術(shù)概述 時1 1 日j 序列是用變量過去的值來預(yù)測未來的值。與回歸一樣,它也是用己知的值來 預(yù)測未來的值,區(qū)別在于這些值的變量所處的時間不同,存在時間上的先后關(guān)系。時 間序列采用的方法一般是在連續(xù)的時間流中截取一個時間窗口( 一個時間段) ,窗口內(nèi) 的數(shù)據(jù)作為一個數(shù)據(jù)單元,然后讓這個時間窗口在時間流上滑動,以獲得建立模型所 需要的訓(xùn)練集。比如用前六天的數(shù)據(jù)來預(yù)測第七天的值,這樣就可以建立一個區(qū)間大 小為七的時間窗口。 2 9 數(shù)據(jù)挖掘熱點(diǎn)研究方向 就目荷訂來看,數(shù)據(jù)挖掘?qū)淼臒狳c(diǎn)包括:文本挖掘、w e b 挖掘、生物信息或基因的數(shù) 據(jù)挖掘、多媒體挖掘等。下面就這幾個方面加以簡單介紹。 ( 1 ) 文本挖掘l 。4 1 文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知 識的過程。文本數(shù)據(jù)包括技術(shù)報告、文本集、新聞、電子郵件、網(wǎng)頁、用戶手冊等。 文本挖掘?qū)蝹€文本或文本集( 如w e b 搜索中返回的結(jié)果集) 進(jìn)行分析,從中提取概 念,并按照指定的方案組織、概括文本,發(fā)現(xiàn)文本集中重要的主題。它除了從文本中 提取關(guān)鍵詞外,還要提取事實(shí)、作者的意圖、期望和主張等。這些知識對許多應(yīng)用目 標(biāo),如市場營銷、趨勢分析、需求處理等,都是很有用的。 相對于一般的數(shù)據(jù)挖掘,文本挖掘面臨的主要問題在于挖掘的對象是半結(jié)構(gòu)化或 非結(jié)構(gòu)化的,而且自然語言文本中包含多層次的歧義( 如詞匯、句法、語義、語用等) 等。 ( 2 ) w e b 挖掘1 l w e b 挖掘是從w w w 的資源和行為中抽取感興趣的、有用的模式和隱含的信息,一 般可以分為三類:w e b 內(nèi)容挖掘、w e b 結(jié)構(gòu)挖掘和w e b 應(yīng)用挖掘。 w e b 內(nèi)容挖掘:用來提取文字、圖片或者其他組成網(wǎng)頁內(nèi)容成分的信息和知識。 w e b 結(jié)構(gòu)挖掘:用來提取網(wǎng)絡(luò)的拓?fù)湫畔?,即網(wǎng)頁之間的鏈接信息。從w w w 的 組織結(jié)構(gòu)和鏈接關(guān)系中挖掘知識。 w e b 應(yīng)用挖掘:用來提取關(guān)于客戶如何運(yùn)用瀏覽器瀏覽和使用頁面鏈接的信息。 從w e b 的訪問記錄中抽取感興趣的模式。 ( 3 ) 生物信息或基因的數(shù)據(jù)挖掘 生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個領(lǐng)域,在商業(yè)上很難講有多大的價 南京郵l u 入學(xué)壩i f i j f 究生學(xué)位論文 第2 章數(shù)據(jù)挖掘技術(shù)概述 值,但對于人類卻受益非淺。例如,基因的組合干變?nèi)f化,得某種病的人的基因和正 常人的基因到底差別多大? 能否找出其中不同的地方,進(jìn)而對其不同之處加以改變, 使之成為正?;? 這都需要數(shù)據(jù)挖掘技術(shù)的支持。 對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、 數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一 些新的和好的算法?,F(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而言, 還遠(yuǎn)沒有達(dá)到成熟的地步。l ”】 ( 4 ) 多媒體挖掘 多媒體挖掘就是從大量多媒體數(shù)據(jù)集中,通過綜合分析視聽特性和語義,發(fā)現(xiàn)隱 含的、有效的、有價值的、可理解的模式,得出事件的趨向和關(guān)聯(lián),為用戶提供問題 求解層次的決策支持能力。i 怕1 2 1 0 本章小結(jié) 本章對數(shù)據(jù)挖掘技術(shù)作了簡要的概述,是全文的理論基礎(chǔ)部分。其中涉及到數(shù)據(jù)挖掘 的概念、挖掘過程模型、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘分類、常用算法、熱點(diǎn)研究方向,以及數(shù) 掘倉庫介紹、o l a p 介紹、數(shù)據(jù)挖掘和數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和o l a p 之間的關(guān)系等。 南京i l l u i u 人學(xué)f ! 1 研究生學(xué)位論文第3 章數(shù)據(jù)挖掘中的聚類算法 第3 章數(shù)據(jù)挖掘中的聚類算法 3 1聚類的定義 聚類【“ ii 侶1 ( c l u s t e r i n g ) 是一個將數(shù)據(jù)集劃分成若干組( c l a s s ) 或類( c l u s t e r ) 的過程,并使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度;而不同組中的數(shù)據(jù)對象相似度 較低。相似或不相似的描述是基于數(shù)據(jù)對象屬性的取值來確定的,通常是利用各對象間的 距離來進(jìn)行表示。 3 2聚類算法的典型要求 聚類分析是一個富有挑戰(zhàn)的研究領(lǐng)域,每一個應(yīng)用都有自己獨(dú)特的要求。以下就是對 數(shù)據(jù)挖掘中的聚類分析的一些典型要求71 。 ( 1 ) 可擴(kuò)展性。許多聚類算法在小數(shù)據(jù)集( 少于2 0 0 個數(shù)據(jù)對象) 時可以工作地很好, 隨著數(shù)據(jù)對象的增加,這些聚類算法的處理能力就會下降;但一個大的數(shù)據(jù)庫可 能會包含數(shù)以百萬的對象。利用采樣方法進(jìn)行聚類分析可能得到一個有偏差的結(jié) 果,這時就需要可擴(kuò)展的聚類分析算法。 ( 2 ) 處理不同類型屬性的能力。許多算法是針對基于區(qū)間的數(shù)值屬性而設(shè)計的。但是 有些應(yīng)用需要對其它類型的數(shù)據(jù),如:二值類型、符號類型、順序類型,或這些 數(shù)據(jù)類型的組合進(jìn)行分析。 ( 3 ) 發(fā)現(xiàn)任意形狀的聚類。許多聚類算法是根據(jù)歐氏距離和m a n h a t t a n 距離來進(jìn)行聚 類的。基于這類距離的聚類方法一般只能發(fā)現(xiàn)具有類似大小和密度的圓形或球狀 聚類。而實(shí)際上一個聚類是可以具有任意形狀的,因此設(shè)計出能夠發(fā)現(xiàn)任意形狀 類集的聚類算法是非常重要的。 ( 4 ) 需要( 由用戶) 決定的輸入?yún)?shù)最少。許多聚類算法需要用戶輸入聚類分析中所 需要的一些參數(shù)( 如:期望所獲聚類的個數(shù)) 。而聚類結(jié)果通常都與輸入?yún)?shù)密 切相關(guān):而這些參數(shù)常常也很難決定,特別是包含高維對象的數(shù)據(jù)集。這不僅構(gòu) 成了用戶的負(fù)擔(dān);也使得聚類質(zhì)量難以控制。 ( 5 ) 處理噪聲數(shù)據(jù)的能力。大多數(shù)現(xiàn)實(shí)世界的數(shù)據(jù)庫均包含異常數(shù)據(jù)、不明數(shù)據(jù)、數(shù) 據(jù)丟失和噪聲數(shù)據(jù),有些聚類算法對這樣的數(shù)據(jù)非常敏感并會導(dǎo)致獲得質(zhì)量較差 1 1 南京| i | i j i u 人學(xué)順l j f i j f 究生學(xué)位論義 第3 章數(shù)據(jù)挖掘中的聚類算法 的聚類結(jié)果。 ( 6 ) 對輸入記錄的順序不敏感。一些聚類算法對輸入數(shù)據(jù)的順序敏感,也就是不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論