




已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
摘要 隨著計(jì)算機(jī)科學(xué)的不斷發(fā)展,大量的原始數(shù)據(jù)被不斷收集并存儲(chǔ)到計(jì)算機(jī) 中,面數(shù)援處理能力的低下,造成了盡囂信息豐富,知識(shí)貧乏的現(xiàn)狀。數(shù)據(jù)挖援 用非平凡的方法從大量數(shù)據(jù)中發(fā)現(xiàn)商用的知識(shí),正是應(yīng)此要求而迅速發(fā)展起 來(lái)的一門(mén)科學(xué)。數(shù)據(jù)挖掘包含眾多任務(wù),分類(lèi)是其中一項(xiàng)被廣泛應(yīng)用艙技術(shù)。分 類(lèi)經(jīng)過(guò)長(zhǎng)麓的發(fā)最已產(chǎn)生了眾多算法,德其串大部分幫是內(nèi)存駐留算法,通常假 定數(shù)據(jù)量很小。隨著數(shù)據(jù)庫(kù)中數(shù)據(jù)量越來(lái)越大,建立高效的、適用于大型數(shù)據(jù)庫(kù) 系統(tǒng)款分炎葵i 翊置戲失數(shù)據(jù)挖攥懿一個(gè)瓣竣毪翔熬。 鐵路中的客票系統(tǒng)蘊(yùn)含了豐富的數(shù)據(jù)信息,如何從這海掇的信息中挖掘出有 用的知識(shí),是一會(huì)亟待研究解決豹閥題。本文將數(shù)據(jù)挖掘中能分類(lèi)技術(shù)月于鐵鼴 客票營(yíng)銷(xiāo)分析中的客票分類(lèi),形成了一種新的分類(lèi)方法t td t c ( d e c i s i o nt r e e c l a s s i f i c a t i o nb a s e do l lt r a i nt i c k e t s ) , 該方法針對(duì)鐵路客票的實(shí)際特點(diǎn),采用掰 的基于文件分割秘定量規(guī)則茲決燕樹(shù)分類(lèi)冀法s fd t ( d e c i s i o nt r e e c l a s s i f i c a t i o na l g o r i t h mb a s e do l ls p l i t t i n gf i l e s ) 對(duì)客票數(shù)據(jù)讖行分析,以達(dá)到依 攢窖票屬黢特征對(duì)客蔡發(fā)售及列車(chē)運(yùn)營(yíng)蓊提避行勢(shì)類(lèi)及頸涎瓣鞫懿。該方法被瑙 予客票分析,得出了能夠指導(dǎo)列車(chē)營(yíng)運(yùn)的非平凡模式和決策信息,實(shí)現(xiàn)了分類(lèi)技 術(shù)與大規(guī)模客票數(shù)據(jù)庫(kù)系統(tǒng)捆縫合的一次嘗試。 t td t c 方法以鐵路客票數(shù)據(jù)為基礎(chǔ),以鐵路客票營(yíng)銷(xiāo)分析為目的,針對(duì)鐵 路客票信息數(shù)據(jù)量大、屬性復(fù)雜、域值廣等特點(diǎn),實(shí)現(xiàn)了從數(shù)據(jù)預(yù)處理、決策樹(shù) 塞殘至l 燕潮提取、戔識(shí)產(chǎn)生等一系列遙穩(wěn)。該方法憲壘適應(yīng)鐵路窖票營(yíng)銷(xiāo)分析豹 需要,能夠?qū)推睌?shù)據(jù)進(jìn)行較為有效的分析和處理,得出指導(dǎo)鐵路營(yíng)運(yùn)的決策信 息。 s f _ d t 算法以決策樹(shù)分類(lèi)算法i d 3 的基本思想為基礎(chǔ),用基于文件分割的方 法代替原有的基于內(nèi)存的算法,提高了算法的可規(guī)模性,可以處理超大覯模的數(shù) 據(jù)。另外,算法還產(chǎn)童了帶有統(tǒng)計(jì)信息的定量規(guī)則,能夠清晰地提供主類(lèi)的分布 情況,為數(shù)據(jù)分析提供了更為詳細(xì)的信息。 遙遘稀究,蔽鏹為分類(lèi)技術(shù)懿發(fā)震翎建了薪熬波蠢鶩豢,為其進(jìn)一步研究奠 定了應(yīng)用熬礎(chǔ)。另方面,也將數(shù)據(jù)挖掘的技術(shù)用于鐵路客漿營(yíng)銷(xiāo)分析,為鐵路 客運(yùn)豹臺(tái)璦安接及緞級(jí)管理提供了豐富豹決策信惠。 關(guān)鍵字:數(shù)據(jù)挖掘,分類(lèi),決策樹(shù),客票營(yíng)銷(xiāo)分析,定量規(guī)則,客運(yùn) a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rs c i e n c e ,m o r ea n dm o r eo r i g i n a ld a t ai s c o l l e e t e da n ds t o r e di nc o m p u t e r s 。t 如p o o r a b m t yo f m a n a g i n g d a t am a k e sd a t ar i c h a n dk n o w l e d g el e a n i ti sf o rt h i sr e a s o nt h a td a t am i n i n 幽t od i s c o v e ru s e f u l k n o w l e d g ef r o ma m o u n t o fd a t a b yu n c o m m o nm e t h o d s ,h a sd e v e l o p e dv e r yq u i c k l y c l a s s i f i c a t i o ni saw i d e l yu s e dt e c h n o l o g yi nd a t am i n i n g 。t h e r ea r em a n ya l g o r i t h m s t h a th a v eb e e n p r o p o s e dr e c e n t l y , b u tm o s to f t h e mw e r em e m o r yb a s e da n du s u a l l y a s s u m et h a tt h ea m o u n to fd a t ai sn o tv e r yl a r g e w 熱t(yī) h el a r g e ra n d l a r g e ra m o u n t o f d a t a , i tb e c o m e sac h a l l e n g i n gp r o b l e mt of i n da ne f f i c i e n c yc l a s s i f i c a t i o na l g o r i t h m t h a ta d a p t st ol a r g ed a t a b a s e w i t l lr i c hd a t ai nw a i nt i c k e t s s y s t e m 。h o wt o m i n eu s e f u lk n o w l e d g ei sa l l i m p o r t a n tp r o b l e m a p p l y i n gt h et e c h n o l o g yo fc l a s s i f i c a t i o ni nt r a i nt i c k e t sa n a l y s i s , w ec o n s t r u c tan e wc l a s s i f i c a t i o nm e t h o dt t _ d t c ( d e c i s i o nt r e ec l a s s i f i c a t i o n b a s e do nt r a i nt i c k e t s ) 。w ea p p l yn e wc l a s s i f i c a t i o na l g o r i t h ms f d t ( d e c i s i o n t r e ec l a s s i f i c a t i o na l g o r i t h mb a s e do n s p l i t t i n gf i l e s ) t h a t b a s e so n s p l i t t i n gf i l e sa n d q u a n t i t yr u l e s ,w h i c ha i m e da tt h ec h a r a c t e r so ft r a i nf i c k e t s w er e a l i z et h ea n a l y s i s a n d p r e d i c t i o na b o u tt i c k e t ss a l ea n d t r a i no p e r a t i o nb yt h i sm e t h o d t 毯sm e t h o dh a s b e e nu s e di nw a i nt i c k e t sa n a l y s i ss u c c e s s f u l l y , a n d p r o v i d e d b n c o i n i n o n p a t t e r n sa n d d e c i s i o n i n f o r m a t i o n ,a n da c c o m p l i s h e d t h ec o n n e c t i o nb e t w e e nc l a s s i f i c a t i o n t e c h n o l o g y a n d l a r g ed a t a b a s e + t t _ d t cr e a l i z e sas e r i e so fp r o c e s s e si n c l u d i n gd a t ap r e p r o c e s s ,d e c i s i o nt r e e c l a s s i f i c a t i o n ,p r o d u c i n gr u l e sa n dp r e d i c t i o na n a l y s i s ,w h i c hb a s e do nt h ed a t ao f t r a i nt i c k e t sa n da i m e da tt h ec h a r a c t e r so ft r a i nf i c k e bw h i c hh a v el a r g ea m o u n to f d a t aa n dc o m p l e xa t t r i b u t e s 羽_ l i sm e t h o dc a nf u l l ym e e tt r a i nt i c k e t s a n a l y s i si n r a i l w a y , c a l le f f i c i e n t l ya n a l y z e a n dd e a lw i t ht r a i nt i c k e t sa n da t t a i nd e c i s i o n k n o w l e d g e w h i c hd k e mt h et r a i n o p e r a t i o n 。 t h e a l g o r i t h mo fs f _ d t , w h i c h b a s e so nt h ei d e ao fd e c i s i o nt r e ec l a s s i f i c a t i o n a l g o r i t h mi d 3 ,u s et h em e a n so f f i l es p l i t t i n gt a k et h ep l a c eo f t h em e a n sw h i c hb a s e s o n m e m o r y i ti m p r o v e st h es c a l a b i l i t yo fc l a s s i f i c a t i o na l g o r i t h ma n dc a l ld e a lw i t h v e r yl a r g e d a t a b a s e m o r e o v e rt h i s a l g o r i t h m e a r l p r o d u c eq u a n t i t y r u l e sw i t h s t a t i s t i c a li n f o r m a t i o na n ds u p p l yt h ed i s t r i b u t i o no fm a i nc l a s si nd e t a i l s s oi tc a n s u p p l y m o r ed e t a i li n f o r m a t i o nf o rd a t a a n a l y s i s w ef o u n dan e w a p p l i c a t i o nb a c k g r o u n df o rc l a s s i f i c a t i o nf o rf u r t h e rr e s e a r c h m o r e o v e r , b ya p p l y i n gt h ec l a s s i f i c a t i o ni nt h et r a i nt i c k e t sa n a l y s i s ,w ep r o v i d er i c h d e c i s i 強(qiáng)i n f o r m a t i o nf o rt h e m a n a g e m e n t o f t r a i no p e r a t i o n k e yw o r d s :d a t am i n i n g ,c l a s s i f i c a t i o n , d e c i s i o nt r e e ,t r a i nt i c k e t sa n a l y s i s , q u a m i 夠r u l e s ,p a s s e n g e rt r a n s p o r t h 決繁秘分類(lèi)旁法及箕在鐵路客幕營(yíng)銷(xiāo)分析中韻程疆 第一章緒論 盡管數(shù)據(jù)挖掘技術(shù)已經(jīng)窩了很大的發(fā)展,并息應(yīng)用于社會(huì)生產(chǎn)的蒜個(gè)方面, 但是鑒予鐵路客票數(shù)據(jù)的特殊往,一直未能應(yīng)用劐鐵路客桑營(yíng)銷(xiāo)分幫千中。本文 針對(duì)客票數(shù)據(jù)的特點(diǎn)研制開(kāi)發(fā)了適用予客票挖掘的決策樹(shù)分類(lèi)方法鞭d t c , 并將其盤(pán)翅予鐵路塞票營(yíng)銷(xiāo)分析,褥出了豐富的決策信息,用于指導(dǎo)裙車(chē)營(yíng)運(yùn)。 下面就論文的研究背景、研究意義以及論文的蹩體結(jié)構(gòu)作一介紹。 l 。l 論文髓研究背景 在數(shù)據(jù)庫(kù)技術(shù)迅猛發(fā)展的今天,人們產(chǎn)生和收集各種類(lèi)型數(shù)據(jù)的能力迅速 提高,造成數(shù)據(jù)的大量堆積。其中包括條碼在商晶中的廣泛使用,商務(wù)、科學(xué) 和行政事務(wù)的計(jì)算機(jī)化,以及由文本和圖像掃描平臺(tái)到衛(wèi)星遙感系統(tǒng)豹數(shù)據(jù)收 集工其靜遴步。魏矯,律必全球信息系統(tǒng)的萬(wàn)維兩的流幸予,更是將我們淹沒(méi)在 數(shù)據(jù)和信息的汪洋太海中。存儲(chǔ)數(shù)據(jù)的爆炸性增長(zhǎng)激起了對(duì)新技術(shù)和自動(dòng)工具 鵑囂求,以幫助我們將海量數(shù)據(jù)轉(zhuǎn)換成績(jī)息和醞識(shí)。盡管很早就出魏了籬摹的 數(shù)據(jù)統(tǒng)計(jì)技術(shù),能夠?qū)?shù)據(jù)讖行一定的分析,但這遠(yuǎn)遠(yuǎn)不夠,我們需要更為先 避的智g 數(shù)據(jù)分拯工其對(duì)海鬈鶼數(shù)據(jù)售感進(jìn)露更為深入斡瑗鰓秘分磐擎。 因此,在商業(yè)領(lǐng)域和科學(xué)研究領(lǐng)域都迫切要求發(fā)展這樣的技術(shù),能夠從如 此海量的數(shù)據(jù)中抽敬如非平凡模式,找出數(shù)據(jù)變化的規(guī)律和數(shù)據(jù)之潮的楣互依 存關(guān)系,使人們能夠從宏觀(guān)的商層次的角度來(lái)審視數(shù)據(jù),充分發(fā)掘數(shù)掰的潛力, 指導(dǎo)人們的行為,為決策和科學(xué)發(fā)展提供有力的支持。 于是,數(shù)據(jù)挖搦由大量數(shù)據(jù)中,靂菲平凡的方法發(fā)現(xiàn)有用的知識(shí),就 成了一種自然而迫切的社會(huì)需求。正是這種廣泛的社會(huì)需求引起了人們的關(guān)注, 導(dǎo)致了數(shù)據(jù)挖撼研突翹蓬勃野展穗數(shù)據(jù)挖掘技米的不斷進(jìn)步。數(shù)據(jù)挖掘任務(wù)一 般可以分為兩類(lèi):描述和預(yù)測(cè)。描述性挖掘刻畫(huà)數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性;預(yù) 測(cè)性挖掇怒在當(dāng)翦數(shù)據(jù)上進(jìn)褥接藪,以送行頹濺。數(shù)據(jù)攜掇主要袁獄下凄能: 對(duì)概念和類(lèi)進(jìn)行描述;利用關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;分類(lèi)和預(yù)測(cè);聚類(lèi)分析; 孤立點(diǎn)分櫥;演變分撰,攢述行為隨時(shí)閥變化懿對(duì)象的規(guī)律或趨勢(shì),并對(duì)其建 模f 1 】磁。 數(shù)據(jù)庫(kù)蘊(yùn)含大量的信息,可以用來(lái)做出各種勰能的商務(wù)決策。農(nóng)數(shù)據(jù)挖握 決鐿糖分類(lèi)雋法及箕在鐵鑲騫票營(yíng)鏞努輯孛斡盤(pán)甬 眾多的功能中,分類(lèi)是其中一項(xiàng)非常重要的任務(wù)。分類(lèi)是這樣的過(guò)程,它找出 縐述并區(qū)分?jǐn)?shù)據(jù)類(lèi)或穰念豹橫嫠,以矮能夠使薅模型預(yù)測(cè)類(lèi)標(biāo)號(hào)未知的對(duì)象類(lèi) 【2 】。分類(lèi)的目的是提出一個(gè)分類(lèi)函數(shù)或分類(lèi)模型,該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù) 項(xiàng)映射到繪定類(lèi)剮中瓣菜一個(gè)。分類(lèi)楚數(shù)據(jù)挖掘?qū)彽囊涣钪匾獑?wèn)題,匿蠹外的 研究人員在數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、專(zhuān)家系統(tǒng)等領(lǐng)域中對(duì) 分類(lèi)聞?lì)}避行了大鬟的硬究,提出了一系列鮑分類(lèi)算法,如決策樹(shù)分類(lèi)、貝時(shí) 斯分類(lèi)、貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)等( 詳見(jiàn)【3 】) 。j 璉年來(lái),分類(lèi)技術(shù)已l 被廣泛、 有效地應(yīng)用于科學(xué)實(shí)驗(yàn)、醫(yī)療診斷、氣象預(yù)擐、商業(yè)預(yù)測(cè)、寨件偵破等領(lǐng)域, 引起了工業(yè)界和學(xué)術(shù)界的極大關(guān)注。 決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)方法【4 】【s 1 。它者眼于從一組無(wú)次序、 囂痰羹| l 斡實(shí)鑲中捺臻決策瓣襲示形式秘分類(lèi)規(guī)贈(zèng)。它采蕉蠹瓚向下靜遞歸方式, 在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性的比較并根據(jù)不同屬性值判斷從該結(jié)點(diǎn)向下的分 枝,在決策樹(shù)鼴時(shí)縮點(diǎn)得戮結(jié)論。所蔽從壤到時(shí)絳點(diǎn)翳一條籍徑葳對(duì)應(yīng)著一條 合取規(guī)則,整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。決策樹(shù)分類(lèi)法實(shí)現(xiàn)簡(jiǎn)單, 層次績(jī)椽濤曦,夠產(chǎn)生荔予理燼和分析懿巍則,困既是臻蔻瘟援較必廣泛懿 分類(lèi)方法階【1 0 1 。 本文中我們將決策樹(shù)分類(lèi)闋鐵路客票營(yíng)銷(xiāo)分掇相結(jié)合,測(cè)用決策楗的方法 對(duì)客票數(shù)據(jù)進(jìn)行分類(lèi),并將分類(lèi)得出的預(yù)測(cè)信息,應(yīng)用于鐵路客運(yùn)的上層決策 分析舊f l l 】【1 鯽。 我霞鐵路窖票系統(tǒng)每囂產(chǎn)生的售鬃記錄高遮3 0 0 余萬(wàn)條,分布存儲(chǔ)在各級(jí) 服務(wù)器的數(shù)據(jù)庫(kù)中,以一定周期傳輸、匯總、集中到鐵道部,數(shù)據(jù)經(jīng)過(guò)整理壓 縮勞長(zhǎng)裁保存【l l 】h2 】。為了實(shí)現(xiàn)較高速發(fā)的怒大援模數(shù)據(jù)瘁套誨和多楚度豹統(tǒng)計(jì) 分析,鐵道部門(mén)對(duì)上述交易數(shù)據(jù)進(jìn)行了避一步的爛理和重組,形成了以決策分 糲鴦主要瓣的大型數(shù)據(jù)疼系統(tǒng)客鬃營(yíng)銷(xiāo)分稷蓉裂嘲,它是采震全耨戇數(shù)攢 模式組織的大型數(shù)據(jù)庫(kù)系統(tǒng),其中存儲(chǔ)了大量的原始客票數(shù)據(jù),這必?cái)?shù)據(jù)規(guī)模 巨大,蘊(yùn)涵豐富的決策信息和知識(shí),開(kāi)發(fā)這些寶賽馳信息資源,服務(wù)予客運(yùn)營(yíng) 銷(xiāo)決策,是提高鐵路客運(yùn)市場(chǎng)競(jìng)爭(zhēng)力的一項(xiàng)重要 壬務(wù),也是目前迫切需要解決 的問(wèn)題。 鐵路客票營(yíng)銷(xiāo)分祈不儀僅是簡(jiǎn)單的統(tǒng)計(jì)分析,最主要的是散非平凡模式的 2 決策樹(shù)分類(lèi)青法愛(ài)其在鐵路饔象營(yíng)鑣分輯串豹盤(pán)閹 知識(shí)提取。因此,我們需要利用其提供的良好的數(shù)據(jù),結(jié)合數(shù)據(jù)挖掘的技術(shù), 獲中提煉出更為有踴的決策知識(shí)。本文將數(shù)據(jù)挖掘中分類(lèi)的決策樹(shù)惑想用于客 運(yùn)營(yíng)銷(xiāo)分析中客票的屬性分析,對(duì)客票發(fā)售的時(shí)間、數(shù)量、種類(lèi)、列率運(yùn)營(yíng)的 特點(diǎn)等進(jìn)褥分類(lèi)褻疆溺,褥出客運(yùn)中鵑羲于規(guī)律,提供給上屢決策部門(mén)避行進(jìn) 一步的決策分析( 詳見(jiàn)【1 1 1 ) 。 1 2 論文的研究意義 我國(guó)地廣物博,人口巨大,市場(chǎng)經(jīng)濟(jì)的迅速發(fā)展需要人流物流的大規(guī)模轉(zhuǎn) 移,氌就適成了莓前我國(guó)大規(guī)模的入日流動(dòng)現(xiàn)狀。特鬟是春節(jié)、寒暑假、五一、 十一長(zhǎng)假更是客流的高峰,這種大規(guī)模的人口流動(dòng)大大加重了客運(yùn)負(fù)擔(dān)。就我 國(guó)囂蔫弱壤況,鐵路運(yùn)輸仍然愚最重要豹客運(yùn)方式,我蠶有大規(guī)模翡鐵路閼絡(luò), 每天有幾酉萬(wàn)的客流量,如何合理有效的組織客運(yùn),控帝9 客流,保證鐵路暢通, 合理離效運(yùn)轉(zhuǎn)是一個(gè)常僮樽關(guān)注的謠蘧h “。 客票睹銷(xiāo)分析怒對(duì)大規(guī)??推睌?shù)據(jù)進(jìn)行的決餓分析,它建立在超大規(guī)模的 客票數(shù)據(jù)摩系統(tǒng)之上,該系繞包含蓑蓑干年的客漿發(fā)售記蒙,露這些數(shù)握中蘊(yùn) 涵著豐富的決策信息。目前在這些數(shù)據(jù)上只能做些簡(jiǎn)單的統(tǒng)計(jì)分析,無(wú)法進(jìn) 行真正意義上的營(yíng)銷(xiāo)分析,提取有用的決策信息。因此,急鼴將數(shù)據(jù)挖掘技術(shù) 葡客票營(yíng)銷(xiāo)分析葙結(jié)合,以使對(duì)巨量的客票數(shù)據(jù)進(jìn)行分析和處理,產(chǎn)生應(yīng)用予 鐵路營(yíng)銷(xiāo)分析的決策知識(shí)。數(shù)據(jù)挖掘技術(shù)在鐵路窖票分析中有著相當(dāng)廣泛的應(yīng) 瘸蘺景,密票系統(tǒng)斡數(shù)器量鏨繁重大,疆盈憊含麓豐塞的決策蓓怠,因魏,從 中挖掘出商用的知識(shí)模式指導(dǎo)列車(chē)營(yíng)運(yùn),合理分配客流是非常必要和迫切需要 解決的閥鬏。 在數(shù)據(jù)挖掘技術(shù)日益成熟的今天,已經(jīng)出現(xiàn)了很多數(shù)據(jù)挖掘的軟件工具, 如s a s 、d b m i n e r 、b u s i n e s s o b j e e t 、q u e s t 、m i n e s e t 等。這些都是逶鼴豹數(shù) 據(jù)挖掘商業(yè)軟件,它們都有較強(qiáng)的數(shù)據(jù)挖掘能力,能夠?qū)σ欢ㄒ?guī)模的商業(yè)數(shù)據(jù) 進(jìn)行關(guān)聯(lián)飆則、分類(lèi)、聚類(lèi)等操作。但這些工具對(duì)于超太規(guī)模的客票數(shù)據(jù)的她 理卻受到綴大的限制,而且這些工具酌設(shè)詩(shī)著眼予通用的商業(yè)角度,因此不能 針對(duì)鐵路裙票數(shù)據(jù)的實(shí)際情況進(jìn)行相應(yīng)的分析處遐,無(wú)法直接應(yīng)用予客票數(shù)據(jù) 漿挖撼。 針對(duì)這種情況,本文著眼于鐵路客票營(yíng)銷(xiāo)分析的具體情況,針對(duì)客票數(shù)據(jù) 決蒙褳分類(lèi)旁法及其在鐵鏈客票藿銷(xiāo)分析中朗瘦麓 的具體特征和客票信息挖掘的具體要求,研究開(kāi)發(fā)一種利用決策樹(shù)分類(lèi)的基本 恿想,適合予鐵路客蔡努類(lèi)鶼方法耵d t c ( d e c i s i o n t r e e c l a s s i f i c a t i o n b a s e d o n t r a i nt i c k e t s ) 。其中對(duì)決策糖分類(lèi)算法進(jìn)行了相成的改進(jìn),使之適臺(tái)大規(guī)模客 桑數(shù)攝戇楚疆。零文零l 瘸改避 舞豹毅算法s f _ d t ( d e c i s i o nt r e ec l a s s i f i c a t i o n a l g o r i t h m b a s e d o n s p l i t f i n g f i l e s ) ,將數(shù)據(jù)挖掘分類(lèi)中的決策樹(shù)技術(shù)用予客票營(yíng) 鑲分櫥孛麴客票穆類(lèi)分接,報(bào)攫客票翡實(shí)際記錄遴行實(shí)驗(yàn),褥塞了獵簿列車(chē)營(yíng) 運(yùn)的決策信息,實(shí)現(xiàn)了分類(lèi)技術(shù)在客票旃銷(xiāo)分析中的應(yīng)用。 通過(guò)研究,我們驗(yàn)涯了將數(shù)據(jù)挖掘技術(shù)應(yīng)用予鐵路窖檠營(yíng)錈分析的可行性 和有效性,勞發(fā)現(xiàn)了相應(yīng)的問(wèn)題,也就是純粹的理論研究與實(shí)際應(yīng)用之間的差 距。我們針對(duì)鐵道科學(xué)院電子計(jì)算技術(shù)研究所客隳分析的實(shí)際震要,努力從理 論和應(yīng)用兩個(gè)方面解決這個(gè)闡題。 1 3 論文的整體綾構(gòu) 本文簡(jiǎn)要介紹了數(shù)據(jù)挖掘技術(shù)中的決策村分類(lèi)及鐵路客票營(yíng)銷(xiāo)分析的內(nèi) 容,重點(diǎn)分纓我們針對(duì)鐵路客梁營(yíng)銷(xiāo)分析設(shè)計(jì)開(kāi)發(fā)的分類(lèi)方法t td t c ,及改進(jìn) 韻決策樹(shù)分類(lèi)算法s fd t ,最后將我們?cè)O(shè)計(jì)的決策樹(shù)分類(lèi)方法哪t c 和鐵路 客票營(yíng)銷(xiāo)分柝相結(jié)食,對(duì)客檠數(shù)據(jù)進(jìn)行分析。 各章內(nèi)容安排如下: 第一幫緒論 介紹本文靜研究背景及研究意義,總結(jié)整個(gè)研究工作的內(nèi)容以 及論文的組織結(jié)構(gòu)。 第二灌數(shù)蕹挖搖孛熬分類(lèi)技術(shù) 首先對(duì)數(shù)據(jù)挖掘的基本慰想、方法、過(guò)程、內(nèi)容進(jìn)行簡(jiǎn)要介紹, 然惑燕點(diǎn)分纓分類(lèi)的概念、基本感想及主要舞法,接下來(lái)舟紹零 文中應(yīng)用的主臻方法一決策樹(shù)分類(lèi)。 第三顰鐵路客票營(yíng)銷(xiāo)分析 本章主要介紹鐵路客票籬銷(xiāo)分析的內(nèi)容和背景,客票數(shù)據(jù)的來(lái) 源及其特點(diǎn),以及客票落銷(xiāo)分析的內(nèi)容和意義。 第溷鬻基予鐵路客鬃薷錆分幫亍的決策瓣分類(lèi)方法n d t c 本章詳細(xì)介紹了決策樹(shù)分類(lèi)方法1 t - d t c 的全過(guò)程,從數(shù)據(jù)預(yù) 4 決錘鍵分類(lèi)方法及其在鐵褥窖票藿鎮(zhèn)分輯中載班甩 第五章 第六嫩 處理、決策樹(shù)分類(lèi)算法、到剪枝、規(guī)則形成,最后對(duì)其中出現(xiàn)的 翊題進(jìn) 亍分祈。其中詳緇介紹了該分類(lèi)方法的藿點(diǎn)內(nèi)容基子 文件分割和定量規(guī)則的改進(jìn)的決策樹(shù)算法s f d t ,給出算法的 援述積實(shí)現(xiàn)過(guò)程。 t td t c 在鐵路客票營(yíng)銷(xiāo)分析中的應(yīng)用 本鬻將t td t c 方法應(yīng)懲予鉸爨容票營(yíng)鎊分梧,跟蹤狂d t c 實(shí)現(xiàn)的全過(guò)程,從實(shí)例的角度詳細(xì)分析整個(gè)方法的執(zhí)行,并對(duì) 產(chǎn)生的結(jié)果進(jìn)行分析,繕蹬有益予上層決策分輯的知識(shí)。 結(jié)束語(yǔ) 對(duì)全文進(jìn)行總縫,并指嫩鼴要進(jìn)一步傲的研究。 決鍍藕贊類(lèi)殼法疆其在鐵游客幕營(yíng)銷(xiāo)分輯孛的蠹蹋 第二章數(shù)據(jù)挖掘中的分類(lèi)技術(shù) 信息科學(xué)的發(fā)展引起數(shù)據(jù)的高度膨脹,如何有效地處理大規(guī)模的數(shù)據(jù)信息, 褥出有用知識(shí),饅成為囂藏俊褥關(guān)注的閼題。數(shù)掇挖掘放大援模數(shù)據(jù)孛發(fā) 現(xiàn)非平凡模式,正怒應(yīng)此要求迅速發(fā)展起來(lái)的- - v j 科學(xué)。本章簡(jiǎn)要介紹了數(shù)據(jù) 挖掘及分類(lèi)技術(shù),并對(duì)其中的決策樹(shù)分類(lèi)做較為詳細(xì)昀介緇。 2 1 數(shù)據(jù)挖掘概述 蘧麓鑲惑科學(xué)鼓術(shù)弱迅速發(fā)建,數(shù)掇量鑫盞纛大,數(shù)據(jù)麴浚集箱存鑲邀越 來(lái)越容易。一方面,許多新型的數(shù)據(jù)收集過(guò)程更有效、更精確。例如,在商場(chǎng) 銷(xiāo)售系統(tǒng)中使用斡條碣讀入器能夠分辨掰敗買(mǎi)纛菇憨秘類(lèi)、凝號(hào)及儈揍等售塞, 使商場(chǎng)能夠很容易收集到完善的銷(xiāo)售記淥。許多原來(lái)依靠人工才能完成的數(shù)據(jù) 收集過(guò)程毆經(jīng)半自動(dòng)化或全自動(dòng)化,使褥單位時(shí)閱內(nèi)可以收集到的數(shù)據(jù)量迅速 增加。此辮,一些新的裝置能夠收集原來(lái)很困難躐根本不可能收集到的信息。 另一方面,數(shù)據(jù)存儲(chǔ)設(shè)備的價(jià)格已大幅下降,存儲(chǔ)的形式甏趨多樣化,且性能 躉強(qiáng)。一魏新懿存德奔震,鐨翔可讀寫(xiě)豹先盤(pán),w 戳方便撼存儲(chǔ)大蝥豹數(shù)據(jù)。 由于以上兩方面的原因,使得目前能夠以合理的成本收集和存儲(chǔ)大量的數(shù)據(jù), 這些數(shù)搖一般毒德予鼗器摩孛,鐵零l 予梭索幫囂綏戇處理。 這些既為從數(shù)據(jù)中抽取有用的信息提供了機(jī)遇,同時(shí)也給大規(guī)模數(shù)據(jù)的知 識(shí)接取撮爨了挑竣。麓蕈的絞計(jì)分櫥,跑據(jù)計(jì)算媳篷、標(biāo)臻方差等,一定程度 上是有用的。但是,這種簡(jiǎn)單分析的結(jié)果還不能夠揭示出隱含在大量數(shù)據(jù)中的 知識(shí)。因此,急需一軍申好的方法對(duì)大規(guī)模的數(shù)據(jù)避行分拆處理。 數(shù)據(jù)挖掘,又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是描從數(shù)據(jù)庫(kù)中提取非平凡模式 【2 】【1 3 】。這燃模式是有效的、新穎的、有潛在實(shí)用價(jià)值的和易于理解的。提取的 知識(shí)霹戳襲示為禳念、規(guī)粥、規(guī)律和禳殘等形式。 數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)的過(guò)程,分三個(gè)主要階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、 結(jié)采評(píng)價(jià)灝表這暖 ( 1 ) 數(shù)據(jù)準(zhǔn)備 數(shù)蘩瞧簽除段囊一些子狳浚穆藏,箕孛包搖:數(shù)據(jù)濤溪( d a t a 如蕊n g ) , 去除噪聲或不一致的數(shù)據(jù);數(shù)據(jù)集成( d a t ai n t e g r a t i n g ) ,將多個(gè)數(shù)據(jù)源的數(shù)據(jù) 6 決鑲挺努類(lèi)鴦法及其在鐵終客票營(yíng)銷(xiāo)分輯串鞠盛精 歸并在一起;數(shù)據(jù)選擇( d a t as e l e c t i n g ) ,從數(shù)據(jù)庫(kù)中檢索與分析任務(wù)相關(guān)的數(shù) 攥;數(shù)器變換( d a t a t r a n s f o r m i n g ) ,將數(shù)撩交換或統(tǒng)一成適合挖掘的形袋e ( 2 ) 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘除段楚知識(shí)發(fā)袋過(guò)程中的核心除段。在這個(gè)獪段,采鬻蒗予智能 的方法去提取數(shù)據(jù)模式,其中包括的要點(diǎn)有: 掘程產(chǎn)生瑕設(shè):也裁怒讓數(shù)據(jù)挖掇系統(tǒng)雋懲戶(hù)產(chǎn)生鎂浚,還楚攥戶(hù)自己 對(duì)于數(shù)據(jù)摩中可能包含的知識(shí)提出假設(shè)的問(wèn)題。前一種稱(chēng)為發(fā)現(xiàn)型 ( d i s c o v e r y 。d r i v e n ) 數(shù)摟挖握,后一秘稱(chēng)為驗(yàn)證型( v e r i f i c a t i o n - d r i v e n ) 數(shù)據(jù) 挖掘。 選擇合適的挖掘工具。 知識(shí)挖掘靜操作。 驗(yàn)證發(fā)現(xiàn)的知識(shí)。 ( 3 ) 結(jié)果評(píng)俊霹表達(dá) 根據(jù)用戶(hù)的決策目的,對(duì)提取的倍息進(jìn)行分析和評(píng)價(jià),把最有價(jià)值的信息 囂分出來(lái),共量逶遐決策支持工具提交繪決策考。這一步豹鑷務(wù)不儀懋怒結(jié)果 表達(dá)出來(lái),還要對(duì)挖掘出的數(shù)據(jù)模式進(jìn)行評(píng)價(jià)、過(guò)濾處理。 2 2 分類(lèi) 分類(lèi)是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù),目前在商業(yè)上應(yīng)用非常廣泛1 4 】。 下囂對(duì)分類(lèi)接本骰更為詳纓戇奔紹。 2 2 1 分類(lèi)的基本概念 分類(lèi)( c l a s s i f i c a t i o n ) 是攢提出一個(gè)分類(lèi)丞數(shù)或分類(lèi)模鍪( 也穗終分類(lèi)器) , 該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè)1 2 1 。數(shù)據(jù)分類(lèi)是一個(gè) 兩步過(guò)程; 第一步,建立一個(gè)模型,描述預(yù)定的數(shù)據(jù)類(lèi)或概念集。通過(guò)分析由屬性描 述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。假定每個(gè)元組屬于一個(gè)預(yù)定義的類(lèi),由一個(gè)稱(chēng)作 梁標(biāo)號(hào)瘸性豹屬性確定。對(duì)予分類(lèi),數(shù)據(jù)元組也稱(chēng)作樣本、實(shí)鍘或?qū)ο?。為?拒模型而被分析的數(shù)據(jù)元組影成訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集中的單個(gè)元組稱(chēng)作訓(xùn) 練徉零,薺隧惑遮內(nèi)樣本群選取。由予提供了每個(gè)調(diào)練樣本的類(lèi)標(biāo)弩,該步驟 也稱(chēng)作有指導(dǎo)的學(xué)習(xí)( 即在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類(lèi)的指導(dǎo)下進(jìn)行模型 決策樹(shù)分類(lèi)方法及其在鐵路客票營(yíng)銷(xiāo)分析孛的瘟舄 戇學(xué)習(xí)) 。它不霜予無(wú)攆導(dǎo)豹學(xué)習(xí)( 如袋類(lèi)) ,在鄭里,每個(gè)調(diào)練樣本鵲類(lèi)標(biāo)號(hào) 是未知的,要學(xué)習(xí)的類(lèi)集合和數(shù)量也可能事先不知道。通常,學(xué)習(xí)模測(cè)用分類(lèi) 燒劉、決策樹(shù)或數(shù)學(xué)公式豹形式提供。該溉剮可滋用來(lái)瓷以后翡數(shù)據(jù)樣本分類(lèi), 也能對(duì)數(shù)據(jù)庫(kù)的內(nèi)容提供更好的理解。 第二步,使用模型進(jìn)行分類(lèi)。首先譯佑模型( 分類(lèi)法) 的礞測(cè)準(zhǔn)確率。保 持( h o l d o m ) 方法魑一種使用桊標(biāo)號(hào)樣本測(cè)試集的簡(jiǎn)單方法。這些樣本隨機(jī)選 取,并獨(dú)立于訓(xùn)練樣本。對(duì)于每個(gè)測(cè)試樣本,將融知的類(lèi)標(biāo)號(hào)與該樣本的學(xué)習(xí) 模型類(lèi)預(yù)測(cè)比較。被模型正確分類(lèi)的測(cè)試樣本的褥分比就楚模型在給定測(cè)試集 上的準(zhǔn)確率。注意,如果模型的準(zhǔn)確率根據(jù)訓(xùn)練數(shù)據(jù)集評(píng)估,評(píng)估可能是樂(lè)觀(guān) 酌,醫(yī)兔學(xué)習(xí)模鍪l 傾向予過(guò)分適合數(shù)據(jù)( 韶,它荀能并入曹i l 練數(shù)據(jù)中菜些異常, 這些異常不出現(xiàn)在總體樣本群中) 。因此,通常使用測(cè)試集來(lái)評(píng)估分類(lèi)算法的準(zhǔn) 確率。鬣果認(rèn)為摸型的準(zhǔn)確率胃戮接受,就可默翔它對(duì)類(lèi)標(biāo)號(hào)未知的數(shù)程元組 或?qū)ο筮M(jìn)行分類(lèi)。 2 。2 。2 分類(lèi)的基本技術(shù) 經(jīng)過(guò)多年的研究,目前已產(chǎn)生了眾多的分類(lèi)技術(shù),下面將簡(jiǎn)要介紹一些常 用戇分類(lèi)鼓本,鴦馨決策辯分類(lèi)、燹時(shí)裁分類(lèi)、基予搴孛經(jīng)圈終瓣分類(lèi),黻及源予 關(guān)聯(lián)規(guī)則挖掘概念的分類(lèi)【3 】f 1 ”。 ( - - ) 決策褥分類(lèi) 基于決策樹(shù)的分類(lèi)方法是一種監(jiān)督學(xué)習(xí)的方法【1 5 】- 1 2 0 ,樹(shù)的數(shù)量由分類(lèi)的精 度和樹(shù)的大小決定。這種方法蘺先選擇訓(xùn)練樣本熬一令子集以形成一橡決策挺, 如果此樹(shù)沒(méi)有為所有的對(duì)象給出一個(gè)芷確的答案,則將例外情況加入到樹(shù)中, 不斷重復(fù)這一過(guò)程直到發(fā)現(xiàn)正確的決定榘。最終將形成這樣一棵樹(shù):每一片盱 子代表一個(gè)類(lèi)名,每個(gè)內(nèi)部節(jié)點(diǎn)描述一個(gè)屬性,節(jié)點(diǎn)的每一個(gè)分枝對(duì)應(yīng)于該屬 性的每一個(gè)可能的值。 關(guān)于捩策耱分類(lèi)在第三繁串詳箍套縭。 ( 二) 貝葉斯分類(lèi) 貝時(shí)斯分類(lèi)是統(tǒng)計(jì)學(xué)分類(lèi)方法,它麓于貝時(shí)新定理【捌??梢灶A(yù)測(cè)類(lèi)成員關(guān) 系的可能性,如給寇樣本屬于個(gè)特定類(lèi)的概率。 分類(lèi)算法釃院較磷究發(fā)現(xiàn),一種稱(chēng)佟樸素翼時(shí)斯分類(lèi)的簡(jiǎn)單貝葉簸分類(lèi)算 決鐐挺分類(lèi)京法愛(ài)其在鐵??推睜I(yíng)鎊饋輯中韻敷褥 法可以與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類(lèi)算法相媲美。樸素貝葉斯分類(lèi)假定一個(gè)屬性值 對(duì)給定類(lèi)的影晌獨(dú)立于其它耩性的值。該假定稱(chēng)作類(lèi)條件獨(dú)立。散此假定是為 了簡(jiǎn)化所需計(jì)算,并在此意義下稱(chēng)為“樸素的”。理論上講,與其它所肖分類(lèi)算 法楣斃,貝時(shí)蓑分類(lèi)具有最, 、熬出錯(cuò)率。然兩,實(shí)踐牽并簿總是如魏,這是由 于對(duì)其應(yīng)用的假定( 如類(lèi)條件獨(dú)立性) 的不準(zhǔn)確性,以及缺泛可用的概率數(shù)據(jù) 造成懿。 樸素貝葉斯分類(lèi)假定類(lèi)條傳獨(dú)立,即給定樣本的類(lèi)標(biāo)號(hào),屬性的值相互條 孛獨(dú)立。這一假定鐫化了計(jì)冀。當(dāng)瑕定成立時(shí),與其它援鴦分類(lèi)算法稠斃,$ 索貝葉斯分類(lèi)是最精確的。然而,在實(shí)踐中,變贊之間的依賴(lài)可能存在。貝葉 巔信念剛絡(luò)說(shuō)明聯(lián)合概率分布,能表示屬性子集聞的依賴(lài),彌補(bǔ)了 索貝葉斯 分類(lèi)的不足。它允許在變量豹予集間定義類(lèi)條件獨(dú)立性。它提供一種因采關(guān)系 的圖形,可阱在其上進(jìn)行學(xué)習(xí)。在學(xué)習(xí)或訓(xùn)練信念網(wǎng)絡(luò)時(shí),許多情況都是可能 的。弼絡(luò)結(jié)構(gòu)霹g l 預(yù)先給定,或由數(shù)據(jù)等密。網(wǎng)絡(luò)變量可能是可見(jiàn)靜,或隱藏 在所有或某些訓(xùn)練樣本中。隱藏?cái)?shù)據(jù)的情況也稱(chēng)為空缺值或不完全數(shù)據(jù)。如果 羽終縫構(gòu)酲強(qiáng)蒡量變量是哥藏麴,訓(xùn)練闞絡(luò)毒豁警接送行。該逶覆垂計(jì)算c p t 項(xiàng)組成,與樸素貝葉斯分類(lèi)涉及的計(jì)算概率類(lèi)似。當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)給定,麗某些變 璧是隱藏的時(shí),則霹使用梯魔下海方法諼練售念髓終。 貝葉斯網(wǎng)絡(luò)的研究在國(guó)外十分廣泛,它可以對(duì)不確定性知識(shí)迸彳亍推理。例 如:醫(yī)生看病,根據(jù)病人的疲狀,判斷瘸人是否得了菜穆疾病,往綻是一種不 確定的推理( 帶概翠的推理) ,多數(shù)情況下沒(méi)有百分之百的把握。運(yùn)用貝葉斯網(wǎng) 絡(luò)進(jìn)行推理,可以達(dá)到較好的效果。 ( 三) 基于神經(jīng)網(wǎng)絡(luò)的分類(lèi) 神經(jīng)網(wǎng)絡(luò)最早照由心理學(xué)家和神經(jīng)舉家提出的,旨在罨求開(kāi)發(fā)和澳4 試神經(jīng) 靜計(jì)算穰擬。褪略轆說(shuō),神經(jīng)網(wǎng)絡(luò)是一綴連接的輸入糯出單元,其中每個(gè)連接 都與一個(gè)權(quán)相聯(lián)。在學(xué)習(xí)階段,通過(guò)調(diào)熬神經(jīng)網(wǎng)絡(luò)的權(quán),利用預(yù)測(cè)輸入樣本的 正確類(lèi)標(biāo)號(hào)來(lái)學(xué)習(xí)。由于擎元之闋鶼連接,神經(jīng)麗絡(luò)學(xué)習(xí)又稱(chēng)連接者學(xué)習(xí) 【1 9 】【2 0 】雎1 1 。 撩經(jīng)網(wǎng)絡(luò)囂要很長(zhǎng)的潮練對(duì)間,因露對(duì)于有足夠長(zhǎng)鍘練時(shí)間蛉建鞠更合適。 神經(jīng)網(wǎng)絡(luò)已| 經(jīng)在很多領(lǐng)域得到了成功的應(yīng)用,但由于缺乏嚴(yán)密的理論體系的指 決鐐撼靜類(lèi)方法及其在鐵魏窖票藿鑣分橇孛匏寢甬 導(dǎo),其應(yīng)用效果完全取決于使用者的經(jīng)驗(yàn)。雖然h o r n i k 等人證明,僅商一個(gè)非 線(xiàn)牲隱整鶼前馕潮絡(luò)就能戳任意疆瘦遙避任意復(fù)雜度漿囂數(shù),毽一些研究者指 出,對(duì)網(wǎng)絡(luò)的配置和訓(xùn)練是n p 問(wèn)題。在實(shí)際應(yīng)用中,由于缺乏問(wèn)題的先驗(yàn)知 識(shí),往往鼴經(jīng)大量贊力耗對(duì)馳實(shí)驗(yàn)摸索孝能確定會(huì)逶豹專(zhuān)棗經(jīng)鼷終摸受、算法良 及參數(shù)設(shè)置,其應(yīng)用效果完全取決于使用者的經(jīng)驗(yàn)。即使采用同樣的方法解決 同樣的聞?lì)},由于操作者不同,其結(jié)果也很可能大糖徑庭。另終,由予人們綴 難解釋蘊(yùn)涵在學(xué)習(xí)權(quán)之中韻符號(hào)含義,神經(jīng)網(wǎng)絡(luò)常常因其可解釋性差而受到批 評(píng)。這些特點(diǎn)使得神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘的初期并不看好。 然焉,卒孛經(jīng)兩絡(luò)的優(yōu)點(diǎn)包括其對(duì)嗓譜數(shù)據(jù)的離承受能力,以及它對(duì)未經(jīng)訓(xùn) 練的數(shù)據(jù)的分類(lèi)能力。此外,最近已提出了一些由訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)提取規(guī)則 熬算法,這些因素撼動(dòng)了襻綴網(wǎng)終在數(shù)據(jù)挖掘分類(lèi)方面靜瘦爆。 ( 四) 源于關(guān)聯(lián)規(guī)則挖掘概念的分類(lèi) 關(guān)聯(lián)麓粼挖掘怒數(shù)蕹挖瓣磷究靜一個(gè)重要的、高度活躍靜領(lǐng)域h 9 1 。最近, 數(shù)據(jù)挖掘技術(shù)己將關(guān)聯(lián)規(guī)則挖掘用于分類(lèi)問(wèn)題。下面,我們按歷史次序簡(jiǎn)要介 綏三秘方法。羲囂釋方法,a r c s 幫關(guān)聯(lián)分類(lèi),嬡用關(guān)聯(lián)規(guī)剽分類(lèi)。第三群方 法c a e p 挖掘“顯露模式”,宦考慮挖掘關(guān)聯(lián)規(guī)則使用的支持度概念。 第一秘方法,基于聚類(lèi)挖撅關(guān)聯(lián)規(guī)則,然羼使用規(guī)則進(jìn)行分類(lèi)。a r c s 或關(guān) 聯(lián)規(guī)則聚淡系統(tǒng)挖掘形如a q 。m l 。味苷a 。m 的關(guān)聯(lián)規(guī)則;菠中,a q u 枷l ,a q ?!? 2 是在量化屬性區(qū)間上的測(cè)試( 區(qū)闖動(dòng)態(tài)地確定) ,褥氏。為給定訓(xùn)練數(shù)據(jù)的分類(lèi) 滿(mǎn)性指定一個(gè)類(lèi)標(biāo)號(hào)。關(guān)聯(lián)規(guī)則畫(huà)在2 - 1 ) 柵格上。算法掃描柵格,搜索規(guī)則的 矩形聚類(lèi)。用這種辦法,出現(xiàn)在一個(gè)規(guī)貝| j 聚類(lèi)內(nèi)的量化屬性的楣鄰區(qū)間可以結(jié) 會(huì)。壺a r c s 產(chǎn)生瀚聚類(lèi)關(guān)聯(lián)蕊燹| l 霜予分類(lèi),其臻確率可與c 4 。5 媲美。 第二種方法稱(chēng)作關(guān)聯(lián)分類(lèi)。它挖掘形如c o n d s e t ;y 的規(guī)則;其中,c o n d s e t 建項(xiàng)( 或掇萑篷對(duì)) 豹集合,囂y 是類(lèi)標(biāo)號(hào)。濾麓最棗支持度豹撬猁怒頻繁的; 這里,規(guī)則具有支持度s ,如果給定數(shù)據(jù)集中的樣本s 包含c o n d s e t 并且屬于 類(lèi)y 。滿(mǎn)足最小置信度的規(guī)則怒糖確的;這里,戴劉鮑愛(ài)信度為c ,如渠給定數(shù) 據(jù)集中包禽c o n d s e t 的樣本c 屬于類(lèi)y 。如果一個(gè)規(guī)則項(xiàng)集具有相同的c o n d s e t , 則選擇具有最高置信度的規(guī)則讒為可熊規(guī)則( p r ) ,代表該集會(huì)。 關(guān)聯(lián)分類(lèi)方法由兩步組成。第一步怒找出所有頻繁的、精確的p r 集合。這 1 0 決繁樹(shù)分類(lèi)去法及其在鐵潞窖票營(yíng)銷(xiāo)論輯中的硒 麓是類(lèi)關(guān)聯(lián)瓣弼( e a 釉。莢c o n d s e t 奄會(huì)k 個(gè)矮豹惑劉頊穆終磊焱爨頊。冀法鑊 閣迭代方法,先驗(yàn)知識(shí)用于裁減規(guī)則搜索。第二步使用一種扇發(fā)式方法構(gòu)造分 類(lèi)。這里,發(fā)現(xiàn)款怒戴攫握支持度窩置信度按遞減戇優(yōu)先次繆綴織。 第三種方法c a e p ( 通過(guò)聚集顯露模式分類(lèi)) 使用項(xiàng)集支持度挖掘照鼯模式 ( e m e r g i n gp a t t e r n ,e p ) ,兩e p 用于構(gòu)造分類(lèi)。粗略地說(shuō),e p 是一個(gè)項(xiàng)集( 項(xiàng) 的集合) ,蕻支持度豳一個(gè)類(lèi)劉另一個(gè)類(lèi)駐著增加。兩個(gè)支持度的比稱(chēng)作e p 的 增長(zhǎng)率。例如,假定我們有顧客數(shù)據(jù)集,包含類(lèi)b u y s _ c o m p u t e r = “y e s 或c l 和 b u y s _ c o m p u t e r = “n o 或c 2 。袋集 a g e 菇一- 3 0 ,:s t u d e n t s 。w 是一個(gè)典型的 e p ,其支持度由在c l 中的o 2 增長(zhǎng)到猩c 2 中的5 7 6 ,增長(zhǎng)率罟等= 2 8 8 。 注意,一個(gè)項(xiàng)或者避分類(lèi)屬性上的簡(jiǎn)單棚等測(cè)試,或者是梭饔數(shù)值璃能是否在 桀個(gè)區(qū)間的測(cè)試。每個(gè)e p 是一個(gè)多屬性上的測(cè)試,并且可能在區(qū)分一個(gè)類(lèi)的 實(shí)鋼與另一個(gè)類(lèi)靜實(shí)鐨方囂菲常強(qiáng)。霧 | 翔,弼采一個(gè)新樣本x 雹臺(tái)在上囂靜e p 中,我們可以說(shuō)x 屬于c 2 的幾率為9 9 6 。一般地,e p 的區(qū)分能力火約正比 予它懿撞長(zhǎng)率纛宅穗囂糖類(lèi)豹支簿度。 一種將代的分類(lèi)算法稱(chēng)作j e p 分類(lèi)算法( j e pc l a s s i f i e r ) ;該算法怒基于跳 躍顯露模式( j u m p i n g e m e r g i n g p a t t e r n ,j e p ) 提出的。其中,j e p 是一釋特殊類(lèi) 型的e p ,定義為這樣的項(xiàng)集,其支持度由在一個(gè)數(shù)據(jù)集中的0 陡峭地增長(zhǎng)到另 一個(gè)數(shù)據(jù)袋中的非0 。醫(yī)為j e p 具有無(wú)窮大的增長(zhǎng)攀,而e p 爨有有窮的增長(zhǎng)率, 所以j e p 比e p 的隧分能力懿強(qiáng)。這使褥在許多大型數(shù)據(jù)群( 尤其是維數(shù)也很 大的數(shù)據(jù)麾) 中,糕于j e p 的分類(lèi)算法優(yōu)于基于船的分類(lèi)葬法。 2 2 3 分類(lèi)算法豹阮較標(biāo)準(zhǔn) 常用的分類(lèi)算法的比較和評(píng)估標(biāo)準(zhǔn)肖以下幾點(diǎn): ( 1 ) 預(yù)鍘?kù)o壤確率:涉及模型正確魏預(yù)測(cè)新豹或先前寒見(jiàn)過(guò)的數(shù)據(jù)的類(lèi)標(biāo) 號(hào)的能力。 ( 2 ) 速菠:涉及產(chǎn)生秘矮霜模墼斡詩(shī)算花贊。 ( 3 ) 強(qiáng)壯性:涉及給定噪音數(shù)據(jù)或具有空缺值的數(shù)據(jù),模型正確預(yù)測(cè)的能 力。 ( 4 ) 可規(guī)模性:涉及給定大量數(shù)據(jù),有效地構(gòu)造模型的能力。 ( 5 ) 可解釋性:涉及學(xué)淫模型提供憋理鰓翻漏察的屢次。 決鑲?cè)祆o糞方法及萁在鐵鼴騫票營(yíng)銷(xiāo)靜輯串靛敷稿 目前,已有許多關(guān)于不同分類(lèi)算法的比較,并且該問(wèn)題仍然是一個(gè)研究課 藤。海未發(fā)現(xiàn)有秘算法對(duì)掰有數(shù)據(jù)都饒于其它方法。魏準(zhǔn)確性、調(diào)練時(shí)闖、 強(qiáng)壯性、可解釋性和可規(guī)模性必須考慮,并且可能涉及折衷,使得尋求更好方 法進(jìn)一步復(fù)雜經(jīng)。實(shí)驗(yàn)研究表麓,許多冀法豹準(zhǔn)確性豢癸似,其差溺是統(tǒng)計(jì) 不明顯的,而訓(xùn)練時(shí)間可能顯著不同。另外,可規(guī)模性也是目前考慮較多的一 個(gè)囂素,巒予出璦了越來(lái)越多瓣超大援摸靜數(shù)據(jù)瘁系統(tǒng),魘戮是否熬夠有效蟪 處理大規(guī)模數(shù)據(jù)也成為衡量算法的重要標(biāo)準(zhǔn)。 2 。3 決策樹(shù)分類(lèi) 分類(lèi)是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù),分類(lèi)的目的怒提出一個(gè)分類(lèi)函數(shù) 或分類(lèi)摸型( 分類(lèi)器) ,該攘燮娩把數(shù)據(jù)癢孛鵓數(shù)據(jù)項(xiàng)獲射裂給定類(lèi)裂巾豹某一 個(gè)。決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它著眼于從一組無(wú)次序、無(wú) 翹劐的事例中推出決策樹(shù)表示形式的分類(lèi)規(guī)劉。它采用蠡 樊向下的遞歸方式, 在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性的比較并根據(jù)不同屬性值判斷從該結(jié)點(diǎn)向下的分 棱,在決策樹(shù)的葉縮點(diǎn)褥到結(jié)論。所以從根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條 龠取規(guī)剮,整操?zèng)Q策樹(shù)就對(duì)藏著一組析取表達(dá)式規(guī)則i 2 0 】。 一棵決策樹(shù)的內(nèi)部結(jié)點(diǎn)是屬性或?qū)傩约?,葉結(jié)點(diǎn)是所要學(xué)習(xí)劃分的類(lèi)【1 6 1 。 造經(jīng)過(guò)一撬譬l | 練實(shí)翻集敬調(diào)練產(chǎn)生一裸決策樹(shù),決策樹(shù)茸戳根據(jù)屬佼豹取蓬對(duì) 一個(gè)未知實(shí)例集進(jìn)行分類(lèi)。使用決策樹(shù)分類(lèi)的時(shí)候,由樹(shù)搬開(kāi)始對(duì)該對(duì)象的屬 鏈遂一測(cè)試其毽,弗且順羞分技勻下走,壹至到達(dá)菜拿辭終點(diǎn),斃跨絡(luò)點(diǎn)代表 的類(lèi)即為對(duì)象所處的類(lèi)。 2 。3 。1 基本恿想 決策樹(shù)分類(lèi)是一種以決鐐樹(shù)這種數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ)的分類(lèi)算法1 1 5 州9 】。決策樹(shù) ( d e c i s i o nt r e e ) ,又稱(chēng)判定糖,是一個(gè)類(lèi)壁雯予滾糕圈戇撼繚麴,其中每個(gè)內(nèi)部 結(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹(shù)葉結(jié)點(diǎn) 代表類(lèi)或類(lèi)分布。為了對(duì)未知的樣本分類(lèi),樣本的屬性僮農(nóng)判定楗上測(cè)試,路 徑由根到存放該樣本預(yù)測(cè)的時(shí)結(jié)點(diǎn)。決策樹(shù)很容翳轉(zhuǎn)換成分類(lèi)規(guī)則【3 4 1 【3 鰳。 決策樹(shù)歸納的基本算法懸貪心算法,它是以自頂向下遞歸的各個(gè)誨破方式 梅造決策樹(shù)。算法的基本策略如下【1 朝: ( 1 ) 樹(shù)以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開(kāi)始。 決餓樹(shù)分類(lèi)夯法及其在鐵鼴客票營(yíng)銷(xiāo)分析中曲盛嗣 ( 2 ) 如累樣本都在同一個(gè)類(lèi),則該結(jié)熹殘為樹(shù)時(shí),勢(shì)用該類(lèi)標(biāo)記。 ( 3 ) 否則,算法使用稱(chēng)為信息增靛的基于熵的度量作為啟發(fā)信息,選擇 髓夠最盎 遮將樣本分類(lèi)的屬梭。該屬性成蕊該續(xù)患的“測(cè)試”或“決 策”屬性。 ( 4 ) 對(duì)測(cè)試屬性的每個(gè)毆知的馕,劍建一個(gè)分技,并據(jù)此劃分樣本。 ( 5 ) 算法使翊同樣的過(guò)稷,遞歸地形成每個(gè)劃分上的樣本決策樹(shù)。一旦 一個(gè)屬性出現(xiàn)在一個(gè)結(jié)點(diǎn)上,就不必在該結(jié)點(diǎn)的任何后代上考慮它。 ( 6 ) 遞婦翊分步驟僅警下菊條 串之一成立對(duì)停止: 給定結(jié)點(diǎn)的所有樣本屬于同一類(lèi)。 沒(méi)商剩余霾餓霹以用來(lái)避一步劃分樣本。農(nóng)此情囂下,使用多 數(shù)襲決。這涉及將給定的結(jié)點(diǎn)轉(zhuǎn)換成樹(shù)葉,并用樣本中的多數(shù) 鼴在的類(lèi)標(biāo)記宅。替換縫,霹以存放縫點(diǎn)樣本的類(lèi)分毒。 分枝t e s ta t t r i b u t e = 口f 沒(méi)有樣本。在這種情況下,以樣本中的 多數(shù)類(lèi)創(chuàng)建一個(gè)越時(shí)。 在樹(shù)的每個(gè)結(jié)點(diǎn)上使用信息增益( i n f o r m a t i o ng a i n ) 度量選擇測(cè)試屬性。 這種度量稱(chēng)作屬性選擇度量或分裂的優(yōu)劣度量。選器具有媛齏信息增薤( 或最 大熵壓縮) 的屬性作為當(dāng)前縮點(diǎn)的測(cè)試渦性。該屬性使得對(duì)結(jié)果劃分中的樣本 分類(lèi)所需的信息量最小,并反映劃分的最小隨機(jī)性或“不純性”。這申信息理論 方法使得對(duì)一個(gè)對(duì)象分類(lèi)所鬻的期望測(cè)試數(shù)強(qiáng)最小,并確保找到一棵簡(jiǎn)單的樹(shù)。 設(shè)s 是s 個(gè)數(shù)據(jù)樣本的集合。假定類(lèi)標(biāo)號(hào)屬性具有m 個(gè)不同值,定義m 個(gè) 苓囂類(lèi)c i ( i = l ,+ ,喲。設(shè)毋楚類(lèi)c 中的樣本數(shù)。對(duì)一個(gè)繪定的樣本分類(lèi)所器的 期望信息由下式給出: * 砸l ,s 2 ,$ 。) = p fl 0 9 2 ( p 1 ) j 1 1 其中,辣是任意攆本耩予舀瀚概率,并瘸曲s 話(huà)詩(shī)。注意,對(duì)數(shù)函數(shù)戳2 為底, 因?yàn)樾畔⒂枚M(jìn)位編碼。 設(shè)屬性崖具鴦v 個(gè)不矮嫠 露。硝e 霹菝羆屬性蠢將s 劃分走v 個(gè)子集 & ,。 島 ;其中,s g 含s 中這樣一些樣本,它們?cè)? 上具有值嘶。如果一選作測(cè)試 屬性( 即,最好靜劃分屬性) ,則這些子集對(duì)應(yīng)于鴦趣含集合s 懿結(jié)蔗生長(zhǎng)出采 決鑲楗癸類(lèi)寵漩及其在鐵鑲客票營(yíng)鏡分輯中釣盤(pán)臻 的分枝。設(shè)曲是子集s j 中類(lèi)a 的樣本數(shù)。根據(jù)爿劃分子集的熵( e n 廿o p y ) 或期望 鑲惠盤(pán)下鼗繪密: g ( a ) :窆型竿瑪吣,嘶) f 硝 。 項(xiàng)旦坐二i :! 墮充當(dāng)?shù)趈 個(gè)子集的權(quán),并風(fēng)等于子集( 即,a 值為a j ) 中的樣本 個(gè)數(shù)豫戳s 中懿群零總數(shù)。麓譙越小,子集麓分的統(tǒng)度越麓。注意,辯于給定 的子集s , 砸s 護(hù),s w ) = p 口l 0 9 2 ( 聊) 其中,p f = 羔,怒昌中的樣本屬于舀的概率。 i u ,l 在上分棱將獲得懿編磷信息是 g a i n ( a ) = j 瓴,s 2 ,) 一e o ) 換言之,g a i n ( a ) 魁由于知道j j 甄性的假而導(dǎo)致的熵的期望雁縮。 算法計(jì)算每個(gè)麟性的信崽增益。具有最毫信爨增益轂鼴性選終繪定集會(huì)s 的測(cè)試屬性。創(chuàng)建一個(gè)結(jié)點(diǎn),并以該屬性標(biāo)記,對(duì)屬性的每個(gè)值創(chuàng)建分枝,并 據(jù)此劃分樣本。 基予多種原因,決策樹(shù)分類(lèi)已經(jīng)被廣泛地粥予多種數(shù)據(jù)挖掘工其中,用乎 產(chǎn)生分類(lèi)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆武漢市新洲區(qū)三年級(jí)數(shù)學(xué)第一學(xué)期期末綜合測(cè)試模擬試題含解析
- 兒童手繪服裝設(shè)計(jì)基礎(chǔ)
- 2025年備考市政工程考試的注意事項(xiàng)與試題及答案
- 古代樂(lè)器美術(shù)課件
- 眼鏡專(zhuān)業(yè)知識(shí)培訓(xùn)課件
- 2025年工程項(xiàng)目管理案例分析與解答試題及答案
- 項(xiàng)目管理的信息交流試題及答案
- 水利水電工程非技術(shù)風(fēng)險(xiǎn)試題及答案
- 小學(xué)生反詐宣傳教育
- 綜合性水利水電工程試題與答案介紹
- 貴州國(guó)企招聘2025貴州省水利投資(集團(tuán))有限責(zé)任公司招聘84人筆試參考題庫(kù)附帶答案詳解
- 【8生 會(huì)考】2022-2024年安徽省初中(八年級(jí))中考初二會(huì)考生物試卷(3年真題)
- 2025年網(wǎng)絡(luò)與信息安全專(zhuān)業(yè)考試試卷及答案
- 2024年陜西省普通高中學(xué)業(yè)水平合格性考試歷史試題(解析版)
- 中國(guó)干眼臨床診療專(zhuān)家共識(shí)(2024年)解讀
- 2mm土工膜長(zhǎng)絲土工布檢測(cè)報(bào)告合格證
- 一年級(jí)家長(zhǎng)會(huì)課件2024-2025學(xué)年
- 拉美文化學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 校長(zhǎng)思政課課件-百年奧運(yùn)
- 文藝復(fù)興經(jīng)典名著選讀智慧樹(shù)知到期末考試答案章節(jié)答案2024年北京大學(xué)
- 小小科學(xué)家《物理》模擬試卷A(附答案)
評(píng)論
0/150
提交評(píng)論