




已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘方法在采購優(yōu)化中的研究與應(yīng)用.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大連理工大學(xué)碩士學(xué)位論文 摘要 采購優(yōu)化包括在企業(yè)生產(chǎn)中對(duì)原材料的消耗量進(jìn)行預(yù)測(cè),以及根據(jù)預(yù)測(cè)到的原材料 消耗量來制訂最優(yōu)的采購方案。采購優(yōu)化的目標(biāo)是降低采購占用的資金,同時(shí)降低采購 成本。在現(xiàn)代企業(yè)管理中,大多數(shù)企業(yè)的采購資金在周轉(zhuǎn)資金中占用重要的比例,因此, 制訂合理的采購方案,對(duì)企業(yè)的經(jīng)營具有重要的現(xiàn)實(shí)意義。 制訂合理的采購方案,首先必須從大量業(yè)務(wù)數(shù)據(jù)中分析原材料的消耗規(guī)律,進(jìn)而預(yù) 測(cè)原材料的消耗量。從2 0 世紀(jì)9 0 年代以來,數(shù)據(jù)挖掘技術(shù)開始逐漸應(yīng)用于解決類似的 商業(yè)問題。近年來,得益于計(jì)算機(jī)運(yùn)算能力的不斷提高,數(shù)據(jù)挖掘的研究方向開始側(cè)重 于如何使用搜索優(yōu)化算法來對(duì)數(shù)據(jù)進(jìn)行分析,并挖掘出所需要的信息。本文的主要工作 是如何利用基于搜索優(yōu)化算法的數(shù)據(jù)挖掘方法,來對(duì)采購進(jìn)行優(yōu)化。 本文中將采購優(yōu)化問題分解為兩個(gè)子問題。一是對(duì)原材料消耗量的預(yù)測(cè)問題,二是 根據(jù)所預(yù)測(cè)的消耗量制訂最優(yōu)采購方案。對(duì)于第一個(gè)問題,把原材料的消耗看作是受產(chǎn) 品影響的概率模型。根據(jù)統(tǒng)計(jì)出來的消耗量數(shù)據(jù),使用極大似然法計(jì)算原材料消耗概率 模型的參數(shù)。在求解概率模型參數(shù)時(shí),把極大似然參數(shù)估計(jì)問題轉(zhuǎn)換成為約束優(yōu)化問題, 并應(yīng)用自適應(yīng)復(fù)合形法對(duì)參數(shù)進(jìn)行求解。對(duì)于采購方案的制訂問題,在對(duì)數(shù)據(jù)分析的基 礎(chǔ)上,找出采購方案的影響因素,并依據(jù)這些因素,給出了一個(gè)采購成本計(jì)算模型,最 后通過對(duì)該模型的最優(yōu)化,得到了最優(yōu)采購方案。 本文中的方法可以在線使用,而且適用于多種概率模型,易于擴(kuò)展,具有一定的通 用性。通過在某印染企業(yè)中半年以來的應(yīng)用,表明這種方法能夠依據(jù)歷史數(shù)據(jù)來推斷未 來原材料的消耗規(guī)律,并能根據(jù)原材料的消耗制訂合理的采購方案,實(shí)現(xiàn)了采購優(yōu)化的 目標(biāo)。 關(guān)鍵詞:數(shù)據(jù)挖掘;采購優(yōu)化;極大似然法;自適應(yīng)復(fù)合形法 大連理工大學(xué)碩士學(xué)位論文 t h e s t u d ya n da p p l i c a t i o no fd a t am i n i n gm e t h o do nt h eo p t i m i z a t i o no f p r o c u r e m e n tp r o c e s s a b s t r a c t t h eo p t i m i z a t i o no fp r o c u r e m e n ti n c l u d e st h ep r e d i c t i o no nt h er a wm a t e r i a l si nt h e p r o d u c t i o no ft h ee n t e r p r i s ea n ds u b s e q u e n td e c i s i o nm a k i n go fp m c o r e m e n t n 圮a i mo ft h e p r o c u r e m e n to p t i m i z a t i o ni st or e d u c et h eo c c u p i e dc a p i t a lf o rp r o c u r e m e n ta n dt h ec o s to f p r o d u c t s i nm o d e r ne n t e r p r i s em a n a g e m e n t , t h ep r o c u r e m e n tc a p i t a lt a k e sg r e a tp a r to ft h e t l l h l o v e rc a p i t a l ,s oi ti so f g r e a ti m p o r t a n c et om a k er e a s o n a b l ep u r c h a s i n gd e c i s i o n s f i r s tt h ec o n s u m i n ga m o u n to fr a wm a t e r i a l sm u s tb ep r e d i c t e d t ob ec o r r e c t ,t h er u l e m u s t b ea n a l y z e df r o m l a r g ev o l u m eo f d a t a f r o m1 9 9 0 s ,d a t am i n i n gt e c h n o l o g yb e g a nt ob e a p p l i e dt os o l v et h eb u s i n e s sp r o b l e m i nt h e s ey e a r s ,d u et ot h ec e a s e l e s sa d v a n c e m e n ti n c o m p u t e r s c o m p u t i n ga b i l i t y , t h er e s e a r c hd i r e c t i o no fd a t am i n i n gs t a _ r t at oe m p h a s i z e p a r t i c u l a r l yo nh o wt oa n a l y z ed a t aa n dg e tn e e d e di n f o r m a t i o nb yo p t i m a ls e a r c h i n g a l g o r i t h m s 1 1 l ew o r ko f t h i sp a p e r i sh o wt oo p t i m i z et h ep r o c u r e m e n tb yt h ec o m b i n a t i o no f d a t am i n i n gm e t h o da n do p t i m a ls e a r c l l i n ga l g o r i t h m s 1 1 地p r o b l e mi sd i v i d e di n t ot w os u bp r o b l e m s o n ei st h ep r e d i c t i o no f t h ec o n s u m i n go f r a wm a t e r i a l s ,a n dt h eo t h e ri sm a k eo p t i m a lp u r c h a s i n gp l a n f o rt h ef i r s to n e ,t h ec o n s u m i n g o ft h er a wm a t e r i a l si sc o n s i d e r e d 勰ap r o b a b i l i t ym o d e ls w a y e db yp r o d u c t s f r o mt h e h i s t o r i cd a t ao fp r o d u c t s p r o d u c i n gr e w o r d s , t h ep a r a m e t e r so ft h ea s s i s t a n tm a t e r i a l s p r o b a b i l i t ym o d e lc o u l db ew o r k e do u tb yt h em e t h o do fm a x i m u ml i k e l i h o o d 1 1 l ep r o b l e m o ft h es o l u t i o n - f i n d i n gf o rt h ep a r a m e t e r si sc h a n g e dt oap r o b l e mo fc o n s t r a i n to p t i m i z a t i o n i nt h i sc a s et h ei m p r o v e d c o m p l e xm e t h o d a l g o r i t h mi sa p p l i e dc o n s i d e r i n gt h a ti tf i t sk i n d s o f p r o b a b i l i t ym o d e l s f o rt h ep u r c h a s i n gp l a n - m a k i n gp r o b l e m , o nt h eb a s i so f d a t aa n a l y s i s , t h ei n f l u e n c i n ge l e m e n t sa r ef o u n da n dap r o c u r e m e n tc o s tm o d e li sc o n s t r u c t e d t h e n t h r o u g ht h eo p t i m i z a t i o nf o rt h em o d e l ,t h ep u r c h a s i n gp l a ni sm a d e 1 1 1 em e t h o dr e f e r r e di n t h i sp a p e rc a nb eu s e do i l l i n e , a n di n d e p e n d e n to ft h es t a t i s t i c s m o d e l ,s ot h a ti ti se x t e n d a b l ea n du n i v e r s a l b ya p p l y i n gi nt h ep r i n t i n ga n dd y i n ge n t e r p r i s e f o rn e a r l yh a l f y e a r s ,t h i sm e t h o di sp r o v e dt ob eh e l p f u lt od e d u c at h er u l eo f t h ec o n s u m i n g o f r a wm a t e r i a l sf r o mh i s t o r i cd a t a , a n dt h ep u r c h a s i n gp l a nc a nb em a d e , s ot h a tt h ep u r p o s e i sr e a l i z e d k e yw o r d s ;d a t am i n i n g ;p r o c u r e m e n tp r o c e s so p t i m i z a t i o n ;m a x i m u ml i k e l i h o o d p r i n c i p l e ;a d a p t i v e c o m p l e x m e t h o d 獨(dú)創(chuàng)性說明 作者鄭重聲明:本碩士學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工 作及取得研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外, 論文中不包含其他人已經(jīng)發(fā)表或撰寫的研究成果,也不包含為獲得大連理 工大學(xué)或者其他單位的學(xué)位或證書所使用過的材料。與我一同工作的同志 對(duì)本研究所做的貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。 作者簽名: 大連理 :大學(xué)碩士研究生學(xué)位論文 大連理工大學(xué)學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者及指導(dǎo)教師完全了解“大連理工大學(xué)碩士、博士學(xué)位 論文版權(quán)使用規(guī)定”,同意大連理工大學(xué)保留并向國家有關(guān)部門或機(jī)構(gòu)送 交學(xué)位論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)大連理 工大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,也 可采用影印、縮印或掃描等復(fù)制手段保存和匯編學(xué)位論文。 作者簽名 導(dǎo)師簽名 ,吞 沈表 蔓塑呈年型月竺芝f = t 大連理工大學(xué)碩士學(xué)位論文 1 緒論 1 1 研究背景及意義 印染企業(yè)每年需要花費(fèi)近億的資金用來采購生產(chǎn)和工程中所需的各種原材料。在采 購過程中由于不能全面、及時(shí)、準(zhǔn)確地了解生產(chǎn)上的用料需求、供應(yīng)商的資質(zhì)、采購歷 史情況等信息,不能及時(shí)對(duì)庫存儲(chǔ)備定額進(jìn)行科學(xué)準(zhǔn)確地測(cè)算,使得在采購過程中可能 造成部分采購決策不準(zhǔn)確或不科學(xué)。如果每年形成1 的失誤就會(huì)為企業(yè)帶來近百萬的 損失。因此印染企業(yè)的采購迫切需要一套幫助指導(dǎo)工作的采購優(yōu)化系統(tǒng)。 采購優(yōu)化是大多數(shù)生產(chǎn)型企業(yè)所面臨的問題。以印染企業(yè)為例,采購工作分為原料 的采購和物料的采購。統(tǒng)計(jì)結(jié)果表明,其原料的采購成本占其總成本的7 0 以上。而物 料種類繁多,在生產(chǎn)中也占有一定的地位,其占用庫存較多,庫存維護(hù)成本較高。但是 目前物料沒有科學(xué)的依據(jù)來指導(dǎo)采購,采購人員憑經(jīng)驗(yàn)根據(jù)季節(jié)性來估計(jì)需求,主觀判 斷的不確定性經(jīng)常會(huì)使庫存過剩,造成資金流失,或者偶爾出現(xiàn)缺貨現(xiàn)象,對(duì)生產(chǎn)造成 一定的滯后影響。研究物料的消耗規(guī)律可以幫助采購部門根據(jù)生產(chǎn)計(jì)劃預(yù)測(cè)其消耗量, 確定采購數(shù)量。從多個(gè)供應(yīng)商中選擇合適的供應(yīng)商并按適當(dāng)?shù)谋壤峙洳少徚?,以達(dá)到 采購費(fèi)用最少,從而制訂出合理的采購計(jì)劃,最終實(shí)現(xiàn)控制企業(yè)采購所需資金,即達(dá)到 采購優(yōu)化的目的。 本文中面臨的兩個(gè)問題為:物料消耗量的預(yù)測(cè)和供應(yīng)商的選擇與采購量分配問題。 這類有著明確的商業(yè)目標(biāo)、同時(shí)需要根據(jù)數(shù)據(jù)挖掘結(jié)果對(duì)決策結(jié)果在商業(yè)應(yīng)用中進(jìn)行優(yōu) 化部署的問題,正適合用最優(yōu)化方法進(jìn)行解決。盡管在最優(yōu)化方法和數(shù)據(jù)挖掘技術(shù)結(jié)合 方面的研究已取得一定成果,但在實(shí)際應(yīng)用中,目前還沒有一個(gè)面向?qū)嶋H管理決策問題, 將最優(yōu)化方法與數(shù)據(jù)挖掘技術(shù)有機(jī)地結(jié)合起來應(yīng)用的理論方法體系和問題求解模型。因 此,本文以數(shù)據(jù)挖掘的統(tǒng)計(jì)方法分析歷史數(shù)據(jù),建立適合企業(yè)原材料庫存與采購的模型, 然后利用最優(yōu)化方法求解模型中的參數(shù),最后解決上述兩個(gè)問題。 本文在論述了已有數(shù)據(jù)挖掘的過程模型的基礎(chǔ)上,基于數(shù)據(jù)挖掘與最優(yōu)化結(jié)合對(duì)支 持最終采購決策分析的管理問題模型進(jìn)行求解,目標(biāo)是有效地將數(shù)據(jù)挖掘技術(shù)與最優(yōu)化 方法在實(shí)際應(yīng)用中有機(jī)地結(jié)合起來,并為復(fù)雜的采購管理決策分析問題的求解和決策實(shí) 施提供一個(gè)可以依賴的參考模型。其中的自適應(yīng)復(fù)合形法求解模型中參數(shù)的方法適用于 多種模型,當(dāng)概率模型有一定的變化時(shí),同樣可以自適應(yīng)復(fù)合形法對(duì)模型的參數(shù)求解。 數(shù)據(jù)挖掘方法在采購優(yōu)化中的研究與應(yīng)用 1 2 國內(nèi)外研究現(xiàn)狀 1 2 1 數(shù)據(jù)挖掘的國內(nèi)外研究現(xiàn)狀 數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這 些模型和關(guān)系可以用來做出預(yù)測(cè)【l 】。數(shù)據(jù)挖掘涉及到許多其它的研究領(lǐng)域,包括多元統(tǒng) 計(jì)( 主要有組件分析,聚簇分析和多維縮放) ,數(shù)據(jù)庫接口( 協(xié)作數(shù)據(jù)庫接e i 、模糊查詢 接口、數(shù)據(jù)智能瀏覽) ,和信息檢索( 近似匹配算法) 。數(shù)據(jù)挖掘的工作,主要是使用半 自動(dòng)化的方式來進(jìn)行知識(shí)獲取。知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘( d a t a m i n i n g ) 是將為決策者提供重 要的、前所未料的信息或知識(shí),從而產(chǎn)生不可估量的效益。研究k d d 和d m 技術(shù)的重 大意義已被人們廣泛地認(rèn)識(shí)到,并且被列為數(shù)據(jù)庫研究領(lǐng)域中最重要的課題之一。例如 美國政府開發(fā)s e q u o i a 2 0 0 0 項(xiàng)目作為大規(guī)模數(shù)據(jù)庫中先進(jìn)的數(shù)據(jù)分析工具,許多商業(yè)公 司也充分認(rèn)識(shí)到了深層次地分析本公司業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)能夠帶來更多的商業(yè)利潤, 例如銀行和零售商店通過分析他們的業(yè)務(wù)數(shù)據(jù),進(jìn)一步掌握和了解客戶的信譽(yù)、習(xí)慣和 消費(fèi)心理,相應(yīng)地調(diào)整他們的市場(chǎng)決策,以拓寬更廣泛的市場(chǎng)。 目前,數(shù)據(jù)挖掘的研究熱點(diǎn)包括網(wǎng)站的數(shù)據(jù)挖掘( w e bs i t ed a t am i n i n g ) 、生物信息 或基因( b i o i n f o r m a t i c s g e n o m i c s ) 的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘( t e x t u a lm i n i n g ) 等等。 ( 1 ) 網(wǎng)站的數(shù)據(jù)挖掘 隨著w e b 技術(shù)的發(fā)展,各類電子商務(wù)網(wǎng)站風(fēng)起云涌,如何讓電子商務(wù)網(wǎng)站有效益 是一個(gè)關(guān)鍵問題。電子商務(wù)網(wǎng)站每天都生成大量的記錄文件和登記表,如果能對(duì)這些數(shù) 據(jù)進(jìn)行分析和挖掘,充分了解客戶的喜好、購買模式,并設(shè)計(jì)出滿足于不同客戶群體需 要的個(gè)性化網(wǎng)站,必能增加商家的競爭力。在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主 要來自于兩個(gè)方面:一方面是客戶的背景信息,主要來自于客戶的登記表;另外一部分 數(shù)據(jù)主要來自瀏覽者的點(diǎn)擊流,主要用于考察客戶的行為表現(xiàn)。就分析和建立模型的技 術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別不大,很多方法和分析思想都可 以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫格式 有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。目前,有很多 廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件。 ( 2 ) 生物信息或基因的數(shù)據(jù)挖掘 生物信息或基因數(shù)據(jù)挖掘在商業(yè)上很難講有多大的價(jià)值,但對(duì)于人類卻受益非淺。 無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,生物信息或基因的數(shù) 據(jù)挖掘比通常的數(shù)據(jù)挖掘要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法。 一2 一 大連理工大學(xué)碩士學(xué)位論文 現(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而合一,還遠(yuǎn)沒有達(dá)到成熟的 地步。 ( 3 ) 文本的數(shù)據(jù)挖掘 無論是在數(shù)據(jù)結(jié)構(gòu)還是在分析處理方法方面,文本數(shù)據(jù)挖掘與數(shù)據(jù)庫中的數(shù)據(jù)挖掘 相差很大。文本數(shù)據(jù)挖掘并不是一件容易的事情,尤其是在分析方法方面,還有很多需 要研究的問題。目前市場(chǎng)上有一些類似的軟件,但大部分方法只是把文本移來移去,或 簡單地計(jì)算一下某些詞匯的出現(xiàn)頻率,并沒有真正的分析功能。 隨著計(jì)算機(jī)計(jì)算能力的發(fā)展和業(yè)務(wù)復(fù)雜性的提高,數(shù)據(jù)的類型會(huì)越來越多、越來越 復(fù)雜,數(shù)據(jù)挖掘?qū)l(fā)揮出越來越大的作用。當(dāng)前,數(shù)據(jù)挖掘研究與開發(fā)的總體水平相當(dāng) 于數(shù)據(jù)庫技術(shù)在2 0 世紀(jì)7 0 年代所處的地位,迫切需要類似于關(guān)系模式、d b m s 系統(tǒng)和 s q l 查詢語言等理論和方法的指導(dǎo),才能使其應(yīng)用得以普遍推廣。預(yù)計(jì)在本世紀(jì),數(shù)據(jù) 挖掘的研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面【2 j : ( 1 ) 發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會(huì)像 s q l 語言一樣走向形式化和標(biāo)準(zhǔn)化; ( 2 ) 尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過程能夠被用戶理解,也便 于在知識(shí)發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互; ( 3 ) 研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)( w e bm i n i n g ) ,特別是在因特網(wǎng)上建之?dāng)?shù)據(jù) 挖掘服務(wù)器,并且與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn)w e bm i n i n g ; ( 4 ) 加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘( d a t am i n i n gf o ra u d i o & v i d e o ) ,如對(duì)文本數(shù) 據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的挖掘; ( 5 ) 處理的數(shù)據(jù)將會(huì)涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復(fù)雜,或者是 結(jié)構(gòu)比較獨(dú)特。為了處理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析方法和模型, 同時(shí)還會(huì)涉及到為處理這些復(fù)雜或獨(dú)特?cái)?shù)據(jù)所做的準(zhǔn)備的一些工具和軟件。 1 2 2 數(shù)據(jù)挖掘與優(yōu)化方法結(jié)合的研究現(xiàn)狀 數(shù)據(jù)挖掘技術(shù)的應(yīng)用十分廣泛,尤其在商業(yè)經(jīng)營和企業(yè)決策支持等領(lǐng)域。數(shù)據(jù)挖掘 的最終目標(biāo)是使決策者根據(jù)挖掘得到的分析結(jié)果,優(yōu)化商業(yè)決策和行為,進(jìn)而增加企業(yè) 的效益。遺憾的是,在實(shí)際應(yīng)用中,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)只是提供了一套數(shù)據(jù)挖掘應(yīng)用 的方法,對(duì)于領(lǐng)域知識(shí)表示和數(shù)據(jù)挖掘過程的集成、挖掘結(jié)果的解釋、部署等方面很少 涉及,缺乏對(duì)商業(yè)決策和行為優(yōu)化的能力,限制了數(shù)據(jù)挖掘的大量應(yīng)用。而這類有著明 確的商業(yè)目標(biāo)同時(shí)需要根據(jù)數(shù)據(jù)挖掘結(jié)果對(duì)決策結(jié)果在商業(yè)應(yīng)用中進(jìn)行優(yōu)化部署的問 題,正適合用最優(yōu)化技術(shù)進(jìn)行解決n 數(shù)據(jù)挖掘方法在采購優(yōu)化中的研究與應(yīng)用 基于此,將最優(yōu)化方法和數(shù)據(jù)挖掘技術(shù)相結(jié)合,二者互相補(bǔ)充,互相利用,則可有 效解決目前存在的這一問題。目前,二者結(jié)合的方式主要有兩種:一種是在一個(gè)復(fù)雜的 決策分析過程中,最優(yōu)化方法和數(shù)據(jù)挖掘方法相互替代,利用各自的優(yōu)勢(shì),從而得到更 好的決策結(jié)果,這類方式具有較強(qiáng)的通用性和靈活性;另一種是直接將數(shù)據(jù)挖掘和最優(yōu) 化混雜的過程所要解決的問題定義為一個(gè)復(fù)雜的最優(yōu)化問題,通過遺傳算法等技術(shù)求取 近似解,從而達(dá)到較好的優(yōu)化效果。這種方式和問題域強(qiáng)相關(guān),且最后的優(yōu)化問題會(huì)十 分復(fù)雜,其優(yōu)點(diǎn)是可能帶來非常好的結(jié)果。盡管在最優(yōu)化方法和數(shù)據(jù)挖掘技術(shù)結(jié)合方面 的研究已取得一定成果,但在實(shí)際應(yīng)用中,目前還沒有一個(gè)面向?qū)嶋H管理決策問題,將 最優(yōu)化方法與數(shù)據(jù)挖掘技術(shù)有機(jī)地結(jié)合起來應(yīng)用的理論方法體系和問題求解模型。 1 2 3 約束優(yōu)化問題求解方面的研究現(xiàn)狀 在模型求解方面,由于模型中目標(biāo)函數(shù)和約束條件是非線性的,因此在求解上的算 法也是多種多樣的,一般針對(duì)模型的特點(diǎn)采用不同的求解方法,非線性規(guī)劃模型一般是 采用迭代算法求解。而從數(shù)學(xué)的角度,求解非線性規(guī)劃模型的方法,隨著近年來計(jì)算機(jī) 技術(shù)的飛速發(fā)展,不斷的有所創(chuàng)新。 ( 1 ) 基于單純形的方法,此法的主要思想是通過將非線性目標(biāo)規(guī)劃轉(zhuǎn)化為近似的線 性目標(biāo)規(guī)劃,以便使用線性規(guī)劃的單純型法。 ( 2 ) 直接搜索方法,這種方法是把給定的非線性多目標(biāo)規(guī)劃問題轉(zhuǎn)化為一組單目標(biāo) 非線性規(guī)劃問題,然后,使用解決單目標(biāo)非線性規(guī)劃的直接搜索方法加以解決。 ( 3 ) 基于梯度的方法,該方法主要思想就是利用梯度來確定一個(gè)求解的可行方向, 以可行方向?yàn)榛A(chǔ)求解目標(biāo)規(guī)劃。 ( 4 ) 進(jìn)化算法。如遺傳算法、模擬退火算法、微粒群算法等,這些算法的可以處理 結(jié)構(gòu)復(fù)雜的非線性規(guī)劃模型,優(yōu)點(diǎn)在于在求解過程中,無須我們考慮函數(shù)的導(dǎo)數(shù)和連續(xù) 性問題。 在非線性規(guī)劃模型求解方法上,發(fā)展最快的就是進(jìn)化算法,尤其是遺傳算法,遺傳 算法在求解非線性規(guī)劃問題方面,具有很高的魯棒性,自上個(gè)世紀(jì)7 0 年代初問世以來, 發(fā)展極為迅速。遺傳算法( g e n e t i c a l g o r i t h m s ,a g ) 研究的歷史比較短,2 0 世紀(jì)6 0 年代 末期到7 0 年代初期,主要由美國m i c h i g a n 大學(xué)的j o h nh o l l a n d 與其同事、學(xué)生們研究 形成了一個(gè)較為完整的理論與方法【4 】,從試圖解釋自然系統(tǒng)中生物的復(fù)雜適應(yīng)過程入手, 模擬生物進(jìn)化的機(jī)制來構(gòu)造人工系統(tǒng)的模型。隨著2 0 世紀(jì)余年的發(fā)展,取得了豐碩的 應(yīng)用成果和理論研究的進(jìn)展,特別是近年來世界范圍形成的進(jìn)化計(jì)算熱潮,計(jì)算智能己 作為人工智能研究的一個(gè)重要方向,以及后來的人工生命研究的興起,使得遺傳算法受 一4 大連理工大學(xué)碩士學(xué)位論文 到廣泛的關(guān)注。從1 9 8 5 年在美國卡耐基梅隆大學(xué)召開的第一屆國際遺傳算法會(huì)議 ( i n t e m a f i o n f lc o n f e r e n c eo rg e n e t i cf l g o f i t h m s :i c g a 8 5 ) ,到1 9 9 7 年5 月i e e e 的 t r a n s a c t i o n so ne v o l u t i o n a r yc o m p u t a t i o n 創(chuàng)刊,遺傳算法作為具有系統(tǒng)優(yōu)化、適應(yīng)與學(xué)習(xí) 的高性能計(jì)算和建模方法的研究漸趨成熟。另外,其他的進(jìn)化算法如模擬退火算法和微 粒群算法方面,近年來發(fā)表的文章也很多,取得的理論成果及應(yīng)用成果也是有目共睹的。 1 3 本文的主要工作和論文的組織結(jié)構(gòu) 本文詳細(xì)討論了企業(yè)采購優(yōu)化的問題,在無法直接得到原料與物料消耗關(guān)系的情況 下,把物料的消耗看作是受原料影響的概率模型。應(yīng)用統(tǒng)計(jì)出來的原料消耗數(shù)據(jù),使用 極大似然法得出物料消耗概率模型參數(shù)。在此基礎(chǔ)上根據(jù)未來生產(chǎn)計(jì)劃中預(yù)定的原料數(shù) 量來預(yù)測(cè)未來物料消耗量,從而對(duì)采購數(shù)量進(jìn)行優(yōu)化控制。在求解物料消耗概率模型時(shí), 把極大似然參數(shù)估計(jì)轉(zhuǎn)換成為約束優(yōu)化問題,并應(yīng)用改進(jìn)的復(fù)合形法進(jìn)行求解,便于在 多種概率模型上計(jì)算,得到的結(jié)果在企業(yè)生產(chǎn)中進(jìn)行了驗(yàn)證。在得到預(yù)測(cè)需求量以后, 對(duì)企業(yè)原材料的供應(yīng)商選擇與采購分配量問題進(jìn)行了分析并建模,并同樣應(yīng)用自適應(yīng)復(fù) 合形法對(duì)模型的參數(shù)進(jìn)行求解。最終,給出了系統(tǒng)的整體實(shí)現(xiàn)結(jié)果。 全文的組織結(jié)構(gòu)如下: 第1 章緒論部分,主要介紹了本文的研究背景、意義及應(yīng)用領(lǐng)域,數(shù)據(jù)挖掘、優(yōu)化 方法等國內(nèi)外的研究現(xiàn)狀。 第2 章數(shù)據(jù)挖掘理論部分,主要介紹了數(shù)據(jù)挖掘的主要功能、常用技術(shù)和數(shù)據(jù)挖掘 的應(yīng)用領(lǐng)域及研究成果,并介紹了數(shù)理統(tǒng)計(jì)與數(shù)據(jù)挖掘的關(guān)系以及數(shù)理統(tǒng)計(jì)在預(yù)測(cè)型數(shù) 據(jù)挖掘中的應(yīng)用。 第3 章介紹了數(shù)值優(yōu)化理論與用于數(shù)值計(jì)算的常用優(yōu)化方法,詳細(xì)介紹了約束優(yōu)化 方法的概念,及用于求解約束優(yōu)化問題的常用方法。 第4 章物料的概率模型及問題求解是本文的重點(diǎn)之一,該部分以某企業(yè)為背景,詳 細(xì)描述了產(chǎn)品與物料消耗的關(guān)系及物料消耗模型的建立,將模型參數(shù)估計(jì)轉(zhuǎn)化為最優(yōu)化 問題,應(yīng)用自適應(yīng)復(fù)合形法求解參數(shù),最后給出了試驗(yàn)的結(jié)果及實(shí)現(xiàn)效果。 第5 章采購優(yōu)化部分也是本文的重點(diǎn)之一,該部分討論了供應(yīng)商選擇和訂購量分配 問題,建立了基于確定需求的采購優(yōu)化模型。模型中的參數(shù)同樣以自適應(yīng)復(fù)合形法進(jìn)行 求解,最終實(shí)現(xiàn)了采購優(yōu)化系統(tǒng),說明了所提出方法的可行性與有效性。 第6 章對(duì)全文做總結(jié),并給出了對(duì)未來工作的設(shè)想與展望。 數(shù)據(jù)挖掘方法在采購優(yōu)化中的研究與應(yīng)用 2 數(shù)據(jù)挖掘理論與方法 2 1數(shù)據(jù)挖掘概述及應(yīng)用 2 1 1 數(shù)據(jù)挖掘的概念 所謂數(shù)據(jù)挖掘就是設(shè)計(jì)一套數(shù)學(xué)模型、算法或軟件系統(tǒng),用以從數(shù)據(jù)庫中找出某一 類特有性質(zhì)數(shù)據(jù)的分布規(guī)律,也就是歸納現(xiàn)有海量數(shù)據(jù)中某類數(shù)據(jù)分布的知諺 【5 1 。在已 有的數(shù)據(jù)挖掘技術(shù)中,最常用的是統(tǒng)計(jì)分析、回歸分析、聚類分析等。應(yīng)用這些技術(shù)的 基礎(chǔ)是設(shè)計(jì)數(shù)學(xué)模式,對(duì)大量的數(shù)據(jù)進(jìn)行過濾檢查,也就是挖掘【6 】。 無論是商業(yè)企業(yè)、科研機(jī)構(gòu)或者政府部門,在過去若干年的時(shí)間里都積累了海量的、 以不同形式存儲(chǔ)的數(shù)據(jù)資料。由于這些資料十分復(fù)雜,要從中發(fā)現(xiàn)有價(jià)值的信息或知識(shí), 達(dá)到為決策服務(wù)的目的,成為非常艱巨的任務(wù)。數(shù)據(jù)挖掘方法的提出,讓人們有能力最 終認(rèn)識(shí)數(shù)據(jù)的真正價(jià)值,即蘊(yùn)藏在數(shù)據(jù)中的信息和知識(shí)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地 實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù) 現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù) 爆炸但知識(shí)貧乏”的現(xiàn)象。這就需要新的技術(shù)和工具來幫助人們自動(dòng)地提取和分析隱藏 在這些數(shù)據(jù)中的知識(shí),數(shù)據(jù)挖掘( d a t am i n i n g ) ,也稱知識(shí)發(fā)現(xiàn)( k d d ,k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) 就是致力于這門學(xué)科。 數(shù)據(jù)挖掘( d a t a m i n i n g ) ,一種比較公認(rèn)的定義是w j f r a w l e y , g p i a t e t s k ys h a p i r o 等 人提出的【7 , 8 1 :數(shù)據(jù)挖掘,就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識(shí)。這些知識(shí) 是隱含的、事先未知的潛在有用信息,提取的知識(shí)表示為概念( c o n c e p t s ) 、規(guī)則( r u l e s ) 、 規(guī)律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式。這種定義把數(shù)據(jù)挖掘的對(duì)象定義為數(shù)據(jù)庫。 而更為廣義的說法是:數(shù)據(jù)挖掘意味著在一些事實(shí)或觀察數(shù)據(jù)的集合中尋找模式的決策 支持過程。數(shù)據(jù)挖掘的對(duì)象不僅是數(shù)據(jù)庫,也可以是文件系統(tǒng),或其它任何組織在一起 的數(shù)據(jù)集合。數(shù)據(jù)挖掘確切地講是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、 統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛 在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的 決策。 2 1 2 數(shù)據(jù)挖掘的主要功能及模式 數(shù)據(jù)挖掘的主要功能是確定數(shù)據(jù)挖掘任務(wù)中要找的模式類型,數(shù)據(jù)挖掘任務(wù)一般可 以分為描述和預(yù)測(cè)兩大類,描述性挖掘任務(wù)主要是刻畫數(shù)據(jù)庫中數(shù)據(jù)的一般特性,預(yù)測(cè) 一6 一 大連理工大學(xué)碩士學(xué)位論文 性挖掘任務(wù)是在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。如圖2 1 所示,每類模型下都包含一 些需要用到該類模型的最常用的數(shù)據(jù)挖掘任務(wù)【9 】。 圖2 1 數(shù)據(jù)挖掘類型及任務(wù)圖 f i g 2 1 c o m p o n e n t so f d a t aa c q u i s i t i o ns y s t e m 數(shù)據(jù)挖掘功能以及它們可以發(fā)現(xiàn)的模式類型介紹如下: ( 1 ) 分類、預(yù)測(cè) 分類就是通過研究已分類的樣本集的特征,分析樣本集的屬性,建立一個(gè)分類函數(shù) 或分類模型,通過這個(gè)分類模型,未分類的或新的數(shù)據(jù)就可以分派到不同的類別中,達(dá) 到分類的目的。分類可以用決策樹歸納、貝葉斯網(wǎng)絡(luò)、人工神經(jīng)元網(wǎng)絡(luò)( 如b p 網(wǎng)絡(luò)等) , 粗糙集、遺傳算法、k - 一最臨近分類和支持向量機(jī)等方法。分類可以預(yù)測(cè)對(duì)象的類標(biāo)記, 當(dāng)要預(yù)測(cè)的數(shù)據(jù)是數(shù)值數(shù)據(jù)( 連續(xù)值) ,而不是離散的類別標(biāo)志時(shí),我們可以稱之為預(yù)測(cè)。 預(yù)測(cè)主要使用回歸方法,當(dāng)然也可以使用人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、支持向量機(jī)等機(jī) 器學(xué)習(xí)方法。 ( 2 ) 關(guān)聯(lián)規(guī)則 數(shù)據(jù)庫中的數(shù)據(jù)之間一般都存在某種關(guān)聯(lián)關(guān)系,即變量之間可能存在某種規(guī)律,關(guān) 聯(lián)規(guī)則挖掘的任務(wù)就是找出數(shù)據(jù)庫中哪些事物或?qū)傩怨餐霈F(xiàn)的條件。最有影響力的關(guān) 聯(lián)規(guī)則挖掘的算法是r a k e s ha g r w a l 等人提出的a p r i o r i 算法,近年來,也出現(xiàn)了很多 a p r i o r i 的改進(jìn)算法,如e d i t hc o h e n 等人提出的不需要剪枝的改進(jìn)算法,m o h a m m e d j z a k i 提出的可伸縮的改進(jìn)算法等。 ( 3 ) 聚類分析 聚類是將對(duì)象集合按照相似性歸為若干類別,屬于無指導(dǎo)分類,屬于同一類的對(duì)象 具有較高的某種相似性,而不同類的對(duì)象之間的差別較大。通過聚類,識(shí)別密集和稀疏 數(shù)據(jù)挖掘方法在采購優(yōu)化中的研究與應(yīng)用 的區(qū)域,發(fā)現(xiàn)全局的分布模式及數(shù)據(jù)屬性之間的相互關(guān)系,幫助人們建立宏觀概念。聚 類的方法主要可以分為:劃分方法( p a r t i t i o n i n g m e t h o d ) 、層次方法( h i e r a r c h i c a l m e t h o d ) 、 基于密度的方法( d e n s i t y - b a s e dm e t h o d ) 、基于網(wǎng)格的方法( g r i d - b a s e dm e t h o d ) 和基于模 型的方法。其中,劃分方法中用的比較多的是k - 平均算法和k 一中心點(diǎn)算法。b i r c h 和c u r e 就是比較典型的層次方法,d b s c a n 是比較有代表意義的基于密度的方法, s t i n g 算法是典型的基于網(wǎng)格的方法,基于模型的方法有統(tǒng)計(jì)學(xué)方法、人工神經(jīng)元網(wǎng)絡(luò) 方法( 如k o h o n e n 網(wǎng)絡(luò)) 等。 “) 類概念描述 數(shù)據(jù)可以與類或概念相關(guān)聯(lián),用匯總的、簡潔的、精確的方式描述每個(gè)類和概念是 有用的,目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的總體的綜合描述,實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的總體把 握。這種類或概念的描述稱為類概念描述。通過類概念描述使得人們能夠在復(fù)雜數(shù)據(jù) 庫中了解數(shù)據(jù)的意義以及產(chǎn)生數(shù)據(jù)的過程。這種描述可以通過匯總所研究類的數(shù)據(jù)來獲 得( 這個(gè)過程也叫數(shù)據(jù)特征化) 或?qū)⑺芯款惻c其它的比較類進(jìn)行比較來獲得,或采用上 面兩種方法的結(jié)合。基于數(shù)據(jù)立方體的o l a p 上卷操作來執(zhí)行指定維的數(shù)據(jù)匯總就是一 種很有效的數(shù)據(jù)特征化的方法,數(shù)據(jù)特征化的輸出通常采用如餅圖、柱狀圖、多維數(shù)據(jù) 立方體等形式來形象的表現(xiàn)出來。 ( 5 ) 孤立點(diǎn)分析 數(shù)據(jù)庫中經(jīng)常存在這樣一些數(shù)據(jù)對(duì)象,它們與數(shù)據(jù)的一般行為或模型不一致,這些 數(shù)據(jù)對(duì)象我們就稱之為孤立點(diǎn)。在一般情況下,數(shù)據(jù)挖掘方法會(huì)將孤立點(diǎn)視為噪聲或異 常而丟棄,但是在特殊場(chǎng)合,如在電子商務(wù)領(lǐng)域,探測(cè)和分析孤立點(diǎn)顯得比正常數(shù)據(jù)還 來的重要。 ( 6 ) 演變分析 數(shù)據(jù)演變分析( e v o l u t i o na n a l y s i s ) 用來描述行為隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì), 并對(duì)其建模。時(shí)間趨勢(shì)分析考慮時(shí)間上的變化趨勢(shì),空間趨勢(shì)則要根據(jù)某空間維找出變 化趨勢(shì)。 2 1 3 數(shù)據(jù)挖掘常用技術(shù) ( 1 ) 決策樹 代表著決策集的樹形結(jié)構(gòu)。決策樹是對(duì)分類問題進(jìn)行深入分析的一種方法,在實(shí)際 問題中,按算法生成的決策樹往往復(fù)雜而龐大,令用戶難以理解。這就告訴我們?cè)谥胤?類精確性的同時(shí),也要加強(qiáng)對(duì)樹修剪的研究。 大連理工大學(xué)碩士學(xué)位論文 數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來 作預(yù)測(cè)。常用的算法有c h a i d ,c a r t ,q u e s t 等。決策樹提供了一種展示類似在什么 條件下會(huì)得到什么值這類規(guī)則的方法。 決策樹中最上面的節(jié)點(diǎn)稱為根節(jié)點(diǎn),是整個(gè)決策樹的開始。決策樹的每個(gè)節(jié)點(diǎn)子節(jié) 點(diǎn)的個(gè)數(shù)與決策樹所用的算法有關(guān)。每個(gè)分支要么是一個(gè)新的決策節(jié)點(diǎn),要么是樹的結(jié) 尾,稱為葉子。在沿著決策樹從上到下遍歷的過程中,在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)問題, 對(duì)每個(gè)節(jié)點(diǎn)上問題的不同回答導(dǎo)致不同的分支最后會(huì)到達(dá)一個(gè)葉子節(jié)點(diǎn)。這個(gè)過程就是 利用決策樹進(jìn)行分類的過程,利用幾個(gè)變量( 每個(gè)變量對(duì)應(yīng)一個(gè)問題) 來判斷所屬的類別 ( 最后每個(gè)葉子會(huì)對(duì)應(yīng)一個(gè)類別) 。假如負(fù)責(zé)借貸的銀行官員利用上面這棵決策樹來決定 支持哪些貸款和拒絕哪些貸款,那么他就可以用貸款申請(qǐng)表來運(yùn)行這棵決策樹,用決策 樹來判斷風(fēng)險(xiǎn)的大小。“年收入 ¥4 0 0 0 0 ”和“高負(fù)債”的用戶被認(rèn)為是“高風(fēng)險(xiǎn)”, 同時(shí)“收入 5 年”的申請(qǐng),則被認(rèn)為“低風(fēng)險(xiǎn)”而建議貸款 給用戶。 ( 2 ) 人工神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上。它可以對(duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行分析, 并可以完成對(duì)人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢(shì)分析。神經(jīng)網(wǎng)絡(luò)系統(tǒng)由 一系列類似于人腦神經(jīng)元一樣的處理單元組成,我們稱之為節(jié)點(diǎn)( n o d e ) 。這些節(jié)點(diǎn)通過 網(wǎng)絡(luò)彼此互連,如果有數(shù)據(jù)輸入,它們便可以進(jìn)行確定數(shù)據(jù)模式的工作。神經(jīng)網(wǎng)絡(luò)有相 互連接的輸入層、中間層( 或隱藏層) 、輸出層組成。中問層由多個(gè)節(jié)點(diǎn)組成,完成大部 分網(wǎng)絡(luò)工作。輸出層輸出數(shù)據(jù)分析的執(zhí)行結(jié)果。例如;我們可以指定輸入層為代表過去 的銷售情況、價(jià)格及季節(jié)等因素,輸出層便可輸出判斷本季度的銷售情況的數(shù)據(jù)。 神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,因?yàn)樗鼮榻鉀Q大復(fù)雜度問題提供了一種相對(duì) 來說比較有效的簡單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個(gè)參數(shù)的問題( 當(dāng)然實(shí) 際生物體中存在的神經(jīng)網(wǎng)絡(luò)要比我們這里所說的程序模擬的神經(jīng)網(wǎng)絡(luò)要復(fù)雜的多) 。神 經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。在結(jié)構(gòu)上,可以把一個(gè)神經(jīng)網(wǎng)絡(luò)劃分為輸入層、 輸出層和隱含層。輸入層的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)個(gè)的預(yù)測(cè)變量。輸出層的節(jié)點(diǎn)對(duì)應(yīng)目標(biāo)變 量,可有多個(gè)。在輸入層和輸出層之間是隱含層( 對(duì)神經(jīng)網(wǎng)絡(luò)使用者來說不可見) ,隱含 層的層數(shù)和每層節(jié)點(diǎn)的個(gè)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。 神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計(jì)方法在本質(zhì)上有很多差別。神經(jīng)網(wǎng)絡(luò)的參數(shù)可以比統(tǒng)計(jì)方法多很 多。由于多,參數(shù)通過各種各樣的組合方式來影響輸出結(jié)果,以至于很難對(duì)一個(gè)神經(jīng)網(wǎng) 絡(luò)表示的模型做出直觀的解釋。實(shí)際上神經(jīng)網(wǎng)絡(luò)也正是當(dāng)作“黑盒”來用的,不用去管 “盒子”里面是什么,只管用就行了。在大部分情況下,這種限制條件是可以接受的。 一9 一 數(shù)據(jù)挖掘方法在采購優(yōu)化中的研究與應(yīng)用 比如銀行可能需要一個(gè)筆跡識(shí)別軟件,但他沒必要知道為什么這些線條組合在一起就是 一個(gè)人的簽名,而另外一個(gè)相似的則不是。在很多復(fù)雜度很高的問題如化學(xué)試驗(yàn)、機(jī)器 人、金融市場(chǎng)的模擬、和語言圖像的識(shí)別,等領(lǐng)域神經(jīng)網(wǎng)絡(luò)都取得了很好的效果。神經(jīng) 網(wǎng)絡(luò)的另一個(gè)優(yōu)點(diǎn)是很容易在并行計(jì)算機(jī)上實(shí)現(xiàn),可以把他的節(jié)點(diǎn)分配到不同的c p u 上并行計(jì)算。 ( 3 ) 遺傳算法 遺傳算法( g e n e t i ca l g o r i t h m , g a ) 是近幾年發(fā)展起來的一種嶄新的全局優(yōu)化算法,是 一種基于生物進(jìn)化論和分子遺傳學(xué)的搜索優(yōu)化算法。它借用了生物遺傳學(xué)的觀點(diǎn),通過 自然選擇、遺傳、變異等作用機(jī)制,實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。這一點(diǎn)體現(xiàn)了自然 界中“物競天擇、適者生存”進(jìn)化過程。1 9 6 2 年h o l l a n d 教授首次提出了g a 算法的思 想,從而吸引了大批的研究者,迅速推廣到優(yōu)化、搜索、機(jī)器學(xué)習(xí)等方面,并奠定了堅(jiān) 實(shí)的理論基礎(chǔ)。 遺傳算法是首先將問題可能的解按某種形式進(jìn)行編碼,編碼后的解稱為染色體;隨 機(jī)選取n 個(gè)染色體作為初始種群,再根據(jù)預(yù)定的評(píng)價(jià)函數(shù)對(duì)每個(gè)染色體計(jì)算適應(yīng)值,性 能較好的染色體有較高的適應(yīng)值;選擇適應(yīng)值較高的染色體進(jìn)行復(fù)制,并通過遺傳算子, 產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體,形成新的種群,直至最后收斂到一個(gè)最適應(yīng)環(huán)境的 個(gè)體,得到問題的最優(yōu)化解。 ( 4 ) 近鄰算法 將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。依據(jù) d oa sy o u rn e i g h b o r sd o 的原則, 相鄰數(shù)據(jù)必然有相同的屬性或行為。k - - n e a r e s t 鄰居方法的含義為:k 表示某個(gè)特定數(shù) 據(jù)的k 個(gè)鄰居,可以通過k 個(gè)鄰居的平均數(shù)據(jù)來預(yù)測(cè)該特定數(shù)據(jù)的某個(gè)屬性或行為。 ( 5 ) 規(guī)則推導(dǎo) 從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果一那么”規(guī)則進(jìn)行尋找和推導(dǎo)。采用上述技術(shù)的某 些專門的分析工具己經(jīng)發(fā)展了大約l o 年的歷史,不過這些工具所面對(duì)的數(shù)據(jù)量通常較 小?,F(xiàn)在這些技術(shù)已經(jīng)被直接集成到許多大型的工業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)倉庫和聯(lián)機(jī)分析系統(tǒng)中 去了。 2 1 4 數(shù)據(jù)挖掘的應(yīng)用 數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中找出有價(jià)值的隱藏事件,并且加 以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為企業(yè)進(jìn)行決策的依據(jù)。其應(yīng)用非 常廣泛,只要該產(chǎn)業(yè)有分析價(jià)值與需求的數(shù)據(jù)庫,皆可利用m i n i n g 工具進(jìn)行有目的的 發(fā)掘分析。 大連理工大學(xué)碩士學(xué)位論文 ( 1 ) 數(shù)據(jù)挖掘解決的典型商業(yè)問題 需要強(qiáng)調(diào)的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。目前,在很多領(lǐng)域,數(shù)據(jù) 挖掘都是一個(gè)很時(shí)髦的詞,尤其是在如銀行、電信、保險(xiǎn)、交通、零售( 如超級(jí)市場(chǎng)) 等 商業(yè)領(lǐng)域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷( d a t a b a s em a r k e t i n g ) 、 客戶群體劃分( c u s t o m e rs e g m e n t a t i o n c l a s s i f i c a t i o n ) 、背景分析( p r o f i l ea n a l y s i s ) 、交叉 銷售( c r o s s s e l l i n g ) 等市場(chǎng)分析行為,以及客戶流失性分析( c h u r n a n a l y s i s ) 、客戶信用記 分( c r e d i ts c o r i n g ) 、欺詐發(fā)現(xiàn)( f r a u d d e t e c t i o n ) 等等。 ( 2 ) 數(shù)據(jù)挖掘在市場(chǎng)營銷的應(yīng)用 數(shù)據(jù)挖掘技術(shù)在企業(yè)市場(chǎng)營銷中得到了比較普遍的應(yīng)用,它是以市場(chǎng)營銷學(xué)的市場(chǎng) 細(xì)分原理為基礎(chǔ),其基本假定是“消費(fèi)者過去的行為是其今后消費(fèi)傾向的最好說明”。 通過收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體 的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消 費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營銷,這與傳 統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷 效果,從而為企業(yè)帶來更多的利潤。 商業(yè)消費(fèi)信息來自市場(chǎng)中的各種渠道。例如,每當(dāng)我們用信用卡消費(fèi)時(shí),商業(yè)企業(yè): 就可以在信用卡結(jié)算過程收集商業(yè)消費(fèi)信息,記錄下我們進(jìn)行消費(fèi)的時(shí)間、地點(diǎn)、感興 趣的商品或服務(wù)、愿意接收的價(jià)格水平和支付能力等數(shù)據(jù);當(dāng)我們?cè)谏贽k信用卡、辦理 汽車駕駛執(zhí)照、填寫商品保修單等其他需要填寫表格的場(chǎng)合時(shí),我們的個(gè)人信息就存入 了相應(yīng)的業(yè)務(wù)數(shù)據(jù)庫;企業(yè)除了自行收集相關(guān)業(yè)務(wù)信息之外,甚至可以從其他公司或機(jī) 構(gòu)購買此類信息為自己所用。 這些來自各種渠道的數(shù)據(jù)信息被組合,應(yīng)用超級(jí)計(jì)算機(jī)、并行處理、神經(jīng)元網(wǎng)絡(luò)、 模型化算法和其他信息處理技術(shù)手段進(jìn)行處理,從中得到商家用于向特定消費(fèi)群體或個(gè) 體進(jìn)行定向營銷的決策信息。這種數(shù)據(jù)信息是如何應(yīng)用的呢? 舉一個(gè)簡單的例子,當(dāng)銀 行通過對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘后,發(fā)現(xiàn)一個(gè)銀行賬戶持有者突然要求申請(qǐng)雙人聯(lián)合賬戶 時(shí),并且確認(rèn)該消費(fèi)者是第一次申請(qǐng)聯(lián)合賬戶,銀行會(huì)推斷該用戶可能要結(jié)婚了,它就 會(huì)向該用戶定向推銷用于購買房屋、支付子女學(xué)費(fèi)等長期投資業(yè)務(wù),銀行甚至可能將該 信息賣給專營婚慶商品和服務(wù)的公司。 數(shù)據(jù)挖掘構(gòu)筑競爭優(yōu)勢(shì)。在市場(chǎng)經(jīng)濟(jì)比較發(fā)達(dá)的國家和地區(qū),許多公司都開始在原 有信息系統(tǒng)的基礎(chǔ)上通過數(shù)據(jù)挖掘?qū)I(yè)務(wù)信息進(jìn)行深加工,以構(gòu)筑自己的競爭優(yōu)勢(shì),擴(kuò) 大自己的營業(yè)額。美國運(yùn)通公司( a m e r i c a ne x p r e s s ) 有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù) 庫,數(shù)據(jù)量達(dá)到5 4 億字符,并仍在隨著業(yè)務(wù)進(jìn)展不斷更新:運(yùn)通公司通過對(duì)這些數(shù)據(jù) 數(shù)據(jù)挖掘方法在采購優(yōu)化中的研究與應(yīng)用 進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算( r e l a t i o n s h i p b i u i n g :) 優(yōu)惠”的促銷策略,即如果一個(gè)顧客 在一個(gè)商店用運(yùn)通卡購買一套時(shí)裝,那么在同一個(gè)商店再買一雙鞋,就可以得到比較大 的折扣,這樣既可以增加商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。再如, 居住在倫敦的持卡消費(fèi)者如果最近剛剛乘英國航空公司的航班去過巴黎,那么他可能會(huì) 得到一個(gè)周末前往紐約的機(jī)票打折優(yōu)惠卡。 基于數(shù)據(jù)挖掘的營銷,常??梢韵蛳M(fèi)者發(fā)出與其以前的消費(fèi)行為相關(guān)的推銷材 料。卡夫( k r a f t ) 食品公司建立了一個(gè)擁有3 0 0 0 萬客戶資料的數(shù)據(jù)庫,數(shù)據(jù)庫是通過收 集對(duì)公司發(fā)出的優(yōu)惠券等其他促銷手段做出積極反應(yīng)的客戶和銷售記錄而建立起來的, 卡夫公司通過數(shù)據(jù)挖掘了解特定客戶的興趣和口味,并以此為基礎(chǔ)向他們發(fā)送特定產(chǎn)品 的優(yōu)惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產(chǎn)品食譜。美國的讀者文摘 ( r e a d e r sd i g e s t ) 出版公司運(yùn)行著一個(gè)積累了4 0 年的業(yè)務(wù)數(shù)據(jù)庫,其中容納有遍布全球 的一億多個(gè)訂戶的資料,數(shù)據(jù)庫每天2 4 小時(shí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育熱點(diǎn)問題課件
- 教育政策宣講課件
- 【廣安】2025年四川廣安市考試招聘事業(yè)單位工作人員235人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 語音音標(biāo)教學(xué)課件
- 題型4 函數(shù)圖像型計(jì)算-備戰(zhàn)2020年中考化學(xué)計(jì)算題型特訓(xùn)(原卷版)
- 早教親子活動(dòng)策劃方案
- 教育活動(dòng)與教學(xué)活動(dòng)方案
- 明星合影活動(dòng)方案
- 日常搞笑活動(dòng)方案
- 春節(jié)云活動(dòng)策劃方案
- 寧夏城市發(fā)展集團(tuán)有限責(zé)任公司招聘筆試題庫2025
- 2024-2025年材料員考試題庫含答案【典型題】
- 兒童服務(wù)培訓(xùn)課件模板
- 上海市楊浦區(qū)2024-2025學(xué)年七年級(jí)(下)期末語文試題(含答案)
- 創(chuàng)業(yè)設(shè)計(jì)裝修公司路演提案
- 食堂人員替補(bǔ)方案(3篇)
- 2025年云南省公務(wù)員考試(行測(cè))真題試卷(含答案)
- 數(shù)字化經(jīng)濟(jì)本地化路徑-洞察及研究
- 2025至2030中國海洋功能性食品行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢(shì)及投資規(guī)劃深度研究報(bào)告
- 2025年高考全國二卷英語高考真題
- 2025屆新高三英語組高效備考方法分享心得體會(huì)
評(píng)論
0/150
提交評(píng)論