已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
摘要 摘要 隨著企業(yè)業(yè)務(wù)的發(fā)展,企業(yè)積累了大量的客戶的歷史消費數(shù)據(jù)資料,如何從 這些大量的數(shù)據(jù)中發(fā)現(xiàn)對公司有價值的信息,成為公司將來決策的一個重要的部 分。數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸應(yīng)用到了銀行、保險公司以及零售行業(yè)的數(shù)據(jù)庫銷售 中,并且取锝了不錯的業(yè)績。 本文主要從數(shù)據(jù)庫營銷的角度來討論數(shù)據(jù)挖掘技術(shù),介紹了當(dāng)前數(shù)據(jù)挖掘的 在數(shù)據(jù)營銷中的應(yīng)用,總結(jié)了數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫營銷中的一般的處理流程、 數(shù)據(jù)挖掘算法在數(shù)據(jù)庫營銷應(yīng)用當(dāng)中出現(xiàn)的問題、主要應(yīng)用在數(shù)據(jù)庫營銷中的算 法以及數(shù)據(jù)庫營銷的數(shù)據(jù)挖掘的般的評價方法。本文提出了一種改進了的決策 樹算法,并且通過大量的實驗驗證了市場值函數(shù)算法在數(shù)據(jù)庫營銷中的有效性。 改進的決策樹方法通過統(tǒng)計決策樹的葉子節(jié)點的基本信息,解決數(shù)據(jù)庫營銷中因 為類分布不平衡而不能生成合適的決策樹的問題,同時解決了傳統(tǒng)的決策樹算法 只能對客戶分類,不能對客戶進行排序的問題,使之可以很好的用于數(shù)據(jù)庫營銷。 市場值函數(shù)算法是起源信息檢索并由它擴展而來的一種應(yīng)用于數(shù)據(jù)庫營銷中客 戶選擇方法,它是一種線性模式。這種方法的好處是可以根據(jù)市場值對客戶進行 排序。市場值函數(shù)由兩部分組成:效用函數(shù)和屬性權(quán)值,通過兩者的線性組合可 以計算出每個客戶的市場值,從而可以對每一個客戶進行排序,對客戶進行數(shù)據(jù) 庫營銷。通過在現(xiàn)實數(shù)據(jù)上的實驗,結(jié)果證明市場值函數(shù)方法是種非常適合于 數(shù)據(jù)庫營銷的數(shù)據(jù)挖掘方法。在市場值函數(shù)方法實驗的基礎(chǔ)上我們建立了一個具 有推薦功能的電子商務(wù)網(wǎng)站,企業(yè)可以通過該系統(tǒng)對客戶進行數(shù)據(jù)庫營銷。 數(shù)據(jù)庫營銷是營銷業(yè)的一次革命,相信它會隨著信息技術(shù)的發(fā)展能夠發(fā)揮越 來越重要的作用。 關(guān)鍵詞:數(shù)據(jù)庫營銷數(shù)據(jù)挖掘市場值函數(shù)決策樹 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 a b s t r a c t n o w a d a y s ,e n t e r p r i s e sh a v ea c c u m u l a t e dm a n yc u s t o m e r s i n f o r m a t i o n i tb e c o m e sm o r ea n dm o r ei m p o r t a n th o wt og e tv a l u a b l ei n f o r m a t i o nf r o m t h em a s sd a t af o re n t e r p r i s et om a k ed e c i s i o ni nd a t a b a s em a r k e t i n g n o w m a n yo fd a t am i n i n gt e c h n i q u e sh a v eb e e na p p l i e di nt h ed a t a b a s em a r k e t i n g s u c ha sb a n k 。i n s u r a n c ea n dr e t a i li n c r e a s i n g l y t h i sp a p e rf o c u s e so i ld a t a b a s em a r k e t i n gi nt h ed a t am i n i n gt e c h n i q u e s f i r s t l y ,t h i sp a p e ri n t r o d u c e st h eg e n e r a lp r o c e s so fd a t am i n i n gf o r d a t a b a s em a r k e t i n g ,t h ep r o b l e m so fd a t am i n i n gi nd a t a b a s em a r k e t i n g ,t h e m a j o rd a t am i n i n ga l g o r i t h m sa n dt h ee v a l u a t i o nm e t h o d si n d a t a b a s e m a r k e t i n g s e c o n d l y ,t h i sp a p e rp r o p o s e sam o d i f i e dd e c i s i o nt r e e t h e d e c i s i o nt r e ei sc o n s t r u c t e db yt h es t a t i s t i c a li n f o r m a t i o no fl e a fn o d e s o ft h et r e e i tc a ns o l v et h ep r o b l e mt h a td e c i s i o nt r e ec a n n o tc o n s t r u c t as u i t a b l ed e c i s i o nt r e eb e c a u s eo ft h ee x t r e m e l yi m b a l a n c e dc l a s s d i s t r i b u t i o n si nm a r k e t i n gd a t a b a s e ,a n di tc a nr a n kt h eo b j e c t sa c c o r d i n g t ot h ep r o b a b i l i t yi n s t e a do fc l a s s i f y i n go b j e c t s t h i r d l y ,t h i sp a p e r i n d i c a t e st h a tm a r k e tv a l u ef u n c t i o ni sg o o df o rd a t a b a s em a r k e t i n gb yt h e r e s u l to fm a n ye x p e r i m e n t s m a r k e tv a l u ef u n c t i o ni sal i n e a rm o d e lt os o l v e t h et a r g e ts e l e c t i o np r o b l e mo fd a t a b a s em a r k e t i n gb yd r a w i n ga n de x t e n d i n g r e s u l t f r o mi n f o r m a t i o nr e t r i e v a l am a r k e tv a l u ef u n c t i o ni sal i n e a r c o m b i n a t i o no fu t i l i t yf u n c t i o n so na t t r i b u t ev a l u e s t h ev a l u ei su s e d t or a n ki n d i v i d u a l s t h em a i na d v a n t a g eo ft h i sm o d e li st h a ti tc a nr a n k o b j e c t sa c c o r d i n gt ot h e i rm a r k e tv a l u er a t h e rt h a nc l a s s i f y t h i sp a p e r h a sc o n s t r u c t e da ne - c o m m e r c ew e b s i t ew i t hr e c o m m e n d a t i o nf u n c t i o nb a s e d o nm a r k e tv a l u ef u n c t i o na l g o r i t h m i tc a nh e l pt h ee n t e r p r i s et oi m p l e m e n t n 一 a b s t r a c t d a t a b a s em a r k e t i n gb yn e t w o r k d a t a b a s em a r k e t i n gi san e wr e v o l u t i o nf o rt h et r a d i t i o n a lm a r k e t i n g i tw i l lb em o r ea n dm o r ei m p o r t a n tf o re n t e r p r i s ew i t ht h ed e v e l o p m e n to f i n f o r m a t i o nt e c h n o l o g y k e y w o r d s :d a t a b a s em a r k e t i n g ,d a t am i n i n g ,m a r k e tv a l u ef u n c t i o n ,d e c i s i o n t r e e 一一 第l 章緒論 第1 章緒論 隨著i t 技術(shù)的迅速發(fā)展,社會信息量的不斷增加,使得很多公司企業(yè)的數(shù) 據(jù)庫的規(guī)模不斷的擴大,產(chǎn)生了海量的數(shù)據(jù)。為了給決策者提供一個統(tǒng)一的全局 視角,在很多的領(lǐng)域都建立了數(shù)據(jù)倉庫,但是大量的數(shù)據(jù)往往便人們無法辨別隱 藏在數(shù)據(jù)中的、能對決策提供支持的信息。傳統(tǒng)的查詢、報表工具無法滿足挖掘 這些決策信息的要求,數(shù)據(jù)挖掘技術(shù)在這種需求下產(chǎn)生了。 數(shù)據(jù)挖掘是一門新興的交叉學(xué)科,自2 0 世紀末提出以來,引起了許多專家 學(xué)者的廣泛關(guān)注。數(shù)據(jù)庫中的知識發(fā)現(xiàn)k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價 值的信息或模式。它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域,融合了數(shù)據(jù) 庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。它不僅能從歷史數(shù) 據(jù)中建立回顧型模型,而且還能夠建立預(yù)測型模型,為我們從大規(guī)模的數(shù)據(jù)庫中 提取有用信息提供了強有力的解決工具。數(shù)據(jù)挖掘不但能夠?qū)W習(xí)已有的知識,而 且能夠發(fā)現(xiàn)未知的知識。通過數(shù)據(jù)挖掘得到的知識是“顯式”的,既能為人所理 解,又便于存儲和應(yīng)用,因此一出現(xiàn)就得到廣泛的重視。計算機中能夠存儲已知 結(jié)果的大量不同事實,然后由數(shù)據(jù)挖掘工具從這些信息里面沙里淘金,將能夠產(chǎn) 生模型的信息提取出來,并將模型以圖、表、公式等人們易于理解的方式表達出 來。數(shù)據(jù)挖掘有廣義和狹義之分,廣義的數(shù)據(jù)挖掘指從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的、 內(nèi)在的和有用的知識或信息的過程。狹義的數(shù)據(jù)挖掘是指知識發(fā)現(xiàn)中的個關(guān)鍵 步驟,是一個抽取有用模式或建立模型的重要環(huán)節(jié)。數(shù)據(jù)挖掘廣泛地應(yīng)用于零售、 營銷、銀行、保險、交通、電信、醫(yī)療及故障診斷等許多領(lǐng)域,在市場預(yù)測、股 票分析、客戶行為分析及決策支持等許多方面取得了可喜的成果。隨著c r m 經(jīng)營 理念的迅速發(fā)展和數(shù)據(jù)挖掘技術(shù)所帶來的經(jīng)濟效益正越來越受到企業(yè)的關(guān)注,其 應(yīng)用前景也越來越廣闊。 c 附源于“以客戶為中心”的新型商業(yè)模式,是一種旨在改善企業(yè)與客戶之 一1 一 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 間關(guān)系的新型管理機制。通過向企業(yè)的銷售、市場和服務(wù)等部門和人員提供全面、 個性化的客戶資料,并強化跟蹤服務(wù)和信息分析能力,使他們能夠協(xié)同建立和維 護一系列與客戶以及生意伙伴之間卓有成效的“一對一關(guān)系”,從而使企業(yè)得以 提供更快捷和周到的優(yōu)質(zhì)服務(wù),提高客戶滿意度,吸引和保護更多的客戶,從而 增加營業(yè)額,并通過信息共享和優(yōu)化商業(yè)流程,有效地降低企業(yè)經(jīng)營成本。 數(shù)據(jù)庫營銷是客戶關(guān)系管理( c r m ) 中的一個比較關(guān)鍵的部分。數(shù)據(jù)庫營銷, 是在企業(yè)通過收集和積累消費者大量的信息,經(jīng)過處理后預(yù)測消費者有多大可能 去購買某種產(chǎn)品,以及利用這些信息給產(chǎn)品以精確定位,有針對性地制作營銷信 息達到說服消費者去購買產(chǎn)品地目的。通過數(shù)據(jù)庫的建立和分析,各個部門都對 顧客的資料有詳細全面的了解,可以給予顧客更加個性化的服務(wù)支持和營銷設(shè) 計,使“一對一的客戶關(guān)系管理”成為可能。數(shù)據(jù)庫營銷是一個“信息雙向交流” 的體系,它為每一位目標(biāo)顧客提供了及時做出反饋的機會,并且這種反饋是可測 定和度量的。 數(shù)據(jù)庫營銷的成功應(yīng)用離不開數(shù)據(jù)挖掘技術(shù),我們可以把數(shù)據(jù)挖掘算法作用 在客戶數(shù)據(jù)上,分析客戶的購買習(xí)性和趨向,預(yù)測客戶對相應(yīng)營銷方式的響應(yīng)率, 發(fā)現(xiàn)有利顧客的特征,有目的性的開展廣告和銷售業(yè)務(wù)。通過對顧客的忠誠度分 析,相應(yīng)調(diào)整商品的價格和類型,改進銷售服務(wù),有利于保留現(xiàn)有客戶,尋找潛 在的客戶。擴大銷售的范圍和規(guī)模,從而增加銷售量。通過在線銷售的數(shù)據(jù),得 出產(chǎn)品關(guān)聯(lián)的商用信息和客戶的購買習(xí)慣,使進貨的選擇與搭配更具科學(xué)性。 1 1 課題背景 近代營銷在歷經(jīng)種種概念變換之后,關(guān)注的焦點終于回到了營銷活動的主體 人與人的關(guān)系上。關(guān)系營銷是指建立維系和發(fā)展顧客關(guān)系的營銷過程,目標(biāo) 是致力建立顧客的忠誠度,它有別于傳統(tǒng)的交易營銷,要為顧客增加各種服務(wù)的 附加值。在這種營銷方式下,營銷者就必須花費精力對每個顧客進行研究,力求 進行“一對一的溝通”,這就要求企業(yè)要建立一個先進的顧客數(shù)據(jù)庫,以便更好 地了解顧客,為顧客提供其所需要的產(chǎn)品設(shè)計和勞務(wù),加強同顧客的忠誠關(guān)系。 一2 一 第l 章緒論 特別是當(dāng)市場競爭日趨激烈時,顧客成為企業(yè)關(guān)注的焦點,如何爭取和留住顧客 將是企業(yè)營銷工作的主題。這就需要營銷者站在顧客的立場上及時了解顧客的需 求及其變化。要依照消費者的價值觀念來設(shè)計、生產(chǎn)、定位產(chǎn)品,在很多情況下, 無法吸引到顧客或失去顧客往往不是產(chǎn)品的質(zhì)量問題,而是顧客對服務(wù)的不滿, 因此,產(chǎn)品的服務(wù)化和服務(wù)的產(chǎn)品化應(yīng)該是高度融合在一起的。提供優(yōu)良的服務(wù), 建立起顧客對企業(yè)的忠誠度,就需要把消費者的價值觀念貫穿于企業(yè)的整個經(jīng)營 過程中,企業(yè)的各個部門將被高度地整合起來,以顧客為中心開展工作,另一方 面,消費者的需求、價值觀念又會在與市場環(huán)境的互動中不斷的改變著,當(dāng)這種 變化的頻率越來越高,那種傳統(tǒng)的單向溝通的營銷方式已經(jīng)力不從心,就需要新 的雙向溝通的營銷方式取麗代之,建立起顧客與企業(yè)間的長期穩(wěn)定的互動關(guān)系。 而信息技術(shù)的發(fā)展為這種雙向溝通的方式提供了強有力的支持,暢通的信息溝通 與共享使企業(yè)的各個部門、顧客以及各種環(huán)境因素融為一體,這就使得數(shù)據(jù)庫營 銷應(yīng)時而生。 1 2 基于數(shù)據(jù)庫營銷的數(shù)據(jù)挖掘的現(xiàn)狀 基于數(shù)據(jù)挖掘的數(shù)據(jù)庫營銷,常常可以向消費者發(fā)出與其以前的消費行為相 關(guān)的營銷材料。目前,將數(shù)據(jù)挖掘應(yīng)用到數(shù)據(jù)庫營銷上已經(jīng)有了很多成功應(yīng)用的 案例。在市場經(jīng)濟比較發(fā)達的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的基 礎(chǔ)上通過數(shù)據(jù)挖掘?qū)I(yè)務(wù)信息進行深加工,以構(gòu)筑自己的競爭優(yōu)勢,擴大自己的 營業(yè)額。數(shù)據(jù)庫營銷在西方發(fā)達國家的企業(yè)里己相當(dāng)普及,在美國,1 9 9 4 年 d o n n e l l e ym a r k e t i n g 公司的調(diào)查顯示,5 6 的零售商和制造商有營銷數(shù)據(jù)庫, 1 0 的零售商和制造商正在計劃建設(shè)營銷數(shù)據(jù)庫,8 5 的零售商和制造商認為在本 世紀末,他們將需要一個強大的營銷數(shù)據(jù)庫來支持他們的競爭實力。從全球來看, 數(shù)據(jù)庫營銷作為市場營銷的一種形式,正越來越受到企業(yè)管理者的青睞,在維系 顧客、提高銷售額中扮演著越來越重要的作用。 而在國內(nèi)基于數(shù)據(jù)庫營銷的數(shù)據(jù)挖掘的研究才岡t n , j 起步,目前還有很多的事 情要做,這也是我們從事這個研究課題的出發(fā)點。 一3 一 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 1 3 本課題的主要研究內(nèi)容 本課題的主要出發(fā)點是為企業(yè)決策者提供銷售的決策支持,從大量的企業(yè)的 銷售歷史數(shù)據(jù)中發(fā)現(xiàn)潛在的客戶群,使企業(yè)可以采用適當(dāng)?shù)匿N售方式。我們的主 要工作是根據(jù)不同營銷方式選用合適的數(shù)據(jù)挖掘算法,分析客戶的購買習(xí)性和趨 向,預(yù)測客戶對相應(yīng)營銷方式的回應(yīng)率,進而為企業(yè)數(shù)據(jù)庫營銷提供決策支持。 一4 一 第2 章數(shù)據(jù)挖掘與數(shù)據(jù)庫營銷 2 1 介紹 第2 章數(shù)據(jù)挖掘與數(shù)據(jù)庫營銷 數(shù)據(jù)庫營銷是營銷領(lǐng)域的一次重要變革,是一個全新的營銷概念。所謂數(shù)據(jù) 庫營銷( d a t a b a s em a r k e t i n g ) ,就是企業(yè)通過搜集和積累消費者的大量信息, 經(jīng)過處理后預(yù)測消費者有多大可能去購買某種產(chǎn)品,以及利用這些信息給產(chǎn)品以 精確定位,有針對性地制作營銷信息,以達到說服消費者去購買產(chǎn)品的目的。 隨著數(shù)據(jù)量的急劇增長,現(xiàn)在的用戶很難再像從前那樣,自己根據(jù)數(shù)據(jù)的分 布找出規(guī)律,并根據(jù)此規(guī)律進行分析決策。因此必須借助于相應(yīng)的數(shù)據(jù)挖掘工具, 自動發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律或模式,為決策提供支持。數(shù)據(jù)挖掘技術(shù)主要用于從 大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的關(guān)系。 作為一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù) 數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性 數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)在企業(yè)市場營銷中得到了比較普遍的應(yīng)用,它是以市場營銷 學(xué)的市場細分原理為基礎(chǔ),其基本假定是”消費者過去的行為是其今后消費傾向 的最好說明”。 通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體 或個體的興趣、消費習(xí)慣、消費傾向和消費需求,進而推斷出相應(yīng)消費群體或個 體下一步的消費行為,然后以此為基礎(chǔ),對所識別出來的消費群體進行特定內(nèi)容 的定向營銷,這與傳統(tǒng)的不區(qū)分消費者對象特征的大規(guī)模營銷手段相比,大大節(jié) 省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤a 從現(xiàn)在的情況來看很多的企業(yè)都建立起了自己的數(shù)據(jù)倉庫系統(tǒng),數(shù)據(jù)倉庫中 包含了大量的客戶和企業(yè)業(yè)務(wù)的歷史數(shù)據(jù)。如何從大量的歷史數(shù)據(jù)中挖掘出有用 的信息并為企業(yè)的決策支持服務(wù),對于企業(yè)未來的發(fā)展具有很重要的意義。面向 市場營銷的數(shù)據(jù)挖掘技術(shù),已經(jīng)逐漸應(yīng)用到銀行、保險公司以及零售行業(yè)。隨著 一,一 北京工業(yè)太學(xué)工學(xué)碩士學(xué)位論文 商品種類增多以及人們需求多樣化的市場趨勢,傳統(tǒng)的銷售方式不能完全適應(yīng)市 場的發(fā)展了,而且隨著市場競爭的加劇,浪費的問題變得越來越嚴重,節(jié)約成本 減少浪費成為商家必須考慮的一個重要問題。正是由于上述問題,越來越多的人 參與到了面向市場的數(shù)據(jù)挖掘系統(tǒng)的研究,數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)倉庫技術(shù)的發(fā)展 正好給該問題的解決提供了條件,兩者的結(jié)合可以很好的解決目標(biāo)市場中的數(shù)據(jù) 庫營銷的問題。 基于數(shù)據(jù)挖掘的營銷,常??梢韵蛳M者發(fā)出與其以前的消費行為相關(guān)的營 銷材料。目前,將數(shù)據(jù)庫營銷技術(shù)應(yīng)用到目標(biāo)市場問題上已經(jīng)有了一些成功應(yīng)用 的案例。在市場經(jīng)濟比較發(fā)達的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的 基礎(chǔ)上通過數(shù)據(jù)挖掘?qū)I(yè)務(wù)信息進行深加工,以構(gòu)筑自己的競爭優(yōu)勢,擴大自己 的營業(yè)額。美國運通公司( a m e r i c a ne x p r e s s ) 有一個用于記錄信用卡業(yè)務(wù)的數(shù)據(jù) 庫,數(shù)據(jù)量達到5 4 億字符,并仍在隨著業(yè)務(wù)進展不斷更新,運通公司通過對這 些數(shù)據(jù)進行挖掘,制定了“關(guān)聯(lián)結(jié)算( r e l a t i o ns h i pb i l l i n g ) 優(yōu)惠”的促銷策 略,增加了商店的銷售量??ǚ? k r a f t ) 食品公司通過收集對公司發(fā)出的優(yōu)惠券 等其他促銷手段做出積極反應(yīng)的客戶和銷售記錄建立了一個擁有3 0 0 0 萬客戶資 料的數(shù)據(jù)庫,通過數(shù)據(jù)挖掘了解特定客戶的興趣和口味,并以此為基礎(chǔ)向他們發(fā) 送特定產(chǎn)品的優(yōu)惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產(chǎn)品食譜。 美國的讀者文摘( r e a d e r sd i g e s t ) 出版公司運行著一個積累了4 0 年的業(yè)務(wù)數(shù)據(jù) 庫,正是基于對客戶資料數(shù)據(jù)庫進行數(shù)據(jù)挖掘的優(yōu)勢,使讀者文摘出版公司能夠 從通俗雜志擴展到專業(yè)雜志、書刊和聲像制品的出版和發(fā)行業(yè)務(wù),極大地擴展了 自己的業(yè)務(wù)。 2 2 數(shù)據(jù)庫營銷中的數(shù)據(jù)挖掘的處理過程 一般來說數(shù)據(jù)庫中的真正購買商品的客戶的比例是很小的“”,通常為 1 5 ,由于數(shù)據(jù)庫營銷的特殊的情況,因此在進行數(shù)據(jù)庫營銷選用算法、數(shù)據(jù) 以及數(shù)據(jù)挖掘處理的對候都有特殊的要求。通常面向數(shù)據(jù)庫營銷的數(shù)據(jù)挖掘系統(tǒng) 的處理過程如下( 見圖2 1 ) : 一6 一 第2 蘋數(shù)據(jù)挖掘與數(shù)據(jù)厙營銷 數(shù)據(jù)預(yù)處理從數(shù)據(jù)倉庫中獲取的歷史數(shù)據(jù)在很大程度上存在著不完整、有 噪音以及不一致的問題,不能直接應(yīng)用在數(shù)據(jù)挖掘算法中。數(shù)據(jù)的預(yù)處理除了要 解決數(shù)據(jù)的不完整、有嗓音和不一致的問題還包括轉(zhuǎn)換地址和區(qū)域代碼以及處理 屬性值丟失的問題,同時要求從數(shù)據(jù)的屬性集中找出關(guān)鍵屬性集,以精簡數(shù)據(jù), 提高運算速度。如果選用的算法不能處理連續(xù)的屬性,還要對連續(xù)屬性進行離散 化操作。 生成模式把經(jīng)過預(yù)處理的數(shù)據(jù)分成訓(xùn)練例集合和測試例集合,在實驗中我 們可以把訓(xùn)練例集合和測試例集合的大小按照1 :l 的比例分配,將選用的學(xué)習(xí)算 法作用在訓(xùn)練例集合上,得到一個新的模式,再把生成的模式作用在測試例集合 上,對模式的結(jié)果做評估,如果模式不能滿足要求,則修改算法并重新作用在訓(xùn) 練例集合上,生成新的模式并再次在測試例集合上作評估,直到找到滿意的模式 為止。 圖2 一l 面向市場數(shù)據(jù)庫營銷的數(shù)據(jù)挖掘過程 f i 9 2 1 t h ep r o c e s so fd a t am i n i n gi nd a t a b a s em a r k e t i n g 應(yīng)用模式把生成的模式作用在企業(yè)的客戶數(shù)據(jù)庫中,依次對客戶數(shù)據(jù)進行 處理,按照客戶成為潛在客戶的概率的大小自高到低進行排序,一般如果生成的 模式有較好的效果的話,具有高概率的客戶會集中在序列的上部。企業(yè)可以根據(jù) 客戶的概率大小,靈活的選擇前面的客戶,并且可以采用不同的聯(lián)系方式,如前 面的1 0 客戶采用電話聯(lián)系,對后面2 0 的客戶采用發(fā)郵件的方式聯(lián)系。 一 一 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 2 3 數(shù)據(jù)挖掘在數(shù)據(jù)庫營銷中表現(xiàn)出的主要問題 數(shù)據(jù)庫營銷作為一種新的營銷方式有它自己的特點:一般來說營銷數(shù)據(jù)庫中 客戶對商家所推銷的產(chǎn)品真正感興趣人是比較少的( 通常1 ) ,我們需要從大量 的客戶中找出這一少部分的客戶:營銷數(shù)據(jù)庫中存在海量的客戶的消費歷史數(shù) 據(jù),要求系統(tǒng)能較快的處理這些數(shù)據(jù);需要最大限度的考慮到公司的最大營銷利 潤;公司需要針對不同消費特點的客戶采用不同的銷售策略。由于數(shù)據(jù)庫營銷有 這些特性,很多的傳統(tǒng)數(shù)據(jù)挖掘方法,在應(yīng)用到目標(biāo)市場銷售的時候出現(xiàn)了一些 問題,這些問題主要表現(xiàn)在以下幾個方面: 第一最明顯的問題就是營銷數(shù)據(jù)庫中類( 包括購買者和非購買者兩類) 的 分布的極端不均衡。最典型的就是數(shù)據(jù)集中只有1 的正例( 購買者) ,而其余 的則均為負例( 非購買者) 。很多的學(xué)習(xí)算法對這種數(shù)據(jù)集表現(xiàn)得都不是很好, 有些算法只是發(fā)現(xiàn)一條簡單的規(guī)則或者將全部的例子判為負例,而這條規(guī)則在訓(xùn) 練例和測試例上都可達到9 9 的精度,而所發(fā)現(xiàn)的這樣的規(guī)則在實際應(yīng)用中作 用比較小。在最近幾年很多的數(shù)據(jù)挖掘和機器學(xué)習(xí)的研究者都意識到了并且也開 始研究這個問題。 第二即使找到一種合理的模式,傳統(tǒng)的數(shù)據(jù)挖掘中采用的預(yù)測精度這種標(biāo) 準已不合適數(shù)據(jù)庫的營銷模式的評價“1 。其中一個原因是對誤判的處理方式應(yīng)不 一樣:把負例判成正例實際上是我們的目標(biāo),而把正例誤判成負例卻是不能接受 的。另一個原因就是預(yù)測精度對于挖掘客戶的作用太弱,二元分類法只能預(yù)測購 買者和非購買者這兩類,而不能在預(yù)測的購買者和非購買者之間作一個更好的區(qū) 分。并且在從預(yù)測的購買者中選定一定比例的最可能的購買者作為促銷對象時, 該方法不夠靈活。比如我們選擇前1 0 0 位最可能的購買者采用電話的方式促銷, 而對后面的1 0 0 0 位采用發(fā)e m a i l 的方式促銷。 第三數(shù)據(jù)庫營銷中數(shù)據(jù)挖掘算法的效率是一個需要重視的問題。當(dāng)我們把 整個數(shù)據(jù)集分成大小相等的訓(xùn)練例集和測試例集的時候,訓(xùn)練例集的數(shù)據(jù)量對于 選定的學(xué)習(xí)算法可能過大,需要消耗較多的時間,在實際應(yīng)用當(dāng)中,也可能會因 一8 一 第2 葷數(shù)據(jù)挖掘與數(shù)據(jù)庫營銷 為算法效率太低而錯過最佳的營銷時間,給企業(yè)造成不必要的經(jīng)濟損失。因此對 于相應(yīng)的數(shù)據(jù)集應(yīng)該選用高效率的學(xué)習(xí)算法。 第四在己知的算法中,幾乎所有的算法都只是考慮了回應(yīng)率,而在實際生 活中從事營銷的商人所感興趣的是獲得最大的利潤,而不只是回應(yīng)率嘲。實際生 活中回應(yīng)率在某些時候并不代表利潤值,商家從某些回應(yīng)者的銷售中獲得的利潤 可能是其他回應(yīng)者的好幾倍,因此從實際情況考慮,算法不應(yīng)只考慮回應(yīng)率,而 應(yīng)更多的考慮企業(yè)的利潤。 第五大部分的算法都沒有考慮回應(yīng)的不同方式,一概認為做出回應(yīng)的客戶 的回應(yīng)方式都是一樣的,而在實際生活中這是不現(xiàn)實的。1 。不同的客戶對同一個 促銷的材料所做出的反應(yīng)方式是各異的,有的可能購買廉價的商品,而有的就可 能購買奢侈品,兩種不同的回應(yīng)方式給商家?guī)淼睦麧櫼彩遣灰粯拥模鴮嶋H中 很多算法都沒有考慮這一點。 第六一般給出的關(guān)于客戶的信息的數(shù)據(jù)集的屬性的太多,不便于選取,而 這又是因為正負例分布的極端不均勻的結(jié)果“1 。例如如果采用信息增益的方法來 選取屬性,負例占據(jù)9 9 的比例,初始的熵值就比較小,因此在選用不同的屬 性求信息增益時,信息增益值的大小差別不大,導(dǎo)致選不出關(guān)鍵的屬性。在實際 中一般常用的認為比較重要的幾個屬性是r f m ( r e c e n to ft h e l a s tp u r c h a s e , f r e q u e n c yo fp u r c h a s e ,m o n e t a r yv a l u e ) ,但是這幾個屬性對于還不是顧戶的 客戶來說,這些客戶的資料在公司的數(shù)據(jù)庫里是不存在的。 在數(shù)據(jù)庫營銷當(dāng)中我們應(yīng)根據(jù)營銷數(shù)據(jù)庫的不同情況選用相應(yīng)的數(shù)據(jù)挖掘 算法,盡量避免陷入這些問題當(dāng)中,達到最佳的營銷效果。 2 4 數(shù)據(jù)庫營銷中常用的數(shù)據(jù)挖掘算法 數(shù)據(jù)挖掘的核心是采用機器學(xué)習(xí)、統(tǒng)計等方法進行知識學(xué)習(xí)的階段。數(shù)據(jù)挖 掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞,因此選取適當(dāng)?shù)乃惴ɑ蛩惴ńM合 至關(guān)重要。 根據(jù)對數(shù)據(jù)挖掘的認識的不同,人們對數(shù)據(jù)挖掘技術(shù)有不同的劃分。第一種 。9 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 根據(jù)學(xué)科的不同,把數(shù)據(jù)挖掘方法分為兩類“1 :統(tǒng)計模型和機器學(xué)習(xí)技術(shù)。統(tǒng)計 模型應(yīng)用于數(shù)據(jù)挖掘主要是進行評估,常用的統(tǒng)計技術(shù)有概率分布、關(guān)聯(lián)分析、 回歸、聚類分析和判別分析等;機器學(xué)習(xí)是人工智能的一個分支,通過學(xué)習(xí)訓(xùn)練 數(shù)據(jù)集,發(fā)現(xiàn)模型的參數(shù),并找出隱含的規(guī)則。第二種是根據(jù)客戶選擇方式的不 同,把數(shù)據(jù)挖掘劃分為兩類:分割技術(shù)( s e g m e n t a t i o n ) 和回應(yīng)模式( r e s p o n s e m o d e l i n g ) 。3 。分割模式是通過算法把個體分成不同的群體,群體內(nèi)部的個體盡 量相似,群體與群體之間盡量具有最大的不同,從群體中選取較高的回應(yīng)概率的 群體作為發(fā)送促銷材料的客戶?;貞?yīng)模式是采用算法對每一個個體計算出一個目 標(biāo)值( t a r g e ts c o r i n g ) ,選擇具有最高的目標(biāo)值的個體作為發(fā)送促銷材料的客 戶。兩種不同劃分出發(fā)點不同,各有合理的一面,不過因為面向數(shù)據(jù)庫營銷的數(shù) 據(jù)挖掘方法更注重潛在客戶的選擇,第二種劃分更適合面向數(shù)據(jù)庫營銷的環(huán)境。 下面主要從分割模式和回應(yīng)模式兩種不同的角度介紹目前數(shù)據(jù)庫營銷中的 幾種主要的數(shù)據(jù)挖掘研究方法。 2 4 1 分割模式 最常使用的分割技術(shù)是聚類分析技術(shù),如a i d 、c h a i d 和c a r d 方法。通常這 三種方法是構(gòu)造一棵決策樹,決策樹是定義布爾函數(shù)的一種方法,其輸入為一組 屬性描述的對象,輸出為y e s n o 的決策。樹的每一個內(nèi)部節(jié)點( 包括根節(jié)點) 是對輸入的某個屬性的測試,此節(jié)點下面的各個分支被標(biāo)記為該屬性性質(zhì)的各個 值。每個葉子節(jié)點表示達到該節(jié)點時布爾函數(shù)應(yīng)返回的y e s n o 值。決策樹的每 一個節(jié)點上,就是對客戶的一個劃分。 單純的決策樹方法并不能完全的解決數(shù)據(jù)庫營銷的問題,因為它只能求出一 些分類規(guī)則,而不能按照客戶成為潛在客戶的概率值對客戶排序,以便選擇潛在 的客戶。為此,有人提出帶確信因子( c e r t a i n t yf a c t o r ) 的c 4 5 算法。確信 l 因子是指符合每個分類的訓(xùn)練例在整個訓(xùn)練例上的比例。l i n g 也使用了帶有確 信因子的c 4 5 算法作為解決數(shù)據(jù)庫營銷該問題的方法“1 。另外,由于決策屬性 的分布的絕對不平衡,很難構(gòu)造出一棵合適的決策樹,并且構(gòu)造出來的規(guī)則可能 很簡單,不具有實用價值“1 。 一1 0 第2 章數(shù)據(jù)挖掘與數(shù)據(jù)庫營銷 2 ,4 2 回應(yīng)模式 回應(yīng)模式通常是計算每一個的客戶的可能做出回應(yīng)的概率值,從而每一個客 戶都有一個目標(biāo)值( t a r g e ts c o r i n g ) ,可以根據(jù)目標(biāo)值大小從高到低進行排序, 然后選取前面的概率值高的客戶作為發(fā)送促銷資料的客戶。在數(shù)據(jù)庫銷售中很多 數(shù)據(jù)挖掘方法都是屬于回應(yīng)模式,下面介紹幾種常見的回應(yīng)模式數(shù)據(jù)挖掘算法。 m a r k e tv a l u ef u n c t i o n s 叭”該方法是源于信息檢索( i n f o r m a t i o n r e t r i e v a l ) 并由它發(fā)展而來的一種應(yīng)用于目標(biāo)市場銷售的客戶選擇方法,它是 一種線性模式。這種方法的好處是可以根據(jù)m a r k e tv a l u e 的值得大小對客戶進 行排序。市場值函數(shù)( m a r k e tv a l u ef u n c t i o n ) 由兩部分組成:效用函數(shù)( u t i l i t y f u n c t i o n ) 和屬性的權(quán)值。效用函數(shù)源于信息檢索的概率模型,屬性的權(quán)值是基 于信息理論的屬性重要性的衡量。在挖掘市場值函數(shù)方面有很多的方法。一般市 場值函數(shù)表示為: ,2 紋以( z ( 2 一1 ) o e i 在這里腳。是屬性a 的權(quán)值,權(quán)值珊??赡転檎?、為負或者為零,效用函數(shù)為 ( l ( 對) 。如果屬性具有較大權(quán)值就說明該屬性比較重要,屬性的權(quán)值如果接近 零或為負就說明該屬性不太重要,個體x 的m a r k e tv a l u e 值就是所有屬性的u 函數(shù)與出。乘積的加權(quán)和,在這里假設(shè)所有個體的屬性都是獨立的,最終可以根 據(jù)每一個客戶的市場值大小對客戶進行排序。 該方法的優(yōu)點是:可以對客戶按照市場值的大小排序,而不是簡單的分類; 市場值函數(shù)具有可解釋性;系統(tǒng)的執(zhí)行不需要專家的指導(dǎo)。但是它也有它的不足 之處:只是考慮了最大的回應(yīng)率。 l o g i t p r o b i t 模式l o g i t p r o b i t 模式主要是用來處理二元( 1 o ) 類型, 因此很自然的它適合于應(yīng)用在數(shù)據(jù)庫銷售中的y e s n o 的回應(yīng)模式。這兩種模式 的不同點在于e 在等式中的分布方式不一樣,l o g i t 模式假設(shè)它是對數(shù)分布, p r o b i t 模式假設(shè)為正態(tài)分布。公式中假設(shè)每一個個體i 在時間t 時刻對郵件都 有一個做出回應(yīng)的趨勢,這個趨勢受x 。i , t 影響: 一l 】一 北京工業(yè)大學(xué)3 1 學(xué)碩士學(xué)位論文 = 島+ f l l x l “+ 盧2 工2 t + + 屏x t 。+ 島 ( 2 2 ) 如果+ o 表示個體i 將做出回應(yīng), v 。是a a t 的信息函數(shù)。 每一個信息函數(shù)五是u 到v 。中的值映射函數(shù)。 解決目標(biāo)市場問題的一個直接方法是根據(jù)p 和中元素的特征挖掘出能夠描 述或者區(qū)分p 和n 中元素的規(guī)則,利用這些規(guī)則來分類口中的元素,這種技術(shù)已 經(jīng)得到了廣泛的研究。該方法的特點以及缺點在前面的內(nèi)容中我們已經(jīng)討論過 了,因此我們的重點主要集中在其他的方法上。 市場值函數(shù)是一個從對象空間到實數(shù)集合的實數(shù)值函數(shù)r :u 一 r 。在信息檢 索的環(huán)境中,r 的值表示文檔與查詢請求之間的關(guān)聯(lián)度。這些文檔可以根據(jù)r 的 值進行排序,而對目標(biāo)市場而言,則可以按照客戶的潛在的市場值的大小進行排 序。以健康俱樂部的為例,我們可以按照客戶成為俱樂部的成員的可能性的大小 對客戶進行排序,這些可能性可以根據(jù)與p 中成員的相似性來估計。 本文研究了市場值函數(shù)的最簡單的形式之線性判別函數(shù)。設(shè)u 。:v f r 是一個定義在屬性a 丘上值為v a 的u t i l i t y 函數(shù),u 。( ) 的值可以是正數(shù)、負 數(shù)或者零,對于y v ,如果u 。( y ) ) 0 并且i 。( x ) = v ,也就是說( i 。( x ) ) 0 ,說明 對象x 在屬性a 上相似于只如果u 。( i 。( x ) ) 1 1 1 1 ( v jp ) 表明在p 中具有 v 值的元素的數(shù)目要大于p 中具有v 的元素的數(shù)目。直觀的,屬性值取v 的元 素比屬性值取v 的元素更有可能屬于p 。如果只是從屬性a 上考慮的話,對于 兩個元素x ,y u ,如果i 。( x ) = v ,i 。( y ) = v 并且l m ( v l p ) i 1 m ( v l p ) l ,那 么我們可以說x 的市場值要大于y 的市場值。這就隱含了在v v a 中的u t i l i t y 函數(shù)u 。:v 。一 r 的值和m ( v l p ) 集合的大小是成比例的。因此我們可以采用如下 的u t i l i t y 函數(shù): u 。1 ( v ) 爿m ( v ip)i(4-3) u 。( 的值在0 和j p j 之間,這些都是簡單的統(tǒng)計p 中具有屬性值v 的元素的數(shù)目。 p 的元素的集合可以認為是u 的一個子集,u t i l i t y 函數(shù)可以用概率方式表示: ( v ) - p r ”叩) _ p r ( v 舊= 眢= 哿 ( 4 _ 4 ) 由于jp j 是一個獨立于任何屬性的常數(shù),u 1 、u ? 將在線性模式中得到相同的結(jié)果。 通常如果一個元素的值主要集中在子集p 中,那么我們可以期望屬性對市場 值做出更多的貢獻。這些可以通過條件概率p r ( v i p ) 和非條件概率的比較來得到, 其中非條件概率為: p r ( a = v ) = 刖= 背 ( 4 _ 5 ) 在這里:m ( v ) = x u ii 。( x ) - - v ( 4 6 ) 從簡潔性考慮,我們假設(shè)m ( v ) 0 ;否則我們就把v 從v a 中刪除,相應(yīng)的u t i l i t y 函數(shù)可以定義成: u a 3 m 哿= 醬群 m , 如果u 。3 ( v ) ) 1 ,那么屬性值v 在子集p 出現(xiàn)的概率大于在整個u 中出現(xiàn)的概率; 反之則u 。3 ( v ) 1 時得到u 。4 o ,當(dāng)且僅當(dāng)u a 3 o ,當(dāng)且僅當(dāng)u , a = 1 時得到 u 0 4 = o 。在實際的應(yīng)用當(dāng)中,可能發(fā)生m ( v i p ) = o 的情況。在這種情況下,我們可 以使用信息檢索中常用的公式來解決: u a 4 ( v ) = l o g 3 c 叻= l o g 糯辨器m 。, 這樣隱含的假設(shè)了零樣本空間被平等的劃分到了p 和n 。 j u j p 的數(shù)值是獨立于屬性的一個常數(shù),它不影響排序。因此它可以從 u t i l i t y 函數(shù)中去掉,而只采用i m ( v l p ) 1 l m ( v ) i 。 4 3 1 2 從正例和負例上估計u t i l i t y 函數(shù) 如果考慮正例和負例的話,我們有兩個子集p 和n 。我們修改前面提到的方 法來考慮屬性在正例和負例上的情況。 如果屬性值v 在子集p 出現(xiàn)的概率比在n 中大,那么對象在屬性a 上相似于 p ,反之則相似于n 。相似的,我們對u t i l i t y 函數(shù)t l 。3 、u 。4 定義了兩個新的u t i l i t y 函數(shù): u a 5 陸麗p r ( v l p ) = 淵淵 m u a 6 c 州o s u 。5 怍,。g 淵淵 沿川 在這里:m ( v i 忉= 缸u ,l ( x ) = v ) 。 ( 4 1 2 ) u ? 的公式如下: u a 6 ( v ) = l o g 滁黼端糯 m 由于p 和n 是u 的不相交的子集,因此新的u t i l i t y 函數(shù)不是簡單的在u a 3 和u ? 中用n 替代u 。f n f f p f 的比例是獨立于任何屬性的常數(shù),可以從u t i l i t y 函數(shù) 中刪除。 4 3 2 屬性的權(quán)值 為了計算屬性的權(quán)值,我們引入了信息論的方法。2 。對于屬性a ,它在p 中的熵h p ( a ) 被定義成這樣: h p ( a ) = h p ( p r ( i p ) ) = - p r ( v i p ) l o g p r ( v i p ) ( 4 1 4 ) 在這里,p r ( lp ) 表示屬性值在p 中的概率分布。定義0 l o g o 為0 。熵值是一個非 負的函數(shù),也就是說h p ( a ) 蘭0 。熵值越低表示結(jié)構(gòu)化程度越高,如果屬性有低 的熵值,說明它的屬性值在p 中分布是不均勻的。因此,該屬性在預(yù)測對象是否 屬于p 中可以提供更多的信息;相反,屬性熵值越高表明該屬性在p 中分布得越 均勻,在預(yù)測中提供的信息就越少。因此在計算屬性的權(quán)值時,應(yīng)該和屬性的熵 值成反比關(guān)系。按照信息檢索理論嘲,我們給出了以下的權(quán)值公式: 峨1 小揣 很明顯,0 _ l 。另夕 ,任何對象在屬性a 上都 有相同的值。 在全部集合u 上的屬性的熵的公式如下: h ( a ) = h ( p r ( ) ) = 一 - “ p r ( v ) l o g p j ( v ) ( 4 1 6 ) 它反映了屬性a 的值在u 中分布的結(jié)構(gòu)化程度,對于能提供更多信息的屬性,我 們可以看到在它在o 上面結(jié)構(gòu)化的程度要比在p 上的程度要更小a 我們可以用到 其他的涉及到h 。( a ) 和h ( a ) 的公式: 噥2 = 鼉鏟 c 4 - 1 7 , 噥2 1 j 了歲一 () 權(quán)值為正值表明屬性a 在p 上比在u 上結(jié)構(gòu)化的程度越高,負值則相反。i 是國。2 3 2 第4 蘋市場值函數(shù)方法在數(shù)據(jù)庫營銷中的研究 的一個特例,在這里h ( a ) 取得最大值l o g l 圪i 。 著名的k u l l b a c kl e i b l e r 理論給出了其他的屬性權(quán)值的計算公式。: q 3 軔( p r ( p r ip ) i i p r o ) _ 。e 助p r ( v ip ) 1 0 9 等( 4 _ 1 8 ) 我們同樣也可以從正例和負例上來計算屬性的權(quán)值。從屬性的觀點來看,如 果子集p 和n 彼此不同的話,那么屬性能提供更多的信息。在這種條件下,我們 有三個子集p 、和p u n 。設(shè)h ,) ,h 。( 口) 和h p u n ( 盯) 分別代表屬性a 在三個 子集中的熵值,如果屬性值在兩個子集中的分布是樣的話,兩者應(yīng)該在p u n 中應(yīng)該也有相同的分布。我們可以看到屬性a 的熵值在p 、n 和p u n 中只有稍 微的不同。相反,如果屬性值在p 和n 中的分布不一樣的話,那么就有大的不同。 從這一方面考慮,我們引入了如下的權(quán)值計算公式: 皚4 砜水卜 尚即,+ 尚叫 = 日0 。( 口) 一 2 e h p ( a ) + 厶。h ( 盤) 】 在這里4 + “= 1 ,在公式中我們需要考慮的另外一個問題是兩個子集p 和n 的 熵的平均值,對任何屬性值v 有: p r ( v p u ) = 局p r ( v i p ) + 氐p r ( v ) ( 4 2 0 ) 盱y - x l o g x 是凹函數(shù),可以由j e s e n 不等式馬上得到。4 的下限是0 ,也就是 國。4 o 。當(dāng)在兩個乎集p 和n 的分布是一樣的時候,。4 可以達到最小值0 。如 果分布完全不同,也就是說只要p v l n ) = 0 就有p r ( v l p ) 0 并且只要 p r ( vj ) o 就有p r ( v p ) = 0 ,此時吡4 可以達到最大值一阮l 0 9 2 p + “l(fā) o g a 。 。 根據(jù)k u l l b a c kl e i b l e r 理論,國。4 可以表示: 。4 = 五e d ( p r ( 1p ) i ip r ( ) ) + 兄d f p r ( i ) | | p r ( ) ) ( 4 2 1 ) 一3 3 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 公式。3 是公式。4 的前面一部分,國。4 考慮了兩個子集的情況,因此它比國。3 更 具有通用性。熵函數(shù)只是由概率分布的概率值來決定,它不依賴于這些概率值是 怎樣分配給不同屬性的,不同的概率分布可以產(chǎn)生同樣的熵值的。例如,如下的 分布盡管具有完全不同的分布,但是它們有同樣的熵值: p r ( v li p ) = 0 5p r ( v 2l p ) = 0 5 p r ( v 3i p ) = 0 0p r ( v 4i p ) = 0 0 p r ( v , i n ) = 0 0p r ( v 2i n ) = 0 0 p r ( v 3l n ) = 0 5p r ( v 4i = 0 5 如果p 和n 在屬性a 上相似,我們就不能知道日,( 口) 和。( d ) 之間的不同a 這主 要是因為在p “i p ) 和p r ( i ) 的概率之間沒有繼承的關(guān)系。另一方面,前面提到 的方法。3 和。4 不會遇到這個問題,在這些公式中我們在關(guān)聯(lián)的集合中使用了 概率分布。 4 4 試驗結(jié)果及分析 為了驗證市場值函數(shù)方法性能和效果,我們選擇了n e c 公司的現(xiàn)實銷售數(shù)據(jù) 作為我們的實驗數(shù)據(jù)來對市場值函數(shù)方法做兩個方面的評價: 屬性權(quán)值和效用函數(shù)的不同組合對市場值函數(shù)結(jié)果的影響; 市場值函數(shù)方法在現(xiàn)實營銷數(shù)據(jù)中表現(xiàn)。 該數(shù)據(jù)集包括1 2 4 4 0 2 條客戶的記錄,每一條記錄包括9 6 個基本屬性和在某 一時間段的銷售的產(chǎn)品情況,客戶的基本屬性包括了每個成員的性別、年齡、收 入、愛好等與客戶基本特征相關(guān)的屬性。客戶購買的產(chǎn)品共包括2 4 種產(chǎn)品,如 果客戶購買了該產(chǎn)品,則對數(shù)據(jù)庫中對應(yīng)的產(chǎn)品標(biāo)記為l ,否則標(biāo)記為0 。在進 行數(shù)據(jù)預(yù)處理后,我們選取了5 8 1 0 2 條客戶的記錄作為我們訓(xùn)練和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 完整版100以內(nèi)加減法混合運算4000道80
- 完整版100以內(nèi)加減法混合運算4000道33
- 桐城師范高等??茖W(xué)校《編譯》2023-2024學(xué)年第一學(xué)期期末試卷
- 通化醫(yī)藥健康職業(yè)學(xué)院《虛擬現(xiàn)實技術(shù)雙語》2023-2024學(xué)年第一學(xué)期期末試卷
- 通化師范學(xué)院《機器學(xué)習(xí)及醫(yī)學(xué)應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 通化師范學(xué)院《常用生物儀器使用與維護》2023-2024學(xué)年第一學(xué)期期末試卷
- 小學(xué)數(shù)學(xué)二年級第二學(xué)期口算計算共5188道題
- 天水師范學(xué)院《線性代數(shù)導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 天津中德應(yīng)用技術(shù)大學(xué)《生化分離與分析技術(shù)理論教學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 液壓課程設(shè)計液壓缸
- 【MOOC】市場調(diào)查與研究-南京郵電大學(xué) 中國大學(xué)慕課MOOC答案
- 2024年公安機關(guān)理論考試題庫500道
- 2024年中國主題公園競爭力評價報告-中國主題公園研究院
- 2024油氣管道無人機巡檢作業(yè)標(biāo)準
- 廣東省深圳市寶安區(qū)多校2024-2025學(xué)年九年級上學(xué)期期中歷史試題
- 重大(2023)版信息科技五年級上冊教學(xué)設(shè)計
- 工業(yè)循環(huán)水處理行業(yè)市場調(diào)研分析報告
- 廣州市海珠區(qū)六中鷺翔杯物理體驗卷
- 標(biāo)準查新報告
- 2025公司集團蛇年新春年會游園(靈蛇舞動共創(chuàng)輝煌主題)活動策劃方案-31P
- 《計算機視覺》教學(xué)課件-第08章1-神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)1
評論
0/150
提交評論