關(guān)聯(lián)分析方法_第1頁
關(guān)聯(lián)分析方法_第2頁
關(guān)聯(lián)分析方法_第3頁
關(guān)聯(lián)分析方法_第4頁
關(guān)聯(lián)分析方法_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、深圳大學(xué)研究生課程論文題目 對關(guān)聯(lián)分析方法的學(xué)習(xí)報告 成績 專業(yè) 軟件工程(春) 課程名稱、代碼 數(shù)據(jù)庫與數(shù)據(jù)挖掘 142201013021 年級 2013 姓名 劉璐 學(xué) 號 20134313008 時間 2014 年 11 月 任課教師 傅向華 1關(guān)聯(lián)分析方法及其應(yīng)用綜述1.1關(guān)聯(lián)分析概念關(guān)聯(lián)分析是一種簡單、實用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪

2、些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價目表設(shè)計、商品促銷、商品的排放和基于購買模式的顧客劃分??蓮臄?shù)據(jù)庫中關(guān)聯(lián)分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。如“67%的顧客在購買啤酒的同時也會購買尿布”,因此通過合理的啤酒和尿布的貨架擺放或捆綁銷售可提高超市的服務(wù)質(zhì)量和效益。又如“C語言課程優(yōu)秀的同學(xué),在學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)時為優(yōu)秀的可能性達88%”,那么就可以通過強化“C語言”的學(xué)習(xí)來提高教學(xué)效果。世間萬物的事情發(fā)生多多少少會有一些關(guān)聯(lián)。一件事情的發(fā)生,很可能是也會引起另外一件事情的發(fā)生?;蛘哒f,這兩件事情很多時候很大程度上會一

3、起發(fā)生的。那么人們通過發(fā)現(xiàn)這個關(guān)聯(lián)的規(guī)則,可以由一件事情的發(fā)生來,來推測另外一件事情的發(fā)生,從而更好地了解和掌握事物的發(fā)展,動向等等。這就是數(shù)據(jù)挖掘中,尋找關(guān)聯(lián)規(guī)則的基本意義。 數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘是通過計算機自動從一大對真實數(shù)據(jù)中發(fā) 現(xiàn)這樣的關(guān)聯(lián)規(guī)則出來。對于計算機而言,它需要知道所有的事情發(fā)生情況,并且把相應(yīng)的事情合并成一個事務(wù),通過對各個事務(wù)的掃描,來確定事情的關(guān)聯(lián)規(guī)則。1.2關(guān)聯(lián)分析算法簡介Apriori算法1 是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的

4、項集稱為頻繁項集,簡稱頻集。該算法的基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞歸的方法。(1) L1 = find_frequent_1-itemsets(D);(2) for (k=2;Lk-1 ;k+) (3) Ck = apriori_gen(Lk-1 ,min

5、_sup);(4) for each transaction t D /scan D for counts(5) Ct = subset(Ck,t);/get the subsets of t that are candidates(6) for each candidate c Ct(7) c.count+;(8) (9) Lk =c Ck|c.countmin_sup(10) (11) return L= k Lk;可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點。由于Apriori方法的固有缺陷即使進行了優(yōu)化,其效率也仍然不能令人滿意。2000年,Han

6、Jiawei等人提出了基于頻繁模式樹(Frequent Pattern Tree,簡稱為FP-tree)的發(fā)現(xiàn)頻繁模式的算法FP-growth。在FP-growth算法中,通過兩次掃描事務(wù)數(shù)據(jù)庫,把每個事務(wù)所包含的頻繁項目按其支持度降序壓縮存儲到FPtree中。在以后發(fā)現(xiàn)頻繁模式的過程中,不需要再掃描事務(wù)數(shù)據(jù)庫,而僅在FP-Tree中進行查找即可,并通過遞歸調(diào)用FP-growth的方法來直接產(chǎn)生頻繁模式,因此在整個發(fā)現(xiàn)過程中也不需產(chǎn)生候選模式。該算法克服了Apriori算法中存在的問顥在執(zhí)行效率上也明顯好于Apriori算法。GRI算法是關(guān)聯(lián)規(guī)則的算法之一,側(cè)重于關(guān)聯(lián)規(guī)則的分析及應(yīng)用,包括如何

7、處理數(shù)值型變量、如何將單一概念層次的關(guān)聯(lián)推廣到多概念層次的關(guān)聯(lián)等,進而描述事物的內(nèi)在結(jié)構(gòu)。它采用深度優(yōu)先搜索策略實現(xiàn)算法,主要用于簡單關(guān)聯(lián)分析,一般表示形式是“X Y(規(guī)則支持度S 規(guī)則置信度C)”,X稱為規(guī)則的前項(Antecedent)Y稱為規(guī)則的后項(Consequent)14。C5.0是決策樹的經(jīng)典算法之一,可以根據(jù)PRISM算法自動生成推理規(guī)則集總是以期望類別的最大正確覆蓋率為標(biāo)準(zhǔn),用以實現(xiàn)數(shù)據(jù)集內(nèi)在的規(guī)律探究和數(shù)據(jù)對象的分類與預(yù)測,一般表示形式為“如果<條件>則<結(jié)論>”。1.3關(guān)聯(lián)分析算法應(yīng)用經(jīng)典的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法Apriori 算法廣泛應(yīng)用于各種領(lǐng)域

8、,通過對數(shù)據(jù)的關(guān)聯(lián)性進行了分析和挖掘,挖掘出的這些信息在決策制定過程中具有重要的參考價值。Apriori算法廣泛應(yīng)用于商業(yè)中,應(yīng)用于消費市場價格分析中,它能夠很快的求出各種產(chǎn)品之間的價格關(guān)系和它們之間的影響。通過數(shù)據(jù)挖掘,市場商人可以瞄準(zhǔn)目標(biāo)客戶,采用個人股票行市、最新信息、特殊的市場推廣活動或其他一些特殊的信息手段,從而極大地減少廣告預(yù)算和增加收入。百貨商場、超市和一些老字型大小的零售店也在進行數(shù)據(jù)挖掘,以便猜測這些年來顧客的消費習(xí)慣。Apriori算法應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,比如時候入侵檢測技術(shù)中。早期中大型的電腦系統(tǒng)中都收集審計信息來建立跟蹤檔,這些審計跟蹤的目的多是為了性能測試或計費,因此

9、對攻擊檢測提供的有用信息比較少。它通過模式的學(xué)習(xí)和訓(xùn)練可以發(fā)現(xiàn)網(wǎng)絡(luò)用戶的異常行為模式。采用作用度的Apriori算法削弱了Apriori算法的挖掘結(jié)果規(guī)則,是網(wǎng)絡(luò)入侵檢測系統(tǒng)可以快速的發(fā)現(xiàn)用戶的行為模式,能夠快速的鎖定攻擊者,提高了基于關(guān)聯(lián)規(guī)則的入侵檢測系統(tǒng)的檢測性。Apriori算法應(yīng)用于高校管理中。隨著高校貧困生人數(shù)的不斷增加,學(xué)校管理部門資助工作難度也越加增大。針對這一現(xiàn)象,提出一種基于數(shù)據(jù)挖掘算法的解決方法。將關(guān)聯(lián)規(guī)則的Apriori算法應(yīng)用到貧困助學(xué)體系中,并且針對經(jīng)典Apriori挖掘算法存在的不足進行改進,先將事務(wù)數(shù)據(jù)庫映射為一個布爾矩陣,用一種逐層遞增的思想來動態(tài)的分配內(nèi)存進行

10、存儲,再利用向量求"與"運算,尋找頻繁項集。實驗結(jié)果表明,改進后的Apriori算法在運行效率上有了很大的提升,挖掘出的規(guī)則也可以有效地輔助學(xué)校管理部門有針對性的開展貧困助學(xué)工作。Apriori算法被廣泛應(yīng)用于移動通信領(lǐng)域。移動增值業(yè)務(wù)逐漸成為移動通信市場上最有活力、最具潛力、最受矚目的業(yè)務(wù)。隨著產(chǎn)業(yè)的復(fù)蘇,越來越多的增值業(yè)務(wù)表現(xiàn)出強勁的發(fā)展勢頭,呈現(xiàn)出應(yīng)用多元化、營銷品牌化、管理集中化、合作縱深化的特點。針對這種趨勢,在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘中廣泛應(yīng)用的Apriori算法被很多公司應(yīng)用。依托某電信運營商正在建設(shè)的增值業(yè)務(wù)Web數(shù)據(jù)倉庫平臺,對來自移動增值業(yè)務(wù)方面的調(diào)查數(shù)據(jù)進行了

11、相關(guān)的挖掘處理,從而獲得了關(guān)于用戶行為特征和需求的間接反映市場動態(tài)的有用信息,這些信息在指導(dǎo)運營商的業(yè)務(wù)運營和輔助業(yè)務(wù)提供商的決策制定等方面具有十分重要的參考價值?;贏priori算法的數(shù)據(jù)挖掘應(yīng)用舉例當(dāng)前是列出我們實驗中用到的一個候選項集:1 4 5, 1 2 4, 4 5 7, 1 2 5, 4 5 8, 1 5 9, 1 3 6, 2 3 4, 5 6 7, 3 4 5, 3 5 6, 3 5 7, 6 8 9, 3 6 7, 3 6 8。首先設(shè)置散列函數(shù),和葉子大小限制。根據(jù)以上限制,先根據(jù)首項形成初步的散列樹,見下圖:圖:生成候選的散列樹(原始版本)接著根據(jù)第二項形成優(yōu)化后的散列樹

12、,結(jié)果見下圖:圖:生成候選的散列樹(中間過程)按照以上過程,按照項的順序,我們可以將樹的分裂做到最后一項,最終結(jié)果見下圖:圖:生成候選的散列樹(最終版本)2關(guān)聯(lián)分析在clementine中的具體案例實現(xiàn)2.1基礎(chǔ)數(shù)據(jù)準(zhǔn)備:在clementine中,進行關(guān)聯(lián)分析,為了能夠嘗試各種算法,這里我采用第一種模型輸入數(shù)據(jù),建模前需先將數(shù)據(jù)整理成如下格式2個字段:客戶編號和產(chǎn)品編號(一個客戶編號可能有多條產(chǎn)品記錄)步驟如下:1、原始數(shù)據(jù)格式2、然后將產(chǎn)品字段轉(zhuǎn)換成名義字段即 集字段,clementine里面一個字段選項按鈕,導(dǎo)出按鈕,其作用是基于現(xiàn)有字段生成新字段3、根據(jù)集字段生成新的產(chǎn)品字段,作用就是生

13、成將數(shù)據(jù)轉(zhuǎn)換成關(guān)聯(lián)分析要求的數(shù)據(jù)格式生成的格式:每一行數(shù)據(jù)表示沒一個用戶購買了哪些產(chǎn)品,1表示購買,0表示沒有4、字段輸入方向選擇為both:2.2關(guān)聯(lián)分析建模整個建模過程如下:這里我選擇的是GRI算法2.3算法設(shè)置和分析結(jié)果3數(shù)據(jù)挖掘課程學(xué)習(xí)體會大量數(shù)據(jù)的產(chǎn)生和收集導(dǎo)致了信息的爆炸,但信息僅僅停留在這個階段,未對這些信息進行適時和深層次的分析,大致使企業(yè)對客戶知識的缺乏。數(shù)據(jù)挖掘可以從繁雜的數(shù)據(jù)中找出真正有價值的信息知識,提高企業(yè)對客戶了解程度,時時快捷的發(fā)現(xiàn)并滿足客戶的需求,從而提高企業(yè)的競爭力。1數(shù)據(jù)挖掘使市場信息觸手可及數(shù)據(jù)庫及數(shù)據(jù)挖掘技術(shù)(DataMining,DM)可以擴展企業(yè)核心

14、業(yè)務(wù)過程的信息后勤基礎(chǔ),通過數(shù)據(jù)挖掘來保證對數(shù)據(jù)的訪問及分析,從而提高業(yè)務(wù)過程的有效性。當(dāng)企業(yè)通過數(shù)據(jù)倉庫直接向其顧客索取某些信息密集型顧客支持過程的資源時,支持成本會不斷地下降,企業(yè)的管理成本也就隨之降低。利用信息技術(shù)和數(shù)據(jù)資源不斷地增強對客戶的了解程度,使客戶感覺好像與企業(yè)有一種獨一無二的個人關(guān)系,具有有效的信息文換和訪問能力,與客戶打交道變得更容易一些。數(shù)據(jù)挖掘技術(shù)基于事實,利用數(shù)據(jù)倉庫中產(chǎn)品、價格、投資、分配等方面,從浩瀚的信息海洋中提煉出有價值的信息,發(fā)現(xiàn)隱含在這些信息中的對等的、不明顯的、不可預(yù)知的模式、趨勢和關(guān)系,為企業(yè)提供決策的依據(jù)。2數(shù)據(jù)挖掘?qū)?shù)據(jù)加工成信息和知識在CRM中,

15、數(shù)據(jù)倉庫將海量復(fù)雜的客戶行為數(shù)據(jù)集中起來,建立一個整合的、結(jié)構(gòu)化的數(shù)據(jù)模型,在此基礎(chǔ)上對數(shù)據(jù)進行標(biāo)準(zhǔn)化、抽象化、規(guī)范化分類、分析,為企業(yè)管理層提供及時的決策信息,為企業(yè)業(yè)務(wù)部門提供有效的反饋數(shù)據(jù)。數(shù)據(jù)挖掘?qū)蛻糍Y料進行分析,是挖掘客戶潛力的基石。數(shù)據(jù)挖掘技術(shù)的作用在企業(yè)管理客戶生命周期的各個階段都會有所體現(xiàn)。數(shù)據(jù)挖掘幫助企業(yè)發(fā)現(xiàn)客戶的特點,從而可為客戶提供有針對性的服務(wù)。通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)購買某一商品的客戶的特征,從而可以向那些也同樣具有這些特征卻沒有購買的客戶推銷這個商品;若找到流失的客戶的特征就可以在那些具有相似特征的客戶還未流失之前,采取相應(yīng)的措施。4其他數(shù)據(jù)挖掘相關(guān)主題1、 分類

16、分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。 2、 回歸分析 回歸分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用

17、到市場營銷的各個方面,如客戶尋求、保持和預(yù)防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。 3、 聚類 聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細分等。 4、 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項的出現(xiàn)可導(dǎo)出另一些項在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風(fēng)險評估和詐騙預(yù)測等決策支持提供參考依據(jù)。 5、 特征 特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達了該數(shù)據(jù)集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。 6、 變化和偏差分析 偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結(jié)果對期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機管理及

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論