數(shù)據(jù)挖掘的10大分析方法

上傳人：文*** IP屬地：貴州上傳時(shí)間：2021-04-25 格式：DOCX 頁數(shù)：27 大小：103.54KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩22頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘的10大分析方法不僅僅是選中的十大算法，其實(shí)參加評(píng)選的18種算法，實(shí)際上隨便拿出一種來都可以稱得上是經(jīng)典算法，它們?cè)跀?shù)據(jù)挖掘領(lǐng)域都產(chǎn)生了極為深遠(yuǎn)的影響。1.C4.5C4.5算法是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法.C4.5算法繼承了ID3算法的優(yōu)點(diǎn)，并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn)：1)用信息增益率來選擇屬性，克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足；2)在樹構(gòu)造過程中進(jìn)行剪枝；3)能夠完成對(duì)連續(xù)屬性的離散化處理；4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法有如下優(yōu)點(diǎn)：產(chǎn)生的分類規(guī)則易于理解，準(zhǔn)確率較高。其缺點(diǎn)是：在構(gòu)造樹的過程中，需要對(duì)數(shù)據(jù)集進(jìn)行

2、多次的順序掃描和排序，因而導(dǎo)致算法的低效。2.Thek-meansalgorithm即K-Means算法k-meansalgorithm算法是一個(gè)聚類算法，把n的對(duì)象根據(jù)他們的屬性分為k個(gè)分割，k 3.Supportvectormachines支持向量機(jī)，英文為SupportVectorMachine，簡(jiǎn)稱SV機(jī)（論文中一般簡(jiǎn)稱SVM）。它是一種監(jiān)督式學(xué)習(xí)的方法，它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)將向量映射到一個(gè)更高維的空間里，在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面。分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差

3、距越大，分類器的總誤差越小。一個(gè)極好的指南是C.J.CBurges的模式識(shí)別支持向量機(jī)指南。vanderWalt和Barnard將支持向量機(jī)和其他分類器進(jìn)行了比較。4.TheApriorialgorithmApriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里，所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集，簡(jiǎn)稱頻集。5.最大期望(EM)算法在統(tǒng)計(jì)計(jì)算中，最大期望（EM，ExpectationMaximization）算法是在概率（probabilistic）模型中尋找參數(shù)最大似然估計(jì)的算法，其

4、中概率模型依賴于無法觀測(cè)的隱藏變量（LatentVariabl）。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)集聚（DataClustering）領(lǐng)域。6.PageRankPageRank是Google算法的重要內(nèi)容。2001年9月被授予美國(guó)專利，專利人是Google創(chuàng)始人之一拉里佩奇（LarryPage）。因此，PageRank里的page不是指網(wǎng)頁，而是指佩奇，即這個(gè)等級(jí)方法是以佩奇來命名的。PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量倆衡量網(wǎng)站的價(jià)值。PageRank背后的概念是，每個(gè)到頁面的鏈接都是對(duì)該頁面的一次投票，被鏈接的越多，就意味著被其他網(wǎng)站投票越多。這個(gè)就是所謂的“

5、鏈接流行度”衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。PageRank這個(gè)概念引自學(xué)術(shù)中一篇論文的被引述的頻度即被別人引述的次數(shù)越多，一般判斷這篇論文的權(quán)威性就越高。7.AdaBoostAdaboost是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器)，然后把這些弱分類器集合起來，構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的，它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確，以及上次的總體分類的準(zhǔn)確率，來確定每個(gè)樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練，最后將每次訓(xùn)練得到的分類器最后融合起來，作為最后的決策分類器。8.kNN:k-n

6、earestneighborclassificationK最近鄰(k-NearestNeighbor，KNN)分類算法，是一個(gè)理論上比較成熟的方法，也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是：如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別，則該樣本也屬于這個(gè)類別。9.NaiveBayes在眾多的分類模型中，應(yīng)用最為廣泛的兩種分類模型是決策樹模型(DecisionTreeModel)和樸素貝葉斯模型（NaiveBayesianModel，NBC）。樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論，有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，以及穩(wěn)定的分類效率。同時(shí)，NBC模型所需估計(jì)的參數(shù)很

7、少，對(duì)缺失數(shù)據(jù)不太敏感，算法也比較簡(jiǎn)單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此，這是因?yàn)镹BC模型假設(shè)屬性之間相互獨(dú)立，這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí)，NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時(shí)，NBC模型的性能最為良好。10.CART:分類與回歸樹CART,ClassificationandRegressionTrees。在分類樹下面有兩個(gè)關(guān)鍵的思想。第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法；第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。1折疊數(shù)據(jù)挖掘常用的方法2在大數(shù)

8、據(jù)時(shí)代，數(shù)據(jù)挖掘是最關(guān)鍵的工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中有價(jià)值的、潛在有用的信息和知識(shí)的過程，也是一種決策支持過程。其主要基于人工智能，機(jī)器學(xué)習(xí)，模式學(xué)習(xí)，統(tǒng)計(jì)學(xué)等。通過對(duì)大數(shù)據(jù)高度自動(dòng)化地分析，做出歸納性的推理，從中挖掘出潛在的模式，可以幫助企業(yè)、商家、用戶調(diào)整市場(chǎng)政策、減少風(fēng)險(xiǎn)、理性面對(duì)市場(chǎng)，并做出正確的決策。目前，在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域如銀行、電信、電商等，數(shù)據(jù)挖掘可以解決很多問題，包括市場(chǎng)營(yíng)銷策略制定、背景分析、企業(yè)管理危機(jī)等。大數(shù)據(jù)的挖掘常用的方法有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、Web 數(shù)據(jù)挖掘等。這些方法

9、從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。(1)分類。分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類，其目的是通過分類模型，將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到摸個(gè)給定的類別中?？梢詰?yīng)用到涉及到應(yīng)用分類、趨勢(shì)預(yù)測(cè)中，如淘寶商鋪將用戶在一段時(shí)間內(nèi)的購買情況劃分成不同的類，根據(jù)情況向用戶推薦關(guān)聯(lián)類的商品，從而增加商鋪的銷售量。(2)回歸分析?；貧w分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性，通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。它可以應(yīng)用到對(duì)數(shù)據(jù)序列的預(yù)測(cè)及相關(guān)關(guān)系的研究中去。在市場(chǎng)營(yíng)銷中，回歸分析可以被應(yīng)用到各個(gè)方面。如通過對(duì)本季度銷售的回歸分析，對(duì)下一季度的銷售趨勢(shì)作出預(yù)測(cè)并做出針對(duì)

10、性的營(yíng)銷改變。(3)聚類。聚類類似于分類，但與分類的目的不同，是針對(duì)數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間的相似性很大，但不同類別之間數(shù)據(jù)的相似性很小，跨類的數(shù)據(jù)關(guān)聯(lián)性很低。(4)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系，即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過程主要包括兩個(gè)階段：第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;第二階段為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測(cè)客戶的需求，各銀行在自己的ATM 機(jī)上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應(yīng)信息來改善自身的營(yíng)銷。(5

11、)神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù)，因其自身自行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴(yán)密的知識(shí)或數(shù)據(jù)為特征的處理問題，它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類：第一類是以用于分類預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型，其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機(jī);第二類是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡(luò)模型，以Hopfield 的離散模型和連續(xù)模型為代表。第三類是用于聚類的自組織映射方法，以ART 模型為代表。雖然神經(jīng)網(wǎng)絡(luò)有多種模型及算法，但在特定領(lǐng)域的數(shù)據(jù)挖掘中使用何種模型及算法并沒有統(tǒng)一的規(guī)則，而且人們很難理解網(wǎng)絡(luò)

12、的學(xué)習(xí)及決策過程。(6)Web數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘是一項(xiàng)綜合性技術(shù)，指Web 從文檔結(jié)構(gòu)和使用的集合C 中發(fā)現(xiàn)隱含的模式P，如果將C看做是輸入，P 看做是輸出，那么Web 挖掘過程就可以看做是從輸入到輸出的一個(gè)映射過程。當(dāng)前越來越多的Web 數(shù)據(jù)都是以數(shù)據(jù)流的形式出現(xiàn)的，因此對(duì)Web 數(shù)據(jù)流挖掘就具有很重要的意義。目前常用的Web數(shù)據(jù)挖掘算法有：PageRank算法，HITS算法以及LOGSOM 算法。這三種算法提到的用戶都是籠統(tǒng)的用戶，并沒有區(qū)分用戶的個(gè)體。目前Web 數(shù)據(jù)挖掘面臨著一些問題，包括：用戶的分類問題、網(wǎng)站內(nèi)容時(shí)效性問題，用戶在頁面停留時(shí)間問題，頁面的鏈入與鏈出數(shù)問題等。在W

13、eb 技術(shù)高速發(fā)展的今天，這些問題仍舊值得研究并加以解決。折疊編輯本段基本術(shù)語1)數(shù)據(jù)挖掘能做以下七種不同事情（分析方法）：分類（Classification）估計(jì)（Estimation）預(yù)測(cè)（Prediction）相關(guān)性分組或關(guān)聯(lián)規(guī)則（Affinity grouping or association rules）聚類（Clustering）描述和可視化（Description and Visualization）復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)2)數(shù)據(jù)挖掘分類以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類：直接數(shù)據(jù)挖掘；間接數(shù)據(jù)挖掘直接數(shù)據(jù)挖掘目標(biāo)是

14、利用可用的數(shù)據(jù)建立一個(gè)模型，這個(gè)模型對(duì)剩余的數(shù)據(jù)，對(duì)一個(gè)特定的變量（可以理解成數(shù)據(jù)庫中表的屬性，即列）進(jìn)行描述。間接數(shù)據(jù)挖掘目標(biāo)中沒有選出某一具體的變量，用模型進(jìn)行描述；而是在所有的變量中建立起某種關(guān)系。分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘；后四種屬于間接數(shù)據(jù)挖掘3)各種分析方法的簡(jiǎn)介分類（Classification）首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集，在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù)，建立分類模型，對(duì)于沒有分類的數(shù)據(jù)進(jìn)行分類。例子：a. 信用卡申請(qǐng)者，分類為低、中、高風(fēng)險(xiǎn)b. 故障診斷：中國(guó)寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作，采用數(shù)據(jù)挖掘技術(shù)對(duì)鋼材生產(chǎn)的全流程進(jìn)行質(zhì)量監(jiān)控和分析，

15、構(gòu)建故障地圖，實(shí)時(shí)分析產(chǎn)品出現(xiàn)瑕疵的原因，有效提高了產(chǎn)品的優(yōu)良率。注意：類的個(gè)數(shù)是確定的，預(yù)先定義好的估計(jì)（Estimation）估計(jì)與分類類似，不同之處在于，分類描述的是離散型變量的輸出，而估值處理連續(xù)值的輸出；分類的類別是確定數(shù)目的，估值的量是不確定的。例子：a. 根據(jù)購買模式，估計(jì)一個(gè)家庭的孩子個(gè)數(shù)b. 根據(jù)購買模式，估計(jì)一個(gè)家庭的收入c. 估計(jì)real estate的價(jià)值一般來說，估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù)，通過估值，得到未知的連續(xù)變量的值，然后，根據(jù)預(yù)先設(shè)定的閾值，進(jìn)行分類。例如：銀行對(duì)家庭貸款業(yè)務(wù)，運(yùn)用估值，給各個(gè)客戶記分（Score 01）。然后，根據(jù)閾值

16、，將貸款級(jí)別分類。預(yù)測(cè)（Prediction）通常，預(yù)測(cè)是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用于對(duì)未知變量的預(yù)言。從這種意義上說，預(yù)言其實(shí)沒有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對(duì)未來未知變量的預(yù)測(cè)，這種預(yù)測(cè)是需要時(shí)間來驗(yàn)證的，即必須經(jīng)過一定時(shí)間后，才知道預(yù)言準(zhǔn)確性是多少。相關(guān)性分組或關(guān)聯(lián)規(guī)則（Affinity grouping or association rules）決定哪些事情將一起發(fā)生。例子：a. 超市中客戶在購買A的同時(shí)，經(jīng)常會(huì)購買B，即A = B(關(guān)聯(lián)規(guī)則)b. 客戶在購買A后，隔一段時(shí)間，會(huì)購買B （序列分析）聚類（Clustering）聚類是對(duì)

17、記錄分組，把相似的記錄在一個(gè)聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類，不需要訓(xùn)練集。例子：a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病b. 租VCD類型不相似的客戶聚集，可能暗示成員屬于不同的亞文化群聚集通常作為數(shù)據(jù)挖掘的第一步。例如，哪一種類的促銷對(duì)客戶響應(yīng)最好？，對(duì)于這一類問題，首先對(duì)整個(gè)客戶做聚集，將客戶分組在各自的聚集里，然后對(duì)每個(gè)不同的聚集，回答問題，可能效果更好。描述和可視化（Description and Visualization）是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。一般只是指數(shù)據(jù)可視化工具，包含報(bào)表工具和商業(yè)智能分析產(chǎn)品（BI）的統(tǒng)稱。譬如通過Yonghong Z

18、-Suite等工具進(jìn)行數(shù)據(jù)的展現(xiàn)，分析，鉆取，將數(shù)據(jù)挖掘的分析結(jié)果更形象，深刻的展現(xiàn)出來。數(shù)據(jù)挖掘十大經(jīng)典算法1。C4.5：是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法，其核心算法是ID3算法。2. K-means算法：是一種聚類算法。3.SVM：一種監(jiān)督式學(xué)習(xí)的方法，廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中4.Apriori ：是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。5.EM：最大期望值法。6.pagerank：是google算法的重要內(nèi)容。7. Adaboost:是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來，構(gòu)成一個(gè)更強(qiáng)的最終分類器。8.KNN:是一個(gè)理論上比

19、較成熟的的方法，也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法之一。9.Naive Bayes：在眾多分類方法中，應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯（Naive Bayes）10.Cart：分類與回歸樹，在分類樹下面有兩個(gè)關(guān)鍵的思想，第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法，第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。折疊編輯本段發(fā)展歷程需要是發(fā)明之母。近年來，數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注，其主要原因是存在大量數(shù)據(jù)，可以廣泛使用，并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用，包括商務(wù)管理，生產(chǎn)控制，市場(chǎng)分析，工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想：(1) 來自統(tǒng)計(jì)學(xué)的

20、抽樣、估計(jì)和假設(shè)檢驗(yàn)，(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想，這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地，需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能（并行）計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù)，并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。折疊編輯本段其他資料折疊數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則折疊什么是關(guān)聯(lián)規(guī)則在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前，我們先來看一個(gè)有趣的故事：尿布與啤酒的故事。在一家超市里，有一個(gè)有趣的現(xiàn)象：

21、尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話，而是發(fā)生在美國(guó)沃爾瑪連鎖店超市的真實(shí)案例，并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng)，為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣，沃爾瑪對(duì)其顧客的購物行為進(jìn)行購物籃分析，想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上，沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是：跟尿布一起購買最多的商品竟是啤酒！經(jīng)過大量實(shí)際調(diào)查和分析，揭示了一個(gè)隱藏在尿布與啤酒背后的美國(guó)人的一種行為模式：在美國(guó)，一些年輕的父親下班后經(jīng)常

22、要到超市去買嬰兒尿布，而他們中有30%40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是：美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布，而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維，尿布與啤酒風(fēng)馬牛不相及，若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析，沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性，就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù)，即使知道也是不確定的，因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)

23、聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題，以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化，如引入隨機(jī)采樣、并行的思想等，以提高算法挖掘規(guī)則的效率；對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題，最近幾年已被業(yè)界所廣泛研究。折疊關(guān)聯(lián)規(guī)則挖掘的過程關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個(gè)階段：第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(FrequentItemsets)，第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。關(guān)

24、聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中，找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言，必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support)，以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例，我們可以經(jīng)由公式(1)求得包含A,B項(xiàng)目組的支持度，若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時(shí)，則A,B稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset，則稱為高頻k-項(xiàng)目組(Frequent k-itemset)，一般表示為L(zhǎng)arge k或Frequent k。算法并從Large k的項(xiàng)目組中

25、再產(chǎn)生Large k+1，直到無法再找到更長(zhǎng)的高頻項(xiàng)目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則，是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則，在最小信賴度(Minimum Confidence)的條件門檻下，若一規(guī)則所求得的信賴度滿足最小信賴度，稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如：經(jīng)由高頻k-項(xiàng)目組A,B所產(chǎn)生的規(guī)則AB，其信賴度可經(jīng)由公式(2)求得，若信賴度大于等于最小信賴度，則稱AB為關(guān)聯(lián)規(guī)則。就沃爾馬案例而言，使用關(guān)聯(lián)規(guī)則挖掘技術(shù)，對(duì)交易資料庫中的紀(jì)錄進(jìn)行資料挖掘，首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值，在此假設(shè)最小支持度m

26、in_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則尿布，啤酒，滿足下列條件，將可接受尿布，啤酒的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布，啤酒)=5%且Confidence(尿布，啤酒)=70%。其中，Support(尿布，啤酒)=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中，至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購買的交易行為。Confidence(尿布，啤酒)=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中，至少有70%的交易會(huì)同時(shí)購買啤酒。因

27、此，今后若有某消費(fèi)者出現(xiàn)購買尿布的行為，超市將可推薦該消費(fèi)者同時(shí)購買啤酒。這個(gè)商品推薦的行為則是根據(jù)尿布，啤酒關(guān)聯(lián)規(guī)則，因?yàn)榫驮摮羞^去的交易紀(jì)錄而言，支持了“大部份購買尿布的交易，會(huì)同時(shí)購買啤酒”的消費(fèi)行為。從上面的介紹還可以看出，關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù)，則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化（實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值），數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié)，離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。折疊關(guān)聯(lián)規(guī)則的分類按照不同情況，關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下：1.基于規(guī)則中處理的變量的類別，關(guān)聯(lián)規(guī)則可

28、以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的，它顯示了這些變量之間的關(guān)系；而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來，對(duì)數(shù)值型字段進(jìn)行處理，將其進(jìn)行動(dòng)態(tài)的分割，或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理，當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如：性別=“女”=職業(yè)=“秘書” ，是布爾型關(guān)聯(lián)規(guī)則；性別=“女”=avg（收入）=2300，涉及的收入是數(shù)值類型，所以是一個(gè)數(shù)值型關(guān)聯(lián)規(guī)則。2.基于規(guī)則中數(shù)據(jù)的抽象層次，可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中，所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的；而在多層的關(guān)聯(lián)規(guī)則中，對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考

29、慮。例如：IBM臺(tái)式機(jī)=Sony打印機(jī)，是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則；臺(tái)式機(jī)=Sony打印機(jī)，是一個(gè)較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)，關(guān)聯(lián)規(guī)則可以分為單維的和多維的。在單維的關(guān)聯(lián)規(guī)則中，我們只涉及到數(shù)據(jù)的一個(gè)維，如用戶購買的物品；而在多維的關(guān)聯(lián)規(guī)則中，要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。換成另一句話，單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系；多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。例如：啤酒=尿布，這條規(guī)則只涉及到用戶的購買的物品；性別=“女”=職業(yè)=“秘書”，這條規(guī)則就涉及到兩個(gè)字段的信息，是兩個(gè)維上的一條關(guān)聯(lián)規(guī)則。折疊關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法1.Apriori

30、算法：使用候選項(xiàng)集找頻繁項(xiàng)集Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里，所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集，簡(jiǎn)稱頻集。該算法的基本思想是：首先找出所有的頻集，這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則，這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則，產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則，其中每一條規(guī)則的右部只有一項(xiàng)，這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成，那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為

31、了生成所有頻集，使用了遞推的方法?？赡墚a(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫，是Apriori算法的兩大缺點(diǎn)。2.基于劃分的算法Savasere等設(shè)計(jì)了一個(gè)基于劃分的算法。這個(gè)算法先把數(shù)據(jù)庫從邏輯上分成幾個(gè)互不相交的塊，每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集，然后把產(chǎn)生的頻集合并，用來生成所有可能的頻集，最后計(jì)算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存，每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證的。該算法是可以高度并行的，可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后，處理器之間進(jìn)行通信來產(chǎn)生

32、全局的候選k-項(xiàng)集。通常這里的通信過程是算法執(zhí)行時(shí)間的主要瓶頸；而另一方面，每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸。3.FP-樹頻集算法針對(duì)Apriori算法的固有缺陷，J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法：FP-樹頻集算法。采用分而治之的策略，在經(jīng)過第一遍掃描之后，把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹（FP-tree），同時(shí)依然保留其中的關(guān)聯(lián)信息，隨后再將FP-tree分化成一些條件庫，每個(gè)庫和一個(gè)長(zhǎng)度為1的頻集相關(guān)，然后再對(duì)這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候，也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明，F(xiàn)P-growth對(duì)不同長(zhǎng)度的規(guī)則

33、都有很好的適應(yīng)性，同時(shí)在效率上較之Apriori算法有巨大的提高。折疊關(guān)聯(lián)規(guī)則在國(guó)內(nèi)外的應(yīng)用就目前而言，關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中，它可以成功預(yù)測(cè)銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身營(yíng)銷?，F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息，供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫中顯示，某個(gè)高信用限額的客戶更換了地址，這個(gè)客戶很有可能新近購買了一棟更大的住宅，因此會(huì)有可能需要更高信用限額，更高端的新信用卡，或者需要一個(gè)住房改善貸款，這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候，數(shù)據(jù)庫可以

34、有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn)，同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。同時(shí)，一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘，然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們?cè)O(shè)置相應(yīng)的交叉銷售，也就是購買某種商品的顧客會(huì)看到相關(guān)的另外一種商品的廣告。但是目前在我國(guó)，“數(shù)據(jù)海量，信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對(duì)的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能，卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息，譬如對(duì)這些數(shù)據(jù)進(jìn)行分析，發(fā)現(xiàn)其數(shù)據(jù)模式及特征，然后可能發(fā)現(xiàn)

35、某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣，并可觀察金融市場(chǎng)的變化趨勢(shì)?？梢哉f，關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國(guó)的研究與應(yīng)用并不是很廣泛深入。折疊近年來關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究由于許多應(yīng)用問題往往比超市購買問題更復(fù)雜，大量研究從不同的角度對(duì)關(guān)聯(lián)規(guī)則做了擴(kuò)展，將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中，以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域，拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系，時(shí)態(tài)關(guān)系，多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面，即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍，改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。折疊數(shù)據(jù)挖掘和在線分析處理（OLAP）一個(gè)經(jīng)常問的問題是，數(shù)據(jù)挖掘和OLAP到底有

36、何不同。下面將會(huì)解釋，他們是完全不同的工具，基于的技術(shù)也大相徑庭。OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫中都有什么（what happened），OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣（What next）、和如果我采取這樣的措施又會(huì)怎么樣（What if）。用戶首先建立一個(gè)假設(shè)，然后用OLAP檢索數(shù)據(jù)庫來驗(yàn)證這個(gè)假設(shè)是否正確。比如，一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠，他可能先做一個(gè)初始的假定，認(rèn)為低收入的人信用度也低，然后用OLAP來驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒有被證實(shí)，他可能去察看那些高負(fù)債的賬戶，如果還不行，他也許要把收入和負(fù)債一起考慮，一直進(jìn)行下去，直

37、到找到他想要的結(jié)果或放棄。也就是說，OLAP分析師是建立一系列的假設(shè)，然后通過OLAP來證實(shí)或推翻這些假設(shè)來最終得到自己的結(jié)論。OLAP分析過程在本質(zhì)上是一個(gè)演繹推理的過程。但是如果分析的變量達(dá)到幾十或上百個(gè)，那么再用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。數(shù)據(jù)挖掘與OLAP不同的地方是，數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式（模型）的正確性，而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過程。比如，一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問題的因素，甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素，比如年齡

38、。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動(dòng)之前，你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來什么樣的影響，那么OLAP工具能回答你的這些問題。而且在知識(shí)發(fā)現(xiàn)的早期階段，OLAP工具還有其他一些用途。可以幫你探索數(shù)據(jù)，找到哪些是對(duì)一個(gè)問題比較重要的變量，發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù)，加快知識(shí)發(fā)現(xiàn)的過程。折疊數(shù)據(jù)挖掘，機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)挖掘利用了人工智能（AI）和統(tǒng)計(jì)分析的進(jìn)步所帶來的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反，他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理

39、論和高超的技巧，預(yù)測(cè)的準(zhǔn)確度還是令人滿意的，但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng)，我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果，如神經(jīng)元網(wǎng)絡(luò)和決策樹，在足夠多的數(shù)據(jù)和計(jì)算能力下，他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序，他把這些高深復(fù)雜的技術(shù)封裝起來，使人們不用自己掌握這些技術(shù)也能完成同樣的功能，并且更專注于自己所要解決的問題。折疊軟硬件發(fā)展對(duì)數(shù)據(jù)挖掘的影響使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在過去的幾年里磁盤存儲(chǔ)

40、器的價(jià)格幾乎降低了99%，這在很大程度上改變了企業(yè)界對(duì)數(shù)據(jù)收集和存儲(chǔ)的態(tài)度。如果每兆的價(jià)格是￥10，那存放1TB的價(jià)格是￥10,000,000，但當(dāng)每兆的價(jià)格降為1毛錢時(shí)，存儲(chǔ)同樣的數(shù)據(jù)只有￥100,000！計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速，幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存，工作站達(dá)到了256M，擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。在單個(gè)CPU計(jì)算能力大幅提升的同時(shí)，基于多個(gè)CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU，這些SMP服務(wù)器簇甚

41、至能讓成百上千個(gè)CPU同時(shí)工作?；诓⑿邢到y(tǒng)的數(shù)據(jù)庫管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來了便利。如果你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問題要求通過訪問數(shù)據(jù)庫取得數(shù)據(jù)，那么效率最高的辦法就是利用一個(gè)本地的并行數(shù)據(jù)庫。所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路，隨著時(shí)間的延續(xù)，我們相信這條道路會(huì)越來越平坦。折疊數(shù)據(jù)挖掘相關(guān)的10個(gè)問題折疊NO.1DataMining和統(tǒng)計(jì)分析有什么不同？硬要去區(qū)分Data Mining和Statistics的差異其實(shí)是沒有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法，也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生，換另一個(gè)角度看，Da

42、ta Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢？主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言，Data Mining有下列幾項(xiàng)特性：1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì)，且無須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具；2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件，Data Mining的工具更符合企業(yè)需求；3. 純就理論的基礎(chǔ)點(diǎn)來看，Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別，畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。折疊NO.2數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的關(guān)系為何？若將

43、Data Warehousing（數(shù)據(jù)倉庫）比喻作礦坑，Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術(shù)，也不是點(diǎn)石成金的煉金術(shù)，若沒有夠豐富完整的數(shù)據(jù)，是很難期待Data Mining能挖掘出什么有意義的信息的。要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息，必須先有效率地收集信息。隨著科技的進(jìn)步，功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫，簡(jiǎn)單地說，就是搜集來自其它系統(tǒng)的有用數(shù)據(jù)，存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過處理整合，且容量特別大的關(guān)系型數(shù)據(jù)庫，用以儲(chǔ)存決策支持系統(tǒng)（Decision Support System）所需的數(shù)據(jù)，

44、供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來看，數(shù)據(jù)倉庫的目標(biāo)是在組織中，在正確的時(shí)間，將正確的數(shù)據(jù)交給正確的人。許多人對(duì)于Data Warehousing和Data Mining時(shí)?；煜?，不知如何分辨。其實(shí)，數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一個(gè)新主題，利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考，讓作業(yè)方式改變，決策方式也跟著改變。數(shù)據(jù)倉庫本身是一個(gè)非常大的數(shù)據(jù)庫，它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫中整合而來的數(shù)據(jù)，特別是指事務(wù)處理系統(tǒng)OLTP（On-Line Transactional Processing）所得來的數(shù)據(jù)。將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)倉庫中，而公司的決策者則利用這些數(shù)據(jù)作決策；但是，這個(gè)轉(zhuǎn)換及整合

45、數(shù)據(jù)的過程，是建立一個(gè)數(shù)據(jù)倉庫最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉庫的重點(diǎn)。綜上所述，數(shù)據(jù)倉庫應(yīng)該具有這些數(shù)據(jù)：整合性數(shù)據(jù)（integrated data）、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉庫挖掘出對(duì)決策有用的信息與知識(shí)，是建立數(shù)據(jù)倉庫與使用Data Mining的最大目的，兩者的本質(zhì)與過程是兩回事。換句話說，數(shù)據(jù)倉庫應(yīng)先行建立完成，Data mining才能有效率的進(jìn)行，因?yàn)閿?shù)據(jù)倉庫本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備，且經(jīng)過整合的。因此兩者關(guān)系或許可解讀為Data

46、 Mining是從巨大數(shù)據(jù)倉庫中找出有用信息的一種過程與技術(shù)。大部分情況下，數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中（見圖1）。從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會(huì)講到的，數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多，如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時(shí)已經(jīng)清理過，那很可能在做數(shù)據(jù)挖掘時(shí)就沒必要在清理一次了，而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被你解決了。數(shù)據(jù)挖掘庫可能是你的數(shù)據(jù)倉庫的一個(gè)邏輯上的子集，而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫。但如果你的數(shù)據(jù)倉庫的計(jì)算資源已經(jīng)很緊張，那你最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫。當(dāng)然為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉庫，數(shù)據(jù)倉

47、庫不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉庫，把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起，解決所有的數(shù)據(jù)沖突問題，然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉庫內(nèi)，是一項(xiàng)巨大的工程，可能要用幾年的時(shí)間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘，你可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫中，就把它當(dāng)作數(shù)據(jù)集市，然后在他上面進(jìn)行數(shù)據(jù)挖掘。折疊NO.3OLAP能不能代替DataMining？所謂OLAP（Online Analytical Process）意指由數(shù)據(jù)庫所連結(jié)出來的在線分析處理程序。有些人會(huì)說：我已經(jīng)有OLAP的工具了，所以我不需要Data Mining。事實(shí)上兩者間是截然不同的，主要差異在于Data Mining用在

48、產(chǎn)生假設(shè)，OLAP則用于查證假設(shè)。簡(jiǎn)單來說，OLAP是由使用者所主導(dǎo)，使用者先有一些假設(shè)，然后利用OLAP來查證假設(shè)是否成立；而Data Mining則是用來幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí)，使用者是自己在做探索（Exploration），但Data Mining是用工具在幫助做探索。舉個(gè)例子來看，一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí)，可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購買的產(chǎn)品，接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真，又成立的證據(jù)有多明顯；但Data Mining則不然，執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后，并不需要假設(shè)或期待可

49、能的結(jié)果，透過Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則，于是我們可能得到例如尿布和啤酒常被同時(shí)購買的意料外之發(fā)現(xiàn)，這是OLAP所做不到的。Data Mining常能挖掘出超越歸納范圍的關(guān)系，但OLAP僅能利用人工查詢及可視化的報(bào)表來確認(rèn)某些關(guān)系，是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過的數(shù)據(jù)模型與關(guān)系的特性，事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制，OLAP可以和Data Mining互補(bǔ)，但這項(xiàng)特性是Data Mining無法被OLAP取代的。折疊NO.4完整的DataMining包含哪些步驟？1、數(shù)據(jù)挖掘環(huán)境數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的

50、,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí). 數(shù)據(jù)挖掘環(huán)境可示意如下圖:數(shù)據(jù)挖掘環(huán)境框圖.gif2、數(shù)據(jù)挖掘過程圖下圖描述了數(shù)據(jù)挖掘的基本過程和主要步驟數(shù)據(jù)挖掘的基本過程和主要步驟3、數(shù)據(jù)挖掘過程工作量在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對(duì)象是整個(gè)過程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問.圖2各步驟是按一定順序完成的,當(dāng)然整個(gè)過程中還會(huì)存在步驟間的反饋.數(shù)據(jù)挖掘的過程并不是自動(dòng)的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個(gè)過程中的工作量之比.可以看到,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅占總工

51、作量的10%.圖3數(shù)據(jù)挖掘過程工作量比例4、數(shù)據(jù)挖掘過程簡(jiǎn)介過程中各步驟的大體內(nèi)容如下:(1). 確定業(yè)務(wù)對(duì)象清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的.(2). 數(shù)據(jù)準(zhǔn)備1)、數(shù)據(jù)的選擇搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).2)、數(shù)據(jù)的預(yù)處理研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型.3)、數(shù)據(jù)的轉(zhuǎn)換將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖

52、掘成功的關(guān)鍵.(3). 數(shù)據(jù)挖掘?qū)λ玫降慕?jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.(4). 結(jié)果分析解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù).(5). 知識(shí)的同化將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.5、數(shù)據(jù)挖掘需要的人員數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長(zhǎng)的人員,他們大體可以分為三類.業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求.數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,

53、并為每步操作選擇合適的技術(shù).數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù).從上可見,數(shù)據(jù)挖掘是一個(gè)多種專家合作的過程,也是一個(gè)在資金上和技術(shù)上高投入的過程.這一過程要反復(fù)進(jìn)行牞在反復(fù)過程中，不斷地趨近事物的本質(zhì)，不斷地優(yōu)先問題的解決方案。數(shù)據(jù)重組和細(xì)分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論綜合解釋評(píng)價(jià)數(shù)據(jù)知識(shí)數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評(píng)價(jià)。折疊NO.5DataMining運(yùn)用了哪些理論與技術(shù)？Data Mining是近年來數(shù)據(jù)庫應(yīng)用技術(shù)中相當(dāng)熱門的議題，看似神奇、聽來時(shí)髦，實(shí)際上卻也不是什么新東西，因其所用之諸如預(yù)測(cè)模型、數(shù)

54、據(jù)分割，連結(jié)分析（Link Analysis）、偏差偵測(cè)（Deviation Detection）等，美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。隨著信息科技超乎想象的進(jìn)展，許多新的計(jì)算機(jī)分析工具問世，例如關(guān)系型數(shù)據(jù)庫、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等，使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。一般而言，Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表，統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)，尤其 Data Mining 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù)，是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分

55、析中用來精簡(jiǎn)變量的因素分析（Factor Analysis）、用來分類的判別分析（Discriminant Analysis），以及用來區(qū)隔群體的分群分析（Cluster Analysis）等，在Data Mining過程中特別常用。在改良技術(shù)方面，應(yīng)用較普遍的有決策樹理論（Decision Trees）、類神經(jīng)網(wǎng)絡(luò)（Neural Network）以及規(guī)則歸納法（Rules Induction）等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型，根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則，一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上，例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合

56、，常用分類方法為CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）兩種。類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式，由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì)，與傳統(tǒng)回歸分析相比，好處是在進(jìn)行分析時(shí)無須限定模式，特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出；缺點(diǎn)則在于其分析過程為一黑盒子，故常無法以可讀之模型格式展現(xiàn)，每階段的加權(quán)與轉(zhuǎn)換亦不明確，是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度

57、非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式，這是一種由一連串的如果/則（If / Then）之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù)，在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題，通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除，以避免產(chǎn)生無意義的邏輯規(guī)則。折疊NO.6DataMining包含哪些主要功能？Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來說明：Classification和Clustering屬于分類區(qū)隔類；Regression和Time-series屬于推算預(yù)測(cè)類；Association和Sequence則屬于序列規(guī)則類。Classification是根據(jù)

58、一些變量的數(shù)值做計(jì)算，再依照結(jié)果作分類。（計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值，例如將一組數(shù)據(jù)分為可能會(huì)響應(yīng) 或是可能不會(huì)響應(yīng) 兩類）。Classification常被用來處理如前所述之郵寄對(duì)象篩選的問題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來研究它們的特征，然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù)，或是將一個(gè)完整數(shù)據(jù)庫做部份取樣，再經(jīng)由實(shí)際的運(yùn)作來測(cè)試；譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫的部份取樣來建立一個(gè)Classification Model，再利用這個(gè)Model來對(duì)數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。Clustering用在將數(shù)據(jù)分群，其目的在于將群間的差異找出來，同時(shí)也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是，在分析前并不知道會(huì)以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來解讀這些分群的意義。Regr

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘的10大分析方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘的10大分析方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔