數(shù)據(jù)挖掘的10大分析方法_第1頁
數(shù)據(jù)挖掘的10大分析方法_第2頁
數(shù)據(jù)挖掘的10大分析方法_第3頁
數(shù)據(jù)挖掘的10大分析方法_第4頁
數(shù)據(jù)挖掘的10大分析方法_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘的10大分析方法不僅僅是選中的十大算法,其實(shí)參加評(píng)選的18種算法,實(shí)際上隨便拿出一種來都可以稱得上是經(jīng)典算法,它們?cè)跀?shù)據(jù)挖掘領(lǐng)域都產(chǎn)生了極為深遠(yuǎn)的影響。1.C4.5C4.5算法是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法.C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn):1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;2)在樹構(gòu)造過程中進(jìn)行剪枝;3)能夠完成對(duì)連續(xù)屬性的離散化處理;4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹的過程中,需要對(duì)數(shù)據(jù)集進(jìn)行

2、多次的順序掃描和排序,因而導(dǎo)致算法的低效。2.Thek-meansalgorithm即K-Means算法k-meansalgorithm算法是一個(gè)聚類算法,把n的對(duì)象根據(jù)他們的屬性分為k個(gè)分割,k 3.Supportvectormachines支持向量機(jī),英文為SupportVectorMachine,簡(jiǎn)稱SV機(jī)(論文中一般簡(jiǎn)稱SVM)。它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面。分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差

3、距越大,分類器的總誤差越小。一個(gè)極好的指南是C.J.CBurges的模式識(shí)別支持向量機(jī)指南。vanderWalt和Barnard將支持向量機(jī)和其他分類器進(jìn)行了比較。4.TheApriorialgorithmApriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。5.最大期望(EM)算法在統(tǒng)計(jì)計(jì)算中,最大期望(EM,ExpectationMaximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計(jì)的算法,其

4、中概率模型依賴于無法觀測(cè)的隱藏變量(LatentVariabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)集聚(DataClustering)領(lǐng)域。6.PageRankPageRank是Google算法的重要內(nèi)容。2001年9月被授予美國(guó)專利,專利人是Google創(chuàng)始人之一拉里佩奇(LarryPage)。因此,PageRank里的page不是指網(wǎng)頁,而是指佩奇,即這個(gè)等級(jí)方法是以佩奇來命名的。PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量倆衡量網(wǎng)站的價(jià)值。PageRank背后的概念是,每個(gè)到頁面的鏈接都是對(duì)該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這個(gè)就是所謂的“

5、鏈接流行度”衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。PageRank這個(gè)概念引自學(xué)術(shù)中一篇論文的被引述的頻度即被別人引述的次數(shù)越多,一般判斷這篇論文的權(quán)威性就越高。7.AdaBoostAdaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。8.kNN:k-n

6、earestneighborclassificationK最近鄰(k-NearestNeighbor,KNN)分類算法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。9.NaiveBayes在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(DecisionTreeModel)和樸素貝葉斯模型(NaiveBayesianModel,NBC)。樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時(shí),NBC模型所需估計(jì)的參數(shù)很

7、少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)镹BC模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時(shí),NBC模型的性能最為良好。10.CART:分類與回歸樹CART,ClassificationandRegressionTrees。在分類樹下面有兩個(gè)關(guān)鍵的思想。第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法;第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。1折疊數(shù)據(jù)挖掘常用的方法2在大數(shù)

8、據(jù)時(shí)代,數(shù)據(jù)挖掘是最關(guān)鍵的工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中有價(jià)值的、潛在有用的信息和知識(shí)的過程,也是一種決策支持過程。其主要基于人工智能,機(jī)器學(xué)習(xí),模式學(xué)習(xí),統(tǒng)計(jì)學(xué)等。通過對(duì)大數(shù)據(jù)高度自動(dòng)化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業(yè)、商家、用戶調(diào)整市場(chǎng)政策、減少風(fēng)險(xiǎn)、理性面對(duì)市場(chǎng),并做出正確的決策。目前,在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域如銀行、電信、電商等,數(shù)據(jù)挖掘可以解決很多問題,包括市場(chǎng)營(yíng)銷策略制定、背景分析、企業(yè)管理危機(jī)等。大數(shù)據(jù)的挖掘常用的方法有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、Web 數(shù)據(jù)挖掘等。這些方法

9、從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。(1)分類。分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到摸個(gè)給定的類別中??梢詰?yīng)用到涉及到應(yīng)用分類、趨勢(shì)預(yù)測(cè)中,如淘寶商鋪將用戶在一段時(shí)間內(nèi)的購買情況劃分成不同的類,根據(jù)情況向用戶推薦關(guān)聯(lián)類的商品,從而增加商鋪的銷售量。(2)回歸分析?;貧w分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。它可以應(yīng)用到對(duì)數(shù)據(jù)序列的預(yù)測(cè)及相關(guān)關(guān)系的研究中去。在市場(chǎng)營(yíng)銷中,回歸分析可以被應(yīng)用到各個(gè)方面。如通過對(duì)本季度銷售的回歸分析,對(duì)下一季度的銷售趨勢(shì)作出預(yù)測(cè)并做出針對(duì)

10、性的營(yíng)銷改變。(3)聚類。聚類類似于分類,但與分類的目的不同,是針對(duì)數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。(4)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過程主要包括兩個(gè)階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;第二階段為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測(cè)客戶的需求,各銀行在自己的ATM 機(jī)上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應(yīng)信息來改善自身的營(yíng)銷。(5

11、)神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),因其自身自行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴(yán)密的知識(shí)或數(shù)據(jù)為特征的處理問題,它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類:第一類是以用于分類預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型,其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機(jī);第二類是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡(luò)模型,以Hopfield 的離散模型和連續(xù)模型為代表。第三類是用于聚類的自組織映射方法,以ART 模型為代表。雖然神經(jīng)網(wǎng)絡(luò)有多種模型及算法,但在特定領(lǐng)域的數(shù)據(jù)挖掘中使用何種模型及算法并沒有統(tǒng)一的規(guī)則,而且人們很難理解網(wǎng)絡(luò)

12、的學(xué)習(xí)及決策過程。(6)Web數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘是一項(xiàng)綜合性技術(shù),指Web 從文檔結(jié)構(gòu)和使用的集合C 中發(fā)現(xiàn)隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過程就可以看做是從輸入到輸出的一個(gè)映射過程。當(dāng)前越來越多的Web 數(shù)據(jù)都是以數(shù)據(jù)流的形式出現(xiàn)的,因此對(duì)Web 數(shù)據(jù)流挖掘就具有很重要的意義。目前常用的Web數(shù)據(jù)挖掘算法有:PageRank算法,HITS算法以及LOGSOM 算法。這三種算法提到的用戶都是籠統(tǒng)的用戶,并沒有區(qū)分用戶的個(gè)體。目前Web 數(shù)據(jù)挖掘面臨著一些問題,包括:用戶的分類問題、網(wǎng)站內(nèi)容時(shí)效性問題,用戶在頁面停留時(shí)間問題,頁面的鏈入與鏈出數(shù)問題等。在W

13、eb 技術(shù)高速發(fā)展的今天,這些問題仍舊值得研究并加以解決。折疊編輯本段基本術(shù)語1)數(shù)據(jù)挖掘能做以下七種不同事情(分析方法): 分類 (Classification) 估計(jì)(Estimation) 預(yù)測(cè)(Prediction) 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) 聚類(Clustering) 描述和可視化(Description and Visualization) 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)2)數(shù)據(jù)挖掘分類以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘 直接數(shù)據(jù)挖掘目標(biāo)是

14、利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)剩余的數(shù)據(jù),對(duì)一個(gè)特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述。 間接數(shù)據(jù)挖掘目標(biāo)中沒有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系 。 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后四種屬于間接數(shù)據(jù)挖掘3)各種分析方法的簡(jiǎn)介分類 (Classification)首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對(duì)于沒有分類的數(shù)據(jù)進(jìn)行分類。例子:a. 信用卡申請(qǐng)者,分類為低、中、高風(fēng)險(xiǎn)b. 故障診斷:中國(guó)寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對(duì)鋼材生產(chǎn)的全流程進(jìn)行質(zhì)量監(jiān)控和分析,

15、構(gòu)建故障地圖,實(shí)時(shí)分析產(chǎn)品出現(xiàn)瑕疵的原因,有效提高了產(chǎn)品的優(yōu)良率。注意: 類的個(gè)數(shù)是確定的,預(yù)先定義好的 估計(jì)(Estimation)估計(jì)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。例子:a. 根據(jù)購買模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù)b. 根據(jù)購買模式,估計(jì)一個(gè)家庭的收入c. 估計(jì)real estate的價(jià)值一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)客戶記分(Score 01)。然后,根據(jù)閾值

16、,將貸款級(jí)別分類。 預(yù)測(cè)(Prediction)通常,預(yù)測(cè)是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對(duì)未知變量的預(yù)言。從這種意義上說,預(yù)言其實(shí)沒有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對(duì)未來未知變量的預(yù)測(cè),這種預(yù)測(cè)是需要時(shí)間來驗(yàn)證的,即必須經(jīng)過一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)決定哪些事情將一起發(fā)生。例子:a. 超市中客戶在購買A的同時(shí),經(jīng)常會(huì)購買B,即A = B(關(guān)聯(lián)規(guī)則)b. 客戶在購買A后,隔一段時(shí)間,會(huì)購買B (序列分析) 聚類(Clustering)聚類是對(duì)

17、記錄分組,把相似的記錄在一個(gè)聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。例子:a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群聚集通常作為數(shù)據(jù)挖掘的第一步。例如,哪一種類的促銷對(duì)客戶響應(yīng)最好?,對(duì)于這一 類問題,首先對(duì)整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問題,可能效果更好。 描述和可視化(Description and Visualization)是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。一般只是指數(shù)據(jù)可視化工具,包含報(bào)表工具和商業(yè)智能分析產(chǎn)品(BI)的統(tǒng)稱。譬如通過Yonghong Z

18、-Suite等工具進(jìn)行數(shù)據(jù)的展現(xiàn),分析,鉆取,將數(shù)據(jù)挖掘的分析結(jié)果更形象,深刻的展現(xiàn)出來。數(shù)據(jù)挖掘十大經(jīng)典算法1。C4.5:是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法。2. K-means算法:是一種聚類算法。3.SVM:一種監(jiān)督式學(xué)習(xí)的方法,廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中4.Apriori :是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。5.EM:最大期望值法。6.pagerank:是google算法的重要內(nèi)容。7. Adaboost:是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器。8.KNN:是一個(gè)理論上比

19、較成熟的的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法之一。9.Naive Bayes:在眾多分類方法中,應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes)10.Cart:分類與回歸樹,在分類樹下面有兩個(gè)關(guān)鍵的思想,第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法,第二個(gè)是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。折疊編輯本段發(fā)展歷程需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場(chǎng)分析,工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1) 來自統(tǒng)計(jì)學(xué)的

20、抽樣、估計(jì)和假設(shè)檢驗(yàn),(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。折疊編輯本段其他資料折疊數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則折疊什么是關(guān)聯(lián)規(guī)則在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個(gè)有趣的故事: 尿布與啤酒的故事。在一家超市里,有一個(gè)有趣的現(xiàn)象:

21、尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國(guó)沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對(duì)其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在尿布與啤酒背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常

22、要到超市去買嬰兒尿布,而他們中有30%40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)

23、聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究。折疊關(guān)聯(lián)規(guī)則挖掘的過程關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(FrequentItemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。關(guān)

24、聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含A,B項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時(shí),則A,B稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k-itemset),一般表示為L(zhǎng)arge k或Frequent k。算法并從Large k的項(xiàng)目組中

25、再產(chǎn)生Large k+1,直到無法再找到更長(zhǎng)的高頻項(xiàng)目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組A,B所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值,在此假設(shè)最小支持度m

26、in_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則尿布,啤酒,滿足下列條件,將可接受尿布,啤酒的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)=5%且Confidence(尿布,啤酒)=70%。其中,Support(尿布,啤酒)=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購買的交易行為。Confidence(尿布,啤酒)=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購買啤酒。因

27、此,今后若有某消費(fèi)者出現(xiàn)購買尿布的行為,超市將可推薦該消費(fèi)者同時(shí)購買啤酒。這個(gè)商品推薦的行為則是根據(jù)尿布,啤酒關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^去的交易紀(jì)錄而言,支持了“大部份購買尿布的交易,會(huì)同時(shí)購買啤酒”的消費(fèi)行為。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。折疊關(guān)聯(lián)規(guī)則的分類按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下:1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可

28、以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=職業(yè)=“秘書” ,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個(gè)數(shù)值型關(guān)聯(lián)規(guī)則。2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考

29、慮。例如:IBM臺(tái)式機(jī)=Sony打印機(jī),是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺(tái)式機(jī)=Sony打印機(jī),是一個(gè)較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個(gè)維,如用戶購買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。例如:啤酒=尿布,這條規(guī)則只涉及到用戶的購買的物品;性別=“女”=職業(yè)=“秘書”,這條規(guī)則就涉及到兩個(gè)字段的信息,是兩個(gè)維上的一條關(guān)聯(lián)規(guī)則。折疊關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法1.Apriori

30、算法:使用候選項(xiàng)集找頻繁項(xiàng)集Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為

31、了生成所有頻集,使用了遞推的方法??赡墚a(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點(diǎn)。2.基于劃分的算法Savasere等設(shè)計(jì)了一個(gè)基于劃分的算法。這個(gè)算法先把數(shù)據(jù)庫從邏輯上分成幾個(gè)互不相交的塊,每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計(jì)算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存,每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)循環(huán)結(jié)束后,處理器之間進(jìn)行通信來產(chǎn)生

32、全局的候選k-項(xiàng)集。通常這里的通信過程是算法執(zhí)行時(shí)間的主要瓶頸;而另一方面,每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸。3.FP-樹頻集算法針對(duì)Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫,每個(gè)庫和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候,也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明,F(xiàn)P-growth對(duì)不同長(zhǎng)度的規(guī)則

33、都有很好的適應(yīng)性,同時(shí)在效率上較之Apriori算法有巨大的提高。折疊關(guān)聯(lián)規(guī)則在國(guó)內(nèi)外的應(yīng)用就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測(cè)銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營(yíng)銷?,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購買了一棟更大的住宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要一個(gè)住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù)據(jù)庫可以

34、有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。同時(shí),一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們?cè)O(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會(huì)看到相關(guān)的另外一種商品的廣告。但是目前在我國(guó),“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對(duì)的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)

35、某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)??梢哉f,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國(guó)的研究與應(yīng)用并不是很廣泛深入。折疊近年來關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究由于許多應(yīng)用問題往往比超市購買問題更復(fù)雜,大量研究從不同的角度對(duì)關(guān)聯(lián)規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。折疊數(shù)據(jù)挖掘和在線分析處理(OLAP)一個(gè)經(jīng)常問的問題是,數(shù)據(jù)挖掘和OLAP到底有

36、何不同。下面將會(huì)解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫中都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣(What next)、和如果我采取這樣的措施又會(huì)怎么樣(What if)。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直

37、到找到他想要的結(jié)果或放棄。也就是說,OLAP分析師是建立一系列的假設(shè),然后通過OLAP來證實(shí)或推翻這些假設(shè)來最終得到自己的結(jié)論。OLAP分析過程在本質(zhì)上是一個(gè)演繹推理的過程。但是如果分析的變量達(dá)到幾十或上百個(gè),那么再用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過程。比如,一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡

38、。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。而且在知識(shí)發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途。可以幫你探索數(shù)據(jù),找到哪些是對(duì)一個(gè)問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過程。折疊數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理

39、論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度還是令人滿意的,但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹,在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。折疊軟硬件發(fā)展對(duì)數(shù)據(jù)挖掘的影響使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在過去的幾年里磁盤存儲(chǔ)

40、器的價(jià)格幾乎降低了99%,這在很大程度上改變了企業(yè)界對(duì)數(shù)據(jù)收集和存儲(chǔ)的態(tài)度。如果每兆的價(jià)格是¥10,那存放1TB的價(jià)格是¥10,000,000,但當(dāng)每兆的價(jià)格降為1毛錢時(shí),存儲(chǔ)同樣的數(shù)據(jù)只有¥100,000!計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速,幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存,工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。在單個(gè)CPU計(jì)算能力大幅提升的同時(shí),基于多個(gè)CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU,這些SMP服務(wù)器簇甚

41、至能讓成百上千個(gè)CPU同時(shí)工作?;诓⑿邢到y(tǒng)的數(shù)據(jù)庫管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來了便利。如果你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問題要求通過訪問數(shù)據(jù)庫取得數(shù)據(jù),那么效率最高的辦法就是利用一個(gè)本地的并行數(shù)據(jù)庫。所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路,隨著時(shí)間的延續(xù),我們相信這條道路會(huì)越來越平坦。折疊數(shù)據(jù)挖掘相關(guān)的10個(gè)問題折疊NO.1DataMining和統(tǒng)計(jì)分析有什么不同?硬要去區(qū)分Data Mining和Statistics的差異其實(shí)是沒有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生,換另一個(gè)角度看,Da

42、ta Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言,Data Mining有下列幾項(xiàng)特性:1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì),且無須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具;2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件,Data Mining的工具更符合企業(yè)需求;3. 純就理論的基礎(chǔ)點(diǎn)來看,Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。折疊NO.2數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的關(guān)系為何?若將

43、Data Warehousing(數(shù)據(jù)倉庫)比喻作礦坑,Data Mining就是深入礦坑采 礦的工作。畢竟Data Mining不是一種無中生有的魔術(shù),也不是點(diǎn)石成金的煉金術(shù),若沒有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進(jìn)步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫,簡(jiǎn)單地說,就是搜集來自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫,用以儲(chǔ)存決策支持系統(tǒng)(Decision Support System)所需的數(shù)據(jù),

44、供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來看,數(shù)據(jù)倉庫的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交給正確的人。許多人對(duì)于Data Warehousing和Data Mining時(shí)?;煜?,不知如何分辨。其實(shí),數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一個(gè)新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考,讓作業(yè)方式改變,決策方式也跟著改變。數(shù)據(jù)倉庫本身是一個(gè)非常大的數(shù)據(jù)庫,它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫中整合而來的數(shù)據(jù),特別 是指事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來的數(shù)據(jù)。將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)倉庫中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個(gè)轉(zhuǎn)換及整合

45、數(shù)據(jù)的過程,是建立一個(gè)數(shù)據(jù)倉庫最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉庫的重點(diǎn)。綜上所述,數(shù)據(jù)倉庫應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉庫挖掘出對(duì)決策有用的信息與知識(shí),是建立數(shù)據(jù)倉庫與使用Data Mining的最大目的,兩者的本質(zhì)與過程是兩回事。換句話說,數(shù)據(jù)倉庫應(yīng)先行建立完成,Data mining才能有效率的進(jìn)行,因?yàn)閿?shù)據(jù)倉庫本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過整合的。因此兩者關(guān)系或許可解讀為Data

46、 Mining是從巨大數(shù)據(jù)倉庫中找出有用信息的一種過程與技術(shù)。大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中(見圖1)。從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會(huì)講到的,數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時(shí)已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時(shí)就沒必要在清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被你解決了。數(shù)據(jù)挖掘庫可能是你的數(shù)據(jù)倉庫的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫。但如果你的數(shù)據(jù)倉庫的計(jì)算資源已經(jīng)很緊張,那你最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫。當(dāng)然為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉庫,數(shù)據(jù)倉

47、庫不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉庫,把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉庫內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。折疊NO.3OLAP能不能代替DataMining?所謂OLAP(Online Analytical Process)意指由數(shù)據(jù)庫所連結(jié)出來的在線分析處理程序。有些人會(huì)說:我已經(jīng)有OLAP的工具了,所以我不需要Data Mining。事實(shí)上兩者間是截然不同的,主要差異在于Data Mining用在

48、產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡(jiǎn)單來說,OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來查證假設(shè)是否成立;而Data Mining則是用來幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。舉個(gè)例子來看,一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購買的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可

49、能的結(jié)果,透過Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時(shí)購買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報(bào)表來確認(rèn)某些關(guān)系,是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和Data Mining互補(bǔ),但這項(xiàng)特性是Data Mining無法被OLAP取代的。折疊NO.4完整的DataMining包含哪些步驟?1、數(shù)據(jù)挖掘環(huán)境數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的

50、,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí). 數(shù)據(jù)挖掘環(huán)境可示意如下圖:數(shù)據(jù)挖掘環(huán)境框圖.gif2、數(shù)據(jù)挖掘過程圖下圖描述了數(shù)據(jù)挖掘的基本過程和主要步驟數(shù)據(jù)挖掘的基本過程和主要步驟3、數(shù)據(jù)挖掘過程工作量在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對(duì)象是整個(gè)過程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問.圖2各步驟是按一定順序完成的,當(dāng)然整個(gè)過程中還會(huì)存在步驟間的反饋.數(shù)據(jù)挖掘的過程并不是自動(dòng)的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個(gè)過程中的工作量之比.可以看到,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅占總工

51、作量的10%.圖3數(shù)據(jù)挖掘過程工作量比例4、數(shù)據(jù)挖掘過程簡(jiǎn)介過程中各步驟的大體內(nèi)容如下:(1). 確定業(yè)務(wù)對(duì)象清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的.(2). 數(shù)據(jù)準(zhǔn)備1)、數(shù)據(jù)的選擇搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).2)、數(shù)據(jù)的預(yù)處理研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型.3)、數(shù)據(jù)的轉(zhuǎn)換將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖

52、掘成功的關(guān)鍵.(3). 數(shù)據(jù)挖掘?qū)λ玫降慕?jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.(4). 結(jié)果分析解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù).(5). 知識(shí)的同化將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.5、數(shù)據(jù)挖掘需要的人員數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長(zhǎng)的人員,他們大體可以分為三類.業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求.數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,

53、并為每步操作選擇合適的技術(shù).數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù).從上可見,數(shù)據(jù)挖掘是一個(gè)多種專家合作的過程,也是一個(gè)在資金上和技術(shù)上高投入的過程.這一過程要反復(fù)進(jìn)行牞在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。數(shù)據(jù)重組和細(xì)分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論綜合解釋評(píng)價(jià)數(shù)據(jù)知識(shí)數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評(píng)價(jià)。折疊NO.5DataMining運(yùn)用了哪些理論與技術(shù)?Data Mining是近年來數(shù)據(jù)庫應(yīng)用技術(shù)中相當(dāng)熱門的議題,看似神奇、聽來時(shí)髦,實(shí)際上卻也不是什么新東西,因其所用之諸如預(yù)測(cè)模型、數(shù)

54、據(jù)分割,連結(jié)分析(Link Analysis)、偏差偵測(cè)(Deviation Detection)等,美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。隨著信息科技超乎想象的進(jìn)展,許多新的計(jì)算機(jī)分析工具問世,例如關(guān)系型數(shù)據(jù)庫、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等,使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其 Data Mining 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分

55、析中用來精簡(jiǎn)變量的因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis),以及用來區(qū)隔群體的分群分析(Cluster Analysis)等,在Data Mining過程中特別常用。在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合

56、,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度

57、非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的如果/則(If / Then)之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無意義的邏輯規(guī)則。折疊NO.6DataMining包含哪些主要功能?Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來說明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測(cè)類;Association和Sequence則屬于序列規(guī)則類。Classification是根據(jù)

58、一些變量的數(shù)值做計(jì)算,再依照結(jié)果作分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為 可能會(huì)響應(yīng) 或是 可能不會(huì)響應(yīng) 兩類)。Classification常被用來處理如前所述之郵寄對(duì)象篩選的問題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個(gè)完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來測(cè)試;譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫的部份取樣來建立一個(gè)Classification Model,再利用這個(gè)Model來對(duì)數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來,同時(shí)也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會(huì)以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來解讀這些分群的意義。Regr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論