數據挖掘的10大分析方法_第1頁
數據挖掘的10大分析方法_第2頁
數據挖掘的10大分析方法_第3頁
數據挖掘的10大分析方法_第4頁
數據挖掘的10大分析方法_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘的10大分析方法不僅僅是選中的十大算法,其實參加評選的18種算法,實際上隨便拿出一種來都可以稱得上是經典算法,它們在數據挖掘領域都產生了極為深遠的影響。1.C4.5C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法.C4.5算法繼承了ID3算法的優(yōu)點,并在以下幾方面對ID3算法進行了改進:1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;2)在樹構造過程中進行剪枝;3)能夠完成對連續(xù)屬性的離散化處理;4)能夠對不完整數據進行處理。C4.5算法有如下優(yōu)點:產生的分類規(guī)則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行

2、多次的順序掃描和排序,因而導致算法的低效。2.Thek-meansalgorithm即K-Means算法k-meansalgorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割,k 3.Supportvectormachines支持向量機,英文為SupportVectorMachine,簡稱SV機(論文中一般簡稱SVM)。它是一種監(jiān)督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差

3、距越大,分類器的總誤差越小。一個極好的指南是C.J.CBurges的模式識別支持向量機指南。vanderWalt和Barnard將支持向量機和其他分類器進行了比較。4.TheApriorialgorithmApriori算法是一種最有影響的挖掘布爾關聯規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規(guī)則在分類上屬于單維、單層、布爾關聯規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。5.最大期望(EM)算法在統計計算中,最大期望(EM,ExpectationMaximization)算法是在概率(probabilistic)模型中尋找參數最大似然估計的算法,其

4、中概率模型依賴于無法觀測的隱藏變量(LatentVariabl)。最大期望經常用在機器學習和計算機視覺的數據集聚(DataClustering)領域。6.PageRankPageRank是Google算法的重要內容。2001年9月被授予美國專利,專利人是Google創(chuàng)始人之一拉里佩奇(LarryPage)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網站投票越多。這個就是所謂的“

5、鏈接流行度”衡量多少人愿意將他們的網站和你的網站掛鉤。PageRank這個概念引自學術中一篇論文的被引述的頻度即被別人引述的次數越多,一般判斷這篇論文的權威性就越高。7.AdaBoostAdaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。其算法本身是通過改變數據分布來實現的,它根據每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權值。將修改過權值的新數據集送給下層分類器進行訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器。8.kNN:k-n

6、earestneighborclassificationK最近鄰(k-NearestNeighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。9.NaiveBayes在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(DecisionTreeModel)和樸素貝葉斯模型(NaiveBayesianModel,NBC)。樸素貝葉斯模型發(fā)源于古典數學理論,有著堅實的數學基礎,以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數很

7、少,對缺失數據不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC模型的性能最為良好。10.CART:分類與回歸樹CART,ClassificationandRegressionTrees。在分類樹下面有兩個關鍵的思想。第一個是關于遞歸地劃分自變量空間的想法;第二個想法是用驗證數據進行剪枝。1折疊數據挖掘常用的方法2在大數

8、據時代,數據挖掘是最關鍵的工作。大數據的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數據庫中發(fā)現隱含在其中有價值的、潛在有用的信息和知識的過程,也是一種決策支持過程。其主要基于人工智能,機器學習,模式學習,統計學等。通過對大數據高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業(yè)、商家、用戶調整市場政策、減少風險、理性面對市場,并做出正確的決策。目前,在很多領域尤其是在商業(yè)領域如銀行、電信、電商等,數據挖掘可以解決很多問題,包括市場營銷策略制定、背景分析、企業(yè)管理危機等。大數據的挖掘常用的方法有分類、回歸分析、聚類、關聯規(guī)則、神經網絡方法、Web 數據挖掘等。這些方法

9、從不同的角度對數據進行挖掘。(1)分類。分類是找出數據庫中的一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到摸個給定的類別中??梢詰玫缴婕暗綉梅诸悺②厔蓊A測中,如淘寶商鋪將用戶在一段時間內的購買情況劃分成不同的類,根據情況向用戶推薦關聯類的商品,從而增加商鋪的銷售量。(2)回歸分析?;貧w分析反映了數據庫中數據的屬性值的特性,通過函數表達數據映射的關系來發(fā)現屬性值之間的依賴關系。它可以應用到對數據序列的預測及相關關系的研究中去。在市場營銷中,回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出預測并做出針對

10、性的營銷改變。(3)聚類。聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。(4)關聯規(guī)則。關聯規(guī)則是隱藏在數據項之間的關聯或相互關系,即可以根據一個數據項的出現推導出其他數據項的出現。關聯規(guī)則的挖掘過程主要包括兩個階段:第一階段為從海量原始數據中找出所有的高頻項目組;第二階段為從這些高頻項目組產生關聯規(guī)則。關聯規(guī)則挖掘技術已經被廣泛應用于金融行業(yè)企業(yè)中用以預測客戶的需求,各銀行在自己的ATM 機上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應信息來改善自身的營銷。(5

11、)神經網絡方法。神經網絡作為一種先進的人工智能技術,因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據為特征的處理問題,它的這一特點十分適合解決數據挖掘的問題。典型的神經網絡模型主要分為三大類:第一類是以用于分類預測和模式識別的前饋式神經網絡模型,其主要代表為函數型網絡、感知機;第二類是用于聯想記憶和優(yōu)化算法的反饋式神經網絡模型,以Hopfield 的離散模型和連續(xù)模型為代表。第三類是用于聚類的自組織映射方法,以ART 模型為代表。雖然神經網絡有多種模型及算法,但在特定領域的數據挖掘中使用何種模型及算法并沒有統一的規(guī)則,而且人們很難理解網絡

12、的學習及決策過程。(6)Web數據挖掘。Web數據挖掘是一項綜合性技術,指Web 從文檔結構和使用的集合C 中發(fā)現隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過程就可以看做是從輸入到輸出的一個映射過程。當前越來越多的Web 數據都是以數據流的形式出現的,因此對Web 數據流挖掘就具有很重要的意義。目前常用的Web數據挖掘算法有:PageRank算法,HITS算法以及LOGSOM 算法。這三種算法提到的用戶都是籠統的用戶,并沒有區(qū)分用戶的個體。目前Web 數據挖掘面臨著一些問題,包括:用戶的分類問題、網站內容時效性問題,用戶在頁面停留時間問題,頁面的鏈入與鏈出數問題等。在W

13、eb 技術高速發(fā)展的今天,這些問題仍舊值得研究并加以解決。折疊編輯本段基本術語1)數據挖掘能做以下七種不同事情(分析方法): 分類 (Classification) 估計(Estimation) 預測(Prediction) 相關性分組或關聯規(guī)則(Affinity grouping or association rules) 聚類(Clustering) 描述和可視化(Description and Visualization) 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)2)數據挖掘分類以上七種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘 直接數據挖掘目標是

14、利用可用的數據建立一個模型,這個模型對剩余的數據,對一個特定的變量(可以理解成數據庫中表的屬性,即列)進行描述。 間接數據挖掘目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系 。 分類、估值、預言屬于直接數據挖掘;后四種屬于間接數據挖掘3)各種分析方法的簡介分類 (Classification)首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對于沒有分類的數據進行分類。例子:a. 信用卡申請者,分類為低、中、高風險b. 故障診斷:中國寶鋼集團與上海天律信息技術有限公司合作,采用數據挖掘技術對鋼材生產的全流程進行質量監(jiān)控和分析,

15、構建故障地圖,實時分析產品出現瑕疵的原因,有效提高了產品的優(yōu)良率。注意: 類的個數是確定的,預先定義好的 估計(Estimation)估計與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數目的,估值的量是不確定的。例子:a. 根據購買模式,估計一個家庭的孩子個數b. 根據購買模式,估計一個家庭的收入c. 估計real estate的價值一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續(xù)變量的值,然后,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務,運用估值,給各個客戶記分(Score 01)。然后,根據閾值

16、,將貸款級別分類。 預測(Prediction)通常,預測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時間后,才知道預言準確性是多少。 相關性分組或關聯規(guī)則(Affinity grouping or association rules)決定哪些事情將一起發(fā)生。例子:a. 超市中客戶在購買A的同時,經常會購買B,即A = B(關聯規(guī)則)b. 客戶在購買A后,隔一段時間,會購買B (序列分析) 聚類(Clustering)聚類是對

17、記錄分組,把相似的記錄在一個聚集里。聚類和分類的區(qū)別是聚集不依賴于預先定義好的類,不需要訓練集。例子:a. 一些特定癥狀的聚集可能預示了一個特定的疾病b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群聚集通常作為數據挖掘的第一步。例如,哪一種類的促銷對客戶響應最好?,對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。 描述和可視化(Description and Visualization)是對數據挖掘結果的表示方式。一般只是指數據可視化工具,包含報表工具和商業(yè)智能分析產品(BI)的統稱。譬如通過Yonghong Z

18、-Suite等工具進行數據的展現,分析,鉆取,將數據挖掘的分析結果更形象,深刻的展現出來。數據挖掘十大經典算法1。C4.5:是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法。2. K-means算法:是一種聚類算法。3.SVM:一種監(jiān)督式學習的方法,廣泛運用于統計分類以及回歸分析中4.Apriori :是一種最有影響的挖掘布爾關聯規(guī)則頻繁項集的算法。5.EM:最大期望值法。6.pagerank:是google算法的重要內容。7. Adaboost:是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器然后把弱分類器集合起來,構成一個更強的最終分類器。8.KNN:是一個理論上比

19、較成熟的的方法,也是最簡單的機器學習方法之一。9.Naive Bayes:在眾多分類方法中,應用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes)10.Cart:分類與回歸樹,在分類樹下面有兩個關鍵的思想,第一個是關于遞歸地劃分自變量空間的想法,第二個是用驗證數據進行減枝。折疊編輯本段發(fā)展歷程需要是發(fā)明之母。近年來,數據挖掘引起了信息產業(yè)界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的

20、抽樣、估計和假設檢驗,(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要數據庫系統提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,并且當數據不能集中到一起處理時更是至關重要。折疊編輯本段其他資料折疊數據挖掘中的關聯規(guī)則折疊什么是關聯規(guī)則在描述有關關聯規(guī)則的一些細節(jié)之前,我們先來看一個有趣的故事: 尿布與啤酒的故事。在一家超市里,有一個有趣的現象:

21、尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發(fā)現是:跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,揭示了一個隱藏在尿布與啤酒背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經常

22、要到超市去買嬰兒尿布,而他們中有30%40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發(fā)現數據內在這一有價值的規(guī)律的。數據關聯是數據庫中存在的一類重要的可被發(fā)現的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規(guī)則帶有可信度。關

23、聯規(guī)則挖掘發(fā)現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等于1993年首先提出了挖掘顧客交易數據庫中項集間的關聯規(guī)則問題,以后諸多的研究人員對關聯規(guī)則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關聯規(guī)則的應用進行推廣。關聯規(guī)則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。折疊關聯規(guī)則挖掘的過程關聯規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(FrequentItemsets),第二階段再由這些高頻項目組中產生關聯規(guī)則(Association Rules)。關

24、聯規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對于所有記錄而言,必須達到某一水平。一項目組出現的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式(1)求得包含A,B項目組的支持度,若支持度大于等于所設定的最小支持度(Minimum Support)門檻值時,則A,B稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項目組中

25、再產生Large k+1,直到無法再找到更長的高頻項目組為止。關聯規(guī)則挖掘的第二階段是要產生關聯規(guī)則(Association Rules)。從高頻項目組產生關聯規(guī)則,是利用前一步驟的高頻k-項目組來產生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關聯規(guī)則。例如:經由高頻k-項目組A,B所產生的規(guī)則AB,其信賴度可經由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關聯規(guī)則。就沃爾馬案例而言,使用關聯規(guī)則挖掘技術,對交易資料庫中的紀錄進行資料挖掘,首先必須要設定最小支持度與最小信賴度兩個門檻值,在此假設最小支持度m

26、in_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規(guī)則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規(guī)則尿布,啤酒,滿足下列條件,將可接受尿布,啤酒的關聯規(guī)則。用公式可以描述Support(尿布,啤酒)=5%且Confidence(尿布,啤酒)=70%。其中,Support(尿布,啤酒)=5%于此應用范例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)=70%于此應用范例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因

27、此,今后若有某消費者出現購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據尿布,啤酒關聯規(guī)則,因為就該超市過去的交易紀錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費行為。從上面的介紹還可以看出,關聯規(guī)則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始數據庫中的指標值是取連續(xù)的數據,則在關聯規(guī)則挖掘之前應該進行適當的數據離散化(實際上就是將某個區(qū)間的值對應于某個值),數據的離散化是數據挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關聯規(guī)則的挖掘結果。折疊關聯規(guī)則的分類按照不同情況,關聯規(guī)則可以進行分類如下:1.基于規(guī)則中處理的變量的類別,關聯規(guī)則可

28、以分為布爾型和數值型。布爾型關聯規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關系;而數值型關聯規(guī)則可以和多維關聯或多層關聯規(guī)則結合起來,對數值型字段進行處理,將其進行動態(tài)的分割,或者直接對原始的數據進行處理,當然數值型關聯規(guī)則中也可以包含種類變量。例如:性別=“女”=職業(yè)=“秘書” ,是布爾型關聯規(guī)則;性別=“女”=avg(收入)=2300,涉及的收入是數值類型,所以是一個數值型關聯規(guī)則。2.基于規(guī)則中數據的抽象層次,可以分為單層關聯規(guī)則和多層關聯規(guī)則。在單層的關聯規(guī)則中,所有的變量都沒有考慮到現實的數據是具有多個不同的層次的;而在多層的關聯規(guī)則中,對數據的多層性已經進行了充分的考

29、慮。例如:IBM臺式機=Sony打印機,是一個細節(jié)數據上的單層關聯規(guī)則;臺式機=Sony打印機,是一個較高層次和細節(jié)層次之間的多層關聯規(guī)則。3.基于規(guī)則中涉及到的數據的維數,關聯規(guī)則可以分為單維的和多維的。在單維的關聯規(guī)則中,我們只涉及到數據的一個維,如用戶購買的物品;而在多維的關聯規(guī)則中,要處理的數據將會涉及多個維。換成另一句話,單維關聯規(guī)則是處理單個屬性中的一些關系;多維關聯規(guī)則是處理各個屬性之間的某些關系。例如:啤酒=尿布,這條規(guī)則只涉及到用戶的購買的物品;性別=“女”=職業(yè)=“秘書”,這條規(guī)則就涉及到兩個字段的信息,是兩個維上的一條關聯規(guī)則。折疊關聯規(guī)則挖掘的相關算法1.Apriori

30、算法:使用候選項集找頻繁項集Apriori算法是一種最有影響的挖掘布爾關聯規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規(guī)則在分類上屬于單維、單層、布爾關聯規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。該算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產生期望的規(guī)則,產生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為

31、了生成所有頻集,使用了遞推的方法??赡墚a生大量的候選集,以及可能需要重復掃描數據庫,是Apriori算法的兩大缺點。2.基于劃分的算法Savasere等設計了一個基于劃分的算法。這個算法先把數據庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻集,然后把產生的頻集合并,用來生成所有可能的頻集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環(huán)結束后,處理器之間進行通信來產生

32、全局的候選k-項集。通常這里的通信過程是算法執(zhí)行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。3.FP-樹頻集算法針對Apriori算法的固有缺陷,J. Han等提出了不產生候選挖掘頻繁項集的方法:FP-樹頻集算法。采用分而治之的策略,在經過第一遍掃描之后,把數據庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然后再對這些條件庫分別進行挖掘。當原始數據量很大的時候,也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,FP-growth對不同長度的規(guī)則

33、都有很好的適應性,同時在效率上較之Apriori算法有巨大的提高。折疊關聯規(guī)則在國內外的應用就目前而言,關聯規(guī)則挖掘技術已經被廣泛應用在西方金融行業(yè)企業(yè)中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。現在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息,供使用本行ATM機的用戶了解。如果數據庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,數據庫可以

34、有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產品感興趣。同時,一些知名的電子商務站點也從強大的關聯規(guī)則挖掘中的受益。這些電子購物網站使用關聯規(guī)則中規(guī)則進行挖掘,然后設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。但是目前在我國,“數據海量,信息缺乏”是商業(yè)銀行在數據大集中之后普遍所面對的尷尬。目前金融業(yè)實施的大多數數據庫只能實現數據的錄入、查詢、統計等較低層次的功能,卻無法發(fā)現數據中存在的各種有用的信息,譬如對這些數據進行分析,發(fā)現其數據模式及特征,然后可能發(fā)現

35、某個客戶、消費群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢??梢哉f,關聯規(guī)則挖掘的技術在我國的研究與應用并不是很廣泛深入。折疊近年來關聯規(guī)則發(fā)掘技術的一些研究由于許多應用問題往往比超市購買問題更復雜,大量研究從不同的角度對關聯規(guī)則做了擴展,將更多的因素集成到關聯規(guī)則挖掘方法之中,以此豐富關聯規(guī)則的應用領域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系,時態(tài)關系,多表挖掘等。近年來圍繞關聯規(guī)則的研究主要集中于兩個方面,即擴展經典關聯規(guī)則能夠解決問題的范圍,改善經典關聯規(guī)則挖掘算法效率和規(guī)則興趣性。折疊數據挖掘和在線分析處理(OLAP)一個經常問的問題是,數據挖掘和OLAP到底有

36、何不同。下面將會解釋,他們是完全不同的工具,基于的技術也大相徑庭。OLAP是決策支持領域的一部分。傳統的查詢和報表工具是告訴你數據庫中都有什么(what happened),OLAP則更進一步告訴你下一步會怎么樣(What next)、和如果我采取這樣的措施又會怎么樣(What if)。用戶首先建立一個假設,然后用OLAP檢索數據庫來驗證這個假設是否正確。比如,一個分析師想找到什么原因導致了貸款拖欠,他可能先做一個初始的假定,認為低收入的人信用度也低,然后用OLAP來驗證他這個假設。如果這個假設沒有被證實,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入和負債一起考慮,一直進行下去,直

37、到找到他想要的結果或放棄。也就是說,OLAP分析師是建立一系列的假設,然后通過OLAP來證實或推翻這些假設來最終得到自己的結論。OLAP分析過程在本質上是一個演繹推理的過程。但是如果分析的變量達到幾十或上百個,那么再用OLAP手動分析驗證這些假設將是一件非常困難和痛苦的事情。數據挖掘與OLAP不同的地方是,數據挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型。他在本質上是一個歸納的過程。比如,一個用數據挖掘工具的分析師想找到引起貸款拖欠的風險因素。數據挖掘工具可能幫他找到高負債和低收入是引起這個問題的因素,甚至還可能發(fā)現一些分析師從來沒有想過或試過的其他因素,比如年齡

38、。數據挖掘和OLAP具有一定的互補性。在利用數據挖掘出來的結論采取行動之前,你也許要驗證一下如果采取這樣的行動會給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。而且在知識發(fā)現的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾祿业侥男┦菍σ粋€問題比較重要的變量,發(fā)現異常數據和互相影響的變量。這都能幫你更好的理解你的數據,加快知識發(fā)現的過程。折疊數據挖掘,機器學習和統計數據挖掘利用了人工智能(AI)和統計分析的進步所帶來的好處。這兩門學科都致力于模式發(fā)現和預測。數據挖掘不是為了替代傳統的統計分析技術。相反,他是統計分析方法學的延伸和擴展。大多數的統計分析技術都基于完善的數學理

39、論和高超的技巧,預測的準確度還是令人滿意的,但對使用者的要求很高。而隨著計算機計算能力的不斷增強,我們有可能利用計算機強大的計算能力只通過相對簡單和固定的方法完成同樣的功能。一些新興的技術同樣在知識發(fā)現領域取得了很好的效果,如神經元網絡和決策樹,在足夠多的數據和計算能力下,他們幾乎不用人的關照自動就能完成許多有價值的功能。數據挖掘就是利用了統計和人工智能技術的應用程序,他把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。折疊軟硬件發(fā)展對數據挖掘的影響使數據挖掘這件事情成為可能的關鍵一點是計算機性能價格比的巨大進步。在過去的幾年里磁盤存儲

40、器的價格幾乎降低了99%,這在很大程度上改變了企業(yè)界對數據收集和存儲的態(tài)度。如果每兆的價格是¥10,那存放1TB的價格是¥10,000,000,但當每兆的價格降為1毛錢時,存儲同樣的數據只有¥100,000!計算機計算能力價格的降低同樣非常顯著。每一代芯片的誕生都會把CPU的計算能力提高一大步。內存RAM也同樣降價迅速,幾年之內每兆內存的價格由幾百塊錢降到現在只要幾塊錢。通常PC都有64M內存,工作站達到了256M,擁有上G內存的服務器已經不是什么新鮮事了。在單個CPU計算能力大幅提升的同時,基于多個CPU的并行系統也取得了很大的進步。目前幾乎所有的服務器都支持多個CPU,這些SMP服務器簇甚

41、至能讓成百上千個CPU同時工作。基于并行系統的數據庫管理系統也給數據挖掘技術的應用帶來了便利。如果你有一個龐大而復雜的數據挖掘問題要求通過訪問數據庫取得數據,那么效率最高的辦法就是利用一個本地的并行數據庫。所有這些都為數據挖掘的實施掃清了道路,隨著時間的延續(xù),我們相信這條道路會越來越平坦。折疊數據挖掘相關的10個問題折疊NO.1DataMining和統計分析有什么不同?硬要去區(qū)分Data Mining和Statistics的差異其實是沒有太大意義的。一般將之定義為Data Mining技術的CART、CHAID或模糊計算等等理論方法,也都是由統計學者根據統計理論所發(fā)展衍生,換另一個角度看,Da

42、ta Mining有相當大的比重是由高等統計學中的多變量分析所支撐。但是為什么Data Mining的出現會引發(fā)各領域的廣泛注意呢?主要原因在相較于傳統統計分析而言,Data Mining有下列幾項特性:1.處理大量實際數據更強勢,且無須太專業(yè)的統計背景去使用Data Mining的工具;2.數據分析趨勢為從大型數據庫抓取所需數據并使用專屬計算機分析軟件,Data Mining的工具更符合企業(yè)需求;3. 純就理論的基礎點來看,Data Mining和統計分析有應用上的差別,畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統計學家檢測用的。折疊NO.2數據倉庫和數據挖掘的關系為何?若將

43、Data Warehousing(數據倉庫)比喻作礦坑,Data Mining就是深入礦坑采 礦的工作。畢竟Data Mining不是一種無中生有的魔術,也不是點石成金的煉金術,若沒有夠豐富完整的數據,是很難期待Data Mining能挖掘出什么有意義的信息的。要將龐大的數據轉換成為有用的信息,必須先有效率地收集信息。隨著科技的進步,功能完善的數據庫系統就成了最好的收集數據的工具。數據倉庫,簡單地說,就是搜集來自其它系統的有用數據,存放在一整合的儲存區(qū)內。所以其實就是一個經過處理整合,且容量特別大的關系型數據庫,用以儲存決策支持系統(Decision Support System)所需的數據,

44、供決策支持或數據分析使用。從信息技術的角度來看,數據倉庫的目標是在組織中,在正確的時間,將正確的數據交給正確的人。許多人對于Data Warehousing和Data Mining時?;煜恢绾畏直?。其實,數據倉庫是數據庫技術的一個新主題,利用計算機系統幫助我們操作、計算和思考,讓作業(yè)方式改變,決策方式也跟著改變。數據倉庫本身是一個非常大的數據庫,它儲存著由組織作業(yè)數據庫中整合而來的數據,特別 是指事務處理系統OLTP(On-Line Transactional Processing)所得來的數據。將這些整合過的數據置放于數據倉庫中,而公司的決策者則利用這些數據作決策;但是,這個轉換及整合

45、數據的過程,是建立一個數據倉庫最大的挑戰(zhàn)。因為將作業(yè)中的數據轉換成有用的的策略性信息是整個數據倉庫的重點。綜上所述,數據倉庫應該具有這些數據:整合性數據(integrated data)、詳細和匯總性的數據(detailed and summarized data)、歷史數據、解釋數據的數據。從數據倉庫挖掘出對決策有用的信息與知識,是建立數據倉庫與使用Data Mining的最大目的,兩者的本質與過程是兩回事。換句話說,數據倉庫應先行建立完成,Data mining才能有效率的進行,因為數據倉庫本身所含數據是干凈(不會有錯誤的數據參雜其中)、完備,且經過整合的。因此兩者關系或許可解讀為Data

46、 Mining是從巨大數據倉庫中找出有用信息的一種過程與技術。大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中(見圖1)。從數據倉庫中直接得到進行數據挖掘的數據有許多好處。就如我們后面會講到的,數據倉庫的數據清理和數據挖掘的數據清理差不多,如果數據在導入數據倉庫時已經清理過,那很可能在做數據挖掘時就沒必要在清理一次了,而且所有的數據不一致的問題都已經被你解決了。數據挖掘庫可能是你的數據倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數據庫。但如果你的數據倉庫的計算資源已經很緊張,那你最好還是建立一個單獨的數據挖掘庫。當然為了數據挖掘你也不必非得建立一個數據倉庫,數據倉

47、庫不是必需的。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解決所有的數據沖突問題,然后把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數據挖掘,你可以把一個或幾個事務數據庫導到一個只讀的數據庫中,就把它當作數據集市,然后在他上面進行數據挖掘。折疊NO.3OLAP能不能代替DataMining?所謂OLAP(Online Analytical Process)意指由數據庫所連結出來的在線分析處理程序。有些人會說:我已經有OLAP的工具了,所以我不需要Data Mining。事實上兩者間是截然不同的,主要差異在于Data Mining用在

48、產生假設,OLAP則用于查證假設。簡單來說,OLAP是由使用者所主導,使用者先有一些假設,然后利用OLAP來查證假設是否成立;而Data Mining則是用來幫助使用者產生假設。所以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。舉個例子來看,一市場分析師在為超市規(guī)劃貨品架柜擺設時,可能會先假設嬰兒尿布和嬰兒奶粉會是常被一起購買的產品,接著便可利用OLAP的工具去驗證此假設是否為真,又成立的證據有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結帳數據整理后,并不需要假設或期待可

49、能的結果,透過Mining技術可找出存在于數據中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發(fā)現,這是OLAP所做不到的。Data Mining常能挖掘出超越歸納范圍的關系,但OLAP僅能利用人工查詢及可視化的報表來確認某些關系,是以Data Mining此種自動找出甚至不會被懷疑過的數據模型與關系的特性,事實上已超越了我們經驗、教育、想象力的限制,OLAP可以和Data Mining互補,但這項特性是Data Mining無法被OLAP取代的。折疊NO.4完整的DataMining包含哪些步驟?1、數據挖掘環(huán)境數據挖掘是指一個完整的過程,該過程從大型數據庫中挖掘先前未知的

50、,有效的,可實用的信息,并使用這些信息做出決策或豐富知識. 數據挖掘環(huán)境可示意如下圖:數據挖掘環(huán)境框圖.gif2、數據挖掘過程圖下圖描述了數據挖掘的基本過程和主要步驟數據挖掘的基本過程和主要步驟3、數據挖掘過程工作量在數據挖掘中被研究的業(yè)務對象是整個過程的基礎,它驅動了整個數據挖掘過程,也是檢驗最后結果和指引分析人員完成數據挖掘的依據和顧問.圖2各步驟是按一定順序完成的,當然整個過程中還會存在步驟間的反饋.數據挖掘的過程并不是自動的,絕大多數的工作需要人工完成.圖3給出了各步驟在整個過程中的工作量之比.可以看到,60%的時間用在數據準備上,這說明了數據挖掘對數據的嚴格要求,而后挖掘工作僅占總工

51、作量的10%.圖3數據挖掘過程工作量比例4、數據挖掘過程簡介過程中各步驟的大體內容如下:(1). 確定業(yè)務對象清晰地定義出業(yè)務問題,認清數據挖掘的目的是數據挖掘的重要一步.挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的.(2). 數據準備1)、數據的選擇搜索所有與業(yè)務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據.2)、數據的預處理研究數據的質量,為進一步的分析作準備.并確定將要進行的挖掘操作的類型.3)、數據的轉換將數據轉換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數據挖

52、掘成功的關鍵.(3). 數據挖掘對所得到的經過轉換的數據進行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成.(4). 結果分析解釋并評估結果.其使用的分析方法一般應作數據挖掘操作而定,通常會用到可視化技術.(5). 知識的同化將分析所得到的知識集成到業(yè)務信息系統的組織結構中去.5、數據挖掘需要的人員數據挖掘過程的分步實現,不同的步會需要是有不同專長的人員,他們大體可以分為三類.業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)務對象,并根據各業(yè)務對象確定出用于數據定義和挖掘算法的業(yè)務需求.數據分析人員:精通數據分析技術,并對統計學有較熟練的掌握,有能力把業(yè)務需求轉化為數據挖掘的各步操作,

53、并為每步操作選擇合適的技術.數據管理人員:精通數據管理技術,并從數據庫或數據倉庫中收集數據.從上可見,數據挖掘是一個多種專家合作的過程,也是一個在資金上和技術上高投入的過程.這一過程要反復進行牞在反復過程中,不斷地趨近事物的本質,不斷地優(yōu)先問題的解決方案。數據重組和細分添加和拆分記錄選取數據樣本可視化數據探索聚類分析神經網絡、決策樹數理統計、時間序列結論綜合解釋評價數據知識數據取樣數據探索數據調整模型化評價。折疊NO.5DataMining運用了哪些理論與技術?Data Mining是近年來數據庫應用技術中相當熱門的議題,看似神奇、聽來時髦,實際上卻也不是什么新東西,因其所用之諸如預測模型、數

54、據分割,連結分析(Link Analysis)、偏差偵測(Deviation Detection)等,美國早在二次世界大戰(zhàn)前就已應用運用在人口普查及軍事等方面。隨著信息科技超乎想象的進展,許多新的計算機分析工具問世,例如關系型數據庫、模糊計算理論、基因算法則以及類神經網絡等,使得從數據中發(fā)掘寶藏成為一種系統性且可實行的程序。一般而言,Data Mining的理論技術可分為傳統技術與改良技術兩支。傳統技術以統計分析為代表,統計學內所含序列統計、概率論、回歸分析、類別數據分析等都屬于傳統數據挖掘技術,尤其 Data Mining 對象多為變量繁多且樣本數龐大的數據,是以高等統計學里所含括之多變量分

55、析中用來精簡變量的因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis),以及用來區(qū)隔群體的分群分析(Cluster Analysis)等,在Data Mining過程中特別常用。在改良技術方面,應用較普遍的有決策樹理論(Decision Trees)、類神經網絡(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹是一種用樹枝狀展現數據受各變量的影響情形之預測模型,根據對目標變量產生之效應的不同而建構分類的規(guī)則,一般多運用在對客戶數據的分析上,例如針對有回函與未回含的郵寄對象找出影響其分類結果的變量組合

56、,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。類神經網絡是一種仿真人腦思考結構的數據分析模式,由輸入之變量與數值中自我學習并根據學習經驗所得之知識不斷調整參數以期建構數據的型樣(patterns)。類神經網絡為非線性的設計,與傳統回歸分析相比,好處是在進行分析時無須限定模式,特別當數據變量間存有交互效應時可自動偵測出;缺點則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現,每階段的加權與轉換亦不明確,是故類神經網絡多利用于數據屬于高度

57、非線性且?guī)в邢喈敵潭鹊淖兞拷桓行獣r。規(guī)則歸納法是知識發(fā)掘的領域中最常用的格式,這是一種由一連串的如果/則(If / Then)之邏輯規(guī)則對數據進行細分的技術,在實際運用時如何界定規(guī)則為有效是最大的問題,通常需先將數據中發(fā)生數太少的項目先剔除,以避免產生無意義的邏輯規(guī)則。折疊NO.6DataMining包含哪些主要功能?Data Mining實際應用功能可分為三大類六分項來說明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預測類;Association和Sequence則屬于序列規(guī)則類。Classification是根據

58、一些變量的數值做計算,再依照結果作分類。(計算的結果最后會被分類為幾個少數的離散數值,例如將一組數據分為 可能會響應 或是 可能不會響應 兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據歷史經驗已經分類好的數據來研究它們的特征,然后再根據這些特征對其他未經分類或是新的數據做預測。這些我們用來尋找特征的已分類數據可能是來自我們的現有的客戶數據,或是將一個完整數據庫做部份取樣,再經由實際的運作來測試;譬如利用一個大型郵寄對象數據庫的部份取樣來建立一個Classification Model,再利用這個Model來對數據庫的其它數據或是新的數據作分類預測。Clustering用在將數據分群,其目的在于將群間的差異找出來,同時也將群內成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會以何種方式或根據來分類。所以必須要配合專業(yè)領域知識來解讀這些分群的意義。Regr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論