版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘基礎1數(shù)據(jù)挖掘基礎.pptx2數(shù)據(jù)管理.pptx3數(shù)據(jù)挖掘算法.pptx4-7數(shù)據(jù)挖掘準備.pptx8-10構建數(shù)據(jù)挖掘模型.pptx11數(shù)據(jù)挖掘的商業(yè)應用.pptx12如何做專題分析.pptx全套可編輯PPT課件數(shù)據(jù)挖掘基礎數(shù)據(jù)挖掘產(chǎn)生的背景數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘任務概率論與數(shù)理統(tǒng)計數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘產(chǎn)品實例數(shù)據(jù)挖掘環(huán)境搭建數(shù)據(jù)挖掘產(chǎn)生的背景“信息爆炸”引發(fā)對數(shù)據(jù)挖掘的需求解決數(shù)據(jù)爆炸和知識貧乏這對矛盾的需要企業(yè)競爭中挖掘有用數(shù)據(jù)商業(yè)運作的數(shù)據(jù)挖掘需求什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(DataMining)是指從大量的數(shù)據(jù)(結構化和非結構化)中提取有用的信息和知識的過程。在這個定義中,數(shù)據(jù)是大量的、真實的、不完全的、有噪音的、模糊的、隨機的實際應用數(shù)據(jù);所發(fā)現(xiàn)的信息和知識是潛在的并隱藏在大量數(shù)據(jù)背后的,是用戶感興趣的、可理解、可運用的知識。所以,數(shù)據(jù)挖掘有時也被人們稱為知識挖掘、知識提取、知識發(fā)現(xiàn)等,可以說數(shù)據(jù)挖掘的本質就是知識發(fā)現(xiàn),它所有發(fā)現(xiàn)的知識都是隱藏在大量數(shù)據(jù)之中的關聯(lián)信息,所有的知識都是有特定前提和約束條件的,是面向特定領域的,而且,這些知識還要能夠易于被用戶理解,能用自然語言表達所發(fā)現(xiàn)的結果。數(shù)據(jù)挖掘、信息、知識的轉化關系數(shù)據(jù)信息知識環(huán)境或對象智力與關聯(lián)什么是數(shù)據(jù)挖掘?數(shù)據(jù)、信息、知識的轉化從商業(yè)角度出發(fā),數(shù)據(jù)挖掘可理解為一種商業(yè)信息處理技術,其主要目的是對大量的商業(yè)數(shù)據(jù)進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關鍵知識。由于在商業(yè)運作過程中,無時不在產(chǎn)生數(shù)據(jù),對企業(yè)來說,這種數(shù)據(jù)是大量的,收集這些數(shù)據(jù)不再是單純的以分析研究為目的,更主要的是通過對這些數(shù)據(jù)進行深入挖掘,提供真正有價值的商業(yè)決策信息,從而獲得更多利潤。什么是數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?從商業(yè)應用角度看數(shù)據(jù)挖掘數(shù)據(jù)挖掘任務
數(shù)據(jù)挖掘任務有很多種,也有很多不同的表述,它們彼此之間也多有交叉,常見的有如下幾種:(1)分類學習:分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規(guī)則或決策樹模式表示。分類可以利用訓練數(shù)據(jù)集,進而通過一定的算法模型求得分類規(guī)則,也可被用于規(guī)則描述和預測。目前比較常見的分類算法有K最近鄰居算法(KNearestNeighborAlgorithm)、決策樹算法、貝葉斯分類和支持向量機算法(SupportVectorMachine)等。(2)聚類分析:聚類就是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關系。目前常見的聚類算法有基于劃分的算法、基于層次的算法、基于密度的算法和基于網(wǎng)格的算法等。數(shù)據(jù)挖掘任務(3)關聯(lián)規(guī)則:關聯(lián)規(guī)則挖掘是描述兩個或兩個以上變量的取值之間存在某種規(guī)律性,數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關聯(lián)分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)等,關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。一般用支持度和可信度兩個閾值來度量關聯(lián)規(guī)則的相關性,還不斷引入興趣度、相關性等參數(shù),使得所挖掘的規(guī)則更符合需求。(4)時序模式:時序模式是指通過時間序列搜索出的重復發(fā)生概率較高的模式。其與回歸一樣,是用已知的數(shù)據(jù)預測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。(5)偏差分析:在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的,偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。(6)預測:預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預測。預測關心的是精度和不確定性,通常采用預測方差來度量。預測的主要方法有統(tǒng)計學中的回歸分析等等。概率論與數(shù)理統(tǒng)計概率論和數(shù)理統(tǒng)計是應用數(shù)學中最重要、最活躍的學科之一,它在計算機發(fā)明之前廣泛應用于各行各業(yè),迄今已有數(shù)百年的發(fā)展歷史。如今,強大有效的數(shù)理統(tǒng)計方法和工具,如SAS、SPSS等,已成為信息咨詢業(yè)的基礎。統(tǒng)計學是關于數(shù)據(jù)資料的收集、整理、分析和推理的科學,側重于應用研究隨機現(xiàn)象的本身的規(guī)律性來考慮資料的收集、整理、分析,從而找出相應隨機變量的分布律或它的數(shù)字特征,盡可能作出較合理精確的推斷。統(tǒng)計學和數(shù)據(jù)挖掘有著一個類似的目標,即發(fā)現(xiàn)數(shù)據(jù)中的結構。事實上,由于它們的目標相似,一些人(尤其是統(tǒng)計學家)認為數(shù)據(jù)挖掘是統(tǒng)計學的分支。這是一個不切合實際的看法。因為數(shù)據(jù)挖掘還應用了其他領域的思想、工具和方法,尤其是計算機學科。目前采用的許多數(shù)據(jù)挖掘方法和思想是和統(tǒng)計學緊密相連的。在當前的數(shù)據(jù)挖掘軟件包中被用到的統(tǒng)計分析過程,包括決策樹推斷(C4.5、CART等)、規(guī)則推斷(AQ,CN2,RECON等)、最近鄰方法、聚類方法、關聯(lián)規(guī)則、特征提取、可視化。另外,有些挖掘過程還包括一些統(tǒng)計學方法,如神經(jīng)網(wǎng)絡、貝葉斯信念網(wǎng)絡、遺傳算法、自組織圖、神經(jīng)模糊系統(tǒng)。數(shù)據(jù)挖掘方法(1)——決策樹決策樹方法是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個結點,再根據(jù)該屬性字段的不同取值建立樹的分支。每個分支子集中重復建立樹的下層結點和分支的過程。采用決策樹,可以將數(shù)據(jù)規(guī)則可視化,也不需要長時間的構造過程,實際應用中的決策樹可能非常復雜,但是即使復雜,每一條從根節(jié)點到葉子節(jié)點的路徑的含義仍然是可以理解,精度較高,決策樹的這種易理解性對數(shù)據(jù)挖掘的使用者來說是一個顯著的優(yōu)點。因此,決策樹在知識發(fā)現(xiàn)系統(tǒng)中應用較廣。然而,采用決策樹方法也有其缺點,決策樹方法很難基于多個變量組合發(fā)現(xiàn)規(guī)則,不同決策樹分支之間的分裂也不平滑。決策樹方法的起源是概念學習系統(tǒng)CLS,然后發(fā)展到ID3方法而達到高潮,最后又演化為能處理連續(xù)屬性的C4.5。著名的決策樹方法還有CART和Assistant。后來,人們也把決策樹方法應用在數(shù)據(jù)挖掘中,目前決策樹方法還主要用于分類。數(shù)據(jù)挖掘方法(1)——決策樹構造決策樹的過程為:首先尋找初始分裂,整個訓練集作為產(chǎn)生決策樹的集合,訓練集每個記錄必須是已經(jīng)分好類的;決定哪個屬性域作為目前最好的分類指標,一般的做法是窮盡所有的屬性域,對每個屬性域分裂的好壞做出量化,計算出最好的一個分裂,量化的標準是計算每個分裂的多樣性(diversity)指標;其次,重復第一步,直至每個葉節(jié)點內的記錄都屬于同一類,直至增長到一棵完整的樹輸出判定樹分類算法決策樹挖掘過程輸入數(shù)據(jù)挖掘方法(2)——神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡是模擬人類的形象直覺思維,在生物神經(jīng)網(wǎng)絡研究的基礎上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡的特點,通過簡化、歸納,提煉總結出來的一類并行處理網(wǎng)絡,利用其非線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡本身的結構來表達輸入和輸出的關聯(lián)知識?;谏窠?jīng)網(wǎng)絡的數(shù)據(jù)挖掘的種類數(shù)以百計,但最常使用的有基于自組織神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘和基于模糊神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘兩種。驅動數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡實現(xiàn)實際上是以神經(jīng)網(wǎng)絡為工具的聯(lián)機分析處理技術,該技術特別適合于針對某種規(guī)則、定理、專家知識、法定限度等監(jiān)督或約束下的動態(tài)監(jiān)測監(jiān)控、預測預報以及事務數(shù)據(jù)庫、動態(tài)數(shù)據(jù)庫、Internet信息庫等的數(shù)據(jù)挖掘。例如地震前兆預測預報、災害(洪水、火災等)動態(tài)監(jiān)測、數(shù)據(jù)驅動下的資源動態(tài)預測等。數(shù)據(jù)挖掘方法(2)——神經(jīng)網(wǎng)絡(1)基于自組織神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘。自組織過程是一種無教師學習的過程。通過學習,可以提取一組數(shù)據(jù)中的重要特征或某種內在的知識,如分布的特征或者按某種特征聚類。芬蘭學者T.Kohonen認為,神經(jīng)網(wǎng)絡中鄰近的各個單元如同組成大腦的神經(jīng)元一樣,所發(fā)揮的作用各不相同,通過相互作用,可以自適應地發(fā)展成檢查不同性質信號的特殊檢測器。因為處于不同大腦空間部位的神經(jīng)元分工是不同的,它們各自對不同的輸入模式敏感。T.Kohonen提出了一種學習方式,使輸入信號映射到低維空間,并且保持相同特征的輸入信號在空間上對應臨近區(qū)域,這就是所謂的自組織特征映射(SOFM)。
(2)基于模糊神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘。盡管神經(jīng)網(wǎng)絡具有較強的學習、分類、聯(lián)想與記億等功能,但是在將神經(jīng)網(wǎng)絡用于數(shù)據(jù)挖掘時最大的難度是無法對輸出結果給出直觀的說明。將模糊處理功能引進神經(jīng)網(wǎng)絡之后,不僅可以增加神經(jīng)網(wǎng)絡的輸出表達能力,而且使系統(tǒng)變得更加穩(wěn)定。經(jīng)常用于數(shù)據(jù)挖掘的模糊神經(jīng)網(wǎng)絡有模糊感知機模型、模糊BP網(wǎng)絡、模糊Kohonen聚類網(wǎng)絡、模糊推理網(wǎng)絡和模糊ART模型等。數(shù)據(jù)挖掘方法(2)——神經(jīng)網(wǎng)絡驅動數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡實現(xiàn)實際上是以神經(jīng)網(wǎng)絡為工具的聯(lián)機分析處理技術,該技術特別適合于針對某種規(guī)則、定理、專家知識、法定限度等監(jiān)督或約束下的動態(tài)監(jiān)測監(jiān)控、預測預報以及事務數(shù)據(jù)庫、動態(tài)數(shù)據(jù)庫、Internet信息庫等的數(shù)據(jù)挖掘。例如地震前兆預測預報、災害(洪水、火災等)動態(tài)監(jiān)測、數(shù)據(jù)驅動下的資源動態(tài)預測等。數(shù)據(jù)挖掘方法(3)——粗糙集波蘭科學家Z.Pawlak在1982年首先提出粗糙集(RoughSet)理論是一種研究不精確、不確定性知識的數(shù)學工具。它在處理信息含糊性上有幾個優(yōu)點:無需提供除問題所需處理的數(shù)據(jù)集合之外的任何先驗信息,如統(tǒng)計中要求的先驗概率和模糊集中要求的隸屬度;算法簡單、易于操作。因而,近年來得到越來越廣泛的應用。首先,數(shù)據(jù)挖掘研究的實施對象多為關系型數(shù)據(jù)庫。關系表可以看成粗糙集理論中的決策表,這給粗糙集方法的應用帶來極大的方便;第二,現(xiàn)實世界中的規(guī)則有確定性的,也有不確定性的。從數(shù)據(jù)庫中發(fā)現(xiàn)不確定性的知識,為粗糙集方法提供了用武之地;第三,從數(shù)據(jù)中發(fā)現(xiàn)異常,排除知識發(fā)現(xiàn)過程中的噪聲干擾也是粗糙集方法的特長;第四,運用粗糙集方法得到的知識發(fā)現(xiàn)算法有利于并行執(zhí)行,可以極大地提高發(fā)現(xiàn)效率。對于大規(guī)模數(shù)據(jù)庫中的知識發(fā)現(xiàn)來說,這正是人們所追求的;第五,數(shù)據(jù)挖掘中采用的其他技術,如神經(jīng)網(wǎng)絡的方法,不能自動地選擇合適的屬性集,而利用粗糙集方法進行預處理,去掉多余屬性,可提高發(fā)現(xiàn)效率,降低錯誤率;第六,粗糙集方法比模糊集方法或神經(jīng)網(wǎng)絡方法在得到的決策規(guī)則和推理過程方面更易于被證實和檢測。數(shù)據(jù)挖掘方法(3)——粗糙集粗糙集的基本概念有:信息系統(tǒng):在粗糙集理論中假定現(xiàn)實世界中的信息是用一張表來表達,并稱之為信息系統(tǒng)。信息系統(tǒng)是一個由三元組S={U,A,V}組成的,其中U表示對象集合,A是屬性集合,V是A的值域,實際屬性就是對象上的等價關系,即A是等價關系的集合。其具體表現(xiàn)是用二維表格來表示的,在這張表中,列表示屬性(A),行表示對象(U),表格中的值(V)即是其中一個屬性對應的一個等價關系。決策表:在信息系統(tǒng)中,A表示屬性集合,A=C∪D,其中C是條件屬性,D是決策屬性,具有條件屬性和決策屬性的知識表達系統(tǒng)構成的特殊的信息系統(tǒng),即決策表。不可分辨關系:近似空間(approximationspace)是一個二元組<U,R(B)>,U同上,B是A的屬性子集,R(B)是U上的二元等價關系,R(B)={(x1,x2)|f(x1,b)=f(x2,b),b為B中的任一元素}。R(B)也稱不可分辨關系。屬性子集B將全部樣本U劃分成若干等價類,稱為B-基本元素(B-elementary)。知識由概念組成,如果某知識中含有不精確概念,則該知識不精確。粗糙集對不精確概念的描述方法是:通過上近似概念和下近似概念這兩個精確概念來表示?;诖植诩臄?shù)據(jù)挖掘算法實際上就是對大量數(shù)據(jù)構成的信息系統(tǒng)(即決策表)進行約簡,得到一種屬性歸約集的過程,最后抽取規(guī)則。粗糙集方法得到的分類規(guī)則一般是符號形式的顯性規(guī)則,這正是數(shù)據(jù)挖掘所追求的。數(shù)據(jù)挖掘方法(4)——模糊集模糊集的理論是1965年美國自動控制專家查德(L.A.Zadeh)教授首先提出來的,它是基于模糊數(shù)學的一種處理方法,其基本出發(fā)點是針對許多信息和數(shù)據(jù)的模糊性,如雨點的大??;人的高矮;收入的多少等等,這些信息本身缺乏一個確定的結果,經(jīng)常只描述一些元素之間的某種聯(lián)系的程度。模糊集與粗糙集都是針對信息和數(shù)據(jù)的模糊性的處理方法,但兩者存在很大的不同。從集合的對象間的關系來看,模糊集強調集合邊界的病態(tài)和集合本身的含混性,而粗糙集強調的是集合對象問的不可分辨性;從研究的對象來看,模糊集研究的是屬于同一類的不同對象對集合的隸屬關系,重在隸屬程度,因此模糊集是數(shù)據(jù)挖掘中常用的聚類方法之一。粗糙集以不可分辨關系為基礎,研究的是不同類中的對象組成的集合之間的關系,重在分類,因此,粗糙集是數(shù)據(jù)挖掘中常用的分類方法之一。數(shù)據(jù)挖掘方法(4)——模糊集數(shù)據(jù)挖掘方法(5)——遺傳算法遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法。其基本思想是基于達爾文Darwin的進化論和Mendel的遺傳學說。該算法由密執(zhí)安(Michigan)大學教授Holland及其學生于1975年創(chuàng)建。與傳統(tǒng)搜索算法不同,遺傳算法從一組隨機產(chǎn)生的初始解,稱為種群,開始搜索過程。種群中的每個個體是問題的一個解,稱為染色體。染色體是一串符號,例如一個二進制字符串。這些染色體在后續(xù)迭代中不斷進化,稱為遺傳。在每一代中用適應度(Fitness)來衡量染色體的好壞。生成下一代染色體,稱為后代。后代是由前一代染色體通過交叉(Crossover)或變異(Mutation)運算形成。根據(jù)適應度大小選擇部分后代,淘汰部分后代,從而保持種群大小是常數(shù)。適應度高的染色體被選中的概率高。這樣,經(jīng)過若干代之后,算法收斂于最好的染色體,它很可能就是問題的最優(yōu)解或次優(yōu)解。數(shù)據(jù)挖掘方法(5)——遺傳算法應用遺傳算法進行數(shù)據(jù)挖掘,首先要對實際問題進行編碼,編碼方法可以是二進制編碼,也可以是十進制編碼。然后,定義遺傳算法的適應度函數(shù),由于算法用于規(guī)則歸納,因此適應度函數(shù)由規(guī)則覆蓋的正例和反例來定義。隨機產(chǎn)生一組規(guī)則,對每一個規(guī)則應用數(shù)據(jù)庫中給定的個體例子進行判斷,根據(jù)適應度函數(shù)計算其適應度。應用選擇、交叉、變異運算對該組規(guī)則進行進化,再利用選擇運算產(chǎn)生下一代規(guī)則,這樣經(jīng)過若干次迭代后,遺傳算法滿足終止條件,從而得到一組理想規(guī)則。接下來,利用這些規(guī)則對數(shù)據(jù)庫中的數(shù)據(jù)進行加工,刪除規(guī)則覆蓋的例子,對剩余的數(shù)據(jù)繼續(xù)采用以上遺傳算法,去挖掘第二組規(guī)則。重復以上步驟,直至數(shù)據(jù)庫中的所有例子都被覆蓋或者滿足事先約定的終止條件。最后應用規(guī)則優(yōu)化算法對所得規(guī)則進行優(yōu)化,使之得到最簡規(guī)則。其中遺傳算法的終止條件為三種:找到了滿足問題的解;候選取群體已收斂于某一點,即經(jīng)過遺傳操作后候選解的前后代之間沒有顯著的優(yōu)化,就認為遺傳算法已經(jīng)收斂,此時可以選擇輸出最優(yōu)解,不過,該點可能是局部最優(yōu)解;算法已達到了設定的代數(shù)等。并非所有的遺傳運算過程都是有效的,為了防止計算過程無限運行下去,需要設定遺傳的代數(shù)來終止運算過程。數(shù)據(jù)挖掘方法(5)——遺傳算法目標(函數(shù))映射為適應度函數(shù)初始種群實際問題計算個體適應度滿意終止條件否?選擇交叉變異產(chǎn)生下一代規(guī)則(種群)輸出滿足問題的規(guī)則遺傳算子數(shù)據(jù)挖掘方法(6)——支持向量機
數(shù)據(jù)挖掘方法(6)——支持向量機
數(shù)據(jù)挖掘工具——選擇指標所提供的數(shù)據(jù)挖掘功能和算法可處理的數(shù)據(jù)類型數(shù)據(jù)存取能力運行平臺和兼容性數(shù)據(jù)預處理能力與其他系統(tǒng)的接口可擴展性可伸縮性可視化工具操作性能數(shù)據(jù)挖掘工具——選擇指標作為一家商業(yè)機構,其還會考慮如下一些因素:(1)公司的數(shù)據(jù)挖掘需求是短期行為還是長期使用。如果是短期行為,就購買那些能解決特定問題的軟件包或外包給咨詢公司。如果是長期使用,就需要購買功能比較豐富,使用比較方便,維護升級比較好的企業(yè)型數(shù)據(jù)挖掘工具。(2)公司的數(shù)據(jù)狀態(tài)。在挑選數(shù)據(jù)挖掘工具前,公司必須對現(xiàn)有的數(shù)據(jù)進行評估。如果沒有具備進行業(yè)務主題數(shù)據(jù)挖掘數(shù)據(jù)或者現(xiàn)有格式不能滿足數(shù)據(jù)挖掘工具的需求,可暫時不考慮購買數(shù)據(jù)挖掘工具。如果公司已經(jīng)擁有適合數(shù)據(jù)挖掘的數(shù)據(jù)倉庫或數(shù)據(jù)庫,應該盡量選擇能夠與數(shù)據(jù)倉庫緊密結合的數(shù)據(jù)挖掘工具。(3)公司的行業(yè)特點。每個行業(yè)都有自身的行業(yè)特點,往往為了解決本行業(yè)特定的商業(yè)問題,需要提供能夠解決特定應用問題的數(shù)據(jù)挖掘工具。每個公司必須結合自己的實際情況何需要,充分考慮廠商在數(shù)據(jù)挖掘領域的實施經(jīng)驗,避免踏入僅僅“選擇工具”的陷阱,力求獲得一個完整的數(shù)據(jù)挖掘解決方案,并和廠商一起完成這個復雜的、富有挑戰(zhàn)性、創(chuàng)造性并充滿樂趣的過程。同時,必須將數(shù)據(jù)挖掘工具提供的技術和實施經(jīng)驗與企業(yè)的業(yè)務邏輯數(shù)據(jù)和需求緊密結合,并在實施過程中不斷磨合。只有這樣,才能夠將數(shù)據(jù)挖掘真正融入公司日常的經(jīng)營決策之中,才能夠取得成功。數(shù)據(jù)挖掘工具——常用數(shù)據(jù)挖掘工具目前國際上廣泛應用的數(shù)據(jù)挖掘工具有很多,數(shù)據(jù)挖掘工具分為平臺型工具和專業(yè)型工具。平臺型工具具有通用性并提供全套服務,它們不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。例如SAS公司的SASEnterpriseMiner、IBM并購SPSS后也整合了IntelligentMiner和SPSSClementine、Teradata公司的系列產(chǎn)品,還有微軟的SQLSever數(shù)據(jù)挖掘模塊、甲骨文的OracleDarvin、Waikato大學開發(fā)的Weka平臺以及開源軟件R語言等。常用工具類型廠商產(chǎn)品特點
平臺類工具SASSASEnterpriseMiner支持元數(shù)據(jù)管理與維護SASETS(時間序列預測)SASOR(運籌學)SASSTAT(統(tǒng)計分析)SASQC(質量控制)IBMDB2IntelligentMinerforData分為建模、瀏覽、評估等部分DB2IntelligentMinerforText主要功能是特征抽取、文檔聚焦、文檔分類和檢索SPSSClementine易用的數(shù)據(jù)挖掘工具平臺SPSSAnswerTree快速建立決策樹模型TeradataTeradataProfiler對數(shù)據(jù)源進行質量分析TeradataADSGenerator產(chǎn)生分析數(shù)據(jù)組TeradataWarehouseMiner專為大規(guī)模數(shù)據(jù)而設計TeradataModelManager模型管理器側重于提供有好的界面微軟MicrosoftSQLServerDataMining允許模型對整個數(shù)據(jù)集運行甲骨文Darwin(神經(jīng)元網(wǎng)、決策樹、K近鄰)為初學者和有經(jīng)驗的人都提供了相對較強的用戶界面StatSoftDataMiner、QCMiner、TextMinerStatSoft公司還提供Statistica軟件專業(yè)類工具FairIsaac公司FICOscore面向信用卡積分Unica公司AffiniumModel面向營銷自動化………………數(shù)據(jù)挖掘產(chǎn)品實例——TWM工具本書實例為Teradata系列挖掘產(chǎn)品,主要包括TeradataProfiler、TeradataADSGenerator、TeradataWarehouseMiner、TeradataModelManager。其中TeradataWarehouseMiner是運行在Teradata平臺上的高效數(shù)據(jù)挖掘工具,其主要優(yōu)勢是數(shù)據(jù)庫內挖掘。相比傳統(tǒng)數(shù)據(jù)挖掘工具,TWM場內挖掘的優(yōu)勢主要體現(xiàn)在:在Teradata中挖掘,無需數(shù)據(jù)轉移;數(shù)據(jù)管理由Teradata完成,省時省力;充分利用Teradata的并行處理能力;挖掘性能隨Teradata數(shù)據(jù)庫性能的擴展而擴展;可以在全部細節(jié)數(shù)據(jù)上挖掘。數(shù)據(jù)挖掘產(chǎn)品實例——TWM工具安裝配置TWM工具,使用TWM工具建立數(shù)據(jù)挖掘工程并實現(xiàn)一個完整分析所需要的7個工作步驟:(1)連接ODBC數(shù)據(jù)源(需要相應權限)(2)創(chuàng)建新工程(或打開已有工程)(3)添加分析模塊到工程中(4)設置輸入和分析選項(5)設置輸出和結果選項(6)執(zhí)行分析模塊(點擊‘運行’按鈕)(7)查看結果數(shù)據(jù)挖掘環(huán)境搭建
所謂數(shù)據(jù)挖掘環(huán)境是指實施數(shù)據(jù)挖掘所需要的體系和技術準備,它決定了如何開發(fā)模型,需要什么軟件和硬件。Teradata的數(shù)據(jù)挖掘都是基于數(shù)據(jù)倉庫的,因此數(shù)據(jù)倉庫是數(shù)據(jù)挖掘實施很重要的環(huán)境,除此之外,數(shù)據(jù)挖掘的體系架構和中間層模型也是數(shù)據(jù)挖掘環(huán)境需要考慮的。數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了良好的基礎良好的數(shù)據(jù)挖掘體系架構有助于模型的快速開發(fā)和部署中間層模型為快速實施數(shù)據(jù)準備提供了基礎數(shù)據(jù)挖掘環(huán)境搭建常用的數(shù)據(jù)挖掘的體系結構謝謝各位的聆聽!
數(shù)據(jù)管理了解和管理數(shù)據(jù)數(shù)據(jù)結構數(shù)據(jù)類型數(shù)據(jù)統(tǒng)計特征數(shù)據(jù)轉換數(shù)據(jù)質量主數(shù)據(jù)管理數(shù)據(jù)結構數(shù)據(jù)結構一般定義為指互相之間存在著一種或者多種關系的數(shù)據(jù)元素的集合和該集合中數(shù)據(jù)元素之間的關系組成。不同的學者在不同的論述場景里也給出了一些其它定義,比如SartajSahni在其《數(shù)據(jù)結構、算法與應用》一書中定義數(shù)據(jù)結構是數(shù)據(jù)對象,以及存在于該對象的實例和組成實例的數(shù)據(jù)元素之間的各種聯(lián)系,這些聯(lián)系可以通過定義相關的函數(shù)來給出;CliffordA.Shaffer在《數(shù)據(jù)結構與算法分析》一書中定義是數(shù)據(jù)結構是抽象數(shù)據(jù)類型(AbstractDataType,ADT)的物理實現(xiàn);RobertL.Kruse在《數(shù)據(jù)結構與程序設計》一書中將一個數(shù)據(jù)結構的設計過程分成抽象層、數(shù)據(jù)結構層和實現(xiàn)層,其中抽象層是指抽象數(shù)據(jù)類型層,它討論數(shù)據(jù)的邏輯結構及其運算,數(shù)據(jù)結構層和實現(xiàn)層討論一個數(shù)據(jù)結構的表示和在計算機內的存儲細節(jié)以及運算的實現(xiàn)。在數(shù)據(jù)挖掘中,尤其是大多數(shù)情況下的結構化數(shù)據(jù)的挖掘中,數(shù)據(jù)結構可以具體指代同一類的數(shù)據(jù)元素,各元素之間有相互關系。絕大部分的數(shù)據(jù)挖掘算法可以使用一種非常簡單的數(shù)據(jù)格式,我們稱它為寬表。寬表將客戶相關的信息都記錄在一行上,以便進行分析。其特征:每個客戶一條記錄,極多的屬性(字段、列、變量、指標),幾百個指標是很常見的,有時指標達3000以上。數(shù)據(jù)類型從數(shù)據(jù)的測量尺度來看,數(shù)據(jù)可以分為四種類型:(1)名義分類數(shù)據(jù),取值是定性的,表現(xiàn)為互不相容的類別或屬性,沒有順序和大小的差異,如客戶類型、性別(男、女)、本地網(wǎng)(是、否)等。(2)有序分類數(shù)據(jù),各類別之間有程度的差異,但不能進行算術運算,如收入的低、中和高。(3)定距數(shù)值數(shù)據(jù),可以計算兩個取值之差,但不能做其它類型的算術運算,如日期和時間的間隔。(4)定比數(shù)值數(shù)據(jù),支持各種類型算術運算的數(shù)據(jù),如話務量、收入等。數(shù)據(jù)類型數(shù)據(jù)通常以字符串或數(shù)字的形成出現(xiàn),但數(shù)據(jù)的形式未必能說明數(shù)據(jù)的類型。許多編碼都包含數(shù)字,但這些數(shù)字之間并沒有順序,更不能進行四則運算。有時數(shù)據(jù)是以字符串的形式存儲,但它們之間是有順序的,如代表客戶等級的鉆、金和銀。上述的四種類型的數(shù)據(jù)都是結構化的數(shù)據(jù),還有文本、圖片、聲音和視頻等數(shù)據(jù),它們屬于非結構化數(shù)據(jù),還以電信行業(yè)數(shù)據(jù)舉例,譬如用戶姓名、地址、投訴內容等。數(shù)據(jù)挖掘算法不能直接處理非結構化數(shù)據(jù),需要首先將非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù)。另外還有事務數(shù)據(jù)、數(shù)據(jù)矩陣、各類有序數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、多媒體數(shù)據(jù)(圖形圖像、音頻視頻)等。數(shù)據(jù)統(tǒng)計特征數(shù)據(jù)統(tǒng)計特征,指運用統(tǒng)計學的方法進行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律,為數(shù)據(jù)挖掘過程中的數(shù)據(jù)質量檢查、變量篩選和變量預處理提供依據(jù)。數(shù)據(jù)統(tǒng)計特征(1)——單一分類變量對單一分類變量探索的最基本統(tǒng)計方法是通過柱形圖或者條形圖描述變量中不同類別出現(xiàn)的次數(shù)或頻率分布。通過變量的頻數(shù)分析,我們可以回答:一個分類變量取值個數(shù)是多還是少?用戶是集中在某幾個類別還是分散在各個類別?是否某些類別的用戶數(shù)與經(jīng)驗不符?通過回答這些問題,我們可能會發(fā)現(xiàn)潛在的數(shù)據(jù)質量問題,也為建模前的變量預處理提供思路。例如一個分類變量取值很多,但大多數(shù)類別的用戶數(shù)較少,此時建議將用戶數(shù)較少的類別進行合并,以便更能滿足數(shù)據(jù)挖掘算法的需要。數(shù)據(jù)統(tǒng)計特征(2)——單一數(shù)值變量單一數(shù)值變量探索的最常用方法是計算變量的一組描述統(tǒng)計量,如描述數(shù)據(jù)集中趨勢的統(tǒng)計量:均值、中位數(shù)和分位數(shù)等;描述數(shù)據(jù)離散程度的統(tǒng)計量:極差、方差、標準差和離散系數(shù)等;探索單一數(shù)值變量的分布:箱線圖和直方圖。當然了,總量是最常用的分析變量,即直接對一組數(shù)據(jù)計數(shù)或者求和,譬如某區(qū)域的總用戶數(shù)、某區(qū)域的總收入、總話務量等??偭糠磻丝傮w情況,在環(huán)境相似情況下,通常還用總量進行比較分析,譬如人口規(guī)模、經(jīng)濟環(huán)境基本相近的兩個區(qū)域,進行收入量、用戶總量的比較分析等。數(shù)據(jù)統(tǒng)計特征(2)——單一數(shù)值變量(1)描述數(shù)據(jù)集中趨勢的統(tǒng)計量均值:一組數(shù)據(jù)的平均值,它是對較細粒度的數(shù)據(jù)進行匯總得到的較粗粒度的數(shù)據(jù)。如電信XX省份移動用戶的平均ARPU值,它可以讓人們對該省份移動用戶價值的高低有個基本的認識。中位數(shù):將數(shù)據(jù)按從小到大的順序排列起來,形成一個數(shù)列,居于數(shù)列中間位置的那個數(shù)據(jù),即50%位置的那個數(shù)據(jù)。中位數(shù)跟均值相比,它不容易受極端值的影響。分位數(shù):中位數(shù)是分位數(shù)的一種,分位數(shù)是指處于第n%位置的數(shù),常用的分位數(shù)有四分位數(shù)、十分位數(shù)、百分位數(shù)。如ARPU值最高的前10%的用戶就是百分位數(shù)的一個應用。數(shù)據(jù)統(tǒng)計特征(2)——單一數(shù)值變量(2)描述數(shù)據(jù)離散程度的統(tǒng)計量極差:數(shù)據(jù)中的最大值與最小值之差,只考慮數(shù)據(jù)中的兩個值,容易受極端值的影響。方差:衡量一組數(shù)據(jù)偏離其平均值的波動程度,如用戶最近幾個月的ARPU值波動大小,就可以用方差來衡量。方差一般代表信息量的多少,如果一個變量的方差越?。O端情況只取一個值),那么它包含的信息量就越少,它對挖掘的作用就越小。標準差:方差的平方根,它是使用更頻繁的波動度量指標,它與數(shù)據(jù)有相同的量綱。離散系數(shù)(變異系數(shù)):一組數(shù)據(jù)的標準差與均值之比,是衡量數(shù)據(jù)離散程度的相對指標。它的優(yōu)點是不受數(shù)據(jù)量綱的影響,可以對不同量綱的數(shù)據(jù)波動程度進行比較,離散系數(shù)越大表明數(shù)據(jù)的波動越大。如可以用離散系數(shù)比較用戶話務量和ARPU的波動大小。數(shù)據(jù)統(tǒng)計特征(2)——單一數(shù)值變量(3)探索單一數(shù)值變量的分布數(shù)值變量的描述統(tǒng)計量只能從總體上描述一組數(shù)據(jù),但是不能充分地描述一組數(shù)據(jù)的細節(jié),兩個平均值和方差完全相同的變量,它們的分布可能差別較大。這里介紹兩種探索數(shù)值變量分布的方法:箱線圖和直方圖。箱線圖:箱線圖類似于股票的K線圖,它是利用數(shù)據(jù)中的五個統(tǒng)計量:最小值、第一四分位數(shù)(Q1)、中位數(shù)、第三四分位數(shù)(Q3)與最大值來描述數(shù)據(jù)的一種圖示方法。它可以粗略地觀察數(shù)據(jù)分布的對稱性,分布的分散程度,是否有極端值等信息,特別地可以用于對幾組數(shù)據(jù)分布的比較。直方圖:將數(shù)值變量離散化,以變量的取值區(qū)間為橫坐標、區(qū)間頻數(shù)或頻率為縱坐標而作的連續(xù)排列的柱形圖,用于評估數(shù)值變量取值的分布情況,類似于分類變量的柱形圖。數(shù)據(jù)統(tǒng)計特征(3)——多個變量的關系對于多個分類變量,可以通過構造多維表的形式觀察它們的關系,對于多個數(shù)值變量,可以通過計算變量之間的相關系數(shù)來判斷它們之間相關程度的大小。二維表是把其中一個分類變量作為行,另一個分類變量作為列,行和列交叉所形成的單元格用兩類別出現(xiàn)的頻數(shù)或頻率填充而形成的交叉表格。通過二維表如何判斷兩個分類變量之間的關系,一種方法是通過觀察可視化的圖形,但是要展現(xiàn)整個表格的內容是有困難的,我們可以有重點的觀察。數(shù)據(jù)統(tǒng)計特征(3)——多個變量的關系相關系數(shù):另一個非常重要的統(tǒng)計概念,是考察一個數(shù)值變量的變化與另一個數(shù)值變量的變化關聯(lián)程度大小的度量。如用戶的話務量和ARPU就存在相關關系,一般話務量越高的用戶,ARPU也會越高。相關系數(shù)變化范圍在-1和1之間,相關系數(shù)為0表明兩個變量不相關;相關系數(shù)大于零表明兩個變量存在正向相關關系,且數(shù)值越大,相關性越強,為1意味著當一個變量變化時,另一個變量將完全按同方向變化;相關系數(shù)小于零表明兩個變量存在反向相關關系,且數(shù)值越大,相關性越強,為-1意味著當一個變量變化時,另一個變量將完全按反方向變化。數(shù)據(jù)轉換數(shù)據(jù)轉換是為了使數(shù)據(jù)符合模型算法的要求,并且為了顯著提高模型的效果和穩(wěn)定性,對數(shù)據(jù)做的一系列預處理工作。對單個數(shù)值型變量,常用的轉換方法有變量離散化、變量歸一化、變量標準化(Z-Score變換)和數(shù)學變換等。對單個分類型變量,常用的轉換方法有分類變量數(shù)值化和分類變量類別規(guī)整等。對多個數(shù)值型變量,介紹通過主成分分析或因子分析進行變量降維的轉換。數(shù)據(jù)轉換(1)——單個數(shù)值變量變量離散化(Binning)是指將連續(xù)的數(shù)值變量轉換為離散的區(qū)間或類別變量,也稱作分箱或分檔,常用的離散化方法還有等寬離散化、等頻離散化和有監(jiān)督的離散化(如決策樹根據(jù)信息增益對變量進行劃分)。變量歸一化(Normalization)指使轉換后的數(shù)值落在特定的區(qū)間內,比如說,通過減去最小值并且除以整個區(qū)間范圍。歸一化不影響數(shù)據(jù)的排列順序,但它消除了數(shù)據(jù)量綱的影響,使得具有不同量綱的數(shù)據(jù)具有可比性。數(shù)據(jù)標準化(Standardizing)指將數(shù)據(jù)減去平均值并且除以標準差,它可以衡量數(shù)據(jù)非正態(tài)分布的程度。數(shù)學變換:由于某些模型的使用條件對數(shù)據(jù)的分布有一定的要求,而實際的數(shù)據(jù)往往不能滿足這些要求,因此就需要對原始變量進行適當?shù)臄?shù)學變換以滿足模型的要求。常用的數(shù)學變換有對數(shù)變換、指數(shù)變換、倒數(shù)變換和Logit變換等。數(shù)據(jù)轉換(2)——單個分類變量分類變量數(shù)值化:生成指示變量是分類變量數(shù)值化最常用的方法,它對某些要求輸入變量必須是數(shù)值變量的模型(如Logistic回歸和神經(jīng)網(wǎng)絡)是一種有效的處理方法,它把變量的每個取值生成一個是否的指示變量。分類變量類別規(guī)整:對分類變量的類別重新梳理和調整,如類別合并和概念分層。類別合并是對類別數(shù)量較多的變量進行類別合并,行成具有少數(shù)幾個類別的變量,合并的原則包括使各類別用戶數(shù)大致相同(如將用戶數(shù)都較少的類別合并),或者各類別的目標變量差異較大(如將流失率都較高的類別合并)。概念分層指用較高層次的類別代替原有的類別,如用較高層次的產(chǎn)品分類代替較低層次的產(chǎn)品分類。類別合并可以避免模型的過度擬合,概念分層可以讓新生成的變量更有業(yè)務含義或對目標的影響更加顯著。數(shù)據(jù)轉換(3)——多變量降維
當數(shù)值變量很多并且存在較強相關性時,會對模型構建造成不利的影響,一種有效的處理方法就是變量降維。變量降維指在不損失變量大量信息的前提下,將眾多相關性較強的變量變成少數(shù)幾個不相關的因素。變量降維常用方法是主成分分析和因子分析,它們經(jīng)常作為聚類分析和多元回歸分析的中間過程,達到同時減少變量個數(shù)和消除變量相關性的目的。數(shù)據(jù)質量對企業(yè)而言,數(shù)據(jù)質量的重要性不言而喻。六步法是Informatica公司為幫助指導數(shù)據(jù)質量控制而設計的,從初始的數(shù)據(jù)探查到持續(xù)監(jiān)測以及持續(xù)進行的數(shù)據(jù)優(yōu)化。探查數(shù)據(jù)內容、結構和異常建立數(shù)據(jù)質量度量并明確目標設計和實施數(shù)據(jù)質量業(yè)務規(guī)則將數(shù)據(jù)質量規(guī)則構建到數(shù)據(jù)集成過程中檢查異常并完善規(guī)則對照目標,監(jiān)測數(shù)據(jù)質量主數(shù)據(jù)管理主數(shù)據(jù)管理(MasterDataManagement,MDM)是將主數(shù)據(jù)作為企業(yè)的記錄系統(tǒng)進行創(chuàng)建和維護的方式。實施MDM的目的在于確保主數(shù)據(jù)具有準確性、一致性和完整性,并且能夠在內部或外部業(yè)務流程、應用程序或用戶使用的環(huán)境中周而復始地流轉。主數(shù)據(jù)管理解決方案可能包括以下一些特性:在企業(yè)層面上整合了現(xiàn)有縱向結構中的客戶信息以及其它知識和深層次信息;共享所有系統(tǒng)中的數(shù)據(jù),使之成為一系列以客戶為中心的業(yè)務流程和服務;實現(xiàn)對于客戶、產(chǎn)品和供應商都通用的主數(shù)據(jù)形式,加速數(shù)據(jù)輸入、檢索和分析;支持數(shù)據(jù)的多用戶管理,包括限制某些用戶添加、更新或查看維護主數(shù)據(jù)的流程的能力;集成產(chǎn)品信息管理、客戶關系管理、客戶數(shù)據(jù)集成以及可對主數(shù)據(jù)進行分析的其它解決方案。主數(shù)據(jù)管理下面是評估MDM產(chǎn)品時需要的考慮的關鍵要求。第1項要求:在單一MDM系統(tǒng)內為多個業(yè)務數(shù)據(jù)實體提供支持第2項要求:確保以平臺方法實施MDM第3項要求:為復雜的關系和層級結構提供支持第4項要求:自動生成面向服務的體系架構(SOA)服務第5項要求:在MDM系統(tǒng)內集成數(shù)據(jù)質量第6項要求:混合搭配不同的MDM體系架構類型第7項要求:跟蹤數(shù)據(jù)歷史和沿襲情況,為滿足合規(guī)性要求提供支持第8項要求:實施可同時用于兩種操作模式的MDM:分析模式和運營模式第9項要求:使用多種部署模式:企業(yè)內部模式、云中模式及混合模式第10項要求:滿足項目或企業(yè)層數(shù)據(jù)治理要求謝謝各位的聆聽!
數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘常用算法數(shù)據(jù)挖掘常見類型兩類數(shù)據(jù)挖掘問題對應的數(shù)據(jù)挖掘算法業(yè)務問題對應的數(shù)據(jù)挖掘算法舉例決策樹回歸分析聚類分析關聯(lián)分析數(shù)據(jù)挖掘的常見類型對數(shù)據(jù)挖掘問題進行簡單的劃分,其主要有兩類問題:有目標變量的數(shù)據(jù)挖掘(有監(jiān)督的挖掘或預測問題)和無目標變量的數(shù)據(jù)挖掘(無監(jiān)督的挖掘)。
有目標變量的數(shù)據(jù)挖掘,使用目標變量,從數(shù)據(jù)中發(fā)現(xiàn)能解釋目標變量的模式,并且要求歷史數(shù)據(jù)中包含目標變量所有可能取值的樣本。流失預警是一個典型的有目標變量的數(shù)據(jù)挖掘問題,歷史數(shù)據(jù)中同時包含流失客戶和活躍客戶的信息,目標就是發(fā)現(xiàn)能解釋流失客戶與活躍客戶差異的原因。根據(jù)目標變量的不同類型,預測問題又分為分類預測和數(shù)值預測,如預測客戶是否流失屬于分類預測問題,預測收入屬于數(shù)值預測問題。無目標變量的數(shù)據(jù)挖掘,不使用目標變量(或者目標變量不清晰),以發(fā)現(xiàn)數(shù)據(jù)的潛在有用模式為目標,通過人工方式去理解發(fā)現(xiàn)的模式及其有用性。如從現(xiàn)有客戶中發(fā)現(xiàn)有意義的細分群體的聚類模型,發(fā)現(xiàn)哪些產(chǎn)品經(jīng)常被客戶一起購買的關聯(lián)規(guī)則模型。兩類數(shù)據(jù)挖掘問題對應的數(shù)據(jù)挖掘算法有目標變量無目標變量分類預測數(shù)值預測決策樹Logistic回歸模型神經(jīng)網(wǎng)絡判別分析遺傳算法最近鄰方法多元回歸模型回歸樹神經(jīng)網(wǎng)絡遺傳算法
聚類模型(細分模型)關聯(lián)規(guī)則序列模式時間序列其他描述性模型業(yè)務問題對應的數(shù)據(jù)挖掘算法舉例業(yè)務問題數(shù)據(jù)挖掘算法哪些客戶有購買新產(chǎn)品的傾向決策樹/邏輯回歸哪些客戶有終止服務使用的傾向決策樹/邏輯回歸收入未來的變化趨勢多元回歸模型/時間序列客戶未來服務使用量的變化趨勢多元回歸模型/回歸樹哪些客戶存在欺詐行為神經(jīng)網(wǎng)絡/聚類分析了解客戶存在哪些細分群體聚類分析給客戶推薦手機閱讀的哪類內容關聯(lián)規(guī)則/最近鄰方法客戶在購買該產(chǎn)品后接下來會購買什么序列模式了解哪些產(chǎn)品經(jīng)常被客戶一起購買關聯(lián)規(guī)則客戶的信用度如何描述性模型決策樹——基本概念決策樹(DecisionTree)是一種以實例為基礎的歸納學習算法,是一種從無次序、無規(guī)則的訓練樣本集中推理出決策樹表示形式的分類規(guī)則的方法,它提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。主要應用于分類預測。分類預測的結果有定性和定量兩種。在實際應用中,將定性的分類預測稱為分類,用來確定類別屬性;定量的分類預測成為預測,用來預測具體的數(shù)值。決策樹的結構和構造方法屬性選擇噪聲與剪枝子樹復制和碎片問題決策樹——常用算法決策樹的兩大核心問題:一是決策樹的生長,即一棵決策樹是如何長成的,在樣本數(shù)據(jù)中選擇哪一個屬性作為根節(jié)點,然后如何分支,如何選擇內部節(jié)點,直到生長出樹葉,即到達葉節(jié)點,這一系列過程可稱為決策樹的分枝準則,即具體算法;另一核心問題是決策樹的剪枝,則防止決策樹生長過于茂盛,無法適應實際應用的需要。常用的決策樹算法分為兩類:基于信息論的方法和最小GINI指標的方法。信息論的方法包括:ID系列算法和C4.5、C5.0,而最小GINI指標方法包括:CART、SLIQ和SPRINT算法。決策樹的剪枝方法有預修剪(Pre-Pruning)和后修剪(Post-Pruning)。決策樹——ID3算法ID3算法是以信息論為基礎,運用信息熵理論,采用自頂向下的貪心搜索算法。其核心思想是在決策樹中各級節(jié)點上選擇分裂屬性。用信息增益作為屬性選擇的標準,使每個非葉子節(jié)點測試時,能獲得關于被測試例子最大的類別信息。使用該屬性將訓練樣本集分成子集后,系統(tǒng)的信息熵值最小。
其生成步驟為:①選擇具有最大信息增益的屬性作為決策樹的當前決策節(jié)點,并將該屬性從候選屬性中刪除;②根據(jù)當前決策節(jié)點的不同取值將該樣本數(shù)據(jù)集劃分成若干個子集;③重復上面步驟①、②,當滿足以下條件之一時,決策樹停止生成新的分支:①給定節(jié)點的所有樣本屬于同一類。②沒有剩余屬性可以用來進一步劃分樣本。③分支沒有樣本。決策樹——ID3算法
決策樹——ID3算法
決策樹——C5.0算法
C4.5算法在ID3算法的基礎上進行了改進,增加了對連續(xù)屬性的離散型的處理。對于預測變量的缺值處理、剪枝技術、派生規(guī)則等方面作了較大改進,既適合于分類問題,又適合于回歸問題。而C5.0則是在C4.5的基礎上改進了執(zhí)行效率和內存使用,應用于大數(shù)據(jù)集的分類算法。它采用Boosting方式來提高模型準確率。決策樹是用樣本的屬性作為結點,用屬性的取值作為分枝的樹結構的。屬性的度量標準有很多,如:信息增益率、GINI指標、距離度量等。C5.0采用信息增益率作為屬性的度量標準。步驟如下:首先對所有樣本賦以一個抽樣權重(一般開始的時候權重都一樣即認為均勻分布),在此樣本上訓練一個分類器對樣本分類,這樣可以得到這個分類器的誤差率,我們根據(jù)它的誤差率賦以一個權重,大體是誤差越大權重就越小,針對這次分錯的樣本我們增大它的抽樣權重,這樣訓練的下一個分類器就會側重這些分錯的樣本,然后根據(jù)它的誤差率計算權重,就這樣依次迭代,最后我們得到的強分類器就是多個弱分類器的加權和。我們可以看出性能好的分類器權重大一些,這就體現(xiàn)了boosting的精髓。決策樹——CART算法CART算法是一種產(chǎn)生二叉決策樹分類模型的技術。它與ID系列算法和C4.5不同的是,它使用的屬性度量標準是Gini指標。Gini指標主要是度量數(shù)據(jù)劃分或訓練數(shù)據(jù)集D的不純度為主,系數(shù)值的屬性作為測試屬性,Gini值越小,表明樣本的“純凈度”越高。CART算法在滿足下列條件之一,即視為葉節(jié)點不再進行分支操作。①所有葉節(jié)點的樣本數(shù)為1;樣本數(shù)小于某個給定的最小值或者樣本都屬于同一類的時候;②決策樹的高度達到用戶設置的閾值,或者分支后的葉節(jié)點中的樣本屬性都屬于同一個類的時候;③當訓練數(shù)據(jù)集中不再有屬性向量作為分支選擇的時候。決策樹——CART算法
決策樹——剪枝技術前剪枝(Forward-Pruning)是提前停止樹的構造而對樹進行剪枝。如果一個結點對樣本的劃分將導致低于預定義閥值的分裂,則給定子集的進一步劃分將停止。選取一個適當?shù)拈y值是很困難的,較高的閥值可能導致過分簡化的樹,較低的閥值可能使得樹的簡化太少。由于前剪枝不必生成整棵決策樹,且算法相對簡單,效率很高,適合解決大規(guī)模問題,所以這種方法得到了廣泛的應用。后剪枝(Post-Pruning)首先構造完整的決策樹,允許決策樹過度擬合訓練數(shù)據(jù),然后對那些置信度不夠的結點的子樹用葉子結點來替代,這個葉子結點所應標記的類別為子樹中大多數(shù)實例所屬的類別。ID3算法、C5.0算法和CART算法都是先建樹再剪枝,屬于后剪枝。后剪枝方法現(xiàn)在得到比較廣泛地使用。常用的后剪枝算法有:CCP(CostComplexityPruning)、REP(ReducedErrorPruning)、PEP(PessimisticErrorPruning)、MEP(MinimumErrorPruning)。決策樹——剪枝技術(1)CCP剪枝法。CCP剪枝法是一種基于訓練集的自下而上的剪枝法,也叫做CART剪枝法。剪枝過程包括兩步:①從原始決策樹開始生成一個子樹序列;②從第1步產(chǎn)生的子樹序列中,根據(jù)樹的真實誤差估計選擇最佳決策樹。(2)REP剪枝法。REP剪枝法由Quinlan提出,是一種自下而上的簡單實用的剪枝方法。該方法的基本思路是,從訓練集中提取一部分數(shù)據(jù)作為剪枝集,這部分數(shù)據(jù)不用來構建決策樹,因此評估錯誤率時有較小的偏置。比較樹Tmax的子樹對剪枝集的分類錯誤率,及將該子樹變?yōu)槿~子節(jié)點后的分類錯誤率。若前者大于后者,則將該子樹剪枝為葉子結點,并以到該結點的多數(shù)實例所代表的類來標識。重復以上過程,直到繼續(xù)剪枝會增加錯誤率為止。(3)PEP剪枝法。PEP剪枝法由Quinlan提出,是一種自上而下的剪枝法,剪枝基于自由訓練集得到的錯誤估計,因此不需要單獨的剪枝數(shù)據(jù)。很明顯,訓練集上的錯誤率被樂觀偏置,不能用來生成最優(yōu)剪枝樹。因此,Quinlan引入了統(tǒng)計學上連續(xù)修正的概念來彌補這一缺陷,在子樹的訓練錯誤中添加一個常數(shù),假定每個葉結點都自動對實例的某部分進行錯誤分類,這一部分一般取葉結點所覆蓋的實例總數(shù)的1/2。計算標準錯誤率時,連續(xù)修正遵循二項式分布。(4)MEP剪枝法。MEP剪枝法也是以一種自下而上的剪枝法,目的是在未知的數(shù)據(jù)集上產(chǎn)生最小預測分類錯誤率。回歸分析——基本概念
回歸分析——線性回歸模型
回歸分析——Logistic回歸模型
回歸分析——線性回歸模型(3)模型檢驗在一次抽樣中,未知參數(shù)的估計值與真實值的差異有多大?是否顯著?需要進行統(tǒng)計檢驗,統(tǒng)計檢驗包括三種:擬合優(yōu)度檢驗:檢驗樣本的數(shù)據(jù)點聚集在回歸線周圍的密集程度方程顯著性檢驗:檢驗自變量與因變量的線性關系總體上是否顯著變量顯著性檢驗:檢驗每個自變量與因變量之間的線性關系是否顯著回歸分析——線性回歸模型(4)逐步回歸當輸入變量之間存在較強相關性時,線性回歸模型的參數(shù)估計會失真,需要對變量進行篩選,常用的方法是逐步回歸法(Stepwise)。逐步回歸法(Stepwise)的基本思想是將變量逐個引入模型,每引入一個解釋變量后都要進行F檢驗,并對已經(jīng)選入的解釋變量逐個進行t檢驗,當原來引入的解釋變量由于后面解釋變量的引入變得不再顯著時,則將其刪除。以確保每次引入新的變量之前回歸方程中只包含先主動變量。這是一個反復的過程,直到既沒有顯著的解釋變量選入回歸方程,也沒用不顯著的解釋變量從回歸方程中剔除為止。以保證最后所得到的解釋變量集是最優(yōu)的?;貧w分析——Logistic回歸模型
回歸分析——Logistic回歸模型
回歸分析——Logistic回歸模型
聚類分析——基本概念概括性的定義聚類是將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程,聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。進一步的分析聚類和分類的區(qū)別,在分類問題中,訓練樣本的分類屬性的值是已知的,而在聚類問題中,需要根據(jù)訓練樣本的值來確定分類屬性值。采用聚類分析技術,可以把無標識的數(shù)據(jù)樣本自動劃分為不同的類,并且可以不受人的先驗知識的約束和干擾,從而獲取數(shù)據(jù)集中原本存在的信息。所以說,聚類是一種無指導學習(無監(jiān)督學習),即從樣本的特征向量出發(fā)研究通過某種算法將特征相似的樣本聚集在一起,從而達到區(qū)分具有不同特征樣本的目的。分類則是一種有指導學習(有監(jiān)督學習),它具有先驗知識(分類號),而無監(jiān)督聚類學習并不具有這種先驗知識。聚類分析——算法分類基于距離的相似度計算:歐幾里德距離(歐氏距離)、曼哈頓距離主要的聚類算法可以劃分為如下幾類:劃分方法(PartitioningMethods)層次的方法(HierarchicalMethods)基于密度的方法(Density-basedMethods)基于網(wǎng)絡的方法(Grid-basedMethods)基于模型的方法(Model-basedMethods)聚類分析——K-Means算法K-means算法的具體流程如下:①從數(shù)據(jù)集中選擇聚類的K個質心,作為初始的簇中心;②計算每個對象到各質心的距離,把樣本指派給距離最小的簇;③根據(jù)每個簇當前所擁有的所有對象更新質心;④根據(jù)每個對象與各個簇中心的距離,分配給最近的簇;⑤然后轉③,重新計算每個簇的平均值。這個過程不斷重復直到滿足某個準則函數(shù)才停止。注意:利用每個簇的平均值代表新的簇的質心。聚類分析——K-Means算法
聚類分析——兩步聚類算法兩步聚類是一種探索性的聚類方法,是隨著人工智能的發(fā)展而發(fā)展起來的智能聚類方法中的一種。它最顯著的特點就是它分兩步進行聚類,主要用于處理非常大的數(shù)據(jù)集,可以處理連續(xù)屬性和離散屬性。它只需遍歷數(shù)據(jù)集一次。兩步聚類的特點包括:同時處理離散變量和連續(xù)變量的能力;自動選擇聚類數(shù);通過預先選取樣本中的部分數(shù)據(jù)構建聚類模型;可以處理超大樣本量的數(shù)據(jù)。兩步算法的基本原理分為以下兩個步驟:第一步:預聚類。遍歷一次的數(shù)據(jù),對記錄進行初始的歸類,用戶自定義最大類別數(shù)。通過構建和修改特征樹(CFTREE)來完成;第二步:聚類。對第一步完成的初步聚類進行再聚類并確定最終的聚類方案,使用層次聚類的方法將小的聚類逐漸合并成越來越大的聚類,這一過程不需要再次遍歷數(shù)據(jù)。層次聚類的好處是不要求提前選擇聚類數(shù)。許多層次聚類從單個記錄開始聚類,逐步合并成更大的類群。聚類分析——兩步聚類算法聚類特征(ClusteringFeature,CF)是BIRCH增量聚類算法的核心,CF樹中的節(jié)點都是由CF組成,CF是一個三元組,這個三元組就代表了簇的所有信息。給定N個d維的數(shù)據(jù)點{x1,x2,....,xn},CF定義如下:CF=(N,LS,SS)。其中,N是子類中節(jié)點的數(shù)目,LS是N個節(jié)點的線性和,SS是N個節(jié)點的平方和。CF有個特性,即可以求和,具體說明如下:CF1=(n1,LS1,SS1),CF2=(n2,LS2,SS2),則CF1+CF2=(n1+n2,LS1+LS2,SS1+SS2)。CF樹是在遍歷數(shù)據(jù)集的過程中不斷添加、更新條目及分裂節(jié)點來形成的。根據(jù)第一個樣本即可建立根節(jié)點以及相應的條目,之后逐個地將后續(xù)的樣本根據(jù)距離最小的原則指派到CF樹中。一個CF樹有三個參數(shù):B=分支系數(shù),中間節(jié)點的最大子節(jié)點數(shù)量;T=葉節(jié)點中的類的半徑或直徑的閾值;L=葉節(jié)點的最大CF簇數(shù)量。聚類分析——異常檢測基于聚類的異常檢測至少有兩種方法:一種是異常檢測模型利用未標記的數(shù)據(jù)進行訓練,這些數(shù)據(jù)包含了正常數(shù)據(jù)和攻擊數(shù)據(jù);另一種是模型僅利用正常數(shù)據(jù)進行訓練,從而建立正常行為輪廓。模型特征Portnoy等人模型采用數(shù)理統(tǒng)計的思想對原始數(shù)據(jù)包進行標準化,對標準化后的數(shù)據(jù)采用單鏈接法進行聚類,從而識別攻擊簇Y-means改進經(jīng)典K-means算法,不依賴k的值,動態(tài)地對數(shù)據(jù)進行聚類MINDS對數(shù)據(jù)進行聚類,利用基于密度的局部孤立點來檢測入侵三種異常檢測模型的特征表聚類分析——異常檢測現(xiàn)在比較成熟的異常點檢測方法主要有以下幾類:(1)基于統(tǒng)計的方法(2)基于距離的方法(3)基于偏差的方法(4)基于密度的方法(5)高維數(shù)據(jù)的異常檢測關聯(lián)規(guī)則——基本概念
關聯(lián)規(guī)則——基本概念關聯(lián)規(guī)則依據(jù)不同的分類標準,可以有以下的分類:(1)基于規(guī)則中處理變量的類型,關聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型考慮的是項集的存在與否,而數(shù)值型則是量化的關聯(lián)。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。(3)基于規(guī)則中涉及到的數(shù)據(jù)維數(shù),可以分為單維關聯(lián)規(guī)則和多維關聯(lián)規(guī)則。關聯(lián)規(guī)則——算法原理關聯(lián)規(guī)則的挖掘就是在事務數(shù)據(jù)庫D中找出具有用戶給定的最小支持度(MinimumSupport,minsup)和最小置信度(MinimumConfidence,minconf)的關聯(lián)規(guī)則。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集或大項集。具體步驟是:Step1根據(jù)最小支持度閾值找出數(shù)據(jù)集D中所有頻繁項目集;Step2根據(jù)頻繁項目集和最小置信度閾值產(chǎn)生所有關聯(lián)規(guī)則?;舅惴ㄋ枷氚ǎ海?)搜索算法。(2)分層算法(寬度優(yōu)先算法)。(3)深度優(yōu)先算法。(4)劃分算法。(5)抽樣算法。關聯(lián)規(guī)則——Apriori算法Apriori算法的基本思路:Apriori算法使用頻繁項集的先驗知識(稱為逐層搜索的迭代方法),k項集用于探索(k+1)項集。首先,通過掃描事務(交易)記錄,找出所有的頻繁1項集,該集合記做L1,然后利用L1找頻繁2項集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項集。最后再在所有的頻繁集中找出強規(guī)則,即產(chǎn)生用戶感興趣的關聯(lián)規(guī)則。Apriori算法的兩大缺點:一是可能產(chǎn)生大量的候選集,二為可能需要重復掃描數(shù)據(jù)庫。Apriori算法采用連接和剪枝兩種方式來找出所有的頻繁項集。關聯(lián)規(guī)則——Apriori算法(1)連接步
為找出Lk(所有的頻繁k項集的集合),通過將Lk-1(所有的頻繁k-1項集的集合)與自身連接產(chǎn)生候選k項集的集合。候選集合記作Ck。設l1和l2是Lk-1中的成員。記li[j]表示li中的第j項。假設Apriori算法對事務或項集中的項按字典次序排序,即對于(k-1)項集li,li[1]<li[2]<…<li[k-1]。將Lk-1與自身連接,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&…&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1]),那認為l1和l2是可連接。連接l1和l2產(chǎn)生的結果是{l1[1],l1[2],…,l1[k-1],l2[k-1]}。(2)剪枝步Ck是Lk的超集,也就是說,Ck的成員可能是也可能不是頻繁的。通過掃描所有的事務(交易),確定CK中每個候選的計數(shù),判斷是否小于最小支持度計數(shù),如果不是,則認為該候選是頻繁的。為了壓縮Ck,可以利用Apriori性質:任一頻繁項集的所有非空子集也必須是頻繁的;反之,如果某個候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的,從而可以將其從CK中刪除。關聯(lián)規(guī)則——FP-Tree算法FP-Growth算法采取如下分治策略:將提供頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FrequentPattern-growth,FP-Tree),但仍保留項集關聯(lián)信息。該算法和Apriori算法最大的不同有兩點:第一,不產(chǎn)生候選集;第二,只需要兩次遍歷數(shù)據(jù)庫,大大提高了效率。其基本思路是不斷地迭代FP-tree的構造和投影過程。具體算法描述如下:①對于每個頻繁項,構造它的條件投影數(shù)據(jù)庫和投影FP-tree;②對每個新構建的FP-tree重復這個過程,直到構造的新FP-tree為空,或者只包含一條路徑;③當構造的FP-tree為空時,其前綴即為頻繁模式;當只包含一條路徑時,通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁模式。關聯(lián)規(guī)則——FP-Tree算法編號項目集1f,a,c,d,g,i,m,p2a,b,c,f,l,o3b,f,h,j,m,p4b,c,k,m,o,s5a,f,c,e,l,n,o,p實例項目集FP-Tree算法示意圖謝謝各位的聆聽!
數(shù)據(jù)挖掘準備數(shù)據(jù)挖掘的準備數(shù)據(jù)挖掘過程商業(yè)理解數(shù)據(jù)準備數(shù)據(jù)理解數(shù)據(jù)挖掘過程——Fayyad過程模型Fayyad過程模型是一個高級處理過程,它從數(shù)據(jù)集中識別出以模式來表示的知識,其包含多個處理步驟,各個步驟之間相互影響、反復調整,形成一種螺旋式的上升過程。(1)確定挖掘目標(2)建立目標數(shù)據(jù)集(3)數(shù)據(jù)清洗和預處理(4)數(shù)據(jù)降維和投影(5)選擇挖掘算法(6)模式評價和解釋數(shù)據(jù)挖掘過程——Fayyad過程模型Fayyad過程模型數(shù)據(jù)挖掘過程——CRISP-DM過程模型各種數(shù)據(jù)挖掘過程模型各有特色,很多都是與自己的產(chǎn)品相關聯(lián)的,并不能完全通用。因此,一些軟件供應商和用戶組織(包括NCR,Daimler-Benz,SPSS等)成立了跨行業(yè)數(shù)據(jù)挖掘過程標準(CRISP-DM,CrossIndustryProcessStandardforDataMining)協(xié)會,開發(fā)了一個與行業(yè)無關、與工具無關的數(shù)據(jù)挖掘過程模型。這個模型主要面向數(shù)據(jù)挖掘的商務應用,可以在數(shù)據(jù)挖掘項目的整個生命周期中為用戶提供指導??缧袠I(yè)數(shù)據(jù)挖掘過程標準是一個分層次的過程模型。最上層稱為階段層(Phaselevel),它包含從商務理解到結果實施的六個一般性階段;第二層稱為一般任務層(Generictasklevel),它詳細描述了每一個階段所包含的任務。這些描述是一般性的,但可以概括所有的數(shù)據(jù)挖掘情況;第三層是專門任務層(Specializedtasklevel),該層將描述上一層中的一般性任務在具體的特定環(huán)境下的執(zhí)行情況。;第四層是過程實例層(Processinstancelevel),它是一個數(shù)據(jù)挖掘項目的實際執(zhí)行過程的行動、決策和結果的記錄。數(shù)據(jù)挖掘過程——CRISP-DM過程模型CRISP-DM參考模型數(shù)據(jù)挖掘過程——Teradata數(shù)據(jù)挖掘流程經(jīng)過最近幾年數(shù)據(jù)挖掘項目的實踐,Teradata在原有主流數(shù)據(jù)挖掘方法論CRISP-DM的基礎上,形成了自己的理解,并把挖掘實踐流程具體化CRISP-DM各階段工作重點數(shù)據(jù)挖掘過程——Teradata數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘的一般任務商業(yè)理解——商業(yè)理解任務商業(yè)理解這一階段所包含的一般性任務如下:確定業(yè)務目標。這一步產(chǎn)生的輸出:背景、業(yè)務目標、業(yè)務成功標準。評估環(huán)境。這一步將產(chǎn)生的輸出:資源清單、需求,假設和約束、風險和所有費用、術語表、成本和收益。確定數(shù)據(jù)挖掘目標。這一步產(chǎn)生的輸出:數(shù)據(jù)挖掘目標、數(shù)據(jù)挖掘成功標準。產(chǎn)生項目計劃。這一步產(chǎn)生的輸出:項目計劃、工具和技術的初步評價。商業(yè)理解——如何定義業(yè)務需求定義業(yè)務需求是通過與提出需求的業(yè)務部門進行溝通,就挖掘背景、目標、當前狀況和期望進行深入的溝通,確定挖掘項目需要解決的業(yè)務問題及應用場景,確保業(yè)務問題可以轉化為數(shù)據(jù)挖掘問題。定義業(yè)務需求是成功數(shù)據(jù)挖掘過程中最有技巧的一個階段,因為它需要不斷對問題進行交流,以得到對問題的正確理解??梢詮娜齻€方面實現(xiàn):確定業(yè)務主題數(shù)據(jù)可行性模型如何應用商業(yè)理解——如何設計模型思路設計模型思路是在明確業(yè)務問題的基礎上,將業(yè)務問題轉化為一個數(shù)據(jù)挖掘問題,并明確挖掘的基本思路。主要任務包括以下幾方面:確定業(yè)務問題對應的挖掘問題類型確定業(yè)務目標的數(shù)據(jù)定義確定模型的時間窗口確定數(shù)據(jù)需求商業(yè)理解——如何設計模型思路(1)確定業(yè)務問題對應的挖掘問題類型可以從業(yè)務差異和數(shù)據(jù)差異兩個方面考慮。1)業(yè)務差異一個業(yè)務問題分解為多個不同的數(shù)據(jù)挖掘模型。例如有一個業(yè)務問題要確定哪些客戶是某產(chǎn)品的潛在高價值客戶,這里的業(yè)務目標可以進一步分解成兩個目標,一是哪些客戶愿意對該產(chǎn)品做出響應,另一個是對該產(chǎn)品做出響應的客戶中哪些會成為未來消費較高的客戶。此時我們可以轉化為兩個數(shù)據(jù)挖掘問題,一個是客戶是否對產(chǎn)品做出響應的分類預測模型,一個是客戶對產(chǎn)品未來的消費價值的數(shù)值預測模型。2)數(shù)據(jù)差異并非所有的問題都可以獲得相應的數(shù)據(jù)支持。例如一人多卡識別模型中,網(wǎng)內一人多卡的數(shù)據(jù)基礎遠遠好于跨網(wǎng)一人多卡,所以可以考慮分解成數(shù)個子問題以應對不同的數(shù)據(jù)基礎。有些子問題比較簡單,用業(yè)務規(guī)則就可以解決,如網(wǎng)內一人多卡,可以通過同一身份證辦理多個號碼或一個IMEI對應多個號碼的業(yè)務規(guī)則解決。對于較復雜的跨網(wǎng)一人多卡問題,可以通過交往圈識別模型解決。商業(yè)理解——如何設計模型思路(2)確定業(yè)務目標的數(shù)據(jù)定義對于有目標變量的數(shù)據(jù)挖掘問題,首先需要確定目標變量的數(shù)據(jù)定義。最常見的情況是二分類預測問題,如流失預警模型中目標變量為客戶是否流失,營銷活動響應度模型中目標變量為客戶是否會對營銷活動做出響應,它們的數(shù)據(jù)目標比較容易確定。有些挖掘問題的數(shù)據(jù)目標較難確定,需要通過一定的分析來確定。在數(shù)據(jù)定義確定以后,分析用戶群的范圍也基本確定。商業(yè)理解——如何設計模型思路(3)確定模型的時間窗口對有目標變量的挖掘模型,確定模型的時間窗口非常重要,模型的時間窗口可以分為模型構建時間窗口和模型應用時間窗口。任意時間可以分為三個階段:過去、當前和將來,建立模型的目的就是用過去的數(shù)據(jù)來預測將來的結果,這是模型應用的階段。在模型構建階段,過去、當前和將來就是較遠的過去、不遠的過去和最近的過去。預測模型通過發(fā)現(xiàn)“較遠的過去”事情發(fā)生的規(guī)律來解釋“最近的過去”發(fā)生的結果,當模型構建完成后,就可以用“最近的過去”發(fā)生的事情來預測將來要發(fā)生的事情。數(shù)據(jù)挖掘對時間的劃分商業(yè)理解——如何設計模型思路(4)確定數(shù)據(jù)需求確定數(shù)據(jù)需求主要是確定模型分析用戶群及數(shù)據(jù)需求的時間跨度。當業(yè)務目標的數(shù)據(jù)定義確定以后,分析用戶群的范圍就確定了,例如流失預警模型中那些當前狀態(tài)不正常的用戶需要剔除。當模型的時間窗口確定以后,數(shù)據(jù)需求的時間范圍就確定了,例如流失預警模型的分析窗口如果取三個月的話,那些最近三個月入網(wǎng)的用戶因為沒有足夠的行為信息,需要進行剔除。數(shù)據(jù)準備——數(shù)據(jù)準備任務數(shù)據(jù)準備過程中包含了大量的各種任務,收集、描述和探測數(shù)據(jù)算一類,選擇、清洗、構建、集成和格式化算另外一類,檢驗數(shù)據(jù)質量是最后一類:收集原始數(shù)據(jù)描述數(shù)據(jù)探測數(shù)據(jù)數(shù)據(jù)選擇數(shù)據(jù)清洗數(shù)據(jù)構建數(shù)據(jù)集成數(shù)據(jù)格式化檢驗數(shù)據(jù)質量數(shù)據(jù)準備——數(shù)據(jù)準備任務(1)收集原始數(shù)據(jù)獲取項目資源需求中所列出的數(shù)據(jù)。如果需要,這一步驟也包括數(shù)據(jù)裝入。例如,如果你使用了某種數(shù)據(jù)理解工具,那么把數(shù)據(jù)裝入這個工具就是必須的。這個工作往往會導致初步的數(shù)據(jù)準備工作。注意:如果你從多個數(shù)據(jù)源獲取數(shù)據(jù),那么還需要考慮數(shù)據(jù)集成工作。這一步產(chǎn)生的輸出:原始數(shù)據(jù)收集報告。數(shù)據(jù)收集報告中應包括以下內容:數(shù)據(jù)源(內部數(shù)據(jù)庫或外部提供者)擁有者負責維護此數(shù)據(jù)的人/組織DBA費用(如果需要購買)存儲方式(如:Oracle數(shù)據(jù)庫、MSAM文件等)表、字段、記錄的數(shù)目字節(jié)數(shù)物理存儲方式(CD-ROM、磁帶、服務器等)安全需求使用限制隱私需求數(shù)據(jù)準備——數(shù)據(jù)準備任務(2)描述數(shù)據(jù)從總體和表面上描述所獲得數(shù)據(jù)的屬性并給出報告,包括:數(shù)據(jù)格式、數(shù)據(jù)量、一致性等,并檢查是否能夠滿足相關要求。這一步產(chǎn)生的輸出:數(shù)據(jù)描述報告。數(shù)據(jù)描述報告應包括以下內容:字段/列的數(shù)目;字段是空(缺)值的數(shù)目/百分比;字段的名字。對每個字段還包括:數(shù)據(jù)類型定義描述源計量單位所有不同值的個數(shù)值的列表值的范圍空值的百分比收集信息(收集方式,收集地點,收集條件等)時間頻度(每天、每周或每月)特別時間數(shù)據(jù)(如:每個周一或每個周三)主鍵/外鍵關系數(shù)據(jù)準備——數(shù)據(jù)準備任務(3)探測數(shù)據(jù)
數(shù)據(jù)探測任務是處理那些使用查詢、可視化和報表技術就可以完成的數(shù)據(jù)挖掘問題。這些問題包括:關鍵屬性的分布(如一個預測任務的目標屬性)、屬性對或少量屬性之間的關系、簡單的總計結果、重要子集的屬性和簡單的統(tǒng)計分析。這些分析可能直接達到了某個數(shù)據(jù)挖掘目標,也可能豐富或細化了數(shù)據(jù)描述和質量報告,或者作為將來的數(shù)據(jù)轉換和其他數(shù)據(jù)準備工作的輸入。這一步將產(chǎn)生的輸出:數(shù)據(jù)探測報告。數(shù)據(jù)準備——數(shù)據(jù)準備任務(4)數(shù)據(jù)選擇數(shù)據(jù)選擇主要用于分析所收集到的數(shù)據(jù),并決定選擇數(shù)據(jù)和排除數(shù)據(jù)的原則和標準。數(shù)據(jù)選擇標準包括:與數(shù)據(jù)挖掘目標的相關程度、質量和技術約束(例如,所能處理的數(shù)據(jù)量或數(shù)據(jù)類型)。選擇的范圍既包括數(shù)據(jù)表中的屬性列也包括記錄行。這與對數(shù)據(jù)進行采樣和選擇預測變量不同,這里只是粗略的把一些冗余或無關的數(shù)據(jù)去除,或者是由于資源、費用和數(shù)據(jù)使用的限制以及質量問題而必須做出的選擇。這一步產(chǎn)生的輸出:選擇與排除數(shù)據(jù)的基本原則。數(shù)據(jù)準備——數(shù)據(jù)準備任務(5)數(shù)據(jù)清洗將數(shù)據(jù)質量提升到符合所選擇的分析技術的需求。這可能涉及到選擇數(shù)據(jù)中干凈的子集、插入合適的缺省值或者某些更加深入的技術,如通過建模來估計缺失的數(shù)據(jù)。數(shù)據(jù)清洗要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件事情。存在各種各樣的數(shù)據(jù)質量問題。數(shù)據(jù)字段中可能包含了不正確的值。比如,身份證號碼字段被錄入了年齡數(shù)據(jù)、男性懷孕、不合理的空值等等。對缺值的處理有著幾種不同的策略:一種是把存在缺值的記錄刪除,這種方法可能會丟失大量的信息;另一種是為缺失的值計算一個替代值。比如,使用缺值所在字段的中間值、平均值和形式值等來替換;還有一種方法就是為這個缺值的字段用數(shù)據(jù)挖掘技術建立一個預測模型,然后按照這個模型的預測結果替換缺值。這一步產(chǎn)生的輸出:數(shù)據(jù)清洗報告。數(shù)據(jù)準備——數(shù)據(jù)準備任務(6)數(shù)據(jù)構建這個任務包括建設性的數(shù)據(jù)準備工作,例如:導出屬性的產(chǎn)生、已有屬性的全新記錄或變換了的值。導出屬性是指那些從同一條記錄的一個或幾個已有屬性構建得來的新屬性。例如:面積=長度×寬度。生成記錄指的是新記錄的創(chuàng)造。例如:為那些過去從沒有購買記錄的客戶生成記錄,這是因為,雖然原始數(shù)據(jù)中不可能有這些記錄,但是為了建模的需要,必須明確的表示特定顧客沒有購買這一事實。這一步產(chǎn)生的輸出:導出屬性、生成記錄。數(shù)據(jù)準備——數(shù)據(jù)準備任務(7)數(shù)據(jù)集成數(shù)據(jù)集成是指將來自不同表或記錄
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024山場土地合同范本
- 2024超市股份合同范本
- 2024東莞市簡易廠房租賃合同范本
- 2024廣播系統(tǒng)維修合同
- 2024股東股權轉讓合同范本
- 《詳細逆變電路》課件
- 深圳大學《自然辯證法概論》2023-2024學年第一學期期末試卷
- 餐飲的勞務合同(2篇)
- 魚塘共同經(jīng)營管理協(xié)議書(2篇)
- 裝修合同范本(2篇)
- GB/T 17892-2024優(yōu)質小麥
- 調酒初級基礎理論知識單選題100道及答案解析
- 第5課用發(fā)展的觀點看問題2023-2024學年中職高教版2023哲學與人生
- 危廢治理項目經(jīng)驗-危廢治理案例分析
- 南京市2024-2025學年六年級上學期11月期中調研數(shù)學試卷二(有答案)
- 汽車防凍液中毒
- 粉條產(chǎn)品購銷合同模板
- 2024至2030年中國自動車配件行業(yè)投資前景及策略咨詢研究報告
- 2024-2030年中國蔗糖行業(yè)市場深度調研及發(fā)展趨勢與投資前景研究報告
- 北師版 七上 數(shù)學 第四章 基本平面圖形《角-第2課時 角的大小比較》課件
- 外研版小學英語(三起點)六年級上冊期末測試題及答案(共3套)
評論
0/150
提交評論