




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘基礎(chǔ)1數(shù)據(jù)挖掘基礎(chǔ).pptx2數(shù)據(jù)管理.pptx3數(shù)據(jù)挖掘算法.pptx4-7數(shù)據(jù)挖掘準(zhǔn)備.pptx8-10構(gòu)建數(shù)據(jù)挖掘模型.pptx11數(shù)據(jù)挖掘的商業(yè)應(yīng)用.pptx12如何做專題分析.pptx全套可編輯PPT課件數(shù)據(jù)挖掘基礎(chǔ)數(shù)據(jù)挖掘產(chǎn)生的背景數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘任務(wù)概率論與數(shù)理統(tǒng)計(jì)數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘產(chǎn)品實(shí)例數(shù)據(jù)挖掘環(huán)境搭建數(shù)據(jù)挖掘產(chǎn)生的背景“信息爆炸”引發(fā)對(duì)數(shù)據(jù)挖掘的需求解決數(shù)據(jù)爆炸和知識(shí)貧乏這對(duì)矛盾的需要企業(yè)競(jìng)爭(zhēng)中挖掘有用數(shù)據(jù)商業(yè)運(yùn)作的數(shù)據(jù)挖掘需求什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(DataMining)是指從大量的數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化)中提取有用的信息和知識(shí)的過程。在這個(gè)定義中,數(shù)據(jù)是大量的、真實(shí)的、不完全的、有噪音的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù);所發(fā)現(xiàn)的信息和知識(shí)是潛在的并隱藏在大量數(shù)據(jù)背后的,是用戶感興趣的、可理解、可運(yùn)用的知識(shí)。所以,數(shù)據(jù)挖掘有時(shí)也被人們稱為知識(shí)挖掘、知識(shí)提取、知識(shí)發(fā)現(xiàn)等,可以說數(shù)據(jù)挖掘的本質(zhì)就是知識(shí)發(fā)現(xiàn),它所有發(fā)現(xiàn)的知識(shí)都是隱藏在大量數(shù)據(jù)之中的關(guān)聯(lián)信息,所有的知識(shí)都是有特定前提和約束條件的,是面向特定領(lǐng)域的,而且,這些知識(shí)還要能夠易于被用戶理解,能用自然語言表達(dá)所發(fā)現(xiàn)的結(jié)果。數(shù)據(jù)挖掘、信息、知識(shí)的轉(zhuǎn)化關(guān)系數(shù)據(jù)信息知識(shí)環(huán)境或?qū)ο笾橇εc關(guān)聯(lián)什么是數(shù)據(jù)挖掘?數(shù)據(jù)、信息、知識(shí)的轉(zhuǎn)化從商業(yè)角度出發(fā),數(shù)據(jù)挖掘可理解為一種商業(yè)信息處理技術(shù),其主要目的是對(duì)大量的商業(yè)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識(shí)。由于在商業(yè)運(yùn)作過程中,無時(shí)不在產(chǎn)生數(shù)據(jù),對(duì)企業(yè)來說,這種數(shù)據(jù)是大量的,收集這些數(shù)據(jù)不再是單純的以分析研究為目的,更主要的是通過對(duì)這些數(shù)據(jù)進(jìn)行深入挖掘,提供真正有價(jià)值的商業(yè)決策信息,從而獲得更多利潤。什么是數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?從商業(yè)應(yīng)用角度看數(shù)據(jù)挖掘數(shù)據(jù)挖掘任務(wù)
數(shù)據(jù)挖掘任務(wù)有很多種,也有很多不同的表述,它們彼此之間也多有交叉,常見的有如下幾種:(1)分類學(xué)習(xí):分類就是找出一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類可以利用訓(xùn)練數(shù)據(jù)集,進(jìn)而通過一定的算法模型求得分類規(guī)則,也可被用于規(guī)則描述和預(yù)測(cè)。目前比較常見的分類算法有K最近鄰居算法(KNearestNeighborAlgorithm)、決策樹算法、貝葉斯分類和支持向量機(jī)算法(SupportVectorMachine)等。(2)聚類分析:聚類就是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。目前常見的聚類算法有基于劃分的算法、基于層次的算法、基于密度的算法和基于網(wǎng)格的算法等。數(shù)據(jù)挖掘任務(wù)(3)關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則挖掘是描述兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性,數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)等,關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。(4)時(shí)序模式:時(shí)序模式是指通過時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。其與回歸一樣,是用已知的數(shù)據(jù)預(yù)測(cè)未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。(5)偏差分析:在偏差中包括很多有用的知識(shí),數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的,偏差檢驗(yàn)的基本方法就是尋找觀察結(jié)果與參照之間的差別。(6)預(yù)測(cè):預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測(cè)。預(yù)測(cè)關(guān)心的是精度和不確定性,通常采用預(yù)測(cè)方差來度量。預(yù)測(cè)的主要方法有統(tǒng)計(jì)學(xué)中的回歸分析等等。概率論與數(shù)理統(tǒng)計(jì)概率論和數(shù)理統(tǒng)計(jì)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一,它在計(jì)算機(jī)發(fā)明之前廣泛應(yīng)用于各行各業(yè),迄今已有數(shù)百年的發(fā)展歷史。如今,強(qiáng)大有效的數(shù)理統(tǒng)計(jì)方法和工具,如SAS、SPSS等,已成為信息咨詢業(yè)的基礎(chǔ)。統(tǒng)計(jì)學(xué)是關(guān)于數(shù)據(jù)資料的收集、整理、分析和推理的科學(xué),側(cè)重于應(yīng)用研究隨機(jī)現(xiàn)象的本身的規(guī)律性來考慮資料的收集、整理、分析,從而找出相應(yīng)隨機(jī)變量的分布律或它的數(shù)字特征,盡可能作出較合理精確的推斷。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著一個(gè)類似的目標(biāo),即發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實(shí)上,由于它們的目標(biāo)相似,一些人(尤其是統(tǒng)計(jì)學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支。這是一個(gè)不切合實(shí)際的看法。因?yàn)閿?shù)據(jù)挖掘還應(yīng)用了其他領(lǐng)域的思想、工具和方法,尤其是計(jì)算機(jī)學(xué)科。目前采用的許多數(shù)據(jù)挖掘方法和思想是和統(tǒng)計(jì)學(xué)緊密相連的。在當(dāng)前的數(shù)據(jù)挖掘軟件包中被用到的統(tǒng)計(jì)分析過程,包括決策樹推斷(C4.5、CART等)、規(guī)則推斷(AQ,CN2,RECON等)、最近鄰方法、聚類方法、關(guān)聯(lián)規(guī)則、特征提取、可視化。另外,有些挖掘過程還包括一些統(tǒng)計(jì)學(xué)方法,如神經(jīng)網(wǎng)絡(luò)、貝葉斯信念網(wǎng)絡(luò)、遺傳算法、自組織圖、神經(jīng)模糊系統(tǒng)。數(shù)據(jù)挖掘方法(1)——決策樹決策樹方法是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹的分支。每個(gè)分支子集中重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程。采用決策樹,可以將數(shù)據(jù)規(guī)則可視化,也不需要長時(shí)間的構(gòu)造過程,實(shí)際應(yīng)用中的決策樹可能非常復(fù)雜,但是即使復(fù)雜,每一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑的含義仍然是可以理解,精度較高,決策樹的這種易理解性對(duì)數(shù)據(jù)挖掘的使用者來說是一個(gè)顯著的優(yōu)點(diǎn)。因此,決策樹在知識(shí)發(fā)現(xiàn)系統(tǒng)中應(yīng)用較廣。然而,采用決策樹方法也有其缺點(diǎn),決策樹方法很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則,不同決策樹分支之間的分裂也不平滑。決策樹方法的起源是概念學(xué)習(xí)系統(tǒng)CLS,然后發(fā)展到ID3方法而達(dá)到高潮,最后又演化為能處理連續(xù)屬性的C4.5。著名的決策樹方法還有CART和Assistant。后來,人們也把決策樹方法應(yīng)用在數(shù)據(jù)挖掘中,目前決策樹方法還主要用于分類。數(shù)據(jù)挖掘方法(1)——決策樹構(gòu)造決策樹的過程為:首先尋找初始分裂,整個(gè)訓(xùn)練集作為產(chǎn)生決策樹的集合,訓(xùn)練集每個(gè)記錄必須是已經(jīng)分好類的;決定哪個(gè)屬性域作為目前最好的分類指標(biāo),一般的做法是窮盡所有的屬性域,對(duì)每個(gè)屬性域分裂的好壞做出量化,計(jì)算出最好的一個(gè)分裂,量化的標(biāo)準(zhǔn)是計(jì)算每個(gè)分裂的多樣性(diversity)指標(biāo);其次,重復(fù)第一步,直至每個(gè)葉節(jié)點(diǎn)內(nèi)的記錄都屬于同一類,直至增長到一棵完整的樹輸出判定樹分類算法決策樹挖掘過程輸入數(shù)據(jù)挖掘方法(2)——神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是模擬人類的形象直覺思維,在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點(diǎn),通過簡(jiǎn)化、歸納,提煉總結(jié)出來的一類并行處理網(wǎng)絡(luò),利用其非線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)本身的結(jié)構(gòu)來表達(dá)輸入和輸出的關(guān)聯(lián)知識(shí)?;谏窠?jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘的種類數(shù)以百計(jì),但最常使用的有基于自組織神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘和基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘兩種。驅(qū)動(dòng)數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)際上是以神經(jīng)網(wǎng)絡(luò)為工具的聯(lián)機(jī)分析處理技術(shù),該技術(shù)特別適合于針對(duì)某種規(guī)則、定理、專家知識(shí)、法定限度等監(jiān)督或約束下的動(dòng)態(tài)監(jiān)測(cè)監(jiān)控、預(yù)測(cè)預(yù)報(bào)以及事務(wù)數(shù)據(jù)庫、動(dòng)態(tài)數(shù)據(jù)庫、Internet信息庫等的數(shù)據(jù)挖掘。例如地震前兆預(yù)測(cè)預(yù)報(bào)、災(zāi)害(洪水、火災(zāi)等)動(dòng)態(tài)監(jiān)測(cè)、數(shù)據(jù)驅(qū)動(dòng)下的資源動(dòng)態(tài)預(yù)測(cè)等。數(shù)據(jù)挖掘方法(2)——神經(jīng)網(wǎng)絡(luò)(1)基于自組織神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘。自組織過程是一種無教師學(xué)習(xí)的過程。通過學(xué)習(xí),可以提取一組數(shù)據(jù)中的重要特征或某種內(nèi)在的知識(shí),如分布的特征或者按某種特征聚類。芬蘭學(xué)者T.Kohonen認(rèn)為,神經(jīng)網(wǎng)絡(luò)中鄰近的各個(gè)單元如同組成大腦的神經(jīng)元一樣,所發(fā)揮的作用各不相同,通過相互作用,可以自適應(yīng)地發(fā)展成檢查不同性質(zhì)信號(hào)的特殊檢測(cè)器。因?yàn)樘幱诓煌竽X空間部位的神經(jīng)元分工是不同的,它們各自對(duì)不同的輸入模式敏感。T.Kohonen提出了一種學(xué)習(xí)方式,使輸入信號(hào)映射到低維空間,并且保持相同特征的輸入信號(hào)在空間上對(duì)應(yīng)臨近區(qū)域,這就是所謂的自組織特征映射(SOFM)。
(2)基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘。盡管神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的學(xué)習(xí)、分類、聯(lián)想與記億等功能,但是在將神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘時(shí)最大的難度是無法對(duì)輸出結(jié)果給出直觀的說明。將模糊處理功能引進(jìn)神經(jīng)網(wǎng)絡(luò)之后,不僅可以增加神經(jīng)網(wǎng)絡(luò)的輸出表達(dá)能力,而且使系統(tǒng)變得更加穩(wěn)定。經(jīng)常用于數(shù)據(jù)挖掘的模糊神經(jīng)網(wǎng)絡(luò)有模糊感知機(jī)模型、模糊BP網(wǎng)絡(luò)、模糊Kohonen聚類網(wǎng)絡(luò)、模糊推理網(wǎng)絡(luò)和模糊ART模型等。數(shù)據(jù)挖掘方法(2)——神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)實(shí)際上是以神經(jīng)網(wǎng)絡(luò)為工具的聯(lián)機(jī)分析處理技術(shù),該技術(shù)特別適合于針對(duì)某種規(guī)則、定理、專家知識(shí)、法定限度等監(jiān)督或約束下的動(dòng)態(tài)監(jiān)測(cè)監(jiān)控、預(yù)測(cè)預(yù)報(bào)以及事務(wù)數(shù)據(jù)庫、動(dòng)態(tài)數(shù)據(jù)庫、Internet信息庫等的數(shù)據(jù)挖掘。例如地震前兆預(yù)測(cè)預(yù)報(bào)、災(zāi)害(洪水、火災(zāi)等)動(dòng)態(tài)監(jiān)測(cè)、數(shù)據(jù)驅(qū)動(dòng)下的資源動(dòng)態(tài)預(yù)測(cè)等。數(shù)據(jù)挖掘方法(3)——粗糙集波蘭科學(xué)家Z.Pawlak在1982年首先提出粗糙集(RoughSet)理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具。它在處理信息含糊性上有幾個(gè)優(yōu)點(diǎn):無需提供除問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息,如統(tǒng)計(jì)中要求的先驗(yàn)概率和模糊集中要求的隸屬度;算法簡(jiǎn)單、易于操作。因而,近年來得到越來越廣泛的應(yīng)用。首先,數(shù)據(jù)挖掘研究的實(shí)施對(duì)象多為關(guān)系型數(shù)據(jù)庫。關(guān)系表可以看成粗糙集理論中的決策表,這給粗糙集方法的應(yīng)用帶來極大的方便;第二,現(xiàn)實(shí)世界中的規(guī)則有確定性的,也有不確定性的。從數(shù)據(jù)庫中發(fā)現(xiàn)不確定性的知識(shí),為粗糙集方法提供了用武之地;第三,從數(shù)據(jù)中發(fā)現(xiàn)異常,排除知識(shí)發(fā)現(xiàn)過程中的噪聲干擾也是粗糙集方法的特長;第四,運(yùn)用粗糙集方法得到的知識(shí)發(fā)現(xiàn)算法有利于并行執(zhí)行,可以極大地提高發(fā)現(xiàn)效率。對(duì)于大規(guī)模數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)來說,這正是人們所追求的;第五,數(shù)據(jù)挖掘中采用的其他技術(shù),如神經(jīng)網(wǎng)絡(luò)的方法,不能自動(dòng)地選擇合適的屬性集,而利用粗糙集方法進(jìn)行預(yù)處理,去掉多余屬性,可提高發(fā)現(xiàn)效率,降低錯(cuò)誤率;第六,粗糙集方法比模糊集方法或神經(jīng)網(wǎng)絡(luò)方法在得到的決策規(guī)則和推理過程方面更易于被證實(shí)和檢測(cè)。數(shù)據(jù)挖掘方法(3)——粗糙集粗糙集的基本概念有:信息系統(tǒng):在粗糙集理論中假定現(xiàn)實(shí)世界中的信息是用一張表來表達(dá),并稱之為信息系統(tǒng)。信息系統(tǒng)是一個(gè)由三元組S={U,A,V}組成的,其中U表示對(duì)象集合,A是屬性集合,V是A的值域,實(shí)際屬性就是對(duì)象上的等價(jià)關(guān)系,即A是等價(jià)關(guān)系的集合。其具體表現(xiàn)是用二維表格來表示的,在這張表中,列表示屬性(A),行表示對(duì)象(U),表格中的值(V)即是其中一個(gè)屬性對(duì)應(yīng)的一個(gè)等價(jià)關(guān)系。決策表:在信息系統(tǒng)中,A表示屬性集合,A=C∪D,其中C是條件屬性,D是決策屬性,具有條件屬性和決策屬性的知識(shí)表達(dá)系統(tǒng)構(gòu)成的特殊的信息系統(tǒng),即決策表。不可分辨關(guān)系:近似空間(approximationspace)是一個(gè)二元組<U,R(B)>,U同上,B是A的屬性子集,R(B)是U上的二元等價(jià)關(guān)系,R(B)={(x1,x2)|f(x1,b)=f(x2,b),b為B中的任一元素}。R(B)也稱不可分辨關(guān)系。屬性子集B將全部樣本U劃分成若干等價(jià)類,稱為B-基本元素(B-elementary)。知識(shí)由概念組成,如果某知識(shí)中含有不精確概念,則該知識(shí)不精確。粗糙集對(duì)不精確概念的描述方法是:通過上近似概念和下近似概念這兩個(gè)精確概念來表示?;诖植诩臄?shù)據(jù)挖掘算法實(shí)際上就是對(duì)大量數(shù)據(jù)構(gòu)成的信息系統(tǒng)(即決策表)進(jìn)行約簡(jiǎn),得到一種屬性歸約集的過程,最后抽取規(guī)則。粗糙集方法得到的分類規(guī)則一般是符號(hào)形式的顯性規(guī)則,這正是數(shù)據(jù)挖掘所追求的。數(shù)據(jù)挖掘方法(4)——模糊集模糊集的理論是1965年美國自動(dòng)控制專家查德(L.A.Zadeh)教授首先提出來的,它是基于模糊數(shù)學(xué)的一種處理方法,其基本出發(fā)點(diǎn)是針對(duì)許多信息和數(shù)據(jù)的模糊性,如雨點(diǎn)的大?。蝗说母甙?;收入的多少等等,這些信息本身缺乏一個(gè)確定的結(jié)果,經(jīng)常只描述一些元素之間的某種聯(lián)系的程度。模糊集與粗糙集都是針對(duì)信息和數(shù)據(jù)的模糊性的處理方法,但兩者存在很大的不同。從集合的對(duì)象間的關(guān)系來看,模糊集強(qiáng)調(diào)集合邊界的病態(tài)和集合本身的含混性,而粗糙集強(qiáng)調(diào)的是集合對(duì)象問的不可分辨性;從研究的對(duì)象來看,模糊集研究的是屬于同一類的不同對(duì)象對(duì)集合的隸屬關(guān)系,重在隸屬程度,因此模糊集是數(shù)據(jù)挖掘中常用的聚類方法之一。粗糙集以不可分辨關(guān)系為基礎(chǔ),研究的是不同類中的對(duì)象組成的集合之間的關(guān)系,重在分類,因此,粗糙集是數(shù)據(jù)挖掘中常用的分類方法之一。數(shù)據(jù)挖掘方法(4)——模糊集數(shù)據(jù)挖掘方法(5)——遺傳算法遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。其基本思想是基于達(dá)爾文Darwin的進(jìn)化論和Mendel的遺傳學(xué)說。該算法由密執(zhí)安(Michigan)大學(xué)教授Holland及其學(xué)生于1975年創(chuàng)建。與傳統(tǒng)搜索算法不同,遺傳算法從一組隨機(jī)產(chǎn)生的初始解,稱為種群,開始搜索過程。種群中的每個(gè)個(gè)體是問題的一個(gè)解,稱為染色體。染色體是一串符號(hào),例如一個(gè)二進(jìn)制字符串。這些染色體在后續(xù)迭代中不斷進(jìn)化,稱為遺傳。在每一代中用適應(yīng)度(Fitness)來衡量染色體的好壞。生成下一代染色體,稱為后代。后代是由前一代染色體通過交叉(Crossover)或變異(Mutation)運(yùn)算形成。根據(jù)適應(yīng)度大小選擇部分后代,淘汰部分后代,從而保持種群大小是常數(shù)。適應(yīng)度高的染色體被選中的概率高。這樣,經(jīng)過若干代之后,算法收斂于最好的染色體,它很可能就是問題的最優(yōu)解或次優(yōu)解。數(shù)據(jù)挖掘方法(5)——遺傳算法應(yīng)用遺傳算法進(jìn)行數(shù)據(jù)挖掘,首先要對(duì)實(shí)際問題進(jìn)行編碼,編碼方法可以是二進(jìn)制編碼,也可以是十進(jìn)制編碼。然后,定義遺傳算法的適應(yīng)度函數(shù),由于算法用于規(guī)則歸納,因此適應(yīng)度函數(shù)由規(guī)則覆蓋的正例和反例來定義。隨機(jī)產(chǎn)生一組規(guī)則,對(duì)每一個(gè)規(guī)則應(yīng)用數(shù)據(jù)庫中給定的個(gè)體例子進(jìn)行判斷,根據(jù)適應(yīng)度函數(shù)計(jì)算其適應(yīng)度。應(yīng)用選擇、交叉、變異運(yùn)算對(duì)該組規(guī)則進(jìn)行進(jìn)化,再利用選擇運(yùn)算產(chǎn)生下一代規(guī)則,這樣經(jīng)過若干次迭代后,遺傳算法滿足終止條件,從而得到一組理想規(guī)則。接下來,利用這些規(guī)則對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行加工,刪除規(guī)則覆蓋的例子,對(duì)剩余的數(shù)據(jù)繼續(xù)采用以上遺傳算法,去挖掘第二組規(guī)則。重復(fù)以上步驟,直至數(shù)據(jù)庫中的所有例子都被覆蓋或者滿足事先約定的終止條件。最后應(yīng)用規(guī)則優(yōu)化算法對(duì)所得規(guī)則進(jìn)行優(yōu)化,使之得到最簡(jiǎn)規(guī)則。其中遺傳算法的終止條件為三種:找到了滿足問題的解;候選取群體已收斂于某一點(diǎn),即經(jīng)過遺傳操作后候選解的前后代之間沒有顯著的優(yōu)化,就認(rèn)為遺傳算法已經(jīng)收斂,此時(shí)可以選擇輸出最優(yōu)解,不過,該點(diǎn)可能是局部最優(yōu)解;算法已達(dá)到了設(shè)定的代數(shù)等。并非所有的遺傳運(yùn)算過程都是有效的,為了防止計(jì)算過程無限運(yùn)行下去,需要設(shè)定遺傳的代數(shù)來終止運(yùn)算過程。數(shù)據(jù)挖掘方法(5)——遺傳算法目標(biāo)(函數(shù))映射為適應(yīng)度函數(shù)初始種群實(shí)際問題計(jì)算個(gè)體適應(yīng)度滿意終止條件否?選擇交叉變異產(chǎn)生下一代規(guī)則(種群)輸出滿足問題的規(guī)則遺傳算子數(shù)據(jù)挖掘方法(6)——支持向量機(jī)
數(shù)據(jù)挖掘方法(6)——支持向量機(jī)
數(shù)據(jù)挖掘工具——選擇指標(biāo)所提供的數(shù)據(jù)挖掘功能和算法可處理的數(shù)據(jù)類型數(shù)據(jù)存取能力運(yùn)行平臺(tái)和兼容性數(shù)據(jù)預(yù)處理能力與其他系統(tǒng)的接口可擴(kuò)展性可伸縮性可視化工具操作性能數(shù)據(jù)挖掘工具——選擇指標(biāo)作為一家商業(yè)機(jī)構(gòu),其還會(huì)考慮如下一些因素:(1)公司的數(shù)據(jù)挖掘需求是短期行為還是長期使用。如果是短期行為,就購買那些能解決特定問題的軟件包或外包給咨詢公司。如果是長期使用,就需要購買功能比較豐富,使用比較方便,維護(hù)升級(jí)比較好的企業(yè)型數(shù)據(jù)挖掘工具。(2)公司的數(shù)據(jù)狀態(tài)。在挑選數(shù)據(jù)挖掘工具前,公司必須對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行評(píng)估。如果沒有具備進(jìn)行業(yè)務(wù)主題數(shù)據(jù)挖掘數(shù)據(jù)或者現(xiàn)有格式不能滿足數(shù)據(jù)挖掘工具的需求,可暫時(shí)不考慮購買數(shù)據(jù)挖掘工具。如果公司已經(jīng)擁有適合數(shù)據(jù)挖掘的數(shù)據(jù)倉庫或數(shù)據(jù)庫,應(yīng)該盡量選擇能夠與數(shù)據(jù)倉庫緊密結(jié)合的數(shù)據(jù)挖掘工具。(3)公司的行業(yè)特點(diǎn)。每個(gè)行業(yè)都有自身的行業(yè)特點(diǎn),往往為了解決本行業(yè)特定的商業(yè)問題,需要提供能夠解決特定應(yīng)用問題的數(shù)據(jù)挖掘工具。每個(gè)公司必須結(jié)合自己的實(shí)際情況何需要,充分考慮廠商在數(shù)據(jù)挖掘領(lǐng)域的實(shí)施經(jīng)驗(yàn),避免踏入僅僅“選擇工具”的陷阱,力求獲得一個(gè)完整的數(shù)據(jù)挖掘解決方案,并和廠商一起完成這個(gè)復(fù)雜的、富有挑戰(zhàn)性、創(chuàng)造性并充滿樂趣的過程。同時(shí),必須將數(shù)據(jù)挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗(yàn)與企業(yè)的業(yè)務(wù)邏輯數(shù)據(jù)和需求緊密結(jié)合,并在實(shí)施過程中不斷磨合。只有這樣,才能夠?qū)?shù)據(jù)挖掘真正融入公司日常的經(jīng)營決策之中,才能夠取得成功。數(shù)據(jù)挖掘工具——常用數(shù)據(jù)挖掘工具目前國際上廣泛應(yīng)用的數(shù)據(jù)挖掘工具有很多,數(shù)據(jù)挖掘工具分為平臺(tái)型工具和專業(yè)型工具。平臺(tái)型工具具有通用性并提供全套服務(wù),它們不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。例如SAS公司的SASEnterpriseMiner、IBM并購SPSS后也整合了IntelligentMiner和SPSSClementine、Teradata公司的系列產(chǎn)品,還有微軟的SQLSever數(shù)據(jù)挖掘模塊、甲骨文的OracleDarvin、Waikato大學(xué)開發(fā)的Weka平臺(tái)以及開源軟件R語言等。常用工具類型廠商產(chǎn)品特點(diǎn)
平臺(tái)類工具SASSASEnterpriseMiner支持元數(shù)據(jù)管理與維護(hù)SASETS(時(shí)間序列預(yù)測(cè))SASOR(運(yùn)籌學(xué))SASSTAT(統(tǒng)計(jì)分析)SASQC(質(zhì)量控制)IBMDB2IntelligentMinerforData分為建模、瀏覽、評(píng)估等部分DB2IntelligentMinerforText主要功能是特征抽取、文檔聚焦、文檔分類和檢索SPSSClementine易用的數(shù)據(jù)挖掘工具平臺(tái)SPSSAnswerTree快速建立決策樹模型TeradataTeradataProfiler對(duì)數(shù)據(jù)源進(jìn)行質(zhì)量分析TeradataADSGenerator產(chǎn)生分析數(shù)據(jù)組TeradataWarehouseMiner專為大規(guī)模數(shù)據(jù)而設(shè)計(jì)TeradataModelManager模型管理器側(cè)重于提供有好的界面微軟MicrosoftSQLServerDataMining允許模型對(duì)整個(gè)數(shù)據(jù)集運(yùn)行甲骨文Darwin(神經(jīng)元網(wǎng)、決策樹、K近鄰)為初學(xué)者和有經(jīng)驗(yàn)的人都提供了相對(duì)較強(qiáng)的用戶界面StatSoftDataMiner、QCMiner、TextMinerStatSoft公司還提供Statistica軟件專業(yè)類工具FairIsaac公司FICOscore面向信用卡積分Unica公司AffiniumModel面向營銷自動(dòng)化………………數(shù)據(jù)挖掘產(chǎn)品實(shí)例——TWM工具本書實(shí)例為Teradata系列挖掘產(chǎn)品,主要包括TeradataProfiler、TeradataADSGenerator、TeradataWarehouseMiner、TeradataModelManager。其中TeradataWarehouseMiner是運(yùn)行在Teradata平臺(tái)上的高效數(shù)據(jù)挖掘工具,其主要優(yōu)勢(shì)是數(shù)據(jù)庫內(nèi)挖掘。相比傳統(tǒng)數(shù)據(jù)挖掘工具,TWM場(chǎng)內(nèi)挖掘的優(yōu)勢(shì)主要體現(xiàn)在:在Teradata中挖掘,無需數(shù)據(jù)轉(zhuǎn)移;數(shù)據(jù)管理由Teradata完成,省時(shí)省力;充分利用Teradata的并行處理能力;挖掘性能隨Teradata數(shù)據(jù)庫性能的擴(kuò)展而擴(kuò)展;可以在全部細(xì)節(jié)數(shù)據(jù)上挖掘。數(shù)據(jù)挖掘產(chǎn)品實(shí)例——TWM工具安裝配置TWM工具,使用TWM工具建立數(shù)據(jù)挖掘工程并實(shí)現(xiàn)一個(gè)完整分析所需要的7個(gè)工作步驟:(1)連接ODBC數(shù)據(jù)源(需要相應(yīng)權(quán)限)(2)創(chuàng)建新工程(或打開已有工程)(3)添加分析模塊到工程中(4)設(shè)置輸入和分析選項(xiàng)(5)設(shè)置輸出和結(jié)果選項(xiàng)(6)執(zhí)行分析模塊(點(diǎn)擊‘運(yùn)行’按鈕)(7)查看結(jié)果數(shù)據(jù)挖掘環(huán)境搭建
所謂數(shù)據(jù)挖掘環(huán)境是指實(shí)施數(shù)據(jù)挖掘所需要的體系和技術(shù)準(zhǔn)備,它決定了如何開發(fā)模型,需要什么軟件和硬件。Teradata的數(shù)據(jù)挖掘都是基于數(shù)據(jù)倉庫的,因此數(shù)據(jù)倉庫是數(shù)據(jù)挖掘?qū)嵤┖苤匾沫h(huán)境,除此之外,數(shù)據(jù)挖掘的體系架構(gòu)和中間層模型也是數(shù)據(jù)挖掘環(huán)境需要考慮的。數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了良好的基礎(chǔ)良好的數(shù)據(jù)挖掘體系架構(gòu)有助于模型的快速開發(fā)和部署中間層模型為快速實(shí)施數(shù)據(jù)準(zhǔn)備提供了基礎(chǔ)數(shù)據(jù)挖掘環(huán)境搭建常用的數(shù)據(jù)挖掘的體系結(jié)構(gòu)謝謝各位的聆聽!
數(shù)據(jù)管理了解和管理數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)類型數(shù)據(jù)統(tǒng)計(jì)特征數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)質(zhì)量主數(shù)據(jù)管理數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)一般定義為指互相之間存在著一種或者多種關(guān)系的數(shù)據(jù)元素的集合和該集合中數(shù)據(jù)元素之間的關(guān)系組成。不同的學(xué)者在不同的論述場(chǎng)景里也給出了一些其它定義,比如SartajSahni在其《數(shù)據(jù)結(jié)構(gòu)、算法與應(yīng)用》一書中定義數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)對(duì)象,以及存在于該對(duì)象的實(shí)例和組成實(shí)例的數(shù)據(jù)元素之間的各種聯(lián)系,這些聯(lián)系可以通過定義相關(guān)的函數(shù)來給出;CliffordA.Shaffer在《數(shù)據(jù)結(jié)構(gòu)與算法分析》一書中定義是數(shù)據(jù)結(jié)構(gòu)是抽象數(shù)據(jù)類型(AbstractDataType,ADT)的物理實(shí)現(xiàn);RobertL.Kruse在《數(shù)據(jù)結(jié)構(gòu)與程序設(shè)計(jì)》一書中將一個(gè)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)過程分成抽象層、數(shù)據(jù)結(jié)構(gòu)層和實(shí)現(xiàn)層,其中抽象層是指抽象數(shù)據(jù)類型層,它討論數(shù)據(jù)的邏輯結(jié)構(gòu)及其運(yùn)算,數(shù)據(jù)結(jié)構(gòu)層和實(shí)現(xiàn)層討論一個(gè)數(shù)據(jù)結(jié)構(gòu)的表示和在計(jì)算機(jī)內(nèi)的存儲(chǔ)細(xì)節(jié)以及運(yùn)算的實(shí)現(xiàn)。在數(shù)據(jù)挖掘中,尤其是大多數(shù)情況下的結(jié)構(gòu)化數(shù)據(jù)的挖掘中,數(shù)據(jù)結(jié)構(gòu)可以具體指代同一類的數(shù)據(jù)元素,各元素之間有相互關(guān)系。絕大部分的數(shù)據(jù)挖掘算法可以使用一種非常簡(jiǎn)單的數(shù)據(jù)格式,我們稱它為寬表。寬表將客戶相關(guān)的信息都記錄在一行上,以便進(jìn)行分析。其特征:每個(gè)客戶一條記錄,極多的屬性(字段、列、變量、指標(biāo)),幾百個(gè)指標(biāo)是很常見的,有時(shí)指標(biāo)達(dá)3000以上。數(shù)據(jù)類型從數(shù)據(jù)的測(cè)量尺度來看,數(shù)據(jù)可以分為四種類型:(1)名義分類數(shù)據(jù),取值是定性的,表現(xiàn)為互不相容的類別或?qū)傩?,沒有順序和大小的差異,如客戶類型、性別(男、女)、本地網(wǎng)(是、否)等。(2)有序分類數(shù)據(jù),各類別之間有程度的差異,但不能進(jìn)行算術(shù)運(yùn)算,如收入的低、中和高。(3)定距數(shù)值數(shù)據(jù),可以計(jì)算兩個(gè)取值之差,但不能做其它類型的算術(shù)運(yùn)算,如日期和時(shí)間的間隔。(4)定比數(shù)值數(shù)據(jù),支持各種類型算術(shù)運(yùn)算的數(shù)據(jù),如話務(wù)量、收入等。數(shù)據(jù)類型數(shù)據(jù)通常以字符串或數(shù)字的形成出現(xiàn),但數(shù)據(jù)的形式未必能說明數(shù)據(jù)的類型。許多編碼都包含數(shù)字,但這些數(shù)字之間并沒有順序,更不能進(jìn)行四則運(yùn)算。有時(shí)數(shù)據(jù)是以字符串的形式存儲(chǔ),但它們之間是有順序的,如代表客戶等級(jí)的鉆、金和銀。上述的四種類型的數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),還有文本、圖片、聲音和視頻等數(shù)據(jù),它們屬于非結(jié)構(gòu)化數(shù)據(jù),還以電信行業(yè)數(shù)據(jù)舉例,譬如用戶姓名、地址、投訴內(nèi)容等。數(shù)據(jù)挖掘算法不能直接處理非結(jié)構(gòu)化數(shù)據(jù),需要首先將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。另外還有事務(wù)數(shù)據(jù)、數(shù)據(jù)矩陣、各類有序數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、多媒體數(shù)據(jù)(圖形圖像、音頻視頻)等。數(shù)據(jù)統(tǒng)計(jì)特征數(shù)據(jù)統(tǒng)計(jì)特征,指運(yùn)用統(tǒng)計(jì)學(xué)的方法進(jìn)行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律,為數(shù)據(jù)挖掘過程中的數(shù)據(jù)質(zhì)量檢查、變量篩選和變量預(yù)處理提供依據(jù)。數(shù)據(jù)統(tǒng)計(jì)特征(1)——單一分類變量對(duì)單一分類變量探索的最基本統(tǒng)計(jì)方法是通過柱形圖或者條形圖描述變量中不同類別出現(xiàn)的次數(shù)或頻率分布。通過變量的頻數(shù)分析,我們可以回答:一個(gè)分類變量取值個(gè)數(shù)是多還是少?用戶是集中在某幾個(gè)類別還是分散在各個(gè)類別?是否某些類別的用戶數(shù)與經(jīng)驗(yàn)不符?通過回答這些問題,我們可能會(huì)發(fā)現(xiàn)潛在的數(shù)據(jù)質(zhì)量問題,也為建模前的變量預(yù)處理提供思路。例如一個(gè)分類變量取值很多,但大多數(shù)類別的用戶數(shù)較少,此時(shí)建議將用戶數(shù)較少的類別進(jìn)行合并,以便更能滿足數(shù)據(jù)挖掘算法的需要。數(shù)據(jù)統(tǒng)計(jì)特征(2)——單一數(shù)值變量單一數(shù)值變量探索的最常用方法是計(jì)算變量的一組描述統(tǒng)計(jì)量,如描述數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量:均值、中位數(shù)和分位數(shù)等;描述數(shù)據(jù)離散程度的統(tǒng)計(jì)量:極差、方差、標(biāo)準(zhǔn)差和離散系數(shù)等;探索單一數(shù)值變量的分布:箱線圖和直方圖。當(dāng)然了,總量是最常用的分析變量,即直接對(duì)一組數(shù)據(jù)計(jì)數(shù)或者求和,譬如某區(qū)域的總用戶數(shù)、某區(qū)域的總收入、總話務(wù)量等??偭糠磻?yīng)了總體情況,在環(huán)境相似情況下,通常還用總量進(jìn)行比較分析,譬如人口規(guī)模、經(jīng)濟(jì)環(huán)境基本相近的兩個(gè)區(qū)域,進(jìn)行收入量、用戶總量的比較分析等。數(shù)據(jù)統(tǒng)計(jì)特征(2)——單一數(shù)值變量(1)描述數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量均值:一組數(shù)據(jù)的平均值,它是對(duì)較細(xì)粒度的數(shù)據(jù)進(jìn)行匯總得到的較粗粒度的數(shù)據(jù)。如電信XX省份移動(dòng)用戶的平均ARPU值,它可以讓人們對(duì)該省份移動(dòng)用戶價(jià)值的高低有個(gè)基本的認(rèn)識(shí)。中位數(shù):將數(shù)據(jù)按從小到大的順序排列起來,形成一個(gè)數(shù)列,居于數(shù)列中間位置的那個(gè)數(shù)據(jù),即50%位置的那個(gè)數(shù)據(jù)。中位數(shù)跟均值相比,它不容易受極端值的影響。分位數(shù):中位數(shù)是分位數(shù)的一種,分位數(shù)是指處于第n%位置的數(shù),常用的分位數(shù)有四分位數(shù)、十分位數(shù)、百分位數(shù)。如ARPU值最高的前10%的用戶就是百分位數(shù)的一個(gè)應(yīng)用。數(shù)據(jù)統(tǒng)計(jì)特征(2)——單一數(shù)值變量(2)描述數(shù)據(jù)離散程度的統(tǒng)計(jì)量極差:數(shù)據(jù)中的最大值與最小值之差,只考慮數(shù)據(jù)中的兩個(gè)值,容易受極端值的影響。方差:衡量一組數(shù)據(jù)偏離其平均值的波動(dòng)程度,如用戶最近幾個(gè)月的ARPU值波動(dòng)大小,就可以用方差來衡量。方差一般代表信息量的多少,如果一個(gè)變量的方差越?。O端情況只取一個(gè)值),那么它包含的信息量就越少,它對(duì)挖掘的作用就越小。標(biāo)準(zhǔn)差:方差的平方根,它是使用更頻繁的波動(dòng)度量指標(biāo),它與數(shù)據(jù)有相同的量綱。離散系數(shù)(變異系數(shù)):一組數(shù)據(jù)的標(biāo)準(zhǔn)差與均值之比,是衡量數(shù)據(jù)離散程度的相對(duì)指標(biāo)。它的優(yōu)點(diǎn)是不受數(shù)據(jù)量綱的影響,可以對(duì)不同量綱的數(shù)據(jù)波動(dòng)程度進(jìn)行比較,離散系數(shù)越大表明數(shù)據(jù)的波動(dòng)越大。如可以用離散系數(shù)比較用戶話務(wù)量和ARPU的波動(dòng)大小。數(shù)據(jù)統(tǒng)計(jì)特征(2)——單一數(shù)值變量(3)探索單一數(shù)值變量的分布數(shù)值變量的描述統(tǒng)計(jì)量只能從總體上描述一組數(shù)據(jù),但是不能充分地描述一組數(shù)據(jù)的細(xì)節(jié),兩個(gè)平均值和方差完全相同的變量,它們的分布可能差別較大。這里介紹兩種探索數(shù)值變量分布的方法:箱線圖和直方圖。箱線圖:箱線圖類似于股票的K線圖,它是利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、第一四分位數(shù)(Q1)、中位數(shù)、第三四分位數(shù)(Q3)與最大值來描述數(shù)據(jù)的一種圖示方法。它可以粗略地觀察數(shù)據(jù)分布的對(duì)稱性,分布的分散程度,是否有極端值等信息,特別地可以用于對(duì)幾組數(shù)據(jù)分布的比較。直方圖:將數(shù)值變量離散化,以變量的取值區(qū)間為橫坐標(biāo)、區(qū)間頻數(shù)或頻率為縱坐標(biāo)而作的連續(xù)排列的柱形圖,用于評(píng)估數(shù)值變量取值的分布情況,類似于分類變量的柱形圖。數(shù)據(jù)統(tǒng)計(jì)特征(3)——多個(gè)變量的關(guān)系對(duì)于多個(gè)分類變量,可以通過構(gòu)造多維表的形式觀察它們的關(guān)系,對(duì)于多個(gè)數(shù)值變量,可以通過計(jì)算變量之間的相關(guān)系數(shù)來判斷它們之間相關(guān)程度的大小。二維表是把其中一個(gè)分類變量作為行,另一個(gè)分類變量作為列,行和列交叉所形成的單元格用兩類別出現(xiàn)的頻數(shù)或頻率填充而形成的交叉表格。通過二維表如何判斷兩個(gè)分類變量之間的關(guān)系,一種方法是通過觀察可視化的圖形,但是要展現(xiàn)整個(gè)表格的內(nèi)容是有困難的,我們可以有重點(diǎn)的觀察。數(shù)據(jù)統(tǒng)計(jì)特征(3)——多個(gè)變量的關(guān)系相關(guān)系數(shù):另一個(gè)非常重要的統(tǒng)計(jì)概念,是考察一個(gè)數(shù)值變量的變化與另一個(gè)數(shù)值變量的變化關(guān)聯(lián)程度大小的度量。如用戶的話務(wù)量和ARPU就存在相關(guān)關(guān)系,一般話務(wù)量越高的用戶,ARPU也會(huì)越高。相關(guān)系數(shù)變化范圍在-1和1之間,相關(guān)系數(shù)為0表明兩個(gè)變量不相關(guān);相關(guān)系數(shù)大于零表明兩個(gè)變量存在正向相關(guān)關(guān)系,且數(shù)值越大,相關(guān)性越強(qiáng),為1意味著當(dāng)一個(gè)變量變化時(shí),另一個(gè)變量將完全按同方向變化;相關(guān)系數(shù)小于零表明兩個(gè)變量存在反向相關(guān)關(guān)系,且數(shù)值越大,相關(guān)性越強(qiáng),為-1意味著當(dāng)一個(gè)變量變化時(shí),另一個(gè)變量將完全按反方向變化。數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是為了使數(shù)據(jù)符合模型算法的要求,并且為了顯著提高模型的效果和穩(wěn)定性,對(duì)數(shù)據(jù)做的一系列預(yù)處理工作。對(duì)單個(gè)數(shù)值型變量,常用的轉(zhuǎn)換方法有變量離散化、變量歸一化、變量標(biāo)準(zhǔn)化(Z-Score變換)和數(shù)學(xué)變換等。對(duì)單個(gè)分類型變量,常用的轉(zhuǎn)換方法有分類變量數(shù)值化和分類變量類別規(guī)整等。對(duì)多個(gè)數(shù)值型變量,介紹通過主成分分析或因子分析進(jìn)行變量降維的轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換(1)——單個(gè)數(shù)值變量變量離散化(Binning)是指將連續(xù)的數(shù)值變量轉(zhuǎn)換為離散的區(qū)間或類別變量,也稱作分箱或分檔,常用的離散化方法還有等寬離散化、等頻離散化和有監(jiān)督的離散化(如決策樹根據(jù)信息增益對(duì)變量進(jìn)行劃分)。變量歸一化(Normalization)指使轉(zhuǎn)換后的數(shù)值落在特定的區(qū)間內(nèi),比如說,通過減去最小值并且除以整個(gè)區(qū)間范圍。歸一化不影響數(shù)據(jù)的排列順序,但它消除了數(shù)據(jù)量綱的影響,使得具有不同量綱的數(shù)據(jù)具有可比性。數(shù)據(jù)標(biāo)準(zhǔn)化(Standardizing)指將數(shù)據(jù)減去平均值并且除以標(biāo)準(zhǔn)差,它可以衡量數(shù)據(jù)非正態(tài)分布的程度。數(shù)學(xué)變換:由于某些模型的使用條件對(duì)數(shù)據(jù)的分布有一定的要求,而實(shí)際的數(shù)據(jù)往往不能滿足這些要求,因此就需要對(duì)原始變量進(jìn)行適當(dāng)?shù)臄?shù)學(xué)變換以滿足模型的要求。常用的數(shù)學(xué)變換有對(duì)數(shù)變換、指數(shù)變換、倒數(shù)變換和Logit變換等。數(shù)據(jù)轉(zhuǎn)換(2)——單個(gè)分類變量分類變量數(shù)值化:生成指示變量是分類變量數(shù)值化最常用的方法,它對(duì)某些要求輸入變量必須是數(shù)值變量的模型(如Logistic回歸和神經(jīng)網(wǎng)絡(luò))是一種有效的處理方法,它把變量的每個(gè)取值生成一個(gè)是否的指示變量。分類變量類別規(guī)整:對(duì)分類變量的類別重新梳理和調(diào)整,如類別合并和概念分層。類別合并是對(duì)類別數(shù)量較多的變量進(jìn)行類別合并,行成具有少數(shù)幾個(gè)類別的變量,合并的原則包括使各類別用戶數(shù)大致相同(如將用戶數(shù)都較少的類別合并),或者各類別的目標(biāo)變量差異較大(如將流失率都較高的類別合并)。概念分層指用較高層次的類別代替原有的類別,如用較高層次的產(chǎn)品分類代替較低層次的產(chǎn)品分類。類別合并可以避免模型的過度擬合,概念分層可以讓新生成的變量更有業(yè)務(wù)含義或?qū)δ繕?biāo)的影響更加顯著。數(shù)據(jù)轉(zhuǎn)換(3)——多變量降維
當(dāng)數(shù)值變量很多并且存在較強(qiáng)相關(guān)性時(shí),會(huì)對(duì)模型構(gòu)建造成不利的影響,一種有效的處理方法就是變量降維。變量降維指在不損失變量大量信息的前提下,將眾多相關(guān)性較強(qiáng)的變量變成少數(shù)幾個(gè)不相關(guān)的因素。變量降維常用方法是主成分分析和因子分析,它們經(jīng)常作為聚類分析和多元回歸分析的中間過程,達(dá)到同時(shí)減少變量個(gè)數(shù)和消除變量相關(guān)性的目的。數(shù)據(jù)質(zhì)量對(duì)企業(yè)而言,數(shù)據(jù)質(zhì)量的重要性不言而喻。六步法是Informatica公司為幫助指導(dǎo)數(shù)據(jù)質(zhì)量控制而設(shè)計(jì)的,從初始的數(shù)據(jù)探查到持續(xù)監(jiān)測(cè)以及持續(xù)進(jìn)行的數(shù)據(jù)優(yōu)化。探查數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和異常建立數(shù)據(jù)質(zhì)量度量并明確目標(biāo)設(shè)計(jì)和實(shí)施數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則將數(shù)據(jù)質(zhì)量規(guī)則構(gòu)建到數(shù)據(jù)集成過程中檢查異常并完善規(guī)則對(duì)照目標(biāo),監(jiān)測(cè)數(shù)據(jù)質(zhì)量主數(shù)據(jù)管理主數(shù)據(jù)管理(MasterDataManagement,MDM)是將主數(shù)據(jù)作為企業(yè)的記錄系統(tǒng)進(jìn)行創(chuàng)建和維護(hù)的方式。實(shí)施MDM的目的在于確保主數(shù)據(jù)具有準(zhǔn)確性、一致性和完整性,并且能夠在內(nèi)部或外部業(yè)務(wù)流程、應(yīng)用程序或用戶使用的環(huán)境中周而復(fù)始地流轉(zhuǎn)。主數(shù)據(jù)管理解決方案可能包括以下一些特性:在企業(yè)層面上整合了現(xiàn)有縱向結(jié)構(gòu)中的客戶信息以及其它知識(shí)和深層次信息;共享所有系統(tǒng)中的數(shù)據(jù),使之成為一系列以客戶為中心的業(yè)務(wù)流程和服務(wù);實(shí)現(xiàn)對(duì)于客戶、產(chǎn)品和供應(yīng)商都通用的主數(shù)據(jù)形式,加速數(shù)據(jù)輸入、檢索和分析;支持?jǐn)?shù)據(jù)的多用戶管理,包括限制某些用戶添加、更新或查看維護(hù)主數(shù)據(jù)的流程的能力;集成產(chǎn)品信息管理、客戶關(guān)系管理、客戶數(shù)據(jù)集成以及可對(duì)主數(shù)據(jù)進(jìn)行分析的其它解決方案。主數(shù)據(jù)管理下面是評(píng)估MDM產(chǎn)品時(shí)需要的考慮的關(guān)鍵要求。第1項(xiàng)要求:在單一MDM系統(tǒng)內(nèi)為多個(gè)業(yè)務(wù)數(shù)據(jù)實(shí)體提供支持第2項(xiàng)要求:確保以平臺(tái)方法實(shí)施MDM第3項(xiàng)要求:為復(fù)雜的關(guān)系和層級(jí)結(jié)構(gòu)提供支持第4項(xiàng)要求:自動(dòng)生成面向服務(wù)的體系架構(gòu)(SOA)服務(wù)第5項(xiàng)要求:在MDM系統(tǒng)內(nèi)集成數(shù)據(jù)質(zhì)量第6項(xiàng)要求:混合搭配不同的MDM體系架構(gòu)類型第7項(xiàng)要求:跟蹤數(shù)據(jù)歷史和沿襲情況,為滿足合規(guī)性要求提供支持第8項(xiàng)要求:實(shí)施可同時(shí)用于兩種操作模式的MDM:分析模式和運(yùn)營模式第9項(xiàng)要求:使用多種部署模式:企業(yè)內(nèi)部模式、云中模式及混合模式第10項(xiàng)要求:滿足項(xiàng)目或企業(yè)層數(shù)據(jù)治理要求謝謝各位的聆聽!
數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘常用算法數(shù)據(jù)挖掘常見類型兩類數(shù)據(jù)挖掘問題對(duì)應(yīng)的數(shù)據(jù)挖掘算法業(yè)務(wù)問題對(duì)應(yīng)的數(shù)據(jù)挖掘算法舉例決策樹回歸分析聚類分析關(guān)聯(lián)分析數(shù)據(jù)挖掘的常見類型對(duì)數(shù)據(jù)挖掘問題進(jìn)行簡(jiǎn)單的劃分,其主要有兩類問題:有目標(biāo)變量的數(shù)據(jù)挖掘(有監(jiān)督的挖掘或預(yù)測(cè)問題)和無目標(biāo)變量的數(shù)據(jù)挖掘(無監(jiān)督的挖掘)。
有目標(biāo)變量的數(shù)據(jù)挖掘,使用目標(biāo)變量,從數(shù)據(jù)中發(fā)現(xiàn)能解釋目標(biāo)變量的模式,并且要求歷史數(shù)據(jù)中包含目標(biāo)變量所有可能取值的樣本。流失預(yù)警是一個(gè)典型的有目標(biāo)變量的數(shù)據(jù)挖掘問題,歷史數(shù)據(jù)中同時(shí)包含流失客戶和活躍客戶的信息,目標(biāo)就是發(fā)現(xiàn)能解釋流失客戶與活躍客戶差異的原因。根據(jù)目標(biāo)變量的不同類型,預(yù)測(cè)問題又分為分類預(yù)測(cè)和數(shù)值預(yù)測(cè),如預(yù)測(cè)客戶是否流失屬于分類預(yù)測(cè)問題,預(yù)測(cè)收入屬于數(shù)值預(yù)測(cè)問題。無目標(biāo)變量的數(shù)據(jù)挖掘,不使用目標(biāo)變量(或者目標(biāo)變量不清晰),以發(fā)現(xiàn)數(shù)據(jù)的潛在有用模式為目標(biāo),通過人工方式去理解發(fā)現(xiàn)的模式及其有用性。如從現(xiàn)有客戶中發(fā)現(xiàn)有意義的細(xì)分群體的聚類模型,發(fā)現(xiàn)哪些產(chǎn)品經(jīng)常被客戶一起購買的關(guān)聯(lián)規(guī)則模型。兩類數(shù)據(jù)挖掘問題對(duì)應(yīng)的數(shù)據(jù)挖掘算法有目標(biāo)變量無目標(biāo)變量分類預(yù)測(cè)數(shù)值預(yù)測(cè)決策樹Logistic回歸模型神經(jīng)網(wǎng)絡(luò)判別分析遺傳算法最近鄰方法多元回歸模型回歸樹神經(jīng)網(wǎng)絡(luò)遺傳算法
聚類模型(細(xì)分模型)關(guān)聯(lián)規(guī)則序列模式時(shí)間序列其他描述性模型業(yè)務(wù)問題對(duì)應(yīng)的數(shù)據(jù)挖掘算法舉例業(yè)務(wù)問題數(shù)據(jù)挖掘算法哪些客戶有購買新產(chǎn)品的傾向決策樹/邏輯回歸哪些客戶有終止服務(wù)使用的傾向決策樹/邏輯回歸收入未來的變化趨勢(shì)多元回歸模型/時(shí)間序列客戶未來服務(wù)使用量的變化趨勢(shì)多元回歸模型/回歸樹哪些客戶存在欺詐行為神經(jīng)網(wǎng)絡(luò)/聚類分析了解客戶存在哪些細(xì)分群體聚類分析給客戶推薦手機(jī)閱讀的哪類內(nèi)容關(guān)聯(lián)規(guī)則/最近鄰方法客戶在購買該產(chǎn)品后接下來會(huì)購買什么序列模式了解哪些產(chǎn)品經(jīng)常被客戶一起購買關(guān)聯(lián)規(guī)則客戶的信用度如何描述性模型決策樹——基本概念決策樹(DecisionTree)是一種以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,是一種從無次序、無規(guī)則的訓(xùn)練樣本集中推理出決策樹表示形式的分類規(guī)則的方法,它提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。主要應(yīng)用于分類預(yù)測(cè)。分類預(yù)測(cè)的結(jié)果有定性和定量兩種。在實(shí)際應(yīng)用中,將定性的分類預(yù)測(cè)稱為分類,用來確定類別屬性;定量的分類預(yù)測(cè)成為預(yù)測(cè),用來預(yù)測(cè)具體的數(shù)值。決策樹的結(jié)構(gòu)和構(gòu)造方法屬性選擇噪聲與剪枝子樹復(fù)制和碎片問題決策樹——常用算法決策樹的兩大核心問題:一是決策樹的生長,即一棵決策樹是如何長成的,在樣本數(shù)據(jù)中選擇哪一個(gè)屬性作為根節(jié)點(diǎn),然后如何分支,如何選擇內(nèi)部節(jié)點(diǎn),直到生長出樹葉,即到達(dá)葉節(jié)點(diǎn),這一系列過程可稱為決策樹的分枝準(zhǔn)則,即具體算法;另一核心問題是決策樹的剪枝,則防止決策樹生長過于茂盛,無法適應(yīng)實(shí)際應(yīng)用的需要。常用的決策樹算法分為兩類:基于信息論的方法和最小GINI指標(biāo)的方法。信息論的方法包括:ID系列算法和C4.5、C5.0,而最小GINI指標(biāo)方法包括:CART、SLIQ和SPRINT算法。決策樹的剪枝方法有預(yù)修剪(Pre-Pruning)和后修剪(Post-Pruning)。決策樹——ID3算法ID3算法是以信息論為基礎(chǔ),運(yùn)用信息熵理論,采用自頂向下的貪心搜索算法。其核心思想是在決策樹中各級(jí)節(jié)點(diǎn)上選擇分裂屬性。用信息增益作為屬性選擇的標(biāo)準(zhǔn),使每個(gè)非葉子節(jié)點(diǎn)測(cè)試時(shí),能獲得關(guān)于被測(cè)試?yán)幼畲蟮念悇e信息。使用該屬性將訓(xùn)練樣本集分成子集后,系統(tǒng)的信息熵值最小。
其生成步驟為:①選擇具有最大信息增益的屬性作為決策樹的當(dāng)前決策節(jié)點(diǎn),并將該屬性從候選屬性中刪除;②根據(jù)當(dāng)前決策節(jié)點(diǎn)的不同取值將該樣本數(shù)據(jù)集劃分成若干個(gè)子集;③重復(fù)上面步驟①、②,當(dāng)滿足以下條件之一時(shí),決策樹停止生成新的分支:①給定節(jié)點(diǎn)的所有樣本屬于同一類。②沒有剩余屬性可以用來進(jìn)一步劃分樣本。③分支沒有樣本。決策樹——ID3算法
決策樹——ID3算法
決策樹——C5.0算法
C4.5算法在ID3算法的基礎(chǔ)上進(jìn)行了改進(jìn),增加了對(duì)連續(xù)屬性的離散型的處理。對(duì)于預(yù)測(cè)變量的缺值處理、剪枝技術(shù)、派生規(guī)則等方面作了較大改進(jìn),既適合于分類問題,又適合于回歸問題。而C5.0則是在C4.5的基礎(chǔ)上改進(jìn)了執(zhí)行效率和內(nèi)存使用,應(yīng)用于大數(shù)據(jù)集的分類算法。它采用Boosting方式來提高模型準(zhǔn)確率。決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分枝的樹結(jié)構(gòu)的。屬性的度量標(biāo)準(zhǔn)有很多,如:信息增益率、GINI指標(biāo)、距離度量等。C5.0采用信息增益率作為屬性的度量標(biāo)準(zhǔn)。步驟如下:首先對(duì)所有樣本賦以一個(gè)抽樣權(quán)重(一般開始的時(shí)候權(quán)重都一樣即認(rèn)為均勻分布),在此樣本上訓(xùn)練一個(gè)分類器對(duì)樣本分類,這樣可以得到這個(gè)分類器的誤差率,我們根據(jù)它的誤差率賦以一個(gè)權(quán)重,大體是誤差越大權(quán)重就越小,針對(duì)這次分錯(cuò)的樣本我們?cè)龃笏某闃訖?quán)重,這樣訓(xùn)練的下一個(gè)分類器就會(huì)側(cè)重這些分錯(cuò)的樣本,然后根據(jù)它的誤差率計(jì)算權(quán)重,就這樣依次迭代,最后我們得到的強(qiáng)分類器就是多個(gè)弱分類器的加權(quán)和。我們可以看出性能好的分類器權(quán)重大一些,這就體現(xiàn)了boosting的精髓。決策樹——CART算法CART算法是一種產(chǎn)生二叉決策樹分類模型的技術(shù)。它與ID系列算法和C4.5不同的是,它使用的屬性度量標(biāo)準(zhǔn)是Gini指標(biāo)。Gini指標(biāo)主要是度量數(shù)據(jù)劃分或訓(xùn)練數(shù)據(jù)集D的不純度為主,系數(shù)值的屬性作為測(cè)試屬性,Gini值越小,表明樣本的“純凈度”越高。CART算法在滿足下列條件之一,即視為葉節(jié)點(diǎn)不再進(jìn)行分支操作。①所有葉節(jié)點(diǎn)的樣本數(shù)為1;樣本數(shù)小于某個(gè)給定的最小值或者樣本都屬于同一類的時(shí)候;②決策樹的高度達(dá)到用戶設(shè)置的閾值,或者分支后的葉節(jié)點(diǎn)中的樣本屬性都屬于同一個(gè)類的時(shí)候;③當(dāng)訓(xùn)練數(shù)據(jù)集中不再有屬性向量作為分支選擇的時(shí)候。決策樹——CART算法
決策樹——剪枝技術(shù)前剪枝(Forward-Pruning)是提前停止樹的構(gòu)造而對(duì)樹進(jìn)行剪枝。如果一個(gè)結(jié)點(diǎn)對(duì)樣本的劃分將導(dǎo)致低于預(yù)定義閥值的分裂,則給定子集的進(jìn)一步劃分將停止。選取一個(gè)適當(dāng)?shù)拈y值是很困難的,較高的閥值可能導(dǎo)致過分簡(jiǎn)化的樹,較低的閥值可能使得樹的簡(jiǎn)化太少。由于前剪枝不必生成整棵決策樹,且算法相對(duì)簡(jiǎn)單,效率很高,適合解決大規(guī)模問題,所以這種方法得到了廣泛的應(yīng)用。后剪枝(Post-Pruning)首先構(gòu)造完整的決策樹,允許決策樹過度擬合訓(xùn)練數(shù)據(jù),然后對(duì)那些置信度不夠的結(jié)點(diǎn)的子樹用葉子結(jié)點(diǎn)來替代,這個(gè)葉子結(jié)點(diǎn)所應(yīng)標(biāo)記的類別為子樹中大多數(shù)實(shí)例所屬的類別。ID3算法、C5.0算法和CART算法都是先建樹再剪枝,屬于后剪枝。后剪枝方法現(xiàn)在得到比較廣泛地使用。常用的后剪枝算法有:CCP(CostComplexityPruning)、REP(ReducedErrorPruning)、PEP(PessimisticErrorPruning)、MEP(MinimumErrorPruning)。決策樹——剪枝技術(shù)(1)CCP剪枝法。CCP剪枝法是一種基于訓(xùn)練集的自下而上的剪枝法,也叫做CART剪枝法。剪枝過程包括兩步:①從原始決策樹開始生成一個(gè)子樹序列;②從第1步產(chǎn)生的子樹序列中,根據(jù)樹的真實(shí)誤差估計(jì)選擇最佳決策樹。(2)REP剪枝法。REP剪枝法由Quinlan提出,是一種自下而上的簡(jiǎn)單實(shí)用的剪枝方法。該方法的基本思路是,從訓(xùn)練集中提取一部分?jǐn)?shù)據(jù)作為剪枝集,這部分?jǐn)?shù)據(jù)不用來構(gòu)建決策樹,因此評(píng)估錯(cuò)誤率時(shí)有較小的偏置。比較樹Tmax的子樹對(duì)剪枝集的分類錯(cuò)誤率,及將該子樹變?yōu)槿~子節(jié)點(diǎn)后的分類錯(cuò)誤率。若前者大于后者,則將該子樹剪枝為葉子結(jié)點(diǎn),并以到該結(jié)點(diǎn)的多數(shù)實(shí)例所代表的類來標(biāo)識(shí)。重復(fù)以上過程,直到繼續(xù)剪枝會(huì)增加錯(cuò)誤率為止。(3)PEP剪枝法。PEP剪枝法由Quinlan提出,是一種自上而下的剪枝法,剪枝基于自由訓(xùn)練集得到的錯(cuò)誤估計(jì),因此不需要單獨(dú)的剪枝數(shù)據(jù)。很明顯,訓(xùn)練集上的錯(cuò)誤率被樂觀偏置,不能用來生成最優(yōu)剪枝樹。因此,Quinlan引入了統(tǒng)計(jì)學(xué)上連續(xù)修正的概念來彌補(bǔ)這一缺陷,在子樹的訓(xùn)練錯(cuò)誤中添加一個(gè)常數(shù),假定每個(gè)葉結(jié)點(diǎn)都自動(dòng)對(duì)實(shí)例的某部分進(jìn)行錯(cuò)誤分類,這一部分一般取葉結(jié)點(diǎn)所覆蓋的實(shí)例總數(shù)的1/2。計(jì)算標(biāo)準(zhǔn)錯(cuò)誤率時(shí),連續(xù)修正遵循二項(xiàng)式分布。(4)MEP剪枝法。MEP剪枝法也是以一種自下而上的剪枝法,目的是在未知的數(shù)據(jù)集上產(chǎn)生最小預(yù)測(cè)分類錯(cuò)誤率。回歸分析——基本概念
回歸分析——線性回歸模型
回歸分析——Logistic回歸模型
回歸分析——線性回歸模型(3)模型檢驗(yàn)在一次抽樣中,未知參數(shù)的估計(jì)值與真實(shí)值的差異有多大?是否顯著?需要進(jìn)行統(tǒng)計(jì)檢驗(yàn),統(tǒng)計(jì)檢驗(yàn)包括三種:擬合優(yōu)度檢驗(yàn):檢驗(yàn)樣本的數(shù)據(jù)點(diǎn)聚集在回歸線周圍的密集程度方程顯著性檢驗(yàn):檢驗(yàn)自變量與因變量的線性關(guān)系總體上是否顯著變量顯著性檢驗(yàn):檢驗(yàn)每個(gè)自變量與因變量之間的線性關(guān)系是否顯著回歸分析——線性回歸模型(4)逐步回歸當(dāng)輸入變量之間存在較強(qiáng)相關(guān)性時(shí),線性回歸模型的參數(shù)估計(jì)會(huì)失真,需要對(duì)變量進(jìn)行篩選,常用的方法是逐步回歸法(Stepwise)。逐步回歸法(Stepwise)的基本思想是將變量逐個(gè)引入模型,每引入一個(gè)解釋變量后都要進(jìn)行F檢驗(yàn),并對(duì)已經(jīng)選入的解釋變量逐個(gè)進(jìn)行t檢驗(yàn),當(dāng)原來引入的解釋變量由于后面解釋變量的引入變得不再顯著時(shí),則將其刪除。以確保每次引入新的變量之前回歸方程中只包含先主動(dòng)變量。這是一個(gè)反復(fù)的過程,直到既沒有顯著的解釋變量選入回歸方程,也沒用不顯著的解釋變量從回歸方程中剔除為止。以保證最后所得到的解釋變量集是最優(yōu)的。回歸分析——Logistic回歸模型
回歸分析——Logistic回歸模型
回歸分析——Logistic回歸模型
聚類分析——基本概念概括性的定義聚類是將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程,聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。進(jìn)一步的分析聚類和分類的區(qū)別,在分類問題中,訓(xùn)練樣本的分類屬性的值是已知的,而在聚類問題中,需要根據(jù)訓(xùn)練樣本的值來確定分類屬性值。采用聚類分析技術(shù),可以把無標(biāo)識(shí)的數(shù)據(jù)樣本自動(dòng)劃分為不同的類,并且可以不受人的先驗(yàn)知識(shí)的約束和干擾,從而獲取數(shù)據(jù)集中原本存在的信息。所以說,聚類是一種無指導(dǎo)學(xué)習(xí)(無監(jiān)督學(xué)習(xí)),即從樣本的特征向量出發(fā)研究通過某種算法將特征相似的樣本聚集在一起,從而達(dá)到區(qū)分具有不同特征樣本的目的。分類則是一種有指導(dǎo)學(xué)習(xí)(有監(jiān)督學(xué)習(xí)),它具有先驗(yàn)知識(shí)(分類號(hào)),而無監(jiān)督聚類學(xué)習(xí)并不具有這種先驗(yàn)知識(shí)。聚類分析——算法分類基于距離的相似度計(jì)算:歐幾里德距離(歐氏距離)、曼哈頓距離主要的聚類算法可以劃分為如下幾類:劃分方法(PartitioningMethods)層次的方法(HierarchicalMethods)基于密度的方法(Density-basedMethods)基于網(wǎng)絡(luò)的方法(Grid-basedMethods)基于模型的方法(Model-basedMethods)聚類分析——K-Means算法K-means算法的具體流程如下:①從數(shù)據(jù)集中選擇聚類的K個(gè)質(zhì)心,作為初始的簇中心;②計(jì)算每個(gè)對(duì)象到各質(zhì)心的距離,把樣本指派給距離最小的簇;③根據(jù)每個(gè)簇當(dāng)前所擁有的所有對(duì)象更新質(zhì)心;④根據(jù)每個(gè)對(duì)象與各個(gè)簇中心的距離,分配給最近的簇;⑤然后轉(zhuǎn)③,重新計(jì)算每個(gè)簇的平均值。這個(gè)過程不斷重復(fù)直到滿足某個(gè)準(zhǔn)則函數(shù)才停止。注意:利用每個(gè)簇的平均值代表新的簇的質(zhì)心。聚類分析——K-Means算法
聚類分析——兩步聚類算法兩步聚類是一種探索性的聚類方法,是隨著人工智能的發(fā)展而發(fā)展起來的智能聚類方法中的一種。它最顯著的特點(diǎn)就是它分兩步進(jìn)行聚類,主要用于處理非常大的數(shù)據(jù)集,可以處理連續(xù)屬性和離散屬性。它只需遍歷數(shù)據(jù)集一次。兩步聚類的特點(diǎn)包括:同時(shí)處理離散變量和連續(xù)變量的能力;自動(dòng)選擇聚類數(shù);通過預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類模型;可以處理超大樣本量的數(shù)據(jù)。兩步算法的基本原理分為以下兩個(gè)步驟:第一步:預(yù)聚類。遍歷一次的數(shù)據(jù),對(duì)記錄進(jìn)行初始的歸類,用戶自定義最大類別數(shù)。通過構(gòu)建和修改特征樹(CFTREE)來完成;第二步:聚類。對(duì)第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案,使用層次聚類的方法將小的聚類逐漸合并成越來越大的聚類,這一過程不需要再次遍歷數(shù)據(jù)。層次聚類的好處是不要求提前選擇聚類數(shù)。許多層次聚類從單個(gè)記錄開始聚類,逐步合并成更大的類群。聚類分析——兩步聚類算法聚類特征(ClusteringFeature,CF)是BIRCH增量聚類算法的核心,CF樹中的節(jié)點(diǎn)都是由CF組成,CF是一個(gè)三元組,這個(gè)三元組就代表了簇的所有信息。給定N個(gè)d維的數(shù)據(jù)點(diǎn){x1,x2,....,xn},CF定義如下:CF=(N,LS,SS)。其中,N是子類中節(jié)點(diǎn)的數(shù)目,LS是N個(gè)節(jié)點(diǎn)的線性和,SS是N個(gè)節(jié)點(diǎn)的平方和。CF有個(gè)特性,即可以求和,具體說明如下:CF1=(n1,LS1,SS1),CF2=(n2,LS2,SS2),則CF1+CF2=(n1+n2,LS1+LS2,SS1+SS2)。CF樹是在遍歷數(shù)據(jù)集的過程中不斷添加、更新條目及分裂節(jié)點(diǎn)來形成的。根據(jù)第一個(gè)樣本即可建立根節(jié)點(diǎn)以及相應(yīng)的條目,之后逐個(gè)地將后續(xù)的樣本根據(jù)距離最小的原則指派到CF樹中。一個(gè)CF樹有三個(gè)參數(shù):B=分支系數(shù),中間節(jié)點(diǎn)的最大子節(jié)點(diǎn)數(shù)量;T=葉節(jié)點(diǎn)中的類的半徑或直徑的閾值;L=葉節(jié)點(diǎn)的最大CF簇?cái)?shù)量。聚類分析——異常檢測(cè)基于聚類的異常檢測(cè)至少有兩種方法:一種是異常檢測(cè)模型利用未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)包含了正常數(shù)據(jù)和攻擊數(shù)據(jù);另一種是模型僅利用正常數(shù)據(jù)進(jìn)行訓(xùn)練,從而建立正常行為輪廓。模型特征Portnoy等人模型采用數(shù)理統(tǒng)計(jì)的思想對(duì)原始數(shù)據(jù)包進(jìn)行標(biāo)準(zhǔn)化,對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)采用單鏈接法進(jìn)行聚類,從而識(shí)別攻擊簇Y-means改進(jìn)經(jīng)典K-means算法,不依賴k的值,動(dòng)態(tài)地對(duì)數(shù)據(jù)進(jìn)行聚類MINDS對(duì)數(shù)據(jù)進(jìn)行聚類,利用基于密度的局部孤立點(diǎn)來檢測(cè)入侵三種異常檢測(cè)模型的特征表聚類分析——異常檢測(cè)現(xiàn)在比較成熟的異常點(diǎn)檢測(cè)方法主要有以下幾類:(1)基于統(tǒng)計(jì)的方法(2)基于距離的方法(3)基于偏差的方法(4)基于密度的方法(5)高維數(shù)據(jù)的異常檢測(cè)關(guān)聯(lián)規(guī)則——基本概念
關(guān)聯(lián)規(guī)則——基本概念關(guān)聯(lián)規(guī)則依據(jù)不同的分類標(biāo)準(zhǔn),可以有以下的分類:(1)基于規(guī)則中處理變量的類型,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型考慮的是項(xiàng)集的存在與否,而數(shù)值型則是量化的關(guān)聯(lián)。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)基于規(guī)則中涉及到的數(shù)據(jù)維數(shù),可以分為單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則——算法原理關(guān)聯(lián)規(guī)則的挖掘就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度(MinimumSupport,minsup)和最小置信度(MinimumConfidence,minconf)的關(guān)聯(lián)規(guī)則。如果項(xiàng)集的支持度超過用戶給定的最小支持度閾值,就稱該項(xiàng)集是頻繁項(xiàng)集或大項(xiàng)集。具體步驟是:Step1根據(jù)最小支持度閾值找出數(shù)據(jù)集D中所有頻繁項(xiàng)目集;Step2根據(jù)頻繁項(xiàng)目集和最小置信度閾值產(chǎn)生所有關(guān)聯(lián)規(guī)則?;舅惴ㄋ枷氚ǎ海?)搜索算法。(2)分層算法(寬度優(yōu)先算法)。(3)深度優(yōu)先算法。(4)劃分算法。(5)抽樣算法。關(guān)聯(lián)規(guī)則——Apriori算法Apriori算法的基本思路:Apriori算法使用頻繁項(xiàng)集的先驗(yàn)知識(shí)(稱為逐層搜索的迭代方法),k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過掃描事務(wù)(交易)記錄,找出所有的頻繁1項(xiàng)集,該集合記做L1,然后利用L1找頻繁2項(xiàng)集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項(xiàng)集。最后再在所有的頻繁集中找出強(qiáng)規(guī)則,即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則。Apriori算法的兩大缺點(diǎn):一是可能產(chǎn)生大量的候選集,二為可能需要重復(fù)掃描數(shù)據(jù)庫。Apriori算法采用連接和剪枝兩種方式來找出所有的頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則——Apriori算法(1)連接步
為找出Lk(所有的頻繁k項(xiàng)集的集合),通過將Lk-1(所有的頻繁k-1項(xiàng)集的集合)與自身連接產(chǎn)生候選k項(xiàng)集的集合。候選集合記作Ck。設(shè)l1和l2是Lk-1中的成員。記li[j]表示li中的第j項(xiàng)。假設(shè)Apriori算法對(duì)事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序,即對(duì)于(k-1)項(xiàng)集li,li[1]<li[2]<…<li[k-1]。將Lk-1與自身連接,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&…&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1]),那認(rèn)為l1和l2是可連接。連接l1和l2產(chǎn)生的結(jié)果是{l1[1],l1[2],…,l1[k-1],l2[k-1]}。(2)剪枝步Ck是Lk的超集,也就是說,Ck的成員可能是也可能不是頻繁的。通過掃描所有的事務(wù)(交易),確定CK中每個(gè)候選的計(jì)數(shù),判斷是否小于最小支持度計(jì)數(shù),如果不是,則認(rèn)為該候選是頻繁的。為了壓縮Ck,可以利用Apriori性質(zhì):任一頻繁項(xiàng)集的所有非空子集也必須是頻繁的;反之,如果某個(gè)候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的,從而可以將其從CK中刪除。關(guān)聯(lián)規(guī)則——FP-Tree算法FP-Growth算法采取如下分治策略:將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FrequentPattern-growth,FP-Tree),但仍保留項(xiàng)集關(guān)聯(lián)信息。該算法和Apriori算法最大的不同有兩點(diǎn):第一,不產(chǎn)生候選集;第二,只需要兩次遍歷數(shù)據(jù)庫,大大提高了效率。其基本思路是不斷地迭代FP-tree的構(gòu)造和投影過程。具體算法描述如下:①對(duì)于每個(gè)頻繁項(xiàng),構(gòu)造它的條件投影數(shù)據(jù)庫和投影FP-tree;②對(duì)每個(gè)新構(gòu)建的FP-tree重復(fù)這個(gè)過程,直到構(gòu)造的新FP-tree為空,或者只包含一條路徑;③當(dāng)構(gòu)造的FP-tree為空時(shí),其前綴即為頻繁模式;當(dāng)只包含一條路徑時(shí),通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁模式。關(guān)聯(lián)規(guī)則——FP-Tree算法編號(hào)項(xiàng)目集1f,a,c,d,g,i,m,p2a,b,c,f,l,o3b,f,h,j,m,p4b,c,k,m,o,s5a,f,c,e,l,n,o,p實(shí)例項(xiàng)目集FP-Tree算法示意圖謝謝各位的聆聽!
數(shù)據(jù)挖掘準(zhǔn)備數(shù)據(jù)挖掘的準(zhǔn)備數(shù)據(jù)挖掘過程商業(yè)理解數(shù)據(jù)準(zhǔn)備數(shù)據(jù)理解數(shù)據(jù)挖掘過程——Fayyad過程模型Fayyad過程模型是一個(gè)高級(jí)處理過程,它從數(shù)據(jù)集中識(shí)別出以模式來表示的知識(shí),其包含多個(gè)處理步驟,各個(gè)步驟之間相互影響、反復(fù)調(diào)整,形成一種螺旋式的上升過程。(1)確定挖掘目標(biāo)(2)建立目標(biāo)數(shù)據(jù)集(3)數(shù)據(jù)清洗和預(yù)處理(4)數(shù)據(jù)降維和投影(5)選擇挖掘算法(6)模式評(píng)價(jià)和解釋數(shù)據(jù)挖掘過程——Fayyad過程模型Fayyad過程模型數(shù)據(jù)挖掘過程——CRISP-DM過程模型各種數(shù)據(jù)挖掘過程模型各有特色,很多都是與自己的產(chǎn)品相關(guān)聯(lián)的,并不能完全通用。因此,一些軟件供應(yīng)商和用戶組織(包括NCR,Daimler-Benz,SPSS等)成立了跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)(CRISP-DM,CrossIndustryProcessStandardforDataMining)協(xié)會(huì),開發(fā)了一個(gè)與行業(yè)無關(guān)、與工具無關(guān)的數(shù)據(jù)挖掘過程模型。這個(gè)模型主要面向數(shù)據(jù)挖掘的商務(wù)應(yīng)用,可以在數(shù)據(jù)挖掘項(xiàng)目的整個(gè)生命周期中為用戶提供指導(dǎo)??缧袠I(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)是一個(gè)分層次的過程模型。最上層稱為階段層(Phaselevel),它包含從商務(wù)理解到結(jié)果實(shí)施的六個(gè)一般性階段;第二層稱為一般任務(wù)層(Generictasklevel),它詳細(xì)描述了每一個(gè)階段所包含的任務(wù)。這些描述是一般性的,但可以概括所有的數(shù)據(jù)挖掘情況;第三層是專門任務(wù)層(Specializedtasklevel),該層將描述上一層中的一般性任務(wù)在具體的特定環(huán)境下的執(zhí)行情況。;第四層是過程實(shí)例層(Processinstancelevel),它是一個(gè)數(shù)據(jù)挖掘項(xiàng)目的實(shí)際執(zhí)行過程的行動(dòng)、決策和結(jié)果的記錄。數(shù)據(jù)挖掘過程——CRISP-DM過程模型CRISP-DM參考模型數(shù)據(jù)挖掘過程——Teradata數(shù)據(jù)挖掘流程經(jīng)過最近幾年數(shù)據(jù)挖掘項(xiàng)目的實(shí)踐,Teradata在原有主流數(shù)據(jù)挖掘方法論CRISP-DM的基礎(chǔ)上,形成了自己的理解,并把挖掘?qū)嵺`流程具體化CRISP-DM各階段工作重點(diǎn)數(shù)據(jù)挖掘過程——Teradata數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘的一般任務(wù)商業(yè)理解——商業(yè)理解任務(wù)商業(yè)理解這一階段所包含的一般性任務(wù)如下:確定業(yè)務(wù)目標(biāo)。這一步產(chǎn)生的輸出:背景、業(yè)務(wù)目標(biāo)、業(yè)務(wù)成功標(biāo)準(zhǔn)。評(píng)估環(huán)境。這一步將產(chǎn)生的輸出:資源清單、需求,假設(shè)和約束、風(fēng)險(xiǎn)和所有費(fèi)用、術(shù)語表、成本和收益。確定數(shù)據(jù)挖掘目標(biāo)。這一步產(chǎn)生的輸出:數(shù)據(jù)挖掘目標(biāo)、數(shù)據(jù)挖掘成功標(biāo)準(zhǔn)。產(chǎn)生項(xiàng)目計(jì)劃。這一步產(chǎn)生的輸出:項(xiàng)目計(jì)劃、工具和技術(shù)的初步評(píng)價(jià)。商業(yè)理解——如何定義業(yè)務(wù)需求定義業(yè)務(wù)需求是通過與提出需求的業(yè)務(wù)部門進(jìn)行溝通,就挖掘背景、目標(biāo)、當(dāng)前狀況和期望進(jìn)行深入的溝通,確定挖掘項(xiàng)目需要解決的業(yè)務(wù)問題及應(yīng)用場(chǎng)景,確保業(yè)務(wù)問題可以轉(zhuǎn)化為數(shù)據(jù)挖掘問題。定義業(yè)務(wù)需求是成功數(shù)據(jù)挖掘過程中最有技巧的一個(gè)階段,因?yàn)樗枰粩鄬?duì)問題進(jìn)行交流,以得到對(duì)問題的正確理解??梢詮娜齻€(gè)方面實(shí)現(xiàn):確定業(yè)務(wù)主題數(shù)據(jù)可行性模型如何應(yīng)用商業(yè)理解——如何設(shè)計(jì)模型思路設(shè)計(jì)模型思路是在明確業(yè)務(wù)問題的基礎(chǔ)上,將業(yè)務(wù)問題轉(zhuǎn)化為一個(gè)數(shù)據(jù)挖掘問題,并明確挖掘的基本思路。主要任務(wù)包括以下幾方面:確定業(yè)務(wù)問題對(duì)應(yīng)的挖掘問題類型確定業(yè)務(wù)目標(biāo)的數(shù)據(jù)定義確定模型的時(shí)間窗口確定數(shù)據(jù)需求商業(yè)理解——如何設(shè)計(jì)模型思路(1)確定業(yè)務(wù)問題對(duì)應(yīng)的挖掘問題類型可以從業(yè)務(wù)差異和數(shù)據(jù)差異兩個(gè)方面考慮。1)業(yè)務(wù)差異一個(gè)業(yè)務(wù)問題分解為多個(gè)不同的數(shù)據(jù)挖掘模型。例如有一個(gè)業(yè)務(wù)問題要確定哪些客戶是某產(chǎn)品的潛在高價(jià)值客戶,這里的業(yè)務(wù)目標(biāo)可以進(jìn)一步分解成兩個(gè)目標(biāo),一是哪些客戶愿意對(duì)該產(chǎn)品做出響應(yīng),另一個(gè)是對(duì)該產(chǎn)品做出響應(yīng)的客戶中哪些會(huì)成為未來消費(fèi)較高的客戶。此時(shí)我們可以轉(zhuǎn)化為兩個(gè)數(shù)據(jù)挖掘問題,一個(gè)是客戶是否對(duì)產(chǎn)品做出響應(yīng)的分類預(yù)測(cè)模型,一個(gè)是客戶對(duì)產(chǎn)品未來的消費(fèi)價(jià)值的數(shù)值預(yù)測(cè)模型。2)數(shù)據(jù)差異并非所有的問題都可以獲得相應(yīng)的數(shù)據(jù)支持。例如一人多卡識(shí)別模型中,網(wǎng)內(nèi)一人多卡的數(shù)據(jù)基礎(chǔ)遠(yuǎn)遠(yuǎn)好于跨網(wǎng)一人多卡,所以可以考慮分解成數(shù)個(gè)子問題以應(yīng)對(duì)不同的數(shù)據(jù)基礎(chǔ)。有些子問題比較簡(jiǎn)單,用業(yè)務(wù)規(guī)則就可以解決,如網(wǎng)內(nèi)一人多卡,可以通過同一身份證辦理多個(gè)號(hào)碼或一個(gè)IMEI對(duì)應(yīng)多個(gè)號(hào)碼的業(yè)務(wù)規(guī)則解決。對(duì)于較復(fù)雜的跨網(wǎng)一人多卡問題,可以通過交往圈識(shí)別模型解決。商業(yè)理解——如何設(shè)計(jì)模型思路(2)確定業(yè)務(wù)目標(biāo)的數(shù)據(jù)定義對(duì)于有目標(biāo)變量的數(shù)據(jù)挖掘問題,首先需要確定目標(biāo)變量的數(shù)據(jù)定義。最常見的情況是二分類預(yù)測(cè)問題,如流失預(yù)警模型中目標(biāo)變量為客戶是否流失,營銷活動(dòng)響應(yīng)度模型中目標(biāo)變量為客戶是否會(huì)對(duì)營銷活動(dòng)做出響應(yīng),它們的數(shù)據(jù)目標(biāo)比較容易確定。有些挖掘問題的數(shù)據(jù)目標(biāo)較難確定,需要通過一定的分析來確定。在數(shù)據(jù)定義確定以后,分析用戶群的范圍也基本確定。商業(yè)理解——如何設(shè)計(jì)模型思路(3)確定模型的時(shí)間窗口對(duì)有目標(biāo)變量的挖掘模型,確定模型的時(shí)間窗口非常重要,模型的時(shí)間窗口可以分為模型構(gòu)建時(shí)間窗口和模型應(yīng)用時(shí)間窗口。任意時(shí)間可以分為三個(gè)階段:過去、當(dāng)前和將來,建立模型的目的就是用過去的數(shù)據(jù)來預(yù)測(cè)將來的結(jié)果,這是模型應(yīng)用的階段。在模型構(gòu)建階段,過去、當(dāng)前和將來就是較遠(yuǎn)的過去、不遠(yuǎn)的過去和最近的過去。預(yù)測(cè)模型通過發(fā)現(xiàn)“較遠(yuǎn)的過去”事情發(fā)生的規(guī)律來解釋“最近的過去”發(fā)生的結(jié)果,當(dāng)模型構(gòu)建完成后,就可以用“最近的過去”發(fā)生的事情來預(yù)測(cè)將來要發(fā)生的事情。數(shù)據(jù)挖掘?qū)r(shí)間的劃分商業(yè)理解——如何設(shè)計(jì)模型思路(4)確定數(shù)據(jù)需求確定數(shù)據(jù)需求主要是確定模型分析用戶群及數(shù)據(jù)需求的時(shí)間跨度。當(dāng)業(yè)務(wù)目標(biāo)的數(shù)據(jù)定義確定以后,分析用戶群的范圍就確定了,例如流失預(yù)警模型中那些當(dāng)前狀態(tài)不正常的用戶需要剔除。當(dāng)模型的時(shí)間窗口確定以后,數(shù)據(jù)需求的時(shí)間范圍就確定了,例如流失預(yù)警模型的分析窗口如果取三個(gè)月的話,那些最近三個(gè)月入網(wǎng)的用戶因?yàn)闆]有足夠的行為信息,需要進(jìn)行剔除。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)準(zhǔn)備任務(wù)數(shù)據(jù)準(zhǔn)備過程中包含了大量的各種任務(wù),收集、描述和探測(cè)數(shù)據(jù)算一類,選擇、清洗、構(gòu)建、集成和格式化算另外一類,檢驗(yàn)數(shù)據(jù)質(zhì)量是最后一類:收集原始數(shù)據(jù)描述數(shù)據(jù)探測(cè)數(shù)據(jù)數(shù)據(jù)選擇數(shù)據(jù)清洗數(shù)據(jù)構(gòu)建數(shù)據(jù)集成數(shù)據(jù)格式化檢驗(yàn)數(shù)據(jù)質(zhì)量數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)準(zhǔn)備任務(wù)(1)收集原始數(shù)據(jù)獲取項(xiàng)目資源需求中所列出的數(shù)據(jù)。如果需要,這一步驟也包括數(shù)據(jù)裝入。例如,如果你使用了某種數(shù)據(jù)理解工具,那么把數(shù)據(jù)裝入這個(gè)工具就是必須的。這個(gè)工作往往會(huì)導(dǎo)致初步的數(shù)據(jù)準(zhǔn)備工作。注意:如果你從多個(gè)數(shù)據(jù)源獲取數(shù)據(jù),那么還需要考慮數(shù)據(jù)集成工作。這一步產(chǎn)生的輸出:原始數(shù)據(jù)收集報(bào)告。數(shù)據(jù)收集報(bào)告中應(yīng)包括以下內(nèi)容:數(shù)據(jù)源(內(nèi)部數(shù)據(jù)庫或外部提供者)擁有者負(fù)責(zé)維護(hù)此數(shù)據(jù)的人/組織DBA費(fèi)用(如果需要購買)存儲(chǔ)方式(如:Oracle數(shù)據(jù)庫、MSAM文件等)表、字段、記錄的數(shù)目字節(jié)數(shù)物理存儲(chǔ)方式(CD-ROM、磁帶、服務(wù)器等)安全需求使用限制隱私需求數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)準(zhǔn)備任務(wù)(2)描述數(shù)據(jù)從總體和表面上描述所獲得數(shù)據(jù)的屬性并給出報(bào)告,包括:數(shù)據(jù)格式、數(shù)據(jù)量、一致性等,并檢查是否能夠滿足相關(guān)要求。這一步產(chǎn)生的輸出:數(shù)據(jù)描述報(bào)告。數(shù)據(jù)描述報(bào)告應(yīng)包括以下內(nèi)容:字段/列的數(shù)目;字段是空(缺)值的數(shù)目/百分比;字段的名字。對(duì)每個(gè)字段還包括:數(shù)據(jù)類型定義描述源計(jì)量單位所有不同值的個(gè)數(shù)值的列表值的范圍空值的百分比收集信息(收集方式,收集地點(diǎn),收集條件等)時(shí)間頻度(每天、每周或每月)特別時(shí)間數(shù)據(jù)(如:每個(gè)周一或每個(gè)周三)主鍵/外鍵關(guān)系數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)準(zhǔn)備任務(wù)(3)探測(cè)數(shù)據(jù)
數(shù)據(jù)探測(cè)任務(wù)是處理那些使用查詢、可視化和報(bào)表技術(shù)就可以完成的數(shù)據(jù)挖掘問題。這些問題包括:關(guān)鍵屬性的分布(如一個(gè)預(yù)測(cè)任務(wù)的目標(biāo)屬性)、屬性對(duì)或少量屬性之間的關(guān)系、簡(jiǎn)單的總計(jì)結(jié)果、重要子集的屬性和簡(jiǎn)單的統(tǒng)計(jì)分析。這些分析可能直接達(dá)到了某個(gè)數(shù)據(jù)挖掘目標(biāo),也可能豐富或細(xì)化了數(shù)據(jù)描述和質(zhì)量報(bào)告,或者作為將來的數(shù)據(jù)轉(zhuǎn)換和其他數(shù)據(jù)準(zhǔn)備工作的輸入。這一步將產(chǎn)生的輸出:數(shù)據(jù)探測(cè)報(bào)告。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)準(zhǔn)備任務(wù)(4)數(shù)據(jù)選擇數(shù)據(jù)選擇主要用于分析所收集到的數(shù)據(jù),并決定選擇數(shù)據(jù)和排除數(shù)據(jù)的原則和標(biāo)準(zhǔn)。數(shù)據(jù)選擇標(biāo)準(zhǔn)包括:與數(shù)據(jù)挖掘目標(biāo)的相關(guān)程度、質(zhì)量和技術(shù)約束(例如,所能處理的數(shù)據(jù)量或數(shù)據(jù)類型)。選擇的范圍既包括數(shù)據(jù)表中的屬性列也包括記錄行。這與對(duì)數(shù)據(jù)進(jìn)行采樣和選擇預(yù)測(cè)變量不同,這里只是粗略的把一些冗余或無關(guān)的數(shù)據(jù)去除,或者是由于資源、費(fèi)用和數(shù)據(jù)使用的限制以及質(zhì)量問題而必須做出的選擇。這一步產(chǎn)生的輸出:選擇與排除數(shù)據(jù)的基本原則。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)準(zhǔn)備任務(wù)(5)數(shù)據(jù)清洗將數(shù)據(jù)質(zhì)量提升到符合所選擇的分析技術(shù)的需求。這可能涉及到選擇數(shù)據(jù)中干凈的子集、插入合適的缺省值或者某些更加深入的技術(shù),如通過建模來估計(jì)缺失的數(shù)據(jù)。數(shù)據(jù)清洗要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件事情。存在各種各樣的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)字段中可能包含了不正確的值。比如,身份證號(hào)碼字段被錄入了年齡數(shù)據(jù)、男性懷孕、不合理的空值等等。對(duì)缺值的處理有著幾種不同的策略:一種是把存在缺值的記錄刪除,這種方法可能會(huì)丟失大量的信息;另一種是為缺失的值計(jì)算一個(gè)替代值。比如,使用缺值所在字段的中間值、平均值和形式值等來替換;還有一種方法就是為這個(gè)缺值的字段用數(shù)據(jù)挖掘技術(shù)建立一個(gè)預(yù)測(cè)模型,然后按照這個(gè)模型的預(yù)測(cè)結(jié)果替換缺值。這一步產(chǎn)生的輸出:數(shù)據(jù)清洗報(bào)告。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)準(zhǔn)備任務(wù)(6)數(shù)據(jù)構(gòu)建這個(gè)任務(wù)包括建設(shè)性的數(shù)據(jù)準(zhǔn)備工作,例如:導(dǎo)出屬性的產(chǎn)生、已有屬性的全新記錄或變換了的值。導(dǎo)出屬性是指那些從同一條記錄的一個(gè)或幾個(gè)已有屬性構(gòu)建得來的新屬性。例如:面積=長度×寬度。生成記錄指的是新記錄的創(chuàng)造。例如:為那些過去從沒有購買記錄的客戶生成記錄,這是因?yàn)?,雖然原始數(shù)據(jù)中不可能有這些記錄,但是為了建模的需要,必須明確的表示特定顧客沒有購買這一事實(shí)。這一步產(chǎn)生的輸出:導(dǎo)出屬性、生成記錄。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)準(zhǔn)備任務(wù)(7)數(shù)據(jù)集成數(shù)據(jù)集成是指將來自不同表或記錄
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- AChE-MAO-B-IN-7-生命科學(xué)試劑-MCE
- 科技創(chuàng)新在電動(dòng)汽車充電站建設(shè)中的應(yīng)用
- 社交媒體行業(yè)安全與隱私保護(hù)研究
- 屋地施工合同范本
- 科技助力下的電子商務(wù)物流變革
- 社區(qū)教育服務(wù)點(diǎn)-助力居民終身學(xué)習(xí)
- 電競(jìng)文化下的心理健康教育與保障措施在酒店中實(shí)施
- 2025貴州黔南州荔波縣昌發(fā)水利投資有限責(zé)任公司招聘專業(yè)技術(shù)人員及擬人員筆試參考題庫附帶答案詳解
- 科技教育中的教師情感引導(dǎo)策略研究
- 科技創(chuàng)新在商業(yè)競(jìng)爭(zhēng)中的優(yōu)勢(shì)體現(xiàn)
- 高中主題班會(huì) 悟哪吒精神做英雄少年-下學(xué)期開學(xué)第一課主題班會(huì)課件-高中主題班會(huì)課件
- 2025電力物資檢儲(chǔ)配一體化建設(shè)技術(shù)導(dǎo)則
- 新學(xué)期 開學(xué)第一課 主題班會(huì)課件
- 民法典合同編講座
- 2024年青島港灣職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 廣西壯族自治區(qū)公路發(fā)展中心2025年面向社會(huì)公開招聘657名工作人員高頻重點(diǎn)提升(共500題)附帶答案詳解
- 大學(xué)轉(zhuǎn)專業(yè)高等數(shù)學(xué)試卷
- DBJ51-T 198-2022 四川省既有民用建筑結(jié)構(gòu)安全隱患排查技術(shù)標(biāo)準(zhǔn)
- 公司廠區(qū)保潔培訓(xùn)
- 江蘇省招標(biāo)中心有限公司招聘筆試沖刺題2025
- 2024年防盜門銷售合同范本
評(píng)論
0/150
提交評(píng)論