數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第1頁
數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第2頁
數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第3頁
數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第4頁
數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第5頁
免費預覽已結(jié)束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)預處理1 數(shù)據(jù)清理數(shù)據(jù)清洗是清除錯誤和不一致數(shù)據(jù)的過程,當然,數(shù)據(jù)清洗不是簡單的用更新數(shù)據(jù)記錄,在數(shù)據(jù)挖掘過程中,數(shù)據(jù)清洗是第一步驟,即對數(shù)據(jù)進行預處理的過程。數(shù)據(jù)清洗的任務是過濾或者修改那些不符合要求的數(shù)據(jù)。不符合要求的數(shù)據(jù)主要有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)和重復的數(shù)據(jù)3大類。各種不同的挖掘系統(tǒng)都是針對特定的應用領域進行數(shù)據(jù)清洗的。包括:1) 檢測并消除數(shù)據(jù)異常2) 檢測并消除近似重復記錄3) 數(shù)據(jù)的集成4) 特定領域的數(shù)據(jù)清洗項目中的數(shù)據(jù)來源于數(shù)據(jù)倉庫,其中數(shù)據(jù)是不完整的、有噪聲和不一致的。數(shù)據(jù)清理過程試圖填充缺失的值,光滑噪聲并識別離群點,并糾正數(shù)據(jù)中的不一致。數(shù)據(jù)清洗的目的是為挖掘提供準確而有效的數(shù)據(jù),提高挖掘效率。下面介紹數(shù)據(jù)清理的過程,該過程依照云平臺的處理流程。2 缺失值處理對于數(shù)據(jù)集中的數(shù)據(jù),存在有這樣兩種情況:1) 數(shù)據(jù)中有大量缺失值的屬性,我們通常采取的措施是直接刪除,但是在有些系統(tǒng)進行ETL處理時,不能直接處理大量的缺失值。2) 對于比較重要的屬性,也會存在少量缺失值,需要將數(shù)據(jù)補充完整后進行一系列的數(shù)據(jù)挖掘。針對這兩種不完整的數(shù)據(jù)特征,在數(shù)據(jù)清洗時采取了以下兩種方式對數(shù)據(jù)填補:1) 將缺失的屬性值用同一個常數(shù)替換,如“Unknown”。這種方式用于處理上述的第一種數(shù)據(jù)特征的數(shù)據(jù),先用一個替換值將空值進行約束替換。處理后的數(shù)據(jù)對后期挖掘工作沒有價值會選擇刪除。2) 利用該屬性的最可能的值填充缺失值。對于第二種數(shù)據(jù)特征的數(shù)據(jù),事先對每個屬性進行值統(tǒng)計,統(tǒng)計其值的分布狀態(tài)和頻率,對該屬性的所有遺漏的值均利用出現(xiàn)頻率最高的那個值來填補。對缺失數(shù)據(jù)進行填補后,填入的值可能不正確,數(shù)據(jù)可能會存在偏置,并不是十分可靠的。然而,該方法使用了該屬性已有數(shù)據(jù)的大部分信息來預測缺失值。在估計缺失值時,通過考慮該屬性的值的整體分布與頻率,保持該屬性的整體分布狀態(tài)。3 數(shù)據(jù)選擇在對數(shù)據(jù)進行第一步缺失值清理后,會考慮刪除掉冗余屬性、或者與挖掘關系不大的屬性,這稱為人工選擇。屬性的人工選擇和數(shù)據(jù)消減是不同的,即使兩者的目的都是縮小所挖掘數(shù)據(jù)的規(guī)模,但卻不會影響(或基本不影響)最終的挖掘結(jié)果。都屬于屬性的降維,但是現(xiàn)有的數(shù)據(jù)消減包括:數(shù)據(jù)聚合、消減維度、數(shù)據(jù)壓縮和數(shù)據(jù)塊消減。而人工屬性選擇是物理降維方式,通過對業(yè)務的理解和相關人員的溝通,對數(shù)據(jù)集中的數(shù)據(jù)進行初步的篩選。4 數(shù)據(jù)變換數(shù)據(jù)變換是數(shù)據(jù)清理過程的第二步,是對數(shù)據(jù)的一個標準化的處理。大部分數(shù)據(jù)需要進行數(shù)據(jù)變換。數(shù)據(jù)變換是不同來源所得到的數(shù)據(jù)可能導致不一致,所以需要進行數(shù)據(jù)變換,構成一個適合數(shù)據(jù)挖掘決的描述形式。在項目中我們進行數(shù)據(jù)轉(zhuǎn)換包含的處理內(nèi)容有:(1) 屬性的數(shù)據(jù)類型轉(zhuǎn)換。當屬性之間的取值范圍可能相差很大時,要進行數(shù)據(jù)的映射處理,映射關系可以去平方根、標準方差以及區(qū)域?qū)?。當屬性的取值類型較小時,分析數(shù)據(jù)的頻率分布,然后進行數(shù)值轉(zhuǎn)換,將其中字符型的屬性轉(zhuǎn)換為枚舉型。(2) 屬性構造。根據(jù)已有的屬性集構造新的屬性,以幫助數(shù)據(jù)挖掘過程。很多情況下需要從原始數(shù)據(jù)中生成一些新的變量作為預測變量。(3) 數(shù)據(jù)離散化。將連續(xù)取值的屬性離散化成若干區(qū)間,來幫助消減一個連續(xù)屬性的取值個數(shù)。例如年齡字段取值大于0,為了分析的方便,根據(jù)經(jīng)驗,可以將用戶的年齡段分成幾個不同的區(qū)間:015、1624、2535、3655、大于55,分別用1,2,3,4,5來表示。(4) 數(shù)據(jù)標準化:不同來源所得到的相同字段定義可能不一樣。如性別有男、女來表示,需要將定義標準化,把它們的定義和取值區(qū)間統(tǒng)一起來。如性別定義1(男)、2(女)、3(缺失)。數(shù)據(jù)標準化過程還用來消除變量之間不同數(shù)量級造成的數(shù)值之間的懸殊差異,消除個別數(shù)值較高的屬性對聚類結(jié)果的影響。5 數(shù)據(jù)的集成數(shù)據(jù)集成是把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為數(shù)據(jù)挖掘提供完整的數(shù)據(jù)源。數(shù)據(jù)集成處理需要考慮以下幾個問題:(1)來自多個數(shù)據(jù)源的數(shù)據(jù)表通過相同的主鍵進行自然連接,各個表中的主鍵要相互匹配,否則不能連接。(2)冗余問題,這是數(shù)據(jù)集成中經(jīng)常發(fā)生的一個問題,所以在連接之前對各個表中字段進行人工選擇,并采用自然連接的方式,防止冗余字段產(chǎn)生。(3)數(shù)據(jù)值的沖突檢測,來自不同數(shù)據(jù)源的屬性值或許不同,所以要檢查數(shù)據(jù)表中連接字段的類型和是否有相同的記錄等問題。6 數(shù)據(jù)消減對大規(guī)模的數(shù)據(jù)進行復雜的數(shù)據(jù)分析與數(shù)據(jù)挖掘通常需要耗費大量時間,所以在數(shù)據(jù)挖掘前要進行數(shù)據(jù)的約減,減小數(shù)據(jù)規(guī)模,而且還需要交互式的數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)挖掘前后對比對數(shù)據(jù)進行信息反饋。數(shù)據(jù)消減技術正是用于從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。數(shù)據(jù)消減的目的就是縮小所挖掘數(shù)據(jù)的規(guī)模,但卻不會影響(或基本不影響)最終的挖掘結(jié)果?,F(xiàn)有的數(shù)據(jù)消減包括:(1)數(shù)據(jù)聚合;(2)消減維度,通過相關分析消除多余屬性;(3)數(shù)據(jù)壓縮;(4)數(shù)據(jù)塊消減,利用聚類或參數(shù)模型替代原有數(shù)據(jù)。7 數(shù)據(jù)清洗評估 數(shù)據(jù)清洗的評估實質(zhì)上是對清洗后的數(shù)據(jù)的質(zhì)量進行評估, 而數(shù)據(jù)質(zhì)量的評估過程是一種通過測量和改善數(shù)據(jù)綜合特征來優(yōu)化數(shù)據(jù)價值的過程。數(shù)據(jù)質(zhì)量評價指標和方法研究的難點在于數(shù)據(jù)質(zhì)量的含義、 內(nèi)容、 分類、分級、 質(zhì)量的評價指標等。數(shù)據(jù)質(zhì)量評估至少應該包含以下兩方面的基本評估指標:1) 數(shù)據(jù)對用戶必須是可信的??尚判园ň_性、 完整性、 一致性、 有效性、 唯一性等指標。(1) 精確性: 描述數(shù)據(jù)是否與其對應的客觀實體的特征相一致。(2) 完整性: 描述數(shù)據(jù)是否存在缺失記錄或缺失字段。(3) 一致性: 描述同一實體的同一屬性的值在不同的系統(tǒng)是否一致。(4) 有效性: 描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。(5) 唯一性: 描述數(shù)據(jù)是否存在重復記錄。2) 數(shù)據(jù)對用戶必須是可用的。包括時間性、 穩(wěn)定性等指標。(1) 時間性: 描述數(shù)據(jù)是當前數(shù)據(jù)還是歷史數(shù)據(jù)。(2) 穩(wěn)定性: 描述數(shù)據(jù)是否是穩(wěn)定的, 是否在其有效期內(nèi)。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此,數(shù)據(jù)變換操作,如規(guī)范化和集成,是導向挖掘過程成功的預處理過程,是十分必要和重要的。1:C4.5 C4.5就是一個決策樹算法,它是決策樹(決策樹也就是做決策的節(jié)點間的組織方式像一棵樹,其實是一個倒樹)核心算法ID3的改進算法,所以基本上了解了一半決策樹構造方法就能構造它。決策樹構造方法其實就是每次選擇一個好的特征以及分裂點作為當前節(jié)點的分類條件。C4.5比ID3改進的地方時: ID3選擇屬性用的是子樹的信息增益(這里可以用很多方法來定義信息,ID3使用的是熵(entropy)(熵是一種不純度度量準則),也就是熵的變化值.而C4.5用的是信息增益率。也就是多了個率嘛。一般來說率就是用來取平衡用的,就像方差起的作用差不多,比如有兩個跑步的人,一個起點是10m/s的人、其1s后為20m/s;另一個人起速是1m/s、其1s后為2m/s。如果緊緊算差值那么兩個差距就很大了,如果使用速度增加率(加速度)來衡量,2個人就是一樣了。在這里,其克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。在樹構造過程中進行剪枝,我在構造決策樹的時候好討厭那些掛著幾個元素的節(jié)點。對于這種節(jié)點,干脆不考慮最好,不然很容易導致overfitting。對非離散數(shù)據(jù)都能處理,這個其實就是一個個式,看對于連續(xù)型的值在哪里分裂好。也就是把連續(xù)性的數(shù)據(jù)轉(zhuǎn)化為離散的值進行處理。能夠?qū)Σ煌暾麛?shù)據(jù)進行處理,這個重要也重要,其實也沒那么重要,缺失數(shù)據(jù)采用一些方法補上去就是了。 2:CART CART也是一種決策樹算法!相對于上著有條件實現(xiàn)一個節(jié)點下面有多個子樹的多元分類,CART只是分類兩個子樹,這樣實現(xiàn)起來稍稍簡便些。所以說CART算法生成的決策樹是結(jié)構簡潔的二叉樹。 3:KNN(K Nearest Neighbours) 這個很簡單,就是看你周圍的K個人(樣本)那個類別的人占的多,那個多那我也是那個多的。實現(xiàn)起來就是對每個訓練樣本都計算與其相似度,選擇相似度Top-K個訓練樣本出來,看這K個樣本中那個類別的多些,誰多跟誰。 4:Naïve Bayes(樸素貝葉斯NB) NB認為各個特征是獨立的,誰也不關誰的事。所以一個樣本(特征值的集合,比如”數(shù)據(jù)結(jié)構”出現(xiàn)2詞,“文件”出現(xiàn)1詞),可以通過對其所有出現(xiàn)特征在給定類別的概率相乘。比如“數(shù)據(jù)結(jié)構”出現(xiàn)在類1的概率為0.5,“文件”出現(xiàn)在類1的概率為0.3,則可認為其屬于類1的概率為0.5*0.5*0.3。 5:Support Vector Machine(支持向量機SVM) SVM就是想找一個分類得最”好”的分類線/分類面(最近的一些兩類樣本到這個”線”的距離最遠)。這個沒具體實現(xiàn)過,上次聽課,那位老師自稱自己實現(xiàn)了SVM,敬佩其鉆研精神。常用的工具包是LibSVM,SVMLight,MySVM. 6:EM(期望最大化) 這個我認為就是假設數(shù)據(jù)時由幾個高斯分布組成的,所以最后就是要求幾個高斯分布的參數(shù)。通過先假設幾個值,然后通過反復迭代,以期望得到最好的擬合。 7:Apriori 這個是做關聯(lián)規(guī)則用的。不知道為什么,一提高關聯(lián)規(guī)則我就想到購物籃數(shù)據(jù)。這個沒實現(xiàn)過,不過也還要理解,它就是通過支持度和置信度兩個量來工作,不過對于Apriori,它通過頻繁項集的一些規(guī)律(頻繁項集的子集必定是頻繁項集等等啦)來減少計算復雜度。 8:FP-Tree(Mining frequent patterns without candidate generation) 這個也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一種緊縮的數(shù)據(jù)結(jié)構來存儲查找頻繁項集所需要的全部信息。采用算法:將提供頻繁項集的數(shù)據(jù)庫壓縮到一棵FP-tree來保留項集關聯(lián)信息,然后將壓縮后的數(shù)據(jù)庫分成一組條件數(shù)據(jù)庫(一種特殊類型的投影數(shù)據(jù)庫),每個條件數(shù)據(jù)庫關聯(lián)一個頻繁項集。 9:PageRank 大名鼎鼎的PageRank大家應該都知道(Google靠此專利發(fā)家,其實也不能說發(fā)家啦!)。對于這個算法我的理解就是:如果我指向你(網(wǎng)頁間的連接)則表示我承認你,則在計算你的重要性的時候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承認多少個人)。通過反復這樣來,可以求的一個穩(wěn)定的衡量各個人(網(wǎng)頁)重要性的值。不過這里必須要做些限制(一個人的開始默認重要性都是1),不然那些值會越來越大越來越大。 10:HITS HITS也是一個連接分析算法,它是由IBM首先提出的。在HITS,每個節(jié)點(網(wǎng)頁)都有一個重要度和權威度(Hubs and authorities,我也忘了具體的翻譯是什么了)。通過反復通過權威度來求重要度,通過重要度來求權威度得到最后的權威度和重要度。 11:K-Means K-Means是一種最經(jīng)典也是使用最廣泛的聚類方法,時至今日任然有很多基于其的改進模型提出。K-Means的思想很簡單,對于一個聚類任務(你需要指明聚成幾個類,當然按照自然想法來說不應該需要指明類數(shù),這個問題也是當前聚類任務的一個值得研究的課題),首先隨機選擇K個簇中心,然后反復計算下面的過程直到所有簇中心不改變(簇集合不改變)為止:步驟1:對于每個對象,計算其與每個簇中心的相似度,把其歸入與其最相似的那個簇中。 步驟2:更新簇中心,新的簇中心通過計算所有屬于該簇的對象的平均值得到。 k-means 算法的工作過程說明如下:首先從n個數(shù)據(jù)對象任意選擇k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù). k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。 12:BIRCH BIRCH也是一種聚類算法,其全稱是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理論沒具體實現(xiàn)過。是一個綜合的層次聚類特征(Clustering Feature, CF)和聚類特征樹(CF Tree)兩個概念,用于概括聚類描述。聚類特征樹概括了聚類的有用信息,并且占用空間較元數(shù)據(jù)集合小得多,可以存放在內(nèi)存中,從而可以提高算法在大型數(shù)據(jù)集合上的聚類速度及可伸縮性。 BIRCH算法包括以下兩個階段: 1)掃描數(shù)據(jù)庫,建立動態(tài)的一棵存放在內(nèi)存的CF Tree。如果內(nèi)存不夠,則增大閾值,在原樹基礎上構造一棵較小的樹。 2)對葉節(jié)點進一步利用一個全局性的聚類算法,改進聚類質(zhì)量。 由于CF Tree的葉節(jié)點代表的聚類可能不是自然的聚類結(jié)果,原因是給定的閾值限制了簇的大小,并且數(shù)據(jù)的輸入順序也會影響到聚類結(jié)果。因此需要對葉節(jié)點進一步利用一個全局性的聚類算法,改進聚類質(zhì)量。 13:AdaBoost AdaBoost做分類的一般知道,它是一種boosting方法。這個不能說是一種算法,應該是一種方法,因為它可以建立在任何一種分類算法上,可以是決策樹,NB,SVM等。 Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權值。將修改過權值的新數(shù)據(jù)集送給下層分類器進行訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器。使用adaboost分類器可以排除一些不必要的訓練數(shù)據(jù),并將關鍵放在關鍵的訓練數(shù)據(jù)上面。 14:GSP GSP,全稱為Generaliz

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論