《數(shù)據(jù)挖掘》課程PPT-分類和預(yù)測資料.ppt

上傳人：1*** IP屬地：浙江上傳時(shí)間：2020-08-09 格式：PPT 頁數(shù)：36 大?。?99.51KB 積分：20 舉報(bào) 版權(quán)申訴

《數(shù)據(jù)挖掘》課程PPT-分類和預(yù)測資料.ppt_第2頁

《數(shù)據(jù)挖掘》課程PPT-分類和預(yù)測資料.ppt_第3頁

《數(shù)據(jù)挖掘》課程PPT-分類和預(yù)測資料.ppt_第4頁

《數(shù)據(jù)挖掘》課程PPT-分類和預(yù)測資料.ppt_第5頁

免費(fèi)預(yù)覽已結(jié)束，剩余31頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、分類和預(yù)測,分類 VS. 預(yù)測,分類和預(yù)測是兩種數(shù)據(jù)分析形式，用于提取描述重要數(shù)據(jù)類或預(yù)測未來的數(shù)據(jù)趨勢的模型分類：預(yù)測類對象的分類標(biāo)號（或離散值）根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性，構(gòu)建模型來分類現(xiàn)有數(shù)據(jù)，并用來分類新數(shù)據(jù) 預(yù)測：建立連續(xù)函數(shù)值模型比如預(yù)測空缺值，或者預(yù)測顧客在計(jì)算機(jī)設(shè)備上的花費(fèi) 典型應(yīng)用欺詐檢測、市場定位、性能預(yù)測、醫(yī)療診斷,分類和預(yù)測-示例,分類銀行貸款員需要分析數(shù)據(jù)，來弄清哪些貸款申請者是安全的，哪些是有風(fēng)險(xiǎn)的（將貸款申請者分為“安全”和“有風(fēng)險(xiǎn)”兩類）我們需要構(gòu)造一個(gè)分類器來預(yù)測類屬編號，比如預(yù)測顧客屬類預(yù)測銀行貸款員需要預(yù)測貸給某個(gè)顧客多少錢是安全的

2、構(gòu)造一個(gè)預(yù)測器，預(yù)測一個(gè)連續(xù)值函數(shù)或有序值，常用方法是回歸分析,數(shù)據(jù)分類一個(gè)兩步過程 (1),第一步，也成為學(xué)習(xí)步，目標(biāo)是建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器分類算法通過分析或從訓(xùn)練集“學(xué)習(xí)”來構(gòu)造分類器。訓(xùn)練集由數(shù)據(jù)庫元組（用n維屬性向量表示）和他們相對應(yīng)的類編號組成；假定每個(gè)元組屬于一個(gè)預(yù)定義的類訓(xùn)練元組：訓(xùn)練數(shù)據(jù)集中的單個(gè)元組學(xué)習(xí)模型可以用分類規(guī)則、決策樹或數(shù)學(xué)公式的形式提供,數(shù)據(jù)分類一個(gè)兩步過程 (2),第二步，使用模型，對將來的或未知的對象進(jìn)行分類首先評估模型的預(yù)測準(zhǔn)確率對每個(gè)測試樣本，將已知的類標(biāo)號和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準(zhǔn)確率是正確被模型

3、分類的測試樣本的百分比測試集要獨(dú)立于訓(xùn)練樣本集，否則會出現(xiàn)“過分?jǐn)M合”的情況,第一步建立模型,訓(xùn)練數(shù) 據(jù)集,分類算法,IF rank = professor OR years 6 THEN tenured = yes,分類規(guī)則,第二步用模型進(jìn)行分類,分類規(guī)則,測試集,未知數(shù)據(jù),(Jeff, Professor, 4),Tenured?,監(jiān)督學(xué)習(xí) VS. 無監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)（用于分類）模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的“指導(dǎo)”下進(jìn)行新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進(jìn)行分類無監(jiān)督學(xué)習(xí)（用于聚類）每個(gè)訓(xùn)練樣本的類編號是未知的，要學(xué)習(xí)的類集合或數(shù)量也可能是事先未知的通過一系列的度

4、量、觀察來建立數(shù)據(jù)中的類編號或進(jìn)行聚類,數(shù)據(jù)預(yù)測的兩步過程,數(shù)據(jù)預(yù)測也是一個(gè)兩步的過程，類似于前面描述的數(shù)據(jù)分類對于預(yù)測，沒有“類標(biāo)號屬性” 要預(yù)測的屬性是連續(xù)值，而不是離散值，該屬性可簡稱“預(yù)測屬性” E.g. 銀行貸款員需要預(yù)測貸給某個(gè)顧客多少錢是安全的預(yù)測器可以看作一個(gè)映射或函數(shù)y=f(X) 其中X是輸入；y是輸出，是一個(gè)連續(xù)或有序的值與分類類似，準(zhǔn)確率的預(yù)測，也要使用單獨(dú)的測試集,準(zhǔn)備分類和預(yù)測的數(shù)據(jù),通過對數(shù)據(jù)進(jìn)行預(yù)處理，可以提高分類和預(yù)測過程的準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲，處理空缺值，從而減少學(xué)習(xí)時(shí)的混亂相關(guān)分析數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān)；

5、也有些屬性可能是冗余的；刪除這些屬性可以加快學(xué)習(xí)步驟，使學(xué)習(xí)結(jié)果更精確數(shù)據(jù)變換與歸約數(shù)據(jù)可以通過規(guī)范化進(jìn)行變換，將所給屬性的所有值按比例進(jìn)行縮放，使其落入一個(gè)較小的指定區(qū)間，例 0.0, 1.0（ANN和設(shè)計(jì)距離的度量方法中常用）可以將數(shù)據(jù)概化到較高層概念,比較分類方法,使用下列標(biāo)準(zhǔn)比較分類和預(yù)測方法預(yù)測的準(zhǔn)確率：模型正確預(yù)測新數(shù)據(jù)的類編號的能力速度：產(chǎn)生和使用模型的計(jì)算花銷健壯性：給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù)，模型正確預(yù)測的能力可伸縮性：對大量數(shù)據(jù)，有效的構(gòu)建分類器或預(yù)測器的能力可解釋性：學(xué)習(xí)模型提供的理解和洞察的層次,用決策樹歸納分類 (1),什么是決策樹？類似于流程圖的

6、樹結(jié)構(gòu) 每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測試每個(gè)分枝代表一個(gè)測試輸出每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類編號,age?,student?,credit rating?,no,yes,fair,excellent,youth,senior,no,no,yes,yes,yes,Middle aged,決策樹：Buys_computer,用決策樹歸納分類 (2),使用決策樹分類給定一個(gè)類標(biāo)號未知的元組X，在決策樹上測試元組的屬性值，跟蹤一條由根到葉節(jié)點(diǎn)的路徑，葉節(jié)點(diǎn)存放該元組的類預(yù)測。決策樹容易轉(zhuǎn)換為分類規(guī)則決策樹的生成由兩個(gè)階段組成決策樹構(gòu)建使用屬性選擇度量來選擇將元組最好的劃分為不同的類的屬性遞

7、歸的通過選定的屬性，來劃分樣本（必須是離散值）樹剪枝決策樹建立時(shí)，許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和離群點(diǎn)點(diǎn)，樹剪枝試圖識別并剪去這種分枝，以提高對未知數(shù)據(jù)分類的準(zhǔn)確性,決策樹歸納策略 (1),輸入數(shù)據(jù)劃分D是訓(xùn)練元組和對應(yīng)類標(biāo)號的集合 attribute_list,候選屬性的集合 Attribute_selection_method，指定選擇屬性的啟發(fā)性過程算法步驟樹以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)（N）開始如果樣本都在同一個(gè)類，則該節(jié)點(diǎn)成為樹葉，并用該類標(biāo)記否則，算法調(diào)用Attribute_selection_method，選擇能夠最好的將樣本分類的屬性；確定“分裂準(zhǔn)則”，指出“分

8、裂點(diǎn)”或“分裂子集”。,P189 圖6-3,決策樹歸納策略 (2),對測試屬性每個(gè)已知的值，創(chuàng)建一個(gè)分支，并以此劃分元組算法使用同樣的過程，遞歸的形成每個(gè)劃分上的元組決策樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上，就不在該節(jié)點(diǎn)的任何子節(jié)點(diǎn)上出現(xiàn) 遞歸劃分步驟停止的條件劃分D（在N節(jié)點(diǎn)提供）的所有元組屬于同一類沒有剩余屬性可以用來進(jìn)一步劃分元組使用多數(shù)表決沒有剩余的樣本給定分支沒有元組，則以D中多數(shù)類創(chuàng)建一個(gè)樹葉,P189 圖6-3,屬性選擇度量,屬性選擇度量是一種選擇分裂準(zhǔn)則，將給定類標(biāo)號的訓(xùn)練元組最好的進(jìn)行劃分的方法理想情況，每個(gè)劃分都是“純”的，即落在給定劃分內(nèi)的元組都屬于相同的類屬性

9、選擇度量又稱為分裂準(zhǔn)則常用的屬性選擇度量信息增益增益率 Gini指標(biāo),信息增益 (1),S是一個(gè)訓(xùn)練樣本的集合，該樣本中每個(gè)集合的類編號已知。每個(gè)樣本為一個(gè)元組。有個(gè)屬性用來判定某個(gè)訓(xùn)練樣本的類編號假設(shè)S中有m個(gè)類，總共s個(gè)訓(xùn)練樣本，每個(gè)類Ci有si個(gè)樣本(i1,2,3.m)，那么任意一個(gè)樣本屬于類Ci的概率是si / s，那么用來分類一個(gè)給定樣本的期望信息是：,信息增益 (2),一個(gè)有v個(gè)值的屬性Aa1,a2,.,av可以將S分成v個(gè)子集S1,S2,.,Sv，其中Sj包含S中屬性A上的值為aj的樣本。假設(shè)Sj包含類Ci的sij個(gè)樣本。根據(jù)A的這種劃分的期望信息稱為A的熵 A上該劃分的

10、獲得的信息增益定義為：具有高信息增益的屬性，是給定集合中具有高區(qū)分度的屬性。所以可以通過計(jì)算S中樣本的每個(gè)屬性的信息增益，來得到一個(gè)屬性的相關(guān)性的排序。,判定歸納樹算法示例 (1),對于上述數(shù)據(jù)，可以略過步驟1，2 步驟3，計(jì)算基于熵的度量信息增益，作為樣本劃分的根據(jù) Gain(age)=0.246 Gain(income)=0.029 Gain(student)=0.151 Gain(credit_rating)=0.048 然后，對測試屬性每個(gè)已知的值，創(chuàng)建一個(gè)分支，并以此劃分樣本，得到第一次劃分,判定歸納樹算法示例 (2),判定歸納樹算法示例 (3),age?,overcast,stu

11、dent?,credit rating?,no,yes,fair,excellent,youth,senior,no,no,yes,yes,yes,Middle aged,防止分類中的過分適應(yīng),產(chǎn)生的決策樹會出現(xiàn)過分適應(yīng)數(shù)據(jù)的問題由于數(shù)據(jù)中的噪聲和孤立點(diǎn)，許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常對新樣本的判定很不精確防止過分適應(yīng)的兩種方法先剪枝：通過提前停止樹的構(gòu)造如果在一個(gè)節(jié)點(diǎn)劃分樣本將導(dǎo)致低于預(yù)定義臨界值的分裂（e.g. 使用信息增益度量）選擇一個(gè)合適的臨界值往往很困難后剪枝：由“完全生長”的樹剪去分枝對于樹中的每個(gè)非樹葉節(jié)點(diǎn)，計(jì)算該節(jié)點(diǎn)上的子樹被剪枝可能出現(xiàn)的期望錯(cuò)誤率使用一個(gè)獨(dú)立

12、的測試集來評估每顆樹的準(zhǔn)確率，就能得到具有最小期望錯(cuò)誤率的決策樹,由決策樹提取分類規(guī)則,可以提取決策樹表示的知識，并以IF-THEN形式的分類規(guī)則表示對從根到樹葉的每條路徑創(chuàng)建一個(gè)規(guī)則沿著給定路徑上的每個(gè)屬性-值對形成規(guī)則前件（IF部分）的一個(gè)合取項(xiàng) 葉節(jié)點(diǎn)包含類預(yù)測，形成規(guī)則后件（THEN部分） IF-THEN規(guī)則易于理解，尤其樹很大時(shí) 示例： IF age = “youth” AND student = “no” THEN buys_computer = “no” IF age = “youth” AND student = “yes” THEN buys_computer = “ye

13、s” IF age = “middle_aged” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “fair” THEN buys_computer = “no”,可伸縮性與決策歸納樹,分類挖掘是一個(gè)在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的領(lǐng)域也被廣為研究的問題，并提出了很多算法，但是這些算法都是內(nèi)存駐留的可伸縮性問題：要求以合理的速度對數(shù)以百萬計(jì)的樣本和數(shù)以百計(jì)的屬性的進(jìn)行分

14、類挖掘由大型數(shù)據(jù)庫構(gòu)造決策樹首先將樣本劃分為子集，每個(gè)子集可以放在內(nèi)存中然后由每個(gè)自己構(gòu)造一顆決策樹輸出的分類法將每個(gè)子集的分類法組合在一起（其他方法包括SLIQ, SPRINT,RainForest等等）,貝葉斯分類,貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理，來預(yù)測類成員的概率，即給定一個(gè)樣本，計(jì)算該樣本屬于一個(gè)特定的類的概率。樸素貝葉斯分類：假設(shè)每個(gè)屬性之間都是相互獨(dú)立的，并且每個(gè)屬性對非類問題產(chǎn)生的影響都是一樣的。,后向傳播分類,后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法；神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元，每個(gè)連接都與一個(gè)權(quán)相連。在學(xué)習(xí)階段，通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)，使得能夠預(yù)測輸入樣本的正確標(biāo)

15、號來學(xué)習(xí)。優(yōu)點(diǎn) 預(yù)測精度總的來說較高健壯性好，訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對目標(biāo)進(jìn)行分類較快缺點(diǎn) 訓(xùn)練（學(xué)習(xí)）時(shí)間長蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號含義很難理解很難根專業(yè)領(lǐng)域知識相整合,SVM支持向量機(jī),使用一種非線性的映射，將原訓(xùn)練數(shù)據(jù)映射到較高的維一個(gè)數(shù)據(jù)被認(rèn)為是p維向量，數(shù)據(jù)在這個(gè)p維向量空間中被分為兩類；SVM的目的是找到一個(gè)p-1維的超平面，來劃分p維向量空間的數(shù)據(jù) 在新的維上，它搜索線性最佳分離超平面 (即將一類的元組與其他類分離的“決策邊界”)。使用一個(gè)適當(dāng)?shù)膶ψ銐蚋呔S的非線性映射，兩類的數(shù)據(jù)總可以被超平面分開。 S

16、VM 使用支持向量（“基本”訓(xùn)練元組）和邊緣（由支持向量定義）發(fā)現(xiàn)該超平面。,SVM-特點(diǎn)和應(yīng)用,特點(diǎn): 訓(xùn)練時(shí)間非常長，但對復(fù)雜的非線性決策邊界的建模能力是高度準(zhǔn)確的（使用最大邊緣）可以用來預(yù)測和分類應(yīng)用: 手寫數(shù)字識別，對象識別，語音識別, 以及基準(zhǔn)時(shí)間序列預(yù)測檢驗(yàn),SVM一般原理,August 9, 2020,Data Mining: Concepts and Techniques,31,SVM當(dāng)數(shù)據(jù)是線性可分的時(shí)候,m,設(shè)給定的數(shù)據(jù)集 D 為 (X1, y1), , (X|D|, y|D|), 其中Xi是訓(xùn)練元組，具有相關(guān)聯(lián)的類標(biāo)號yi。可以畫出無限多條分離直線（或超平面）將類+

17、1的元組與類-1的元組分開，我們想找出“最好的”那一條 (對先前未見到的元組具有最小分類誤差的那一條）。 SVM 要搜索具有最大邊緣的超平面，即最大邊緣超平面 (MMH),其他分類方法,k-最臨近分類給定一個(gè)未知樣本，k-最臨近分類法搜索模式空間，找出最接近未知樣本的k個(gè)訓(xùn)練樣本；然后使用k個(gè)最臨近者中最公共的類來預(yù)測當(dāng)前樣本的類標(biāo)號基于案例的推理樣本或案例使用復(fù)雜的符號表示，對于新案例，先檢測是否存在同樣的訓(xùn)練案例；如果找不到，則搜索類似的訓(xùn)練案例遺傳算法結(jié)合生物進(jìn)化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界,什么是預(yù)測？,預(yù)測是構(gòu)造和使用模型評

18、估無樣本類，或評估給定樣本可能具有的屬性或值空間。預(yù)測和分類的異同相同點(diǎn) 兩者都需要構(gòu)建模型都用模型來估計(jì)未知值預(yù)測當(dāng)中主要的估計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸不同點(diǎn) 分類法主要是用來預(yù)測類標(biāo)號（分類屬性值）預(yù)測法主要是用來估計(jì)連續(xù)值（量化屬性值）,線性回歸、多元回歸和非線性回歸,線性回歸：Y = + X 其中和是回歸系數(shù)，可以根據(jù)給定的數(shù)據(jù)點(diǎn)，通過最小二乘法來求得多元回歸：Y = + 1X1 + 2 X2 線性回歸的擴(kuò)展，設(shè)計(jì)多個(gè)預(yù)測變量，可以用最小二乘法求得上式中的，1 和2 非線性回歸：Y = + 1X1 + 2 X22+ 3 X33 對不呈線性依賴的數(shù)據(jù)建模使用多項(xiàng)式回歸建模方法，然后進(jìn)行變量變換，將非線性模型轉(zhuǎn)換為線性模型，然后用最小二乘法求解,評估分類法的準(zhǔn)確性,導(dǎo)出分類法后，再使用訓(xùn)練數(shù)據(jù)評估分類法，可能錯(cuò)誤的導(dǎo)致樂觀的估計(jì) 保持方法給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合：訓(xùn)練集(2/3)和測試集(1/3) 訓(xùn)練集導(dǎo)出分類法，測試集對其準(zhǔn)確性進(jìn)行評估隨機(jī)子選樣：保持方法的一個(gè)變形，將保持方法重復(fù)k次，然后取準(zhǔn)確率的平均值 k-折交叉確

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《數(shù)據(jù)挖掘》課程PPT-分類和預(yù)測資料.ppt

文檔簡介

溫馨提示

最新文檔

評論

《數(shù)據(jù)挖掘》課程PPT-分類和預(yù)測資料.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔