數(shù)據(jù)挖掘分類和預(yù)測(cè)_第1頁
數(shù)據(jù)挖掘分類和預(yù)測(cè)_第2頁
數(shù)據(jù)挖掘分類和預(yù)測(cè)_第3頁
數(shù)據(jù)挖掘分類和預(yù)測(cè)_第4頁
數(shù)據(jù)挖掘分類和預(yù)測(cè)_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、分類和預(yù)測(cè)分類 VS. 預(yù)測(cè)n分類和預(yù)測(cè)是兩種數(shù)據(jù)分析形式,用于提取描述重要數(shù)據(jù)類或預(yù)測(cè)未來的數(shù)據(jù)趨勢(shì) 的模型q分類:n預(yù)測(cè)類對(duì)象的分類標(biāo)號(hào)(或離散值)n根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)q預(yù)測(cè):n建立連續(xù)函數(shù)值模型n比如預(yù)測(cè)空缺值,或者預(yù)測(cè)顧客在計(jì)算機(jī)設(shè)備上的花費(fèi)n典型應(yīng)用q欺詐檢測(cè)、市場(chǎng)定位、性能預(yù)測(cè)、醫(yī)療診斷分類和預(yù)測(cè)-示例n分類q銀行貸款員需要分析數(shù)據(jù),來弄清哪些貸款申請(qǐng)者是安全的,哪些是有風(fēng)險(xiǎn)的(將貸款申請(qǐng)者分為“安全”和“有風(fēng)險(xiǎn)”兩類)n我們需要構(gòu)造一個(gè)分類器來預(yù)測(cè)類屬編號(hào),比如預(yù)測(cè)顧客屬類n預(yù)測(cè)q銀行貸款員需要預(yù)測(cè)貸給某個(gè)顧客多少錢是安全的n構(gòu)造

2、一個(gè)預(yù)測(cè)器,預(yù)測(cè)一個(gè)連續(xù)值函數(shù)或有序值,常用方法是回歸分析數(shù)據(jù)分類一個(gè)兩步過程 (1)n第一步,也成為學(xué)習(xí)步學(xué)習(xí)步,目標(biāo)是建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器q分類算法通過分析或從訓(xùn)練集“學(xué)習(xí)”來構(gòu)造分類器。q訓(xùn)練集由數(shù)據(jù)庫(kù)元組(用n維屬性向量表示)和他們相對(duì)應(yīng)的類編號(hào)組成;假定每個(gè)元組屬于一個(gè)預(yù)定義的類n訓(xùn)練元組訓(xùn)練元組:訓(xùn)練數(shù)據(jù)集中的單個(gè)元組q學(xué)習(xí)模型可以用分類規(guī)則、決策樹或數(shù)學(xué)公式的形式提供數(shù)據(jù)分類一個(gè)兩步過程 (2)n第二步,使用模型,對(duì)將來的或未知的對(duì)象進(jìn)行分類q首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率n對(duì)每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較n模型在給定測(cè)試集上的準(zhǔn)確率是正確

3、被模型分類的測(cè)試樣本的百分比n測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過分?jǐn)M合”的情況第一步建立模型訓(xùn)練數(shù)據(jù)集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分類算法IF rank = professorOR years 6THEN tenured = yes 分類規(guī)則第二步用模型進(jìn)行分類分類規(guī)則測(cè)試集NAMERANKYEARS TENUREDTomAss

4、istant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知數(shù)據(jù)(Jeff, Professor, 4)Tenured?監(jiān)督學(xué)習(xí) VS. 無監(jiān)督學(xué)習(xí)n監(jiān)督學(xué)習(xí)(用于分類)q模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的“指導(dǎo)”下進(jìn)行q新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進(jìn)行分類n無監(jiān)督學(xué)習(xí)(用于聚類)q每個(gè)訓(xùn)練樣本的類編號(hào)是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能是事先未知的q通過一系列的度量、觀察來建立數(shù)據(jù)中的類編號(hào)或進(jìn)行聚類數(shù)據(jù)預(yù)測(cè)的兩步過程n數(shù)據(jù)預(yù)測(cè)也是一個(gè)兩步的過程,類似于前面描述的數(shù)據(jù)分

5、類q對(duì)于預(yù)測(cè),沒有“類標(biāo)號(hào)屬性”q要預(yù)測(cè)的屬性是連續(xù)值,而不是離散值,該屬性可簡(jiǎn)稱“預(yù)測(cè)屬性”nE.g. 銀行貸款員需要預(yù)測(cè)貸給某個(gè)顧客多少錢是安全的n預(yù)測(cè)器可以看作一個(gè)映射或函數(shù)y=f(X)q其中X是輸入;y是輸出,是一個(gè)連續(xù)或有序的值q與分類類似,準(zhǔn)確率的預(yù)測(cè),也要使用單獨(dú)的測(cè)試集準(zhǔn)備分類和預(yù)測(cè)的數(shù)據(jù)n通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測(cè)過程的準(zhǔn)確性、有效性和可伸縮性q數(shù)據(jù)清理n消除或減少噪聲,處理空缺值,從而減少學(xué)習(xí)時(shí)的混亂q相關(guān)分析n數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余的;刪除這些屬性可以加快學(xué)習(xí)步驟,使學(xué)習(xí)結(jié)果更精確q數(shù)據(jù)變換與歸約n數(shù)據(jù)可以通過規(guī)范化進(jìn)行變

6、換,將所給屬性的所有值按比例進(jìn)行縮放,使其落入一個(gè)較小的指定區(qū)間,例 0.0, 1.0(ANN和設(shè)計(jì)距離的度量方法中常用)n可以將數(shù)據(jù)概化到較高層概念比較分類方法n使用下列標(biāo)準(zhǔn)比較分類和預(yù)測(cè)方法q預(yù)測(cè)的準(zhǔn)確率:模型正確預(yù)測(cè)新數(shù)據(jù)的類編號(hào)的能力q速度:產(chǎn)生和使用模型的計(jì)算花銷q健壯性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測(cè)的能力q可伸縮性:對(duì)大量數(shù)據(jù),有效的構(gòu)建分類器或預(yù)測(cè)可伸縮性:對(duì)大量數(shù)據(jù),有效的構(gòu)建分類器或預(yù)測(cè)器的能力器的能力q可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次用決策樹歸納分類 (1)n什么是決策樹?q類似于流程圖的樹結(jié)構(gòu)q每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試q每個(gè)分枝代表一個(gè)測(cè)試

7、輸出q每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類編號(hào)age?student?credit rating?noyesfairexcellentyouthseniornonoyesyesyesMiddleaged決策樹:決策樹:Buys_computer用決策樹歸納分類 (2)n使用決策樹分類q給定一個(gè)類標(biāo)號(hào)未知的元組X,在決策樹上測(cè)試元組的屬性值,跟蹤一條由根到葉節(jié)點(diǎn)的路徑,葉節(jié)點(diǎn)存放該元組的類預(yù)測(cè)。q決策樹容易轉(zhuǎn)換為分類規(guī)則n決策樹的生成由兩個(gè)階段組成q決策樹構(gòu)建n使用屬性選擇度量來選擇將元組最好的劃分為不同的類的屬性n遞歸的通過選定的屬性,來劃分樣本 (必須是離散值)q樹剪枝n決策樹建立時(shí),許多分枝反映的是訓(xùn)練

8、數(shù)據(jù)中的噪聲和離群點(diǎn)點(diǎn),樹剪枝試圖識(shí)別并剪去這種分枝,以提高對(duì)未知數(shù)據(jù)分類的準(zhǔn)確性ageincomestudentcredit_ratingbuys_computeryouthhighnofairnoyouthhighnoexcellentnomiddle_agedhighnofairyesseniormediumnofairyesseniorlowyesfairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnofairnoyouthlowyesfairyesseniormediumyesfairyesyou

9、thmediumyesexcellentyesmiddle_agedmediumnoexcellentyesmiddle_agedhighyesfairyesseniormediumnoexcellentno決策樹歸納策略 (1)n輸入q數(shù)據(jù)劃分D是訓(xùn)練元組和對(duì)應(yīng)類標(biāo)號(hào)的集合qattribute_list,候選屬性的集合qAttribute_selection_method,指定選擇屬性的啟發(fā)性過程算法步驟1.樹以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)(N)開始2.如果樣本都在同一個(gè)類,則該節(jié)點(diǎn)成為樹葉,并用該類標(biāo)記3.否則,算法調(diào)用Attribute_selection_method,選擇能夠最好的將樣本分

10、類的屬性;確定“分裂準(zhǔn)則”,指出“分裂點(diǎn)”或“分裂子集”。決策樹歸納策略 (2)4.對(duì)測(cè)試屬性每個(gè)已知的值,創(chuàng)建一個(gè)分支,并以此劃分元組5.算法使用同樣的過程,遞歸的形成每個(gè)劃分上的元組決策樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何子節(jié)點(diǎn)上出現(xiàn)6.遞歸劃分步驟停止的條件劃分D(在N節(jié)點(diǎn)提供)的所有元組屬于同一類沒有剩余屬性可以用來進(jìn)一步劃分元組使用多數(shù)表決沒有剩余的樣本給定分支沒有元組,則以D中多數(shù)類創(chuàng)建一個(gè)樹葉屬性選擇度量n屬性選擇度量是一種選擇分裂準(zhǔn)則,將給定類標(biāo)號(hào)的訓(xùn)練元組最好的進(jìn)行劃分的方法q理想情況,每個(gè)劃分都是“純”的,即落在給定劃分內(nèi)的元組都屬于相同的類q屬性選擇度量又

11、稱為分裂準(zhǔn)則n常用的屬性選擇度量q信息增益q增益率qGini指標(biāo)信息增益 (1)nS是一個(gè)訓(xùn)練樣本訓(xùn)練樣本的集合,該樣本中每個(gè)集合的類編號(hào)類編號(hào)已知。每個(gè)樣本為一個(gè)元組元組。有個(gè)屬性用來判定某個(gè)訓(xùn)練樣本的類編號(hào)n假設(shè)S中有m個(gè)類,總共s個(gè)訓(xùn)練樣本,每個(gè)類Ci有si個(gè)樣本(i1,2,3.m),那么任意一個(gè)樣本屬于類Ci的概率是si / s,那么用來分類一個(gè)給定樣本的期望信息期望信息是:sssssssInfoimiim2121log),.,(信息增益 (2)n一個(gè)有v個(gè)值的屬性Aa1,a2,.,av可以將S分成v個(gè)子集S1,S2,.,Sv,其中Sj包含S中屬性A上的值為aj的樣本。假設(shè)Sj包含類C

12、i的sij個(gè)樣本。根據(jù)A的這種劃分的期望信息稱為A的熵熵nA上該劃分的獲得的信息增益定義為:n具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以通過計(jì)算S中樣本的每個(gè)屬性的信息增益,來得到一個(gè)屬性的相關(guān)性的排序。),.,(.)(111mjjvjmjjssIsssAE)(),.,()(21AEsssIAGainmageincomestudentcredit_ratingbuys_computeryouthhighnofairnoyouthhighnoexcellentnomiddle_agedhighnofairyesseniormediumnofairyesseniorlowyes

13、fairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnofairnoyouthlowyesfairyesseniormediumyesfairyesyouthmediumyesexcellentyesmiddle_agedmediumnoexcellentyesmiddle_agedhighyesfairyesseniormediumnoexcellentno判定歸納樹算法示例 (1)n對(duì)于上述數(shù)據(jù),可以略過步驟1,2n步驟3,計(jì)算基于熵的度量信息增益,作為樣本劃分的根據(jù)qGain(age)=0.246qG

14、ain(income)=0.029qGain(student)=0.151qGain(credit_rating)=0.048n然后,對(duì)測(cè)試屬性每個(gè)已知的值,創(chuàng)建一個(gè)分支,并以此劃分樣本,得到第一次劃分判定歸納樹算法示例 (2)判定歸納樹算法示例 (3)age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30-40防止分類中的過分適應(yīng)n產(chǎn)生的決策樹會(huì)出現(xiàn)過分適應(yīng)數(shù)據(jù)的問題q由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常q對(duì)新樣本的判定很不精確n防止過分適應(yīng)的兩種方法q先剪枝:通過提前停止樹的構(gòu)造如果在

15、一個(gè)節(jié)點(diǎn)劃分樣本將導(dǎo)致低于預(yù)定義臨界值的分裂(e.g. 使用信息增益度量)n選擇一個(gè)合適的臨界值往往很困難q后剪枝:由“完全生長(zhǎng)”的樹剪去分枝對(duì)于樹中的每個(gè)非樹葉節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)上的子樹被剪枝可能出現(xiàn)的期望錯(cuò)誤率n使用一個(gè)獨(dú)立的測(cè)試集來評(píng)估每顆樹的準(zhǔn)確率,就能得到具有最小期望錯(cuò)誤率的決策樹由決策樹提取分類規(guī)則n可以提取決策樹表示的知識(shí),并以IF-THEN形式的分類規(guī)則表示n對(duì)從根到樹葉的每條路徑創(chuàng)建一個(gè)規(guī)則n沿著給定路徑上的每個(gè)屬性-值對(duì)形成規(guī)則前件(IF部分)的一個(gè)合取項(xiàng)n葉節(jié)點(diǎn)包含類預(yù)測(cè),形成規(guī)則后件(THEN部分)nIF-THEN規(guī)則易于理解,尤其樹很大時(shí)n示例:nIF age = “y

16、outh” AND student = “no” THEN buys_computer = “no”nIF age = “youth” AND student = “yes” THEN buys_computer = “yes”nIF age = “middle_aged” THEN buys_computer = “yes”nIF age = “senior” AND credit_rating = “excellent” THEN buys_computer = “yes”nIF age = “senior” AND credit_rating = “fair” THEN buys_com

17、puter = “no”可伸縮性與決策歸納樹n分類挖掘是一個(gè)在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的領(lǐng)域也被廣為研究的問題,并提出了很多算法,但是這些算法都是內(nèi)存駐留的n可伸縮性問題:要求以合理的速度對(duì)數(shù)以百萬要求以合理的速度對(duì)數(shù)以百萬計(jì)的樣本和數(shù)以百計(jì)的屬性的進(jìn)行分類挖掘計(jì)的樣本和數(shù)以百計(jì)的屬性的進(jìn)行分類挖掘n由大型數(shù)據(jù)庫(kù)構(gòu)造決策樹q首先將樣本劃分為子集,每個(gè)子集可以放在內(nèi)存中q然后由每個(gè)自己構(gòu)造一顆決策樹q輸出的分類法將每個(gè)子集的分類法組合在一起q(其他方法包括SLIQ, SPRINT,RainForest等等)貝葉斯分類n貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理,來預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于

18、一個(gè)特定的類的概率。n樸素貝葉斯分類:假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)非類問題產(chǎn)生的影響都是一樣的。)()()|()|(DPhPhDPDhP后向傳播分類n后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個(gè)連接都與一個(gè)權(quán)相連。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確標(biāo)號(hào)來學(xué)習(xí)。n優(yōu)點(diǎn)q預(yù)測(cè)精度總的來說較高q健壯性好,訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作q輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值q對(duì)目標(biāo)進(jìn)行分類較快n缺點(diǎn)q訓(xùn)練(學(xué)習(xí))時(shí)間長(zhǎng)q蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號(hào)含義很難理解q很難根專業(yè)領(lǐng)域知識(shí)相整合SVM支持向量機(jī)n使用一種非線性的

19、映射,將原訓(xùn)練數(shù)據(jù)映射到較高的維n一個(gè)數(shù)據(jù)被認(rèn)為是p維向量,數(shù)據(jù)在這個(gè)p維向量空間中被分為兩類;SVM的目的是找到一個(gè)p-1維的超平面,來劃分p維向量空間的數(shù)據(jù)q在新的維上,它搜索線性最佳分離超平面 (即將一類的元組與其他類分離的“決策邊界”)。n使用一個(gè)適當(dāng)?shù)膶?duì)足夠高維的非線性映射,兩類的數(shù)據(jù)總可以被超平面分開。nSVM 使用支持向量(“基本”訓(xùn)練元組)和邊緣(由支持向量定義)發(fā)現(xiàn)該超平面。SVM-特點(diǎn)和應(yīng)用n特點(diǎn): 訓(xùn)練時(shí)間非常長(zhǎng),但對(duì)復(fù)雜的非線性決策邊界的建模能力是高度準(zhǔn)確的(使用最大邊緣)q可以用來預(yù)測(cè)和分類n應(yīng)用: q手寫數(shù)字識(shí)別,對(duì)象識(shí)別,語音識(shí)別, 以及基準(zhǔn)時(shí)間序列預(yù)測(cè)檢驗(yàn)SVM

20、一般原理支持向量小邊緣大邊緣May 12, 2022Data Mining: Concepts and Techniques32SVM當(dāng)數(shù)據(jù)是線性可分的時(shí)候m設(shè)給定的數(shù)據(jù)集 D 為 (X1, y1), , (X|D|, y|D|), 其中Xi是訓(xùn)練元組,具有相關(guān)聯(lián)的類標(biāo)號(hào)yi。可以畫出無限多條分離直線(或超平面)將類+1的元組與類-1的元組分開,我們想找出“最好的”那一條 (對(duì)先前未見到的元組具有最小分類誤差的那一條)。SVM 要搜索具有最大邊緣的超平面,即最大邊緣超平面最大邊緣超平面 (MMH)其他分類方法nk-最臨近分類q給定一個(gè)未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個(gè)訓(xùn)練樣本;然后使用k個(gè)最臨近者中最公共的類來預(yù)測(cè)當(dāng)前樣本的類標(biāo)號(hào)n基于案例的推理q樣本或案例使用復(fù)雜的符號(hào)表示,對(duì)于新案例,先檢測(cè)是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類似的訓(xùn)練案例n遺傳算法q結(jié)合生物進(jìn)化思想的算法n粗糙集方法n模糊集方法q允許在分類規(guī)則中定義“模糊的”臨界值或邊界什么是預(yù)測(cè)?n預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無樣本類,或評(píng)估給定樣本可能具有的屬性或值空間。n預(yù)測(cè)和分類的異同n相同點(diǎn)q兩者都需要構(gòu)建模型q都用模型來估計(jì)未知值n預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析q線性回歸和多元回歸q非線性回歸n不同點(diǎn)q分類法主要是用來預(yù)測(cè)類標(biāo)號(hào)(分類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論