《大數(shù)據(jù)處理與智能決策 》課件-10-分類算法介紹_第1頁
《大數(shù)據(jù)處理與智能決策 》課件-10-分類算法介紹_第2頁
《大數(shù)據(jù)處理與智能決策 》課件-10-分類算法介紹_第3頁
《大數(shù)據(jù)處理與智能決策 》課件-10-分類算法介紹_第4頁
《大數(shù)據(jù)處理與智能決策 》課件-10-分類算法介紹_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1什么是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)?監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí):通俗來講就是分類,就是把訓(xùn)練樣本,在某種評價下得到最佳的模型,然后再利用這個模型將輸入映射為相應(yīng)的輸出,對輸出進(jìn)行簡單的判斷從而實(shí)現(xiàn)分類的目的。

例:在人對事物的認(rèn)識中,我們從孩時就被大人們教授這是鳥,那是房子等等。我們所見到的景物就是輸入數(shù)據(jù),而大人們對這些事物的判斷結(jié)果就是相應(yīng)的輸出。當(dāng)我們見識多了以后,腦子就慢慢地得到了一些泛化的模型,這就是訓(xùn)練得到的那個函數(shù),從而沒有大人在旁邊指點(diǎn)的時候,我們就可自己分辨哪些是房子,哪些是鳥。2監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)的不同之處,在于我們事先沒有任何訓(xùn)練樣本,而直接對數(shù)據(jù)進(jìn)行建模。

例:比如我們?nèi)⒂^一個畫展,我們完全對藝術(shù)一無所知,但是欣賞完多幅作品之后,我們也能把它們分成不同的派別。比如哪些更朦朧一點(diǎn),哪些更寫實(shí)一些,即使我們不知道什么叫做朦朧派,什么叫做寫實(shí)派,但是至少我們能把他們分成兩個類。

無監(jiān)督學(xué)習(xí)的里典型的例子就是聚類。聚類的目的在于把相似的東西聚在一起,而我們并不關(guān)心這一類是什么。因此,一個聚類算法只需要知道如何計算相似度就可以開始工作了。3監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種方式的主要對比關(guān)系:

1、有標(biāo)簽vs無標(biāo)簽有監(jiān)督學(xué)習(xí)是“有老師的學(xué)習(xí)”,所謂的老師就是標(biāo)簽;無監(jiān)督學(xué)習(xí)是“沒有老師的學(xué)習(xí)”,沒有訓(xùn)練過程,而是直接拿數(shù)據(jù)進(jìn)行建模分析,意味著需要通過機(jī)器自行探索完成。2、分類vs聚類有監(jiān)督學(xué)習(xí)的核心是分類,無監(jiān)督學(xué)習(xí)的核心是聚類。有監(jiān)督的工作是選擇分類器和確定權(quán)值。無監(jiān)督的工作時密度估計,意味著無監(jiān)督算法只要知道如何計算相似度就可以開始工作。

問題:人類識別貓狗的過程是有監(jiān)督還是無監(jiān)督學(xué)習(xí)??分類分類(Classification)是解決“這是什么?”的問題,分類所承擔(dān)的角色就如同回答小孩子的問題“這是一只船”,“這是一棵樹”等。把每個數(shù)據(jù)點(diǎn)分配到合適的類別中,即所謂的“分類”。分類算法郵件正常郵件垃圾郵件例如,郵件系統(tǒng)接收到一封陌生郵件時,算法能識別出該郵件是否垃圾郵件。聚類能將一堆郵件分成兩組,但不知道哪組是垃圾郵件。數(shù)值預(yù)測數(shù)值預(yù)測(numericprediction)是預(yù)測一個連續(xù)值或有序值,而不是類標(biāo)號。例如預(yù)測某同學(xué)在期末考試中的成績?yōu)?5分,95是一個數(shù)值,而不是“樹”、“船”這樣的類標(biāo)號。分類和數(shù)值預(yù)測是“預(yù)測問題”的兩種主要類型,簡單起見,在不產(chǎn)生混淆時,使用較短術(shù)語“預(yù)測”表示“數(shù)值預(yù)測”。相關(guān)應(yīng)用垃圾郵件識別信用卡用戶分級,低風(fēng)險優(yōu)質(zhì)客戶給予較高的額度手寫字體識別、語音輸入、圖像識別...相關(guān)應(yīng)用9月26日,石家莊市建華大街和裕華路交叉口西南角的行人闖紅燈自動識別抓拍系統(tǒng)開始試用。如果行人指示信號燈為紅燈時,仍有行人在斑馬線上過馬路,這套系統(tǒng)會自動將其中一個人的圖像拍攝下來并形成照片。分類輸入數(shù)據(jù)是記錄的集合。每條記錄也稱為樣本或樣例,用元組(x,y)表示。x是屬性集合,y是類標(biāo)號(分類屬性或目標(biāo)屬性)。類標(biāo)號是離散的。(回歸的目標(biāo)屬性y是連續(xù)的)。分類:通過學(xué)習(xí)得到一個目標(biāo)函數(shù)(分類函數(shù))f,把每個屬性集x映射到一個預(yù)先定義的類標(biāo)號y。分類任務(wù):確定對象屬于哪個預(yù)定義的目標(biāo)類。

脊椎動物的數(shù)據(jù)表名字體溫冬眠有腿胎生類標(biāo)號人類恒溫否是是哺乳類蝙蝠恒溫是是是哺乳類青蛙冷血是是否兩棲類蟒蛇冷血是否否爬行類分類的兩個步驟訓(xùn)練模型:對一個類別已經(jīng)確定的訓(xùn)練集創(chuàng)建模型用于創(chuàng)建模型的數(shù)據(jù)集叫做訓(xùn)練集每一條記錄都屬于一個確定的類別或類標(biāo)號模型使用:用創(chuàng)建的模型預(yù)測未來或者類別未知的記錄分類分類分類性能預(yù)測的類類=1類=0實(shí)際的類類=1f11f10類=0f01f00使用性能度量來衡量分類模型性能的信息,如準(zhǔn)確率和錯誤率。準(zhǔn)確率=正確預(yù)測數(shù)/預(yù)測總數(shù)=

(f11+f00

)/(f11+f10+f01+f00

)錯誤率=錯誤預(yù)測數(shù)/預(yù)測總數(shù)=

(f10+f01

)/(f11+f10+f01+f00

)表1二類問題的混淆矩陣分類的兩個步驟訓(xùn)練模型:對一個類別已經(jīng)確定的訓(xùn)練集創(chuàng)建模型。用于創(chuàng)建模型的數(shù)據(jù)集叫做訓(xùn)練集每一條記錄都屬于一個確定的類別或類標(biāo)號測試模型:對于訓(xùn)練好的模型,進(jìn)行測試。類似于考試。分類過程:訓(xùn)練模型訓(xùn)練集分類算法模型IF氣溫低THEN不適合運(yùn)動分類過程:測試模型分類算法模型預(yù)測結(jié)果:不適合運(yùn)動真實(shí)結(jié)果:不適合運(yùn)動測試集分類過程:訓(xùn)練集和測試集的劃分N-fold交叉驗(yàn)證留一法過擬合分類過程:使用模型未分類數(shù)據(jù)(天氣晴,溫度高,濕度中等)分類算法模型不適合運(yùn)動數(shù)值預(yù)測過程數(shù)值預(yù)測也是一個兩步過程,和分類過程類似,只不過沒有“類標(biāo)號屬性”,因?yàn)橐A(yù)測的屬性值是連續(xù)值,而不是分類的(離散值)例如預(yù)測某同學(xué)的期末考試成績得分,如果轉(zhuǎn)換成預(yù)測某同學(xué)的期末考試成績“是否合格”,該數(shù)據(jù)挖掘任務(wù)就由數(shù)值預(yù)測變成了分類。模型可將模型看成一個映射或函數(shù)y=f(X),其中X是特征向量給定未知實(shí)例的特征向量X,算法即可得出其關(guān)聯(lián)的y的值分類和預(yù)測算法的訓(xùn)練過程即是為了從訓(xùn)練數(shù)據(jù)中“學(xué)習(xí)”得到這個函數(shù),進(jìn)而用于未知數(shù)據(jù)分類算法的評價預(yù)測的準(zhǔn)確率正確地預(yù)測新的或先前未見過的數(shù)據(jù)的類標(biāo)號的能力速度構(gòu)造模型的速度、利用模型進(jìn)行分類的速度強(qiáng)壯性給定噪聲數(shù)據(jù)或具有空缺值的數(shù)據(jù),模型正確預(yù)測的能力可伸縮性當(dāng)給定大量數(shù)據(jù)時,有效地構(gòu)造模型的能力可解釋性涉及學(xué)習(xí)模型提供的理解和洞察的層次分類算法預(yù)測準(zhǔn)確率的指標(biāo)兩類錯誤查全率查準(zhǔn)率精度主要內(nèi)容分類和預(yù)測知識的表達(dá)基于距離的分類基于決策樹的表達(dá)母親:閨女,給你介紹個對象女兒:多大年紀(jì)了?母親:26。女兒:長的帥不帥?母親:挺帥的。女兒:收入高不?母親:不算很高,中等情況。女兒:是公務(wù)員不?母親:是,在稅務(wù)局上班呢。女兒:那好,我去見見。示例來源于July博客:/v_july_v/article/details/7577684你見或不見,我都在那里基于決策樹的表達(dá)天氣刮大風(fēng)溫度晴小雨去玩多云不要去玩不要去玩去玩去玩<=35度>35度是否基于規(guī)則的表達(dá)IF天氣=多云THEN去玩IF天氣=晴AND溫度<=35THEN去玩IF天氣=晴AND溫度>35THEN不要去玩IF天氣=小雨AND刮大風(fēng)THEN不要去玩IF天氣=小雨AND沒有刮大風(fēng)THEN去玩基于實(shí)例的表達(dá)直接將訓(xùn)練樣本保存下來,使用實(shí)例本身來表達(dá)所學(xué)到的(知識),而不是推斷出一個規(guī)則集或決策樹,并保存它直接在樣本上進(jìn)行工作,而不是建立規(guī)則的學(xué)習(xí)稱為基于實(shí)例的學(xué)習(xí)(instance-basedlearning)基于實(shí)例的學(xué)習(xí)也稱為死記硬背式學(xué)習(xí)(rotelearning),一旦“記住”了一個訓(xùn)練實(shí)例集,在遇到一個新的實(shí)例時,就會在“記憶”中找出與之最相似的一個訓(xùn)練實(shí)例基于實(shí)例的表達(dá)在基于實(shí)例的學(xué)習(xí)中,對一個新的實(shí)例進(jìn)行分類時,才進(jìn)行實(shí)質(zhì)性的工作,而不是處理訓(xùn)練集時進(jìn)行和其它機(jī)器學(xué)習(xí)方法的區(qū)別在于“學(xué)習(xí)”發(fā)生的時間不同基于實(shí)例的學(xué)習(xí)是“懶惰”的,盡可能延緩實(shí)質(zhì)性的工作,而其它學(xué)習(xí)方法是“急切”的,在訓(xùn)練樣本時就進(jìn)行學(xué)習(xí)并得到一個泛化的表達(dá),例如生成決策樹或規(guī)則主要內(nèi)容分類和預(yù)測知識的表達(dá)基于距離的分類基于距離的分類與一個類中的成員和另一個類中的成員之間的相似性相比,同一個類中的成員彼此之間被認(rèn)為是更加相似的相似性(距離)度量可以用來識別數(shù)據(jù)庫中不同成員之間的“相似程度”基于距離的分類方法的直觀解釋(1)類定義(2)待分類樣本(3)分類結(jié)果k-最近鄰算法,kNN,k-NearestNeighbor十大數(shù)據(jù)挖掘算法之一C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNa?veBayesCART應(yīng)用示例:手寫數(shù)字識別將訓(xùn)練樣本中的每張圖劃分成5x5的網(wǎng)格,計算每個格子

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論