64229《大數(shù)據(jù)與人工智能導(dǎo)論(微課版)》第5章_第1頁
64229《大數(shù)據(jù)與人工智能導(dǎo)論(微課版)》第5章_第2頁
64229《大數(shù)據(jù)與人工智能導(dǎo)論(微課版)》第5章_第3頁
64229《大數(shù)據(jù)與人工智能導(dǎo)論(微課版)》第5章_第4頁
64229《大數(shù)據(jù)與人工智能導(dǎo)論(微課版)》第5章_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與人工智能導(dǎo)論機(jī)器學(xué)習(xí):智能的自動化途徑制作單位:網(wǎng)絡(luò)信息中心2024年8月本章學(xué)習(xí)目標(biāo)01從定義、發(fā)展歷史中了解什么是機(jī)器學(xué)習(xí)02掌握機(jī)器學(xué)習(xí)的分類與關(guān)鍵術(shù)語03了解幾種基本的機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)概述機(jī)器學(xué)習(xí)通常可以定義為人工智能的一個分支。它利用計(jì)算機(jī)算法和統(tǒng)計(jì)模型,讓計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí),而不是依靠程序員手動編碼。機(jī)器學(xué)習(xí)是人工智能的一門學(xué)科,主要研究對象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能。機(jī)器學(xué)習(xí)是對能通過經(jīng)驗(yàn)自動改進(jìn)的計(jì)算機(jī)算法的研究。機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn)優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)。一種經(jīng)常引用的英文定義是:AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceE.機(jī)器學(xué)習(xí)不同定義011949年,唐納德·赫布(DonaldHebb)利用神經(jīng)心理學(xué)學(xué)習(xí)原理開創(chuàng)了機(jī)器學(xué)習(xí),提出了赫布學(xué)習(xí)規(guī)則。1950

年,圖靈提出著名的圖靈測試,作為判斷智能的條件,這是人工智能領(lǐng)域的開端。在1952年,IBM公司的科學(xué)家阿瑟·塞繆爾(ArthurSamuel)創(chuàng)建了一個跳棋程序,駁斥了約翰·馮·諾依曼(JohnvonNeumann)的機(jī)器不能像人類那樣編碼或?qū)W習(xí)的理論。阿瑟·塞繆爾提出了“機(jī)器學(xué)習(xí)”一詞,并將其定義為“一個不需要顯式編程就能提供計(jì)算機(jī)能力的研究領(lǐng)域”。弗蘭克·羅森布拉特在1957年提出了基于神經(jīng)傳感科學(xué)的模型,該模型與當(dāng)今的機(jī)器學(xué)習(xí)算法非常接近,弗蘭克·羅森布拉特基于這一想法創(chuàng)建了第一個計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)——感知機(jī),用來模擬人腦的功能。馬文·李·明斯基(MarvinLeeMinsky)在1969年將感知機(jī)推向了頂峰,他提出了著名的異或問題和感知機(jī)數(shù)據(jù)的線性不可分離性。明斯基還將人工智能與機(jī)器人技術(shù)相結(jié)合,創(chuàng)造了機(jī)器人C——這是世界上第一個能夠模擬人類行為的機(jī)器人,從而將機(jī)器人技術(shù)推向了新的高度。起源與早期發(fā)展機(jī)器學(xué)習(xí)的發(fā)展歷史02從20世紀(jì)60年代中期到20世紀(jì)70年代末,機(jī)器學(xué)習(xí)的發(fā)展速度急劇放緩。這一時(shí)期的研究目標(biāo)是通過使用邏輯或圖形結(jié)構(gòu)作為機(jī)器的內(nèi)部描述來模仿人類的想法、學(xué)習(xí)過程。機(jī)器可以學(xué)習(xí)使用符號來描述概念,并對所學(xué)內(nèi)容進(jìn)行各種假設(shè)。盡管帕特里克·溫斯頓(PatrickWinston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯·羅斯(HaysRoth)的基于邏輯的歸納學(xué)習(xí)系統(tǒng)在此期間取得了重大進(jìn)展,但他們只能吸納一個概念并將其付諸實(shí)踐。由于理論計(jì)算結(jié)果未能達(dá)到預(yù)期效果,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器的進(jìn)展陷入低谷。低谷機(jī)器學(xué)習(xí)的發(fā)展歷史0320世紀(jì)70年代末,人們開始從學(xué)習(xí)單一的概念轉(zhuǎn)向?qū)W習(xí)眾多的概念,嘗試其他學(xué)習(xí)策略和方法。保羅·韋伯斯(PaulWerbos)在1981年提出了神經(jīng)網(wǎng)絡(luò)誤差逆?zhèn)鞑ィ˙ackPropogation,BP)技術(shù)中的多層感知機(jī)(Multi-LayerPerceptron,MLP)。1986年第一種人工智能領(lǐng)域的權(quán)威期刊ArtificialIntelligence創(chuàng)刊。同年,昆蘭提出了一個著名的ML算法,我們稱之為決策樹算法,或者更準(zhǔn)確地說,即ID3算法??偟膩砜?,20世紀(jì)80年代是機(jī)器學(xué)習(xí)成為一個獨(dú)立的學(xué)科領(lǐng)域、各種機(jī)器學(xué)習(xí)技術(shù)百花初綻的時(shí)期。轉(zhuǎn)折0420世紀(jì)80年代以來,“示例學(xué)習(xí)”(廣義上的歸納學(xué)習(xí)),包括有監(jiān)督和無監(jiān)督學(xué)習(xí),一直是研究最多、使用最廣泛的學(xué)習(xí)方法。符號學(xué)習(xí)包括決策樹和基于邏輯的學(xué)習(xí),20世紀(jì)80年代以來一直是“示例學(xué)習(xí)”的重要組成部分?;谏窠?jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí)是20世紀(jì)90年代中期之前的另一種流行“示例學(xué)習(xí)”技術(shù)。統(tǒng)計(jì)學(xué)習(xí)在20世紀(jì)90年代中期首次亮相,并很快崛起。支持向量機(jī)(SupportVectorMachine,SVM)和更廣泛的“核技術(shù)”(核方法)是統(tǒng)計(jì)學(xué)習(xí)的代表性技術(shù)。連接主義學(xué)習(xí)在21世紀(jì)初重新出現(xiàn),引發(fā)了一股被稱為深度學(xué)習(xí)的熱潮。深度學(xué)習(xí)技術(shù)在許多測試和競賽中表現(xiàn)出色,尤其是在涉及語音和圖像等復(fù)雜項(xiàng)目的應(yīng)用中。示例學(xué)習(xí)機(jī)器學(xué)習(xí)的發(fā)展歷史機(jī)器學(xué)習(xí)分類監(jiān)督學(xué)習(xí)通過學(xué)習(xí)或建立模式(函數(shù)/學(xué)習(xí)模型),從標(biāo)記的訓(xùn)練集中推斷新的事件。訓(xùn)練集是訓(xùn)練樣本的集合,每個樣本都有一個輸入變量(自變量)和一個預(yù)期輸出(因變量)。函數(shù)的輸出可以是連續(xù)值(回歸分析)或分類標(biāo)簽預(yù)測(分類)。無監(jiān)督學(xué)習(xí)算法使用未標(biāo)記的輸入數(shù)據(jù),這意味著數(shù)據(jù)只提供輸入變量(自變量X),而不提供匹配的輸出變量(因變量)。在無監(jiān)督學(xué)習(xí)中,算法會自己發(fā)現(xiàn)數(shù)據(jù)中的模式。生成對抗網(wǎng)絡(luò)(GAN)和聚類是兩種常見的無監(jiān)督學(xué)習(xí)策略。強(qiáng)化學(xué)習(xí)通過與環(huán)境交互來學(xué)習(xí)如何做出決策,以最大化預(yù)期的回報(bào)。在訓(xùn)練過程中,算法會根據(jù)其行動獲得的獎勵或懲罰來調(diào)整其策略,以便在未來做出更好的決策。強(qiáng)化學(xué)習(xí)通常用于游戲、機(jī)器人控制等領(lǐng)域。監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)基本概念樣本數(shù)據(jù)當(dāng)我們擁有一些樣本

(x,y)

時(shí),(x,y)

就是樣本數(shù)據(jù),其中x叫作輸入數(shù)據(jù)(InputData),y叫作輸出數(shù)據(jù)(OutputData),y又稱為因變量。在機(jī)器學(xué)習(xí)中,它有一個更加專業(yè)的名字——標(biāo)簽(Label)或者目標(biāo)(Target)。輸入數(shù)據(jù)與輸出數(shù)據(jù)通常都是高維矩陣,例如其中

表示第i個輸入樣本,

表示數(shù)據(jù)

的第n個元素的值。標(biāo)簽y因需求不同有各種形式,以最簡單的n分類問題為例,

就是一個n維的One-Hot,其中一個值為1,其余的元素都為0,第幾個元素為1就表明屬于第幾個類別。機(jī)器學(xué)習(xí)基本概念數(shù)據(jù)集與特征如集合

稱為一個“數(shù)據(jù)集”(DataSet),其中每條記錄是關(guān)于一個事件或?qū)ο蟮拿枋?,稱為一個“示例”(Instance)或“樣本”(Sample);反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng),稱為“特征”(Feature)。從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”(Learning)或“訓(xùn)練”(Training),這個過程通過執(zhí)行某個學(xué)習(xí)算法來完成。訓(xùn)練集、驗(yàn)證集、測試數(shù)據(jù)對于一個學(xué)習(xí)模型而言,給定數(shù)據(jù)集,在模型評估與選擇過程中由于需要留出一部分?jǐn)?shù)據(jù)進(jìn)行評估、測試,事實(shí)上只使用一部分?jǐn)?shù)據(jù)訓(xùn)練模型。訓(xùn)練集:顧名思義,訓(xùn)練集用于訓(xùn)練學(xué)習(xí)模型,通常其數(shù)據(jù)量比例不低于總數(shù)據(jù)量的一半。驗(yàn)證集:驗(yàn)證集用于衡量訓(xùn)練過程中模型的好壞。因?yàn)闄C(jī)器學(xué)習(xí)算法大部分都不是通過解析法得到的,而是通過不斷迭代來慢慢優(yōu)化模型,所以驗(yàn)證集可以用來監(jiān)視模型訓(xùn)練時(shí)的性能變化。測試數(shù)據(jù):在模型訓(xùn)練好了之后,測試數(shù)據(jù)用于衡量最終模型的性能。驗(yàn)證集只能用于監(jiān)視和輔助模型訓(xùn)練,不能用來代表模型好壞,所以哪怕驗(yàn)證的準(zhǔn)確度是100%而測試的準(zhǔn)確度是10%,模型也是不能被認(rèn)可的。機(jī)器學(xué)習(xí)基本概念分類、回歸分類是一種監(jiān)督學(xué)習(xí)策略,旨在根據(jù)之前的觀察結(jié)果預(yù)測新樣本的分類標(biāo)簽,這些分類標(biāo)簽是離散的、無序的值,代表樣本組成員之間的關(guān)系。所以說,如果機(jī)器學(xué)習(xí)模型的輸出是離散值,我們稱其為分類模型;相反,如果機(jī)器學(xué)習(xí)模型的輸出是連續(xù)的值,稱為回歸模型。決策樹:基于對數(shù)據(jù)集的分割來構(gòu)建一個樹狀結(jié)構(gòu),每個內(nèi)部節(jié)點(diǎn)表示對某個屬性的判斷,每個葉節(jié)點(diǎn)表示一個類別。樸素貝葉斯:基于貝葉斯定理,假設(shè)屬性之間相互獨(dú)立,利用先驗(yàn)(Prior)概率和條件概率進(jìn)行分類。支持向量機(jī):通過尋找超平面將數(shù)據(jù)集分割成兩個類別,并最大化邊界,可以實(shí)現(xiàn)非線性分類。K近鄰算法(K-NearestNeighbors,KNN):通過計(jì)算待分類樣本與訓(xùn)練樣本之間的距離,取距離最近的k個樣本的類別進(jìn)行投票決定待分類樣本的類別。邏輯回歸(LogisticRegression):通過對數(shù)據(jù)進(jìn)行擬合,得到一個線性回歸方程,并通過Sigmoid函數(shù)將結(jié)果映射到[0,1],用于解決二分類問題。神經(jīng)網(wǎng)絡(luò):通過多層神經(jīng)元的組合,實(shí)現(xiàn)對非線性數(shù)據(jù)的分類。常用的神經(jīng)網(wǎng)絡(luò)模型包括MLP、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等。常見的分類算法線性回歸:線性回歸是最基本的回歸算法之一。它假設(shè)輸入變量和輸出變量之間存在線性關(guān)系,并且使用最小二乘法(LeastSquareMethod)來擬合一個線性模型(LinearModel)。線性回歸的優(yōu)點(diǎn)是簡單易懂,容易實(shí)現(xiàn),并且在某些情況下可以提供良好的結(jié)果。支持向量回歸:支持向量回歸是一種基于支持向量機(jī)的回歸算法。它通過尋找一個超平面來擬合數(shù)據(jù),使得所有數(shù)據(jù)點(diǎn)到超平面的距離最小化。與線性回歸不同,支持向量回歸可以使用核函數(shù)來處理非線性問題。決策樹回歸:決策樹回歸是一種基于決策樹的回歸算法。它將數(shù)據(jù)集分成多個子集,每個子集對應(yīng)決策樹上的一個節(jié)點(diǎn)。通過對每個節(jié)點(diǎn)進(jìn)行擬合,最終得到一個回歸模型。決策樹回歸的優(yōu)點(diǎn)是易于理解和解釋,可以處理非線性關(guān)系,并且不需要對數(shù)據(jù)進(jìn)行任何假設(shè)。隨機(jī)森林(RandomForest)回歸:隨機(jī)森林回歸是一種基于隨機(jī)森林的回歸算法。它通過隨機(jī)選擇數(shù)據(jù)集的子集和特征集,構(gòu)建多個決策樹,并對這些決策樹進(jìn)行平均或投票來預(yù)測結(jié)果。與決策樹回歸不同,隨機(jī)森林回歸可以處理高維數(shù)據(jù),并且具有更好的泛化性能。神經(jīng)網(wǎng)絡(luò)回歸:神經(jīng)網(wǎng)絡(luò)回歸是一種基于神經(jīng)網(wǎng)絡(luò)的回歸算法,它通過多個神經(jīng)元和層來模擬復(fù)雜的非線性關(guān)系,并使用BP算法來訓(xùn)練模型。神經(jīng)網(wǎng)絡(luò)回歸的優(yōu)點(diǎn)是可以處理非線性問題,并且在大規(guī)模數(shù)據(jù)集上具有較好的性能。常見的回歸算法機(jī)器學(xué)習(xí)基本概念聚類聚類是一種常見的無監(jiān)督學(xué)習(xí)策略,用于根據(jù)項(xiàng)目的特征將數(shù)據(jù)分類。聚類是將一組對象分組到類似對象的類中的過程。聚類方法用于在數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式或分組,聚類算法構(gòu)成的分組或類中的數(shù)據(jù)具有更高的相似度。歐幾里得距離、概率距離和其他度量可用于定義聚類建模相似性度量。K-means聚類算法:該算法是最常見的聚類算法之一,將樣本分為K個簇,每個簇的中心是該簇內(nèi)所有樣本的平均值。該算法的優(yōu)化目標(biāo)是最小化樣本到簇中心的距離平方和。層次聚類算法:該算法是將樣本逐步分解為一些小的簇,并且在每一步將相似的簇組合起來,形成較大的簇。該算法有兩種形式:自下而上(凝聚)和自上而下(分裂)。密度聚類算法:這類算法將簇視為高密度區(qū)域,通過尋找高密度區(qū)域來確定聚類,而不是在樣本之間劃定邊界。譜聚類算法:該算法通過對樣本之間的相似度矩陣進(jìn)行特征分解,得到一個低維度的特征空間,并在該空間中進(jìn)行聚類。均值漂移聚類算法:該算法是一種基于密度的聚類算法,其主要思想是從一個樣本點(diǎn)出發(fā),通過不斷向密度估計(jì)函數(shù)最高的方向移動來尋找局部密度最大的區(qū)域。常見的聚類算法機(jī)器學(xué)習(xí)模型評估與性能度量模型評估機(jī)器學(xué)習(xí)模型評估是指對訓(xùn)練好的機(jī)器學(xué)習(xí)模型進(jìn)行性能測試和比較,以確定其預(yù)測準(zhǔn)確性、泛化能力和健壯性等重要性能指標(biāo)。常見的機(jī)器學(xué)習(xí)模型評估方法包括將數(shù)據(jù)集劃分為訓(xùn)練集和測試集、交叉驗(yàn)證(CrossValidation)、混淆矩陣等。同時(shí),還可以使用不同的評估指標(biāo)對模型進(jìn)行多方面的評估,以全面地了解模型的性能。性能度量性能度量(PerformanceMeasure)是評估模型性能的具體指標(biāo),不同類型的機(jī)器學(xué)習(xí)任務(wù)需要使用不同的性能度量。分類問題可以使用精確度、召回率、F1得分和ROC(ReceiverOperatingCharacteristic,受試者操作特性)曲線等度量指標(biāo)回歸問題則可以使用均方誤差、平均絕對誤差和R2分?jǐn)?shù)等指標(biāo)來衡量模型性能。

留出法1模型評估在劃分訓(xùn)練集與測試集時(shí),數(shù)據(jù)分布應(yīng)盡可能保持一致,以盡量減少數(shù)據(jù)劃分過程中引入的額外偏差對最終結(jié)果造成的任何影響。例如,在分類任務(wù)中,樣本的類別比例應(yīng)始終保持相似,從抽樣的角度對數(shù)據(jù)集進(jìn)行分區(qū)時(shí),保持類別比例的抽樣策略稱為“分層抽樣”。訓(xùn)練集S和測試集T是從數(shù)據(jù)集D中隨機(jī)選擇的,使用一次留出法的估計(jì)結(jié)果往往不穩(wěn)定且不可靠。為了減少偶然性因素,多次采用留出法計(jì)算每個測試的錯誤率,然后求每個測試的平均錯誤。此外,我們希望評估的是用數(shù)據(jù)集D訓(xùn)練出的模型的性能,但留出法需劃分訓(xùn)練集與測試集,訓(xùn)練集包含數(shù)據(jù)過多或過少會對模型的評估或訓(xùn)練產(chǎn)生影響。這個問題沒有完美的解決方案,常見做法是將2/3~4/5的樣本用于訓(xùn)練,剩余樣本用于測試。留出法的問題交叉驗(yàn)證法將樣本數(shù)據(jù)集分成兩個互補(bǔ)的子集:一個子集用于訓(xùn)練分類器或模型,被稱為訓(xùn)練集;另一個子集用于驗(yàn)證訓(xùn)練出的分類器或模型是否有效,被稱為測試集。交叉驗(yàn)證法2模型評估第一階段是將數(shù)據(jù)集D劃分為大小相似的k個相互排斥的子集,每個子集Di保持?jǐn)?shù)據(jù)分布盡可能一致,即通過分層抽樣從數(shù)據(jù)集D中得出。第二階段用k-1個子集的并集作為訓(xùn)練集,其余子集用作第二階段的測試集;通過這種方式,獲得k組訓(xùn)練集與測試集,允許進(jìn)行k次訓(xùn)練和測試,最后返回的是這k個測試結(jié)果的均值。交叉驗(yàn)證法的步驟交叉驗(yàn)證法通常又被稱為“k折交叉驗(yàn)證”。其中最常用的K值是10,因此這個方法又被稱為10折交叉驗(yàn)證。若數(shù)據(jù)集D有m個樣本,將數(shù)據(jù)集D劃分為m個子集,即k=m,此時(shí)得到了交叉驗(yàn)證法的一個特殊情況:留一法(Leave-One-Out,LOO)。交叉驗(yàn)證法2模型評估當(dāng)k等于樣本量m時(shí),該交叉驗(yàn)證可以被認(rèn)為是m折交叉驗(yàn)證。這時(shí)表明每個數(shù)據(jù)點(diǎn)都經(jīng)過了測試,剩下的m-1個數(shù)據(jù)點(diǎn)代表測試集。留一法不受隨機(jī)樣本劃分方法的影響。因?yàn)橹挥幸环N方法可以將m個樣本劃分為m個子集,將留一法的訓(xùn)練集與原始數(shù)據(jù)集進(jìn)行比較,訓(xùn)練集的樣本只少了一個,所以實(shí)際使用留一法測試的模型與應(yīng)該評估的模型非常相似。故留一法的評估結(jié)果通常被認(rèn)為比較精確。然而,留一法也有一些缺點(diǎn):當(dāng)數(shù)據(jù)集較大時(shí),訓(xùn)練m個模型的計(jì)算開銷可能會很大。留一法在統(tǒng)計(jì)學(xué)中,自助法(BootstrapMethod,也稱Bootstrap或自助抽樣法)是一種從給定訓(xùn)練集中有放回的均勻抽樣方法。留出法與交叉驗(yàn)證法實(shí)際評估的模型所使用的訓(xùn)練集比數(shù)據(jù)集D小,造成訓(xùn)練樣本大小的不同,會有一些估計(jì)偏差,基于自助采樣的“自助法”是一個比較好的解決方案。自助法3模型評估對包含m個樣本的數(shù)據(jù)集D進(jìn)行采樣,以創(chuàng)建一個訓(xùn)練集D`。對數(shù)據(jù)集進(jìn)行m次有放回的采樣,將每次抽取的樣本復(fù)制并放入訓(xùn)練集D`。沒有進(jìn)入該訓(xùn)練集的樣本最終形成檢驗(yàn)集(測試集)。自助法的步驟

自助法的原理在統(tǒng)計(jì)學(xué)中,自助法(BootstrapMethod,也稱Bootstrap或自助抽樣法)是一種從給定訓(xùn)練集中有放回的均勻抽樣方法。留出法與交叉驗(yàn)證法實(shí)際評估的模型所使用的訓(xùn)練集比數(shù)據(jù)集D小,造成訓(xùn)練樣本大小的不同,會有一些估計(jì)偏差,基于自助采樣的“自助法”是一個比較好的解決方案。自助法3模型評估一方面,當(dāng)數(shù)據(jù)集很小且劃分訓(xùn)練集與測試集有問題時(shí),自助法是有效的;此外,自助法可以用原始數(shù)據(jù)集生成許多替代訓(xùn)練集,這對集成學(xué)習(xí)(EnsembleLearning)等方法有利。另一方面,自助法改變了原始數(shù)據(jù)集的分布,引入了估計(jì)偏差。因此,當(dāng)初始數(shù)據(jù)量足夠時(shí),通常會使用留出法和交叉驗(yàn)證法。適用情況在大多數(shù)學(xué)習(xí)方法中,學(xué)習(xí)模型的性能往往因參數(shù)組合的不同而顯著不同。因此,在進(jìn)行模型評估和選擇時(shí),還需要設(shè)置算法參數(shù),這一操作被稱為“參數(shù)調(diào)整”或“調(diào)參”(ParameterTuning)。調(diào)參指調(diào)整參數(shù)以獲得更好的效果的過程,目的是獲得更好的模型,修正誤差并提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)確性。許多場景會影響模型的理想設(shè)置,除了選擇算法,還需要在評估和選擇模型時(shí)設(shè)置參數(shù)。目前的標(biāo)準(zhǔn)做法是選擇一個參數(shù)范圍和變化步長,例如

[0,

0.2]

以0.05為步長,這樣便有5個參數(shù)值可選擇,并從這5個參數(shù)值中選擇最佳值。盡管這種方法獲得的參數(shù)值可能不是最佳值,但可在計(jì)算開銷與性能估計(jì)之間折中。調(diào)參與最終模型4模型評估均方誤差1性能度量均方誤差是一種反映估計(jì)值與被估計(jì)值之間差異程度的度量,通常用于評估數(shù)據(jù)的變化程度,并預(yù)測數(shù)據(jù)的準(zhǔn)確性。均方誤差是回歸任務(wù)中最常用的性能度量,其表達(dá)式為即均方誤差對誤差進(jìn)行的平方,意味著誤差值越大,其平方值越大,這使其對大誤差值會十分敏感。錯誤率與精度2分類任務(wù)中最常用的性能指標(biāo)是錯誤率和精度,這對于二分類和多分類都是可以接受的。錯誤率是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。對于樣本集D,分類錯誤率被定義為精度是分類正確的樣本數(shù)占樣本總數(shù)的比例,其表達(dá)式為其中,

表示指示函數(shù),在

為真和假時(shí)分別取值1和0。錯誤率和精度不足以滿足所有任務(wù)中的需求,對于二分類任務(wù),樣本可以分為真正例(TruePositive)、假正例(FalsePositive)、真反例(TrueNegative)和假反例(FalseNegative)4個場景,根據(jù)這四種樣本的數(shù)量可以計(jì)算出查準(zhǔn)率、查全率和F1。查準(zhǔn)率、查全率與F13性能度量真實(shí)情況預(yù)測結(jié)果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)查準(zhǔn)率P(Precision)與查全率R(Recall)的定義:查準(zhǔn)率就是在我們認(rèn)為是對的樣例中,到底有多少真是對的查全率就是針對所有對的樣例,我們判斷對了多少。查準(zhǔn)率與查全率性能度量對每一個測試樣本設(shè)置不同的閾值,分類器對樣本的預(yù)測結(jié)果大于該閾值則判為正例,小于該閾值則判為負(fù)例,每個閾值對應(yīng)一個(查全率,查準(zhǔn)率)數(shù)據(jù)點(diǎn)。以查準(zhǔn)率為縱軸、查全率為橫軸作圖,所有閾值的對應(yīng)點(diǎn)就組成了查準(zhǔn)率-查全率曲線,簡稱P-R曲線,顯示該曲線的圖稱為P-R圖。P-R圖直觀地顯示出學(xué)習(xí)器在樣本總體上的查全率、查準(zhǔn)率。通過比較P-R曲線截面積的大小,還能對兩種學(xué)習(xí)器的性能做出比較。P-R圖

F1度量偏差與方差4性能度量

方差度量了在面對同樣規(guī)模的不同訓(xùn)練集時(shí),學(xué)習(xí)算法的估計(jì)結(jié)果發(fā)生變動的程度。方差代表一個學(xué)習(xí)算法的精確度,高方差意味著這個學(xué)習(xí)算法與該訓(xùn)練集是不匹配的。使用樣本數(shù)相同的不同訓(xùn)練集產(chǎn)生的方差為方差真實(shí)噪聲是任何學(xué)習(xí)算法在該訓(xùn)練集上的期望誤差的下界,是無法消除的誤差。使用學(xué)習(xí)算法產(chǎn)生的真實(shí)噪聲為真實(shí)噪聲性能度量期望輸出與真實(shí)標(biāo)簽的差別稱為偏差(Bias),度量了某種學(xué)習(xí)算法的平均估計(jì)結(jié)果所能逼近學(xué)習(xí)目標(biāo)的程度,即偏差模型的訓(xùn)練不可避免地會出現(xiàn)噪聲,使得收集到的數(shù)據(jù)樣本中的部分類別與實(shí)際真實(shí)類別不相符。弱假定噪聲期望為0,即

。通過簡單的多項(xiàng)式展開與合并,可對算法的期望泛化誤差進(jìn)行分解。即泛化誤差可分解為偏差、方差與真實(shí)噪聲之和。偏差-方差分解說明,泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度共同決定的。泛化誤差性能度量一般來說,偏差與方差是有沖突的,這稱為偏差-方差窘境(Bias-VarianceDilemma)。給定學(xué)習(xí)任務(wù),假定我們能控制學(xué)習(xí)算法的訓(xùn)練程度。在訓(xùn)練程度不足時(shí),學(xué)習(xí)器的擬合能力不夠強(qiáng),訓(xùn)練數(shù)據(jù)的擾動不足以使學(xué)習(xí)器產(chǎn)生顯著變化,此時(shí)偏差主導(dǎo)了泛化誤差;隨著訓(xùn)練程度的加深,學(xué)習(xí)器的擬合能力逐漸增強(qiáng),訓(xùn)練數(shù)據(jù)發(fā)生的擾動漸漸能被學(xué)習(xí)器學(xué)到,方差逐漸主導(dǎo)了泛化誤差;在訓(xùn)練程度充足后,學(xué)習(xí)器的擬合能力已非常強(qiáng),訓(xùn)練數(shù)據(jù)發(fā)生的輕微擾動都會導(dǎo)致學(xué)習(xí)器發(fā)生顯著變化,若訓(xùn)練數(shù)據(jù)自身的、非全局的特性被學(xué)習(xí)器學(xué)到了,則將發(fā)生過擬合。偏差-方差窘境線性模型1機(jī)器學(xué)習(xí)算法線性模型形式簡單、易于建模,卻蘊(yùn)含著機(jī)器學(xué)習(xí)中一些重要的基本思想。許多功能更為強(qiáng)大的非線性模型(NonlinearModel)可在線性模型的基礎(chǔ)上通過引入層級結(jié)構(gòu)或高維映射而得。由于w直觀表達(dá)了各屬性在預(yù)測模型中的重要性,因此線性模型有很好的可解釋性(Comprehensibility)。線性模型的優(yōu)點(diǎn)

線性模型給定數(shù)據(jù)集

,其中

,

,線性回歸試圖學(xué)得一個線性模型以盡可能準(zhǔn)確地預(yù)測實(shí)值輸出標(biāo)記。假設(shè)輸入屬性的數(shù)量只有一個,為便于討論,此時(shí)忽略關(guān)于屬性的下標(biāo),即

,其中

。對離散屬性,若屬性值間存在“序”(Order)關(guān)系,可通過連續(xù)化將其轉(zhuǎn)換為連續(xù)值。線性回歸試圖學(xué)得

,使得

。確定w和b的關(guān)鍵在于如何衡量f(x)與y之間的差別。均方誤差是回歸任務(wù)中常用的性能度量,因此我們可試圖讓均方誤差最小化。均方誤差有非常好的幾何意義,它對應(yīng)了常用的歐幾里得距離,簡稱歐氏距離(EuclideanDistance)?;诰秸`差最小化來進(jìn)行模型求解的方法稱為最小二乘法,在線性回歸中,最小二乘法試圖找到一條直線,使所有樣本到直線上的歐氏距離之和最小。一般情形是已知數(shù)據(jù)集D,樣本由d個屬性描述,此時(shí)試圖學(xué)得

,使得

,這稱為“多元線性回歸”。線性回歸線性模型

對數(shù)概率回歸LDA類似于方差分析(ANOVA)和回歸分析,三者都試圖使用屬性或測量值的線性組合來表示因變量。LDA使用連續(xù)自變量和類別因變量;方差分析使用類別自變量和連續(xù)因變量;而回歸分析則使用連續(xù)因變量,自變量可以是連續(xù)的也可以是分類的。線性模型一種經(jīng)典的線性學(xué)習(xí)方法是線性判別分析(LinearDiscriminantAnalysis,LDA)。因?yàn)樗琴M(fèi)舍爾(Fisher)在二分類問題上首次引入的,所以也被稱為“Fisher判別分析”。LDA利用統(tǒng)計(jì)學(xué)、模式識別和機(jī)器學(xué)習(xí)技術(shù),試圖識別表征、區(qū)分兩類對象或事件的線性數(shù)據(jù)組合,得到的組合可以用作線性分類器,或者在分類之前降低維數(shù)。LDA的原理:給定一個訓(xùn)練集,目標(biāo)是將樣本投影到一條直線上,相似樣本之間的投影點(diǎn)盡可能接近,不同樣本之間的投影點(diǎn)盡可能遠(yuǎn)離;對新樣本進(jìn)行分類時(shí),將其投影到同一條線上,然后根據(jù)投影點(diǎn)的位置對其進(jìn)行分類。線性判別分析OvO給定數(shù)據(jù)集

,

。OvO將這N個類別兩兩配對,從而產(chǎn)生N(N-1)/2個二分類任務(wù)。在測試階段,新樣本將同時(shí)被提交給所有分類器,于是將得到N(N-1)/2個分類結(jié)果,最終結(jié)果可通過投票產(chǎn)生,即把被預(yù)測得最多的類別作為最終分類結(jié)果。OvROvR則是每次將一個類的樣例作為正例、其他所有類的樣例作為反例來訓(xùn)練N個分類器。在測試時(shí),若僅有一個分類器預(yù)測為正類,則對應(yīng)的類別鑒記作為最終分類結(jié)果。若有多個分類器預(yù)測為正類,則通??紤]各分類器的預(yù)測置信度,選擇置信度最大的類鑒標(biāo)記作為分類結(jié)果。線性模型在一般情況下,考慮N個類別

,多分類學(xué)習(xí)的本質(zhì)是“拆解法”,即將多分類任務(wù)拆為若干個二分類任務(wù)求解。具體來說,先對問題進(jìn)行拆分,然后為拆出的每個二分類任務(wù)訓(xùn)練一個分類器;在測試時(shí),對這些分類器的預(yù)測結(jié)果進(jìn)行集成以獲得最終的多分類結(jié)果。經(jīng)典的拆分策略有3種:一對一(OnevsOne,OvO)、一對其余(OnevsRest,OvR)和多對多(ManyvsMany,MvM)。多分類學(xué)習(xí)線性模型OvR與OvO對比OvR只需訓(xùn)練N個分類器,而OvO需訓(xùn)練N(N-1)/2個分類器。OvO

的存儲開銷和訓(xùn)練時(shí)間開銷通常比OvR的更大。但在訓(xùn)練時(shí),OvR的每個分類器均使用全部訓(xùn)練樣例,而OvO的每個分類器僅用到兩個類的樣例,因此,在類別很多時(shí),OvO的訓(xùn)練時(shí)間開銷通常比OvR的更小。至于預(yù)測性能,則取決于具體的數(shù)據(jù)分布,在多數(shù)情形下兩者性能差不多。MvMMvM是每次將若干個類作為正類,若干個其他類作為反類,OvO和OvR是MvM的特例。MvM的正、反類構(gòu)造必須有特殊的設(shè)計(jì),不能隨意選取。多分類學(xué)習(xí)線性模型

類別不平衡問題線性模型重放的基本思想雖簡單,但實(shí)際操作卻并不簡單,主要是因?yàn)椤坝?xùn)練集是真實(shí)樣本總體的無偏采樣結(jié)果”這個假設(shè)往往并不成立。也就是說,我們未必能有效地基于訓(xùn)練集觀測概率來推斷出真實(shí)概率。現(xiàn)有技術(shù)大體上有3類做法:第一類是直接對訓(xùn)練集里的反例進(jìn)行欠采樣(Undersampling),即去除一些反例使得正、反例數(shù)量接近,然后進(jìn)行學(xué)習(xí);第二類是對訓(xùn)練集里的正例進(jìn)行過采樣(Oversampling),即增加一些正例使得正、反例數(shù)量接近,然后進(jìn)行學(xué)習(xí);第三類則是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),但在用訓(xùn)練好的分類器進(jìn)行預(yù)測時(shí),將式(5.13)嵌入其決策過程中,稱為閾值移動(Threshold-Moving)。重放決策樹是機(jī)器學(xué)習(xí)中的一種預(yù)測模型,表示對象屬性與對象值之間的映射關(guān)系。決策樹可用于檢查數(shù)據(jù)和創(chuàng)建數(shù)據(jù)預(yù)測。決策樹只有一個輸出,如果需要多個輸出,我們可以創(chuàng)建一棵獨(dú)立的決策樹來處理不同的輸出。決策樹通常由一個根節(jié)點(diǎn)、幾個內(nèi)部節(jié)點(diǎn)和多個葉節(jié)點(diǎn)組成;葉節(jié)點(diǎn)對應(yīng)決策結(jié)果,其他節(jié)點(diǎn)對應(yīng)屬性測試;每個節(jié)點(diǎn)都包含有關(guān)選擇的信息,我們可以根據(jù)屬性測試結(jié)果,將樣本集劃分為子節(jié)點(diǎn),根節(jié)點(diǎn)包括整個樣本集。決策測試序列對應(yīng)從根節(jié)點(diǎn)到每個葉節(jié)點(diǎn)的路徑,決策樹學(xué)習(xí)的目標(biāo)是提出新的決策樹。決策樹2機(jī)器學(xué)習(xí)算法決策樹代碼所示為采用分治技術(shù)構(gòu)建具有良好泛化能力決策樹的基本過程。在決策樹基本構(gòu)建中,有以下3種情形會導(dǎo)致遞歸返回:訓(xùn)練集不斷被劃分,劃分到樣本屬于同一類別時(shí),無須劃分;沒有可以用于劃分的屬性,或者所有樣本在所有屬性上的取值一樣,無法劃分;劃分到節(jié)點(diǎn)包含的訓(xùn)練集為空,不能劃分。在第2種情形下,我們把當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn),并將其類別設(shè)置為該節(jié)點(diǎn)所含樣本最多的類別;在第3種情形下,同樣把當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn),但將其類別設(shè)置為其父節(jié)點(diǎn)所含樣本最多的類別。決策樹構(gòu)建決策樹決策樹學(xué)習(xí)的關(guān)鍵是代碼第8行,即如何選擇最優(yōu)劃分屬性。一般而言,隨著劃分過程不斷進(jìn)行,我們希望決策樹的分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別,即節(jié)點(diǎn)的純度(Purity)越來越高。劃分選擇

01信息熵信息熵(InformationEntropy)是度量樣本集合純度最常用的一種指標(biāo)。假定當(dāng)前樣本集合

D中第k類樣本所占的比例為

,則D的信息熵定義為Ent(D)的值越小,則D的純度越高。

02信息增益

決策樹

03增益率

04基尼指數(shù)信息增益準(zhǔn)則對可取值數(shù)量較多的屬性有所偏好,為減少這種偏好可能帶來的不利影響,C4.5決策樹算法不直接使用信息增益,而是使用增益率(GainRatio)來選擇最優(yōu)劃分屬性。增益率定義為其中

IV(a)

稱為屬性a的固有值(IntrinsicValue),屬性a的可能取值數(shù)量越多(即V值越大),則IV(a)的值通常會越大。增益率準(zhǔn)則對可取值數(shù)量較少的屬性有所偏好,因此C4.5決策樹算法先從候選劃分屬性中找出信息增益高于平均水平的屬性,再從中選擇增益率最大的。CART決策樹使用基尼指數(shù)(GiniIndex)來選擇劃分屬性。數(shù)據(jù)集D的純度可用基尼值來度量直觀來說,Gini(D)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個樣本,其類別標(biāo)記不一致的概率。Gini(D)越小,則數(shù)據(jù)集D的純度越高。屬性a的基尼指數(shù)定義為在候選屬性集合A中,可以選擇那個使得劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性,即

。決策樹剪枝(Pruning)是決策樹學(xué)習(xí)算法對付“過擬合”的主要手段。在決策樹學(xué)習(xí)中,節(jié)點(diǎn)劃分過程不斷重復(fù),有時(shí)會造成決策樹分支過多,此時(shí)可通過主動去掉一些分支來降低過擬合的風(fēng)險(xiǎn)。決策樹剪枝的基本策略有預(yù)剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。預(yù)剪枝是指在決策樹生成過程中,在每個節(jié)點(diǎn)劃分前先進(jìn)行估計(jì),若當(dāng)前節(jié)點(diǎn)的劃分不能帶來決策樹泛化性能的提升,則停止劃分并將當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn);后剪枝則是先通過訓(xùn)練集生成一棵完整的決策樹,然后自底向上地對非葉節(jié)點(diǎn)進(jìn)行考察,若將該節(jié)點(diǎn)對應(yīng)的子樹替換為葉節(jié)點(diǎn)能帶來決策樹泛化性能提升,則將該子樹替換為葉節(jié)點(diǎn)。剪枝處理由于連續(xù)屬性的可取值數(shù)量不再有限,因此,不能直接根據(jù)連續(xù)屬性的可取值來對節(jié)點(diǎn)進(jìn)行劃分。此時(shí)連續(xù)屬性離散化技術(shù)可派上用場,最簡單的策略是采用二分法(Bi-Partition)對連續(xù)屬性進(jìn)行處理,這正是C4.5決策樹算法中采用的機(jī)制。需要注意的是,與離散屬性不同,若當(dāng)前節(jié)點(diǎn)劃分屬性為連續(xù)屬性,該屬性還可作為其后代節(jié)點(diǎn)的劃分屬性。連續(xù)值處理現(xiàn)實(shí)任務(wù)中常遇到不完整樣本,尤其是在屬性數(shù)量較多的情況下,往往會有大量樣本出現(xiàn)缺失值。如果簡單地放棄不完整樣本,會造成數(shù)據(jù)信息的極大浪費(fèi)。如何在屬性值缺失的情況下進(jìn)行劃分屬性選擇?給定劃分屬性,若樣本在該屬性上的值缺失,如何對樣本進(jìn)行劃分?缺失值處理神經(jīng)網(wǎng)絡(luò)也稱為人工神經(jīng)網(wǎng)絡(luò)或模擬神經(jīng)網(wǎng)絡(luò),它是機(jī)器學(xué)習(xí)的一個子集,是深度學(xué)習(xí)方法的核心。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算,神經(jīng)元模型是神經(jīng)網(wǎng)絡(luò)最基本的組成部分。沃倫·麥卡洛克(WarrenMcCulloch)和沃爾特·皮茨(WalterPitts)在1943年將上述情況抽象為一個簡單的模型,該模型是一直沿用到現(xiàn)在的M-P神經(jīng)元模型。神經(jīng)網(wǎng)絡(luò)3機(jī)器學(xué)習(xí)算法一個神經(jīng)元從n個神經(jīng)元獲得輸入,這些輸入信號通過加權(quán)連接傳輸,神經(jīng)元接收的總輸入值與神經(jīng)元的閾值進(jìn)行比較,然后使用激活函數(shù)處理神經(jīng)元的輸出。理想中的激活函數(shù)是階躍函數(shù),但階躍函數(shù)具有不連續(xù)、不光滑等性質(zhì),因此實(shí)際常將Sigmoid函數(shù)作為激活函數(shù)。M-P神經(jīng)元模型神經(jīng)網(wǎng)絡(luò)單層神經(jīng)元網(wǎng)絡(luò)是最基本的神經(jīng)元網(wǎng)絡(luò)形式,由有限個神經(jīng)元構(gòu)成,所有神經(jīng)元的輸入向量都是同一個向量。由于每個神經(jīng)元都會產(chǎn)生一個標(biāo)量結(jié)果,因此單層神經(jīng)元網(wǎng)絡(luò)的輸出是一個向量,向量的維數(shù)等于神經(jīng)元的數(shù)量單層神經(jīng)元網(wǎng)絡(luò)一種常見的多層前饋神經(jīng)網(wǎng)絡(luò)(MultilayerFeedforwardNeuralNetwork)由3個部分組成。輸入層(InputLayer),眾多神經(jīng)元接收大量非線性輸入消息。輸入的消息稱為輸入向量。輸出層(OutputLayer),消息在神經(jīng)元連接中傳輸、分析、權(quán)衡,形成輸出結(jié)果。輸出的消息稱為輸出向量。隱藏層(HiddenLayer),簡稱“隱層”,是輸入層和輸出層之間眾多神經(jīng)元連接組成的各個層面。隱藏層可以有一層或多層,這種網(wǎng)絡(luò)一般稱為感知機(jī)(對單隱藏層)或多層感知機(jī)(對多隱藏層)。隱藏層的節(jié)點(diǎn)(神經(jīng)元)數(shù)量不定,但數(shù)量越多神經(jīng)網(wǎng)絡(luò)的非線性越顯著,從而神經(jīng)網(wǎng)絡(luò)的健壯性更顯著。多層神經(jīng)元網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)BP(BackPropogation)算法的出現(xiàn)是神經(jīng)網(wǎng)絡(luò)發(fā)展的重大突破,是許多深度學(xué)習(xí)訓(xùn)練方法的基礎(chǔ)。BP算法是一種典型的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,可與梯度下降等優(yōu)化方法結(jié)合使用,它是最有效的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法之一。BP算法要求由對每個輸入值想得到的已知輸出來計(jì)算損失函數(shù)梯度,因此,它通常被認(rèn)為是一種監(jiān)督學(xué)習(xí)方法,雖然它也被用在一些無監(jiān)督網(wǎng)絡(luò)(如自動編碼器)中。BP算法主要由兩個階段組成:激勵傳播與權(quán)重更新。第一階段:激勵傳播,每次迭代的傳播環(huán)節(jié)包含以下兩步。(前向傳播階段)將訓(xùn)練輸入送入網(wǎng)絡(luò)以獲得激勵響應(yīng)。(反向傳播階段)將激勵響應(yīng)同訓(xùn)練輸入所對應(yīng)的目標(biāo)輸出求差,從而獲得輸出層和隱藏層的響應(yīng)誤差。第二階段:權(quán)重更新,對于每個突觸上的權(quán)重,按照以下步驟進(jìn)行更新。將輸入激勵和響應(yīng)誤差相乘,從而獲得權(quán)重的梯度。將這個梯度乘以一個比例并取反后加到權(quán)重上。這個比例會影響訓(xùn)練過程的速度和效果,因此稱為“訓(xùn)練因子”;梯度的方向指明了誤差擴(kuò)大的方向,因此在更新權(quán)重的時(shí)候需要對其取反,從而減小權(quán)重引起的誤差。BP算法在機(jī)器學(xué)習(xí)中,支持向量機(jī)又名支持向量網(wǎng)絡(luò),用以在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法。給定一組訓(xùn)練實(shí)例,每個訓(xùn)練實(shí)例被標(biāo)記為兩個類別中的一個或另一個,支持向量機(jī)訓(xùn)練算法創(chuàng)建一個將新的實(shí)例分配給兩個類別之一的模型,使其成為非概率二元線性分類器。支持向量機(jī)模型將實(shí)例表示為空間中的點(diǎn),這樣映射就使得每個類別的實(shí)例被盡可能寬的、明顯的間隔分開。然后,將新的實(shí)例映射到同一空間,并基于它們落在間隔的哪一側(cè)來預(yù)測所屬類別。當(dāng)數(shù)據(jù)未被標(biāo)記時(shí),不能進(jìn)行監(jiān)督學(xué)習(xí),需要用非監(jiān)督學(xué)習(xí),支持向量機(jī)會嘗試找出數(shù)據(jù)到簇的自然聚類,并將新數(shù)據(jù)映射到這些已形成的簇。支持向量機(jī)改進(jìn)的聚類算法被稱為支持向量聚類。支持向量機(jī)4機(jī)器學(xué)習(xí)算法支持向量機(jī)

超平面支持向量機(jī)

基本型樸素貝葉斯機(jī)器學(xué)習(xí)算法5

樸素貝葉斯

最小化分類錯誤率無監(jiān)督學(xué)習(xí)的目的是通過學(xué)習(xí)未標(biāo)記的訓(xùn)練樣本來揭示數(shù)據(jù)的內(nèi)在本質(zhì)和原理,并通過學(xué)習(xí)未標(biāo)記訓(xùn)練樣本為后續(xù)的數(shù)據(jù)分析打下基礎(chǔ)。此類學(xué)習(xí)任務(wù)中研究最多、應(yīng)用最廣的是“聚類”。聚類是根據(jù)一組標(biāo)準(zhǔn)將數(shù)據(jù)集合劃分為不同的類或簇的過程,目的是最大化同一簇中數(shù)據(jù)對象的相似性,同時(shí)盡可能保持不在同一簇中的數(shù)據(jù)項(xiàng)的多樣性。聚類6機(jī)器學(xué)習(xí)算法聚類性能度量亦稱聚類的有效性指標(biāo)(ValidityIndex)。一方面,對聚類結(jié)果,我們需要通過某種性能度量來評估其好壞;另一方面,若明確了最終將要使用的性能度量,則可直接將其作為聚類過程的優(yōu)化目標(biāo),從而更好地得到符合要求的聚類結(jié)果。聚類性能度量聚類性能度量大致有兩類:一類是將聚類結(jié)果與某個參考模型(ReferenceModel)進(jìn)行比較,稱為外部指標(biāo)(ExternalIndex);另一類是直接考察聚類結(jié)果而不利用任何參考模型,稱為內(nèi)部指標(biāo)(InternalIndex)。聚類性能度量聚類原型聚類亦稱基于原型的聚類(Prototype-BasedClustering)。此類算法假設(shè)聚類結(jié)構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論