64229《大數(shù)據(jù)與人工智能導(dǎo)論（微課版）》第5章

上傳人：1*** IP屬地：廣東上傳時(shí)間：2024-09-16 格式：PPTX 頁數(shù)：52 大?。?.29MB 積分：30 舉報(bào) 版權(quán)申訴

64229《大數(shù)據(jù)與人工智能導(dǎo)論（微課版）》第5章_第2頁

64229《大數(shù)據(jù)與人工智能導(dǎo)論（微課版）》第5章_第3頁

64229《大數(shù)據(jù)與人工智能導(dǎo)論（微課版）》第5章_第4頁

64229《大數(shù)據(jù)與人工智能導(dǎo)論（微課版）》第5章_第5頁

已閱讀5頁，還剩47頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與人工智能導(dǎo)論機(jī)器學(xué)習(xí)：智能的自動化途徑制作單位：網(wǎng)絡(luò)信息中心2024年8月本章學(xué)習(xí)目標(biāo)01從定義、發(fā)展歷史中了解什么是機(jī)器學(xué)習(xí)02掌握機(jī)器學(xué)習(xí)的分類與關(guān)鍵術(shù)語03了解幾種基本的機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)概述機(jī)器學(xué)習(xí)通常可以定義為人工智能的一個分支。它利用計(jì)算機(jī)算法和統(tǒng)計(jì)模型，讓計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)，而不是依靠程序員手動編碼。機(jī)器學(xué)習(xí)是人工智能的一門學(xué)科，主要研究對象是人工智能，特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能。機(jī)器學(xué)習(xí)是對能通過經(jīng)驗(yàn)自動改進(jìn)的計(jì)算機(jī)算法的研究。機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn)優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)。一種經(jīng)常引用的英文定義是：AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceE.機(jī)器學(xué)習(xí)不同定義011949年，唐納德·赫布（DonaldHebb）利用神經(jīng)心理學(xué)學(xué)習(xí)原理開創(chuàng)了機(jī)器學(xué)習(xí)，提出了赫布學(xué)習(xí)規(guī)則。1950

年，圖靈提出著名的圖靈測試，作為判斷智能的條件，這是人工智能領(lǐng)域的開端。在1952年，IBM公司的科學(xué)家阿瑟·塞繆爾（ArthurSamuel）創(chuàng)建了一個跳棋程序，駁斥了約翰·馮·諾依曼（JohnvonNeumann）的機(jī)器不能像人類那樣編碼或?qū)W習(xí)的理論。阿瑟·塞繆爾提出了“機(jī)器學(xué)習(xí)”一詞，并將其定義為“一個不需要顯式編程就能提供計(jì)算機(jī)能力的研究領(lǐng)域”。弗蘭克·羅森布拉特在1957年提出了基于神經(jīng)傳感科學(xué)的模型，該模型與當(dāng)今的機(jī)器學(xué)習(xí)算法非常接近，弗蘭克·羅森布拉特基于這一想法創(chuàng)建了第一個計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)——感知機(jī)，用來模擬人腦的功能。馬文·李·明斯基（MarvinLeeMinsky）在1969年將感知機(jī)推向了頂峰，他提出了著名的異或問題和感知機(jī)數(shù)據(jù)的線性不可分離性。明斯基還將人工智能與機(jī)器人技術(shù)相結(jié)合，創(chuàng)造了機(jī)器人C——這是世界上第一個能夠模擬人類行為的機(jī)器人，從而將機(jī)器人技術(shù)推向了新的高度。起源與早期發(fā)展機(jī)器學(xué)習(xí)的發(fā)展歷史02從20世紀(jì)60年代中期到20世紀(jì)70年代末，機(jī)器學(xué)習(xí)的發(fā)展速度急劇放緩。這一時(shí)期的研究目標(biāo)是通過使用邏輯或圖形結(jié)構(gòu)作為機(jī)器的內(nèi)部描述來模仿人類的想法、學(xué)習(xí)過程。機(jī)器可以學(xué)習(xí)使用符號來描述概念，并對所學(xué)內(nèi)容進(jìn)行各種假設(shè)。盡管帕特里克·溫斯頓（PatrickWinston）的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯·羅斯（HaysRoth）的基于邏輯的歸納學(xué)習(xí)系統(tǒng)在此期間取得了重大進(jìn)展，但他們只能吸納一個概念并將其付諸實(shí)踐。由于理論計(jì)算結(jié)果未能達(dá)到預(yù)期效果，神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器的進(jìn)展陷入低谷。低谷機(jī)器學(xué)習(xí)的發(fā)展歷史0320世紀(jì)70年代末，人們開始從學(xué)習(xí)單一的概念轉(zhuǎn)向?qū)W習(xí)眾多的概念，嘗試其他學(xué)習(xí)策略和方法。保羅·韋伯斯（PaulWerbos）在1981年提出了神經(jīng)網(wǎng)絡(luò)誤差逆?zhèn)鞑ィ˙ackPropogation，BP）技術(shù)中的多層感知機(jī)（Multi-LayerPerceptron，MLP）。1986年第一種人工智能領(lǐng)域的權(quán)威期刊ArtificialIntelligence創(chuàng)刊。同年，昆蘭提出了一個著名的ML算法，我們稱之為決策樹算法，或者更準(zhǔn)確地說，即ID3算法?？偟膩砜?，20世紀(jì)80年代是機(jī)器學(xué)習(xí)成為一個獨(dú)立的學(xué)科領(lǐng)域、各種機(jī)器學(xué)習(xí)技術(shù)百花初綻的時(shí)期。轉(zhuǎn)折0420世紀(jì)80年代以來，“示例學(xué)習(xí)”（廣義上的歸納學(xué)習(xí)），包括有監(jiān)督和無監(jiān)督學(xué)習(xí)，一直是研究最多、使用最廣泛的學(xué)習(xí)方法。符號學(xué)習(xí)包括決策樹和基于邏輯的學(xué)習(xí)，20世紀(jì)80年代以來一直是“示例學(xué)習(xí)”的重要組成部分?；谏窠?jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí)是20世紀(jì)90年代中期之前的另一種流行“示例學(xué)習(xí)”技術(shù)。統(tǒng)計(jì)學(xué)習(xí)在20世紀(jì)90年代中期首次亮相，并很快崛起。支持向量機(jī)（SupportVectorMachine，SVM）和更廣泛的“核技術(shù)”（核方法）是統(tǒng)計(jì)學(xué)習(xí)的代表性技術(shù)。連接主義學(xué)習(xí)在21世紀(jì)初重新出現(xiàn)，引發(fā)了一股被稱為深度學(xué)習(xí)的熱潮。深度學(xué)習(xí)技術(shù)在許多測試和競賽中表現(xiàn)出色，尤其是在涉及語音和圖像等復(fù)雜項(xiàng)目的應(yīng)用中。示例學(xué)習(xí)機(jī)器學(xué)習(xí)的發(fā)展歷史機(jī)器學(xué)習(xí)分類監(jiān)督學(xué)習(xí)通過學(xué)習(xí)或建立模式（函數(shù)/學(xué)習(xí)模型），從標(biāo)記的訓(xùn)練集中推斷新的事件。訓(xùn)練集是訓(xùn)練樣本的集合，每個樣本都有一個輸入變量（自變量）和一個預(yù)期輸出（因變量）。函數(shù)的輸出可以是連續(xù)值（回歸分析）或分類標(biāo)簽預(yù)測（分類）。無監(jiān)督學(xué)習(xí)算法使用未標(biāo)記的輸入數(shù)據(jù)，這意味著數(shù)據(jù)只提供輸入變量（自變量X），而不提供匹配的輸出變量（因變量）。在無監(jiān)督學(xué)習(xí)中，算法會自己發(fā)現(xiàn)數(shù)據(jù)中的模式。生成對抗網(wǎng)絡(luò)（GAN）和聚類是兩種常見的無監(jiān)督學(xué)習(xí)策略。強(qiáng)化學(xué)習(xí)通過與環(huán)境交互來學(xué)習(xí)如何做出決策，以最大化預(yù)期的回報(bào)。在訓(xùn)練過程中，算法會根據(jù)其行動獲得的獎勵或懲罰來調(diào)整其策略，以便在未來做出更好的決策。強(qiáng)化學(xué)習(xí)通常用于游戲、機(jī)器人控制等領(lǐng)域。監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)基本概念樣本數(shù)據(jù)當(dāng)我們擁有一些樣本

(x,y)

時(shí)，(x,y)

就是樣本數(shù)據(jù)，其中x叫作輸入數(shù)據(jù)（InputData），y叫作輸出數(shù)據(jù)（OutputData），y又稱為因變量。在機(jī)器學(xué)習(xí)中，它有一個更加專業(yè)的名字——標(biāo)簽（Label）或者目標(biāo)（Target）。輸入數(shù)據(jù)與輸出數(shù)據(jù)通常都是高維矩陣，例如其中

表示第i個輸入樣本，

表示數(shù)據(jù)

的第n個元素的值。標(biāo)簽y因需求不同有各種形式，以最簡單的n分類問題為例，

就是一個n維的One-Hot，其中一個值為1，其余的元素都為0，第幾個元素為1就表明屬于第幾個類別。機(jī)器學(xué)習(xí)基本概念數(shù)據(jù)集與特征如集合

稱為一個“數(shù)據(jù)集”（DataSet），其中每條記錄是關(guān)于一個事件或?qū)ο蟮拿枋?，稱為一個“示例”（Instance）或“樣本”（Sample）；反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng)，稱為“特征”（Feature）。從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”（Learning）或“訓(xùn)練”（Training），這個過程通過執(zhí)行某個學(xué)習(xí)算法來完成。訓(xùn)練集、驗(yàn)證集、測試數(shù)據(jù)對于一個學(xué)習(xí)模型而言，給定數(shù)據(jù)集，在模型評估與選擇過程中由于需要留出一部分?jǐn)?shù)據(jù)進(jìn)行評估、測試，事實(shí)上只使用一部分?jǐn)?shù)據(jù)訓(xùn)練模型。訓(xùn)練集：顧名思義，訓(xùn)練集用于訓(xùn)練學(xué)習(xí)模型，通常其數(shù)據(jù)量比例不低于總數(shù)據(jù)量的一半。驗(yàn)證集：驗(yàn)證集用于衡量訓(xùn)練過程中模型的好壞。因?yàn)闄C(jī)器學(xué)習(xí)算法大部分都不是通過解析法得到的，而是通過不斷迭代來慢慢優(yōu)化模型，所以驗(yàn)證集可以用來監(jiān)視模型訓(xùn)練時(shí)的性能變化。測試數(shù)據(jù)：在模型訓(xùn)練好了之后，測試數(shù)據(jù)用于衡量最終模型的性能。驗(yàn)證集只能用于監(jiān)視和輔助模型訓(xùn)練，不能用來代表模型好壞，所以哪怕驗(yàn)證的準(zhǔn)確度是100%而測試的準(zhǔn)確度是10%，模型也是不能被認(rèn)可的。機(jī)器學(xué)習(xí)基本概念分類、回歸分類是一種監(jiān)督學(xué)習(xí)策略，旨在根據(jù)之前的觀察結(jié)果預(yù)測新樣本的分類標(biāo)簽，這些分類標(biāo)簽是離散的、無序的值，代表樣本組成員之間的關(guān)系。所以說，如果機(jī)器學(xué)習(xí)模型的輸出是離散值，我們稱其為分類模型；相反，如果機(jī)器學(xué)習(xí)模型的輸出是連續(xù)的值，稱為回歸模型。決策樹：基于對數(shù)據(jù)集的分割來構(gòu)建一個樹狀結(jié)構(gòu)，每個內(nèi)部節(jié)點(diǎn)表示對某個屬性的判斷，每個葉節(jié)點(diǎn)表示一個類別。樸素貝葉斯：基于貝葉斯定理，假設(shè)屬性之間相互獨(dú)立，利用先驗(yàn)（Prior）概率和條件概率進(jìn)行分類。支持向量機(jī)：通過尋找超平面將數(shù)據(jù)集分割成兩個類別，并最大化邊界，可以實(shí)現(xiàn)非線性分類。K近鄰算法（K-NearestNeighbors，KNN）：通過計(jì)算待分類樣本與訓(xùn)練樣本之間的距離，取距離最近的k個樣本的類別進(jìn)行投票決定待分類樣本的類別。邏輯回歸（LogisticRegression）：通過對數(shù)據(jù)進(jìn)行擬合，得到一個線性回歸方程，并通過Sigmoid函數(shù)將結(jié)果映射到[0,1]，用于解決二分類問題。神經(jīng)網(wǎng)絡(luò)：通過多層神經(jīng)元的組合，實(shí)現(xiàn)對非線性數(shù)據(jù)的分類。常用的神經(jīng)網(wǎng)絡(luò)模型包括MLP、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等。常見的分類算法線性回歸：線性回歸是最基本的回歸算法之一。它假設(shè)輸入變量和輸出變量之間存在線性關(guān)系，并且使用最小二乘法（LeastSquareMethod）來擬合一個線性模型（LinearModel）。線性回歸的優(yōu)點(diǎn)是簡單易懂，容易實(shí)現(xiàn)，并且在某些情況下可以提供良好的結(jié)果。支持向量回歸：支持向量回歸是一種基于支持向量機(jī)的回歸算法。它通過尋找一個超平面來擬合數(shù)據(jù)，使得所有數(shù)據(jù)點(diǎn)到超平面的距離最小化。與線性回歸不同，支持向量回歸可以使用核函數(shù)來處理非線性問題。決策樹回歸：決策樹回歸是一種基于決策樹的回歸算法。它將數(shù)據(jù)集分成多個子集，每個子集對應(yīng)決策樹上的一個節(jié)點(diǎn)。通過對每個節(jié)點(diǎn)進(jìn)行擬合，最終得到一個回歸模型。決策樹回歸的優(yōu)點(diǎn)是易于理解和解釋，可以處理非線性關(guān)系，并且不需要對數(shù)據(jù)進(jìn)行任何假設(shè)。隨機(jī)森林（RandomForest）回歸：隨機(jī)森林回歸是一種基于隨機(jī)森林的回歸算法。它通過隨機(jī)選擇數(shù)據(jù)集的子集和特征集，構(gòu)建多個決策樹，并對這些決策樹進(jìn)行平均或投票來預(yù)測結(jié)果。與決策樹回歸不同，隨機(jī)森林回歸可以處理高維數(shù)據(jù)，并且具有更好的泛化性能。神經(jīng)網(wǎng)絡(luò)回歸：神經(jīng)網(wǎng)絡(luò)回歸是一種基于神經(jīng)網(wǎng)絡(luò)的回歸算法，它通過多個神經(jīng)元和層來模擬復(fù)雜的非線性關(guān)系，并使用BP算法來訓(xùn)練模型。神經(jīng)網(wǎng)絡(luò)回歸的優(yōu)點(diǎn)是可以處理非線性問題，并且在大規(guī)模數(shù)據(jù)集上具有較好的性能。常見的回歸算法機(jī)器學(xué)習(xí)基本概念聚類聚類是一種常見的無監(jiān)督學(xué)習(xí)策略，用于根據(jù)項(xiàng)目的特征將數(shù)據(jù)分類。聚類是將一組對象分組到類似對象的類中的過程。聚類方法用于在數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式或分組，聚類算法構(gòu)成的分組或類中的數(shù)據(jù)具有更高的相似度。歐幾里得距離、概率距離和其他度量可用于定義聚類建模相似性度量。K-means聚類算法：該算法是最常見的聚類算法之一，將樣本分為K個簇，每個簇的中心是該簇內(nèi)所有樣本的平均值。該算法的優(yōu)化目標(biāo)是最小化樣本到簇中心的距離平方和。層次聚類算法：該算法是將樣本逐步分解為一些小的簇，并且在每一步將相似的簇組合起來，形成較大的簇。該算法有兩種形式：自下而上（凝聚）和自上而下（分裂）。密度聚類算法：這類算法將簇視為高密度區(qū)域，通過尋找高密度區(qū)域來確定聚類，而不是在樣本之間劃定邊界。譜聚類算法：該算法通過對樣本之間的相似度矩陣進(jìn)行特征分解，得到一個低維度的特征空間，并在該空間中進(jìn)行聚類。均值漂移聚類算法：該算法是一種基于密度的聚類算法，其主要思想是從一個樣本點(diǎn)出發(fā)，通過不斷向密度估計(jì)函數(shù)最高的方向移動來尋找局部密度最大的區(qū)域。常見的聚類算法機(jī)器學(xué)習(xí)模型評估與性能度量模型評估機(jī)器學(xué)習(xí)模型評估是指對訓(xùn)練好的機(jī)器學(xué)習(xí)模型進(jìn)行性能測試和比較，以確定其預(yù)測準(zhǔn)確性、泛化能力和健壯性等重要性能指標(biāo)。常見的機(jī)器學(xué)習(xí)模型評估方法包括將數(shù)據(jù)集劃分為訓(xùn)練集和測試集、交叉驗(yàn)證（CrossValidation）、混淆矩陣等。同時(shí)，還可以使用不同的評估指標(biāo)對模型進(jìn)行多方面的評估，以全面地了解模型的性能。性能度量性能度量（PerformanceMeasure）是評估模型性能的具體指標(biāo)，不同類型的機(jī)器學(xué)習(xí)任務(wù)需要使用不同的性能度量。分類問題可以使用精確度、召回率、F1得分和ROC（ReceiverOperatingCharacteristic，受試者操作特性）曲線等度量指標(biāo)回歸問題則可以使用均方誤差、平均絕對誤差和R2分?jǐn)?shù)等指標(biāo)來衡量模型性能。

留出法1模型評估在劃分訓(xùn)練集與測試集時(shí)，數(shù)據(jù)分布應(yīng)盡可能保持一致，以盡量減少數(shù)據(jù)劃分過程中引入的額外偏差對最終結(jié)果造成的任何影響。例如，在分類任務(wù)中，樣本的類別比例應(yīng)始終保持相似，從抽樣的角度對數(shù)據(jù)集進(jìn)行分區(qū)時(shí)，保持類別比例的抽樣策略稱為“分層抽樣”。訓(xùn)練集S和測試集T是從數(shù)據(jù)集D中隨機(jī)選擇的，使用一次留出法的估計(jì)結(jié)果往往不穩(wěn)定且不可靠。為了減少偶然性因素，多次采用留出法計(jì)算每個測試的錯誤率，然后求每個測試的平均錯誤。此外，我們希望評估的是用數(shù)據(jù)集D訓(xùn)練出的模型的性能，但留出法需劃分訓(xùn)練集與測試集，訓(xùn)練集包含數(shù)據(jù)過多或過少會對模型的評估或訓(xùn)練產(chǎn)生影響。這個問題沒有完美的解決方案，常見做法是將2/3～4/5的樣本用于訓(xùn)練，剩余樣本用于測試。留出法的問題交叉驗(yàn)證法將樣本數(shù)據(jù)集分成兩個互補(bǔ)的子集：一個子集用于訓(xùn)練分類器或模型，被稱為訓(xùn)練集；另一個子集用于驗(yàn)證訓(xùn)練出的分類器或模型是否有效，被稱為測試集。交叉驗(yàn)證法2模型評估第一階段是將數(shù)據(jù)集D劃分為大小相似的k個相互排斥的子集，每個子集Di保持?jǐn)?shù)據(jù)分布盡可能一致，即通過分層抽樣從數(shù)據(jù)集D中得出。第二階段用k－1個子集的并集作為訓(xùn)練集，其余子集用作第二階段的測試集；通過這種方式，獲得k組訓(xùn)練集與測試集，允許進(jìn)行k次訓(xùn)練和測試，最后返回的是這k個測試結(jié)果的均值。交叉驗(yàn)證法的步驟交叉驗(yàn)證法通常又被稱為“k折交叉驗(yàn)證”。其中最常用的K值是10，因此這個方法又被稱為10折交叉驗(yàn)證。若數(shù)據(jù)集D有m個樣本，將數(shù)據(jù)集D劃分為m個子集，即k=m，此時(shí)得到了交叉驗(yàn)證法的一個特殊情況：留一法（Leave-One-Out，LOO）。交叉驗(yàn)證法2模型評估當(dāng)k等于樣本量m時(shí)，該交叉驗(yàn)證可以被認(rèn)為是m折交叉驗(yàn)證。這時(shí)表明每個數(shù)據(jù)點(diǎn)都經(jīng)過了測試，剩下的m－1個數(shù)據(jù)點(diǎn)代表測試集。留一法不受隨機(jī)樣本劃分方法的影響。因?yàn)橹挥幸环N方法可以將m個樣本劃分為m個子集，將留一法的訓(xùn)練集與原始數(shù)據(jù)集進(jìn)行比較，訓(xùn)練集的樣本只少了一個，所以實(shí)際使用留一法測試的模型與應(yīng)該評估的模型非常相似。故留一法的評估結(jié)果通常被認(rèn)為比較精確。然而，留一法也有一些缺點(diǎn)：當(dāng)數(shù)據(jù)集較大時(shí)，訓(xùn)練m個模型的計(jì)算開銷可能會很大。留一法在統(tǒng)計(jì)學(xué)中，自助法（BootstrapMethod，也稱Bootstrap或自助抽樣法）是一種從給定訓(xùn)練集中有放回的均勻抽樣方法。留出法與交叉驗(yàn)證法實(shí)際評估的模型所使用的訓(xùn)練集比數(shù)據(jù)集D小，造成訓(xùn)練樣本大小的不同，會有一些估計(jì)偏差，基于自助采樣的“自助法”是一個比較好的解決方案。自助法3模型評估對包含m個樣本的數(shù)據(jù)集D進(jìn)行采樣，以創(chuàng)建一個訓(xùn)練集D`。對數(shù)據(jù)集進(jìn)行m次有放回的采樣，將每次抽取的樣本復(fù)制并放入訓(xùn)練集D`。沒有進(jìn)入該訓(xùn)練集的樣本最終形成檢驗(yàn)集（測試集）。自助法的步驟

自助法的原理在統(tǒng)計(jì)學(xué)中，自助法（BootstrapMethod，也稱Bootstrap或自助抽樣法）是一種從給定訓(xùn)練集中有放回的均勻抽樣方法。留出法與交叉驗(yàn)證法實(shí)際評估的模型所使用的訓(xùn)練集比數(shù)據(jù)集D小，造成訓(xùn)練樣本大小的不同，會有一些估計(jì)偏差，基于自助采樣的“自助法”是一個比較好的解決方案。自助法3模型評估一方面，當(dāng)數(shù)據(jù)集很小且劃分訓(xùn)練集與測試集有問題時(shí)，自助法是有效的；此外，自助法可以用原始數(shù)據(jù)集生成許多替代訓(xùn)練集，這對集成學(xué)習(xí)（EnsembleLearning）等方法有利。另一方面，自助法改變了原始數(shù)據(jù)集的分布，引入了估計(jì)偏差。因此，當(dāng)初始數(shù)據(jù)量足夠時(shí)，通常會使用留出法和交叉驗(yàn)證法。適用情況在大多數(shù)學(xué)習(xí)方法中，學(xué)習(xí)模型的性能往往因參數(shù)組合的不同而顯著不同。因此，在進(jìn)行模型評估和選擇時(shí)，還需要設(shè)置算法參數(shù)，這一操作被稱為“參數(shù)調(diào)整”或“調(diào)參”（ParameterTuning）。調(diào)參指調(diào)整參數(shù)以獲得更好的效果的過程，目的是獲得更好的模型，修正誤差并提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)確性。許多場景會影響模型的理想設(shè)置，除了選擇算法，還需要在評估和選擇模型時(shí)設(shè)置參數(shù)。目前的標(biāo)準(zhǔn)做法是選擇一個參數(shù)范圍和變化步長，例如

[0,

0.2]

以0.05為步長，這樣便有5個參數(shù)值可選擇，并從這5個參數(shù)值中選擇最佳值。盡管這種方法獲得的參數(shù)值可能不是最佳值，但可在計(jì)算開銷與性能估計(jì)之間折中。調(diào)參與最終模型4模型評估均方誤差1性能度量均方誤差是一種反映估計(jì)值與被估計(jì)值之間差異程度的度量，通常用于評估數(shù)據(jù)的變化程度，并預(yù)測數(shù)據(jù)的準(zhǔn)確性。均方誤差是回歸任務(wù)中最常用的性能度量，其表達(dá)式為即均方誤差對誤差進(jìn)行的平方，意味著誤差值越大，其平方值越大，這使其對大誤差值會十分敏感。錯誤率與精度2分類任務(wù)中最常用的性能指標(biāo)是錯誤率和精度，這對于二分類和多分類都是可以接受的。錯誤率是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。對于樣本集D，分類錯誤率被定義為精度是分類正確的樣本數(shù)占樣本總數(shù)的比例，其表達(dá)式為其中，

表示指示函數(shù)，在

為真和假時(shí)分別取值1和0。錯誤率和精度不足以滿足所有任務(wù)中的需求，對于二分類任務(wù)，樣本可以分為真正例（TruePositive）、假正例（FalsePositive）、真反例（TrueNegative）和假反例（FalseNegative）4個場景，根據(jù)這四種樣本的數(shù)量可以計(jì)算出查準(zhǔn)率、查全率和F1。查準(zhǔn)率、查全率與F13性能度量真實(shí)情況預(yù)測結(jié)果正例反例正例TP（真正例）FN（假反例）反例FP（假正例）TN（真反例）查準(zhǔn)率P（Precision）與查全率R（Recall）的定義：查準(zhǔn)率就是在我們認(rèn)為是對的樣例中，到底有多少真是對的查全率就是針對所有對的樣例，我們判斷對了多少。查準(zhǔn)率與查全率性能度量對每一個測試樣本設(shè)置不同的閾值，分類器對樣本的預(yù)測結(jié)果大于該閾值則判為正例，小于該閾值則判為負(fù)例，每個閾值對應(yīng)一個（查全率，查準(zhǔn)率）數(shù)據(jù)點(diǎn)。以查準(zhǔn)率為縱軸、查全率為橫軸作圖，所有閾值的對應(yīng)點(diǎn)就組成了查準(zhǔn)率-查全率曲線，簡稱P-R曲線，顯示該曲線的圖稱為P-R圖。P-R圖直觀地顯示出學(xué)習(xí)器在樣本總體上的查全率、查準(zhǔn)率。通過比較P-R曲線截面積的大小，還能對兩種學(xué)習(xí)器的性能做出比較。P-R圖

F1度量偏差與方差4性能度量

方差度量了在面對同樣規(guī)模的不同訓(xùn)練集時(shí)，學(xué)習(xí)算法的估計(jì)結(jié)果發(fā)生變動的程度。方差代表一個學(xué)習(xí)算法的精確度，高方差意味著這個學(xué)習(xí)算法與該訓(xùn)練集是不匹配的。使用樣本數(shù)相同的不同訓(xùn)練集產(chǎn)生的方差為方差真實(shí)噪聲是任何學(xué)習(xí)算法在該訓(xùn)練集上的期望誤差的下界，是無法消除的誤差。使用學(xué)習(xí)算法產(chǎn)生的真實(shí)噪聲為真實(shí)噪聲性能度量期望輸出與真實(shí)標(biāo)簽的差別稱為偏差（Bias），度量了某種學(xué)習(xí)算法的平均估計(jì)結(jié)果所能逼近學(xué)習(xí)目標(biāo)的程度，即偏差模型的訓(xùn)練不可避免地會出現(xiàn)噪聲，使得收集到的數(shù)據(jù)樣本中的部分類別與實(shí)際真實(shí)類別不相符。弱假定噪聲期望為0，即

。通過簡單的多項(xiàng)式展開與合并，可對算法的期望泛化誤差進(jìn)行分解。即泛化誤差可分解為偏差、方差與真實(shí)噪聲之和。偏差-方差分解說明，泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度共同決定的。泛化誤差性能度量一般來說，偏差與方差是有沖突的，這稱為偏差-方差窘境（Bias-VarianceDilemma）。給定學(xué)習(xí)任務(wù)，假定我們能控制學(xué)習(xí)算法的訓(xùn)練程度。在訓(xùn)練程度不足時(shí)，學(xué)習(xí)器的擬合能力不夠強(qiáng)，訓(xùn)練數(shù)據(jù)的擾動不足以使學(xué)習(xí)器產(chǎn)生顯著變化，此時(shí)偏差主導(dǎo)了泛化誤差；隨著訓(xùn)練程度的加深，學(xué)習(xí)器的擬合能力逐漸增強(qiáng)，訓(xùn)練數(shù)據(jù)發(fā)生的擾動漸漸能被學(xué)習(xí)器學(xué)到，方差逐漸主導(dǎo)了泛化誤差；在訓(xùn)練程度充足后，學(xué)習(xí)器的擬合能力已非常強(qiáng)，訓(xùn)練數(shù)據(jù)發(fā)生的輕微擾動都會導(dǎo)致學(xué)習(xí)器發(fā)生顯著變化，若訓(xùn)練數(shù)據(jù)自身的、非全局的特性被學(xué)習(xí)器學(xué)到了，則將發(fā)生過擬合。偏差-方差窘境線性模型1機(jī)器學(xué)習(xí)算法線性模型形式簡單、易于建模，卻蘊(yùn)含著機(jī)器學(xué)習(xí)中一些重要的基本思想。許多功能更為強(qiáng)大的非線性模型（NonlinearModel）可在線性模型的基礎(chǔ)上通過引入層級結(jié)構(gòu)或高維映射而得。由于w直觀表達(dá)了各屬性在預(yù)測模型中的重要性，因此線性模型有很好的可解釋性（Comprehensibility）。線性模型的優(yōu)點(diǎn)

線性模型給定數(shù)據(jù)集

，其中

，

，線性回歸試圖學(xué)得一個線性模型以盡可能準(zhǔn)確地預(yù)測實(shí)值輸出標(biāo)記。假設(shè)輸入屬性的數(shù)量只有一個，為便于討論，此時(shí)忽略關(guān)于屬性的下標(biāo)，即

，其中

。對離散屬性，若屬性值間存在“序”（Order）關(guān)系，可通過連續(xù)化將其轉(zhuǎn)換為連續(xù)值。線性回歸試圖學(xué)得

，使得

。確定w和b的關(guān)鍵在于如何衡量f(x)與y之間的差別。均方誤差是回歸任務(wù)中常用的性能度量，因此我們可試圖讓均方誤差最小化。均方誤差有非常好的幾何意義，它對應(yīng)了常用的歐幾里得距離，簡稱歐氏距離（EuclideanDistance）?；诰秸`差最小化來進(jìn)行模型求解的方法稱為最小二乘法，在線性回歸中，最小二乘法試圖找到一條直線，使所有樣本到直線上的歐氏距離之和最小。一般情形是已知數(shù)據(jù)集D，樣本由d個屬性描述，此時(shí)試圖學(xué)得

，使得

，這稱為“多元線性回歸”。線性回歸線性模型

對數(shù)概率回歸LDA類似于方差分析（ANOVA）和回歸分析，三者都試圖使用屬性或測量值的線性組合來表示因變量。LDA使用連續(xù)自變量和類別因變量；方差分析使用類別自變量和連續(xù)因變量；而回歸分析則使用連續(xù)因變量，自變量可以是連續(xù)的也可以是分類的。線性模型一種經(jīng)典的線性學(xué)習(xí)方法是線性判別分析（LinearDiscriminantAnalysis，LDA）。因?yàn)樗琴M(fèi)舍爾（Fisher）在二分類問題上首次引入的，所以也被稱為“Fisher判別分析”。LDA利用統(tǒng)計(jì)學(xué)、模式識別和機(jī)器學(xué)習(xí)技術(shù)，試圖識別表征、區(qū)分兩類對象或事件的線性數(shù)據(jù)組合，得到的組合可以用作線性分類器，或者在分類之前降低維數(shù)。LDA的原理：給定一個訓(xùn)練集，目標(biāo)是將樣本投影到一條直線上，相似樣本之間的投影點(diǎn)盡可能接近，不同樣本之間的投影點(diǎn)盡可能遠(yuǎn)離；對新樣本進(jìn)行分類時(shí)，將其投影到同一條線上，然后根據(jù)投影點(diǎn)的位置對其進(jìn)行分類。線性判別分析OvO給定數(shù)據(jù)集

，

。OvO將這N個類別兩兩配對，從而產(chǎn)生N(N－1)/2個二分類任務(wù)。在測試階段，新樣本將同時(shí)被提交給所有分類器，于是將得到N(N－1)/2個分類結(jié)果，最終結(jié)果可通過投票產(chǎn)生，即把被預(yù)測得最多的類別作為最終分類結(jié)果。OvROvR則是每次將一個類的樣例作為正例、其他所有類的樣例作為反例來訓(xùn)練N個分類器。在測試時(shí)，若僅有一個分類器預(yù)測為正類，則對應(yīng)的類別鑒記作為最終分類結(jié)果。若有多個分類器預(yù)測為正類，則通?？紤]各分類器的預(yù)測置信度，選擇置信度最大的類鑒標(biāo)記作為分類結(jié)果。線性模型在一般情況下，考慮N個類別

，多分類學(xué)習(xí)的本質(zhì)是“拆解法”，即將多分類任務(wù)拆為若干個二分類任務(wù)求解。具體來說，先對問題進(jìn)行拆分，然后為拆出的每個二分類任務(wù)訓(xùn)練一個分類器；在測試時(shí)，對這些分類器的預(yù)測結(jié)果進(jìn)行集成以獲得最終的多分類結(jié)果。經(jīng)典的拆分策略有3種：一對一（OnevsOne，OvO）、一對其余（OnevsRest，OvR）和多對多（ManyvsMany，MvM）。多分類學(xué)習(xí)線性模型OvR與OvO對比OvR只需訓(xùn)練N個分類器，而OvO需訓(xùn)練N(N－1)/2個分類器。OvO

的存儲開銷和訓(xùn)練時(shí)間開銷通常比OvR的更大。但在訓(xùn)練時(shí)，OvR的每個分類器均使用全部訓(xùn)練樣例，而OvO的每個分類器僅用到兩個類的樣例，因此，在類別很多時(shí)，OvO的訓(xùn)練時(shí)間開銷通常比OvR的更小。至于預(yù)測性能，則取決于具體的數(shù)據(jù)分布，在多數(shù)情形下兩者性能差不多。MvMMvM是每次將若干個類作為正類，若干個其他類作為反類，OvO和OvR是MvM的特例。MvM的正、反類構(gòu)造必須有特殊的設(shè)計(jì)，不能隨意選取。多分類學(xué)習(xí)線性模型

類別不平衡問題線性模型重放的基本思想雖簡單，但實(shí)際操作卻并不簡單，主要是因?yàn)椤坝?xùn)練集是真實(shí)樣本總體的無偏采樣結(jié)果”這個假設(shè)往往并不成立。也就是說，我們未必能有效地基于訓(xùn)練集觀測概率來推斷出真實(shí)概率。現(xiàn)有技術(shù)大體上有3類做法：第一類是直接對訓(xùn)練集里的反例進(jìn)行欠采樣（Undersampling），即去除一些反例使得正、反例數(shù)量接近，然后進(jìn)行學(xué)習(xí)；第二類是對訓(xùn)練集里的正例進(jìn)行過采樣（Oversampling），即增加一些正例使得正、反例數(shù)量接近，然后進(jìn)行學(xué)習(xí)；第三類則是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí)，但在用訓(xùn)練好的分類器進(jìn)行預(yù)測時(shí)，將式（5.13）嵌入其決策過程中，稱為閾值移動（Threshold-Moving）。重放決策樹是機(jī)器學(xué)習(xí)中的一種預(yù)測模型，表示對象屬性與對象值之間的映射關(guān)系。決策樹可用于檢查數(shù)據(jù)和創(chuàng)建數(shù)據(jù)預(yù)測。決策樹只有一個輸出，如果需要多個輸出，我們可以創(chuàng)建一棵獨(dú)立的決策樹來處理不同的輸出。決策樹通常由一個根節(jié)點(diǎn)、幾個內(nèi)部節(jié)點(diǎn)和多個葉節(jié)點(diǎn)組成；葉節(jié)點(diǎn)對應(yīng)決策結(jié)果，其他節(jié)點(diǎn)對應(yīng)屬性測試；每個節(jié)點(diǎn)都包含有關(guān)選擇的信息，我們可以根據(jù)屬性測試結(jié)果，將樣本集劃分為子節(jié)點(diǎn)，根節(jié)點(diǎn)包括整個樣本集。決策測試序列對應(yīng)從根節(jié)點(diǎn)到每個葉節(jié)點(diǎn)的路徑，決策樹學(xué)習(xí)的目標(biāo)是提出新的決策樹。決策樹2機(jī)器學(xué)習(xí)算法決策樹代碼所示為采用分治技術(shù)構(gòu)建具有良好泛化能力決策樹的基本過程。在決策樹基本構(gòu)建中，有以下3種情形會導(dǎo)致遞歸返回：訓(xùn)練集不斷被劃分，劃分到樣本屬于同一類別時(shí)，無須劃分；沒有可以用于劃分的屬性，或者所有樣本在所有屬性上的取值一樣，無法劃分；劃分到節(jié)點(diǎn)包含的訓(xùn)練集為空，不能劃分。在第2種情形下，我們把當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)，并將其類別設(shè)置為該節(jié)點(diǎn)所含樣本最多的類別；在第3種情形下，同樣把當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)，但將其類別設(shè)置為其父節(jié)點(diǎn)所含樣本最多的類別。決策樹構(gòu)建決策樹決策樹學(xué)習(xí)的關(guān)鍵是代碼第8行，即如何選擇最優(yōu)劃分屬性。一般而言，隨著劃分過程不斷進(jìn)行，我們希望決策樹的分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別，即節(jié)點(diǎn)的純度（Purity）越來越高。劃分選擇

01信息熵信息熵（InformationEntropy）是度量樣本集合純度最常用的一種指標(biāo)。假定當(dāng)前樣本集合

D中第k類樣本所占的比例為

，則D的信息熵定義為Ent(D)的值越小，則D的純度越高。

02信息增益

決策樹

03增益率

04基尼指數(shù)信息增益準(zhǔn)則對可取值數(shù)量較多的屬性有所偏好，為減少這種偏好可能帶來的不利影響，C4.5決策樹算法不直接使用信息增益，而是使用增益率（GainRatio）來選擇最優(yōu)劃分屬性。增益率定義為其中

IV(a)

稱為屬性a的固有值（IntrinsicValue），屬性a的可能取值數(shù)量越多（即V值越大），則IV(a)的值通常會越大。增益率準(zhǔn)則對可取值數(shù)量較少的屬性有所偏好，因此C4.5決策樹算法先從候選劃分屬性中找出信息增益高于平均水平的屬性，再從中選擇增益率最大的。CART決策樹使用基尼指數(shù)（GiniIndex）來選擇劃分屬性。數(shù)據(jù)集D的純度可用基尼值來度量直觀來說，Gini(D)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個樣本，其類別標(biāo)記不一致的概率。Gini(D)越小，則數(shù)據(jù)集D的純度越高。屬性a的基尼指數(shù)定義為在候選屬性集合A中，可以選擇那個使得劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性，即

。決策樹剪枝（Pruning）是決策樹學(xué)習(xí)算法對付“過擬合”的主要手段。在決策樹學(xué)習(xí)中，節(jié)點(diǎn)劃分過程不斷重復(fù)，有時(shí)會造成決策樹分支過多，此時(shí)可通過主動去掉一些分支來降低過擬合的風(fēng)險(xiǎn)。決策樹剪枝的基本策略有預(yù)剪枝（Pre-Pruning）和后剪枝（Post-Pruning）。預(yù)剪枝是指在決策樹生成過程中，在每個節(jié)點(diǎn)劃分前先進(jìn)行估計(jì)，若當(dāng)前節(jié)點(diǎn)的劃分不能帶來決策樹泛化性能的提升，則停止劃分并將當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)；后剪枝則是先通過訓(xùn)練集生成一棵完整的決策樹，然后自底向上地對非葉節(jié)點(diǎn)進(jìn)行考察，若將該節(jié)點(diǎn)對應(yīng)的子樹替換為葉節(jié)點(diǎn)能帶來決策樹泛化性能提升，則將該子樹替換為葉節(jié)點(diǎn)。剪枝處理由于連續(xù)屬性的可取值數(shù)量不再有限，因此，不能直接根據(jù)連續(xù)屬性的可取值來對節(jié)點(diǎn)進(jìn)行劃分。此時(shí)連續(xù)屬性離散化技術(shù)可派上用場，最簡單的策略是采用二分法（Bi-Partition）對連續(xù)屬性進(jìn)行處理，這正是C4.5決策樹算法中采用的機(jī)制。需要注意的是，與離散屬性不同，若當(dāng)前節(jié)點(diǎn)劃分屬性為連續(xù)屬性，該屬性還可作為其后代節(jié)點(diǎn)的劃分屬性。連續(xù)值處理現(xiàn)實(shí)任務(wù)中常遇到不完整樣本，尤其是在屬性數(shù)量較多的情況下，往往會有大量樣本出現(xiàn)缺失值。如果簡單地放棄不完整樣本，會造成數(shù)據(jù)信息的極大浪費(fèi)。如何在屬性值缺失的情況下進(jìn)行劃分屬性選擇？給定劃分屬性，若樣本在該屬性上的值缺失，如何對樣本進(jìn)行劃分？缺失值處理神經(jīng)網(wǎng)絡(luò)也稱為人工神經(jīng)網(wǎng)絡(luò)或模擬神經(jīng)網(wǎng)絡(luò)，它是機(jī)器學(xué)習(xí)的一個子集，是深度學(xué)習(xí)方法的核心。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算，神經(jīng)元模型是神經(jīng)網(wǎng)絡(luò)最基本的組成部分。沃倫·麥卡洛克（WarrenMcCulloch）和沃爾特·皮茨（WalterPitts）在1943年將上述情況抽象為一個簡單的模型，該模型是一直沿用到現(xiàn)在的M-P神經(jīng)元模型。神經(jīng)網(wǎng)絡(luò)3機(jī)器學(xué)習(xí)算法一個神經(jīng)元從n個神經(jīng)元獲得輸入，這些輸入信號通過加權(quán)連接傳輸，神經(jīng)元接收的總輸入值與神經(jīng)元的閾值進(jìn)行比較，然后使用激活函數(shù)處理神經(jīng)元的輸出。理想中的激活函數(shù)是階躍函數(shù)，但階躍函數(shù)具有不連續(xù)、不光滑等性質(zhì)，因此實(shí)際常將Sigmoid函數(shù)作為激活函數(shù)。M-P神經(jīng)元模型神經(jīng)網(wǎng)絡(luò)單層神經(jīng)元網(wǎng)絡(luò)是最基本的神經(jīng)元網(wǎng)絡(luò)形式，由有限個神經(jīng)元構(gòu)成，所有神經(jīng)元的輸入向量都是同一個向量。由于每個神經(jīng)元都會產(chǎn)生一個標(biāo)量結(jié)果，因此單層神經(jīng)元網(wǎng)絡(luò)的輸出是一個向量，向量的維數(shù)等于神經(jīng)元的數(shù)量單層神經(jīng)元網(wǎng)絡(luò)一種常見的多層前饋神經(jīng)網(wǎng)絡(luò)（MultilayerFeedforwardNeuralNetwork）由3個部分組成。輸入層（InputLayer），眾多神經(jīng)元接收大量非線性輸入消息。輸入的消息稱為輸入向量。輸出層（OutputLayer），消息在神經(jīng)元連接中傳輸、分析、權(quán)衡，形成輸出結(jié)果。輸出的消息稱為輸出向量。隱藏層（HiddenLayer），簡稱“隱層”，是輸入層和輸出層之間眾多神經(jīng)元連接組成的各個層面。隱藏層可以有一層或多層，這種網(wǎng)絡(luò)一般稱為感知機(jī)（對單隱藏層）或多層感知機(jī)（對多隱藏層）。隱藏層的節(jié)點(diǎn)（神經(jīng)元）數(shù)量不定，但數(shù)量越多神經(jīng)網(wǎng)絡(luò)的非線性越顯著，從而神經(jīng)網(wǎng)絡(luò)的健壯性更顯著。多層神經(jīng)元網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)BP（BackPropogation）算法的出現(xiàn)是神經(jīng)網(wǎng)絡(luò)發(fā)展的重大突破，是許多深度學(xué)習(xí)訓(xùn)練方法的基礎(chǔ)。BP算法是一種典型的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法，可與梯度下降等優(yōu)化方法結(jié)合使用，它是最有效的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法之一。BP算法要求由對每個輸入值想得到的已知輸出來計(jì)算損失函數(shù)梯度，因此，它通常被認(rèn)為是一種監(jiān)督學(xué)習(xí)方法，雖然它也被用在一些無監(jiān)督網(wǎng)絡(luò)（如自動編碼器）中。BP算法主要由兩個階段組成：激勵傳播與權(quán)重更新。第一階段：激勵傳播，每次迭代的傳播環(huán)節(jié)包含以下兩步。（前向傳播階段）將訓(xùn)練輸入送入網(wǎng)絡(luò)以獲得激勵響應(yīng)。（反向傳播階段）將激勵響應(yīng)同訓(xùn)練輸入所對應(yīng)的目標(biāo)輸出求差，從而獲得輸出層和隱藏層的響應(yīng)誤差。第二階段：權(quán)重更新，對于每個突觸上的權(quán)重，按照以下步驟進(jìn)行更新。將輸入激勵和響應(yīng)誤差相乘，從而獲得權(quán)重的梯度。將這個梯度乘以一個比例并取反后加到權(quán)重上。這個比例會影響訓(xùn)練過程的速度和效果，因此稱為“訓(xùn)練因子”；梯度的方向指明了誤差擴(kuò)大的方向，因此在更新權(quán)重的時(shí)候需要對其取反，從而減小權(quán)重引起的誤差。BP算法在機(jī)器學(xué)習(xí)中，支持向量機(jī)又名支持向量網(wǎng)絡(luò)，用以在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法。給定一組訓(xùn)練實(shí)例，每個訓(xùn)練實(shí)例被標(biāo)記為兩個類別中的一個或另一個，支持向量機(jī)訓(xùn)練算法創(chuàng)建一個將新的實(shí)例分配給兩個類別之一的模型，使其成為非概率二元線性分類器。支持向量機(jī)模型將實(shí)例表示為空間中的點(diǎn)，這樣映射就使得每個類別的實(shí)例被盡可能寬的、明顯的間隔分開。然后，將新的實(shí)例映射到同一空間，并基于它們落在間隔的哪一側(cè)來預(yù)測所屬類別。當(dāng)數(shù)據(jù)未被標(biāo)記時(shí)，不能進(jìn)行監(jiān)督學(xué)習(xí)，需要用非監(jiān)督學(xué)習(xí)，支持向量機(jī)會嘗試找出數(shù)據(jù)到簇的自然聚類，并將新數(shù)據(jù)映射到這些已形成的簇。支持向量機(jī)改進(jìn)的聚類算法被稱為支持向量聚類。支持向量機(jī)4機(jī)器學(xué)習(xí)算法支持向量機(jī)

超平面支持向量機(jī)

基本型樸素貝葉斯機(jī)器學(xué)習(xí)算法5

樸素貝葉斯

最小化分類錯誤率無監(jiān)督學(xué)習(xí)的目的是通過學(xué)習(xí)未標(biāo)記的訓(xùn)練樣本來揭示數(shù)據(jù)的內(nèi)在本質(zhì)和原理，并通過學(xué)習(xí)未標(biāo)記訓(xùn)練樣本為后續(xù)的數(shù)據(jù)分析打下基礎(chǔ)。此類學(xué)習(xí)任務(wù)中研究最多、應(yīng)用最廣的是“聚類”。聚類是根據(jù)一組標(biāo)準(zhǔn)將數(shù)據(jù)集合劃分為不同的類或簇的過程，目的是最大化同一簇中數(shù)據(jù)對象的相似性，同時(shí)盡可能保持不在同一簇中的數(shù)據(jù)項(xiàng)的多樣性。聚類6機(jī)器學(xué)習(xí)算法聚類性能度量亦稱聚類的有效性指標(biāo)（ValidityIndex）。一方面，對聚類結(jié)果，我們需要通過某種性能度量來評估其好壞；另一方面，若明確了最終將要使用的性能度量，則可直接將其作為聚類過程的優(yōu)化目標(biāo)，從而更好地得到符合要求的聚類結(jié)果。聚類性能度量聚類性能度量大致有兩類：一類是將聚類結(jié)果與某個參考模型（ReferenceModel）進(jìn)行比較，稱為外部指標(biāo)（ExternalIndex）；另一類是直接考察聚類結(jié)果而不利用任何參考模型，稱為內(nèi)部指標(biāo)（InternalIndex）。聚類性能度量聚類原型聚類亦稱基于原型的聚類（Prototype-BasedClustering）。此類算法假設(shè)聚類結(jié)構(gòu)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

64229《大數(shù)據(jù)與人工智能導(dǎo)論（微課版）》第5章

文檔簡介

溫馨提示

最新文檔

評論

64229《大數(shù)據(jù)與人工智能導(dǎo)論（微課版）》第5章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔