人工智能概論課件第4章機器學(xué)習(xí)

上傳人：h*** IP屬地：山東上傳時間：2024-10-26 格式：PPTX 頁數(shù)：57 大?。?.76MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩52頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

高職高專人工智能通識課規(guī)劃教材人工智能概論本章學(xué)習(xí)目標(biāo)第4章機器學(xué)習(xí)【素養(yǎng)目標(biāo)】通過學(xué)習(xí)機器學(xué)習(xí)算法思想，對學(xué)生進(jìn)行科學(xué)思維方法訓(xùn)練、激發(fā)學(xué)習(xí)熱情；通過學(xué)習(xí)機器學(xué)習(xí)算法，提高學(xué)生分析與解決復(fù)雜問題的能力；通過學(xué)習(xí)拓展知識，培養(yǎng)學(xué)生的團隊合作精神和精益求精的專業(yè)精神。本章學(xué)習(xí)目標(biāo)第4章機器學(xué)習(xí)【知識目標(biāo)】掌握機器學(xué)習(xí)的概念及發(fā)展歷程；掌握監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)等機器學(xué)習(xí)類型；理解線性回歸、支持向量機、決策樹、K近鄰算法、K均值聚類算法、關(guān)聯(lián)分析、深度學(xué)習(xí)等機器學(xué)習(xí)算法的工作原理；了解機器學(xué)習(xí)的應(yīng)用。本章學(xué)習(xí)目標(biāo)第4章機器學(xué)習(xí)【能力目標(biāo)】能夠針對機器學(xué)習(xí)具體應(yīng)用功能，闡述其實現(xiàn)原理；能夠針對工作生活場景中的具體需求，選擇合適的機器學(xué)習(xí)算法；會使用“形色”工具識別植物。本章學(xué)習(xí)目標(biāo)第4章機器學(xué)習(xí)【思維導(dǎo)圖】第四章機器學(xué)習(xí)4.1機器學(xué)習(xí)概述4.2機器學(xué)習(xí)類型4.3機器學(xué)習(xí)常用算法高職高專人工智能通識課規(guī)劃教材4.4本章實訓(xùn)4.5拓展知識4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)1.機器學(xué)習(xí)的定義機器學(xué)習(xí)（MachineLearning，ML）是人工智能的一個重要分支與核心研究內(nèi)容，是目前實現(xiàn)人工智能的一條重要途徑。機器學(xué)習(xí)專門研究機器如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識或技能，同時能夠重新組織已有的知識結(jié)構(gòu)，并不斷改善自身的性能。這是的“機器”是指包含硬件和軟件的計算機系統(tǒng)。機器學(xué)習(xí)的應(yīng)用已遍及人工智能的各個分支，如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領(lǐng)域。機器學(xué)習(xí)是一個多領(lǐng)域交叉學(xué)科，涉及計算機科學(xué)、概率論、統(tǒng)計學(xué)、逼近論、算法復(fù)雜度理論等多門學(xué)科。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)機器學(xué)習(xí)任務(wù)可以簡單地理解為“總結(jié)經(jīng)驗、發(fā)現(xiàn)規(guī)律、掌握規(guī)律、預(yù)測未來”。人類的學(xué)習(xí)過程可以描述為，對在工作、生活中積累的歷史經(jīng)驗進(jìn)行歸納，以獲得一些規(guī)律。如果有新的問題出現(xiàn)，就需要根據(jù)歸納的規(guī)律來預(yù)測未來未知的事情，如右上圖所示。機器的學(xué)習(xí)過程可以描述為，利用歷史數(shù)據(jù)，經(jīng)過訓(xùn)練得到一個模型。如果有新的數(shù)據(jù)出現(xiàn)，就使用習(xí)得的模型來預(yù)測未來未知的事情，如右下圖所示。圖4-1人類學(xué)習(xí)過程圖4-2機器學(xué)習(xí)過程4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)2.機器學(xué)習(xí)術(shù)語機器學(xué)習(xí)處理的對象是數(shù)據(jù)。數(shù)據(jù)集是一組具有相似結(jié)構(gòu)的數(shù)據(jù)樣本的合集；學(xué)習(xí)算法將經(jīng)驗（數(shù)據(jù)）轉(zhuǎn)化為最終“模型”；樣本是對某個對象的描述，也叫示例；屬性或特征是對象的某個方面表現(xiàn)；屬性值或特征值是屬性上的取值；維數(shù)是描述樣本屬性參數(shù)的個數(shù)。計算機判斷西瓜是否好瓜4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)3.數(shù)據(jù)集劃分機器學(xué)習(xí)中，需要將數(shù)據(jù)分為訓(xùn)練集（上課）和測試集（作業(yè)），分別用來對模型進(jìn)行訓(xùn)練和測試。（1）訓(xùn)練集。訓(xùn)練（Train）集是讓算法學(xué)習(xí)出一個模型，通過優(yōu)化參數(shù)，以訓(xùn)練模型。（2）測試集。測試（Test）集是通過訓(xùn)練集得出模型后，使用測試集進(jìn)行模型測試，來查看模型的好壞。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)3.數(shù)據(jù)集劃分舉例來說，若擬合直線y＝wx＋b，則根據(jù)新的x數(shù)據(jù)，就可以知道y的值。訓(xùn)練集的作用是，通過已知的x和y，學(xué)習(xí)出或者訓(xùn)練出合適的w和b，使得實際值和預(yù)測值盡可能接近。但是如果將所有已知的x和y全部用作訓(xùn)練，則根據(jù)新的數(shù)據(jù)x，無法知道預(yù)測出的y有多么接近真實數(shù)據(jù)。這怎么辦？此時就需要測試集了。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)3.數(shù)據(jù)集劃分將所有已知數(shù)據(jù)分為兩部分，多數(shù)（比如80%）作為訓(xùn)練集，少數(shù)（比如20%）作為測試集。測試集還需要滿足以下兩個條件：規(guī)模足夠大，可產(chǎn)生具有統(tǒng)計意義的結(jié)果。能代表整個數(shù)據(jù)集。只有測試集滿足上述兩個條件，才有可能得到一個很好的泛化到新數(shù)據(jù)的模型。注意：絕對禁止使用測試數(shù)據(jù)進(jìn)行訓(xùn)練。數(shù)據(jù)集測試集訓(xùn)練集4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)4.過擬合和欠擬合過擬合是指模型完美地或者很好地擬合了數(shù)據(jù)集的某一部分(訓(xùn)練集)，但是此模型很可能并不能用來預(yù)測數(shù)據(jù)集的其他部分(測試集)。欠擬合指的是模型無法很好地擬合訓(xùn)練數(shù)據(jù)，無法捕捉到數(shù)據(jù)中的真實模式和關(guān)系。在這種情況下，模型過于簡單或者復(fù)雜度不足，無法充分學(xué)習(xí)數(shù)據(jù)中的特征和模式。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程自從20世紀(jì)50年代開始研究機器學(xué)習(xí)以來，不同時期的研究途徑和目標(biāo)也不同，機器學(xué)習(xí)的發(fā)展歷程大致分為四個階段：熱烈時期、冷靜時期、復(fù)興時期、最新階段。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程第一階段是20世紀(jì)50年代到60年代中葉，稱為機器學(xué)習(xí)發(fā)展的熱烈時期。在這個階段，機器學(xué)習(xí)所研究的是“沒有知識”的學(xué)習(xí)，即“無知”學(xué)習(xí)。該階段的研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng)，其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)和改進(jìn)系統(tǒng)的執(zhí)行能力，不涉及與具體任務(wù)有關(guān)的知識。本階段的代表性工作是1952年IBM科學(xué)家亞瑟·塞繆爾（ArthurSamuel）開發(fā)的西洋跳棋程序；1958年羅森·布拉特設(shè)計的第一個計算機神經(jīng)網(wǎng)絡(luò)——感知機（Perceptron），它模擬了人類大腦的運作方式。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程第二階段是20世紀(jì)60年代中葉到70年代中葉，稱為機器學(xué)習(xí)發(fā)展的冷靜時期。該階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程，并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機器的內(nèi)部描述。該階段的代表性工作有溫斯頓（Winston）的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯·羅思(HayesRoth)等人的基于邏輯的歸納學(xué)習(xí)系統(tǒng)，但這些學(xué)習(xí)系統(tǒng)只能學(xué)習(xí)單一概念，而且未能投入實際應(yīng)用。事實上，在這個時期，整個AI領(lǐng)域都遭遇了瓶頸。當(dāng)時，計算機的有限內(nèi)存和處理速度不足以解決任何實際的AI問題。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程第三階段是20世紀(jì)70年代中葉到80年代中葉，稱為機器學(xué)習(xí)發(fā)展的復(fù)興時期。在此階段，機器學(xué)習(xí)從學(xué)習(xí)單一概念擴展到學(xué)習(xí)多個概念，并探索不同的學(xué)習(xí)策略和方法，且在該階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來，并且取得了很大的成功。1980年，在美國的卡內(nèi)基梅隆大學(xué)(CMU)召開了第一屆機器學(xué)習(xí)國際研討會，標(biāo)志著機器學(xué)習(xí)研究已在全世界興起。此后，機器學(xué)習(xí)得到了大量應(yīng)用。1981年，偉博斯（Weibos）基于神經(jīng)網(wǎng)絡(luò)反向傳播(BP)算法提出多層感知器(MLP)的概念；1986年，昆蘭（Quinlan）提出決策樹算法。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程第四階段是20世紀(jì)80年代中葉至今，這是機器學(xué)習(xí)發(fā)展的最新階段。1995年，機器學(xué)習(xí)領(lǐng)域中一個最重要的突破，由瓦普尼克（Vapnik）和科爾特斯（Cortes）在大量理論和實證的條件下提出的支持向量機(SVM)，從此將機器學(xué)習(xí)社區(qū)劃分為神經(jīng)網(wǎng)絡(luò)社區(qū)和支持向量機社區(qū)。2006年，神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域領(lǐng)軍者辛頓(Hinton)提出了神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)（DeepLearning）算法，使神經(jīng)網(wǎng)絡(luò)的能力大大提高，并向支持向量機發(fā)出挑戰(zhàn)。4.1

機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程這個階段的機器學(xué)習(xí)具有如下特點。（1）機器學(xué)習(xí)已成為新的邊緣學(xué)科，它綜合應(yīng)用了心理學(xué)、生物學(xué)、神經(jīng)生理學(xué)、數(shù)學(xué)、自動化和計算機科學(xué)等學(xué)科，形成了機器學(xué)習(xí)理論基礎(chǔ)。（2）整合了各種學(xué)習(xí)方法，且形式多樣的集成學(xué)習(xí)系統(tǒng)研究正在興起。（3）機器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成。（4）各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴大，部分應(yīng)用研究成果已轉(zhuǎn)化為產(chǎn)品。（5）與機器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動空前活躍。第四章機器學(xué)習(xí)4.1機器學(xué)習(xí)概述4.2機器學(xué)習(xí)類型4.3機器學(xué)習(xí)常用算法高職高專人工智能通識課規(guī)劃教材4.4本章實訓(xùn)4.5拓展知識4.2機器學(xué)習(xí)類型第4章機器學(xué)習(xí)機器學(xué)習(xí)的核心是“使用算法分析數(shù)據(jù)，從數(shù)據(jù)中學(xué)習(xí)，然后對未知的某件事情做出決定或預(yù)測”。這意味著，機器學(xué)習(xí)不是直接地編寫程序來執(zhí)行某些任務(wù)，而是指導(dǎo)機器如何獲得一個模型來完成任務(wù)。機器通過學(xué)習(xí)可以提取數(shù)據(jù)規(guī)律、創(chuàng)建模型。根據(jù)數(shù)據(jù)類型的不同，與之對應(yīng)的機器學(xué)習(xí)類型也不同，主要有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)等。4.2

機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.1監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)就是根據(jù)已有的大量的輸入數(shù)據(jù)與輸出數(shù)據(jù)（結(jié)果）之間的關(guān)系，去尋找合適的模型（函數(shù)），并使用模型去預(yù)測未來的結(jié)果。每個訓(xùn)練數(shù)據(jù)樣本都有特征值和對應(yīng)的標(biāo)簽，機器學(xué)習(xí)時從有標(biāo)簽的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)并獲得模型，以便對未知或未來的數(shù)據(jù)做出預(yù)測?！氨O(jiān)督”指的是已經(jīng)知道樣本的輸出信號或標(biāo)簽。監(jiān)督學(xué)習(xí)猶如學(xué)生在學(xué)習(xí)過程中有老師講授一樣，會事先知道相關(guān)答案。例如，有兩朵鮮花圖片，并已知鮮花的名稱（玫瑰花、格?；ǎ?，即鮮花的標(biāo)簽。事先要對計算機要學(xué)習(xí)的數(shù)據(jù)樣本進(jìn)行標(biāo)注（打標(biāo)簽），如圖所示，即事先知道明確的結(jié)果（答案），這相當(dāng)于監(jiān)督了計算機的學(xué)習(xí)過程。4.2

機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.1監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)常用于解決生活中分類和回歸的問題，如垃圾郵件分類、判斷腫瘤是良性還是惡性等問題。（1）分類。帶有離散分類標(biāo)簽的監(jiān)督學(xué)習(xí)也稱為分類任務(wù)，這些分類標(biāo)簽是離散值。分類任務(wù)的常見算法包括：邏輯回歸、支持向量機(SVM)、決策樹、隨機森林、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等。分類示意圖如圖所示。4.2

機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.1監(jiān)督學(xué)習(xí)（2）回歸。監(jiān)督學(xué)習(xí)的另一個子類是回歸，其結(jié)果信號是連續(xù)的數(shù)值?；貧w的任務(wù)是預(yù)測目標(biāo)數(shù)值，如在給定一組特性（房屋大小、房間數(shù)等）的情況下，來預(yù)測房屋的售價。回歸分析的常見算法包括：線性回歸、神經(jīng)網(wǎng)絡(luò)、AdaBoosting等。線性回歸如圖所示。4.2

機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.2無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)又稱為歸納性學(xué)習(xí)。在無監(jiān)督學(xué)習(xí)中，數(shù)據(jù)樣本事先是無標(biāo)簽的，也就是沒有分類的，需要從大量數(shù)據(jù)中自行獲得新方法或新發(fā)現(xiàn)，機器需要直接對無標(biāo)簽的數(shù)據(jù)建立模型，然后對觀察數(shù)據(jù)進(jìn)行分類或者區(qū)分?！盁o監(jiān)督”指的是事先不知道樣本的輸出信號或標(biāo)簽。無監(jiān)督學(xué)習(xí)猶如學(xué)生自學(xué)的過程，沒有老師的講授，學(xué)生需要通過自覺尋找答案。無監(jiān)督學(xué)習(xí)的應(yīng)用模式主要包括聚類算法和關(guān)聯(lián)規(guī)則抽取。4.2

機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.2無監(jiān)督學(xué)習(xí)聚類算法又分為K-means聚類和層次聚類。聚類算法的目標(biāo)是創(chuàng)建對象分組，使得同一組內(nèi)的對象盡可能相似，而處于不同組內(nèi)的對象盡可能相異。聚類算法如圖所示。4.2

機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.3半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)是模式識別領(lǐng)域研究的重點問題，是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。在現(xiàn)實生活中，有時對數(shù)據(jù)進(jìn)行標(biāo)記的代價很高，大量的數(shù)據(jù)往往是未經(jīng)過標(biāo)記的，而僅有一小部分?jǐn)?shù)據(jù)是經(jīng)過標(biāo)記的。半監(jiān)督學(xué)習(xí)使用大量的未標(biāo)記數(shù)據(jù)，同時使用少量的標(biāo)記數(shù)據(jù)，來進(jìn)行模式識別工作。使用未標(biāo)記的數(shù)據(jù)的目的是獲得對數(shù)據(jù)結(jié)構(gòu)的更多理解。4.2

機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.4強化學(xué)習(xí)強化學(xué)習(xí)，又稱再勵學(xué)習(xí)、評價學(xué)習(xí)或增強學(xué)習(xí)，用于描述和解決智能體（Agent）在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。強化學(xué)習(xí)是從動物學(xué)習(xí)、參數(shù)擾動自適應(yīng)控制等理論發(fā)展而來的，其基本原理是：如果智能體的某個行為策略導(dǎo)致環(huán)境正的獎賞（強化信號），那么智能體以后產(chǎn)生這個行為策略的趨勢便會加強。智能體的目標(biāo)是在每個離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略，以使期望的折扣獎賞和達(dá)到最大。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)不同，強化學(xué)習(xí)不涉及提供“正確”答案或輸出，相反，它只關(guān)注性能和行為，這類似于人類根據(jù)積極或消極的結(jié)果來學(xué)習(xí)。例如，一個小孩剛開始時并不知道玩火會被灼傷，一旦不小心被火灼傷了，以后就會小心避開火源。4.2

機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.4強化學(xué)習(xí)強化學(xué)習(xí)的經(jīng)典應(yīng)用是玩游戲。例如，一款下棋軟件可以學(xué)會不把它的國王移到對手的棋子可以進(jìn)入的空間。剛開始，軟件完全不知道如何將棋子放到正確的地方，但是，一旦軟件將棋子放在正確的地方，系統(tǒng)就向其反饋獎勵（如增加分值），一旦放到會被對方攻擊到的地方，系統(tǒng)就向其反饋懲罰（如扣掉分值）。經(jīng)過大量的訓(xùn)練后，軟件逐漸在獎勵和懲罰中，學(xué)會了正確放置棋子。這一基本訓(xùn)練可以被擴展和推斷出來，直到軟件能夠打敗人類頂級玩家為止。第四章機器學(xué)習(xí)4.1機器學(xué)習(xí)概述4.2機器學(xué)習(xí)類型4.3機器學(xué)習(xí)常用算法高職高專人工智能通識課規(guī)劃教材4.4本章實訓(xùn)4.5拓展知識4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸1.什么是一元線性回歸“回歸”這一術(shù)語最早來源于生物遺傳學(xué)，研究的內(nèi)容是某一變量（因變量Y）與另一個或多個變量（自變量X）之間的依存關(guān)系，目的是用自變量的已知值來估計或預(yù)測因變量的總體平均值?；貧w是統(tǒng)計學(xué)分析數(shù)據(jù)并研究數(shù)據(jù)之間關(guān)系的基本方法。從古至今，人們就一直非常注意觀察事物與事物之間的關(guān)系，祖沖之在研究圓的周長與半徑之間的關(guān)系時發(fā)現(xiàn)了π，牛頓在研究物體落地速度與重量之間的關(guān)系時發(fā)現(xiàn)了重力加速度ｇ。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸1.什么是一元線性回歸在實際生活中，事物之間存在某種關(guān)聯(lián)性，比如房屋面積與房屋價格的關(guān)系、學(xué)習(xí)時間與學(xué)習(xí)成績的關(guān)系、身體各項指標(biāo)與健康程度的關(guān)系等。例如，房屋價格和房屋面積有著明顯的關(guān)系。如果使用Ｘ表示房屋面積，Ｙ表示房屋價格，那么在坐標(biāo)系中就可以看到這些點的分布，可以擬合出一條貫穿這些點的直線，使得這些點比較均勻地分布在直線的兩側(cè)，如圖所示。當(dāng)線性回歸中只包括一個自變量和一個因變量，且二者的關(guān)系可用一條直線近似表示時，這種回歸分析成為一元線性回歸。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸2.預(yù)測模型一元線性回歸算法的實現(xiàn)過程就是求解擬合直線的過程，假設(shè)表示這條直線的方程如下：Ｙ＝ＷＸ＋ｂ，Ｘ＝（ｘ1，ｘ2，…，ｘn）其中，Ｘ代表n個輸入變量，在房屋價格的例子中，Ｘ代表n個不同的房屋面積；Ｙ代表預(yù)測值，即不同房屋面積所對應(yīng)的房屋價格；Ｗ是直線的斜率；ｂ為直線的截距，其幾何意義如圖所示。一元線性回歸求解就是求解系數(shù)Ｗ和ｂ的最佳估計值，使得預(yù)測值Ｙ的誤差最小。由此可知，只要Ｗ和ｂ這兩個系數(shù)確定了，直線方程也就確定了，就可以把需要預(yù)測的Ｘ值代入方程來求得對應(yīng)的Ｙ值了。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸

4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸

4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸5.梯度下降法梯度是一個向量，對于一個多元函數(shù)

f而言，在點的梯度是指在點P(x,y)處增大最快的方向，即以

f在點P上的偏導(dǎo)數(shù)為分量的向量。可以將梯度下降形象地理解為一個人下山的過程。假設(shè)現(xiàn)在有一個人在山上，他想要走下山，但是不知道山底在哪個方向，怎么辦呢？他想到的是一定要沿著山的高度下降的方向走，山的高度下降的方向有很多，應(yīng)該選擇哪個方向呢？假設(shè)這個人比較有冒險精神，他會選擇最陡峭的方向，即山的高度下降最快的方向?，F(xiàn)在確定了方向，就要開始下山了。又有一個問題來了，在下山的過程中，最開始選定的方向并不總是山的高度下降最快的方向。這個人比較聰明，他每次都選定一段距離，每走一段距離之后，就重新選定當(dāng)前所在位置的高度下降最快的方向。這樣，這個人每次選擇的下山的方向都可以近似地看作每個距離段內(nèi)高度下降最快的方向。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸5.梯度下降法4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸5.梯度下降法現(xiàn)在將這個思想引入線性回歸，在線性回歸中，需要找到參數(shù)以使損失函數(shù)最小。如果把損失函數(shù)看作是一座山，山底不就是損失函數(shù)最小的地方嗎，那求解參數(shù)的過程，就是人走到山底的過程。梯度下降的直觀描述如圖所示。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸

4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.2支持向量機在深度學(xué)習(xí)盛行之前，支持向量機（SupportVectorMachine，SVM）是最常用并且最常被談到的機器學(xué)習(xí)算法。SVM是一種監(jiān)督學(xué)習(xí)方式，可以進(jìn)行分類，也可以進(jìn)行回歸分析。SVM于1964年被提出，在20世紀(jì)90年代后等到快速發(fā)展，并在該基礎(chǔ)上衍生出一系列改進(jìn)算法和擴展算法，在人像識別、文本分類等模式識別問題中得到廣泛應(yīng)用。SVM使用鉸鏈損失函數(shù)（HingeLoss）計算經(jīng)驗風(fēng)險（EmpiricalRisk），并在求解系統(tǒng)中加入了正則化項，以優(yōu)化結(jié)構(gòu)風(fēng)險（StructureRisk），是一個具有稀疏性和穩(wěn)健性的分類器。SVM可以通過核方法（KernelMethod）進(jìn)行非線性分類，是常見的核學(xué)習(xí)方法之一。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.2支持向量機支持向量機原理如圖所示，圖中表示的是線性可分狀況。圖中的實線A和實線B均可作為決策直線，實線兩邊的相應(yīng)虛線為間隔邊界，間隔邊界上的帶圈的點為支持向量。在圖（a）中，可以看到有兩種類別的數(shù)據(jù)，而圖（b）和圖（c）中的實線A和實線B都可以把這兩類數(shù)據(jù)點分開。那么，到底選用實線A還是實線B來作為決策直線呢？支持向量機采用間隔最大化原則，即選用到間隔邊界的距離最大的決策直線，因此，由于實線A到它兩邊虛線的距離更大，也就是間隔更大，則實線A將比實線B有更多的機會成為決策直線。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.3決策樹決策樹（DecisionTree）是一種十分常用的分類方法，是機器學(xué)習(xí)預(yù)測建模的一類重要算法。決策樹模型可解釋性強，符合人類思維方式，是經(jīng)典的樹形結(jié)構(gòu)。由于這種決策分支繪制的圖形很像一棵樹的樣子，因此稱為決策樹，樹的內(nèi)部節(jié)點表示對某個屬性的判斷，該節(jié)點的分支是對應(yīng)的判斷結(jié)果，葉子節(jié)點代表一個類別。預(yù)測一個人是否會購買計算機的決策樹，如下圖。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.3決策樹優(yōu)點：(1)決策樹容易理解和實現(xiàn)，使用者在學(xué)習(xí)過程中不需要了解很多背景知識，就能理解決策樹所表達(dá)的意義；(2)對于決策樹，數(shù)據(jù)的準(zhǔn)備往往是簡單或是不必要的，在相對短的時間內(nèi)，就能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果；(3)易于通過靜態(tài)測試來對模型進(jìn)行評測，可以測定模型可信度；(4)如果給定一個觀察的模型，那么根據(jù)所產(chǎn)生的決策樹，就很容易推算出相應(yīng)的邏輯表達(dá)式。缺點：(1)對連續(xù)性的字段比較難預(yù)測；(2)對有時間順序的數(shù)據(jù)，需要很多預(yù)處理工作；(3)當(dāng)類別太多時，錯誤可能就會增加得比較快；(4)進(jìn)行一般的算法分類時，只是根據(jù)一個字段來分類；(5)在處理特征關(guān)聯(lián)性比較強的數(shù)據(jù)時，表現(xiàn)得不是太好。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.4K近鄰算法K近鄰算法（K-NearestNeighbor，KNN）是一種最簡單的分類算法，該算法通過識別被分成若干類的數(shù)據(jù)點，以預(yù)測新樣本點的分類。所謂K近鄰，就是K個最近的鄰居的意思，是指每個樣本都可以用它最接近的K個鄰居（樣本）來代表。KNN算法的核心思想是：如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別(少數(shù)服從多數(shù))，并具有這個類別上樣本的特性。比如，在現(xiàn)實中，預(yù)測某一個房子的價格，就可以參考最相似的K個房子的價格，參考條件包括距離最近、戶型最相似等。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.4K近鄰算法KNN算法的結(jié)果很大程度上取決于K值的選擇，不同K值的選擇都會對KNN算法的結(jié)果造成重大影響。如圖所示，有兩類不同的樣本數(shù)據(jù)，分別用紅色三角形和藍(lán)色正方形表示，而圖的正中間的綠色圓點表示待分類的數(shù)據(jù)，即要被決定賦予哪個類別，是紅色三角形還是藍(lán)色正方形？這時，如果K＝3，則距離綠色圓點最近的3個鄰居是2個紅色三角形和1個藍(lán)色正方形，由于紅色三角形所占比例為2/3，因此綠色圓點被賦予紅色三角形的類別；如果K＝5，則距離綠色圓點最近的5個鄰居是2個紅色三角形和3個藍(lán)色正方形，由于藍(lán)色正方形占總數(shù)的比例為3/5，因此綠色圓點被賦予藍(lán)色正方形的類別。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.4K近鄰算法KNN算法是分類數(shù)據(jù)最簡單且最有效的算法。優(yōu)點：容易實現(xiàn)、精度高、對異常值不敏感、無須建模與訓(xùn)練。缺點：（1）必須有接近實際數(shù)據(jù)的訓(xùn)練樣本數(shù)據(jù)，必須保存全部數(shù)據(jù)集，如果數(shù)據(jù)集很大，則必須使用大量的存儲空間。（2）必須對數(shù)據(jù)集中的每個數(shù)據(jù)計算距離值，因此在實際使用時可能非常耗時。（3）樣本不平衡問題，當(dāng)其中一類樣本的容量很大，而其他類樣本的容量很小時，則預(yù)測偏差會比較大。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.5K均值聚類算法聚類就是將相似的事物聚集在一起，將不相似的事物劃分到不同類別的過程。聚類算法的目標(biāo)是將數(shù)據(jù)集合分成若干簇，使得同一簇內(nèi)的數(shù)據(jù)點相似度盡可能大，而不同簇間的數(shù)據(jù)點相似度盡可能小。聚類能在未知模式識別問題中，從一堆沒有標(biāo)簽的數(shù)據(jù)中找到其中的關(guān)聯(lián)關(guān)系。聚類是無監(jiān)督學(xué)習(xí)，它將相似的對象歸類到同一個簇中，類似全自動分類。聚類方法幾乎可以應(yīng)用于所有對象，簇內(nèi)的對象越相似，聚類的效果越好。聚類與分類的最大不同在于，分類的目標(biāo)事先已知，而聚類則不一樣。因為聚類產(chǎn)生的結(jié)果與分類相同，而只是類別沒有預(yù)先定義，所以聚類有時也被稱為無監(jiān)督分類。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.5K均值聚類算法K均值聚類（K-meansClustering）算法由于具有簡潔和高效的特點，因此成為所有聚類算法中應(yīng)用最廣泛的算法。它是一種迭代求解的聚類分析算法，目的是找到每個樣本的潛在類別，并將同類別的樣本放在一起并構(gòu)成簇（Cluster），要求簇內(nèi)數(shù)據(jù)點的相互距離比較近，簇間數(shù)據(jù)點的相互距離比較遠(yuǎn)。K均值聚類算法的目標(biāo)是將樣本聚類成K個簇。K均值聚類算法的優(yōu)點是算法簡單，容易實現(xiàn)。它的主要缺點是K值是由用戶給定的，在進(jìn)行數(shù)據(jù)處理前，K值是未知的，不同的K值得到的結(jié)果也不一樣。另外，由于它的初始點是隨機選取的，因此一旦初始點選擇得不好，就可能無法得到有效的聚類結(jié)果，從而陷入局部最優(yōu)解的情況。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.6關(guān)聯(lián)分析關(guān)聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)對象之間隱含關(guān)系與規(guī)律的過程。這些關(guān)系可以有兩種形式：頻繁項集、關(guān)聯(lián)規(guī)則。頻繁項集是經(jīng)常出現(xiàn)在一起的物品的集合，關(guān)聯(lián)規(guī)則暗示兩種物品之間可能存在很強的關(guān)系。例如，挖掘啤酒與尿不濕（頻繁項集）的關(guān)聯(lián)規(guī)則。例如，許多商業(yè)企業(yè)在運營中積累了大量的數(shù)據(jù)，通常稱為購物籃事務(wù)。購物籃事務(wù)的數(shù)據(jù)如下表所示，表中每一行對應(yīng)一個事務(wù)，包含一個唯一標(biāo)識ID，對應(yīng)一個購物活動。通過關(guān)聯(lián)分析可以看出，購買尿不濕的人一般會購買啤酒，尿不濕和啤酒這兩個不同事物之間存在關(guān)聯(lián)。ID面包牛奶尿不濕啤酒11001201103001141011510114.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.7深度學(xué)習(xí)深度學(xué)習(xí)（DeepLearning），也稱為深度神經(jīng)網(wǎng)絡(luò)，是一類算法集合，也是機器學(xué)習(xí)的一個分支，如圖所示。深度

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能概論課件第4章機器學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

人工智能概論 課件 第4章 機器學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

人工智能概論課件第4章機器學(xué)習(xí)