![人工智能概論 課件 第4章 機器學(xué)習(xí)_第1頁](http://file4.renrendoc.com/view14/M03/32/10/wKhkGWcbQKOAbiScAAGF4brF1FQ667.jpg)
![人工智能概論 課件 第4章 機器學(xué)習(xí)_第2頁](http://file4.renrendoc.com/view14/M03/32/10/wKhkGWcbQKOAbiScAAGF4brF1FQ6672.jpg)
![人工智能概論 課件 第4章 機器學(xué)習(xí)_第3頁](http://file4.renrendoc.com/view14/M03/32/10/wKhkGWcbQKOAbiScAAGF4brF1FQ6673.jpg)
![人工智能概論 課件 第4章 機器學(xué)習(xí)_第4頁](http://file4.renrendoc.com/view14/M03/32/10/wKhkGWcbQKOAbiScAAGF4brF1FQ6674.jpg)
![人工智能概論 課件 第4章 機器學(xué)習(xí)_第5頁](http://file4.renrendoc.com/view14/M03/32/10/wKhkGWcbQKOAbiScAAGF4brF1FQ6675.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
高職高專人工智能通識課規(guī)劃教材人工智能概論本章學(xué)習(xí)目標(biāo)第4章機器學(xué)習(xí)【素養(yǎng)目標(biāo)】通過學(xué)習(xí)機器學(xué)習(xí)算法思想,對學(xué)生進(jìn)行科學(xué)思維方法訓(xùn)練、激發(fā)學(xué)習(xí)熱情;通過學(xué)習(xí)機器學(xué)習(xí)算法,提高學(xué)生分析與解決復(fù)雜問題的能力;通過學(xué)習(xí)拓展知識,培養(yǎng)學(xué)生的團隊合作精神和精益求精的專業(yè)精神。本章學(xué)習(xí)目標(biāo)第4章機器學(xué)習(xí)【知識目標(biāo)】掌握機器學(xué)習(xí)的概念及發(fā)展歷程;掌握監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)等機器學(xué)習(xí)類型;理解線性回歸、支持向量機、決策樹、K近鄰算法、K均值聚類算法、關(guān)聯(lián)分析、深度學(xué)習(xí)等機器學(xué)習(xí)算法的工作原理;了解機器學(xué)習(xí)的應(yīng)用。本章學(xué)習(xí)目標(biāo)第4章機器學(xué)習(xí)【能力目標(biāo)】能夠針對機器學(xué)習(xí)具體應(yīng)用功能,闡述其實現(xiàn)原理;能夠針對工作生活場景中的具體需求,選擇合適的機器學(xué)習(xí)算法;會使用“形色”工具識別植物。本章學(xué)習(xí)目標(biāo)第4章機器學(xué)習(xí)【思維導(dǎo)圖】第四章機器學(xué)習(xí)4.1機器學(xué)習(xí)概述4.2機器學(xué)習(xí)類型4.3機器學(xué)習(xí)常用算法高職高專人工智能通識課規(guī)劃教材4.4本章實訓(xùn)4.5拓展知識4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)1.機器學(xué)習(xí)的定義機器學(xué)習(xí)(MachineLearning,ML)是人工智能的一個重要分支與核心研究內(nèi)容,是目前實現(xiàn)人工智能的一條重要途徑。機器學(xué)習(xí)專門研究機器如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,同時能夠重新組織已有的知識結(jié)構(gòu),并不斷改善自身的性能。這是的“機器”是指包含硬件和軟件的計算機系統(tǒng)。機器學(xué)習(xí)的應(yīng)用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領(lǐng)域。機器學(xué)習(xí)是一個多領(lǐng)域交叉學(xué)科,涉及計算機科學(xué)、概率論、統(tǒng)計學(xué)、逼近論、算法復(fù)雜度理論等多門學(xué)科。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)機器學(xué)習(xí)任務(wù)可以簡單地理解為“總結(jié)經(jīng)驗、發(fā)現(xiàn)規(guī)律、掌握規(guī)律、預(yù)測未來”。人類的學(xué)習(xí)過程可以描述為,對在工作、生活中積累的歷史經(jīng)驗進(jìn)行歸納,以獲得一些規(guī)律。如果有新的問題出現(xiàn),就需要根據(jù)歸納的規(guī)律來預(yù)測未來未知的事情,如右上圖所示。機器的學(xué)習(xí)過程可以描述為,利用歷史數(shù)據(jù),經(jīng)過訓(xùn)練得到一個模型。如果有新的數(shù)據(jù)出現(xiàn),就使用習(xí)得的模型來預(yù)測未來未知的事情,如右下圖所示。圖4-1人類學(xué)習(xí)過程圖4-2機器學(xué)習(xí)過程4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)2.機器學(xué)習(xí)術(shù)語機器學(xué)習(xí)處理的對象是數(shù)據(jù)。數(shù)據(jù)集是一組具有相似結(jié)構(gòu)的數(shù)據(jù)樣本的合集;學(xué)習(xí)算法將經(jīng)驗(數(shù)據(jù))轉(zhuǎn)化為最終“模型”;樣本是對某個對象的描述,也叫示例;屬性或特征是對象的某個方面表現(xiàn);屬性值或特征值是屬性上的取值;維數(shù)是描述樣本屬性參數(shù)的個數(shù)。計算機判斷西瓜是否好瓜4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)3.數(shù)據(jù)集劃分機器學(xué)習(xí)中,需要將數(shù)據(jù)分為訓(xùn)練集(上課)和測試集(作業(yè)),分別用來對模型進(jìn)行訓(xùn)練和測試。(1)訓(xùn)練集。訓(xùn)練(Train)集是讓算法學(xué)習(xí)出一個模型,通過優(yōu)化參數(shù),以訓(xùn)練模型。(2)測試集。測試(Test)集是通過訓(xùn)練集得出模型后,使用測試集進(jìn)行模型測試,來查看模型的好壞。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)3.數(shù)據(jù)集劃分舉例來說,若擬合直線y=wx+b,則根據(jù)新的x數(shù)據(jù),就可以知道y的值。訓(xùn)練集的作用是,通過已知的x和y,學(xué)習(xí)出或者訓(xùn)練出合適的w和b,使得實際值和預(yù)測值盡可能接近。但是如果將所有已知的x和y全部用作訓(xùn)練,則根據(jù)新的數(shù)據(jù)x,無法知道預(yù)測出的y有多么接近真實數(shù)據(jù)。這怎么辦?此時就需要測試集了。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)3.數(shù)據(jù)集劃分將所有已知數(shù)據(jù)分為兩部分,多數(shù)(比如80%)作為訓(xùn)練集,少數(shù)(比如20%)作為測試集。測試集還需要滿足以下兩個條件:規(guī)模足夠大,可產(chǎn)生具有統(tǒng)計意義的結(jié)果。能代表整個數(shù)據(jù)集。只有測試集滿足上述兩個條件,才有可能得到一個很好的泛化到新數(shù)據(jù)的模型。注意:絕對禁止使用測試數(shù)據(jù)進(jìn)行訓(xùn)練。數(shù)據(jù)集測試集訓(xùn)練集4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.1什么是機器學(xué)習(xí)4.過擬合和欠擬合過擬合是指模型完美地或者很好地擬合了數(shù)據(jù)集的某一部分(訓(xùn)練集),但是此模型很可能并不能用來預(yù)測數(shù)據(jù)集的其他部分(測試集)。欠擬合指的是模型無法很好地擬合訓(xùn)練數(shù)據(jù),無法捕捉到數(shù)據(jù)中的真實模式和關(guān)系。在這種情況下,模型過于簡單或者復(fù)雜度不足,無法充分學(xué)習(xí)數(shù)據(jù)中的特征和模式。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程自從20世紀(jì)50年代開始研究機器學(xué)習(xí)以來,不同時期的研究途徑和目標(biāo)也不同,機器學(xué)習(xí)的發(fā)展歷程大致分為四個階段:熱烈時期、冷靜時期、復(fù)興時期、最新階段。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程第一階段是20世紀(jì)50年代到60年代中葉,稱為機器學(xué)習(xí)發(fā)展的熱烈時期。在這個階段,機器學(xué)習(xí)所研究的是“沒有知識”的學(xué)習(xí),即“無知”學(xué)習(xí)。該階段的研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng),其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)和改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識。本階段的代表性工作是1952年IBM科學(xué)家亞瑟·塞繆爾(ArthurSamuel)開發(fā)的西洋跳棋程序;1958年羅森·布拉特設(shè)計的第一個計算機神經(jīng)網(wǎng)絡(luò)——感知機(Perceptron),它模擬了人類大腦的運作方式。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程第二階段是20世紀(jì)60年代中葉到70年代中葉,稱為機器學(xué)習(xí)發(fā)展的冷靜時期。該階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機器的內(nèi)部描述。該階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯·羅思(HayesRoth)等人的基于邏輯的歸納學(xué)習(xí)系統(tǒng),但這些學(xué)習(xí)系統(tǒng)只能學(xué)習(xí)單一概念,而且未能投入實際應(yīng)用。事實上,在這個時期,整個AI領(lǐng)域都遭遇了瓶頸。當(dāng)時,計算機的有限內(nèi)存和處理速度不足以解決任何實際的AI問題。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程第三階段是20世紀(jì)70年代中葉到80年代中葉,稱為機器學(xué)習(xí)發(fā)展的復(fù)興時期。在此階段,機器學(xué)習(xí)從學(xué)習(xí)單一概念擴展到學(xué)習(xí)多個概念,并探索不同的學(xué)習(xí)策略和方法,且在該階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并且取得了很大的成功。1980年,在美國的卡內(nèi)基梅隆大學(xué)(CMU)召開了第一屆機器學(xué)習(xí)國際研討會,標(biāo)志著機器學(xué)習(xí)研究已在全世界興起。此后,機器學(xué)習(xí)得到了大量應(yīng)用。1981年,偉博斯(Weibos)基于神經(jīng)網(wǎng)絡(luò)反向傳播(BP)算法提出多層感知器(MLP)的概念;1986年,昆蘭(Quinlan)提出決策樹算法。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程第四階段是20世紀(jì)80年代中葉至今,這是機器學(xué)習(xí)發(fā)展的最新階段。1995年,機器學(xué)習(xí)領(lǐng)域中一個最重要的突破,由瓦普尼克(Vapnik)和科爾特斯(Cortes)在大量理論和實證的條件下提出的支持向量機(SVM),從此將機器學(xué)習(xí)社區(qū)劃分為神經(jīng)網(wǎng)絡(luò)社區(qū)和支持向量機社區(qū)。2006年,神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域領(lǐng)軍者辛頓(Hinton)提出了神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)(DeepLearning)算法,使神經(jīng)網(wǎng)絡(luò)的能力大大提高,并向支持向量機發(fā)出挑戰(zhàn)。4.1
機器學(xué)習(xí)概述第4章機器學(xué)習(xí)4.1.2機器學(xué)習(xí)的發(fā)展歷程這個階段的機器學(xué)習(xí)具有如下特點。(1)機器學(xué)習(xí)已成為新的邊緣學(xué)科,它綜合應(yīng)用了心理學(xué)、生物學(xué)、神經(jīng)生理學(xué)、數(shù)學(xué)、自動化和計算機科學(xué)等學(xué)科,形成了機器學(xué)習(xí)理論基礎(chǔ)。(2)整合了各種學(xué)習(xí)方法,且形式多樣的集成學(xué)習(xí)系統(tǒng)研究正在興起。(3)機器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成。(4)各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴大,部分應(yīng)用研究成果已轉(zhuǎn)化為產(chǎn)品。(5)與機器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動空前活躍。第四章機器學(xué)習(xí)4.1機器學(xué)習(xí)概述4.2機器學(xué)習(xí)類型4.3機器學(xué)習(xí)常用算法高職高專人工智能通識課規(guī)劃教材4.4本章實訓(xùn)4.5拓展知識4.2機器學(xué)習(xí)類型第4章機器學(xué)習(xí)機器學(xué)習(xí)的核心是“使用算法分析數(shù)據(jù),從數(shù)據(jù)中學(xué)習(xí),然后對未知的某件事情做出決定或預(yù)測”。這意味著,機器學(xué)習(xí)不是直接地編寫程序來執(zhí)行某些任務(wù),而是指導(dǎo)機器如何獲得一個模型來完成任務(wù)。機器通過學(xué)習(xí)可以提取數(shù)據(jù)規(guī)律、創(chuàng)建模型。根據(jù)數(shù)據(jù)類型的不同,與之對應(yīng)的機器學(xué)習(xí)類型也不同,主要有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)等。4.2
機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.1監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)就是根據(jù)已有的大量的輸入數(shù)據(jù)與輸出數(shù)據(jù)(結(jié)果)之間的關(guān)系,去尋找合適的模型(函數(shù)),并使用模型去預(yù)測未來的結(jié)果。每個訓(xùn)練數(shù)據(jù)樣本都有特征值和對應(yīng)的標(biāo)簽,機器學(xué)習(xí)時從有標(biāo)簽的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)并獲得模型,以便對未知或未來的數(shù)據(jù)做出預(yù)測?!氨O(jiān)督”指的是已經(jīng)知道樣本的輸出信號或標(biāo)簽。監(jiān)督學(xué)習(xí)猶如學(xué)生在學(xué)習(xí)過程中有老師講授一樣,會事先知道相關(guān)答案。例如,有兩朵鮮花圖片,并已知鮮花的名稱(玫瑰花、格?;ǎ?,即鮮花的標(biāo)簽。事先要對計算機要學(xué)習(xí)的數(shù)據(jù)樣本進(jìn)行標(biāo)注(打標(biāo)簽),如圖所示,即事先知道明確的結(jié)果(答案),這相當(dāng)于監(jiān)督了計算機的學(xué)習(xí)過程。4.2
機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.1監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)常用于解決生活中分類和回歸的問題,如垃圾郵件分類、判斷腫瘤是良性還是惡性等問題。(1)分類。帶有離散分類標(biāo)簽的監(jiān)督學(xué)習(xí)也稱為分類任務(wù),這些分類標(biāo)簽是離散值。分類任務(wù)的常見算法包括:邏輯回歸、支持向量機(SVM)、決策樹、隨機森林、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等。分類示意圖如圖所示。4.2
機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.1監(jiān)督學(xué)習(xí)(2)回歸。監(jiān)督學(xué)習(xí)的另一個子類是回歸,其結(jié)果信號是連續(xù)的數(shù)值?;貧w的任務(wù)是預(yù)測目標(biāo)數(shù)值,如在給定一組特性(房屋大小、房間數(shù)等)的情況下,來預(yù)測房屋的售價。回歸分析的常見算法包括:線性回歸、神經(jīng)網(wǎng)絡(luò)、AdaBoosting等。線性回歸如圖所示。4.2
機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.2無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)又稱為歸納性學(xué)習(xí)。在無監(jiān)督學(xué)習(xí)中,數(shù)據(jù)樣本事先是無標(biāo)簽的,也就是沒有分類的,需要從大量數(shù)據(jù)中自行獲得新方法或新發(fā)現(xiàn),機器需要直接對無標(biāo)簽的數(shù)據(jù)建立模型,然后對觀察數(shù)據(jù)進(jìn)行分類或者區(qū)分?!盁o監(jiān)督”指的是事先不知道樣本的輸出信號或標(biāo)簽。無監(jiān)督學(xué)習(xí)猶如學(xué)生自學(xué)的過程,沒有老師的講授,學(xué)生需要通過自覺尋找答案。無監(jiān)督學(xué)習(xí)的應(yīng)用模式主要包括聚類算法和關(guān)聯(lián)規(guī)則抽取。4.2
機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.2無監(jiān)督學(xué)習(xí)聚類算法又分為K-means聚類和層次聚類。聚類算法的目標(biāo)是創(chuàng)建對象分組,使得同一組內(nèi)的對象盡可能相似,而處于不同組內(nèi)的對象盡可能相異。聚類算法如圖所示。4.2
機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.3半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)是模式識別領(lǐng)域研究的重點問題,是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。在現(xiàn)實生活中,有時對數(shù)據(jù)進(jìn)行標(biāo)記的代價很高,大量的數(shù)據(jù)往往是未經(jīng)過標(biāo)記的,而僅有一小部分?jǐn)?shù)據(jù)是經(jīng)過標(biāo)記的。半監(jiān)督學(xué)習(xí)使用大量的未標(biāo)記數(shù)據(jù),同時使用少量的標(biāo)記數(shù)據(jù),來進(jìn)行模式識別工作。使用未標(biāo)記的數(shù)據(jù)的目的是獲得對數(shù)據(jù)結(jié)構(gòu)的更多理解。4.2
機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.4強化學(xué)習(xí)強化學(xué)習(xí),又稱再勵學(xué)習(xí)、評價學(xué)習(xí)或增強學(xué)習(xí),用于描述和解決智能體(Agent)在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。強化學(xué)習(xí)是從動物學(xué)習(xí)、參數(shù)擾動自適應(yīng)控制等理論發(fā)展而來的,其基本原理是:如果智能體的某個行為策略導(dǎo)致環(huán)境正的獎賞(強化信號),那么智能體以后產(chǎn)生這個行為策略的趨勢便會加強。智能體的目標(biāo)是在每個離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略,以使期望的折扣獎賞和達(dá)到最大。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)不同,強化學(xué)習(xí)不涉及提供“正確”答案或輸出,相反,它只關(guān)注性能和行為,這類似于人類根據(jù)積極或消極的結(jié)果來學(xué)習(xí)。例如,一個小孩剛開始時并不知道玩火會被灼傷,一旦不小心被火灼傷了,以后就會小心避開火源。4.2
機器學(xué)習(xí)類型第4章機器學(xué)習(xí)4.2.4強化學(xué)習(xí)強化學(xué)習(xí)的經(jīng)典應(yīng)用是玩游戲。例如,一款下棋軟件可以學(xué)會不把它的國王移到對手的棋子可以進(jìn)入的空間。剛開始,軟件完全不知道如何將棋子放到正確的地方,但是,一旦軟件將棋子放在正確的地方,系統(tǒng)就向其反饋獎勵(如增加分值),一旦放到會被對方攻擊到的地方,系統(tǒng)就向其反饋懲罰(如扣掉分值)。經(jīng)過大量的訓(xùn)練后,軟件逐漸在獎勵和懲罰中,學(xué)會了正確放置棋子。這一基本訓(xùn)練可以被擴展和推斷出來,直到軟件能夠打敗人類頂級玩家為止。第四章機器學(xué)習(xí)4.1機器學(xué)習(xí)概述4.2機器學(xué)習(xí)類型4.3機器學(xué)習(xí)常用算法高職高專人工智能通識課規(guī)劃教材4.4本章實訓(xùn)4.5拓展知識4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸1.什么是一元線性回歸“回歸”這一術(shù)語最早來源于生物遺傳學(xué),研究的內(nèi)容是某一變量(因變量Y)與另一個或多個變量(自變量X)之間的依存關(guān)系,目的是用自變量的已知值來估計或預(yù)測因變量的總體平均值?;貧w是統(tǒng)計學(xué)分析數(shù)據(jù)并研究數(shù)據(jù)之間關(guān)系的基本方法。從古至今,人們就一直非常注意觀察事物與事物之間的關(guān)系,祖沖之在研究圓的周長與半徑之間的關(guān)系時發(fā)現(xiàn)了π,牛頓在研究物體落地速度與重量之間的關(guān)系時發(fā)現(xiàn)了重力加速度g。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸1.什么是一元線性回歸在實際生活中,事物之間存在某種關(guān)聯(lián)性,比如房屋面積與房屋價格的關(guān)系、學(xué)習(xí)時間與學(xué)習(xí)成績的關(guān)系、身體各項指標(biāo)與健康程度的關(guān)系等。例如,房屋價格和房屋面積有著明顯的關(guān)系。如果使用X表示房屋面積,Y表示房屋價格,那么在坐標(biāo)系中就可以看到這些點的分布,可以擬合出一條貫穿這些點的直線,使得這些點比較均勻地分布在直線的兩側(cè),如圖所示。當(dāng)線性回歸中只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示時,這種回歸分析成為一元線性回歸。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸2.預(yù)測模型一元線性回歸算法的實現(xiàn)過程就是求解擬合直線的過程,假設(shè)表示這條直線的方程如下:Y=WX+b,X=(x1,x2,…,xn)其中,X代表n個輸入變量,在房屋價格的例子中,X代表n個不同的房屋面積;Y代表預(yù)測值,即不同房屋面積所對應(yīng)的房屋價格;W是直線的斜率;b為直線的截距,其幾何意義如圖所示。一元線性回歸求解就是求解系數(shù)W和b的最佳估計值,使得預(yù)測值Y的誤差最小。由此可知,只要W和b這兩個系數(shù)確定了,直線方程也就確定了,就可以把需要預(yù)測的X值代入方程來求得對應(yīng)的Y值了。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸
4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸
4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸5.梯度下降法梯度是一個向量,對于一個多元函數(shù)
f而言,在點的梯度是指在點P(x,y)處增大最快的方向,即以
f在點P上的偏導(dǎo)數(shù)為分量的向量。可以將梯度下降形象地理解為一個人下山的過程。假設(shè)現(xiàn)在有一個人在山上,他想要走下山,但是不知道山底在哪個方向,怎么辦呢?他想到的是一定要沿著山的高度下降的方向走,山的高度下降的方向有很多,應(yīng)該選擇哪個方向呢?假設(shè)這個人比較有冒險精神,他會選擇最陡峭的方向,即山的高度下降最快的方向?,F(xiàn)在確定了方向,就要開始下山了。又有一個問題來了,在下山的過程中,最開始選定的方向并不總是山的高度下降最快的方向。這個人比較聰明,他每次都選定一段距離,每走一段距離之后,就重新選定當(dāng)前所在位置的高度下降最快的方向。這樣,這個人每次選擇的下山的方向都可以近似地看作每個距離段內(nèi)高度下降最快的方向。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸5.梯度下降法4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸5.梯度下降法現(xiàn)在將這個思想引入線性回歸,在線性回歸中,需要找到參數(shù)以使損失函數(shù)最小。如果把損失函數(shù)看作是一座山,山底不就是損失函數(shù)最小的地方嗎,那求解參數(shù)的過程,就是人走到山底的過程。梯度下降的直觀描述如圖所示。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.1線性回歸
4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.2支持向量機在深度學(xué)習(xí)盛行之前,支持向量機(SupportVectorMachine,SVM)是最常用并且最常被談到的機器學(xué)習(xí)算法。SVM是一種監(jiān)督學(xué)習(xí)方式,可以進(jìn)行分類,也可以進(jìn)行回歸分析。SVM于1964年被提出,在20世紀(jì)90年代后等到快速發(fā)展,并在該基礎(chǔ)上衍生出一系列改進(jìn)算法和擴展算法,在人像識別、文本分類等模式識別問題中得到廣泛應(yīng)用。SVM使用鉸鏈損失函數(shù)(HingeLoss)計算經(jīng)驗風(fēng)險(EmpiricalRisk),并在求解系統(tǒng)中加入了正則化項,以優(yōu)化結(jié)構(gòu)風(fēng)險(StructureRisk),是一個具有稀疏性和穩(wěn)健性的分類器。SVM可以通過核方法(KernelMethod)進(jìn)行非線性分類,是常見的核學(xué)習(xí)方法之一。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.2支持向量機支持向量機原理如圖所示,圖中表示的是線性可分狀況。圖中的實線A和實線B均可作為決策直線,實線兩邊的相應(yīng)虛線為間隔邊界,間隔邊界上的帶圈的點為支持向量。在圖(a)中,可以看到有兩種類別的數(shù)據(jù),而圖(b)和圖(c)中的實線A和實線B都可以把這兩類數(shù)據(jù)點分開。那么,到底選用實線A還是實線B來作為決策直線呢?支持向量機采用間隔最大化原則,即選用到間隔邊界的距離最大的決策直線,因此,由于實線A到它兩邊虛線的距離更大,也就是間隔更大,則實線A將比實線B有更多的機會成為決策直線。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.3決策樹決策樹(DecisionTree)是一種十分常用的分類方法,是機器學(xué)習(xí)預(yù)測建模的一類重要算法。決策樹模型可解釋性強,符合人類思維方式,是經(jīng)典的樹形結(jié)構(gòu)。由于這種決策分支繪制的圖形很像一棵樹的樣子,因此稱為決策樹,樹的內(nèi)部節(jié)點表示對某個屬性的判斷,該節(jié)點的分支是對應(yīng)的判斷結(jié)果,葉子節(jié)點代表一個類別。預(yù)測一個人是否會購買計算機的決策樹,如下圖。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.3決策樹優(yōu)點:(1)決策樹容易理解和實現(xiàn),使用者在學(xué)習(xí)過程中不需要了解很多背景知識,就能理解決策樹所表達(dá)的意義;(2)對于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或是不必要的,在相對短的時間內(nèi),就能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果;(3)易于通過靜態(tài)測試來對模型進(jìn)行評測,可以測定模型可信度;(4)如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生的決策樹,就很容易推算出相應(yīng)的邏輯表達(dá)式。缺點:(1)對連續(xù)性的字段比較難預(yù)測;(2)對有時間順序的數(shù)據(jù),需要很多預(yù)處理工作;(3)當(dāng)類別太多時,錯誤可能就會增加得比較快;(4)進(jìn)行一般的算法分類時,只是根據(jù)一個字段來分類;(5)在處理特征關(guān)聯(lián)性比較強的數(shù)據(jù)時,表現(xiàn)得不是太好。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.4K近鄰算法K近鄰算法(K-NearestNeighbor,KNN)是一種最簡單的分類算法,該算法通過識別被分成若干類的數(shù)據(jù)點,以預(yù)測新樣本點的分類。所謂K近鄰,就是K個最近的鄰居的意思,是指每個樣本都可以用它最接近的K個鄰居(樣本)來代表。KNN算法的核心思想是:如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別(少數(shù)服從多數(shù)),并具有這個類別上樣本的特性。比如,在現(xiàn)實中,預(yù)測某一個房子的價格,就可以參考最相似的K個房子的價格,參考條件包括距離最近、戶型最相似等。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.4K近鄰算法KNN算法的結(jié)果很大程度上取決于K值的選擇,不同K值的選擇都會對KNN算法的結(jié)果造成重大影響。如圖所示,有兩類不同的樣本數(shù)據(jù),分別用紅色三角形和藍(lán)色正方形表示,而圖的正中間的綠色圓點表示待分類的數(shù)據(jù),即要被決定賦予哪個類別,是紅色三角形還是藍(lán)色正方形?這時,如果K=3,則距離綠色圓點最近的3個鄰居是2個紅色三角形和1個藍(lán)色正方形,由于紅色三角形所占比例為2/3,因此綠色圓點被賦予紅色三角形的類別;如果K=5,則距離綠色圓點最近的5個鄰居是2個紅色三角形和3個藍(lán)色正方形,由于藍(lán)色正方形占總數(shù)的比例為3/5,因此綠色圓點被賦予藍(lán)色正方形的類別。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.4K近鄰算法KNN算法是分類數(shù)據(jù)最簡單且最有效的算法。優(yōu)點:容易實現(xiàn)、精度高、對異常值不敏感、無須建模與訓(xùn)練。缺點:(1)必須有接近實際數(shù)據(jù)的訓(xùn)練樣本數(shù)據(jù),必須保存全部數(shù)據(jù)集,如果數(shù)據(jù)集很大,則必須使用大量的存儲空間。(2)必須對數(shù)據(jù)集中的每個數(shù)據(jù)計算距離值,因此在實際使用時可能非常耗時。(3)樣本不平衡問題,當(dāng)其中一類樣本的容量很大,而其他類樣本的容量很小時,則預(yù)測偏差會比較大。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.5K均值聚類算法聚類就是將相似的事物聚集在一起,將不相似的事物劃分到不同類別的過程。聚類算法的目標(biāo)是將數(shù)據(jù)集合分成若干簇,使得同一簇內(nèi)的數(shù)據(jù)點相似度盡可能大,而不同簇間的數(shù)據(jù)點相似度盡可能小。聚類能在未知模式識別問題中,從一堆沒有標(biāo)簽的數(shù)據(jù)中找到其中的關(guān)聯(lián)關(guān)系。聚類是無監(jiān)督學(xué)習(xí),它將相似的對象歸類到同一個簇中,類似全自動分類。聚類方法幾乎可以應(yīng)用于所有對象,簇內(nèi)的對象越相似,聚類的效果越好。聚類與分類的最大不同在于,分類的目標(biāo)事先已知,而聚類則不一樣。因為聚類產(chǎn)生的結(jié)果與分類相同,而只是類別沒有預(yù)先定義,所以聚類有時也被稱為無監(jiān)督分類。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.5K均值聚類算法K均值聚類(K-meansClustering)算法由于具有簡潔和高效的特點,因此成為所有聚類算法中應(yīng)用最廣泛的算法。它是一種迭代求解的聚類分析算法,目的是找到每個樣本的潛在類別,并將同類別的樣本放在一起并構(gòu)成簇(Cluster),要求簇內(nèi)數(shù)據(jù)點的相互距離比較近,簇間數(shù)據(jù)點的相互距離比較遠(yuǎn)。K均值聚類算法的目標(biāo)是將樣本聚類成K個簇。K均值聚類算法的優(yōu)點是算法簡單,容易實現(xiàn)。它的主要缺點是K值是由用戶給定的,在進(jìn)行數(shù)據(jù)處理前,K值是未知的,不同的K值得到的結(jié)果也不一樣。另外,由于它的初始點是隨機選取的,因此一旦初始點選擇得不好,就可能無法得到有效的聚類結(jié)果,從而陷入局部最優(yōu)解的情況。4.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.6關(guān)聯(lián)分析關(guān)聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)對象之間隱含關(guān)系與規(guī)律的過程。這些關(guān)系可以有兩種形式:頻繁項集、關(guān)聯(lián)規(guī)則。頻繁項集是經(jīng)常出現(xiàn)在一起的物品的集合,關(guān)聯(lián)規(guī)則暗示兩種物品之間可能存在很強的關(guān)系。例如,挖掘啤酒與尿不濕(頻繁項集)的關(guān)聯(lián)規(guī)則。例如,許多商業(yè)企業(yè)在運營中積累了大量的數(shù)據(jù),通常稱為購物籃事務(wù)。購物籃事務(wù)的數(shù)據(jù)如下表所示,表中每一行對應(yīng)一個事務(wù),包含一個唯一標(biāo)識ID,對應(yīng)一個購物活動。通過關(guān)聯(lián)分析可以看出,購買尿不濕的人一般會購買啤酒,尿不濕和啤酒這兩個不同事物之間存在關(guān)聯(lián)。ID面包牛奶尿不濕啤酒11001201103001141011510114.3機器學(xué)習(xí)常用算法第4章機器學(xué)習(xí)4.3.7深度學(xué)習(xí)深度學(xué)習(xí)(DeepLearning),也稱為深度神經(jīng)網(wǎng)絡(luò),是一類算法集合,也是機器學(xué)習(xí)的一個分支,如圖所示。深度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《救生技術(shù)知識講座》課件
- 浙江省杭州八中2025屆高考沖刺數(shù)學(xué)模擬試題含解析
- 2025屆河南省漯河市重點中學(xué)高考英語三模試卷含解析
- 現(xiàn)代學(xué)徒制課題:現(xiàn)場工程師的內(nèi)涵特征和培養(yǎng)路徑研究(附:研究思路模板、可修改技術(shù)路線圖)
- 福建省莆田市第二十五中學(xué)2025屆高三考前熱身語文試卷含解析
- 黑龍江省雙鴨山市重點中學(xué)2025屆高考數(shù)學(xué)一模試卷含解析
- 穩(wěn)派教育2025屆高三3月份模擬考試語文試題含解析
- 2025屆漳州市重點中學(xué)高三壓軸卷數(shù)學(xué)試卷含解析
- 福建省泉州市泉港第一中學(xué)2025屆高考考前模擬語文試題含解析
- 2025屆四川省成都市重點中學(xué)高考沖刺押題(最后一卷)英語試卷含解析
- JC-T 753-2001 硅質(zhì)玻璃原料化學(xué)分析方法
- 沈陽職業(yè)技術(shù)學(xué)院單招《職業(yè)技能測試》參考試題庫(含答案)
- 高等數(shù)學(xué)課件第一章函數(shù)與極限
- 黃石市黃石港區(qū)2023-2024學(xué)年八年級上學(xué)期期末數(shù)學(xué)測評卷(含答案)
- 朗格罕斯細(xì)胞組織細(xì)胞增生癥課件
- 孤獨癥abc量表孤獨癥兒童行為量表ABC量表
- 國企紀(jì)檢監(jiān)察培訓(xùn)課件
- 納米技術(shù)在光電領(lǐng)域的應(yīng)用
- 人工智能與區(qū)塊鏈的融合之路
- 船舶與海洋工程導(dǎo)論(船舶設(shè)計與建造)期末單元測試與答案
- 宮腔鏡可行性報告
評論
0/150
提交評論