機器學(xué)習(xí)學(xué)術(shù)報告

上傳人：建*** IP屬地：河北上傳時間：2024-10-22 格式：PPTX 頁數(shù)：59 大?。?.86MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩54頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

機器學(xué)習(xí)

方法與應(yīng)用xxx教授南京郵電大學(xué)培訓(xùn)專用機器學(xué)習(xí)-相關(guān)研究領(lǐng)域

培訓(xùn)專用機器學(xué)習(xí)機器學(xué)習(xí)方法概述幾種機器學(xué)習(xí)應(yīng)用培訓(xùn)專用機器學(xué)習(xí)-緣起機器學(xué)習(xí)一詞是上世紀(jì)50年代由美國電腦游戲和人工智能先驅(qū)—亞瑟.薩繆爾在IBM工作時提出的。亞瑟.薩繆爾聲名鵲起是因為他開發(fā)的國際象棋程序。他編寫程序讓電腦自己和自己下了成千上萬局國際象棋。通過觀察下在什么位置更可能獲勝，下在什么位置更可能輸?shù)簦S著局?jǐn)?shù)的增加，下棋程序逐漸學(xué)習(xí)并最終超越了薩繆爾——這在當(dāng)時是一個了不起的結(jié)果。此處有視頻培訓(xùn)專用1機器學(xué)習(xí)-必要性機器學(xué)習(xí)是從早期人工智能的研究中興起的，在過去的15-20年間，它被認(rèn)為是正在發(fā)展的計算機的新能力，事實上，有很多程序人工是無法直接編寫出來的如：·自動駕駛汽車·通過電腦閱讀手寫的字母或者數(shù)字

·編寫程序讓直升機飛行或倒立飛行然而通過讓便編寫一個學(xué)習(xí)型算法，讓計算機自己學(xué)習(xí)，可以很好解決這些問題，如手寫識別等。培訓(xùn)專用機器學(xué)習(xí)-定義

“對于某類任務(wù)T和性能度量P，如果一個計算機程序在T上以P衡量的性能隨著經(jīng)驗E而自我完善，那么我們稱這個計算機程序在從經(jīng)驗E學(xué)習(xí)?！?/p>

-《MachineLearning》

“許多領(lǐng)域都產(chǎn)生了大量的數(shù)據(jù),統(tǒng)計學(xué)家的工作就是讓所有這些數(shù)據(jù)變得意義:提取重要的模式和趨勢,理解“數(shù)據(jù)在說什么”。我們稱之為從數(shù)據(jù)中學(xué)習(xí)?！?《統(tǒng)計學(xué)習(xí)基礎(chǔ)》培訓(xùn)專用1學(xué)習(xí)方式分類·有監(jiān)督學(xué)習(xí)Supervisedlearning

·半監(jiān)督學(xué)習(xí)Unsupervisedlearning

·無監(jiān)督學(xué)習(xí)Semi-supervisedlearning

·強化學(xué)習(xí)Reinforcementlearning

培訓(xùn)專用1有監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”，每組訓(xùn)練數(shù)據(jù)有一個明確的標(biāo)識或結(jié)果。在建立預(yù)測模型的時候，監(jiān)督式學(xué)習(xí)建立一個學(xué)習(xí)過程，將預(yù)測結(jié)果與“訓(xùn)練數(shù)據(jù)”的實際結(jié)果進行比較，不斷的調(diào)整預(yù)測模型，直到模型的預(yù)測結(jié)果達(dá)到一個預(yù)期的準(zhǔn)確率。監(jiān)督式學(xué)習(xí)的常見應(yīng)用場景如分類問題和回歸問題。常見算法有邏輯回歸（LogisticRegression）和反向傳遞神經(jīng)網(wǎng)絡(luò)（BackPropagationNeuralNetwork）

培訓(xùn)專用1無監(jiān)督學(xué)習(xí)

無監(jiān)督式學(xué)習(xí)的目的是去對原始資料進行分類，以便了解資料內(nèi)部結(jié)構(gòu)（概率密度等）。其在學(xué)習(xí)時并不知道其分類結(jié)果是否正確，亦即沒有受到監(jiān)督式增強(告訴它何種學(xué)習(xí)是正確的)。其特點是僅對此種網(wǎng)絡(luò)提供輸入范例，而它會自動從這些范例中找出其潛在類別規(guī)則。當(dāng)學(xué)習(xí)完畢并經(jīng)測試后，也可以將之應(yīng)用到新的案例上。典型的例子就是聚類。聚類的目的在于把相似的東西聚在一起，而我們并不關(guān)心這一類是什么。因此，一個聚類算法通常只需要知道如何計算相似度就可以開始工作了。

培訓(xùn)專用1半監(jiān)督學(xué)習(xí)

輸入數(shù)據(jù)部分被標(biāo)識，部分沒有被標(biāo)識，這種學(xué)習(xí)模型可以用來進行預(yù)測，但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來進行預(yù)測。

應(yīng)用場景包括分類和回歸，算法包括一些對常用監(jiān)督式學(xué)習(xí)算法的延伸，這些算法首先試圖對未標(biāo)識數(shù)據(jù)進行建模，在此基礎(chǔ)上再對標(biāo)識的數(shù)據(jù)進行預(yù)測。如圖論推理算法（GraphInference）或者拉普拉斯支持向量機（LaplacianSVM.）

培訓(xùn)專用1強化學(xué)習(xí)輸入數(shù)據(jù)作為對模型的反饋，不像監(jiān)督模型那樣，輸入數(shù)據(jù)僅僅是作為一個檢查模型對錯的方式，在強化學(xué)習(xí)下，輸入數(shù)據(jù)直接反饋到模型，模型必須對此立刻作出調(diào)整。常見的應(yīng)用場景包括動態(tài)系統(tǒng)以及機器人控制等。常見算法包括（Qlearning）以及時間差學(xué)習(xí)（Temporaldifferencelearning）

培訓(xùn)專用??學(xué)習(xí)型算法機器學(xué)習(xí)可以讓我們解決一些人為設(shè)計和使用確定性程序很難解決的問題。從科學(xué)和哲學(xué)的角度來看，機器學(xué)習(xí)受到關(guān)注是因為提高我們對機器學(xué)習(xí)的認(rèn)識需要提高我們對智能背后原理-學(xué)習(xí)算法的理解。機器學(xué)習(xí)算法是一種能夠從數(shù)據(jù)中學(xué)習(xí)的算法。然而，我們所謂的學(xué)習(xí)是什么意思呢？一個簡潔的定義是：“對于某類任務(wù)

和性能度量P，一個計算機程序被認(rèn)為可以從經(jīng)驗E

中學(xué)習(xí)是指，通過經(jīng)驗E改進后，它在任務(wù)

T上由性能度量P衡量的性能有所提升。下面來分別介紹一下這些名詞。

培訓(xùn)專用1任務(wù)T從“任務(wù)”的相對正式的定義上說，學(xué)習(xí)過程本身不能算是任務(wù)。學(xué)習(xí)是我們所謂的獲取完成任務(wù)的能力。例如，我們的目標(biāo)是使機器人能夠行走，那么行走便是任務(wù)。我們可以編程讓機器人學(xué)會如何行走，或者可以人工編寫特定的指令來指導(dǎo)機器人如何行走。通常機器學(xué)習(xí)任務(wù)定義為學(xué)習(xí)系統(tǒng)應(yīng)該如何處理樣本。樣本是指我們從某些希望機器學(xué)習(xí)系統(tǒng)處理的對象或事件中收集到的已經(jīng)量化的特征的集合。我們通常會將樣本表示成一個，其中向量的每一個元素是一個特征。例如，一張圖片的特征通常是指這張圖片的像素值。

培訓(xùn)專用1任務(wù)T-分類

機器學(xué)習(xí)可以解決很多類型的任務(wù)。一些非常常見的機器學(xué)習(xí)任務(wù)列舉如下：

分類：在這類任務(wù)中，計算機程序需要指定某些輸入屬于k類中的哪一類。為了完成這個任務(wù)，學(xué)習(xí)算法通常會返回一個函數(shù)f。當(dāng)y=f(x)時，模型將向量x

所代表的輸入分類到數(shù)字碼y

所代表的類別。還有一些其他的分類問題，例如，f

輸出的是不同類別的概率分布。分類任務(wù)中有一個任務(wù)是對象識別，其中輸入是圖片（通常由一組像素亮度值表示），輸出是表示圖片物體的數(shù)字碼。例如，WillowGaragePR2機器人能像服務(wù)員一樣識別不同飲料，并送給點餐的顧客。

培訓(xùn)專用1任務(wù)T-回歸

回歸：在這類任務(wù)中，計算機程序需要對給定輸入預(yù)測數(shù)值。為了解決這個務(wù)，學(xué)習(xí)算法需要輸出函數(shù)f。除了返回結(jié)果的形式不一樣外，這類問題和分類問題是很像的。這類任務(wù)的一個示例是預(yù)測投保人的索賠金額（用于設(shè)置保險費），或者預(yù)測證券未來的價格。這類預(yù)測也用在算法交易中。

培訓(xùn)專用1任務(wù)T-機器翻譯機器翻譯：在機器翻譯任務(wù)中，輸入是一種語言的符號序列，計算機程序必須將其轉(zhuǎn)化成另一種語言的符號序列。這通常適用于自然語言，如將英語譯成法語。

培訓(xùn)專用1任務(wù)T-轉(zhuǎn)錄培訓(xùn)專用1任務(wù)T-密度估計密度估計：在密度估計問題中，機器學(xué)習(xí)算法學(xué)習(xí)樣本采樣空間的概率密度函數(shù)（樣本連續(xù)）或者概率質(zhì)量函數(shù)（樣本離散）。要做好這樣的任務(wù)，學(xué)習(xí)算法需要學(xué)習(xí)觀測到的數(shù)據(jù)的結(jié)構(gòu)。算法必須知道什么情況下樣本聚集出現(xiàn)，什么情況下不太可能出現(xiàn)。

密度估計可以讓我們顯式地捕獲該分布。原則上，我們可以在該分布上計算以便解決其他任務(wù)。例如，如果我們通過密度估計得到了概率分布p(x)，我們可以用該分布解決缺失值填補任務(wù)（轉(zhuǎn)化為條件概率）。

培訓(xùn)專用1性能度量P為了評估機器學(xué)習(xí)算法的能力，我們必須設(shè)計其性能的定量度量。通常性能度量P是特定于系統(tǒng)執(zhí)行的任務(wù)T而言的。

對于諸如分類、缺失輸入分類和轉(zhuǎn)錄任務(wù)，我們通常度量模型的準(zhǔn)確率（accuracy）。準(zhǔn)確率是指該模型輸出正確結(jié)果的樣本比率。我們也可以通過錯誤率（errorrate）得到相同的信息。錯誤率是指該模型輸出錯誤結(jié)果的樣本比率。我們通常把錯誤率稱為0-1損失的期望。在一個特定的樣本上，如果結(jié)果是對的，那么0-1損失是0；否則是1。

培訓(xùn)專用1性能度量P通常，我們在訓(xùn)練集（trainset)上學(xué)習(xí)算法，但我們更加關(guān)注機器學(xué)習(xí)算法在未觀測數(shù)據(jù)上的性能如何，因為這將決定其在實際應(yīng)用中的性能。因此，我們使用測試集（testset）數(shù)據(jù)來評估系統(tǒng)性能，將其與訓(xùn)練機器學(xué)習(xí)系統(tǒng)的訓(xùn)練集數(shù)據(jù)分開。

性能度量的選擇或許看上去簡單且客觀，但是選擇一個與系統(tǒng)理想表現(xiàn)對應(yīng)的性能度量通常是很難的。

培訓(xùn)專用1性能度量P某些情況下，這是因為很難確定應(yīng)該度量什么。例如，在執(zhí)行轉(zhuǎn)錄任務(wù)時，我們是應(yīng)該度量系統(tǒng)轉(zhuǎn)錄整個序列的準(zhǔn)確率，還是應(yīng)該用一個更細(xì)粒度的指標(biāo)，對序列中正確的部分元素以正面評價？在執(zhí)行回歸任務(wù)時，我們應(yīng)該更多地懲罰頻繁犯一些中等錯誤的系統(tǒng)，還是較少犯錯但是犯很大錯誤的系統(tǒng)？這些設(shè)計的選擇取決于應(yīng)用。

培訓(xùn)專用1經(jīng)驗E

根據(jù)學(xué)習(xí)過程中的不同經(jīng)驗，機器學(xué)習(xí)算法可以大致分類為無監(jiān)督（unsupervised）算法和監(jiān)督（supervised）算法。無監(jiān)督學(xué)習(xí)算法訓(xùn)練含有很多特征的數(shù)據(jù)集，然后學(xué)習(xí)出這個數(shù)據(jù)集上有用的結(jié)構(gòu)性質(zhì)。在深度學(xué)習(xí)中，我們通常要學(xué)習(xí)生成數(shù)據(jù)集的整個概率分布，顯式地，比如密度估計，或是隱式地，比如合成或去噪。還有一些其他類型的無監(jiān)督學(xué)習(xí)任務(wù)，例如聚類，將數(shù)據(jù)集分成相似樣本的集合。

培訓(xùn)專用1經(jīng)驗E監(jiān)督學(xué)習(xí)算法訓(xùn)練含有很多特征的數(shù)據(jù)集，不過數(shù)據(jù)集中的樣本都有一個標(biāo)簽或目標(biāo)。例如，Iris數(shù)據(jù)集注明了每個鳶尾花卉樣本屬于什么品種。監(jiān)督學(xué)習(xí)算法通過研究Iris數(shù)據(jù)集，學(xué)習(xí)如何根據(jù)測量結(jié)果將樣本劃分為三個不同品種。注：Iris（鳶尾花卉）數(shù)據(jù)集(Fisher,1936)是統(tǒng)計學(xué)家和機器學(xué)習(xí)研究者使用了很久的數(shù)據(jù)集。它是150個鳶尾花卉植物不同部分測量結(jié)果的集合。每個單獨的植物對應(yīng)一個樣本。每個樣本的特征是該植物不同部分的測量結(jié)果：萼片長度、萼片寬度、花瓣長度和花瓣寬度。這個數(shù)據(jù)集也記錄了每個植物屬于什么品種，其中共有三個不同的品種。

培訓(xùn)專用1牛刀小試-線性回歸任務(wù)：寫一個可以根據(jù)房屋大小、位置、成交價等因素來評估一間房屋的價格的小軟件。近三個月來，每當(dāng)你的城市里有人賣了房子，你都記錄了下面的細(xì)節(jié)——臥室數(shù)量、房屋大小、地段等等。但最重要的是，你寫下了最終的成交價：培訓(xùn)專用1牛刀小試-線性回歸

-這就是我們的訓(xùn)練數(shù)據(jù)。（為簡化模型，只取一個特征）21044001600330240036914162323000540培訓(xùn)專用1牛刀小試-線性回歸使用這些訓(xùn)練數(shù)據(jù)，我們要來編寫一個能夠估算該地區(qū)其他房屋價值的程序：

我們希望使用這些訓(xùn)練數(shù)據(jù)來預(yù)測其他房屋的價格。這就是監(jiān)督式學(xué)習(xí)。你已經(jīng)知道了每一棟房屋的售價，換句話說，你已經(jīng)知道了問題的答案，并且可以反向找出解題的邏輯。2000???培訓(xùn)專用1牛刀小試-線性回歸為了編寫你的軟件，你將包含每一套房產(chǎn)的訓(xùn)練數(shù)據(jù)輸入到你的機器學(xué)習(xí)算法當(dāng)中去。算法會嘗試找出需要做哪些數(shù)學(xué)運算來得出價格。這就好像是你已經(jīng)知道了數(shù)學(xué)測試題的答案，但是算式中的運算符號都被擦去了：培訓(xùn)專用1牛刀小試-線性回歸

在監(jiān)督式學(xué)習(xí)中，你讓計算機為你算出這種關(guān)系。而一旦你知道了解決這類特定問題所需要的數(shù)學(xué)方法后，你就可以解答其它同類問題了！培訓(xùn)專用1牛刀小試-線性回歸

回到房價預(yù)測問題上：學(xué)習(xí)算法各參數(shù)隨機初始化時，誤差通常是比較大的，變現(xiàn)為如圖：培訓(xùn)專用1牛刀小試-線性回歸這時就需要進行性能增強，通過找尋合適的代價函數(shù)并通過梯度下降等算法進行優(yōu)化，預(yù)測函數(shù)曲線會越來越好：培訓(xùn)專用1牛刀小試-線性回歸經(jīng)過計算機訓(xùn)練，最終擬合出一條較合適的預(yù)測曲線：培訓(xùn)專用1牛刀小試-思考有了簡單的回歸示例，讓我們來思考一下幾個問題：

1、代價函數(shù)是什么，有什么用。2、梯度下降算法原理。3、本例使用一次函數(shù)訓(xùn)練，若改為二次函數(shù)，告辭函數(shù)，結(jié)果如何（容量、過擬合、欠擬合問題）。4、本例樣本較為充足，若樣本不易搜集怎么辦，怎樣高效利用小樣本來訓(xùn)練算法（小樣本學(xué)習(xí)問題）。培訓(xùn)專用1思考-代價函數(shù)在線性回歸中我們有一個像這樣的訓(xùn)練集，m代表了訓(xùn)練樣本的數(shù)量，比如m=47。而我們的假設(shè)函數(shù)，也就是用來進行預(yù)測的函數(shù)，是這樣的線性函數(shù)形式：接下來為型選擇合適的參數(shù)θ0和θ1，這兩個參數(shù)稱為模型參數(shù)。在房價問題這個例子中便是直線的斜率和在y軸上的截距。培訓(xùn)專用1思考-代價函數(shù)

我們選擇的參數(shù)決定了我們得到的直線相對于我們的訓(xùn)練集的準(zhǔn)確程度，模型所預(yù)測的值與訓(xùn)練集中實際值之間的差距（下圖中藍(lán)線所指）就是建模誤差。培訓(xùn)專用1思考-代價函數(shù)我們的目標(biāo)便是選擇出可以使得建模誤差的平方和能夠最小的模型參數(shù)。即使得代價函數(shù)最小。這個函數(shù)也叫費用函數(shù)。培訓(xùn)專用1思考-代價函數(shù)

也就是意味著得出θ0和θ1這兩個參數(shù)，使得假設(shè)函數(shù)表示的紅色直線盡量與下面的數(shù)據(jù)點很好的擬合：培訓(xùn)專用f(x)=θ1x1+θ2x2+θ3

思考-梯度下降

我們希望能學(xué)習(xí)出一個函數(shù)f(x)，使得f(x)能夠盡可能準(zhǔn)確地描述這些數(shù)據(jù)，如果能求出這個f(x)，那么任給一組數(shù)據(jù)，就能預(yù)測出房價。

那么f(x)長什么樣？它的形式需要我們來指定，算法只幫我們訓(xùn)練出其中的參數(shù)。為方便講解，我設(shè)f(x)為下面的形式，也就是一個線性的函數(shù)（一般來說，非線性的要比線性的函數(shù)的擬合能力要強，這里暫不討論線性與非線性的問題）：培訓(xùn)專用1思考-梯度下降我們希望f(x)能夠盡可能準(zhǔn)確地描述訓(xùn)練集中的樣本，但畢竟是猜的，不可能百分百準(zhǔn)確，肯定或多或少會有誤差。于是對于一個訓(xùn)練集，總的誤差函數(shù)（參考代價函數(shù)）可以定義如下：

其中分別表示第i個樣本和其對應(yīng)的值（房價）。培訓(xùn)專用1思考-梯度下降

現(xiàn)在的目標(biāo)是，找到最優(yōu)參數(shù)(θ1,θ2,θ3)，使得函

數(shù)

L(θ)

取得最小值。因為損失最小，代表模擬出的函數(shù)

f(x)

越準(zhǔn)確。

我們先隨機取一個參數(shù)值(θ1,θ2,θ3)，然后沿著負(fù)梯度的方向調(diào)整參數(shù)（注意在費用函數(shù)中，自變量是參數(shù)，而不是X，X是已知的樣本數(shù)據(jù)），就可以使我們的損失函數(shù)下降得最快，直到無法再降，就是最小值，那時候的參數(shù)，就是我們要的參數(shù)。培訓(xùn)專用1思考-梯度下降梯度所指的方向就是函數(shù)增長最快的方向（負(fù)梯度則指向函數(shù)下降最快的方向），故對參數(shù)(θ1,θ2,θ3)

求偏導(dǎo)為：培訓(xùn)專用1思考-梯度下降我們先隨機取一組參數(shù)值，接下來讓參數(shù)沿著負(fù)梯度方向走，也就是每個分量沿著對應(yīng)的梯度反方向的分量走，因此參數(shù)在每次迭代的更新規(guī)則如下：

η是學(xué)習(xí)率，一般取值為0到1之間，它可以控制參數(shù)每步調(diào)整的大小，太大的話，有可能走到臨近極佳點時，下一步就跨過去了，這樣就不收斂了，走得太慢的話，會迭代很多次才收斂。培訓(xùn)專用1思考-梯度下降ps:網(wǎng)上總是說，大部分人做機器學(xué)習(xí)，都是調(diào)參工程師，說的一個參，就是這個η（超參數(shù)）

此處有視頻培訓(xùn)專用1思考-容量、過擬合、欠擬合

機器學(xué)習(xí)的主要挑戰(zhàn)是我們的算法必須能夠在先前未觀測的新輸入上表現(xiàn)良好，而不只是在訓(xùn)練集上表現(xiàn)良好。在先前未觀測到的輸入上表現(xiàn)良好的能力被稱為泛化。

通常情況下，當(dāng)我們訓(xùn)練機器學(xué)習(xí)模型時，我們可以使用某個訓(xùn)練集，在訓(xùn)練集上計算一些被稱為訓(xùn)練誤差的度量誤差，目標(biāo)是降低訓(xùn)練誤差。

機器學(xué)習(xí)和優(yōu)化不同的地方在于，我們也希望泛化誤差也被稱為測試誤差很低。

培訓(xùn)專用1思考-容量、過擬合、欠擬合當(dāng)我們只能觀測到訓(xùn)練集時，我們?nèi)绾尾拍苡绊憸y試集的性能呢？在樣本數(shù)據(jù)獨立同分布（iid）的假設(shè)下，我們采樣得到訓(xùn)練集，然后挑選參數(shù)去降低訓(xùn)練集誤差，然后采樣得到測試集。在這個過程中，測試誤差期望會大于或等于訓(xùn)練誤差期望。以下是決定機器學(xué)習(xí)算法效果是否好的因素：

1.降低訓(xùn)練誤差。

2.縮小訓(xùn)練誤差和測試誤差的差距。

這兩個因素對應(yīng)機器學(xué)習(xí)的兩個主要挑戰(zhàn)：欠擬合和過擬合。欠擬合是指模型不能在訓(xùn)練集上獲得足夠低的誤差。而過擬合是指訓(xùn)練誤差和和測試誤差之間的差距太大。

培訓(xùn)專用1思考-容量、過擬合、欠擬合通過調(diào)整模型的容量，我們可以控制模型是否偏向于過擬合或者欠擬合。通俗地，模型的容量是指其擬合各種函數(shù)的能力。容量低的模型可能很難擬合訓(xùn)練集。容量高的模型可能會過擬合，因為記住了不適用于測試集的訓(xùn)練集性質(zhì)。一種控制訓(xùn)練算法容量的方法是選擇假設(shè)空間，即學(xué)習(xí)算法可以選擇為解決方案的函數(shù)集。例如，線性回歸算法將關(guān)于其輸入的所有線性函數(shù)作為假設(shè)空間。廣義線性回歸的假設(shè)空間包括多項式函數(shù)，而非僅有線性函數(shù)。這樣做就增加了模型的容量。

培訓(xùn)專用1思考-容量、過擬合、欠擬合

一次多項式提供了我們已經(jīng)熟悉的線性回歸模型，其預(yù)測如下：

通過引入

作為線性回歸模型的另一個特征，我們能夠?qū)W習(xí)關(guān)于

的二次函數(shù)模型：

9次多項式：

培訓(xùn)專用1思考-容量、過擬合、欠擬合容量高的模型能夠解決復(fù)雜的任務(wù)，但是當(dāng)其容量高于任務(wù)所需時，有可能會過擬合。

我們比較了一次，二次和9次預(yù)測器擬合真實二次函數(shù)的效果。一次函數(shù)無法刻畫真實函數(shù)的曲率，所以欠擬合。9次函數(shù)能夠表示正確的函數(shù)，但是因為訓(xùn)練參數(shù)比訓(xùn)練樣本還多，所以它也能夠表示無限多個剛好穿越訓(xùn)練樣本點的很多其他函數(shù)。二次模型非常符合任務(wù)的真實結(jié)構(gòu)，因此它可以很好地泛化到新數(shù)據(jù)上。（見下圖）

培訓(xùn)專用1思考-容量、過擬合、欠擬合二次函數(shù)的擬合情況：擬合函數(shù)：一次二次9次培訓(xùn)專用1思考-容量、過擬合、欠擬合對于一般情況，在圖的左端，訓(xùn)練誤差和泛化誤差都非常高。這是欠擬合(underfitting)機制。當(dāng)我們增加容量時，訓(xùn)練誤差減小，但是訓(xùn)練誤差和泛化誤差之間的間距卻不斷擴大。最終，這個間距的大小超過了訓(xùn)練誤差的下降，我們進入到了過擬合(overfitting)機制，其中容量過大，超過了最佳容量（optimalcapacity)。

培訓(xùn)專用1思考-小樣本學(xué)習(xí)將數(shù)據(jù)集分成固定的訓(xùn)練集和固定的測試集后，若測試集的誤差很小，這將是有問題的。一個小規(guī)模的測試集意味著平均測試誤差估計的統(tǒng)計不確定性，使得很難判斷算法A是否比算法B在給定的任務(wù)上做得更好。

當(dāng)數(shù)據(jù)集有十萬計或者更多的樣本時，這不會是一個嚴(yán)重的問題。當(dāng)數(shù)據(jù)集太小時，也有替代方法允許我們使用所有的樣本估計平均測試誤差，代價是增加了計算量。

培訓(xùn)專用1思考-小樣本學(xué)習(xí)這些過程是基于在原始數(shù)據(jù)上隨機采樣或分離出的不同數(shù)據(jù)集上重復(fù)訓(xùn)練和測試的想法。常見的有兩種方法：1、簡單交叉驗證(simplecrossvalidation)2、k-折交叉驗證(k-foldcrossvalidation)

培訓(xùn)專用1交叉驗證簡單交叉驗證:最簡單，將數(shù)據(jù)集隨機分成兩部分，一部分作為訓(xùn)練集，一部分作為驗證集，由于分法不同，驗證集上的結(jié)果也會有差異。本質(zhì)上不能稱為交叉驗證，因為沒有涉及數(shù)據(jù)的交叉使用，只劃分了一次。驗證集測試集

一般情況下，驗證集取數(shù)據(jù)集的70%,測試集取30%。培訓(xùn)專用1交叉驗證

k-折交叉驗證將樣本集隨機劃分為k份，k-1份作為訓(xùn)練集，1份作為驗證集，依次輪換訓(xùn)練集和驗證集k次，驗證誤差最小的模型為所求模型。具體方法如下：

1.隨機將樣本集S劃分成k個不相交的子集，每個子集中樣本數(shù)量為m/k個，這些子集分別記作

：K-折交叉驗證:培訓(xùn)專用1交叉驗證2.對于每個模型

，進行如下操作：forj=1tok：

將

作

作為訓(xùn)練集，訓(xùn)練模型

，得到相應(yīng)的假設(shè)函數(shù)

。

再將

作為驗證集，計算

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器學(xué)習(xí)學(xué)術(shù)報告

文檔簡介

溫馨提示

最新文檔

評論

機器學(xué)習(xí)學(xué)術(shù)報告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔