機(jī)器學(xué)習(xí)練習(xí)題與答案_第1頁(yè)
機(jī)器學(xué)習(xí)練習(xí)題與答案_第2頁(yè)
機(jī)器學(xué)習(xí)練習(xí)題與答案_第3頁(yè)
機(jī)器學(xué)習(xí)練習(xí)題與答案_第4頁(yè)
機(jī)器學(xué)習(xí)練習(xí)題與答案_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、解析:這題有兩個(gè)同學(xué)做錯(cuò)。過(guò)擬合的英文名稱是Over-fitting(過(guò)擬合)。為了說(shuō)清楚“過(guò)”機(jī)器學(xué)習(xí)練習(xí)題與解答1.小剛?cè)?yīng)聘某互聯(lián)網(wǎng)公司的算法工程師,面試官問(wèn)他“回歸和分類有什么相同點(diǎn)和不同點(diǎn)” 他說(shuō)了以下言論,請(qǐng)逐條判斷是否準(zhǔn)確。1)回歸和分類都是有監(jiān)督學(xué)習(xí)問(wèn)題必答題單選題參考答案:對(duì)。解析:這道題只有一個(gè)同學(xué)做錯(cuò)。本題考察有監(jiān)督學(xué)習(xí)的概念。有監(jiān)督學(xué)習(xí)是從標(biāo)簽化訓(xùn)練數(shù) 據(jù)集中推斷出函數(shù)的機(jī)器學(xué)習(xí)任務(wù)。有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別是:監(jiān)督學(xué)習(xí)-給定數(shù)據(jù)(X/JjX諾和(X屛)-對(duì)新的知預(yù)測(cè)其t-分類,回tn非監(jiān)督學(xué)習(xí)-給定數(shù)據(jù)X*凡-fxx fx,xp-概率佔(zhàn)計(jì),降維,聚類機(jī)器學(xué)習(xí)算法的

2、圖譜如下:機(jī)黑學(xué)習(xí)分類.監(jiān)督學(xué)習(xí):例如用戶盍擊/購(gòu)矣預(yù)測(cè).房?jī)r(jià)預(yù)測(cè)*無(wú)監(jiān)督學(xué)習(xí);便如由P件/新聞聚類*強(qiáng)化學(xué)習(xí):例如動(dòng)態(tài)糸統(tǒng)以及機(jī)器人桂制在回歸問(wèn)題中,標(biāo)簽是連續(xù)值;在分類問(wèn)題中,標(biāo)簽是離散值。具體差別請(qǐng)看周志華機(jī)器學(xué) 習(xí)書(shū)中的例子,一看便懂:若我們欲預(yù)測(cè)的處離故flu例如好瓜“壞瓜”,此類學(xué)習(xí)任務(wù)稱為“分類”似映曲怦tbiO;若欲預(yù)W的巫連級(jí)值、例血函瓜成熟度0衛(wèi)乩0.37, 此類學(xué)習(xí)任務(wù)稱為冋!RM (regrGflwionX2.背景同上題。請(qǐng)判斷2)回歸問(wèn)題和分類問(wèn)題都有可能發(fā)生過(guò)擬合單選題必答題答案:對(duì)擬合,首先說(shuō)一下“擬合”【擬合的幾何意義】:從幾何意義上講,擬合是給定了空間中的一些

3、點(diǎn),找到一個(gè)已知形式未知參數(shù)的連續(xù)曲線或曲 面來(lái)最大限度地逼近這些點(diǎn)。一個(gè)直觀的例子,是下面的電阻和溫度的例子。已知熱敏屯阻數(shù)據(jù):溫度: 2(L5 32-7imn)! 765 8265173.0 95.7873 942 1032求6C時(shí)的電阻&設(shè) R=aah|上為待定系數(shù)我們知道 在物理學(xué)中,電阻和溫度是線性的關(guān)系,也就是R=at+b?,F(xiàn)在我們有一系列關(guān)于“溫 度”和“電阻”的測(cè)量值。一個(gè)最簡(jiǎn)單的思路,取兩組測(cè)量值,解一個(gè)線性方程組,就可以求 出系數(shù)a、b 了!但是理想是豐滿的,現(xiàn)實(shí)是殘酷的!由于測(cè)量誤差等的存在,我們每次測(cè)量得 到的溫度值和電阻值都是有誤差的!因此,為了提高測(cè)量精度,我們會(huì)測(cè)

4、量多次,得到多組的 值,這樣就相當(dāng)于得到二維平面上的多個(gè)點(diǎn),我們的目標(biāo)是尋找一條直線,讓這條直線盡可能 地接近各個(gè)測(cè)量得到的點(diǎn)。擬合的數(shù)學(xué)意義: 在數(shù)學(xué)的意義上,所謂擬合(fit)是指已知某函數(shù)的若干離散函數(shù)值f1,f2,fn(未必都是 準(zhǔn)確值,有個(gè)別可能是近似甚至錯(cuò)誤值),通過(guò)調(diào)整該函數(shù)中若干待定系數(shù) f(入1,入2,入n), 使得該函數(shù)與已知點(diǎn)集的差別(最小二乘意義)最小?!菊f(shuō)說(shuō)過(guò)擬合】 古人云“過(guò)猶不及”。所謂“過(guò)”擬合,顧名思義,就是在學(xué)習(xí)的集合(也就是訓(xùn)練集)上擬合的很不錯(cuò),但是有點(diǎn)過(guò)頭了,什么意思?他能夠在學(xué)過(guò)的數(shù)據(jù)上判斷的很準(zhǔn),但是如果再扔 給它一系列新的沒(méi)學(xué)習(xí)過(guò)的數(shù)據(jù),它判斷的

5、非常差!比如古時(shí)候有個(gè)教書(shū)先生教小明寫(xiě)數(shù)字,“一”字是一橫,“二”字是兩橫,“三”字是三橫。然后,小明說(shuō),老師你不用教我寫(xiě)數(shù)字 了,我都會(huì)寫(xiě)。老師很驚訝,那你說(shuō)“萬(wàn)”字怎么寫(xiě),結(jié)果小明在紙上寫(xiě)下了無(wú)數(shù)個(gè)“橫”。用臺(tái)灣大學(xué)林軒田老師的話說(shuō),過(guò)擬合是“書(shū)呆子”,“鉆牛角尖”。如果用過(guò)于復(fù)雜的模型 來(lái)刻畫(huà)簡(jiǎn)單的問(wèn)題,就有可能得到“聰明過(guò)頭”的結(jié)果。比如下面預(yù)測(cè)房子的價(jià)格 size(p rice)和之間關(guān)系的問(wèn)題(來(lái)源于andrew ng 的 ppt)fOn + iJT + 弘工乂通過(guò)五組數(shù)據(jù),我們通過(guò)肉眼直觀地看,可以初步判斷房屋的價(jià)格和 size之間是二次函數(shù)的 關(guān)系,也就是中間這幅圖所擬合的情況

6、。而右邊這幅圖中,自作聰明地用了一個(gè)四次函數(shù)來(lái)擬 和這五組數(shù)據(jù),雖然在已知的五個(gè)數(shù)據(jù)上都是100%準(zhǔn)確,卻得出了“當(dāng)房子的 size大于某個(gè)值時(shí) 房子的價(jià)格會(huì)隨著房屋面積增大而越來(lái)越低”這樣的荒謬結(jié)論!這樣的是過(guò)擬合。左邊 這個(gè)用一條直線來(lái)擬合但是擬合的誤差很大 也不置信,這叫“欠擬合”。在周志華老師的書(shū)中,舉的例子是這樣的:W卄訓(xùn)咼坤禮it軌合舷分類結(jié)更:1S為祐7漁有n古JdiN*T爰邂廿F(篠以為養(yǎng)色的楓定熱畔1過(guò)擬合r縱含妁直觀類比發(fā)現(xiàn)了沒(méi)有?周志華老師用的是“是不是樹(shù)葉”這樣的分類問(wèn)題舉例,andrew ng用的“房?jī)r(jià)和房屋面積的關(guān)系”這樣的回歸問(wèn)題舉例。這說(shuō)明,分類和回歸都有可能過(guò)

7、擬合。3.3)0/1背景同上題。請(qǐng)判斷一般來(lái)說(shuō),回歸不用在分類問(wèn)題上,但是也有特殊情況,比如logistic回歸可以用來(lái)解決分類問(wèn)題單選題必答題答案:對(duì)解析:Logistic回歸是一種非常高效的分類器。它不僅可以預(yù)測(cè)樣本的類別,還可以計(jì)算出分 類的概率信息,在一線互聯(lián)網(wǎng)公司中廣泛的使用,比如應(yīng)用于CTR預(yù)估這樣的問(wèn)題中。這里我們不詳細(xì)說(shuō)明其原理,后續(xù)課程會(huì)講到。很多人對(duì)它的名字會(huì)產(chǎn)生疑問(wèn),掛著“回歸”的頭, 賣(mài)的是“分類”的肉,別扭的慌。其實(shí)我們不用糾結(jié)它到底是“回歸”,還是“分類”,非得二選一。可以參考一下百度 百科關(guān)于“l(fā)ogistic 回歸”的詞條其中舉了一個(gè)富士康員工“自殺的日期”與“

8、累計(jì)自殺人數(shù)”之間關(guān)系的例子,并通過(guò)logistic 回歸分析來(lái)擬合出一條曲線。這說(shuō)明logistic回歸本身也有一定的解決“回歸”問(wèn)題的能力,只是工業(yè)界都用它來(lái)解決分類問(wèn)題。4.背景同上題。請(qǐng)判斷4)對(duì)回歸問(wèn)題和分類問(wèn)題的評(píng)價(jià) 最常用的指標(biāo)都是 準(zhǔn)確率和召回率單選題必答題答案:錯(cuò) 解析:本題有四個(gè)同學(xué)選錯(cuò)。這道題的用意 是提醒大家注意,對(duì)回歸問(wèn)題的評(píng)價(jià)指標(biāo)通常并不 是準(zhǔn)確率和召回率,從“房?jī)r(jià)與房屋面積之間關(guān)系預(yù)測(cè)”這個(gè)例子來(lái)說(shuō),一個(gè)已知數(shù)據(jù)點(diǎn)離預(yù) 測(cè)的曲線之間的距離是多少時(shí)能夠判定為“準(zhǔn)確”,距離為多少時(shí)判定為“不準(zhǔn)確”?沒(méi)辦法 區(qū)別。準(zhǔn)確率對(duì)于度量回歸問(wèn)題的效果其實(shí)并不適用?;貧w問(wèn)題的誤差

9、一般通過(guò)“誤差”來(lái)評(píng) 估,比如RMS等。在滴滴大數(shù)據(jù)競(jìng)賽中 用的是這樣的一個(gè)指標(biāo)以皿心乍為最筆的i羽介指標(biāo):MAE =扌扌|g如-叫I很顯然不是用的“準(zhǔn)確率”來(lái)評(píng)定。5.背景同上題。請(qǐng)判斷5)輸出變量為有限個(gè)離散變量的預(yù)測(cè)問(wèn)題是回歸問(wèn)題;輸出變量為連續(xù)變量的預(yù)測(cè)問(wèn)題是分類問(wèn)題;單選題必答題答案:錯(cuò)解析:說(shuō)反了6.向量x=1,2,3,4,-9,0 的L1范數(shù)是多少單選題必答題19 sqrt(111)答案:19 解析:這題錯(cuò)了三個(gè)同學(xué),其實(shí)很簡(jiǎn)單。請(qǐng)記住:L0范數(shù)是指向量中非0的元素的個(gè)數(shù)。L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和,也有個(gè)美稱叫“稀疏規(guī)則算子” (Lasso regularizati

10、on)。L2范數(shù)是指向量各元素的平方和然后求平方根。7.小明參加某公司的大數(shù)據(jù)競(jìng)賽,他的成績(jī)?cè)诖筚惻判邪裆显揪佑谇岸?,后?lái)他保持特 征不變,對(duì)原來(lái)的模型做了 1天的調(diào)參,將自己的模型在自己本地測(cè)試集上的準(zhǔn)確率提升了 5% 然后他信心滿滿地將新模型的預(yù)測(cè)結(jié)果更新到了大賽官網(wǎng)上,結(jié)果懊惱地發(fā)現(xiàn)自己的新模型在 大賽官方的測(cè)試集上準(zhǔn)確率反而下降了。對(duì)此,他的朋友們展開(kāi)了討論,請(qǐng)將說(shuō)法正確的選項(xiàng) 打勾(不定項(xiàng)選擇題)多選題必答題 小芳:從機(jī)器學(xué)習(xí)理論的角度,這樣的情況不應(yīng)該發(fā)生,快去找大賽組委會(huì)反應(yīng) 小剛:你這個(gè)有可能是由于過(guò)擬合導(dǎo)致的 小月:早就和你說(shuō)過(guò)了,乖乖使用默認(rèn)的參數(shù)就好了,調(diào)參是不可能有

11、收益的 小平:你可以考慮一下,使用交叉驗(yàn)證來(lái)驗(yàn)證一下是否發(fā)生了過(guò)擬合答案:選擇第二項(xiàng)、第四項(xiàng) 解析:大家都同意第二項(xiàng),是過(guò)擬合導(dǎo)致的。設(shè)置第四項(xiàng)的目的,是提醒大家,交叉驗(yàn)證可以 用于防止模型過(guò)于復(fù)雜而引起的過(guò)擬合。具體什么是交叉驗(yàn)證,請(qǐng)期待后續(xù)課程。8.關(guān)于L1正則和L2正則 下面的說(shuō)法正確的是多選題必答題L1正則做不到這一點(diǎn)L2范數(shù)可以防止過(guò)擬合,提升模型的泛化能力。但 L2正則化標(biāo)識(shí)各個(gè)參數(shù)的平方的和的開(kāi)方值。 the users the most releva nt images. What features can you choose to use?單選題必 答題L2正則化有個(gè)名稱叫

12、“Lasso regularizatio n” L1范數(shù)會(huì)使權(quán)值稀疏答案:第二項(xiàng)、第四項(xiàng)解析:同第6題9.判斷這個(gè)說(shuō)法對(duì)不對(duì):給定n 練誤差和測(cè)試誤差之間的差別會(huì)隨著個(gè)數(shù)據(jù)點(diǎn),如果其中一半用于訓(xùn)練,另一半用于測(cè)試,貝U訓(xùn) n的增加而減小單選題必答題答案:解析:訓(xùn)練數(shù)據(jù)越多,擬合度越好,訓(xùn)練誤差和測(cè)試誤差距離自然越小八卦:親們,這道題曾經(jīng)出現(xiàn)在百度 2016研發(fā)工程師筆試題。咱們有四個(gè)同學(xué)做錯(cuò)。10. Con Sider a p roblem of build ing an on li ne image advertiseme nt systemthat showscon Crete, abst

13、ract con Crete, raw, abstract con crete, raw con crete答案:解析:本題源于林軒田機(jī)器學(xué)習(xí)基石課件,給在線圖片廣告系統(tǒng)挑選特征。con crete user features, raw image features,a nd maybe abstract user/image IDs大致理解一下 特征的幾種類型,請(qǐng)做錯(cuò)的同學(xué)去看一下林軒田老師的視頻Raw Features: Digit Recognition Problem (2/2by Concrete Featuresby Raw FeaturesInX =(syniniefry. density)Other Problems with Raw Fea

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論