下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一、 判斷題(共30分,每題2分,打誠X)1、如果問題本身就是非線性問題,使用支持向量機(jī)( SVM)是難以取得好的預(yù)測效果的。(X)2、只要使用的半監(jiān)督學(xué)習(xí)方法合適, 利用100個標(biāo)記樣本和1000個無標(biāo)記樣本的預(yù)測效果,TOC\o"1-5"\h\z同樣可以達(dá)到利用1100個標(biāo)記樣本使用監(jiān)督學(xué)習(xí)方法的預(yù)測效果。 (X)3、深度學(xué)習(xí)中應(yīng)該盡量避免過擬合。 (X)4、在隨機(jī)森林Bagging過程中,每次選取的特征個數(shù)為 m,m的值過大會降低樹之間的關(guān)聯(lián)性和單棵樹的分類能力。 (X)5、決策樹學(xué)習(xí)的結(jié)果,是得到一組規(guī)則集,且其中的規(guī)則是可以解釋的。 (V)6、在FCM聚類算法中交替迭代優(yōu)化目標(biāo)函數(shù)的方法不一定得到最優(yōu)解。 (V)7、在流形學(xué)習(xí)ISOMAP中,測地距離即是歐氏距離。 (X)8、貝葉斯決策實(shí)質(zhì)上是按后驗(yàn)概率進(jìn)行決策的。 (V)9、非參數(shù)估計(jì)需要較大數(shù)量的樣本才能取得較好的估計(jì)結(jié)果。 (V)10、不需要顯示定義特征是深度學(xué)習(xí)的優(yōu)勢之一。 (V)判斷題為反扣分題目;答對得 2分,不答得0分,答錯得-2分;尹老師沒有給出問答題的參考答案是怕限制大家的思路, 我簡要給出答題思路,僅供大家參考。我發(fā)現(xiàn)好幾個問題直接百度就可以找到答案, 大家不妨自己搜一下。也可以看一下機(jī)器學(xué)習(xí)十大算法那個PDF文件。Co-training和ensemblelearning兩個文件大家有時(shí)間可以看一下了解了解。二、 問答題(共60分)1、 從樣本集推斷總體概率分布的方法可以歸結(jié)為哪幾種類型?請分別簡要解釋之。3種方法:監(jiān)督參數(shù)估計(jì)、非監(jiān)督參數(shù)估計(jì)、非參數(shù)估計(jì)這個可以參照第三章概率密度函數(shù)估計(jì) -1.ppt,寫的不能再詳細(xì)了。監(jiān)督參數(shù)估計(jì):樣本所屬類別及類條件總體概率密度的形式已知, 而表征概率密度函數(shù)的某些參數(shù)未知,需要根據(jù)樣本集對總體分布中的某些參數(shù)進(jìn)行估計(jì)。非監(jiān)督參數(shù)估計(jì):已知總體概率密度函數(shù)形式, 但未知樣本所屬類別,需要根據(jù)樣本集對總體分布中的某些參數(shù)進(jìn)行估計(jì)。非參數(shù)估計(jì):已知樣本所屬類別,未知總體概率密度的形式, 需要依據(jù)樣本集直接推斷概率密度函數(shù)2、 什么是k-近鄰算法?K近鄰算法,即給定一個訓(xùn)練數(shù)據(jù)集,對新的輸入實(shí)例,在訓(xùn)練數(shù)據(jù)集中找到與該實(shí)例最鄰近的K個實(shí)例(也就是K個鄰居),這K個實(shí)例的多數(shù)屬于某個類,就把該輸入實(shí)例分類到這個類中。主=少昭m=argmax(kn\kn是K個樣本中第打類的樣本個叛該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。因此對于類域的交叉或重疊較多的待分樣本集來說, KNN方法較其他方法更為適合。是計(jì)算量較大,因?yàn)閷γ恳粋€待分類的文本都要計(jì)算它到全體已知樣本的距離, 才能求得它的K個最近鄰點(diǎn)。當(dāng)樣本不平衡時(shí),如一個類的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個新樣本時(shí),該樣本的 K個鄰居中大容量類的樣本占多數(shù)。3、決策樹的C4.5算法與ID3算法相比主要有哪些方面的改進(jìn)?FromID3toC4.5:1、用信息增益比來選擇屬性, 克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;2、 增加了后剪枝操作。3、 能夠完成對連續(xù)屬性的離散化處理;4、 能夠處理屬性存在不同損失的情況;5、 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。4、 就您的理解,談?wù)勈裁词羌蓪W(xué)習(xí)?集成學(xué)習(xí)要想取得好的效果,應(yīng)該滿足的兩個條件是什么?集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí), 并使用某種規(guī)則把各個學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。集成學(xué)習(xí)的思路是在對新的實(shí)例進(jìn)行分類的時(shí)候, 把若干個單個分類器集成起來,通過對多個分類器的分類結(jié)果進(jìn)行某種組合來決定最終的分類, 以取得比單個分類器更好的性能。如果把單個分類器比作一個決策者的話,集成學(xué)習(xí)的方法就相當(dāng)于多個決策者共同進(jìn)行一項(xiàng)決尺S策。必要條件:被集成的各個基學(xué)習(xí)器(分類器)性能越高(分類正確率越高)越好。各個基學(xué)習(xí)器(分類器)具有互補(bǔ)性,或者說互補(bǔ)性越大越好。5、就您的理解,談?wù)勈裁词前氡O(jiān)督學(xué)習(xí)?請簡要介紹 Co-training的基本思想半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。它主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問題。Co-training是將特征x分為互相獨(dú)立的兩個部分,分別訓(xùn)練兩個分類器,用 learnerl分類未標(biāo)記的數(shù)據(jù),選取置信度高的結(jié)果放入標(biāo)記的數(shù)據(jù)中,對新生成的數(shù)據(jù)集再訓(xùn)練 learner2,同樣將learner2產(chǎn)生的結(jié)果放入數(shù)據(jù)集中形成新的數(shù)據(jù)集,訓(xùn)練 learnerl,重復(fù)這個過程,最終兩個分類器趨于相同的分類結(jié)果。Co-training算法假設(shè)數(shù)據(jù)屬性擁有兩個充分冗余的視圖,稱之為 viewl和view2。算法基本流程是:首先在標(biāo)記數(shù)據(jù)集 L的view1和view2,分別上訓(xùn)練出兩個分類器 C1和C2;然后從未標(biāo)記數(shù)據(jù)集 U上隨機(jī)的選取u個示例放入集合U'中;分別用C1和C2對U'中的所有元素進(jìn)行標(biāo)記;接著從兩個分類器標(biāo)記結(jié)果中各取可信度最高的 p個正標(biāo)記和n個負(fù)標(biāo)記放入L中;最后從U中選取2p+2n個數(shù)據(jù)補(bǔ)充到U'中;重復(fù)上述過程直到滿足截止條件。6、就您的理解,請分別概述何謂代價(jià)敏感性學(xué)習(xí)、何謂類別不平衡學(xué)習(xí)。(1)不同錯誤的代價(jià)或者是后果是不一樣的,甚至差別很大。(2)不追求總的錯誤率最小,而是盡量避免代價(jià)大的分類錯誤,是代價(jià)敏感性學(xué)習(xí)的基本思想。(3)在代價(jià)敏感性學(xué)習(xí)的思想下,要使分界面遠(yuǎn)離分類錯誤代價(jià)大的那一類,或者說盡量減少犯分類代價(jià)大的那類錯誤。代價(jià)敏感的學(xué)習(xí)方法是機(jī)器學(xué)習(xí)領(lǐng)域中的一種新方法, 它主要考慮在分類中,當(dāng)不同的分類錯誤會導(dǎo)致不同的懲罰力度時(shí)如何訓(xùn)練分類器。不同的分類錯誤有不同的代價(jià) (cost),代價(jià)敏感學(xué)習(xí)的目標(biāo)就是最小化總分類代價(jià)?,F(xiàn)實(shí)生活中,經(jīng)常會存在這樣的數(shù)據(jù),即某一類別所包含的樣本的數(shù)量遠(yuǎn)遠(yuǎn)小于其他類別所包含的樣本數(shù)量,我們稱這樣的數(shù)據(jù)為類別不平衡數(shù)據(jù)。 在這些數(shù)據(jù)集中,人們主要關(guān)注的是小類樣本的信息(少數(shù)類),但是傳統(tǒng)的分類方法由于追求總體的準(zhǔn)確率,很容易將全部樣本判別為多數(shù)類,使得分類器在少數(shù)類樣本上的效果變得很差。這樣誤分的代價(jià)是巨大的。類別不平衡數(shù)據(jù)的研究主要集中在兩個個層面 :對數(shù)據(jù)集的處理和對分類算法的改進(jìn)。對數(shù)據(jù)集的處理主要是用重采樣的方法對數(shù)據(jù)集重構(gòu), 改變原始數(shù)據(jù)集的分布,縮減其不平衡程度,主要方法有欠取樣和過取樣; 對分類算法的改進(jìn)主要是修改傳統(tǒng)分類算法, 使之適應(yīng)類別不平衡數(shù)據(jù)分類,如代價(jià)敏感學(xué)習(xí)及基于 Boosting的方法等。7、 試簡述流型學(xué)習(xí)方法ISOMAP的基本思想及其優(yōu)缺點(diǎn)。ISOMAP就是把任意兩點(diǎn)的測地距離作為流形的幾何描述, 用MDS理論框架理論上保持這個點(diǎn)與點(diǎn)之間的最短距離。 算法的關(guān)鍵在于利用樣本向量之間的歐氏距離 dx(i,j)計(jì)算出樣本之間的測地距離dG(i,j),從而真實(shí)再現(xiàn)高維數(shù)據(jù)內(nèi)在的非線性幾何結(jié)構(gòu)。 然后使用經(jīng)典MDS算法構(gòu)造一個新的d維歐氏空間Y(d是降維空間的維數(shù)),最大限度地保持樣本之間的歐式距離dY(i,j)與dG(i,j)誤差最小,從而達(dá)到降維的目的。ISOMAP的優(yōu)點(diǎn):可以最大限度的保留原始數(shù)據(jù)的信息; 依賴于線性代數(shù)的特征值和特征向量問題,保證了結(jié)果的穩(wěn)健性和全局最優(yōu)性缺點(diǎn):適用范圍有限,流形必須是內(nèi)部平坦的;計(jì)算每兩個點(diǎn)的距離,時(shí)間復(fù)雜度較大。Isomap優(yōu)點(diǎn):能處理非線性流形之類的高維數(shù)據(jù);全局優(yōu)化;不管輸入空間是高度折疊的,還是扭曲的,或者彎曲的, Isomap仍然能全局優(yōu)化低維的歐式表示;⑷Isomap能保證漸進(jìn)地恢復(fù)到真實(shí)的維度。Isomap缺點(diǎn):(1)可能在數(shù)據(jù)拓?fù)淇臻g是不穩(wěn)定的,依賴的;⑵保證漸進(jìn)恢復(fù)到非線性流形的幾何結(jié)構(gòu)的時(shí)候:當(dāng) N增加的時(shí)候,點(diǎn)對距離提供更加接近于測地的距離,但是花更多計(jì)算時(shí)間;假如 N是小的,測地距離將會非常不精確。8、 就您的理解,請概述何謂多標(biāo)記學(xué)習(xí)。多標(biāo)記學(xué)習(xí)關(guān)注于如何對具有多個不同概念標(biāo)記的對象進(jìn)行有效地建模, 在該框架下,學(xué)習(xí)系統(tǒng)通過對具有一組概念標(biāo)記(labelset)的訓(xùn)練例進(jìn)行學(xué)習(xí),以盡可能正確地對訓(xùn)練集之外示例的概念集合進(jìn)行預(yù)測。形式化地說,多標(biāo)記學(xué)習(xí)的任務(wù)是從數(shù)據(jù)集 {(x1,Y1),(x2,Y2),…,(xm,Ym)中學(xué)得函數(shù)f:x宀2y其中xi€x為一個示例而Yiy為示例xi所屬的一組概念標(biāo)記。9、 就您的理解,談?wù)勈裁词蔷垲??請簡要介紹您所熟悉的一種聚類方法。聚類是將多個對象按照某種相似度的度量方式分成不同的組(簇) 。是一種無監(jiān)督的學(xué)習(xí)方法,聚類的樣本中沒有類別 y只有特征x,聚類的目的是找到每個樣本 x潛在的類別y,并將同類別y的樣本x放在一起。
k-means算法是一種很常見的聚類算法,它的基本思想是:通過迭代尋找 k個聚類的一種劃分方案,使得用這k個聚類的均值來代表相應(yīng)各類樣本時(shí)所得的總體誤差最小。其算法描述如下:選擇K個點(diǎn)作為初始質(zhì)心Repeat將每個點(diǎn)指派到離它最近的質(zhì)心,形成 K個簇重新計(jì)算每個簇的質(zhì)心Until簇不再發(fā)生變化或者達(dá)到最大迭代次數(shù)三、計(jì)算題(共10分)1、有如圖所示的神經(jīng)網(wǎng)絡(luò)。Squashfunction三、計(jì)算題(共10分)1、有如圖所示的神經(jīng)網(wǎng)絡(luò)。Squashfunction為:f(x)=r,11,x_1X:::1,輸入樣本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 戰(zhàn)略合作寫合同范例
- 債權(quán)保證擔(dān)保合同范例
- 木扶手合同范例
- 理財(cái)有合同范例
- 外貿(mào)店鋪轉(zhuǎn)讓合同范例
- 租賃施工車輛合同范例
- 彩鋼瓦防腐翻新合同范例
- 柑橘果園出售合同范例
- 畢業(yè)照合同范例
- 簡易綠化養(yǎng)護(hù)合同范例冬季
- 【MOOC】信號與系統(tǒng)-南京郵電大學(xué) 中國大學(xué)慕課MOOC答案
- 電大專科《管理英語1》2024期末試題及答案(3895號)
- 大學(xué)美育(同濟(jì)大學(xué)版)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 中國重癥患者腸外營養(yǎng)治療臨床實(shí)踐專家共識(2024)解讀
- 足三陰經(jīng)周康梅
- MOOC 跨文化交際通識通論-揚(yáng)州大學(xué) 中國大學(xué)慕課答案
- (正式版)SHT 3078-2024 立式圓筒形料倉工程設(shè)計(jì)規(guī)范
- 10000中國普通人名大全
- C30P8普通混凝土配合比報(bào)告
- AQL抽樣檢驗(yàn)表(標(biāo)準(zhǔn)版本20)
- 數(shù)獨(dú)“六宮”練習(xí)題
評論
0/150
提交評論