模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第1頁
模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第2頁
模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第3頁
模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第4頁
模式識別基礎(chǔ)復(fù)習(xí)資料Word版_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

整理為word格式整理為word格式整理為word格式模式識別基礎(chǔ)模式識別基礎(chǔ)復(fù)習(xí)資料教師:張學(xué)工2009秋季Xinbenlv@清華大學(xué)自動化系2009秋季整理為word格式整理為word格式整理為word格式Contents卷一、模式識別機(jī)經(jīng) 3卷二、2008~2009秋_模式識別_張學(xué)工_期末B 4卷三、2007~2008秋_模式識別_張學(xué)工_期末B 6卷四、2007~2008秋_模式識別_張學(xué)工_期末A 8卷五、2006~2007秋_模式識別_張學(xué)工_期末B 9卷六、2005~2006秋_模式識別_張學(xué)工_期末 10卷七、2004~2005秋_模式識別_張學(xué)工_期末 11卷八、2003~2004秋_模式識別_張學(xué)工_期末 12卷九、1999~2000春_模式識別_張學(xué)工_期末 13附錄、名詞以及原理 15整理為word格式整理為word格式整理為word格式

卷一、模式識別機(jī)經(jīng)

1.(16分)正態(tài)分布N(0,9)與均勻分布[5,10],先驗(yàn)概率1/2

最小錯(cuò)誤率分類器,并畫圖.最小錯(cuò)誤率分類器缺點(diǎn)答:

1.設(shè)計(jì)最小錯(cuò)誤率分類器:如果則為反之則為(特別的,當(dāng),可以接受為任何一類也可以拒絕。在連續(xù)情況下這種情況幾乎完全不出現(xiàn)。1.(16分)正態(tài)分布N(0,9)與均勻分布[5,10],先驗(yàn)概率1/2

最小錯(cuò)誤率分類器,并畫圖.最小錯(cuò)誤率分類器缺點(diǎn),2.畫圖如下,紅色表示([5,10]均勻分布的后驗(yàn)概率),藍(lán)色表示(N(0,9)的后驗(yàn)概率)(注意?。。D是錯(cuò)的——作者)(圖是錯(cuò)的)3.最小錯(cuò)誤分類器有許多局限性。其一,其只考慮到錯(cuò)誤率的限制,并未考慮到實(shí)際情況中不同錯(cuò)誤的代價(jià)等等,為了克服這類局限性,學(xué)者們在最小錯(cuò)誤率之外又設(shè)計(jì)了最小風(fēng)險(xiǎn)分類器、限定一類錯(cuò)誤率令另一類錯(cuò)誤率最小的分類器等;其二,其只能用于監(jiān)督學(xué)習(xí),要求已知分類情況,并且要滿足I.I.D條件即樣本與總體分布相符;其三,其要求必須知道先驗(yàn)概率,許多實(shí)際問題的先驗(yàn)概率是難以得到的。2.(22分)8個(gè)樣品w1

3個(gè)...,w2

5個(gè)

1)最近鄰分類,畫圖2.(22分)8個(gè)樣品w1

3個(gè)...,w2

5個(gè)

1)最近鄰分類,畫圖 2)給兩個(gè)點(diǎn)..,問怎么分

3)最近鄰分類器線性分類器? 4)設(shè)計(jì)二次曲面分之

5)壓縮近鄰法壓縮過程及結(jié)果 6)壓縮近鄰法分界面并比較1)

答:(題目不完整)最近鄰法(k=1),k近鄰(k個(gè)最近的點(diǎn)投票),可以考慮加權(quán)3.(5分)證明兩個(gè)樣品構(gòu)成得協(xié)方差矩陣一般是奇異的3.(5分)證明兩個(gè)樣品構(gòu)成得協(xié)方差矩陣一般是奇異的(不可逆的)

答:設(shè),從而其第i行j列元素為整理為word格式整理為word格式整理為word格式,表示第m個(gè)樣本第n個(gè)維度的值。從而這是一個(gè)行列式為零的矩陣(第一行除以(),第二行除以之后想減得零,故該協(xié)方差陣是奇異的。4.(26分)"距離"不同會有不同結(jié)果

1)給出兩種你認(rèn)為重要的距離,如何定義及物理意義

2)貝葉斯分類器,近鄰法,fisher投影法,c均值法是否受距離度量影響,不受則說明理由,

受,距離說明

4.(26分)"距離"不同會有不同結(jié)果

1)給出兩種你認(rèn)為重要的距離,如何定義及物理意義

2)貝葉斯分類器,近鄰法,fisher投影法,c均值法是否受距離度量影響,不受則說明理由,

受,距離說明

答:距離可以是任意一種范數(shù),設(shè)對點(diǎn)歐幾里得距離(2范數(shù)):每個(gè)坐標(biāo)的絕對值差之和(1范數(shù)):貝葉斯分類器不受、fisher投影法不受:都屬于判別函數(shù)與距離度量無關(guān)的,故不受影響,近鄰法,c均值法與受到距離度量的

5.(15分)AB玩游戲,A問是非問題,B回答是或非.

1)游戲與模式識別什么內(nèi)容有關(guān)系?用模式識別語言描述

2)B應(yīng)如何調(diào)整問題

3)如果做成計(jì)算機(jī)游戲,寫出設(shè)計(jì)思路,方法,難點(diǎn),解決方案.游戲受歡迎嗎?為什么?

5.(15分)AB玩游戲,A問是非問題,B回答是或非.

1)游戲與模式識別什么內(nèi)容有關(guān)系?用模式識別語言描述

2)B應(yīng)如何調(diào)整問題

3)如果做成計(jì)算機(jī)游戲,寫出設(shè)計(jì)思路,方法,難點(diǎn),解決方案.游戲受歡迎嗎?為什么?

答:???這是一類決策樹問題。可以將每一個(gè)是非問題看做一個(gè)決策樹節(jié)點(diǎn),是非答案決定了分支的方向(左或右)。調(diào)整問題應(yīng)該使得在有效分類的情況下樹深度最淺,就能在單次游戲最壞情況下最快猜出。(我覺得挺2的,應(yīng)該不會受歡迎。。不過可以用作公安局犯罪嫌疑人指認(rèn)的軟件)6.(6分)自己設(shè)計(jì)模糊數(shù)學(xué)用于模式識別的其他理論方法(除去聚類).寫出思路必要細(xì)節(jié)

.分析可能結(jié)果.

答:例如k-近鄰法的模糊性質(zhì)。定義隸屬函數(shù)表示屬于類的程度,值域上界為1,表示完全屬于,下界為0,表示完全不屬于,將對任意一個(gè)待判定的樣本,選取某個(gè)距離度量(如歐幾里得距離)最近的k個(gè)已知類別的訓(xùn)練樣本,從而令得到x對于類的隸屬函數(shù)。

7.(10分)專家經(jīng)常根據(jù)特殊筆跡或特殊長相分類.問如何在一個(gè)人臉自動識別系統(tǒng)或筆跡

自動識別系統(tǒng)中實(shí)現(xiàn)人的這一經(jīng)驗(yàn).從數(shù)據(jù)預(yù)處理,特征提取,選擇分類器設(shè)計(jì)等角度描述

實(shí)現(xiàn)這一經(jīng)驗(yàn)的方法與可能性.優(yōu)點(diǎn)?缺點(diǎn)?

6.(6分)自己設(shè)計(jì)模糊數(shù)學(xué)用于模式識別的其他理論方法(除去聚類).寫出思路必要細(xì)節(jié)

.分析可能結(jié)果.

7.(10分)專家經(jīng)常根據(jù)特殊筆跡或特殊長相分類.問如何在一個(gè)人臉自動識別系統(tǒng)或筆跡

自動識別系統(tǒng)中實(shí)現(xiàn)人的這一經(jīng)驗(yàn).從數(shù)據(jù)預(yù)處理,特征提取,選擇分類器設(shè)計(jì)等角度描述

實(shí)現(xiàn)這一經(jīng)驗(yàn)的方法與可能性.優(yōu)點(diǎn)?缺點(diǎn)?

答:這是一類特殊的圖像識別問題,可以采用K-L分類整理為word格式整理為word格式整理為word格式卷二、2008~2009秋_模式識別_張學(xué)工_期末B1.(30')

簡要介紹下列概念

·ROC曲線1.(30')

簡要介紹下列概念

·ROC曲線、交叉驗(yàn)證、似然函數(shù)、特征選擇與提取、推廣能力、隨機(jī)森林ROC曲線(ReceiverOperationalCharacteristicCurve)是以FalsePositiveRate為橫坐標(biāo),TruePositiveRate為縱坐標(biāo)的繪制的曲線,通過改變分點(diǎn)給出對應(yīng)的FP和TP繪成。曲線的點(diǎn)表示了在敏感度和特殊性之間的平衡,例如越往左,也就是假陽性越小,則真陽性也越小。曲線下方的面積越大,則表示該方法越有利于區(qū)分兩種類別。交叉驗(yàn)證是指交叉驗(yàn)證(Cross-validation)主要用于建模應(yīng)用中,在給定的建模樣本中,拿出大部分樣本進(jìn)行建模型,留小部分樣本用剛建立的模型進(jìn)行預(yù)報(bào),并求這小部分樣本的預(yù)報(bào)誤差,記錄它們的平方加和。這個(gè)過程一直進(jìn)行,直到所有的樣本都被預(yù)報(bào)了一次而且僅被預(yù)報(bào)一次。把每個(gè)樣本的預(yù)報(bào)誤差平方加和,這個(gè)數(shù)越小,表示該方法越好特征選擇與提取:特征是指對事物的觀測或者某種運(yùn)算,用于分類。特征提取是指直接觀測到或者經(jīng)過初步運(yùn)算的特征——原始特征。特征選擇是指從m個(gè)特征中選擇m1個(gè),m1<m。特征提取(特征壓縮、變換)將m個(gè)特征變?yōu)閙2個(gè)新特征。推廣能力:在有限的樣本上建立的學(xué)習(xí)機(jī)器對未來樣本的表現(xiàn)。隨機(jī)森林是指通過bootstrapping樣本來生成許多決策樹,對于決策樹上的每一個(gè)節(jié)點(diǎn),選擇m個(gè)變量來進(jìn)行決策。計(jì)算訓(xùn)練集基于這m個(gè)變量的最佳分劃。(Wiki:在\o"機(jī)器學(xué)習(xí)"機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)\o"決策樹"決策樹的\o"分類器(尚未撰寫)"分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的\o"眾數(shù)"眾數(shù)而定。\o"LeoBreiman(尚未撰寫)"LeoBreiman和\o"AdeleCutler(尚未撰寫)"AdeleCutler發(fā)展出推論出隨機(jī)森林的算法。而"RandomForests"是他們的\o"商標(biāo)"商標(biāo)。這個(gè)術(shù)語是1995年由貝爾實(shí)驗(yàn)室的\o"TinKamHo(尚未撰寫)"TinKamHo所提出的隨機(jī)決策森林(randomdecisionforests)而來的。這個(gè)方法則是結(jié)合Breimans的"\o"Bootstrapaggregating(尚未撰寫)"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造決策樹的集合。)2.(30’)簡述Fisher線性判別方法的基本原理并討論如何在Fisher線性判別中實(shí)現(xiàn)最小風(fēng)險(xiǎn)的分類決策。

答:2.(30’)簡述Fisher線性判別方法的基本原理并討論如何在Fisher線性判別中實(shí)現(xiàn)最小風(fēng)險(xiǎn)的分類決策。Fisher線性判別法是指:將多維判別決策問題通過線性組合降低為1維的時(shí)候,選擇一個(gè)最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為??紤]最小風(fēng)險(xiǎn)分類決策的時(shí)候,需要甄選分界閾值點(diǎn)。從而可以根據(jù)貝葉斯決策規(guī)獲得一種一維內(nèi)的最小風(fēng)險(xiǎn)分類器。例如,經(jīng)過投影后的分別服從的分布規(guī)律…P14頁下方3.(20’)簡述C-均值方法的基本原理,并討論在什么情況下此方法比較適用。3.(20’)簡述C-均值方法的基本原理,并討論在什么情況下此方法比較適用。答:整理為word格式整理為word格式整理為word格式C均值法是一種動態(tài)聚類法,通過多次迭代,逐步調(diào)整類別劃分,最終使某準(zhǔn)則達(dá)到最優(yōu)。C均值法的目標(biāo)是最小化——最小方差劃分。用另一個(gè)角度來看,就是用C個(gè)碼本來代表整個(gè)樣本集,使這種表示帶來的總體誤差最小——向量量化。誤差平方和聚類準(zhǔn)則:見課件9.3(p14)適用條件:課件9.3(p22)

4.(20’)SVM與多層感知器都可以實(shí)現(xiàn)非線性分類,試討論它們在原理上的聯(lián)系與區(qū)別。4.(20’)SVM與多層感知器都可以實(shí)現(xiàn)非線性分類,試討論它們在原理上的聯(lián)系與區(qū)別。答:支持向量機(jī)(SVM:SupportingVectorMechine)原理:課件5.5P6(特點(diǎn)是:P13),課本P301。支持向量機(jī)的基本思想可以概括為:首先通過非線性變化將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)先行分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)K(X,Y)實(shí)現(xiàn)的。多層感知器(MLP:Multi-LayerPerception)原理:課件5.4P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個(gè)感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù),使得分類器可以產(chǎn)生非線性的或者超平面的決策面,從而成為分線性分類器。(Wiki:Amultilayerperceptronisa\o"Feedforward"feedforward\o"Artificialneuralnetwork"artificialneuralnetworkmodelthatmapssetsofinputdataontoasetofappropriateoutput.Itisamodificationofthestandardlinear\o"Perceptron"perceptroninthatitusesthreeormorelayersofneurons(nodes)withnonlinear\o"Activationfunction"activationfunctions,andismorepowerfulthanthe\o"Perceptron"perceptroninthatitcandistinguishdatathatisnotlinearlyseparable,orseparablebya\o"Hyperplane"hyperplane.[1])聯(lián)系與差異:都屬于非線性分類器,但是其中一種是通過特征空間的非線性變換來實(shí)現(xiàn)最優(yōu)決策面的,而多層感知器則是通過多層感知器(邏輯單元)的邏輯組合(輸入-中間-輸出)以及每層之間各數(shù)據(jù)的線性組合來實(shí)現(xiàn)非線性決策面的5.(沒有分)給課程提建設(shè)性建議5.(沒有分)給課程提建設(shè)性建議。1.通過《模式識別基礎(chǔ)》課程的學(xué)習(xí)。。。

卷三、2007~2008秋_模式識別_張學(xué)工_期末B

1

1

.寫出英文全稱,中文,100字簡述

5*6=30

a)Hierachical

Clustering;

b)MLP;c)Nonparametric

Estimation;

d)SVM

e)Fisher's

Linear

Discriminant

Analysis;f)PCA;g)Random

Forest整理為word格式整理為word格式整理為word格式HierachicalClustering,分級聚類(課件9.4P45):從各類只有一個(gè)樣本點(diǎn)開始,逐級合并,每級只合并兩類,直到最后所有樣本都?xì)w到一類。聚類過程中考察類間相似度,依次決定類別數(shù)。MLP,Multi-LayerPerception,多層感知器原理:課件5.4P10。是一種前饋人工神經(jīng)網(wǎng)絡(luò)。它利用三層或者三層以上多個(gè)感知器來講輸入數(shù)據(jù)映射為復(fù)雜輸出數(shù)據(jù),使得分類器可以產(chǎn)生非線性的或者超平面的決策面,從而成為分線性分類器。(Wiki:Amultilayerperceptronisa\o"Feedforward"feedforward\o"Artificialneuralnetwork"artificialneuralnetworkmodelthatmapssetsofinputdataontoasetofappropriateoutput.Itisamodificationofthestandardlinear\o"Perceptron"perceptroninthatitusesthreeormorelayersofneurons(nodes)withnonlinear\o"Activationfunction"activationfunctions,andismorepowerfulthanthe\o"Perceptron"perceptroninthatitcandistinguishdatathatisnotlinearlyseparable,orseparablebya\o"Hyperplane"hyperplane.[1])Nonparametric

Estimation:非參數(shù)估計(jì)(課件3.5.1,P36)不假設(shè)概率模型,通過樣本落在區(qū)域的概率來估計(jì)出一個(gè)概率密度函數(shù)。常用的有窗函數(shù)法(如近鄰估計(jì)、Parzen窗估計(jì))。SVM,SupportingVectorMechine,支持向量機(jī):課件5.5P6(特點(diǎn)是:P13),課本P301。支持向量機(jī)的基本思想可以概括為:首先通過非線性變化將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)先行分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)K(X,Y)實(shí)現(xiàn)的。Fisher's

Linear

Discriminant

Analysis,F(xiàn)isher線性判別分析:Fisher線性判別法是指:將多維判別決策問題通過線性組合降低為1維的時(shí)候,選擇一個(gè)最優(yōu)的一維線性判別函數(shù)的方法。該方法考慮了不同類別樣本的協(xié)方差和均值之差。決策面法向量為。PCA,PrincipalComponentAnalysis,主成分分析:課件8.2P21,目的:在\o"統(tǒng)計(jì)學(xué)"統(tǒng)計(jì)學(xué)中,主成分分析(principalcomponentsanalysis(PCA))是一種簡化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應(yīng)用而定。RandomForest,隨機(jī)森林:隨機(jī)森林是指通過bootstrapping樣本來生成許多決策樹,對于決策樹上的每一個(gè)節(jié)點(diǎn),選擇m個(gè)變量來進(jìn)行決策。計(jì)算訓(xùn)練集基于這m個(gè)變量的最佳分劃。(Wiki:整理為word格式整理為word格式整理為word格式在\o"機(jī)器學(xué)習(xí)"機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)\o"決策樹"決策樹的\o"分類器(尚未撰寫)"分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的\o"眾數(shù)"眾數(shù)而定。\o"LeoBreiman(尚未撰寫)"LeoBreiman和\o"AdeleCutler(尚未撰寫)"AdeleCutler發(fā)展出推論出隨機(jī)森林的算法。而"RandomForests"是他們的\o"商標(biāo)"商標(biāo)。這個(gè)術(shù)語是1995年由貝爾實(shí)驗(yàn)室的\o"TinKamHo(尚未撰寫)"TinKamHo所提出的隨機(jī)決策森林(randomdecisionforests)而來的。這個(gè)方法則是結(jié)合Breimans的"\o"Bootstrapaggregating(尚未撰寫)"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造決策樹的集合。)2.2.

200字簡述

4*5=20

a)最小距離分類器何時(shí)是最優(yōu)分類器?

b)寫出最小距離分類器,分段線性判別,最近鄰法的關(guān)系

c)寫出決策樹和隨機(jī)森林的關(guān)系,以及為什么要有隨機(jī)森林

記不太清了,貌似有個(gè)SVM的原理?

d)寫出K-L變換和PCA的關(guān)系

寫出特征提取和fisher線性判別的關(guān)系最小距離分類器:(課本P120頁)最小距離分類器是指在貝葉斯決策規(guī)則當(dāng)類條件概率密度為正態(tài)分布且各特征統(tǒng)計(jì)獨(dú)立同方差時(shí),利用貝葉斯決策規(guī)則在可以得到線性距離判別函數(shù),特別是當(dāng)時(shí),決策規(guī)則式可以寫成 這時(shí)的最小距離分類器是滿足貝葉斯決策規(guī)則的最優(yōu)分類器。最小距離分類器是一種分段線性的判別方法。每個(gè)樣本點(diǎn)的類別由最近的代表點(diǎn)的類別決定。最近鄰法是這種分類器的一種應(yīng)用,特殊之處在于(課本P120頁)最近鄰法是將每一個(gè)樣本都當(dāng)做類別的代表點(diǎn)隨機(jī)森林由多個(gè)決策樹組成。隨機(jī)森林的優(yōu)缺點(diǎn):Wiki:Theadvantagesofrandomforestare:Formanydatasets,itproducesahighlyaccurateclassifierIthandlesaverylargenumberofinputvariablesItestimatestheimportanceofvariablesindeterminingclassificationItgeneratesaninternalunbiasedestimateofthegeneralizationerrorastheforestbuildingprogressesItincludesagoodmethodforestimatingmissingdataandmaintainsaccuracywhenalargeproportionofthedataaremissingItprovidesanexperimentalwaytodetectvariableinteractionsItcanbalanceerrorinclasspopulationunbalanceddatasetsItcomputesproximitiesbetweencases,usefulfor\o"Clustering"clustering,detecting\o"Outlier"outliers,and(byscaling)visualizingthedataUsingtheabove,itcanbeextendedtounlabeleddata,leadingtounsupervisedclustering,outlierdetectionanddataviewsLearningisfastThedisadvantagesofrandomforestare:整理為word格式整理為word格式整理為word格式Randomforestarepronetooverfittingforsomedatasets.Thisisevenmorepronouncedinnoisyclassification/regressiontasks.[6]RandomForestdoesnothandlelargenumbersofirrelevantfeaturesaswellasensemblesofentropy-reducingdecisiontrees.[7]Itismoreefficienttoselectarandomdecisionboundarythananentropy-reducingdecisionboundary,thusmakinglargerensemblesmorefeasible.Althoughthismayseemtobeanadvantageatfirst,ithastheeffectofshiftingthecomputationfromtrainingtimetoevaluationtime,whichisactuallyadisadvantageformostapplications.3.寫出K-L變換和PCA的關(guān)系:PCA和K-L變換目的都是從高維的原始數(shù)據(jù)中提取低維度相關(guān)性低的特征數(shù)據(jù)。(白云飛:PCA針對樣本協(xié)方差矩陣,找出特征值較大的,K-L變換針對產(chǎn)生矩陣,可以根據(jù)不同準(zhǔn)則挑選特征值和特征向量,二者本質(zhì)相同)3.3.構(gòu)造兩類分類器,100個(gè)訓(xùn)練數(shù)據(jù),使用K近鄰法,如何選擇K,給出一個(gè)合適的K,說明理由(1*5=5)K值不宜太大,太大則太多干擾樣本點(diǎn)被納入,太小則無法適應(yīng)小規(guī)模錯(cuò)誤情況,對于100個(gè)訓(xùn)練數(shù)據(jù),一般來說選擇5、7、9比較合適。去奇數(shù)是為了避免出現(xiàn)兩種類別數(shù)相同無法判決的情況。4.SOM若沒有鄰域作用,則變成什么算法?寫出該算法的目標(biāo)函數(shù),算法基本步驟4.SOM若沒有鄰域作用,則變成什么算法?寫出該算法的目標(biāo)函數(shù),算法基本步驟(1*15=15)SOM思路類似先作向量量化(聚類),用較少的點(diǎn)(子類)代表原樣本空間,把這些代表點(diǎn)進(jìn)行分類。(Wiki:Aself-organizingmap(SOM)orself-organizingfeaturemap(SOFM)isatypeof\o"Artificialneuralnetwork"artificialneuralnetworkthatistrainedusing\o"Unsupervisedlearning"unsupervisedlearningtoproducealow-dimensional(typicallytwo-dimensional),discretizedrepresentationoftheinputspaceofthetrainingsamples,calledamap.Self-organizingmapsaredifferentfromotherartificialneuralnetworksinthesensethattheyuseaneighborhoodfunctiontopreservethe\o"Topology"topologicalpropertiesoftheinputspace.)如果沒有鄰域作用,就退化一個(gè)典型的C均值法。該算法計(jì)算步驟(課件9.3,P17)55.綜合題。文本自動分類的原理性設(shè)計(jì),按內(nèi)容分類為軍事,體育,娛樂等。例舉本科所學(xué)內(nèi)容和概念能在這個(gè)設(shè)計(jì)上怎么體現(xiàn)。1*30=30答:因?yàn)槭前匆阎獌?nèi)容分類,是一個(gè)監(jiān)督學(xué)習(xí)的模式識別問題??紤]如下監(jiān)督學(xué)習(xí)模式1.隨機(jī)獲取已經(jīng)定義好類別的樣本1.特征提取:每個(gè)樣本進(jìn)行詞頻統(tǒng)計(jì),詞匯來自《辭海》。假設(shè)辭海有80000個(gè)詞,則對每一個(gè)樣本,得到一個(gè)80000維的特征數(shù)據(jù)。顯然,這是一個(gè)高維數(shù)據(jù)。整理為word格式整理為word格式整理為word格式2.特征處理:(1)首先去所有樣本出現(xiàn)頻度都小于一定閾值的詞匯,比方說出現(xiàn)5次。剩下10000維。(2)對這10000維進(jìn)行主成分分析,得到一個(gè)低維度的特征數(shù)據(jù),比如4維。(3)對于這三維,可以進(jìn)行一下分類:k近鄰法、支撐向量機(jī)法(廣義支撐向量機(jī))、Fisher判別法等。其中Fisher判別再次降維后還可以運(yùn)用基于最小錯(cuò)誤率的貝葉斯決策3.對于以上監(jiān)督學(xué)習(xí)模式的樣本可以進(jìn)行同一個(gè)方法的交叉驗(yàn)證,去除一定的干擾。附加題附加題.說明兩類錯(cuò)誤率。在SVM線性不可分的情況下,如何把最小風(fēng)險(xiǎn)的概念引入SVM,對目標(biāo)函數(shù)應(yīng)該怎樣修正。(最多10分,全卷不會超過100分)

答:(1)兩類錯(cuò)誤率為“拒真納偽”。(2)(課本P298)如果線性不可分,就是某些樣本不能滿足條件時(shí),引入松弛因子,使得條件變成,對于足夠小的,只要使最小就能使錯(cuò)分樣本數(shù)最小。對應(yīng)線性可分情況下的使分類間隔最大,在線性不可分的時(shí)候引入約束,最終得到目標(biāo)函數(shù),C為某個(gè)指定常數(shù),起著控制對錯(cuò)分樣本懲罰的程度(風(fēng)險(xiǎn))的作用。關(guān)于風(fēng)險(xiǎn)的討論在課本P299頁卷四、2007~2008秋_模式識別_張學(xué)工_期末A(略)

卷五、2006~2007秋_模式識別_張學(xué)工_期末B1.

寫出英文全稱并解釋相應(yīng)的概念或者方法的原理30%

a)非參數(shù)估計(jì)

b)非監(jiān)督模式識別1.

寫出英文全稱并解釋相應(yīng)的概念或者方法的原理30%

a)非參數(shù)估計(jì)

b)非監(jiān)督模式識別

c)最大似然估計(jì)

d)MDS

e)推廣能力

f)kNN答:其他見前文卷子。MDS:\o"Multi-DimensionalScaling(pagedoesnotexist)"Multi-DimensionalScaling,Multidimensionalscaling(MDS)isasetofrelated\o"Statistical"statisticaltechniquesoftenusedin\o"Informationvisualization"informationvisualizationforexploringsimilaritiesordissimilaritiesindata.MDSisaspecialcaseof\o"Ordination(statistics)"ordination.AnMDSalgorithmstartswitha\o"Matrix(mathematics)"matrixofitem–item\o"Similarity(mathematics)"similarities,thenassignsalocationtoeachiteminN-dimensionalspace,whereNisspecifiedapriori.ForsufficientlysmallN,theresultinglocationsmaybedisplayedinagraphor\o"3Dvisualisation"3Dvisualisation.這里附上紅寶書預(yù)測詞匯:LDF:LinearDiscriminantFunctions線性判別函數(shù)。ISOMAP\o"Isomap"Isomap[6]isacombinationofCurvilinearDistanceAnalysis(CDA)and\o"MultidimensionalScaling"MultidimensionalScaling(MDS).BothCDAandIsomapbeginbyfindingasetofthenearestneighborsofeachpoint.Theyseektopreservethegeodesicdistancesbetweenpointswhileprojectingthedataintofewerdimensions.Geodesicdistanceisdefinedasthelengthoftheshortestpathbetweentwopointsthatstaysonthemanifoldsurface.Thesealgorithmsestimategeodesicdistancesbyfindingtheshortestneighbor-to-neighborpathbetweeneverypairofpoints,whichcanbecomputedefficientlyusing整理為word格式整理為word格式整理為word格式\o"Dijkstrasalgorithm"Dijkstrasalgorithm.LLELocally-LinearEmbedding(LLE)[8]waspresentedatapproximatelythesametimeasIsomap.IthasseveraladvantagesoverIsomap,includingfasteroptimizationwhenimplementedtotakeadvantageofsparsematrixalgorithms,andbetterresultswithmanyproblems.LLEalsobeginsbyfindingasetofthenearestneighborsofeachpoint.Itthencomputesasetofweightsforeachpointthatbestdescribethepointasalinearcombinationofitsneighbors.Finally,itusesaneigenvector-basedoptimizationtechniquetofindthelow-dimensionalembeddingofpoints,suchthateachpointisstilldescribedwiththesamelinearcombinationofitsneighbors.LLEtendstohandlenon-uniformsampledensitiespoorlybecausethereisnofixedunittopreventtheweightsfromdriftingasvariousregionsdifferinsampledensities.LLEhasnointernalmodel.2.

如果用kNN來解決作業(yè)中的男女生訓(xùn)練樣本問題,那么你如何選擇k?簡述理由

2.

如果用kNN來解決作業(yè)中的男女生訓(xùn)練樣本問題,那么你如何選擇k?簡述理由

答:K=5,7,9,理由見卷子3.

12%

無鄰域相互作用的SOM的相當(dāng)于是優(yōu)化什么目標(biāo)函數(shù),寫出目標(biāo)函數(shù)。8%

3.

12%

無鄰域相互作用的SOM的相當(dāng)于是優(yōu)化什么目標(biāo)函數(shù),寫出目標(biāo)函數(shù)。8%

答:Cmeans,見前文4.

1)簡述兩類錯(cuò)誤率的概念,并由此談一談最小風(fēng)險(xiǎn)錯(cuò)誤率Bayes分類器的原理?

8%

2)怎么把最小風(fēng)險(xiǎn)的概念引入線性SVM中(考慮線性不可分的情況),嘗試寫出公式6%

3)怎么把最小風(fēng)險(xiǎn)的概念引入Fisher線性判別中,簡述一下。6%4.

1)簡述兩類錯(cuò)誤率的概念,并由此談一談最小風(fēng)險(xiǎn)錯(cuò)誤率Bayes分類器的原理?

8%

2)怎么把最小風(fēng)險(xiǎn)的概念引入線性SVM中(考慮線性不可分的情況),嘗試寫出公式6%

3)怎么把最小風(fēng)險(xiǎn)的概念引入Fisher線性判別中,簡述一下。6%答:見前文5.

現(xiàn)在先要建立一種針對不同用戶的文本郵件分類系統(tǒng),比如分成私人郵件,公務(wù)郵件等。描述怎么建立,課上講的哪些方法和概念可以用到5.

現(xiàn)在先要建立一種針對不同用戶的文本郵件分類系統(tǒng),比如分成私人郵件,公務(wù)郵件等。描述怎么建立,課上講的哪些方法和概念可以用到?30%

答:見前文

卷六、2005~2006秋_模式識別_張學(xué)工_期末張老師說:言多必失

1.

10%

簡述最小錯(cuò)誤率Bayes分類器的原理和適用范圍

1.

10%

簡述最小錯(cuò)誤率Bayes分類器的原理和適用范圍

答:(NBA@zzxy說):原理:通過觀察x把狀態(tài)的先驗(yàn)概率轉(zhuǎn)化為狀態(tài)的后驗(yàn)概率,比較不同的后驗(yàn)概率并作出決策。適用范圍:各類別總體的概率分布是已知的,要決策分類的類別數(shù)是一定的,離散數(shù)據(jù),相較其它算法可以解決高維問題。整理為word格式整理為word格式整理為word格式2.

10%

2.

10%

什么是分類器的錯(cuò)誤率?如何估計(jì)?

簡述兩類錯(cuò)誤率的概念,以及如何控制兩類錯(cuò)誤率的影響?

答:兩類錯(cuò)誤率是:拒真納偽??刂苾深愬e(cuò)誤率(1)選擇更好的特征。(2)對特征進(jìn)行提取。(3)變更分類器。(4)同一種分類器引入風(fēng)險(xiǎn)函數(shù)進(jìn)行權(quán)衡(Tradeoff)3.

10%

寫出英文全稱

模式識別

似然函數(shù)

非監(jiān)督學(xué)習(xí)

非參數(shù)估計(jì)

SVM

MLP

PCA

MDS(必殺!)

k-NN

SOM

3.

10%

寫出英文全稱

模式識別

似然函數(shù)

非監(jiān)督學(xué)習(xí)

非參數(shù)估計(jì)

SVM

MLP

PCA

MDS(必殺!)

k-NN

SOM

答:PatternRecognition;LikelihoodFunction;UnsupervisedLearning;Non-parametricalEstimation4.

10%

無鄰域相互作用的SOM的準(zhǔn)則函數(shù)?(記不清怎么說的了..)

4.

10%

無鄰域相互作用的SOM的準(zhǔn)則函數(shù)?(記不清怎么說的了..)

C-means,見前文

5.

15%

學(xué)號末兩位和為奇數(shù)用身高數(shù)據(jù),為偶數(shù)用體重?cái)?shù)據(jù)

體重:

55

57

67

68

50

進(jìn)行平均距離分級聚類,給出分類樹,給出每級的距離矩陣。

聚為幾類合適?為什么?5.

15%

學(xué)號末兩位和為奇數(shù)用身高數(shù)據(jù),為偶數(shù)用體重?cái)?shù)據(jù)

體重:

55

57

67

68

50

進(jìn)行平均距離分級聚類,給出分類樹,給出每級的距離矩陣。

聚為幾類合適?為什么?(((67,68)),50),(55,57)),分為兩類合適。每級距離矩陣:(((67[1]68))[方差*]50)[方差**](55[1.414]57)),6.

15%

參數(shù)估計(jì)和非參數(shù)估計(jì)的概念?最大似然估計(jì)和Parzen窗法的原理?

如何估計(jì)錯(cuò)誤率?6.

15%

參數(shù)估計(jì)和非參數(shù)估計(jì)的概念?最大似然估計(jì)和Parzen窗法的原理?

如何估計(jì)錯(cuò)誤率?答:參數(shù)估計(jì):已知概率模型,根據(jù)樣本對參數(shù)進(jìn)行估計(jì)。非參數(shù)估計(jì):未知概率模型,通過樣本對概率模型進(jìn)行直接估計(jì)。最大似然估計(jì):在參數(shù)估計(jì)中選取使樣本出現(xiàn)概率最大(MostLikelihood)的參數(shù)進(jìn)行的估計(jì)。Parzen窗法是一種非參

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論