大數(shù)據(jù)復(fù)習(xí)提綱_第1頁
大數(shù)據(jù)復(fù)習(xí)提綱_第2頁
大數(shù)據(jù)復(fù)習(xí)提綱_第3頁
大數(shù)據(jù)復(fù)習(xí)提綱_第4頁
大數(shù)據(jù)復(fù)習(xí)提綱_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1、 線性判別函數(shù)的正負(fù)和數(shù)值大小的幾何意義正(負(fù))表示樣本點(diǎn)位于判別界面法向量指向的正(負(fù))半空間中;絕對值正比于樣本點(diǎn)到判別界面的距離。2、 感知器算法特點(diǎn)收斂性:經(jīng)過算法的有限次迭代運(yùn)算后,求出了一個(gè)使所有樣本都能正確分類的W,則稱算法是收斂的。感知器算法是在模式類別線性可分條件下才是收斂的。感知器算法只對線性可分樣本有收斂的解,對非線性可分樣本集會(huì)造成訓(xùn)練過程的震蕩,這也是它的缺點(diǎn)。3、 聶曼-皮爾遜判決準(zhǔn)則、最小最大判決準(zhǔn)則等區(qū)別聶曼-皮爾遜判決準(zhǔn)則主要用于某一種判決錯(cuò)誤較另一種判決錯(cuò)誤更為重要情況;最小最大判別準(zhǔn)則主要用于先驗(yàn)概率未知的情況。4、 馬式距離較之于歐式距離的優(yōu)點(diǎn) 優(yōu)點(diǎn)

2、:馬氏距離不受量綱的影響,兩點(diǎn)之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān)。由標(biāo)準(zhǔn)化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)計(jì)算出的二點(diǎn)之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關(guān)性的干擾。 缺點(diǎn):夸大了變化微小的變量的作用。受協(xié)方差矩陣不穩(wěn)定的影響,馬氏距離并不總是能順利計(jì)算出。尺度不變性;考慮了模式的分布 5、 關(guān)聯(lián)規(guī)則的經(jīng)典算法有哪些Apriori 算法;FP-tree;基于劃分的算法Apriori算法、GRI算法、Carma6、 分類的過程或步驟答案一:ppt上的1、模型構(gòu)建(歸納)通過對訓(xùn)練集合的歸納,建立分類模型。2、預(yù)測應(yīng)用(推論)根據(jù)建立的分類模型,對測試集合進(jìn)行測試。答案二

3、:老師版本的訓(xùn)練樣本的收集 訓(xùn)練集的預(yù)處理、模型的選擇、模型的訓(xùn)練(問老師后理解整理)7、 分類評價(jià)標(biāo)準(zhǔn)1)正確率(accuracy) 就是被分對的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好; 2)錯(cuò)誤率(error rate) 錯(cuò)誤率則與正確率相反,描述被分類器錯(cuò)分的比例,error rate = (FP+FN)/(P+N),對某一個(gè)實(shí)例來說,分對與分錯(cuò)是互斥事件,所以 accuracy =1 - error rate; 3)靈敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力; 4)特效度(specifi

4、city) specificity = TN/N, 表示的是所有負(fù)例中被分對的比例,衡量了分類器對負(fù)例的識別能力; 5)精度(precision) 精度是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例, precision=TP/(TP+FP); 6)召回率(recall) 召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例, recall=TP/(TP+FN)=TP/P= sensitive,可以看到召回率與靈敏度是一樣的。 正確率:它表示的預(yù)測結(jié)果正確比例。包括正例和負(fù)例。精確度:它表示的是預(yù)測是正例的結(jié)果中,實(shí)際為正例的比例。召回率:它表示的是實(shí)際為正例樣本中,預(yù)測也為正例的比例。綜合

5、指標(biāo):F1=2*精確率*召回率/精確率+召回率,它實(shí)際上精確度和召回率的一個(gè)綜合指標(biāo)。8、 支持向量機(jī)及常見的核函數(shù)選擇 SVM的目的是尋找泛化能力好的決策函數(shù),即由有限樣本量的訓(xùn)練樣本所得的決策函數(shù),在對獨(dú)立的測試樣本做預(yù)測分類時(shí),任然保證較小的誤差。本質(zhì):求解凸二次優(yōu)化問題,能夠保證所找到的極值解就是全局最優(yōu)解。 支持向量機(jī)的標(biāo)準(zhǔn):使兩類樣本到分類面的最短距離之和盡可能大支持向量機(jī)基本思想:通過訓(xùn)練誤差和類間寬度之間的權(quán)衡,得到一個(gè)最優(yōu)超平面 支持向量機(jī)是利用分類間隔的思想進(jìn)行訓(xùn)練的,它依賴于對數(shù)據(jù)的預(yù)處理,即在更高維的空間表達(dá)原始模式。通過適當(dāng)?shù)牡揭粋€(gè)足夠高維的非線性映射,分別屬于兩類的

6、原始數(shù)據(jù)就能夠被一個(gè)超平面來分隔。支持向量機(jī)的基本思想可以概括為:首先通過非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)來實(shí)現(xiàn)的。支持向量機(jī)求得的分類函數(shù)形式上類似于一個(gè)神經(jīng)網(wǎng)絡(luò),其輸出是若干中間層節(jié)點(diǎn)的線性組合,而每一個(gè)中間層節(jié)點(diǎn)對應(yīng)于輸入樣本與一個(gè)支持向量的內(nèi)積,因此也被叫做支持向量網(wǎng)絡(luò)。 9、 什么是數(shù)據(jù)樣本、什么是機(jī)器學(xué)習(xí)樣本:研究中實(shí)際觀測或調(diào)查的一個(gè)個(gè)體叫樣本機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)通過從數(shù)據(jù)里提取規(guī)則或模式來把數(shù)據(jù)轉(zhuǎn)換成信息。經(jīng)典定義:利用經(jīng)驗(yàn)改善系統(tǒng)自身的性能,隨著該領(lǐng)域的發(fā)展,主要做智能數(shù)據(jù)分析。機(jī)器學(xué)習(xí):利用

7、經(jīng)驗(yàn)改善系統(tǒng)自身的性能隨著該領(lǐng)域的發(fā)展,主要做智能數(shù)據(jù)分析10、 機(jī)器學(xué)習(xí)的一般步驟1、 問題識別、數(shù)據(jù)理解:明確系統(tǒng)與組織之間的關(guān)鍵問題,分析數(shù)據(jù)的價(jià)值和質(zhì)量2、 數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理:將數(shù)據(jù)匯集在一起,形成數(shù)據(jù)挖掘庫或數(shù)據(jù)集市3、 模型選擇:通過分析,選擇幾個(gè)合適的模型4、 訓(xùn)練模型:使用機(jī)器學(xué)習(xí)算法或統(tǒng)計(jì)方法對大量的數(shù)據(jù)進(jìn)行建模分析,從而獲得對系統(tǒng)最適合的模型5、 模型測試:將真實(shí)數(shù)據(jù)帶入模型,進(jìn)行運(yùn)算6、 模型驗(yàn)證:模型評價(jià)包含兩個(gè)方面:功能性評價(jià),和服務(wù)性評價(jià)11. 樣本屬性的主要類型 屬性有四種類型:1、連續(xù)性屬性2、二值離散型3、多值離散型4、混合類型12信息增益信息增益是特征選

8、擇中的一個(gè)重要指標(biāo),來衡量一個(gè)屬性區(qū)分以上數(shù)據(jù)樣本的能力,它定義為一個(gè)特征能夠?yàn)榉诸愊到y(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。信息增益量越大,這個(gè)屬性作為一棵樹的根節(jié)點(diǎn)就能使這棵樹更簡潔. 信息增益就是前后信息的差值,在決策樹分類問題中,即就是決策樹在進(jìn)行屬性選擇劃分前和劃分后的信息差值。信息增益 = 先驗(yàn)熵(信息熵)-條件熵 (表示信息消除隨機(jī)不確定性的程度)13核函數(shù)SVM的判別方程14. Adaboost的判別函數(shù) 16.聚類分析有哪些主要距離度量方法歐氏距離(Euclidean distance):曼哈頓距離(Manhattan distance):閔可夫斯基距離(Minkows

9、ki distance:17、頻繁項(xiàng)集頻繁項(xiàng)集:有一系列集合,這些集合有些相同的元素,集合中同時(shí)出現(xiàn)頻率高的元素形成一個(gè)子集,滿足一定閾值條件,就是頻繁項(xiàng)集。頻繁項(xiàng)集:在所有訓(xùn)練元組中同時(shí)出現(xiàn)的次數(shù)超過人工定義的閾值的項(xiàng)集稱為頻繁項(xiàng)集。18、 支持度項(xiàng)目集 X 的支持度 support (X) 是 D 中事務(wù)包含 X 的百分比,它是概率P (X):support (X) = P (X) = (包含 X 的事務(wù)數(shù) / D 的事務(wù)總數(shù))100%若 support(X) 不小于指定的最小支持度,則稱 X 為頻繁項(xiàng)目集(簡稱頻集),否則稱 X 為非頻繁項(xiàng)目集(簡稱非頻集) 。支持度:項(xiàng)集同時(shí)出現(xiàn)的次數(shù)

10、19.可信度XY 對事務(wù)集 D 的置信度 (confidence) 定義為 D 中包含有 X 的事務(wù)數(shù)與同時(shí)包含 Y 的百分比。這是條件概率 P(Y | X) 即:confidence (XY) = P(Y | X)= (包含 X 和Y的事務(wù)數(shù)/包含X的事務(wù)數(shù))100%20關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是形如“XY”的蘊(yùn)涵式,其中 XI,YI,并且 XY = ,X 稱為規(guī)則的條件,Y 稱為規(guī)則的結(jié)果。在不知道關(guān)聯(lián)函數(shù)或關(guān)聯(lián)函數(shù)不確定的情況下,為了反映所發(fā)現(xiàn)規(guī)則的有用性和確定性,關(guān)聯(lián)分析生成的規(guī)則都要滿足最小支持度閥值和最小置信度閥值。21 什么是貝葉斯網(wǎng)絡(luò)及作用貝葉斯網(wǎng)絡(luò)是描述隨機(jī)變量(事件)之間依賴關(guān)系的

11、一種圖形模式,是一種可用來進(jìn)行推理的模型。貝葉斯網(wǎng)絡(luò)通過有向圖的形式來表示隨機(jī)變量間的因果關(guān)系,并通過條件概率將這種因果關(guān)系量化。一個(gè)貝葉斯網(wǎng)絡(luò)由網(wǎng)絡(luò)結(jié)構(gòu)和條件概率表兩部分組成。 作用:貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓(xùn)練、因果預(yù)測、原因診斷、解釋遠(yuǎn)離22、決策樹算法及步驟1 生成一顆空決策樹和一張訓(xùn)練樣本屬性集;2 若訓(xùn)練樣本集T 中所有的樣本都屬于同一類, 則生成結(jié)點(diǎn)T , 并終止學(xué)習(xí)算法;否則3 根據(jù)某種策略從訓(xùn)練樣本屬性表中選擇屬性 A 作為測試屬性, 生成測試結(jié)點(diǎn)A 4 若A的取值為v1,v2,vm, 則根據(jù)A 的取值的 不同,將T 劃分成 m個(gè)子集T1,T2,Tm;5 從訓(xùn)練樣本屬性表中刪

12、除屬性A;6 轉(zhuǎn)步驟2, 對每個(gè)子集遞歸調(diào)用CLS;23、ID3算法及步驟1 決定分類屬性;2 對目前的數(shù)據(jù)表,建立一個(gè)節(jié)點(diǎn)N3 如果數(shù)據(jù)庫中的數(shù)據(jù)都屬于同一個(gè)類,N就是樹葉,在樹葉上標(biāo)出所屬的類4 如果數(shù)據(jù)表中沒有其他屬性可以考慮,則N也是樹葉,按照少數(shù)服從多數(shù)的原則在樹葉上標(biāo)出所屬類別5 否則,根據(jù)平均信息期望值E或GAIN值選出一個(gè)最佳屬性作為節(jié)點(diǎn)N的測試屬性6 節(jié)點(diǎn)屬性選定后,對于該屬性中的每個(gè)值: 從N生成一個(gè)分支,并將數(shù)據(jù)表中與該分支有關(guān)的數(shù)據(jù)收集形成分支節(jié)點(diǎn)的數(shù)據(jù)表,在表中刪除節(jié)點(diǎn)屬性那一欄如果分支數(shù)據(jù)表非空,則運(yùn)用以上算法從該節(jié)點(diǎn)建立子樹。24、bp網(wǎng)絡(luò)的優(yōu)缺點(diǎn)BP神經(jīng)網(wǎng)絡(luò)具有

13、以下優(yōu)點(diǎn):1)非線性映射能力:BP神經(jīng)網(wǎng)絡(luò)實(shí)質(zhì)上實(shí)現(xiàn)了一個(gè)從輸入到輸出的映射功能,數(shù)學(xué)理論證明三層的神經(jīng)網(wǎng)絡(luò)就能夠以任意精度逼近任何非線性連續(xù)函數(shù)。這使得其特別適合于求解內(nèi)部機(jī)制復(fù)雜的問題,即BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的非線性映射能力。2)自學(xué)習(xí)和自適應(yīng)能力:BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí),能夠通過學(xué)習(xí)自動(dòng)提取輸出、輸出數(shù)據(jù)間的“合理規(guī)則”,并自適應(yīng)的將學(xué)習(xí)內(nèi)容記憶于網(wǎng)絡(luò)的權(quán)值中。即BP神經(jīng)網(wǎng)絡(luò)具有高度自學(xué)習(xí)和自適應(yīng)的能力。3)泛化能力:所謂泛化能力是指在設(shè)計(jì)模式分類器時(shí),即要考慮網(wǎng)絡(luò)在保證對所需分類對象進(jìn)行正確分類,還要關(guān)心網(wǎng)絡(luò)在經(jīng)過訓(xùn)練后,能否對未見過的模式或有噪聲污染的模式,進(jìn)行正確的分類。也即BP神經(jīng)

14、網(wǎng)絡(luò)具有將學(xué)習(xí)成果應(yīng)用于新知識的能力。4)容錯(cuò)能力:BP神經(jīng)網(wǎng)絡(luò)在其局部的或者部分的神經(jīng)元受到破壞后對全局的訓(xùn)練結(jié)果不會(huì)造成很大的影響,也就是說即使系統(tǒng)在受到局部損傷時(shí)還是可以正常工作的。即BP神經(jīng)網(wǎng)絡(luò)具有一定的容錯(cuò)能力。BP神經(jīng)網(wǎng)絡(luò)也暴露出了越來越多的缺點(diǎn)和不足,比如:1)局部極小化問題:從數(shù)學(xué)角度看,傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)為一種局部搜索的優(yōu)化方法,它要解決的是一個(gè)復(fù)雜非線性化問題,網(wǎng)絡(luò)的權(quán)值是通過沿局部改善的方向逐漸進(jìn)行調(diào)整的,這樣會(huì)使算法陷入局部極值,權(quán)值收斂到局部極小點(diǎn),從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗。加上BP神經(jīng)網(wǎng)絡(luò)對初始網(wǎng)絡(luò)權(quán)重非常敏感,以不同的權(quán)重初始化網(wǎng)絡(luò),其往往會(huì)收斂于不同的局部極小,這也

15、是很多學(xué)者每次訓(xùn)練得到不同結(jié)果的根本原因。2)BP神經(jīng)網(wǎng)絡(luò)算法的收斂速度慢:由于BP神經(jīng)網(wǎng)絡(luò)算法本質(zhì)上為梯度下降法,它所要優(yōu)化的目標(biāo)函數(shù)是非常復(fù)雜的,因此,必然會(huì)出現(xiàn)“鋸齒形現(xiàn)象”,這使得BP算法低效;又由于優(yōu)化的目標(biāo)函數(shù)很復(fù)雜,它必然會(huì)在神經(jīng)元輸出接近0或1的情況下,出現(xiàn)一些平坦區(qū),在這些區(qū)域內(nèi),權(quán)值誤差改變很小,使訓(xùn)練過程幾乎停頓;BP神經(jīng)網(wǎng)絡(luò)模型中,為了使網(wǎng)絡(luò)執(zhí)行BP算法,不能使用傳統(tǒng)的一維搜索法求每次迭代的步長,而必須把步長的更新規(guī)則預(yù)先賦予網(wǎng)絡(luò),這種方法也會(huì)引起算法低效。以上種種,導(dǎo)致了BP神經(jīng)網(wǎng)絡(luò)算法收斂速度慢的現(xiàn)象。 3)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇不一:BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的選擇至今尚無一

16、種統(tǒng)一而完整的理論指導(dǎo),一般只能由經(jīng)驗(yàn)選定。網(wǎng)絡(luò)結(jié)構(gòu)選擇過大,訓(xùn)練中效率不高,可能出現(xiàn)過擬合現(xiàn)象,造成網(wǎng)絡(luò)性能低,容錯(cuò)性下降,若選擇過小,則又會(huì)造成網(wǎng)絡(luò)可能不收斂。而網(wǎng)絡(luò)的結(jié)構(gòu)直接影響網(wǎng)絡(luò)的逼近能力及推廣性質(zhì)。因此,應(yīng)用中如何選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)重要的問題。4)應(yīng)用實(shí)例與網(wǎng)絡(luò)規(guī)模的矛盾問題:BP神經(jīng)網(wǎng)絡(luò)難以解決應(yīng)用問題的實(shí)例規(guī)模和網(wǎng)絡(luò)規(guī)模間的矛盾問題,其涉及到網(wǎng)絡(luò)容量的可能性與可行性的關(guān)系問題,即學(xué)習(xí)復(fù)雜性問題。5)BP神經(jīng)網(wǎng)絡(luò)預(yù)測能力和訓(xùn)練能力的矛盾問題:預(yù)測能力也稱泛化能力或者推廣能力,而訓(xùn)練能力也稱逼近能力或者學(xué)習(xí)能力。一般情況下,訓(xùn)練能力差時(shí),預(yù)測能力也差,并且定程度上,隨著訓(xùn)練能

17、力地提高,預(yù)測能力會(huì)得到提高。但這種趨勢不是固定的,其有一個(gè)極限,當(dāng)達(dá)到此極限時(shí),隨著訓(xùn)練能力的提高,預(yù)測能力反而會(huì)下降,也即出現(xiàn)所謂“過擬合”現(xiàn)象。出現(xiàn)該現(xiàn)象的原因是網(wǎng)絡(luò)學(xué)習(xí)了過多的樣本細(xì)節(jié)導(dǎo)致,學(xué)習(xí)出的模型已不能反映樣本內(nèi)含的規(guī)律,所以如何把握好學(xué)習(xí)的度,解決網(wǎng)絡(luò)預(yù)測能力和訓(xùn)練能力間矛盾問題也是BP神經(jīng)網(wǎng)絡(luò)的重要研究內(nèi)容。6)BP神經(jīng)網(wǎng)絡(luò)樣本依賴性問題:網(wǎng)絡(luò)模型的逼近和推廣能力與學(xué)習(xí)樣本的典型性密切相關(guān),而從問題中選取典型樣本實(shí)例組成訓(xùn)練集是一個(gè)很困難的問題。25、什么是過擬合,怎么解決過擬合 過擬合問題是指過于完美擬合了訓(xùn)練集數(shù)據(jù),而對新的樣本失去了一般性,不能有效預(yù)測新樣本,訓(xùn)練誤差特

18、別小,實(shí)際誤差特別大。泛化能力極差。造成過擬合的原因可能是特征量太多或者模型函數(shù)過于復(fù)雜。解決方法:主要通過1、模型簡化2.減少特征數(shù)量.3、衰減,4、交叉驗(yàn)證5、減少特征6、正則化26、衡量模式識別與機(jī)器學(xué)習(xí)算法優(yōu)劣的標(biāo)準(zhǔn)時(shí)間復(fù)雜性、空間復(fù)雜性、可讀性、一致性、泛化能力、健壯性、精度、時(shí)間復(fù)雜度:同樣輸入規(guī)模(問題規(guī)模)花費(fèi)多少時(shí)間空間復(fù)雜度:同樣輸入規(guī)?;ㄙM(fèi)多少空間(主要內(nèi)存)上兩點(diǎn)越小越好穩(wěn)定性:會(huì)因輸入同而導(dǎo)致穩(wěn)定情況發(fā)生算法思路否簡單:越簡單越容易實(shí)現(xiàn)越好空間復(fù)雜度:指執(zhí)行這個(gè)算法所需要的內(nèi)存空間時(shí)間復(fù)雜度:指執(zhí)行算法所需要的計(jì)算工作量可讀性:指一個(gè)算法可供人們閱讀的容易程度。泛化能

19、力:指機(jī)器學(xué)習(xí)算法對新鮮樣本的適應(yīng)能力。健壯性:指一個(gè)算法對不合理數(shù)據(jù)輸入的反應(yīng)能力和處理能力,也成為容錯(cuò)性。 27、什么是有監(jiān)督學(xué)習(xí)、什么無監(jiān)督學(xué)習(xí) 監(jiān)督學(xué)習(xí)方法用來對數(shù)據(jù)實(shí)現(xiàn)分類,分類規(guī)則通過訓(xùn)練獲得。該訓(xùn)練集由帶分類號的數(shù)據(jù)集組成,因此監(jiān)督學(xué)習(xí)方法的訓(xùn)練過程是離線的。非監(jiān)督學(xué)習(xí)方法不需要單獨(dú)的離線訓(xùn)練過程,也沒有帶分類號(標(biāo)號)的訓(xùn)練數(shù)據(jù)集,一般用來對數(shù)據(jù)集進(jìn)行分析,如聚類,確定其分布的主分量等。有監(jiān)督學(xué)習(xí)就是分類,通過已有的訓(xùn)練樣本去訓(xùn)練得到一個(gè)最優(yōu)模型,然后利用這個(gè)最優(yōu)模型將所有輸入映射為相應(yīng)的輸出,對于輸出進(jìn)行判斷實(shí)現(xiàn)分類,這就對未知數(shù)據(jù)進(jìn)行了分類。監(jiān)督學(xué)習(xí)中的典型例子是KNN和S

20、VM。 無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)的不同之處,主要是它沒有訓(xùn)練樣本,而是直接對數(shù)據(jù)進(jìn)行建模。典型案例就是聚類了,其目的是把相似的東西聚在一起,而不關(guān)心這一類是什么。聚類算法通常只需要知道如何計(jì)算相似度就可以了,它可能不具有實(shí)際意義。28、什么是Fisher判別準(zhǔn)則、感知準(zhǔn)則、支持向量機(jī)感知準(zhǔn)則的異同 相同點(diǎn):都是用來進(jìn)行線性判別的,感知器和向量機(jī)要求樣本線性可分,支持向量機(jī)解決非線性問題也是將非線性轉(zhuǎn)化為線性,本質(zhì)上還是線性判別。不同點(diǎn):Fisher是將樣本投射到一維 使類間樣本盡量分開感知器和支持向量機(jī)是將低維轉(zhuǎn)化為高維 再將高維還原到低維,但感知器只找到一個(gè)分類面即可,支持向量機(jī)要求找最優(yōu)分類面

21、。 Fisher準(zhǔn)則:根據(jù)兩類樣本一般類內(nèi)密集, 類間分離的特點(diǎn),尋找線性分類器最佳的法線向量方向,使兩類樣本在該方向上的投影滿足類內(nèi)盡可能密集,類間盡可能分開。該種度量通過類內(nèi)離散矩陣Sw和類間離散矩陣Sb實(shí)現(xiàn)。感知準(zhǔn)則函數(shù):準(zhǔn)則函數(shù)以使錯(cuò)分類樣本到分界面距離之和最小為原則。其優(yōu)點(diǎn)是通過錯(cuò)分類樣本提供的信息對分類器函數(shù)進(jìn)行修正,這種準(zhǔn)則是人工神經(jīng)元網(wǎng)絡(luò)多層感知器的基礎(chǔ)。支持向量機(jī):基本思想是在兩類線性可分條件下,所設(shè)計(jì)的分類器界面使兩類之間的間隔為最大, 它的基本出發(fā)點(diǎn)是使期望泛化風(fēng)險(xiǎn)盡可能小。Fisher線性判別:可以考慮把d維空間的樣本投影到一條直線上,形成一維空間,即把維數(shù)壓縮到一維,

22、這在數(shù)學(xué)上容易辦到,然而,即使樣本在d維空間里形成若干緊湊的互相分得開的集群,如果把它們投影到一條任意的直線上,也可能使得幾類樣本混在一起而變得無法識別。但是在一般情況下,總可以找到某個(gè)方向,使得在這個(gè)方向的直線上,樣本的投影能分開得最好。問題是如何根據(jù)實(shí)際情況找到這條最好的、最易于分類的投影線,這就是Fisher算法所要解決的基本問題。 支持向量機(jī)(SVM ) SVM可以分類線性與非線性數(shù)據(jù)。SVM的原理是將訓(xùn)練數(shù)據(jù)轉(zhuǎn)化進(jìn)入更高的維度,再檢查這個(gè)維度中的最優(yōu)間隔距離,或者不同分類中的邊界。在SVM中,這些邊界被稱為“超平面”,通過定位支持向量來劃分,或者通過最能夠定義類型的個(gè)例及其邊界。邊界

23、是與超平面平行的線條,定義為超平面及其支持向量之間的最短距離。SVM的宏偉概念概括起來就是:如果有足夠多的維度,就一定能發(fā)現(xiàn)將兩個(gè)類別分開的超平面,從而將數(shù)據(jù)庫成員的類別進(jìn)行非線性化。當(dāng)重復(fù)足夠多的次數(shù),就可以生成足夠多的超平面,在N個(gè)空間維度中,分離所有的類別。29、基于最小錯(cuò)誤率的貝葉斯決策及基于最小風(fēng)險(xiǎn)的貝葉斯決策解決實(shí)際問題。假設(shè)在某個(gè)地區(qū)細(xì)胞識別中正常(w1)和異常(w2)兩類先驗(yàn)概率分別為 P(w1)=0.9,P(w2)=0.1,現(xiàn)有一待識別的細(xì)胞,其觀察值為x,從類條件概率密度分布曲線上查得,并且已知,試對該細(xì)胞x用一下兩種方法進(jìn)行分類:1. 基于最小錯(cuò)誤率的貝葉斯決策;2. 基

24、于最小風(fēng)險(xiǎn)的貝葉斯決策;請分析兩種結(jié)果的異同及原因。答:1.2. 30、貝葉斯決策算法、fisher算法、感知器算法、提升算法、k-近鄰算法、Apriori 算法、fp-tree算法、k-均值算法步驟及偽代碼。1. 貝葉斯決策算法 (1)基于最小錯(cuò)誤率的貝葉斯決策 (2)基于最小風(fēng)險(xiǎn)的貝葉斯決策最小風(fēng)險(xiǎn)貝葉斯決策規(guī)則為 如果,則最小風(fēng)險(xiǎn)貝葉斯決策的實(shí)現(xiàn)步驟: 在已知P(j),p(x|j),j=1,2,c及給出待識別的x的情況下,根據(jù)貝葉斯公式計(jì)算出后驗(yàn)概率:j=1,2,c利用計(jì)算出的后驗(yàn)概率及決策表,按(2-15)計(jì)算出采取,i=1,2,a的條件風(fēng)險(xiǎn)R(|x)i=1,2,a對中得到的a個(gè)條件風(fēng)

25、險(xiǎn)值R(|x),i=1,2,a 進(jìn)行比較,找出使條件風(fēng)險(xiǎn)最小的決策,即即 就是最小風(fēng)險(xiǎn)貝葉斯決策。 注意與基于最小錯(cuò)誤率的貝葉斯決策的對比2.fisher算法3. 感知器算法4、提升算法輸入: ( x1, y1), ( x2, y2) ( xm, ym),其中, xiX, yiY = + 1, - 1。初始化: D1 (i) = 1 /m; * 表示第一次迭代中,每個(gè)訓(xùn)練例M的權(quán)重都為1 /mfor t= 1 to T; * T為迭代次數(shù),通常為經(jīng)驗(yàn)值在Dt下訓(xùn)練;得到弱的假設(shè)ht: X + 1, - 1; *即得到第t次的預(yù)測函數(shù)計(jì)算ht的錯(cuò)誤率:t=Dt(i) ( ht(xi)Yi );令

26、at= 1 /2 ln( ( 1-t) /t); * ht的權(quán)重更改權(quán)值: * Zt為歸一化因子循環(huán)結(jié)束,輸出H(x):5. k-近鄰算法n 設(shè)這N個(gè)樣本中,來自1類的樣本有N1個(gè),來自2類的樣本有N2個(gè),來自c類的樣本有Nc個(gè),若k1,k2,kc分別是k個(gè)近鄰中屬于1,2,c類的樣本數(shù),定義判別函數(shù)為gi(x) = ki,i =1,2,c (4-71)使用 k-近鄰算法將每組數(shù)據(jù)劃分到某個(gè)類中,其 偽代碼如下:對未知類別屬性的數(shù)據(jù)集中的每個(gè)點(diǎn)依次執(zhí)行以下操作:1.計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離;2.按照距離遞增交序排序;3.選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn);4.確定前k個(gè)點(diǎn)所在類別的

27、出現(xiàn)頻率;5.返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測分類。注意:距離函數(shù)決定了哪些樣本是待分類本的K個(gè)最近鄰居,它的選取取決于實(shí)際的數(shù)據(jù)和決策問題。如果樣本是空間中點(diǎn),最常用的是歐幾里德距離。其它常用的距離函是由絕對距離、平方差和標(biāo)準(zhǔn)差。 歐幾里德距離: 點(diǎn)x= (x1,.,xn) 和y= (y1,.,yn) 之間的距離為 向量的自然長度,即該點(diǎn)到原點(diǎn)的距離為 它是一個(gè)純數(shù)值。在歐幾里得度量下,兩點(diǎn)之間直線最短。 3. 決定K的取值 鄰居的個(gè)數(shù)對分類的結(jié)果有一定的影響,一般先確定一個(gè)初始值,再進(jìn)行調(diào)整,直到找到合適的值為止。 如何選擇一個(gè)最佳的K值取決于數(shù)據(jù)。一般情況下,在分類時(shí)較大的

28、K值能夠減小噪聲的影響。但會(huì)使類別之間的界限變得模糊。一個(gè)較好的K值能通過各種啟發(fā)式技術(shù)來獲取,比如,交叉驗(yàn)證。 噪聲和非相關(guān)性特征向量的存在會(huì)使K近鄰算法的準(zhǔn)確性減小。對于選擇特征向量進(jìn)行分類已經(jīng)作了很多研究。一個(gè)普遍的做法是利用進(jìn)化算法優(yōu)化功能擴(kuò)展,還有一種較普遍的方法是利用訓(xùn)練樣本的互信息進(jìn)行選擇特征。6.Apriori 算法描述 Apriori 算法描述1. 使用逐層迭代找出頻繁項(xiàng)集輸入:事務(wù)數(shù)據(jù)庫 D;最小支持度閾值;輸出:D 中的頻繁項(xiàng)集;2. 求候選項(xiàng)集的集合 Ck 子過程輸入:頻繁(k-1)-項(xiàng)集 Lk-1;輸出:候選項(xiàng)集的集合 Ck;3. 由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則輸入:所有頻繁項(xiàng)集集合 L=k1 Lk; L 中每個(gè)頻繁項(xiàng)集的支持頻度; 最小可信度 min_conf ;輸出:關(guān)聯(lián)規(guī)則;處理流程: 對于所有頻繁 k-項(xiàng)集集合 Lk ( k1) 對于 Lk中的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論