版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、1、 線性判別函數(shù)的正負和數(shù)值大小的幾何意義正(負)表示樣本點位于判別界面法向量指向的正(負)半空間中;絕對值正比于樣本點到判別界面的距離。2、 感知器算法特點收斂性:經(jīng)過算法的有限次迭代運算后,求出了一個使所有樣本都能正確分類的W,則稱算法是收斂的。感知器算法是在模式類別線性可分條件下才是收斂的。感知器算法只對線性可分樣本有收斂的解,對非線性可分樣本集會造成訓(xùn)練過程的震蕩,這也是它的缺點。3、 聶曼-皮爾遜判決準(zhǔn)則、最小最大判決準(zhǔn)則等區(qū)別聶曼-皮爾遜判決準(zhǔn)則主要用于某一種判決錯誤較另一種判決錯誤更為重要情況;最小最大判別準(zhǔn)則主要用于先驗概率未知的情況。4、 馬式距離較之于歐式距離的優(yōu)點 優(yōu)點
2、:馬氏距離不受量綱的影響,兩點之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān)。由標(biāo)準(zhǔn)化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)計算出的二點之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關(guān)性的干擾。 缺點:夸大了變化微小的變量的作用。受協(xié)方差矩陣不穩(wěn)定的影響,馬氏距離并不總是能順利計算出。尺度不變性;考慮了模式的分布 5、 關(guān)聯(lián)規(guī)則的經(jīng)典算法有哪些Apriori 算法;FP-tree;基于劃分的算法Apriori算法、GRI算法、Carma6、 分類的過程或步驟答案一:ppt上的1、模型構(gòu)建(歸納)通過對訓(xùn)練集合的歸納,建立分類模型。2、預(yù)測應(yīng)用(推論)根據(jù)建立的分類模型,對測試集合進行測試。答案二
3、:老師版本的訓(xùn)練樣本的收集 訓(xùn)練集的預(yù)處理、模型的選擇、模型的訓(xùn)練(問老師后理解整理)7、 分類評價標(biāo)準(zhǔn)1)正確率(accuracy) 就是被分對的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好; 2)錯誤率(error rate) 錯誤率則與正確率相反,描述被分類器錯分的比例,error rate = (FP+FN)/(P+N),對某一個實例來說,分對與分錯是互斥事件,所以 accuracy =1 - error rate; 3)靈敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力; 4)特效度(s
4、pecificity) specificity = TN/N, 表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力; 5)精度(precision) 精度是精確性的度量,表示被分為正例的示例中實際為正例的比例, precision=TP/(TP+FP); 6)召回率(recall) 召回率是覆蓋面的度量,度量有多個正例被分為正例, recall=TP/(TP+FN)=TP/P= sensitive,可以看到召回率與靈敏度是一樣的。 正確率:它表示的預(yù)測結(jié)果正確比例。包括正例和負例。精確度:它表示的是預(yù)測是正例的結(jié)果中,實際為正例的比例。召回率:它表示的是實際為正例樣本中,預(yù)測也為正例
5、的比例。綜合指標(biāo):F1=2*精確率*召回率/精確率+召回率,它實際上精確度和召回率的一個綜合指標(biāo)。8、 支持向量機及常見的核函數(shù)選擇 SVM的目的是尋找泛化能力好的決策函數(shù),即由有限樣本量的訓(xùn)練樣本所得的決策函數(shù),在對獨立的測試樣本做預(yù)測分類時,任然保證較小的誤差。本質(zhì):求解凸二次優(yōu)化問題,能夠保證所找到的極值解就是全局最優(yōu)解。 支持向量機的標(biāo)準(zhǔn):使兩類樣本到分類面的最短距離之和盡可能大支持向量機基本思想:通過訓(xùn)練誤差和類間寬度之間的權(quán)衡,得到一個最優(yōu)超平面 支持向量機是利用分類間隔的思想進行訓(xùn)練的,它依賴于對數(shù)據(jù)的預(yù)處理,即在更高維的空間表達原始模式。通過適當(dāng)?shù)牡揭粋€足夠高維的非線性映射,分
6、別屬于兩類的原始數(shù)據(jù)就能夠被一個超平面來分隔。支持向量機的基本思想可以概括為:首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)來實現(xiàn)的。支持向量機求得的分類函數(shù)形式上類似于一個神經(jīng)網(wǎng)絡(luò),其輸出是若干中間層節(jié)點的線性組合,而每一個中間層節(jié)點對應(yīng)于輸入樣本與一個支持向量的內(nèi)積,因此也被叫做支持向量網(wǎng)絡(luò)。 9、 什么是數(shù)據(jù)樣本、什么是機器學(xué)習(xí)樣本:研究中實際觀測或調(diào)查的一個個體叫樣本機器學(xué)習(xí):機器學(xué)習(xí)通過從數(shù)據(jù)里提取規(guī)則或模式來把數(shù)據(jù)轉(zhuǎn)換成信息。經(jīng)典定義:利用經(jīng)驗改善系統(tǒng)自身的性能,隨著該領(lǐng)域的發(fā)展,主要做智能數(shù)據(jù)分析。機
7、器學(xué)習(xí):利用經(jīng)驗改善系統(tǒng)自身的性能隨著該領(lǐng)域的發(fā)展,主要做智能數(shù)據(jù)分析10、 機器學(xué)習(xí)的一般步驟1、 問題識別、數(shù)據(jù)理解:明確系統(tǒng)與組織之間的關(guān)鍵問題,分析數(shù)據(jù)的價值和質(zhì)量2、 數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理:將數(shù)據(jù)匯集在一起,形成數(shù)據(jù)挖掘庫或數(shù)據(jù)集市3、 模型選擇:通過分析,選擇幾個合適的模型4、 訓(xùn)練模型:使用機器學(xué)習(xí)算法或統(tǒng)計方法對大量的數(shù)據(jù)進行建模分析,從而獲得對系統(tǒng)最適合的模型5、 模型測試:將真實數(shù)據(jù)帶入模型,進行運算6、 模型驗證:模型評價包含兩個方面:功能性評價,和服務(wù)性評價11. 樣本屬性的主要類型 屬性有四種類型:1、連續(xù)性屬性2、二值離散型3、多值離散型4、混合類型12信息增益信息
8、增益是特征選擇中的一個重要指標(biāo),來衡量一個屬性區(qū)分以上數(shù)據(jù)樣本的能力,它定義為一個特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。信息增益量越大,這個屬性作為一棵樹的根節(jié)點就能使這棵樹更簡潔. 信息增益就是前后信息的差值,在決策樹分類問題中,即就是決策樹在進行屬性選擇劃分前和劃分后的信息差值。信息增益 = 先驗熵(信息熵)-條件熵 (表示信息消除隨機不確定性的程度)13核函數(shù)SVM的判別方程14. Adaboost的判別函數(shù) 16.聚類分析有哪些主要距離度量方法歐氏距離(Euclidean distance):曼哈頓距離(Manhattan distance):閔可夫斯基距離(M
9、inkowski distance:17、頻繁項集頻繁項集:有一系列集合,這些集合有些相同的元素,集合中同時出現(xiàn)頻率高的元素形成一個子集,滿足一定閾值條件,就是頻繁項集。頻繁項集:在所有訓(xùn)練元組中同時出現(xiàn)的次數(shù)超過人工定義的閾值的項集稱為頻繁項集。18、 支持度項目集 X 的支持度 support (X) 是 D 中事務(wù)包含 X 的百分比,它是概率P (X):support (X) = P (X) = (包含 X 的事務(wù)數(shù) / D 的事務(wù)總數(shù))×100%若 support(X) 不小于指定的最小支持度,則稱 X 為頻繁項目集(簡稱頻集),否則稱 X 為非頻繁項目集(簡稱非頻集) 。支
10、持度:項集同時出現(xiàn)的次數(shù)19.可信度XÞY 對事務(wù)集 D 的置信度 (confidence) 定義為 D 中包含有 X 的事務(wù)數(shù)與同時包含 Y 的百分比。這是條件概率 P(Y | X) 即:confidence (XÞY) = P(Y | X)= (包含 X 和Y的事務(wù)數(shù)/包含X的事務(wù)數(shù))×100%20關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是形如“XÞY”的蘊涵式,其中 XI,YI,并且 XY = Æ,X 稱為規(guī)則的條件,Y 稱為規(guī)則的結(jié)果。在不知道關(guān)聯(lián)函數(shù)或關(guān)聯(lián)函數(shù)不確定的情況下,為了反映所發(fā)現(xiàn)規(guī)則的有用性和確定性,關(guān)聯(lián)分析生成的規(guī)則都要滿足最小支持度閥值和最小置
11、信度閥值。21 什么是貝葉斯網(wǎng)絡(luò)及作用貝葉斯網(wǎng)絡(luò)是描述隨機變量(事件)之間依賴關(guān)系的一種圖形模式,是一種可用來進行推理的模型。貝葉斯網(wǎng)絡(luò)通過有向圖的形式來表示隨機變量間的因果關(guān)系,并通過條件概率將這種因果關(guān)系量化。一個貝葉斯網(wǎng)絡(luò)由網(wǎng)絡(luò)結(jié)構(gòu)和條件概率表兩部分組成。 作用:貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓(xùn)練、因果預(yù)測、原因診斷、解釋遠離22、決策樹算法及步驟1 生成一顆空決策樹和一張訓(xùn)練樣本屬性集;2 若訓(xùn)練樣本集T 中所有的樣本都屬于同一類, 則生成結(jié)點T , 并終止學(xué)習(xí)算法;否則3 根據(jù)某種策略從訓(xùn)練樣本屬性表中選擇屬性 A 作為測試屬性, 生成測試結(jié)點A 4 若A的取值為v1,v2,vm, 則根據(jù)
12、A 的取值的 不同,將T 劃分成 m個子集T1,T2,Tm;5 從訓(xùn)練樣本屬性表中刪除屬性A;6 轉(zhuǎn)步驟2, 對每個子集遞歸調(diào)用CLS;23、ID3算法及步驟1 決定分類屬性;2 對目前的數(shù)據(jù)表,建立一個節(jié)點N3 如果數(shù)據(jù)庫中的數(shù)據(jù)都屬于同一個類,N就是樹葉,在樹葉上標(biāo)出所屬的類4 如果數(shù)據(jù)表中沒有其他屬性可以考慮,則N也是樹葉,按照少數(shù)服從多數(shù)的原則在樹葉上標(biāo)出所屬類別5 否則,根據(jù)平均信息期望值E或GAIN值選出一個最佳屬性作為節(jié)點N的測試屬性6 節(jié)點屬性選定后,對于該屬性中的每個值: 從N生成一個分支,并將數(shù)據(jù)表中與該分支有關(guān)的數(shù)據(jù)收集形成分支節(jié)點的數(shù)據(jù)表,在表中刪除節(jié)點屬性那一欄如果分
13、支數(shù)據(jù)表非空,則運用以上算法從該節(jié)點建立子樹。24、bp網(wǎng)絡(luò)的優(yōu)缺點BP神經(jīng)網(wǎng)絡(luò)具有以下優(yōu)點: 1) 非線性映射能力:BP神經(jīng)網(wǎng)絡(luò)實質(zhì)上實現(xiàn)了一個從輸入到輸出的映射功能,數(shù)學(xué)理論證明三層的神經(jīng)網(wǎng)絡(luò)就能夠以任意精度逼近任何非線性連續(xù)函數(shù)。這使得其特別適合于求解內(nèi)部機制復(fù)雜的問題,即BP神經(jīng)網(wǎng)絡(luò)具有較強的非線性映射能力。 2) 自學(xué)習(xí)和自適應(yīng)能力:BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時,能夠通過學(xué)習(xí)自動提取輸出、輸出數(shù)據(jù)間的“合理規(guī)則”,并自適應(yīng)的將學(xué)習(xí)內(nèi)容記憶于網(wǎng)絡(luò)的權(quán)值中。即BP神經(jīng)網(wǎng)絡(luò)具有高度自學(xué)習(xí)和自適應(yīng)的能力。 3) 泛化能力:所謂泛化能力是指在
14、設(shè)計模式分類器時,即要考慮網(wǎng)絡(luò)在保證對所需分類對象進行正確分類,還要關(guān)心網(wǎng)絡(luò)在經(jīng)過訓(xùn)練后,能否對未見過的模式或有噪聲污染的模式,進行正確的分類。也即BP神經(jīng)網(wǎng)絡(luò)具有將學(xué)習(xí)成果應(yīng)用于新知識的能力。 4) 容錯能力:BP神經(jīng)網(wǎng)絡(luò)在其局部的或者部分的神經(jīng)元受到破壞后對全局的訓(xùn)練結(jié)果不會造成很大的影響,也就是說即使系統(tǒng)在受到局部損傷時還是可以正常工作的。即BP神經(jīng)網(wǎng)絡(luò)具有一定的容錯能力。 BP神經(jīng)網(wǎng)絡(luò)也暴露出了越來越多的缺點和不足,比如: 1) 局部極小化問題:從數(shù)學(xué)角度看,傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)為一種局部搜索的優(yōu)化方法,它要解決的是一個復(fù)雜非線性化問題,
15、網(wǎng)絡(luò)的權(quán)值是通過沿局部改善的方向逐漸進行調(diào)整的,這樣會使算法陷入局部極值,權(quán)值收斂到局部極小點,從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗。加上BP神經(jīng)網(wǎng)絡(luò)對初始網(wǎng)絡(luò)權(quán)重非常敏感,以不同的權(quán)重初始化網(wǎng)絡(luò),其往往會收斂于不同的局部極小,這也是很多學(xué)者每次訓(xùn)練得到不同結(jié)果的根本原因。 2) BP 神經(jīng)網(wǎng)絡(luò)算法的收斂速度慢:由于BP神經(jīng)網(wǎng)絡(luò)算法本質(zhì)上為梯度下降法,它所要優(yōu)化的目標(biāo)函數(shù)是非常復(fù)雜的,因此,必然會出現(xiàn)“鋸齒形現(xiàn)象”,這使得BP算法低效;又由于優(yōu)化的目標(biāo)函數(shù)很復(fù)雜,它必然會在神經(jīng)元輸出接近0或1的情況下,出現(xiàn)一些平坦區(qū),在這些區(qū)域內(nèi),權(quán)值誤差改變很小,使訓(xùn)練過程幾乎停頓;BP神經(jīng)網(wǎng)
16、絡(luò)模型中,為了使網(wǎng)絡(luò)執(zhí)行BP算法,不能使用傳統(tǒng)的一維搜索法求每次迭代的步長,而必須把步長的更新規(guī)則預(yù)先賦予網(wǎng)絡(luò),這種方法也會引起算法低效。以上種種,導(dǎo)致了BP神經(jīng)網(wǎng)絡(luò)算法收斂速度慢的現(xiàn)象。 3) BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇不一:BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的選擇至今尚無一種統(tǒng)一而完整的理論指導(dǎo),一般只能由經(jīng)驗選定。網(wǎng)絡(luò)結(jié)構(gòu)選擇過大,訓(xùn)練中效率不高,可能出現(xiàn)過擬合現(xiàn)象,造成網(wǎng)絡(luò)性能低,容錯性下降,若選擇過小,則又會造成網(wǎng)絡(luò)可能不收斂。而網(wǎng)絡(luò)的結(jié)構(gòu)直接影響網(wǎng)絡(luò)的逼近能力及推廣性質(zhì)。因此,應(yīng)用中如何選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)是一個重要的問題。 4) 應(yīng)用實例與網(wǎng)絡(luò)規(guī)模的矛
17、盾問題:BP神經(jīng)網(wǎng)絡(luò)難以解決應(yīng)用問題的實例規(guī)模和網(wǎng)絡(luò)規(guī)模間的矛盾問題,其涉及到網(wǎng)絡(luò)容量的可能性與可行性的關(guān)系問題,即學(xué)習(xí)復(fù)雜性問題。 5) BP神經(jīng)網(wǎng)絡(luò)預(yù)測能力和訓(xùn)練能力的矛盾問題:預(yù)測能力也稱泛化能力或者推廣能力,而訓(xùn)練能力也稱逼近能力或者學(xué)習(xí)能力。一般情況下,訓(xùn)練能力差時,預(yù)測能力也差,并且定程度上,隨著訓(xùn)練能力地提高,預(yù)測能力會得到提高。但這種趨勢不是固定的,其有一個極限,當(dāng)達到此極限時,隨著訓(xùn)練能力的提高,預(yù)測能力反而會下降,也即出現(xiàn)所謂“過擬合”現(xiàn)象。出現(xiàn)該現(xiàn)象的原因是網(wǎng)絡(luò)學(xué)習(xí)了過多的樣本細節(jié)導(dǎo)致,學(xué)習(xí)出的模型已不能反映樣本內(nèi)含的規(guī)律,所以如何把握好學(xué)習(xí)的度,解決
18、網(wǎng)絡(luò)預(yù)測能力和訓(xùn)練能力間矛盾問題也是BP神經(jīng)網(wǎng)絡(luò)的重要研究內(nèi)容。 6)BP神經(jīng)網(wǎng)絡(luò)樣本依賴性問題:網(wǎng)絡(luò)模型的逼近和推廣能力與學(xué)習(xí)樣本的典型性密切相關(guān),而從問題中選取典型樣本實例組成訓(xùn)練集是一個很困難的問題。25、什么是過擬合,怎么解決過擬合 過擬合問題是指過于完美擬合了訓(xùn)練集數(shù)據(jù),而對新的樣本失去了一般性,不能有效預(yù)測新樣本,訓(xùn)練誤差特別小,實際誤差特別大。泛化能力極差。造成過擬合的原因可能是特征量太多或者模型函數(shù)過于復(fù)雜。解決方法:主要通過1、模型簡化2.減少特征數(shù)量.3、衰減,4、交叉驗證5、減少特征6、正則化26、衡量模式識別與機器學(xué)習(xí)算法優(yōu)劣的標(biāo)準(zhǔn)時間復(fù)雜性、空間復(fù)雜性、可讀
19、性、一致性、泛化能力、健壯性、精度、時間復(fù)雜度:同樣輸入規(guī)模(問題規(guī)模)花費多少時間空間復(fù)雜度:同樣輸入規(guī)模花費多少空間(主要內(nèi)存)上兩點越小越好穩(wěn)定性:會因輸入同而導(dǎo)致穩(wěn)定情況發(fā)生算法思路否簡單:越簡單越容易實現(xiàn)越好空間復(fù)雜度:指執(zhí)行這個算法所需要的內(nèi)存空間時間復(fù)雜度:指執(zhí)行算法所需要的計算工作量可讀性:指一個算法可供人們閱讀的容易程度。泛化能力:指機器學(xué)習(xí)算法對新鮮樣本的適應(yīng)能力。健壯性:指一個算法對不合理數(shù)據(jù)輸入的反應(yīng)能力和處理能力,也成為容錯性。 27、什么是有監(jiān)督學(xué)習(xí)、什么無監(jiān)督學(xué)習(xí) 監(jiān)督學(xué)習(xí)方法用來對數(shù)據(jù)實現(xiàn)分類,分類規(guī)則通過訓(xùn)練獲得。該訓(xùn)練集由帶分類號的數(shù)據(jù)集組成,因此監(jiān)督學(xué)習(xí)方
20、法的訓(xùn)練過程是離線的。非監(jiān)督學(xué)習(xí)方法不需要單獨的離線訓(xùn)練過程,也沒有帶分類號(標(biāo)號)的訓(xùn)練數(shù)據(jù)集,一般用來對數(shù)據(jù)集進行分析,如聚類,確定其分布的主分量等。有監(jiān)督學(xué)習(xí)就是分類,通過已有的訓(xùn)練樣本去訓(xùn)練得到一個最優(yōu)模型,然后利用這個最優(yōu)模型將所有輸入映射為相應(yīng)的輸出,對于輸出進行判斷實現(xiàn)分類,這就對未知數(shù)據(jù)進行了分類。監(jiān)督學(xué)習(xí)中的典型例子是KNN和SVM。 無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)的不同之處,主要是它沒有訓(xùn)練樣本,而是直接對數(shù)據(jù)進行建模。典型案例就是聚類了,其目的是把相似的東西聚在一起,而不關(guān)心這一類是什么。聚類算法通常只需要知道如何計算相似度就可以了,它可能不具有實際意義。28、什么是Fisher判
21、別準(zhǔn)則、感知準(zhǔn)則、支持向量機感知準(zhǔn)則的異同 相同點:都是用來進行線性判別的,感知器和向量機要求樣本線性可分,支持向量機解決非線性問題也是將非線性轉(zhuǎn)化為線性,本質(zhì)上還是線性判別。不同點:Fisher是將樣本投射到一維 使類間樣本盡量分開感知器和支持向量機是將低維轉(zhuǎn)化為高維 再將高維還原到低維,但感知器只找到一個分類面即可,支持向量機要求找最優(yōu)分類面。 Fisher準(zhǔn)則:根據(jù)兩類樣本一般類內(nèi)密集, 類間分離的特點,尋找線性分類器最佳的法線向量方向,使兩類樣本在該方向上的投影滿足類內(nèi)盡可能密集,類間盡可能分開。該種度量通過類內(nèi)離散矩陣Sw和類間離散矩陣Sb實現(xiàn)。感知準(zhǔn)則函數(shù):準(zhǔn)則函數(shù)以使錯分類樣本到
22、分界面距離之和最小為原則。其優(yōu)點是通過錯分類樣本提供的信息對分類器函數(shù)進行修正,這種準(zhǔn)則是人工神經(jīng)元網(wǎng)絡(luò)多層感知器的基礎(chǔ)。支持向量機:基本思想是在兩類線性可分條件下,所設(shè)計的分類器界面使兩類之間的間隔為最大, 它的基本出發(fā)點是使期望泛化風(fēng)險盡可能小。Fisher線性判別:可以考慮把d維空間的樣本投影到一條直線上,形成一維空間,即把維數(shù)壓縮到一維,這在數(shù)學(xué)上容易辦到,然而,即使樣本在d維空間里形成若干緊湊的互相分得開的集群,如果把它們投影到一條任意的直線上,也可能使得幾類樣本混在一起而變得無法識別。但是在一般情況下,總可以找到某個方向,使得在這個方向的直線上,樣本的投影能分開得最好。問題是如何根
23、據(jù)實際情況找到這條最好的、最易于分類的投影線,這就是Fisher算法所要解決的基本問題。 支持向量機(SVM ) SVM可以分類線性與非線性數(shù)據(jù)。SVM的原理是將訓(xùn)練數(shù)據(jù)轉(zhuǎn)化進入更高的維度,再檢查這個維度中的最優(yōu)間隔距離,或者不同分類中的邊界。在SVM中,這些邊界被稱為“超平面”,通過定位支持向量來劃分,或者通過最能夠定義類型的個例及其邊界。邊界是與超平面平行的線條,定義為超平面及其支持向量之間的最短距離。SVM的宏偉概念概括起來就是:如果有足夠多的維度,就一定能發(fā)現(xiàn)將兩個類別分開的超平面,從而將數(shù)據(jù)庫成員的類別進行非線性化。當(dāng)重復(fù)足夠多的次數(shù),就可以生成足夠多的超平面,在N個空間維度中,分離
24、所有的類別。29、基于最小錯誤率的貝葉斯決策及基于最小風(fēng)險的貝葉斯決策解決實際問題。假設(shè)在某個地區(qū)細胞識別中正常(w1)和異常(w2)兩類先驗概率分別為 P(w1)=0.9,P(w2)=0.1,現(xiàn)有一待識別的細胞,其觀察值為x,從類條件概率密度分布曲線上查得,并且已知,試對該細胞x用一下兩種方法進行分類:1. 基于最小錯誤率的貝葉斯決策;2. 基于最小風(fēng)險的貝葉斯決策;請分析兩種結(jié)果的異同及原因。答:1.2. 30、貝葉斯決策算法、fisher算法、感知器算法、提升算法、k-近鄰算法、Apriori 算法、fp-tree算法、k-均值算法步驟及偽代碼。1. 貝葉斯決策算法 (1)基于最小錯誤率
25、的貝葉斯決策 (2)基于最小風(fēng)險的貝葉斯決策最小風(fēng)險貝葉斯決策規(guī)則為 如果,則最小風(fēng)險貝葉斯決策的實現(xiàn)步驟: 在已知P(j),p(x|j),j=1,2,c及給出待識別的x的情況下,根據(jù)貝葉斯公式計算出后驗概率:j=1,2,c利用計算出的后驗概率及決策表,按(2-15)計算出采取,i=1,2,a的條件風(fēng)險R(|x)i=1,2,a對中得到的a個條件風(fēng)險值R(|x),i=1,2,a 進行比較,找出使條件風(fēng)險最小的決策,即即 就是最小風(fēng)險貝葉斯決策。 注意與基于最小錯誤率的貝葉斯決策的對比2.fisher算法3. 感知器算法4、提升算法輸入: ( x1, y1 ), ( x2, y
26、;2 ) ( xm , ym ), 其中, xiX, yiY = + 1, - 1。初始化: D1 (i) = 1 /m; * 表示第一次迭代中, 每個訓(xùn)練例M的權(quán)重都為1 /mfor t= 1 to T; * T 為迭代次數(shù), 通常為經(jīng)驗值在Dt下訓(xùn)練;得到弱的假設(shè)ht: X + 1, - 1; * 即得到第t次的預(yù)測函數(shù)計算ht的錯誤率: t = Dt (i) ( ht(xi)Yi );令at
27、0;= 1 /2 ln( ( 1- t ) / t ); * ht 的權(quán)重更改權(quán)值: * Zt 為歸一化因子循環(huán)結(jié)束, 輸出H(x):5. k-近鄰算法n 設(shè)這N個樣本中,來自1類的樣本有N1個,來自2類的樣本有N2個,來自c類的樣本有Nc個,若k1,k2,kc分別是k個近鄰中屬于1,2,c類的樣本數(shù),定義判別函數(shù)為gi(x) = ki,i =1,2,c (4-71)使用 k-近鄰算法將每組數(shù)據(jù)劃分到某個類中,其 偽代碼如下:對未知類別屬性的
28、數(shù)據(jù)集中的每個點依次執(zhí)行以下操作:1.計算已知類別數(shù)據(jù)集中的點與當(dāng)前點之間的距離;2.按照距離遞增交序排序;3.選取與當(dāng)前點距離最小的k個點;4.確定前k個點所在類別的出現(xiàn)頻率;5.返回前k個點出現(xiàn)頻率最高的類別作為當(dāng)前點的預(yù)測分類。注意:距離函數(shù)決定了哪些樣本是待分類本的K個最近鄰居,它的選取取決于實際的數(shù)據(jù)和決策問題。如果樣本是空間中點,最常用的是歐幾里德距離。其它常用的距離函是由絕對距離、平方差和標(biāo)準(zhǔn)差。 歐幾里德距離: 點 x = (x1,.,xn) 和 y = (y1,.,yn) 之間的距離為 向量 的自然長度,即該點到原
29、點的距離為 它是一個純數(shù)值。在歐幾里得度量下,兩點之間直線最短。 3. 決定K的取值 鄰居的個數(shù)對分類的結(jié)果有一定的影響,一般先確定一個初始值,再進行調(diào)整,直到找到合適的值為止。 如何選擇一個最佳的K值取決于數(shù)據(jù)。一般情況下,在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值能通過各種啟發(fā)式技術(shù)來獲取,比如,交叉驗證。 噪聲和非相關(guān)性特征向量的存在會使K近鄰算法的準(zhǔn)確性減小。對于選擇特征向量進行分類已經(jīng)作了很多研究。一個普遍的做法是利用進化算法優(yōu)化功能擴展,還有一種較普遍的方法是利用訓(xùn)練樣本的互信息進行選擇特征。6.Apriori 算法
30、描述 Apriori 算法描述1. 使用逐層迭代找出頻繁項集輸入:事務(wù)數(shù)據(jù)庫 D;最小支持度閾值;輸出:D 中的頻繁項集;2. 求候選項集的集合 Ck 子過程輸入:頻繁(k-1)-項集 Lk-1;輸出:候選項集的集合 Ck;3. 由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則輸入:所有頻繁項集集合 L=k>1 Lk; L 中每個頻繁項集的支持頻度; 最小可信度 min_conf ;輸出:關(guān)聯(lián)規(guī)則;處理流程: 對于所有頻繁 k-項集集合 Lk ( k>1) 對于 Lk中的每個頻繁 k-項集 l 對于 l 的每個非空子集 s : 如果support_count(l)/support_count(s)min_conf;則輸出關(guān)聯(lián)規(guī)則 “s =>(l-s)”。7.FP-treeStep 1: 遍歷一次數(shù)據(jù)庫,導(dǎo)出頻繁項(1項集)的集合和支持度計數(shù)(頻率),并且以降序排序。Step 2: 構(gòu)造FP-treeStep 3: 根據(jù)第二步得到的FP-Tree, 為1項頻繁項集中的每一項構(gòu)造條件FP-Tree.Step 4: 得到頻繁模式(頻繁項集).K均值聚類算法k均值算法先隨機選取K個對象作為初始的聚類中心。然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《一念永恒》語錄
- 玉溪師范學(xué)院《理論力學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- 施工組織總體設(shè)想、方案針對性及施工段劃分
- 2024零代碼新動能4.0 -企業(yè)零代碼數(shù)字化創(chuàng)新實踐案例集
- 2024年配氣機構(gòu):進排氣門項目評價分析報告
- 四下語文20課教學(xué)課件教學(xué)課件教學(xué)
- 茶山轉(zhuǎn)讓合同案例
- 餐飲店虧損狀態(tài)退股協(xié)議書
- 博士后流動站 勞動合同
- 北京學(xué)位占用合同
- 七年級英語否定句疑問句句型課件
- 石家莊市學(xué)科類校外培訓(xùn)機構(gòu)的治理問題研究
- 遼寧抗日戰(zhàn)爭的起始地
- 港口項目商業(yè)計劃書
- (高清版)DZT 0207-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 硅質(zhì)原料類
- 地鐵保潔服務(wù)檔案管理
- 大學(xué)生食品行業(yè)生涯發(fā)展報告
- 皮帶機基礎(chǔ)知識培訓(xùn)講義
- 瓷磚店運營可行性方案
- 生產(chǎn)工人勞動合同模板
- 保潔服務(wù)應(yīng)急響應(yīng)能力預(yù)案
評論
0/150
提交評論