互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見分類算法_第1頁
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見分類算法_第2頁
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見分類算法_第3頁
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見分類算法_第4頁
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見分類算法_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第6章大數(shù)據(jù)分析中的四種常見分類算法6.1分類算法概述6.2KNN算法6.3決策樹與隨機(jī)森林算法6.4樸素貝葉斯分類算法6.5支持向量機(jī)6.1分類算法概述6.1.1有關(guān)分類算法的基本概念常用的分類算法包括:決策樹(DecisionTree)分類算法、貝葉斯分類算法、K-最近鄰(K-NearestNeighbor,KNN)算法、支持向量機(jī)(SupportVectorMachine,SVM)算法等。1.決策樹分類算法決策樹分類算法是一種逼近離散函數(shù)值的方法。它是一種典型的分類方法,首先對數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。2.貝葉斯分類算法貝葉斯分類算法是一類利用概率統(tǒng)計(jì)知識進(jìn)行分類的算法,如樸素貝葉斯((NaiveBayesian)算法,該算法能運(yùn)用到大型數(shù)據(jù)庫中,而且方法簡單、分類準(zhǔn)確率高、速度快。第6章大數(shù)據(jù)分析中的四種常見分類算法6.1分類算法概述6.1.1有關(guān)分類算法的基本概念3.KNN算法KNN算法是一種基于實(shí)例的分類方法,它是數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法之一。4.SVM算法SVM是由CorinnaCortes和Vapnik等于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。第6章大數(shù)據(jù)分析中的四種常見分類算法6.1分類算法概述6.1.2分類算法的常見應(yīng)用場景1.O2O優(yōu)惠券使用預(yù)測在O2O中使用優(yōu)惠券的形式來刺激老用戶吸引新用戶是一種常見的營銷方式。2.市民出行選乘公交預(yù)測分析挖掘出固定人群在公共交通中的行為模式,分析推測乘客的出行習(xí)慣和偏好,建立模型預(yù)測人們在未來一周內(nèi)將會搭乘哪些公交線路。3.待測微生物種類判別通過把DNA序列片段與已知的微生物DNA序列進(jìn)行比較,可以確定DNA片段的來源微生物,進(jìn)而確定待測微生物種類。4.基于運(yùn)營商數(shù)據(jù)的個(gè)人征信評估利用運(yùn)營商用戶數(shù)據(jù),可以提供完善的個(gè)人征信評估。第6章大數(shù)據(jù)分析中的四種常見分類算法6.1分類算法概述6.1.2分類算法的常見應(yīng)用場景5.商品圖片分類提取商品圖像特征,可以提供給推薦、廣告等系統(tǒng),提高推薦/廣告的效果。6.廣告點(diǎn)擊行為預(yù)測讓廣告主進(jìn)行定向廣告投放和優(yōu)化,使廣告投入產(chǎn)生較大回報(bào)。7.基于文本內(nèi)容的垃圾短信識別基于短信文本內(nèi)容,并結(jié)合機(jī)器學(xué)習(xí)算法、大數(shù)據(jù)分析挖掘來智能地識別垃圾短信及其變種。8.中文句子類別精準(zhǔn)分析分類算法就可以對中文句子、微博等文本數(shù)據(jù),進(jìn)行類別分析。第6章大數(shù)據(jù)分析中的四種常見分類算法6.1分類算法概述6.1.2分類算法的常見應(yīng)用場景9.P2P網(wǎng)絡(luò)借貸平臺的經(jīng)營風(fēng)險(xiǎn)量化分析通過互聯(lián)網(wǎng)數(shù)據(jù),構(gòu)建出P2P網(wǎng)貸平臺的經(jīng)營風(fēng)險(xiǎn)模型,能夠比較準(zhǔn)確地預(yù)測P2P網(wǎng)貸平臺的經(jīng)營風(fēng)險(xiǎn),促進(jìn)我國P2P行業(yè)向正規(guī)化方向發(fā)展。10.國家電網(wǎng)客戶用電異常行為分析可以利用大數(shù)據(jù)分析算法與技術(shù),發(fā)現(xiàn)竊電用戶的行為特征,以幫助系統(tǒng)更快速、準(zhǔn)確地識別竊電用戶,提高竊電監(jiān)測效率,降低竊電損失。11.自動(dòng)駕駛場景中的交通標(biāo)志檢測把完全真實(shí)場景下的圖片數(shù)據(jù)用于訓(xùn)練和測試,訓(xùn)練能夠?qū)嶋H應(yīng)用在自動(dòng)駕駛中的識別模型。第6章大數(shù)據(jù)分析中的四種常見分類算法6.1分類算法概述6.1.2分類算法的常見應(yīng)用場景12.大數(shù)據(jù)精準(zhǔn)營銷中搜狗用戶畫像挖掘把用戶歷時(shí)一個(gè)月的查詢詞與用戶的人口屬性標(biāo)簽(性別、年齡、學(xué)歷)作為訓(xùn)練數(shù)據(jù),通過機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)構(gòu)建分類算法來對新增用戶的人口屬性進(jìn)行判定。13.基于視角的領(lǐng)域情感分析情感分析是網(wǎng)絡(luò)輿情分析中必不可少的技術(shù),基于視角的領(lǐng)域情感分析更是情感分析應(yīng)用于特定領(lǐng)域的關(guān)鍵技術(shù)。14.監(jiān)控場景下的行人精細(xì)化識別行人作為視頻監(jiān)控中的重要目標(biāo)之一,若能對其進(jìn)行有效的外觀識別,不僅能提高視頻監(jiān)控工作人員的工作效率,對檢索視頻、解析行人行為也具有重要意義。第6章大數(shù)據(jù)分析中的四種常見分類算法6.1分類算法概述6.1.2分類算法的常見應(yīng)用場景15.用戶評分預(yù)測通過訓(xùn)練帶有時(shí)間標(biāo)記的用戶打分行為,準(zhǔn)確地預(yù)測這些用戶對其他商品的打分。16.貓狗識別大戰(zhàn)可以從訓(xùn)練集里建立一個(gè)模型去識別測試集里的小狗。17.微額借款用戶人品預(yù)測通過數(shù)據(jù)挖掘來分析“小額微貸”申請借款用戶的信用狀況,以分析其是否逾期。第6章大數(shù)據(jù)分析中的四種常見分類算法6.2KNN算法6.2.1KNN算法的工作原理與特點(diǎn)1.KNN算法的工作原理訓(xùn)練數(shù)據(jù)中每個(gè)數(shù)據(jù)都存在標(biāo)記(分類信息),當(dāng)輸入新樣本后,將新樣本的每個(gè)特征與樣本集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較,然后算法提取樣本集中特征最相似數(shù)據(jù)的分類信息。一般來說,我們只選擇樣本集數(shù)據(jù)中前k個(gè)最相似的數(shù)據(jù)。最后,選擇k個(gè)最相似數(shù)據(jù)出現(xiàn)次數(shù)最多的分類。2.代碼實(shí)現(xiàn)思路代碼實(shí)現(xiàn)思路具體如下。(1)計(jì)算新樣本點(diǎn)與訓(xùn)練數(shù)據(jù)點(diǎn)的距離。 (2)將距離按照遞增的順序排序。(3)選取距離最小的k個(gè)點(diǎn)。 (4)確定前k個(gè)點(diǎn)所在類別出現(xiàn)的頻率。(5)將距離按照遞增的順序排序。第6章大數(shù)據(jù)分析中的四種常見分類算法6.2KNN算法6.2.1KNN算法的工作原理與特點(diǎn)3.KNN算法的優(yōu)缺點(diǎn)1)優(yōu)點(diǎn)(1)理論成熟,思想簡單,既可以用來做分類也可以用來做回歸。(2)可用于非線性分類。(3)訓(xùn)練時(shí)間復(fù)雜度比支持向量機(jī)之類的算法低,僅為O(n)。(4)和樸素貝葉斯之類的算法比,對數(shù)據(jù)沒有假設(shè),準(zhǔn)確度高,對異常點(diǎn)不敏感。(5)由于KNN算法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。(6)該算法比較適用于樣本容量比較大的類域的自動(dòng)分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。第6章大數(shù)據(jù)分析中的四種常見分類算法6.2KNN算法6.2.1KNN算法的工作原理與特點(diǎn)3.KNN算法的優(yōu)缺點(diǎn)2)缺點(diǎn)(1)計(jì)算量大,尤其是特征數(shù)非常多的時(shí)候。(2)樣本不平衡的時(shí)候,對稀有類別的預(yù)測準(zhǔn)確率低。(3)對于KD樹、球樹之類的模型建立需要大量的內(nèi)存。(4)使用懶散學(xué)習(xí)方法,基本上不學(xué)習(xí),導(dǎo)致預(yù)測時(shí)速度比起邏輯回歸之類的算法慢。(5)相比決策樹模型,KNN模型可解釋性不強(qiáng)。第6章大數(shù)據(jù)分析中的四種常見分類算法6.2KNN算法6.2.2快速找到最優(yōu)k值的實(shí)用策略KNN算法中關(guān)于k值的選取應(yīng)遵循以下幾個(gè)原則。(1)k值較小,則模型復(fù)雜度較高,容易發(fā)生過擬合,學(xué)習(xí)的估計(jì)誤差會增大,預(yù)測結(jié)果對近鄰的實(shí)例點(diǎn)非常敏感。(2)k值較大,可以減少學(xué)習(xí)的估計(jì)誤差,但是學(xué)習(xí)的近似誤差會增大,與輸入實(shí)例較遠(yuǎn)的訓(xùn)練實(shí)例也會對預(yù)測起作用,使預(yù)測發(fā)生錯(cuò)誤,k值增大,模型的復(fù)雜度會下降。(3)在應(yīng)用中,k值一般取一個(gè)比較小的值,通常采用交叉驗(yàn)證法來選取最優(yōu)的k值。第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.1決策樹算法決策樹是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率。決策樹是一種用于對實(shí)例進(jìn)行分類的樹形結(jié)構(gòu),一種依托于策略抉擇而建立起來的樹。決策樹分類算法構(gòu)造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的分類規(guī)則,如何構(gòu)造精度高、規(guī)模小的決策樹是決策樹算法的核心內(nèi)容。決策樹構(gòu)造可以分兩步,具體如下。(1)決策樹的生成:由訓(xùn)練樣本集生成決策樹的過程。(2)決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進(jìn)行檢驗(yàn)、校正等的過程,第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.1決策樹算法1.構(gòu)建決策樹模型從根節(jié)點(diǎn)開始,對實(shí)例的某一特征進(jìn)行測試,根據(jù)測試結(jié)果將實(shí)例分配到其子節(jié)點(diǎn)(也就是選擇適當(dāng)?shù)姆种?;沿著該分支可能達(dá)到葉子節(jié)點(diǎn)或者到達(dá)另一個(gè)內(nèi)部節(jié)點(diǎn)時(shí),就使用新的測試條件遞歸執(zhí)行下去,直到抵達(dá)一個(gè)葉子節(jié)點(diǎn)。當(dāng)?shù)竭_(dá)葉子節(jié)點(diǎn)時(shí),我們便得到了最終的分類結(jié)果。決策樹學(xué)習(xí)也是資料探勘中一個(gè)普通的方法。第6章大數(shù)據(jù)分析中的四種常見分類算法決策樹模型6.3決策樹與隨機(jī)森林算法6.3.1決策樹算法2.剪枝剪枝是決策樹停止分支的方法之一。剪枝分預(yù)先剪枝和后剪枝兩種。(1)預(yù)先剪枝是在樹的生長過程中設(shè)定一個(gè)指標(biāo),當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長,這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。(2)后剪枝中樹首先要充分生長,直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.1決策樹算法3.決策樹的優(yōu)缺點(diǎn)1)優(yōu)點(diǎn)(1)計(jì)算復(fù)雜度不高,易于理解和解釋,可以理解決策樹所表達(dá)的意義。(2)數(shù)據(jù)預(yù)處理階段比較簡單,且可以處理缺失數(shù)據(jù)。(3)能夠同時(shí)處理數(shù)據(jù)型和分類型屬性,且可對有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。(4)是一個(gè)白盒模型,給定一個(gè)觀察模型,則根據(jù)所產(chǎn)生的決策樹很容易推斷出相應(yīng)的邏輯表達(dá)式。(5)在相對短的時(shí)間內(nèi)能夠?qū)Υ髷?shù)據(jù)集合做出可行且效果良好的分類結(jié)果。(6)可以對有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.1決策樹算法3.決策樹的優(yōu)缺點(diǎn)2)缺點(diǎn)(1)對于那些各類別樣本數(shù)目不一致的數(shù)據(jù),信息增益的結(jié)果偏向于那些具有更多數(shù)值的屬性。(2)對噪聲數(shù)據(jù)較為敏感。(3)容易出現(xiàn)過擬合問題。(4)忽略了數(shù)據(jù)集中屬性之間的相關(guān)性。(5)處理缺失數(shù)據(jù)時(shí)比較困難。第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.1決策樹算法4.決策樹ID3算法ID3(IterativeDichotomiser3)算法,迭代二叉樹3代,是RossQuinlan發(fā)明的一種決策樹算法,這個(gè)算法的基礎(chǔ)就是奧卡姆剃刀原理,越是小型的決策樹越優(yōu)于大的決策樹,盡管如此,也不總是生成最小的樹形結(jié)構(gòu),而是一個(gè)啟發(fā)式算法。ID3算法的核心思想就是以信息增益來度量屬性的選擇,選擇分裂后信息增益最大的屬性進(jìn)行分裂。1)信息熵1948年,香農(nóng)引入了信息熵,將其定義為離散隨機(jī)事件出現(xiàn)的概率。一個(gè)系統(tǒng)越是有序,信息熵就越低,反之一個(gè)系統(tǒng)越是混亂,它的信息熵就越高。所以信息熵可以被認(rèn)為是系統(tǒng)有序化程度的一個(gè)度量。2)信息增益

信息增益是針對一個(gè)一個(gè)特征而言的,就是看一個(gè)特征t,系統(tǒng)有它和沒有它時(shí)的信息量各是多少,兩者的差值就是這個(gè)特征給系統(tǒng)帶來的信息量,即信息增益。第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.1決策樹算法5.決策樹C4.5算法ID3算法有一些缺陷,在計(jì)算的時(shí)候,傾向于選擇取值多的屬性,因此,C4.5算法采用信息增益率的方式來選擇屬性,這樣就避免了上述問題。1)計(jì)算類別信息熵

類別信息熵表示的是所有樣本中各種類別出現(xiàn)的不確定性之和。2)計(jì)算每個(gè)屬性的信息熵

每個(gè)屬性的信息熵相當(dāng)于一種條件熵,它表示的是在某種屬性的條件下,各種類別出現(xiàn)的不確定性之和。3)計(jì)算信息增益

信息增益=熵-條件熵,這里即是類別信息熵-屬性信息熵,它表示的是信息不確定性減少的程度。4)計(jì)算屬性分裂信息度量

信息增益率=信息增益/內(nèi)在信息。5)計(jì)算信息增益率第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.2Bagging與Boosting的區(qū)別1.Bagging算法Bagging算法是一種用來提高學(xué)習(xí)算法準(zhǔn)確度的方法,這種方法通過構(gòu)造一個(gè)預(yù)測函數(shù)系列,然后以一定的方式將它們組合成一個(gè)預(yù)測函數(shù)。Bagging算法過程如下:(1)從原始樣本集中抽取訓(xùn)練集(2)每次使用一個(gè)訓(xùn)練集得到一個(gè)模型(3)對分類問題第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.2Bagging與Boosting的區(qū)別2.Boosting算法Boosting算法,即提升法,它的主要思想是將弱分類器組裝成一個(gè)強(qiáng)分類器,在概率近似正確(ProbablyApproximatelyCorrect,PAC)學(xué)習(xí)框架下,則一定可以將弱分類器組裝成一個(gè)強(qiáng)分類器。Boosting是一種框架算法,主要是通過對樣本集的操作獲得樣本子集,然后用弱分類算法在樣本子集上訓(xùn)練生成一系列的基分類器。Boosting兩個(gè)核心問題如下:(1)在每一輪如何改變訓(xùn)練數(shù)據(jù)的權(quán)值或概率分布?(2)通過什么方式來組合弱分類器?第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.2Bagging與Boosting的區(qū)別3.Bagging與Boosting的區(qū)別Bagging與Boosting的區(qū)別如下。1)樣本選擇Bagging:訓(xùn)練集是在原始集中有放回選取的,從原始集中選出的各輪訓(xùn)練集之間是獨(dú)立的。Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣例在分類器中的權(quán)重發(fā)生變化。而權(quán)值是根據(jù)上一輪的分類結(jié)果進(jìn)行調(diào)整。第6章大數(shù)據(jù)分析中的四種常見分類算法2)樣例權(quán)重Bagging:使用均勻取樣,每個(gè)樣例的權(quán)重相等。Boosting:根據(jù)錯(cuò)誤率不斷調(diào)整樣例的權(quán)值,錯(cuò)誤率越大則權(quán)重越大。3)預(yù)測函數(shù)Bagging:所有預(yù)測函數(shù)的權(quán)重相等。Boosting:每個(gè)弱分類器都有相應(yīng)的權(quán)重,對于分類誤差小的分類器會有更大的權(quán)重。4)并行計(jì)算Bagging:各個(gè)預(yù)測函數(shù)可以并行生成。Boosting:各個(gè)預(yù)測函數(shù)只能順序生成,因?yàn)楹笠粋€(gè)模型參數(shù)需要前一輪模型的結(jié)果。第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.3隨機(jī)森林分類算法的優(yōu)勢與應(yīng)用場景1.隨機(jī)森林分類算法在機(jī)器學(xué)習(xí)中,隨機(jī)森林(RandomForest,RF)是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。隨機(jī)森林分類算法是基于Bagging框架下的決策樹模型。隨機(jī)森林包含了很多樹,每棵樹給出分類結(jié)果,每棵樹的生成規(guī)則如下:(1)如果訓(xùn)練集大小為N,對于每棵樹而言,隨機(jī)且有放回地從訓(xùn)練集中抽取N個(gè)訓(xùn)練樣本,作為該樹的訓(xùn)練集,重復(fù)K次,生成K組訓(xùn)練樣本集。(2)如果每個(gè)特征的樣本維度為M,指定一個(gè)常數(shù)m,隨機(jī)地從M個(gè)特征中選取m個(gè)特征。(3)利用m個(gè)特征對每棵樹盡最大程度地生長,并且沒有剪枝過程。第6章大數(shù)據(jù)分析中的四種常見分類算法6.3決策樹與隨機(jī)森林算法6.3.3隨機(jī)森林分類算法的優(yōu)勢與應(yīng)用場景2.隨機(jī)森林分類算法的優(yōu)點(diǎn)(1)它可以產(chǎn)生高準(zhǔn)確度的分類器;(2)隨機(jī)性的引入,使得隨機(jī)森林不容易過擬合;(3)隨機(jī)性的引入,使得隨機(jī)森林有很好的抗噪聲能力;(4)能處理很高維度的數(shù)據(jù),并且不用做特征選擇;(5)既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無須規(guī)范化;(6)訓(xùn)練速度快,可以得到變量重要性排序;(7)容易實(shí)現(xiàn)并行化;(8)它計(jì)算各例中的親近度,對于數(shù)據(jù)挖掘、偵測離群點(diǎn)(outlier)和將資料視覺化非常有用。3.隨機(jī)森林算法的應(yīng)用場景隨機(jī)森林的主要作用是降低模型的復(fù)雜度,解決模型的過擬合問題。第6章大數(shù)據(jù)分析中的四種常見分類算法6.4樸素貝葉斯分類算法6.4.1樸素貝葉斯分類算法運(yùn)行原理分析1.與決策樹的比較相比于決策樹,貝葉斯分類器是一種在概率框架下實(shí)施決策的基本方法,它也與我們?nèi)祟惖慕?jīng)驗(yàn)思維很符合,第6章大數(shù)據(jù)分析中的四種常見分類算法決策樹的劃分貝葉斯分類器6.4樸素貝葉斯分類算法6.4.1樸素貝葉斯分類算法運(yùn)行原理分析2.貝葉斯公式第6章大數(shù)據(jù)分析中的四種常見分類算法1)優(yōu)點(diǎn)(1)數(shù)學(xué)基礎(chǔ)堅(jiān)實(shí),分類效率穩(wěn)定,容易解釋。(2)所需估計(jì)的參數(shù)很少,對缺失數(shù)據(jù)不太敏感。(3)無須復(fù)雜的迭代求解框架,適用于規(guī)模巨大的數(shù)據(jù)集。2)缺點(diǎn)(1)屬性之間的獨(dú)立性假設(shè)往往不成立(可考慮用聚類算法先將相關(guān)性較大的屬性進(jìn)行聚類)。(2)需要知道先驗(yàn)概率,分類決策存在錯(cuò)誤率。6.4樸素貝葉斯分類算法6.4.1樸素貝葉斯分類算法運(yùn)行原理分析3.樸素貝葉斯分類算法拉普拉斯曾經(jīng)說過,“概率論就是將人們的常識使用數(shù)學(xué)公式表達(dá)”。接下來我們來看看最完整的樸素貝葉斯分類算法的數(shù)學(xué)表達(dá)。樸素的含義指的是對條件概率分布作了條件獨(dú)立性的假設(shè)。樸素貝葉斯算法實(shí)際上學(xué)習(xí)到生成數(shù)據(jù)的機(jī)制,屬于生成模型。條件獨(dú)立假設(shè)等于是說用于分類的特征在類確定的條件下都是條件獨(dú)立的。第6章大數(shù)據(jù)分析中的四種常見分類算法6.4樸素貝葉斯分類算法6.4.2貝葉斯網(wǎng)絡(luò)1.貝葉斯網(wǎng)絡(luò)的定義貝葉斯網(wǎng)絡(luò)(BayesianNetwork),又稱信度網(wǎng)絡(luò),是Bayes方法的擴(kuò)展,是目前不確定知識表達(dá)和推理領(lǐng)域最有效的理論模型之一。第6章大數(shù)據(jù)分析中的四種常見分類算法節(jié)點(diǎn)E影響到H的有向圖表示簡單的貝葉斯網(wǎng)絡(luò)6.4樸素貝葉斯分類算法6.4.2貝葉斯網(wǎng)絡(luò)2.貝葉斯網(wǎng)絡(luò)的3種結(jié)構(gòu)形式第6章大數(shù)據(jù)分析中的四種常見分類算法貝葉斯網(wǎng)絡(luò)圖head-to-head結(jié)構(gòu)形式圖

tail-to-tail結(jié)構(gòu)形式圖head-to-tail結(jié)構(gòu)形式圖鏈?zhǔn)骄W(wǎng)絡(luò)結(jié)構(gòu)形式圖6.4樸素貝葉斯分類算法6.4.3貝葉斯決策理論1.貝葉斯決策理論定義貝葉斯決策理論(BayesianDecisionTheory)就是在不完全情報(bào)下,對部分未知的狀態(tài)用主觀概率估計(jì),然后用貝葉斯公式對發(fā)生概率進(jìn)行修正,最后再利用期望值和修正概率做出最優(yōu)決策。2.貝葉斯決策理論分析對貝葉斯決策理論的分析具體如下。(1)如果我們已知被分類類別概率分布的形式和已經(jīng)標(biāo)記類別的訓(xùn)練樣本集合,那我們就需要從訓(xùn)練樣本集合中來估計(jì)概率分布的參數(shù)。(2)如果我們不知道任何有關(guān)被分類類別概率分布的知識,已知已經(jīng)標(biāo)記類別的訓(xùn)練樣本集合和判別式函數(shù)的形式,那我們就需要從訓(xùn)練樣本集合中來估計(jì)判別式函數(shù)的參數(shù)。第6章大數(shù)據(jù)分析中的四種常見分類算法(3)如果我們既不知道任何有關(guān)被分類類別概率分布的知識,也不知道判別式函數(shù)的形式,只有已經(jīng)標(biāo)記類別的訓(xùn)練樣本集合,那我們就需要從訓(xùn)練樣本集合中來估計(jì)概率分布函數(shù)的參數(shù)。(4)只有沒有標(biāo)記類別的訓(xùn)練樣本集合,這是經(jīng)常發(fā)生的情形。我們需要對訓(xùn)練樣本集合進(jìn)行聚類,從而估計(jì)它們概率分布的參數(shù)。(5)如果我們已知被分類類別的概率分布,那么,我們不需要訓(xùn)練樣本集合,利用貝葉斯決策理論就可以設(shè)計(jì)最優(yōu)分類器。第6章大數(shù)據(jù)分析中的四種常見分類算法6.4樸素貝葉斯分類算法6.4.3貝葉斯決策理論3.貝葉斯決策理論決策判據(jù)貝葉斯決策判據(jù)既考慮了各類參考總體出現(xiàn)的概率大小,又考慮了因誤判造成的損失大小,判別能力強(qiáng)。4.最小錯(cuò)誤率貝葉斯決策與最小風(fēng)險(xiǎn)貝葉斯決策考慮決策風(fēng)險(xiǎn),加入了損失函數(shù),稱為最小風(fēng)險(xiǎn)貝葉斯決策。1)最小錯(cuò)誤率貝葉斯決策2)最小風(fēng)險(xiǎn)貝葉斯決策最小風(fēng)險(xiǎn)貝葉斯決策就轉(zhuǎn)化成最小錯(cuò)誤率貝葉斯決策。最小錯(cuò)誤率貝葉斯決策可以看成是最小風(fēng)險(xiǎn)貝葉斯決策的一個(gè)特例。第6章大數(shù)據(jù)分析中的四種常見分類算法6.5支持向量機(jī)6.5.1支持向量機(jī)的基本思想與特點(diǎn)1.支持向量機(jī)的基本思想支持向量機(jī)的基本思想具體如下。(1)在線性可分情況下,在原空間尋找兩類樣本的最優(yōu)分類超平面;在線性不可分的情況下,加入了松弛變量進(jìn)行分析,通過使用非線性映射將低維輸入空間的樣本映射到高維屬性空間,使其變?yōu)榫€性情況,從而使得在高維屬性空間采用線性算法對樣本的非線性進(jìn)行分析成為可能,并在該特征空間中尋找最優(yōu)分類超平面。(2)它通過使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理在屬性空間構(gòu)建最優(yōu)分類超平面,使得分類器得到全局最優(yōu),并在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。第6章大數(shù)據(jù)分析中的四種常見分類算法6.5支持向量機(jī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論