互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法_第1頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法_第2頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法_第3頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法_第4頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第6章 大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.1分類(lèi)算法概述6.2KNN算法6.3決策樹(shù)與隨機(jī)森林算法6.4樸素貝葉斯分類(lèi)算法6.5支持向量機(jī)6.1分類(lèi)算法概述6.1.1有關(guān)分類(lèi)算法的基本概念常用的分類(lèi)算法包括:決策樹(shù)(DecisionTree)分類(lèi)算法、貝葉斯分類(lèi)算法、K-最近鄰(K-NearestNeighbor,KNN)算法、支持向量機(jī)(SupportVectorMachine,SVM)算法等。1.決策樹(shù)分類(lèi)算法決策樹(shù)分類(lèi)算法是一種逼近離散函數(shù)值的方法。它是一種典型的分類(lèi)方法,首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹(shù),然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹(shù)是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程。2.貝葉斯分類(lèi)算法貝葉斯分類(lèi)算法是一類(lèi)利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類(lèi)的算法,如樸素貝葉斯((NaiveBayesian)算法,該算法能運(yùn)用到大型數(shù)據(jù)庫(kù)中,而且方法簡(jiǎn)單、分類(lèi)準(zhǔn)確率高、速度快。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.1分類(lèi)算法概述6.1.1有關(guān)分類(lèi)算法的基本概念3.KNN算法KNN算法是一種基于實(shí)例的分類(lèi)方法,它是數(shù)據(jù)挖掘分類(lèi)技術(shù)中最簡(jiǎn)單的方法之一。4.SVM算法SVM是由CorinnaCortes和Vapnik等于1995年首先提出的,它在解決小樣本、非線(xiàn)性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.1分類(lèi)算法概述6.1.2分類(lèi)算法的常見(jiàn)應(yīng)用場(chǎng)景1.O2O優(yōu)惠券使用預(yù)測(cè)在O2O中使用優(yōu)惠券的形式來(lái)刺激老用戶(hù)吸引新用戶(hù)是一種常見(jiàn)的營(yíng)銷(xiāo)方式。2.市民出行選乘公交預(yù)測(cè)分析挖掘出固定人群在公共交通中的行為模式,分析推測(cè)乘客的出行習(xí)慣和偏好,建立模型預(yù)測(cè)人們?cè)谖磥?lái)一周內(nèi)將會(huì)搭乘哪些公交線(xiàn)路。3.待測(cè)微生物種類(lèi)判別通過(guò)把DNA序列片段與已知的微生物DNA序列進(jìn)行比較,可以確定DNA片段的來(lái)源微生物,進(jìn)而確定待測(cè)微生物種類(lèi)。4.基于運(yùn)營(yíng)商數(shù)據(jù)的個(gè)人征信評(píng)估利用運(yùn)營(yíng)商用戶(hù)數(shù)據(jù),可以提供完善的個(gè)人征信評(píng)估。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.1分類(lèi)算法概述6.1.2分類(lèi)算法的常見(jiàn)應(yīng)用場(chǎng)景5.商品圖片分類(lèi)提取商品圖像特征,可以提供給推薦、廣告等系統(tǒng),提高推薦/廣告的效果。6.廣告點(diǎn)擊行為預(yù)測(cè)讓廣告主進(jìn)行定向廣告投放和優(yōu)化,使廣告投入產(chǎn)生較大回報(bào)。7.基于文本內(nèi)容的垃圾短信識(shí)別基于短信文本內(nèi)容,并結(jié)合機(jī)器學(xué)習(xí)算法、大數(shù)據(jù)分析挖掘來(lái)智能地識(shí)別垃圾短信及其變種。8.中文句子類(lèi)別精準(zhǔn)分析分類(lèi)算法就可以對(duì)中文句子、微博等文本數(shù)據(jù),進(jìn)行類(lèi)別分析。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.1分類(lèi)算法概述6.1.2分類(lèi)算法的常見(jiàn)應(yīng)用場(chǎng)景9.P2P網(wǎng)絡(luò)借貸平臺(tái)的經(jīng)營(yíng)風(fēng)險(xiǎn)量化分析通過(guò)互聯(lián)網(wǎng)數(shù)據(jù),構(gòu)建出P2P網(wǎng)貸平臺(tái)的經(jīng)營(yíng)風(fēng)險(xiǎn)模型,能夠比較準(zhǔn)確地預(yù)測(cè)P2P網(wǎng)貸平臺(tái)的經(jīng)營(yíng)風(fēng)險(xiǎn),促進(jìn)我國(guó)P2P行業(yè)向正規(guī)化方向發(fā)展。10.國(guó)家電網(wǎng)客戶(hù)用電異常行為分析可以利用大數(shù)據(jù)分析算法與技術(shù),發(fā)現(xiàn)竊電用戶(hù)的行為特征,以幫助系統(tǒng)更快速、準(zhǔn)確地識(shí)別竊電用戶(hù),提高竊電監(jiān)測(cè)效率,降低竊電損失。11.自動(dòng)駕駛場(chǎng)景中的交通標(biāo)志檢測(cè)把完全真實(shí)場(chǎng)景下的圖片數(shù)據(jù)用于訓(xùn)練和測(cè)試,訓(xùn)練能夠?qū)嶋H應(yīng)用在自動(dòng)駕駛中的識(shí)別模型。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.1分類(lèi)算法概述6.1.2分類(lèi)算法的常見(jiàn)應(yīng)用場(chǎng)景12.大數(shù)據(jù)精準(zhǔn)營(yíng)銷(xiāo)中搜狗用戶(hù)畫(huà)像挖掘把用戶(hù)歷時(shí)一個(gè)月的查詢(xún)?cè)~與用戶(hù)的人口屬性標(biāo)簽(性別、年齡、學(xué)歷)作為訓(xùn)練數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)構(gòu)建分類(lèi)算法來(lái)對(duì)新增用戶(hù)的人口屬性進(jìn)行判定。13.基于視角的領(lǐng)域情感分析情感分析是網(wǎng)絡(luò)輿情分析中必不可少的技術(shù),基于視角的領(lǐng)域情感分析更是情感分析應(yīng)用于特定領(lǐng)域的關(guān)鍵技術(shù)。14.監(jiān)控場(chǎng)景下的行人精細(xì)化識(shí)別行人作為視頻監(jiān)控中的重要目標(biāo)之一,若能對(duì)其進(jìn)行有效的外觀識(shí)別,不僅能提高視頻監(jiān)控工作人員的工作效率,對(duì)檢索視頻、解析行人行為也具有重要意義。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.1分類(lèi)算法概述6.1.2分類(lèi)算法的常見(jiàn)應(yīng)用場(chǎng)景15.用戶(hù)評(píng)分預(yù)測(cè)通過(guò)訓(xùn)練帶有時(shí)間標(biāo)記的用戶(hù)打分行為,準(zhǔn)確地預(yù)測(cè)這些用戶(hù)對(duì)其他商品的打分。16.貓狗識(shí)別大戰(zhàn)可以從訓(xùn)練集里建立一個(gè)模型去識(shí)別測(cè)試集里的小狗。17.微額借款用戶(hù)人品預(yù)測(cè)通過(guò)數(shù)據(jù)挖掘來(lái)分析“小額微貸”申請(qǐng)借款用戶(hù)的信用狀況,以分析其是否逾期。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.2KNN算法6.2.1KNN算法的工作原理與特點(diǎn)1.KNN算法的工作原理訓(xùn)練數(shù)據(jù)中每個(gè)數(shù)據(jù)都存在標(biāo)記(分類(lèi)信息),當(dāng)輸入新樣本后,將新樣本的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較,然后算法提取樣本集中特征最相似數(shù)據(jù)的分類(lèi)信息。一般來(lái)說(shuō),我們只選擇樣本集數(shù)據(jù)中前k個(gè)最相似的數(shù)據(jù)。最后,選擇k個(gè)最相似數(shù)據(jù)出現(xiàn)次數(shù)最多的分類(lèi)。2.代碼實(shí)現(xiàn)思路代碼實(shí)現(xiàn)思路具體如下。(1)計(jì)算新樣本點(diǎn)與訓(xùn)練數(shù)據(jù)點(diǎn)的距離。 (2)將距離按照遞增的順序排序。(3)選取距離最小的k個(gè)點(diǎn)。 (4)確定前k個(gè)點(diǎn)所在類(lèi)別出現(xiàn)的頻率。(5)將距離按照遞增的順序排序。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.2KNN算法6.2.1KNN算法的工作原理與特點(diǎn)3.KNN算法的優(yōu)缺點(diǎn)1)優(yōu)點(diǎn)(1)理論成熟,思想簡(jiǎn)單,既可以用來(lái)做分類(lèi)也可以用來(lái)做回歸。(2)可用于非線(xiàn)性分類(lèi)。(3)訓(xùn)練時(shí)間復(fù)雜度比支持向量機(jī)之類(lèi)的算法低,僅為O(n)。(4)和樸素貝葉斯之類(lèi)的算法比,對(duì)數(shù)據(jù)沒(méi)有假設(shè),準(zhǔn)確度高,對(duì)異常點(diǎn)不敏感。(5)由于KNN算法主要靠周?chē)邢薜泥徑臉颖?,而不是靠判別類(lèi)域的方法來(lái)確定所屬類(lèi)別,因此對(duì)于類(lèi)域的交叉或重疊較多的待分樣本集來(lái)說(shuō),KNN方法較其他方法更為適合。(6)該算法比較適用于樣本容量比較大的類(lèi)域的自動(dòng)分類(lèi),而那些樣本容量較小的類(lèi)域采用這種算法比較容易產(chǎn)生誤分。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.2KNN算法6.2.1KNN算法的工作原理與特點(diǎn)3.KNN算法的優(yōu)缺點(diǎn)2)缺點(diǎn)(1)計(jì)算量大,尤其是特征數(shù)非常多的時(shí)候。(2)樣本不平衡的時(shí)候,對(duì)稀有類(lèi)別的預(yù)測(cè)準(zhǔn)確率低。(3)對(duì)于KD樹(shù)、球樹(shù)之類(lèi)的模型建立需要大量的內(nèi)存。(4)使用懶散學(xué)習(xí)方法,基本上不學(xué)習(xí),導(dǎo)致預(yù)測(cè)時(shí)速度比起邏輯回歸之類(lèi)的算法慢。(5)相比決策樹(shù)模型,KNN模型可解釋性不強(qiáng)。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.2KNN算法6.2.2快速找到最優(yōu)k值的實(shí)用策略KNN算法中關(guān)于k值的選取應(yīng)遵循以下幾個(gè)原則。(1)k值較小,則模型復(fù)雜度較高,容易發(fā)生過(guò)擬合,學(xué)習(xí)的估計(jì)誤差會(huì)增大,預(yù)測(cè)結(jié)果對(duì)近鄰的實(shí)例點(diǎn)非常敏感。(2)k值較大,可以減少學(xué)習(xí)的估計(jì)誤差,但是學(xué)習(xí)的近似誤差會(huì)增大,與輸入實(shí)例較遠(yuǎn)的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用,使預(yù)測(cè)發(fā)生錯(cuò)誤,k值增大,模型的復(fù)雜度會(huì)下降。(3)在應(yīng)用中,k值一般取一個(gè)比較小的值,通常采用交叉驗(yàn)證法來(lái)選取最優(yōu)的k值。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.1決策樹(shù)算法決策樹(shù)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率。決策樹(shù)是一種用于對(duì)實(shí)例進(jìn)行分類(lèi)的樹(shù)形結(jié)構(gòu),一種依托于策略抉擇而建立起來(lái)的樹(shù)。決策樹(shù)分類(lèi)算法構(gòu)造決策樹(shù)來(lái)發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的分類(lèi)規(guī)則,如何構(gòu)造精度高、規(guī)模小的決策樹(shù)是決策樹(shù)算法的核心內(nèi)容。決策樹(shù)構(gòu)造可以分兩步,具體如下。(1)決策樹(shù)的生成:由訓(xùn)練樣本集生成決策樹(shù)的過(guò)程。(2)決策樹(shù)的剪枝:決策樹(shù)的剪枝是對(duì)上一階段生成的決策樹(shù)進(jìn)行檢驗(yàn)、校正等的過(guò)程,第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.1決策樹(shù)算法1.構(gòu)建決策樹(shù)模型從根節(jié)點(diǎn)開(kāi)始,對(duì)實(shí)例的某一特征進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)果將實(shí)例分配到其子節(jié)點(diǎn)(也就是選擇適當(dāng)?shù)姆种?;沿著該分支可能達(dá)到葉子節(jié)點(diǎn)或者到達(dá)另一個(gè)內(nèi)部節(jié)點(diǎn)時(shí),就使用新的測(cè)試條件遞歸執(zhí)行下去,直到抵達(dá)一個(gè)葉子節(jié)點(diǎn)。當(dāng)?shù)竭_(dá)葉子節(jié)點(diǎn)時(shí),我們便得到了最終的分類(lèi)結(jié)果。決策樹(shù)學(xué)習(xí)也是資料探勘中一個(gè)普通的方法。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法決策樹(shù)模型6.3決策樹(shù)與隨機(jī)森林算法6.3.1決策樹(shù)算法2.剪枝剪枝是決策樹(shù)停止分支的方法之一。剪枝分預(yù)先剪枝和后剪枝兩種。(1)預(yù)先剪枝是在樹(shù)的生長(zhǎng)過(guò)程中設(shè)定一個(gè)指標(biāo),當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長(zhǎng),這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。(2)后剪枝中樹(shù)首先要充分生長(zhǎng),直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.1決策樹(shù)算法3.決策樹(shù)的優(yōu)缺點(diǎn)1)優(yōu)點(diǎn)(1)計(jì)算復(fù)雜度不高,易于理解和解釋?zhuān)梢岳斫鉀Q策樹(shù)所表達(dá)的意義。(2)數(shù)據(jù)預(yù)處理階段比較簡(jiǎn)單,且可以處理缺失數(shù)據(jù)。(3)能夠同時(shí)處理數(shù)據(jù)型和分類(lèi)型屬性,且可對(duì)有許多屬性的數(shù)據(jù)集構(gòu)造決策樹(shù)。(4)是一個(gè)白盒模型,給定一個(gè)觀察模型,則根據(jù)所產(chǎn)生的決策樹(shù)很容易推斷出相應(yīng)的邏輯表達(dá)式。(5)在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ髷?shù)據(jù)集合做出可行且效果良好的分類(lèi)結(jié)果。(6)可以對(duì)有許多屬性的數(shù)據(jù)集構(gòu)造決策樹(shù)。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.1決策樹(shù)算法3.決策樹(shù)的優(yōu)缺點(diǎn)2)缺點(diǎn)(1)對(duì)于那些各類(lèi)別樣本數(shù)目不一致的數(shù)據(jù),信息增益的結(jié)果偏向于那些具有更多數(shù)值的屬性。(2)對(duì)噪聲數(shù)據(jù)較為敏感。(3)容易出現(xiàn)過(guò)擬合問(wèn)題。(4)忽略了數(shù)據(jù)集中屬性之間的相關(guān)性。(5)處理缺失數(shù)據(jù)時(shí)比較困難。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.1決策樹(shù)算法4.決策樹(shù)ID3算法ID3(IterativeDichotomiser3)算法,迭代二叉樹(shù)3代,是RossQuinlan發(fā)明的一種決策樹(shù)算法,這個(gè)算法的基礎(chǔ)就是奧卡姆剃刀原理,越是小型的決策樹(shù)越優(yōu)于大的決策樹(shù),盡管如此,也不總是生成最小的樹(shù)形結(jié)構(gòu),而是一個(gè)啟發(fā)式算法。ID3算法的核心思想就是以信息增益來(lái)度量屬性的選擇,選擇分裂后信息增益最大的屬性進(jìn)行分裂。1)信息熵1948年,香農(nóng)引入了信息熵,將其定義為離散隨機(jī)事件出現(xiàn)的概率。一個(gè)系統(tǒng)越是有序,信息熵就越低,反之一個(gè)系統(tǒng)越是混亂,它的信息熵就越高。所以信息熵可以被認(rèn)為是系統(tǒng)有序化程度的一個(gè)度量。2)信息增益

信息增益是針對(duì)一個(gè)一個(gè)特征而言的,就是看一個(gè)特征t,系統(tǒng)有它和沒(méi)有它時(shí)的信息量各是多少,兩者的差值就是這個(gè)特征給系統(tǒng)帶來(lái)的信息量,即信息增益。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.1決策樹(shù)算法5.決策樹(shù)C4.5算法ID3算法有一些缺陷,在計(jì)算的時(shí)候,傾向于選擇取值多的屬性,因此,C4.5算法采用信息增益率的方式來(lái)選擇屬性,這樣就避免了上述問(wèn)題。1)計(jì)算類(lèi)別信息熵

類(lèi)別信息熵表示的是所有樣本中各種類(lèi)別出現(xiàn)的不確定性之和。2)計(jì)算每個(gè)屬性的信息熵

每個(gè)屬性的信息熵相當(dāng)于一種條件熵,它表示的是在某種屬性的條件下,各種類(lèi)別出現(xiàn)的不確定性之和。3)計(jì)算信息增益

信息增益=熵-條件熵,這里即是類(lèi)別信息熵-屬性信息熵,它表示的是信息不確定性減少的程度。4)計(jì)算屬性分裂信息度量

信息增益率=信息增益/內(nèi)在信息。5)計(jì)算信息增益率第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.2Bagging與Boosting的區(qū)別1.Bagging算法Bagging算法是一種用來(lái)提高學(xué)習(xí)算法準(zhǔn)確度的方法,這種方法通過(guò)構(gòu)造一個(gè)預(yù)測(cè)函數(shù)系列,然后以一定的方式將它們組合成一個(gè)預(yù)測(cè)函數(shù)。Bagging算法過(guò)程如下:(1)從原始樣本集中抽取訓(xùn)練集(2)每次使用一個(gè)訓(xùn)練集得到一個(gè)模型(3)對(duì)分類(lèi)問(wèn)題第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.2Bagging與Boosting的區(qū)別2.Boosting算法Boosting算法,即提升法,它的主要思想是將弱分類(lèi)器組裝成一個(gè)強(qiáng)分類(lèi)器,在概率近似正確(ProbablyApproximatelyCorrect,PAC)學(xué)習(xí)框架下,則一定可以將弱分類(lèi)器組裝成一個(gè)強(qiáng)分類(lèi)器。Boosting是一種框架算法,主要是通過(guò)對(duì)樣本集的操作獲得樣本子集,然后用弱分類(lèi)算法在樣本子集上訓(xùn)練生成一系列的基分類(lèi)器。Boosting兩個(gè)核心問(wèn)題如下:(1)在每一輪如何改變訓(xùn)練數(shù)據(jù)的權(quán)值或概率分布?(2)通過(guò)什么方式來(lái)組合弱分類(lèi)器?第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.2Bagging與Boosting的區(qū)別3.Bagging與Boosting的區(qū)別Bagging與Boosting的區(qū)別如下。1)樣本選擇Bagging:訓(xùn)練集是在原始集中有放回選取的,從原始集中選出的各輪訓(xùn)練集之間是獨(dú)立的。Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣例在分類(lèi)器中的權(quán)重發(fā)生變化。而權(quán)值是根據(jù)上一輪的分類(lèi)結(jié)果進(jìn)行調(diào)整。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法2)樣例權(quán)重Bagging:使用均勻取樣,每個(gè)樣例的權(quán)重相等。Boosting:根據(jù)錯(cuò)誤率不斷調(diào)整樣例的權(quán)值,錯(cuò)誤率越大則權(quán)重越大。3)預(yù)測(cè)函數(shù)Bagging:所有預(yù)測(cè)函數(shù)的權(quán)重相等。Boosting:每個(gè)弱分類(lèi)器都有相應(yīng)的權(quán)重,對(duì)于分類(lèi)誤差小的分類(lèi)器會(huì)有更大的權(quán)重。4)并行計(jì)算Bagging:各個(gè)預(yù)測(cè)函數(shù)可以并行生成。Boosting:各個(gè)預(yù)測(cè)函數(shù)只能順序生成,因?yàn)楹笠粋€(gè)模型參數(shù)需要前一輪模型的結(jié)果。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.3隨機(jī)森林分類(lèi)算法的優(yōu)勢(shì)與應(yīng)用場(chǎng)景1.隨機(jī)森林分類(lèi)算法在機(jī)器學(xué)習(xí)中,隨機(jī)森林(RandomForest,RF)是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器,并且其輸出的類(lèi)別是由個(gè)別樹(shù)輸出的類(lèi)別的眾數(shù)而定。隨機(jī)森林分類(lèi)算法是基于Bagging框架下的決策樹(shù)模型。隨機(jī)森林包含了很多樹(shù),每棵樹(shù)給出分類(lèi)結(jié)果,每棵樹(shù)的生成規(guī)則如下:(1)如果訓(xùn)練集大小為N,對(duì)于每棵樹(shù)而言,隨機(jī)且有放回地從訓(xùn)練集中抽取N個(gè)訓(xùn)練樣本,作為該樹(shù)的訓(xùn)練集,重復(fù)K次,生成K組訓(xùn)練樣本集。(2)如果每個(gè)特征的樣本維度為M,指定一個(gè)常數(shù)m,隨機(jī)地從M個(gè)特征中選取m個(gè)特征。(3)利用m個(gè)特征對(duì)每棵樹(shù)盡最大程度地生長(zhǎng),并且沒(méi)有剪枝過(guò)程。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.3決策樹(shù)與隨機(jī)森林算法6.3.3隨機(jī)森林分類(lèi)算法的優(yōu)勢(shì)與應(yīng)用場(chǎng)景2.隨機(jī)森林分類(lèi)算法的優(yōu)點(diǎn)(1)它可以產(chǎn)生高準(zhǔn)確度的分類(lèi)器;(2)隨機(jī)性的引入,使得隨機(jī)森林不容易過(guò)擬合;(3)隨機(jī)性的引入,使得隨機(jī)森林有很好的抗噪聲能力;(4)能處理很高維度的數(shù)據(jù),并且不用做特征選擇;(5)既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無(wú)須規(guī)范化;(6)訓(xùn)練速度快,可以得到變量重要性排序;(7)容易實(shí)現(xiàn)并行化;(8)它計(jì)算各例中的親近度,對(duì)于數(shù)據(jù)挖掘、偵測(cè)離群點(diǎn)(outlier)和將資料視覺(jué)化非常有用。3.隨機(jī)森林算法的應(yīng)用場(chǎng)景隨機(jī)森林的主要作用是降低模型的復(fù)雜度,解決模型的過(guò)擬合問(wèn)題。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.4樸素貝葉斯分類(lèi)算法6.4.1樸素貝葉斯分類(lèi)算法運(yùn)行原理分析1.與決策樹(shù)的比較相比于決策樹(shù),貝葉斯分類(lèi)器是一種在概率框架下實(shí)施決策的基本方法,它也與我們?nèi)祟?lèi)的經(jīng)驗(yàn)思維很符合,第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法決策樹(shù)的劃分貝葉斯分類(lèi)器6.4樸素貝葉斯分類(lèi)算法6.4.1樸素貝葉斯分類(lèi)算法運(yùn)行原理分析2.貝葉斯公式第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法1)優(yōu)點(diǎn)(1)數(shù)學(xué)基礎(chǔ)堅(jiān)實(shí),分類(lèi)效率穩(wěn)定,容易解釋。(2)所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感。(3)無(wú)須復(fù)雜的迭代求解框架,適用于規(guī)模巨大的數(shù)據(jù)集。2)缺點(diǎn)(1)屬性之間的獨(dú)立性假設(shè)往往不成立(可考慮用聚類(lèi)算法先將相關(guān)性較大的屬性進(jìn)行聚類(lèi))。(2)需要知道先驗(yàn)概率,分類(lèi)決策存在錯(cuò)誤率。6.4樸素貝葉斯分類(lèi)算法6.4.1樸素貝葉斯分類(lèi)算法運(yùn)行原理分析3.樸素貝葉斯分類(lèi)算法拉普拉斯曾經(jīng)說(shuō)過(guò),“概率論就是將人們的常識(shí)使用數(shù)學(xué)公式表達(dá)”。接下來(lái)我們來(lái)看看最完整的樸素貝葉斯分類(lèi)算法的數(shù)學(xué)表達(dá)。樸素的含義指的是對(duì)條件概率分布作了條件獨(dú)立性的假設(shè)。樸素貝葉斯算法實(shí)際上學(xué)習(xí)到生成數(shù)據(jù)的機(jī)制,屬于生成模型。條件獨(dú)立假設(shè)等于是說(shuō)用于分類(lèi)的特征在類(lèi)確定的條件下都是條件獨(dú)立的。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.4樸素貝葉斯分類(lèi)算法6.4.2貝葉斯網(wǎng)絡(luò)1.貝葉斯網(wǎng)絡(luò)的定義貝葉斯網(wǎng)絡(luò)(BayesianNetwork),又稱(chēng)信度網(wǎng)絡(luò),是Bayes方法的擴(kuò)展,是目前不確定知識(shí)表達(dá)和推理領(lǐng)域最有效的理論模型之一。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法節(jié)點(diǎn)E影響到H的有向圖表示簡(jiǎn)單的貝葉斯網(wǎng)絡(luò)6.4樸素貝葉斯分類(lèi)算法6.4.2貝葉斯網(wǎng)絡(luò)2.貝葉斯網(wǎng)絡(luò)的3種結(jié)構(gòu)形式第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法貝葉斯網(wǎng)絡(luò)圖head-to-head結(jié)構(gòu)形式圖

tail-to-tail結(jié)構(gòu)形式圖head-to-tail結(jié)構(gòu)形式圖鏈?zhǔn)骄W(wǎng)絡(luò)結(jié)構(gòu)形式圖6.4樸素貝葉斯分類(lèi)算法6.4.3貝葉斯決策理論1.貝葉斯決策理論定義貝葉斯決策理論(BayesianDecisionTheory)就是在不完全情報(bào)下,對(duì)部分未知的狀態(tài)用主觀概率估計(jì),然后用貝葉斯公式對(duì)發(fā)生概率進(jìn)行修正,最后再利用期望值和修正概率做出最優(yōu)決策。2.貝葉斯決策理論分析對(duì)貝葉斯決策理論的分析具體如下。(1)如果我們已知被分類(lèi)類(lèi)別概率分布的形式和已經(jīng)標(biāo)記類(lèi)別的訓(xùn)練樣本集合,那我們就需要從訓(xùn)練樣本集合中來(lái)估計(jì)概率分布的參數(shù)。(2)如果我們不知道任何有關(guān)被分類(lèi)類(lèi)別概率分布的知識(shí),已知已經(jīng)標(biāo)記類(lèi)別的訓(xùn)練樣本集合和判別式函數(shù)的形式,那我們就需要從訓(xùn)練樣本集合中來(lái)估計(jì)判別式函數(shù)的參數(shù)。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法(3)如果我們既不知道任何有關(guān)被分類(lèi)類(lèi)別概率分布的知識(shí),也不知道判別式函數(shù)的形式,只有已經(jīng)標(biāo)記類(lèi)別的訓(xùn)練樣本集合,那我們就需要從訓(xùn)練樣本集合中來(lái)估計(jì)概率分布函數(shù)的參數(shù)。(4)只有沒(méi)有標(biāo)記類(lèi)別的訓(xùn)練樣本集合,這是經(jīng)常發(fā)生的情形。我們需要對(duì)訓(xùn)練樣本集合進(jìn)行聚類(lèi),從而估計(jì)它們概率分布的參數(shù)。(5)如果我們已知被分類(lèi)類(lèi)別的概率分布,那么,我們不需要訓(xùn)練樣本集合,利用貝葉斯決策理論就可以設(shè)計(jì)最優(yōu)分類(lèi)器。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.4樸素貝葉斯分類(lèi)算法6.4.3貝葉斯決策理論3.貝葉斯決策理論決策判據(jù)貝葉斯決策判據(jù)既考慮了各類(lèi)參考總體出現(xiàn)的概率大小,又考慮了因誤判造成的損失大小,判別能力強(qiáng)。4.最小錯(cuò)誤率貝葉斯決策與最小風(fēng)險(xiǎn)貝葉斯決策考慮決策風(fēng)險(xiǎn),加入了損失函數(shù),稱(chēng)為最小風(fēng)險(xiǎn)貝葉斯決策。1)最小錯(cuò)誤率貝葉斯決策2)最小風(fēng)險(xiǎn)貝葉斯決策最小風(fēng)險(xiǎn)貝葉斯決策就轉(zhuǎn)化成最小錯(cuò)誤率貝葉斯決策。最小錯(cuò)誤率貝葉斯決策可以看成是最小風(fēng)險(xiǎn)貝葉斯決策的一個(gè)特例。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.5支持向量機(jī)6.5.1支持向量機(jī)的基本思想與特點(diǎn)1.支持向量機(jī)的基本思想支持向量機(jī)的基本思想具體如下。(1)在線(xiàn)性可分情況下,在原空間尋找兩類(lèi)樣本的最優(yōu)分類(lèi)超平面;在線(xiàn)性不可分的情況下,加入了松弛變量進(jìn)行分析,通過(guò)使用非線(xiàn)性映射將低維輸入空間的樣本映射到高維屬性空間,使其變?yōu)榫€(xiàn)性情況,從而使得在高維屬性空間采用線(xiàn)性算法對(duì)樣本的非線(xiàn)性進(jìn)行分析成為可能,并在該特征空間中尋找最優(yōu)分類(lèi)超平面。(2)它通過(guò)使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理在屬性空間構(gòu)建最優(yōu)分類(lèi)超平面,使得分類(lèi)器得到全局最優(yōu),并在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿(mǎn)足一定上界。第6章大數(shù)據(jù)分析中的四種常見(jiàn)分類(lèi)算法6.5支持向量機(jī)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論