機(jī)器學(xué)習(xí)PPT完整全套教學(xué)課件_第1頁
機(jī)器學(xué)習(xí)PPT完整全套教學(xué)課件_第2頁
機(jī)器學(xué)習(xí)PPT完整全套教學(xué)課件_第3頁
機(jī)器學(xué)習(xí)PPT完整全套教學(xué)課件_第4頁
機(jī)器學(xué)習(xí)PPT完整全套教學(xué)課件_第5頁
已閱讀5頁,還剩699頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)第1章機(jī)器學(xué)習(xí)概述章節(jié)介紹隨著大數(shù)據(jù)的發(fā)展和計(jì)算機(jī)運(yùn)算能力的不斷提升,人工智能在最近幾年取得令人矚目的成就,目前在很多行業(yè)都開始應(yīng)用機(jī)器學(xué)習(xí)技術(shù),從而獲取更深刻的洞察,為企業(yè)經(jīng)營或日常生活提供幫助,提升產(chǎn)品服務(wù)水平。機(jī)器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于數(shù)據(jù)挖掘、搜索引擎、電子商務(wù)、自動駕駛、圖像識別、量化投資、自然語言處理、計(jì)算機(jī)視覺、醫(yī)學(xué)診斷、信用卡欺詐檢測、證券金融市場分析、游戲和機(jī)器人等領(lǐng)域,在分析中使用機(jī)器學(xué)習(xí)的現(xiàn)實(shí)意義是獲得有用信息,隨著機(jī)器學(xué)習(xí)相關(guān)技術(shù)的進(jìn)步,促進(jìn)了人工智能在多個領(lǐng)域的發(fā)展章節(jié)結(jié)構(gòu)機(jī)器學(xué)習(xí)簡介機(jī)器學(xué)習(xí)簡史機(jī)器學(xué)習(xí)主要流派機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)挖掘什么是人工智能機(jī)器學(xué)習(xí)、人工智能與數(shù)據(jù)挖掘典型機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)的一般流程機(jī)器學(xué)習(xí)簡介機(jī)器學(xué)習(xí)的形式化的描述對于某類任務(wù)T和性能度量P,如果一個計(jì)算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善,那么就稱這個計(jì)算機(jī)程序在從經(jīng)驗(yàn)E學(xué)習(xí)。機(jī)器學(xué)習(xí)的主要理論基礎(chǔ)概率論、數(shù)理統(tǒng)計(jì)、數(shù)值逼近、最優(yōu)化理論、計(jì)算復(fù)雜理論機(jī)器學(xué)習(xí)的核心要素?cái)?shù)據(jù)算法模型議程機(jī)器學(xué)習(xí)簡史機(jī)器學(xué)習(xí)階段年份主要成果代表人物人工智能起源1936自動機(jī)模型理論AlanTuring1943MP模型WarrenMcCulloch、WalterPitts1951符號演算JohnvonNeumann1950邏輯主義ClaudeShannon1956人工智能JohnMcCarthy、MarvinMinsky、ClaudeShannon人工智能初期1958LISPJohnMcCarthy1962感知器收斂理論FrankRoseblatt1972通用問題求解(GPS)AllenNewell、HerbertSimon1975框架知識表示MarvinMinsky進(jìn)化計(jì)算1965進(jìn)化策略IngoRechenberg1975遺傳算法JohnHenryHolland1992基因計(jì)算JohnKoza專家系統(tǒng)和知識工程1965模糊邏輯、模糊集LotfiZadeh1969DENDRA、MYCINFeigenbaum、Buchanan、Lederberg1979ROSPECTORDuda神經(jīng)網(wǎng)絡(luò)1982Hopfield網(wǎng)絡(luò)Hopfield1982自組織網(wǎng)絡(luò)Kohonen1986BP算法Rumelhart、McClelland1989卷積神經(jīng)網(wǎng)絡(luò)LeCun1998LeNetLeCun1997循環(huán)神經(jīng)網(wǎng)絡(luò)RNNSeppHochreiter、JurgenSchmidhuber分類算法1986決策樹ID3算法J.RossQuinlan1988Boosting算法Freund、MichaelKearns1993C4.5算法J.RossQuinlan1995AdaBoost算法YoavFreund、RobertSchapire1995支持向量機(jī)CorinnaCortes、Vapnik 2001隨機(jī)森林LeoBreiman、AdeleCutler深度學(xué)習(xí)2006深層神經(jīng)網(wǎng)訓(xùn)練方法GeoffreyHinton2012谷歌大腦AndrewNg2014生成對抗網(wǎng)絡(luò)GANIanGoodfellow議程符號主義使用符號、規(guī)則和邏輯來表征知識進(jìn)行邏輯推理,起源于邏輯學(xué)、哲學(xué)符號主義流派認(rèn)為學(xué)習(xí)是一個逆向演繹的過程,推理是從通用規(guī)則推導(dǎo)至特定事實(shí),歸納剛好相反,從特定事實(shí)總結(jié)出通用法則議程貝葉斯派

議程聯(lián)結(jié)主義聯(lián)結(jié)主義起源于神經(jīng)科學(xué),主要算法是神經(jīng)網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)中,將n個相連接的神經(jīng)元的輸出作為當(dāng)前神經(jīng)元的輸入,進(jìn)行加權(quán)計(jì)算,并加一個偏置值(Bias)之后通過激活函數(shù)來實(shí)現(xiàn)變換,激活的數(shù)的作用是將輸出控制在定的范圍以內(nèi)人工神經(jīng)網(wǎng)絡(luò)是以層(layer)形式組織起來,每層中包含多個神經(jīng)元,層與層之間通過一定的結(jié)構(gòu)連接起來,對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目的就是要找到網(wǎng)絡(luò)中各個突觸連接的權(quán)重和偏置值議程進(jìn)化主義1850年達(dá)爾文發(fā)現(xiàn)進(jìn)化論,在微觀上,DNA是線性串聯(lián)編碼,進(jìn)化過程是基因交叉、突變的過程。宏觀上,進(jìn)化過程是生物個體適應(yīng)環(huán)境的優(yōu)勝劣汰過程。智能要適應(yīng)不斷變化的環(huán)境,通過對進(jìn)化的過程進(jìn)行建模,產(chǎn)生智能行為進(jìn)化算法是在計(jì)算機(jī)上模擬進(jìn)化過程,基于“物競天擇,適者生存”的原則,不斷迭代優(yōu)化,直到找到最佳的結(jié)果。進(jìn)化算法包括基因編碼、種群初始化、交叉變異算子等基本操作,是一種比較成熟的具有廣泛適用性的全局優(yōu)化方法,具有自組織、自適應(yīng)、自學(xué)習(xí)的特性,能夠有效地處理傳統(tǒng)優(yōu)化算法難以解決的復(fù)雜問題議程行為類推主義根據(jù)約束條件來優(yōu)化函數(shù),行為類比主義者所持的基本觀點(diǎn)為人們所做的一切,所學(xué)習(xí)的一切。都是通過類比推理得出所謂的類比推理法,即觀察需要做出決定的新情景和已經(jīng)熟悉的情景之間的相似度議程機(jī)器學(xué)習(xí)主要流派符號主義使用符號、規(guī)則和邏輯來表征知識進(jìn)行邏輯推理,起源于邏輯學(xué)、哲學(xué)。符號主義流派認(rèn)為學(xué)習(xí)是一個逆向演繹的過程,推薦是從通用規(guī)則推導(dǎo)至特定事實(shí),歸納剛好相反,從特定事實(shí)總結(jié)出通用法則。機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)挖掘數(shù)據(jù)科學(xué)的目標(biāo)是理解事物機(jī)器學(xué)習(xí)主要任務(wù)是用于預(yù)測事物人工智能是生成行動議程什么是人工智能人工智能是要讓機(jī)器的行為看起來像人所表現(xiàn)出的智能行為一樣人工智能包括計(jì)算智能、感知智能和認(rèn)知智能等層次,目前人工智能還介于前兩者之間目前人工智能所處的階段還在“弱人工智能”(NarrowAI)階段,距離“強(qiáng)人工智能”(GeneralAI)

還有較長的路要走人工智能的典型系統(tǒng)包括以下幾個方面博弈游戲算法(如深藍(lán)、AlphaGo、AlphaZero等)機(jī)器人相關(guān)控制理論(運(yùn)動規(guī)劃、控制機(jī)器人行走等)優(yōu)化(谷歌地圖選擇路線)自然語言處理(自動程序)強(qiáng)化學(xué)習(xí)議程機(jī)器學(xué)習(xí)、人工智能與數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)是人工智能的一個分支,它是實(shí)現(xiàn)人工智能的一個核心技術(shù),即以機(jī)器學(xué)習(xí)為手段解決人工智能中的問題。機(jī)器學(xué)習(xí)是通過一些讓計(jì)算機(jī)可以自動“學(xué)習(xí)”的算法并從數(shù)據(jù)中分析獲得規(guī)律,然后利用規(guī)律對新樣本進(jìn)行預(yù)測機(jī)器學(xué)習(xí)和人工智能有很多交集,其中深度學(xué)習(xí)就是橫跨機(jī)器學(xué)習(xí)和人工智能的一個典型例子。深度學(xué)習(xí)的典型應(yīng)用是選擇數(shù)據(jù)訓(xùn)練模型,然后用模型做出預(yù)測數(shù)據(jù)挖掘是從大量的業(yè)務(wù)數(shù)據(jù)中挖掘隱藏、有用的、正確的知識促進(jìn)決策的執(zhí)行。數(shù)據(jù)挖掘的很多算法都來自于機(jī)器學(xué)習(xí),并在實(shí)際應(yīng)用中進(jìn)行優(yōu)化。機(jī)器學(xué)習(xí)最近幾年也逐漸跳出實(shí)驗(yàn)室,解決從實(shí)際的數(shù)據(jù)中學(xué)習(xí)模式,解決實(shí)際問題。數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的交集越來越大典型機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域機(jī)器學(xué)習(xí)能夠顯著提高企業(yè)的智能水平,增強(qiáng)企業(yè)的競爭力,人工智能對于各行業(yè)的影響越來越大,機(jī)器學(xué)習(xí)應(yīng)用的典型領(lǐng)域有網(wǎng)絡(luò)安全、搜索引擎、產(chǎn)品推薦、自動駕駛、圖像識別、識音識別、量化投資、自然語言處理等。隨著海量數(shù)據(jù)的累積和硬件運(yùn)算能力的不斷提升,機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域還在快速地延展。議程藝術(shù)創(chuàng)作圖像識別照片分類圖像變形圖片生成圖片美化圖片修復(fù)圖片場景描述議程藝術(shù)創(chuàng)作NeuralDoodle項(xiàng)目應(yīng)用深度神經(jīng)網(wǎng)絡(luò)將圖片生成藝術(shù)畫議程金融領(lǐng)域信用評分欺詐檢測股票市場預(yù)測客戶關(guān)系管理議程醫(yī)療領(lǐng)域預(yù)測患者的診斷結(jié)果制訂最佳療程評估風(fēng)險等級病理分析個性化醫(yī)療建立預(yù)測模型議程自然語言處理分詞詞性標(biāo)志句法分析自然語言生成文本分類信息檢索信息抽取文字校對問答系統(tǒng)機(jī)器翻譯自動摘要議程網(wǎng)絡(luò)安全反垃圾郵件反網(wǎng)絡(luò)釣魚上網(wǎng)內(nèi)容過濾反詐騙防范攻擊活動監(jiān)視密碼破解無邊界攻擊模型&限制邊界攻擊模型議程工業(yè)領(lǐng)域質(zhì)量管理災(zāi)害預(yù)測缺陷管理工業(yè)分揀故障感知應(yīng)用存在瓶頸數(shù)據(jù)質(zhì)量工程師經(jīng)驗(yàn)計(jì)算能力機(jī)器學(xué)習(xí)的不可解釋性議程娛樂行業(yè)預(yù)測票房視頻識別廣告計(jì)劃管理器機(jī)器學(xué)習(xí)算法監(jiān)督學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù),當(dāng)新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果。其訓(xùn)練集要求包括輸入和輸出,也可以說是特征和月標(biāo)。訓(xùn)練集的目標(biāo)通常是由人標(biāo)注的分類:邏輯回歸、決策樹、KNN、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯數(shù)字預(yù)測:線性回歸、KNN、GradientBoosting、AdaBoost無監(jiān)督學(xué)習(xí)并不需要人力來輸入標(biāo)簽聚類關(guān)聯(lián)分析強(qiáng)化學(xué)習(xí)通過觀察來學(xué)習(xí)做成如何的動作。每個動作都會對環(huán)境有所影響,學(xué)習(xí)對象根據(jù)觀察到的周圍環(huán)境的反饋來做出判斷。強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)如何基于環(huán)境而行動,以取得最大化的預(yù)期利益。議程分類算法分類算法是應(yīng)用分類規(guī)則對記錄進(jìn)行目標(biāo)映射,將其劃分到不同的分類中,構(gòu)建具有泛化能力的算法模型,即構(gòu)建映射規(guī)則來預(yù)測未知樣本的類別分類算法包括預(yù)測和描述兩種,經(jīng)過訓(xùn)練集學(xué)習(xí)的預(yù)測模型在遇到未知記錄時,應(yīng)用規(guī)則對其進(jìn)行類別劃分,而描述型的分類主要是對現(xiàn)有數(shù)據(jù)集中特征進(jìn)行解釋并進(jìn)行區(qū)分,例如對動植物的各項(xiàng)特征進(jìn)行描述,并進(jìn)行標(biāo)記分類,由這些特征來決定其屬于哪一類目主要的分類算法包括決策樹、支持向量機(jī)(SupportVectorMachine,

SVM)、最近鄰(KNearestNeighbors,

KNN)、貝葉斯網(wǎng)絡(luò)(BayesNetwork)和神經(jīng)網(wǎng)絡(luò)等議程決策樹顧名思義,決策樹是一棵用于決策的樹,目標(biāo)類別作為葉子結(jié)點(diǎn),特征屬性的驗(yàn)證作為非葉子節(jié)點(diǎn),而每個分支是特征屬性的輸出結(jié)果。擅長對人物、位置、事物的不同特征、品質(zhì)、特性進(jìn)行評估,可應(yīng)用于基于規(guī)則的信用評估、比賽結(jié)果預(yù)測等決策過程是從根結(jié)點(diǎn)出發(fā),測試不同的特征屬性,按照結(jié)果的不同選擇分支,最終落到某一葉子結(jié)點(diǎn),獲得分類結(jié)果主要的決策樹算法有ID3、C4.5、C5.0、CART、CHAID、SLIQ、SPRINT等算法決策樹的構(gòu)建過程是按照屬性的優(yōu)先級或重要性米逐漸確定樹的層次結(jié)構(gòu),使其葉于結(jié)點(diǎn)盡明能屬于同一類別,一般采用局部最優(yōu)的貪心策略來構(gòu)建決策樹議程支持向量機(jī)支持向量機(jī)的主要思想是將低維特征空間中的線性不可分進(jìn)行非線性映射轉(zhuǎn)化為高維空間的線性可分。此外,應(yīng)用結(jié)構(gòu)風(fēng)險最小理論在特征空間優(yōu)化分割超平面,可以找到盡可能寬的分類邊界,特別適合兩分類的問題,例如在二維平面圖中某些點(diǎn)是雜亂排布的,無法用一條直線分為兩類,但是在三維空間中,可能通過一個平面可以將其劃分為了避免在低維空間向高維高空轉(zhuǎn)化過程中增加計(jì)算復(fù)雜性和“維數(shù)災(zāi)難”支持向量機(jī)應(yīng)用核函數(shù),不需要關(guān)心非線性映射的顯式表達(dá)式,直接在高維空間建立線性分類器,優(yōu)化了計(jì)算復(fù)雜度。支持向量機(jī)常見的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基函數(shù)和二層神經(jīng)網(wǎng)絡(luò)核函數(shù)等支持向量機(jī)的目標(biāo)變量以分類最佳,雖然可以用于多分類,但效果不好。與其他分類算法相比,支持向量機(jī)對小樣本數(shù)據(jù)集分類效果更好議程最近鄰算法對樣本應(yīng)用向量空間模型表示,將相似度高的樣本分為一類,對新樣本計(jì)算與之距離最近(最相似)的樣本的類別,那么新樣本就屬于這些樣本中的類別最多那一類??梢娪绊懛诸惤Y(jié)果的因素分別為距離計(jì)算方法、近鄰的樣本數(shù)量等。相似度距離計(jì)算方法:歐式距離、曼哈頓距離、切比雪夫距離、明科夫斯基距離、標(biāo)準(zhǔn)化歐氏距離、馬氏距離、巴氏距離、漢明距離、夾角余弦、杰卡德相似系數(shù)、皮爾遜系數(shù)最近鄰算法的主要缺點(diǎn)在各分類樣本數(shù)量不平衡時誤差較大由于每次比較要遍歷整個訓(xùn)練樣本集來計(jì)算相似度,所以分類的效率較低,時間和空間復(fù)雜度較高近鄰的數(shù)量選擇不合理可能會導(dǎo)致結(jié)果的誤差較大在原始近鄰算法中沒有權(quán)重的概念,所有特征采用相同的權(quán)重參數(shù),這樣計(jì)算出來的相似度易產(chǎn)生誤差議程貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)又稱為置信網(wǎng)絡(luò),是基于貝葉斯定理繪制的具有概率分布的有向弧段圖形化網(wǎng)絡(luò),其理論基礎(chǔ)是貝葉斯公式,網(wǎng)絡(luò)中的每個點(diǎn)表示變量,有向孤段表示兩者間的概率關(guān)系與神經(jīng)網(wǎng)絡(luò)相比,貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)都具有實(shí)際的含義,節(jié)點(diǎn)之間的關(guān)系比較明確,可以從貝葉斯網(wǎng)絡(luò)中直觀看到變量之間的條件獨(dú)立和依賴關(guān)系,可以進(jìn)行結(jié)果和原因的雙向推理貝葉斯網(wǎng)絡(luò)分類算法分為樸索貝葉斯算法和普通貝葉斯算法,在節(jié)點(diǎn)數(shù)較少的網(wǎng)絡(luò)結(jié)構(gòu)中可選精確貝葉斯算法以提高精確概率,在節(jié)點(diǎn)數(shù)較多時,為減少推理過程和降低復(fù)雜性,一般選擇樸素貝葉斯算法議程神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層、輸出層,每一個節(jié)點(diǎn)代表一個神經(jīng)元,節(jié)點(diǎn)之間的連線對應(yīng)權(quán)重值,輸入變量經(jīng)過神經(jīng)元時會運(yùn)行激活函數(shù)對輸入值賦予權(quán)重和加上偏置,并將輸出結(jié)果傳遞到下一層中的神經(jīng)元,而權(quán)重值和偏置是在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中不斷修正神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程主要包括前向傳輸和逆向反饋,將輸入變量逐層向前傳遞最后得到輸出結(jié)果,并對比實(shí)際的結(jié)果,逐層逆向反饋誤差,同時對神經(jīng)元中權(quán)重值和偏置進(jìn)行修正,然后重新進(jìn)行前向傳輸,依此反復(fù)迭代直到最終預(yù)測結(jié)果與實(shí)際結(jié)果一致或在一定的誤差范圍內(nèi)。由于神經(jīng)網(wǎng)絡(luò)是基于歷史數(shù)據(jù)構(gòu)建的模型,因此,隨著新的數(shù)據(jù)不斷產(chǎn)生,需要進(jìn)行動態(tài)優(yōu)化,例如隨著時間變化,應(yīng)用新的數(shù)據(jù)對模型重新訓(xùn)練,調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)值議程聚類算法聚類是基于無監(jiān)督學(xué)習(xí)的分析模型,不需要對原始數(shù)據(jù)進(jìn)行標(biāo)記,按照數(shù)據(jù)的內(nèi)在結(jié)構(gòu)特征進(jìn)行聚集形成簇群,從而實(shí)現(xiàn)數(shù)據(jù)的分離聚類與分類的主要區(qū)別是其并不關(guān)心數(shù)據(jù)是什么類別,而是把相似的數(shù)據(jù)聚集起來形成某一類簇。在聚類的過程中,首先選擇有效特征構(gòu)成向量,然后按照歐式距離或其他距離函數(shù)進(jìn)行相似度計(jì)算,并劃分聚類,通過對聚類結(jié)果進(jìn)行評估,逐漸迭代生成新的聚類聚類應(yīng)用領(lǐng)域廣泛,可以用于發(fā)現(xiàn)不同的企業(yè)客戶群體特征、消費(fèi)者行為分析、市場細(xì)分、交易數(shù)據(jù)分析、動植物種群分類、醫(yī)療領(lǐng)域的疾病診斷、環(huán)境質(zhì)量檢測等,還可用于互聯(lián)網(wǎng)和電商領(lǐng)域的客戶分析、行為特征分類等聚類方法可分為基于層次的聚類、基于劃分的聚類、基于密度的聚類、基于約束的聚類、基于網(wǎng)絡(luò)的聚類等議程BIRCH算法BIRCH算法是指利用層次方法來平衡迭代規(guī)則和聚類,它只需要掃描數(shù)據(jù)集一次便可實(shí)現(xiàn)聚類,它利用了類似B+樹的結(jié)構(gòu)對樣本集進(jìn)行劃分,葉子結(jié)點(diǎn)之間用雙向鏈表進(jìn)行連接,逐漸對樹的結(jié)構(gòu)進(jìn)行優(yōu)化獲得聚類BIRCH算法的主要優(yōu)點(diǎn)空間復(fù)雜度低內(nèi)存占用少,效率較高,能夠?qū)υ肼朁c(diǎn)進(jìn)行濾除缺點(diǎn)樹中結(jié)點(diǎn)的聚類特征樹有個數(shù)限制,可能會產(chǎn)生其與實(shí)際類別個數(shù)不一致的情況對樣本有一定的限制,要求數(shù)據(jù)集的樣本是超球體,否則聚類的效果不佳。議程CURE算法傳統(tǒng)的基于劃分聚類的方法得到的是凸形的聚類,對異常數(shù)據(jù)較敏感,而CURE算法是使用多個代表點(diǎn)來替換聚類中的單個點(diǎn),算法更加健壯。并且在處理大數(shù)據(jù)時采用分區(qū)和隨機(jī)取樣,使其處理大數(shù)據(jù)量的樣本集時效率更高且不會降低聚類質(zhì)量議程k-均值算法

k-均值算法傳統(tǒng)的k-均值算法的聚類過程是在樣本集中隨機(jī)選擇k個聚類中心點(diǎn),對每個樣本計(jì)算候選中心的距離進(jìn)行分組,在得到分組之后重新計(jì)算類簇的中心,循環(huán)迭代直到聚類中心不變或收斂k-均值存在較多改進(jìn)算法,如初始化優(yōu)化k-均值++、距離優(yōu)化Elkank-Means算法、kPrototype算法等k-均值算法的主要優(yōu)點(diǎn)可以簡單快速處理大數(shù)據(jù)集,并且是可伸縮的,當(dāng)數(shù)據(jù)集中類之間區(qū)分明顯(凸形分布)時,聚類效果最好缺點(diǎn)要用戶給出k值,即聚類的數(shù)目,而聚類數(shù)有時事先很難確定一個合理的值k-均值算法對k值較敏感,如果k值不合理可能會導(dǎo)致結(jié)果局部最優(yōu)議程OPTICS算法在DBSCAN算法中,有兩個初始參數(shù)ε(鄰域半徑)和minPts(ε鄰域最小點(diǎn)數(shù))需要用戶手動設(shè)置,這兩個參數(shù)較關(guān)鍵,不同的取值將產(chǎn)生不同的結(jié)果。而OPTICS克服了上述問題,為聚類分析生成一個增廣的簇排序,代表了各樣本點(diǎn)基于密度的聚類結(jié)構(gòu)議程關(guān)聯(lián)分析關(guān)聯(lián)分析(AssociativeAnalysis)是通過對數(shù)據(jù)集中某些項(xiàng)目同時出現(xiàn)的概率來發(fā)現(xiàn)它們之間的關(guān)聯(lián)關(guān)系,其典型的應(yīng)用是購物籃分析,通過分析購物籃中不同商品之間的關(guān)聯(lián),分析消費(fèi)者的購買行為習(xí)慣,從而制定相應(yīng)的營銷策略,為商品促銷、產(chǎn)品定價、位置擺放等提供支持,并且可用于不同消費(fèi)者群體的劃分。關(guān)聯(lián)分析主要包括Apriori算法和FP-growth算法議程Apriori算法Apriori算法主要實(shí)現(xiàn)過程是首先生成所有頻繁項(xiàng)集,然后由頻繁項(xiàng)集構(gòu)造出滿足最小置信度的規(guī)則由于Apriori算法要多次掃描樣本集,需要由候選頻繁項(xiàng)集生成頻繁項(xiàng)集,在處理大數(shù)據(jù)量數(shù)據(jù)時效率較低。議程FP-growth算法為了改進(jìn)Apriori算法的低效,JiaweiHan等人提出基于FP樹生成頻繁項(xiàng)集的FP-growth算法,該算法只進(jìn)行兩次數(shù)據(jù)集掃描且不使用侯選項(xiàng)集,直接按照支持度來構(gòu)造一個頻繁模式樹,用這棵樹生成關(guān)聯(lián)規(guī)則,在處理比較大的數(shù)據(jù)集時效率比Apriori算法大約快一個數(shù)量級,對于海量數(shù)據(jù),可以通過數(shù)據(jù)劃分、樣本采樣等方法進(jìn)行再次改進(jìn)和優(yōu)化議程Eclat算法Eclat算法是種深度優(yōu)先算法,采用垂直數(shù)據(jù)表示形式,利用基于前綴的等價關(guān)系將搜索空間劃分為較小的子空間與FP-growth和Apriori算法不同,Eclat算法的核心思想是倒排,這種數(shù)據(jù)處理方式很適合用關(guān)系型數(shù)據(jù)表示和實(shí)現(xiàn)。這里的倒排是指將事務(wù)數(shù)據(jù)中的項(xiàng)作為key,

每個項(xiàng)對應(yīng)的事務(wù)ID作為value在Eclat算法中,由2個集合的并集產(chǎn)生新的候選項(xiàng)集,通過計(jì)算這2個項(xiàng)集的交集快速得到候選集的支持度。因此,會出現(xiàn)求交集的操作耗時較長,算法效率較低。此外,也會消耗系統(tǒng)大量的內(nèi)存空間議程回歸分析回歸分析是一種研究自變量和因變量之間關(guān)系的預(yù)測模型,用于分析當(dāng)自變量發(fā)生變化時因變量的變化值要求自變量相互獨(dú)立議程線性回歸機(jī)器學(xué)習(xí)應(yīng)用線性回歸進(jìn)行分析折時要求自變量是連續(xù)型,線性回歸用直線(回歸線)去建立因變量和一個或多個自變量之間的關(guān)系線性回歸主要的特點(diǎn)如下自變量與因變量之間呈現(xiàn)線性關(guān)系多重共線性、自相關(guān)和異方差對多元線性回歸的影響很大線性回歸對異常值非常敏感,其能影響預(yù)測值在處理多個自變量時,需要用逐步回歸的方法來來自動選擇顯著性變量,不需要人工干預(yù),其思想是將自變量逐個引入模型中,并進(jìn)行F檢驗(yàn)、t檢驗(yàn)等來篩選變量,當(dāng)新引人的變量對模型結(jié)果沒有改進(jìn)時,將其剔除,直到模型結(jié)果穩(wěn)定。逐步回歸的目的是選擇重要的自變量。用最少的變量去最大化模型的預(yù)測能力,它也是一種降維技術(shù),主要的方法有前進(jìn)法和后退法,前者是以最顯著的變量開始,逐漸增加次顯著變量。后者是逐漸剔除不顯著的變量議程邏輯回歸邏輯回歸般應(yīng)用于分類問題。如果因變量類型為序數(shù)型的,則稱為序數(shù)型邏輯回歸;如果因變量有多個,則稱為多項(xiàng)邏輯回歸邏輯回歸需要大的樣本量,在低樣本量的情況下可能效果不佳,因?yàn)樽畲笏迫还烙?jì)在低樣本數(shù)量時的統(tǒng)計(jì)結(jié)果誤差較大議程多項(xiàng)式回歸在回歸分析中有時會遇到線性回歸的直線擬合效果不佳,如果發(fā)現(xiàn)散點(diǎn)圖中數(shù)據(jù)點(diǎn)呈多項(xiàng)式曲線時,可以考慮使用多項(xiàng)式回歸來分析。用多項(xiàng)式回歸可以降低模型的誤差,但是如果處理不當(dāng)易造成模型過擬合,在回歸分析完成之后需要對結(jié)果進(jìn)行分析,并將結(jié)果可視化以查看其擬合程度議程嶺回歸嶺回歸又稱為脊回歸,在共線性數(shù)據(jù)分析中應(yīng)用較多,是種有偏估計(jì)的回歸方法,在最小二乘估計(jì)法的基礎(chǔ),上做了改進(jìn),通過舍棄最小二乘法的無偏性,以損失部分信息為代價使得回歸系數(shù)更穩(wěn)定和可靠。其中R方值會稍低于普通回歸分析方法,但回歸系數(shù)更加顯著,主要用于變量間存在共線性和數(shù)據(jù)點(diǎn)較少時議程LASSO回歸LASSO回歸的特點(diǎn)是與嶺回歸類似,在擬合模型的同時進(jìn)行變量篩選和復(fù)雜度調(diào)整。變量篩選是逐漸把變量放入模型從而得到更好的自變量組合。復(fù)雜度調(diào)整是通過參數(shù)調(diào)整來控制模型的復(fù)雜度,例如減少自變量的數(shù)量等,從而避免過度擬合LASSO回歸也是擅長處理多重共線性或存在一定噪聲和冗余的數(shù)據(jù),可以支持連續(xù)型因變量、二元、多元離散變量的分析議程深度學(xué)習(xí)深度學(xué)習(xí)方法是通過使用多個隱藏層和大量數(shù)據(jù)來學(xué)習(xí)特征,從而提升分類或預(yù)測的準(zhǔn)確性受限玻爾茲曼機(jī)深度信念網(wǎng)卷積神經(jīng)網(wǎng)絡(luò)層疊自動編碼器深度神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)對抗神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)的一般流程定義分析目標(biāo)收集數(shù)據(jù)數(shù)據(jù)預(yù)處理數(shù)據(jù)建模模型訓(xùn)練模型評估模型應(yīng)用謝謝機(jī)器學(xué)習(xí)第2章機(jī)器學(xué)習(xí)基本方法章節(jié)介紹本章主要介紹機(jī)器學(xué)習(xí)的基礎(chǔ)知識,包括常用概念和統(tǒng)計(jì)分析基礎(chǔ)知識目標(biāo)是理解掌握機(jī)器學(xué)習(xí)的主要原理主要涵蓋以下內(nèi)容,統(tǒng)計(jì)分析、高維數(shù)據(jù)降維、特征工程、模型訓(xùn)練等章節(jié)結(jié)構(gòu)統(tǒng)計(jì)分析統(tǒng)計(jì)基礎(chǔ)常見概率分布參數(shù)估計(jì)假設(shè)檢驗(yàn)線性回歸Logistics回歸判別分析非線性模型高維數(shù)據(jù)降維主成分分析線性判別分析局部線性嵌入章節(jié)結(jié)構(gòu)特征工程特征構(gòu)造特征選擇特征提取模型訓(xùn)練模型訓(xùn)練常見術(shù)語訓(xùn)練數(shù)據(jù)收集可視化分析可視化分析的作用可視化分析方法可視化分析常用工具常見的可視化圖表可視化分析面臨的挑戰(zhàn)統(tǒng)計(jì)分析統(tǒng)計(jì)學(xué)是研究如何搜集資料、整理資料和進(jìn)行量化分析、推斷的一門科學(xué),在科學(xué)計(jì)算、工業(yè)和金融等領(lǐng)域有著重要應(yīng)用,統(tǒng)計(jì)分析是機(jī)器學(xué)習(xí)的基本方法與統(tǒng)計(jì)分析相關(guān)的基本概念有以下幾個總體:根據(jù)定目的確定的所要研究事物的全體樣本:從總體中隨機(jī)抽取的若干個體構(gòu)成的集合推斷:以樣本所包含的信息為基礎(chǔ)對總體的某些特征作出判斷、預(yù)測和估計(jì)推斷可靠性:對推斷結(jié)果從概率上的確認(rèn),作為決策的重要依據(jù)統(tǒng)計(jì)分析分為描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì),描述性統(tǒng)計(jì)是通過對樣本進(jìn)行整理、分析并就數(shù)據(jù)的分布情況獲取有意義的信息,從而得到結(jié)論。推斷統(tǒng)計(jì)又分為參數(shù)估計(jì)和假設(shè)檢驗(yàn),參數(shù)估計(jì)是對樣本整體中某個數(shù)值進(jìn)行估計(jì),如推斷總體平均數(shù)等,而假設(shè)檢驗(yàn)是通過對所做的推斷驗(yàn)證,從而進(jìn)擇行才方案議程統(tǒng)計(jì)基礎(chǔ)

議程統(tǒng)計(jì)基礎(chǔ)均值、標(biāo)準(zhǔn)差、方差、協(xié)方差均值描述的是樣本集合的平均值標(biāo)準(zhǔn)差描述是樣本集合的各個樣本點(diǎn)到均值的距離分布,描述的是樣本集的分散程度在機(jī)器學(xué)習(xí)中的方差就是估計(jì)值與其期望值的統(tǒng)計(jì)方差。如果進(jìn)行多次重復(fù)驗(yàn)證的過程,就會發(fā)現(xiàn)模型在訓(xùn)練集上的表現(xiàn)并不固定,會出現(xiàn)波動,這些波動越大,它的方差就越大協(xié)方差主要用來度量兩個隨機(jī)變量關(guān)系,如果結(jié)果為正值,則說明兩者是正相關(guān)的;結(jié)果為負(fù)值,說明兩者是負(fù)相關(guān)的;如果為0,就是統(tǒng)計(jì)上的“相互獨(dú)立”超參數(shù)超參數(shù)是機(jī)器學(xué)習(xí)算法的調(diào)優(yōu)參數(shù),常應(yīng)用于估計(jì)模型參數(shù)的過程中,由用戶直接指定,可以使用啟發(fā)式方法來設(shè)置,并能依據(jù)給定的預(yù)測問題而調(diào)整超參數(shù)與模型參數(shù)不同,模型參數(shù)是學(xué)習(xí)算法擬合訓(xùn)練數(shù)據(jù)獲得的參數(shù),即這些參數(shù)是作為模型本司身的參數(shù)而存在的議程統(tǒng)計(jì)基礎(chǔ)

議程統(tǒng)計(jì)基礎(chǔ)正則化與交叉驗(yàn)證L0正則化L1正則化L2正則化HoldOut檢驗(yàn)簡單交叉檢驗(yàn)K折交叉檢驗(yàn)留一交叉檢驗(yàn)議程常見概率分布

議程參數(shù)估計(jì)參數(shù)估計(jì)是用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù),即根據(jù)樣本數(shù)據(jù)選擇統(tǒng)計(jì)量去推斷總體的分布或數(shù)字特征估計(jì)參數(shù)的目的,是希望用較少的參數(shù)去描述數(shù)據(jù)的總體分布,前提是要了解樣本總體分布(如正態(tài)分布),這樣就只需要估計(jì)其中參數(shù)的值。如果無法確認(rèn)總體分布,那就要采用非參數(shù)估計(jì)的方法參數(shù)估計(jì)是統(tǒng)計(jì)推斷的種基本形式,分為點(diǎn)估計(jì)和區(qū)間估計(jì)兩部分。其中有多種方法,除了最基本的最小二乘法和極大似然法、貝葉斯估計(jì)、極大后驗(yàn)估計(jì),還有矩估計(jì)、一致最小方差無偏估計(jì)、最小風(fēng)險估計(jì)、最小二乘法、最小風(fēng)險法和極小化極大熵法等議程假設(shè)檢驗(yàn)

議程假設(shè)檢驗(yàn)

議程線性回歸線性回歸是種通過擬合自變量與因變量之間最佳線性關(guān)系,來預(yù)測目標(biāo)變量的方法回歸過程是給出一個樣本集,用函數(shù)擬合這個樣本集,使樣本集與擬合函數(shù)間的誤差最小回歸分析包括以下內(nèi)容確定輸入變量與目標(biāo)變量間的回歸模型,即變量間相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式根據(jù)樣本估計(jì)并檢驗(yàn)回歸模型及未知參數(shù)從眾多的輸入變量中,判斷哪些變量對目標(biāo)變量的影響是顯著的根據(jù)輸入變量的已知值來估計(jì)目標(biāo)變量的平均值并給出預(yù)測精度線性回歸的類型包括簡單線性回歸和多元線性回歸簡單線性回歸使用一個自變量,通過擬合最佳線性關(guān)系來預(yù)測因變量多元線性回歸使用多個獨(dú)立變量,通過擬合最佳線性關(guān)系來預(yù)測因變量議程線性回歸

議程Logistics回歸

議程判別分析

議程判別分析QDA和LDA之間的關(guān)系主要取決于方差和偏差的取舍,即模型的預(yù)測值和真實(shí)值之間的差異可以分解為方差和偏差這兩個此消彼長的量的綜合。通俗來說,高方差低誤差的模型意味著過于靈敏,當(dāng)需要預(yù)測的真實(shí)函數(shù)并沒有變化,而只是使用了不同的樣本,就能夠使預(yù)測值產(chǎn)生較大的變化。反之,高誤差低方差意味著過于遲鈍,即使真實(shí)的函數(shù)發(fā)生變化,依然不會使預(yù)測值改變。因此在其中如何取舍,就成了一個很重要的問題LDA相對方差更低,而QDA相對誤差更低。因此,在樣本集比較少,對協(xié)方差矩陣很難估計(jì)準(zhǔn)確時,采用LDA更加合適。而當(dāng)樣本集很大,或者類間協(xié)方差矩陣差異比較大的時候,采用QDA更加合適議程判別分析二次判別決策面運(yùn)行效果議程非線性模型在統(tǒng)計(jì)學(xué)中,非線性回歸是回歸分析的一種形式,非線性模型是由一個或多個自變量非線性組合一些常見非線性模型階躍函數(shù)分段函數(shù)樣條曲線廣義加性模型高維數(shù)據(jù)降維

議程主成分分析主成分分析是最常用的線性降維方法,它的目標(biāo)是通過某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中,并期望在所投影的維度上數(shù)據(jù)的方差最大,以此使用較少的維度,同時保留較多原數(shù)據(jù)的維度盡可能如果把所有的點(diǎn)都映射到一起,那么幾乎所有的區(qū)分信息都丟失了,而如果映射后方差盡可能的大,那么數(shù)據(jù)點(diǎn)則會分散開來,特征更加明顯。PCA是丟失原始數(shù)據(jù)信息最少的一種線性降維方法,最接近原始數(shù)據(jù)PCA算法目標(biāo)是求出樣本數(shù)據(jù)的協(xié)方差矩陣的特征值和特征向量,而協(xié)方差矩陣的特征向量的方向就是PCA需要投影的方向。使樣本數(shù)據(jù)向低維投影后,能盡可能表征原始的數(shù)據(jù)。協(xié)方差矩陣可以用散布矩陣代替,協(xié)方差矩陣乘以(n-1)就是散布矩陣,n為樣本的數(shù)量。協(xié)方差矩陣和散布矩陣都是對稱矩陣,主對角線是各個隨機(jī)變量(各個維度)的方差議程主成分分析

議程主成分分析基于sklearn(Python語言下的機(jī)器學(xué)習(xí)庫)和numpy隨機(jī)生成2個類別共40個3維空間的樣本點(diǎn),生成的代碼如下:mu_vec1=np.array([0,0,0])cov_mat1=np.array([[1,0,0],[0,1,0],[0,0,1]])class1_sample=np.random.multivariate_normal(mu_vec1,cov_mat1,20).Tmu_vec2=np.array([1,1,1])cov_mat2=np.array([[1,0,0],[0,1,0],[0,0,1]])class2_sample=np.random.multivariate_normal(mu_vec2,cov_mat2,20).T議程主成分分析生成的兩個類別class1_sample和class2_sample的樣本數(shù)據(jù)維度為3維,即樣本數(shù)據(jù)的特征數(shù)量為3個,將其置于3維空間中展示議程主成分分析計(jì)算40個點(diǎn)在3個維度上的平均向量議程主成分分析二維空間分布議程線性判別分析線性判別分析LDA)是一種有監(jiān)督的線性降維算法。與PCA不同,LDA是為了使降維后的數(shù)據(jù)點(diǎn)盡可能地容易被區(qū)分線性判別分析的原理是對于給定的訓(xùn)練集,設(shè)法將樣本投影到一條直線上,使得同類的投影點(diǎn)盡可能接近,異類樣本的投影點(diǎn)盡可能遠(yuǎn)離;在對新樣本進(jìn)行分類時,將其投影到這條直線上,再根據(jù)投影點(diǎn)的位置來確定新樣本的類別。PCA主要是從特征的協(xié)方差角度,去找到比較好的投影方式。LDA更多地考慮了標(biāo)注,即希望投影后不同類別之間數(shù)據(jù)點(diǎn)的距離更大,同一類別的數(shù)據(jù)點(diǎn)更緊湊議程線性判別分析

議程線性判別分析應(yīng)用LDA技術(shù)對鳶尾花(Iris)的樣本數(shù)據(jù)進(jìn)行分析,鳶尾花數(shù)據(jù)集是20世紀(jì)30年代的經(jīng)典數(shù)據(jù)集,它由Fisher收集整理,數(shù)據(jù)集包含150個數(shù)據(jù)集,分為3類,每類50個數(shù)據(jù),每個數(shù)據(jù)包含4個屬性。可通過花萼長度、花萼寬度、花瓣長度和花瓣寬度4個屬性預(yù)測鳶尾花卉屬于山鳶尾(IrisSetosa)、雜色鳶尾(IrisVersicolour)、維吉尼亞鳶尾(IrisVirginica)中的哪種類別,將類別文字轉(zhuǎn)化為數(shù)字類別序號萼片長(cm)萼片寬(cm)花瓣長(cm)花瓣寬(cm)類別1456.73.05.22.321466.32.55.01.921476.53.05.22.021486.23.45.42.32議程線性判別分析數(shù)據(jù)集中有4個特征,萼片長、萼片寬、花瓣長和花瓣寬,總共150行,每一行是一個樣本,這就構(gòu)成了一個4x150的輸入矩陣,輸出是1列,即花的類別,構(gòu)成了1x150的矩陣。分析的目標(biāo)就是通過LDA算法將輸入矩陣映射到低維空間中進(jìn)行分類議程局部線性嵌入局部線性嵌入(LLE)

是一種非線性降維算法,它能夠使降維后的數(shù)據(jù)較好地保持原有流形結(jié)構(gòu),每一個數(shù)據(jù)點(diǎn)都可以由其近鄰點(diǎn)的線性加權(quán)組合構(gòu)造得到局部線性嵌入尋求數(shù)據(jù)的低維投影,保留本地鄰域內(nèi)的距離。它可以被認(rèn)為是一系列局部主成分分析,被全局比較以找到最佳的非線性嵌入算法的主要步驟分為三步首先尋找每個樣本點(diǎn)的k個近鄰點(diǎn)然后,由每個樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣最后,由該樣本點(diǎn)的局部重建權(quán)值矩陣和近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的輸出值LLE在有些情況下也并不適用,例如數(shù)據(jù)分布在整個封閉的球面上,LLE則不能將它映射到二維空間,且不能保持原有的數(shù)據(jù)流形。因此在處理數(shù)據(jù)時,需要確保數(shù)據(jù)不是分布在用合的球面或者橢球面上議程局部線性嵌入用LLE對“瑞士卷”數(shù)據(jù)集進(jìn)行降維特征工程特征工程就是一個從原始數(shù)據(jù)提取特征的過程,這些特征可以很好地描述這些數(shù)據(jù),并且利用它們建立的模型在未知數(shù)據(jù)上的性能可以達(dá)到最優(yōu),最大限度減少“垃圾進(jìn),垃圾出”。特征提取得越有效,意味著構(gòu)建的模型性能越出色特征工程主要包括特征構(gòu)造(Featureconstruction)、特征選擇(FeatureSelection)、特征提取(

FeatureExtraction)議程特征構(gòu)造特征構(gòu)建指的是從原始數(shù)據(jù)中構(gòu)建新的特征,在實(shí)際應(yīng)用中需要手工構(gòu)建。首先研究真實(shí)的數(shù)據(jù)樣本,思考問題的形式和數(shù)據(jù)結(jié)構(gòu),如何更好地應(yīng)用到預(yù)測模型中特征構(gòu)建需要很強(qiáng)的洞察力和分析能力,要求能夠從原始數(shù)據(jù)中找出一些具有物理意義的特征。如果原始數(shù)據(jù)是表格數(shù)據(jù),一般使用混合屬性或者組合屬性來創(chuàng)建新的特征,或是分解、切分原有的特征來創(chuàng)建新的特征特征生成前的原始數(shù)據(jù)可以分單列變量、多列變量、多行樣本(時間序列)等三種情況議程特征選擇特征選擇的目的是從特征集合中挑選一組最具統(tǒng)計(jì)意義的特征子集,從而達(dá)到降維的效果。在實(shí)際應(yīng)用中,常用的方法是用一些評價指標(biāo)單獨(dú)地計(jì)算出單個特征跟類別變量之間的關(guān)系。如Pearson相關(guān)系數(shù)、基尼指數(shù)(Gini-index)、信息增益(InformationGain)等特征子集選擇的方法屬于篩選器(iter)方法,它主要例重于單個特征跟目標(biāo)變量的相關(guān)性。優(yōu)點(diǎn)是計(jì)算時間上較商效,對于過擬合問題也具有較高的魯棒性。缺點(diǎn)就是傾向于選擇冗余的特征,因?yàn)樗麄儾划?dāng)慮特征之間的相關(guān)性有可能某個特征的分類能力很差,但是它和某些其它特征組合起來會得到不錯的效果議程特征選擇做特征子集選取的方法還有封裝器(wrapper)

和集成方法(Embeded)封裝器方法實(shí)質(zhì)上是一個分類器,封裝器用選取的特征子集對樣本集進(jìn)行分類,分類的精度作為衡量特征子集好壞的標(biāo)準(zhǔn),經(jīng)過比較選出最好的特征子集。常用的有逐步回歸(Stepwiseregression)、向前選擇(Forwardselection)和向后選擇(Backwardselection)。它的優(yōu)點(diǎn)是考慮了特征與特征之間的關(guān)聯(lián)性,缺點(diǎn)是當(dāng)觀測數(shù)據(jù)較少時容易過擬合,當(dāng)特征數(shù)量較多時,計(jì)算時間會較長對于集成方法,它是學(xué)習(xí)器自身自主選擇特征,如使用Regularization做特征選擇,或者使用決策樹思想,例如應(yīng)用隨機(jī)森林和Gradientboosting做特征選擇,本質(zhì)上都是基于決策樹的特征選擇,只是細(xì)節(jié)上有些區(qū)別議程特征提取特征提取目的是自動地構(gòu)建新的特征,將原始數(shù)據(jù)轉(zhuǎn)換為一組具有明顯統(tǒng)計(jì)意義的核心特征。例如通過變換特征取值來減少原始數(shù)據(jù)中某個特征的取值個數(shù)等,或者減少特征的數(shù)量,只選擇關(guān)鍵特征。對于表格數(shù)據(jù),可以在特征矩陣上使用主成分分析來進(jìn)行特征提取常用的特征提取方法有主成分分析(PCA)獨(dú)立成分分析(Independentcomponentanalysis,ICA)線性判別分析(LDS)模型訓(xùn)練模型訓(xùn)練常見術(shù)語A/B測試(ABtesting)基準(zhǔn)(baseline)批次(batch)批次規(guī)模(batchsize)是訓(xùn)練過程中一個批次中的樣本的數(shù)量周期(epoch)檢查點(diǎn)(checkpoint)收斂(convergence)凸函數(shù)(convexfunction)決策邊界(decisionboundary)泛化(generalization)梯度下降(gradientdescent)議程訓(xùn)練數(shù)據(jù)收集從專業(yè)數(shù)據(jù)公司購買免費(fèi)的公開數(shù)據(jù)系統(tǒng)生成、人工標(biāo)注和交換可視化分析可視化分析是一種數(shù)據(jù)分析方法,利用人類的形象思維將數(shù)據(jù)關(guān)聯(lián),并映射為形象的圖表。人腦對于視覺信息的處理要比文本信息容易得多,所以可視化圖表能夠使用戶更好地理解信息,可視化分析憑借其直觀清晰,能夠提供新洞察和發(fā)現(xiàn)機(jī)會的特點(diǎn)活躍在諸多科學(xué)領(lǐng)域議程可視化分析的作用在數(shù)據(jù)分析中,通過繪制圖表更容易找到數(shù)據(jù)中的模式。傳統(tǒng)的數(shù)據(jù)分析方法存在一些局限性,需要借助于分析師豐富的分析經(jīng)驗(yàn)??梢暬治龇椒▽?shù)據(jù)以圖像的方式展現(xiàn),提供友好的交互,還可以提供額外的記憶幫助,對于將要分析的問題,無需事先假設(shè)或猜想,可以自動從數(shù)據(jù)中挖掘出更多的隱含信息在機(jī)器學(xué)習(xí)領(lǐng)域,缺失數(shù)據(jù)、過度訓(xùn)練、過度調(diào)優(yōu)等都會影響模型的建立,可視化分析可以幫助解決其中一些問題可視化分析在機(jī)器學(xué)習(xí)的數(shù)據(jù)預(yù)處理、模型選擇、參數(shù)調(diào)優(yōu)等階段也同樣發(fā)揮重要作用。在數(shù)據(jù)建模的過程中,容易辨別出數(shù)據(jù)的分布、異常、參數(shù)取值對模型性能的影響等議程可視化分析的作用在分析結(jié)果展示時,通過建立可視化儀表板,組合多幅可視化圖表,從不同的角度來描述信息,全方位展示分析結(jié)論除了輔助數(shù)據(jù)分析之外,可視化分析為看似冰冷的數(shù)據(jù)帶來更多趣味性,直觀清晰的表達(dá)擁有更多的受眾。在信息傳播領(lǐng)域,可視化結(jié)果的獨(dú)特風(fēng)格(顏色、線條、軸線、尺寸等)不僅將有用的信息展示出來,更像是種精美的藝術(shù)品,讓數(shù)據(jù)展示也變得更加富有情感議程可視化分析方法為了獲得易于理解的可視化結(jié)果,人機(jī)交互很重要??梢暬治龅某S梅椒ù笾驴梢詣澐譃槿齻€層次:領(lǐng)域方法、基礎(chǔ)方法以及方法論基礎(chǔ)領(lǐng)城方法領(lǐng)域方法是根據(jù)數(shù)據(jù)的來源領(lǐng)域以及數(shù)據(jù)的性質(zhì)進(jìn)行可視化,包括地理信息可視化、空間數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、跨媒體數(shù)據(jù)可視化、實(shí)時數(shù)據(jù)可視化等可視化基礎(chǔ)方法基礎(chǔ)方法包括統(tǒng)計(jì)圖表、視覺隱喻。常見的統(tǒng)計(jì)圖表有柱狀圖、折線圖、餅圖、箱圖、散點(diǎn)圖、韋恩圖、氣泡圖、雷達(dá)圖、熱地圖、等值線等,不同的統(tǒng)計(jì)圖表有各自的適用場合可視化分析的方法論基礎(chǔ)是視覺編碼,視覺編碼是指受眾對于接收到的視覺刺激進(jìn)行編碼,所以視覺編碼的關(guān)鍵在于使用符合目標(biāo)用戶人群視覺感知習(xí)慣的表達(dá)方法,鑒于視覺感知習(xí)慣往往與一個人的知識、經(jīng)驗(yàn)、心理等多種特異性的因素相關(guān),而且視覺感知是一種視覺信息直接映射與信息提取、轉(zhuǎn)換、存儲、處理、理解等后續(xù)活動結(jié)合而成的過程議程可視化分析常用工具ExcelTableauRawChart.jsProcessingWordleOrangeFacetsPython、R語言庫:matplotlib、Seaborn、Pyecharts、ggplosts議程常見可視化圖表時間序列可視化議程常見可視化圖表比例的可視化議程常見可視化圖表比例的可視化議程常見可視化圖表關(guān)系可視化議程常見可視化圖表關(guān)系可視化議程常見可視化圖表差異可視化議程常見可視化圖表差異可視化議程常見可視化圖表空間關(guān)系可視化議程可視化分析面臨的挑戰(zhàn)進(jìn)行可視化分析時挑戰(zhàn)主要來自于兩個方面:數(shù)據(jù)和可視化結(jié)果數(shù)據(jù)層面的挑戰(zhàn)包括數(shù)據(jù)的來源不唯、數(shù)據(jù)質(zhì)量良莠不齊、數(shù)據(jù)整合困難等挑戰(zhàn)。信息時代數(shù)據(jù)更新飛快、體量大,對可視化分析速度要求越來越高。分析過程涉及領(lǐng)域廣而繁雜,對于數(shù)據(jù)的專業(yè)解讀帶來挑戰(zhàn)在可視化結(jié)果層面,數(shù)據(jù)集中樣本的相關(guān)性導(dǎo)致視覺噪聲的大量出現(xiàn),面臨降噪的挑戰(zhàn)。受限于設(shè)備的長寬比、分辨率、現(xiàn)實(shí)世界的感受等,可視化圖表中大型圖像的感知的挑戰(zhàn);受限于可視化的算法以及硬件的性能,及時響應(yīng),高速圖像變換的挑戰(zhàn);專業(yè)領(lǐng)域不同帶來的可視化需求不同,最大限度地滿足受眾視覺喜好的挑戰(zhàn)此外還有可視化分析流程的優(yōu)化,可視化分析工具的可操作性等等。謝謝機(jī)器學(xué)習(xí)第3章決策樹與分類算法章節(jié)介紹分類的任務(wù)是將樣本(對象)劃分到合適的預(yù)定義目標(biāo)類中本章主要介紹決策樹算法,它是機(jī)器學(xué)習(xí)中的一個經(jīng)典的監(jiān)督式學(xué)習(xí)算法,被廣泛應(yīng)用F金融分析、生物學(xué)、天文學(xué)等多個領(lǐng)域本章首先介紹決策樹的1D3、C4.5、C5.0、CART等常用算法,然后討論決策樹的集成學(xué)習(xí),包括裝袋法、提升法、隨機(jī)森林、GBDT、AdaBoost等算法。最后介紹決策樹算法的應(yīng)用案例章節(jié)結(jié)構(gòu)決策樹算法分支處理連續(xù)屬性離散化過擬合問題分類效果評價集成學(xué)習(xí)裝袋法提升法GBGT隨機(jī)森林決策樹應(yīng)用決策樹算法分類算法是利用訓(xùn)練樣本集獲得分類函數(shù)即分類模型(分類器),從而實(shí)現(xiàn)將數(shù)據(jù)集中的樣本劃分到各個類中。分類模型通過學(xué)習(xí)訓(xùn)練樣本中屬性集與類別之間的潛在關(guān)系,并以此為依據(jù)對新樣本屬于哪一類進(jìn)行預(yù)測決策樹算法決策樹通過把數(shù)據(jù)樣本分配到某個葉子結(jié)點(diǎn)來確定數(shù)據(jù)集中樣本所屬的分類決策樹由決策結(jié)點(diǎn)、分支和葉子結(jié)點(diǎn)組成決策結(jié)點(diǎn)表示在樣本的一個屬性上進(jìn)行的劃分分支表示對于決策結(jié)點(diǎn)進(jìn)行劃分的輸出葉結(jié)點(diǎn)代表經(jīng)過分支到達(dá)的類。從決策樹根結(jié)點(diǎn)出發(fā),自頂向下移動,在每個決策結(jié)點(diǎn)都會進(jìn)行次劃分,通過劃分的結(jié)果將樣本進(jìn)行分類,導(dǎo)致不同的分支,最后到達(dá)個葉子結(jié)點(diǎn),這個過程就是利用決策樹進(jìn)行分類的過程決策樹算法外賣訂餐決策樹決策樹算法連續(xù)變量坐標(biāo)(1,4)(1,6)(3,1)(3,8)(6,6)(7,2)(7,7)(8,9)(11,3)(14,9)分類

○○決策樹算法決策樹對應(yīng)二維空間的分割結(jié)果議程分支處理往往使用啟發(fā)式算法來進(jìn)行決策樹的構(gòu)造,例如,使用貪婪算法對每個結(jié)點(diǎn)構(gòu)造部分最優(yōu)決策樹對于一個決策樹的構(gòu)建,最重要的部分就在于其分支處理,即確定在每個決策結(jié)點(diǎn)處的分支屬性分支屬性的選取即對決策節(jié)點(diǎn)上選擇哪一個屬性來對數(shù)據(jù)集進(jìn)行劃分,要求每個分支中樣本的類別純度盡可能高,而且不要產(chǎn)生樣本數(shù)量太少的分支議程ID3算法

議程ID3算法計(jì)算分支屬性對于樣本集分類好壞程度的度量——信息增益由于分裂后樣本集的純度提高,則樣本集的熵降低,熵降低的值即為該分裂方法的信息增益

議程ID3算法脊椎動物分類訓(xùn)練樣本集動物飲食習(xí)性胎生動物水生動物會飛哺乳動物人類雜食動物是否否是野豬雜食動物是否否是獅子肉食動物是否否是蒼鷹肉食動物否否是否鱷魚肉食動物否是否否巨蜥肉食動物否否否否蝙蝠雜食動物是否是是野牛草食動物是否否是麻雀雜食動物否否是否鯊魚肉食動物否是否否海豚肉食動物是是否是鴨嘴獸肉食動物否否否是袋鼠草食動物是否否是蟒蛇肉食動物否否否否議程ID3算法此樣本集有“飲食習(xí)性”、“胎生動物”、“水生動物”、“會飛”四個屬性可作為分支屬性,而“哺乳動物”作為樣本的分類屬性,有“是”與“否”兩種分類,也即正例與負(fù)例。共有14個樣本,其中8個正例,6個反例,設(shè)此樣本集為S,則分裂前的熵值為

議程ID3算法脊椎動物訓(xùn)練樣本集以“飲食習(xí)性”作為分支屬性的分裂情況“飲食習(xí)性”為“肉食動物”的分支中有3個正例、5個反例,其熵值為:

議程ID3算法同理,計(jì)算出“飲食習(xí)性”分類為“草食動物”的分支與分類為“雜食動物”的分支中的熵值分別為設(shè)“飲食習(xí)性”屬性為Y,由此可以計(jì)算得出,作為分支屬性進(jìn)行分裂之后的信息增益為

議程ID3算法同理,可以算出針對其他屬性作為分支屬性時的信息增益計(jì)算可得,以“胎生動物”“水生動物”“會飛”作為分支屬性時的信息增益分別為0.6893、0.0454、0.0454由此可知“胎生動物”作為分支屬性時能獲得最大的信息增益,即具有最強(qiáng)的區(qū)分樣本的能力,所以在此處選擇使用“胎生動物”作為分支屬性對根結(jié)點(diǎn)進(jìn)行劃分議程ID3算法由根結(jié)點(diǎn)通過計(jì)算信息增益選取合適的屬性進(jìn)行分裂,若新生成的結(jié)點(diǎn)的分類屬性不唯一,則對新生成的結(jié)點(diǎn)繼續(xù)進(jìn)行分裂,不斷重復(fù)此步驟,直至所有樣本屬于同一類,或者達(dá)到要求的分類條件為止常用的分類條件包括結(jié)點(diǎn)樣本數(shù)最少于來設(shè)定的值、決策樹達(dá)到預(yù)先設(shè)定的最大深度等在決策樹的構(gòu)建過程中,會出現(xiàn)使用了所有的屬性進(jìn)行分支之后,類別不同的樣本仍存在同一個葉子結(jié)點(diǎn)中。當(dāng)達(dá)到了限制條件而被強(qiáng)制停止構(gòu)建時,也會出現(xiàn)結(jié)點(diǎn)中子樣本集存在多種分類的情況。對于這種情況,一般取此結(jié)點(diǎn)中子樣本集占數(shù)的分類作為結(jié)點(diǎn)的分類分支多的屬性并不一定是最優(yōu)的,就如同將100個樣本分到99個分支中并沒有什么意義,這種分支屬性因?yàn)榉种嗫赡芟啾戎聼o法提供太多的可用信息,例如個人信息中的“省份”屬性議程C4.5算法

議程C5.0算法C5.0算法是Quinlan在C4.5算法的基礎(chǔ)上提出的商用改進(jìn)版本,目的是對含有大量數(shù)據(jù)的數(shù)據(jù)集進(jìn)行分析C5.0算法與C4.5算法相比有以下優(yōu)勢:決策樹構(gòu)建時間要比C4.5算法快上數(shù)倍,同時生成的決策樹規(guī)模也更小,擁有更少的葉子結(jié)點(diǎn)數(shù)使用了提升法(boosting),組合多個決策樹來做出分類,使準(zhǔn)確率大大提高提供可選項(xiàng)由使用者視情況決定,例如是否考慮樣本的權(quán)重、樣本錯誤分類成本等議程CART算法

議程連續(xù)屬性離散化分類數(shù)據(jù)有二元屬性、標(biāo)稱屬性等幾種不同類型的離散屬性二元屬性只有兩個可能值,如“是”或“否”“對“或“錯”,在分裂時,可以產(chǎn)生兩個分支。對于二元屬性,無須對其數(shù)據(jù)進(jìn)行特別的處理標(biāo)稱屬性存在多個可能值,針對所使用的決策樹算法的不同,標(biāo)稱屬性的分裂存在兩種方式:多路劃分和二元劃分對于ID3、C4.5等算法,均采取多分支劃分的方法,標(biāo)稱屬性有多少種可能的取值,就設(shè)計(jì)多少個分支CART算法采用二分遞歸分割的方法,因此該算法生成的決策樹均為二叉樹標(biāo)稱屬性中有類特別的屬性為序數(shù)屬性,其屬性的取值是有先后順序的。對于序數(shù)屬性的分類,往往要結(jié)合實(shí)際情況來考慮議程連續(xù)屬性離散化非監(jiān)督離散化不需要使用分類屬性值,相對簡單,有等寬離散化、等頻離散化、聚類等方法等寬離散化將屬性劃分為寬度一致的若干個區(qū)間等頻離散化將屬性劃分為若干個區(qū)間,每個區(qū)間的數(shù)量相等聚類將屬性間根據(jù)特性劃分為不同的簇,以此形式將連續(xù)屬性離散化非監(jiān)督離散化的方法能夠完成對連續(xù)數(shù)據(jù)進(jìn)行離散化的要求,但是相比之下,對連續(xù)屬性監(jiān)督離散化很多時候能夠產(chǎn)生更好的結(jié)果。常用的方法是通過選取極大化區(qū)間純度的臨界值來進(jìn)行劃分C4.5與CART算法中的連續(xù)屬性離散化方法均屬于監(jiān)督離散化方法CART算法使用Gini系數(shù)作為區(qū)間純度的度量標(biāo)準(zhǔn)C4.5算法使用熵作為區(qū)間純度的度量標(biāo)準(zhǔn)議程過擬合問題訓(xùn)練誤差代表分類方法對于現(xiàn)有訓(xùn)練樣本集的擬合程度泛化誤差代表此方法的泛化能力,即對于新的樣本數(shù)據(jù)的分類能力如何模型的訓(xùn)練誤差比較高,則稱此分類模型欠擬合模型的訓(xùn)練誤差低但是泛化誤差比較高,則稱此分類模型過擬合對于欠擬合問題,可以通過增加分類屬性的數(shù)量、選取合適的分類屬性等方法,提高模型對于訓(xùn)練樣本的擬合程度議程過擬合問題對口罩銷售定價進(jìn)行分類樣本集測試集產(chǎn)品名功能是否為純色銷售價位加厚口罩防塵否低保暖口罩保暖否高護(hù)耳口罩保暖是高活性炭口罩防霧霾是中三層防塵口罩防塵否低藝人同款口罩防塵是高呼吸閥口罩防霧霾是中產(chǎn)品名功能是否為純色銷售價位兒童口罩防塵是低情侶口罩保暖否高一次性口罩防塵否低無紡布口罩防塵是低顆粒物防護(hù)口罩防霧霾否中議程過擬合問題三層決策樹訓(xùn)練誤差為0,測試誤差高達(dá)2/5議程過擬合問題兩層決策樹訓(xùn)練集擬合程度相比較低,但測試集表現(xiàn)更好議程過擬合問題過擬合現(xiàn)象會導(dǎo)致隨著決策樹的繼續(xù)增長,盡管訓(xùn)練誤差仍在下降,但是泛化誤差停止下降,甚至還會提升決策樹誤差曲線議程過擬合問題解決過擬合問題,一方面要注意數(shù)據(jù)訓(xùn)練集的質(zhì)量,選取具有代表性樣本的訓(xùn)練樣本集。另一方面要避免決策樹過度增長,通過限制樹的深度來減少數(shù)據(jù)中的噪聲對于決策樹構(gòu)建的影響,一般可以采取剪枝的方法剪枝是用來縮小決策樹的規(guī)模,從而降低最終算法的復(fù)雜度并提高預(yù)測準(zhǔn)確度,包括預(yù)剪枝和后剪枝兩類預(yù)剪枝的思路是提前終止決策樹的增長,在形成完全擬合訓(xùn)練樣本集的決策樹之前就停止樹的增長,避免決策樹規(guī)模過大而產(chǎn)生過擬合后剪枝策略先讓決策樹完全生長,之后針對子樹進(jìn)行判斷,用葉子結(jié)點(diǎn)或者子樹中最常用的分支替換子樹,以此方式不斷改進(jìn)決策樹,直至無法改進(jìn)為止議程錯誤率降低剪枝錯誤率降低剪枝(REP)是后剪枝策略中最簡單的算法之一,該算法從葉子結(jié)點(diǎn)向上,依次將決策樹的所有子樹用其樣本中最多的類替換,使用一個測試集進(jìn)行測試,記錄下對于決策樹的每棵子樹剪枝前后的誤差數(shù)之差,選取誤差數(shù)減少最少的子樹進(jìn)行剪枝,將其用子樣本集中最多的類替換。按此步驟自底向上,遍歷決策樹的所有子樹,當(dāng)發(fā)現(xiàn)沒有可替換的子樹時,即每棵子樹剪枝后的誤差數(shù)都會增多,則剪枝結(jié)束REP剪枝方法簡單、快速,在數(shù)據(jù)集較大時效果不錯,但由于需要比對模型子樹替換前后的預(yù)測錯誤率,因此需要從數(shù)據(jù)集中劃分出單獨(dú)的測試集,故而當(dāng)數(shù)據(jù)集較小時,REP剪枝策略的效果會有所下降議程悲觀剪枝

議程代價復(fù)雜度剪枝策略

議程分類效果評價對于一般分類問題,有訓(xùn)練誤差、泛化誤差、準(zhǔn)確率、錯誤率等指標(biāo)對于常見的二分類問題,樣本只有兩種分類結(jié)果,將其定義為正例與反例。那么在進(jìn)行分類時,對于一個樣本,可能出現(xiàn)的分類情況共有四種:樣本為正例,被分類為正例,稱為真正類(TP)樣本為正例,被分類為反例,稱為假反類(FN)樣本為反例,被分類為正例,稱為假正類(FP)樣本為反例,被分類為反例,稱為真反類(TN)議程分類效果評價準(zhǔn)確率:分類模型正確分類的樣本數(shù)(包括正例與反例)與樣本總數(shù)的比值精確率(precision):模型正確分類的正例樣本數(shù)與總的正例樣本總數(shù)(即正確分類的正例樣本數(shù)目與錯誤分類的正確樣本數(shù)目之和)的比值召回率(recall,也稱為查全率):模型分類正確的正例樣本數(shù)與分類正確的樣本總數(shù)(分類正確的正例和分類正確的反例之和)的比值

議程分類效果評價

議程分類效果評價受試者工作特征曲線(ROC)曲線也是一種常用的綜合評價指標(biāo)。假設(shè)檢驗(yàn)集中共有20個樣本,每個樣本為正類或反類,根據(jù)分類算法模型可以得出每個樣本屬于正類的概率,將樣本按照此概率由高到低排列樣本編號分類預(yù)測為正類的概率1正類0.982正類0.963正類0.924正類0.885正類0.856正類0.837反類0.828正類0.89正類0.7810反類0.7111正類0.6812正類0.6413正類0.5914正類0.5515反類0.5216正類0.5117正類0.518反類0.4819正類0.4220反類0.2議程分類效果評價ROC曲線下的面積稱為AUC(AreaunderCurve),AUC值越大,表示分類模型的預(yù)測準(zhǔn)確性越高,ROC曲線越光滑,一般代表過擬合現(xiàn)象越輕議程分類效果評價方法保留法將樣本集按照定比例劃分為訓(xùn)練集與檢驗(yàn)集兩個集合,兩個集合中樣本隨機(jī)分配且不重疊。對于比例的確定,一般情況下,訓(xùn)練集會大于檢驗(yàn)集,例如訓(xùn)練集占70%,檢驗(yàn)集占30%,具體比例可結(jié)合實(shí)際情況進(jìn)行判定蒙特卡洛交叉驗(yàn)證,也稱重復(fù)隨機(jī)二次采樣驗(yàn)證,這種驗(yàn)證方法隨機(jī)將數(shù)據(jù)集劃分為訓(xùn)練集與檢驗(yàn)集,使用檢驗(yàn)集檢驗(yàn)訓(xùn)練集訓(xùn)練的模型效果,多次重復(fù)此過程取平均值作為模型好壞的評價標(biāo)準(zhǔn)。蒙特卡洛交叉驗(yàn)證法也可看作是多次進(jìn)行保留法k折交叉驗(yàn)證法將樣本集隨機(jī)地劃分為k個大小相等的子集,在每一輪交叉驗(yàn)證中,選擇一個子集作為檢驗(yàn)集,其余子集作為訓(xùn)練集,重復(fù)k輪,保證每一個子集都作為檢驗(yàn)集出現(xiàn),用K輪檢驗(yàn)結(jié)果取平均值作為模型好壞的評價標(biāo)準(zhǔn)。最常用的k折交叉驗(yàn)證法為十折交叉驗(yàn)證議程分類效果評價方法

集成學(xué)習(xí)集成學(xué)習(xí)(Ensemblelearning)是機(jī)器學(xué)習(xí)中近年來的一大熱門領(lǐng)域。其中的集成方法是用多種學(xué)習(xí)方法的組合來獲取比原方法更優(yōu)的結(jié)果使用于組合的算法是弱學(xué)習(xí)算法,即分類正確率僅比隨機(jī)猜測略高的學(xué)習(xí)算法,但是組合之后的效果仍可能高于強(qiáng)學(xué)習(xí)算法,即集成之后的算法準(zhǔn)確率和效率都很高議程裝袋法裝袋法(Bagging)又稱為BootstrapAggregating,其原理是通過組合多個訓(xùn)練集的分類結(jié)果來提升分類效果裝袋法由于多次采樣,每個樣本被選中的概率相同,因此噪聲數(shù)據(jù)的影響下降,所以裝袋法太容易受到過擬合的影響使用sklearn庫實(shí)現(xiàn)的決策樹裝袋法提升分類效果。其中X和Y分別是鳶尾花(iris)數(shù)據(jù)集中的自變量(花的特征)和因變量(花的類別)fromsklearn.model_selectionimportKFoldfromsklearn.model_selectionimportcross_val_scorefromsklearn.ensembleimportBaggingClassifierfromsklearn.treeimportDecisionTreeClassifierfromsklearnimportdatasets#加載iris數(shù)據(jù)集iris=datasets.load_iris()X=iris.dataY=iris.target議程裝袋法運(yùn)行之后的結(jié)果如下CART樹結(jié)果:0.933333333333裝袋法提升后結(jié)果:0.946666666667可以看到裝袋法對模型結(jié)果有一定提升。當(dāng)然,提升程度與原模型的結(jié)構(gòu)和數(shù)據(jù)質(zhì)量有關(guān)。如果分類回歸樹的樹高度設(shè)置為3或5,原算法本身的效果就會比較好,裝袋法就沒有提升空間#分類器及交叉驗(yàn)證seed=42kfold=KFold(n_splits=10,random_state=seed)cart=DecisionTreeClassifier(criterion='gini',max_depth=2)cart=cart.fit(X,Y)result=cross_val_score(cart,X,Y,cv=kfold)print("CART樹結(jié)果:",result.mean())model=BaggingClassifier(base_estimator=cart,n_estimators=100,random_state=seed)result=cross_val_score(model,X,Y,cv=kfold)print("裝袋法提升后結(jié)果:",result.mean())議程提升法提升法(Boosting)與裝袋法相比每次的訓(xùn)練樣本均為同一組,并且引入了權(quán)重的概念,給每個單獨(dú)的訓(xùn)練樣本都會分配個相同的初始權(quán)重。然后進(jìn)行T輪訓(xùn)練,每-輪中使用一個分類方法訓(xùn)練出一個分類模型,使用此分類模型對所有樣本進(jìn)行分類并更新所有樣本的權(quán)重:分類正確的樣本權(quán)重降低,分類錯誤的樣本權(quán)重增加,從而達(dá)到更改樣本分布的目的。由此可知,每一輪訓(xùn)練后,都會生成一個分類模型,而每次生成的這個分類模型都會更加注意在之前分類錯誤的樣本,從而提高樣本分類的準(zhǔn)確率。對于新的樣本,將T輪訓(xùn)練出的T個分類模型得出的預(yù)測結(jié)果加權(quán)平均,即可得出最終的預(yù)測結(jié)果。議程提升法基于sklearn庫中的提升法分類器對決策樹進(jìn)行優(yōu)化,提高分類準(zhǔn)確率。Python代碼如下,其中l(wèi)oad_breast_cancer()方法加載乳腺癌數(shù)據(jù)集,自變量(細(xì)胞核的特征)和因變量(良性、惡性)分別賦給X和Y變量fromsklearn.model_selectionimportKFoldfromsklearn.model_selectionimportcross_val_scorefromsklearn.ensembleimportAdaBoostClassifierfromsklearn.treeimportDecisionTreeClassifierfromsklearnimportdatasetsdataset_all=datasets.load_breast_cancer()X=dataset_all.dataY=dataset_all.targetseed=42議程提升法運(yùn)行之后的結(jié)果如下。決策樹結(jié)果:0.92969924812提升法改進(jìn)結(jié)果:0.970112781955可以看到提升法對當(dāng)前決策樹分類器的分類效果改進(jìn)較大kfold=KFold(n_splits=10,random_state=seed)dtree=DecisionTreeClassifier(criterion='gini',max_depth=3)dtree=dtree.fit(X,Y)result=cross_val_score(dtree,X,Y,cv=kfold)print("決策樹結(jié)果:",result.mean())model=AdaBoostClassifier(base_estimator=dtree,n_estimators=100,random_state=seed)result=cross_val_score(model,X,Y,cv=kfold)print("提升法改進(jìn)結(jié)果:",result.mean())議程GBDT梯度提升決策樹算法是利用梯度下降的思想,使用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,作為提升樹中殘差的近似值,以此來擬合回歸決策樹。梯度提升決策樹的算法過程如下:初始化決策樹,估計(jì)一個使損失函數(shù)最小化的常數(shù)構(gòu)建一個只有根節(jié)點(diǎn)的樹。不斷提升迭代:計(jì)算當(dāng)前模型中損失函數(shù)的負(fù)梯度值,作為殘差的估計(jì)值;估計(jì)回歸樹中葉子節(jié)點(diǎn)的區(qū)域,擬合殘差的近似值;利用線性搜索估計(jì)葉子節(jié)點(diǎn)區(qū)域的值,使損失函數(shù)極小化;更新決策樹。經(jīng)過若干輪的提升法迭代過程之后,輸出最終的模型議程GBDT對于GBDT算法的具體實(shí)現(xiàn),最為出色的是XGBoost樹提升系統(tǒng)下面是在Python環(huán)境下使用XGBoost模塊進(jìn)行回歸的調(diào)用示例,首先用pandas構(gòu)造一個最簡單的數(shù)據(jù)集df,其中x的值為[1,2,3],y的值為[10,20,30],并構(gòu)建訓(xùn)練集矩陣T_train_xbg。代碼如下importpandasaspdimportxgboostasxgbdf=pd.DataFrame({'x':[1,2,3],'y':[10,20,30]})X_train=df.drop('y',axis=1)Y_train=df['y']T_train_xgb=xgb.DMatrix(X_train,Y_train)params={"objective":"reg:linear","booster":"gblinear"}gbm=xgb.train(dtrain=T_train_xgb,params=params)Y_pred=gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]})))print(Y_pred)議程隨機(jī)森林

議程隨機(jī)森林使用sklearn庫中的隨機(jī)森林算法和決策樹算法進(jìn)行效果對比,數(shù)據(jù)集由生成器隨機(jī)生成,示例代碼如下fromsklearn.model_selectionimportcross_val_scorefromsklearn.datasetsimportmake_blobsfromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportExtraTreesClassifierfromsklearn.treeimportDecisionTreeClassifierX,y=make_blobs(n_samples=1000,n_features=6,centers=50,random_state=0)pyplot.scatter(X[:,0],X[:,1],c=y)pyplot.show()決策樹應(yīng)用VMware公司使用定制的決策樹進(jìn)行定價優(yōu)化長期以來,VMware公司的產(chǎn)品價格罕有變動。當(dāng)接收到大訂單的時候,銷售代表會通過銷售人員特別折扣(salespersonspecificdiscount,SPF)標(biāo)識來給出特定折扣。而VMW的定價部門則希望找到一種方法來優(yōu)化其產(chǎn)品定價。在各個商業(yè)領(lǐng)域,市場上都有著對應(yīng)的解訣定價問題的數(shù)據(jù)挖掘解決方案。解決方案的目標(biāo)不僅是優(yōu)化定價,同時還要讓客戶的利益最大化。VMW公司的分析和數(shù)據(jù)科學(xué)小組通過分析歷史價格和相應(yīng)的銷量變化,來理解折扣百分比與SPF標(biāo)識的關(guān)聯(lián)性,并以此為依據(jù)歸納出所有產(chǎn)品的推薦定價。傳統(tǒng)的定價優(yōu)化會根據(jù)數(shù)量變化來進(jìn)行價格變動,但是VMW公司并不會改變價格,而是使用折扣作為替代方法,額外的步驟來確定是否需要給出折扣以及折扣率決策樹應(yīng)用小組使用決策樹的方法,基于折扣率和SPF標(biāo)識的使用情況來對所有訂單進(jìn)行分類。根據(jù)業(yè)務(wù)的需求,以一種特定順序構(gòu)建出多分支(非二元)決策樹。各種可能訂單定價的屬性都在決策樹構(gòu)建中被考慮進(jìn)來。決策樹構(gòu)建過程中,基于均方誤差、熵、log-loss.Gini指標(biāo)等確定了決策樹構(gòu)建過程中分支屬性的順序。構(gòu)建的定制決策樹使用了R語言的開發(fā)包從葉子結(jié)點(diǎn)自底向上構(gòu)建決策樹。相比于使用標(biāo)準(zhǔn)分裂標(biāo)準(zhǔn),使用的是根據(jù)業(yè)務(wù)需求定制的分裂標(biāo)準(zhǔn)。分裂停止標(biāo)準(zhǔn)是最小化觀測對象數(shù)目。針對完成的分塊,基于分塊的屬性特性觀察其折扣百分比與SPF使用情況的關(guān)聯(lián)性,并完成產(chǎn)品平臺級的定價推薦決策樹應(yīng)用建模過程包括數(shù)據(jù)集的創(chuàng)建、針對折扣率定制回歸樹、針對SPF標(biāo)識定制分類樹、確定相關(guān)性。數(shù)據(jù)集使用Greenplum與Hadoop進(jìn)行創(chuàng)建,包含企業(yè)數(shù)據(jù)倉庫中近年來的大量數(shù)據(jù)。定制回歸樹的構(gòu)建過程中,根據(jù)測量標(biāo)準(zhǔn)將訂單劃分為248個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論