




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)挖掘技術(shù)與應(yīng)用機器學習與深度學習第1章引言第2章簡單模型第3章貝葉斯學習第4章決策樹第5章支持向量機第6章集成學習第7章聚類第8章感知機與神經(jīng)網(wǎng)絡(luò)第9章-卷積神經(jīng)網(wǎng)絡(luò)第10章循環(huán)神經(jīng)網(wǎng)絡(luò)第11章生成對抗網(wǎng)絡(luò)第12章強化學習第一章引言1.1
人工智能概述1.2機器學習概述1.3深度學習概述
of312習題1.1人工智能概述第一章引言of313人類的生產(chǎn)和生活中,無時無刻不在伴隨著智能,比如下棋、猜謎、寫作、編程,甚至是駕車、說話、做飯等,都需要人用腦去做。如果機器能完成這些任務(wù),那就可以認為機器具備了“人工智能”(AI:ArtificialIntelligence)。1.1人工智能概述第一章引言of314理論基礎(chǔ)
信息:對世間萬物的表示與表達認知:人腦對外部世界形成判斷,并確定萬物之間的聯(lián)系智能:人類運用腦思維,對各種信息進行處理的能力,包括學習能力、抽象思維能力等等在信息、認知和智能的基礎(chǔ)上,產(chǎn)生了各種學科的交叉,e.g.信息論、控制科學、數(shù)學、計算機科學、認知科學等
1.1.1人工智能產(chǎn)生的基礎(chǔ)條件技術(shù)基礎(chǔ):
計算機的誕生與發(fā)展:誕生于20世紀40-50年代,通過幾十年的不斷發(fā)展,物理體積越來越小,計算速度與存儲容量卻呈現(xiàn)出爆炸式的增長計算機技術(shù)質(zhì)的飛躍:從解決數(shù)值計算問題,發(fā)展到模擬人類的智力活動,e.g.圖形圖像檢測、語言翻譯、聲音識別、電腦游戲等等
1.1人工智能概述第一章引言of3151人工智能的思想萌芽(20世紀30年代)當時計算機還沒誕生,被稱為“人工智能之父”的圖靈,當時不僅創(chuàng)造了一個簡單的非數(shù)字計算模型,而且證明了計算機可以用智能的方式進行工作2人工智能作為學科而出現(xiàn)(20世紀50年代)1956年夏,在美國達特茅斯大學舉行了一個長達2個月的研討會,由當時年輕的數(shù)學家John-McCarthy和他的眾多學者朋友參加。在會上,McCarthy提出了“ArtificialIntelligence”一詞,之后Newell和Simon提出了物理符號系統(tǒng)假設(shè),從而創(chuàng)建了人工智能學科3人工智能的第一次低谷(20世紀70年代)許多科研人員預先低估了人工智能問題的復雜性,導致在實踐過程中遇到了三大瓶頸問題:(1)計算機性能不足(2)所設(shè)計的程序解決不了大規(guī)模的運算問題(3)無法找到容量足夠大的數(shù)據(jù)庫作為人工智能問題的底層載體來支撐從20世紀30年代的思想萌芽一直發(fā)展到今天,人工智能共經(jīng)歷了6個歷史性的階段1.1.2人工智能的發(fā)展史1.1人工智能概述第一章引言of3164人工智能的崛起(1980年)一個名為“XCON”的專家系統(tǒng),采用“知識庫+推理機”的結(jié)構(gòu),并投入數(shù)字設(shè)備公司進行使用。它本身是一套專業(yè)知識和經(jīng)驗都很完備的計算機智能系統(tǒng),并為該公司帶來了商業(yè)價值。隨后,其他的專家系統(tǒng)也跟著誕生了,且價格不菲。此時,像Symbolics、LispMachines這樣的計算機軟件公司也隨之成立了。5人工智能的第二次低谷(1987年)蘋果公司和IBM公司生產(chǎn)的臺式機在性能上超越了Symbolics等公司生產(chǎn)的通用計算機。此時,專家系統(tǒng)就變得黯然失色,人工智能系統(tǒng)從此走向衰敗。6人工智能再次崛起(20世紀90年代至今)1997年,IBM的計算機“深藍”完勝國際象棋世界冠軍,標志著人工智能的發(fā)展進入了一個重要的里程碑。2006年,Hinton在Science期刊上發(fā)表了一篇關(guān)于深度神經(jīng)網(wǎng)絡(luò)(亦稱深度學習)的文章,揭示了在人工智能領(lǐng)域取得的重大突破性成果,使人類又一次看到了機器取代人類智能的希望。至此,人工智能在全球范圍內(nèi)日漸火熱。1.1.2人工智能的發(fā)展史(續(xù))1.1人工智能概述第一章引言of317
人工智能就是讓計算機去實現(xiàn)人類智能。換言之,人工智能即機器智能。具有智能的機器可以幫助人們解決生產(chǎn)生活中的各種問題,為社會創(chuàng)造效益,服務(wù)于人。大致上,人工智能可以分為如下幾大分支,且它們相互交叉,相互滲透。1.1.3人工智能的幾個重要分支規(guī)劃與調(diào)度通過計算和優(yōu)化,幫助人們確定最優(yōu)的調(diào)度或者組合方案。這類系統(tǒng)廣泛應(yīng)用于城市規(guī)劃、軍事指揮、導航等專家系統(tǒng)一個有大量專門知識和經(jīng)驗的程序系統(tǒng),模擬人類專家的決策過程,以解決復雜的問題模式識別讓計算機把外界信號(圖像、聲音等)輸入到計算機內(nèi)部進行加工處理、分析、推斷等過程,最終實現(xiàn)識別機器學習數(shù)據(jù)挖掘機器人旨在運用數(shù)值法、信息論、統(tǒng)計學等方法,為人工智能的實現(xiàn)提供一系列訓練和判別的方法數(shù)據(jù)的獲取和存儲能力爆炸式的增長,考慮如何從大規(guī)模kao數(shù)據(jù)中挖掘出有價值的潛在信息一種可再編程的多功能操作裝置,可以把人工勞動從繁重、量大、重復的生產(chǎn)崗位上解放出來1.1人工智能概述第一章引言of3181.1.4人工智能與機器學習和深度學習的三者關(guān)系機器學習是人工智能的一個分支領(lǐng)域,而深度學習又是機器學習的方法之一第一章引言1.2機器學習概述1.1人工智能概述1.3深度學習概述
of319習題1.2機器學習概述第一章引言of31101.2.1機器學習的定義機器學習是一個從數(shù)據(jù)到理解的過程,如下圖所示。通過訓練學習(先驗數(shù)據(jù)),讓空白的機器變得有智能,可以推斷、預測、判別未知的世界,即實現(xiàn)人工智能1.2機器學習概述第一章引言of31111.2.2機器學習的主要方法
要實現(xiàn)所謂的“數(shù)據(jù)”到“理解”,需要一定的學習方法??墒牵煌姆椒〞a(chǎn)生不同的“模型”,進而影響對未知樣本的判斷效果,從而會產(chǎn)生不同的識別正確率。因此,選擇合適的學習方法至關(guān)重要。在機器學習領(lǐng)域,常用的方法有:
監(jiān)督學習非監(jiān)督學習半監(jiān)督學習集成學習強化學習深度學習(后面1.3節(jié)將著重介紹,本節(jié)不再贅述)度量學習1.2機器學習概述第一章引言of31121.2.2機器學習的主要方法(續(xù))
1、監(jiān)督學習
對類別已知的訓練樣本進行學習,并得到模型的過程,叫做監(jiān)督學習(SupervisedLearning)。Fisher線性鑒別分析(FisherLinearDiscriminantAnalysis,簡稱FLDA或LDA)是一種非常經(jīng)典的監(jiān)督學習方法,運用到了矩陣分析法和統(tǒng)計學。它在1936年由Fisher最早提出的,因此我們稱之為Fisher準則,如下圖所示,w是待求的投影方向。1.2機器學習概述第一章引言of31131.2.2機器學習的主要方法(續(xù))
2、非監(jiān)督學習
非監(jiān)督學習(UnsupervisedLearning)在事先不知道訓練樣本類別的情況下,去學習模型,從中判斷出樣本類別。在現(xiàn)實生活中,類別已知的樣本畢竟是少數(shù),大多數(shù)樣本都屬于類別未知的情況。在類別未知的情況下,人們一般用聚類(左圖)或樣本分布情況(右圖)來判斷不同的類別。前者適用于樣本數(shù)量少的情況,而后者適合樣本多的情況。1.2機器學習概述第一章引言of31141.2.2機器學習的主要方法(續(xù))
3、半監(jiān)督學習
監(jiān)督學習的前提是類別已知,非監(jiān)督學習過程中可以知曉訓練樣本的結(jié)構(gòu)信息。兩者相結(jié)合,便是半監(jiān)督學習(Semi-supervisedlearning)。
這種結(jié)合,能鞏固和加強模型對類別的區(qū)分度,如下圖所示,+”和“-”分別表示兩類樣本。訓練過程中,雖然空圈的樣本類別未知,但是當它加入“+”類后,使該類的結(jié)構(gòu)更接近于高斯分布了。因此,空圈被判為“+”類樣本。1.2機器學習概述第一章引言of31151.2.2機器學習的主要方法(續(xù))
4、集成學習
集成學習(EnsembleLearning)則是把若干單個弱分類器融合成強分類器,以加強分類效果。通過一定的集成方法,可以使集成后的分類效果好于任何一個單分類器。以Boost算法為例,如下圖所示,m表示融合的分類器個數(shù),虛線是剛剛學得的弱分類器,實線表示前m個單分類器融合后的分類邊界。該算法將邊界上容易錯分的樣本權(quán)值增大(即圈被放大),不斷根據(jù)錯分的樣本去調(diào)整并學習下一個單分類器,再融合進去,即m單調(diào)增大。隨著單分類器的不斷融合,分類的準確率不斷提升。當m=150時,融合后的強分類器幾乎可以達到100%的正確率。1.2機器學習概述第一章引言of31161.2.2機器學習的主要方法(續(xù))
5、強化學習
強化學習(ReinforcementLearning)在學習過程中,既沒有事先給定的類別標簽,也不拒絕次優(yōu)的模型,而是在一步步不斷嘗試各種模型的過程中,通過每步走完之后所反饋的獎勵值,來分析并探索下一步該怎么走,以達到累計獎勵值期望(即概率與獎勵值的乘積)最大化的目標。舉一個簡單的例子,人們都在探索如何保持身體健康。假如人的體質(zhì)分為健壯、適中、亞健康三種狀態(tài),即{S1,S2,S3}。在S1狀態(tài)下,鍛煉身體則獎勵值+0.5,不鍛煉則+0;在S2狀態(tài)下,鍛煉身體則獎勵值+1,不鍛煉則-0.1;在S3狀態(tài)下,鍛煉身體則獎勵值+0.2,不鍛煉則-5。強化學習就是要在這三種狀態(tài)之間,以給定的概率和動作一步步轉(zhuǎn)換,這期間不斷積累獎勵值。當獎勵值的期望達到最大且保持穩(wěn)定后(即隨后的動作及狀態(tài)轉(zhuǎn)換,雖然繼續(xù)積累獎勵值,但是它的期望不再增加),則停止學習??傊?,強化學習適合應(yīng)用于長期-短期的回報問題中。它一般在有限的狀態(tài)中進行多次不同的動作,轉(zhuǎn)換到各種不同的狀態(tài),得到各種不同的獎勵值(有增有減)作為先驗知識,據(jù)此再去引導下一步動作和狀態(tài)轉(zhuǎn)換。在人工智能領(lǐng)域中,像機器人控制、電梯調(diào)度、電子通訊、下棋游戲等等,都有強化學習的參與。1.2機器學習概述第一章引言of31171.2.2機器學習的主要方法(續(xù))
6、度量學習
度量學習(MetricLearning)就是對距離的學習。如果用和分別表示原始空間中任意兩個不同的訓練樣本,那么它們之間的歐氏距離為:投影之后,兩個樣本變?yōu)楹?,分別記作和,那么投影后的距離是:如果將記作,那么度量學習的任務(wù)就是要學習這個,使它成為投影空間,并改變投影后樣本之間的距離。
1.2機器學習概述第一章引言of31181.2.3機器學習的應(yīng)用及其相關(guān)課程介紹
機器學習的實際應(yīng)用例子很多,比如垃圾郵件過濾和股票市場分析,分別如下左圖和右圖所示。此外,機器學習也可以應(yīng)用于生物特征識別(人臉、指紋、虹膜等)、天氣預報、風險投資預測、地質(zhì)勘探等諸多領(lǐng)域。1.2機器學習概述第一章引言of31191.2.3機器學習的應(yīng)用及其相關(guān)課程介紹(續(xù))
機器學習方法需要通過計算機編程來實現(xiàn),而在實現(xiàn)過程中,以數(shù)學為工具,其中涵蓋了優(yōu)化理論、數(shù)值計算、矩陣分析、概率統(tǒng)計、微積分等等。總體歸納起來,與機器學習相關(guān)的課程如下表所示課程與機器學習相關(guān)的要點高級語言編程C、C++、Matlab、Python或C+Matlab、C+Python混合編程等概率論與數(shù)理統(tǒng)計貝葉斯理論、最大似然參數(shù)估計、生成式模型、高斯混合模型等優(yōu)化算法凸函數(shù)判定、導數(shù)求解、梯度下降法、牛頓法、擬牛頓法等線性代數(shù)與矩陣分析線性空間變換、矩陣分解、正定性判別、最小二乘問題等計算機視覺圖像處理(平滑去噪、輪廓提取、直方圖等)、圖像語義理解等數(shù)字圖像處理信號離散化、傅里葉變換、圖像濾波、小波變換等數(shù)據(jù)挖掘分類、聚類、回歸、關(guān)聯(lián)規(guī)則、協(xié)同過濾等第一章引言1.3深度學習概述1.1人工智能概述1.2機器學習概述
of3120習題1.3深度學習概述第一章引言of3121
從1.1.2節(jié)中,我們知道,人工智能在上世紀70年代遭遇了一次低谷,主要原因就在于計算機存儲容量和計算性能支撐不了大規(guī)模的復雜計算。雖然當時人們認為理論上機器可以按照預先設(shè)定的指令去運行,但現(xiàn)實問題是機器效率太低,可行性不足。
而近年來,隨著計算機硬件技術(shù)的發(fā)展,處理器的運算速度和存儲器的容量都呈現(xiàn)出指數(shù)級的提升,為巨量的數(shù)據(jù)處理與存儲提供了保障。與此同時,網(wǎng)絡(luò)技術(shù)的突飛猛進也提供了呈爆炸式增長的數(shù)據(jù)來源。傳統(tǒng)機器學習與深度學習算法的區(qū)別如下圖所示1.3.1深度學習的產(chǎn)生發(fā)展史1.3深度學習概述第一章引言of31221.3.1深度學習的產(chǎn)生發(fā)展史(續(xù))1神經(jīng)網(wǎng)絡(luò)的雛形(20世紀50-60年代)當時當時叫做感知機,只能解決簡單的線性二分類問題,而面對復雜的分類問題卻束手無策2玻爾茲曼機的誕生(1983年)Hinton在此基礎(chǔ)上提出了玻爾茲曼機(BoltzmannMachine),能解決人工神經(jīng)網(wǎng)絡(luò)的復雜問題3反向傳播的提出(1986年)Hinton又證明了反向傳播(即從輸出反推到輸入)算法有助于神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部表示1.3深度學習概述第一章引言of31231.3.1深度學習的產(chǎn)生發(fā)展史(續(xù))4卷積神經(jīng)網(wǎng)絡(luò)的誕生(20世紀80年代)LeCun研發(fā)出了卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,簡稱CNN),為后來的圖像識別提供了理論基礎(chǔ)。此外,LeCun提出了一個早期的反向傳播方法backprop,之后做了優(yōu)化改進,加快了反向傳播的速度,從而提高了深度學習的效率。5神經(jīng)網(wǎng)絡(luò)與序列概率模型相結(jié)合(20世紀90年代)Bengio提出了隱形馬爾可夫模型(HiddenMarkovModel,簡稱HMM),為現(xiàn)在的深度語音識別奠定了基礎(chǔ)6深度學習的正式提出(2006年)Hinton等人在《Science》上發(fā)文,認為多隱層的人工神經(jīng)網(wǎng)絡(luò)通過逐層訓練,能得到優(yōu)異的特征學習能力,自此引發(fā)了深度學習研究的熱潮。1.3深度學習概述第一章引言of31241.3.2深度學習的幾種常見模型1.自動編碼器自動編碼器(AutoEncoder)是一種非監(jiān)督學習的神經(jīng)網(wǎng)絡(luò)模型,在輸入層和輸出層之間有一個潛藏的隱層,它通過編碼和解碼兩個不同的函數(shù)映射過程,來學習信號的潛在結(jié)構(gòu),如下圖所示1.3深度學習概述第一章引言of31251.3.2深度學習的幾種常見模型2.深度神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,簡稱DNN)是一種全連接的神經(jīng)網(wǎng)絡(luò),在網(wǎng)絡(luò)的同層次與不同層次的節(jié)點之間構(gòu)造兩兩的連接關(guān)系(邊),并為所有的邊分別賦予一定權(quán)重,通過不斷地調(diào)節(jié)網(wǎng)絡(luò)節(jié)點的權(quán)重,能學習數(shù)據(jù)固有的內(nèi)在表示,如下圖所示1.3深度學習概述第一章引言of31261.3.2深度學習的幾種常見模型3.受限玻爾茲曼機受限玻爾茲曼機(RestrictedBoltzmannMachine,簡稱RBM)。RBM是一個隱含層與可見層相互連接的雙向圖模型結(jié)構(gòu)網(wǎng)絡(luò),同層節(jié)點之間相互獨立(即無連接邊),如下圖所示。在RBM的能量建模中,假設(shè)每條邊都有能量,且獨立分布。通過建立并學習總體能量函數(shù),使該模型總能量不斷下降并達到穩(wěn)態(tài)后,能夠模擬數(shù)據(jù)的真實分布,從而得到輸入數(shù)據(jù)與潛在因子(隱藏層)之間的關(guān)系1.3深度學習概述第一章引言of31271.3.2深度學習的幾種常見模型4.卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,簡稱CNN)是深度神經(jīng)網(wǎng)絡(luò)中最常見的模型之一,它由卷積層、池化層(下采樣)、全連接層共三要素構(gòu)成,如所示下圖。在卷積層中,卷積核算子能夠提取二維圖像的局部特征,比如輪廓提取、圖像平滑等,使得CNN對圖像的平移、旋轉(zhuǎn)和尺度變換等具有魯棒性。1.3深度學習概述第一章引言of31281.3.2深度學習的幾種常見模型5.循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrenceNeuralNetwork,簡稱RNN)可以把上一時刻處理完畢的輸出結(jié)果W,與下一時刻本身的輸入U,共同作為輸入,參與下一時刻的運算,如下圖所示。該網(wǎng)絡(luò)能夠有效地對信號序列隨著時間變化的過程去建模,目前廣泛地應(yīng)用在語音識別、自然語言處理等方面。1.3深度學習概述第一章引言of31291.3.3深度學習的應(yīng)用場合1.人體姿態(tài)的三維復原近些年來,隨著人們對3D電影和3D動畫的興趣越來越濃厚,基于視頻的3D人體姿態(tài)復原受到了越來越多的關(guān)注。如何從單目鏡中所看到的傳統(tǒng)二維圖像,轉(zhuǎn)換成具有遠近距離感同時又形象生動的三維立體圖效果,是圖像語義理解中的一個難題。如下圖所示,第一行是原始二維圖像,中間一行是深度編碼器所復原的三維圖像,第三行是其他方法所復原的三維圖像。不難看出,深度方法對人體姿態(tài)的表述更準(傾斜、側(cè)身、迎面、背面等),即對圖像語義的理解更正確1.3深度學習概述第一章引言of31301.3.3深度學習的應(yīng)用場合2.網(wǎng)站的隱私保護
如今,智能聯(lián)網(wǎng)的手機越來越普及,手機拍照的清晰度也在不斷提高。很多人喜歡拍照片然后分享到網(wǎng)絡(luò)社交平臺上。雖然我們可以設(shè)置可見權(quán)限,比如指定好友可見、家人可見等等,但是在默認的情況下,網(wǎng)絡(luò)上被分享的照片人人可見。
運用深度卷積神經(jīng)網(wǎng)絡(luò),可以統(tǒng)計社交網(wǎng)絡(luò)上上任意兩人之間的共同好友個數(shù)或者其他方面共享的程度,來衡量他們倆的關(guān)聯(lián)程度,從而能夠自動識別出社交網(wǎng)站上哪些圖片涉及到個人隱私,并做模糊處理。1.3深度學習概述第一章引言of31311.3.3深度學習的應(yīng)用場合3.自然場景中的文字提取與識別在計算機視覺領(lǐng)域,從自然場景圖片中讀取文字,是一項非常熱門且意義非凡的研究工作。它的整個過程包含兩個部分,即文字提?。礄z測)和文字識別。采用深度卷積回歸網(wǎng)絡(luò)做監(jiān)督訓練,并采用大小不同的多個卷積核算子來提取文字信息,克服了文字多角度、多尺度、旋轉(zhuǎn)及側(cè)身所帶來的不確定性。該網(wǎng)絡(luò)模型方法能有效定位并標出測試圖片中的文字,如下圖綠框所示。1.3深度學習概述第一章引言of31321.3.4深度學習開源工具名稱支持語言說明下載網(wǎng)址CaffeC++,Python,MatlabUCBerkerleyBVLC實驗室發(fā)布的深度學習開源工具,是目前全世界應(yīng)用最廣泛的深度學習平臺之一/BVLC/caffeTensorflowC++,Python谷歌發(fā)布的機器學習開發(fā)工具,支持多CPU,多GPU計算及CNN、RNN等深度學習模型/tensorflow/tensorflowMXNetC++百度牽頭組織的機器學習聯(lián)盟發(fā)布的C++深度學習工具庫/dmlc/mxnetTheanoPython基于Python語言的深度學習開源工具/Theano/TheanoPaddlePython百度公司自行研發(fā)推出的開源深度學習平臺,支持多操作系統(tǒng)和多GPU運算/DMTKC/C++微軟發(fā)布的一套通用的深度學習開源工具,支持分布式計算/Microsoft/DMTK習題:1.什么是人工智能?并概況一下人工智能產(chǎn)生的基礎(chǔ)條件。2.人工智能在最近幾十年的發(fā)展分別經(jīng)歷了哪些階段?3.人工智能、機器學習與深度學習三者之間的關(guān)系是什么?4.什么是模型?它與特征提取、分類分別有什么關(guān)系?5.機器學習中,半監(jiān)督學習如何把監(jiān)督和非監(jiān)督結(jié)合起來的?6.請簡述機器學習與深度學習的區(qū)別與聯(lián)系。7.深度學習領(lǐng)域“三巨頭”是指哪三人?他們分別有什么貢獻?8.深度學習有哪些主流開源工具?9.深度學習有哪些常用模型?10.掌握Python軟件的安裝和使用。感謝聆聽大數(shù)據(jù)挖掘技術(shù)與應(yīng)用機器學習與深度學習2.1KNN算法2.2線性回歸2.3邏輯回歸of5636高級大數(shù)據(jù)人才培養(yǎng)叢書第2章簡單模型習題2.1KNN算法第二章
簡單模型
of3137
KNN算法,是K-NearestNeighboralgorithm的簡寫,也可以叫K近鄰算法,是最簡單的機器學習分類算法模型之一。所謂K近鄰,就是K個最近的鄰居的意思,即每個樣本都可以用與它最近的K個鄰居來代表。KNN算法是基于實例的學習(instance-basedlearning),屬于非參數(shù)模型,它學習的不是明確的泛化模型,而是樣本之間的關(guān)系。當新的樣本到來時,這種學習方式不會用擬合好的算式去計算輸出結(jié)果或是輸出結(jié)果的概率,而是根據(jù)這個新樣本和訓練樣本之間的關(guān)系來確定它的輸出。
KNN算法應(yīng)用領(lǐng)域包括文本處理、模式識別、計算機視覺、通信工程、生物工程等。
2.1KNN算法第二章
簡單模型
of31382.1.1KNN算法步驟構(gòu)建KNN算法主要分為4步:算距離,排序,取近鄰和做決策,即(1)算距離:計算新樣本與已知樣本空間中所有樣本點的距離。常用的距離有歐式距離和夾角余弦距離;(2)排序:對所有距離按升序排列;(3)取近鄰:確定并選取與未知樣本距離最小的K個樣本或點。選定合適的K值,對分類的效果尤為重要;(4)做決策:得到K近鄰列表,采用多數(shù)表決的方法對樣本進行分類。
2.1KNN算法第二章
簡單模型
of31392.1.3KNN算法描述
輸入:訓練數(shù)據(jù)集Z;可調(diào)參數(shù)K;新樣本的特征向量;1:foralldo;2:計算新樣本與已知樣本空間中每個點的距離;3:對所有距離按升序排列,得到近鄰列表;4:多數(shù)表決;5:endfor;輸出:新樣本的類別。2.2線性回歸2.1KNN算法
2.3邏輯回歸of5640高級大數(shù)據(jù)人才培養(yǎng)叢書第2章簡單模型習題2.1KNN算法第二章
簡單模型
of31412.1.4KNN算法評價KNN算法不僅可以用于分類,還可以用于回歸。它包含以下四個優(yōu)點:(1)模型簡單,容易理解,也易于實現(xiàn),并且無需估計參數(shù),也無需訓練;(2)特別適合對離散類型的事件進行分類;(3)適合于多分類問題(對象具有多個類別標簽),KNN比SVM的表現(xiàn)要好;(4)精度高、對異常值不敏感、無數(shù)據(jù)輸入假定。
2.2
線性回歸第二章
簡單模型
of31422.2線性回歸線性回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。線性回歸最大的優(yōu)點不是在于計算,而是便于解釋或預測。廣泛應(yīng)用于流行病的預測、風險性資產(chǎn)控制、消費支出、定投資支出、勞動力需求與供給等的預測。
第二章
簡單模型
of31432.2.1算法原理給定數(shù)據(jù)集中的每個樣本,我們用向量表示每個實例樣本,表示樣條的第個屬性(特征)的取值,建立一個線性回歸模型(hypothesis,假設(shè)),此時可表示為其中,稱線性回歸模型,主要是模型是樣本的不同屬性(特征)的線性組合,其中為組合系數(shù)(參數(shù))。
2.2
線性回歸第二章
簡單模型
of31442.2.2模型求解令對
求關(guān)于
的偏導數(shù),即再令偏導數(shù)等于0,即有,也就是說,不用經(jīng)過訓練就可以直接利用上面的公式計算出線性回歸模型的最優(yōu)解。
2.2
線性回歸第二章
簡單模型
of31452.2.3算法步驟用梯度下降法求最小值的一般步驟:(1)參數(shù)的初始化:通常所有參數(shù)都初始化為1;(2)確定學習率;(3)求代價函數(shù)的梯度(所有參數(shù)的偏導數(shù));(4)所有參數(shù)都沿梯度方向移動一步,步長就是學習率的大??;(5)重復步驟(4)直到參數(shù)不再發(fā)生變化(此時取到極值點,梯度為0)或達到預先設(shè)定的迭代次數(shù).
2.2
線性回歸第二章
簡單模型
of31462.2.3算法步驟用梯度下降法求最小值的一般步驟:(1)參數(shù)的初始化:通常所有參數(shù)都初始化為1;(2)確定學習率;(3)求代價函數(shù)的梯度(所有參數(shù)的偏導數(shù));(4)所有參數(shù)都沿梯度方向移動一步,步長就是學習率的大?。唬?)重復步驟(4)直到參數(shù)不再發(fā)生變化(此時取到極值點,梯度為0)或達到預先設(shè)定的迭代次數(shù).
2.2
線性回歸第二章
簡單模型
of31472.2.4算法描述線性回歸算法分為訓練、測試和預測三個部分,訓練部分主要是通過訓練習得屬于每個屬性的參數(shù)值,測試部分主要是用測試樣本對已訓練好的模型進行測試,若測試的結(jié)果很好,就可以用訓練好的參數(shù)對新樣本進行預測。以下以批量梯度下降法為例進行說明。算法2.2訓練模型
2.2
線性回歸第二章
簡單模型
of31482.2.4算法描述算法2.3模型測試與輸出
2.2
線性回歸第二章
簡單模型
of31492.2.4算法描述算法2.3模型測試與輸出
2.2
線性回歸第二章
簡單模型
of31502.2.5算法評價線性回歸算法主要用來預測數(shù)值型的目標值。優(yōu)點在于:(1)結(jié)果易于理解,計算上簡單和方便;(2)用多變量線性回歸模型,通過多組數(shù)據(jù),可直觀、快速分析出三者之間的線性關(guān)系。缺點在于:(1)模型對于非線性數(shù)據(jù)的擬合效果不好;(2)對小樣本的數(shù)據(jù)或多重共線性的數(shù)據(jù)會產(chǎn)生過擬合或欠擬合現(xiàn)象;(3)對滿秩的樣本,由于計算矩陣的逆的運算量大,往往導致計算延遲。
2.2
線性回歸2.3邏輯回歸2.1KNN算法
2.2線性回歸of5651高級大數(shù)據(jù)人才培養(yǎng)叢書第2章簡單模型習題第二章
簡單模型
of3152邏輯回歸(logisticregression)是當前業(yè)界比較常用的機器學習方法,應(yīng)用于研究其些事件發(fā)生的概率,以概率的形式估計事件發(fā)生的可能性[16]。雖然頂著“回歸”的名字,但是它主要是用來做分類的。之所以取這個名字,原因在于它在線性回歸的基礎(chǔ)上,套用了一個邏輯函數(shù),即Sigmoid函數(shù)g(.),從而把線性回歸模型推廣為值域為(0,1)的概率輸出函數(shù),這樣就將線性回歸模型的連續(xù)性預測值與分類任務(wù)的離散標記聯(lián)系起來。邏輯回歸分為兩個部分:(1)學習預測模型;(2)應(yīng)用預測模型預測結(jié)果。邏輯回歸是一項可用于預測二分類結(jié)果的統(tǒng)計技術(shù),廣泛應(yīng)用于金融、醫(yī)學、犯罪學和其他社會科學中。
2.3
邏輯回歸第二章
簡單模型
of31532.3.1算法原理給定任意一組輸入,然后通過某個函數(shù)得到輸出,這個輸出就是輸入數(shù)據(jù)的分類。在二分類情況下,這個函數(shù)就輸出0或1。具有這種性質(zhì)的函數(shù)就是Sigmoid函數(shù),如圖所示。
2.3
邏輯回歸第二章
簡單模型
of31542.3.1算法原理Sigmoid函數(shù)具有如下形式:它也叫對數(shù)幾率函數(shù),可以將任何數(shù)據(jù)映射到(0,1)之間。而概率也恰恰是之間的數(shù),那也就表明要被分類的樣本可以映射到(0,1)之間。顯然對數(shù)幾率函數(shù)能夠在線性回歸和邏輯回歸之間提供更好的可解釋性。當利用邏輯回歸模型解決分類任務(wù)時,線性回歸的結(jié)果正是以對數(shù)幾率的形式出現(xiàn)的。邏輯回歸模型由條件概率分布表示如式:
2.3
邏輯回歸第二章
簡單模型
of31552.3.2模型求解對給定的數(shù)據(jù)集,邏輯回歸使每個樣本屬于其真實標記的概率最大化,以此為依據(jù)確定參數(shù)的最優(yōu)值。由于每個樣本的輸出滿足伯努利分布,且不同的樣本之間相互獨立,因而,似然函數(shù)可以表示為如下形式:由于單個樣本的標記,只能取得0或1,因而上式的兩項中只有一項有非零的取值,將每個條件概率的對數(shù)幾率函數(shù)形式代入上式,利用對數(shù)操作將乘積轉(zhuǎn)化為求和,就可以得到對數(shù)似然函數(shù)如式:
2.3
邏輯回歸第二章
簡單模型
of31562.3.3算法步驟用梯度下降法求,可分為:賦值和迭代。(1)首先對賦值,這個值可以是隨機的,也可以讓是一個全零的向量。(2)改變的值,使得按梯度下降的方向進行減少。梯度方向由對的偏導數(shù)確定,由于求的是極小值,因此梯度方向是偏導數(shù)的反方向。結(jié)果為
2.3
邏輯回歸第二章
簡單模型
of31572.3.4算法描述
邏輯回歸算法分為訓練、測試和預測三個部分,訓練部分主要是通過訓練習得屬于每個屬性的參數(shù)值,測試部分主要是用測試樣本對已訓練好的模型進行測試,若測試的結(jié)果很好,就利用訓練好的參數(shù)對新樣本進行預測。以下以批量梯度下降法為例進行說明。訓練模型
2.3
邏輯回歸第二章
簡單模型
of31582.3.5算法評價邏輯回歸模型優(yōu)點:(1)計算代價不高,易于理解和實現(xiàn);(2)可以適用于連續(xù)型和類別型自變量;(3)容易使用和解釋。邏輯回歸模型缺點:(1)對模型中自變量多重共線性較為敏感,例如兩個高度相關(guān)自變量同時放入模型,可能導致較弱的一個自變量回歸符號不符合預期,符號被扭轉(zhuǎn)。需要利用因子分析或者變量聚類分析等手段來選擇代表性的自變量,以減少候選變量之間的相關(guān)性;(2)預測結(jié)果呈“S”型,因此從log(odds)向概率轉(zhuǎn)化的過程是非線性的,在兩端隨著log(odds)值的變化,概率變化很小,邊際值太小,而中間概率的變化很大,很敏感。導致很多區(qū)間的變量變化對目標概率的影響沒有區(qū)分度,無法確定閥值;(3)容易欠擬合,分類精度可能不高。
2.3
邏輯回歸
習
題2.1KNN算法
2.2線性回歸of5659高級大數(shù)據(jù)人才培養(yǎng)叢書第2章簡單模型2.3邏輯回歸習題:1.簡述一下KNN算法的原理,KNN算法有哪些優(yōu)點和缺點?2.KNN算法中,當數(shù)據(jù)量比較大時,需要歸一化嗎?如何提高計算效率?3.從數(shù)學上來講,線性回歸算法的損失函數(shù)是一個凸函數(shù),因此初始值對結(jié)果并無影響,可以嘗試使用不同的初始值來運行函數(shù),看看得到的結(jié)果是否有變化?如果有變化,思考發(fā)生變化的原因。4.觀察線性回歸的可視化圖形,發(fā)現(xiàn)兩條直線之間存在著細微差別。但是從理論上來講,兩種方法的原理是一樣的,sklearn只是把梯度下降算法進行了封裝。那為什么會出現(xiàn)這種差別?可以如何調(diào)整?5.邏輯回歸是一種分類算法,該算法和線性回歸有哪些區(qū)別與聯(lián)系?6.線性回歸中將作為常量來求,而在邏輯回歸中并沒有這樣做,這是為什么?7.邏輯回歸本質(zhì)上仍為線性回歸,為什么被單獨列為一類?8.如何解決欠擬合或過擬合問題?9.為什么邏輯回歸需要歸一化或者取對數(shù),為什么邏輯回歸把特征離散化后效果更好?10.如何用邏輯回歸建立一個廣告點擊次數(shù)預測模型?11.邏輯回歸是監(jiān)督機器學習的算法嗎?12.為什么會在訓練的過程當中將高度相關(guān)的特征去掉?13.邏輯回歸的損失函數(shù)為什么要使用極大似然函數(shù)作為損失函數(shù)AIRack人工智能實驗平臺——一站式的人工智能實驗平臺DeepRack深度學習一體機——開箱即用的AI科研平臺BDRack大數(shù)據(jù)實驗平臺——一站式的大數(shù)據(jù)實訓平臺智能硬件大數(shù)據(jù)免費托管平臺環(huán)境大數(shù)據(jù)開放平臺免費大數(shù)據(jù)APP推薦運用大數(shù)據(jù),精彩你生活劉鵬看未來云創(chuàng)大數(shù)據(jù)我的PM2.5同聲譯微信公眾號推薦完善的課程體系:大數(shù)據(jù)方向、人工智能方向。面向理論與實踐,分為本科院校、??圃盒!⒏呗氃盒?。感謝聆聽大數(shù)據(jù)挖掘技術(shù)與應(yīng)用機器學習與深度學習3.2貝葉斯基礎(chǔ)理論3.3樸素貝葉斯3.4貝葉斯網(wǎng)絡(luò)of5666高級大數(shù)據(jù)人才培養(yǎng)叢書第三章貝葉斯學習習題3.1貝葉斯方法簡述3.5實驗3.1貝葉斯方法簡述of31671.發(fā)展歷程第三章貝葉斯學習最早起源于英國數(shù)學家ThomasBayes在《論有關(guān)機遇問題的求解》中證明的關(guān)于貝葉斯定理的一個特例。1763年,由他的朋友RichardPrice幫助整理,文章在《倫敦皇家學會自然科學會報》公開后并沒有得到很大反響。1774年,法國數(shù)學家Pierre-SimonLaplace在《論事件原因存在的概率》中獨立地提出了與貝葉斯公式有異曲同工之妙的“不充分推理原則”,但此時貝葉斯方法仍未受到關(guān)注。20世紀50年代,多位統(tǒng)計學家共同努力,逐步建立貝葉斯統(tǒng)計,出現(xiàn)貝葉斯學派,開始使用術(shù)語“貝葉斯”,貝葉斯方法才真正得到重視。從理論上說,貝葉斯推理雖然容易實現(xiàn),但鑒于實踐中,未知參數(shù)的后驗分布多為高維、復雜的分布,計算較困難,限制了貝葉斯方法的應(yīng)用。直至蒙特卡洛方法出現(xiàn),將馬爾可夫過程引入到蒙特卡洛模擬中,通過模擬方式對高維積分計算,突破了計算困難,才推動貝葉斯方法在理論研究和應(yīng)用上新的發(fā)展。近年來,伴隨著工業(yè)界和學術(shù)界對大數(shù)據(jù)和機器學習的極大關(guān)注,以及貝葉斯方法在語音、視覺等領(lǐng)域的成功應(yīng)用,它已經(jīng)成為非常重要的一類機器學習方法。3.1貝葉斯方法簡述of31682.應(yīng)用作為機器學習的核心方法之一,貝葉斯方法從1763年提出到現(xiàn)在,已有250多年的歷史,在此期間有了長足的進步,不僅在參數(shù)估計、后驗推理、模型檢測、隱變量概率模型等統(tǒng)計學領(lǐng)域有廣泛而深遠的應(yīng)用,其應(yīng)用還可延伸到各個問題領(lǐng)域。貝葉斯方法在機器學習領(lǐng)域也有諸多應(yīng)用,從單變量的回歸與分類到多變量的結(jié)構(gòu)化輸出預測,從有監(jiān)督學習到半監(jiān)督學習、無監(jiān)督學習等,如文本分類、垃圾郵件過濾、情感判別,以及推薦系統(tǒng)等,幾乎任何一種學習任務(wù)都可以采用貝葉斯方法實現(xiàn)。
第三章貝葉斯學習3.1貝葉斯方法簡述of31693.優(yōu)缺點優(yōu)勢:如預測過程簡單快速,易于訓練,給所需資源帶來良好表現(xiàn);可以有機地結(jié)合先驗知識或主觀概率;可根據(jù)具體實際情況,在決策過程中不斷使用該貝葉斯方法;可對決策結(jié)果的可能性或不確定性做推理,給出數(shù)量化的評價,而非全或無;當輸入數(shù)據(jù)變量較少時,該方法同樣有效;處理多分類問題,該方法也仍然有效。缺陷:輸入數(shù)據(jù)量較多或數(shù)據(jù)間相關(guān)性較大,則會出現(xiàn)問題。如輸入數(shù)據(jù)多,分析計算則比較復雜,特別是在解決復雜問題時,問題就更加突顯;還有些數(shù)據(jù)輸入,在使用時必須采用主觀概率,則妨礙了貝葉斯方法的使用,這也是貝葉斯方法的一個局限。
第三章貝葉斯學習3.1貝葉斯方法簡述of31704.發(fā)展及挑戰(zhàn)由于貝葉斯理論的適應(yīng)性和可擴展性,以及交叉學科中先驗知識的引入,使貝葉斯學習在機器學習領(lǐng)域有了更廣泛的應(yīng)用場景,將發(fā)揮更大的作用。如正則化貝葉斯方法、非參數(shù)化貝葉斯方法都極大地推動了貝葉斯理論的發(fā)展。在系統(tǒng)實現(xiàn)方面,貝葉斯方法也已經(jīng)能在多種分布式計算框架下實現(xiàn)。近來,大數(shù)據(jù)貝葉斯學習也受到人們普遍關(guān)注。因此,如何突破經(jīng)典貝葉斯框架的局限,加強貝葉斯學習的靈活性,加快貝葉斯學習的推理過程,在不同的場景下建立合適模型,是適應(yīng)大數(shù)據(jù)時代需要去挑戰(zhàn)的。
第三章貝葉斯學習3.3樸素貝葉斯3.4貝葉斯網(wǎng)絡(luò)of5671高級大數(shù)據(jù)人才培養(yǎng)叢書第三章貝葉斯學習習題3.5實驗3.2貝葉斯基礎(chǔ)理論3.1貝葉斯方法簡述3.2貝葉斯基礎(chǔ)理論第三章貝葉斯學習of31723.2.1概率基礎(chǔ)條件概率,是指事件
在另一事件已經(jīng)發(fā)生的條件下發(fā)生的概率,表示為。條件概率公式為:
1.條件概率例3-1一個盒子里裝了6只球,其中綠色球2只,紅色球4只,每次不放回地隨機從盒子里取一只球。求連續(xù)2次取到紅球的概率。解:3.2貝葉斯基礎(chǔ)理論第三章貝葉斯學習of31733.2.1概率基礎(chǔ)全概率公式,是指事件構(gòu)成一個完備事件組且都有正概率,則對任一事件都有公式成立。全概率公式為:
2.全概率公式例3-2高射炮向敵機發(fā)射四發(fā)炮彈,每彈擊中與否相互獨立且每發(fā)炮彈擊中的概率均為0.3,又知敵機若中1彈,墜毀的概率為0.1,若中2彈,墜毀的概率為0.3,若中3彈,墜毀的概率為0.7,若中4彈,敵機必墜毀。求敵機墜毀的概率。解:3.2貝葉斯基礎(chǔ)理論第三章貝葉斯學習of31743.2.2貝葉斯方法貝葉斯方法是一種統(tǒng)計推斷方法,可以有效地計算條件概率。貝葉斯公式為:
1.貝葉斯公式上面的貝葉斯公式可描述為:后驗概率=先驗概率×調(diào)整因子(1)如果調(diào)整因子,即先驗概率被增強,事件發(fā)生的可能性變大;(2)如果調(diào)整因子,即事件的發(fā)生對判斷事件發(fā)生的可能性無幫助;(3)如果調(diào)整因子
,即先驗概率被削弱,事件發(fā)生的可能性變小。3.2貝葉斯基礎(chǔ)理論第三章貝葉斯學習of31753.2.2貝葉斯方法假設(shè)事件是由相互獨立的小事件
組成,在事件
已經(jīng)發(fā)生的條件下,計算某個小事件
的概率。貝葉斯公式可表示為:
1.貝葉斯公式貝葉斯公式可以理解成在條件概率基礎(chǔ)上尋找事件發(fā)生的原因。3.2貝葉斯基礎(chǔ)理論第三章貝葉斯學習of31763.2.2貝葉斯方法2.貝葉斯方法實例例3-3有兩個盒子和,盒中有6只綠球,5只紅球,盒中有2只綠球,4只紅球,已知從兩個盒子里抽出了一只綠球。求這只球來自盒的概率。解:選中盒的先驗概率為0.5,因為調(diào)整因子,則后驗概率為0.58,大于原先驗概率0.5,表示先驗概率被增強。3.2貝葉斯基礎(chǔ)理論第三章貝葉斯學習of31773.2.2貝葉斯方法2.貝葉斯方法實例例3-4某種疾病發(fā)病率約為0.1%,即1000人中有1個人是陽性,現(xiàn)在的檢測手段很成熟,準確率高達99%,但是有5%的誤診率。如果一個人的檢測結(jié)果呈陽性,那么這個人真的感染這種病的概率有多大。解:盡管這種疾病的檢測準確度高達99%,而檢測結(jié)果呈陽性的可信度不到2%,原因在于它的發(fā)病率低,僅約為0.1%。3.2貝葉斯基礎(chǔ)理論第三章貝葉斯學習of31783.2.2貝葉斯方法3.貝葉斯方法應(yīng)用貝葉斯公式作為統(tǒng)計及概率論中最具影響力及最重要的概念之一,使得貝葉斯方法成為一種很好的利用經(jīng)驗幫助作出更合理判斷的方法。當我們認識事物不全面的情況下,它可以幫助量化對某些事物的態(tài)度或看法,并基于新的證據(jù)動態(tài)調(diào)整我們的看法或態(tài)度,在經(jīng)過一系列的事情證實后,形成比較穩(wěn)定而正確的看法,越來越接近真相。3.2貝葉斯基礎(chǔ)理論3.4貝葉斯網(wǎng)絡(luò)of5679高級大數(shù)據(jù)人才培養(yǎng)叢書第三章貝葉斯學習習題3.5實驗3.3樸素貝葉斯3.1貝葉斯方法簡述3.3樸素貝葉斯第三章貝葉斯學習of31803.3.1樸素貝葉斯法介紹樸素貝葉斯法(NaiveBayes,簡稱NB)是一種基于貝葉斯定理與特征條件獨立假設(shè)的分類方法,該方法基于一個簡單的假設(shè),即所有特征屬性間相互獨立,這也是樸素貝葉斯法中“樸素”的由來。1.樸素貝葉斯法簡單描述樸素貝葉斯法的核心思想,即在特征屬性獨立的條件下,選擇最大的后驗概率樸素貝葉斯法的核心思想,即在特征屬性獨立的條件下,選擇最大的后驗概率
作為確定待分類項屬于某個類
的依據(jù)。
Pmax3.3樸素貝葉斯第三章貝葉斯學習of31813.3.1樸素貝葉斯法介紹2.樸素貝葉斯公式樸素貝葉斯公式為:3.3樸素貝葉斯第三章貝葉斯學習of31823.3.1樸素貝葉斯法介紹因?qū)λ蓄悇e都相同,如僅計算待分類項所屬類型,而不需要計算待分類項的具體概率,可省略計算分母。將計算待分類項具體概率問題,簡化成計算待分類項所屬類型問題。樸素貝葉斯公式可改為:3.3樸素貝葉斯第三章貝葉斯學習of31833.3.1樸素貝葉斯法介紹3.樸素貝葉斯法計算步驟令表示訓練集中類樣本的集合,令表示在的第個屬性取值樣本的集合。樸素貝葉斯法的計算步驟:(1)計算先驗概率;(2)計算類條件概率;(3)計算,求解待分類項所屬類型。(4)利用公式,求解待分類項具體概率。3.3樸素貝葉斯第三章貝葉斯學習of31843.3.2樸素貝葉斯法實例例3-5根據(jù)表3-1中提供的訓練數(shù)據(jù)(前10條房屋購買記錄),預測測試數(shù)據(jù)(第11條記錄的用戶),計算其是否購房及購房的可能性多大。用戶年齡/歲性別收入/萬元
婚姻狀況是否購房124男45否是256男32是是323女30是否431女15否否547女30是是645男30是否732男23否否826男15否否923男20否否1046女40是否1135男35是?3.3樸素貝葉斯第三章貝葉斯學習of31853.3.2樸素貝葉斯法實例解:
(1)計算先驗概率
。
。
(2)計算類條件概率。分別計算年齡、性別、收入和婚姻狀況4個特征屬性在兩種結(jié)果發(fā)生前提下的概率,如表3-2至3-5所示。3.3樸素貝葉斯第三章貝葉斯學習of31863.3.2樸素貝葉斯法實例解:。
3.3樸素貝葉斯第三章貝葉斯學習of31873.3.2樸素貝葉斯法實例解:。
(3)針對待分類項,計算,求解出最大值即為所屬類別。
(4)如果需要計算第11條記錄的用戶購房可能性有多大,就需要嚴格按照樸素貝葉斯公式要求,計算待分類項的具體概率。3.3樸素貝葉斯第三章貝葉斯學習of31883.3.2樸素貝葉斯法實例。
需要注意的是:如果某個屬性值在訓練集中沒有與某個類同時出現(xiàn),直接基于類條件概率計算待分類項的所屬類型會出現(xiàn)問題。如本例中,因為會導致在進行概率估算時出現(xiàn)錯誤,
無論其他屬性的類條件概率多高,分類結(jié)果都是“不購房”,因為未被觀測到,并不代表出現(xiàn)的概率為0,這顯然不合理。3.3樸素貝葉斯第三章貝葉斯學習of31893.3.2樸素貝葉斯法實例。
上面“年齡”屬性的取值信息抹掉了其他三個屬性的取值,在進行概率估計時,解決這個問題的方法通常是使用拉普拉斯修正。在拉普拉斯修正中,假設(shè)訓練集的分類數(shù),用表示;的第個屬性可能的取值數(shù)用表示。則原來的先驗概率的計算公式,由。
拉普拉斯修正為。原來的類條件概率的計算公式,由拉普拉斯修正為3.3樸素貝葉斯第三章貝葉斯學習of31903.3.2樸素貝葉斯法實例。
大家思考下,在拉普拉斯修正后,上例中第11條記錄的用戶會不會購買房子呢?我們?nèi)苑炙膫€步驟進行計算。(1)計算先驗概率。(2)計算類條件概率。
3.3樸素貝葉斯第三章貝葉斯學習of31913.3.2樸素貝葉斯法實例。
(3)針對待分類項,再次計算,求解出最大值即為所屬類別。
3.3樸素貝葉斯第三章貝葉斯學習of31923.3.2樸素貝葉斯法實例。
由此可得顯然,通過以上三步,可以得出第11條記錄的用戶不購房的結(jié)論。這碰巧與前面的預測結(jié)果吻合,但并不代表拉普拉斯修正是沒有必要的,可以看到拉普拉斯修正后,原來為0的結(jié)果被平滑的過渡為0.013,起到了修正的作用。3.3樸素貝葉斯第三章貝葉斯學習of31933.3.2樸素貝葉斯法實例。
大家思考下,不同分類任務(wù)中屬性如果是離散型或連續(xù)型,分別怎么辦?針對離散型屬性或方便用離散區(qū)間替換的連續(xù)屬性,可以用先驗概率和類條件概率直接計算。對于連續(xù)型屬性,假設(shè)服從某種概率分布,然后使用訓練數(shù)據(jù)估計分布的參數(shù),一般使用極大似然估計法(MaximumLikelihoodEstimation,簡稱MLE)。3.3樸素貝葉斯第三章貝葉斯學習of31943.3.3樸素貝葉斯法優(yōu)缺點。
優(yōu)點:以貝葉斯公式作為支撐,有堅實的數(shù)學基礎(chǔ)及穩(wěn)定的分類效率。屬于監(jiān)督學習的生成模型,實現(xiàn)簡單,沒有迭代,在大量樣本下會有較好的表現(xiàn),在數(shù)據(jù)較少的情況下也仍然有效,可以處理多類別問題。缺點:樸素貝葉斯法假設(shè)了屬性間相互獨立,而這種假設(shè)在實際過程中往往不成立,因此該方法在數(shù)據(jù)特征關(guān)聯(lián)性較強的分類任務(wù)上性能表現(xiàn)不佳。特征屬性間相關(guān)性越大,分類誤差也就越大。3.2貝葉斯基礎(chǔ)理論3.3樸素貝葉斯of5695高級大數(shù)據(jù)人才培養(yǎng)叢書第三章貝葉斯學習習題3.5實驗3.4貝葉斯網(wǎng)絡(luò)3.1貝葉斯方法簡述3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of31963.4.1貝葉斯網(wǎng)絡(luò)介紹。
最早由JudeaPearl于1986年在專家系統(tǒng)中引入。貝葉斯網(wǎng)絡(luò)描述了特征屬性間的依賴關(guān)系,提供了一種因果信息的表示方法,是貝葉斯方法的擴展。貝葉斯網(wǎng)絡(luò)基于概率理論和圖論,數(shù)學基礎(chǔ)牢固,表現(xiàn)形象直觀,是目前不確定知識表達和推理領(lǐng)域最有效的理論模型之一。貝葉斯網(wǎng)絡(luò)由一個有向無環(huán)圖和條件概率表組成。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),是一個有向無環(huán)圖,由代表特征屬性的節(jié)點及連接這些節(jié)點的有向邊構(gòu)成。每個節(jié)點都有一個條件概率表,代表一個特征屬性,連接節(jié)點間的有向邊描述了特征屬性間的相互依賴關(guān)系,關(guān)系強度用條件概率表示。3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of31973.4.1貝葉斯網(wǎng)絡(luò)介紹。
假設(shè)節(jié)點
直接影響到節(jié)點
,貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖中可表示為→,條件概率
表示
、
的依賴關(guān)系強度,可量化父節(jié)點
對節(jié)點
的影響。如一個人發(fā)燒,可能會體溫高,貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖直觀地刻畫了“發(fā)燒”和“體溫”之間的依賴關(guān)系,條件概率表3-6進一步量化了“發(fā)燒”和“體溫”的依賴關(guān)系。3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of31983.4.1貝葉斯網(wǎng)絡(luò)介紹。
假設(shè)“感染”原因?qū)е掳l(fā)燒的概率為80%,“腫瘤”原因?qū)е掳l(fā)燒的概率為5%,“血液病”原因?qū)е掳l(fā)燒的概率為5%,“其它”原因?qū)е掳l(fā)燒的概率為10%,用貝葉斯網(wǎng)絡(luò)表示,如下圖所示。3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of31993.4.2貝葉斯網(wǎng)絡(luò)實現(xiàn)。
1.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)令表示一個有向無環(huán)圖,代表圖中所有節(jié)點的集合,代表有向邊的集合,為圖中某一節(jié)點所代表的特征屬性。
多特征屬性非獨立聯(lián)合條件概率分布公式:貝葉斯網(wǎng)絡(luò)假定每個特征屬性與其非后裔屬性獨立。因此對任意特征屬性,其聯(lián)合分布可由各自的局部條件概率分布相乘獲得。3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of311003.4.2貝葉斯網(wǎng)絡(luò)實現(xiàn)。
2.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)形式當與直接相連,如下圖所示,給出的信息則會影響對的判斷,則
與必然相關(guān)。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中特征屬性間的依賴關(guān)系,主要包含順連結(jié)構(gòu)、分連結(jié)構(gòu)和匯連結(jié)構(gòu)三種形式。3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of311013.4.2貝葉斯網(wǎng)絡(luò)實現(xiàn)。
(1)當與通過間接相連,如下圖所示,若呈順連結(jié)構(gòu),在給定的情況下,則與條件獨立。即3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of311023.4.2貝葉斯網(wǎng)絡(luò)實現(xiàn)。
(2)當與通過間接相連,如下圖所示,若呈分連結(jié)構(gòu),在給定的情況下,則與條件獨立。即3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of311033.4.2貝葉斯網(wǎng)絡(luò)實現(xiàn)。
(3)當與通過間接相連,如下圖所示,若呈匯連結(jié)構(gòu),在未給定的情況下,則與條件獨立。3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of311043.4.2貝葉斯網(wǎng)絡(luò)實現(xiàn)。
3.貝葉斯網(wǎng)絡(luò)構(gòu)造構(gòu)造貝葉斯網(wǎng)絡(luò),一般分為三步。(1)標識貝葉斯網(wǎng)絡(luò)中的節(jié)點,即有影響的特征屬性;(2)建立網(wǎng)絡(luò)結(jié)構(gòu),即形成有向無環(huán)圖,直觀展示特征屬性間的依賴關(guān)系。一般這步需要領(lǐng)域?qū)<业南闰炛R,想獲取好的網(wǎng)絡(luò)結(jié)構(gòu),還需不斷迭代改進;(3)學習網(wǎng)絡(luò)參數(shù),即訓練貝葉斯網(wǎng)絡(luò),構(gòu)造完成條件概率表,量化特征屬性間的依賴程度。貝葉斯網(wǎng)絡(luò)參數(shù)是各特征屬性的概率分布,如果每個特征屬性的值都可以直接觀察,此方法類似于樸素貝葉斯分類。一般這步是通過訓練樣本統(tǒng)計獲得。但往往貝葉斯網(wǎng)絡(luò)中存在隱藏特征向量,即特征屬性缺失,訓練方法就比較復雜,例如梯度下降法期望最大化算法是常用的估計參數(shù)隱變量的方法。3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of311053.4.3貝葉斯網(wǎng)絡(luò)特性及應(yīng)用。
1.貝葉斯網(wǎng)絡(luò)特性(1)貝葉斯網(wǎng)絡(luò)本身是一種不定性因果關(guān)聯(lián)模型。與其他決策模型不同,它本身是將多元知識圖解為可視化的一種概率知識表達與推理模型,更為貼切地表述了網(wǎng)絡(luò)節(jié)點特征屬性間的因果關(guān)系及條件相關(guān)性。(2)貝葉斯網(wǎng)絡(luò)具有強大的不確定性問題處理能力。用條件概率表達各個特征屬性間的相關(guān)關(guān)系,能在有限的、不完整的、不確定的信息條件下學習和推理。(3)貝葉斯網(wǎng)絡(luò)能有效地進行多源信息的表達與融合??蓪⒐收显\斷與維修決策相關(guān)的各種信息納入網(wǎng)絡(luò)結(jié)構(gòu)中,按節(jié)點的方式統(tǒng)一進行處理,能有效地按信息的相關(guān)關(guān)系進行融合。3.4貝葉斯網(wǎng)絡(luò)第三章貝葉斯學習of311063.4.3貝葉斯網(wǎng)絡(luò)特性及應(yīng)用。
2.貝葉斯網(wǎng)絡(luò)應(yīng)用基于概率推理的貝葉斯網(wǎng)絡(luò)是為解決不確定性和不完整性問題提出的,它對于解決復雜設(shè)備中不確定性和關(guān)聯(lián)性引起的故障診斷很有優(yōu)勢,在處理不確定信息的智能化系統(tǒng)中得到重要應(yīng)用,隨后它逐步成為了處理不確定性問題的主流,成功應(yīng)用在統(tǒng)計決策、專家系統(tǒng)、信息檢索、工業(yè)控制、智能科學、醫(yī)療診斷、學習預測等多個領(lǐng)域。3.2貝葉斯基礎(chǔ)理論3.3樸素貝葉斯107高級大數(shù)據(jù)人才培養(yǎng)叢書第三章貝葉斯學習習題3.4貝葉斯網(wǎng)絡(luò)3.5實驗3.1貝葉斯方法簡述3.5實驗第三章貝葉斯學習of311083.5.1實驗?zāi)康摹?/p>
1.了解樸素貝葉斯算法原理和工作流程2.會將文本量化為特征向量3.應(yīng)用sklearn完成樸素貝葉斯方法對新聞文本進行類別預測的程序4.運行程序,分析結(jié)果3.5實驗第三章貝葉斯學習of311093.5.2實驗要求。
1.了解樸素貝葉斯方法2.從互聯(lián)網(wǎng)獲取新聞數(shù)據(jù)集3.理解實現(xiàn)樸素貝葉斯方法對新聞文本預測類別的程序流程4.實現(xiàn)新聞文本分類程序3.5實驗第三章貝葉斯學習of311103.5.3實驗原理。
1.新聞數(shù)據(jù)集該新聞數(shù)據(jù)集包含18846條新聞文本,涉及20大類話題。2.文本量化為特征向量文本量化為特征向量,特征數(shù)值計算的常見方法通常有兩種,一個是CountVectorizer,另一個是TfidfVectorizer。對于每一個訓練文本,CountVectorizer只考慮每個詞匯在該訓練文本中出現(xiàn)的頻率,即詞頻;而TfidfVectorizer除了考慮某一詞匯在當前訓練文本中出現(xiàn)的頻率外,還需關(guān)注包含這個詞匯的其它訓練文本數(shù)目的倒數(shù),即逆文檔頻率,是詞頻的權(quán)重調(diào)整系數(shù)。當訓練文本數(shù)量越多,TfidfVectorizer特征量化方式就更有優(yōu)勢。3.5實驗第三章貝葉斯學習of311113.5.3實驗原理。
3.評價指標本實驗中,引入了4個評價指標,分別是準確率、精確率、召回率和指標。
3.5實驗第三章貝葉斯學習of311123.5.4實驗步驟。
本實驗的實驗環(huán)境為anaconda3+python3.7的環(huán)境,代碼詳見課本。3.5.5實驗結(jié)果習題:什么是先驗概率和后驗概率?2.樸素貝葉斯算法的前提假設(shè)是什么?3.什么是樸素貝葉斯中的零概率問題?如何解決?4.樸素貝葉斯算法中如何使用拉普拉斯修正?5.貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)如何學習?6.貝葉斯網(wǎng)絡(luò)學習的結(jié)構(gòu)如何存儲?AIRack人工智能實驗平臺——一站式的人工智能實驗平臺DeepRack深度學習一體機——開箱即用的AI科研平臺BDRack大數(shù)據(jù)實驗平臺——一站式的大數(shù)據(jù)實訓平臺智能硬件大數(shù)據(jù)免費托管平臺環(huán)境大數(shù)據(jù)開放平臺免費大數(shù)據(jù)APP推薦運用大數(shù)據(jù),精彩你生活劉鵬看未來云創(chuàng)大數(shù)據(jù)我的PM2.5同聲譯微信公眾號推薦完善的課程體系:大數(shù)據(jù)方向、人工智能方向。面向理論與實踐,分為本科院校、專科院校、高職院校。感謝聆聽大數(shù)據(jù)挖掘技術(shù)與應(yīng)用機器學習與深度學習第四章決策樹4.1決策樹簡述4.2屬性選擇4.3剪枝處理4.4決策樹算法of31119習題4.5實驗高級人工智能人才培養(yǎng)叢書4.1簡述第四章決策樹of31120某位經(jīng)理在經(jīng)營俱樂部的過程中發(fā)現(xiàn),某些天好像所有人都來玩高爾夫,以至于員工們都忙得團團轉(zhuǎn)還是應(yīng)付不過來;而有些天卻一個人也不來,使得俱樂部為多余的雇員數(shù)量浪費了不少資金。因此,他通過收集一段時間的天氣預報來看人們傾向于什么時候來打高爾夫,以適時調(diào)整雇員數(shù)量。1.引入-高爾夫俱樂部雇傭人員與天氣的關(guān)系4.1簡述第四章決策樹of311211.引入-高爾夫俱樂部雇傭人員與天氣的關(guān)系序號屬性類標號(Y:打高爾夫;N:不打高爾夫)天況溫度濕度風況1晴熱大無N2晴熱大有N3多云熱大無Y4雨中大無Y5雨冷正常無Y6雨冷正常有N7多云冷正常有Y8晴中大無N9晴冷正常無Y10雨中正常無Y11晴中正常有Y12多云中大有Y13多云熱正常無Y14雨中大有N結(jié)論:如果天氣狀況是多云,人們總是選擇玩高爾夫,晴天時大部分人會來打球,而只有少數(shù)很著迷的甚至在雨天也會玩;進一步地,在晴天當濕度較高時,顧客們就不太喜歡來玩球,但如果雨天沒有風的話,人們還是愿意到俱樂部來打高爾夫。這就通過決策樹給出了一個解決方案:在潮濕的晴天或者刮風的雨天安排少量的雇員,因為這種天氣不會有太多人來打高爾夫;而其他天氣則可考慮另外再雇傭一些臨時員工,使得大批顧客來玩高爾夫時俱樂部仍能正常運作。4.1簡述第四章決策樹2.樹型結(jié)構(gòu)決策模型呈現(xiàn)倒置的樹型,因此形象地稱為決策樹。決策樹是一種由節(jié)點和有向邊組成的層次結(jié)構(gòu)。節(jié)點包含一個根節(jié)點、若干個內(nèi)部節(jié)點和若干個葉子節(jié)點。根節(jié)點和每個內(nèi)部節(jié)點表示一個屬性的測試,亦稱為判斷節(jié)點。4.1簡述第四章決策樹3.樹的構(gòu)建(1).決策樹的生成(2).生成樹的剪枝第四章決策樹4.1決策樹簡述4.2屬性選擇4.3剪枝處理4.4決策樹算法
of31124習題4.5實驗4.2屬性選擇第四章決策樹決策樹學習的關(guān)鍵是如何選擇最優(yōu)劃分屬性。一般而言,隨著劃分過程不斷進行,我們希望決策樹的分枝節(jié)點所包含的樣本盡可能屬于同一類別,即節(jié)點的“純度”越來越高。決策樹算法通過引入信息增益或基尼不純度來對一個數(shù)據(jù)集的有序程度進行量化。4.2屬性選擇第四章決策樹1.信息增益(1)信息熵假定當前樣本集合D中第k類樣本所占的比例為,則D的信息熵定義為:的值越小,則D的純度越高。4.2屬性選擇第四章決策樹1.信息增益(2)信息增益假定離散屬性a有V個可能的取值
,若使用a來對樣本集D進行劃分,則會產(chǎn)生V個分枝節(jié)點,其中第v個分枝節(jié)點包含了D中所有在屬性a上取值為
的記為,計算用屬性a對樣本集D進行劃分所獲得的“信息增益”:信息增益越大,則意味著使用屬性a來進行劃分所獲得的“純度提升”越大。因此,可以用信息增益來進行決策樹的劃分屬性選擇。ID3決策樹學習算法就是以信息增益為準則來劃分屬性。4.2屬性選擇第四章決策樹1.信息增益例子:高爾夫俱樂部雇傭人員與天氣的關(guān)系序號屬性類標號(Y:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 語文教學創(chuàng)新與實踐案例分析
- 技術(shù)創(chuàng)新在商業(yè)領(lǐng)域的價值體現(xiàn):從知識產(chǎn)權(quán)認識到管理實踐的轉(zhuǎn)變
- LED光照對荒漠植物幼苗發(fā)育的影響機制研究
- 高校管理會計數(shù)智化轉(zhuǎn)型:路徑與高質(zhì)量發(fā)展研究
- 數(shù)字技術(shù)接入差異對中學生金融認知與行為的影響機制分析
- 學校體育傷害事故的法治處理與預防研究
- 燕子課后說課課件
- 燃燒條件說課課件
- 基于主成分和聚類分析法的西芹生長適應(yīng)性綜合評估
- 藝術(shù)品鑒定師崗位面試問題及答案
- 服裝進銷存信息化管理合同
- 民爆培訓考試題及答案
- 保健按摩試題+答案
- 2023年簡陽市城鄉(xiāng)小學教師選調(diào)考試真題及答案
- 黑龍江省2024年普通高校招生體育類本科批院校專業(yè)組投檔分數(shù)線(物理類)
- 金融機構(gòu)反洗錢知識競賽題庫
- Unit 3 Learning better Part A Lets spell(教學設(shè)計)-2024-2025學年人教PEP版(2024)英語三年級下冊
- 2024年海南省普通高中學業(yè)水平合格性考試歷史試題(原卷版+解析版)
- 七十歲以上老年人換本考駕照三力測試題含答案
- 《高爾夫入門教程》課件
- 2025-2030年中國乙酰甲胺磷市場運行動態(tài)及前景趨勢預測報告
評論
0/150
提交評論