機器學習研究及進展課件_第1頁
機器學習研究及進展課件_第2頁
機器學習研究及進展課件_第3頁
機器學習研究及進展課件_第4頁
機器學習研究及進展課件_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、機器學習研究及最新進展 譚營 教授北京大學智能科學系視覺與聽覺信息處理國家重點實驗室7/27/20221譚營機器學習研究及最新進展 目錄機器學習的定義和任務機器學習的發(fā)展歷史機器學習的主要方法機器學習面臨的挑戰(zhàn)最新發(fā)展方向題目:機器學習研究及最新進展 7/27/20222譚營機器學習研究及最新進展 學習系統(tǒng)基本構成學習環(huán)節(jié)知識庫執(zhí)行環(huán)節(jié)學習環(huán)節(jié): 感知環(huán)境,獲取知識常用的學習方法機械式學習指導式學習歸納式學習類比學習一個基于知識庫的智能系統(tǒng)環(huán)境7/27/20223譚營機器學習研究及最新進展 機器學習的定義 通過經驗提高系統(tǒng)自身的性能的過程(系統(tǒng)自我改進)。機器學習的重要性:機器學習是人工智能的

2、主要核心研究領域之一, 也是現(xiàn)代智能系統(tǒng)的關鍵環(huán)節(jié)和瓶頸。很難想象: 一個沒有學習功能的系統(tǒng)是能被稱為是具有智能的系統(tǒng)。7/27/20224譚營機器學習研究及最新進展 入侵檢測系統(tǒng)IDS:是否是入侵?是何種入侵?如何檢測?歷史數(shù)據(jù):以往的正常訪問模式及其表現(xiàn)、以往的入侵模式及其表現(xiàn)對當前訪問模式分類這是一個典型的機器學習問題常用技術:神經網(wǎng)絡,決策樹,支持向量機,貝葉斯分類器,k近鄰,聚類,序列分析,免疫網(wǎng)絡等 實例1:網(wǎng)絡安全問題7/27/20225譚營機器學習研究及最新進展 如何預測?氣象歷史數(shù)據(jù):以往的各種氣象數(shù)據(jù)及其變化特點對未來一周天氣的預報這是一個典型的機器學習問題常用技術:統(tǒng)計多

3、參數(shù)模型,神經網(wǎng)絡, 貝葉斯分類器,k近鄰,聚類實例2:天氣預報7/27/20226譚營機器學習研究及最新進展 實例3:搜索引擎Google的成功,使得Internet搜索引擎成為一個新興的產業(yè)出現(xiàn)有眾多專營搜索引擎的公司(例如百度等專門針對中文搜索),而且Microsoft等巨頭也開始投入巨資進行搜索引擎的研發(fā)機器學習技術正在支撐著各類搜索引擎(尤其是貝葉斯學習技術)Google掘到的第一桶金,來源于其創(chuàng)始人Larry Page和Sergey Brin提出的PageRank算法7/27/20227譚營機器學習研究及最新進展 Application 47/27/20228譚營機器學習研究及最新

4、進展 Application 4Automatic Car DriveClass of Tasks: Learning to drive on highways from vision stereos.Knowledge: Images and steering commands recorded while observing a human driver.Performance Module: Accuracy in classification 7/27/20229譚營機器學習研究及最新進展 Application 5Learning to classify astronomical s

5、tructures.galaxystarsFeatures: Color Size Mass Temperature Luminosityunkown7/27/202210譚營機器學習研究及最新進展 Application 6Classifying Astronomical ObjectsClass of Tasks: Learning to classify new objects.Knowledge: database of images with correct classification.Performance Module: Accuracy in classification 7

6、/27/202211譚營機器學習研究及最新進展 Other Applications Bio-Technology Protein Folding Prediction Micro-array gene expression Computer Systems Performance Prediction Banking ApplicationsCredit Applications Fraud Detection Character Recognition (US Postal Service) Web Applications Document Classification Learning

7、 User Preferences7/27/202212譚營機器學習研究及最新進展 機器學習的任務令W是這個給定世界的有限或無限所有對象的集合,由于觀察能力的限制,我們只能獲得這個世界的一個有限的子集QW,稱為樣本集。機器學習就是根據(jù)這個有限樣本集Q ,推算這個世界的模型,使得其對這個世界為真。QWModel建模泛化7/27/202213譚營機器學習研究及最新進展 機器學習的三要素(1)一致性假設:機器學習的條件。(2)樣本空間劃分:決定模型對樣本集合的有效性。(3)泛化能力:決定模型對世界的有效性。7/27/202214譚營機器學習研究及最新進展 要素1:一致性假設假設世界W與樣本集Q具有某

8、種相同的性質。原則上說,存在各種各樣的一致性假設。在統(tǒng)計意義下,一般假設:W與Q具有同分布?;?,給定世界W的所有對象獨立同分布。7/27/202215譚營機器學習研究及最新進展 要素2:對樣本空間的劃分樣本集合模型: 將樣本集放到一個n維空間,尋找一個超平面(等價關系),使得問題決定的不同對象被劃分在不相交的區(qū)域。7/27/202216譚營機器學習研究及最新進展 要素3: 泛化能力通過機器學習方法,從給定有限樣本集合計算一個模型,泛化能力是這個模型對世界為真程度的指標。樣本1樣本2樣本3新樣本泛化值7/27/202217譚營機器學習研究及最新進展 關于三要素不同時期,研究的側重點不同劃分:早期

9、研究主要集中在該要素上泛化能力(在多項式劃分):80年代以來的近期研究一致性假設:未來必須考慮7/27/202218譚營機器學習研究及最新進展 機器學習是多學科交叉機器學習統(tǒng)計學人工智能哲學信息論生物學計算復雜性數(shù)學認知科學控制論其他學科應用領域7/27/202219譚營機器學習研究及最新進展 THE QUESTIONS-The Top 25What Is the Universe Made Of?What is the Biological Basis of Consciousness?Why Do Humans Have So Few Genes?To What Extent Are Ge

10、netic Variation and Personal Health Linked?Can the Laws of Physics Be Unified?How Much Can Human Life Span Be Extended?What Controls Organ Regeneration?How Can a Skin Cell Become a Nerve Cell?How Does a Single Somatic Cell Become a Whole Plant?How Does Earths Interior Work?Are We Alone in the Univer

11、se?How and Where Did Life on Earth Arise?What Determines Species Diversity?What Genetic Changes Made Us Uniquely Human?How Are Memories Stored and Retrieved?How Did Cooperative Behavior Evolve? ./sciext/125th/ On 25 big questions facing science over the next quarter-century.(1 July 2005)7/27/202220譚

12、營機器學習研究及最新進展 記憶的模型與過程記憶的模型與過程通常包括三個相互聯(lián)系的階段:1、編碼(encoding),2、存儲(storage)3、提?。╮etrieval)記憶的模型7/27/202221譚營機器學習研究及最新進展 工作記憶(Working Memory)工作記憶系統(tǒng)能同時儲存和加工信息,這和短時記憶概念僅強調儲存功能是不同的。工作記憶分成:中樞執(zhí)行系統(tǒng)、視空初步加工系統(tǒng)和語音環(huán)路。工作記憶與語言理解能力、注意力及推理能力等聯(lián)系緊密,工作記憶蘊藏智能的玄機。7/27/202222譚營機器學習研究及最新進展 Working Memory Model7/27/202223譚營機器學

13、習研究及最新進展 機器學習的分支數(shù)據(jù)挖掘:利用歷史數(shù)據(jù)來改進決策例如:醫(yī)學記錄 醫(yī)學知識軟件應用(不能手工編程的應用)汽車自動駕駛語音識別 等自用戶化程序新聞閱讀器學習用戶的閱讀興趣。返回 7/27/202224譚營機器學習研究及最新進展 機器學習早期研究Rosenblatt的感知機(1956)。Widrow的Madline (1960)。Samuel的符號機器學習(1965)。Minsky的“Perceptron”著作(1969,1988)。7/27/202225譚營機器學習研究及最新進展 PerceptronsDevised by Frank Rosenblatt in the late

14、1950sA single-layer network where all inputs and activation values are either 0 or 1, and the weights are real valuedActivation function is a simple linear threshold1 if xiwi t0 otherwiseSupervised learning, perceptron changes weights based on correct resultsIf output is correct, do nothingIf output

15、 is 0 and should be 1, increment weights on the active lines (input of 1) by some amount d.If output is 1 and should be 0, decrement weights on the active lines by some amount d.7/27/202226譚營機器學習研究及最新進展 Limits of PerceptronsSingle-layer networks are only capable of learning classes that are linearly

16、 separableFor example, exclusive-or is not linearly separable, and thus cannot be represented by a perceptronFor any n-dimensional space, a classification is linearly separable if these groups can be separated with a single n-1 dimensional hyperplaneYXX xor Y = 0X xor Y = 10117/27/202227譚營機器學習研究及最新進

17、展 二十世紀八十年代的研究符號機器學習取得進展。神經網(wǎng)絡的研究。計算學習理論PAC(概率近似正確)。7/27/202228譚營機器學習研究及最新進展 兩類最重要的符號機器學習算法覆蓋算法與分治算法。七十年代末,Michalski基于帶等號的邏輯演算,提出了AQ11算法,稱為符號機器學習的覆蓋算法。1986年,Quinlan提出了決策樹算法,也稱為分治算法(樹結構表示的最早研究是CLS,概念學習系統(tǒng))。7/27/202229譚營機器學習研究及最新進展 神經網(wǎng)絡Hopfield模型。Kohonen模型。Goldberg的ART模型。最有影響的是Remulhart等人提出的BP算法(1986)。7/

18、27/202230譚營機器學習研究及最新進展 計算學習理論1984年,Valiant提出機器學習應該以模型概率近似正確(1-)為指標,而不是以概率為1為指標。學習算法必須對樣本集合的規(guī)模呈多項式。統(tǒng)計機器學習、集成機器學習等方法的理論基礎。7/27/202231譚營機器學習研究及最新進展 機器學習 學科1983年,R.S. Michalski等人撰寫機器學習:通往人工智能的途徑一書1986年,Machine Learning雜志創(chuàng)刊1997年以Tom Mitchell的經典教科書(McGraw Hill Press, 1997)中都沒有貫穿始終的基礎體系,只不個是不同方法和技術的羅列機器學習還

19、非常年輕、很不成熟返回7/27/202232譚營機器學習研究及最新進展 機器學習的主要方法傳統(tǒng)分類歸納機器學習解釋機器學習遺傳機器學習連接機器學習現(xiàn)代分類(1997年,Dietterich)符號機器學習。統(tǒng)計機器學習。集成機器學習。增強機器學習。7/27/202233譚營機器學習研究及最新進展 學習方法的傳統(tǒng)分類傳統(tǒng)上,大致可分為4類:歸納學習解釋學習遺傳學習連接學習7/27/202234譚營機器學習研究及最新進展 歸納學習是從某一概念的分類例子集出發(fā)歸納出一般的概念描述。這是目前研究得最多的學習方法,其學習目的是為了獲得新的概念、構造新的規(guī)則或發(fā)現(xiàn)新的理論。這種方法要求大量的訓練例,而且歸納

20、性能受到描述語言、概念類型、信噪比、實例空間分布、歸納模式等的影響。包括:有變型(版本)空間、決策樹方法、AQ11算法,一階Horn子句等7/27/202235譚營機器學習研究及最新進展 解釋學習解釋學習(分析學習)是從完善的領域理論出發(fā)演繹出有助于更有效地利用領域理論的規(guī)則。 其學習目的是提高系統(tǒng)性能,而不是修改領域理論。它與歸納學習相反,只需要少量的訓練例,但要求有完善的領域理論,而且學習效果也與例子表示形式、學習方法(正例學習或反例學習)、概括程度等有關。7/27/202236譚營機器學習研究及最新進展 遺傳學習是通過模擬自然界遺傳與變異機制,利用進化論的自然選擇原理進行分類和優(yōu)化。優(yōu)點

21、:可以使一些用傳統(tǒng)的精確的符號方法無法解決的問題變得易解缺點:在學習過程中會產生大量數(shù)據(jù),如何對這些數(shù)據(jù)進行挑選和記憶?7/27/202237譚營機器學習研究及最新進展 連接學習通過以某種形式連接的大量神經元根據(jù)訓練模式集調整連接和閾值進行學習,這種學習方式就是通常所說的人工神經網(wǎng)絡學習,也稱為“并行分布式學習”,其出發(fā)點是著名的MP模型。該方法在50、60年代陷入沉寂,但在80年代解決TSP問題后得到復興(BP,HNN,etc.)。這得益于隱結點的使用使其突破了早期Perceptron的限制。優(yōu)點:在模式識別、語音處理等許多方面已得到成功應用。缺點:難以處理高層次的符號信息,使得應用范圍受到

22、了限制。 返回7/27/202238譚營機器學習研究及最新進展 機器學習方法的現(xiàn)代分類1997年,Dietterich的分類符號機器學習統(tǒng)計機器學習集成機器學習增強機器學習返回7/27/202239譚營機器學習研究及最新進展 符號機器學習1959年Solomonoff關于文法歸納的研究應該是最早的符號機器學習。1967年Gold證明,這是不可能的實現(xiàn)的。Samuel將分段劃分引入對符號域的數(shù)據(jù)處理, 形成了一類基于符號數(shù)據(jù)集合的約簡算法,這是現(xiàn)代符號機器學習的基礎。約簡:規(guī)則長度越短,覆蓋對象越多,但是,不能增加對象矛盾。7/27/202240譚營機器學習研究及最新進展 符號機器學習的基礎劃分

23、機器學習的本質是對樣本空間的劃分。這需要定義一個等價關系,將樣本空間劃分為等價類。7/27/202241譚營機器學習研究及最新進展 符號機器學習的等價關系定義在給定符號對象集合U上的等價關系a(x, y) : a(x)=a(y), x, yU7/27/202242譚營機器學習研究及最新進展 Rough Set理論Pawlak在1982年提出的一種數(shù)學理論,包含了兩個方面的內容:基于roughness的不精確知識表示理論。Reduct理論與邊緣理論??梢宰C明:覆蓋算法和分治算法與Reduct理論等價。Reduct理論是符號機器學習的理論基礎。7/27/202243譚營機器學習研究及最新進展 Re

24、duct理論的貢獻給出了在結構上“非最小”解的精確數(shù)學定義Reduct。Core的概念。根據(jù)上述兩個概念,引出邊緣區(qū)域的概念。7/27/202244譚營機器學習研究及最新進展 Reduct是一個屬性集合,當從這個集合中刪除一個屬性,則至少出現(xiàn)一個新的矛盾樣本對。因此,它是在的不增加新矛盾對的最小屬性集合。rR, POSR(D)POSR-r(D)。7/27/202245譚營機器學習研究及最新進展 Core是一個屬性集合。如果刪除一個這樣的屬性,必然出現(xiàn)一個新的樣本矛盾對。反映了信息系統(tǒng)的本質。7/27/202246譚營機器學習研究及最新進展 邊緣區(qū)域邊緣區(qū)域是信息系統(tǒng)所有矛盾樣本的集合。如果C(

25、x)=C(y),但是,D(x)D(y),x與y是樣本集合中的矛盾對。這為我們提供了研究矛盾信息結構的機會。7/27/202247譚營機器學習研究及最新進展 性質根據(jù)reduct可以建立一個新的信息系統(tǒng),這個信息系統(tǒng)的所有屬性是core。這個性質對形成不同簡潔程度文本有重要的應用。7/27/202248譚營機器學習研究及最新進展 符號機器學習的限制算法定義在符號域,連續(xù)量必須被映射到這樣的域上,算法才有效學習算法本身無法刻畫泛化能力,而依賴于與算法本身無關的上述映射目前,它是數(shù)據(jù)分析與數(shù)據(jù)挖掘的基礎返回7/27/202249譚營機器學習研究及最新進展 統(tǒng)計機器學習算法的泛化能力Vapnik的有限

26、樣本統(tǒng)計理論線性空間的學習算法(劃分)SVM7/27/202250譚營機器學習研究及最新進展 泛化誤差由于問題世界的統(tǒng)計分布未知(如果已知,無需機器學習,Vapnik),解析地計算最小期望風險是不可能的。機器學習以最小經驗風險與期望風險之差為統(tǒng)計基礎,稱為泛化誤差。泛化能力以此進行估計。7/27/202251譚營機器學習研究及最新進展 Duda(1973)Vapnik(1971)樣本集:樣本個數(shù)趨近無窮大有限樣本,樣本集內部結構(VC維)泛化關系:模型與泛化隨機選擇樣本集的隨機變量樣本集、模型與泛化泛化能力描述:以概率為1成立以概率1-成立泛化不等式:?(無法指導算法設計)最大邊緣(指導算法設

27、計)泛化能力描述7/27/202252譚營機器學習研究及最新進展 “泛化誤差界”研究的演變PAC界(Valiant1984)VC維界(Blumer1989)最大邊緣(Shawe-Taylor1998)7/27/202253譚營機器學習研究及最新進展 最大邊緣(Shawe-Taylor1998)M0,邊緣不能等于零。這意味著,樣本集合必須是可劃分的。邊緣最大,誤差界最小,泛化能力最強。泛化能力可以使用樣本集合的邊緣刻畫。這個不等式依賴于邊緣M。貢獻:給出了有幾何直觀的界描述,從而為算法設計奠定基礎。7/27/202254譚營機器學習研究及最新進展 研究趨勢算法的理論研究已經基本完成,目前主要集中

28、在下述兩個問題上:泛化不等式需要樣本集滿足獨立同分布,這個條件太嚴厲,可以放寬這個條件?如何根據(jù)領域需求選擇核函數(shù),有基本原則嗎?7/27/202255譚營機器學習研究及最新進展 有限樣本統(tǒng)計理論的優(yōu)點所需滿足的條件相對較少,盡管需要滿足獨立同分布,但無需考慮問題世界的先驗分布這意味著,這個理論可以僅以樣本集(數(shù)據(jù))為基礎7/27/202256譚營機器學習研究及最新進展 要求“線性算法”的原因對計算,非線性算法一般是NP完全的。對世界認識,只有在某個空間可以描述為線性的世界,人們才能夠說,這個世界已被認識。7/27/202257譚營機器學習研究及最新進展 非線性問題的數(shù)學方法尋找一個映射,將非

29、線性問題映射到線性空間,以便其可以在線性空間中線性表述。例如,牛頓萬有引力定律:映射:線性表示:7/27/202258譚營機器學習研究及最新進展 在機器學習中的方法方法:尋找具有一般意義的線性空間目前,機器學習主要采用兩種方法:整體線性:Hilbert空間分段線性:在流形意義下的線性子空間7/27/202259譚營機器學習研究及最新進展 線性可分問題如果一個樣本集合是線性可分的,它們一定可以構成兩個不相交的閉凸集。這樣,線性可分問題變?yōu)橛嬎銉蓚€閉凸集的最大邊緣問題。7/27/202260譚營機器學習研究及最新進展 線性不可分問題核函數(shù)可以證明,一定存在一個映射,稱為核函數(shù),將在歐氏空間定義的樣

30、本映射到特征空間(一個更高維的空間),使得在特征空間上,樣本構成兩個不相交的閉凸集。7/27/202261譚營機器學習研究及最新進展 SVM線性可分為基礎。給定核函數(shù),如果它可以保證將樣本集合在特征空間變換為兩個不相交的閉凸集,則對這個樣本集合的最大邊緣可以通過二次規(guī)劃、代數(shù)幾何、計算幾何等方法獲得。由此,可以獲得支持向量。這就是SVM。7/27/202262譚營機器學習研究及最新進展 存在問題 SVM只從存在上解決了劃分問題,并沒有真正在劃分上解決核函數(shù)的構造問題。泛化問題不僅需要解決劃分問題,還需要解決最大邊緣問題。這意味著,需要在滿足線性劃分的核函數(shù)中選擇一個滿足最大邊緣的核函數(shù)(模型選

31、擇)。返回7/27/202263譚營機器學習研究及最新進展 集成機器學習動機(Ensembles)在形式上與Madline類似,其泛化理論來自PAC的弱分類器理論。使用多個容易設計的簡單PAC弱分類器代替一個較難設計的PAC強分類器。7/27/202264譚營機器學習研究及最新進展 研究背景Valiant84introduced theoretical PAC model for studying machine learningKearns&Valiant88open problem of finding a boosting algorithmSchapire89, Freund90fir

32、st polynomial-time boosting algorithmsDrucker, Schapire&Simard 92first experiments using boosting7/27/202265譚營機器學習研究及最新進展 背景 (cont.)Freund&Schapire 95introduced AdaBoost algorithmstrong practical advantages over previous boosting algorithmsexperiments using AdaBoost:Drucker&Cortes 95Schapire&Singer

33、98Jackson&Cravon 96Maclin&Opitz 97Freund&Schapire 96Bauer&Kohavi 97Quinlan 96Schwenk&Bengio 98Breiman 96Dietterich98continuing development of theory & algorithms:Schapire,Freund,Bartlett&Lee 97 Schapire&Singer 98Breiman 97Mason, Bartlett&Baxter 98Grive and Schuurmans98Friedman, Hastie&Tibshirani 987

34、/27/202266譚營機器學習研究及最新進展 A Formal View of BoostingGiven training set X=(x1,y1),(xm,ym)yi-1,+1 correct label of instance xiXfor t = 1,T:construct distribution Dt on 1,mFind weak hypothesis (“rule of thumb”) ht : X -1,+1 with small error t on Dt: output final hypothesis Hfinal7/27/202267譚營機器學習研究及最新進展 集

35、成機器學習1990年Shapire證明,如果將多個PAC弱分類器集成在一起,它將具有PAC強分類器的泛化能力。進而,又說明,這類集成后的強分類器具有統(tǒng)計學習理論的基礎。7/27/202268譚營機器學習研究及最新進展 弱分類器如果一個分類器的分類能力(泛化)稍大于50%,這個分類器稱為弱分類器。這意味著,比擲硬幣猜正面的概率稍好,就是弱分類器。7/27/202269譚營機器學習研究及最新進展 集成在分類時,采用投票的方式決定新樣本屬于哪一類。由于每個分類器的分類能力不同,在集成時,需要對所有分類器加權平均,以決定分哪類。7/27/202270譚營機器學習研究及最新進展 集成分類器Classif

36、ier ensembleihihnh2h1Input vectorClassifier 1Classifier 2Classifier NCombine ClassifiersOutput7/27/202271譚營機器學習研究及最新進展 為什么吸引人弱分類器比強分類器設計簡單。有統(tǒng)計學習理論的基礎。典型方法:加權多數(shù)算法,Bootstrap, ADABOOST 等。返回7/27/202272譚營機器學習研究及最新進展 AdaBoost Freund&Schapire 97constructing Dt: given Dt and ht:where: Zt = normalization con

37、stantfinal hypothesis:返回7/27/202273譚營機器學習研究及最新進展 增強機器學習增強機器學習最早提出是考慮“從變化環(huán)境中”學習蘊含在環(huán)境中知識,其本質是對環(huán)境的適應開始的動機主要是為了解決機器人規(guī)劃、避障與在環(huán)境中適應的學習問題1975年,Holland首先將這個概念引入計算機科學。1990年左右,MIT的Sutton等青年計算機科學家,結合動態(tài)規(guī)劃等問題,統(tǒng)稱其為增強機器學習7/27/202274譚營機器學習研究及最新進展 目前,由于網(wǎng)絡用戶是更為復雜的環(huán)境,例如,如何使搜索引擎適應用戶的需求,成為更為重要的應用領域Q學習,動態(tài)規(guī)劃,遺傳學習,以及免疫網(wǎng)絡都成為

38、實現(xiàn)增強機器學習的有效方法。返回7/27/202275譚營機器學習研究及最新進展 機器學習面臨的挑戰(zhàn)隨著應用的不斷深入,出現(xiàn)了很多被傳統(tǒng)機器學習研究忽視、但非常重要的問題(下面將以醫(yī)療和金融為代表來舉幾個例子)機器學習正與眾多學科領域產生了交叉,交叉領域越多,問題也越多,也正是大有可為處7/27/202276譚營機器學習研究及最新進展 醫(yī)療:以癌癥診斷為例,“將病人誤診為健康人的代價”與“將健康人誤診為病人的代價”是不同的金融:以信用卡盜用檢測為例,“將盜用誤認為正常使用的代價”與“將正常使用誤認為盜用的代價”是不同的傳統(tǒng)的ML技術基本上只考慮同一代價如何處理代價敏感性?在教科書中找不到現(xiàn)成的

39、答案。例子1:代價敏感問題7/27/202277譚營機器學習研究及最新進展 醫(yī)療:以癌癥診斷為例,“健康人”樣本遠遠多于“病人”樣本金融:以信用卡盜用檢測為例,“正常使用”樣本遠遠多于“被盜用”樣本傳統(tǒng)的ML技術基本上只考慮平衡數(shù)據(jù)如何處理數(shù)據(jù)不平衡性?在教科書中找不到現(xiàn)成的答案例子2:不平衡數(shù)據(jù)問題7/27/202278譚營機器學習研究及最新進展 醫(yī)療:以乳腺癌診斷為例,需要向病人解釋“為什么做出這樣的診斷”金融:以信用卡盜用檢測為例,需要向保安部門解釋“為什么這是正在被盜用的卡”傳統(tǒng)的ML技術基本上只考慮泛化不考慮理解如何處理可理解性?在教科書中找不到現(xiàn)成的答案例子3:可理解性問題返回7/

40、27/202279譚營機器學習研究及最新進展 機器學習的最新進展算法驅動(建模與數(shù)據(jù)分析)應用驅動7/27/202280譚營機器學習研究及最新進展 算法驅動海量非線性數(shù)據(jù)(108-10)算法的泛化能力考慮學習結果數(shù)據(jù)的解釋代價加權的處理方法不同數(shù)據(jù)類型的學習方法返回7/27/202281譚營機器學習研究及最新進展 應用驅動自然語言分析、網(wǎng)絡與電信數(shù)據(jù)分析、圖像數(shù)據(jù)分析、金融與經濟數(shù)據(jù)分析、零售業(yè)數(shù)據(jù)分析、情報分析。Web信息的有效獲取(新一代搜索引擎)。由此導致各種學習任務:數(shù)據(jù)流學習、多實例學習(部分放棄獨立同分布條件)、Ranking學習。 蛋白質功能分析, DNA數(shù)據(jù)分析, SNP數(shù)據(jù)分

41、析. 它們需要使用各種不同方法,解決實際問題。7/27/202282譚營機器學習研究及最新進展 應用驅動機器學習流形機器學習半監(jiān)督機器學習多實例機器學習Ranking機器學習數(shù)據(jù)流機器學習圖模型機器學習 結束語7/27/202283譚營機器學習研究及最新進展 流形機器學習很多問題的表示方法,使得信息十分稀疏,如何將信息稠密化是一個困難的問題(“維數(shù)災難”),PCA是一種方法,但是,只對線性情況有效流形學習是解決上述問題的非線性方法7/27/202284譚營機器學習研究及最新進展 高微數(shù)據(jù)的低微表示線性方法PCA (Principal Component Analysis)ICA (Independent Component Analysis)FDA (Fisher Disc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論