版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)發(fā)展與未來大數(shù)據(jù)時(shí)代有效的數(shù)據(jù)分析大數(shù)據(jù)
大價(jià)值機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是從人工智能中產(chǎn)生的一個(gè)重要學(xué)科分支,是實(shí)現(xiàn)智能化的關(guān)鍵2010年度2011年度機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)(Machine
Learning)
究竟是什么東東?看個(gè)例子[C.Brodleyetal.,AIMagazine
2012]在“循證醫(yī)學(xué)”(evidence-based
medicine)中,針對(duì)特定的臨床問題,先要對(duì)相關(guān)研究報(bào)告進(jìn)行詳盡評(píng)估查詢
PubMed
以獲取候選摘要人工找出值得全文審讀的文章“文獻(xiàn)篩選”的故事在一項(xiàng)關(guān)于嬰兒和兒童殘疾的研究中,美國(guó)Tufts醫(yī)學(xué)中心篩選了約
33,000
篇摘要盡管Tufts醫(yī)學(xué)中心的專家效率很高,對(duì)每篇摘要只需30
秒鐘,但該工作仍花費(fèi)了
250
小時(shí)每項(xiàng)新的研究都要重復(fù)這個(gè)麻煩的過程!需篩選的文章數(shù)在不斷顯著增長(zhǎng)!“文獻(xiàn)篩選”的故事為了降低昂貴的成本,
Tufts醫(yī)學(xué)中心引入了機(jī)器學(xué)習(xí)技術(shù)邀請(qǐng)專家閱讀少量摘要,標(biāo)記為“有關(guān)”或
“無關(guān)”對(duì)是否“有關(guān)”進(jìn)行預(yù)測(cè)分類模型人類專家只需閱讀
50
篇摘要,系統(tǒng)的自動(dòng)篩選精度就達(dá)到
93%人類專家閱讀
1,000
篇摘要,則系統(tǒng)的自動(dòng)篩選敏感度達(dá)到
95%(人類專家以前需閱讀
33,000
篇摘要才能獲得此效果)“文獻(xiàn)篩選”的故事典型的機(jī)器學(xué)習(xí)過程決策樹,神經(jīng)網(wǎng)絡(luò),支持向量機(jī),Boosting,貝葉斯網(wǎng),……模型訓(xùn)練數(shù)據(jù)色澤根蒂敲聲好瓜青綠蜷縮濁響是烏黑蜷縮濁響是青綠硬挺清脆否烏黑稍蜷沉悶否類別標(biāo)記(label)訓(xùn)練?=
是新數(shù)據(jù)樣本(淺白,
蜷縮,
濁響,
?)類別標(biāo)記未知使用學(xué)習(xí)算法(learning
algorithm)機(jī)器學(xué)習(xí)源自“人工智能”ArtificialIntelligence(AI),1956
-1956年夏
美國(guó)達(dá)特茅斯學(xué)院達(dá)特茅斯會(huì)議標(biāo)志著人工智能這一學(xué)科的誕生J.
McCarthy“人工智能之父”圖靈獎(jiǎng)(1971)M.
Minsky圖靈獎(jiǎng)(1969)C.Shannon“信息論之父”A.
Newell圖靈獎(jiǎng)(1975)H.A.
Simon圖靈獎(jiǎng)(1975)諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)(1978)…………h(huán)ttp://lamda.nju.edu.cn第一階段:推理期赫伯特?西蒙(1916-2001)1975年圖靈獎(jiǎng)阿倫?紐厄爾(1927-1992)1975年圖靈獎(jiǎng)1956-1960s:Logic
Reasoning出發(fā)點(diǎn):
“數(shù)學(xué)家真聰明!”主要成就:
自動(dòng)定理證明系統(tǒng)
(例如,西蒙與紐厄爾的“Logic
Theorist”系統(tǒng))漸漸地,研究者們意識(shí)到,僅有邏輯推理能力是不夠的
…第二階段:知識(shí)期1970s-1980s:Knowledge
Engineering出發(fā)點(diǎn):
“知識(shí)就是力量!”主要成就:
專家系統(tǒng)
(例如,費(fèi)根鮑姆等人的“DENDRAL”系統(tǒng))漸漸地,研究者們發(fā)現(xiàn),要總結(jié)出知識(shí)再“教”給系統(tǒng),實(shí)在太難了
…愛德華?費(fèi)根鮑姆(1936-
)1994年圖靈獎(jiǎng)第三階段:學(xué)習(xí)期1990s-now:Machine
Learning出發(fā)點(diǎn):
“讓系統(tǒng)自己學(xué)!”主要成就:
……機(jī)器學(xué)習(xí)是作為“突破知識(shí)工程瓶頸”之利器而出現(xiàn)的恰好在20世紀(jì)90年代中后期,人類發(fā)現(xiàn)自己淹沒在數(shù)據(jù)的汪洋中,對(duì)自動(dòng)數(shù)據(jù)分析技術(shù)——機(jī)器學(xué)習(xí)的需求日益迫切機(jī)器學(xué)習(xí)已經(jīng)“無處不在”互聯(lián)網(wǎng)搜索軍事決策助手
(DARPA)火星機(jī)器人生物特征識(shí)別美國(guó)總統(tǒng)選舉汽車自動(dòng)駕駛機(jī)器學(xué)習(xí)有堅(jiān)實(shí)的理論基礎(chǔ)LeslieValiant(萊斯利?維利昂特)(1949- )2010年圖靈獎(jiǎng)計(jì)算學(xué)習(xí)理論Computationallearning
theory概率近似正確)
learning
model最重要的理論模型:PAC(ProbablyApproximately
Correct,[Valiant,
1984]技術(shù)任務(wù)形態(tài)關(guān)于未來的淺見深度學(xué)習(xí)的興起2006年,
Hinton發(fā)表了深度學(xué)習(xí)的
Science
文章2012年,
Hinton
組參加ImageNet
競(jìng)賽,
使用
CNN
模型以超過第二名10個(gè)百分點(diǎn)的成績(jī)奪得當(dāng)年競(jìng)賽的冠軍,使得深度多領(lǐng)域都取伴隨云學(xué)習(xí)模得了較計(jì)算、大數(shù)據(jù)時(shí)代的到來,計(jì)算能力的大幅提升型在計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別等眾大的成功2010年
–
至今
~
熱潮
6
年可以說受到了一點(diǎn)生物神經(jīng)機(jī)制的“啟發(fā)”,但遠(yuǎn)沒有“受指導(dǎo)”至今最常用的算法:BP[Rumelhartetal.,
1986]M-P
model深度學(xué)習(xí)從技術(shù)上來看,就是“很多層”的神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)實(shí)質(zhì)上是多層函數(shù)嵌套形成的數(shù)學(xué)模型最著名的深度學(xué)習(xí)模型:卷積神經(jīng)網(wǎng)絡(luò)(CNN:Convolutional
NN)[LeCunandBengio,1995;LeCunetal.,
1998]有多深?——
例如微軟研究院2015年在ImageNet競(jìng)賽使用152層網(wǎng)絡(luò)增加隱層數(shù)目比增加隱層神經(jīng)元數(shù)目更有效不僅增加了擁有激活函數(shù)的神經(jīng)元數(shù),
還增加了激活函數(shù)嵌套的層數(shù)誤差梯度在多隱層內(nèi)傳播時(shí),往往會(huì)發(fā)散而不能收斂到穩(wěn)定狀態(tài),因此,難以直接用經(jīng)典BP算法訓(xùn)練使用若干訣竅
(trick)提升模型復(fù)雜度
提升學(xué)習(xí)能力增加隱層神經(jīng)元數(shù)目
(模型寬度)增加隱層數(shù)目
(模型深度)提升模型復(fù)雜度
增加過擬合風(fēng)險(xiǎn);增加計(jì)算開銷過擬合風(fēng)險(xiǎn):使用大量訓(xùn)練數(shù)據(jù)計(jì)算開銷:使用強(qiáng)力計(jì)算設(shè)備有多深?為何深?深度學(xué)習(xí)最重要的作用:表示學(xué)習(xí)傳統(tǒng)做法:人工設(shè)計(jì)特征學(xué)習(xí)分類Feature
Engineering(特征工程)深度學(xué)習(xí):學(xué)習(xí)特征學(xué)習(xí)分類Representation
learning(表示學(xué)習(xí))所謂end-to-endLearning(端到端學(xué)習(xí))關(guān)鍵深度學(xué)習(xí)最重要的作用:表示學(xué)習(xí)傳統(tǒng)做法:Feature
Engineering特征 分類(特征工程)人工設(shè)計(jì)特征 學(xué)習(xí)分類深度學(xué)習(xí): Representation
learning(表示學(xué)習(xí))學(xué)習(xí) 學(xué)習(xí)所謂end-to-endLearning(端到端學(xué)習(xí))關(guān)鍵深度學(xué)習(xí)何處適用?數(shù)據(jù)的“初始表示”(例如,圖像的“像素”)與解決任務(wù)所需的“合適表示”相距甚遠(yuǎn)深度學(xué)習(xí)會(huì)不會(huì)“一統(tǒng)江湖、千秋萬載”?一統(tǒng)江湖?不會(huì)!
很多學(xué)習(xí)任務(wù),數(shù)據(jù)的“初始表示”與“合適表示”沒那么遠(yuǎn)今天的“機(jī)器學(xué)習(xí)”已經(jīng)是一個(gè)廣袤的學(xué)科領(lǐng)域例如,這是第33屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML
2016)的“主題領(lǐng)域”事實(shí)上,“深度學(xué)習(xí)”(Deep
Learning)
僅是機(jī)器學(xué)習(xí)中的一個(gè)小分支深度學(xué)習(xí)會(huì)不會(huì)“一統(tǒng)江湖、千秋萬載”?一統(tǒng)江湖?不會(huì)!
很多學(xué)習(xí)任務(wù),數(shù)據(jù)的“初始表示”與“合適表示”沒那么遠(yuǎn)千秋萬載?鑒古知今:讓我們回顧一下神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史神經(jīng)網(wǎng)絡(luò)發(fā)展回顧1940年代-萌芽期:M-P模型
(1943),
Hebb
學(xué)習(xí)規(guī)則
(1945)1958左右-1969左右~繁榮期:感知機(jī)
(1958),
Adaline
(1960),…1969年:Minsky
&
Papert
“Perceptrons”冰河期2010左右-至今~繁榮期:深度學(xué)習(xí)沉寂期1985左右
-1995左右~繁榮期:Hopfield
(1983),
BP
(1986),
…1995年左右:SVM
及
統(tǒng)計(jì)學(xué)習(xí)
興起交替模式:熱十(年)冷十五(年)巧合?1950年代中:現(xiàn)代電子計(jì)算機(jī)廣泛應(yīng)用1980年代初:Intel
x86系列微處理器與內(nèi)存條技術(shù)廣泛應(yīng)用2000年代中:GPU、CPU集群廣泛應(yīng)用神經(jīng)網(wǎng)絡(luò)是相對(duì)最容易利用新增計(jì)算能力的機(jī)器學(xué)習(xí)方法!What’s
next?技術(shù):未必是深度學(xué)習(xí)但應(yīng)該是能有效利用GPU
等計(jì)算設(shè)備的方法關(guān)于未來的淺見(I)技術(shù)任務(wù)形態(tài)關(guān)于未來的淺見AlphaGo對(duì)規(guī)則明確的棋類游戲,機(jī)器最終一定能超越人類使用了職業(yè)6段-9段人類對(duì)弈的160,000局共計(jì)29,400,000個(gè)盤面,自我對(duì)弈的30,000,000個(gè)盤面進(jìn)行學(xué)習(xí)多種機(jī)器學(xué)習(xí)技術(shù):深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)蒙特卡洛樹搜索…AlphaGo以4:1戰(zhàn)勝人類頂尖棋手但是
……AlphaGo
并非“解決之道”JohnLangford國(guó)際機(jī)器學(xué)習(xí)大會(huì)AlphaGo以為自做得很好,但第87手迷惑了。們有麻煩了”ICML2012程序主席“己GoogleDeepMind 在負(fù)責(zé)人 我“錯(cuò)誤在第79手,但
AlphaGo到第87手才發(fā)覺”3月13日李世石九段“神之一手”人類犯錯(cuò):水平從九段降到八段機(jī)器犯錯(cuò):水平從九段降到業(yè)余離“超越人類棋手”還遠(yuǎn)“魯棒性”是關(guān)鍵
!傳統(tǒng)機(jī)器學(xué)習(xí)任務(wù)主要針對(duì)封閉靜態(tài)環(huán)境(重要因素大多是“定”的)數(shù)據(jù)分布恒定主要針對(duì)封閉靜態(tài)環(huán)境(重要因素大多是“定”的)數(shù)據(jù)分布恒定樣本類別恒定傳統(tǒng)機(jī)器學(xué)習(xí)任務(wù)主要針對(duì)封閉靜態(tài)環(huán)境(重要因素大多是“定”的)數(shù)據(jù)分布恒定樣本類別恒定樣本屬性恒定傳統(tǒng)機(jī)器學(xué)習(xí)任務(wù)主要針對(duì)封閉靜態(tài)環(huán)境(重要因素大多是“定”的)數(shù)據(jù)分布恒定樣本類別恒定樣本屬性恒定評(píng)價(jià)目標(biāo)恒定傳統(tǒng)機(jī)器學(xué)習(xí)任務(wù)樣本樣本評(píng)價(jià)目標(biāo)恒定一切都可能“變”!傳統(tǒng)機(jī)器學(xué)習(xí)任務(wù)主要針對(duì)封閉靜態(tài)環(huán)境(重要因素大多是“定”的)數(shù)據(jù)分布恒定類別恒定封閉靜態(tài)環(huán)境
開放動(dòng)態(tài)環(huán)境
屬性恒定“雪龍?zhí)枴泵媾R的難題類別增長(zhǎng)分布偏移屬性退化目標(biāo)多樣我們2012年左右開始研究(感謝國(guó)家自然科學(xué)基金支持)開放環(huán)境下的機(jī)器學(xué)習(xí)“開放環(huán)境”下的機(jī)器學(xué)習(xí)是挑戰(zhàn)!“魯棒性”是關(guān)鍵?。ā昂玫臅r(shí)候”要好,“壞的時(shí)候”不能太壞)AAAI
“主席報(bào)告”(“PresidentialAddress”)2016.02.14TomDietterichAAAI/AAAS/ACM
FellowAAAI
現(xiàn)任主席國(guó)際機(jī)器學(xué)習(xí)學(xué)會(huì)創(chuàng)始主席
(2001-2008)國(guó)際上對(duì)AI發(fā)展的探討隨著人工智能技術(shù)取得巨大發(fā)展,越來越多地面臨“高風(fēng)險(xiǎn)應(yīng)用”因此必須有“魯棒的AI”開放環(huán)境下機(jī)器學(xué)習(xí)研究,是通向“魯棒人工智能”途徑上的關(guān)鍵環(huán)節(jié)之一我們最近的一個(gè)工作AI
系統(tǒng)需能應(yīng)對(duì)未知情況(“Unknown
Unknowns”)開放環(huán)境What’s
next?任務(wù):開放環(huán)境學(xué)習(xí)任務(wù)魯棒性是關(guān)鍵關(guān)于未來的淺見(II)技術(shù)任務(wù)形態(tài)關(guān)于未來的淺見“機(jī)器學(xué)習(xí)”形態(tài)是什么?現(xiàn)狀算法
+
數(shù)據(jù)“機(jī)器學(xué)習(xí)”有哪些技術(shù)局限?局限(1):需要大量訓(xùn)練樣本特定類樣本少信用卡欺詐檢測(cè):相對(duì)于正常交易數(shù)量,信用卡欺詐數(shù)量很少有標(biāo)記(label)樣本少軟件缺陷檢測(cè):被程序員標(biāo)注的缺陷數(shù)量少有些應(yīng)用中,樣本總量少油田定位:數(shù)據(jù)必須通過昂貴的人工誘發(fā)深海地震獲取,數(shù)量很少大數(shù)據(jù)時(shí)代,訓(xùn)練樣本數(shù)量不再是問題?
NO!……技術(shù)局限(2):難以適應(yīng)環(huán)境變化環(huán)境變化汽車廠商設(shè)想的場(chǎng)景自動(dòng)駕駛夏天冬天……上路后遇到的場(chǎng)景難點(diǎn):類別增加物種監(jiān)測(cè)背景隨季節(jié)改變難點(diǎn):分布變化環(huán)境監(jiān)控一周后:60%傳感器失效,新增60%傳感器難點(diǎn):屬性變動(dòng)技術(shù)局限(3):黑箱模型自動(dòng)醫(yī)療:個(gè)性化治療方案若學(xué)習(xí)器不能給出治療理由,則難以說服患者接受昂貴的治療方案智能電網(wǎng):大型變電站停機(jī)檢測(cè)若學(xué)習(xí)器不能給出停機(jī)檢測(cè)的理由,則難以判斷停機(jī)檢測(cè)的風(fēng)險(xiǎn)和代價(jià)黑箱模型難以用于高風(fēng)險(xiǎn)應(yīng)用此外
……社區(qū)診所病例數(shù)據(jù)相對(duì)匱乏大醫(yī)院病例豐富,有很好的個(gè)性化診療模型數(shù)據(jù)隱私和安全無法保障數(shù)據(jù)隱私與安全我們很愿意提供能提供診療模型給我們用嗎?Machine
Learningas
Magic專家普通用戶即便相同數(shù)據(jù),普通用戶很難獲得機(jī)器學(xué)習(xí)專家級(jí)性能難以適應(yīng)環(huán)境變化難以避免數(shù)據(jù)泄露難以獲取充足樣本Interestingspecial
casesCommoncases難以了解模型Learner難以獲得專家級(jí)結(jié)果v.s.學(xué)件
(Learnware)(預(yù)訓(xùn)練的)模型(描述模型的)規(guī)約=
模型
(model)
+規(guī)約
(specification)規(guī)約需能夠:給出模型的合適刻畫模型需滿足:可重用
(reusable)可演進(jìn)
(evolvable)可了解
(comprehensible)[Zhou,FCS
2016]部分重用他人結(jié)果不必“從頭開始”可重用
(reusable)學(xué)件的預(yù)訓(xùn)練模型僅需利用“少量數(shù)據(jù)”對(duì)其進(jìn)行更新或增強(qiáng)即可用于新任務(wù)[Lake,Salakhutdinov&Tenenbaum,Science
2015]貝葉斯程序?qū)W習(xí)模型重用Trainingdata1.Trainageneral
model2.Adapttospecific
goalf
(x)
= +????(??)[Li,Tsang&Zhou,TPAMI
2013]相關(guān)探索遷移學(xué)習(xí)/files/tutorial_slides/td2.pdf[Pan&Yang,TKDE
2010]可演進(jìn)
(evolvable)學(xué)件的預(yù)訓(xùn)練模型應(yīng)具備感知環(huán)境變化,并針對(duì)變化進(jìn)行主動(dòng)自適應(yīng)調(diào)整的能力為應(yīng)對(duì)新任務(wù)與規(guī)約描述的差異、適應(yīng)新任務(wù)環(huán)境中可能存在的變化fishdogbirdNewclass相關(guān)探索類別增加[Da,Yu&Zhou,AAAI
2014][Sugiyama&Kawanabe,Adap.Comp.ML
2012]分布變化屬性變動(dòng)[Hou&Zhou,arxiv
2016]可了解
(comprehensible)學(xué)件的模型應(yīng)在一定程度上能被用戶了解(包括其目標(biāo)、學(xué)得結(jié)果、資源要求、典型任務(wù)上的性能等)否則,將難以給出模型的功能規(guī)約;通過重用、演進(jìn)后獲得模型的有效性和正確性也難以保障Thefirst
stageComplexblack-boxmodelPredictionPrediction
LearningSimplecomprehensiblemodelTrainingLearning dataVirtualdata相關(guān)探索“二次學(xué)習(xí)”框架Thesecondstage[Zhou&Jiang,TKDE
2004]Hinton等人最近提出相似
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年無苯健康耐黃變固化劑項(xiàng)目投資價(jià)值分析報(bào)告
- 四年級(jí)數(shù)學(xué)(小數(shù)加減運(yùn)算)計(jì)算題專項(xiàng)練習(xí)與答案
- 保險(xiǎn)業(yè)務(wù)居間委托合同
- 正宗8D醫(yī)療設(shè)備質(zhì)量報(bào)告范文
- 2024-2025學(xué)年小學(xué)數(shù)學(xué)三年級(jí)上冊(cè)作業(yè)布置計(jì)劃
- 生物樣本轉(zhuǎn)運(yùn)流程標(biāo)準(zhǔn)化
- 科技教育學(xué)困生轉(zhuǎn)化策略
- 2024年度浙江省公共營(yíng)養(yǎng)師之四級(jí)營(yíng)養(yǎng)師題庫(kù)附答案(典型題)
- 2024年度浙江省公共營(yíng)養(yǎng)師之二級(jí)營(yíng)養(yǎng)師能力提升試卷A卷附答案
- 2024年度海南省公共營(yíng)養(yǎng)師之三級(jí)營(yíng)養(yǎng)師考前沖刺模擬試卷A卷含答案
- 2024-2025學(xué)年八年級(jí)上學(xué)期1月期末物理試題(含答案)
- 2025年國(guó)新國(guó)際投資有限公司招聘筆試參考題庫(kù)含答案解析
- 制造車間用洗地機(jī)安全操作規(guī)程
- 2025河南省建筑安全員-A證考試題庫(kù)及答案
- MOOC 有機(jī)化學(xué)(上)-北京師范大學(xué) 中國(guó)大學(xué)慕課答案
- 《風(fēng)電場(chǎng)項(xiàng)目經(jīng)濟(jì)評(píng)價(jià)規(guī)范》(NB-T 31085-2016)
- 五年級(jí)上冊(cè)脫式計(jì)算100題及答案
- 中央廣播電視大學(xué)畢業(yè)生登記表-6
- 普通地質(zhì)學(xué)教材
- 醫(yī)療設(shè)備報(bào)廢申請(qǐng)表
- CAD快速看圖破解安裝步驟
評(píng)論
0/150
提交評(píng)論