機(jī)器學(xué)習(xí)方法匯總_第1頁
機(jī)器學(xué)習(xí)方法匯總_第2頁
機(jī)器學(xué)習(xí)方法匯總_第3頁
機(jī)器學(xué)習(xí)方法匯總_第4頁
機(jī)器學(xué)習(xí)方法匯總_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)經(jīng)典書目匯總本文總結(jié)了機(jī)器學(xué)習(xí)的經(jīng)典書籍,包括數(shù)學(xué)基礎(chǔ)和算法理論的書籍。入門書單《數(shù)學(xué)之美》作者吳軍大家都很熟識。以極為通俗的語言敘述了數(shù)學(xué)在機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域的應(yīng)用?!秔rogrammingcollectiveintelligence^(《集體才智編程》)作者tobysegaran也是fceautifuldata:thestoriesbehindelegantdatasolutions》(《數(shù)據(jù)之美:解密優(yōu)雅數(shù)據(jù)解決方案背后的故事》)的作者。這本書最大的優(yōu)勢就是里面沒有理論推導(dǎo)和簡單的數(shù)學(xué)公式,是很不錯的入門書。目前中文版已經(jīng)脫銷,對于有志于這個領(lǐng)域的人來說,英文的pdf是個不錯的選擇,由于后面有很多經(jīng)典書的翻譯都較差,只能看英文版,不如從這個人手。還有,這本書適合于快速看完,由于據(jù)評論,看完一些經(jīng)典的帶有數(shù)學(xué)推導(dǎo)的書后會發(fā)覺這本書什么都沒講,只是舉了很多例子而已。^algorithmsoftheintelligentw一b》(《智能w一b算法》)作者h(yuǎn)aralambosmarmanis、dmitrybabenkoo這本書中的公式比《集體才智編程》要略多一點(diǎn),里面的例子多是互聯(lián)網(wǎng)上的應(yīng)用,看名字就知道。不足的地方在于里面的配套代碼是b一ansh一].1而不是python或其他??偲饋碚f,這本書還是適合初學(xué)者,與上一本一樣需要快速讀完,假如讀完上一本的話,這一本可以不必細(xì)看代碼,了解算法主要思想就行了?!督y(tǒng)計(jì)學(xué)習(xí)方法》作者李航,是國內(nèi)機(jī)器學(xué)習(xí)領(lǐng)域的幾個大家之一,曾在msra任高級爭論員,現(xiàn)在華為諾亞方舟試驗(yàn)室。書中寫了十個算法,每個算法的介紹都很干脆,直接上公式,是徹頭徹尾的、'干貨書〃。每章末尾的參考文獻(xiàn)也便利了想深化理解算法的童鞋直接查到經(jīng)典論文;本書可以與上面兩本書互為幫助閱讀?!秏achinelearning》(《機(jī)器學(xué)習(xí)》)作者tommitch一11是emu的大師,有機(jī)器學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)課程視頻。這本書是領(lǐng)域內(nèi)翻譯的較好的書籍,敘述的算法也比《統(tǒng)計(jì)學(xué)習(xí)方法》的范圍要大很多。據(jù)評論這本書主要在于后發(fā),敘述公式為什么成立而不是推導(dǎo);不足的地方在于出版年限較早,時效性不如prml。但有些基礎(chǔ)的經(jīng)典還是不會過時的,所以這本書現(xiàn)在幾乎是機(jī)器學(xué)習(xí)的必讀書目?!秏iningofmassivedatasets^(《大數(shù)據(jù)》)作者anandrajaraman[3]sjeffreydavidullman,anancl是Stanford的phdo這本書介紹了很多算法,也介紹了這些算法在數(shù)據(jù)規(guī)模比較大的時候的變形。但是限于篇幅,每種算法都沒有綻開講的感覺,假如想深化了解需要查其他的資料,不過這樣的話對算法進(jìn)行了解也足夠了。還有一點(diǎn)不足的地方就是本書原文和翻譯都有很多錯誤,勘誤表比較長,讀者要專心了。圖1給出了五子棋嬉戲算法的程序流程圖,具體步驟如下:圖1五子棋嬉戲算法的程序流程圖(1)對局雙方各執(zhí)一種顏色的棋子;(2)空棋盤開局;(3)玩家(黑方)首先落子,接著計(jì)算機(jī)(白方)作出決策,落子,交替下子,每次只能下一子;(4)棋子下在棋盤的空白點(diǎn)上,棋子下定后,不得向其它點(diǎn)移動,不得從棋盤上拿掉或拿起另落別處;(5)黑方的第一枚棋子可下在棋盤任意交叉點(diǎn)上;(6)輪番下子是雙方的權(quán)利;(7)連五取勝。在對弈過程中若某一方消失''成五〃(''五連〃和''多連〃的總稱),則判定為勝。若棋盤下滿還沒有勝方,則為平局。該五子棋嬉戲算法沒有用到機(jī)器學(xué)習(xí),計(jì)算機(jī)不具有智能。圖2、圖3分別給出了采用mfc實(shí)現(xiàn)五子棋嬉戲程序的運(yùn)行結(jié)果。本文設(shè)計(jì)實(shí)現(xiàn)的五子棋嬉戲可以依據(jù)個人爰好設(shè)計(jì)界面,人機(jī)交互便利、簡潔。圖2五子棋嬉戲程序的運(yùn)行結(jié)果圖3五子棋嬉戲程序的運(yùn)行結(jié)果機(jī)器學(xué)習(xí)是計(jì)算機(jī)獵取智能的途徑,本文設(shè)計(jì)了五子棋嬉戲算法,實(shí)現(xiàn)了五子棋嬉戲。下一步工作將機(jī)器學(xué)習(xí)方法引入到五子棋嬉戲的設(shè)計(jì),提高計(jì)算機(jī)的學(xué)習(xí)力量和推理力量。篇四:機(jī)器學(xué)習(xí)的爭論機(jī)器學(xué)習(xí)的爭論學(xué)號:1406110202姓名:曹嫄班級:電信14-2學(xué)院:電子與信息工程學(xué)院【摘要】:本文首先簡要概述機(jī)器學(xué)習(xí)的早期爭論狀況,接著介紹當(dāng)前機(jī)器學(xué)習(xí)的算法,并介紹幾個機(jī)器學(xué)習(xí)的例子。【前言】:機(jī)器學(xué)習(xí)是繼專家系統(tǒng)之后人工智能應(yīng)用的又一重要爭論領(lǐng)域,也是人工智能和神經(jīng)計(jì)算的核心爭論課題之一?,F(xiàn)有的計(jì)算機(jī)系統(tǒng)和人工智能系統(tǒng)沒有什么學(xué)習(xí)力量,至多也只有特別有限的學(xué)習(xí)力量,因而不能滿足科技和生產(chǎn)提出的新要求。對機(jī)器學(xué)習(xí)的爭論和機(jī)器學(xué)習(xí)爭論的進(jìn)展,必將促使人工智能和整個科學(xué)技術(shù)的進(jìn)一步進(jìn)展。.機(jī)器學(xué)習(xí)的進(jìn)展1機(jī)器學(xué)習(xí)的背景及意義學(xué)習(xí)是人類具有的一種重要智能行為,但畢竟什么是學(xué)習(xí),長期以來卻眾說紛紜。社會學(xué)家、規(guī)律學(xué)家和心理學(xué)家都各有其不同的看法。依據(jù)人工智能大師西蒙的觀點(diǎn),學(xué)習(xí)就是系統(tǒng)在不斷重復(fù)的工作中對本身力量的增加或者改進(jìn),使得系統(tǒng)在下一次執(zhí)行同樣任務(wù)或相同類似的任務(wù)時,會比現(xiàn)在做得更好或效率更高。西蒙對學(xué)習(xí)給出的定義本身,就說明白學(xué)習(xí)的重要作用。在人類社會中,不管一個人有多深的學(xué)問,多大的本事,假如他不擅長學(xué)習(xí),我們都不必過于看重他。由于他的力量總是停留在一個固定的水平上,不會制造出新穎的東西。但一個人若具有很強(qiáng)的學(xué)習(xí)力量,則不行等閑視之了。機(jī)器具備了學(xué)習(xí)力量,其情形完全與人類似。什么是機(jī)器學(xué)習(xí)?迄今尚沒有統(tǒng)一的定義,由其名字可理解為機(jī)器學(xué)習(xí)是爭論如何使用機(jī)器來模擬人類學(xué)習(xí)活動的一門學(xué)科。略微嚴(yán)格的提法是機(jī)器學(xué)習(xí)是一門爭論機(jī)器獵取新學(xué)問和新技能,并識別現(xiàn)有學(xué)問的學(xué)問。這里所說的''機(jī)器〃,指的就是計(jì)算機(jī),現(xiàn)在是電子計(jì)算機(jī),以后還可能是種子計(jì)算機(jī)、光子計(jì)算機(jī)或神經(jīng)計(jì)算機(jī)等等。機(jī)器能否像人類一樣能具有學(xué)習(xí)力量呢?1959年美國的塞繆爾(samu一1)設(shè)計(jì)了一個下棋程序,這個程序具有學(xué)習(xí)力量,它可以在不斷的對弈中改善自己的棋藝。4年后,這個程序戰(zhàn)勝了設(shè)計(jì)者本人。又過了3年,這個程序戰(zhàn)勝了美國一個保持8年之久的常勝不敗的冠軍。這個程序向人們展現(xiàn)了機(jī)器學(xué)習(xí)的力量,提出了很多令人深思的社會問題與哲學(xué)問題。機(jī)器的力量是否能超過人的,很多持否定意見的人的一個主要論據(jù)是:機(jī)器是人造的,其性能和動作完全是由設(shè)計(jì)者規(guī)定的,因此無論如何其力量也不會超過設(shè)計(jì)者本人。這種意見對不具備學(xué)習(xí)力量的機(jī)器來說的確是對的,可是對具備學(xué)習(xí)力量的機(jī)器就值得考慮了,由于這種機(jī)器的力量在應(yīng)用中不斷地提高,過一段時間之后,設(shè)計(jì)者本人也不知它的力量到了何種水平。2機(jī)器學(xué)習(xí)定義及進(jìn)展機(jī)器學(xué)習(xí)(machinelearning)是爭論計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獵取新的學(xué)問或技能,重新組織已有的學(xué)問結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域,它主要使用歸納、綜合而不是演繹。學(xué)習(xí)力量是智能行為的一個特別重要的特征,但至今對學(xué)習(xí)的機(jī)理尚不清晰。人們曾對機(jī)器學(xué)習(xí)給出各種定義。認(rèn)為,學(xué)習(xí)是系統(tǒng)所作的適應(yīng)性變化,使得系統(tǒng)在下一次完成同樣或類似的任務(wù)時更為有效。認(rèn)為,學(xué)習(xí)是構(gòu)造或修改對于所經(jīng)受事物的表示。從事專家系統(tǒng)研制的人們則認(rèn)為學(xué)習(xí)是學(xué)問的獵取。這些觀點(diǎn)各有側(cè)重,第一種觀點(diǎn)強(qiáng)調(diào)學(xué)習(xí)的外部行為效果,其次種則強(qiáng)調(diào)學(xué)習(xí)的內(nèi)部過程,而第三種主要是從學(xué)問工程的有用性角度動身的。機(jī)器學(xué)習(xí)在人工智能的爭論中具有特別重要的地位。一個不具有學(xué)習(xí)力量的智能系統(tǒng)難以稱得上是一個真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學(xué)習(xí)的力量。例如,它們遇到錯誤時不能自我校正;不會通過閱歷改善自身的性能;不會自動獵取和發(fā)覺所需要的學(xué)問。它們的推理僅限于演繹而缺少歸納,因此至多只能夠證明已存在事實(shí)、定理,而不能發(fā)覺新的定理、定律和規(guī)章等。隨著人工智能的深化進(jìn)展,這些局限性表現(xiàn)得愈加突出。正是在這種情形下,機(jī)器學(xué)習(xí)漸漸成為人工智能爭論的核心之一。它的應(yīng)用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計(jì)算機(jī)視覺、智能機(jī)器人等領(lǐng)域。其中尤其典型的是專家系統(tǒng)中的學(xué)問獵取瓶頸問題,人們始終在努力試圖采納機(jī)器學(xué)習(xí)的方法加以克服。機(jī)器學(xué)習(xí)的爭論是依據(jù)生理學(xué)、認(rèn)知科學(xué)等對人類學(xué)習(xí)機(jī)理的了解,建立人類學(xué)習(xí)過程的計(jì)算模型或熟識模型,進(jìn)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,爭論通用的學(xué)習(xí)算法并進(jìn)行理論上的分析,建立面對任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些爭論目標(biāo)相互影響相互促進(jìn)。自從1980年在卡內(nèi)基一梅隆高校召開第一屆機(jī)器學(xué)術(shù)研討會以來,機(jī)器學(xué)習(xí)的爭論工作進(jìn)展很快,已成為中心課題之一。機(jī)器學(xué)習(xí)是人工智能爭論較為年輕的分支,它的進(jìn)展過程大體上可分為4個時期:第一階段是在50年月中葉到60年月中葉,屬于熱鬧時期;其次階段是在60年月中葉至70年月中葉,被稱為機(jī)器學(xué)習(xí)的冷靜時期;第三階段是從70年月中葉至80年月中葉,稱為復(fù)興時期;機(jī)器學(xué)習(xí)的最新階段始于1986年。.機(jī)器學(xué)習(xí)的算法機(jī)器學(xué)習(xí)(machinelearning,ml)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、靠近論、凸分析、算法簡單度理論等多門學(xué)科。特地爭論計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獵取新的學(xué)問或技能,重新組織已有的學(xué)問結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域,它主要使用歸納、綜合而不是演繹。.1機(jī)器學(xué)習(xí)綜合分類綜合考慮各種學(xué)習(xí)方法消失的歷史淵源、學(xué)問表示、推理策略、結(jié)果評估的相像性、爭論人員溝通的相對集中性以及應(yīng)用領(lǐng)域等諸因素。將機(jī)器學(xué)習(xí)方法[1]區(qū)分為以下六類:1)閱歷性歸納學(xué)習(xí)(empiricalinductivelearning)閱歷性歸納學(xué)習(xí)采納一些數(shù)據(jù)密集的閱歷方法(如版本空間法、id3法,定律發(fā)覺方法)對例子進(jìn)行歸納學(xué)習(xí)。其例子和學(xué)習(xí)結(jié)果一般都采納屬性、謂詞、關(guān)系等符號表示。它相當(dāng)于基于學(xué)習(xí)策略分類中的歸納學(xué)習(xí),但扣除聯(lián)接學(xué)習(xí)、遺傳算法、加強(qiáng)學(xué)習(xí)的部分。2)分析學(xué)習(xí)(analyticlearning)分析學(xué)習(xí)方法是從一個或少數(shù)幾個實(shí)例動身,運(yùn)用領(lǐng)域?qū)W問進(jìn)行分析。其主要特征為:?推理策略主要是演繹,而非歸納;?使用過去的問題求解閱歷(實(shí)例)指導(dǎo)新的問題求解,或產(chǎn)生能更有效地運(yùn)用領(lǐng)域?qū)W問的搜尋掌握規(guī)章。分析學(xué)習(xí)的目標(biāo)是改善系統(tǒng)的性能,而不是新的概念描述。分析學(xué)習(xí)包括應(yīng)用解釋學(xué)習(xí)、演繹學(xué)習(xí)、多級結(jié)構(gòu)組塊以及宏操作學(xué)習(xí)等技術(shù)。3)類比學(xué)習(xí)它相當(dāng)于基于學(xué)習(xí)策略分類中的類比學(xué)習(xí)。在這一類型的學(xué)習(xí)中比較引人注目的爭論是通過與過去經(jīng)受的具體事例作類比來學(xué)習(xí),稱為基于范例的學(xué)習(xí)(case_basedlearning),或簡稱范例學(xué)習(xí)。4)遺傳算法(geneticalgorithm)遺傳算法模擬生物繁殖的突變、交換和達(dá)爾文的自然選擇(在每一生態(tài)環(huán)境中適者生存)。它把問題可能的解編碼為一個向量,稱為個體,向量的每一個元素稱為基因,并采用目標(biāo)函數(shù)(相應(yīng)于自然選擇標(biāo)準(zhǔn))對群體(個體的集合)中的每一個個體進(jìn)行評價,依據(jù)評價值(適應(yīng)度)對個體進(jìn)行選擇、交換、變異等遺傳操作,從而得到新的群體。遺傳算法適用于特別簡單和困難的環(huán)境,比如,帶有大量噪聲和無關(guān)數(shù)據(jù)、事物不斷更新、問題目標(biāo)不能明顯和精確地定義,以及通過很長的執(zhí)行過程才能確定當(dāng)前行為的價值等。同神經(jīng)網(wǎng)絡(luò)一樣,遺傳算法的爭論已經(jīng)進(jìn)展為人工智能的一個獨(dú)立分支,其代表人物為霍勒德(j.h.Holland)o5)聯(lián)接學(xué)習(xí)典型的聯(lián)接模型實(shí)現(xiàn)為人工神經(jīng)網(wǎng)絡(luò),其由稱為神經(jīng)元的一些簡潔計(jì)算單元以及單元間的加權(quán)聯(lián)接組成。增力口學(xué)習(xí)(reinforcementlearning)增加學(xué)習(xí)的特點(diǎn)是通過與環(huán)境的摸索性(trialanderror)交互來確定和優(yōu)化動作的選擇,以實(shí)現(xiàn)所謂的序列決策任務(wù)。在這種任務(wù)中,學(xué)習(xí)機(jī)制通過選擇并執(zhí)行動作,導(dǎo)致系統(tǒng)狀態(tài)的變化,并有可能得到某種強(qiáng)化信號(馬上回報),從而實(shí)現(xiàn)與環(huán)境的交互。強(qiáng)化信號就是對系統(tǒng)行為的一種標(biāo)量化的獎懲。系統(tǒng)學(xué)習(xí)的目標(biāo)是查找一個合適的動作選擇策略,即在任一給定的狀態(tài)下選擇哪種動作的方法,使產(chǎn)生的動作序列可獲得某種最優(yōu)的結(jié)果(如累計(jì)馬上回報最大)。在綜合分類中,閱歷歸納學(xué)習(xí)、遺傳算法、聯(lián)接學(xué)習(xí)和增加學(xué)習(xí)均屬于歸納學(xué)習(xí),其中閱歷歸納學(xué)習(xí)采納符號表示方式,而遺傳算法、聯(lián)接學(xué)習(xí)和加強(qiáng)學(xué)習(xí)則采納亞符號表示方式;分析學(xué)習(xí)屬于演繹學(xué)習(xí)。實(shí)際上,類比策略可看成是歸納和演繹策略的綜合。因而最基本的學(xué)習(xí)策略只有歸納和演繹。從學(xué)習(xí)內(nèi)容的角度看,采納歸納策略的學(xué)習(xí)由于是對輸入進(jìn)行歸納,所學(xué)習(xí)的學(xué)問明顯超過原有系統(tǒng)學(xué)問庫所能蘊(yùn)涵的范圍,所學(xué)結(jié)果轉(zhuǎn)變了系統(tǒng)的學(xué)問演繹閉包,因而這種類型的學(xué)習(xí)又可稱為學(xué)問級學(xué)習(xí);而采納演繹策略的學(xué)習(xí)盡管所學(xué)的學(xué)問能提高系統(tǒng)的效率,但仍能被原有系統(tǒng)的學(xué)問庫所蘊(yùn)涵,即所學(xué)的學(xué)問未能轉(zhuǎn)變系統(tǒng)的演繹閉包,因而這種類型的學(xué)習(xí)又被稱為符號級學(xué)習(xí)。篇五:關(guān)于最大化使用機(jī)器學(xué)習(xí)的十大訣竅關(guān)于最大化使用機(jī)器學(xué)習(xí)的十大訣竅基于云的機(jī)器學(xué)習(xí)工具帶來了使用機(jī)器學(xué)習(xí)制造和供應(yīng)新的功能的可能性。然而,當(dāng)我們使用不當(dāng)時,這些工具會輸出不好的結(jié)果。想要在應(yīng)用程序中勝利地融入機(jī)器學(xué)習(xí)的開發(fā)者,需要留意十大關(guān)鍵要點(diǎn)。在供應(yīng)發(fā)覺埋藏?cái)?shù)據(jù)深層的模式的力量上,機(jī)器學(xué)習(xí)有著潛在的力量使得應(yīng)用程序更加的強(qiáng)大并且更能響應(yīng)用戶的需求。細(xì)心調(diào)校好的算法能夠從巨大的并且互不相同的數(shù)據(jù)源中提取價值,同時沒有人類思索和分析的限制。對于開發(fā)者而言,機(jī)器學(xué)習(xí)為應(yīng)用業(yè)務(wù)的關(guān)鍵分析供應(yīng)了盼望,從而實(shí)現(xiàn)從改善客戶體驗(yàn)到供應(yīng)產(chǎn)品推舉提升至超共性化內(nèi)容服務(wù)的任何應(yīng)用程序。像amazon和micorosoft這樣的云供應(yīng)商供應(yīng)云功能的機(jī)器學(xué)習(xí)解決方案,承諾為開發(fā)者供應(yīng)一個簡潔的方法,使得機(jī)器學(xué)習(xí)的力量能夠融入到他們的應(yīng)用程序當(dāng)中,這也算是最近的頭條新聞了。承諾好像很好,但開發(fā)者還需謹(jǐn)慎。對于開發(fā)人員而言,基于云的機(jī)器學(xué)習(xí)工具帶來了使用機(jī)器學(xué)習(xí)制造和供應(yīng)新的功能的可能性。然而,當(dāng)我們使用不當(dāng)時,這些工具會輸出不好的結(jié)果,用戶可能會因此而感到擔(dān)心。測試過微軟年齡檢測機(jī)器學(xué)習(xí)工具的人都會發(fā)覺,伴隨即插即用的易用性而來的是主要的精度問題一對于關(guān)鍵應(yīng)用程序或者是重大決策,它應(yīng)當(dāng)不值得信任。想要在應(yīng)用程序中勝利地融入機(jī)器學(xué)習(xí)的開發(fā)者,需要留意以下的一些關(guān)鍵要點(diǎn):.算法使用的數(shù)據(jù)越多,它的精度會更加精確,所以假如可能要盡量避開抽樣。機(jī)器學(xué)習(xí)理論在猜測誤差上有著特別直觀的描述。簡而言之,在機(jī)器學(xué)習(xí)模型和最優(yōu)猜測(在理論上達(dá)到最佳可能的誤差)之間的猜測誤差的差距可以被分解為三個部分:9*9?由于沒有找到正確函數(shù)形式的模型的誤差由于沒有找到最佳參數(shù)的模型的誤差由于沒用使用足夠數(shù)據(jù)的模型的誤差假如訓(xùn)練集有限,它可能無法支撐解決這個問題所需的模型簡單性。統(tǒng)計(jì)學(xué)的基本規(guī)律告知我們,假如我們可以的話,應(yīng)當(dāng)采用全部的數(shù)據(jù)而不是抽樣。.對給定的問題選擇效果最好的機(jī)器學(xué)習(xí)算法是打算成敗的關(guān)鍵。例如,梯度提升樹(gbt)是一個特別受歡迎的監(jiān)督學(xué)習(xí)算法,由于其精度而被業(yè)內(nèi)開發(fā)人員廣泛使用。然而,盡管其高度受歡迎,我們也不能盲目的把這種算法應(yīng)用于任何問題上。相反,我們使用的算法應(yīng)當(dāng)是能夠最佳地?cái)M合數(shù)據(jù)特征同時能夠保證精度的算法。為了證明這個觀點(diǎn),嘗試做這樣一個試驗(yàn),在數(shù)據(jù)集thepopulartextcategorizationdatasetrcvl上測試gbt算法和線性支持向量機(jī)(svm)算法,并比較兩者的精度。我們觀看到在這個問題上,就錯誤率而言,線性svm要優(yōu)于gbt算法。這是由于在文本事域當(dāng)中,數(shù)據(jù)通常是高維的。一個線性分類器能夠在n-l維當(dāng)中完善的分別出n個樣本,所以,一個樣本模型在這種數(shù)據(jù)上通常表現(xiàn)的更好。此外,模型越簡潔,通過采用有限的訓(xùn)練樣原來避開過擬合的方式學(xué)習(xí)參數(shù),并且供應(yīng)一個精確的模型,產(chǎn)生的問題也會隨之越少。另一方面,gbt是高度非線性的并且更加強(qiáng)大,但是在這種環(huán)境中卻更難學(xué)習(xí)并且更簡潔發(fā)生過擬合,往往結(jié)果精度也較低。.為了得到一個更好的模型,必需選擇最佳的的算法和相關(guān)的參數(shù)。這對于非數(shù)據(jù)科學(xué)家而言可能不簡潔。現(xiàn)代的機(jī)器學(xué)習(xí)算法有很多的參數(shù)可以調(diào)整。例如,對于流行的gbt算法單獨(dú)的就有十二個參數(shù)可以設(shè)置,其中包括如何掌握樹的大小,學(xué)習(xí)率,行或列的采樣方法,損失函數(shù),正則化選項(xiàng)等等。一個特有的項(xiàng)目需要在給定的數(shù)據(jù)集上為每一個參數(shù)找到其最優(yōu)值并且達(dá)到最精準(zhǔn)的精度,這的確不是一件簡潔的事。但是為了得到最佳的結(jié)果,數(shù)據(jù)科學(xué)家需要訓(xùn)練大量的模型,而直覺和閱歷會關(guān)心他們依據(jù)交叉驗(yàn)證的得分,然后打算使用什么參數(shù)再次嘗試。.機(jī)器學(xué)習(xí)模型會隨著好的數(shù)據(jù)而變得更好,錯誤的數(shù)據(jù)收集和數(shù)據(jù)處理睬降低你建立猜測和歸納的機(jī)器學(xué)習(xí)模型的力量。依據(jù)閱歷,建議認(rèn)真審查與主題相今的數(shù)據(jù),從而深化了解數(shù)據(jù)和幕后數(shù)據(jù)的生成過程。通常這個過程可以識別與紀(jì)錄、特征、值或采樣相關(guān)的數(shù)據(jù)質(zhì)量問題。.理解數(shù)據(jù)特征并改進(jìn)它們(通過制造新的特征或者去掉某個特征)對猜測力量有著高度的影響。機(jī)器學(xué)習(xí)的一個基本任務(wù)就是找到能夠被機(jī)器學(xué)習(xí)算法充分采用的豐富特征空間來替代原始數(shù)據(jù)。例如,特征轉(zhuǎn)換是一種流行的方法,可以通過在原始數(shù)據(jù)的基礎(chǔ)上使用數(shù)學(xué)上的轉(zhuǎn)換提取新的特征來實(shí)現(xiàn)。最終的特征空間(也就是最終用來描述數(shù)據(jù)的特征)要能更好的捕獲數(shù)據(jù)的多簡單性(如非線性和多種特征之間的相互作用),這對于勝利的學(xué)習(xí)過程至關(guān)重要。.在應(yīng)用中,選擇合適的靈感來自商業(yè)價值的目標(biāo)函數(shù)/損失函數(shù)對于最終的勝利至關(guān)重要。幾乎全部的機(jī)器學(xué)習(xí)算法最終都被當(dāng)成是一種優(yōu)化問題。依據(jù)業(yè)務(wù)的性質(zhì),合理設(shè)置或調(diào)整優(yōu)化的目標(biāo)函數(shù),是機(jī)器學(xué)習(xí)勝利的關(guān)鍵。以支持向量機(jī)為例,通過假設(shè)全部錯誤類型的權(quán)重相等,對一個二分類問題的泛化誤差進(jìn)行了優(yōu)化。這對損失敏感的問題并不合適,如故障檢測,其中某些類型的錯誤比重可能比其它類型的要高。在這種狀況下,建議通過在特定的錯誤類型上,增加更多的懲處來解釋它們的權(quán)重,從而調(diào)整svm的損失函數(shù)。.確保正確地處理訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),如此當(dāng)在生產(chǎn)中部署該模型時,測試數(shù)據(jù)能夠模擬輸入數(shù)據(jù)。例如,我們可以看到,這對于時間依靠性數(shù)據(jù)是多么的重要。在這種狀況下,使用標(biāo)準(zhǔn)的交叉驗(yàn)證方法進(jìn)行訓(xùn)練,調(diào)整,那么測試模型的結(jié)果可能會有偏差,甚至?xí)痪_。這是由于在實(shí)施平臺上它不能精確的模擬輸入數(shù)據(jù)的性質(zhì)。為了訂正這一點(diǎn),在部署時我們必需仿照模型來部署使用。我們應(yīng)當(dāng)使用一個基于時間的交叉驗(yàn)證,用時間較新的數(shù)據(jù)來驗(yàn)證訓(xùn)練模型。.部署前理解模型的泛化誤差。泛化誤差衡量模型在未知數(shù)據(jù)上的性能好壞。由于一個模型在訓(xùn)練數(shù)據(jù)上的性能好并不意味著它在未知的數(shù)據(jù)上的表現(xiàn)也好。一個細(xì)心設(shè)計(jì)的模擬實(shí)際部署使用的模型評估過程,是估量模型泛化誤差所需要的。一不留心就很簡潔違反交叉驗(yàn)證的規(guī)章,并且也沒有一種顯而易見的方法來表現(xiàn)交叉驗(yàn)證的非正確性,通常在你試圖查找快捷方式計(jì)算時發(fā)生。在任何模型部署之前,有必要認(rèn)真留意交叉驗(yàn)證的正確性,以獲得部署性能的科學(xué)評估。.知道如何處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),如文本、時間序列、空間、圖形或者圖像數(shù)據(jù)。大多數(shù)機(jī)器學(xué)習(xí)算法在處理特征空間中的數(shù)據(jù)時,一個特征集代表一個對象,特征集的每一個元素都描述對象的一個特點(diǎn)。在實(shí)際當(dāng)中,數(shù)據(jù)引進(jìn)時并不是這種格式化的形式,往往來自于最原始的格式,并且最終都必需被改造成機(jī)器學(xué)習(xí)算法能夠識別的抱負(fù)格式。比如,我們必需知道如何使用各種計(jì)算機(jī)視覺技術(shù)從圖像中提取特征或者如何將自然語言處理技術(shù)應(yīng)用于影片文本。假如你是一個開發(fā)者,學(xué)習(xí)這十個通往勝利的訣竅可能好像是一個困難的任務(wù),但是不要?dú)怵H。事實(shí)上,開發(fā)者不是數(shù)據(jù)科學(xué)家。認(rèn)為開發(fā)人員可以充分采用全部的機(jī)學(xué)習(xí)工具是不公正的。但是這并不意味著開發(fā)人員沒有機(jī)會去學(xué)習(xí)一些有水準(zhǔn)的數(shù)據(jù)科學(xué)從而改進(jìn)他們的應(yīng)用。隨著適當(dāng)?shù)钠髽I(yè)解決方案和自動化程度的提高,開發(fā)人員可以做模型構(gòu)建到實(shí)施部署的一切事情,使用機(jī)器學(xué)習(xí)最佳實(shí)踐來保持高精度。自動化是在應(yīng)用程序中擴(kuò)展機(jī)器學(xué)習(xí)的關(guān)鍵。即使你能夠供得起一批小的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)和開發(fā)者攜手合作,也沒有足夠的人才。像skytr-的automod一1(自動化模型)能夠關(guān)心開發(fā)者自動地確定最佳的參數(shù)并且使得算法得到最大的模型精度。一個易于使用的接口可以引導(dǎo)開發(fā)人員通過訓(xùn)練加工,調(diào)整并且測試模型來防止統(tǒng)計(jì)上的錯誤。自動化機(jī)器學(xué)習(xí)過程,有很多方式,包括數(shù)據(jù)科學(xué)家或開發(fā)者的人工智能原理,允許算法去思索,學(xué)習(xí)并且承受更多的建模重任。也就是說,認(rèn)為數(shù)據(jù)科學(xué)家能夠從機(jī)器學(xué)習(xí)中解耦是錯誤的,特殊是在關(guān)鍵任務(wù)模型上。謹(jǐn)防這種能夠簡潔使用機(jī)器學(xué)習(xí)功能的承諾,即能夠在不需要正確簡單的思索下或者可擴(kuò)展的應(yīng)用技術(shù)下就使用機(jī)器學(xué)習(xí)一這通常并不會得到高猜測精度和機(jī)器學(xué)習(xí)供應(yīng)的高商業(yè)價值結(jié)果。更糟糕的是,在應(yīng)用程序中使用不好的模型實(shí)際上可能會適得其反,并快速在其用戶之間建立不信任的產(chǎn)品或服務(wù)。《datamining:practicalmachinelearningtoolsandtechniques》(《數(shù)據(jù)挖掘:有用機(jī)器學(xué)習(xí)技術(shù)》)作者ianh.witten、eibefrank是weka的作者、新西蘭懷卡托高校教授。他們的《managinggigabytes》[4]也是信息檢索方面的經(jīng)典書籍。這本書最大的特點(diǎn)是對w一ka的使用進(jìn)行了介紹,但是其理論部分太單薄,作為入門書籍還可,但是,經(jīng)典的入門書籍如《集體才智編程》、《智能w一b算法》已經(jīng)很經(jīng)典,學(xué)習(xí)的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的算法?!稒C(jī)器學(xué)習(xí)及其應(yīng)用》周志華、楊強(qiáng)主編。來源于''機(jī)器學(xué)習(xí)及其應(yīng)用研討會〃的文集。該研討會由復(fù)旦高校智能信息處理試驗(yàn)室發(fā)起,目前已舉辦了十屆,國內(nèi)的大牛如李航、項(xiàng)亮、王海峰、劉鐵巖、余凱等都曾在該會議上做過講座。這本書講了很多機(jī)器學(xué)習(xí)前沿的具體的應(yīng)用,需要有基礎(chǔ)的才能看懂。假如想了解機(jī)器學(xué)習(xí)爭論趨勢的可以掃瞄一下這本書。關(guān)注領(lǐng)域內(nèi)的學(xué)術(shù)會議是發(fā)覺爭論趨勢的方法嘛。《managinggigabytes^(深化搜尋引擎)信息檢索不錯的書。^moderninformationretrieval^ricardobaeza-yatesetal.1999O貌似第一本完整敘述ir的書。惋惜ir這些年進(jìn)展迅猛,這本書略有些過時了。翻翻做參考還是不錯的。此外,ricardo同學(xué)現(xiàn)在是yahooresearchforeuropeandlatinameria的頭頭?!锻婆e系統(tǒng)實(shí)踐》項(xiàng)亮,不錯的入門讀物深化《patternclassification^(《模式分類》其次版)作者工ichardo.duda[5]spetere.hart、davido模式識別的奠基之作,但對最近呈主導(dǎo)地位的較好的方法svm、boosting方法沒有介紹,被評''掛一漏萬之嫌〃?!秔atternrecognitionandmachinelearning^作者Christopherm.bishop[6];簡稱prml,側(cè)重于概率模型,是貝葉斯方法的扛鼎之作,據(jù)評''具有劇烈的工程氣息,可以協(xié)作Stanford高校andrewng教授的machinelearning視頻教程一起來學(xué),效果翻倍?!ā秚heelementsofstatisticallearning:datamining,inference,andpr一diction》,(《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與猜測》其次版)作者roberttibshiranistrevorhastiesjeromefriedmano''這本書的作者是boosting方法最活躍的幾個爭論人員,創(chuàng)造的gradientboosting提出了理解boosting方法的新角度,極大擴(kuò)展了boosting方法的應(yīng)用范圍。這本書對當(dāng)前最為流行的方法有比較全面深化的介紹,對工程人員參考價值或許要更大一點(diǎn)。另一方面,它不僅總結(jié)了已經(jīng)成熟了的一些技術(shù),而且對尚在進(jìn)展中的一些議題也有簡明扼要的論述。讓讀者充分體會到機(jī)器學(xué)習(xí)是一個仍舊特別活躍的爭論領(lǐng)域,應(yīng)當(dāng)會讓學(xué)術(shù)爭論人員也有常讀常新的感受?!╗7]《datamining:conceptsandtechniques^(《數(shù)據(jù)挖掘:概念與技術(shù)》第二版)作者(美)jiaweihan[8]、(力口)michelinekamber>(力口)jianp一i,其中第一作者是華裔。本書毫無疑問是數(shù)據(jù)挖掘方面的的經(jīng)典之作,不過翻譯版總是被噴,沒方法,大部分翻譯過來的書籍都被噴,想要不吃別人嚼過的東西,就好好學(xué)習(xí)英文吧。《ai,modernapproach2nd》peternorvig,無爭議的領(lǐng)域經(jīng)典。^foundationsofstatisticalnaturallanguageprocessing^自然語言處理領(lǐng)域公認(rèn)經(jīng)典。^informationtheory:inferenceandlearningalgorithms^^statisticallearningtheory^vapnik的大作,統(tǒng)計(jì)學(xué)界的權(quán)威,本書將理論提升到了哲學(xué)層面,他的另一本書Rhenatureofstatisticallearningtheory》也是統(tǒng)計(jì)學(xué)習(xí)爭論不行多得的好書,但是這兩本書都比較深化,適合有肯定基礎(chǔ)的讀者。數(shù)學(xué)基礎(chǔ)《矩陣分析》rogerhorno矩陣分析領(lǐng)域無爭議的經(jīng)典《概率論及其應(yīng)用》威廉?費(fèi)勒。極牛的書,可數(shù)學(xué)味道太重,不適合做機(jī)器學(xué)習(xí)的《allofstatistics^機(jī)器學(xué)習(xí)這個方向,統(tǒng)計(jì)學(xué)也一樣特別重要。推舉allofstatistics,這是emu的一本很簡潔的教科書,留意概念,簡化計(jì)算,簡化與machine1一arning無關(guān)的概念和統(tǒng)計(jì)內(nèi)容,可以說是很好的快速入門材料?!秐onlinearprogramming,2nd》最優(yōu)化方法,非線性規(guī)劃的參考書。^convexoptimization^boyd的經(jīng)典書籍,被引用次數(shù)超過14000次,面對實(shí)際應(yīng)用,并且有配套代碼,是一本不行多得的好書?!秐umericaloptimization^其次版,nocedal著,特別適合非數(shù)值專業(yè)的同學(xué)和工程師參考,算法流程清晰具體,原理清晰。^introductiontomathematicalstatistics^第六版,hogg著,本書介紹了概率統(tǒng)計(jì)的基本概念以及各種分布,以及mLbayesian方法等內(nèi)容?!禷nintroductiontoprobabilisticgraphicalmodels》jordan著,本書介紹了條件獨(dú)立、分解、混合、條件混合等圖模型中的基本概念,對隱變量(潛在變量)也做了具體介紹,信任大家在隱馬爾科夫鏈和用gaussian混合模型來實(shí)現(xiàn)em算法時遇到過這個概念?!秔robabilisticgraphicalmodels-principlesandtechniques^koller著,一本很厚很全面的書,理論性很強(qiáng),可以作為參考書使用。具體數(shù)學(xué)經(jīng)典大家的補(bǔ)充線性代數(shù)(linearalgebra):我想國內(nèi)的高校生都會學(xué)過這門課程,但是,未必每一位老師都能貫徹它的精要。這門學(xué)科對于1一arning是必備的基礎(chǔ),對它的透徹把握是必不行少的。我在科大篇二:機(jī)器學(xué)習(xí)的方法淺談機(jī)器學(xué)習(xí)方法【摘要】本文以什么是機(jī)器學(xué)習(xí)、機(jī)器學(xué)習(xí)的進(jìn)展歷史和機(jī)器學(xué)習(xí)的主要策略這一線索,對機(jī)器學(xué)習(xí)進(jìn)行系統(tǒng)性的描述。接著,著重介紹了流形學(xué)習(xí)、李群機(jī)器學(xué)習(xí)和核機(jī)器學(xué)習(xí)三種新型的機(jī)器學(xué)習(xí)方法,為更好的爭論機(jī)器學(xué)習(xí)供應(yīng)了新的思路?!娟P(guān)鍵詞】機(jī)器學(xué)習(xí);人工智能;李群機(jī)器學(xué)習(xí);核機(jī)器學(xué)習(xí);流形學(xué)習(xí)briefremarksonmachinelearningmethodszhenpanhaoabstract:firstofall,machinelearningisdescribedsystematicallyontheconceptofmachinelearning,thehistoryandmainstrategiesofmachinelearning.then,threenewmachinelearningmethodsofmanifoldlearning,liegroupmachinelearningandnuclearmachinelearningarereferredemphaticallytoprovideanewwayofthinkingforbetterresearchonmachinelearning.keywords:machinelearning;artificialintelligence;liegroupmachinelearning;kernelmachinelearning;manifoldlearning0弓I言計(jì)算機(jī)視覺是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺功能,盼望能依據(jù)感知到的圖像(視頻)對實(shí)際的目標(biāo)和場景內(nèi)容做出有意義的推斷如何能正確識別目標(biāo)和行為特別關(guān)鍵,其中一個最基本的和最核心的問題是對圖像的有效表達(dá)假如所選的表達(dá)特征能夠有效地反映目標(biāo)和行為的本質(zhì),那么對于理解圖像就會取得事半功倍的效果正由于如此,關(guān)于機(jī)器學(xué)習(xí)的進(jìn)展歷史特征的構(gòu)建和選取始終得到廣泛關(guān)注近些年來人們已構(gòu)建出很多特征,并且得到了廣泛的應(yīng)用,例如等等設(shè)計(jì)特征是一種采用人類的才智和先驗(yàn)學(xué)問,并且將這些學(xué)問應(yīng)用到目標(biāo)和行為識別技術(shù)中的很好的方式但是,假如能通過無監(jiān)督的方式讓機(jī)器自動地從樣本中學(xué)習(xí)到表征這些樣本的更加本質(zhì)的特征則會使得人們更好地用計(jì)算機(jī)來實(shí)現(xiàn)人的視覺功能,因此也是近些年人們關(guān)注的一個熱點(diǎn)方向深度學(xué)習(xí)(deeplearning)的目的就是通過逐層的構(gòu)建一個多層的網(wǎng)絡(luò)來使得機(jī)器能自動地學(xué)習(xí)到反映隱含在數(shù)據(jù)內(nèi)部的關(guān)系,從而使得學(xué)習(xí)到的特征更具有推廣性和表達(dá)力本文旨在向讀者介紹深度學(xué)習(xí)的原理及它在目標(biāo)和行為識別中的最新動態(tài),盼望吸引更多的爭論者進(jìn)行爭論,并在這一新興的具有潛力的視覺領(lǐng)域做出更好的成果首先對深度學(xué)習(xí)的動機(jī)歷史以及應(yīng)用進(jìn)行了概括說明;主要介紹了基于限制玻爾茲曼機(jī)的深度學(xué)習(xí)架構(gòu)和基于自編碼器的深度學(xué)習(xí)架構(gòu),以及深度學(xué)習(xí)近些年的進(jìn)展,主要爭論了去噪自編碼器(denoisingautoencoder),卷積限制玻爾茲曼機(jī),二兀因子玻爾茲曼機(jī)(3-wayfactorizedboltzmannmachine),以及神經(jīng)自回歸分布估量器(nade)等一些新的深度學(xué)習(xí)單元;對目前深度學(xué)習(xí)在計(jì)算機(jī)視覺中的一些應(yīng)用以及取得的成果進(jìn)行介紹;最終,對深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的關(guān)系,深度學(xué)習(xí)的本質(zhì)等問題加以爭論,提出目前深度學(xué)習(xí)理論方面需要解決的主要問題1機(jī)器學(xué)習(xí)的進(jìn)展歷程機(jī)器學(xué)習(xí)的進(jìn)展大致可以分為四個階段.第一階段:20世紀(jì)50年月中葉至60年月中葉這個時期是機(jī)器學(xué)習(xí)爭論的熱鬧時代爭論對象是沒有學(xué)問的學(xué)習(xí),目標(biāo)是各自組織和適應(yīng)系統(tǒng)此階段有兩個代表,一是1957年rosenblatt提出了感知機(jī)算法,這是第一個具有重要學(xué)術(shù)意義的機(jī)器學(xué)習(xí)的算法二是50年月末,samuel編寫了跳棋程序,采用后發(fā)式搜尋技術(shù),可以從閱歷和棋譜中進(jìn)行學(xué)習(xí),不斷調(diào)整棋盤評價函數(shù),提高棋藝.其次階段:20世紀(jì)60年月中葉至70年月中葉,機(jī)器學(xué)習(xí)的冷靜時期本階段是模擬人類的學(xué)習(xí)過程,采納規(guī)律結(jié)構(gòu)或圖結(jié)構(gòu)作為內(nèi)部描述代表有:1969年minsky與papert出版的對機(jī)器學(xué)習(xí)爭論有深遠(yuǎn)影響的著作<感知機(jī)>一書.第三階段:20世紀(jì)70年月中葉至80年月中葉,稱為復(fù)興時期在這個時期,人們從學(xué)習(xí)單一概念延長至學(xué)習(xí)的多個概念,探究不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法在此階段中,爭論者已經(jīng)將機(jī)器學(xué)習(xí)系統(tǒng)與現(xiàn)實(shí)應(yīng)用相結(jié)合,完成相應(yīng)的學(xué)習(xí)過程,取得了很大的勝利1980年,在美國召開的第一屆機(jī)器學(xué)習(xí)國際研討會,標(biāo)志著機(jī)器學(xué)習(xí)在全世界范圍內(nèi)的全面興起.第四階段:1986年至今由于作為機(jī)器學(xué)習(xí)科學(xué)基礎(chǔ)之一的神經(jīng)科學(xué)爭論的重新興起,機(jī)器學(xué)習(xí)也進(jìn)一步受到了人們的重視另一方面,對試驗(yàn)爭論和應(yīng)用爭論得到前所未有的重視.機(jī)械學(xué)習(xí)機(jī)械學(xué)習(xí)是一種最基本的學(xué)習(xí)策略,把環(huán)境供應(yīng)的信息簡潔存儲起來,不經(jīng)過任何推理,''死記硬背〃式的學(xué)習(xí)。適合于一些環(huán)境相對穩(wěn)定,輸入輸出模式相對固定的系統(tǒng)中,例如醫(yī)生給病人看病。傳授學(xué)習(xí)傳授學(xué)習(xí)又叫做指導(dǎo)式學(xué)習(xí)或示教學(xué)習(xí)。傳授學(xué)習(xí)的學(xué)習(xí)過程可以簡潔地描述如下:(1)懇求:先向指導(dǎo)者懇求提出建議;(2)解釋:接受建議并將其轉(zhuǎn)化為內(nèi)部表示形式;(3)操作化:將解釋后的建議轉(zhuǎn)化為具體的學(xué)問;(4)歸并:將得到的新學(xué)問歸并到學(xué)問庫中;(5)評價:對新學(xué)問進(jìn)行評價,常用方法有,檢查新學(xué)問與學(xué)問庫里的學(xué)問是否沖突,或者使用新學(xué)問執(zhí)行某些任務(wù),觀看其執(zhí)行狀況。演繹學(xué)習(xí)演繹學(xué)習(xí)以演繹推理為基礎(chǔ)。演繹推理是一種有一般到個別的推理方法,其核心是三段論。例如,1動物都會死亡;2狗是一種動物;3狗會死亡。只要對給定的學(xué)問進(jìn)行演繹的保真推理,就能得出一個正確的新結(jié)論,然后把有價值的結(jié)論存儲起來。歸納學(xué)習(xí)歸納學(xué)習(xí)以歸納推理為基礎(chǔ)。從某個概念的一系列正例和反例中歸納出一個一般的概念描述。歸納學(xué)習(xí)可分為有導(dǎo)師學(xué)習(xí)和無導(dǎo)師學(xué)習(xí)。有導(dǎo)師學(xué)習(xí),又稱示例學(xué)習(xí)。給學(xué)習(xí)系統(tǒng)供應(yīng)正例和反例,學(xué)習(xí)系統(tǒng)通過歸納算法求解出一個總的概念描述。無導(dǎo)師學(xué)習(xí),又稱觀看與發(fā)覺學(xué)習(xí)。通過由環(huán)境供應(yīng)的觀看來進(jìn)行學(xué)習(xí),而且這些觀看是未經(jīng)過知道者分類的例子。類比學(xué)習(xí)類比學(xué)習(xí)是一種采用相像性來熟識新事物的學(xué)習(xí)方式,其基礎(chǔ)是類比推理。可以看作是演繹學(xué)習(xí)和歸納學(xué)習(xí)的組合學(xué)習(xí)形式。學(xué)習(xí)過程:(1)聯(lián)想搜尋匹配:提取特征值,搜尋和它相像的已知事物;(2)檢驗(yàn)相像程度:推斷相像程度,相像程度達(dá)到肯定閾值,則說明匹配勝利;(3)修正變換求解:即類比映射,把對已知事物的有關(guān)知識進(jìn)行適當(dāng)?shù)恼{(diào)整或變換,以求出新事物的解;(4)更新學(xué)問庫:求出新事物的解以后,將新事物及其解并入學(xué)問庫。3機(jī)器學(xué)習(xí)方法流形學(xué)習(xí)現(xiàn)實(shí)世界中的數(shù)據(jù),例如語音信號、數(shù)字圖像或功能性磁共振圖像等,通常都是高維數(shù)據(jù),為了正確地了解這些數(shù)據(jù),我們就需要對其進(jìn)行降維,降維的目的就是要找出隱蔽在高維數(shù)據(jù)中的低維結(jié)構(gòu)。流形學(xué)習(xí)是一種新的數(shù)據(jù)降維方法,能揭示數(shù)據(jù)的內(nèi)在變化規(guī)律,其目標(biāo)是發(fā)覺嵌入在高維數(shù)據(jù)空間中的低維流形結(jié)構(gòu),并給出一個有效的低維表示。2000年以來,流形學(xué)習(xí)在包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等多個爭論領(lǐng)域得到了廣泛的應(yīng)用。李群機(jī)器學(xué)習(xí)李群機(jī)器學(xué)習(xí)(liegroupmachinelearning,1ml)作為機(jī)器學(xué)習(xí)領(lǐng)域的一種新的學(xué)習(xí)方法,一方面繼承流形學(xué)習(xí)的優(yōu)點(diǎn),另一方面借用李群的思想,形成了具有創(chuàng)新特色的學(xué)習(xí)范式.自2004年提出至今,已引起加拿大、爰爾蘭、芬蘭、意大利、美國等國內(nèi)外同行的廣泛關(guān)注。李群結(jié)構(gòu)是目前學(xué)術(shù)界公認(rèn)的對學(xué)習(xí)問題爭論很有用的一套理論工具。從數(shù)據(jù)分析的角度來說,用機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)分析(數(shù)據(jù)挖掘),其目的就是揭示這些數(shù)據(jù)具有的規(guī)律,從而關(guān)心用戶供應(yīng)解釋的依據(jù)。李群一方面具有好的數(shù)學(xué)結(jié)構(gòu),另一方面物理學(xué)家廣泛使用李群方法來處理物理學(xué)中簡單數(shù)據(jù)的巨發(fā)。因此,引進(jìn)李群理論對機(jī)器學(xué)習(xí)是一種可以探究的新思路。核機(jī)器學(xué)習(xí)20世紀(jì)90年月初隨著統(tǒng)計(jì)學(xué)習(xí)理論的完善和線性超平面函數(shù)集容量掌握方法的發(fā)覺,提出了聞名的支撐矢量機(jī)方法(svms)。隨后,以支撐矢量機(jī)為核心算法的核機(jī)器(km)方法和fish一r推斷分析(fda)方法得到了機(jī)器學(xué)習(xí)、模式識別、網(wǎng)絡(luò)搜尋引擎技術(shù)、計(jì)算機(jī)視覺等等領(lǐng)域的廣泛關(guān)注。核機(jī)器方法以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),奇妙采用了m一rcer核技巧,使其獲得了良好的推廣力量、強(qiáng)大的非線性處理力量、敏捷的相像性測度定義和簡潔的模型表示,是目前在特征提取、模式識別、數(shù)據(jù)發(fā)掘領(lǐng)域公認(rèn)的具有最佳性能的方法之一?;谙拗撇柶澛鼨C(jī)的深度學(xué)習(xí)架構(gòu)玻爾茲曼機(jī)(boltzmannmachine)本質(zhì)上是一種能量模型能量模型是指對于參數(shù)空間(configurationspace)中每一種狀況均有一個標(biāo)量形式的能量與之對應(yīng)能量函數(shù)就是從參數(shù)空間到能量的映射函數(shù),人們盼望通過學(xué)習(xí)使得能量函數(shù)有符合要求的性質(zhì)從結(jié)構(gòu)上來說,玻爾茲曼機(jī)是雙層無向全連通圖,如圖3所示為了便利起見,這里僅爭論觀測變量和隱變量均是01變量的狀況玻爾茲曼機(jī)的能量函數(shù)為e(x,h)=-bx—ch—hwx—xux—hvh(1)式中,x表示可見層,h表示隱層,b{0,l}k,c{0,l}cl分別表示可見層和隱層單元的偏置(offset),kd分別表示可見層和隱層單元的數(shù)目wuv分別表示觀測層和隱層之間,觀測層變量之間,隱層變量之間的連接權(quán)重矩陣在實(shí)際中,由于計(jì)算樣本概率密度時歸一化因子的存在,需要使用馬爾可夫蒙特卡洛方法(mcmc)來對玻爾茲曼機(jī)進(jìn)行優(yōu)化但是mcmc方法收斂速度很慢,因此人們提出限制玻爾茲曼機(jī)和對比散度方法來解決這一問題.限制玻爾茲曼機(jī)限制玻爾茲曼機(jī)是對全連通的玻爾茲曼機(jī)進(jìn)行簡化,其限制條件是在給定可見層或者隱層中的其中一層后,另一層的單元彼此獨(dú)立,即式(1)中口和v矩陣中的元素均等于0層間單元獨(dú)立的條件是構(gòu)成高效的訓(xùn)練限制玻爾茲曼機(jī)的方法的條件之一,而rbm也因此成為深度置信網(wǎng)絡(luò)(dbn)的構(gòu)成單元限制玻爾茲曼機(jī)的圖模型如圖4所示可見,層內(nèi)單元之間沒有連接關(guān)系,層間單元是全連接父系將式(1)中層間連接矩陣u,v置零,得到限制玻爾茲曼機(jī)的能量函數(shù)一(x,h)=-bx-ch-hwx由于限制玻爾茲曼機(jī)取消了層內(nèi)單元之間的連接,所以可以將其條件概率分布進(jìn)行分解,這樣就簡化了模型優(yōu)化過程中的運(yùn)算但是在其優(yōu)化過程中仍舊需要基于mcmc方法的吉布斯采樣,訓(xùn)練過程仍舊特別漫長,因此人們提出對比散度方法來加快模型優(yōu)化.對比散度(contrastivedivergence)是hinton在2006年提出來的快速地訓(xùn)練限制玻爾茲曼機(jī)的方法,該方法在實(shí)踐中得到廣泛的應(yīng)用對比散度主要是將對數(shù)似然函數(shù)梯度的求解進(jìn)行了兩個近似:(1)使用從條件分布中得到的樣原來近似替代計(jì)算梯度時的平均求和這是由于在進(jìn)行隨機(jī)梯度下降法進(jìn)行參數(shù)優(yōu)化時已經(jīng)有平均的效果,而假如每次計(jì)算都進(jìn)行均值求和則這些效果會相互抵消,而且會造成很大的計(jì)算時間的鋪張(2)在進(jìn)行吉布斯采樣(gibbssampling)時只采納一步,即僅僅進(jìn)行一次吉布斯采樣這種一次吉布斯采樣方法會使得采樣得到的樣本分布與真實(shí)分布存在肯定的誤差但是實(shí)踐發(fā)覺,假如僅作一次迭代的話,就已經(jīng)能得到令人滿足的結(jié)果將限制玻爾茲曼機(jī)逐層疊加,就構(gòu)成了深度置信網(wǎng)絡(luò)(dbn)在深度置信網(wǎng)絡(luò)中底層的輸出作為上一層的輸入,每層是一個限制玻爾茲曼機(jī),使用對比散度的方法單獨(dú)訓(xùn)練為了達(dá)到更好的識別效果,往往還要對深度置信網(wǎng)絡(luò)每層的參數(shù)進(jìn)行微調(diào)使用限制玻爾茲曼機(jī)構(gòu)建成深度網(wǎng)絡(luò),在一些公開的數(shù)據(jù)集上取得了特別好的效果.5機(jī)器學(xué)習(xí)系統(tǒng)的模型及其特征機(jī)器學(xué)習(xí)系統(tǒng)的模型(1)外部環(huán)境是以某種形式表達(dá)的信息或?qū)W問的集合,是學(xué)問和信息的來源,執(zhí)行的對象和任務(wù)外部環(huán)境像系統(tǒng)提高信息的質(zhì)量是影響學(xué)習(xí)系統(tǒng)設(shè)計(jì)的首要因素。(2)學(xué)習(xí)是將外部環(huán)境供應(yīng)的信息,加工成為有效信息的過程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論