機(jī)器學(xué)習(xí)方法匯總_第1頁(yè)
機(jī)器學(xué)習(xí)方法匯總_第2頁(yè)
機(jī)器學(xué)習(xí)方法匯總_第3頁(yè)
機(jī)器學(xué)習(xí)方法匯總_第4頁(yè)
機(jī)器學(xué)習(xí)方法匯總_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)經(jīng)典書目匯總本文總結(jié)了機(jī)器學(xué)習(xí)的經(jīng)典書籍,包括數(shù)學(xué)基礎(chǔ)和算法理論的書籍。入門書單《數(shù)學(xué)之美》作者吳軍大家都很熟悉。以極為通俗的語(yǔ)言講述了數(shù)學(xué)在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理等領(lǐng)域的應(yīng)用?!秔rogrammingcollectiveintelligence》(《集體智慧編程》)作者tobysegaran也是《beautifuldata:thestoriesbehindelegantdatasolutions》(《數(shù)據(jù)之美:解密優(yōu)雅數(shù)據(jù)解決方案背后的故事》)的作者。這本書最大的優(yōu)勢(shì)就是里面沒(méi)有理論推導(dǎo)和復(fù)雜的數(shù)學(xué)公式,是很不錯(cuò)的入門書。目前中文版已經(jīng)脫銷,對(duì)于有志于這個(gè)領(lǐng)域的人來(lái)說(shuō),英文的pdf是個(gè)不錯(cuò)的選擇,因?yàn)楹竺嬗泻芏嘟?jīng)典書的翻譯都較差,只能看英文版,不如從這個(gè)入手。還有,這本書適合于快速看完,因?yàn)閾?jù)評(píng)論,看完一些經(jīng)典的帶有數(shù)學(xué)推導(dǎo)的書后會(huì)發(fā)現(xiàn)這本書什么都沒(méi)講,只是舉了很多例子而已?!禷lgorithmsoftheintelligentweb》(《智能web算法》)作者h(yuǎn)aralambosmarmanis、dmitrybabenko。這本書中的公式比《集體智慧編程》要略多一點(diǎn),里面的例子多是互聯(lián)網(wǎng)上的應(yīng)用,看名字就知道。不足的地方在于里面的配套代碼是beanshell而不是python或其他??偲饋?lái)說(shuō),這本書還是適合初學(xué)者,與上一本一樣需要快速讀完,如果讀完上一本的話,這一本可以不必細(xì)看代碼,了解算法主要思想就行了?!督y(tǒng)計(jì)學(xué)習(xí)方法》作者李航,是國(guó)內(nèi)機(jī)器學(xué)習(xí)領(lǐng)域的幾個(gè)大家之一,曾在msra任高級(jí)研究員,現(xiàn)在華為諾亞方舟實(shí)驗(yàn)室。書中寫了十個(gè)算法,每個(gè)算法的介紹都很干脆,直接上公式,是徹頭徹尾的"干貨書"。每章末尾的參考文獻(xiàn)也方便了想深入理解算法的童鞋直接查到經(jīng)典論文;本書可以與上面兩本書互為輔助閱讀。《machinelearning》(《機(jī)器學(xué)習(xí)》)作者tommitchell是cmu的大師,有機(jī)器學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)課程視頻。這本書是領(lǐng)域內(nèi)翻譯的較好的書籍,講述的算法也比《統(tǒng)計(jì)學(xué)習(xí)方法》的范圍要大很多。據(jù)評(píng)論這本書主要在于啟發(fā),講述公式為什么成立而不是推導(dǎo);不足的地方在于出版年限較早,時(shí)效性不如prml。但有些基礎(chǔ)的經(jīng)典還是不會(huì)過(guò)時(shí)的,所以這本書現(xiàn)在幾乎是機(jī)器學(xué)習(xí)的必讀書目?!秏iningofmassivedatasets》(《大數(shù)據(jù)》)作者anandrajaraman[3]、jeffreydavidullman,anand是stanford的phd。這本書介紹了很多算法,也介紹了這些算法在數(shù)據(jù)規(guī)模比較大的時(shí)候的變形。但是限于篇幅,每種算法都沒(méi)有展開(kāi)講的感覺(jué),如果想深入了解需要查其他的資料,不過(guò)這樣的話對(duì)算法進(jìn)行了解也足夠了。還有一點(diǎn)不足的地方就是本書原文和翻譯都有許多錯(cuò)誤,勘誤表比較長(zhǎng),讀者要用心了?!禿atamining:practicalmachinelearningtoolsandtechniques》(《數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù)》)作者ianh.witten、eibefrank是weka的作者、新西蘭懷卡托大學(xué)教授。他們的《managinggigabytes》[4]也是信息檢索方面的經(jīng)典書籍。這本書最大的特點(diǎn)是對(duì)weka的使用進(jìn)行了介紹,但是其理論部分太單薄,作為入門書籍還可,但是,經(jīng)典的入門書籍如《集體智慧編程》、《智能web算法》已經(jīng)很經(jīng)典,學(xué)習(xí)的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒(méi)講到的算法?!稒C(jī)器學(xué)習(xí)及其應(yīng)用》周志華、楊強(qiáng)主編。來(lái)源于"機(jī)器學(xué)習(xí)及其應(yīng)用研討會(huì)"的文集。該研討會(huì)由復(fù)旦大學(xué)智能信息處理實(shí)驗(yàn)室發(fā)起,目前已舉辦了十屆,國(guó)內(nèi)的大牛如李航、項(xiàng)亮、王海峰、劉鐵巖、余凱等都曾在該會(huì)議上做過(guò)講座。這本書講了很多機(jī)器學(xué)習(xí)前沿的具體的應(yīng)用,需要有基礎(chǔ)的才能看懂。如果想了解機(jī)器學(xué)習(xí)研究趨勢(shì)的可以瀏覽一下這本書。關(guān)注領(lǐng)域內(nèi)的學(xué)術(shù)會(huì)議是發(fā)現(xiàn)研究趨勢(shì)的方法嘛?!秏anaginggigabytes》(深入搜索引擎)信息檢索不錯(cuò)的書?!秏oderninformationretrieval》ricardobaeza-yatesetal.1999。貌似第一本完整講述ir的書??上r這些年進(jìn)展迅猛,這本書略有些過(guò)時(shí)了。翻翻做參考還是不錯(cuò)的。另外,ricardo同學(xué)現(xiàn)在是yahooresearchforeuropeandlatinameria的頭頭?!锻扑]系統(tǒng)實(shí)踐》項(xiàng)亮,不錯(cuò)的入門讀物深入《patternclassification》(《模式分類》第二版)作者richardo.duda[5]、petere.hart、david。模式識(shí)別的奠基之作,但對(duì)最近呈主導(dǎo)地位的較好的方法svm、boosting方法沒(méi)有介紹,被評(píng)"掛一漏萬(wàn)之嫌"?!秔atternrecognitionandmachinelearning》作者christopherm.bishop[6];簡(jiǎn)稱prml,側(cè)重于概率模型,是貝葉斯方法的扛鼎之作,據(jù)評(píng)"具有強(qiáng)烈的工程氣息,可以配合stanford大學(xué)andrewng教授的machinelearning視頻教程一起來(lái)學(xué),效果翻倍。"《theelementsofstatisticallearning:datamining,inference,andprediction》,(《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測(cè)》第二版)作者roberttibshirani、trevorhastie、jeromefriedman。"這本書的作者是boosting方法最活躍的幾個(gè)研究人員,發(fā)明的gradientboosting提出了理解boosting方法的新角度,極大擴(kuò)展了boosting方法的應(yīng)用范圍。這本書對(duì)當(dāng)前最為流行的方法有比較全面深入的介紹,對(duì)工程人員參考價(jià)值也許要更大一點(diǎn)。另一方面,它不僅總結(jié)了已經(jīng)成熟了的一些技術(shù),而且對(duì)尚在發(fā)展中的一些議題也有簡(jiǎn)明扼要的論述。讓讀者充分體會(huì)到機(jī)器學(xué)習(xí)是一個(gè)仍然非常活躍的研究領(lǐng)域,應(yīng)該會(huì)讓學(xué)術(shù)研究人員也有常讀常新的感受。"[7]《datamining:conceptsandtechniques》(《數(shù)據(jù)挖掘:概念與技術(shù)》第三版)作者(美)jiaweihan[8]、(加)michelinekamber、(加)jianpei,其中第一作者是華裔。本書毫無(wú)疑問(wèn)是數(shù)據(jù)挖掘方面的的經(jīng)典之作,不過(guò)翻譯版總是被噴,沒(méi)辦法,大部分翻譯過(guò)來(lái)的書籍都被噴,想要不吃別人嚼過(guò)的東西,就好好學(xué)習(xí)英文吧。《ai,modernapproach2nd》peternorvig,無(wú)爭(zhēng)議的領(lǐng)域經(jīng)典。《foundationsofstatisticalnaturallanguageprocessing》自然語(yǔ)言處理領(lǐng)域公認(rèn)經(jīng)典?!秈nformationtheory:inferenceandlearningalgorithms》《statisticallearningtheory》vapnik的大作,統(tǒng)計(jì)學(xué)界的權(quán)威,本書將理論上升到了哲學(xué)層面,他的另一本書《thenatureofstatisticallearningtheory》也是統(tǒng)計(jì)學(xué)習(xí)研究不可多得的好書,但是這兩本書都比較深入,適合有一定基礎(chǔ)的讀者。數(shù)學(xué)基礎(chǔ)《矩陣分析》rogerhorn。矩陣分析領(lǐng)域無(wú)爭(zhēng)議的經(jīng)典《概率論及其應(yīng)用》真推理,就能得出一個(gè)正確的新結(jié)論,然后把有價(jià)值的結(jié)論存儲(chǔ)起來(lái)。2.4歸納學(xué)習(xí)歸納學(xué)習(xí)以歸納推理為基礎(chǔ)。從某個(gè)概念的一系列正例和反例中歸納出一個(gè)一般的概念描述。歸納學(xué)習(xí)可分為有導(dǎo)師學(xué)習(xí)和無(wú)導(dǎo)師學(xué)習(xí)。有導(dǎo)師學(xué)習(xí),又稱示例學(xué)習(xí)。給學(xué)習(xí)系統(tǒng)提供正例和反例,學(xué)習(xí)系統(tǒng)通過(guò)歸納算法求解出一個(gè)總的概念描述。無(wú)導(dǎo)師學(xué)習(xí),又稱觀察與發(fā)現(xiàn)學(xué)習(xí)。通過(guò)由環(huán)境提供的觀察來(lái)進(jìn)行學(xué)習(xí),而且這些觀察是未經(jīng)過(guò)知道者分類的例子。2.5類比學(xué)習(xí)類比學(xué)習(xí)是一種利用相似性來(lái)認(rèn)識(shí)新事物的學(xué)習(xí)方式,其基礎(chǔ)是類比推理??梢钥醋魇茄堇[學(xué)習(xí)和歸納學(xué)習(xí)的組合學(xué)習(xí)形式。學(xué)習(xí)過(guò)程:(1)聯(lián)想搜索匹配:提取特征值,搜索和它相似的已知事物;(2)檢驗(yàn)相似程度:判斷相似程度,相似程度達(dá)到一定閾值,則說(shuō)明匹配成功;(3)修正變換求解:即類比映射,把對(duì)已知事物的有關(guān)知識(shí)進(jìn)行適當(dāng)?shù)恼{(diào)整或變換,以求出新事物的解;(4)更新知識(shí)庫(kù):求出新事物的解以后,將新事物及其解并入知識(shí)庫(kù)。3機(jī)器學(xué)習(xí)方法3.1流形學(xué)習(xí)現(xiàn)實(shí)世界中的數(shù)據(jù),例如語(yǔ)音信號(hào)、數(shù)字圖像或功能性磁共振圖像等,通常都是高維數(shù)據(jù),為了正確地了解這些數(shù)據(jù),我們就需要對(duì)其進(jìn)行降維,降維的目的就是要找出隱藏在高維數(shù)據(jù)中的低維結(jié)構(gòu)。流形學(xué)習(xí)是一種新的數(shù)據(jù)降維方法,能揭示數(shù)據(jù)的內(nèi)在變化規(guī)律,其目標(biāo)是發(fā)現(xiàn)嵌入在高維數(shù)據(jù)空間中的低維流形結(jié)構(gòu),并給出一個(gè)有效的低維表示。2000年以來(lái),流形學(xué)習(xí)在包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等多個(gè)研究領(lǐng)域得到了廣泛的應(yīng)用。3.2李群機(jī)器學(xué)習(xí)李群機(jī)器學(xué)習(xí)(liegroupmachinelearning,lml)作為機(jī)器學(xué)習(xí)領(lǐng)域的一種新的學(xué)習(xí)方法,一方面繼承流形學(xué)習(xí)的優(yōu)點(diǎn),另一方面借用李群的思想,形成了具有創(chuàng)新特色的學(xué)習(xí)范式.自2004年提出至今,已引起加拿大、愛(ài)爾蘭、芬蘭、意大利、美國(guó)等國(guó)內(nèi)外同行的廣泛關(guān)注。李群結(jié)構(gòu)是目前學(xué)術(shù)界公認(rèn)的對(duì)學(xué)習(xí)問(wèn)題研究很有用的一套理論工具。從數(shù)據(jù)分析的角度來(lái)說(shuō),用機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)分析(數(shù)據(jù)挖掘),其目的就是揭示這些數(shù)據(jù)具有的規(guī)律,從而幫助用戶提供解釋的依據(jù)。李群一方面具有好的數(shù)學(xué)結(jié)構(gòu),另一方面物理學(xué)家廣泛使用李群方法來(lái)處理物理學(xué)中復(fù)雜數(shù)據(jù)的啟發(fā)。因此,引進(jìn)李群理論對(duì)機(jī)器學(xué)習(xí)是一種可以探索的新思路。3.3核機(jī)器學(xué)習(xí)20世紀(jì)90年代初隨著統(tǒng)計(jì)學(xué)習(xí)理論的完善和線性超平面函數(shù)集容量控制方法的發(fā)現(xiàn),提出了著名的支撐矢量機(jī)方法(svms)。隨后,以支撐矢量機(jī)為核心算法的核機(jī)器(km)方法和fisher判斷分析(fda)方法得到了機(jī)器學(xué)習(xí)、模式識(shí)別、網(wǎng)絡(luò)搜索引擎技術(shù)、計(jì)算機(jī)視覺(jué)等等領(lǐng)域的廣泛關(guān)注。核機(jī)器方法以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),巧妙利用了mercer核技巧,使其獲得了良好的推廣能力、強(qiáng)大的非線性處理能力、靈活的相似性測(cè)度定義和簡(jiǎn)潔的模型表示,是目前在特征提取、模式識(shí)別、數(shù)據(jù)發(fā)掘領(lǐng)域公認(rèn)的具有最佳性能的方法之一。4.1基于限制玻爾茲曼機(jī)的深度學(xué)習(xí)架構(gòu)玻爾茲曼機(jī)(boltzmannmachine)本質(zhì)上是一種能量模型能量模型是指對(duì)于參數(shù)空間(configurationspace)中每一種情況均有一個(gè)標(biāo)量形式的能量與之對(duì)應(yīng)能量函數(shù)就是從參數(shù)空間到能量的映射函數(shù),人們希望通過(guò)學(xué)習(xí)使得能量函數(shù)有符合要求的性質(zhì)從結(jié)構(gòu)上來(lái)說(shuō),玻爾茲曼機(jī)是雙層無(wú)向全連通圖,如圖3所示為了方便起見(jiàn),這里僅討論觀測(cè)變量和隱變量均是01變量的情況玻爾茲曼機(jī)的能量函數(shù)為e(x,h)=-bx-ch-h(huán)wx-xux-h(huán)vh(1)式中,x表示可見(jiàn)層,h表示隱層,b{0,1}k,c{0,1}d分別表示可見(jiàn)層和隱層單元的偏置(offset),kd分別表示可見(jiàn)層和隱層單元的數(shù)目wuv分別表示觀測(cè)層和隱層之間,觀測(cè)層變量之間,隱層變量之間的連接權(quán)重矩陣在實(shí)際中,由于計(jì)算樣本概率密度時(shí)歸一化因子的存在,需要使用馬爾可夫蒙特卡洛方法(mcmc)來(lái)對(duì)玻爾茲曼機(jī)進(jìn)行優(yōu)化但是mcmc方法收斂速度很慢,因此人們提出限制玻爾茲曼機(jī)和對(duì)比散度方法來(lái)解決這一問(wèn)題.4.2限制玻爾茲曼機(jī)限制玻爾茲曼機(jī)是對(duì)全連通的玻爾茲曼機(jī)進(jìn)行簡(jiǎn)化,其限制條件是在給定可見(jiàn)層或者隱層中的其中一層后,另一層的單元彼此獨(dú)立,即式(1)中u和v矩陣中的元素均等于0層間單元獨(dú)立的條件是構(gòu)成高效的訓(xùn)練限制玻爾茲曼機(jī)的方法的條件之一,而rbm也因此成為深度置信網(wǎng)絡(luò)(dbn)的構(gòu)成單元限制玻爾茲曼機(jī)的圖模型如圖4所示可見(jiàn),層內(nèi)單元之間沒(méi)有連接關(guān)系,層間單元是全連接關(guān)系將式(1)中層間連接矩陣u,v置零,得到限制玻爾茲曼機(jī)的能量函數(shù)e(x,h)=-bx-ch-h(huán)wx由于限制玻爾茲曼機(jī)取消了層內(nèi)單元之間的連接,所以可以將其條件概率分布進(jìn)行分解,這樣就簡(jiǎn)化了模型優(yōu)化過(guò)程中的運(yùn)算但是在其優(yōu)化過(guò)程中仍然需要基于mcmc方法的吉布斯采樣,訓(xùn)練過(guò)程仍然十分漫長(zhǎng),因此人們提出對(duì)比散度方法來(lái)加快模型優(yōu)化.對(duì)比散度(contrastivedivergence)是hinton在2006年提出來(lái)的快速地訓(xùn)練限制玻爾茲曼機(jī)的方法,該方法在實(shí)踐中得到廣泛的應(yīng)用對(duì)比散度主要是將對(duì)數(shù)似然函數(shù)梯度的求解進(jìn)行了兩個(gè)近似:(1)使用從條件分布中得到的樣本來(lái)近似替代計(jì)算梯度時(shí)的平均求和這是因?yàn)樵谶M(jìn)行隨機(jī)梯度下降法進(jìn)行參數(shù)優(yōu)化時(shí)已經(jīng)有平均的效果,而如果每次計(jì)算都進(jìn)行均值求和則這些效果會(huì)相互抵消,而且會(huì)造成很大的計(jì)算時(shí)間的浪費(fèi)(2)在進(jìn)行吉布斯采樣(gibbssampling)時(shí)只采用一步,即僅僅進(jìn)行一次吉布斯采樣這種一次吉布斯采樣方法會(huì)使得采樣得到的樣本分布與真實(shí)分布存在一定的誤差但是實(shí)踐發(fā)現(xiàn),如果僅作一次迭代的話,就已經(jīng)能得到令人滿意的結(jié)果將限制玻爾茲曼機(jī)逐層疊加,就構(gòu)成了深度置信網(wǎng)絡(luò)(dbn)在深度置信網(wǎng)絡(luò)中底層的輸出作為上一層的輸入,每層是一個(gè)限制玻爾茲曼機(jī),使用對(duì)比散度的方法單獨(dú)訓(xùn)練為了達(dá)到更好的識(shí)別效果,往往還要對(duì)深度置信網(wǎng)絡(luò)每層的參數(shù)進(jìn)行微調(diào)使用限制玻爾茲曼機(jī)構(gòu)建成深度網(wǎng)絡(luò),在一些公開(kāi)的數(shù)據(jù)集上取得了非常好的效果.5機(jī)器學(xué)習(xí)系統(tǒng)的模型及其特征5.1機(jī)器學(xué)習(xí)系統(tǒng)的模型(1)外部環(huán)境是以某種形式表達(dá)的信息或知識(shí)的集合,是知識(shí)和信息的來(lái)源,執(zhí)行的對(duì)象和任務(wù)外部環(huán)境像系統(tǒng)提高信息的質(zhì)量是影響學(xué)習(xí)系統(tǒng)設(shè)計(jì)的首要因素。(2)學(xué)習(xí)是將外部環(huán)境提供的信息,加工成為有效信息的過(guò)程,它也是學(xué)習(xí)系統(tǒng)的核心,包括采集信息接受監(jiān)督指導(dǎo)學(xué)習(xí)推理修改知識(shí)庫(kù)等其他功能。(3)知識(shí)庫(kù)是影響學(xué)習(xí)系統(tǒng)設(shè)計(jì)的第二大因素,根據(jù)知識(shí)的不同,選擇不同的表達(dá)方式,兼顧表達(dá)能力強(qiáng)易于推理易于修改知識(shí)庫(kù)和知識(shí)表示易于擴(kuò)展等幾方面,均是知識(shí)庫(kù)在表達(dá)上需要符合的要求。(4)執(zhí)行是利用知識(shí)庫(kù)完成某種任務(wù),并進(jìn)行識(shí)別論證決策判定,將獲得的信息進(jìn)行反饋,以修正和完善下一步的學(xué)習(xí)。5.2機(jī)器學(xué)習(xí)系統(tǒng)的重要特征機(jī)器學(xué)習(xí)系統(tǒng)通常具有如下重要特征:(1)目的性系統(tǒng)知道學(xué)習(xí)什么,學(xué)習(xí)的行為具有高度的目的性。(2)結(jié)構(gòu)性系統(tǒng)能修改和完善知識(shí)結(jié)構(gòu)和組織形式。(3)有效性系統(tǒng)學(xué)習(xí)到的知識(shí)具有適應(yīng)和符合實(shí)踐的能力,能夠?qū)ο到y(tǒng)性能的改善起到正面的作用。(4)開(kāi)放性系統(tǒng)在與環(huán)境進(jìn)行信息交互的過(guò)程中,能使自身不斷進(jìn)化。6.機(jī)器學(xué)習(xí)策略對(duì)于環(huán)境提供信息,機(jī)器要運(yùn)用一定的學(xué)習(xí)策略轉(zhuǎn)換為知識(shí),并存儲(chǔ)在知識(shí)庫(kù)中,為下一步的執(zhí)行作保證根據(jù)策略使用推理的多少和難易程度,學(xué)習(xí)策略可以分為四類:1機(jī)械學(xué)習(xí)這種學(xué)習(xí)策略,無(wú)需任何推理過(guò)程或計(jì)算轉(zhuǎn)換過(guò)程,可以直接將環(huán)境提供的信息進(jìn)行存儲(chǔ)該學(xué)習(xí)系統(tǒng)主要考慮三個(gè)方面:第一:存儲(chǔ)組織的形式利于檢索在采用機(jī)械學(xué)習(xí)的系統(tǒng)中,主要采用的是索引存儲(chǔ)的方式,在這種情況下,只有檢索一個(gè)項(xiàng)目比重新分析計(jì)算更加快捷,這種學(xué)習(xí)策略才具有一定的意義采用適當(dāng)?shù)拇鎯?chǔ)組織形式,最大限度地提高檢索效率,縮短檢索時(shí)間,是機(jī)械學(xué)習(xí)要解決的重大問(wèn)題第二:環(huán)境穩(wěn)定存儲(chǔ)信息適用性高因?yàn)橄到y(tǒng)不需要對(duì)信息做過(guò)多的加工,學(xué)習(xí)部分沒(méi)有推理的過(guò)程,這對(duì)于環(huán)境的依賴程度就大大提高要求環(huán)境具有高度的穩(wěn)定性系統(tǒng)的學(xué)習(xí)是通過(guò)事先編好的程序獲得,是建立在這次獲得的知識(shí)適用于下次的情況的假設(shè)上的,如果環(huán)境變化的過(guò)于頻繁,每次存的知識(shí)都不能適用,這種策略也就失去其意義第三:權(quán)衡存儲(chǔ)和計(jì)算之間的關(guān)系學(xué)習(xí)的目的是改進(jìn)系統(tǒng)的效率,如果檢索比重新計(jì)算來(lái)的慢,那么就降低了系統(tǒng)的執(zhí)行力機(jī)械學(xué)習(xí)也就失去了意義。2歸納學(xué)習(xí)歸納推理是由環(huán)境提供足夠多的實(shí)例或反例,應(yīng)用歸納的方法,得出一般性的規(guī)律或?qū)τ诟拍畹囊话阈缘拿枋鲞@是一個(gè)從個(gè)別到一般的過(guò)程歸納學(xué)習(xí)可以獲得新的概念,創(chuàng)立新的規(guī)則,發(fā)現(xiàn)新的理論其原理是在大量觀察的基礎(chǔ)上通過(guò)假設(shè)形成一個(gè)科學(xué)理論按其有無(wú)教師的指導(dǎo),可以分為示例學(xué)習(xí)及觀察與發(fā)現(xiàn)學(xué)習(xí)示例學(xué)習(xí),又稱為概念獲取確定概念的一篇三:機(jī)器學(xué)習(xí)方法及應(yīng)用研究機(jī)器學(xué)習(xí)方法及應(yīng)用研究很早人類就有制造機(jī)器人的幻想,例如黃帝的"指南車",諸葛亮的"木牛流馬"?!度龂?guó)演義》中諸葛亮發(fā)明的運(yùn)輸工具稱為"木牛流馬",解決了川山山區(qū)軍糧運(yùn)輸?shù)碾y題。根據(jù)文獻(xiàn),諸葛亮最具有實(shí)物性質(zhì)的智慧結(jié)晶就是"木牛流馬"。1997年5月,美國(guó)ibm公司的"深藍(lán)"超級(jí)計(jì)算機(jī)首次擊敗國(guó)際象棋男子世界冠軍卡斯帕羅夫。表1給出了卡斯帕羅夫和"深藍(lán)"具有的不同特點(diǎn)。學(xué)習(xí)是人類獲取知識(shí)的重要途徑和自然智能的重要標(biāo)志,機(jī)器學(xué)習(xí)則是機(jī)器獲取知識(shí)的重要途徑和人工智能的重要標(biāo)志[2]。"深藍(lán)"之所以能擊敗卡斯帕羅夫,最主______________________作者簡(jiǎn)介:馬健喆,男,(1995,11-),山西太原人,本科,主要研究方向?yàn)樾畔⑻幚?。要的原因?深藍(lán)"具有較強(qiáng)的學(xué)習(xí)能力和推理能力。表1卡斯帕羅夫和"深藍(lán)"的不同特點(diǎn)學(xué)習(xí)過(guò)程與推理過(guò)程密切相關(guān)。按照學(xué)習(xí)中使用推理的多少,機(jī)器學(xué)習(xí)所采用的策略總體上可以分為機(jī)械學(xué)習(xí)、示教學(xué)習(xí)、示例學(xué)習(xí)和類比學(xué)習(xí)。學(xué)習(xí)中所用的推理越多,系統(tǒng)的能力越強(qiáng)[3,4]。2、五子棋游戲的設(shè)計(jì)設(shè)計(jì)五子棋游戲,實(shí)現(xiàn)簡(jiǎn)單的五子棋游戲;插入一個(gè)下載的棋盤圖片作為自己的棋盤;插入一段音樂(lè)實(shí)現(xiàn)背景音樂(lè)的播放;當(dāng)有輸贏出現(xiàn)時(shí)彈出一個(gè)顯示戰(zhàn)況的對(duì)話框;在菜單欄上添加一個(gè)戰(zhàn)況的標(biāo)題,當(dāng)單擊時(shí)彈出顯示當(dāng)時(shí)戰(zhàn)況的對(duì)話框。五子棋棋局與圍棋相同,棋子分為黑、白兩種顏色,棋盤為19?19,在棋盤線交叉點(diǎn)上放置棋子。計(jì)算機(jī)與人對(duì)局,各執(zhí)一種顏色的棋子,輪流下一子,先將橫、豎或斜線的5個(gè)或5個(gè)以上同色棋子連成不間斷的一排者為勝?,F(xiàn)代五子棋棋盤已標(biāo)準(zhǔn)化為15?15的方格棋盤。本文采用mfc對(duì)話框構(gòu)建五子棋棋盤,直接截取五子棋棋盤圖片作為對(duì)話框背景;采用mfc按鈕控件作為五子棋游戲"悔棋"、"音樂(lè)"、"戰(zhàn)況"、"重新開(kāi)始"的選項(xiàng)按鍵;實(shí)現(xiàn)五子棋人機(jī)對(duì)戰(zhàn),人通過(guò)鼠標(biāo)點(diǎn)擊下子;設(shè)計(jì)五子棋游戲算法實(shí)現(xiàn)計(jì)算機(jī)的下子點(diǎn)的選擇。圖1給出了五子棋游戲算法的程序流程圖,具體步驟如下:圖1五子棋游戲算法的程序流程圖(1)對(duì)局雙方各執(zhí)一種顏色的棋子;(2)空棋盤開(kāi)局;(3)玩家(黑方)首先落子,接著計(jì)算機(jī)(白方)作出決策,落子,交替下子,每次只能下一子;(4)棋子下在棋盤的空白點(diǎn)上,棋子下定后,不得向其它點(diǎn)移動(dòng),不得從棋盤上拿掉或拿起另落別處;(5)黑方的第一枚棋子可下在棋盤任意交叉點(diǎn)上;(6)輪流下子是雙方的權(quán)利;(7)連五取勝。在對(duì)弈過(guò)程中若某一方出現(xiàn)"成五"("五連"和"多連"的總稱),則判定為勝。若棋盤下滿還沒(méi)有勝方,則為平局。該五子棋游戲算法沒(méi)有用到機(jī)器學(xué)習(xí),計(jì)算機(jī)不具有智能。圖2、圖3分別給出了利用mfc實(shí)現(xiàn)五子棋游戲程序的運(yùn)行結(jié)果。本文設(shè)計(jì)實(shí)現(xiàn)的五子棋游戲可以根據(jù)個(gè)人愛(ài)好設(shè)計(jì)界面,人機(jī)交互方便、簡(jiǎn)單。圖2五子棋游戲程序的運(yùn)行結(jié)果圖3五子棋游戲程序的運(yùn)行結(jié)果機(jī)器學(xué)習(xí)是計(jì)算機(jī)獲取智能的途徑,本文設(shè)計(jì)了五子棋游戲算法,實(shí)現(xiàn)了五子棋游戲。下一步工作將機(jī)器學(xué)習(xí)方法引入到五子棋游戲的設(shè)計(jì),提高計(jì)算機(jī)的學(xué)習(xí)能力和推理能力。篇四:機(jī)器學(xué)習(xí)的研究機(jī)器學(xué)習(xí)的研究學(xué)號(hào):1406110202姓名:曹塬班級(jí):電信14-2學(xué)院:電子與信息工程學(xué)院2015.5.25【摘要】:本文首先簡(jiǎn)要概述機(jī)器學(xué)習(xí)的早期研究情況,接著介紹當(dāng)前機(jī)器學(xué)習(xí)的算法,并介紹幾個(gè)機(jī)器學(xué)習(xí)的例子?!厩把浴?機(jī)器學(xué)習(xí)是繼專家系統(tǒng)之后人工智能應(yīng)用的又一重要研究領(lǐng)域,也是人工智能和神經(jīng)計(jì)算的核心研究課題之一。現(xiàn)有的計(jì)算機(jī)系統(tǒng)和人工智能系統(tǒng)沒(méi)有什么學(xué)習(xí)能力,至多也只有非常有限的學(xué)習(xí)能力,因而不能滿足科技和生產(chǎn)提出的新要求。對(duì)機(jī)器學(xué)習(xí)的討論和機(jī)器學(xué)習(xí)研究的進(jìn)展,必將促使人工智能和整個(gè)科學(xué)技術(shù)的進(jìn)一步發(fā)展。機(jī)器學(xué)習(xí)的發(fā)展1機(jī)器學(xué)習(xí)的背景及意義學(xué)習(xí)是人類具有的一種重要智能行為,但究竟什么是學(xué)習(xí),長(zhǎng)期以來(lái)卻眾說(shuō)紛紜。社會(huì)學(xué)家、邏輯學(xué)家和心理學(xué)家都各有其不同的看法。按照人工智能大師西蒙的觀點(diǎn),學(xué)習(xí)就是系統(tǒng)在不斷重復(fù)的工作中對(duì)本身能力的增強(qiáng)或者改進(jìn),使得系統(tǒng)在下一次執(zhí)行同樣任務(wù)或相同類似的任務(wù)時(shí),會(huì)比現(xiàn)在做得更好或效率更高。西蒙對(duì)學(xué)習(xí)給出的定義本身,就說(shuō)明了學(xué)習(xí)的重要作用。在人類社會(huì)中,不管一個(gè)人有多深的學(xué)問(wèn),多大的本領(lǐng),如果他不善于學(xué)習(xí),我們都不必過(guò)于看重他。因?yàn)樗哪芰偸峭A粼谝粋€(gè)固定的水平上,不會(huì)創(chuàng)造出新奇的東西。但一個(gè)人若具有很強(qiáng)的學(xué)習(xí)能力,則不可等閑視之了。機(jī)器具備了學(xué)習(xí)能力,其情形完全與人類似。什么是機(jī)器學(xué)習(xí)?迄今尚沒(méi)有統(tǒng)一的定義,由其名字可理解為機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來(lái)模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科。稍微嚴(yán)格的提法是機(jī)器學(xué)習(xí)是一門研究機(jī)器獲取新知識(shí)和新技能,并識(shí)別現(xiàn)有知識(shí)的學(xué)問(wèn)。這里所說(shuō)的"機(jī)器",指的就是計(jì)算機(jī),現(xiàn)在是電子計(jì)算機(jī),以后還可能是種子計(jì)算機(jī)、光子計(jì)算機(jī)或神經(jīng)計(jì)算機(jī)等等。機(jī)器能否像人類一樣能具有學(xué)習(xí)能力呢?1959年美國(guó)的塞繆爾(samuel)設(shè)計(jì)了一個(gè)下棋程序,這個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對(duì)弈中改善自己的棋藝。4年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。又過(guò)了3年,這個(gè)程序戰(zhàn)勝了美國(guó)一個(gè)保持8年之久的常勝不敗的冠軍。這個(gè)程序向人們展示了機(jī)器學(xué)習(xí)的能力,提出了許多令人深思的社會(huì)問(wèn)題與哲學(xué)問(wèn)題。機(jī)器的能力是否能超過(guò)人的,很多持否定意見(jiàn)的人的一個(gè)主要論據(jù)是:機(jī)器是人造的,其性能和動(dòng)作完全是由設(shè)計(jì)者規(guī)定的,因此無(wú)論如何其能力也不會(huì)超過(guò)設(shè)計(jì)者本人。這種意見(jiàn)對(duì)不具備學(xué)習(xí)能力的機(jī)器來(lái)說(shuō)的確是對(duì)的,可是對(duì)具備學(xué)習(xí)能力的機(jī)器就值得考慮了,因?yàn)檫@種機(jī)器的能力在應(yīng)用中不斷地提高,過(guò)一段時(shí)間之后,設(shè)計(jì)者本人也不知它的能力到了何種水平。2機(jī)器學(xué)習(xí)定義及發(fā)展機(jī)器學(xué)習(xí)(machinelearning)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。學(xué)習(xí)能力是智能行為的一個(gè)非常重要的特征,但至今對(duì)學(xué)習(xí)的機(jī)理尚不清楚。人們?cè)鴮?duì)機(jī)器學(xué)習(xí)給出各種定義。h.a.simon認(rèn)為,學(xué)習(xí)是系統(tǒng)所作的適應(yīng)性變化,使得系統(tǒng)在下一次完成同樣或類似的任務(wù)時(shí)更為有效。r.s.michalski認(rèn)為,學(xué)習(xí)是構(gòu)造或修改對(duì)于所經(jīng)歷事物的表示。從事專家系統(tǒng)研制的人們則認(rèn)為學(xué)習(xí)是知識(shí)的獲取。這些觀點(diǎn)各有側(cè)重,第一種觀點(diǎn)強(qiáng)調(diào)學(xué)習(xí)的外部行為效果,第二種則強(qiáng)調(diào)學(xué)習(xí)的內(nèi)部過(guò)程,而第三種主要是從知識(shí)工程的實(shí)用性角度出發(fā)的。機(jī)器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。一個(gè)不具有學(xué)習(xí)能力的智能系統(tǒng)難以稱得上是一個(gè)真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學(xué)習(xí)的能力。例如,它們遇到錯(cuò)誤時(shí)不能自我校正;不會(huì)通過(guò)經(jīng)驗(yàn)改善自身的性能;不會(huì)自動(dòng)獲取和發(fā)現(xiàn)所需要的知識(shí)。它們的推理僅限于演繹而缺少歸納,因此至多只能夠證明已存在事實(shí)、定理,而不能發(fā)現(xiàn)新的定理、定律和規(guī)則等。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。正是在這種情形下,機(jī)器學(xué)習(xí)逐漸成為人工智能研究的核心之一。它的應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自動(dòng)推理、自然語(yǔ)言理解、模式識(shí)別、計(jì)算機(jī)視覺(jué)、智能機(jī)器人等領(lǐng)域。其中尤其典型的是專家系統(tǒng)中的知識(shí)獲取瓶頸問(wèn)題,人們一直在努力試圖采用機(jī)器學(xué)習(xí)的方法加以克服。機(jī)器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認(rèn)知科學(xué)等對(duì)人類學(xué)習(xí)機(jī)理的了解,建立人類學(xué)習(xí)過(guò)程的計(jì)算模型或認(rèn)識(shí)模型,發(fā)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,研究通用的學(xué)習(xí)算法并進(jìn)行理論上的分析,建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些研究目標(biāo)相互影響相互促進(jìn)。自從1980年在卡內(nèi)基--梅隆大學(xué)召開(kāi)第一屆機(jī)器學(xué)術(shù)研討會(huì)以來(lái),機(jī)器學(xué)習(xí)的研究工作發(fā)展很快,已成為中心課題之一。機(jī)器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過(guò)程大體上可分為4個(gè)時(shí)期:第一階段是在50年代中葉到60年代中葉,屬于熱烈時(shí)期;第二階段是在60年代中葉至70年代中葉,被稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期;第三階段是從70年代中葉至80年代中葉,稱為復(fù)興時(shí)期;機(jī)器學(xué)習(xí)的最新階段始于1986年。機(jī)器學(xué)習(xí)的算法機(jī)器學(xué)習(xí)(machinelearning,ml)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。1機(jī)器學(xué)習(xí)綜合分類綜合考慮各種學(xué)習(xí)方法出現(xiàn)的歷史淵源、知識(shí)表示、推理策略、結(jié)果評(píng)估的相似性、研究人員交流的相對(duì)集中性以及應(yīng)用領(lǐng)域等諸因素。將機(jī)器學(xué)習(xí)方法[1]區(qū)分為以下六類:1)經(jīng)驗(yàn)性歸納學(xué)習(xí)(empiricalinductivelearning)經(jīng)驗(yàn)性歸納學(xué)習(xí)采用一些數(shù)據(jù)密集的經(jīng)驗(yàn)方法(如版本空間法、id3法,定律發(fā)現(xiàn)方法)對(duì)例子進(jìn)行歸納學(xué)習(xí)。其例子和學(xué)習(xí)結(jié)果一般都采用屬性、謂詞、關(guān)系等符號(hào)表示。它相當(dāng)于基于學(xué)習(xí)策略分類中的歸納學(xué)習(xí),但扣除聯(lián)接學(xué)習(xí)、遺傳算法、加強(qiáng)學(xué)習(xí)的部分。2)分析學(xué)習(xí)(analyticlearning)分析學(xué)習(xí)方法是從一個(gè)或少數(shù)幾個(gè)實(shí)例出發(fā),運(yùn)用領(lǐng)域知識(shí)進(jìn)行分析。其主要特征為:?推理策略主要是演繹,而非歸納;?使用過(guò)去的問(wèn)題求解經(jīng)驗(yàn)(實(shí)例)指導(dǎo)新的問(wèn)題求解,或產(chǎn)生能更有效地運(yùn)用領(lǐng)域知識(shí)的搜索控制規(guī)則。分析學(xué)習(xí)的目標(biāo)是改善系統(tǒng)的性能,而不是新的概念描述。分析學(xué)習(xí)包括應(yīng)用解釋學(xué)習(xí)、演繹學(xué)習(xí)、多級(jí)結(jié)構(gòu)組塊以及宏操作學(xué)習(xí)等技術(shù)。3)類比學(xué)習(xí)它相當(dāng)于基于學(xué)習(xí)策略分類中的類比學(xué)習(xí)。在這一類型的學(xué)習(xí)中比較引人注目的研究是通過(guò)與過(guò)去經(jīng)歷的具體事例作類比來(lái)學(xué)習(xí),稱為基于范例的學(xué)習(xí)(case_basedlearning),或簡(jiǎn)稱范例學(xué)習(xí)。4)遺傳算法(geneticalgorithm)遺傳算法模擬生物繁殖的突變、交換和達(dá)爾文的自然選擇(在每一生態(tài)環(huán)境中適者生存)。它把問(wèn)題可能的解編碼為一個(gè)向量,稱為個(gè)體,向量的每一個(gè)元素稱為基因,并利用目標(biāo)函數(shù)(相應(yīng)于自然選擇標(biāo)準(zhǔn))對(duì)群體(個(gè)體的集合)中的每一個(gè)個(gè)體進(jìn)行評(píng)價(jià),根據(jù)評(píng)價(jià)值(適應(yīng)度)對(duì)個(gè)體進(jìn)行選擇、交換、變異等遺傳操作,從而得到新的群體。遺傳算法適用于非常復(fù)雜和困難的環(huán)境,比如,帶有大量噪聲和無(wú)關(guān)數(shù)據(jù)、事物不斷更新、問(wèn)題目標(biāo)不能明顯和精確地定義,以及通過(guò)很長(zhǎng)的執(zhí)行過(guò)程才能確定當(dāng)前行為的價(jià)值等。同神經(jīng)網(wǎng)絡(luò)一樣,遺傳算法的研究已經(jīng)發(fā)展為人工智能的一個(gè)獨(dú)立分支,其代表人物為霍勒德(j.h.holland)。5)聯(lián)接學(xué)習(xí)典型的聯(lián)接模型實(shí)現(xiàn)為人工神經(jīng)網(wǎng)絡(luò),其由稱為神經(jīng)元的一些簡(jiǎn)單計(jì)算單元以及單元間的加權(quán)聯(lián)接組成。6)增強(qiáng)學(xué)習(xí)(reinforcementlearning)增強(qiáng)學(xué)習(xí)的特點(diǎn)是通過(guò)與環(huán)境的試探性(trialanderror)交互來(lái)確定和優(yōu)化動(dòng)作的選擇,以實(shí)現(xiàn)所謂的序列決策任務(wù)。在這種任務(wù)中,學(xué)習(xí)機(jī)制通過(guò)選擇并執(zhí)行動(dòng)作,導(dǎo)致系統(tǒng)狀態(tài)的變化,并有可能得到某種強(qiáng)化信號(hào)(立即回報(bào)),從而實(shí)現(xiàn)與環(huán)境的交互。強(qiáng)化信號(hào)就是對(duì)系統(tǒng)行為的一種標(biāo)量化的獎(jiǎng)懲。系統(tǒng)學(xué)習(xí)的目標(biāo)是尋找一個(gè)合適的動(dòng)作選擇策略,即在任一給定的狀態(tài)下選擇哪種動(dòng)作的方法,使產(chǎn)生的動(dòng)作序列可獲得某種最優(yōu)的結(jié)果(如累計(jì)立即回報(bào)最大)。在綜合分類中,經(jīng)驗(yàn)歸納學(xué)習(xí)、遺傳算法、聯(lián)接學(xué)習(xí)和增強(qiáng)學(xué)習(xí)均屬于歸納學(xué)習(xí),其中經(jīng)驗(yàn)歸納學(xué)習(xí)采用符號(hào)表示方式,而遺傳算法、聯(lián)接學(xué)習(xí)和加強(qiáng)學(xué)習(xí)則采用亞符號(hào)表示方式;分析學(xué)習(xí)屬于演繹學(xué)習(xí)。實(shí)際上,類比策略可看成是歸納和演繹策略的綜合。因而最基本的學(xué)習(xí)策略只有歸納和演繹。從學(xué)習(xí)內(nèi)容的角度看,采用歸納策略的學(xué)習(xí)由于是對(duì)輸入進(jìn)行歸納,所學(xué)習(xí)的知識(shí)顯然超過(guò)原有系統(tǒng)知識(shí)庫(kù)所能蘊(yùn)涵的范圍,所學(xué)結(jié)果改變了系統(tǒng)的知識(shí)演繹閉包,因而這種類型的學(xué)習(xí)又可稱為知識(shí)級(jí)學(xué)習(xí);而采用演繹策略的學(xué)習(xí)盡管所學(xué)的知識(shí)能提高系統(tǒng)的效率,但仍能被原有系統(tǒng)的知識(shí)庫(kù)所蘊(yùn)涵,即所學(xué)的知識(shí)未能改變系統(tǒng)的演繹閉包,因而這種類型的學(xué)習(xí)又被稱為符號(hào)級(jí)學(xué)習(xí)。篇五:關(guān)于最大化使用機(jī)器學(xué)習(xí)的十大訣竅關(guān)于最大化使用機(jī)器學(xué)習(xí)的十大訣竅基于云的機(jī)器學(xué)習(xí)工具帶來(lái)了使用機(jī)器學(xué)習(xí)創(chuàng)造和提供新的功能的可能性。然而,當(dāng)我們使用不當(dāng)時(shí),這些工具會(huì)輸出不好的結(jié)果。想要在應(yīng)用程序中成功地融入機(jī)器學(xué)習(xí)的開(kāi)發(fā)者,需要注意十大關(guān)鍵要點(diǎn)。在提供發(fā)現(xiàn)埋藏?cái)?shù)據(jù)深層的模式的能力上,機(jī)器學(xué)習(xí)有著潛在的能力使得應(yīng)用程序更加的強(qiáng)大并且更能響應(yīng)用戶的需求。精心調(diào)校好的算法能夠從巨大的并且互不相同的數(shù)據(jù)源中提取價(jià)值,同時(shí)沒(méi)有人類思考和分析的限制。對(duì)于開(kāi)發(fā)者而言,機(jī)器學(xué)習(xí)為應(yīng)用業(yè)務(wù)的關(guān)鍵分析提供了希望,從而實(shí)現(xiàn)從改善客戶體驗(yàn)到提供產(chǎn)品推薦上升至超個(gè)性化內(nèi)容服務(wù)的任何應(yīng)用程序。像amazon和micorosoft這樣的云供應(yīng)商提供云功能的機(jī)器學(xué)習(xí)解決方案,承諾為開(kāi)發(fā)者提供一個(gè)簡(jiǎn)單的方法,使得機(jī)器學(xué)習(xí)的能力能夠融入到他們的應(yīng)用程序當(dāng)中,這也算是最近的頭條新聞了。承諾似乎很好,但開(kāi)發(fā)者還需謹(jǐn)慎。對(duì)于開(kāi)發(fā)人員而言,基于云的機(jī)器學(xué)習(xí)工具帶來(lái)了使用機(jī)器學(xué)習(xí)創(chuàng)造和提供新的功能的可能性。然而,當(dāng)我們使用不當(dāng)時(shí),這些工具會(huì)輸出不好的結(jié)果,用戶可能會(huì)因此而感到不安。測(cè)試過(guò)微軟年齡檢測(cè)機(jī)器學(xué)習(xí)工具的人都會(huì)發(fā)現(xiàn),伴隨即插即用的易用性而來(lái)的是主要的精度問(wèn)題--對(duì)于關(guān)鍵應(yīng)用程序或者是重大決策,它應(yīng)該不值得信賴。想要在應(yīng)用程序中成功地融入機(jī)器學(xué)習(xí)的開(kāi)發(fā)者,需要注意以下的一些關(guān)鍵要點(diǎn):算法使用的數(shù)據(jù)越多,它的精度會(huì)更加準(zhǔn)確,所以如果可能要盡量避免抽樣。機(jī)器學(xué)習(xí)理論在預(yù)測(cè)誤差上有著非常直觀的描述。簡(jiǎn)而言之,在機(jī)器學(xué)習(xí)模型和最優(yōu)預(yù)測(cè)(在理論上達(dá)到最佳可能的誤差)之間的預(yù)測(cè)誤差的差距可以被分解為三個(gè)部分:???由于沒(méi)有找到正確函數(shù)形式的模型的誤差由于沒(méi)有找到最佳參數(shù)的模型的誤差由于沒(méi)用使用足夠數(shù)據(jù)的模型的誤差如果訓(xùn)練集有限,它可能無(wú)法支撐解決這個(gè)問(wèn)題所需的模型復(fù)雜性。統(tǒng)計(jì)學(xué)的基本規(guī)律告訴我們,如果我們可以的話,應(yīng)該利用所有的數(shù)據(jù)而不是抽樣。對(duì)給定的問(wèn)題選擇效果最好的機(jī)器學(xué)習(xí)算法是決定成敗的關(guān)鍵。例如,梯度提升樹(shù)(gbt)是一個(gè)非常受歡迎的監(jiān)督學(xué)習(xí)算法,由于其精度而被業(yè)內(nèi)開(kāi)發(fā)人員廣泛使用。然而,盡管其高度受歡迎,我們也不能盲目的把這種算法應(yīng)用于任何問(wèn)題上。相反,我們使用的算法應(yīng)該是能夠最佳地?cái)M合數(shù)據(jù)特征同時(shí)能夠保證精度的算法。為了證明這個(gè)觀點(diǎn),嘗試做這樣一個(gè)實(shí)驗(yàn),在數(shù)據(jù)集thepopulartextcategorizationdatasetrcv1上測(cè)試gbt算法和線性支持向量機(jī)(svm)算法,并比較兩者的精度。我們觀察到在這個(gè)問(wèn)題上,就錯(cuò)誤率而言,線性svm要優(yōu)于gbt算法。這是因?yàn)樵谖谋绢I(lǐng)域當(dāng)中,數(shù)據(jù)通常是高維的。一個(gè)線性分類器能夠在n-1維當(dāng)中完美的分離出n個(gè)樣本,所以,一個(gè)樣本模型在這種數(shù)據(jù)上通常表現(xiàn)的更好。此外,模型越簡(jiǎn)單,通過(guò)利用有限的訓(xùn)練樣本來(lái)避免過(guò)擬合的方式學(xué)習(xí)參數(shù),并且提供一個(gè)精確的模型,產(chǎn)生的問(wèn)題也會(huì)隨之越少。另一方面,gbt是高度非線性的并且更加強(qiáng)大,但是在這種環(huán)境中卻更難學(xué)習(xí)并且更容易發(fā)生過(guò)擬合,往往結(jié)果精度也較低。為了得到一個(gè)更好的模型,必須選擇最佳的的算法和相關(guān)的參數(shù)。這對(duì)于非數(shù)據(jù)科學(xué)家而言可能不容易。現(xiàn)代的機(jī)器學(xué)習(xí)算法有許多的參數(shù)可以調(diào)整。例如,對(duì)于流行的gbt算法單獨(dú)的就有十二個(gè)參數(shù)可以設(shè)置,其中包括如何控制樹(shù)的大小,學(xué)習(xí)率,行或列的采樣方法,損失函數(shù),正則化選項(xiàng)等等。一個(gè)特有的項(xiàng)目需要在給定的數(shù)據(jù)集上為每一個(gè)參數(shù)找到其最優(yōu)值并且達(dá)到最精準(zhǔn)的精度,這確實(shí)不是一件容易的事。但是為了得到最佳的結(jié)果,數(shù)據(jù)科學(xué)家需要訓(xùn)練大量的模型,而直覺(jué)和經(jīng)驗(yàn)會(huì)幫助他們根據(jù)交叉驗(yàn)證的得分,然后決定使用什么參數(shù)再次嘗試。機(jī)器學(xué)習(xí)模型會(huì)隨著好的數(shù)據(jù)而變得更好,錯(cuò)誤的數(shù)據(jù)收集和數(shù)據(jù)處理會(huì)降低你建立預(yù)測(cè)和歸納的機(jī)器學(xué)習(xí)模型的能力。根據(jù)經(jīng)驗(yàn),建議仔細(xì)審查與主題相關(guān)的數(shù)據(jù),從而深入了解數(shù)據(jù)和幕后數(shù)據(jù)的生成過(guò)程。通常這個(gè)過(guò)程可以識(shí)別與記錄、特征、值或采樣相關(guān)的數(shù)據(jù)質(zhì)量問(wèn)題。理解數(shù)據(jù)特征并改進(jìn)它們(通過(guò)創(chuàng)造新的特征或者去掉某個(gè)特征)對(duì)預(yù)測(cè)能力有著高度的影響。機(jī)器學(xué)習(xí)的一個(gè)基本任務(wù)就是找到能夠被機(jī)器學(xué)習(xí)算法充分利用的豐富特征空間來(lái)替代原始數(shù)據(jù)。例如,特征轉(zhuǎn)換是一種流行的方法,可以通過(guò)在原始數(shù)據(jù)的基礎(chǔ)上使用數(shù)學(xué)上的轉(zhuǎn)換提取新的特征來(lái)實(shí)現(xiàn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論