機器學(xué)習(xí)的算法_第1頁
機器學(xué)習(xí)的算法_第2頁
機器學(xué)習(xí)的算法_第3頁
機器學(xué)習(xí)的算法_第4頁
機器學(xué)習(xí)的算法_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、機器學(xué)習(xí)的算法陳勇定義: . 機器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,涉及概 率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。 它是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域,它主要使用歸納、綜合而不是演繹。揭開神秘的機器學(xué)習(xí)算法 我們越來越多地看到機器學(xué)習(xí)算法在實用和可實現(xiàn)的目標(biāo)上的價值,例如針對數(shù)據(jù)尋找可用的模式然后進行預(yù)測的機器學(xué)習(xí)算法。通常,這些機器學(xué)習(xí)算法預(yù)測模型用于操作流程以優(yōu)化決策過程,但同時它們

2、也可以提供關(guān)鍵的洞察力和信息來報告戰(zhàn)略決策。 機器學(xué)習(xí)算法的基本前提是算法訓(xùn)練,提供特定的輸入數(shù)據(jù)時預(yù)測某一概率區(qū)間內(nèi)的輸出值。請記住機器學(xué)習(xí)算法的技巧是歸納而非推斷與概率相關(guān),并非最終結(jié)論。 . 構(gòu)建這些機器學(xué)習(xí)算法的過程被稱之為機器學(xué)習(xí)算法預(yù)測建模。一旦掌握了這一機器學(xué)習(xí)算法模型,有時就可以直接對原始數(shù)據(jù)機器學(xué)習(xí)算法進行分析,并在新數(shù)據(jù)中應(yīng)用該機器學(xué)習(xí)算法模型以預(yù)測某些重要的信息。模型的輸出可以是機器學(xué)習(xí)算法分類、機器學(xué)習(xí)算法可能的結(jié)果、機器學(xué)習(xí)算法隱藏的關(guān)系、機器學(xué)習(xí)算法屬性或者機器學(xué)習(xí)算法估計值。 機器學(xué)習(xí)算法技術(shù)通常預(yù)測的是絕對值,比如標(biāo)簽、顏色、身份或者質(zhì)量。比如,某個機器學(xué)習(xí)算法

3、主題是否屬于我們試圖保留的用戶?用戶會付費購買嗎?用戶會積極響應(yīng)邀約嗎? . 如果我們關(guān)心的是機器學(xué)習(xí)算法估算值或者連續(xù)值,機器學(xué)習(xí)算法預(yù)測也可以用數(shù)字表示。輸出類型決定了最佳的學(xué)習(xí)方法,并會影響我們用于判斷模型質(zhì)量的尺度。誰對機器學(xué)習(xí)算法進行監(jiān)督? 機器學(xué)習(xí)算法可以是有人監(jiān)督也或者是無人干預(yù)的。機器學(xué)習(xí)算法區(qū)別不在于算法是否可以為所欲為,而是是否要從具備真實結(jié)果的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)機器學(xué)習(xí)算法預(yù)先確定并添加到數(shù)據(jù)集中以提供監(jiān)管或者嘗試發(fā)現(xiàn)給定數(shù)據(jù)集中的任何自然形態(tài)。大多數(shù)企業(yè)使用機器學(xué)習(xí)算法預(yù)測模型,對機器學(xué)習(xí)算法訓(xùn)練數(shù)據(jù)使用監(jiān)督方式,而且通常旨在預(yù)測給定實例郵件、人員、公司或者交易是否屬于某個

4、有趣的分類垃圾郵件、潛在買家、信用良好或者獲得后續(xù)報價。 如果在機器學(xué)習(xí)算法開始之前你不是很清楚在尋找什么,那么無人干預(yù)的機器學(xué)習(xí)算法能夠提供全新的洞察力。無人干預(yù)的機器學(xué)習(xí)算法還能夠生成集群與層次結(jié)構(gòu)圖,機器學(xué)習(xí)算法顯示數(shù)據(jù)的內(nèi)在聯(lián)系,機器學(xué)習(xí)算法還能夠發(fā)現(xiàn)哪些數(shù)據(jù)字段看起來是獨立的,哪些是規(guī)則描述、總結(jié)或者概括。反過來,機器學(xué)習(xí)算法這些洞察能夠為構(gòu)建更好的預(yù)測方法提供幫助。 構(gòu)建機器學(xué)習(xí)算法模型是一項反復(fù)練習(xí)的過程,需要機器學(xué)習(xí)算法清理數(shù)據(jù)和動手實驗。目前市場上正在涌現(xiàn)一些自動和有向?qū)У臋C器學(xué)習(xí)算法模型工具,它們承諾降低對數(shù)據(jù)科學(xué)家的依賴性,同時在常見領(lǐng)域獲得最高的投資回報率。然而這里面真

5、正的差別很可能需要你自己去發(fā)現(xiàn)。機器學(xué)習(xí)算法走起來 盡管機器學(xué)習(xí)算法能夠提供多種好處,但是在使用機器學(xué)習(xí)算法過程中也有可能導(dǎo)致嚴重問題。機器學(xué)習(xí)算法初學(xué)者需要理解所輸入數(shù)據(jù)、項目范圍和目標(biāo),以及工作中使用的機器學(xué)習(xí)算法。 機器學(xué)習(xí)是很多大數(shù)據(jù)項目背后的重要推動力量,但是即便IT部門投入大量精力,在機器學(xué)習(xí)算法具體實施過程當(dāng)中事情也有可能朝著錯誤的方向發(fā)展。 不幸的是,如果你沒有牢固掌握機器學(xué)習(xí)算法所輸入數(shù)據(jù)的質(zhì)量和準(zhǔn)確性、實際的業(yè)務(wù)目標(biāo)以及真實環(huán)境限制,那么機器學(xué)習(xí)算法預(yù)測模型很有可能具有嚴重的潛在風(fēng)險(比如無法避免黑天鵝效應(yīng))。 對于機器學(xué)習(xí)算法和大數(shù)據(jù)初學(xué)者來說,很容易編寫出效率低下的機器

6、學(xué)習(xí)算法復(fù)雜模型或者對特定數(shù)據(jù)進行重復(fù)分析。事實上,在將這種機器學(xué)習(xí)算法“廣義”模型應(yīng)用到生產(chǎn)環(huán)境之前,很難判定哪種才算是最佳方式。 另外一種機器學(xué)習(xí)算法挑戰(zhàn)是成功的定義會隨著不同的使用情況而出現(xiàn)巨大差異。針對特定機器學(xué)習(xí)算法測試數(shù)據(jù),可以使用數(shù)十種機器學(xué)習(xí)算法指標(biāo)來描述機器學(xué)習(xí)算法模型數(shù)據(jù)輸出結(jié)果的質(zhì)量和準(zhǔn)確性。即機器學(xué)習(xí)算法便對于IT專家來說,其至少需要熟悉機器學(xué)習(xí)算法輸出結(jié)果的相關(guān)指標(biāo),并且了解各種機器學(xué)習(xí)算法象限知識,比如真正(True Positive)被模型預(yù)測為正的正樣本、真負(True Negative)被模型預(yù)測為負的負樣本、假正(False Positive )被模型預(yù)測為

7、正的負樣本、假負(False Negative)被模型預(yù)測為負的正樣本等。 在機器學(xué)習(xí)算法和大數(shù)據(jù)領(lǐng)域,許多關(guān)鍵機器學(xué)習(xí)算法指標(biāo)都是根據(jù)這四種基本機器學(xué)習(xí)算法測量結(jié)果推導(dǎo)而來。比如,通常會使用正確標(biāo)記(真正+真負)的實例數(shù)量除以總實例數(shù)量來定義機器學(xué)習(xí)算法整體準(zhǔn)確性。如果想要了解究竟有多少個正確的機器學(xué)習(xí)算法正實例,敏感性(或者召回率)就是真正的機器學(xué)習(xí)算法數(shù)量除以實際正數(shù)量(真正+假正)所得到的比例。 通常機器學(xué)習(xí)算法精確度也是十分重要的,也就是真正(True Positive)的數(shù)量除以所有被標(biāo)記為正(真正+假正)的項目之和。機器學(xué)習(xí)算法將所有都標(biāo)記為正的簡化模型將會有100%的召回率,但

8、是機器學(xué)習(xí)算法精確度和準(zhǔn)確性會非常差這種機器學(xué)習(xí)算法模型能夠找到一切,但是機器學(xué)習(xí)算法卻不能將小麥從谷殼當(dāng)中挑選出來。因此通常需要機器學(xué)習(xí)算法從這些指標(biāo)當(dāng)中進行抉擇以尋找最佳平衡點。 在一些基于機器學(xué)習(xí)算法的大數(shù)據(jù)應(yīng)用領(lǐng)域當(dāng)中,比如機器學(xué)習(xí)算法針對性營銷,機器學(xué)習(xí)算法相比于隨機選擇目標(biāo)客戶這種傳統(tǒng)方式來說能夠提高20%的效率。在其他領(lǐng)域當(dāng)中,比如對100萬人進行癌癥檢查時,即便是99%的準(zhǔn)確率也會導(dǎo)致極其嚴重的后果:假設(shè)癌癥的發(fā)病率非常低,那么這1%當(dāng)中的大部分就是假正,從而導(dǎo)致需要對將近1萬人進行不必要的治療。 這種情況促使我們開始思考機器學(xué)習(xí)算法對于IT領(lǐng)域的影響。首先,主機存儲和計算平臺

9、應(yīng)該和嘗試學(xué)習(xí)的種類相匹配。有時候應(yīng)該進行離線機器學(xué)習(xí)算法,機器學(xué)習(xí)算法將結(jié)果模型應(yīng)用在生產(chǎn)環(huán)境的簡單計算步驟當(dāng)中。而在其他時間機器學(xué)習(xí)算法是持續(xù)或者反復(fù)出現(xiàn)的(比如強化機器學(xué)習(xí)算法),需要更加靠近當(dāng)前的數(shù)據(jù)流。 相比于使用其他大數(shù)據(jù)擴展集群(比如Apache Mahout、MLlib和Madlib)的可分區(qū)庫來說,一些機器學(xué)習(xí)算法能夠?qū)崿F(xiàn)更好可擴展性,然而其他方式可能需要更高速的計算互聯(lián)通道以及讀寫事務(wù)存儲架構(gòu)以提高計算效率。 機器學(xué)習(xí)算法可以使用一些內(nèi)存工具來完成大型交付式數(shù)據(jù)挖掘或者預(yù)測工作,并且機器學(xué)習(xí)算法降低延遲。還有一些根據(jù)生產(chǎn)環(huán)境當(dāng)中API調(diào)用情況進行收費的云主機機器學(xué)習(xí)算法服務(wù)

10、,對于存儲在云中的數(shù)據(jù)來說這種方式能提升成本效率。 如果你已經(jīng)擁有固定的程序業(yè)務(wù)領(lǐng)域, 只是想要隨意探索一下或者剛剛開始研究機器學(xué)習(xí)算法,那么機器學(xué)習(xí)算法可以使用Python和其他語言當(dāng)中提供的相關(guān)免費包。你甚至可以在微軟Azure當(dāng)中注冊一個免費開發(fā)、基于云的主機學(xué)習(xí)工作室。這些機器學(xué)習(xí)算法產(chǎn)品當(dāng)中的大多數(shù)都可以運行在本地主機的小型數(shù)據(jù)集合上,或者機器學(xué)習(xí)算法針對生產(chǎn)環(huán)境擴展為大型數(shù)據(jù)集合。機器學(xué)習(xí)算法是一個十分熱門的領(lǐng)域,每天我們都能聽到廠商保證自己的特定機器學(xué)習(xí)算法產(chǎn)品能夠簡化平均業(yè)務(wù)分析過程。 所有這些機器學(xué)習(xí)算法預(yù)測模型都不具有人工智能。是的,通過尋找和探索數(shù)據(jù)方面的更深層次模型,其能夠提供真實和多種業(yè)務(wù)優(yōu)勢,但是通過這種機器學(xué)習(xí)算法方式建立的一切都是相關(guān)性。就像學(xué)校經(jīng)常告訴我們的一樣,相關(guān)性不代表明確的因果關(guān)系。 但是,考慮到現(xiàn)在應(yīng)用機器學(xué)習(xí)算法技術(shù)已經(jīng)變得非常容易只需要研究感興趣的機器學(xué)習(xí)算法數(shù)據(jù)集合,因此

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論