機器學習簡介及實例作業(yè)演示文稿_第1頁
機器學習簡介及實例作業(yè)演示文稿_第2頁
機器學習簡介及實例作業(yè)演示文稿_第3頁
機器學習簡介及實例作業(yè)演示文稿_第4頁
機器學習簡介及實例作業(yè)演示文稿_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

機器學習簡介及實例作業(yè)演示文稿現(xiàn)在是1頁\一共有22頁\編輯于星期五什么是機器學習現(xiàn)今,機器學習已應用于多個領域,遠超出大多數(shù)人的想象,下面就是假想的一日,其中很多場景都會碰到機器學習:

假設你想起今天是某位朋友的生日,打算通過郵局給她郵寄一張生日賀卡。你打開瀏覽器搜索趣味卡片,搜索引擎顯示了10個最相關的鏈接。你認為第二個鏈接最符合你的要求,點擊了這個鏈接,搜索引擎將記錄這次點擊,并從中學習以優(yōu)化下次搜索結(jié)果。然后,你檢查電子郵件系統(tǒng),此時垃圾郵件過濾器已經(jīng)在后臺自動過濾垃圾廣告郵件,并將其放在垃圾箱內(nèi)。接著你去商店購買這張生日卡片,并給你朋友的孩子挑選了一些尿布。結(jié)賬時,收銀員給了你一張1美元的優(yōu)惠券,可以用于購買6罐裝的啤酒。之所以你會得到這張優(yōu)惠券,是因為款臺收費軟件基于以前的統(tǒng)計知識,認為買尿布的人往往也會買啤酒。然后你去郵局郵寄這張賀卡,手寫識別軟件識別出郵寄地址,并將賀卡發(fā)送給正確的郵車。當天你還去了貸款申請機構,查看自己是否能夠申請貸款,辦事員并不是直接給出結(jié)果,而是將你最近的金融活動信息輸入計算機,由軟件來判定你是否合格?,F(xiàn)在是2頁\一共有22頁\編輯于星期五機器學習問題的幾個實例機器學習問題到處都是,它們組成了日常使用的網(wǎng)絡或桌面軟件的核心或困難部分。蘋果的Siri語音理解系統(tǒng)就是實例。以下,是幾個真正有關機器學習到底是什么的的實例。1、垃圾郵件檢測:根據(jù)郵箱中的郵件,識別哪些是垃圾郵件,哪些不是。這樣的模型,可以程序幫助歸類垃圾郵件和非垃圾郵件。這個例子,我們應該都不陌生。2、信用卡欺詐檢測:根據(jù)用戶一個月內(nèi)的信用卡交易,識別哪些交易是該用戶操作的,哪些不是。這樣的決策模型,可以幫助程序退還那些欺詐交易。3、數(shù)字識別:根據(jù)信封上手寫的郵編,識別出每一個手寫字符所代表的數(shù)字。這樣的模型,可以幫助程序閱讀和理解手寫郵編,并根據(jù)地利位置分類信件。4、語音識別:從一個用戶的話語,確定用戶提出的具體要求。這樣的模型,可以幫助程序能夠并嘗試自動填充用戶需求。帶有Siri系統(tǒng)的iPhone就有這種功能。5、人臉識別:根據(jù)相冊中的眾多數(shù)碼照片,識別出那些包含某一個人的照片。這樣的決策模型,可以幫助程序根據(jù)人臉管理照片。某些相機或軟件,如iPhoto,就有這種功能。現(xiàn)在是3頁\一共有22頁\編輯于星期五什么是機器學習1、林軒田:機器學習想做的事情,簡單的說是要從資料中歸納出有用的規(guī)則。大數(shù)據(jù)說的是對大量的資料做分析,而人工智能說的是讓機器看起來更聰明,兩者都可以使用機器學習來做核心的工具。

我們可以舉2012年的KDD-Cup做例子,當年騰訊給的題目之一,是希望能從大量的線上廣告資料中,找出“這個廣告到底會不會被點擊”的規(guī)則,如果機器能找出有用的規(guī)則,我們就會有更高“智能”的廣告系統(tǒng)了。2、Arthur

Samuel定義的機器學習(1959)“在不直接針對問題進行編程的情況下,賦予計算機學習能力的一個研究領域”3、通俗講,機器學習,兩部分:首先是“機器”,這個機器一般其實指的就是“電腦”

其次學習,這個學習也分為兩部分,一是“數(shù)據(jù)”二是“算法”。其實和人是一樣的,比如你父母教你認識“打棒球”這個體育運動的時候。肯定要給你看打棒球的圖片或者視頻,或者需要跟你描述這個運動,這些就是“數(shù)據(jù)”。至于說“算法”的話,描述本身就是一種算法。比如他們告訴你“拿著球棒,這樣那樣揮舞擊球的就是棒球”。這樣,在沒有他們幫助的情況下,再給你一個新的打棒球的圖片,你也認出這是打棒球

4、簡單講就是,總結(jié)過去,預測未來?!,F(xiàn)在是4頁\一共有22頁\編輯于星期五什么是機器學習現(xiàn)在是5頁\一共有22頁\編輯于星期五機器學習問題的類型關于機器學習,有一些常見的分類。以下這些分類,是我們在研究機器學習時碰到的大多問題都會參考的典型。分類:標記數(shù)據(jù),也就是將它歸入某一類,如垃圾/非垃圾(郵件)或欺詐/非欺詐(信用卡交易)。決策建模是為了標記新的未標記的數(shù)據(jù)項。這可以看做是辨別問題,為小組之間的差異性或相似性建模?;貧w:數(shù)據(jù)被標記以真實的值(如浮點數(shù))而不是一個標簽。簡單易懂的例子如時序數(shù)據(jù),如隨著時間波動的股票價格。這個建模的的決策是為新的未預測的數(shù)據(jù)估計值。聚類:不標記數(shù)據(jù),但是可根據(jù)相似性,以及其他的對數(shù)據(jù)中自然結(jié)構的衡量對數(shù)據(jù)進行分組。可以從以上十個例子清單中舉出一例:根據(jù)人臉,而不是名字,來管理照片。這樣,用戶就不得不為分組命名,如Mac上的iPhoto。規(guī)則提?。簲?shù)據(jù)被用作對提議規(guī)則(前提/結(jié)果,又名如果)進行提取的基礎。這些規(guī)則,可能但不都是有指向的,意思是說,這些方法可以找出數(shù)據(jù)的屬性之間在統(tǒng)計學上有說服力的關系,但不都是必要的涉及到需要預測的東西。有一個找出買啤酒還是買尿布之間關系的例子,(這是數(shù)據(jù)挖掘的民間條例,真實與否,都闡述了期望和機會)。現(xiàn)在是6頁\一共有22頁\編輯于星期五實例詳解機器學習如何解決問題現(xiàn)在是7頁\一共有22頁\編輯于星期五什么是機器學習?機器學習可以分為無監(jiān)督學習(unsupervisedlearning)和有監(jiān)督學習(supervisedlearning),在工業(yè)界中,有監(jiān)督學習是更常見和更有價值的方式,下文中主要以這種方式展開介紹。如下圖中所示,有監(jiān)督的機器學習在解決實際問題時,有兩個流程,一個是離線訓練流程(藍色箭頭),包含數(shù)據(jù)篩選和清洗、特征抽取、模型訓練和優(yōu)化模型等環(huán)節(jié);另一個流程則是應用流程(綠色箭頭),對需要預估的數(shù)據(jù),抽取特征,應用離線訓練得到的模型進行預估,獲得預估值作用在實際產(chǎn)品中。在這兩個流程中,離線訓練是最有技術挑戰(zhàn)的工作(在線預估流程很多工作可以復用離線訓練流程的工作),所以下文主要介紹離線訓練流程?,F(xiàn)在是8頁\一共有22頁\編輯于星期五什么是模型(model)?模型,是機器學習中的一個重要概念,簡單的講,指特征空間到輸出空間的映射;一般由模型的假設函數(shù)和參數(shù)w組成(下面公式就是LogisticRegression模型的一種表達,在訓練模型的章節(jié)做稍詳細的解釋);一個模型的假設空間(hypothesisspace),指給定模型所有可能w對應的輸出空間組成的集合。工業(yè)界常用的模型有LogisticRegression(簡稱LR)、GradientBoostingDecisionTree(簡稱GBDT)、SupportVectorMachine(簡稱SVM)、DeepNeuralNetwork(簡稱DNN)等。現(xiàn)在是9頁\一共有22頁\編輯于星期五為什么要用機器學習解決問題?1、目標問題需要價值巨大,因為機器學習解決問題有一定的代價;2、目標問題有大量數(shù)據(jù)可用,有大量數(shù)據(jù)才能使機器學習比較好地解決問題(相對于簡單規(guī)則或人工);3、目標問題由多種因素(特征)決定,機器學習解決問題的優(yōu)勢才能體現(xiàn)(相對于簡單規(guī)則或人工);4、目標問題需要持續(xù)優(yōu)化,因為機器學習可以基于數(shù)據(jù)自我學習和迭代,持續(xù)地發(fā)揮價值?,F(xiàn)在是10頁\一共有22頁\編輯于星期五對問題建模本文以DEAL(團購單)交易額預估問題為例(就是預估一個給定DEAL一段時間內(nèi)賣了多少錢),介紹使用機器學習如何解決問題。首先需要:1、收集問題的資料,理解問題,成為這個問題的專家;2、拆解問題,簡化問題,將問題轉(zhuǎn)化機器可預估的問題。深入理解和分析DEAL交易額后,可以將它分解為如下圖的幾個問題:現(xiàn)在是11頁\一共有22頁\編輯于星期五為什么要用機器學習解決問題?1、目標問題需要價值巨大,因為機器學習解決問題有一定的代價;2、目標問題有大量數(shù)據(jù)可用,有大量數(shù)據(jù)才能使機器學習比較好地解決問題(相對于簡單規(guī)則或人工);3、目標問題由多種因素(特征)決定,機器學習解決問題的優(yōu)勢才能體現(xiàn)(相對于簡單規(guī)則或人工);4、目標問題需要持續(xù)優(yōu)化,因為機器學習可以基于數(shù)據(jù)自我學習和迭代,持續(xù)地發(fā)揮價值。現(xiàn)在是12頁\一共有22頁\編輯于星期五模型選擇對于DEAL交易額這個問題,我們認為直接預估難度很大,希望拆成子問題進行預估,即多模型模式。那樣就需要建立用戶數(shù)模型和訪購率模型,因為機器學習解決問題的方式類似,下文只以訪購率模型為例。實際問題選擇模型,需要轉(zhuǎn)化問題的業(yè)務目標為模型評價目標,轉(zhuǎn)化模型評價目標為模型優(yōu)化目標;根據(jù)業(yè)務的不同目標,選擇合適的模型,具體關系如下:通常來講,預估真實數(shù)值(回歸)、大小順序(排序)、目標所在的正確區(qū)間(分類)的難度從大到小,根據(jù)應用所需,盡可能選擇難度小的目標進行。對于訪購率預估的應用目標來說,我們至少需要知道大小順序或真實數(shù)值,所以我們可以選擇AreaUnderCurve(AUC)或MeanAbsoluteError(MAE)作為評估目標,以Maximumlikelihood為模型損失函數(shù)(即優(yōu)化目標)。綜上所述,我們選擇spark版本GBDT或LR,主要基于如下考慮:1)可以解決排序或回歸問題;2)我們自己實現(xiàn)了算法,經(jīng)常使用,效果很好;3)支持海量數(shù)據(jù);4)工業(yè)界廣泛使用?,F(xiàn)在是13頁\一共有22頁\編輯于星期五準備訓練數(shù)據(jù)深入理解問題,針對問題選擇了相應的模型后,接下來則需要準備數(shù)據(jù);數(shù)據(jù)是機器學習解決問題的根本,數(shù)據(jù)選擇不對,則問題不可能被解決,所以準備訓練數(shù)據(jù)需要格外的小心和注意:注意點:1、待解決問題的數(shù)據(jù)本身的分布盡量一致;2、訓練集/測試集分布與線上預測環(huán)境的數(shù)據(jù)分布盡可能一致,這里的分布是指(x,y)的分布,不僅僅是y的分布;3、y數(shù)據(jù)噪音盡可能小,盡量剔除y有噪音的數(shù)據(jù);4、非必要不做采樣,采樣常??赡苁箤嶋H數(shù)據(jù)分布發(fā)生變化,但是如果數(shù)據(jù)太大無法訓練或者正負比例嚴重失調(diào)(如超過100:1),則需要采樣解決?,F(xiàn)在是14頁\一共有22頁\編輯于星期五抽取特征完成數(shù)據(jù)篩選和清洗后,就需要對數(shù)據(jù)抽取特征,就是完成輸入空間到特征空間的轉(zhuǎn)換(見下圖)。針對線性模型或非線性模型需要進行不同特征抽取,線性模型需要更多特征抽取工作和技巧,而非線性模型對特征抽取要求相對較低?,F(xiàn)在是15頁\一共有22頁\編輯于星期五特征歸一化特征抽取后,如果不同特征的取值范圍相差很大,最好對特征進行歸一化,以取得更好的效果,常見的歸一化方式如下:現(xiàn)在是16頁\一共有22頁\編輯于星期五特征選擇特征抽取和歸一化之后,如果發(fā)現(xiàn)特征太多,導致模型無法訓練,或很容易導致模型過擬合,則需要對特征進行選擇,挑選有價值的特征?,F(xiàn)在是17頁\一共有22頁\編輯于星期五訓練模型完成特征抽取和處理后,就可以開始模型訓練了,下文以簡單且常用的LogisticRegression模型(下稱LR模型)為例,進行簡單介紹。

設有m個(x,y)訓練數(shù)據(jù),其中x為特征向量,y為label,;w為模型中參數(shù)向量,即模型訓練中需要學習的對象。

所謂訓練模型,就是選定假說函數(shù)和損失函數(shù),基于已有訓練數(shù)據(jù)(x,y),不斷調(diào)整w,使得損失函數(shù)最優(yōu),相應的w就是最終學習結(jié)果,也就得到相應的模型?!,F(xiàn)在是18頁\一共有22頁\編輯于星期五優(yōu)化算法現(xiàn)在是19頁\一共有22頁\編輯于星期五優(yōu)化模型經(jīng)過上文提到的數(shù)據(jù)篩選和清洗、特征設計和選擇、模型訓練,就得到了一個模型,但是如果發(fā)現(xiàn)效果不好?怎么辦?

【首先】反思目標是否可預估,數(shù)據(jù)和特征是否存在bug。

【然后】分析一下模型是Overfitting還是Underfitting,從數(shù)據(jù)、特征和模型等環(huán)節(jié)做針對性優(yōu)化?,F(xiàn)在是20頁\一共有22頁\編輯于星期五Underfitting&Overfitting所謂Underfitting,即模型沒有學到數(shù)據(jù)內(nèi)在關系,如下圖左一所示,產(chǎn)生分類面不能很好的區(qū)分X和O兩類數(shù)據(jù);產(chǎn)生的深層原因,就是模型假設空間太小或者模型假設空間偏離。

所謂Overfitting,即模型過渡擬合了訓練數(shù)據(jù)的內(nèi)在關系,如下圖右一所示,產(chǎn)生分類面過好地區(qū)分X和O兩類數(shù)據(jù),而真實分類面可能并不是這樣,以至于在非訓練數(shù)據(jù)上表現(xiàn)不好;產(chǎn)生的深層原因,是巨大的模型假設空間與稀疏的數(shù)據(jù)之間的矛盾。在實戰(zhàn)中,可以基于模型在訓練集和測試集上的表現(xiàn)來確定當前模型到底是Underfitting還是Overfitting,判斷方式如下表:現(xiàn)在是21頁\一共有22頁\編輯于星期五PPT模板下載:行業(yè)PPT模板:節(jié)日PPT模板:素材下載:PPT背景圖片:圖表下載:優(yōu)秀PPT下載:教程:Word教程:教程:資料下載:課件下載:范文下載:試卷下載:教案下載:

總結(jié)綜上所述,機器學習解決問題涉及到問題建模、準備訓練數(shù)據(jù)、抽取特征、訓練

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論