機(jī)器學(xué)習(xí)簡(jiǎn)介及實(shí)例作業(yè)_第1頁
機(jī)器學(xué)習(xí)簡(jiǎn)介及實(shí)例作業(yè)_第2頁
機(jī)器學(xué)習(xí)簡(jiǎn)介及實(shí)例作業(yè)_第3頁
機(jī)器學(xué)習(xí)簡(jiǎn)介及實(shí)例作業(yè)_第4頁
機(jī)器學(xué)習(xí)簡(jiǎn)介及實(shí)例作業(yè)_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.,機(jī)器學(xué)習(xí),.,什么是機(jī)器學(xué)習(xí),現(xiàn)今,機(jī)器學(xué)習(xí)已應(yīng)用于多個(gè)領(lǐng)域,遠(yuǎn)超出大多數(shù)人的想象,下面就是假想的一日,其中很多場(chǎng)景都會(huì)碰到機(jī)器學(xué)習(xí): 假設(shè)你想起今天是某位朋友的生日,打算通過郵局給她郵寄一張生日賀卡。你打開瀏覽器搜索趣味卡片,搜索引擎顯示了10個(gè)最相關(guān)的鏈接。你認(rèn)為第二個(gè)鏈接最符合你的要求,點(diǎn)擊了這個(gè)鏈接,搜索引擎將記錄這次點(diǎn)擊,并從中學(xué)習(xí)以優(yōu)化下次搜索結(jié)果。然后,你檢查電子郵件系統(tǒng),此時(shí)垃圾郵件過濾器已經(jīng)在后臺(tái)自動(dòng)過濾垃圾廣告郵件,并將其放在垃圾箱內(nèi)。接著你去商店購(gòu)買這張生日卡片,并給你朋友的孩子挑選了一些尿布。結(jié)賬時(shí),收銀員給了你一張1美元的優(yōu)惠券,可以用于購(gòu)買6罐裝的啤酒。之所以你

2、會(huì)得到這張優(yōu)惠券,是因?yàn)榭钆_(tái)收費(fèi)軟件基于以前的統(tǒng)計(jì)知識(shí),認(rèn)為買尿布的人往往也會(huì)買啤酒。然后你去郵局郵寄這張賀卡,手寫識(shí)別軟件識(shí)別出郵寄地址,并將賀卡發(fā)送給正確的郵車。當(dāng)天你還去了貸款申請(qǐng)機(jī)構(gòu),查看自己是否能夠申請(qǐng)貸款,辦事員并不是直接給出結(jié)果,而是將你最近的金融活動(dòng)信息輸入計(jì)算機(jī),由軟件來判定你是否合格。,.,機(jī)器學(xué)習(xí)問題的幾個(gè)實(shí)例,機(jī)器學(xué)習(xí)問題到處都是,它們組成了日常使用的網(wǎng)絡(luò)或桌面軟件的核心或困難部分。蘋果的Siri語音理解系統(tǒng)就是實(shí)例。以下,是幾個(gè)真正有關(guān)機(jī)器學(xué)習(xí)到底是什么的的實(shí)例。 1、垃圾郵件檢測(cè):根據(jù)郵箱中的郵件,識(shí)別哪些是垃圾郵件,哪些不是。這樣的模型,可以程序幫助歸類垃圾郵件和

3、非垃圾郵件。這個(gè)例子,我們應(yīng)該都不陌生。 2、信用卡欺詐檢測(cè):根據(jù)用戶一個(gè)月內(nèi)的信用卡交易,識(shí)別哪些交易是該用戶操作的,哪些不是。這樣的決策模型,可以幫助程序退還那些欺詐交易。 3、數(shù)字識(shí)別:根據(jù)信封上手寫的郵編,識(shí)別出每一個(gè)手寫字符所代表的數(shù)字。這樣的模型,可以幫助程序閱讀和理解手寫郵編,并根據(jù)地利位置分類信件。 4、語音識(shí)別:從一個(gè)用戶的話語,確定用戶提出的具體要求。這樣的模型,可以幫助程序能夠并嘗試自動(dòng)填充用戶需求。帶有Siri系統(tǒng)的iPhone就有這種功能。 5、人臉識(shí)別:根據(jù)相冊(cè)中的眾多數(shù)碼照片,識(shí)別出那些包含某一個(gè)人的照片。這樣的決策模型,可以幫助程序根據(jù)人臉管理照片。某些相機(jī)或軟

4、件,如iPhoto,就有這種功能。,.,什么是機(jī)器學(xué)習(xí),1、林軒田:機(jī)器學(xué)習(xí)想做的事情,簡(jiǎn)單的說是要從資料中歸納出有用的規(guī)則。大數(shù)據(jù)說的是對(duì)大量的資料做分析,而人工智能說的是讓機(jī)器看起來更聰明,兩者都可以使用機(jī)器學(xué)習(xí)來做核心的工具。 我們可以舉 2012 年的 KDD-Cup 做例子,當(dāng)年騰訊給的題目之一,是希望能從大量的線上廣告資料中,找出“這個(gè)廣告到底會(huì)不會(huì)被點(diǎn)擊”的規(guī)則,如果機(jī)器能找出有用的規(guī)則,我們就會(huì)有更高“智能”的廣告系統(tǒng)了。 2、ArthurSamuel定義的機(jī)器學(xué)習(xí)(1959) “在不直接針對(duì)問題進(jìn)行編程的情況下,賦予計(jì)算機(jī)學(xué)習(xí)能力的一個(gè)研究領(lǐng)域” 3、通俗講,機(jī)器學(xué)習(xí),兩部分

5、:首先是“機(jī)器”,這個(gè)機(jī)器一般其實(shí)指的就是“電腦”其次學(xué)習(xí),這個(gè)學(xué)習(xí)也分為兩部分,一是“數(shù)據(jù)”二是“算法”。其實(shí)和人是一樣的,比如你父母教你認(rèn)識(shí)“打棒球”這個(gè)體育運(yùn)動(dòng)的時(shí)候??隙ㄒo你看打棒球的圖片或者視頻,或者需要跟你描述這個(gè)運(yùn)動(dòng),這些就是“數(shù)據(jù)”。至于說“算法”的話,描述本身就是一種算法。比如他們告訴你“拿著球棒,這樣那樣揮舞擊球的就是棒球”。這樣,在沒有他們幫助的情況下,再給你一個(gè)新的打棒球的圖片,你也認(rèn)出這是打棒球4、簡(jiǎn)單講就是,總結(jié)過去,預(yù)測(cè)未來。,.,什么是機(jī)器學(xué)習(xí),.,機(jī)器學(xué)習(xí)問題的類型,關(guān)于機(jī)器學(xué)習(xí),有一些常見的分類。以下這些分類,是我們?cè)谘芯繖C(jī)器學(xué)習(xí)時(shí)碰到的大多問題都會(huì)參考的

6、典型。 分類:標(biāo)記數(shù)據(jù),也就是將它歸入某一類,如垃圾/非垃圾(郵件)或欺詐/非欺詐(信用卡交易)。決策建模是為了標(biāo)記新的未標(biāo)記的數(shù)據(jù)項(xiàng)。這可以看做是辨別問題,為小組之間的差異性或相似性建模。 回歸:數(shù)據(jù)被標(biāo)記以真實(shí)的值(如浮點(diǎn)數(shù))而不是一個(gè)標(biāo)簽。簡(jiǎn)單易懂的例子如時(shí)序數(shù)據(jù),如隨著時(shí)間波動(dòng)的股票價(jià)格。這個(gè)建模的的決策是為新的未預(yù)測(cè)的數(shù)據(jù)估計(jì)值。 聚類:不標(biāo)記數(shù)據(jù),但是可根據(jù)相似性,以及其他的對(duì)數(shù)據(jù)中自然結(jié)構(gòu)的衡量對(duì)數(shù)據(jù)進(jìn)行分組??梢詮囊陨鲜畟€(gè)例子清單中舉出一例:根據(jù)人臉,而不是名字,來管理照片。這樣,用戶就不得不為分組命名,如Mac上的iPhoto。 規(guī)則提取:數(shù)據(jù)被用作對(duì)提議規(guī)則(前提/結(jié)果,又

7、名如果)進(jìn)行提取的基礎(chǔ)。這些規(guī)則,可能但不都是有指向的,意思是說,這些方法可以找出數(shù)據(jù)的屬性之間在統(tǒng)計(jì)學(xué)上有說服力的關(guān)系,但不都是必要的涉及到需要預(yù)測(cè)的東西。有一個(gè)找出買啤酒還是買尿布之間關(guān)系的例子,(這是數(shù)據(jù)挖掘的民間條例,真實(shí)與否,都闡述了期望和機(jī)會(huì))。,.,實(shí)例詳解機(jī)器學(xué)習(xí)如何解決問題,.,什么是機(jī)器學(xué)習(xí)?,機(jī)器學(xué)習(xí)可以分為無監(jiān)督學(xué)習(xí)(unsupervised learning)和有監(jiān)督學(xué)習(xí)(supervised learning),在工業(yè)界中,有監(jiān)督學(xué)習(xí)是更常見和更有價(jià)值的方式,下文中主要以這種方式展開介紹。如下圖中所示,有監(jiān)督的機(jī)器學(xué)習(xí)在解決實(shí)際問題時(shí),有兩個(gè)流程,一個(gè)是離線訓(xùn)練流程

8、(藍(lán)色箭頭),包含數(shù)據(jù)篩選和清洗、特征抽取、模型訓(xùn)練和優(yōu)化模型等環(huán)節(jié);另一個(gè)流程則是應(yīng)用流程(綠色箭頭),對(duì)需要預(yù)估的數(shù)據(jù),抽取特征,應(yīng)用離線訓(xùn)練得到的模型進(jìn)行預(yù)估,獲得預(yù)估值作用在實(shí)際產(chǎn)品中。在這兩個(gè)流程中,離線訓(xùn)練是最有技術(shù)挑戰(zhàn)的工作(在線預(yù)估流程很多工作可以復(fù)用離線訓(xùn)練流程的工作),所以下文主要介紹離線訓(xùn)練流程。,.,什么是模型(model)?,模型,是機(jī)器學(xué)習(xí)中的一個(gè)重要概念,簡(jiǎn)單的講,指特征空間到輸出空間的映射;一般由模型的假設(shè)函數(shù)和參數(shù)w組成(下面公式就是Logistic Regression模型的一種表達(dá),在訓(xùn)練模型的章節(jié)做稍詳細(xì)的解釋);一個(gè)模型的假設(shè)空間(hypothesis

9、 space),指給定模型所有可能w對(duì)應(yīng)的輸出空間組成的集合。工業(yè)界常用的模型有Logistic Regression(簡(jiǎn)稱LR)、Gradient Boosting Decision Tree(簡(jiǎn)稱GBDT)、Support Vector Machine(簡(jiǎn)稱SVM)、Deep Neural Network(簡(jiǎn)稱DNN)等。,.,為什么要用機(jī)器學(xué)習(xí)解決問題?,1、目標(biāo)問題需要價(jià)值巨大,因?yàn)闄C(jī)器學(xué)習(xí)解決問題有一定的代價(jià); 2、目標(biāo)問題有大量數(shù)據(jù)可用,有大量數(shù)據(jù)才能使機(jī)器學(xué)習(xí)比較好地解決問題(相對(duì)于簡(jiǎn)單規(guī)則或人工); 3、目標(biāo)問題由多種因素(特征)決定,機(jī)器學(xué)習(xí)解決問題的優(yōu)勢(shì)才能體現(xiàn)(相對(duì)于簡(jiǎn)單

10、規(guī)則或人工); 4、目標(biāo)問題需要持續(xù)優(yōu)化,因?yàn)闄C(jī)器學(xué)習(xí)可以基于數(shù)據(jù)自我學(xué)習(xí)和迭代,持續(xù)地發(fā)揮價(jià)值。,.,對(duì)問題建模,本文以DEAL(團(tuán)購(gòu)單)交易額預(yù)估問題為例(就是預(yù)估一個(gè)給定DEAL一段時(shí)間內(nèi)賣了多少錢),介紹使用機(jī)器學(xué)習(xí)如何解決問題。首先需要: 1、收集問題的資料,理解問題,成為這個(gè)問題的專家; 2、拆解問題,簡(jiǎn)化問題,將問題轉(zhuǎn)化機(jī)器可預(yù)估的問題。 深入理解和分析DEAL交易額后,可以將它分解為如下圖的幾個(gè)問題:,.,為什么要用機(jī)器學(xué)習(xí)解決問題?,1、目標(biāo)問題需要價(jià)值巨大,因?yàn)闄C(jī)器學(xué)習(xí)解決問題有一定的代價(jià); 2、目標(biāo)問題有大量數(shù)據(jù)可用,有大量數(shù)據(jù)才能使機(jī)器學(xué)習(xí)比較好地解決問題(相對(duì)于簡(jiǎn)單規(guī)

11、則或人工); 3、目標(biāo)問題由多種因素(特征)決定,機(jī)器學(xué)習(xí)解決問題的優(yōu)勢(shì)才能體現(xiàn)(相對(duì)于簡(jiǎn)單規(guī)則或人工); 4、目標(biāo)問題需要持續(xù)優(yōu)化,因?yàn)闄C(jī)器學(xué)習(xí)可以基于數(shù)據(jù)自我學(xué)習(xí)和迭代,持續(xù)地發(fā)揮價(jià)值。,.,模型選擇,對(duì)于DEAL交易額這個(gè)問題,我們認(rèn)為直接預(yù)估難度很大,希望拆成子問題進(jìn)行預(yù)估,即多模型模式。那樣就需要建立用戶數(shù)模型和訪購(gòu)率模型,因?yàn)闄C(jī)器學(xué)習(xí)解決問題的方式類似,下文只以訪購(gòu)率模型為例。 實(shí)際問題選擇模型,需要轉(zhuǎn)化問題的業(yè)務(wù)目標(biāo)為模型評(píng)價(jià)目標(biāo),轉(zhuǎn)化模型評(píng)價(jià)目標(biāo)為模型優(yōu)化目標(biāo);根據(jù)業(yè)務(wù)的不同目標(biāo),選擇合適的模型,具體關(guān)系如下: 通常來講,預(yù)估真實(shí)數(shù)值(回歸)、大小順序(排序)、目標(biāo)所在的正確區(qū)

12、間(分類)的難度從大到小,根據(jù)應(yīng)用所需,盡可能選擇難度小的目標(biāo)進(jìn)行。對(duì)于訪購(gòu)率預(yù)估的應(yīng)用目標(biāo)來說,我們至少需要知道大小順序或真實(shí)數(shù)值,所以我們可以選擇Area Under Curve(AUC)或Mean Absolute Error(MAE)作為評(píng)估目標(biāo),以Maximum likelihood為模型損失函數(shù)(即優(yōu)化目標(biāo))。綜上所述,我們選擇spark版本 GBDT或LR,主要基于如下考慮:1)可以解決排序或回歸問題;2)我們自己實(shí)現(xiàn)了算法,經(jīng)常使用,效果很好;3)支持海量數(shù)據(jù);4)工業(yè)界廣泛使用。,.,準(zhǔn)備訓(xùn)練數(shù)據(jù),深入理解問題,針對(duì)問題選擇了相應(yīng)的模型后,接下來則需要準(zhǔn)備數(shù)據(jù);數(shù)據(jù)是機(jī)器學(xué)習(xí)

13、解決問題的根本,數(shù)據(jù)選擇不對(duì),則問題不可能被解決,所以準(zhǔn)備訓(xùn)練數(shù)據(jù)需要格外的小心和注意: 注意點(diǎn): 1、待解決問題的數(shù)據(jù)本身的分布盡量一致; 2、訓(xùn)練集/測(cè)試集分布與線上預(yù)測(cè)環(huán)境的數(shù)據(jù)分布盡可能一致,這里的分布是指(x,y)的分布,不僅僅是y的分布; 3、y數(shù)據(jù)噪音盡可能小,盡量剔除y有噪音的數(shù)據(jù); 4、非必要不做采樣,采樣常??赡苁箤?shí)際數(shù)據(jù)分布發(fā)生變化,但是如果數(shù)據(jù)太大無法訓(xùn)練或者正負(fù)比例嚴(yán)重失調(diào)(如超過100:1),則需要采樣解決。,.,抽取特征,完成數(shù)據(jù)篩選和清洗后,就需要對(duì)數(shù)據(jù)抽取特征,就是完成輸入空間到特征空間的轉(zhuǎn)換(見下圖)。針對(duì)線性模型或非線性模型需要進(jìn)行不同特征抽取,線性模型需

14、要更多特征抽取工作和技巧,而非線性模型對(duì)特征抽取要求相對(duì)較低。,.,特征歸一化,特征抽取后,如果不同特征的取值范圍相差很大,最好對(duì)特征進(jìn)行歸一化,以取得更好的效果,常見的歸一化方式如下:,.,特征選擇,特征抽取和歸一化之后,如果發(fā)現(xiàn)特征太多,導(dǎo)致模型無法訓(xùn)練,或很容易導(dǎo)致模型過擬合,則需要對(duì)特征進(jìn)行選擇,挑選有價(jià)值的特征。,.,訓(xùn)練模型,完成特征抽取和處理后,就可以開始模型訓(xùn)練了,下文以簡(jiǎn)單且常用的Logistic Regression模型(下稱LR模型)為例,進(jìn)行簡(jiǎn)單介紹。設(shè)有m個(gè)(x,y)訓(xùn)練數(shù)據(jù),其中x為特征向量,y為label,;w為模型中參數(shù)向量,即模型訓(xùn)練中需要學(xué)習(xí)的對(duì)象。所謂訓(xùn)練

15、模型,就是選定假說函數(shù)和損失函數(shù),基于已有訓(xùn)練數(shù)據(jù)(x,y),不斷調(diào)整w,使得損失函數(shù)最優(yōu),相應(yīng)的w就是最終學(xué)習(xí)結(jié)果,也就得到相應(yīng)的模型。,.,優(yōu)化算法,.,優(yōu)化模型,經(jīng)過上文提到的數(shù)據(jù)篩選和清洗、特征設(shè)計(jì)和選擇、模型訓(xùn)練,就得到了一個(gè)模型,但是如果發(fā)現(xiàn)效果不好?怎么辦?【首先】反思目標(biāo)是否可預(yù)估,數(shù)據(jù)和特征是否存在bug?!救缓蟆糠治鲆幌履P褪荗verfitting還是Underfitting,從數(shù)據(jù)、特征和模型等環(huán)節(jié)做針對(duì)性優(yōu)化。,.,Underfitting & Overfitting,所謂Underfitting,即模型沒有學(xué)到數(shù)據(jù)內(nèi)在關(guān)系,如下圖左一所示,產(chǎn)生分類面不能很好的區(qū)分X和

16、O兩類數(shù)據(jù);產(chǎn)生的深層原因,就是模型假設(shè)空間太小或者模型假設(shè)空間偏離。所謂Overfitting,即模型過渡擬合了訓(xùn)練數(shù)據(jù)的內(nèi)在關(guān)系,如下圖右一所示,產(chǎn)生分類面過好地區(qū)分X和O兩類數(shù)據(jù),而真實(shí)分類面可能并不是這樣,以至于在非訓(xùn)練數(shù)據(jù)上表現(xiàn)不好;產(chǎn)生的深層原因,是巨大的模型假設(shè)空間與稀疏的數(shù)據(jù)之間的矛盾。 在實(shí)戰(zhàn)中,可以基于模型在訓(xùn)練集和測(cè)試集上的表現(xiàn)來確定當(dāng)前模型到底是Underfitting還是Overfitting,判斷方式如下表:,.,PPT模板下載: 行業(yè)PPT模板: 節(jié)日PPT模板: PPT素材下載: PPT背景圖片: PPT圖表下載: 優(yōu)秀PPT下載: PPT教程: Word教程: Excel教程: 資料下載: PPT課件下載: 范文下載: 試卷下載: 教案下載:,總結(jié),綜上所述,機(jī)器學(xué)習(xí)解決問題涉及到問題建模、準(zhǔn)備訓(xùn)練數(shù)據(jù)、抽取特征、訓(xùn)練模型和優(yōu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論