丨ai模型的構建過程是怎樣下_第1頁
丨ai模型的構建過程是怎樣下_第2頁
丨ai模型的構建過程是怎樣下_第3頁
丨ai模型的構建過程是怎樣下_第4頁
丨ai模型的構建過程是怎樣下_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

這里,先給你講一個概念,它叫做決策邊界,你可以把它簡單理解為我們每天生活當中的各種決策。比如,當Mate降價到5000元的時候我就打算,那這種情況下我的決策邊界就是5000元,因為大于5000元的時候我不會,只有小于5000元時我會選擇。那放到預測用戶流失這個案例中,我們模型訓練的目標就是,在已知的用戶中用分類算法找到一個決策邊界,然后再用決策邊界把未知新用戶快速劃分成流失用戶或者是非流失用戶。不同算法的決策邊界也不一樣,比如線性回歸和邏輯回歸這樣的線性算法,它們的決策邊界也是線性的,長得像線條或者平面,而對于決策樹和隨機森林這樣的非線性算法,它們的決策邊界也是非線性是一條曲線。因此,決策邊界是判斷一個算法是線性還是非線性最重要的標準。上圖就是三種算法的決策邊界。決策邊界的形式無非就是直線和曲線兩種,并且這些曲線的復雜度(曲線的平滑程度)和算法訓練出來的模型能力關。一般來說決策邊界曲線越陡峭,模型在訓練集上的準確率越高,但陡峭的決策邊界可能會讓模型對未知數(shù)據(jù)的預測結果不穩(wěn)定。對于模型訓練來說,這個風險和收益的平衡點,就是擬合能力與泛化能力的平衡點。擬合能力代表模型在已知數(shù)據(jù)上表現(xiàn)得好壞,泛化能力代表模型在未知數(shù)據(jù)上表現(xiàn)得好壞。它們之間的平衡點,就是我們通過不斷地訓練和驗證找到的模型參數(shù)的最優(yōu)解,因此,這個最優(yōu)解繪制出來的決策邊界就具有最好的擬合和泛化能力。這是模型訓練中“最優(yōu)”的意思,也是模型訓練的目標,要記住。具體到我們這個流失用戶預測的例子上,模型訓練的目的就是找到一個平衡點,讓模型繪制出的決策邊界,能夠最大地區(qū)分流失用戶和非流失用戶,也就是預測流失用戶的準確率最高,并且還兼顧了模型的穩(wěn)定性。一般情況下,算法工程師會通過交叉驗證(CrossValidation)的方式,找到模型參數(shù)的最如果算法工程師想讓擬合能力足夠好,就需要構建一個復雜的模型對訓練集進行訓練,可越復雜的模型就會越依賴訓練集的信息,就很可能讓模型在訓練集上的效果足夠好,在測試集上表現(xiàn)比較差,產(chǎn)生過擬合的情況,最終導致模型泛化能力差。這個時候,如果算法工程師想要提高模型的泛化能力,就要降低模型復雜度,減少對現(xiàn)有樣本的依賴,但如果過分地減少對訓練樣本的依賴,最終也可能導致模型出現(xiàn)欠擬合的情況。”,它的評估方式可以分為兩大類:分類模型評估和回歸模型評估。分類模型解決的是將一個人或者物體進行分類,例如在風控場景下,區(qū)分用戶是不是“好人”,或者在圖像識別場景下,識別某張是不是包含人臉。對于分類模型的性能評估,我們會用到包括率、F1、KS、AUC這些評估指標。而回歸模型解決的是預測連續(xù)值的問題,如預測或者的價格,所以我們會用到方差和MSE這些指標對回歸模型對于產(chǎn)品經(jīng)理來說,我們除了要知道可以對模型性能進行評估的指標都有什么,還要知道這些指標值到底在什么范圍是合理的。雖然,不同業(yè)務的合理值范圍不一樣,我們要根據(jù)自己的業(yè)務場景來確定指標預期,但我們至少要知道什么情況是不合理的。比如說,如果算法同學跟我說,AUC是0.5,都不想就知道,這個模型可能上不了線了,因為AUC=0.5說明這個模型預測的結果沒有分辨能力,準確率太差,這和瞎猜得到其次是模型的穩(wěn)定性,你可以簡單理解為模型性能(也就是模型的效果)可以持續(xù)多久。我們可以使用PSI指標來判斷模型的穩(wěn)定性,如果一個模型的PSI>0.2,那它的穩(wěn)定性就太差了,這就說明算法同學的工作交付不達標。塊的時間來和你詳細講一講,模型評估的指標都有什么,以及它們的計算邏輯、合理前面我們講的4個環(huán)節(jié)都是針對一個模型來說的,但在實際工作中,為了解決很多具體的細節(jié)問題,算法工程師經(jīng)常需要構建多個模型才獲得最佳效果。這個時候,就要涉及多個模型集成的問題了。那模型集成或者說集成學習究竟是怎么一回事兒呢?聽我慢慢給你講。我們先來看一個生活中的例子,如果你打算買一輛車,你會直接找一家4S店,然后讓汽車銷售員推銷一下,就直接決定了嗎?大概率不會,你會先去各頭部汽車咨詢看看其他車主的評價,或者咨詢一下同事或朋友的意見,甚至會自己整理一堆汽車各維度的專業(yè)對比資料,再經(jīng)過幾次討價還價,才會最終做出的決定。模型融合就是采用的這個思路,同時訓練多個模型,再通過模型集成的方式把這些模型合并在一起,從而提升模型的準確率。簡單來說,就是用多個模型的組合來改善整體的表現(xiàn)。融合最簡單,就是把票數(shù)最多的模型預測的類別作為結果。另外,還有Blending和Stacking,以及Bagging和Boosting這些比較復雜的模型融合方法。除了要注意模型融合的方法,我們還要注意算法模型的選擇,不業(yè)選擇的算法模型一定不一樣。比如,互聯(lián)網(wǎng)數(shù)據(jù)和銀行金融機構數(shù)據(jù)就不一樣,因為銀行數(shù)據(jù)大部分都是強相關性的金融性數(shù)據(jù),所以它可能會考慮機器學習算法,而互聯(lián)網(wǎng)的數(shù)據(jù)特征基本都是稀疏,會較多考慮深度學習算法。并且,由于不業(yè)對于算法模型的風險狀況也有不同的考慮,所以對模型的選擇也會有不同的限制標準,比如銀行、金融行業(yè)會模型的特征和解釋性,因此,會選擇可解釋除此之外,我們還要考慮算法模型選擇的成本。比如說,產(chǎn)品經(jīng)理可能認為通過但是在實際中,算法工程師常常會為了提成模型AUC的一個點,讓特征的規(guī)模增大很多,一個模型訓練完成并通過評估后,算法工程師就要考慮怎么把它部署到線上,并應用到業(yè)務場景中。雖然模型部署不屬于模型構建中的環(huán)節(jié),但它卻是AI產(chǎn)品上線中必不可少的一環(huán),所以我也要在這里和你講一下。一般情況下,因為算法團隊和工程團隊是分開的兩個組織架構,所以算法模型基本也是部署成獨立的服務,然后一個HTTPAPI給工程團隊進行調(diào)用,這樣可以解耦相互之間的工作依賴,簡單的機器學習模型一般通過Flask來實現(xiàn)模型的部署,深度學習模型一般會選TensorFlowering來實現(xiàn)模型部署。但是,具體的交互方式也還要看模型應用的業(yè)務場景,比如業(yè)務需求就是要對UGC內(nèi)容進行分類,如果業(yè)務場景是要實時預測用戶UGC的類別,那我們的分類模型就需要部署成在線的Web服務并提供實時響應的API接口;如果我們只是需要對一批已有的UGC數(shù)據(jù)進行分類,然后使用分類后的結果,那我們的模型通過離線任務的方式運行,每日定時處理增量的UGC數(shù)據(jù)就可以了。通過第6和第7特征工程是所有環(huán)節(jié)中最乏味和耗時的。因為,實際生產(chǎn)中的數(shù)據(jù)會存在各種各樣的問題,如數(shù)據(jù)缺失、異常、分布不均、量綱不統(tǒng)一等等,這些問題都需要在特征工程中解決的。但是這種耗時絕對值得,一個好的特征工程直接影響算法模型最終的效果。模型訓練就是一個通過不斷訓練數(shù)據(jù),驗證效果和調(diào)優(yōu)參數(shù)的一個過程,而模型驗證和它是一個不斷循環(huán)迭代的過程,目標都是尋找模型泛化能力和模型效果的平衡點。所以模型訓練我們要和模型驗證一塊來看。更具體點,在我們的例子中,模型訓練的目標就是為了預測用戶是否為流失用戶,模型訓練就是在已知用戶數(shù)據(jù)中通過算法找到一個決策邊界,然后在這條決策邊界上,模型的擬合和泛化能力都能達到最好,也就是說,在訓練集和測試集上對流失用戶預測準確率都很高。模型融合環(huán)節(jié)主要是通過多個模型的組合來改善整體的表現(xiàn)。模型融合有許多方法,簡單的有平均和投票法,復雜的有Baging和Bosig。作為產(chǎn)品經(jīng)理,我們要知道,模型融合雖然可以提升模型的準確率,但也需要均衡開發(fā)成本來綜合考慮。最后,我還想給你一個小建議,如果你是偏基礎層或者技術層的產(chǎn)品經(jīng)理,需要對模型構建的過程了解得更加清楚,你可以在一些開放的機器學臺(比如阿里的機器學臺PAI)上,嘗試

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論