




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、人工智能的工業(yè)應(yīng)用SAMPLE TEXT可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)人工智能的興盛是數(shù)據(jù)量變大、機(jī)器性能提升、并行計(jì)算發(fā)展的結(jié)果Scalable ML System Scalable SystemXT HERE YOU YOUR TEXT HE ADD YOUR數(shù)據(jù)處理的NE吞ED吐.隨著 集群、機(jī)器數(shù)的增加 而增加智能水平/體驗(yàn)的壁壘、 隨著業(yè)務(wù)/數(shù)據(jù)的增長而 增加什么是機(jī)器學(xué)習(xí)的可擴(kuò)展性Scalable?AMPLE TEXT工業(yè)大數(shù)據(jù)需要高VC維模型VC維(Vapnik-Chervonenkis Dimension)又稱VC理論;VC維反映了函數(shù)集的學(xué)習(xí)能力,VC維越大則模型或函數(shù)越復(fù)雜,學(xué)習(xí)能力
2、就越強(qiáng);模型一定要與待解決的問題相匹配,如果模型過于簡單,而問題本身的復(fù)雜度很高,就無法 得到預(yù)期的精度可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)機(jī)器學(xué)習(xí)數(shù)據(jù)特征模型工業(yè)追求極高的VC維度如何沿著模型走?學(xué)術(shù)界主導(dǎo)(ICML,NIPS,ICLR)非線性的三把寶劍:Kernel,Boosting,Neural Network模型大部分單機(jī)可加載解決數(shù)據(jù)分布式問題,以及降低系統(tǒng)overhead工業(yè)界針對應(yīng)用定制模型基于思考或者觀測得到的假設(shè)加入新的模型、結(jié)構(gòu),以加入更多參數(shù)典型案例:伽利略如何沿著模型走?工業(yè)界主導(dǎo)(KDD,WWW)模型相對簡單粗暴分布式,工程挑戰(zhàn)大高效并行并保證快速收斂工業(yè)界中一般針對應(yīng)用定制特征為什
3、么有那么多特征,怎么產(chǎn)生這 些特征如何理解這些特征人工智能愛因斯坦沒有免費(fèi)的午餐定理:不存在萬能模型“We show that all algorithms that search for an extremum of a cost function perform exactly the same, when averaged over all possible cost functions. In particular, if algorithm A outperforms algorithm B on some cost functions, then loosely speaking
4、there must exist exactly as many other functions where B outperforms A”- by Wolpert and Macready (1995) in No Free Lunch Theorem所有的機(jī)器學(xué)習(xí)模型都是一個(gè)偏置更多的模型假設(shè)更簡單的模型假設(shè)更少的數(shù)據(jù)更多的數(shù)據(jù)支持與特征刻畫工業(yè)界機(jī)器學(xué)習(xí)中并沒有免費(fèi)的午餐,要做出對業(yè)務(wù)問題合適的選擇然而AI還遠(yuǎn)未普及與Hadoop相比工業(yè)界應(yīng)用機(jī)器學(xué)習(xí)的難題工業(yè)界應(yīng)用機(jī)器學(xué)習(xí)的難題需要AI應(yīng)用平臺(tái)Tenserflow,Mxnet,Caffe等工具日趨豐富但是,足夠了么?為什么人工智能還
5、沒有真的大規(guī)模應(yīng)用到每個(gè)企業(yè)Hadoop為什么用的人多?先驅(qū)知識(shí)要求太多能做AI的還是研究/應(yīng)用機(jī)器學(xué)習(xí)科學(xué)家核心機(jī)器學(xué)習(xí)算法平臺(tái)只降低了一部分門檻更大的應(yīng)用基礎(chǔ):降門檻 算法效果如何解決特征工程特征工程在工業(yè)界是巨大的難關(guān)什么是特征工程?現(xiàn)在的平臺(tái)已經(jīng)足夠了嗎?需要對機(jī)器學(xué)習(xí)與業(yè)務(wù)都非常理解不同的算法,要使用不同的特征工程達(dá)到同一個(gè)目標(biāo)以新聞推薦為例一階特征:每個(gè)用戶直接喜歡什么二階特征:用戶的擴(kuò)展興趣(喜歡大數(shù)據(jù)的人,可能對機(jī)器 學(xué)習(xí)也感興趣)不同模型如何添加?線性模型,學(xué)習(xí)階特征線性模型,學(xué)習(xí)二階特征政治哺機(jī)器人話題機(jī)器人話題啋籃盈體育政治話題計(jì)I體育.一政治話題習(xí)一、/ 識(shí) 互聯(lián)網(wǎng)樂話
6、題哇 I 政治II識(shí)遲 1互聯(lián)網(wǎng)1;音樂話題莊:非線性宏觀特征模型 ,學(xué)習(xí)階特征非線性宏觀特 征模型, 學(xué)習(xí)二階特征啞是否屬于?機(jī)器人話題萄罪 1 .0 2l0是否屬于?搖政治話題0.81習(xí)-、/識(shí)1B政治體育互聯(lián)網(wǎng)習(xí)夕、/ 識(shí) 遲I 政治I體育I 互聯(lián)網(wǎng) 音樂話題是否屬于?機(jī)器人話題政治話題J音樂話題如何解決特征工程特征工程在工業(yè)界是巨大的難關(guān)需要對機(jī)器學(xué)習(xí)與業(yè)務(wù)都非常理解不同的算法,要使用不同的特征工程達(dá)到同一個(gè)目標(biāo)如何解決特征工程特征工程是非常大的難題需要對機(jī)器學(xué)習(xí)與業(yè)務(wù)都非常理解不同的算法,同樣的特征,獲得效果不同如何進(jìn)行自動(dòng)的特征工程隱式特征組合(NN,F(xiàn)M)半顯
7、式顯示特征組合(GBDT)顯式特征組合(特征叉乘)隱式特征組合主要特點(diǎn)對連續(xù)值特征天然友好最大的成功:語音圖像高級離散變量處理相對更復(fù)雜隱式組合,基本無可解釋性對離散特征需要Large Scale EmbeddingEmbedding NNFM, FNN, PNNDeepFMomolu tion11l la yer 1 : 6 kcrncls(S:5)ubsampling layer 2 : 2Y(lonvolurional layerul)sampling la er Con olutional layer3 : 16 kernels (SxS4: (2x2)CS: 1920 kernels
8、 (Sx5)r _,一 一 ._, - - - - - - - - - - - - - - - - -.,approx. top NII - 1 us ten n仁 廿.,_ _ - - - -class probabilitiesvideo,,vectors v Jserv1ng言watch vectorsearch vector二gendergeographic embeddingembedded video watchesembedded search tokens對離散特征需要Large Scale EmbeddingEmbedding NNFM, FNN, PNNDeepFM第四范式
9、DSN隱式特征組合半隱式特征組合主要是森林類算法為什么是“半隱式”看起來可以解釋,實(shí)際上并不可解釋看起來在做特征組合,實(shí)際上是層次貪心 的副產(chǎn)物主要特點(diǎn)理解容易,相對魯棒,效果優(yōu)秀Off-the-shelf離散特征非常難解,無現(xiàn)有方案第四范式HE-TreeNet,GBM解決大規(guī)模離散特征的樹模型研 發(fā) 基 于 Embedding, Ensembling, Stacking的系列樹 算法顯式特征組合:問題主要基于貪心與搜索正則化Beam Search,MCTS遺傳算法,模擬退火問題特別的難圍棋的狀態(tài)空間 31919;而個(gè)特征,選=2個(gè)特征,限制最大階組合,狀態(tài)空間為C難以組合連續(xù)值特征?顯式特征
10、組合優(yōu)勢可解釋性:提供深度業(yè)務(wù)洞 察可疊加性:增強(qiáng)所有機(jī)器學(xué)習(xí)算法顯式特征組合:現(xiàn)狀State-of-artOnline Boosting Feature Selection: 單特征Weak Learner基于Adaboost的選擇Online Regularization:基于Lasso對梯度、權(quán)重截?cái)喱F(xiàn)有算法的問題并非為n選m個(gè)k階以下特征設(shè)計(jì)多為副產(chǎn)物,對信息損失的比較大二階組合為主,基本無法高階特征組合顯式特征組合:FeatureGO第四范式FeatureGO算法基于MCTS,對特征組合狀態(tài)進(jìn)行估計(jì)調(diào)優(yōu)的搜索剪枝技術(shù)利用LFC算法解決連續(xù)值特征組合問題組合特征可高達(dá)6階算法背后的優(yōu)化BoostingFully/Partially Corrective LearningCross Parameter-server Sharing(CPS)計(jì)算能力也是人工智能的一部分計(jì)算能力是新的性感,智能同樣來自于計(jì)算Google立出了榜樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年五年級下冊數(shù)學(xué)《露在外面的面》(教案)
- 《定風(fēng)波 莫聽穿林打葉聲》歷年中考古詩欣賞試題匯編(截至2022年)
- 2024年作物收獲機(jī)械項(xiàng)目資金籌措計(jì)劃書代可行性研究報(bào)告
- 2024年歌舞廳娛樂服務(wù)項(xiàng)目資金需求報(bào)告
- 2025年湖南工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案
- 2024年注射用骨肽投資申請報(bào)告代可行性研究報(bào)告
- 深圳高級中學(xué)(集團(tuán))2025屆高三第三次診斷考數(shù)學(xué)試題+答案
- 2025年鶴壁職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫完美版
- 二零二五年度精裝修公寓轉(zhuǎn)租合同電子版
- 2025年度工傷事故責(zé)任劃分與賠償方案合同
- 體驗(yàn)式家長會(huì)PPT學(xué)習(xí)教案
- 史上最全石油英語詞匯
- 表面粗糙度等級對照表模板.doc
- 天然氣門站操作規(guī)程
- 東莞虎門架空線路拆除施工方案
- 繪本《你很特別》
- 茶葉揉捻機(jī)總體設(shè)計(jì)方案的擬定
- 律師事務(wù)所主任在司法行政工作會(huì)議上的發(fā)言稿
- 初中三角函數(shù)計(jì)算題100道
- 蘇州大學(xué)應(yīng)用技術(shù)學(xué)院財(cái)務(wù)管理
- 2022年新目標(biāo)英語七年級期末考試質(zhì)量分析
評論
0/150
提交評論