2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第1頁(yè)
2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第2頁(yè)
2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第3頁(yè)
2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第4頁(yè)
2024深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

深度學(xué)習(xí)新技術(shù)在搜狗搜索廣告中的深化應(yīng)用本身是一種很復(fù)雜的業(yè)務(wù)形態(tài),有很多問(wèn)題需要研究,為此專門成立了SEM這個(gè)學(xué)科。對(duì)很多歧義:比如搜“蘋果”,可能是指水果,也可能是手機(jī);還有一個(gè)典型case,mac,實(shí)際問(wèn)題:比如剛才提到的廣告召回、點(diǎn)擊率預(yù)估、相關(guān)性、badcase過(guò)濾、排序機(jī)制以不知道大家看沒(méi)看過(guò)一部美劇,廣告狂人,講的是20世紀(jì)60年代美國(guó)廣告行業(yè)的發(fā)展過(guò)優(yōu)選怎么做?假設(shè)當(dāng)前有很多創(chuàng)意,最終選哪種樣式的創(chuàng)意?這個(gè)任務(wù)跟創(chuàng)意匹配不太一行,其實(shí)很多年前就有類似的事情,例如MSRA做了一個(gè)對(duì)聯(lián)生成系統(tǒng),你出上聯(lián)我出下行了之后,就會(huì)有很多種方式來(lái)做這件事情:典型的比如GAN,這也是前幾年剛出現(xiàn)的;還有一些基于seq2seq的翻譯模型;CVAE也是生成式模式的一種變種。這幾種方法的目個(gè)基于CVAE的升級(jí)版框架,可用于關(guān)鍵詞拓展,大概可分為左半部分和右半部分:左邊可以看作傳統(tǒng)seq2seq的一種改進(jìn),一個(gè)編碼器加注意力機(jī)制加持的decoder;右邊這塊個(gè)系統(tǒng)里的一些模塊就是做這個(gè)事情,比如DomainClassifiier就是表達(dá)這個(gè)訴求的一個(gè)RewardEstimator來(lái)做這個(gè)工作,來(lái)評(píng)價(jià)生成結(jié)果的離散程度,生成結(jié)果的集中度越低,WWW2019比傳統(tǒng)的seq2seq效果要更好一些。創(chuàng)意挖掘是指如何從海量信息中挑出有價(jià)值的東西,這里選一個(gè)場(chǎng)景來(lái)介紹,“esonsion相當(dāng)于有了一個(gè)源源不斷的素材庫(kù)。那如何做這個(gè)工作,把這個(gè)eson切分開,怎么判些都需要做一個(gè)切分,也就是eson切分,來(lái)評(píng)價(jià)前后兩次輸入是否關(guān)聯(lián)。傳統(tǒng)的方法會(huì)基于一些特征構(gòu)建模型來(lái)進(jìn)行分類,我們提出了一種基于LTM和tenon機(jī)制的eson切分方式,會(huì)考慮這個(gè)用戶的連續(xù)輸入,用LTM網(wǎng)絡(luò)生成一個(gè)編碼,再利用tenin做隱向量的權(quán)重分派,對(duì)應(yīng)最終的一個(gè)bl,就是說(shuō)這兩個(gè)輸入是不是一回事要不要做區(qū)分,模型訓(xùn)練完之后就可以幫我們來(lái)做esn切分的工作。當(dāng)時(shí)取的效果還8年的IGIRser,大家如果感興趣可以去看一下。雖然只是用來(lái)做用戶行為分析,但有了高質(zhì)量的TF-IDF、BM25庫(kù)可以得到每個(gè)分詞片段的權(quán)重,來(lái)了兩個(gè)query之后,可以對(duì)兩者做一個(gè)匹配,如果匹然后就是意圖匹配,基于用戶行為數(shù)據(jù),比如每天的檢索總共好幾億次或者上10億次,每query,如果點(diǎn)擊的網(wǎng)頁(yè)列表非常相似,querySVD++來(lái)挖掘這種關(guān)聯(lián)關(guān)系,這是身是一個(gè)QPS非常高,計(jì)算復(fù)雜度非常高的場(chǎng)景,可能會(huì)需要有一些比較簡(jiǎn)單的方法來(lái)做不了,或者解決的不夠好。具體到這里面涉及到的幾個(gè)技術(shù),seq2seq及神經(jīng)機(jī)器翻譯,達(dá)網(wǎng)絡(luò),而后進(jìn)行query的描述,或者其他內(nèi)容的描述,然后進(jìn)行一個(gè)匹配計(jì)算。這是我們16年發(fā)表的一篇論文,提出了一種不需要分詞的問(wèn)答系統(tǒng)匹配算法。早些時(shí)候,做中文文本相似性計(jì)算,或者檢索相關(guān)的任務(wù),都需要先做一個(gè)分詞,需要先將query切分成若干term片段,然后再對(duì)term進(jìn)行后續(xù)操作。這樣會(huì)有一些問(wèn)題,比如典型的word2vec算法,對(duì)于中文語(yǔ)料庫(kù)來(lái)講,分完詞之后,term粒度至少在百萬(wàn)量級(jí)才夠用,termID50100個(gè)G這么大,內(nèi)存開銷會(huì)比較大,那么有沒(méi)有好一些的辦法?其實(shí)這個(gè)思想已經(jīng)大規(guī)模的端到端,特別簡(jiǎn)單粗暴。具體到這個(gè)任務(wù),中文也好英文也好,直接把query輸入進(jìn)去,20001150算時(shí),可以結(jié)合字符的權(quán)重來(lái)做query的編碼,進(jìn)行后續(xù)的任務(wù),這樣內(nèi)存消耗就可以降流程得到簡(jiǎn)化,故障就會(huì)減少,這是它的一個(gè)意義所在。這個(gè)成果當(dāng)時(shí)發(fā)表在CIKM上,%。同時(shí)有很多種樣式,我們的產(chǎn)品會(huì)做很多的設(shè)計(jì),每個(gè)樣式有不同的特點(diǎn),比如說(shuō)QS這個(gè)規(guī)模,每次一個(gè)quy過(guò)來(lái),可能會(huì)召回上百條廣告,每天就有百億以上的計(jì)算,所務(wù)稍微復(fù)雜一點(diǎn),一條標(biāo)注就需要兩毛錢甚至一塊錢,還是很貴的。比如100萬(wàn)條樣本,后,即使有些噪音,但規(guī)模大也能緩解這些問(wèn)題。在文本相關(guān)性算法中有個(gè)DSSM模型,應(yīng)用非常廣泛,也有很多改進(jìn),利用query和title之間的偏序關(guān)系進(jìn)行訓(xùn)練,模型設(shè)計(jì)并解決疑難雜癥。如果發(fā)現(xiàn)模型訓(xùn)練之后效果很不好,特別在一些典型case上效果不好,那也都了解,我們首先要有data,一般來(lái)自于查詢?nèi)罩竞忘c(diǎn)擊日志;然后構(gòu)建一些特征,可搜狗搜索廣告經(jīng)過(guò)了很長(zhǎng)時(shí)間的演化,最早的點(diǎn)擊率預(yù)估模型,主要基于liblinear,大概08LRFTRL、FMLR現(xiàn)在為止,LR還是非常有效的,因?yàn)樗浅:?jiǎn)單,就是一個(gè)線性模型,原理和公式,一般索,就有了非線性模型,包括GBDT、DNN以及一些級(jí)聯(lián)融合模型,LR+GBDT或LR+DNNWide&DeepNFM我介紹的是搜狗線上的一個(gè)模塊,如何把這個(gè)想法在線上實(shí)現(xiàn)。這里的關(guān)鍵點(diǎn)是ModelFeaturePPTLRDNNSession也就是樣本,經(jīng)過(guò)FeatureMaker也就是特征抽取,會(huì)形成兩類,一類是one-hot這種離LRTrainLRModel,LRModel放到里邊,包括ctr的特征和模型中間結(jié)果,經(jīng)過(guò)DNNTrain得到DNNModel,部署到這時(shí)候就有兩個(gè)模型,DNN和LR。在線上我們的工作也類似,前端收到流量進(jìn)行召回,QS,也就是排序ServerOneCase,也就是一個(gè)樣本,然后會(huì)得到離散特征,并進(jìn)入特征池,可以做一個(gè)查表,通過(guò)CTRTable得到COEC特征,就會(huì)得到DNNModelFeatureLRCTR接下來(lái)講wide&deep模型,剛才講的LR+DNN模型應(yīng)該是16年左右推到線上,wide&deep是17年,也就是去年的工作。這個(gè)模型是16年谷歌應(yīng)用商店推出來(lái)的,用MxnetTensorflow,我MxNet16DNN會(huì)有大量特征來(lái)表述查詢?cè)~和廣告keyword,以及一些交叉特征和匹配特征。如果特征規(guī)模非常大,同時(shí)樣本量也非常大,一天可能有數(shù)億樣本,一般用60天或90天的數(shù)據(jù),而且每天都要更新,就會(huì)涉及到訓(xùn)練效率的問(wèn)題。6年解決大規(guī)模樣本訓(xùn)練時(shí),也想過(guò)TnsrlwTnsrlwNetTnsrlw其實(shí)是沒(méi)有更多了解的,比如日志打印,調(diào)試時(shí)想往里面加代碼,Tnsrlw用起來(lái)不gogeNet就會(huì)好6LR+NNGUWd&eep7年的時(shí)候TnsrlwNet。TensorFlow看Wide&Deep模型的效果,因?yàn)橛虚_源實(shí)現(xiàn)直接調(diào)庫(kù)就能做這個(gè)事情。TensorFlow上的小樣本實(shí)驗(yàn)表明,相比LR+DNN融合模型,wide&deep在AUC上是漲的,做這個(gè)事MxNet的,是稠密的,MxNet是基于這種情況來(lái)設(shè)計(jì)的,而搜索廣告有很多文本類特征都是離散的,量非常大又很稀疏,所以需要把MxNetSparseTensor,這是第一步的工作,不做這個(gè)后面是沒(méi)法繼續(xù)的;第二是需要深度定制Embedding層,原來(lái)的DNNEmbeddingword2vecCOEC這種特征直接放進(jìn)去,就沒(méi)Embedding這層,但Wide&Deep卻會(huì)牽扯到MxNet的Embedding層效率是不是夠的問(wèn)題,需要對(duì)它進(jìn)行定制來(lái)提高訓(xùn)練速度;第三,原本parameterserverCPUCPUGPU好的網(wǎng)絡(luò)設(shè)備,就是IB卡,速度能達(dá)到56Gb每秒,這是官方標(biāo)稱的,我也測(cè)過(guò),能達(dá)到類似的水平,比萬(wàn)兆網(wǎng)卡還要快5倍左右。網(wǎng)絡(luò)規(guī)模上去之后,參數(shù)量非常大,訓(xùn)練過(guò)程IBipembedding512G30Hadoop間的情況下,能夠在5到8個(gè)小時(shí)內(nèi)訓(xùn)練一個(gè)模型,推到線上供我們使用,上線之后效果AUCAUC會(huì)有些經(jīng)驗(yàn)說(shuō)法,比如AUC只要提升三個(gè)千分點(diǎn)以上,那么上線一定是有效果的,但前提能最后發(fā)現(xiàn)效果不行,原來(lái)跟老板說(shuō)上線漲5%,結(jié)果上線之后持平或者下跌,這時(shí)我該怎bug,這是第一點(diǎn);第二點(diǎn)就是SurvivalBias的問(wèn)題,這個(gè)問(wèn)題比較典型,還拿搜索廣告舉一下種情況的理論分析比較常見(jiàn),但實(shí)際上來(lái)說(shuō),還是需要先確認(rèn)有沒(méi)有bug,這個(gè)是最重要然后是模型這塊我們目前的現(xiàn)狀和計(jì)劃。我們已經(jīng)實(shí)現(xiàn)了Wide&De

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論