




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
愛奇藝搜索排序模型迭代時候,我們的解決方案。這次分享的ppt針對一線的開發(fā)人員,希望可以給一線的開發(fā)人app天更關(guān)注在doc層和query層是如何做這些匹配的。內(nèi)容生態(tài),愛奇藝的視頻搜索不僅僅是站內(nèi)搜索引擎,而是全網(wǎng)的視頻通過對用戶的query進(jìn)行切詞,將右邊的視頻資源的文本描述信息構(gòu)建構(gòu)建倒排索引,此詞權(quán)重query1.0后的新詞與視頻做相關(guān)性計算,取top結(jié)果返回給用戶,以此來實現(xiàn)拓展詞召回。第一步query以及點擊的document生成doc-query們再從新標(biāo)注一部分翻譯的groundtruth。義空間,那么該場景造成的mismatch現(xiàn)象會非常嚴(yán)重。那么此時,我們就需要把二者映具體做法:利用搜索點擊日志,來構(gòu)建一個搜索點擊二部圖。如下圖中可以看到:doc4與query2query4query6doc4但是我們已然不難看出,三個query詞之間具有較強的相關(guān)性,并且這個結(jié)論的置信度也并以次來拓展query的表達(dá)。n-gram來拆解擬合,最后用動態(tài)規(guī)劃去選擇最優(yōu)的表達(dá)向量。nlpnlp本相似性(如dssm);基于交互querydocument我們當(dāng)前的策略是基于表達(dá),如下圖所示框架:首先,抽取query下的正負(fù)樣例;之后,idf權(quán)重很高;最難點在于groundtrue構(gòu)建,嚴(yán)重影響語義模型的效果。下圖是精確匹配2.0的版本,在這個版本我們基于翻譯模型把query進(jìn)行查詢詞拓展,同click-simi最后基于相關(guān)性模型去計算query和視頻內(nèi)容是否相關(guān)。界提出的,在工業(yè)界通過a/btest,不斷的嘗試后得出的比較成功的案例。用戶query的時效性(新聞資訊&老電影,游戲&電視?。?;query(新鮮度、語義召回、視頻來源、歷史點擊表現(xiàn)等)。后面當(dāng)我們的特征越來越多的時候,以上四個因素已經(jīng)開始很難全面地涵蓋各種排序因子所以后面遷移到了學(xué)習(xí)系統(tǒng),基于用戶在歷史的排序結(jié)果的點擊行為收集起來構(gòu)造label,根據(jù)用戶在搜索時候給出的queryvideo與label進(jìn)行join,得到groundturth,之后進(jìn)入學(xué)習(xí)系統(tǒng)進(jìn)行學(xué)習(xí),訓(xùn)練處一個排序模pointwise,相關(guān)不相關(guān);pairwise,A優(yōu)于B;r(iii代表i個結(jié)果的排序位置。直觀理解:ir(i)越大,ndcglistwise量化為三個等級:excllent,good,normal負(fù)樣例:skip-abovedocument后面我們發(fā)現(xiàn),id特征也是有重要意義的,在特征工程中應(yīng)該予以考慮,由于我們在提取在沒有加入稀疏類特征之前,我們的模型是mbd-mrt模型,在IR領(lǐng)域是最先進(jìn)的模gbdtbotng同時有很好的學(xué)習(xí)泛化能力,樹結(jié)構(gòu)很難兼容高維稀疏特征,比方說我們的dcument是到瓶頸。但是在出來高維稀疏特征的時候,像LR、M、M可以認(rèn)為是線性模型,特征LR很多情況下特征組合方式比較重要,樹模型從根節(jié)點到葉子節(jié)點的路徑其實是一種組合方第一種方式LR特征和原始特征做拼接,學(xué)習(xí)gbdt模型。稀疏特征拼接,在此基礎(chǔ)上用LR學(xué)習(xí)。dnnquerydocumentembeddingdocumentquery(兩個負(fù)樣例,所以我們自己做了點積),gbdt與embedding特征做拼接,最后經(jīng)過三個全連接層,接
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年農(nóng)產(chǎn)品的安全試題及答案
- 保健按摩師中級練習(xí)卷含答案
- 中醫(yī)基礎(chǔ)理論試題-定科練習(xí)卷含答案
- 2025年職業(yè)病試題及答案
- 2025年酒醉心理測試題及答案
- 2025年大學(xué)藝術(shù)類試題及答案
- 2025年裝配電工筆試題及答案
- 2025年高一物理動能試題及答案
- 2025年校招專員面試試題及答案
- 2025年廣西單招數(shù)學(xué)試題及答案
- 無人機駕駛培訓(xùn)
- 2024年中煤電力有限公司所屬企業(yè)招聘29人筆試參考題庫附帶答案詳解
- DeepSeek介紹及其典型使用案例
- 2025年貴陽市貴安新區(qū)產(chǎn)業(yè)發(fā)展控股集團有限公司招聘筆試參考題庫附帶答案詳解
- 積極心理學(xué)視角下高職院校學(xué)生心理健康教育路徑研究
- 2025年內(nèi)蒙古建筑職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年國網(wǎng)數(shù)字科技控股有限公司招聘筆試參考題庫含答案解析
- 監(jiān)控設(shè)備采購及安裝投標(biāo)方案(技術(shù)方案)
- 人教版五年級數(shù)學(xué)下冊全套試卷附完整答案
- 2025年春新人教版數(shù)學(xué)一年級下冊課件 第一單元 2.拼一拼
- 《煤礦職業(yè)病危害防治》培訓(xùn)課件2025
評論
0/150
提交評論