版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、分享人:陳開江停不下來的推薦移動互聯網下的推薦實踐分享什么“停不下來”?終端數據我們以前,我們在PC上如何耕耘?提取核心詞相似排序檢索推薦展示48小時內的高質量原創(chuàng)微博保證多樣性微博正文相關推薦初始IDF+Entropy提取核心詞獲取推薦候選預估ctr推薦展示48小時內的高質量原創(chuàng)微博歷史優(yōu)質微博內容庫百萬級特征10億級樣本并行訓練特征管理模型評估AB-test統(tǒng)一樣式,吸引用戶保證多樣性詞關聯擴展Word2vec改造微博正文相關推薦演化后TextRank+IDF+Entropy+ctr演化后的效果同樣的技術架構,復用到客戶端之后?PC和移動推薦的對比(微博正文)微博推薦客戶端實例哪些不同?長
2、相血液角色找不同拜拜,PC。車載移動電臺好節(jié)目平臺個性化電臺考拉FM個性化移動網絡電臺這是個什么生物?不間斷的語音流陪伴式收聽產品介紹獨家秘制電臺節(jié)目我真的是電臺,而不是打著FM旗號的網絡音樂播放器。整合傳統(tǒng)電臺節(jié)目億萬個各不相同的FM頻率優(yōu)化目標和約束延長用戶收聽時長提高用戶與節(jié)目的互動提高用戶在平臺上的活躍度發(fā)現用戶新興趣,指導內容生產推送用戶最感興趣的節(jié)目優(yōu)化目標可用的數據考拉FM中的用戶行為頂、踩、跳過(一期節(jié)目)訂閱(一檔節(jié)目)收藏(一期節(jié)目)點播(一期節(jié)目)分享(一期節(jié)目)移動設備上的傳感數據其他實踐一:招待新客人新用戶新節(jié)目冷啟動熱門榜不要過度依賴熱門榜登錄微博抓取微博信息用戶分
3、類興趣分類相似用戶第三方數據CUR預估CUR預估頂?還是不頂?這是個二分類問題莎士比亞CUR預估User feature:標簽,性別,地域,分類,Item feature:標簽,類別,內容關鍵詞,主持人,風格,所播音樂的歌手,音樂節(jié)奏Context feature:時間,狀態(tài)(靜止,移動),GPS數據,本地天氣,周邊路況,動態(tài)特征CUR預估特征CUR預估樣本顯然,正樣本是“頂”過的數據。那么,負樣本就是“踩”過的數據嗎?踩過的數據太少,需要從踩+無表達數據中隨機抽取。CUR預估樣本1、特征值需要歸一化或者離散成binary特征;LR模型訓練備忘2、特征組合值得一試;3、樣本質量很重要。4、樣本
4、保證時間順序:有利于淘汰或衰減舊樣本,方便用新樣本測試、更新模型專家標注傅里葉變換節(jié)目類型、主持人、標簽等音頻分析節(jié)目稿件內容關鍵詞新節(jié)目實踐二:不忘老客人協(xié)同過濾(S1)CUR預估(S2)熱門榜(S3)w1*s1+w2*s2+w3*s3伺候老用戶改造1:針對節(jié)目檔和期分別構造協(xié)同矩陣分片協(xié)同過濾改造2:針對各種用戶反饋分別構造協(xié)同矩陣改造3:針對用戶收聽百分比構造評分矩陣加權融合協(xié)同過濾的快速實驗GraphChi單機神器圖計算GraphLab家族協(xié)同過濾的快速實驗百萬用戶,萬級節(jié)目,近億級邊的二部圖Graphchi做矩陣分解只需要34min小公司的救星值得頒錦旗多模型融合w1*s1+w2*s
5、2+w3*s3如何科學地確定權重?用三項模型預測結果,最小二乘法擬合用戶收聽時長百分比加入微博登錄信息多模型融合收聽百分比實踐三:隨叫隨到的服務即時推薦相似節(jié)目推薦相關節(jié)目推薦即時推薦內容分類(形式分類(節(jié)目調性(節(jié)目風格(主持人姓名主持人個數主持人性別主持人聲音類型標簽/關鍵詞向量空間模型余弦相似度相似節(jié)目節(jié)目稿件內容節(jié)目排重節(jié)目排重背景:同一新聞,不同節(jié)目在播報數據:短文本需求:對高度重合的主題快速聚類節(jié)目排重后綴樹聚類(suffix tree cluster)在線增量構造后綴樹:Ukkonen算法秒級快速聚類:排重,尋找同主題節(jié)目詞數最大類數實際類數時間(秒)預處理(秒)178,6372
6、501855.993.95178,6371201205.964.02內容相似計算倒排索引離線計算內容向量長度離線計算用戶頂過的節(jié)目之間相似度WAND算法:剪枝5ms節(jié)目的協(xié)同效應頂過這個節(jié)目的用戶還頂過哪些節(jié)目相關節(jié)目推薦相關節(jié)目推薦量化平均用戶收聽時長加入微博信息,解決冷啟動多模型融合即時推薦實踐四:論清洗的重要性數據質量的重要性網絡環(huán)境復雜不穩(wěn)定;程序本身的bug;用戶移動設備的錯誤。數據初期嚴重不一致、不完整;數據邏輯錯誤;數據違背常識逐!出!山!門!數據質量的重要性去掉不一致的,錯誤的數據特征組合實踐五:客人要打包帶走用戶脫離視野無法及時推送最新節(jié)目,獲取用戶最及時反饋;服務端無法為用戶離線節(jié)目構建與環(huán)境變化契合的編排;用戶脫離視野為用戶時刻提供貼心服務固然重要,但一定不能讓用戶設備耗電太快,設備太慢。愛因斯坦目前的我們上線四個月,用戶百萬量級,節(jié)目萬級重點是我們還在不斷試錯,總結,改進到此,總結一下總結UI/UE:40%data:30% knowledge:20% algorithm:10%推薦系統(tǒng)處方:熬制方法:不停發(fā)現問題,解決問題On the way沙龍組委會同學:淘寶的百壽,天貓
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度綠色建材木糠原料采購合同2篇
- 市政施工方案優(yōu)化
- 飲品制作與服務課程設計
- 2025年度個人沙石行業(yè)合作與資源共享合同3篇
- 2025年度旅游度假村廣告合作與綜合服務合同4篇
- 二零二五年度2025版互聯網醫(yī)療合伙人合作合同模板3篇
- 二零二五年酒店特色餐飲品牌授權合同3篇
- 2025年度二零二五民間借貸合同風險評估與管理范本4篇
- 2025年度生態(tài)補償機制建立與實施合同3篇
- 2025版零食店收銀員顧客體驗管理聘用合同4篇
- 北師大版小學三年級上冊數學第五單元《周長》測試卷(含答案)
- 國家安全責任制落實情況報告3篇
- DB45T 1950-2019 對葉百部生產技術規(guī)程
- 2024年度順豐快遞冷鏈物流服務合同3篇
- 六年級下冊【默寫表】(牛津上海版、深圳版)(漢譯英)
- 合同簽訂培訓
- 新修訂《保密法》知識考試題及答案
- 電工基礎知識培訓課程
- 鐵路基礎知識題庫單選題100道及答案解析
- 金融AI:顛覆與重塑-深化理解AI在金融行業(yè)的實踐與挑戰(zhàn)
- 住宅樓安全性檢測鑒定方案
評論
0/150
提交評論