




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、作者: 莊程旭清華大學(xué)電子工程系基于鄰域,LDA和FM的混合推薦系統(tǒng)設(shè)計(jì)百度電影推薦問(wèn)題描述訓(xùn)練數(shù)據(jù):1,262,741測(cè)試數(shù)據(jù): 314,679電影總數(shù): 8,369用戶總數(shù): 143,670標(biāo)簽總數(shù): 1,129平均關(guān)注數(shù): 6.91用戶觀看電影記錄: 9,871,737基礎(chǔ)模型模型建立實(shí)證研究比賽之后文獻(xiàn)綜述Factorization machinesBasicModelsRandomForest1. LibFM2. SVD+RBMkNNBasic Features模型建立實(shí)證研究比賽之后文獻(xiàn)綜述模型建立實(shí)證研究比賽之后文獻(xiàn)綜述Basic Features實(shí)證研究比賽之后文獻(xiàn)綜述模型建立
2、Advanced Features基本思路:參考kNN的思想,參考相鄰的人的打分來(lái)得出最后的打分模型建立實(shí)證研究比賽之后文獻(xiàn)綜述初步實(shí)驗(yàn)每一套模型均采用以下4種參數(shù)和程序運(yùn)行方式:LibFM:采用MCMC學(xué)習(xí),初始值選取參數(shù)0.1,特征維數(shù)20維,迭代100輪SVD+_2:采用SGD學(xué)習(xí),迭代200輪,特征維數(shù)50維,前100輪步長(zhǎng)0.01,后100輪步長(zhǎng)0.001,參數(shù)懲罰0.0001,用sigmoid化。SVD+_1:采用SGD學(xué)習(xí),迭代200輪,特征維數(shù)50維,前100輪步長(zhǎng)0.01,后100輪步長(zhǎng)0.001,參數(shù)懲罰0.1。SVD+_3:采用SGD學(xué)習(xí),迭代400輪,特征維數(shù)50維,前
3、200輪步長(zhǎng)0.01,后200輪步長(zhǎng)0.001,參數(shù)懲罰0.0001,用sigmoid化。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述初步實(shí)驗(yàn)?zāi)P湍P蚅ibFMSVD+_1SVD+_2SVD+_3Tag0.61980.63820.6242 0.6435GoodTag0.61860.63900.62620.6451Tag+diff0.62000.63480.62830.6592Sns0.62070.63880.62970.6426Sns+thread0.62080.63890.63250.6527Sns500.62270.63750.62430.6510Snsall0.62340.63750.6259 0.
4、6440Movieall0.61480.63040.61680.6365模型建立實(shí)證研究比賽之后文獻(xiàn)綜述初步分析Tag和sns之間的對(duì)比1. Tag比起sns來(lái)說(shuō)更加密集2. 這是個(gè)很不成熟的Sns系統(tǒng):3. 一部電影至少1個(gè)tag,大部分電影有10個(gè)tag一部電影平均有12.93個(gè)tag一個(gè)人平均只有6.91個(gè)關(guān)注(并且大部分人關(guān)注一個(gè)從未有打分記錄的官方賬號(hào))總共143,670個(gè)人,有98733個(gè)人只有3個(gè)或者以下被關(guān)注數(shù)目,有40715個(gè)人根本沒(méi)有人關(guān)注1. user數(shù)據(jù)的分散性模型建立實(shí)證研究比賽之后文獻(xiàn)綜述根據(jù)數(shù)據(jù)分析020000004000000600000080000001000
5、00001200000016011917823729635541447353259165070976882788694510041063112211811240129913580200000040000006000000800000010000000120000001621231842453063674284895506116727337948559169771038109911601221128213432. movie數(shù)據(jù)的集中性含義:相似的人太相似;user的相似對(duì)里有54.2%的相似度超過(guò)0.5,甚至有30.1%的相似度超過(guò)0.7。而movie的相似對(duì)里面只有9.1%的相似度超過(guò)了0.
6、5。而相似的電影能夠很好的擴(kuò)大數(shù)據(jù)量通過(guò)相似的電影,能夠看到更多的潛在的打分用戶本質(zhì)考慮:本質(zhì)考慮:在人和電影的二分圖之間引在人和電影的二分圖之間引入隱層來(lái)增強(qiáng)兩兩之間的聯(lián)系,從入隱層來(lái)增強(qiáng)兩兩之間的聯(lián)系,從而相當(dāng)于擴(kuò)大了訓(xùn)練數(shù)據(jù)量而相當(dāng)于擴(kuò)大了訓(xùn)練數(shù)據(jù)量模型建立實(shí)證研究比賽之后文獻(xiàn)綜述深入分析現(xiàn)象:人的打分記錄的分散。電影打分記錄的集中。“對(duì)稱(chēng)性破缺”啟發(fā):movie的feature效果更好。因?yàn)閙ovie需要更多的自由度!來(lái)應(yīng)對(duì)更多的user。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述深入分析深入思考:對(duì)于不同數(shù)據(jù)量的電影,給予不同的重視,用較多的feature的數(shù)量來(lái)滿足其適應(yīng)data的需求。對(duì)于
7、較少的數(shù)據(jù)量的電影,用較少的feature來(lái)防止過(guò)擬合。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述修改之前的模型1. 用聚類(lèi)來(lái)使user更集中:1.用LDA的方法來(lái)做user的聚類(lèi),之后添加最相似的30個(gè)類(lèi)作為user feature。2.直接選取觀看電影數(shù)超過(guò)100的人作為相似分析的全集。3.只選取打過(guò)分的人作為相似分析的全集(只有9873個(gè)人打過(guò)分)2. 將相似電影和其他feature混合:movie + tagmovie + snsallmovie50模型建立實(shí)證研究比賽之后文獻(xiàn)綜述新模型測(cè)試模型模型LibFMSVD+_1SVD+_2SVD+_3Movie+tag0.61380.63090.615
8、90.6390Movie500.61480.63200.61800.6421Movie+snsall0.61460.62790.61890.6526Snsallchange0.62070.63810.62610.6417Snsallthread0.62190.63810.62620.6432Sns_topic0.62250.64030.63090.6373Snsall0.62340.63750.6259 0.6440Movieall0.61480.63040.61680.6365模型建立實(shí)證研究比賽之后文獻(xiàn)綜述在比賽中實(shí)踐比賽中共設(shè)計(jì)了30套以上的模型:Tag+average,user_mov
9、ieSum+average,movie_userSns+actor,movietagallMovie+topic,sns+tag+movie技巧:切分訓(xùn)練數(shù)據(jù),重新訓(xùn)練模型后混合結(jié)果;對(duì)于訓(xùn)練數(shù)據(jù),做后抹零處理用最優(yōu)線性混合對(duì)于所有的模型進(jìn)行混合模型建立實(shí)證研究比賽之后文獻(xiàn)綜述深入思考如何利用不成熟的sns信息?長(zhǎng)尾數(shù)據(jù)的利用一直是機(jī)器學(xué)習(xí)的難題。如何良好的聚類(lèi)user信息?這個(gè)主要的思路在于找到很好的相似人。品味相似,而且能夠擴(kuò)充數(shù)據(jù)。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述深入思考更好的尋找“相似”?現(xiàn)在尋找相似的方法忽略了二階相似之間的聯(lián)系。因此可以采用隨機(jī)游走的方法,關(guān)在在于多游走幾次。問(wèn)題在于時(shí)間效率。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述對(duì)于推薦系統(tǒng)實(shí)踐的建議相似人相似電影Tag和標(biāo)簽?zāi)P徒?shí)證研究比賽之后文獻(xiàn)綜述比賽之后對(duì)于訓(xùn)練集的重新拷問(wèn)為什么和第一名差這么多?數(shù)據(jù)泄露。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述比賽之后對(duì)于訓(xùn)練集的重新拷問(wèn)對(duì)于user history的順序問(wèn)題:亂序?時(shí)間順序!模型建立實(shí)證研究比賽之后文獻(xiàn)綜述比賽之后對(duì)于訓(xùn)練集的重新拷問(wèn)前k打分,后k打分:vali上的rmse為0.6173Movie_t
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 培養(yǎng)幼兒觀察能力的教研方案計(jì)劃
- 班級(jí)管理與文化建設(shè)策略計(jì)劃
- 人力資源外包的優(yōu)勢(shì)與劣勢(shì)分析計(jì)劃
- 客戶關(guān)系管理的改進(jìn)策略計(jì)劃
- 自我剖析及改善
- 圍產(chǎn)期健康教育
- 四年級(jí)下冊(cè)數(shù)學(xué)教案-3.6《手拉手》北師大版
- 創(chuàng)新創(chuàng)業(yè)仿生章魚(yú)筆筒
- 2025年濕法混合顆粒機(jī)項(xiàng)目合作計(jì)劃書(shū)
- 八年級(jí)歷史下冊(cè) 第19課 獨(dú)立自主走向國(guó)際舞臺(tái)教學(xué)實(shí)錄 岳麓版
- 浙江2024年浙江省有色金屬地質(zhì)勘查院選調(diào)專(zhuān)業(yè)技術(shù)人員筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解
- 投資銀行學(xué)第4版- 課件匯 馬曉軍 第5-9章 債券的發(fā)行和承銷(xiāo)-投資銀行的監(jiān)管
- 語(yǔ)文-江蘇省南通市、泰州市、鎮(zhèn)江市、鹽城市(部分學(xué)校)2025屆高三第一次調(diào)研測(cè)試(南通一模)試題和答案
- 2024云南紅河州個(gè)舊市大紅屯糧食購(gòu)銷(xiāo)限公司招聘及人員易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 開(kāi)門(mén)見(jiàn)山的作文開(kāi)頭和結(jié)尾摘抄
- 《化妝品用原料 (動(dòng)物)臍帶提取物》
- 廣東中考英語(yǔ)2020-2024年5年真題匯編-教師版-專(zhuān)題01 語(yǔ)法選擇
- 水飛薊簡(jiǎn)介課件
- 女性盆腔炎性疾病中西醫(yī)結(jié)合診治指南
- 品管圈PDCA改善項(xiàng)目-提高住院患者出入量記錄的準(zhǔn)確率
- 量子化學(xué)第七章-自洽場(chǎng)分子軌道理論
評(píng)論
0/150
提交評(píng)論