版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、計(jì)劃類別 項(xiàng)目編號 項(xiàng)目技術(shù)報(bào)告課題名稱 項(xiàng)目主持人 承擔(dān)單位 題目:基于張量分解的個性化微博推薦算法研究隨著社交媒體的發(fā)展,微博為人們提供的服務(wù)正在極大地改變著人們使用互聯(lián)網(wǎng)的習(xí)慣,然而微博上用戶發(fā)表的大量信息,以及高頻率的信息更新,使得用戶面臨信息過載的問題而無法快速獲取他感興趣的信息。推薦系統(tǒng)是解決此問題的一種很好的方法,它是通過研究用戶已有數(shù)據(jù)來發(fā)掘用戶興趣,從而為用戶推薦可能感興趣的對象,如產(chǎn)品、網(wǎng)頁、微博等。本文介紹了一種基于張量分解技術(shù)的微博推薦算法來預(yù)測用戶對微博的興趣度,同時考慮用戶與微博、用戶與微博發(fā)布者影響因素,以及微博與微博發(fā)布者的影響因素,提高了已有算法的準(zhǔn)確度。關(guān)鍵
2、詞:微博推薦;矩陣分解;張量分解Abstract:With the development of social media,the services in micro-blog have significantly changed the way people use the Internet.However,as the large amount of information posted by users and the highly frequent update on micro-blogs,users often face the problem of information ove
3、rload and miss out the content they are interested in.The recommendation system,which recommends items(such as products,web pages,micro-blogs,etc.)to users based on their interests,is an effective solution to this problem.The paper introduces a micro-blog recommendation algorithm based on the tensor
4、 factorization technology to predict the users interest degree on certain micro-blog.The experimental results on real dataset show that the proposed model achieves desirable performance in characterizing the users interest and the preprocessing of data on micro-blog.Finally,the paper presents the ex
5、perimental results which show that the method significantly outperforms the baseline method.Keywords:micro-blog recommendation;matrix factorization;tensor factorization1 引言(Introduction)目前,一些微博推薦算法在發(fā)掘用戶在社交媒體中的興趣和行為中表現(xiàn)出了一定的優(yōu)越性,例如基于內(nèi)容的推薦算法,但是目前大多數(shù)方法都通過內(nèi)容等顯性因素來預(yù)測用戶的興趣度而沒有考慮一些內(nèi)在的隱性因素。然而社交網(wǎng)絡(luò)中的信息是豐富且復(fù)雜的,只
6、通過一些顯性因素來預(yù)測用戶興趣度是不夠的。因子分解模型最初被用于推薦系統(tǒng)中來對用戶感興趣的商品進(jìn)行推薦1。為了更好地對用戶行為建模,一些研究使用隱因子模型對用戶的興趣度進(jìn)行預(yù)測,而這些無法直接獲取的隱性因素是影響用戶興趣度的主要因素。這些方法使用矩陣分解算法分別考慮用戶和微博主題,用戶和微博發(fā)布者之間的社會關(guān)系,以及微博發(fā)布者與微博主題之間的隱性因素,通過兩兩之間關(guān)系來預(yù)測用戶對微博的興趣度。然而,同樣內(nèi)容的微博被不同的發(fā)布者發(fā)布的話,用戶的興趣度是不同的,因此我們應(yīng)綜合考慮用戶與微博,以及微博發(fā)布者它們之間的隱性因素共同對微博興趣度的影響。張量是對向量和矩陣的擴(kuò)展2,因此它可以表示多元數(shù)據(jù),
7、已有的矩陣分解方法丟失了用戶與微博,以及微博發(fā)布者三者之間在三維空間上對用戶興趣度的影響而張量分解模型很好地解決推薦系統(tǒng)中存在的多元影響因素3。而現(xiàn)實(shí)生活中的數(shù)據(jù)一般都具有多元特征,相對復(fù)雜,因此張量模型很好地模擬了推薦系統(tǒng)中數(shù)據(jù)的多元影響關(guān)系。2 微博排序優(yōu)化準(zhǔn)則(Optimizing ranking criterionfor weibo recommendation)3 基于張量的分解模型(Tensor factorization model)本文需要同時考慮用戶、微博、微博發(fā)布者這三個因素來預(yù)測用戶對微博的興趣度,即將二維矩陣拓展為三維張量來表示影響興趣度的隱性因素,也就是分解用戶微博發(fā)
8、布者張量來預(yù)測用戶對微博的喜好度。為了和大多數(shù)的基于矩陣分解的推薦系統(tǒng)中的方法對比,我們可以將三維張量理解為在傳統(tǒng)二維矩陣的基礎(chǔ)上增加一個維度,即一種典型的張量分解方法Tucker分解,該分解模型產(chǎn)生的類似于SVD的左右奇異矩陣子結(jié)構(gòu)方便與已有算法SVD進(jìn)行實(shí)驗(yàn)結(jié)果對比5,6。Tucker分解把原張量分解為一個核心張量與一系列矩陣的乘積。這里我們以對三維張量的分解為例說明Tucker的具體分解過程,詳見公式(5):4 實(shí)驗(yàn)(Experiment)4.1 數(shù)據(jù)來源本文數(shù)據(jù)來源于新浪微博,使用爬蟲系統(tǒng)根據(jù)本文需求爬取相關(guān)數(shù)據(jù)7。網(wǎng)絡(luò)爬蟲作為一種自動提取網(wǎng)頁信息的計(jì)算機(jī)程序或者自動化腳本8,它是搜索
9、引擎的核心技術(shù)。本文先隨機(jī)選取一個微博用戶以發(fā)射狀不斷爬取該用戶的關(guān)注者的數(shù)據(jù),以及關(guān)注者的關(guān)注者的數(shù)據(jù),然后從這些數(shù)據(jù)中選出1024個微博用戶的主頁信息,但這些用戶的關(guān)注者人數(shù)需超過15。endprint4.2 評價(jià)標(biāo)準(zhǔn)本文通過平均準(zhǔn)確率評估預(yù)測結(jié)果的準(zhǔn)確度。本文推薦模型的結(jié)果是微博的排序,同時微博的排序位置還關(guān)聯(lián)了準(zhǔn)確度使得推薦模型能得到更準(zhǔn)確的評估,即微博成功推薦,如果它的排序越靠前那么平均準(zhǔn)確率就越高。如果系成功推薦的微博個數(shù)為0那么準(zhǔn)確率為0。評估公式見式(16):4.3 實(shí)驗(yàn)結(jié)果為了驗(yàn)證算法的有效性,本文增加其他幾種方法來對比實(shí)驗(yàn)結(jié)果,包括按照時間排序的方法、按相似度排序的方法、矩
10、陣分解模型算法SVD9。張量分解算法(TF)綜合考慮用戶、微博和微博發(fā)布者三者之間的關(guān)系,較SVD更加準(zhǔn)確地評估對用戶興趣度的影響。張量分解算法使用隨機(jī)梯度算法來估計(jì)實(shí)驗(yàn)參數(shù),矩陣分解過程中K值取30準(zhǔn)確率最高。5 結(jié)論(Conclusion)時間排序的推薦方法由于依賴用戶的登錄時間而對登錄時間前后的微博轉(zhuǎn)發(fā)的概率大,因此預(yù)測的準(zhǔn)確度很低。相似度排序的算法只通過關(guān)鍵詞計(jì)算微博表面相似度來預(yù)測而忽略了內(nèi)在的語義。SVD只考慮用戶、微博與微博發(fā)布者兩兩之間的關(guān)系,忽略三者之間的共同作用沒有反映數(shù)據(jù)的真實(shí)信息而準(zhǔn)確度低于TF方法。參考文獻(xiàn)(References)1 Lu J,et al.Recomm
11、ender system application developments:a surveyJ.Decision Support Systems,2015,74:12-32.2Jain P,Oh S.Provable tensor factorization with missing dataC.Advances in Neural Information Processing Systems,2014:1431-1439.3 Ding G,Guo Y,Zhou J.Collective matrix factorization hashing for multimodal dataC.Pro
12、ceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:2075-2082.4 冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術(shù)綜述J.模式識別與人工智能,2014,27(8):720-734.5 Rendle S.Factorization machinesA.The IEEE International Conference on Data Mining.Sydney:2010:995-1000.6 Cao Y.,et al.Adapting ranking SVM to document retrievalC.The 29th Annual I
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)品數(shù)據(jù)分析簡歷模板
- 科學(xué)有趣的指紋課件
- 初二主題班會教育課件
- flash開發(fā)簡歷模板
- 編制說明《裝配式夾心保溫外墻板用不銹鋼連接件》團(tuán)體標(biāo)準(zhǔn)
- 寫作分享幸福的初三作文
- 金葉復(fù)葉槭育苗技術(shù)規(guī)程DB41-T 1002-2014
- 2024年燈具配附件:觸點(diǎn)項(xiàng)目發(fā)展計(jì)劃
- 專題4 百分?jǐn)?shù)、小數(shù)、分?jǐn)?shù)互化及四則混合運(yùn)算-2023-2024學(xué)年六年級上冊數(shù)學(xué)計(jì)算大通關(guān)(北師大版)
- 2024年鋰電池玻璃纖維隔膜項(xiàng)目發(fā)展計(jì)劃
- 習(xí)作:“漫畫”老師說課稿-語文五年級上冊(部編版)
- 產(chǎn)教融合 校企合作規(guī)劃方案
- 2024年電力交易員(中級工)職業(yè)鑒定理論考試題庫-下(多選、判斷題)
- GB/T 44253-2024巡檢機(jī)器人安全要求
- 中藥復(fù)方治療阿爾茨海默癥的研究進(jìn)展
- 《食品添加劑應(yīng)用技術(shù)》第二版 課件 任務(wù)4.6 酶制劑的使用
- 2023年國家綜合性消防救援隊(duì)伍招錄消防員考試真題
- 初中英語-WillpeoplehaverobotsSectionB閱讀課教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 榆橫礦區(qū)南區(qū)海測灘煤礦(500 萬噸-年)項(xiàng)目環(huán)境影響報(bào)告書
- 研學(xué)旅行親子活動方案設(shè)計(jì)
- 保密保證措施及承諾
評論
0/150
提交評論