基于內(nèi)容推薦的資訊推薦系統(tǒng)的設計與實現(xiàn)_第1頁
基于內(nèi)容推薦的資訊推薦系統(tǒng)的設計與實現(xiàn)_第2頁
基于內(nèi)容推薦的資訊推薦系統(tǒng)的設計與實現(xiàn)_第3頁
基于內(nèi)容推薦的資訊推薦系統(tǒng)的設計與實現(xiàn)_第4頁
基于內(nèi)容推薦的資訊推薦系統(tǒng)的設計與實現(xiàn)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 基于內(nèi)容推薦的資訊推薦系統(tǒng)的設計與實現(xiàn) 陳學輝 陳少鎮(zhèn) 王培彬 藍汝琪 熊梓韜Summary:它的設計基于內(nèi)容推薦系統(tǒng),聯(lián)合內(nèi)容的推薦算法技術解析用戶大批的行為數(shù)據(jù),在個性化推薦系統(tǒng)中將新的資訊、有意思領域的資訊推薦給用戶并通過頁面進行個性化展示,以及把用戶關注領域的最新進展資訊、有價值的信息或者可能喜歡的資訊推薦給用戶。按照設計思路實現(xiàn)的實例它能在文章數(shù)量充足的數(shù)據(jù)庫當中根據(jù)用戶自定義的標簽或者閱讀過的文章推薦類似的資訊給用戶,并展示在系統(tǒng)的推薦頁面。達到了提高信息傳播的價值、準確率和降低信息傳播的偶然性的效果。Key:個性化推薦系統(tǒng);行為數(shù)據(jù);余弦相似度;興趣偏好點;標簽:TP311 :

2、A:1009-3044(2019)09-0014-03Abstract: Its design is based on the content recommendation system, combined with the content recommendation algorithm technology to analyze a large number of user behavior data, in the personalized recommendation system to recommend new information, interesting areas of i

3、nformation about the user and personalized display through the page, and the user The latest progress information, valuable information or information you may like in the area of interest is recommended to the user. According to the design idea, it can recommend similar information about users in th

4、e database with sufficient number of articles based on user-defined tags or read articles, and display them in the system recommendation page. It has achieved the effect of improving the value, accuracy and reducing the contingency of information dissemination.Key words: personalized recommendation

5、system; behavioral data; cosine similarity; interest preference point; label1 概述隨著移動互聯(lián)網(wǎng)的蓬勃發(fā)展,用戶對信息的需求在大規(guī)模的信息量中得到滿足,但由于信息量的大幅增長,用戶未能在自身偏好點或者真正需要的信息中得到滿足,從而降低了信息傳播的價值和傳播效率。就目前來說基于內(nèi)容的推薦是最符合解決這類似問題的方式,它根據(jù)用戶的標記、收藏、需求、興趣、瀏覽記錄等行為數(shù)據(jù),作為用戶偏好點的根據(jù),并聯(lián)合算法進行個性化計算分析,得出用戶的行為偏好點,將符合用戶偏好點的信息形成個性化推薦系統(tǒng)推薦信息給用戶。個性化推薦系統(tǒng)區(qū)別于

6、傳統(tǒng)信息推薦系統(tǒng)。傳統(tǒng)的做法是基于用戶對信息有明確的需求查詢,例如各種搜索引擎,根據(jù)目的搜索快速的獲得信息,這是它的優(yōu)點也是它的缺點,它要求用戶必須提供明確的需求信息,因此不能滿足用戶對信息多樣性的需求。前者根據(jù)后者的不足,對推薦系統(tǒng)進行了個性化推薦的設計,改進了傳統(tǒng)信息推薦系統(tǒng)對目的搜索獲得需求的依賴。2 基于內(nèi)容推薦算法的推薦系統(tǒng)2.1 主要解決的兩個問題2.1.1個性化資訊推薦系統(tǒng)如何獲取用戶喜歡資訊類型就目前來說,最主流的做法主要分為以下3種:1)機器學習模型。由于數(shù)據(jù)存在變動性,它需要持續(xù)的調(diào)整和調(diào)優(yōu)模型參數(shù)和超參數(shù)的學習更新過程,將過程循環(huán)迭代獲得最有效的評估模型。再通過驗證和離線

7、評估,參考評估指標在一個或多個評估模型中獲得較為符合的模型。2)產(chǎn)品數(shù)據(jù)。實質上機器學習模型的檢測都需要產(chǎn)品數(shù)據(jù)的參與。它可以通過分析一系列的數(shù)據(jù),而不是僅限于單一的分類模型。持續(xù)變更的用戶歷史數(shù)據(jù),提取歷史行為記錄里能代表資訊內(nèi)容的Key(標題的Key更為明確),比如“經(jīng)濟”“裁員”“演唱會”等,并統(tǒng)計Key出現(xiàn)的次數(shù)計算Key的權重或者統(tǒng)計資訊所屬的領域在哪方面,比如“政治”“娛樂”“體育”等,獲取用戶瀏覽最多的領域。3)用戶調(diào)查。內(nèi)容的分布變動性和眼球效應(產(chǎn)品數(shù)據(jù)顯性而被動的局限性)會對內(nèi)容的推薦質量產(chǎn)生長久的影響。它可以把評定需要的指標納入KPI考核中,但要明確的是不能單憑單一的KP

8、I來評定最終的資訊內(nèi)容質量。2.1.2資訊內(nèi)容相似度計算結合以上關于產(chǎn)品數(shù)據(jù)的解析不難想到,可以提取兩個資訊內(nèi)容的Key,對比它們的Key是否相同來評定兩個資訊存在的相似性。但是考慮到不同資訊內(nèi)容它表達的語態(tài)、語法等還有一篇資訊可以有好幾個Key,很難做到文章中所有的Key都匹配準確。所以在內(nèi)容相似度計算的設計中需要基于兩篇資訊的Key進行匹配度的合理量化。3 資訊推薦系統(tǒng)的設計與實現(xiàn)設計的系統(tǒng)需要在用戶自定義的標簽和歷史閱讀資訊中收集數(shù)據(jù),通過分析用戶的行為數(shù)據(jù)和資訊的文本內(nèi)容,提取出能代表用戶和文章的Key,如圖1:它把用戶自定義的標簽和資訊內(nèi)容出現(xiàn)的Key作為屬性,再把用戶的行為數(shù)據(jù)和資

9、訊內(nèi)容分解成向量的形似,如圖2:這樣它就把文本數(shù)據(jù)轉變?yōu)橄蛄?,然后利用余弦相似度計算向量的距離(如下公式),得出用戶偏好點和資訊的相似度。相對應公式轉換為如下代碼實現(xiàn)余弦相似度計算方法(D表示資訊詞集、wij表示第i篇資訊中的第j個詞):這種計算過程雖說簡單,從圖1和圖2的Key來看,如果資訊里同時有體育、足球、中超Key,顯然直接匹配Key“中超”比匹配Key“體育”和“足球”準確,這就很有必要獲得Key的權重了,它可以通過如下公式計算資訊中每個Key所占據(jù)的權重,精確相似度。sim(user,text) = 資訊內(nèi)容相似度(user, text) * 權重不過,它還需要考慮到以上Key匹配

10、方法的局限性。以足球球迷用戶為例,如果用戶的偏好點是足球,而資訊內(nèi)容的Key是中超聯(lián)賽、英超聯(lián)賽和西甲聯(lián)賽等,Key間顯然無法得到關聯(lián)。所以需要在原來Key匹配的基礎上,結合聚類(Key聚類)與用戶進行相似度計算。先把資訊的Key聚類到一個主題中,例如中超聯(lián)賽、英超連死啊和西甲聯(lián)賽等聚類到“足球”的主題中,還有各類籃球聯(lián)賽等也同樣聚類到“籃球”的主題中,再把各主題的內(nèi)容與用戶的Key進行相似度計算。這種方法的實現(xiàn)如圖5中的代碼設計(zij表示第i篇資訊中第j個詞屬于的話題):基于以上方法簡單的實驗,它設定“我的標簽”中包含“足球”Key,獲取用戶在 “新聞中心”的行為數(shù)據(jù)作為數(shù)據(jù)集,再基于以上

11、余弦相似度計算方法獲得推薦資訊,并把資訊標題展現(xiàn)在“猜你喜歡”頁面。進入實驗測試系統(tǒng)后,在“我的標簽”頁面設置用戶的各種偏好點,然后返回“新聞中心”瀏覽由資訊庫提供的各類資訊。在這過程中,自動收集用戶在系統(tǒng)的各種歷史行為數(shù)據(jù),進行上述設計實驗的過程。當用戶進入“猜你喜歡”頁面時,能夠獲得系統(tǒng)個性化推薦的資訊,點擊標題方可進入閱讀資訊,測試只顯示少量資訊。實驗發(fā)現(xiàn),當用戶在“新聞中心”的資訊閱讀量越多時,系統(tǒng)推薦的資訊內(nèi)容更準確。4 結論基于內(nèi)容推薦算法的個性化推薦系統(tǒng)可以把資訊庫最新的資訊個性化推薦給用戶,而且新資訊被推薦的概率與舊資訊同等。它只需要依據(jù)每個用戶本身的Key獲得推薦資訊,而不需

12、要用戶明確的需求和其他用戶的關聯(lián),所以它解決了傳統(tǒng)推薦系統(tǒng)對目的搜索的依賴和推薦系統(tǒng)的冷啟動問題。它可以運用到各種新聞、讀書、在線商城等網(wǎng)站和軟件,還可以運用到跟資訊推薦有關的平臺建設當中。但是,對于文本分詞獲得詞流,再從詞流中抽取Key還是很難的,它很難精確的檢測到描述資訊的特征,再者就是過于執(zhí)著根據(jù)Key推薦,從而失去了資訊推薦內(nèi)容的多樣性,還需要在實際的開發(fā)當中對它繼續(xù)改進。Reference:1 項亮.推薦系統(tǒng)實戰(zhàn)M.北京:人民郵電出版社, 2012:11-97.2 張培穎.基于Web內(nèi)容和日志挖掘的個性化網(wǎng)頁推薦系統(tǒng)J.計算機系統(tǒng)應用,2008(9).3 吾佳芬.基于內(nèi)容的互聯(lián)網(wǎng)推薦算法J.科教導刊,2016(12).4 王博.新聞內(nèi)容推薦算法研究J.信息與電腦,2016(6).5 喜晶.個性化推薦技術的分析和比較J.電腦編程技巧與維護,2016(22).6 王嶸冰,安維凱,馮勇,等.基于標簽

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論