基于隱語義模型的智能推薦算法設(shè)計

上傳人：y*** IP屬地：天津上傳時間：2021-06-03 格式：DOCX 頁數(shù)：7 大?。?5.70KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于隱語義模型的智能推薦算法設(shè)計”。摘要分析和研究如何根據(jù)用戶偏好做到“智能推薦”。以向用戶智能推薦圖書為例，基于人工智能和機器學(xué) 習(xí)的思想，利用隱語模型對用戶進(jìn)行大數(shù)據(jù)分析，實現(xiàn)對用戶的精準(zhǔn)化智能推薦。關(guān)鍵詞智能推薦系統(tǒng)；隱語義模型；人工智能；機器學(xué)習(xí)中圖分類TP3 文獻(xiàn)標(biāo)識碼 A 文章編號 1674-67082018)214-0124-03在現(xiàn)代這個信息高速流通的時代，用戶每天都會產(chǎn)生海量的數(shù)據(jù)，而根據(jù)大數(shù)據(jù)進(jìn)行分析用戶的偏好從而實現(xiàn)針對每個用戶的精準(zhǔn)化推薦也成為各個公司關(guān)注的焦點。而能夠實現(xiàn)這個目的的算法已經(jīng)成為公司的核心競爭力，如小紅傘、今日頭條、網(wǎng)易云音樂等 Ap

2、p 就憑借其出色的算法實現(xiàn) 了精準(zhǔn)營銷在同類市場競爭中占據(jù)了優(yōu)勢。自 90 年代以來，學(xué)界涌現(xiàn)了大量的推薦算法模型，代表性的如協(xié)同過濾算法。但由于數(shù)據(jù)量越來越龐大，協(xié)同過濾算法由于結(jié)構(gòu)上的缺陷已經(jīng)無法高效處理，基于此本文采用改進(jìn)后的隱語義模型來實現(xiàn)高效準(zhǔn)確的智能推薦?？偟膩碚f，根據(jù)大數(shù)據(jù)超高維、關(guān)系復(fù)雜等特點，需開展以下研究：1）謀求大數(shù)據(jù)超高維、高稀疏知識發(fā)掘：鉆研機器學(xué)習(xí)方法理論，構(gòu)建特定數(shù)據(jù)挖掘算法。 2）研究復(fù)雜算法編程，將挖掘算法編程模型與分布式處理相統(tǒng)一。3）在已有并行計算平臺上，構(gòu)建成分布式并行化機器學(xué)習(xí)、實現(xiàn)復(fù)雜度低、并行性高的發(fā)掘算法（何清、李寧、羅文娟、史忠植大數(shù)據(jù)下

3、的機器學(xué)習(xí)算法綜述）。1 隱語義模型隱語義模型 LFM 屬于隱含語義分析技術(shù)，其本質(zhì)在于通過數(shù)據(jù)分析找出潛在的主題或分類。文本挖掘領(lǐng)域首先采用該技術(shù)進(jìn)行分析，近些年它們開始被應(yīng)用到其他領(lǐng)域中，并取得了不錯的效果。隱語義模型的假設(shè)前提每個用戶都有各自不同的偏好，以書籍為例，一個用戶可能對歷史類、戰(zhàn)爭類、科技類的書籍有特殊偏好，而這些偏好可以被抽象為一個個隱變量。每本書在每一個隱變量上的權(quán)重綜合構(gòu)成了用戶對這本書的偏好程度。由此，產(chǎn)生了 3 個問題：第一，如何確定用戶隱變量的個數(shù)；第二，如何求出每個用戶在每個隱變量的偏好程度；第三，如何確定每本書在每個隱變量上的權(quán)重。隱語義模型的核心內(nèi)

4、容是隨機梯度下降（ SGD ），而這也是解決上述 3 個問題的關(guān)鍵。具體可分為以下步驟：步驟一：矩陣分解矩陣分解算法基于數(shù)學(xué)上的矩陣的行列變換。在線性代數(shù)中，矩陣 A 進(jìn)行行變換相當(dāng)于 A 左乘一個矩陣，矩陣 A 進(jìn)行列變換等價于矩陣 A 右乘一個矩陣，因此矩陣 A 可以表示為A=PEQ=PQ （ E是標(biāo) 準(zhǔn)陣）。矩陣分解目標(biāo)就是把用戶對書籍的評分矩陣R 分解成用戶對隱變量評分矩陣和書籍在隱變量上權(quán)重矩陣的乘積。首先假設(shè)，用戶對書籍的真實評分和預(yù)測評分之間的差服從高斯分布，基于這一假設(shè)，可推導(dǎo)出目標(biāo)函數(shù)。最后得到矩陣分解的目標(biāo)函數(shù)如下：步驟二：隨機梯度下降從最終得到的目標(biāo)函數(shù)可以直觀地理解

5、，預(yù)測的分值就是盡量逼近真實的已知評分值。有了目標(biāo)函數(shù)之后，下面就開始介紹優(yōu)化方法：隨機梯度下降法（ stochastic gradient descent）。隨機梯度下降算法是被廣泛應(yīng)用的一個算法，其主要思想是分別對用戶 -隱變量矩陣和書籍 -隱變量矩陣求偏導(dǎo)，確定梯度下降方向，讓變量沿著目標(biāo)函數(shù)負(fù)梯度的方向移動，最終到達(dá)極小值點。求導(dǎo)公式如下：梯度下降法具體分為以下幾個步驟： 1）確定目標(biāo)函數(shù) y=f（x）； 2）對待優(yōu)化的指標(biāo)進(jìn)行求導(dǎo)，確定每次迭代的搜索方向，見公式（ 2）；3）?_定一個學(xué)習(xí)率a作為每次搜索尋優(yōu)的步長;4）不斷進(jìn)行迭代優(yōu)化； 5）滿足迭代終止條件，最終使得待優(yōu)化

6、的指標(biāo)迭代至目標(biāo)值附近；6）對通過上面的分析，可以獲取梯度下降算法的因子矩陣更新公式，具體如下。公式（ 3）中的Y指的是步長，也即是學(xué)習(xí)速率，它是個需要調(diào)參確定的參數(shù)。對目標(biāo)函數(shù)進(jìn)行優(yōu)化，學(xué)習(xí)率的選擇極其重要。若取值較大，即梯度下降迭代的步長較大，可以快速迭代至最優(yōu)解附近，但是可能一直在最優(yōu)解附近徘徊，無法計算出最優(yōu)解，于特殊的函數(shù)也可能會導(dǎo)致不收斂，始終發(fā)散求不出解；若取值較小，即梯度下降迭代的步長較小，下降速度較慢，其迭代出的解精度較高，但會耗費很長時間，這將不利于實際應(yīng)用。接下來的部分便主要介紹參數(shù) a和Y的調(diào)整過程。2 推薦算法調(diào)參 2.1 實驗方案與結(jié)果分析智能

7、推薦系統(tǒng)建立的關(guān)鍵是求解過程中參數(shù)的調(diào)節(jié)。本次實驗的算法中主要運用到了隨機梯度下降求解誤差項達(dá) 到了最優(yōu)值的方法。該方法通過不斷迭代使目標(biāo)誤差函數(shù)達(dá) 到最小值。這次實驗使用用戶 -電影訓(xùn)練集，測試集和驗證集來檢測算法效力。用戶 -電影測試集中有 671 個用戶對 9126部電影的打分，有 10 萬條的數(shù)據(jù)。實驗主要是對隱語義模型的參數(shù)進(jìn)行調(diào)節(jié)。需要調(diào)節(jié)的參數(shù)包括學(xué)習(xí)速率a、隱變量個數(shù)F、迭代次數(shù)N以及正則化參數(shù)。2.2 調(diào)節(jié)的過程步驟一：設(shè)置學(xué)習(xí)速率學(xué)習(xí)速率確定了學(xué)習(xí)速度的快慢。圖 1 是梯度下降三維立體示意圖。從圖中可以看到迭代之前的初始點位于紅色半坡位置，在運用 SGD 的基

8、礎(chǔ)上，算法會隨機選擇下一步迭代的方向，即圖中的兩條路線。學(xué)習(xí)速率可以用線路上兩個字星點的間距表示。損失值可以用一條如圖 2 所示的類二次函數(shù)的曲線來表示。當(dāng)學(xué)習(xí)速率設(shè)置的過大時，就?導(dǎo)致從點 1 直接越過谷底即最優(yōu)解跳躍到點2，如此循環(huán)往復(fù)，最終無法得到最優(yōu)解，如圖3n =2.5顯示出的cost樣；當(dāng)學(xué)習(xí)速率設(shè)置的過小時，就會在點 1到點 3 的過程出現(xiàn)無數(shù)個間距無限小的點，在這種情況下，雖然能確保不會損失最優(yōu)解，但迭代次數(shù)以及耗時也將會大大的增加，從而使得推薦算法耗時過長。我們需要在迭代的不同階段調(diào)整所使用的學(xué)習(xí)速率。前期迭代時運用一個大的學(xué)習(xí)速率能快速地?fù)襁x出下降方向，在接近最優(yōu)解時

9、則使用一個小的學(xué)習(xí)速率使算法能精確得到最優(yōu)解。所以，在算法中需要介入逐漸衰減的a，定義為每進(jìn)行一次迭代就減少 0.02，即乘上系數(shù) 0.98。運用這種形式的學(xué)習(xí)速率的設(shè)置能更好地引導(dǎo) SGD 快速而又有效地達(dá) 到最優(yōu)解。步驟二：確定迭代次數(shù) 確定了學(xué)習(xí)速率的設(shè)置后，我們需要確定與之相關(guān)的參數(shù)，即迭代次數(shù)。迭代次數(shù)決定了學(xué)習(xí)速率發(fā)揮的程度，次數(shù)不夠就會導(dǎo)致沒有達(dá)到最優(yōu)值便結(jié)束迭代，即欠擬合，反之次數(shù)過大就會造成時間上的巨大損失以及出現(xiàn)過擬合。前者可以使用網(wǎng)格搜索法，輸入學(xué)習(xí)速率通過均值和標(biāo)準(zhǔn)差得出較好的迭代次數(shù)。后者除了可以用網(wǎng)格搜索法之外，還可以通過設(shè)置一個提前結(jié)束的條件，提前結(jié)束

10、迭代。但仍需加正則化系數(shù)使其避免出現(xiàn)過擬合的情況。在本次試驗中， lamda 即為用來避免過擬合的正則化系數(shù)。步驟三：確定隱變量最后一個待確定的變量為隱變量個數(shù)。隱變量的關(guān)鍵在于不用去定義元素，在運算過程中重要的是定義隱變量的數(shù) 量，通過設(shè)置分類數(shù)就可以控制粒度，分類數(shù)越大則粒度越細(xì)。在實際運算過程中，設(shè)置過大的元素分類數(shù)會影響算法的準(zhǔn)確性，基于學(xué)習(xí)速率，迭代次數(shù)和正則化系數(shù)調(diào)整好的情況，有時反而會適得其反地造成最終的得分的趨同。由于隱變量可查閱資料較少，根據(jù)實驗中不斷的測試優(yōu)化，最后把隱變量確定在 10。綜上，確定了各參數(shù)即學(xué)習(xí)速率為 0.25，衰減速率為0.02,迭代次數(shù)為10

11、000，lamda等于2以及隱變量為10,在這種情況下能較好地取到最優(yōu)解。3 結(jié)論智能推薦是根據(jù)用戶的信息數(shù)據(jù)、愛好標(biāo)簽等，將用戶感興趣的信息、產(chǎn)品等推薦給用戶的個性化信息推薦系統(tǒng)。和搜索引擎相比推薦系統(tǒng)通過研究用戶的興趣偏好，進(jìn)行數(shù) 據(jù)分析，發(fā)現(xiàn)用戶的興趣點，從而引導(dǎo)用戶發(fā)現(xiàn)自己的需求。個好的推薦系統(tǒng)不僅能為用戶提供個性化的服務(wù)，還能讓用戶對推薦系統(tǒng)產(chǎn)生依賴，從而增進(jìn)用戶粘性。使用智能推薦還可以達(dá)到精準(zhǔn)營銷，節(jié)省企業(yè)大量時間和資源。在未來，個高效準(zhǔn)確的推薦系統(tǒng)必然會成為企業(yè)戰(zhàn)勝對手的利器。參考文獻(xiàn)1 李學(xué)龍，龔海剛.大數(shù)據(jù)系統(tǒng)綜述J.中國科學(xué)：信息科學(xué)， 2015， 45（ 1 ）： 1 -44.2 劉建國，周濤，汪秉宏 .個性化推薦系統(tǒng)的研究進(jìn)展 J.自然科學(xué)進(jìn)展， 2009， 19（ 1 ）： 1-15.3 張亮.基于機器學(xué)習(xí)的信息過濾和信息檢索的模型和算法研究 D. 天津大學(xué)， 2007.4 何清，李寧，羅文娟，等.大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述J.模式識別與人工智能，2014, 27 （4）: 327-3

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于隱語義模型的智能推薦算法設(shè)計

文檔簡介

溫馨提示

最新文檔

評論

基于隱語義模型的智能推薦算法設(shè)計

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔