基于隱語義模型的智能推薦算法設(shè)計_第1頁
基于隱語義模型的智能推薦算法設(shè)計_第2頁
基于隱語義模型的智能推薦算法設(shè)計_第3頁
基于隱語義模型的智能推薦算法設(shè)計_第4頁
基于隱語義模型的智能推薦算法設(shè)計_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于隱語義模型的智能推薦算法設(shè)計”。摘 要 分析和研究如何根據(jù)用戶偏好做到“智能推薦”。以向用戶智能推薦圖書為例,基于人工智能和機器學(xué) 習(xí)的思想,利用隱語模型對用戶進(jìn)行大數(shù)據(jù)分析,實現(xiàn)對用 戶的精準(zhǔn)化智能推薦。關(guān)鍵詞 智能推薦系統(tǒng);隱語義模型;人工智能;機器 學(xué)習(xí)中圖分類TP3 文獻(xiàn)標(biāo)識碼 A 文章編號 1674-67082018)214-0124-03在現(xiàn)代這個信息高速流通的時代,用戶每天都會產(chǎn)生海 量的數(shù)據(jù),而根據(jù)大數(shù)據(jù)進(jìn)行分析用戶的偏好從而實現(xiàn)針對 每個用戶的精準(zhǔn)化推薦也成為各個公司關(guān)注的焦點。而能夠 實現(xiàn)這個目的的算法已經(jīng)成為公司的核心競爭力,如小紅 傘、今日頭條、 網(wǎng)易云音樂等 Ap

2、p 就憑借其出色的算法實現(xiàn) 了精準(zhǔn)營銷在同類市場競爭中占據(jù)了優(yōu)勢。自 90 年代以來,學(xué)界涌現(xiàn)了大量的推薦算法模型,代 表性的如協(xié)同過濾算法。但由于數(shù)據(jù)量越來越龐大,協(xié)同過 濾算法由于結(jié)構(gòu)上的缺陷已經(jīng)無法高效處理,基于此本文采用改進(jìn)后的隱語義模型來實現(xiàn)高效準(zhǔn)確的智能推薦??偟膩碚f,根據(jù)大數(shù)據(jù)超高維、 關(guān)系復(fù)雜等特點,需開展以下研究:1)謀求大數(shù)據(jù)超高維、高稀疏知識發(fā)掘:鉆研機器學(xué)習(xí)方法理論,構(gòu)建特定數(shù)據(jù)挖掘算法。 2)研究復(fù)雜算法編程,將挖掘算法編程模型與分布式處理相統(tǒng)一。3)在已有并行計算平臺上,構(gòu)建成分布式并行化機器學(xué)習(xí)、實現(xiàn)復(fù)雜度低、并行性高的發(fā)掘算法(何清、李寧、羅文娟、史忠植大數(shù)據(jù)下

3、的機器學(xué)習(xí)算法綜述)。1 隱語義模型 隱語義模型 LFM 屬于隱含語義分析技術(shù),其本質(zhì)在于通過數(shù)據(jù)分析找出潛在的主題或分類。文本挖掘領(lǐng)域首先采 用該技術(shù)進(jìn)行分析,近些年它們開始被應(yīng)用到其他領(lǐng)域中, 并取得了不錯的效果。隱語義模型的假設(shè)前提每個用戶都有各自不同的偏好,以書籍為例,一個用戶可能對歷史類、戰(zhàn)爭類、科技類的書 籍有特殊偏好,而這些偏好可以被抽象為一個個隱變量。每本書在每一個隱變量上的權(quán)重綜合構(gòu)成了用戶對這本書 的偏好程度。由此,產(chǎn)生了 3 個問題:第一,如何確定用戶隱變量的個數(shù);第二,如何求出每個用戶在每個隱變量的偏好程度; 第三,如何確定每本書在每個隱變量上的權(quán)重。隱語義模型的核心內(nèi)

4、容是隨機梯度下降( SGD ),而這也是解決上述 3 個問題的關(guān)鍵。具體可分為以下步驟:步驟一:矩陣分解矩陣分解算法基于數(shù)學(xué)上的矩陣的行列變換。在線性代數(shù)中,矩陣 A 進(jìn)行行變換相當(dāng)于 A 左乘一個矩陣,矩陣 A 進(jìn)行列變換等價于矩陣 A 右乘一個矩陣,因此矩陣 A 可以表示為A=PEQ=PQ ( E是標(biāo) 準(zhǔn)陣)。矩陣分解目標(biāo)就是把用戶對書籍的評分矩陣R 分解成用戶對隱變量評分矩陣和書籍在隱變量上權(quán)重矩陣的乘積。首先假設(shè),用戶對書籍的真實評分和預(yù)測評分之間的差服從高斯分布,基于這一假設(shè),可推導(dǎo)出目標(biāo)函數(shù)。最后得到矩陣分解的目標(biāo)函數(shù)如下: 步驟二:隨機梯度下降 從最終得到的目標(biāo)函數(shù)可以直觀地理解

5、,預(yù)測的分值就是盡量逼近真實的已知評分值。有了目標(biāo)函數(shù)之后,下面就 開始介紹優(yōu)化方法:隨機梯度下降法( stochastic gradient descent)。隨機梯度下降算法是被廣泛應(yīng)用的一個算法,其主要思想是分別對用戶 -隱變量矩陣和書籍 -隱變量矩陣求偏導(dǎo),確 定梯度下降方向,讓變量沿著目標(biāo)函數(shù)負(fù)梯度的方向移動, 最終到達(dá)極小值點。求導(dǎo)公式如下:梯度下降法具體分為以下幾個步驟: 1)確定目標(biāo)函數(shù) y=f(x); 2)對待優(yōu)化的指標(biāo)進(jìn)行求導(dǎo),確定每次迭代的搜索方向,見公式( 2);3)?_定一個學(xué)習(xí)率a作為每次搜索尋優(yōu)的 步長;4)不斷進(jìn)行迭代優(yōu)化; 5)滿足迭代終止條件,最終使得待優(yōu)化

6、的指標(biāo)迭代至目標(biāo)值附近;6)對通過上面的分析,可以獲取梯度下降算法的因子矩陣更新公式,具體如下。公式( 3)中的Y指的是步長,也即是學(xué)習(xí)速率,它是個需要調(diào)參確定的參數(shù)。對目標(biāo)函數(shù)進(jìn)行優(yōu)化,學(xué)習(xí)率 的選擇極其重要。 若取值較大, 即梯度下降迭代的步長較大, 可以快速迭代至最優(yōu)解附近,但是可能一直在最優(yōu)解附近徘 徊,無法計算出最優(yōu)解, 于特殊的函數(shù)也可能會導(dǎo)致不收斂, 始終發(fā)散求不出解;若取值較小,即梯度下降迭代的步長較 小,下降速度較慢,其迭代出的解精度較高,但會耗費很長 時間,這將不利于實際 應(yīng)用。接下來的部分便主要介紹參數(shù) a和Y的調(diào)整過程。2 推薦算法調(diào)參 2.1 實驗方案與結(jié)果分析 智能

7、推薦系統(tǒng)建立的關(guān)鍵是求解過程中參數(shù)的調(diào)節(jié)。本次實驗的算法中主要運用到了隨機梯度下降求解誤差項達(dá) 到了最優(yōu)值的方法。該方法通過不斷迭代使目標(biāo)誤差函數(shù)達(dá) 到最小值。 這次實驗使用用戶 -電影訓(xùn)練集, 測試集和驗證集 來檢測算法效力。用戶 -電影測試集中有 671 個用戶對 9126部電影的打分,有 10 萬條的數(shù)據(jù)。實驗主要是對隱語義模型的參數(shù)進(jìn)行調(diào)節(jié)。需要調(diào)節(jié)的參數(shù)包括學(xué)習(xí)速率a、隱變量個數(shù)F、迭代次數(shù)N以及正則 化參數(shù)。2.2 調(diào)節(jié)的過程 步驟一:設(shè)置學(xué)習(xí)速率 學(xué)習(xí)速率確定了學(xué)習(xí)速度的快慢。圖 1 是梯度下降三維立體示意圖。從圖中可以看到迭代之前的初始點位于紅色半 坡位置,在運用 SGD 的基

8、礎(chǔ)上,算法會隨機選擇下一步迭代的方向,即圖中的兩條路線。學(xué)習(xí)速率可以用線路上兩個字星點的間距表示。損失值可以用一條如圖 2 所示的類二次函數(shù)的曲線來表示。當(dāng)學(xué)習(xí)速率設(shè)置的過大時,就?導(dǎo)致從點 1 直接越過谷底即最優(yōu)解跳躍到點2,如此循環(huán)往復(fù),最終無法得到最優(yōu)解,如圖3n =2.5顯示出的cost樣;當(dāng)學(xué)習(xí)速率設(shè)置的過小時,就會在點 1到點 3 的過程 出現(xiàn)無數(shù)個間距無限小的點,在這種情況下,雖然能確保不 會損失最優(yōu)解,但迭代次數(shù)以及耗時也將會大大的增加,從 而使得推薦算法耗時過長。我們需要在迭代的不同階段調(diào)整所使用的學(xué)習(xí)速率。前期迭代時運用一個大的學(xué)習(xí)速率能快速地?fù)襁x出下降方向,在接近最優(yōu)解時

9、則使用一個小的學(xué)習(xí)速率使算法能精確得到最優(yōu)解。所以,在算法中需要介入逐漸衰減的a,定義為每進(jìn)行一次迭代就減少 0.02,即乘上系數(shù) 0.98。運用這種形 式的學(xué)習(xí)速率的設(shè)置能更好地引導(dǎo) SGD 快速而又有效地達(dá) 到最優(yōu)解。步驟二:確定迭代次數(shù) 確定了學(xué)習(xí)速率的設(shè)置后,我們需要確定與之相關(guān)的參數(shù),即迭代次數(shù)。迭代次數(shù)決定了學(xué)習(xí)速率發(fā)揮的程度,次 數(shù)不夠就會導(dǎo)致沒有達(dá)到最優(yōu)值便結(jié)束迭代,即欠擬合,反 之次數(shù)過大就會造成時間上的巨大損失以及出現(xiàn)過擬合。前 者可以使用網(wǎng)格搜索法,輸入學(xué)習(xí)速率通過均值和標(biāo)準(zhǔn)差得 出較好的迭代次數(shù)。后者除了可以用網(wǎng)格搜索法之外,還可 以通過設(shè)置一個提前結(jié)束的條件,提前結(jié)束

10、迭代。但仍需加正則化系數(shù)使其避免出現(xiàn)過擬合的情況。在本次試驗中, lamda 即為用來避免過擬合的正則化系數(shù)。步驟三:確定隱變量 最后一個待確定的變量為隱變量個數(shù)。隱變量的關(guān)鍵在于不用去定義元素,在運算過程中重要的是定義隱變量的數(shù) 量,通過設(shè)置分類數(shù)就可以控制粒度,分類數(shù)越大則粒度越 細(xì)。在實際運算過程中,設(shè)置過大的元素分類數(shù)會影響算法 的準(zhǔn)確性,基于學(xué)習(xí)速率,迭代次數(shù)和正則化系數(shù)調(diào)整好的 情況,有時反而會適得其反地造成最終的得分的趨同。由于 隱變量可查閱資料較少,根據(jù)實驗中不斷的測試優(yōu)化,最后 把隱變量確定在 10。綜上,確定了各參數(shù)即學(xué)習(xí)速率為 0.25,衰減速率為0.02,迭代次數(shù)為10

11、000,lamda等于2以及隱變量為10,在這種情況下能較好地取到最 優(yōu)解。3 結(jié)論 智能推薦是根據(jù)用戶的信息數(shù)據(jù)、愛好標(biāo)簽等,將用戶感興趣的信息、產(chǎn)品等推薦給用戶的個性化信息推薦系統(tǒng)。和搜索引擎相比推薦系統(tǒng)通過研究用戶的興趣偏好,進(jìn)行數(shù) 據(jù)分析, 發(fā)現(xiàn)用戶的興趣點, 從而引導(dǎo)用戶發(fā)現(xiàn)自己的需求。個好的推薦系統(tǒng)不僅能為用戶提供個性化的服務(wù),還能讓 用戶對推薦系統(tǒng)產(chǎn)生依賴,從而增進(jìn)用戶粘性。使用智能推 薦還可以達(dá)到精準(zhǔn)營銷, 節(jié)省企業(yè)大量時間和資源。 在未來,個高效準(zhǔn)確的推薦系統(tǒng)必然會成為企業(yè)戰(zhàn)勝對手的利器。參考文獻(xiàn)1 李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述J.中國科學(xué):信息科學(xué), 2015, 45( 1 ): 1 -44.2 劉建國,周濤,汪秉宏 .個性化推薦系統(tǒng)的研究進(jìn)展 J.自然科學(xué)進(jìn)展, 2009, 19( 1 ): 1-15.3 張亮.基于機器學(xué)習(xí)的信息過濾和信息檢索的模型和算法研究 D. 天津大學(xué), 2007.4 何清, 李寧, 羅文娟, 等.大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述J.模式識別與人工智能,2014, 27 (4): 327-3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論