已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)電子商務(wù)個(gè)性化推薦算法設(shè)計(jì)與實(shí)現(xiàn).pdf.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
江蘇大學(xué)碩士學(xué)位論文 摘要 電子商務(wù)系統(tǒng)在為用戶提供越來(lái)越多選擇的同時(shí),商品信息過(guò)載現(xiàn)象越來(lái)越 嚴(yán)峻,其結(jié)構(gòu)也變得日益復(fù)雜,用戶想要從商品海洋里迅速便捷地找到自己真正 需要的商品越來(lái)越困難,于是電子商務(wù)個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生。 推薦算法是推薦系統(tǒng)中最核心的部分,在很大程度上決定了推薦系統(tǒng)性能的 優(yōu)劣。協(xié)同過(guò)濾推薦根據(jù)與用戶興趣愛(ài)好相同或相似的其他用戶的評(píng)價(jià)產(chǎn)生推 薦,個(gè)性化程度高,是目前應(yīng)用最廣泛、最成功的推薦技術(shù),但它在實(shí)際應(yīng)用中 還存在很多缺陷:如預(yù)測(cè)評(píng)分中用戶相似性計(jì)算不準(zhǔn)確,實(shí)時(shí)性差、推薦精度不 高等。 本文針對(duì)推薦系統(tǒng)的實(shí)時(shí)性要求,提出了基于項(xiàng)目簇偏好的用戶聚類算法。 該算法首先基于項(xiàng)目屬性對(duì)項(xiàng)目聚類,得到用戶對(duì)不同項(xiàng)目簇的偏好,然后利用 k m e a n s 聚類算法對(duì)用戶進(jìn)行聚類,將相同或相似興趣的用戶分到同一類中,這 樣可以找到離當(dāng)前用戶最近的幾個(gè)聚類,然后在這幾個(gè)聚類中搜尋最近鄰居,避 免了在整個(gè)用戶群上搜尋,提高了實(shí)時(shí)響應(yīng)速度。 k m e a n s 聚類算法由于隨機(jī)選取初始聚類中心,這樣得到的聚類結(jié)果隨機(jī)性 很大。本文將用戶在不同項(xiàng)目簇上的評(píng)價(jià)差異作為用戶距離,采用克魯斯卡爾 ( k r u s k a l ) 算法生成初始聚類中心,使得初始中心靠近類中心,這樣得到的聚類 更符合實(shí)際。 針對(duì)傳統(tǒng)方法沒(méi)有考慮項(xiàng)目之間的內(nèi)容關(guān)系而影響推薦精度問(wèn)題,本文提出 了基于項(xiàng)目相關(guān)性的協(xié)同過(guò)濾算法。該算法首先將項(xiàng)目相似性引入到預(yù)測(cè)評(píng)分中 的用戶相似性計(jì)算,避免了不相關(guān)項(xiàng)目對(duì)用戶相似性計(jì)算的干擾,其次,在預(yù)測(cè) 評(píng)分中增加時(shí)間權(quán)限,使得越新的用戶興趣在推薦過(guò)程中的權(quán)值越大。 最后利用m o v i e l e n s 數(shù)據(jù)集進(jìn)行兩個(gè)實(shí)驗(yàn):最近鄰居搜尋效率實(shí)驗(yàn)和協(xié)同過(guò) 濾算法實(shí)驗(yàn)。前者的度量方法是最小空間內(nèi)搜索到更多的鄰居,實(shí)驗(yàn)結(jié)果表明基 于項(xiàng)目簇偏好的的k m e a n s 聚類算法可以在更小的用戶空間內(nèi)搜索到更多的鄰 居用戶,提高了查找用戶最近鄰的效率和精度;后者以m a e 作為評(píng)價(jià)指標(biāo),對(duì) 本文設(shè)計(jì)算法和傳統(tǒng)算法進(jìn)行性能比較,實(shí)驗(yàn)結(jié)果表明本文設(shè)計(jì)算法得到了更好 的推薦效果。 關(guān)鍵詞:個(gè)性化推薦;協(xié)同過(guò)濾;項(xiàng)目屬性;項(xiàng)目簇偏好;k m e a n s 初始聚類中心 江蘇大學(xué)碩士學(xué)位論文 a b s t r a c t e c o m m e r c es y s t e mg i v e su s e r sm o r ea n dm o r ec h o i c e s ,m e a n w h i l e ,i n f o r m a t i o n o v e r l o a di sg r i mi n c r e a s i n g l ya n df r a m e w o r ko fs y s t e mb e c o m e sm o r ec o m p l e x ,t h e n i tb e c o m e sm o r ea n dm o r ed i f f i c u l t yf o ru s e r st of i n dw h a tt h e yl i k e ,t h e ne - c o m m e r c e p e r s o n a l i z e dr e c o m m e d a t i o ns y s t e ma p p e a r s t h er e c o m m e n d a t i o na l g o r i t h mi st h ec o r eo ft h er e c o m m e d a t i o ns y s t e m ,a n di t d e t e r m i n e sr e c o m m e n d a t i o nr e s u l t st oag r e a te x t e n t c o l l a b o r a t i v ef i l t e r i n gs y s t e mg a t h e r s r a t i n g sf r o mp e o p l eo ft h es a m ei n t e r e s tw i t ht h et a r g e tu s e ra n dt h e nc r e a t e s r e c o m m e n d a t i o n s ,a n di th a sah i g hd e g r e eo fp e r s o n a l i z a t i o n ,s oi ti st h em o s t s u c c e s s f u la n dp o p u l a rm e t h o d h o w e v e r , t h e r ea r es t i l lm a n yd e f i c i e n c i e si np r a c t i c a l a p p l i c a t i o n ,s u c ha si n a c c u r a t ec a l c u l a t i o ni nu s e rs i m i l a r i t y , t h er e a l t i m er e s p o n s e , n e w i t e ma n da c c u r a c yp r o b l e m s t h i sp a p e rp r o p o s e dac l u s t e r i n gu s e r sa l g o r i t h mb a s e do nu s e r sp r e f e r e n c ef o r i t e ms o r tt om e e tt h en e e d so fr e a l t i m e t h ea l g o r i t h mf i r s t l yc l u s t e r si t e m sb a s e do n a t t r i b u t e s ,a n dg e t su s e r sp r e f e r e n c ef o ri t e ms o r t t h e ni tu s e sk - m e a n sc l u s t e r i n gt o c l u s t e ru s e r s ,a n d1 e t st h eu s e r sw i t ht h es a m ei n t e r e s ti nt h es a m ec l a s s w ec a nf i n d t h eu s e r sn e a r e s tn e i g h b o rf r o ms e v e r a ln e a r e s tc l u s t e r st oa v o i dt h ee n t i r eu s e r sb a s e , a n de n h a n c et h er e a l - t i m er e s p o n s es p e e d b e c a u s et h ef i r s tc e n t e ro fk m e a n sc l u s t e r i n gi sr a n d o m i tw i l lr e s u l tt h a tu s e r c l u s t e r sa r er a n d o m t h i sp a p e ru s e sk r u s k a la l g o r i t h mw i t l lu s e rd i f f e r e n c ee v a l u a t i o no n i t e ms o r tt op r o d u c et h ef i r s tc e n t e r s ,a n d1 e t st h ef i r s tc e n t e r sa r en e a rt oc l a s sc e n t e r s t h e ng e t sc l u s t e r sw i t hh i g ha c c u r a c y t h eu s e r - b a s e dc fa l g o r i t h md o e s n tc o n s i d e ri t e mr e l e v a n c e ,w h i c ha f f e c t st h e a c c u r a c y , a n dt a k e st h eu s e r si n t e r e s t si nd i f f e r e n tt i m ei n t oe q u a lc o n s i d e r a t i o n w h i c hl e a d st ot h el a c ko fe f f e c t i v e n e s si nt h eg i v e np e r i o do ft i m e i no r d e rt or e v o l v e t h e s ei s s u e s ,t h i sd i s s e r t a t i o na d v a n c e sac fa l g o r i t h mb a s e do ni t e mr e l e v a n c e t h e a l g o r i t h ma d d si t e mr e l e v a n c et oc a l c u l a t eu s e rs i m i l a r i t y , t h e na v o i d sd i s t u r b a n c eo f u n r e l e v a n ti t e m ,a tt h es a m et i m e ,i ta d d st i m ea saw e i g h tf o rc o m p u t i n gm i s s i n g r a t i n g s ,a n dm a k e st h ei n t e r e s t sa p p r o a c h i n gt h eg a t h e r i n gt i m eh a v eb i g g e rw e i g h ti n r e c o m m e n d a t i o np r o c e s s i nt h ee n d ,t h i sp a p e rt a k e st w o e x p e r i m e n t sw i t hm o v i e l e n sd a t as e t s :e x p e r i m e n t o fs e a r c h i n gf o rn e a r e s tn e i g h b o ra n dc fa l g o r i t h me x p e r i m e n t t h ef i r s te x p e r i m e n tu s e s m i n i m u ms p a c es e a r c h i n gf o rm o r en e i g h b o r st oe s t i m a t er e s u l t ,a n de x p e r i m e n tr e s u l t ss h o w 江蘇大學(xué)碩士學(xué)位論文 t h a tk - m e a n sc l u s t e r i n gb a s e do np r e f e r e n c ef o ri t e ms o r tc a nf i n dm o r en e i g h b o u r sf r o m m i n i m a ls p a c et h a nk - m e a n sc l u s t e r i n g ,a n di ti m p r o v e sa c c u r a c yo ff i n d i n gn e i g h b o u r ;t h e s e c o n de x p e r i m e n tu s e d sm a et oe v a l u a t er e c o m m e d a t i o nq u a l i t y c o m p a r e dt h e i m p r o v e d r e c o m m e d a t i o n a l g o r i t h m a n dt r a d i t o nr e c o m m e d a t i o n a l g o r i t h m , e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ei m p r o v e da l g o r i t h mi sm o r ep r e c i s ea n dg i v e s b e t t e rp r e d i c t i o ni na c c u r a c y k e yw o r d s :p e r s o n a l i z e dr e c o m m e n d a t i o n ;c o l l a b o r a t i v ef i l t e r i n g ;i t e ma t t r i b u t e s ; p r e f e r e n c ef o ri t e ms o r t ;t h ef i r s tc e n t e ro fk m e a n sc l u s t e r i n g ; i i i 學(xué)位論文版權(quán)使用授權(quán)書(shū) 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定, 同意學(xué)校保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版, 允許論文被查閱和借閱。本人授權(quán)江蘇大學(xué)可以將本學(xué)位論文的全部 內(nèi)容或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃 描等復(fù)制手段保存和匯編本學(xué)位論文。 本學(xué)位論文屬于 保密口,在年解密后適用本授權(quán)書(shū)。 不保密彤 學(xué)位論文作者簽名:圳芳無(wú) 神o 年多月7 日 多彬 矽【夕年勿月f 7 日 獨(dú)創(chuàng)性聲明 本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú) 立進(jìn)行研究工作所取得的成果。除文中己注明引用的內(nèi)容以外,本論 文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過(guò)的作品成果。對(duì)本文 的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本 人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。 學(xué)位論文作者簽名: 刮揍冕 e t 期:p p 年6 月i 日 江蘇大學(xué)碩士學(xué)位論文 1 1 課題的背景及意義 第一章緒論 電子商務(wù)是信息時(shí)代中產(chǎn)生和發(fā)展起來(lái)的新事物,也是信息技術(shù)和信息化建 設(shè)的必然產(chǎn)物。隨著互聯(lián)網(wǎng)的普及和企業(yè)信息化程度的不斷提高,電子商務(wù)正以 令人難以置信的速度蓬勃發(fā)展。電子商務(wù)使得個(gè)人或企業(yè)通過(guò)網(wǎng)絡(luò),采用數(shù)字化 電子方式進(jìn)行數(shù)據(jù)交換和開(kāi)展商務(wù)活動(dòng),目前己擁有在線購(gòu)物、網(wǎng)上銀行、在線 支付結(jié)算系統(tǒng)、電子票據(jù)、網(wǎng)上商情廣告等多種類型的電子商務(wù)形式。 但是,電子商務(wù)系統(tǒng)在為用戶提供越來(lái)越多選擇的同時(shí),商品信息過(guò)載的現(xiàn) 象越來(lái)越嚴(yán)峻,其結(jié)構(gòu)也變得同益復(fù)雜,用戶在大量的商品信息空間中無(wú)法快速 便捷地找到自己真正需要的商品。如何對(duì)電子商務(wù)信息進(jìn)行有效的組織利用,如 何盡可能地了解顧客的興趣愛(ài)好,以優(yōu)化網(wǎng)站設(shè)計(jì),從而方便顧客購(gòu)物,成為電 子商務(wù)發(fā)展迫切需要解決的問(wèn)題。于是個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生。 所謂個(gè)性化服務(wù),是在顧客瀏覽w e b 站點(diǎn)時(shí),系統(tǒng)盡可能地迎合每個(gè)顧客 的瀏覽興趣并且通過(guò)不斷地調(diào)整自身布局來(lái)適應(yīng)顧客的興趣變化,使得每個(gè)顧客 都有為該w e b 站點(diǎn)唯一顧客的感受n 1 。其作用主要表現(xiàn)在以下三個(gè)方面:將電子 商務(wù)網(wǎng)站的瀏覽者轉(zhuǎn)變?yōu)橘?gòu)買者;加強(qiáng)電子商務(wù)網(wǎng)站的交叉銷售能力;提高客戶 對(duì)電子商務(wù)網(wǎng)站的忠誠(chéng)度乜1 。 個(gè)性化推薦系統(tǒng)使得網(wǎng)站主動(dòng)適應(yīng)每個(gè)客戶的特定需求,為每個(gè)客戶創(chuàng)建適 應(yīng)客戶個(gè)性化需求的電子商店,從而為每個(gè)客戶提供不盡相同的個(gè)性化購(gòu)物環(huán) 境,為電子商務(wù)系統(tǒng)實(shí)現(xiàn)“一對(duì)一營(yíng)銷”的個(gè)性化服務(wù)提供了可能。目前,幾乎 所有大型的電子商務(wù)系統(tǒng),如e b a y 、a n l a z o l l 、c d n o w 、淘寶網(wǎng)、當(dāng)當(dāng)網(wǎng)等都 不同程度地使用了各種形式的推薦系統(tǒng)。研究表明,電子商務(wù)的銷售業(yè)務(wù)使用個(gè) 性化推薦系統(tǒng)后,銷售額能提高2 至8 ,尤其是書(shū)籍、電影、音像、百貨等 相對(duì)價(jià)廉且種類繁多的商品口1 。電子商務(wù)個(gè)性化推薦系統(tǒng)具有良好的發(fā)展和應(yīng)用 前景。在日趨激烈的競(jìng)爭(zhēng)環(huán)境下,電子商務(wù)推薦系統(tǒng)能夠有效保留老客戶,發(fā)展 新客戶,提高企業(yè)的銷售額。成功的電子商務(wù)推薦系統(tǒng)將會(huì)產(chǎn)生巨大的經(jīng)濟(jì)效益 和社會(huì)效應(yīng)。 江蘇大學(xué)碩士學(xué)位論文 顧客在瀏覽電子商務(wù)網(wǎng)站時(shí)都會(huì)產(chǎn)生大量的數(shù)據(jù)信息,不僅有本次的交易信 息,還有利用搜索引擎以及在站點(diǎn)內(nèi)瀏覽的相關(guān)數(shù)據(jù),這些數(shù)據(jù)中包含了對(duì)市場(chǎng) 分析及預(yù)測(cè)非常有益的潛在信息。在日益激烈的電子商務(wù)競(jìng)爭(zhēng)中,任何與消費(fèi)者 行為有關(guān)的信息對(duì)商家來(lái)說(shuō)都是非常寶貴的,但是這些數(shù)據(jù)資源中所蘊(yùn)涵的大量 有益信息至今卻未能得到充分地挖掘和利用。數(shù)據(jù)挖掘技術(shù)為研究用戶瀏覽行為 提供了工具,能對(duì)電子商務(wù)網(wǎng)站上的各種數(shù)據(jù)進(jìn)行分析,挖掘出具有實(shí)際應(yīng)用價(jià) 值的知識(shí)模式,使得企業(yè)更有效地改善客戶關(guān)系、更好的運(yùn)作站點(diǎn)和向客戶提供 更優(yōu)質(zhì)的個(gè)性化推薦服務(wù),從而為企業(yè)帶來(lái)更好的效益,有利于提高商業(yè)站點(diǎn)的 競(jìng)爭(zhēng)力,同時(shí)也方便了用戶瀏覽商品和購(gòu)物,可謂一舉兩得。因此,將數(shù)據(jù)挖掘 技術(shù)應(yīng)用于電子商務(wù)推薦系統(tǒng)具有非常重要的現(xiàn)實(shí)意義。 1 2 國(guó)內(nèi)外研究現(xiàn)狀 自1 9 9 7 年r e s n i c k 和v a r i a n 提出世界上第一個(gè)電子商務(wù)推薦系統(tǒng)以來(lái),推 薦系統(tǒng)在電子商務(wù)、網(wǎng)絡(luò)經(jīng)濟(jì)學(xué)和人類社會(huì)學(xué)等領(lǐng)域一直保持很高的研究熱度并 逐漸成為- f - j 獨(dú)立的學(xué)科。各種推薦算法涵蓋包括認(rèn)知科學(xué)、近似性理論、信息 檢索4 l 、管理科學(xué)跚、市場(chǎng)營(yíng)銷建模階1 等在內(nèi)的眾多研究領(lǐng)域。 國(guó)外很多研究機(jī)構(gòu)在推薦系統(tǒng)上投入大量精力。a c m 從1 9 9 9 年開(kāi)始每年召 開(kāi)一次電子商務(wù)研討會(huì),其中有很多文章都是研究電子商務(wù)推薦系統(tǒng)的。同年, s i g k d d 小組設(shè)立w e b k d d 研討組,研究?jī)?nèi)容主題集中在電子商務(wù)中的w e b 挖掘技術(shù)和推薦系統(tǒng)技術(shù)上。第7 屆國(guó)際人工智能聯(lián)合會(huì)議i j c a i 把 e b u s i n e s s & t h ei n t e l l i g e n tw e b 作為一個(gè)獨(dú)立的研討小組,而a c m 下面的信息檢 索特別興趣組s i g i r 在召開(kāi)的第2 4 屆研究和發(fā)展會(huì)議上,開(kāi)始專門把推薦系統(tǒng) 作為一個(gè)研討主題。與此同時(shí),第十五屆人工智能會(huì)議、第一屆知識(shí)管理應(yīng)用會(huì) 議p a k m 等也紛紛開(kāi)始將電子商務(wù)推薦系統(tǒng)作為研究主題。近幾年來(lái),國(guó)際學(xué) 術(shù)界出現(xiàn)了大量關(guān)于計(jì)算機(jī)網(wǎng)絡(luò)信息整合的推薦研究:a e m 設(shè)立推薦系統(tǒng)年會(huì); 計(jì)算機(jī)領(lǐng)域的人機(jī)交互、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)頂級(jí)會(huì)議( 如s l g c h i ,k d d ,s l g i r 等) 中,推薦算法的文章逐年增j h ;國(guó)際數(shù)據(jù)分析領(lǐng)域的高階期刊( 如i e e e ,a c m 等) 刊載數(shù)篇推薦系統(tǒng)方面的文章。紐約大學(xué)( a l e x a n d e r t u z h i l i n ) 、美國(guó)密歇根大 學(xué)( p a u l r e s n i c k ) 、卡內(nèi)基梅隆大學(xué)( j a i m e c a u a n ) 、微軟研究院等都在研究信息領(lǐng)域 2 江蘇大學(xué)碩士學(xué)位論文 的推薦系統(tǒng),其中,美國(guó)密歇根大學(xué)在2 0 0 6 年開(kāi)授了由p a u l r e s n i c k 主講的推薦 系統(tǒng)課程。到目前為止國(guó)外已有許多成型系統(tǒng),5 i i - n e c 公司的“v5 - 7 8 2 0 系 統(tǒng),i b m 公司p s y u 等人研究的s p e e d t r a c e r 系統(tǒng)等眵1 。 個(gè)性化服務(wù)技術(shù)在國(guó)內(nèi)是自2 0 0 0 年以來(lái)逐漸成為研究熱點(diǎn)的,目前國(guó)內(nèi)學(xué) 者和研究機(jī)構(gòu)開(kāi)發(fā)了一些個(gè)性化服務(wù)的原型系統(tǒng),而一些信息服務(wù)商也在其數(shù)據(jù) 庫(kù)產(chǎn)品中推出了簡(jiǎn)單的推薦服務(wù)功能。清華大學(xué)推出的混合推薦系統(tǒng) o p e n b o o k m a r k 通過(guò)集中管理用戶群的b o o k m a r k 來(lái)實(shí)現(xiàn)混合推薦;南京大學(xué)的 潘金貴等人設(shè)計(jì)并實(shí)現(xiàn)了個(gè)性化信息檢索智能體d o l t r ia g e n t 系統(tǒng);上海理 工大學(xué)的陳世平、周福華等研究和開(kāi)發(fā)了面向領(lǐng)域的個(gè)性化智能檢索系統(tǒng) m y s p y ,它可實(shí)現(xiàn)基于智能代理的信息過(guò)濾和個(gè)性化服務(wù),其利用同義詞詞典、 蘊(yùn)涵詞詞典和輔助詞典,對(duì)查詢?cè)~進(jìn)行概念搜索,返回與查詢需求相似的文檔; 萬(wàn)方數(shù)據(jù)的i l i b 系統(tǒng)具有相似資源推薦的功能,可根據(jù)用戶當(dāng)前訪問(wèn)的文獻(xiàn)資 源推薦內(nèi)容相似的其他資源;國(guó)內(nèi)c n k i 的中國(guó)期刊全文數(shù)據(jù)庫(kù),除了提供相似 資源推薦外,還具有根據(jù)文獻(xiàn)的引用信息、作者信息進(jìn)行引用文獻(xiàn)、被引文獻(xiàn)、 同作者文獻(xiàn)等推薦的功能。但總體來(lái)說(shuō),我國(guó)電子商務(wù)推薦系統(tǒng)相對(duì)國(guó)外差距較 大,起步晚、理論研究落后是影響我國(guó)推薦技術(shù)發(fā)展的直接原因,現(xiàn)有的推薦系 統(tǒng)在推薦深度、規(guī)模和質(zhì)量方面都落后于國(guó)外。 1 3 個(gè)性化推薦系統(tǒng)面臨的主要挑戰(zhàn) 電子商務(wù)個(gè)性化推薦是一個(gè)新興的領(lǐng)域,盡管目前已經(jīng)取得了一定的研究成 果,但仍面臨很多挑戰(zhàn),主要包括以下幾個(gè)方面: ( 1 ) 稀疏問(wèn)題。它是推薦技術(shù)中的重要問(wèn)題之一陽(yáng)1 。在任何大型的推薦系統(tǒng) 中,用戶和項(xiàng)目的數(shù)量非常龐大,并且隨著時(shí)間的推移會(huì)越來(lái)越多,那么用戶對(duì) 項(xiàng)目的評(píng)價(jià)數(shù)據(jù)也應(yīng)該越來(lái)越多,但是,實(shí)際上每個(gè)用戶不可能對(duì)每個(gè)項(xiàng)目都進(jìn) 行評(píng)價(jià),據(jù)統(tǒng)計(jì),一般用戶購(gòu)買商品的總量?jī)H占網(wǎng)站總商品量的1 2 左右, 用戶對(duì)項(xiàng)目的評(píng)價(jià)數(shù)據(jù)也僅如此,造成用戶一項(xiàng)目評(píng)價(jià)矩陣非常稀疏( 即稀疏矩 陣) ,這種情況帶來(lái)的問(wèn)題是得到用戶間的相似性不準(zhǔn)確,鄰居用戶不可靠。 如表1 1 和表1 2 描述的是不同稀疏程度的用戶一項(xiàng)評(píng)價(jià)矩陣。很明顯,表 1 1 比表1 2 的數(shù)據(jù)更稀疏,那么根據(jù)表1 2 得到的鄰居用戶肯定比表1 1 準(zhǔn)確, 江蘇大學(xué)碩士學(xué)位論文 而現(xiàn)實(shí)的協(xié)同過(guò)濾推薦系統(tǒng)中的用戶一項(xiàng)評(píng)價(jià)矩陣的稀疏程度卻跟表1 1 類似, 這樣得到的鄰居用戶不準(zhǔn)確,從而影響推薦效果。 表1 1 稀疏的用戶一項(xiàng)評(píng)價(jià)矩陣 日 用八 項(xiàng)目1項(xiàng)目2項(xiàng)目3項(xiàng)目4項(xiàng)目5項(xiàng)目6 用戶1 1 用戶2 45 用戶3 3 用戶4 2 1 用戶52 表1 2 稠密的片j 戶一項(xiàng)評(píng)價(jià)矩陣 題目 川入 項(xiàng)目1項(xiàng)目2項(xiàng)目3項(xiàng)目4 項(xiàng)目5項(xiàng)目6 h j 戶l25412 用戶2 3125 h j 戶3 42 32 剛戶42431 用戶5 5243 目前解決這問(wèn)題主要有三種方法:設(shè)置初始評(píng)分,基于人工智能的方法和基 于降維思想的方法。如,采用h o r t i n g 圖n 0 1 、聚類1 、貝葉斯網(wǎng)絡(luò)n 2 3 及粗糙集1 3 1 等手段,增加用戶在項(xiàng)目空間上重疊的數(shù)目,以降低數(shù)據(jù)稀疏性;采用奇異值分 解n4 j 、潛在語(yǔ)義索引n5 1 、矩陣劃分等技術(shù)降維,使數(shù)據(jù)變得更稠密些。 ( 2 ) 冷啟動(dòng)問(wèn)題。它分為新項(xiàng)目和新用戶兩種問(wèn)題。在推薦系統(tǒng)中,新項(xiàng)目 加入數(shù)據(jù)庫(kù)后必須等待一段時(shí)間才有用戶查看或評(píng)價(jià),在評(píng)價(jià)達(dá)到一定數(shù)量之前 無(wú)法對(duì)此項(xiàng)目進(jìn)行推薦,即新項(xiàng)目問(wèn)題,這在協(xié)同過(guò)濾推薦系統(tǒng)中尤為突出。目 前,一般考慮使用組合推薦的方法來(lái)應(yīng)對(duì)。新用戶問(wèn)題是指,系統(tǒng)沒(méi)有或很少存 儲(chǔ)新用戶的信息,包括查看項(xiàng)目的歷史記錄和對(duì)項(xiàng)目的評(píng)價(jià),基于模型的方法無(wú) 法獲得訓(xùn)練數(shù)據(jù)而基于規(guī)則的方法難以進(jìn)行推理,使得對(duì)新用戶的推薦無(wú)法進(jìn) 行。近期,有用到對(duì)象熵、受歡迎程度、用戶個(gè)性屬性等來(lái)解決此問(wèn)題。 ( 3 ) 可擴(kuò)展性問(wèn)題。由于用戶沒(méi)有對(duì)足夠多類別的項(xiàng)目進(jìn)行評(píng)價(jià),推薦系統(tǒng) 往往無(wú)法完全掌握用戶每個(gè)方面的興趣和需求,于是就有過(guò)擬合現(xiàn)象,即系統(tǒng)推 薦給用戶的項(xiàng)目與用戶剛剛看過(guò)的不太相似或不相關(guān)。該問(wèn)題本質(zhì)上來(lái)自于數(shù)據(jù) 的不完備性,這在實(shí)際應(yīng)用中無(wú)法完全避免。在信息檢索領(lǐng)城,這類問(wèn)題普遍存 4 江蘇大學(xué)碩士學(xué)位論文 在,解決的主要方法是引入隨機(jī)性,使算法收斂到全局最優(yōu)或者逼近全局最優(yōu)。 ( 4 ) 推薦準(zhǔn)確度。現(xiàn)有的個(gè)性化推薦系統(tǒng)不能很好地根據(jù)用戶的歷史信息和 當(dāng)前的會(huì)話進(jìn)行分析和判斷,得出準(zhǔn)確的推薦方案,使得經(jīng)常推薦一些不符合用 戶興趣或需求的商務(wù)信息或商品,要么干脆一視同仁,給每個(gè)人推薦一樣的信息, 這就導(dǎo)致推薦準(zhǔn)確度不高。即使能達(dá)到預(yù)期效果,那也是在用戶額外提供信息以 及部分人工分析的情況下得到的,智能化程度有待提高。 ( 5 ) 實(shí)時(shí)性?;ヂ?lián)網(wǎng)上存儲(chǔ)的信息以指數(shù)級(jí)增長(zhǎng),使用網(wǎng)絡(luò)的用戶也越來(lái)越 多,這樣要為大量的在線用戶提供個(gè)性化推薦,實(shí)時(shí)性很難保證。此外,推薦系 統(tǒng)的推薦準(zhǔn)確度和實(shí)時(shí)性是一對(duì)矛盾,大部分推薦技術(shù)為了保證實(shí)時(shí)性,是以犧 牲推薦系統(tǒng)的推薦質(zhì)量為代價(jià)的。在提供實(shí)時(shí)推薦服務(wù)的同時(shí),如何有效提高推 薦系統(tǒng)的推薦質(zhì)量,有待進(jìn)一步的研究。 ( 6 ) 有效數(shù)據(jù)挖掘。用戶在商務(wù)網(wǎng)站上瀏覽或購(gòu)物過(guò)程中,都會(huì)產(chǎn)生大量數(shù) 據(jù)信息,不僅有本次的交易信息,還有利用搜索引擎的信息以及在站點(diǎn)內(nèi)進(jìn)行瀏 覽的相關(guān)數(shù)據(jù),但當(dāng)前大部分電子商務(wù)推薦系統(tǒng)都只利用了這些信息的極小部分 進(jìn)行推薦,從而影響了推薦效果。 ( 7 ) 推薦結(jié)果解釋。推薦系統(tǒng)為了說(shuō)服用戶選擇其推薦,需要向用戶解釋推 薦產(chǎn)生的原因,但目前的個(gè)性化推薦系統(tǒng)只是通過(guò)簡(jiǎn)單的瀏覽排行、銷售排行以 及其他用戶對(duì)項(xiàng)目的評(píng)價(jià)信息等方式來(lái)達(dá)到上述目的。需要進(jìn)一步研究更加有效 的方法向用戶解釋產(chǎn)生推薦的原因,來(lái)增強(qiáng)用戶對(duì)推薦系統(tǒng)的信任度,從而說(shuō)服 用戶選擇推薦系統(tǒng)的推薦。 1 4 本文的主要研究?jī)?nèi)容 本文通過(guò)對(duì)協(xié)同過(guò)濾及其在電子商務(wù)推薦系統(tǒng)中的應(yīng)用、面臨的問(wèn)題和挑戰(zhàn) 以及相應(yīng)的解決方法進(jìn)行了詳細(xì)的分析與研究,提出了一種基于項(xiàng)目簇偏好的用 戶聚類方法,改進(jìn)了預(yù)測(cè)評(píng)分過(guò)程中的用戶相似性計(jì)算方法,并考慮了用戶興趣 隨時(shí)間變化的情況,這樣便保證了系統(tǒng)的實(shí)時(shí)性,解決了新項(xiàng)目問(wèn)題,提升了推 薦精度,實(shí)驗(yàn)證明,達(dá)到了預(yù)期效果。 本論文所做的主要工作如下: ( 1 ) 構(gòu)建項(xiàng)目屬性矩陣,基于項(xiàng)目屬性相似性進(jìn)行項(xiàng)目聚類,得到用戶對(duì)不 江蘇大學(xué)碩士學(xué)位論文 同項(xiàng)目簇的偏好,并將項(xiàng)目相似性引入預(yù)測(cè)評(píng)分過(guò)程中,避免了不相關(guān)項(xiàng)目的干 擾,提升了推薦精度,并間接解決了新項(xiàng)目問(wèn)題。 ( 2 ) 基于用戶一項(xiàng)目簇矩陣,通過(guò)改進(jìn)的k m e a n s 聚類算法對(duì)用戶進(jìn)行聚 類,將有著相同或相似品味的用戶分到同一類中,這樣就可以在跟目標(biāo)用戶最近 的幾個(gè)聚類中搜尋最近鄰,避免了在整個(gè)用戶群上搜尋,提高了實(shí)時(shí)響應(yīng)速度。 ( 3 ) 傳統(tǒng)推薦算法將用戶不同時(shí)間的興趣等同考慮,時(shí)效性不足,本論文在 預(yù)測(cè)評(píng)分中增加時(shí)問(wèn)權(quán)限,使得越新的用戶興趣在推薦過(guò)程中越重要,提高了推 薦的準(zhǔn)確度。 ( 4 ) 利用m o v i e l e n s 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),采用絕對(duì)偏差m a e 作為評(píng)價(jià)指標(biāo), 對(duì)改進(jìn)算法和原算法進(jìn)行性能比較。 1 5 本文的組織結(jié)構(gòu) 全文共分為六章,文章結(jié)構(gòu)和各章節(jié)主要內(nèi)容如下: 第一章緒論 本章主要介紹了本課題的研究背景及意義,國(guó)內(nèi)外研究現(xiàn)狀,并簡(jiǎn)單介紹了 本文研究的主要內(nèi)容和文章組織結(jié)構(gòu)。 第二章基本概念及相關(guān)技術(shù) 本章主要介紹了電子商務(wù)個(gè)性化推薦系統(tǒng)的基本理論,并簡(jiǎn)單介紹了協(xié)同過(guò) 濾推薦技術(shù)以及其中涉及到的數(shù)據(jù)挖掘、聚類等技術(shù)。 第三章基于項(xiàng)目簇偏好的用戶聚類 本章將項(xiàng)目屬性相似性引入項(xiàng)目聚類,在此基礎(chǔ)上利用用戶對(duì)不同項(xiàng)目簇的 偏好信息,采用改進(jìn)的k m e a n s 聚類算法將有相同或相似品味的用戶聚為一類, 縮小了搜索最近鄰范圍,減少了搜索最近鄰的時(shí)間,滿足系統(tǒng)實(shí)時(shí)性要求,并間 接解決了新項(xiàng)目問(wèn)題。 第四章基于項(xiàng)目相關(guān)性的協(xié)同過(guò)濾推薦 本章針對(duì)傳統(tǒng)方法中不相關(guān)項(xiàng)目對(duì)用戶相似性計(jì)算的干擾問(wèn)題,提出基于項(xiàng) 目相關(guān)性的用戶相似性計(jì)算方法,并在預(yù)測(cè)評(píng)分的過(guò)程中增加時(shí)間權(quán)限,使得接 近采集時(shí)間的用戶興趣在推薦過(guò)程中具有更大權(quán)值。 第五章實(shí)驗(yàn)與分析 6 江蘇大學(xué)碩士學(xué)位論文 在前兩章給出改進(jìn)算法的基礎(chǔ)上,應(yīng)用m o v i e l e n s 數(shù)據(jù)集對(duì)改進(jìn)后的算法進(jìn) 行驗(yàn)證,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)分析。 第六章總結(jié) 對(duì)本課題的研究工作進(jìn)行總結(jié),并對(duì)下一步的工作提出展望。 7 江蘇大學(xué)碩士學(xué)位論文 第二章電子商務(wù)個(gè)性化推薦系統(tǒng) 電子商務(wù)正成為貿(mào)易發(fā)展的新方向,它不再受時(shí)空的限制,改變了貿(mào)易形態(tài), 加速了商品流通,縮短資金周轉(zhuǎn)時(shí)間,有效地降低企業(yè)生產(chǎn)成本,使得企業(yè)從有 限的資源中獲得更大的利潤(rùn),提高了競(jìng)爭(zhēng)力。電子商務(wù)已成為世界經(jīng)濟(jì)市場(chǎng)中必 不可少的組成部分,但在購(gòu)物過(guò)程中,它需要用戶逐個(gè)瀏覽商品及商家信息,這 與人們r(jià) 常的購(gòu)買行為是有差異的,具體表現(xiàn)在以下方面:( 1 ) 用戶獲得的各種商 品信息僅僅是事先定義好的靜態(tài)子目錄,有時(shí)也會(huì)有些圖片或文字描述信息,但 用戶卻不能近距離觀察或觸摸商品,這樣缺乏真實(shí)感;( 2 ) 用戶需要花費(fèi)很多時(shí) 間來(lái)瀏覽商品信息,并對(duì)所有商品進(jìn)行比較。顯然,這種方法是低效率的,而且 隨著商品信息的增多,信息過(guò)載越來(lái)越嚴(yán)重,用戶往往花費(fèi)大量時(shí)間獲得的卻不 是自己所需要的信息,這勢(shì)必影響用戶的購(gòu)物興趣。這些問(wèn)題集中反應(yīng)了第一代 電子商務(wù)系統(tǒng)在智能化和自動(dòng)化程度上的不足,理想的做法是把客戶真j 下需要的 信息直接提供給客戶,使得以商品為中心轉(zhuǎn)變?yōu)橐钥蛻魹橹行模瑒?chuàng)建個(gè)性化服務(wù) 的電子商務(wù)推薦系統(tǒng),于是,第二代電子商務(wù)系統(tǒng)電子商務(wù)個(gè)性化推薦系統(tǒng) 應(yīng)運(yùn)而生。 2 1 個(gè)性化推薦系統(tǒng)概述 電子商務(wù)推薦系統(tǒng)正式的定義是r e s n i c k & v a r i a n 在1 9 9 7 年給出的: “它是 依據(jù)電子商務(wù)網(wǎng)站向客戶提供的商品信息,幫助用戶決定應(yīng)該購(gòu)買什么商品,模 擬銷售人員幫助客戶完成購(gòu)買過(guò)程”n 6 1 ,它根據(jù)用戶的興趣愛(ài)好推薦符合用戶 興趣愛(ài)好的商品,因此也稱電子商務(wù)個(gè)性化推薦系統(tǒng)。 2 1 1 個(gè)性化推薦系統(tǒng)的作用 電子商務(wù)個(gè)性化推薦系統(tǒng)和銷售系統(tǒng)、決策支持系統(tǒng)既有相同之處又有區(qū) 別。銷售系統(tǒng)是幫助銷售人員把商品銷售出去;而決策支持系統(tǒng)是幫助生產(chǎn)者決 定什么時(shí)候生產(chǎn)什么產(chǎn)品,其目的是為產(chǎn)品生產(chǎn)企業(yè)服務(wù)。而推薦系統(tǒng)是幫助用 戶決定購(gòu)買什么商品,是面向用戶的系統(tǒng)。推薦系統(tǒng)的服務(wù)對(duì)象是用戶,系統(tǒng)的 8 江蘇大學(xué)碩士學(xué)位論文 目標(biāo)是為用戶提供項(xiàng)目推薦。用戶是指推薦系統(tǒng)的使用者,即電子商務(wù)網(wǎng)站中的 用戶。項(xiàng)目是被推薦的對(duì)象,即電子商務(wù)網(wǎng)站中的商品或服務(wù),也就是最終推薦 系統(tǒng)推薦給用戶的內(nèi)容。 電子商務(wù)個(gè)性化推薦系統(tǒng)不僅能為用戶服務(wù),而且能給電子商務(wù)網(wǎng)站帶來(lái)豐 厚的商業(yè)利益。主要體現(xiàn)在以下幾個(gè)方面: ( 1 ) 提升電子商務(wù)網(wǎng)站的服務(wù)質(zhì)量。推薦系統(tǒng)可以挖掘用戶興趣,幫助網(wǎng)站 的設(shè)計(jì)者調(diào)整站點(diǎn)的邏輯映射,達(dá)到方便用戶的目的,增加了用戶的滿意度。 ( 2 ) 提高用戶的忠誠(chéng)度。在電子商務(wù)環(huán)境下,用戶要去瀏覽競(jìng)爭(zhēng)者的網(wǎng)站只 需簡(jiǎn)單的幾次點(diǎn)擊操作,因此提高用戶的忠誠(chéng)度是商業(yè)競(jìng)爭(zhēng)中的一個(gè)重要營(yíng)銷策 略。要提高用戶的忠誠(chéng)度,就要增加站點(diǎn)的吸引力,這除了有更好的站點(diǎn)內(nèi)容外, 還需要為用戶提供一個(gè)方便快捷瀏覽興趣商品的途徑。試想,如果用戶每次購(gòu)買 商品的時(shí)候,推薦系統(tǒng)都可以對(duì)其進(jìn)行高效的商品推薦,無(wú)疑用戶下次會(huì)繼續(xù)在 該網(wǎng)站上進(jìn)行商品選購(gòu)。而且,一對(duì)一的個(gè)性化推薦系統(tǒng)還可以延長(zhǎng)用戶在站點(diǎn) 的逗留時(shí)間,增加了商品銷售的可能性。 ( 3 ) 將瀏覽者轉(zhuǎn)變?yōu)橘?gòu)買者。有時(shí)站點(diǎn)的訪問(wèn)者只是隨便瀏覽,并無(wú)購(gòu)買意 向,如果這個(gè)時(shí)候推薦系統(tǒng)能夠有針對(duì)性地向其提供高質(zhì)量的商品推薦,就有可 能引起訪問(wèn)者的購(gòu)買興趣,從而從訪問(wèn)者轉(zhuǎn)變成購(gòu)買者。 ( 4 ) 增加交叉銷售。推薦系統(tǒng)可以根據(jù)用戶當(dāng)前購(gòu)物車中的商品向他們推薦 同這些物品相關(guān)的商品,比如,用戶購(gòu)買了筆記本電腦,網(wǎng)站可以向他推薦軟件 光盤等。這樣很有可能提高站點(diǎn)的交叉銷售量。 2 1 2 個(gè)性化推薦系統(tǒng)的框架及流程 電子商務(wù)個(gè)性化推薦系統(tǒng)的完整框架主要由用戶交互代理、推薦引擎、推薦 模型庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘引擎、操作數(shù)據(jù)庫(kù)等構(gòu)成,如圖2 1 所示。 9 江蘇大學(xué)碩士學(xué)位論文 數(shù)據(jù)倉(cāng)庫(kù) 固固回回 辛擎 操f :數(shù)讒:庫(kù) i ,一 回固回k 裂拳 圖2 1 個(gè)性化推薦系統(tǒng)整體框架 用戶交互代理:管理用戶界面,接收用戶的請(qǐng)求,并提供推薦結(jié)果給用戶。 推薦引擎:主要功能是接收推薦請(qǐng)求,運(yùn)行推薦策略,產(chǎn)生推薦結(jié)果。推薦 引擎對(duì)外提供了統(tǒng)一的推薦服務(wù)接口,對(duì)內(nèi)規(guī)范了推薦算法的運(yùn)行環(huán)境,方 便了推薦算法的編制。 推薦模型庫(kù):存儲(chǔ)推薦算法,不同推薦技術(shù)采用不同推薦算法。 數(shù)據(jù)倉(cāng)庫(kù):存儲(chǔ)推薦系統(tǒng)直接操作的數(shù)據(jù),即那些經(jīng)過(guò)清洗和初步挖掘后的 規(guī)整數(shù)據(jù),包括屬性數(shù)據(jù)、商品數(shù)據(jù)、購(gòu)買數(shù)據(jù)、點(diǎn)擊流等。 數(shù)據(jù)挖掘引擎:初步挖掘操作數(shù)據(jù)庫(kù)中的數(shù)據(jù),從中抽取出具有一定關(guān)聯(lián)性 且能被推薦算法直接采用的有意義的數(shù)據(jù)。 操作數(shù)據(jù)庫(kù):存儲(chǔ)用戶操作需要使用的數(shù)據(jù),包括了商品數(shù)據(jù)庫(kù)、用戶數(shù)據(jù) 庫(kù)、銷售數(shù)據(jù)庫(kù)等。 個(gè)性化推薦系統(tǒng)需要完成從數(shù)據(jù)信息采集到產(chǎn)生推薦的一系列工作,其完整 的應(yīng)用流程具體來(lái)說(shuō)包括以下幾個(gè)部分: ( 1 ) 清洗、轉(zhuǎn)換和加載數(shù)據(jù):將經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換代理清洗、轉(zhuǎn)換的數(shù)據(jù),送入 l o 江蘇大學(xué)碩士學(xué)位論文 數(shù)據(jù)挖掘引擎進(jìn)行初步挖掘,然后再加載到數(shù)據(jù)倉(cāng)庫(kù)中成為規(guī)整數(shù)據(jù)。所選數(shù)據(jù) 形式多種多樣,可以是評(píng)分?jǐn)?shù)據(jù),也可以是交易數(shù)據(jù),應(yīng)該選擇什么樣的數(shù)據(jù)由 具體的推薦應(yīng)用決定。 ( 2 ) 生成模型:根據(jù)具體的推薦應(yīng)用,提取對(duì)應(yīng)的規(guī)整數(shù)據(jù),選擇適當(dāng)?shù)耐?薦模型產(chǎn)生針對(duì)此具體推薦應(yīng)用的模型,并將其存儲(chǔ)在推薦模型庫(kù)中,作為一個(gè) 可用模型。怎樣選擇適當(dāng)?shù)耐扑]模型產(chǎn)生新的模型要視具體的推薦應(yīng)用而定。 ( 3 ) 配置推薦策略:是指推薦過(guò)程的配置,其中包括推薦算法和推薦模型。 具體的推薦功能是由推薦引擎運(yùn)行相應(yīng)的推薦策略來(lái)實(shí)現(xiàn)的,所以推薦引擎要實(shí) 現(xiàn)推薦服務(wù),就必須有己經(jīng)配置好的推薦策略。配置工作主要是根據(jù)具體推薦應(yīng) 用修改推薦策略,這包括選擇不同的推薦算法和推薦模型,并請(qǐng)求推薦引擎啟動(dòng) 或重載此策略。 ( 4 ) 訪問(wèn)推薦服務(wù):電子商務(wù)系統(tǒng)直接向推薦引擎提供當(dāng)前用戶的信息,并 請(qǐng)求用指定的推薦策略產(chǎn)生商品的推薦列表。推薦引擎則根據(jù)電子商務(wù)系統(tǒng)的請(qǐng) 求運(yùn)行對(duì)應(yīng)的推薦策略,產(chǎn)生合適的推薦結(jié)果。 ( 5 ) 更新操作數(shù)據(jù):電子商務(wù)系統(tǒng)在開(kāi)展網(wǎng)絡(luò)商業(yè)活動(dòng)和提供推薦服務(wù)的同 時(shí),新用戶、新商品在不斷的增加,而且用戶的活動(dòng)也是不斷變化的,那么操作 數(shù)據(jù)庫(kù)也是在發(fā)生變化的,為了能進(jìn)行有效地推薦,則需要及時(shí)更新操作數(shù)據(jù)庫(kù)。 整個(gè)個(gè)性化推薦系統(tǒng)應(yīng)用流程是一個(gè)不斷循環(huán)的過(guò)程,當(dāng)操作數(shù)據(jù)庫(kù)變化到 一定程度的時(shí)候,就要更行數(shù)據(jù)倉(cāng)庫(kù)、推薦模型,以便能及時(shí)的反映出當(dāng)前用戶 的興趣變化。模型的更新由具體的應(yīng)用要求決定,一般采用周期性更新,也有采 用推薦效果反饋閉值進(jìn)行控制的。 2 1 3 個(gè)性化推薦系統(tǒng)的評(píng)價(jià)指標(biāo) 目前,絕大多數(shù)個(gè)性化推薦系統(tǒng)都是利用準(zhǔn)確度評(píng)價(jià)推薦系統(tǒng)的好壞。由于 不同推薦系統(tǒng)的目標(biāo)不同,而且評(píng)價(jià)指標(biāo)缺乏標(biāo)準(zhǔn)化,因此很難對(duì)不同系統(tǒng)的推 薦效果進(jìn)行比較。針對(duì)不同的系統(tǒng),已有的準(zhǔn)確度指標(biāo)有預(yù)測(cè)準(zhǔn)確度、分類準(zhǔn)確 度、排序準(zhǔn)確度、預(yù)測(cè)打分關(guān)聯(lián)、距離標(biāo)準(zhǔn)化指標(biāo)和半衰期效用指標(biāo)等等,下面 簡(jiǎn)單介紹常用的預(yù)測(cè)準(zhǔn)確度、分類準(zhǔn)確度。 ( 1 ) 預(yù)測(cè)準(zhǔn)確度:衡量推薦系統(tǒng)的推薦評(píng)分和用戶對(duì)對(duì)應(yīng)項(xiàng)目的實(shí)際評(píng)分之 江蘇大學(xué)碩士學(xué)位論文 間的差別。它包括三個(gè)常用的標(biāo)準(zhǔn):平均絕對(duì)偏差m a e n7 1 、根平均方差r m s e 和標(biāo)準(zhǔn)平均絕對(duì)誤差n m a e n 引。 平均絕對(duì)偏差m a e :它通過(guò)計(jì)算預(yù)測(cè)的用戶評(píng)分與實(shí)際的用戶評(píng)分 之間的偏差度量預(yù)測(cè)的準(zhǔn)確性。m a e 越小,推薦準(zhǔn)確度越高。假設(shè) 預(yù)測(cè)的用戶評(píng)分集合表示為切,p 2 ,p n j ,對(duì)應(yīng)的實(shí)際用戶評(píng)分集合 為b l ,q 2 ,g ,j ,則平均絕對(duì)偏差m a e 的計(jì)算公式如( 2 1 ) 所示。 , f p ,- q ,i m a e = 上l 一 ( 2 1 ) n 根平均方差r m s e :它使得偏差大的分量在最終的偏差中所占的比 重較大。和平均絕對(duì)偏差一樣,根平均方差越低,推薦準(zhǔn)確度越高。 它的計(jì)算公式如( 2 2 ) 所示。 r m s e=( 2 2 ) 標(biāo)準(zhǔn)平均絕對(duì)誤差n m a e :它在評(píng)分值區(qū)間內(nèi)作標(biāo)準(zhǔn)化,使得可以 在不同的數(shù)據(jù)集上對(duì)推薦效果進(jìn)行比較。n m a e 越低,推薦質(zhì)量越 好。其計(jì)算公式如( 2 3 ) 所示。 刪e :尚 ( 2 3 ) 憎m a x q m i n j “。7 其中,q m a x 和q m i n 分別為用戶評(píng)分區(qū)間里的最大值和最小值。 ( 2 ) 分類準(zhǔn)確度:是指用戶是否喜歡某個(gè)產(chǎn)品的判定正確的比例。廣泛使用 的這類指標(biāo)有準(zhǔn)確率、召回率。準(zhǔn)確率定義為系統(tǒng)的推薦列表中用戶喜歡的產(chǎn)品 和所有被推薦產(chǎn)品的比率;召回率指推薦列表中用戶喜歡的產(chǎn)品與系統(tǒng)中用戶喜 歡的所有產(chǎn)品的比率。準(zhǔn)確率和召回率在一定程度上是一對(duì)相對(duì)矛盾的指標(biāo),為 了平衡兩者,通常采用綜合評(píng)價(jià)指標(biāo)f - m e a s u r e n 9 : 一 2 卜撇一5 萬(wàn)= 習(xí)焉 ( 2 4 ) 其中,p r e c i s i o n 為準(zhǔn)確率,r e c a l l 為召回率。 1 2 江蘇大學(xué)碩士學(xué)位論文 在實(shí)際應(yīng)用中,發(fā)現(xiàn)準(zhǔn)確率高的推薦系統(tǒng)并不能保證用戶對(duì)其推薦結(jié)果的滿 意度。推薦系統(tǒng)不僅需要高的準(zhǔn)確率,還需要得到用戶的認(rèn)可,而后者才是更本 質(zhì)的,因此除了準(zhǔn)確率之外,度量推薦系統(tǒng)的評(píng)價(jià)指標(biāo)還包括推薦的流行性和多 樣性、覆蓋率、新鮮性和意外性以及用戶的滿意度等指標(biāo)。 2 1 4 個(gè)性化推薦系統(tǒng)的分類 個(gè)性化推薦系統(tǒng)有不同的劃分。根據(jù)推薦對(duì)象的特點(diǎn),目前主要有兩類個(gè)性 化推薦系統(tǒng):一種是以網(wǎng)頁(yè)為對(duì)象的個(gè)性化推薦系統(tǒng),主要采用w e b 數(shù)據(jù)挖掘 技術(shù),為用戶推薦符合其興趣愛(ài)好的網(wǎng)頁(yè);另一種是以商品為推薦對(duì)象的個(gè)性化 推薦系統(tǒng),為用戶推薦符合其興趣愛(ài)好的各類商品,這種推薦系統(tǒng)是一般意義上 的電子商務(wù)個(gè)性化推薦系統(tǒng)。 依據(jù)個(gè)性化推薦系統(tǒng)采用的技術(shù)不同,可將其分為:基于聚類分析的個(gè)性化 推薦系統(tǒng)、基于規(guī)則的個(gè)性化推薦系統(tǒng)、基于知識(shí)的個(gè)性化推薦系統(tǒng)和基于a g e n t 的個(gè)性化推薦系統(tǒng)等。 由于推薦系統(tǒng)有兩個(gè)分類標(biāo)準(zhǔn),即自動(dòng)化程度和持久性程度,如果個(gè)性化推 薦系統(tǒng)也依此為標(biāo)準(zhǔn)的話,則可分為:基于商品特征的個(gè)性化推薦系統(tǒng)、基于相 關(guān)商品的個(gè)性化推薦系統(tǒng)和基于相關(guān)客戶的個(gè)性化推薦系統(tǒng)。自動(dòng)化程度是指用 戶為了得到推薦系統(tǒng)的推薦需要顯性輸入信息的程度;持久性程度是指推薦系統(tǒng) 產(chǎn)生的推薦是基于用戶當(dāng)前的單個(gè)會(huì)話還是多個(gè)會(huì)話,是暫時(shí)的還是持久的?;?于商品特征的個(gè)性化推薦系統(tǒng)是根據(jù)用戶輸入的其偏好的商品特征進(jìn)行推薦;基 于相關(guān)商品的個(gè)性化推薦系統(tǒng)主要根據(jù)商品的聚類,推薦用戶偏好商品的相似商 品;基于相關(guān)客戶的個(gè)性化推薦系統(tǒng)即基于用戶的協(xié)同過(guò)濾推薦系統(tǒng),它根據(jù)用 戶對(duì)商品的評(píng)價(jià)找到有相似愛(ài)好的用戶,再使用相似用戶的觀點(diǎn)對(duì)目標(biāo)用戶產(chǎn)生 推薦。 2 2 個(gè)性化推薦方法 個(gè)性化推薦方法是個(gè)性化推薦系統(tǒng)中最核心的技術(shù),很大程度上決定了推薦 系統(tǒng)性能的優(yōu)劣。電子商務(wù)個(gè)性化推薦方法大致可以分為主動(dòng)式推薦和被動(dòng)式推 薦。主動(dòng)式推薦是指系統(tǒng)根據(jù)對(duì)用戶信息和行為的分析,給出符合用戶需要的商 江蘇大學(xué)碩士學(xué)位論文 品或信息;而被動(dòng)式推薦是指用戶通過(guò)自己的努力在系統(tǒng)的幫助下獲得所需要的 商品或信息,如網(wǎng)絡(luò)信息的瀏覽、關(guān)鍵字查詢等。被動(dòng)式推薦方法主要有分類瀏 覽和關(guān)鍵詞搜索,智能化程度低,不能發(fā)現(xiàn)用戶的潛在興趣與需求,因此目前研 究比較多的是主動(dòng)式推薦,主要有協(xié)同過(guò)濾推薦、基于內(nèi)容的推薦、基于關(guān)聯(lián)規(guī) 則的推薦、基于用戶統(tǒng)計(jì)信息的推薦、基于效用的推薦、基于知識(shí)的推薦等,下 面進(jìn)行簡(jiǎn)單的介紹。個(gè)性化推薦技術(shù)分類如圖2 2 所示。 2 2 1 協(xié)同過(guò)濾推薦 圖2 2 個(gè)性化推薦技術(shù)分類圖 協(xié)同過(guò)濾推薦是目前研究最多、應(yīng)用最廣的推薦技術(shù),它的基本思想是根據(jù) 與當(dāng)前用戶具有相似觀點(diǎn)的用戶的行為對(duì)該用戶進(jìn)行推薦或者預(yù)測(cè),個(gè)性化程度 高。協(xié)同過(guò)濾推薦就是根據(jù)一個(gè)用戶對(duì)其它項(xiàng)目的評(píng)分以及相似用戶群的評(píng)分記 錄來(lái)預(yù)測(cè)這個(gè)用戶對(duì)某一未評(píng)分項(xiàng)目的評(píng)分。對(duì)協(xié)同過(guò)濾最早的研究有g(shù) r u n d y s y s t e m 闐,后來(lái)的研究成果包括t a p e s t r ys y s t e m 1 ,g r o u p l e n s 瞳射,r i n g o 瞳引, p h o a k ss y s t e m 乜4 1 ,j e s t e rs y s t e m 乜朝等。t a p e s t r y 是最早提出的個(gè)性化協(xié)同過(guò)濾推 薦系統(tǒng)。用戶需要明確指出與自己興趣愛(ài)好相似的其他用戶,推薦系統(tǒng)根據(jù)指定 的其他用戶對(duì)商品的評(píng)價(jià)產(chǎn)生推薦結(jié)果。g r o u p l e n s 是最早提出的的自動(dòng)個(gè)性化 協(xié)同過(guò)濾推薦系統(tǒng),用于從大量的新聞中搜索用戶感興趣的新聞列表。 由于協(xié)同過(guò)濾推薦只需知道用戶對(duì)項(xiàng)目的評(píng)價(jià),而無(wú)需關(guān)心項(xiàng)目的具體內(nèi) 1 4 江蘇大學(xué)碩士學(xué)位論文 容,所以其最大優(yōu)點(diǎn)是對(duì)推薦對(duì)象即項(xiàng)目沒(méi)有特殊要求,能處理非結(jié)構(gòu)化的復(fù)雜 對(duì)象,如音樂(lè)、電影等,它可以實(shí)現(xiàn)跨領(lǐng)域的推薦,能發(fā)現(xiàn)內(nèi)容上完全無(wú)關(guān)的項(xiàng) 目,用戶對(duì)推薦的內(nèi)容是預(yù)料不到的。但也存在許多問(wèn)題,如用戶對(duì)商品的評(píng)價(jià) 矩陣非常稀疏即稀疏問(wèn)題、冷開(kāi)始問(wèn)題,隨著系統(tǒng)用戶和商品的增多,系統(tǒng)的性 能越來(lái)越低即可擴(kuò)展性問(wèn)題等等。 輸入( 顯式或隱式評(píng)價(jià)值)輸出預(yù)測(cè)結(jié)果 預(yù)測(cè)引擎 k 圖2 3 協(xié)i 司過(guò)濾推薦系統(tǒng)構(gòu)成 協(xié)同過(guò)濾系統(tǒng)由輸入,預(yù)測(cè)引擎,輸出結(jié)果三部分構(gòu)成,如圖2 3 所示。協(xié) 同過(guò)濾推薦系統(tǒng)的輸入可以是用戶當(dāng)i j 的行為,也可以是用戶的訪問(wèn)歷史。在大 型的電子商務(wù)系統(tǒng)中,為了產(chǎn)生高質(zhì)量的推薦,推薦系統(tǒng)可能需要多種類型的輸 入信息。協(xié)同過(guò)濾推薦系統(tǒng)的輸出形式主要包括相關(guān)商品信息、個(gè)體對(duì)商品的評(píng) 分等等。 假設(shè)一個(gè)推薦系統(tǒng)有m 個(gè)用戶和胛個(gè)項(xiàng)目,那么這個(gè)系統(tǒng)可表述為一個(gè) m 以的用戶一項(xiàng)評(píng)價(jià)矩陣r = h ) ,其中表示第f 個(gè)用戶對(duì)第個(gè)項(xiàng)的評(píng)價(jià)值, 即用戶f 對(duì)項(xiàng)目,的興趣度,具體指用戶是否瀏覽了該項(xiàng)或者對(duì)該項(xiàng)的喜好程度, 如果用戶,沒(méi)有對(duì)項(xiàng)目,進(jìn)行過(guò)評(píng)分,一般我們令= o 。那么協(xié)同過(guò)濾推薦可以 看成是預(yù)測(cè)評(píng)價(jià)矩陣r 中缺失元素,并選出預(yù)測(cè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 西華師范大學(xué)《商務(wù)文案設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 西安理工大學(xué)《跨文化商務(wù)交際導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年高鐵站區(qū)建筑勞務(wù)清包合同
- 2024版條碼設(shè)備維護(hù)保養(yǎng)協(xié)議版
- 2024房地產(chǎn)買賣合同(含裝修及配套設(shè)施)
- 二零二五年度跨境電商代理運(yùn)輸服務(wù)協(xié)議
- 2024版禁牧管理員合同
- 2024版二人合作創(chuàng)業(yè)開(kāi)店協(xié)議要覽版B版
- 二零二五年度能源行業(yè)核心技術(shù)人員保密及競(jìng)業(yè)限制合同2篇
- 二零二五版國(guó)有企業(yè)法人借款合同合規(guī)審查要點(diǎn)3篇
- 電商公司售后服務(wù)管理制度
- 火災(zāi)應(yīng)急處理課件
- 創(chuàng)新者的逆襲3:新質(zhì)生產(chǎn)力的十八堂案例課-記錄
- 2024年河南省公務(wù)員考試《行測(cè)》真題及答案解析
- 2022-2024北京初三二模英語(yǔ)匯編:話題作文
- 人教版八年級(jí)英語(yǔ)上冊(cè)Unit1-10完形填空閱讀理解專項(xiàng)訓(xùn)練
- 2024年湖北省武漢市中考英語(yǔ)真題(含解析)
- GB/T 44561-2024石油天然氣工業(yè)常規(guī)陸上接收站液化天然氣裝卸臂的設(shè)計(jì)與測(cè)試
- 《城市綠地設(shè)計(jì)規(guī)范》2016-20210810154931
- 網(wǎng)球場(chǎng)經(jīng)營(yíng)方案
- 2024年公司保密工作制度(四篇)
評(píng)論
0/150
提交評(píng)論