(管理科學(xué)與工程專業(yè)論文)基于混合算法的個性化電子商務(wù)推薦系統(tǒng)研究.pdf_第1頁
(管理科學(xué)與工程專業(yè)論文)基于混合算法的個性化電子商務(wù)推薦系統(tǒng)研究.pdf_第2頁
(管理科學(xué)與工程專業(yè)論文)基于混合算法的個性化電子商務(wù)推薦系統(tǒng)研究.pdf_第3頁
(管理科學(xué)與工程專業(yè)論文)基于混合算法的個性化電子商務(wù)推薦系統(tǒng)研究.pdf_第4頁
(管理科學(xué)與工程專業(yè)論文)基于混合算法的個性化電子商務(wù)推薦系統(tǒng)研究.pdf_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

內(nèi)容摘要 隨著互聯(lián)網(wǎng)的普及與電子商務(wù)的快速發(fā)展,用戶在選擇商品時,面臨著越來越嚴(yán)重的 信息超載的f q 題。因此,許多電子商務(wù)網(wǎng)站研究開發(fā)了推薦系統(tǒng)為用戶進(jìn)行個性化信息推 薦服務(wù)推薦系統(tǒng)模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而 順利完成購買過程。隨著推薦系統(tǒng)的廣泛應(yīng)用,出現(xiàn)許多問題與挑戰(zhàn),主要包括:推薦質(zhì) 量、推薦實時性、數(shù)據(jù)稀疏性、冷啟動等問題為了解決以上問題,本文著重對推薦系統(tǒng) 及其核心的推薦方法進(jìn)行研究 首先,研究推薦系統(tǒng)。針對推薦質(zhì)量和實時性要求,構(gòu)建合理的推薦系統(tǒng)。將推薦系 統(tǒng)劃分為在線實時推薦和模型處理兩部分用戶在線瀏覽電子商務(wù)網(wǎng)站時,在線部分實時 輸出反映用戶興趣的個性化推薦列表模型處理部分主要根據(jù)所收集的數(shù)據(jù)以及不同的模 型算法,得到模型輸出,作為在線推薦的依據(jù)特另0 提出對于新用戶和新商品采用結(jié)合不 同方法的推薦機(jī)制,在一定程度上解決冷啟動問題,提高推薦質(zhì)量。 其次,研究推薦方法。推薦方法主要包括:基于內(nèi)容推薦、協(xié)同過濾推薦、混合推薦、 數(shù)據(jù)挖掘等方法其中,協(xié)同過濾算法是比較成功的推薦方法而針對基于聚類的協(xié)同過 濾推薦算法的效率和質(zhì)量方面的不足,提出使用f u z z ya r t 算法,發(fā)揮其學(xué)習(xí)性與適應(yīng)性 的特點。建立基于f u z z ya r t 的推薦算法,進(jìn)行實驗分析,并與傳統(tǒng)方法進(jìn)行比較,證明 f u z z ya r t 算法有助于提高推薦質(zhì)量 再次,針對f u z z ya r t 算法存在的數(shù)據(jù)稀疏性問題和冷啟動問題,提出使用f u z z ya r t 結(jié)合基于內(nèi)容的改進(jìn)推薦方法將商品特征信息與用戶的偏好結(jié)合,得到用戶偏好模型 根據(jù)用戶偏好模型利用f u z z ya r t 分類,預(yù)測用戶的推薦結(jié)果比較分析結(jié)果顯示結(jié)合基 于內(nèi)容的推薦方法在一定程度上解決稀疏性問題,提高推薦效果此外,結(jié)合基于內(nèi)容的 推薦方法可以促進(jìn)對新商品的推薦。 最后,考慮用戶信息對推薦質(zhì)量的影響,進(jìn)行改進(jìn)得到混合算法用戶購買商品可能 不僅僅與商品特征及偏好有關(guān),用戶的基本信息如年齡、職業(yè)、性別等也具有一定的相關(guān) 性考慮將用戶信息作為調(diào)整加入到分類的結(jié)果中,形成混合算法,實驗分析得出其推薦 質(zhì)量是以上算法中最好的另外,對于新用戶,即只有用戶基本信息沒有偏好數(shù)據(jù)的情況 下,可以根據(jù)用戶信息找到相似用戶,解決冷啟動問題 關(guān)鍵字:推薦系統(tǒng),f u z z ya r t ,基于內(nèi)容的推薦,基于用戶的推薦,混合算法 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n de - c o m m e r c e ,c o n s u m e r sm a yb ec o n f r o n t e dw i t ht h e s e r i o u sp r o b l e mo fi n f o r m a t i o no v e r l o a d i n gw h e nt h e yc h o o s ec o m m o d i t i e s t h e r e f o r e ,m a n y e c o m m e r c ew e bs i t e sr e s e a r c ha n dd e v e l o pr e c o m m e n d a t i o ns y s t e mt op r o v i d ec o n s u m e r s i n d i v i d u a lr e c o m m e n d a t i o ns e r v i c e s 1 1 l er e c o m m e n d a t i o ns y s t e mw o r k sl i k es a l e s m a nw h o g i v e sc o n s u m e r sa d v i c e sa n dh e l p st h e mt o f i n dw h a tt h e yn e e d w i t ht h ew i d eu s i n go ft h e s y s t e m s ,m a n yp r o b l e m sa n dc h a l l e n g e sc o m eo u t f o re x a m p l e s ,t h ec o n f l i c to fr e c o m m e n d a t i o n q u a l i t ya n dr e a lt i m e ,s p a r s i t y o fd a t a ,c o l ds t a r ta n de t c t h i sp a p e rr e s e a r c h e so nt h e r e c o m m e n d a t i o ns y s t e m sa n dr e c o m m e n d a t i o nm e t h o dw h i c hi st h eh e a r to ft h es y s t e m st os o l v e t h e s ep r o b l e m s f i r s t l y , t h ep a p e rr e s e a r c h e so nt h er e c o m m e n d a t i o ns y s t e m s a c c o r d i n gt ot h ep r o b l e m so f r e c o m m e n d a t i o nq u a l i t ya n dr e a lt i m er e q u i r e m e n t ,t h es y s t e mm u s tb eb u i l tm o r er e a s o n a b l y i t i sc o m p o s e do ft w op a r t s ,t h eo n l i n er e a lt i m er e c o m m e n d a t i o np a r ta n dt h em o d e lp r o c e s s i n g p a r t t h ef i r s to n ep r e s e n t st h er e c o m m e n d a t i o nl i s tt o t h eu s e r sw h e nt h e yb r o w s et h e e c o m m e r c ew e bs i t e s t h em o d e lp r o c e s s i n gp a r tc o l l e c t sd a t aa n du s c sd i f f e r e n tm o d e l st o h a v et h eo u t p u t so fm o d e l sw h i c ha r et h eb a s e so ft h eo n l i n ep a r t e s p e c i a l l bt h es y s t e mh a st h e m e t h o d st or e c o m m e n dt h en e wu s e r sa n dn e wc o m m o d i t i e s 碭es t r u c t u r eo ft h es y s t e mc a l l h e l pt os o l v et h ec o l ds t a r tp r o b l e m sa n di m p r o v e st h er e c o m m e n dq u a l i t y s e c o n d l y ,t h ep a p e rr e s e a r c h e so nt h er e c o m m e n d a t i o nm e t h o d s e x i s t i n gm e t h o d si n c l u d e c o n t e n tb a s e dr e c o m m e n d a t i o n ,c o l l a b o r a t i v ef i l t e r , m i x e dm e t h o d ,d a t am i n i n ga n de t c a m o n g t h ea b o v e ,c o l l a b o r a t i v ef i l t e ri su s e dm o r ef r e q u e n t l ya n ds u c c e s s f u l t h e r e f o r e ,t h ep a p e ru s e s t h ef u z z ya i 盯a l g o r i t h mb a s e do nc o l l a b o r a t i v ef i l t e ra n dd a t am i n i n g t h ee x p e r i m e n t a lr e s u l t s s h o wt h ea l g o r i t h mh a sb e r e rr e c o m m e n d a t i o nq u a l i t yt h a nt h eo l dm e t h o d t h i r d l y , a c c o r d i n gt ot h es p a r s i t yo fd a t aa n dc o l ds t a r tp r o b l e m ,t h ep a p e ra d v a n c e st h e f u z z ya r ta l g o r i t h mw i t ht h ec o n t e n tb a s e dr e c o m m e n d a t i o nm e t h o d t h en e w m e t h o du s e st h e i n f o r m a t i o no fc o m m o d i t yc h a r a c t e r sa n di n t e r e s to fu s e r st op r o c e s st h ei n t e r e s t e dm o d e l 1 1 l c m o d e l i sc l a s s i f i e db yf u z z ya r ta n dt h e ni tp r e d i c t st h er e s u l to fr e c o m m e n d a t i o n c o m p a r e w i t hf u z z ya r t , t h en e wm e t h o dh e l p st os o l v et h es p a r s i t yo fd a t a o t h e r w i s e ,i ti m p r o v e st h e r e c o m m e n d a t i o no fn e wc o m m o d i t i e s f i n a l l y , c o n s i d e rt h ei n f l u e n c eo fu s e ri n f o r m a t i o nt ot h er e c o m m e n d a t i o nq u a l i t y , t h em i x e d m e t h o di sa d v a n c e df u r t h e r t h eb a s i ci n f o r m a t i o no fu s e r sl i k ea g e o c c u p a t i o na n dg e n d e ra r e r e l a t e dt ot h eb e h a v i o r so fp u r c h a s e t h em i x e dm e t h o du s e st h ei n f o r m a t i o nt oa d j u s tt h er e s u l t o fc l a s s i f y t h ee x p e r i m e n t a ls h o wt h a tt h em i x e dm e t h o di st h eb e s to ft h eo t h e ro n e s m e a n w h i l e ,t h em e t h o dc a ns o l v et h ec o l ds t a r tp r o b l e ma b o u tn e wu s e r sw h oh a v en o ta n y i n t e r e s t i n gd a t a t h em e t h o do n l yu s e st h ei n f o r m a t i o no fu s e r st of i n dt h e i rs i m i l a rn e i g h b o r si n o r d e rt og i v et h e ma d v i c e s k e yw o l :d s :r e c o m m e n d a t i o ns y s t e m ;f u z z ya r t ;c o n t e n tb a s e d 心c o m m e n d a t i o n ;u s e r b a s e dr e c o m m e n d a t i o n ;m i x e da l g o r i t h m i i 獨創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得 的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不 包含其他人己經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得天津財經(jīng)大學(xué)或 其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究 所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。 學(xué)位論文作者簽名:歹勃猙 簽字日期:w 誘耵月如日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解天津財經(jīng)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定, 有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查 閱和借閱。本人授權(quán)天津財經(jīng)大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有 關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位 論文, ( 保密的學(xué)位論文在解密后適用本授權(quán)書) 學(xué)位論文作者簽名:槲 導(dǎo)師簽名:學(xué)位論文作者簽名:,鴿阿玎導(dǎo)師簽名: 簽字日期:耐年j 月砌日 簽字日期:蜥j 。月易日 學(xué)位論文作者畢業(yè)后去向: 一 工作單位:托布彩砍通黼礪夠鐳k :j 多衫秒殄乞冶吖 通訊地址:托互葬衣區(qū)翻奶揚卟智礁郵編: - 循卅 第1 章引言 1 1 問題提出 隨著互聯(lián)網(wǎng)的普及和信息技術(shù)的日新月異,網(wǎng)絡(luò)信息不斷膨脹,電子商務(wù)規(guī)模不斷擴(kuò) 大,為用戶提供越來越多的商品選擇。然而用戶面對大量的商品信息往往會束手無策,經(jīng) 常迷失在大量的商品信息空間中。信息超載增加了用戶購買所需商品的難度,用戶在找到 自己需要的商品之前,必須瀏覽大量的無關(guān)信息。因此,用戶對個性化信息服務(wù)的要求越 來越高。為了滿足用戶需求,電子商務(wù)推薦系統(tǒng)應(yīng)運而生。 推薦系統(tǒng)模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利 完成購買過程,因此可以有效保留用戶,提高電子商務(wù)系統(tǒng)的銷售。個性化的推薦可以將 瀏覽者變成購買者。依據(jù)客戶的偏好或興趣,適時的提供客戶可能有所需求的潛在信息, 可能引起瀏覽者的購買欲望,進(jìn)而成為購買者。同時透過對客戶推薦額外的產(chǎn)品來產(chǎn)生交 叉銷售的效益,若所推薦的產(chǎn)品符合客戶的需求,便可以提高交叉購買的機(jī)會。此外,個 性化推薦服務(wù)可以改善企業(yè)與消費者的關(guān)系,透過與客戶良好的互動關(guān)系,以了解客戶的 需求,提高客戶的忠誠度,降低客戶流失率。從紐約c y b e rd i a l o g u e 調(diào)查中可發(fā)現(xiàn)接受 個性化服務(wù)的網(wǎng)絡(luò)消費者的消費金額比未使用個性化服務(wù)的網(wǎng)絡(luò)消費者的消費金額要高。 在2 0 0 2 年,接受個性化服務(wù)的客戶的消費在2 0 0 0 美元以上的比例為2 8 ,高于未接受 個性化服務(wù)的客戶的1 7 ,且有2 1 的接受個性化服務(wù)的客戶愿意為線上的訂閱付費,高 于未接受個性化服務(wù)的客戶l l 惻。 由于推薦系統(tǒng)能夠促進(jìn)消費,贏得客戶,許多大型電子商務(wù)網(wǎng)站開始提供各種推薦服 務(wù),如e b a y ,a m a z o n 等。然而電子商務(wù)推薦系統(tǒng)在實際應(yīng)用過程中,出現(xiàn)許多問題與挑戰(zhàn)。 因此,推薦系統(tǒng)的研究受到廣泛關(guān)注。其中實時性與推薦質(zhì)量之間的平衡是推薦系統(tǒng)中存 在的一對矛盾問題。大部分推薦方法在保證實時性要求的同時,是以犧牲推薦系統(tǒng)的推薦 質(zhì)量為前提的。在提供實時推薦服務(wù)的同時,如何有效提高推薦系統(tǒng)的推薦質(zhì)量,需要做 進(jìn)一步深入的研究。同時,對于推薦系統(tǒng)的核心部分推薦方法,面臨稀疏性與冷啟動問題。 在許多推薦系統(tǒng)中,每個用戶涉及的信息量相當(dāng)有限,造成評估矩陣數(shù)據(jù)相當(dāng)稀疏,難以 找到相似用戶集,導(dǎo)致推薦效果大大降低。冷啟動問題分為新項目問題和新用戶問題。如 果一個新項目沒有人去評價它,則這個項目肯定得不到推薦,推薦系統(tǒng)就失去了作用。同 樣,如果一個新用戶從未對系統(tǒng)中的項目進(jìn)行評價,則系統(tǒng)無法獲知他的興趣點,也就無 法對他進(jìn)行推薦。 為了解決以上問題,增強(qiáng)電子商務(wù)推薦系統(tǒng)的適用性,本文對推薦系統(tǒng)和推薦算法進(jìn) 行研究。在一定程度上克服數(shù)據(jù)稀疏性和冷啟動問題,提高推薦質(zhì)量與效率,從而進(jìn)一步 促進(jìn)電子商務(wù)推薦系統(tǒng)的發(fā)展與應(yīng)用。 1 2 研究現(xiàn)狀 1 2 1 推薦系統(tǒng) 隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,推薦系統(tǒng)逐漸成為電子商務(wù)i t 技術(shù)的一個重 要研究內(nèi)容,得到越了來越多研究者的關(guān)注。電子商務(wù)推薦系統(tǒng)( r e c o m m e n d e rs y s t e mi n e - c o m m e r c e ) 正式的定義是r e s n i c k & v a r i a n 在1 9 9 7 年給出的。a c m 從1 9 9 9 年開始每年召 開一次電子商務(wù)的研討會,其中關(guān)于電子商務(wù)推薦系統(tǒng)的研究文章占據(jù)了很大比重。第7 屆國際人工智能聯(lián)合會議則把e - b u s i n e s s t h ei n t e l l i g e n tw e b 作為一個獨立的研討 小組。第十五屆人工智能會議、第一屆知識管理應(yīng)用會議等也紛紛開始將電子商務(wù)推薦系 統(tǒng)作為研究主題。近年來我國也比較重視i n t e r n e t 智能推薦方面的研究工作,自然科學(xué) 基金也曾資助過“面向電子商務(wù)的客戶偏好分析與個性化分析系統(tǒng) 、“電子商務(wù)個性推薦 系統(tǒng)及應(yīng)用研究 。 推薦系統(tǒng)是一種為了減少使用者在搜尋信息過程中所附加的額外成本而提出的信息 過濾( i n f o r m a t i o nf il t e r i n g ,i f ) 機(jī)制。r e s n i c k 認(rèn)為一般信息過濾系統(tǒng)也泛稱為推薦系 統(tǒng),它不僅可以依據(jù)使用者的偏好、興趣、行為或需求,推薦出使用者可能有所需求的潛 在信息、服務(wù)或產(chǎn)品,還可以將推薦系統(tǒng)與企業(yè)電子商務(wù)的營運架構(gòu)整合,將為企業(yè)帶來 許多潛在的利益。 1 2 2 推薦方法 推薦方法是推薦系統(tǒng)的核心部分,許多國內(nèi)外學(xué)者對于推薦技術(shù)進(jìn)行深入的研究,提 出了多種方法。典型的電子商務(wù)推薦技術(shù)如下: ( 1 ) 基于規(guī)則的推薦 基于規(guī)則的推薦方法允許系統(tǒng)管理員根據(jù)用戶的靜態(tài)特征和動態(tài)屬性來制定規(guī)則,一 個規(guī)則本質(zhì)上是一個i f t h e n 語句,規(guī)則決定了在不同的情況下提供不同的服務(wù)1 ?;?于規(guī)則的推薦,其優(yōu)點是簡單、直接,缺點是規(guī)則質(zhì)量很難保證,而且不能動態(tài)更新。此 外,隨著規(guī)則的數(shù)量增多,系統(tǒng)將變得越來越難以管理。 ( 2 ) 基于內(nèi)容過濾的推薦 基于內(nèi)容過濾的推薦方法,利用資源與用戶興趣的相似性來過濾信息?;趦?nèi)容的推 薦系統(tǒng)通過將客戶的偏好與產(chǎn)品內(nèi)容自動匹配來給客戶提供建議,在基于內(nèi)容的系統(tǒng)中, 產(chǎn)品由其普通屬性描述??蛻羝猛ㄟ^分析產(chǎn)品比率以及相應(yīng)的產(chǎn)品屬性來預(yù)測。b y e s i a n 概率模型、遺傳算法以及其它機(jī)器學(xué)習(xí)技術(shù)也被廣泛應(yīng)用于用戶檔案的建立和更新嘲m 1 。 基于內(nèi)容過濾的系統(tǒng),其優(yōu)點是簡單、有效。缺點是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,而 且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶已有興趣相似的資源?;趦?nèi)容的 推薦系統(tǒng)不能用于僅僅實施一次購買行為新客戶,或者訪問了該網(wǎng)站,卻沒有實施任何購 買行為的潛在客戶,以及不是特別經(jīng)常購買的一種產(chǎn)品的客戶。 ( 3 ) 協(xié)同過濾推薦 協(xié)同過濾推薦方法利用用戶之間的相似性來過濾信息,是當(dāng)今推薦技術(shù)的主流。協(xié)同 性的推薦系統(tǒng)估計客戶對特定產(chǎn)品的偏好是根據(jù)客戶對該產(chǎn)品的偏好率以及其他客戶對 同一產(chǎn)品的偏好率的比較來實現(xiàn)的?;趨f(xié)同過濾推薦的優(yōu)點是能為用戶發(fā)現(xiàn)的新的感興 趣的信息。協(xié)同過濾推薦技術(shù)也存在自身的不足,一是稀疏性,即在推薦系統(tǒng)使用初期, 由于系統(tǒng)資源還未獲得足夠多的評價,系統(tǒng)很難利用這此評價來發(fā)現(xiàn)相似的用戶。另一個 是可擴(kuò)展性,亦即隨著系統(tǒng)用戶和資源的增多,系統(tǒng)的性能會越來越低。 k a r y p i s 等人提出根據(jù)項之間的相似性提供推薦服務(wù),從而有效提高推薦質(zhì)量口兒鍆。許 多研究學(xué)者也提出不同的改進(jìn)算法包括通過圖搜索計算用戶最近鄰居的優(yōu)化算法。對用戶 最近鄰居和項均采用不同權(quán)重的方法改進(jìn)推薦質(zhì)量口刀。對各種用戶間相似性度量方法進(jìn)行 了分析,提出了各種改進(jìn)方法旬。隨著電子商務(wù)規(guī)模的擴(kuò)大,推薦系統(tǒng)的實時性研究逐 漸成為研究熱點,數(shù)據(jù)挖掘技術(shù)被廣泛使用。s a r w a r 等人提出了基于關(guān)聯(lián)規(guī)則挖掘的推薦 系統(tǒng)。聚類分析將用戶劃分為不同的組,從而有效減小搜索空間,提高最近鄰居搜索速度 哳兒川。遺傳算法、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)技術(shù)也在推薦系統(tǒng)中得到應(yīng)用,并且以其良好的適 應(yīng)性和學(xué)習(xí)能力越來越受到重視。提出基于自組織特征映射s o m 神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾推薦 系統(tǒng)口們。 此外,由于結(jié)合不同的推薦過濾技術(shù)可以克服各自的一些缺點,提高推薦質(zhì)量,許多 混合推薦技術(shù)被研究者所關(guān)注。b a l a b a n o v i c 等人提出通過基于內(nèi)容的過濾和協(xié)同過濾的 復(fù)合型推薦系統(tǒng)n 1 ,知識工程與協(xié)同過濾結(jié)合n 1 ,基于用戶與項目的協(xié)同過濾推薦系統(tǒng)等喳1 。 由于推薦系統(tǒng)在實際應(yīng)用中存在各種問題,現(xiàn)有的推薦方法在解決不同問題方面發(fā)揮 作用不同,存在各自的優(yōu)缺點。本文針對推薦質(zhì)量與效率、數(shù)據(jù)稀疏性和冷啟動問題進(jìn)行 研究。在原有技術(shù)基礎(chǔ)上,提出改進(jìn)方法,完善與發(fā)展推薦系統(tǒng)。 1 3 本文主要工作 1 3 1 本文主要研究內(nèi)容 3 針對電子商務(wù)推薦系統(tǒng)面臨的各種問題,本文對電子商務(wù)推薦系統(tǒng)以及其核心的推薦 方法進(jìn)行探索與研究。由于電子商務(wù)系統(tǒng)本身的復(fù)雜性,商品和用戶信息眾多,為保證推 薦質(zhì)量和實時性,要求構(gòu)建合理的推薦系統(tǒng)并界定推薦系統(tǒng)的適用范圍。明確推薦系統(tǒng)需 要管理商品信息、用戶注冊信息、評分信息等數(shù)據(jù)以及推薦方法、模型、結(jié)果等內(nèi)容???慮到推薦方法運行效率和推薦實時性的要求,將系統(tǒng)分為在線實時推薦和模型處理兩部 分。模型處理部分根據(jù)推薦方法處理數(shù)據(jù)得到模型,當(dāng)用戶瀏覽網(wǎng)頁時,在線推薦根據(jù)模 型結(jié)果實時輸出推薦列表,反饋給用戶。由于模型處理可以不實時進(jìn)行,從而提高推薦系 統(tǒng)的執(zhí)行效率。在線實時推薦部分根據(jù)不同的情況,執(zhí)行不同的推薦策略。特別是對于新 用戶和新商品采用不同推薦方法,在一定程度上解決冷啟動問題,提高推薦質(zhì)量。 推薦系統(tǒng)的核心部分是推薦方法。提出基于混合算法的推薦方法,對于推薦方法的研 究主要分為三個步驟,不斷的改進(jìn)與完善算法。 ( 1 ) 采用基于f u z z ya r t 的推薦方法 通?;诰垲惖膮f(xié)同過濾推薦方法是對給定的樣本集進(jìn)行分析,構(gòu)成聚類簇。當(dāng)樣本 集發(fā)生變化時,則需要重新進(jìn)行分析,構(gòu)造新的簇類,不能只用新加樣本進(jìn)行補(bǔ)充。由于 電子商務(wù)系統(tǒng)中數(shù)據(jù)變化頻繁,這種不適應(yīng)性限制了聚類方法應(yīng)用。自適應(yīng)共振理論a r t 在一定程度上提高了聚類的適應(yīng)性。它可以實時學(xué)習(xí),對已學(xué)習(xí)的對象具有穩(wěn)定的快速識 別能力,同時又適應(yīng)未學(xué)習(xí)對象。因此,使用基于f u z z ya r t 聚類的協(xié)同推薦技術(shù),提高 推薦質(zhì)量和實時性。 ( 2 ) 將f u z z ya r t 算法與基于內(nèi)容的推薦方法相結(jié)合 基于f u z z ya r t 的推薦技術(shù)是依據(jù)協(xié)同過濾技術(shù)的原理進(jìn)行的推薦,其適用范圍有一 定局限性,推薦只適用于具有某些特征的商品,對于不同類型商品推薦質(zhì)量較低且不能克 服稀疏性問題。為擴(kuò)大協(xié)同過濾的適用性范圍。需要利用基于內(nèi)容的推薦技術(shù)。將商品特 征信息與用戶的偏好結(jié)合,商品分為不同特征屬性,匯總每個用戶在不同的特性上偏好值, 得到用戶偏好模型。根據(jù)用戶偏好模型利用f u z z ya r t 分類,在不同特征上具有相似偏好 的用戶將成為鄰居,以便于進(jìn)行實時推薦。此外,結(jié)合基于內(nèi)容的推薦技術(shù)可以促進(jìn)對新 商品的推薦,是解決冷啟動問題的有效推薦方法。 ( 3 ) 結(jié)合用戶信息的推薦方法形成混合算法 在電子商務(wù)中,用戶購買商品可能不僅僅與商品特征及偏好有關(guān),用戶的基本信息如 年齡、職業(yè)、地區(qū)等也具有一定的相關(guān)性。考慮將用戶信息作為調(diào)整加入到聚類的結(jié)果中, 從麗提高推薦質(zhì)量。研究將用戶的基本信息統(tǒng)一處理,便于進(jìn)行比較。利用結(jié)合基于內(nèi)容 的f u z z ya r t 算法得到的聚類簇,根據(jù)每個簇中的用戶信息進(jìn)行比較得到相似性比較矩陣, 在進(jìn)行推薦時,選擇最近鄰時,將用戶相似性比較結(jié)果作為加權(quán),調(diào)整推薦結(jié)果。特別是 對于新用戶,即只有用戶基本信息沒有偏好數(shù)據(jù)的情況下,根據(jù)用戶信息找到相似用戶, 解決冷啟動問題。 在研究推薦方法時,每一部實現(xiàn)算法分別進(jìn)行比較測試,評價分析推薦結(jié)果,驗證推 薦方法的有效性。 1 3 2 本文結(jié)構(gòu) 圖1 1 本文結(jié)構(gòu)圖 第一章引言部分提出電子商務(wù)推薦系統(tǒng)研究中存在問題,對推薦系統(tǒng)的一些基本概念 和研究現(xiàn)狀進(jìn)行了簡單介紹,并說明本文的主要工作。 第二章對電子商務(wù)推薦系統(tǒng)進(jìn)行綜述,包括推薦系統(tǒng)的概念、分類、組成模塊。并且 詳細(xì)介紹了作為推薦系統(tǒng)核心的各種推薦方法。此外,介紹了電子商務(wù)推薦系統(tǒng)實例。 第三章主要是構(gòu)建基于混合算法的個性化電子商務(wù)推薦系統(tǒng)。針對推薦實時性和推薦 質(zhì)量要求,合理的構(gòu)建推薦系統(tǒng)基本框架。明確系統(tǒng)的適用范圍,詳細(xì)描述推薦系統(tǒng)中的 數(shù)據(jù)的管理。分析說明推薦系統(tǒng)的主要組成部分,模型處理和在線實時推薦。 第四章主要利用f u z z ya r t 算法進(jìn)行推薦。首先介紹f u z z ya r t 算法結(jié)構(gòu)和步驟,然 后利用該算法推薦。詳細(xì)介紹推薦過程中數(shù)據(jù)描述、模型處理和預(yù)測推薦。最后進(jìn)行實驗 分析并評價推薦結(jié)果,與傳統(tǒng)方法比較,說明f u z z ya r t 算法改善推薦質(zhì)量。 第五章改進(jìn)推薦方法,利用f u z z ya r t 結(jié)合基于內(nèi)容的推薦算法。分析f u z z ya r t 算 法結(jié)合基于內(nèi)容的推薦方法的優(yōu)勢,建立相應(yīng)的模型。詳細(xì)描述模型處理的步驟,進(jìn)行實 驗分析,比較結(jié)果,驗證改進(jìn)方法對稀疏性問題和新商品問題的有效推薦。 第六章進(jìn)一步改進(jìn)推薦方法,結(jié)合基于用戶信息的混合推薦算法。分析說明基于用戶 信息的推薦方法的作用,解決新用戶推薦問題。建立混合算法的模型,進(jìn)行實驗分析比較 結(jié)果。說明混合算法有利于提高推薦質(zhì)量。 第七章總結(jié)本文創(chuàng)新之處并提出后續(xù)工作。 第2 章電子商務(wù)推薦系統(tǒng)綜述 2 1 電子商務(wù)推薦系統(tǒng)介紹 2 1 1 電子商務(wù)推薦系統(tǒng)概念 r e s n i c k v a r i a n 在1 9 9 7 年給出了電子商務(wù)推薦系統(tǒng)正式的定義,指利用電子商務(wù) 網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客 戶完成購買過程n 引。推薦系統(tǒng)的最大優(yōu)點在于它能收集用戶興趣資料并根據(jù)用戶偏好為用 戶主動做出個性化的推薦,這樣,當(dāng)用戶每次輸入用戶名和密碼登錄網(wǎng)站后,推薦系統(tǒng)就 會自動按照用戶偏好程度的高低推薦給用戶可能最感興趣的信息,而且系統(tǒng)給出的推薦是 動態(tài)更新的,也就是說當(dāng)系統(tǒng)中信息和用戶興趣資料發(fā)生變化時,給出的推薦序列會自動 改變,這就意味著用戶登陸網(wǎng)站時,系統(tǒng)給出的推薦是動態(tài)變化的,大大方便了用戶對商 品信息的瀏覽,也提高了企業(yè)的服務(wù)水平。 2 1 2 電子商務(wù)推薦系統(tǒng)分類 推薦系統(tǒng)使得電子商務(wù)網(wǎng)站可以主動適應(yīng)每一個用戶的特定需求,為每一個用戶提供 完全不同的個性化服務(wù)。所謂個性化服務(wù),就是在用戶瀏覽網(wǎng)站時,盡可能迎合每個用戶 的瀏覽興趣并不斷調(diào)整自己來適應(yīng)用戶瀏覽興趣的變化,使得每個用戶都是該站點唯一用 戶的感覺。不同的推薦系統(tǒng)的個性化程度各不相同,從推薦系統(tǒng)的個性化程度上,可以將 推薦系統(tǒng)分為如下三類嘲: ( 1 ) 非個性化推薦系統(tǒng):推薦系統(tǒng)對每個用戶產(chǎn)生的推薦都是相同的。這種推薦系統(tǒng)可 以基于網(wǎng)站工作人員的手工推薦,可以基于統(tǒng)計分析技術(shù)等等。電子商務(wù)網(wǎng)站的編輯推薦、 銷售排行、平均數(shù)值評分、個體文本評價、個體數(shù)值評分等推薦形式對所有的用戶而言都 是一樣的,都是屬于非個性化的推薦系統(tǒng)。 ( 2 ) 半個性化推薦系統(tǒng):推薦系統(tǒng)根據(jù)用戶當(dāng)前的行為產(chǎn)生相應(yīng)的推薦。這種推薦系統(tǒng) 根據(jù)用戶當(dāng)前的瀏覽行為或用戶當(dāng)前的購物記錄產(chǎn)生推薦結(jié)果,不同用戶得到的推薦結(jié)果 各不相同。半個性化推薦系統(tǒng)的個性化程度比非個性化推薦系統(tǒng)要高。 ( 3 ) 完全個性化推薦系統(tǒng):推薦系統(tǒng)保存用戶的各種歷史信息,如:歷史瀏覽信息、歷 史數(shù)值評分信息、用戶注冊信息等。然后根據(jù)用戶的歷史信息,結(jié)合用戶的當(dāng)前行為為用 戶產(chǎn)生完全個性化的推薦服務(wù)。這種推薦系統(tǒng)一般只能對注冊用戶提供服務(wù),個性化程度 最高。 本文研究的電子商務(wù)推薦系統(tǒng)屬于完全個性化推薦系統(tǒng),利用用戶評分歷史信息、用 戶注冊信息以及商品信息進(jìn)行個性化推薦服務(wù)。 2 2 推薦系統(tǒng)組成 整個推薦系統(tǒng)的組成主要可以分為三個模塊:輸入模塊、推薦方法模塊、輸出模塊。 下面主要介紹輸入與輸出部分。 ( 1 ) 推薦系統(tǒng)的輸入 不同類型的推薦系統(tǒng),其輸入信息也不同。推薦系統(tǒng)的輸入可以是用戶當(dāng)前的行為, 也可以是用戶訪問過程中的歷史行為。在大型推薦系統(tǒng)中,為了產(chǎn)生高質(zhì)量的推薦,推薦 系統(tǒng)可能需要多種輸入信息,主要包括: 隱式瀏覽輸入:將當(dāng)前用戶訪問網(wǎng)站的瀏覽行為作為推薦系統(tǒng)的輸入,用戶的瀏覽行 為與訪問普通網(wǎng)站沒有區(qū)別,并不知道推薦系統(tǒng)的存在。用戶當(dāng)前正在瀏覽的網(wǎng)頁、用戶 選購的商品、用戶的瀏覽路徑等都可以作為隱式瀏覽輸入的信息。 顯式瀏覽輸入:也是將用戶的瀏覽行為作為推薦系統(tǒng)的輸入,但與隱式瀏覽輸入不同, 用戶的顯式瀏覽輸入是有目的的向推薦系統(tǒng)提供自己的興趣愛好。例如,網(wǎng)站提供一系列 熱門信息供用戶選擇,用戶只選擇自己感興趣的信息列表,推薦系統(tǒng)根據(jù)用戶的選擇向用 戶提供個性化推薦服務(wù)。 關(guān)鍵字物品屬性輸入:用戶在搜索引擎中輸入關(guān)鍵字作為推薦系統(tǒng)的輸入,或者將用 戶當(dāng)前正在瀏覽的信息類別作為推薦系統(tǒng)的輸入。這種類型的輸入不同于用戶隨意瀏覽的 行為,用戶輸入的目的就是網(wǎng)站上搜索自己需要的信息。 用戶評分輸入:將用戶對信息的數(shù)值評分?jǐn)?shù)據(jù)作為推薦系統(tǒng)的輸入。推薦商務(wù)系統(tǒng)列 出一系列信息讓用戶評分,用戶的評分可以是一個數(shù)值,數(shù)值大小表示用戶對信息的感興 趣程度,也可以是一個布爾值,0 表示不感興趣,l 表示感興趣。用戶提供的評分?jǐn)?shù)據(jù)使 得推薦系統(tǒng)可以為用戶提供個性化的推薦服務(wù)。 用戶文本評價輸入:用戶對自己已經(jīng)知道的信息以文本形式進(jìn)行個人評價,推薦系統(tǒng) 本身并不能判斷這些評價的好壞。其他用戶瀏覽該信息時,可以看到該用戶對信息的文本 評價信息。 ( 2 ) 推薦系統(tǒng)的輸出 不同類型的推薦系統(tǒng),其輸出也各不相同。大型推薦系統(tǒng)可以同時向用戶產(chǎn)生多種不 同類型的輸出,主要包括: 相關(guān)信息輸出:推薦系統(tǒng)根據(jù)用戶表現(xiàn)出來的行為特征或網(wǎng)站的熱門信息排行情況向 用戶產(chǎn)生信息推薦,這種方式是推薦系統(tǒng)中最為普通的一種輸出。相關(guān)信息輸出可以基于 7 簡單的信息排行向用戶推薦熱門信息,也可以基于對用戶的行為特征進(jìn)行深入分析,發(fā)現(xiàn) 用戶的瀏覽行為模式,從而產(chǎn)生個性化的推薦。 個體文本評價輸出:推薦系統(tǒng)向目標(biāo)用戶提供其他用戶對信息的文本評價一般是非個 性化的,對每個項而言,所有用戶得到的個體文本評價均相同。 個體評分輸出:向目標(biāo)用戶提供其他用戶對信息的數(shù)值評分。評分輸出沒有大量的文 本描述,因此更加簡潔明了。 電子郵件輸出:推薦系統(tǒng)通過電子郵件的形式向用戶提供最新信息。這種輸出形式可 以吸引用戶再次訪問網(wǎng)站,從而達(dá)到保護(hù)用戶,防止用戶流失的目的。 2 3 推薦方法 推薦方法是推薦系統(tǒng)的核心,是其重要的組成部分。不同類型的推薦系統(tǒng)應(yīng)用各種推 薦方法實現(xiàn)個性化的推薦服務(wù)口。 2 3 1 基于內(nèi)容的推薦方法 基于內(nèi)容的方法利用信息檢索技術(shù)來分析項目的內(nèi)容,通常應(yīng)用鄰居函數(shù)和分類技術(shù) 來分析和聚類項目的文本內(nèi)容,并基于項目特征與用戶檔案產(chǎn)生推薦?;趦?nèi)容的信息推 薦主要集中在文本信息推薦領(lǐng)域雖然使用基于內(nèi)容的過濾方法,可以依據(jù)使用者過去的偏 好,推薦出符合使用者偏好的項目,但是s h a r d a n a n de ta 1 指出此方法有以下限制: ( 1 ) 特征提取的能力有限。通常只能對資源進(jìn)行比較簡單的特征提取,在一些特定領(lǐng)域 如圖形、圖像、視頻、音樂等媒體,目前還沒有有效的特征提取方法。即使文本資源,其 特征提取方法也只能反映資源的內(nèi)容,但是難以提取資源的質(zhì)量、風(fēng)格等信息。所能分析 的項目內(nèi)容僅限于能夠用一系列的特征集合來表示的信息,而無法有效處理聲音、圖片、 藝術(shù)品、影像等多媒體信息。 ( 2 ) 推薦的資源過于狹窄。系統(tǒng)盡可能向用戶推薦最符合用戶檔案的信息,因此,推薦 將局限于跟用戶以前瀏覽的資料類似的信息。用戶僅僅能夠接收到與過去類似的推薦項 目,而無法找出與過去體驗有所不同而具有潛在意義的潛在性推薦。 ( 3 ) 無法處理品質(zhì)、風(fēng)格或觀點。以文章為例,若兩篇文章的主題相同,但其內(nèi)容品質(zhì) 有所差別的時候,此方法無法有效分辨。 2 3 2 協(xié)同過濾推薦方法 ( 1 ) 協(xié)同過濾推薦方法介紹 協(xié)同過濾由g o l d b e r ge ta 1 在1 9 9 2 年首先提出,是目前最廣泛采用的推薦技術(shù)。 該方法首先必須找出一群具有相同興趣的用戶,形成用戶群,也就是某些行為或偏好上有 禽 類似特性的成員集合,通過分析成員的共同興趣或愛好,來產(chǎn)生相關(guān)的關(guān)聯(lián)推薦。協(xié)同過 濾可以有效解決基于內(nèi)容的過濾存在的問題。在協(xié)同過濾中,用戶通過相互協(xié)作來選擇信 息,它依據(jù)其他用戶對信息作出的評價來挑選信息。協(xié)同過濾方法對用戶的行為進(jìn)行分析, 并不關(guān)心信息的實際內(nèi)容。自動化協(xié)同過濾系統(tǒng)通過收集用戶對信息的評價,搜索具有相 同興趣喜好的用戶,然后根據(jù)具有相同興趣喜好的用戶對信息的評價產(chǎn)生推薦結(jié)果。主要 是利用群體的觀點來產(chǎn)生推薦項目給特定的用戶,強(qiáng)調(diào)一種人與人之間的合作,借助過去 的歷史記錄,計算各個使用者之間偏好行為的相似度,找出與自己偏好接近的鄰居用戶, 并通過這些鄰居用戶組成的鄰近用戶群的意見或建議來產(chǎn)生使用者之前未曾體驗過卻可 能感興趣的推薦信息給特定的使用者作為參考。 ( 2 ) 協(xié)同過濾推薦優(yōu)缺點 協(xié)同過濾技術(shù)是目前使用最成功的推薦系統(tǒng)技術(shù),它可以解決基于內(nèi)容過濾的一些問 題,使用此方式不用分析項目內(nèi)容,因而系統(tǒng)會根據(jù)與使用者有相同興趣的用戶群成員曾 經(jīng)購買的產(chǎn)品來作為推薦的參考對象,也就是說它是依據(jù)其他顧客的意見來為其目標(biāo)用戶 推薦產(chǎn)品,故推薦的產(chǎn)品可能與使用者從前的喜好大不相同,但是卻挖掘出消費者的潛在 需求,甚至是將瀏覽者變成購買者。此方式的推薦系統(tǒng)使用統(tǒng)計技術(shù)來找出一群與目標(biāo)顧 客對過去的歷史有著相同看法的顧客,借助對產(chǎn)品的評分相似,或者是他們可能購買相似 的產(chǎn)品,將這些顧客視為目標(biāo)顧客的鄰近用戶,一旦顧客群建立完成,就可以使用各種算 法來產(chǎn)生推薦。 協(xié)同過濾式的決策基礎(chǔ)是“人一,而不是“內(nèi)容的分析 ,即:偏重于由一群偏好相似 的人來決定推薦的資訊項目,此方式能針對任何形態(tài)的信息進(jìn)行推薦,更能夠處理難以表 現(xiàn)的概念,因此能夠取得較好的推薦效果。和基于內(nèi)容的過濾方法相比,協(xié)同過濾方法具 有如下優(yōu)點: 適合于過濾難以分析內(nèi)容的資源:協(xié)同過濾不關(guān)心資源的具體內(nèi)容,因此,在難以分 析資源內(nèi)容情況下,如圖形、圖像、視頻、音樂等,協(xié)同過濾是很好的選擇。 新奇的推薦:協(xié)同過濾可以發(fā)現(xiàn)內(nèi)容上完全不相似的資源,用戶對推薦信息的內(nèi)容事 先是預(yù)料不到的。 雖然協(xié)同過濾技術(shù)是目前使用最成功的推薦系統(tǒng)技術(shù),但它仍存在一些潛在限制,s a r w a r 認(rèn)為協(xié)同過濾的方法的限制包括下列各項: 稀疏性( s p a r s i t y ) :由于顧客交易所涉及的交易產(chǎn)品往往不及廠商所售產(chǎn)品的百分之 一,因此在進(jìn)行處理時,無法找出最適當(dāng)?shù)泥従佑脩粢赃M(jìn)行產(chǎn)品的推薦。 擴(kuò)充性( s c a l a b i l i t y ) :最近鄰居算法的計算復(fù)雜度通常與交易數(shù)目或產(chǎn)品數(shù)目大小 成正比,因而當(dāng)用戶與產(chǎn)品逐漸增加時,將嚴(yán)重影響推薦系統(tǒng)的效果。 同義( s y n o n y m y ) :即當(dāng)項目的標(biāo)題有所不同,但是其本質(zhì)相同的情況下,系統(tǒng)無法有 效分辨其中所隱含的意義,而判斷這兩個項目是不相似的。 ( 3 ) 協(xié)同過濾方法分類 g e o r g ek a r y p i s 依據(jù)協(xié)同過濾技術(shù)所使用的事物的關(guān)聯(lián)性,將其分為以下兩類: u s e r - - b a s e dc f :其核心思想是假設(shè)人與人之間的行為具有某種程度的相似性,即購 買行為類似的顧客,會購買類似的產(chǎn)品。 i t e m - - b a s e dc f :其主要思想是假設(shè)項目間具有某種程度的相關(guān)性,即顧客在購買時, 其所購買的產(chǎn)品通常具有關(guān)聯(lián)性,如顧客在購買電子游戲機(jī)時,通常會購買電池及游戲卡 盒。 2 3 3 混合推薦方法 由于基于內(nèi)容的過濾和協(xié)同過濾都有各自的優(yōu)缺點,因而有許多學(xué)者提出混合式的推 薦模型?;旌鲜降耐扑]模型不僅可以保留以上兩種類別推薦模式的優(yōu)點,且其推薦效果也 比單獨使用基于內(nèi)容的過濾或協(xié)同過濾要好。它合并了基于內(nèi)容的方法和協(xié)同過濾方法, 提高推薦的質(zhì)量。使用混合方法的推薦可分為三種類型: 通過簡單地合并兩種方法獨自產(chǎn)生的推薦結(jié)果來整合兩種方法。 系統(tǒng)合并兩種方法在表示層,將項目信息與交易信息合并成為單一的表示。這些系統(tǒng) 是基于協(xié)同過濾,用戶的表示中添加項目內(nèi)容信息或者添加基于項目內(nèi)容的評分。例如: f a b 系統(tǒng)基于用戶已經(jīng)評分的文檔內(nèi)容分析保存用戶檔案,然后比較用戶檔案識別相似用 戶來產(chǎn)生一個協(xié)同推薦。其它的系統(tǒng)應(yīng)用基于內(nèi)容的分析和在項目表示中添加用戶信息。 還有一些推薦系統(tǒng)建立了一個綜合的模型,該模型合并了不同的信息源,最近a n s a r i ( 2 0 0 0 ) 采用正式的統(tǒng)計方法建立用戶評分模型作為項目屬性的函數(shù)、用戶特征和專家評 價,使用這種方法中將考慮在用戶喜好上沒有觀察到的異質(zhì)源和項目結(jié)構(gòu)。 第三種混合方法使用知識工程加上協(xié)同過濾。例如,b u r k e 提出一個混合推薦框架, 協(xié)同過濾通常利用基于知識過濾方法獲得推薦結(jié)果過濾郵件。 2 3 4 數(shù)據(jù)挖掘方法 數(shù)據(jù)挖掘( d a t am i n i n g ) ,也稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量的數(shù)據(jù)中抽取出潛在 的、不為人知的有用信息、模式和趨勢。數(shù)據(jù)挖掘技術(shù)可以提高市場決策能力、檢測異常 模式、在過去的經(jīng)驗基礎(chǔ)上預(yù)言未來趨勢等。數(shù)據(jù)挖掘綜合運用了機(jī)器學(xué)習(xí)、模式識別、 統(tǒng)計學(xué)、人工智能等眾多學(xué)科的知識。從1 9 8 9 年數(shù)據(jù)挖掘概念提出到目前為止,數(shù)據(jù)挖 掘技術(shù)在理論和應(yīng)用上都己經(jīng)得到了巨大的發(fā)展,應(yīng)用在各個不同的領(lǐng)域,例如:電信、 銀行、保險、證券、醫(yī)療、零銷等。如今,數(shù)據(jù)挖掘的許多方法也成功運用到電子商務(wù)推 薦系統(tǒng)當(dāng)中。 ( 1 ) 數(shù)據(jù)挖掘方法介紹 數(shù)據(jù)挖掘過程一般有三個主要的階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋。 數(shù)據(jù)挖掘可以描述為上述三個階段的反復(fù)過程。數(shù)據(jù)挖掘是一個多學(xué)科領(lǐng)域,其采用的技 術(shù)來自各個不同的領(lǐng)域,主要的數(shù)據(jù)挖掘方法包括: 統(tǒng)計分析方法:利用統(tǒng)計學(xué)和概率論對關(guān)系中各個屬性進(jìn)行統(tǒng)計分析,找出它們之間 存在的關(guān)聯(lián)。 人工神經(jīng)網(wǎng)絡(luò):模仿生物神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練進(jìn)行學(xué)習(xí)的非線性預(yù)測模型,可以完成 分類,聚類等多種數(shù)據(jù)挖掘任務(wù)。 決策樹:用樹型結(jié)構(gòu)表示決策集合,決策集合通過對數(shù)據(jù)集分析產(chǎn)生。電典型的決策 數(shù)方法如分類回歸樹,主要用于分類挖掘。 遺傳算法:一種新的優(yōu)化技術(shù),基于生物進(jìn)化的概念設(shè)計了一系列過程來達(dá)到優(yōu)化的 目的,包括基因組合,交又,變異和自然選擇。 粗糙集:粗糙集是一種處理模糊和不確定性問題的新型數(shù)學(xué)工具,粗糙集可以用于數(shù) 據(jù)挖掘中的數(shù)據(jù)簡化、關(guān)聯(lián)規(guī)則挖掘等。 模糊邏輯:模糊邏輯融合了模糊集合二值邏輯概念。在數(shù)據(jù)挖掘中,模糊邏輯可以用 來進(jìn)行證據(jù)合成、置信度計算等。 最近鄰技術(shù):這種技術(shù)通過k 個最相似的歷史紀(jì)錄的組合來辨別新的紀(jì)錄??梢杂糜?聚類分析、偏差分析等。 規(guī)則歸納:通過統(tǒng)計方法歸納,提取有價值的i f - t h e n 規(guī)則,用于關(guān)聯(lián)規(guī)則挖掘。 可視化:采用直觀的圖形方式將信息模式、數(shù)據(jù)關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,決策者可 以通過可視化技術(shù)交互式分析數(shù)據(jù)關(guān)系。 ( 2 ) 基于數(shù)據(jù)挖掘的推薦方法 髓著電子商務(wù)的應(yīng)用;數(shù)據(jù)庫中可以收集到大量的用戶數(shù)據(jù),如用戶交易數(shù)據(jù),用戶 注冊數(shù)據(jù)、用戶評分評價數(shù)據(jù)、用戶投票數(shù)據(jù)等。同時,服務(wù)器中也保存著用戶訪問電子 商務(wù)系統(tǒng)的日志數(shù)據(jù)、用戶購物籃信息等,這些數(shù)據(jù)中蘊含著豐富的知識,基于數(shù)據(jù)挖掘 的推薦是通過數(shù)據(jù)挖掘技術(shù)對用戶行為和用戶屬性進(jìn)行學(xué)習(xí),從中獲取有價值的知識,根 據(jù)得到的知識產(chǎn)生推薦。電子商務(wù)推薦系統(tǒng)中的數(shù)據(jù)挖掘主要包括關(guān)聯(lián)規(guī)則挖掘和分類挖 掘兩類: 關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項目之間有趣的關(guān)聯(lián)或相互聯(lián)系?;陉P(guān)聯(lián) 規(guī)則的推薦算法根據(jù)生成的關(guān)聯(lián)規(guī)則推薦模型和用戶的購買行為向用戶產(chǎn)生推薦。關(guān)聯(lián)規(guī) 則推薦模型的建立是離線進(jìn)行,因此可以保證有效推薦算法的實時性要求。關(guān)聯(lián)規(guī)則挖掘 的一個典型例子就是購物籃分析。 分類:分類挖掘模型根據(jù)用戶的輸入信息將之劃分為相應(yīng)類別。分類挖掘模型可以通 過多種機(jī)器學(xué)習(xí)方法實現(xiàn),如聚類、b a y e s i a n 網(wǎng)絡(luò)等。聚類幫助分析人員從用戶基本庫 中發(fā)現(xiàn)不同的用戶群,并且用購買模式來刻畫不同的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論