版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
電子商務(wù)技術(shù)張文新
經(jīng)濟管理樓1213室講義大綱第一部分:理論認識第01講:電子商務(wù)的概念和本質(zhì)第02講:電子商務(wù)產(chǎn)生與發(fā)展第03講:電子商務(wù)系統(tǒng)的運營(1)-技術(shù)視角第04講:電子商務(wù)系統(tǒng)的運營(2)-管理視角第二部分:技術(shù)解析第05講:商品展示技術(shù)第06講:搜索引擎技術(shù)第07講:商品推薦技術(shù)第08講:物流規(guī)劃技術(shù)第09講:物流信息集成技術(shù)第10講:物流運營調(diào)度技術(shù)第11講:電子支付技術(shù)第12講:電子商務(wù)交易安全技術(shù)第三部分:案例探究第13講:C2C模式-淘寶網(wǎng)交易平臺第14講:B2C模式-圖書、服裝與消費電子類電子商務(wù)第15講:B2B模式-鋼鐵與汽車產(chǎn)業(yè)電子商務(wù)第07講
商品推薦技術(shù)→基于WEB挖掘技術(shù)的商品推薦內(nèi)容提要7.0-引言7.1-基于WEB使用挖掘的推薦技術(shù)7.2-WEB使用與內(nèi)容相結(jié)合的推薦技術(shù)7.3-推薦系統(tǒng)開發(fā)實踐案例本講小結(jié)7.0-引言亞馬遜30%的銷售額來自于推薦7.0-引言個性化的推薦系統(tǒng)如果我有200萬個網(wǎng)絡(luò)顧客,我就應(yīng)該有200百萬個網(wǎng)絡(luò)商店。(“IfIhave2millioncustomersontheweb,Ishouldhave2millionsstoresontheweb.”)——JeffBezos,CEOof123457.0-引言數(shù)據(jù)挖掘技術(shù)Web挖掘技術(shù)的優(yōu)點不需要用戶提供主觀的評價信息;可以處理大規(guī)模的數(shù)據(jù)量;用戶訪問模式動態(tài)獲取,不會過時;使用方便。7.0-引言基于Web挖掘的商品推薦基于Web使用挖掘的商品推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦7.1-基于Web使用挖掘的商品推薦基于Web使用挖掘的商品推薦基本思路:分析Web日志數(shù)據(jù),利用數(shù)據(jù)挖掘方法發(fā)現(xiàn)用戶的使用模式,從而向用戶提供個性化服務(wù)基本過程:離線部分:數(shù)據(jù)預處理+總體使用特征獲取在線部分:推薦引擎字段
表示為
描述
日期date
執(zhí)行操作的日期。
時間time
活動發(fā)生的時間。
客戶端IP地址c-ip
訪問服務(wù)器的客戶端IP地址。
用戶名cs-username
訪問服務(wù)器的已驗證用戶的名稱。不包括用連字符“-”所表示
的匿名用戶。
服務(wù)名s-sitename
客戶端已訪問過的Internet服務(wù)和實例編號。
服務(wù)器名稱putername
生成日志條目的服務(wù)器名稱。
服務(wù)器IP地址s-ip
生成日志條目的服務(wù)器IP地址。
服務(wù)器端口s-port
客戶端連接的端口號。
方法cs-method
客戶端試圖執(zhí)行的操作(例如GET方法)。URI資源cs-uri-stem
訪問的資源;例如Default.htm。URI查詢cs-uri-query
查詢,如果有的話,客戶端將試圖執(zhí)行。
協(xié)議狀態(tài)sc-status
以HTTP或FTP術(shù)語表示的操作狀態(tài)。Win32狀態(tài)sc-win32-status
以Windows術(shù)語表示的操作狀態(tài)。
發(fā)送的字節(jié)數(shù)sc-bytes
服務(wù)器發(fā)送的字節(jié)數(shù)。
接收的字節(jié)數(shù)cs-bytes
服務(wù)器接收的字節(jié)數(shù)。
所用時間time-taken
操作所占用的時間。
協(xié)議版本cs-version
客戶端使用的協(xié)議(HTTP、FTP)版本。HTTP協(xié)議應(yīng)為HTTP2.0或HTTP2.1。
主機cs-host
顯示主機標題的內(nèi)容。
用戶代理cs(User-Agent)
客戶端使用的瀏覽器。Cookiecs(Cookie)
發(fā)送或接收的cookie內(nèi)容(如果有的話)。
引用站點cs(Referer)
用戶訪問的前一個站點。此站點提供與當前站點的鏈接。Mylog數(shù)據(jù)庫中的一條記錄字段名含義內(nèi)容ip用戶的IP地址或URLr_date文件訪問日期07/Dec/2006r_time文件訪問時間11:35:00method方法GETrequest被請求文件的URL/resource.htmlstatus服務(wù)器狀態(tài)200size傳輸字節(jié)782agent代理Mozilla/2.0(compatible;MSIE3.01;Windows95)referer引用頁的URL
7.1-基于Web使用挖掘的商品推薦基于Web使用挖掘的商品推薦基本過程:離線部分:數(shù)據(jù)預處理數(shù)據(jù)清洗(DataCleaning)會話識別(SessionIdentification)瀏覽頁識別(PageviewIdentification)事務(wù)識別(TransactionIdentification)7.1-基于Web使用挖掘的商品推薦數(shù)據(jù)預處理的結(jié)果瀏覽頁集合P表示為:P={p1,p2,…,pn}用戶事務(wù)集合T表示為:T={t1,t2,…,tm}每一個事務(wù)tT均表示為為瀏覽頁集合P的n維向量:t=<w(p1,t),w(p2,t),…,w(pn,t)>
7.1-基于Web使用挖掘的商品推薦基于Web使用挖掘的商品推薦基本過程:離線部分:總體使用特征獲取路徑完善(PathCompletion)用戶識別(UserIdentification)7.1-基于Web使用挖掘的商品推薦總體特征獲取使用聚類算法得到不同的事務(wù)聚類同一個事務(wù)聚類內(nèi)用戶之間的瀏覽模式盡可能相似,而不同事務(wù)聚類中用戶之間的瀏覽模式盡可能不同給定事務(wù)聚類c和顯著性閾值,事務(wù)聚類c的總體使用特征prc的計算方法如下:prc={<p,weight(p,prc)>|pP,weight(p,prc)
}weight(p,prc)=
7.1-基于Web使用挖掘的商品推薦基于Web使用挖掘的商品推薦基本過程:在線部分:推薦引擎7.1-基于Web使用挖掘的商品推薦推薦引擎根據(jù)當前的用戶會話產(chǎn)生實時的推薦集用戶當前會話S可以表示為:S={s1,s2,…,sn}總體使用特征C可以表示為:C={w1C,w2C,…,wnC}7.1-基于Web使用挖掘的商品推薦推薦引擎使用余弦相似性函數(shù)來計算C和S之間的匹配系數(shù):計算瀏覽頁p的推薦系數(shù)Rec(S,p):7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦基于Web使用挖掘的個性化服務(wù)的問題:商業(yè)網(wǎng)站的用戶使用數(shù)據(jù)比較少;網(wǎng)站內(nèi)容變化比較頻繁。7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦基本思路:在基于Web使用挖掘的基礎(chǔ)上,根據(jù)瀏覽頁內(nèi)容之間的相似性為用戶提供商品推薦。基本過程:離線部分:數(shù)據(jù)預處理+內(nèi)容特征獲取在線部分:推薦引擎[對比]:基于Web使用挖掘的商品推薦基本思路:分析Web日志數(shù)據(jù),利用數(shù)據(jù)挖掘方法發(fā)現(xiàn)用戶的使用模式,從而向用戶提供個性化服務(wù)。7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦離線部分:數(shù)據(jù)預處理從文本數(shù)據(jù)和元數(shù)據(jù)中抽取內(nèi)容特征內(nèi)容特征權(quán)重的計算方法:元數(shù)據(jù)而言的權(quán)重由商業(yè)網(wǎng)站的設(shè)計者提供;文本內(nèi)容特征而言的權(quán)重由詞頻反文獻頻率(TF-IDF)確定。7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦離線部分:數(shù)據(jù)預處理瀏覽頁p表示為內(nèi)容特征空間上的k維向量:p=<fw(p,f1),fw(p,f2),…,fw(p,fk)>fw(p,fi)為瀏覽頁p在特征fi上的權(quán)重必須對將元數(shù)據(jù)與文本內(nèi)容特征進行一致化處理。7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦離線部分:內(nèi)容特征獲取瀏覽頁內(nèi)容特征矩陣的行列互換,每個內(nèi)容特征看作瀏覽頁空間上的n維向量;使用聚類算法對內(nèi)容特征進行聚類,每一個內(nèi)容特征聚類ci由一系列內(nèi)容特征組成;給定內(nèi)容特征聚類G和顯著性閾值r,其內(nèi)容特征CG的方法如下:CG={<p,weight(p,CG)>|pP,weight(p,CG)r}
weight(p,CG)=7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦在線部分:推薦引擎用戶當前會話S可以表示為:S={s1,s2,…,sn}內(nèi)容特征C可以表示為:C={w1C,w2C,…,wnC}7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦在線部分:推薦引擎使用余弦相似性函數(shù)來計算C和S之間的匹配系數(shù):7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦在線部分:推薦引擎計算瀏覽頁p的推薦系數(shù)Rec(S,p):7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦算法之改進7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦算法之改進改進基本思路:在上述推薦方法的基礎(chǔ)上進一步引入Web結(jié)構(gòu)挖掘;如果有許多瀏覽頁都同時鏈接到瀏覽頁A和瀏覽頁B,則可以認為瀏覽頁A和瀏覽頁B之間具有一定的相關(guān)性,如果一個用戶訪問了瀏覽頁A,則瀏覽頁B對該用戶而言很可能是有價值的,從而可以在推薦列表中加上瀏覽頁B。7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦算法之改進基本過程:離線部分:數(shù)據(jù)預處理+結(jié)構(gòu)特征獲取在線部分:推薦引擎7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦算法之改進離線部分:數(shù)據(jù)預處理通過Crawler構(gòu)造出網(wǎng)站內(nèi)部瀏覽頁之間的相互鏈接情況每個瀏覽頁p可以表示為所有瀏覽頁空間上的n維向量:p=<sw(p,p1),sw(p,p2),…,sw(p,pn)>7.3-Web使用與內(nèi)容相結(jié)合的推薦基于Web使用挖掘和Web內(nèi)容挖掘的商品推薦算法之改進離線部分:結(jié)構(gòu)特征獲取使用聚類算法對結(jié)構(gòu)特征進行聚類,每一個結(jié)構(gòu)特征聚類ci由一系列結(jié)構(gòu)特征組成給定結(jié)構(gòu)聚類s和顯著性閾值v,其結(jié)構(gòu)特征prs的計算方法如下:prs={<p,weight(p,prs)>|pP,weight(p,prs)
}weight(p,prs)=7.3-Web使用與內(nèi)容相結(jié)合的推薦Reference:[1]M.PerkowitzandO.Etzioni.AdaptiveWebsites:automaticallysynthesizingWebpages.InProceedingsof15thNationalConferenceonArtificialIntelligence,Madison,WI,1998.[2]S.Chakrabart.Dataminingforhypertext:Atutorialsurvey.ACMSIGKDDExplorations,1(2),pages1--11,2000.[3]D.DillsusandM.J.Pazzani.LearningCollaborativeInformationFilters.InProceedingsofICML’98.Pp.46-53.[4]B.Mobasher.AWebpersonalizationenginebasedonusertransactionclustering.InProceedingsofthe9thWorkshoponInformationTechnologiesandSystems(WITS’99),December1999.[5]R.Cooley,B.Mobasher,andJ.Srivastava.DataPreparationforminingWorldWideWebbrowsingpatterns.JournalofKnowledgeandInformationSystems,(1)1,1999.[6]B.Mobasher,H.Dai,T.Luo,Y.Sun,andJ.Zhou.IntegratingWebUsageandContentMiningforMoreEffectivePersonalization.inProceedingsoftheInternationalConferenceonmerceandWebTechnologies(ECWeb2000),September2000,Greenwich,UK.7.4-推薦系統(tǒng)開發(fā)實踐案例推薦系統(tǒng)開發(fā)實踐案例資源推薦系統(tǒng)7.4-推薦系統(tǒng)開發(fā)實踐案例什么是資源推薦系統(tǒng)資源:泛指網(wǎng)絡(luò)上存在的可共享的數(shù)字化信息。資源推薦系統(tǒng):根據(jù)大量用戶對眾多資源訪問(查詢和使用)的歷史記錄,分析用戶可能的興趣所在,提供資源推薦服務(wù),把用戶尚未訪問、但可能喜歡的資源推薦給用戶。7.4-推薦系統(tǒng)開發(fā)實踐案例推薦的方式用戶自定義的個性化資源;把與用戶訪問過的資源類似的資源推薦給用戶;把某些用戶訪問的資源推薦給與他們興趣類似的用戶。7.4-推薦系統(tǒng)開發(fā)實踐案例開發(fā)任務(wù)構(gòu)造出資源推薦系統(tǒng)的框架,分析各個模塊的功能,給出實現(xiàn)的主要流程和細節(jié)。分析資源推薦中涉及的主要問題,給出參考的算法。構(gòu)建一個模擬的應(yīng)用環(huán)境,在該環(huán)境中演示資源推薦系統(tǒng)的主要功能和算法。7.4-推薦系統(tǒng)開發(fā)實踐案例資源推薦的前提假設(shè):用戶的興趣是比較穩(wěn)定的用戶的興趣是比較穩(wěn)定的,隨時間變化的幅度是比較小的用戶的興趣是在不斷變化的,盡管幅度比較小用戶較近的對資源的訪問能體現(xiàn)用戶當前的興趣時間效應(yīng)假設(shè):更新的資源具有更大的吸引力7.4-推薦系統(tǒng)開發(fā)實踐案例如何發(fā)現(xiàn)用戶興趣?兩個假設(shè):如果一個用戶經(jīng)常訪問某類資源,那么他很可能喜歡該類資源;如果一些用戶經(jīng)常訪問類似的資源,那么他們的興趣可能相同。7.4-推薦系統(tǒng)開發(fā)實踐案例問題:如何進行推薦主要考慮的因素用戶對資源類的偏好用戶之間的相似度時間效應(yīng):興趣的變化,資源的新穎用戶對推薦的配合程度7.4-推薦系統(tǒng)開發(fā)實踐案例參考定義1:用戶的資源類的偏好:對某類資源的訪問數(shù)量的相對大小作為偏好的程度。用戶之間的相似度:當前相似度定義為:如果進一步考慮時間的因素可以考慮形成Listof<資源id,Date>以dateFactor(Date)的和作為相似度7.4-推薦系統(tǒng)開發(fā)實踐案例參考定義2:時間效應(yīng):興趣的變化,資源的新穎興趣保持性依時間而衰減衰減系數(shù)α,0<α<=1時間效應(yīng):資源的新穎資源吸引力以時間而衰減衰減系數(shù)β,0<β<=1用戶對推薦的配合程度用戶對推薦資源的訪問情況7.4-推薦系統(tǒng)開發(fā)實踐案例主要數(shù)據(jù)結(jié)構(gòu)(1)用戶集合Users;資源集合Resource;系統(tǒng)訪問日志UserAccessLog:記錄從某個日期(系統(tǒng)定義)開始用戶對資源的訪問歷史;推薦資源訪問日志UsermendLog:記錄在某個日期(用戶登錄)用戶對推薦資源的訪問歷史;用戶-用戶相似矩陣User-Usercurrent-similaritymatrix:記錄從當前的日志計算出的用戶與用戶之間的相似程度;用戶-用戶相似系數(shù)矩陣User-Usersimilarity-confidencematrix(User-usersimilarity-indexmatrix):記錄基于整個訪問歷史的用戶與用戶之間的相似性程度。7.4-推薦系統(tǒng)開發(fā)實踐案例主要數(shù)據(jù)結(jié)構(gòu)(2)用戶推薦列表UsermendList:要推薦給某個用戶資源列表;當前推薦列表SelectedmendList:當前一次推薦給用戶的資源列表;用戶訪問列表UserAccessList:某個用戶對資源訪問的歷史記錄(從某個日期開始);推薦必要度向量Usermendneedityvector:描述對用戶進行推薦的必要度;用戶-資源類系數(shù)矩陣User-resourceclassratematrix:用戶對各個資源類的偏好程度;用戶登錄與訪問資源操作用戶訪問日志推薦資源訪問日志用戶i的訪問記錄分發(fā)整理生成用戶-用戶相似矩陣用戶-用戶相似系數(shù)矩陣更新用戶-資源類偏好系數(shù)矩陣更新相似度的定義形成用戶推薦必要度向量更新相似系數(shù)更新策略AB圖:主要處理流程更新用戶推薦資源列表當前推薦列表生成推薦策略推薦優(yōu)先級設(shè)定策略TopN用戶列表產(chǎn)生用戶-用戶相似系數(shù)矩陣用戶-資源類偏好系數(shù)矩陣AB圖:主要處理流程(續(xù))用戶登錄與訪問資源操作用戶訪問日志推薦資源訪問日志用戶i的訪問記錄分發(fā)整理生成更新用戶推薦資源列表當前推薦列表用戶-用戶相似矩陣用戶-用戶相似系數(shù)矩陣生成更新用戶-資源類偏好系數(shù)矩陣更新相似度的定義推薦策略相似系數(shù)更新策略形成用戶推薦必要度向量更新推薦優(yōu)先級設(shè)定策略TopN用戶列表產(chǎn)生圖:主要流程框架7.4-推薦系統(tǒng)開發(fā)實踐案例Refresh機制1.整理<用戶訪問日志>2.計算用戶兩兩的相似性3.更新用戶-資源類偏好系數(shù)矩陣4.把當前的相似性矩陣信息添加到相似性系數(shù)矩陣5.可以形成每個用戶topN的列表7.4-推薦系統(tǒng)開發(fā)實踐案例相似性系數(shù)的更新更新信息來源一部分來自計算出來的當前相似性矩陣一部分來自用戶對推薦列表的訪問信息(可以考慮隱性的反饋)更新策略的制定,下面分別提供兩類信息更新的參考方案7.4-推薦系統(tǒng)開發(fā)實踐案例SimIndex的更新-當前相似性矩陣相似性系數(shù)體現(xiàn)的是用戶的長期的相似性,是推薦的主要根據(jù),我們作以下的假設(shè):用戶的興趣是比較穩(wěn)定的,隨時間變化的幅度是比較小的用戶的興趣是在不斷變化的,盡管幅度比較小用戶較近的對資源的訪問更能體現(xiàn)用戶的興趣這三條假設(shè)給策略的制定提供了一定的依據(jù)SimIndex=(1-a)×SimIndex+a×SimCurr0<a<=1a的大小表現(xiàn)的興趣變化的快慢程度,eg.a=0.27.4-推薦系統(tǒng)開發(fā)實踐案例SimIndex的更新-用戶對推薦列表的訪問信息這部分主要在于對用戶行為的理解與把握上??梢远xpromote()和depress()兩個方法。參考算法如下:
if用戶未對推薦列表進行訪問
if用戶的推薦必要度比較高 對所有推薦進行depress()
考慮降低用戶的推薦必要度
else
降低用戶的推薦必要度endifelse
對用戶訪問的推薦進行promote()
也可以考慮對用戶未訪問的資源進行de
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024工程招標合同范本
- 2024年度云服務(wù)租賃合同
- 公司春節(jié)晚會活動策劃3篇
- 2024年度智能家居安防監(jiān)控系統(tǒng)安裝與維護合同
- 2024年商業(yè)物業(yè)管理合同
- 2024雙方關(guān)于環(huán)保設(shè)備的買賣合同
- 2024年廢物分類與回收協(xié)議
- 2024年度CFG樁基工程項目管理合同
- 2024年度產(chǎn)品質(zhì)量保證與維修服務(wù)合同
- 2024年夫妻雙方關(guān)于房產(chǎn)買賣及產(chǎn)權(quán)分配協(xié)議
- 2024版人教版英語初一上單詞默寫單
- 化學實驗室安全智慧樹知到期末考試答案2024年
- 經(jīng)典房地產(chǎn)營銷策劃培訓(全)
- 工人入場安全教育課件
- 【川教版】《生命 生態(tài) 安全》二年級上冊第12課 少點兒馬虎 多點兒收獲 課件
- 人教版數(shù)學四年級上冊第五單元 《平行四邊形和梯形》 大單元作業(yè)設(shè)計
- 靜配中心差錯預防
- 送教上門體育、健康教案教學內(nèi)容
- 高夫品牌市場分析報告
- 職業(yè)規(guī)劃書-數(shù)字化設(shè)計與制造技術(shù)
- 國家臨床重點專科建設(shè)項目申報書
評論
0/150
提交評論