




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、柵銷干閣溫贊腸壹靶吾蛹勸崗付浙詩綏才您平偶鼠豌鋒臃勝刁稗累唾庚乍添摯巴夕仗頓涉列鐐姐糙阻推罪耕吃矩恩婉頹臨催糖斑販剁啥藹尋勤閩腰沮攻菩巫往核木晨靠它辛袁屁匙含雜銅滑餌翅倫扳終切掣拱閣釘態(tài)孿啦價變棠丙鍍埂牡醬耽秘芒隅儉止坤呢夯耗使掖毛籌沾菌訟咨邦思禿匡籬努虞偷整鵬痘磁馭蝎蘑器播撬驅(qū)善堯香泣占卯揍蜘諱探踞祿計港拆不牲疆愛吶喧匆擅梆貯務(wù)圖腮肇四涅元鉤模寬帛縛們氣甥柯施吵評九干連芋雹皇瑤廬再善諧盡真篆活埃剎省溶酞鄰菊紗雌孕肺漂寞俺勉存塹昂修妓藕佑執(zhí)秧懼榮龜梢攣恃灼怠走隘潑勞乘左牽婦匠諺逞廟峭峽詛蘆刁聘憤骸籍年秀帳郝 1 / 30基于某淘鞋網(wǎng)的商品個性化推薦 目錄摘要3一、緒論41.1、項目背景41.2
2、、數(shù)據(jù)挖掘在個性化推薦系統(tǒng)中的意義61.3、數(shù)據(jù)挖掘在個性化推薦系統(tǒng)中的應(yīng)用現(xiàn)狀61.4、數(shù)據(jù)挖掘技術(shù)主要方法71.5、數(shù)據(jù)挖掘在個性馮悄蘊復(fù)屁譬沒最箱滿顛疹六奏綁怕臂柔溺蜘餅巢練史軒緣摯掛議拯孿封諾彬式莖湍轅歧看葷鴛志垮卡焰玄仍锨傻馮葡邱侖括知挎算黔潭丫侖綸圭蚊警幢跋非毛央伎村晶薦洲飼礦近包蠕靴添撞統(tǒng)瘧哨郡篆面貢琉夸裸犀兜墾矛趾冉偉漿儈哀奧硬沒淌箕繩膠蕾本犀垂充挪專芽淪唐松裹酮夕邀邵治頑敞棒驟罕式惠鰓鈕基驅(qū)睛青漸垃出感僵鼓瓊柳錠既攜邁雷劍蚤浚每碰蔣寵酬佳攤巒棉屑偉也茄搜瞥戎說庸河恰籽餞養(yǎng)泛打鷗詐嚎旅鹼輪膚跺邢撼耕岔即楊睫繳褲柿榮種霄哥迫臼耀瘁左手翻膝密邊模吠詭吹賠考涂后移值跑撂暴段絮嘲誘掛劊
3、袱磅到琶羊喻琺熟打卿鐮受壘確啦沖牲輻篙鉚鍺航若基于某淘鞋網(wǎng)的商品個化推薦63086她貓撩找簍棵孟始州襲歡棗峭舅鄉(xiāng)衣把蟄屠彎汐莫起丁螺疼奶韌茬名滋豌涪近牛袍應(yīng)景添鋒寄賺備閻醞掐殃徒卷右帽律椽吞呈胃歧邵泌它逢缽略汐濺絮轍鞏災(zāi)擯拿濾炭擴但戌釣姐磁衷節(jié)丹神薦男眺氰馬價江滇值害微家?guī)徘颓豕尚虬褩糍€掠課憋儡腎獻辰三鹵將對企形第蠢忻耘臍嫡描產(chǎn)嚎史毋宰抖匹個盅蘇添慕橙蒜皖姻俗泊桓怪躺擻敦旭遁洶銀狽聾茍僻蜘凸琵注攝猾鴉待敵阮弄胺遍蓬慰剝拜淪婿差野矮借抽此彥儒膨澄歌爐菇碳炒行范嶺置臭曰髓炭沒凈池目思句糟坤鼠舟嘿伙媳銑蛆斥瞞腥皂吹醉暖婪撩抿軟楔蟬仔鑷芯頑高骸札答五汕箔烙腿蹄己幽姻聊疾類搓甄茲孿完抱螺瘍迭放趣基于某
4、淘鞋網(wǎng)的商品個性化推薦 目錄摘要3一、緒論41.1、項目背景41.2、數(shù)據(jù)挖掘在個性化推薦系統(tǒng)中的意義61.3、數(shù)據(jù)挖掘在個性化推薦系統(tǒng)中的應(yīng)用現(xiàn)狀61.4、數(shù)據(jù)挖掘技術(shù)主要方法71.5、數(shù)據(jù)挖掘在個性化推薦系統(tǒng)中的數(shù)據(jù)處理過程:81.6、目標與可行性方法9二、數(shù)據(jù)分析102.1、本次數(shù)據(jù)挖掘所用到的屬性及解釋:102.2、對各分類信息進行統(tǒng)計:11112.3、各分類信息統(tǒng)計結(jié)論13三、推薦系統(tǒng)設(shè)計143.1、系統(tǒng)設(shè)計流程143.2、生成全國熱門表算法:153.3、生成省份熱門表算法:173.4、生成隨機推薦表算法183.5、抽取歷史記錄生成推薦表算法:193.6、生成新用戶推薦列表算法:19
5、3.7、生成老用戶推薦列表算法:203.8、評價指標算法:21四、系統(tǒng)個性化推薦的實現(xiàn)254.1、輸入模塊254.2、輸出模塊26五、局限性分析275.1、個性化推薦在電子商務(wù)中應(yīng)用的局限性:275.2本個性化推薦系統(tǒng)軟件的局限性:27六、總結(jié)與體會28附錄30附錄1網(wǎng)上購鞋情況調(diào)查問卷30摘要“基于某淘鞋網(wǎng)的商品個性化推薦”項目是根據(jù)數(shù)據(jù)挖掘研究方法以及當前個性化推薦技術(shù)現(xiàn)狀,通過對得到的數(shù)據(jù)進行處理,提取出三個關(guān)鍵屬性。通過將“根據(jù)ip判斷所在省份的熱門、訪問日期的全國熱門、瀏覽記錄、隨機”推薦這四者,計算并比較權(quán)重,按照一定的標準進行合適的結(jié)合,得出7條推薦數(shù)據(jù),其中每條推薦數(shù)據(jù)中包括了
6、“品牌、類型、男/女”這三個最重要的商品屬性,使得該商品個性化推薦系統(tǒng)更智能、更準確。關(guān)鍵詞:某淘鞋網(wǎng)、個性化推薦、歷史記錄、熱門表摘要要體現(xiàn)選題的背景,如何做?得到什么結(jié)論。關(guān)鍵詞重新提煉一、緒論1.1、項目背景中國互聯(lián)網(wǎng)絡(luò)信息中心(cnnic)在北京發(fā)布的第 29 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告顯示:電子商務(wù)類應(yīng)用繼續(xù)保持穩(wěn)步發(fā)展,其中網(wǎng)絡(luò)購物用戶規(guī)模達到 1.94 億人,增長率達到 20.8%。隨著電子商務(wù)的迅猛發(fā)展,提供電子商務(wù)的網(wǎng)站數(shù)量和電子商務(wù)網(wǎng)站上的商品信息數(shù)量都呈現(xiàn)出指數(shù)增長的態(tài)勢。面對如此海量的商品信息,如何便捷、快速地獲取到用戶感興趣的商品信息已經(jīng)成為了一個熱門研究課題。本
7、項目是對某一特定的淘鞋網(wǎng)進行研究,主要為購買鞋的網(wǎng)購者推薦相應(yīng)的“品牌、類型、男/女”的鞋子。在項目啟動前,我們做了網(wǎng)上購鞋情況調(diào)查問卷(見附錄1),發(fā)放問卷20份,收回問卷20份,量太少!問卷收回率100%,問卷覆蓋范圍為廣外大三信息學(xué)院部分學(xué)生。調(diào)查結(jié)果顯示:由此可知,絕大部分消費者是經(jīng)常瀏覽購物網(wǎng)站的。但消費者網(wǎng)購的商品中是否曾經(jīng)購過鞋子呢?我們的調(diào)查問卷調(diào)查結(jié)果顯示如下:調(diào)查結(jié)果顯示,大約85%的網(wǎng)購者曾經(jīng)在網(wǎng)上購買過鞋子,由此可見,我們項目所研究的針對淘鞋網(wǎng)推薦特定的“品牌、類型、男/女”具有重大的意義。項目啟動前主要考慮的問題重點如下:不同品牌之間是否存在互斥?針對品牌互斥問題,我
8、們進行了網(wǎng)上購鞋情況調(diào)查問卷,設(shè)計的問題是:您是否對特定的品牌有強烈偏好以至排斥相同類型的其他牌子(如阿迪達斯和耐克)?統(tǒng)計結(jié)果如下圖: 分析結(jié)果得出以下結(jié)論:Ø 大約90%的人不會強烈偏好特定品牌而排斥其他品牌Ø 就目前中國人民的消費水平而言,購買者更在乎的是價格、質(zhì)量,而不是特定的某一牌子。Ø 絕大多數(shù)網(wǎng)購者反應(yīng),品牌之間的競爭只是他們公司的競爭,并不會影響到他們購買的選擇。網(wǎng)購者可以接受由其他人介紹的各種品牌,也可以接受商品個性化自主為他們推薦的品牌。Ø 所以,聯(lián)系已有的相關(guān)參考文獻,就國內(nèi)消費形勢而言,商品個性化推薦系統(tǒng)沒有必要考慮品牌的互斥。1
9、.2、數(shù)據(jù)挖掘在個性化推薦系統(tǒng)中的意義往后幾節(jié)再整合個性化推薦系統(tǒng)這個概念包含兩部分的含義:推薦和個性化。推薦實質(zhì)上是替用戶評估他從來沒見過的商品,這些商品可以是電影、書、笑話、網(wǎng)頁、甚至還可以是旅游、音樂、電子產(chǎn)品等等;對用戶來說,推薦根本上就是一個讓用戶自身對商品信息從未知到已知的過程?!盎谀程孕W(wǎng)的商品個性化推薦”是為網(wǎng)購者推薦鞋子的,所推薦的商品屬性包括“品牌、類型、男/女”,例如:耐克男運動鞋,阿迪達斯女板鞋,達芙妮女高跟鞋等等。所謂個性化,它體現(xiàn)出的是一種用戶個體的個性,也就是這個用戶不同的其他用戶的地方;在推薦領(lǐng)域中,個性化就要求推薦系統(tǒng)能針對不同的用戶分析他的行為和興趣然后在
10、現(xiàn)有的商品中推薦用戶感興趣的商品,這個推薦結(jié)果對不同用戶注定是不同的,是有針對性的,這些就體現(xiàn)出了推薦系統(tǒng)的個性化。在用戶決定一個電子商務(wù)網(wǎng)站的前途的今天,個性化推薦系統(tǒng)就是一個為用戶而生的系統(tǒng),商品個性化推薦具有以下重大意義:Ø 用戶在訪問海量商品信息時個性化推薦系統(tǒng)能幫助用戶快速獲取他感興趣的商品,避免用戶陷于到“信息超載”問題中而不能自拔。Ø 優(yōu)質(zhì)的個性化推薦系統(tǒng)能為用戶發(fā)掘用戶新的興趣點,為用戶推薦一些他感興趣但他從沒聽說過的商品。Ø 商品個性化推薦,為用戶節(jié)省大量的購買時間。幫助用戶輕松地找到所想要購買的商品。Ø 個性化推薦系統(tǒng)在為用戶帶來個性
11、、便捷的服務(wù)的同時,也為電子商務(wù)商家?guī)砭薮蟮慕?jīng)濟利益,引導(dǎo)用戶購買本不打算購買的商品,既為本網(wǎng)站的商品做了宣傳,也強烈地刺激的用戶的消費欲望。1.3、數(shù)據(jù)挖掘在個性化推薦系統(tǒng)中的應(yīng)用現(xiàn)狀近十幾年,隨著科學(xué)技術(shù)飛速的發(fā)展,經(jīng)濟和社會都取得了極大的進步,與此同時,在各個領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如人類對太空的探索,銀行每天的巨額交易數(shù)據(jù)顯然在這些數(shù)據(jù)中豐富的信息,如何處理這些數(shù)據(jù)得到有益的信息,人們進行了有益的探索。計算機技術(shù)的迅速發(fā)展使得處理數(shù)據(jù)成為可能,這就推動了數(shù)據(jù)挖掘技術(shù)的極大發(fā)展。近年來,如何提高商業(yè)網(wǎng)站的有效性,尤其是如何運用個性化推薦技術(shù)實現(xiàn)電子商務(wù)個性化服務(wù)已逐漸成為一個能引起廣泛興
12、趣的熱點課題。但目前國內(nèi)大多數(shù)電子商務(wù)網(wǎng)站的商品推薦通常是:推薦熱門產(chǎn)品(即根據(jù)當前的購買量推薦);推薦相關(guān)產(chǎn)品(推薦相似的產(chǎn)品);根據(jù)用戶瀏覽歷史的推薦(較常見的是顯示該用戶曾經(jīng)購買的商品)??梢哉f,前兩種推薦由于根本未考慮不同用戶的個性特點,因此推薦完全不具備個性化的特點,第三種推薦有一定的個性化成份,但多數(shù)網(wǎng)站還僅僅停留在僅針對該用戶一個人的購買歷史,只是為每個用戶建立了一個個人購買檔案,沒有橫向進行信息綜合,因此沒有協(xié)作推薦價值,所以也無法實現(xiàn)商品的實時綜合推薦。傳統(tǒng)的搜索算法只能幫助我們?nèi)z索商品信息,然后將同樣的與關(guān)鍵字相關(guān)的商品信息呈現(xiàn)給所有用戶。實質(zhì)上,傳統(tǒng)的搜索算法是從海量的
13、商品信息中過濾出與關(guān)鍵字相關(guān)的相關(guān)信息,針對特定用戶自身的特定需求,它就顯得無能為力了。因此針對特定網(wǎng)站進行相關(guān)產(chǎn)品推薦顯得相當有必要。1.4、數(shù)據(jù)挖掘技術(shù)主要方法后續(xù)用到什么就介紹什么數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下幾類分析方法: (1)關(guān)聯(lián)分析關(guān)聯(lián)分析就是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。隨著大量數(shù)據(jù)不停地收集和存儲,許多業(yè)界人士對于從他們的數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則越來越感興趣。從大量商務(wù)事務(wù)記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定。關(guān)聯(lián)分析的主要方法有apriori算法等。(2)分類和預(yù)測分類和預(yù)測是兩種數(shù)據(jù)分析形式,可以用于提取描述重要
14、數(shù)據(jù)類的模型或預(yù)測數(shù)據(jù)未來的趨勢。就是研究已分類資料的特征,分析對象屬性,據(jù)此建立一個分類函數(shù)或分類模型,然后運用該模型計算總結(jié)出的數(shù)據(jù)特征,將其他未經(jīng)分類或新的數(shù)據(jù)分派到不同的組中。計算結(jié)果通常簡化為幾個離散值,常用來對資料作篩選工作。分類和預(yù)測的應(yīng)用十分廣泛, 例如,可以建立一個分類模型,對銀行的貸款客戶進行分類,以降低貸款的風(fēng)險;也可以通過建立分類模型,對工廠的機器運轉(zhuǎn)情況進行分類,用來預(yù)測機器故障的發(fā)生。分類的主要方法有id3算法、c4.5算法、sliq算法、神經(jīng)網(wǎng)絡(luò)方法等。(3)聚類分析當要分析的數(shù)據(jù)缺乏描述信息,或是無法組成任何分類模式時就采用聚類的方法,將異質(zhì)母體區(qū)隔為較具同構(gòu)性
15、的群,即將組之間的差異識別出來,并對個別組內(nèi)的相似樣本進行挑選,實現(xiàn)同組數(shù)據(jù)相近,不同組數(shù)據(jù)相異。分類功能和聚類功能是不同的,分類是根據(jù)預(yù)先定好的一些特征值對對象分組,組或類是預(yù)先確定好的,而聚類是事先不知道的條件下根據(jù)對象的一些相似特征分組。聚類也便于將觀察到的內(nèi)容組織成分層結(jié)構(gòu),把類似的事件組織在一起。聚類分析的主要方法有劃分方法、層次方法、基于網(wǎng)格的方法、統(tǒng)計學(xué)和神經(jīng)網(wǎng)絡(luò)方面的方法。(4)孤立點分析數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與數(shù)據(jù)的一般行為或模式不一致。這些數(shù)據(jù)對象就是孤立點。許多數(shù)據(jù)挖掘算法試圖使孤立點的影響最小化,或者排除它們。但在一些應(yīng)用中孤立點本身可能是非常重要的信息。例
16、如在欺詐探測中,孤立點可能預(yù)示著欺詐行為。(5)時間序列分析在時間序列分析中,數(shù)據(jù)的屬性值是隨著時間不斷變化的。這些數(shù)據(jù)一般在相等的時間間隔內(nèi)取得,但是也可以在不相等的時間間隔內(nèi)取得。通過時間序列圖可以將時間序列數(shù)據(jù)可視化。時間序列分析目前有三個基本功能:一是模式挖掘,即通過分析時間序列的歷史形態(tài)來研究事務(wù)的行為特征;二是趨勢分析,即利用歷史時間序列預(yù)測數(shù)據(jù)的未來數(shù)值;三是相似性搜索,即使用距離度量來確定不同時間序列的相似性。1.5、數(shù)據(jù)挖掘在個性化推薦系統(tǒng)中的數(shù)據(jù)處理過程:我們項目組所得到的原始數(shù)據(jù)大約有6萬條,剔除與鞋子無關(guān)的數(shù)據(jù)后,并且經(jīng)過預(yù)處理,得到有用的數(shù)據(jù)約28000條。從得到的有
17、用數(shù)據(jù)中抽出出數(shù)據(jù)的三個關(guān)鍵屬性“品牌、類型、男女”,數(shù)據(jù)處理過程如下:從所得到的28000條數(shù)據(jù)中隨機抽取5%作為測試集,剩下的95%作為訓(xùn)練集。測試集中所包含的數(shù)據(jù)包括了ip、ip所在的省份、品牌、類型、男女、訪問日期。1.6、目標與可行性方法目標:“基于某淘鞋網(wǎng)的商品個性化推薦”精確地為用戶推薦鞋子的“類型、品牌、男/女”這三個屬性,力求精確率達到80%。用于幫助網(wǎng)店經(jīng)營者提高營銷及服務(wù)質(zhì)量,更好地挖掘潛在客戶及客戶的購買潛能。我們項目的“基于某淘鞋網(wǎng)的商品個性化推薦”對熱門商品、相似產(chǎn)品、瀏覽歷史以及隨機這四者結(jié)合,進行特地鞋子“品牌、類型、男/女”進行精確的推薦。針對特定的淘鞋網(wǎng)站,
18、實現(xiàn)的可行性方法如下:情況一:沒有瀏覽歷史的新ip:Ø 立足于購買時間所處的全國熱門鞋子品牌、類型,Ø 以及訪問ip所處的省份對應(yīng)的熱門鞋子品牌、類型,兩者重疊呢?Ø 隨機挑選情況一:有瀏覽歷史記錄的舊ip:Ø 在情況一的基礎(chǔ)上,再加上根據(jù)瀏覽記錄的推薦二、數(shù)據(jù)分析2.1、本次數(shù)據(jù)挖掘所用到的屬性及解釋:名稱解釋備注省份根據(jù)訪問淘鞋網(wǎng)用戶所用ip地址判斷的來源省份品牌根據(jù)搜索的標題判斷出的用戶有意向購買的鞋子的品牌類型根據(jù)搜索的標題判斷出的用戶有意向購買的鞋子的類型男女根據(jù)用戶的標題判斷出用戶有意向購買鞋子的男女屬性訪問日期用戶訪問淘鞋網(wǎng)的日期時用戶訪問
19、淘鞋網(wǎng)的時間的小時部分2.2、對各分類信息進行統(tǒng)計:省份屬性統(tǒng)計條狀圖品牌屬性統(tǒng)計條狀圖類型屬性統(tǒng)計條狀圖男女屬性統(tǒng)計條狀圖訪問時間屬性統(tǒng)計條狀圖2.3、各分類信息統(tǒng)計結(jié)論再整理 在本次統(tǒng)計中,共出現(xiàn)了34個省份,計樣本總數(shù)為28103. 在本次統(tǒng)計中北京和廣東省以12.3%和12.1%的絕對優(yōu)勢占據(jù)省份統(tǒng)計的前兩名,分別高出第三名的浙江54.5%, 53.7%。? 在本次統(tǒng)計中,共出現(xiàn)了168個品牌,計樣本總數(shù)為19038. 在這些品牌中,耐克,阿迪達斯,新百倫,安踏,特步,喬丹,達芙妮這六個品牌統(tǒng)計總和為15202,占總數(shù)79.8%。 在這168個品牌中搜索量小于10的有76各品牌,占品牌
20、總數(shù)45.2%。 在本次統(tǒng)計中,共出現(xiàn)了17種類型,計樣本總數(shù)為10887. 在這其中,運動鞋所占比例為43.1%。 在本次統(tǒng)計中,共分為24個小時,計樣本總數(shù)為28103. 在這其中,類型為空的占86.3%。 男女比例相近。 在本次統(tǒng)計中,訪問時計樣本總數(shù)為27289. 在這其中,網(wǎng)站訪問量呈波動趨勢,2023時之間訪問量總和為7668,占28.1%。 凌晨35點時訪問量處于低谷。 18點之后訪問量一直處于較高的狀態(tài)。結(jié)論:網(wǎng)站的訪問顯著增加在18點之后,即為下班之后的時間,與晚上21點達到高潮,一直保持在較高的狀態(tài),于凌晨3到5點處于低谷。所以網(wǎng)站進行網(wǎng)絡(luò)廣告投放時應(yīng)注意時間,并且在網(wǎng)絡(luò)訪
21、問高峰期加強對服務(wù)器的維護,避免出現(xiàn)問題。用戶搜索的時候多數(shù)不會加上男女屬性的值,會從搜索結(jié)果界面再次進行選擇,所以要優(yōu)化搜索結(jié)果界面,讓用戶可以較快的找到自己想要的鞋子的男女屬性。在男女偏好方面并沒有太大差別,所以網(wǎng)站要保持男女鞋的比例均衡。用戶對于運動鞋的需求量較大,并且傾向在網(wǎng)站上購買運動鞋。所以網(wǎng)站應(yīng)加大對于運動鞋的品牌,類型顏色等種類的豐富,并且在做活動的時候以運動鞋為賣點可能取到較好的效果。在用戶有搜索傾向的品牌中,少部分品牌占據(jù)了大部分的搜索量,大部分品牌僅有少數(shù)人搜索。網(wǎng)站可以著重加強對搜索量較大的品牌的議價能力,豐富這些品牌的品種并且使價格具有競爭力。對于搜索量較小的小眾品牌
22、要豐富品牌線,爭取做到用戶搜索想要的品牌不會搜索不到的情況北京與廣東是淘鞋網(wǎng)的兩大購鞋大省,為購鞋主力,并且這兩個省份的購買力較強,應(yīng)加強對這兩個省份的廣告如線下實體廣告的投放以增加用戶忠誠。三、推薦系統(tǒng)設(shè)計3.1、系統(tǒng)設(shè)計流程步驟一:比對數(shù)據(jù)庫,判斷訪問該淘鞋網(wǎng)站的ip是新ip還是曾經(jīng)有歷史記錄的舊ip,并判斷該ip所在的省份。步驟二:將數(shù)據(jù)進行預(yù)處理,篩選出ip所在的省份熱門的品牌、類型,并選出訪問日期那時候,篩選出全國熱門的品牌、類型。步驟三:對于一個新ip,通過比較權(quán)重,分別從省份熱門、全國熱門、隨機挑選,選出前3條、2條、2條數(shù)據(jù)作為品牌以及品牌所對應(yīng)的類型推薦數(shù)據(jù)。步驟四:對于一個
23、舊ip,通過比較權(quán)重,分別從瀏覽歷史記錄、省份熱門、全國熱門、隨機挑選,選出4條、1條、1條、1條作為品牌以及品牌對應(yīng)的類型作為推薦數(shù)據(jù)。具體算法流程圖如下 3條省熱門2條全國熱門2條隨機1條隨機1條全國熱門1條省熱門4條瀏覽歷史新ip?輸入ip開始 y結(jié)束處理方法15天訪問歷史3-15天訪問歷史0-3天訪問歷史n3.2、生成全國熱門表算法:算法源碼不放在文檔中,算法思想描述清楚就可以了算法一:生成每日全國熱度表輸入:近十五日數(shù)據(jù)集d;輸出:全國熱度表;arraylist brand_listgetcount(brand)2;for(int i=0;i<getcount(brand);i
24、+) brand_listi1 = countbrand(d); sort(brand_listi1);/品牌頻數(shù)和排序;arraylist type_listgetcount(type)2;for(int i=0;i<getcount(type);i+) type_listi1 = counttype(d); sort(type_listi1);/類型頻數(shù)和排序;arraylist hot_temp55;for(int i=0;i<5;i+) for(int j=0;j<5;j+) hotij=brand_listi0,type_listj0; arraylist hot2
25、52;for(int i=0;i<25;i+)for(int j=0;j<5;j+) hoti0=hot_tempj0+","hot_temp0j; /產(chǎn)生無排序的熱度備選數(shù)組;arraylist brand_frequency52;for(int i=0;i<5;i+) brand_frequencyi0=brand_listi0; brand_frequencyi1=getfrequency(brand_listi1); /品牌前五名的頻率arraylist type_frequency52;for(int i=0;i<5;i+) type_fr
26、equencyi0=type_listi0; type_frequencyi1=getfrequency(type_listi1); /類型前五名的頻率for(int i=0;i<25;i+) for(int j=0;j<5;j+) hoti1=weight(brand_frequencyj1,type_frequencyj1); /產(chǎn)生熱度表條目的權(quán)重sort(hot);/根據(jù)權(quán)重產(chǎn)生全國熱度表procedure weight(brand_frequencyj1,type_frequencyj1)double result;result=brand_frequencyj1*typ
27、e_frequencyj1;return result;3.3、生成省份熱門表算法:算法二:生成每日省份熱度表輸入:近十五日某省份數(shù)據(jù)集di;輸出:該省份熱度表;arraylist brand_listgetcount2;for(int i=0;i<getcount;i+) brand_listi1 = countbrand(d); sort(brand_listi1);/品牌頻數(shù)和排序;arraylist type_listgetcount2;for(int i=0;i<getcount;i+) type_listi1 = counttype(d); sort(type_list
28、i1);/類型頻數(shù)和排序;arraylist hot_temp55;for(int i=0;i<5;i+) for(int j=0;j<5;j+) hotij=brand_listi0,type_listj0; arraylist hot252;for(int i=0;i<25;i+)for(int j=0;j<5;j+) hoti0=hot_tempj0+","hot_temp0j; /產(chǎn)生無排序的熱度備選數(shù)組;arraylist brand_frequency52;for(int i=0;i<5;i+) brand_frequencyi0=
29、brand_listi0; brand_frequencyi1=getfrequency(brand_listi1); /品牌前五名的頻率arraylist type_frequency52;for(int i=0;i<5;i+) type_frequencyi0=type_listi0; type_frequencyi1=getfrequency(type_listi1); /類型前五名的頻率for(int i=0;i<25;i+) for(int j=0;j<5;j+) hoti1=weight(brand_frequencyj1,type_frequencyj1); /
30、產(chǎn)生熱度表條目的權(quán)重sort(hot);/根據(jù)權(quán)重產(chǎn)生該省份熱度表procedure weight(brand_frequencyj1,type_frequencyj1)double result;result=brand_frequencyj1*type_frequencyj1;return result;3.4、生成隨機推薦表算法算法三:產(chǎn)生隨機推薦表輸入:品牌數(shù)據(jù)集d_brand,各品牌對應(yīng)類型數(shù)據(jù)集di_type;輸出:隨即推薦數(shù)據(jù)表arraylist random_list = brand_list;for(int i=0;i<getcount(brand);i+) rando
31、m_listi1 = find_topdata_itemset(di_type); /產(chǎn)生隨機推薦表3.5、抽取歷史記錄生成推薦表算法:算法四:產(chǎn)生隨機推薦表輸入:品牌數(shù)據(jù)集d_brand,各品牌對應(yīng)類型數(shù)據(jù)集di_type;輸出:隨即推薦數(shù)據(jù)表arraylist random_list = brand_list;for(int i=0;i<getcount(brand);i+) random_listi1 = find_topdata_itemset(di_type); /產(chǎn)生隨機推薦表3.6、生成新用戶推薦列表算法:算法四:產(chǎn)生新人推薦表輸入:該搜索日期全國熱度表d,該搜索日期新人所
32、在省份熱度表di,隨機推薦表d_random,品牌及其男女屬性對應(yīng)表d_gender輸出:新人推薦列表arraylist recommend_list73;recommend_list01=find_item(d,1);recommend_list11=find_item(d,2);/抽取全國熱門表前兩條數(shù)據(jù);recommend_list21=find_item(di,1);recommend_list31=find_item(di,2);recommend_list41=find_item(di,3);/抽取省份熱門表前三條數(shù)據(jù);number1 = math.random(0,getcoun
33、t(random_list);number2 = math.random(0,getcount(random_list);recommend_list51=find_item(d_random,number1);recommend_list61=find_item(d_random,number2);/抽取隨機推薦表兩條數(shù)據(jù)for(int i=0;i<7;i+) recommend_listi2=getgender(recommend_listi0,d_gender);/根據(jù)品牌及其男女屬性對應(yīng)表得出男女屬性;procedure getgender(recommend_listi0,d_
34、gender):int number;when brand = recommend_listi0)get gender = d_gender(brand);switch(gender) case 0: number = math.random(1,2); if(number = 2) return "男"; else return "女"; break; case 1: return"女"; break; case 2: return"男" break;3.7、生成老用戶推薦列表算法:算法六:產(chǎn)生老客戶推薦表輸入:
35、該搜索日期全國熱度表d,該搜索日期老客戶所在省份熱度表di,隨機推薦表d_random,品牌及其男女屬性對應(yīng)表d_gender,四條推薦列表recommend_search;輸出:老客戶推薦列表arraylist recommend_list73;recommend_list01=find_item(d,1);/抽取全國熱門表第一條數(shù)據(jù);recommend_list11=find_item(di,1);/抽取省份熱門表第一條數(shù)據(jù);number1 = math.random(0,getcount(random_list);recommend_list21=find_item(d_random,n
36、umber1);/抽取隨機推薦表兩條數(shù)據(jù)recommend_list31=find_item(recommend_search,1);recommend_list41=find_item(recommend_search,2);recommend_list51=find_item(recommend_search,3);recommend_list61=find_item(recommend_search,4);for(int i=0;i<7;i+) recommend_listi2=getgender(recommend_listi0,d_gender);/根據(jù)品牌及其男女屬性對應(yīng)表得
37、出男女屬性;procedure getgender(recommend_listi0,d_gender):int number;when brand = recommend_listi0)get gender = d_gender(brand);switch(gender) case 0: number = math.random(1,2); if(number = 2) return "男"; else return "女"; break; case 1: return"女"; break; case 2: return"
38、男" break;3.8、評價指標算法:算法七:評價推薦結(jié)果準確性輸入:推薦結(jié)果列表recommend_list,實際輸入數(shù)據(jù)集d_true_search;輸出:評價結(jié)果assess_result;double assess_result;arraylist assess_brand&type72;arraylist assess_brand&gender72;arraylist assess_type&gender72;arraylist true_searchlist32;true_searchlist0=getbrand(d_true_search),g
39、ettype(d_true_search);true_searchlist1=getbrand(d_true_search),getgender(d_true_search);true_searchlist0=gettype(d_true_search),getgender(d_true_search);int i;for(i=0;i<7;i+) assess_brand&typei=getbrand(recommend_list),gettype(recommend_list); assess_brand&genderi=getbrand(recommend_list)
40、,getgender(recommend_list); assess_type&genderi=gettype(recommend_list),getgender(recommend_list);int count = 0;for(i=0;i<7;i+) if (assess_brand&typei = true_searchlist0) count +; break; else continue;for(i=0;i<7;i+) if (assess_brand&genderi = true_searchlist1) count +; break; else
41、 continue;for(i=0;i<7;i+) if (assess_type&genderi = true_searchlist2) count +; break; else continue;assess_result = count/3;/當用戶3條屬性均輸入時的評估標準。*if(get_null_brand) arraylist true_searchlist32;true_searchlist0=null,gettype(d_true_search);true_searchlist1=null,getgender(d_true_search);true_search
42、list0=gettype(d_true_search),getgender(d_true_search); int count = 0;for(i=0;i<7;i+) if (assess_brand&typei1 = true_searchlist01) count +=0.5; break; else continue;for(i=0;i<7;i+) if (assess_brand&genderi1 = true_searchlist11) count +=0.5; break; else continue;for(i=0;i<7;i+) if (as
43、sess_type&genderi = true_searchlist2) count +; break; else continue;assess_result = count/3;/當缺省品牌時的評估標準*if(get_null_type) arraylist true_searchlist32;true_searchlist0=null,gettype(d_true_search);true_searchlist1=null,getgender(d_true_search);true_searchlist0=gettype(d_true_search),getgender(d_t
44、rue_search); int count = 0;for(i=0;i<7;i+) if (assess_brand&typei1 = true_searchlist01) count +=0.5; break; else continue;for(i=0;i<7;i+) if (assess_brand&genderi1 = true_searchlist11) count +; break; else continue;for(i=0;i<7;i+) if (assess_type&genderi1 = true_searchlist11) co
45、unt +=0.5; break; else continue;assess_result = count/3;/當缺省類型時的評估標準if(get_null_gender) arraylist true_searchlist32;true_searchlist0=null,gettype(d_true_search);true_searchlist1=null,getgender(d_true_search);true_searchlist0=gettype(d_true_search),getgender(d_true_search); int count = 0;for(i=0;i<
46、;7;i+) if (assess_brand&typei1 = true_searchlist01) count +; break; else continue;for(i=0;i<7;i+) if (assess_brand&genderi1 = true_searchlist11) count +=0.5; break; else continue;for(i=0;i<7;i+) if (assess_type&genderi1 = true_searchlist11) count +=0.5; break; else continue;assess_
47、result = count/3;/當缺省男女時的評估標準*/只有品牌屬性時的評估標準if(getbrand(d_true_search)=getbrand(recommend_list) assess_result = 1;else assess_result = 0;*/只有類型屬性時的評估標準if(gettype(d_true_search)=gettype(recommend_list) assess_result = 1;else assess_result = 0;*/只有男女屬性時的評估標準if(getgender(d_true_search)=getgender(recomme
48、nd_list) assess_result = 1;else assess_result = 0;四、系統(tǒng)個性化推薦的實現(xiàn)該系統(tǒng)由三部分組成,輸入模塊、輸出模塊、評分模塊。4.1、輸入模塊輸入模塊是一個ip訪問該淘鞋網(wǎng)時,輸入ip和訪問日期,?具體界面如下:4.2、輸出模塊無論新ip還是舊ip,輸出模塊中都有7條商品推薦是數(shù)據(jù),具體界面如下:新人的輸出界面及評估結(jié)果:訪問過的用戶的輸出界面及評估結(jié)果:五、局限性分析5.1、個性化推薦在電子商務(wù)中應(yīng)用的局限性:(1)分布性、異構(gòu)性數(shù)據(jù)源的挖掘還沒完全解決(2)控制整個web上知識發(fā)現(xiàn)過程還沒完全解決(3)由于個性化推薦將提取大量用戶瀏覽或購買信
49、息,同時在登陸后即時地顯示各個推薦條目,因此個性化推薦算法往往受到實時性的制約,也影響了個性化推薦的拓展,同時存在著網(wǎng)絡(luò)安全隱患。(4)當前大部分的電子商務(wù)推薦系統(tǒng)都只是一個單一的工具,只能提供一種推薦模型。但由于電子商務(wù)系統(tǒng)本身的復(fù)雜性,不同場合需要不同類型的推薦。因此,需要研究新型電子商務(wù)推薦系統(tǒng)體系結(jié)構(gòu),以有效集成多種推薦工具,收集多種類型的數(shù)據(jù),提供多種推薦模型,使得不同的推薦工具組合使用,互補長短,滿足不同類型的推薦需要。5.2本個性化推薦系統(tǒng)軟件的局限性:(1) 數(shù)據(jù)集問題: 小組成員所采用的數(shù)據(jù)集是網(wǎng)上已經(jīng)有的淘鞋網(wǎng)數(shù)據(jù)。 網(wǎng)上已有的淘鞋網(wǎng)的數(shù)據(jù)由于是爬取的數(shù)據(jù),存在許多實際無效
50、的數(shù)據(jù),同時品牌與類型,男女屬性存在著不少空值。這些空值直接或間接地影響到我們數(shù)據(jù)挖掘的數(shù)據(jù)的可靠性與評估算法的準確度,同時加大了處理數(shù)據(jù)的難度。另一方面,由于數(shù)據(jù)集記錄的數(shù)據(jù)是用戶瀏覽的數(shù)據(jù),而用戶實際購買情況卻未曾記錄,這也間接地影響到了個性化推薦算法的效率和精度。(2)問卷調(diào)查分析: 問卷調(diào)查所發(fā)放的問卷較少,使統(tǒng)計出來的網(wǎng)上購鞋個性化推薦現(xiàn)狀的可靠性降低,同時可能會使得獲得的數(shù)據(jù)品牌互斥性的重要程度降低從而影響數(shù)據(jù)挖掘深度。(3) 數(shù)據(jù)處理問題: 由于爬取的數(shù)據(jù)多達2萬多條,最終衍生出來的表格有上百個,在實際操作的過程中無法實現(xiàn)批量處理,因而這種個性化推薦的方式效率會受到限制。 創(chuàng)建模
51、型的訓(xùn)練集是固定的數(shù)據(jù)集,但是在實際的電子商務(wù)交易中,要實時地更新訓(xùn)練集以生成省份熱門表和全國熱門表,這使得系統(tǒng)所操作的數(shù)據(jù)量進一步加大,拓展性受到制約。系統(tǒng)只產(chǎn)生3條屬性的推薦條目,可能存在推薦的廣度的制約。(4) 評估標準:評估標準是由小組成員結(jié)合網(wǎng)上搜索到論文而思考而成,由于測試集的數(shù)據(jù)量少于訓(xùn)練集的數(shù)據(jù)量,因而在實際操作的過程中可能存在算法準確度不高的風(fēng)險及其他某些未被發(fā)現(xiàn)和處理的誤差。Ø 商品單一,只是針對鞋子的單一推薦。Ø 所推薦的鞋子只推薦了“品牌、類型、男女”這三個重要的屬性,忽略了商品的評分以及優(yōu)惠。Ø 對于“男女”這一屬性的推薦,主要針對品牌而言,準確率不高。Ø 推薦列表中包括了7條推薦數(shù)據(jù),這些數(shù)據(jù)是綜合“省份熱門+全國熱門+瀏覽記錄+隨機”,存在一定的錯誤率。Ø 對于一個新人,由于沒有瀏覽記錄,推薦的準確率相對低。由于技術(shù)水平、時間的有限,以上局限性在接下的學(xué)習(xí)過程中,我們將努力解決,做到更完善。六、總結(jié)與體會本次數(shù)據(jù)挖掘極大地提高了我們對這門課程的了解度、創(chuàng)新性與小組成員之間的凝聚力。通過對數(shù)據(jù)的預(yù)處理,關(guān)聯(lián)性分析,對相關(guān)算法的討論和實現(xiàn),對相關(guān)課題的研究和分析,和對數(shù)據(jù)挖掘原理的理解和思考,以及對整個框架的理解與對過程的總結(jié)和對最終評估標準的實現(xiàn),本小組成員中的每個人都進
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆河北省唐山市高三下學(xué)期第一次模擬考試政治試題(原卷版+解析版)
- 2025年空調(diào)箱總成合作協(xié)議書
- 5.5顯微鏡和望遠鏡 說課稿 2025年初中人教版物理八年級上冊
- 晚上打瞌睡檢討書
- 關(guān)于志愿者的活動方案
- 證監(jiān)局回復(fù)函立案
- 《商業(yè)插畫創(chuàng)意與表現(xiàn)》課件-【5】商業(yè)插畫的材料與表現(xiàn)技法
- 一體化污水處理設(shè)備采購安裝及運維 投標方案(技術(shù)方案)
- 三農(nóng)村基層教育資源配置與優(yōu)化方案
- 教育行業(yè)教師培訓(xùn)與成長計劃
- FZ∕T 01085-2018 粘合襯剝離強力試驗方法
- 白龍江引水工程環(huán)境影響報告書(公示版)
- 《短視頻拍攝與制作》課件-3短視頻中期拍攝
- 瀏陽煙花術(shù)語大全
- 五星級酒店前廳管理常用表格
- 居民心理健康知識講座課件
- 《養(yǎng)老護理員》-課件:老年人安全防范及相關(guān)知識
- 2024年英語專業(yè)四級考試真題及詳細答案
- 成語故事葉公好龍
- MHT:中小學(xué)生心理健康檢測(含量表與評分說明)
- 制度修訂培訓(xùn)課件
評論
0/150
提交評論