R語言數(shù)據(jù)挖掘_第1頁
R語言數(shù)據(jù)挖掘_第2頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、小組成員:周犬義王寧小組成員:周犬義王寧R語言數(shù)據(jù)挖掘論文語言數(shù)據(jù)挖掘論文題目:數(shù)據(jù)挖掘?qū)崙?zhàn)之網(wǎng)站智能推薦服務(wù)題目:數(shù)據(jù)挖掘?qū)崙?zhàn)之網(wǎng)站智能推薦服務(wù)數(shù)據(jù)挖掘?qū)崙?zhàn)之網(wǎng)站智能推薦服務(wù)數(shù)據(jù)挖掘?qū)崙?zhàn)之網(wǎng)站智能推薦服務(wù)一、背景與挖掘目標(biāo)一、背景與挖掘目標(biāo)伴隨著計(jì)算機(jī)技術(shù)、通信技術(shù)的日益成熟和廣泛應(yīng)用,互聯(lián)網(wǎng)自 90 年代初開始得到迅猛發(fā)展, 至今雖然只有短短幾十年的時(shí)間, 但它已經(jīng)發(fā)展成為現(xiàn)今信息時(shí)代人類生活中不可或缺的重要組成部分, 并成為全球范圍內(nèi)傳播信息的主要渠道。 隨之而來的是互聯(lián)網(wǎng)上信息資源越來越豐富, 人們要在浩如煙海的“混亂的”互聯(lián)網(wǎng)信息世界中找到自己真正感興趣信息卻存在很大的困難,具體表現(xiàn)

2、在: 用戶不知道如何貼切表達(dá)真正想要的網(wǎng)上資源的需求, 也不知道如何去更準(zhǔn)確有效地尋找, 即所謂的“信息迷失”問題; 和對收到的或已經(jīng)下載的大量無關(guān)的信息難以消化, 即所謂的“信息過載”問題。 雖然我們可以借助于搜索引擎來檢索 Web 上的信息, 但仍不能滿足不同背景、 不同目的和不同時(shí)期的查詢要求, 因?yàn)榇蠖鄶?shù)搜索引擎缺少主動(dòng)性, 沒有考慮用戶的興趣偏好和用戶的不同,無法有效地解決信息過載和信息迷失的問題。為了適應(yīng)用戶不斷增長的信息需求,有效地解決信息過載和信息迷失給人們帶來的種種問題, 研究人員紛紛從人工智能中尋找突破口在許多探索性研究中,個(gè)性化推薦服務(wù)作為一種嶄新的智能信息服務(wù)方式,應(yīng)用

3、前景廣泛,十分引人注目。與搜索引擎不同,推薦系統(tǒng)并不需要用戶提供明確的需求,而是通過分析用戶的歷史行為, 根據(jù)用戶的行為主動(dòng)推薦能夠滿足他們興趣和需求的信息。因此,對于用戶而言推薦系統(tǒng)和搜索引擎是兩個(gè)互補(bǔ)的工具。搜索引擎滿足有明確目的的用戶需求,而推薦系統(tǒng)能夠幫助用戶發(fā)現(xiàn)感興趣的內(nèi)容。因此,在電子商務(wù)領(lǐng)域中推薦技術(shù)可以起到以下作用:第一,幫助用戶發(fā)現(xiàn)其感興趣的物品,節(jié)省用戶時(shí)間、提升用戶體驗(yàn);第二,提高用戶對電子商務(wù)網(wǎng)站的忠誠度, 如果推薦系統(tǒng)能夠準(zhǔn)確地發(fā)現(xiàn)用戶的興趣點(diǎn)并將合適的資源推薦給用戶, 用戶就會(huì)對該電子商務(wù)網(wǎng)站產(chǎn)生依賴, 從而建立穩(wěn)定的企業(yè)忠實(shí)顧客群,提高用戶滿意度。本案例研究的對象

4、是泰迪智能科技有限公司的泰迪杯競賽網(wǎng)站, 泰迪科技是一家專業(yè)從事大數(shù)據(jù)挖掘應(yīng)用研發(fā)、 咨詢和培訓(xùn)服務(wù)的高科技企業(yè)。 泰迪杯競賽網(wǎng)致力于為用戶提供豐富的泰迪杯競賽信息、 數(shù)據(jù)挖掘培訓(xùn)咨詢服務(wù), 并為參賽者提供了往屆優(yōu)秀作品作為參考,為高校提供了豐富的教學(xué)資源,如:案例教程、教學(xué)視頻、教學(xué)書籍、建模工具等。隨著網(wǎng)站量增大,其數(shù)據(jù)信息量也在大幅度增長。 用戶在面對大量信息時(shí)無法及時(shí)從中獲取自己需要的信息,對信息的使用效率越來越低。 這種瀏覽大量無關(guān)信息的過程, 造成了用戶需要花費(fèi)大量的時(shí)間才能找到自己需要的信息。 為了能更好地滿足用戶需求, 依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和

5、行為,發(fā)現(xiàn)用戶的興趣點(diǎn)。引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求,將網(wǎng)頁精準(zhǔn)地推薦給所需用戶,幫助用戶發(fā)現(xiàn)他們感興趣但很難發(fā)現(xiàn)的網(wǎng)頁信息為了能夠更好的滿足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點(diǎn),從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。行為記錄行為記錄content_pagejatlfulluruseridE&ssionicip亡口untrareabrOTEer_brars&rplntfsrniplatfarn.E:/Eytj/incticxtatorg/Etj/indcE.jhtul2KA/zytj/lrutlpdm.nre/iytj/indjei

6、.Jhtnil品DEBOETOgiEia.20-2;河南笞祁丑丙旨ED095C瞽二血甌2;河南肖揶我通ChroiDeClLtOfft?45-0,Ei&Uindows45-0.SifludCWS3/stKm.-inctipdm_erg/3ct:sivindex,jhtml773fW9:iaa.165.:芙田局城網(wǎng)firefai35UindoTE-4614/notie/ftipctaLorg/notice/BH.jhtulME314440fia0,Io3.:上揮市電佶ChronK0.245-1115KP5626/stpj超出血jht-il鳥FBD4E.BOF:1M153.上淖市電信Chr-

7、w45.0.24&indowsXFG/thirdtiitipdm.arg/thirdtipdiiindes.jhtml7陥/zzlj/inttipctatorg/zytj/indjei.jhtul0OIMiEPOBLL:.206.;北京市乘通麗CDAFED4TE2la.28-Z:河宙肯那禿誦Int亡mut7finidoTs45-0.245-ffindc-wgXF8 NA/Eytj/incticxtakorg/ETtj/iiudeE.jhtul9667/j6641iodiiLorE/Jxspy6fi7Bjhtjil押CHAEEJES以29.2.2.狗南省絢聯(lián)通翳CtlftFEo;(218

8、.28.2;河南肯卻我通ChroiDeClLtOfftf4fi-0.24&iindtew545-07110667/jKEp/efi-tipdniorg.jx&p/667-jhtul富ClAF547dIS.28.2:河南百襪:慕連Chroroe45-0.24&Hiridcw7fL1M/tipdm-org/-D334FTIS以19.21廣東眷廣:/OEw513KA/Eytj/im:ti図血org/z-Ttj/indei.jhtul19KA/JnEj/irutiiklnLore/jmej/indeK.jhtml站CHAFEJES以23.2.2.河南吿鄭:麻通京CDlftFti

9、47f2LJ.28.2:河南省辜丑誦QrcwChrome北 ”0.S45-indGwa15.0.24Min(3irs7:20672/jngj-57:tipdmorg/jugj/6j2jhtnl21KA/Btpj/in(tipdiTLorg.-stpj-i口蟲兀jhtml貼CtlAFE:rdl8.29.2;河鳶吉鄭氓通砧7BEO4B271111,206.;北克市匪誦ChriSiw45.0.24B-indoTS7ffindoTS.7:22砧/jsEg/inctitxluLora/jseE/iiuteE.jihtul砧D984F70&1218.19.21廣輩肯廣”眸珠區(qū)后ChrMB50,0.

10、266:*in(im7H“麗1311:財(cái)罠.原始數(shù)據(jù):利用 read.csv 函數(shù)把原始數(shù)據(jù)導(dǎo)入 R 語言 RStudio 中,整理數(shù)據(jù)進(jìn)行下一步的處理。當(dāng)用戶訪問網(wǎng)站頁面時(shí),系統(tǒng)會(huì)記錄用戶訪問網(wǎng)站的日志,其訪問的數(shù)據(jù)記錄了訪問序號(hào)、內(nèi)容 id、訪問內(nèi)容、用戶 id、ip 等多項(xiàng)屬性的記錄,并針對其中的各個(gè)屬性進(jìn)行說明,如表 2-2 所示。表 2-2 訪問記錄屬性表屬性名稱屬性名稱屬性說明屬性說明屬性名稱屬性名稱屬性說明屬性說明id訪問序號(hào)browser_type瀏覽器類型content_id內(nèi)容 idbrowser_version瀏覽器版本page_path網(wǎng)址platform_type平臺(tái)

11、類型username用戶名稱platform_series平臺(tái)系列userid用戶 idplatform_version平臺(tái)版本sessionid一次瀏覽標(biāo)識(shí)data_time訪問時(shí)間ipip 地址mobile_type手機(jī)類型country國家agent代理商area區(qū)域uniqueVisitorID唯一瀏覽 ID依據(jù)所提供的原始數(shù)據(jù),確定挖掘目標(biāo)如下:挖掘目標(biāo):挖掘目標(biāo):1、借助大量用戶的訪問記錄,發(fā)現(xiàn)用戶的訪問行為習(xí)慣,對不同需求的用戶進(jìn)行相關(guān)服務(wù)頁面的推薦;2、根據(jù)用戶訪問內(nèi)容、訪問次數(shù)等屬性特征,深入了解用戶對訪問網(wǎng)站的行為和目的及關(guān)心的內(nèi)容二、推薦系統(tǒng)架構(gòu)二、推薦系統(tǒng)架構(gòu)總體流程業(yè)

12、務(wù)系統(tǒng)數(shù)擁抽喊數(shù)據(jù)探索與預(yù)處理建模&診斷結(jié)果&反石主要步驟:主要步驟:1. 從系統(tǒng)中獲取用戶訪問網(wǎng)站的原始記錄。2. 以用戶訪問 jhtml 后綴的網(wǎng)頁為關(guān)鍵條件,對數(shù)據(jù)進(jìn)行處理。3. 對數(shù)據(jù)進(jìn)行多維度分析,用戶訪問時(shí)間,用戶訪問內(nèi)容,流失用戶分析以及用戶分群等分析。4. 對數(shù)據(jù)進(jìn)行預(yù)處理,包含數(shù)據(jù)去重,數(shù)據(jù)刪選,數(shù)據(jù)分類等處理過程。5. 對比多種推薦算法進(jìn)行推薦, 通過模型評價(jià), 得到比較好的智能推薦模型。通過模型對樣本數(shù)據(jù)進(jìn)行預(yù)測,獲得推薦結(jié)果數(shù)據(jù)抽?。簲?shù)據(jù)抽?。?. 網(wǎng)頁類型分析網(wǎng)頁類型分析結(jié)論:結(jié)論:從去掉.jhtml 的網(wǎng)址中針對用戶的瀏覽習(xí)慣,對教學(xué)資源、競賽、企業(yè)

13、合作、新聞合作進(jìn)行分類提取分析,其中教學(xué)資源、競賽、企業(yè)合作、新聞合作分別占總數(shù)的百分比為 29.50%、34.50%、9.70%、25.40%,這樣讓我們更深入地去了解用戶需要什么,進(jìn)而為下推薦提升一定的需要。2. 臟數(shù)據(jù)探索臟數(shù)據(jù)探索臟數(shù)據(jù)探索一:在記錄中,存在一部分這樣的用戶,他們沒有點(diǎn)擊具體的網(wǎng)頁(.jhtml 形式的),點(diǎn)擊的大部分是目錄網(wǎng)頁,總共有 12091 條記錄,應(yīng)刪掉這部分。臟數(shù)據(jù)探索二:對數(shù)據(jù)中存在部分翻頁網(wǎng)址,大量的用戶基本只會(huì)選擇瀏覽了 25 頁后,如果沒有搜索到想要的內(nèi)容,直接就圖一放棄此次的搜索,很少會(huì)選擇瀏覽完全部內(nèi)容,因?yàn)檫@部分網(wǎng)頁存在首頁,故對數(shù)據(jù)處理應(yīng)刪除

14、翻頁部分。3.點(diǎn)擊次數(shù)分析點(diǎn)擊次數(shù)分析點(diǎn)擊次數(shù)用戶數(shù)用戶百分比記錄百分比1236939.745.36296416.174.3634707.883.1943906.541.8052654.443.0062023.392.7471682.812.667 次以上113319.0180.08分析:1.瀏覽一次的用戶占所有用戶 39%左右,記錄數(shù)占 5%左右;瀏覽七次以上的用戶占所有用戶的 80%左右,其中 40%的用戶,為網(wǎng)址提供了大約 90%的瀏覽量2.對點(diǎn)擊次數(shù)最大值進(jìn)行分析,其大多是關(guān)于“Python 數(shù)據(jù)分析與挖掘?qū)崙?zhàn)圖書配套資料下載”的總共 2075 次。4.網(wǎng)頁點(diǎn)擊數(shù)排名網(wǎng)頁點(diǎn)擊數(shù)排名排序

15、排序網(wǎng)址網(wǎng)址點(diǎn)擊數(shù)點(diǎn)擊數(shù)1 1/zytj/index.jhtml2469教學(xué)資源2 2/yxzp/index.jhtml2123競賽3 3/ts/661.jhtml2075教學(xué)資源4 4/notice/757.jhtml1378新聞公告5 5/stpj/index.jhtml1296競賽6 6/qk/729.jhtml1072競賽7 7/ts/654.jhtml934教學(xué)資源8 8/jszz/index.jhtml900競賽9 9/t

16、s/785.jhtml838教學(xué)資源1010/ts/578.jhtml831教學(xué)資源1111/xtxm/index.jhtml749企業(yè)合作1212/notices/index.jhtml709新聞公告1313/notice/758.jhtml661新聞公告1414/sj/638.jhtml648新聞公告1515/ts/index.jhtml645教學(xué)資源1616/sj/789.jhtml569新聞公告1717/sm/736.jhtml513競賽181

17、8/ts/655.jhtml505教學(xué)資源1919/ts/747.jhtml487教學(xué)資源2020/cgal/index.jhtml467競賽分析:分析:表中可以看出,點(diǎn)擊次數(shù)排名前 20 名中,教學(xué)資源”類占了大部分,其次是“競賽”類,然后是“新聞公告 ”類。5.同網(wǎng)頁翻頁的點(diǎn)擊數(shù)同網(wǎng)頁翻頁的點(diǎn)擊數(shù)網(wǎng)址網(wǎng)址點(diǎn)擊數(shù)比率點(diǎn)擊數(shù)比率/yxzp//yxzp//yxzp/index_2./yxzp/index_2.j

18、/yxzp/index_3./yxzp/index_3./yxzp/index_4./yxzp/index_4./yxzp/index_5./yxzp/index_5./yxzp/index_6./yxzp/index_6./stpj//s

19、tpj//stpj/index_2./stpj/index_2./stpj//stpj/index3.jhtml530.041分析:分析:同一網(wǎng)頁中登錄次數(shù)最多大部分都是從主頁搜索引擎直接收索到的網(wǎng)頁??闪私獾接脩暨M(jìn)行同網(wǎng)頁翻頁的比例相對較少,會(huì)出現(xiàn)用戶衰減的情況。1、如果網(wǎng)頁需要翻的頁數(shù)太多,大量的用戶基本只會(huì)選擇瀏覽了 2-6 頁后,沒有搜索到想要的內(nèi)容, 直接就放棄此次的搜索, 很少會(huì)選擇瀏覽完全部內(nèi)容。2、通過搜索入口,直接找

20、到需要的幫助,就不需要對網(wǎng)址進(jìn)行翻頁處理。3、如果翻頁情況比較小,可以建議設(shè)置全頁顯示,知識(shí)頁面無此功6. 數(shù)據(jù)處理流程數(shù)據(jù)處理流程開始原始,數(shù)據(jù)/推薦系統(tǒng):廣、廣、數(shù)據(jù)消洗數(shù)據(jù)消洗數(shù)據(jù)吏換屬性選擇三、數(shù)據(jù)預(yù)處理三、數(shù)據(jù)預(yù)處理1.數(shù)據(jù)清洗,針對上述歸納的臟數(shù)據(jù)類型,對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗刪除數(shù)據(jù)類型刪除數(shù)據(jù)記錄原始數(shù)據(jù)記錄百分比刪除數(shù)據(jù)類型刪除數(shù)據(jù)記錄原始數(shù)據(jù)記錄百分比翻頁翻頁1277609912.093%亂碼錯(cuò)誤網(wǎng)址亂碼錯(cuò)誤網(wǎng)址5609910.0081%網(wǎng)站主頁網(wǎng)站主頁2527609914.143%無無html120916099119.8%重復(fù)網(wǎng)頁重復(fù)網(wǎng)頁165906099127.2%2數(shù)據(jù)

21、選擇,選擇記錄中.jhtml 后綴的記錄,并對其進(jìn)行手動(dòng)分類處理。類型類型總記錄數(shù)總記錄數(shù)百分比百分比(27612)說明說明zytj、yxsp、jmgj、information、tsasdf、dsjkf、 j jiao、 j jmg、tts、sjfxs、sjsdf790628.63%教學(xué)資源jszz、stpjj jyxzp、cgal、firsttipdm、secondtipdm、thirdtipdm、fourthtipdm、jingsa、kjxm、qk、sdfasfj jsm、td954434.56%競賽qyalj jxtxm、wjxq、zxns、zzszl314511.38%企業(yè)合作news

22、、notice、notices、sj786928.50%新聞合作3.數(shù)據(jù)集成:四、統(tǒng)計(jì)分析四、統(tǒng)計(jì)分析選取知識(shí)內(nèi)容中的教學(xué)資源類型進(jìn)行分析網(wǎng)址內(nèi)容點(diǎn)擊次數(shù)/ts/661.jhtmlPython 數(shù)據(jù) 分析與挖掘?qū)崙?zhàn)一圖書配套資料下載2075/ts/654.jhtmlR 語言分析與挖掘?qū)崙?zhàn)一圖書配套資料下載934/ts/785.jhtml賈圓圓一數(shù)據(jù)挖掘競賽平臺(tái)838/ts/578.jhtmlMatlab 分析 與挖掘?qū)崙?zhàn)一圖書配套資料下載831/ts/655.jhtmlHadoop 分析 與挖掘?qū)崙?zhàn)一圖書

23、配套資料下載505對其中的點(diǎn)擊次數(shù)與網(wǎng)頁進(jìn)行分析。點(diǎn)擊次數(shù)點(diǎn)擊次數(shù)網(wǎng)頁個(gè)數(shù)網(wǎng)頁個(gè)數(shù)(87) 網(wǎng)頁百分比網(wǎng)頁百分比記錄數(shù)(記錄數(shù)(2075)記錄百分比記錄百分比11011.5%100.48%244.6%80.39%333.45%90.43%420757080.46%204898.70%分析:分析:通過教學(xué)資源網(wǎng)頁類型網(wǎng)頁點(diǎn)擊排名和網(wǎng)頁個(gè)數(shù)點(diǎn)擊次數(shù)可以看出,人們對數(shù)據(jù)挖掘類比較感興趣, 從網(wǎng)頁點(diǎn)擊個(gè)數(shù)我們可以看出, 點(diǎn)擊 4 次以上的網(wǎng)頁個(gè)數(shù)占了 80%左右,瀏覽量卻占了 98%,因此我們可以考慮,按點(diǎn)擊行為進(jìn)行分類,分析構(gòu)建模型算法。四、模型構(gòu)建與檢驗(yàn)四、模型構(gòu)建與檢驗(yàn)由于用戶訪問網(wǎng)站的數(shù)據(jù)記錄

24、很大,如果對數(shù)據(jù)不進(jìn)行分類處理對所有記錄直接采用推薦系統(tǒng)進(jìn)行推薦,這樣會(huì)存在以下問題:數(shù)據(jù)量太大意味著物品數(shù)與用戶數(shù)很多, 在模型構(gòu)建用戶與物品的稀疏矩陣時(shí), 出現(xiàn)設(shè)備內(nèi)存空間不夠的情況,并且模型計(jì)算需要消耗大量的時(shí)間。用戶區(qū)別很大,不同的用戶關(guān)注信息不一樣,因此即使能夠得到推薦結(jié)果,其推薦效果也會(huì)不好。分析思路基于項(xiàng)目的協(xié)同過濾基于項(xiàng)目的協(xié)同過濾性能性能:UserCF 適用于用戶較少的場合,否則計(jì)算用戶相似度矩陣的代價(jià)很大;而 ItemCF 正好相反,適用于項(xiàng)目數(shù)明顯小于用戶數(shù)的情況實(shí)時(shí)性實(shí)時(shí)性: UserCF 用戶有新行為, 不一定造成推薦結(jié)果的立即變化; ItemCF正好相反,一定會(huì)導(dǎo)致

25、推薦結(jié)果的實(shí)時(shí)變化長尾物品豐富,用戶個(gè)性化需求強(qiáng)烈的領(lǐng)域推薦理由:推薦理由:與 UserCF 相比,ItemCF 利用用戶的歷史行為給用戶做推薦解釋,更容易讓用戶信服算法流程:算法流程:關(guān)聯(lián)規(guī)則是從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲(chǔ)中大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、 頻繁出現(xiàn)的模式、 關(guān)聯(lián)和相關(guān)性。 更確切的說,關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)對物品乙的出現(xiàn)有多大的影響。推薦結(jié)果推薦結(jié)果 1 1:教學(xué)資源網(wǎng)頁類型(部分如下)用戶用戶點(diǎn)擊網(wǎng)點(diǎn)擊網(wǎng)推薦網(wǎng)推薦網(wǎng)$8$8//ts/661.jhtml

26、1./ts/785.jhtml2. /ts/654.jhtml3. /ts/655.jhtml4. /ts/755./ts/578.jhtml$0$0/ts/661./ts/785./sm/736./notice/760./notice/757./jmgj/568.jhtml2.tipdm.o

27、rg/ts/646./jmgj/569./jmgj/574.jhtml$5$5 /ts/785./ts/661./ts/786./ts/755./ts/654./ts/747.jhtml結(jié)果反饋結(jié)果反饋 1 1模型評價(jià):準(zhǔn)確率與召回率模型評價(jià):準(zhǔn)確率與召回率(Precision&Recall)Precis

28、ion 就是檢索出來的條目中(網(wǎng)頁)有多少是準(zhǔn)確的。Recall 就是所有準(zhǔn)確的條目有多少被檢索出來了AB二D二二LO111Q011020101010S11111104L010L0511001L0600010107:0000LOB01010訓(xùn)練集訓(xùn)練集CJLC測試集測試集0.2AED物品相似矩陣0.z0,亦亦0.0.6 60.60.330.4計(jì)算興趟度用戶物品矩陣/td/723./td/723./td/465./td/465./td/374.jhtmltipdm.o

29、rg/td/374./td/378./td/378./qk/729./qk/729.jhtml結(jié)果反饋模型檢驗(yàn)結(jié)果反饋模型檢驗(yàn)2f-randomilenuiis-A-popularitemsilem-basedCF0002U40.60.8rscall推薦結(jié)果推薦結(jié)果 2 2:競賽網(wǎng)頁類型(部分如下)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)/td/723./td/723.jhtml$l$l1191192 2146146/zxns/

30、716./zxns/716./ts/661/ts/661/ts/661/ts/661/sm/736./sm/736./notice/760/notice/760/fourthtipdm/77/fourthtipdm/774./fourthtipdm/778.t

31、/fourthtipdm/778./fourthtipdm/777./fourthtipdm/777./qk/729./qk/729./td/723./td/723.jhtml$1204118194$1204118194/sm/736./sm/736.jhtmlgogo3.0CM3.0CM口0 0匚.E.Ew /td/37

32、4./td/374.jhtml /sm/736./sm/736.jhtml /td/465./td/465.jhtml $1.12$1.122532536060推薦結(jié)果推薦結(jié)果 3 3:企業(yè)合作網(wǎng)頁類型(部分如下)用戶用戶點(diǎn)擊網(wǎng)點(diǎn)擊網(wǎng)推薦網(wǎng)推薦網(wǎng)$46$46/td/723./td/723./zxns/716./zxns/716.jhtmlt

33、/zxns/773./zxns/773.jhtml /wjxq/724./wjxq/724.jhtml /wjxq/660./wjxq/660.jhtml $61$61/xtxm//xtxm//xtxm/index_2./xtxm/index_2./wjxq/728

34、./wjxq/728.jhtml /zxns/773./zxns/773.jhtml /wjxq/725./wjxq/725.jhtml $26$26/fourthtipdm/779./fourthtipdm/779./fourthtipdm/778./fourthtipdm/778./secondtipdm

35、/493./secondtipdm/493./zzszl/718./zzszl/718./kjxm/552./kjxm/552./wjxq/725./wjxq/725.jhtml /wjxq/724./wjxq/724.jhtml /wjxq/660./wjxq/660.jhtml 結(jié)果反饋模型檢驗(yàn)結(jié)果反饋

36、模型檢驗(yàn) 3 3結(jié)果反饋模型檢驗(yàn)結(jié)果反饋模型檢驗(yàn)4推薦結(jié)果推薦結(jié)果 4 4:新聞公告網(wǎng)頁類型(部分如下)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)$0$0/ts/661./ts/661./ts/785.jhtml/ts/785./sm/736./sm/736./notice/760./noti/notice/760./notice/7

37、57./fourthtipce/757./fourthtipdm/775./jmgj/576.dm/775./jmgj/576./notice/765./notice/765./notice/787./notice/787./notice/769./notice/769./no

38、tice/758./notice/758./notice/743./notice/743.jhtml$8$8/sj/789./sj/789./notice/758./notice/758./notice/757./notice/757./notice/661./

39、notice/661./notice/758./notice/758./notice/561./notice/561.jhtml$01$01/notice/757./notice/757./notice/758./notice/758./notice/769./notice/769.

40、/notice/760./notice/760./sj/789./sj/789./news/465./news/465.jhtmlrandomitemspopularitemsitem-basedCF0.0DJ0.40.60&recall五、結(jié)果分析五、結(jié)果分析從推薦結(jié)果和模型檢驗(yàn)上得出,不同的用戶對網(wǎng)址點(diǎn)擊的次數(shù)有一定的關(guān)聯(lián)規(guī)則,更確切的說,就是通過量化的數(shù)字描述物品甲的出現(xiàn)對物品乙的出現(xiàn)有多大的影響,進(jìn)而真正的了解用戶

41、,從而對用戶進(jìn)行推薦。從模型的檢驗(yàn)上看,我們用了三種檢驗(yàn)方法,即隨機(jī)推薦檢驗(yàn)、熱點(diǎn)推薦檢驗(yàn)、IBCF 推薦檢驗(yàn),從檢驗(yàn)圖形上可以得出熱點(diǎn)推薦對用戶的召回率和精確度更明顯,即隨著推薦個(gè)數(shù)的增加,用戶被召回的可能性就越低,而針對這個(gè)問題我們更應(yīng)該深入的去了解用戶,給用戶推薦他們真正想要的結(jié)果。六、模型應(yīng)用六、模型應(yīng)用當(dāng)前,隨著互聯(lián)網(wǎng)對人們生活影響的不斷增大,每天有數(shù)以億計(jì)的用戶行為數(shù)據(jù)被網(wǎng)站記錄。這些數(shù)據(jù)以隱性信息的方式反映人們的行為習(xí)慣、興趣愛好、性格特征,甚至是政治主張。網(wǎng)民每天都在告訴我們,他們到底需要什么。而這也正反映了用戶的需求,可以說誰= =d d豊9 9豆寸導(dǎo)UQUQinin一曹40

42、.6巳匚已IK0.8randomitemspopulariitemEitem-basedOFa能讀出用戶的需求,誰就能更好地迎合用戶,獲取更多的流量,其網(wǎng)站的用戶體驗(yàn)也就越好。通過用戶使用網(wǎng)站時(shí)留下的數(shù)據(jù)來讀出用戶需求、習(xí)慣、愛好。了解到用戶真正需要什么,所以在對于日后的網(wǎng)頁推薦過程中,建議根據(jù)不同類型的網(wǎng)頁運(yùn)用不同的算法進(jìn)行推薦,即分類推薦,以達(dá)到最好的推薦效果。這不但會(huì)更好的為用戶提供網(wǎng)頁推薦服務(wù),而且會(huì)加大用戶對該公司網(wǎng)頁的點(diǎn)擊量,并在很大程度上方便用戶查找想要的內(nèi)容。附錄:附錄:data-read.csv(C:UsersAdministratorDesktoptipdm.initdat

43、a.csv,stringsAsFactors=F)data-read.csv(C:UsersAdministratorDesktoptipdm.initdata.csv,stringsAsFactors=F)# #導(dǎo)入原始數(shù)據(jù)導(dǎo)入原始數(shù)據(jù)#采用匹配的方法找出那些帶有采用匹配的方法找出那些帶有.jhtm.jhtml l或或.htm.htm 形式的網(wǎng)址形式的網(wǎng)址nf2-datagrep(.jhtml|.htm,data,fullurl),nf2-datagrep(.jhtml|.htm,data,fullurl),#去除帶去除帶% %、網(wǎng)站主頁、亂碼類臟數(shù)據(jù)網(wǎng)、網(wǎng)站主頁、亂碼類臟數(shù)據(jù)網(wǎng)址址ind1

44、-nf2-grep(_d+|/index.jhtml|.*%.*|/sj/6ind1-nf2-grep(_d+|/index.jhtml|.*%.*|/sj/6.jhtml,nf2,fullurljhtml,nf2,fullurl),),info-indl,c(ip,fullurl)info-indl,c(ip,fullurl)#從去除臟數(shù)據(jù)的數(shù)據(jù)中提取出從去除臟數(shù)據(jù)的數(shù)據(jù)中提取出 ipip、ullurlullurl兩列兩列l(wèi)ibrary(plyr)library(plyr)library(recommenderlab)l

45、ibrary(registry)library(recommenderlab)library(registry)#篩選教學(xué)資源類網(wǎng)頁篩選教學(xué)資源類網(wǎng)頁ff-infogrep(zytj|yxsp|jmgj|informatioff-infogrep(zytj|yxsp|jmgj|information|ts|asdf|dsjkf|jiao|jmg|tts|sjfxs|sjsdfn|ts|asdf|dsjkf|jiao|jmg|tts|sjfxs|sjsdf,info,fullurl),info,fullurl),#篩選競賽類網(wǎng)頁篩選競賽類網(wǎng)頁ff1-infogrep(jszz|stpj|yxzp

46、|cgal|firsttipdm|secondtipdm|thirdtipdm|fourthtipdm|jingsa|kjxm|qk|ff1-infogrep(jszz|stpj|yxzp|cgal|firsttipdm|secondtipdm|thirdtipdm|fourthtipdm|jingsa|kjxm|qk|sdfasf|sm|td,info,fullurl),sdfasf|sm|td,info,fullurl),#篩選企業(yè)合作類網(wǎng)篩選企業(yè)合作類網(wǎng)頁頁ff2-infogrep(qyal|xtxm|wjxq|zxns|zzszl,info,fullurl),ff2-infogrep(

47、qyal|xtxm|wjxq|zxns|zzszl,info,fullurl),#篩選新聞公告類網(wǎng)篩選新聞公告類網(wǎng)頁頁ff3-infogrep(news|notice|notices|sj,info,fullurl),ff3-infogrep(news|notice|notices|sj,info,fullurl),info1=ddply(ff,.(ip,fullurl),tail,ninfo1=ddply(ff,.(ip,fullurl),tail,n=1)=1)#數(shù)據(jù)去重?cái)?shù)據(jù)去重web=strsplit(info1,2,/,fixedweb=strsplit(info1,2,/,fixed

48、= =TRUE)TRUE)#對每個(gè)對每個(gè) LISTLIST 型的數(shù)據(jù)型的數(shù)據(jù),將其組合成數(shù)據(jù)框?qū)⑵浣M合成數(shù)據(jù)框的格式的格式bine=ldply(web,rbind)bine=ldply(web,rbind)#獲取知識(shí)列表中婚姻類別的數(shù)據(jù)以及在原獲取知識(shí)列表中婚姻類別的數(shù)據(jù)以及在原始數(shù)據(jù)中的位置始數(shù)據(jù)中的位置=binewhich(bine,1=),item_=s(),=binewhich(bine,1=),item_=s(), require(recommenderlab)require(recommenderlab)模型的輸入數(shù)據(jù)集模型的輸入數(shù)據(jù)集infoh=as(item_,binaryRatingMatrix)infoh=as(item_,binaryRatingMatrix)型數(shù)據(jù)進(jìn)行建模,形成模型數(shù)據(jù)進(jìn)行建模,形成模型型info

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論