版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于Spark的用戶行為分析系統(tǒng)的設(shè)計與實現(xiàn)目錄TOC\o"1-2"\h\z\t"畢業(yè)設(shè)計(論文)1級標(biāo)題,1,畢業(yè)設(shè)計(論文)2級標(biāo)題,1"13661緒論 [5],將數(shù)據(jù)格式<yyyyMMdd_userid_adid,1L>格式。然后將其存入數(shù)據(jù)庫中,表ad_user_click_count,如表5-22所示。在mysql中,用戶瀏覽信息被存儲,從中篩選出用戶瀏覽次數(shù)大于一百的,然后將用戶信息存儲到黑名單中,進(jìn)行持久化,如表5-9所示:表5-SEQ表5-\*ARABIC9表ad_user_click_count字段說明類型主鍵date時間varchar(30)user_id用戶int(11)ad_id廣告int(11)是click_count瀏覽量int(11)表5-SEQ表5-\*ARABIC10表ad_blacklist字段說明類型主鍵user_id黑名單int(11)是業(yè)務(wù)二:按照黑用戶名單動態(tài)數(shù)據(jù)過濾根據(jù)黑名單在用戶瀏覽中去除黑名單用戶。返回RDD:JavaPairDStream<String,String>filteredAdRealTimeLogDStream。業(yè)務(wù)三:統(tǒng)計實時廣告瀏覽流量根據(jù)spark實時計算出全局瀏覽次數(shù),在spark臨時表和mysql同時存留。然后使用算子進(jìn)行粗粒度的計算,將計算結(jié)果存入表中,如表5-11所示:表5-SEQ表5-\*ARABIC11表ad_stat字段說明類型主鍵date日期varchar(30)province省varchar(100)city城市varchar(100)ad_id廣告int(11)是click_count瀏覽量int(11)使用sql語句,SELECTprovince,count(click_count)asclick_countsFROM`ad_stat`GROUPBYprovince。前端顯示如圖5-14所示:圖5-SEQ圖5-\*ARABIC14廣告地區(qū)分布業(yè)務(wù)四:離線統(tǒng)計每天每個省份排名前三的活躍廣告得到各個主要城市排名前三的熱門商品。每次都是刷新出來各個省份最熱門的top3廣告,將其中的數(shù)據(jù)批量更新到MySQL中,如表5-12所示:表5-SEQ表5-\*ARABIC12表area_top3_product前端使用表格展示,如圖5-15所示:業(yè)務(wù)四:實時統(tǒng)計最近一個小時廣告趨勢使用批處理和mapReduce,統(tǒng)計出來最近時間段廣告趨勢。存入Mysql如表5-13所示:表5-SEQ表5-\*ARABIC13ad_click_trend字段說明類型主鍵date日期varchar(30)hour小時varchar(30)minute分鐘varchar(30)是ad_id廣告int(11)click_count瀏覽量int(11)前端使用折線圖展示5-16所示:6系統(tǒng)測試首先介紹系統(tǒng)測試的環(huán)境,接下來對系統(tǒng)的主要功能進(jìn)行本地測試和生產(chǎn)環(huán)境測試。本地環(huán)境是在win10下,spark本地模式下運行。生產(chǎn)環(huán)境測試,是在大數(shù)據(jù)集群下運行。6.1用戶瀏覽會話分析測試用例task:{task_id:4,task_param:{“startAge”:"10","endAge":["50"],"startDate":["2021-05-27"],"endDate":["2021-5-27"]}}.本地環(huán)境測試運行方法:main預(yù)計結(jié)果:用戶瀏覽信息相關(guān)表插入結(jié)果運行時間:3分鐘輸出結(jié)果:成功生產(chǎn)環(huán)境測試運行方法:啟動shell腳本./spark_用戶瀏覽信息.sh4預(yù)計結(jié)果:用戶瀏覽信息相關(guān)表插入結(jié)果運行時間:5分鐘輸出結(jié)果:成功6.2用戶行為路徑分析測試用例task:{task_id:3,task_param:{"targetPageFlow":["1,2,3,4,5,6,7,8,9"],"startDate":["2021-05-27"],"endDate":["2021-5-27"]}}.本地環(huán)境測試運行方法:main預(yù)計結(jié)果:page相關(guān)表插入結(jié)果運行時間:50秒輸出結(jié)果:成功生產(chǎn)環(huán)境測試運行方法:啟動shell腳本spark_page.sh3預(yù)計結(jié)果:page相關(guān)表插入結(jié)果運行時間:1分鐘20秒輸出結(jié)果:成功6.3地區(qū)hot商品離線統(tǒng)計測試用例task:{task_id:2,task_param:{“startAge”:"10","endAge":["50"],"startDate":["2021-05-18"],"endDate":["2021-5-18"]}}.本地環(huán)境測試運行方法:main預(yù)計結(jié)果:product相關(guān)表插入結(jié)果運行時間:8分鐘輸出結(jié)果:成功生產(chǎn)環(huán)境測試運行方法:啟動shell腳本spark_product.sh3預(yù)計結(jié)果:product相關(guān)表插入結(jié)果運行時間:10分鐘30秒輸出結(jié)果:成功6.4廣告流量實時統(tǒng)計kafka模擬實時數(shù)據(jù):log--Date--province--city--userid--ad_id1623034106170Jiangsu南京6493生產(chǎn)環(huán)境測試運行方法:啟動shell腳本spark_ad.sh預(yù)計結(jié)果:ad相關(guān)表插入結(jié)果運行時間:5分鐘輸出結(jié)果:成功7總結(jié)與展望7.1總結(jié)隨著大數(shù)據(jù)技術(shù)的不斷成熟,對人們生產(chǎn)生活能夠計算出合理的建議。大數(shù)據(jù)技術(shù)對電商用戶分析便孕育而生。在電商白熱化的今天,產(chǎn)生了大量的數(shù)據(jù),如何從超大規(guī)模的數(shù)據(jù)中,通過數(shù)據(jù)分析得出用戶的喜好度,指導(dǎo)網(wǎng)站的運營和生產(chǎn)種類和方式。本程序,可以幫助電商網(wǎng)站,能夠從雜亂無章的數(shù)據(jù)中,通過數(shù)據(jù)分析,以圖表的形式可視化比較直觀地呈現(xiàn)用戶特征,尤其是群體用戶的趨向。本設(shè)計改變了傳統(tǒng)以人工模糊的數(shù)據(jù)分析,提高了用戶分析的可靠性,對電商發(fā)展應(yīng)該能起到積極地作用。7.2展望鑒于本論文著重點在于對電商網(wǎng)站的用戶行為進(jìn)行數(shù)據(jù)分析,最后將處理好的數(shù)據(jù)放入數(shù)據(jù)庫中,缺乏對原始數(shù)據(jù)進(jìn)行清洗和過濾。人機(jī)交互不是很友好。使用的大數(shù)據(jù)技術(shù)相關(guān)版本較低。對于推薦算法希望進(jìn)一步工作中深入學(xué)習(xí)。希望能夠進(jìn)一步通過前后臺,加強(qiáng)人機(jī)交互,能夠獲取實際的多次數(shù)據(jù)源,進(jìn)一步提升應(yīng)用相關(guān)版本信息,尤其是spark。結(jié)論本文闡述了基于spark的電商用戶數(shù)據(jù)分析系統(tǒng)的開發(fā)過程。本文使用前端顯示,服務(wù)器開發(fā)和大數(shù)據(jù)集群,三者有機(jī)結(jié)合使用。大數(shù)據(jù)集群開發(fā)重點在于spark的數(shù)據(jù)分析,數(shù)據(jù)分析分為4個模塊,分別為用戶瀏覽會話分析,用戶行為路徑分析,地區(qū)hot商品統(tǒng)計和廣告瀏覽實時統(tǒng)計。主要應(yīng)用于項目經(jīng)理,指導(dǎo)企業(yè)生產(chǎn),迎合消費者需求,促進(jìn)電商產(chǎn)業(yè)的發(fā)展。本文分為6個部分,在引言部分論述了本次畢業(yè)設(shè)計的產(chǎn)生背景及其中外在大數(shù)據(jù)技術(shù)的發(fā)展。在相關(guān)技術(shù)部分介紹了spark技術(shù),hadoop技術(shù)和hive技術(shù),以及前后端技術(shù)echarts和springboot。在系統(tǒng)需求部分,依據(jù)功能需求,分為3個模塊數(shù)據(jù)采集,spark數(shù)據(jù)分析和可視化功能需求。在具體設(shè)計中,著重闡述了數(shù)據(jù)具體分析,包括用戶瀏覽會話分析,用戶行為路徑分析,地區(qū)hot商品統(tǒng)計和廣告瀏覽實時統(tǒng),。主要使用了聚合,統(tǒng)計,抽樣,關(guān)聯(lián)等數(shù)據(jù)分析手段。在系統(tǒng)測試部分,主要針對本地環(huán)境測試和生產(chǎn)環(huán)境測試,是項目既能夠在spark本地模式下運行,也能夠在大數(shù)據(jù)集群環(huán)境下運行。相信本系統(tǒng)能夠?qū)﹄娚贪l(fā)展能夠發(fā)揮積極作用。參考文獻(xiàn)[1]黃文涵,鐘全德.基于開源Spark的網(wǎng)站用戶行為分析設(shè)計與實現(xiàn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(5):3.[2]孫成.基于Spark平臺的混合推薦系統(tǒng)研究[J].電腦編程技巧與維護(hù),2020(4):2.[3]李虎,曾毅峰,魏明麗,等.基于行為數(shù)據(jù)的用戶行為分析平臺系統(tǒng),方法及存儲介質(zhì):,CN111930508A[P].2020.[4]沈黃金,朱大洲,王輝,等.基于Spark的農(nóng)產(chǎn)品智能推薦系統(tǒng)研究[J].電子技術(shù)與軟件工程,2020(21):4.[5]陳煒昭.Spark框架性能預(yù)測與優(yōu)化技術(shù)的研究與實現(xiàn)[D].西安電子科技大學(xué),2020.[6]王鴻璽,李飛,林志文,等.基于IK-means的用電行為研究[J].國外電子測量技術(shù),2020(1):5.[7]王奕.Spark參數(shù)重要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐廳 聘用 合同模板
- 自建門面租賃合同模板
- 羊絨采購合同模板
- 店鋪隔斷專修合同模板
- 雇傭國外員工合同模板
- 股權(quán)策劃咨詢合同模板
- 攔標(biāo)價編制合同模板
- 閥門螺栓采購合同模板
- 香煙包裝采購合同模板
- 原材料獨家合同模板
- 語法填空技巧課件-高中英語初高中銜接
- 道法認(rèn)識生命 課件-2024-2025學(xué)年統(tǒng)編版道德與法治七年級上冊
- 可靠性評估指標(biāo)體系構(gòu)建
- 2024年四川甘孜州事業(yè)單位招聘歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 專題08 向量的運算(上海中考特色題型)30題(解析版)
- 年度成本控制與削減方案計劃
- 2024內(nèi)蒙古能源發(fā)電投資集團(tuán)限公司金山第二熱電分公司招聘120人高頻難、易錯點500題模擬試題附帶答案詳解
- 北師大小學(xué)數(shù)學(xué)二年級上冊課件:《數(shù)松果》教學(xué)課件
- 【課件】第四單元課題3+物質(zhì)組成的表示(第一課時)-2024-2025學(xué)年九年級化學(xué)人教版(2024)上冊
- 河南省創(chuàng)新發(fā)展聯(lián)盟2024-2025學(xué)年高一上學(xué)期9月月考英語試題
- 古代小說戲曲專題-形考任務(wù)4-國開-參考資料
評論
0/150
提交評論