版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、一、 項目總體需求、具體設(shè)計1、 總體需求:捕獲用戶每天的行為數(shù)據(jù),生成業(yè)務(wù)日志文件,根據(jù)日志文件清洗、分析、提取出需要的價值信息(pv:頁面瀏覽量 uv:獨立訪客數(shù) 獨立IP 會話時長等),對網(wǎng)站的良好運營提供有價值的指標(biāo)。2、 具體設(shè)計2.1捕獲(JsSDK)用戶行為數(shù)據(jù)(launch事件、pageView事件、event事件、chargerequet事件)2.2將捕獲的數(shù)據(jù)發(fā)送給web服務(wù)器,生成日志文件(Nginx)2.3將日志文件上傳至文件存儲系統(tǒng)中(Shell腳本、Flume)2.4在文件存儲系統(tǒng)中對日志文件進行清洗,過濾掉臟數(shù)據(jù)和不需要的字段(MapReuce job任務(wù))2.5
2、將過濾后的日志文件導(dǎo)入到數(shù)據(jù)庫中(HBase)2.6通過MapReduce程序或Hive進行統(tǒng)計分析(Hive)2.7將統(tǒng)計分析后的結(jié)果導(dǎo)入到本地數(shù)據(jù)庫中進行永久儲存(Mysql)2.8在前端進行展示(SpringMVC+Highcharts)二、 項目架構(gòu)(畫圖)具體分為三個部分(如下圖所示):數(shù)據(jù)收集層 hadoop、hive、flume、kafka、shell數(shù)據(jù)分析層 hive、MapReduce、spark數(shù)據(jù)展示層 springmvc + highcharts三、 技術(shù)選型、特點、為什么1. JsSDK捕獲前端頁面數(shù)據(jù)。Javascript 編寫頁面日志生成與發(fā)送工具(原則: 保持
3、對業(yè)務(wù)代碼最小影響)特點:采用原生的JavaScript編寫,以js文件嵌入到前端,頁面觸發(fā)業(yè)務(wù)所關(guān)注的事件(按照收集數(shù)據(jù)的不同分為不同的事件)時調(diào)用相關(guān)方法。2. Java sdk 后臺服務(wù)日志生成與發(fā)送工具JavaSDK代碼很簡單,可以打成jar包或者直接拷貝類到具體的項目中,正常邏輯處理到JavaSDK所關(guān)注的事件后,調(diào)用JavaSDK提供的api即可。3.Nginx web服務(wù)器,產(chǎn)生日志文件 特點:Nginx是一個小巧而高效的Linux下的web服務(wù)器軟件,相比較Apache它不僅有穩(wěn)定性、豐富的功能集、示例配置文件,更重要的是Nginx是基于事件的,它的內(nèi)存使用很低,系統(tǒng)資源消耗小
4、很多。3. shell腳本上傳日志文件(數(shù)據(jù)量一般比較小的場景,不會立即進行分析)分割日志,每天定時分割成昨天的日志文件。(vi split.sh)上傳到HDFS。(vi put2hdfs.sh)flume上傳(數(shù)據(jù)量一般比較大的場景,需要實時處理。)5. HBase數(shù)據(jù)庫 數(shù)據(jù)解析以后,我們把它存入HBase表。因為:不同的事件,最后上傳到HDFS里面每行數(shù)據(jù)的字段數(shù)量是不一樣的;而且HBase中,單表數(shù)據(jù)量相對比較大6.MySql 最終結(jié)果存儲Mysql是關(guān)系型數(shù)據(jù)庫,結(jié)構(gòu)十分清晰,能夠與JavaWeb中的SpringMVC進行很好的對接;而且SQL語句是結(jié)構(gòu)化的查詢語言,方便運營頁面查詢
5、數(shù)據(jù)7.SpringMVC+Highcharts 進行報表顯示四、 具體實現(xiàn)需求(分析了哪些功能pv、uv)主要實現(xiàn)需求:Pv:頁面的瀏覽次數(shù),衡量網(wǎng)站用戶訪問的網(wǎng)頁數(shù)量;用戶每打開一個頁面就記錄一次,多次打開同一個頁面則瀏覽量累計。描述用戶訪問網(wǎng)站信息,應(yīng)用于基本的各個不同計算任務(wù)Uv:獨立訪客數(shù)1天內(nèi)訪問某站點的人數(shù)(以cookie為依據(jù))1天內(nèi)同一訪客的多次訪問只計為1個訪客S_time:會話時長詳細(xì)需求:五、 項目中遇到了哪些問題,怎么解決1、日志格式有點混亂,以至于給后面的數(shù)據(jù)清洗帶來困擾辦法:最后調(diào)整數(shù)據(jù)格式,并重新定義了分隔符2、對日志文件進行分析時,建立Hive外部表與Hbase表的鏈接字段搞錯,以至于HBase與Hive整合不成功辦法: 查看數(shù)據(jù)字典,查找字段,并將hive外部表的字段名和HBase表的列名一樣。六、 項目總結(jié)通過本次項目搭建,我對大數(shù)據(jù)的實際應(yīng)用,以及客戶需求的具體實現(xiàn)有了更為清晰的認(rèn)識,同時也對之前所學(xué)到的知識進行了溫故與整合。同時看到了自己的很多不足,究其原因,是對Hadoop以及諸多協(xié)作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年中國聚乙烯塑膜數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國單角油壓式切圓機數(shù)據(jù)監(jiān)測研究報告
- 2024年中國碳纖維棒市場調(diào)查研究報告
- 2024年中國油氈真空吸水測定儀市場調(diào)查研究報告
- 2024年中國數(shù)顯式門窗疲勞實驗機市場調(diào)查研究報告
- 2024年中國壓延刺孔板波紋填料市場調(diào)查研究報告
- 2025至2031年中國彩石行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國春毫茶數(shù)據(jù)監(jiān)測研究報告
- 2024年08月吉林吉林銀行社會選聘分行公金業(yè)務(wù)零售業(yè)務(wù)副行長(行長助理)筆試歷年參考題庫附帶答案詳解
- 2024年國考行測真題言語理解與表達附答案(典型題)
- 2024年度公務(wù)員勞動合同范本社保福利全面保障3篇
- 2025年內(nèi)蒙古包鋼公司招聘筆試參考題庫含答案解析
- 【8地星球期末】安徽省合肥市包河區(qū)智育聯(lián)盟校2023-2024學(xué)年八年級上學(xué)期期末地理試題(含解析)
- 2024-2025學(xué)年冀人版科學(xué)四年級上冊期末測試卷(含答案)
- 教科版科學(xué)一年級上冊期末測試卷含完整答案(必刷)
- 2024年危險化學(xué)品生產(chǎn)單位安全生產(chǎn)管理人員證考試題庫及答案
- 江蘇省宿遷市沭陽縣2023-2024學(xué)年八年級上學(xué)期期末英語試題
- 【8物(科)期末】合肥市廬陽區(qū)2023-2024學(xué)年八年級上學(xué)期期末質(zhì)量檢測物理試卷
- 國家安全知識教育
- 安全隱患大排查大整治專項行動方案
- 2024-2030年中國停車場建設(shè)行業(yè)發(fā)展趨勢投資策略研究報告
評論
0/150
提交評論