




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、一、項目總體需求、具體設計1 、 總體需求: 捕獲用戶每天的行為數(shù)據(jù),生成業(yè)務日志文件,根據(jù)日志文件清洗、分析、提取出需要的價值信息(pv :頁面瀏覽量uv :獨立訪客數(shù)獨立 ip 會話時長等),對網(wǎng)站的良好運營提供有價值的指標。2 、 具體設計2.1 捕獲( jssdk )用戶行為數(shù)據(jù)(launch事件、 pageview事件、 event事件、chargerequet事件)2.2將捕獲的數(shù)據(jù)發(fā)送給 web 服務器,生成日志文件(nginx )2.3將日志文件上傳至文件存儲系統(tǒng)中(shell 腳本、 flume )2.4在文件存儲系統(tǒng)中對日志文件進行清洗,過濾掉臟數(shù)據(jù)和不需要的字段( map
2、reuce job任務)2.5將過濾后的日志文件導入到數(shù)據(jù)庫中(hbase )2.6通過 mapreduce 程序或 hive 進行統(tǒng)計分析( hive )2.7將統(tǒng)計分析后的結(jié)果導入到本地數(shù)據(jù)庫中進行永久儲存(mysql )2.8在前端進行展示( springmvc+highcharts)二、項目架構(gòu)(畫圖).具體分為三個部分(如下圖所示):數(shù)據(jù)收集層hadoop、 hive 、 flume 、kafka 、shell數(shù)據(jù)分析層hive 、 mapreduce、 spark.數(shù)據(jù)展示層springmvc + highcharts三、技術選型、特點、為什么1. jssdk 捕獲前端頁面數(shù)據(jù)。
3、javascript 編寫頁面日志生成與發(fā)送工具 (原則:保持對業(yè)務代碼最小影響)特點:采用原生的 javascript 編寫,以 js 文件嵌入到前端,頁面觸發(fā)業(yè)務所關注的事件(按照收集數(shù)據(jù)的不同分為不同的事件)時調(diào)用相關方法。2. java sdk 后臺服務日志生成與發(fā)送工具javasdk 代碼很簡單, 可以打成jar 包或者直接拷貝類到具體的項目中,正常邏輯處理到javasdk 所關注的事件后,調(diào)用javasdk 提供的 api 即可。3.nginx web服務器,產(chǎn)生日志文件特點: nginx是一個小巧而高效的linux下的web服務器軟件,相比較apache它不僅有穩(wěn)定性、豐富的功能
4、集、示例配置文件,更重要的是nginx是基于事件的,它的內(nèi)存使用很低,系統(tǒng)資源消耗小很多。3. shell 腳本上傳日志文件(數(shù)據(jù)量一般比較小的場景,不會立即進行分析).分割日志,每天定時分割成昨天的日志文件。( vi split.sh)上傳到 hdfs。( vi put2hdfs.sh)flume上傳(數(shù)據(jù)量一般比較大的場景,需要實時處理。)5.hbase 數(shù)據(jù)庫數(shù)據(jù)解析以后, 我們把它存入hbase 表。因為:不同的事件, 最后上傳到hdfs里面每行數(shù)據(jù)的字段數(shù)量是不一樣的;而且 hbase 中,單表數(shù)據(jù)量相對比較大6. mysql 最終結(jié)果存儲mysql是關系型數(shù)據(jù)庫,結(jié)構(gòu)十分清晰,能夠
5、與javaweb中的 springmvc進行很好的對接;而且 sql 語句是結(jié)構(gòu)化的查詢語言,方便運營頁面查詢數(shù)據(jù)7.springmvc+highcharts進行報表顯示四、具體實現(xiàn)需求(分析了哪些功能pv、uv)主要實現(xiàn)需求:pv :頁面的瀏覽次數(shù),衡量網(wǎng)站用戶訪問的網(wǎng)頁數(shù)量;用戶每打開一個頁面就記錄一次,多次打開同一個頁面則瀏覽量累計。描述用戶訪問網(wǎng)站信息,應用于基本的各個不同計算任務uv :獨立訪客數(shù)1天內(nèi)訪問某站點的人數(shù)(以cookie為依據(jù))1天內(nèi)同一訪客的多次訪問只計為1個訪客s_time :會話時長.詳細需求:五、項目中遇到了哪些問題,怎么解決1 、日志格式有點混亂,以至于給后面的數(shù)據(jù)清洗帶來困擾辦法:最后調(diào)整數(shù)據(jù)格式,并重新定義了分隔符2、對日志文件進行分析時,建立hive 外部表與hbase 表的鏈接字段搞錯,以至于hbase 與 hive 整合不成功辦法: 查看數(shù)據(jù)字典,查找字段,并將hive 外部表的字段名和hbase 表的列名一樣 。六、項目總結(jié)通過本次項目搭建,我對大數(shù)據(jù)的實際應用,以及客戶需求的具體實現(xiàn)有了更為清晰的認識,同時也對之前所學到的知識進行了溫故與整合。同時看到了自己的很多不足,究其原因,是對hadoop以及諸多協(xié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年共青團知識競賽題庫及答案(共50題)
- 2025年公務員遴選考試公共基礎知識必考題庫170題及答案(三)
- 14 健康過冬天(教學設計)2024-2025學年統(tǒng)編版道德與法治一年級上冊
- 3 古詩三首 寒食 教學設計-2023-2024學年語文六年級下冊統(tǒng)編版
- 食品冷鏈物流安全追溯系統(tǒng)建設方案
- 2024年學年八年級語文上冊 第三單元 宋詞集粹(下)第10課《西江月 阻風山峰下》教學實錄 滬教版五四制
- 2024-2025學年新教材高中生物 第六章 生物的進化 第1節(jié) 生物有共同祖先的證據(jù)和第2節(jié) 自然選擇與適應的形成教學實錄 新人教版必修第二冊
- 2024-2025學年新教材高中英語 Unit 6 Earth first突破 語法大沖關教學實錄 外研版必修第二冊
- 2024-2025學年新教材高中數(shù)學 第二章 一元二次函數(shù)、方程和不等式 2.3 二次函數(shù)與一元二次方程、不等式教學實錄 新人教A版必修第一冊
- 3《我是小學生》(教學設計)-2024-2025學年統(tǒng)編版(2024)一年級上冊語文
- 2025年滁州城市職業(yè)學院單招綜合素質(zhì)考試題庫必考題
- 第12課 遼宋夏金元時期經(jīng)濟的繁榮【公開課一等獎創(chuàng)新教學設計】-【教學評一體化】大單元整體教學
- 《復雜系統(tǒng)理論》課件
- 2025福建省電力電網(wǎng)有限公司高校畢業(yè)生(第一批)招聘748人筆試參考題庫附帶答案詳解
- 人教版(2025新版)七年級下冊數(shù)學第七章 相交線與平行線 單元測試卷(含答案)
- 汽輪機輔機培訓
- 國之重器:如何突破關鍵技術-筆記
- 早產(chǎn)兒和低出生體重兒袋鼠式護理臨床實踐指南(2024)解讀1
- 三廢環(huán)保管理培訓
- 《檢驗檢測機構(gòu)資質(zhì)認定評審準則》及釋義
- 腐蝕與防護-第五章 析氫腐蝕與耗氧腐蝕
評論
0/150
提交評論