版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、IDC項目(二) 課程大綱數(shù)據(jù)采集腳本處理程序處理HUE應用總結(jié)說明 數(shù)據(jù)采集是項目中很重要的一環(huán),在大批量的hadoop數(shù)據(jù)中,數(shù)據(jù)采集部分沒有做好相關(guān)的把控和優(yōu)化,會導致項目后續(xù)處理流程的時延增加、數(shù)據(jù)缺失、經(jīng)常性補采等問題。IDC項目數(shù)據(jù)采集有三種處理方式使用shell腳本對數(shù)據(jù)進行put(寫定時shell腳本)使用程序?qū)?shù)據(jù)進行put使用flume對數(shù)據(jù)進行put(項目三期)數(shù)據(jù)采集Shell腳本put數(shù)據(jù): 本項目中節(jié)點數(shù)小于25的集群均采用put方式,大于25的采用程序put(部分省份與下游廠商有關(guān)系,不同廠商分析的指標不一樣)優(yōu)點: 1、開發(fā)簡單,周期短 2、靈活性高,便于維護
2、3、補采數(shù)據(jù)時也方便缺點 1、不能動態(tài)檢測文件新文件,只能機械的使用定時處理 2、實際使用中對于批量小文件數(shù)據(jù)put性能效率不高(發(fā)多次請求)shell腳本處理Shell腳本put數(shù)據(jù): 采用此方式采集數(shù)據(jù),尤為需要注意點有:1、原始數(shù)據(jù)的存儲方式(通常以目錄形式存儲一個階段的數(shù)據(jù))2、數(shù)據(jù)的時間延遲3、按照時間定義目錄名4、如何驗證數(shù)據(jù)的完整性開發(fā)思想:1、編寫shell腳本,定時調(diào)度進行put2、取當前時間減去對應的延遲處理時間,put上一個時間間隔的數(shù)據(jù)3、put過程中注意檢驗數(shù)據(jù)完整性(本項目由C+編寫的接收程序,接收完成生產(chǎn)對應的.ok數(shù)據(jù)文件)shell腳本處理Shell腳本put
3、數(shù)據(jù): shell腳本部署:1、創(chuàng)建 /watcher/目錄2、編寫putDataToHDFS.sh腳本3、配置crontab,內(nèi)容如下:15 * * * * sh -xb /home/superman/idc/watcher1/test.sh 2&1 /home/superman/idc/watcher1/test.logshell腳本處理功能描述 動態(tài)監(jiān)控數(shù)據(jù)目錄的變化,將數(shù)據(jù)目錄中新添加的文件,put的HDFS的對應目錄。具體實現(xiàn) 使用JNotify完成動態(tài)監(jiān)控功能。 JNotify是一個 Java 開發(fā)的用來監(jiān)控文件系統(tǒng)事件的工具。能夠監(jiān)聽文件夾下的文件的創(chuàng)建、刪除、修改等功能。和ha
4、doop結(jié)合很好的解決了自定義數(shù)據(jù)采集中需要完成的文件新文件監(jiān)聽、文件合并、上傳HDFS等功能程序處理程序開發(fā)1、創(chuàng)建工程filewatcher2、導入jnotify-0.94.jar包或者引人源碼(方便修改)3、根據(jù)數(shù)據(jù)上來的文件格式可能需要一些工具類,本項目需要引入解壓工具(原始數(shù)據(jù)是以壓縮方式上來)程序部署 1、當前目錄創(chuàng)建idc/watcher目錄2、將程序打成相應的jar包( filewatcher.jar )和libjnotify.so一同放在idc/watcher目錄下3、需要將libjnotify.so文件放入/opt/cloudera/parcels/CDH/lib/hado
5、op/lib/native/目錄下(可以在下一步的腳本中寫)4、本地創(chuàng)建目錄如/srcdata/idcdata,HDFS下創(chuàng)建 idc/accesslogs/目錄5、 idc/watcher目錄下啟動監(jiān)控程序,啟動命令如下(在命令后加符號&即可后臺處理)啟動命令:hadoop jar filewatcher.jar /accesslogs idccache/ 5 hour程序處理要點總結(jié)1、腳本put方式在put多個文件時和少量文件時,效率上有一定的差距,所以數(shù)據(jù)文件較多時盡量合并后再進行put2、腳本方式進行合并沒有使用程序方式進行put方便控制3、腳本方式開發(fā)簡單、靈活4、使用程序可以動態(tài)監(jiān)控需要上傳的目錄下文件,腳本方式只能使用定時方式,易用性上略有不足問題總結(jié)什么是HUEHue是一個開源的Apache Hadoop UI系統(tǒng)。由Cloudera Desktop演化而來 由cloudera公司貢獻給Apache,使用Python進行開發(fā),使得web成為hadoop 系統(tǒng)的控制臺,可以在HUE web系統(tǒng)中和hadoop組件進行交互。HUE的作用 1、作為HDFS的文件瀏覽器*2、Hive編輯器來開發(fā)和運行Hive查詢*3、支持Metastore瀏覽器,可以訪問Hive的元數(shù)據(jù)* 4、Impala的應用進行交互式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- SZSD01 0006-2024國際貿(mào)易商品追溯平臺建設(shè)指南
- 2024年軌道交通服務項目評估分析報告
- 2023年醫(yī)用中心供氧設(shè)備項目評估分析報告
- 2024屆海南省??谑懈呷?月第一次階段性測試數(shù)學試題
- 餐飲員工培訓協(xié)議書簡易版
- 不存在合同關(guān)系回復
- 保障保險合同
- 山西省2024八年級物理上冊第二章聲現(xiàn)象專題訓練3.辨析聲音的特性課件新版新人教版
- 山東省威海市文登區(qū)實驗中學(五四制)2024-2025學年七年級上學期期中考試生物試題
- 《紡織品 色牢度試驗 洗液沾色的測定》
- 美的中央空調(diào)故障代碼H系列家庭中央空調(diào)(第一部分多聯(lián)機)
- 物料承認管理辦法
- 業(yè)主委員會成立流程圖
- AEFI防范與處置PPT課件
- (完整版)全usedtodo,beusedtodoing,beusedtodo辨析練習(帶答案)
- 小學綜合實踐活動方便筷子教案三年級上冊精品
- 廣聯(lián)達辦公大廈工程施工組織設(shè)計
- 阜陽市腫瘤醫(yī)院病房大樓建筑智能化設(shè)備、材料采購及安裝系統(tǒng)工程技術(shù)要求
- 疑難病例HELLP綜合征
- Tiptop管理員手冊
- 財務報告模版(向股東會、董事會)
評論
0/150
提交評論