




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、技術(shù)創(chuàng)新,變革未來大數(shù)據(jù)技術(shù)簡介內(nèi)容Hadoop的起源與發(fā)展Hadoop是什么 主流大數(shù)據(jù)技術(shù)Hadoop應(yīng)用現(xiàn)狀Hadoop偽分布式環(huán)境搭建Hadoop的起源與發(fā)展Hadoop的思想之源Google面對的數(shù)據(jù)存儲和計算難題大量的網(wǎng)頁怎么存儲搜索算法GoogleGFSMapReduceBigTableHadoop的起源與發(fā)展Doug CuttingHadoop是什么Hadoop是一個開源框架,可編寫和運(yùn)行分布式 應(yīng)用處理大規(guī)模數(shù)據(jù)Hadoop框架的核心是HDFS、MapReduce、YarnHDFS 是分布式文件系統(tǒng),提供海量數(shù)據(jù)的存儲MapReduce 是分布式數(shù)據(jù)處理模型,提供數(shù)據(jù) 計算Y
2、arn是資源管理和調(diào)度工具主流大數(shù)據(jù)技術(shù)主流大數(shù)據(jù)技術(shù)Hadoop已經(jīng)成長為一個龐大的生態(tài)體系只要和海量數(shù)據(jù)相關(guān)的領(lǐng)域,有 Hadoop 身影MapReduce是把一個大數(shù)據(jù)集上的任務(wù)分解,并 在并行的多個節(jié)點(diǎn)中處理Hive在Hadoop中扮演數(shù)據(jù)倉庫的角色,Hive使 用類SQL語法進(jìn)行數(shù)據(jù)操作HBase是面向列的數(shù)據(jù)庫,運(yùn)行在HDFS之上, HBase以BigTable為藍(lán)本,可以快速在數(shù)十億行數(shù) 據(jù)中隨機(jī)存取數(shù)據(jù)主流大數(shù)據(jù)技術(shù)Storm是流式計算Spark是內(nèi)存計算、流式計算、圖計算Sqoop是從關(guān)系數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)到Hadoop,并可 直接導(dǎo)入到HDFS或HiveFlume是將流數(shù)據(jù)或日
3、志數(shù)據(jù)導(dǎo)入HDFSZooKeeper協(xié)調(diào)集群成員Oozie提供管理工作流程和依賴的功能,將多個MapReduce作業(yè)連接到一起,定制彼此間依賴Ambari可對Hadoop集群提供監(jiān)控、部署、配置、升級和管理等核心功能大數(shù)據(jù)技術(shù)特點(diǎn)針對大規(guī)模數(shù)據(jù)處理的需求一直存在,受限于系統(tǒng) 的處理能力和費(fèi)用,一直沒有得到大規(guī)模使用健壯:在一般商用硬件上運(yùn)行,必須考慮硬件會 頻繁失效,可以從容地處理大多數(shù)故障。可擴(kuò)展:通過增加集群節(jié)點(diǎn),可以線性地擴(kuò)展以 處理更大的數(shù)據(jù)集。簡單方便:允許用戶快速編寫高效的并行代碼。大數(shù)據(jù)技術(shù)能做什么大數(shù)據(jù)技術(shù)的簡單方便、可擴(kuò)展性和健壯性讓其在 大數(shù)據(jù)處理方面占盡優(yōu)勢,其主要應(yīng)用場
4、景有:搜索引擎,為大規(guī)模的網(wǎng)頁快速建立索引。大數(shù)據(jù)存儲,利用分布式存儲能力,建立數(shù)據(jù)備 份、數(shù)據(jù)倉庫等。大數(shù)據(jù)處理,利用分布式處理能力,例如數(shù)據(jù)挖掘、數(shù)據(jù)分析等。Hadoop的應(yīng)用現(xiàn)狀Hadoop的應(yīng)用現(xiàn)狀Yahoo:用戶行為分析、支持廣告系統(tǒng)、支持Web搜索、反垃圾郵件系統(tǒng)、個性化推薦Facebook:存儲內(nèi)部日志與多維數(shù)據(jù),并以此 做分析和機(jī)器學(xué)習(xí)百度:日志分析平臺、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與分 析、推薦系統(tǒng)阿里巴巴:廣告系統(tǒng)、推薦引擎、搜索排行、歷史訂單Hadoop偽分布式環(huán)境搭建(1)Hadoop發(fā)行版選擇: ApacheCDH HDPHadoop版本選擇: 0.2X1.X2.X(2.7.3
5、)我們的選擇:CDH Hadoop 2.6.0Hadoop偽分布式環(huán)境搭建(2)Hadoop安裝模式:單機(jī)模式:占用資源最少的模式完全運(yùn)行在本地不使用Hadoop文件系統(tǒng)不加載任何守護(hù)進(jìn)程偽分布模式:“單節(jié)點(diǎn)集群”模式所有的守護(hù)進(jìn)程都運(yùn)行在同一臺機(jī)子上代碼調(diào)試可以查看HDFS的輸入/輸出,以及各守護(hù)進(jìn)程全分布模式:真正的分布式集群配置,用于生產(chǎn)環(huán)境Hadoop偽分布式環(huán)境搭建(3)Linux環(huán)境,我們使用的是centos6.5關(guān)閉防火墻,因為它會妨礙hadoop集群間相互通信sudo chkconfig iptables offsudo service iptables stopjdk安裝配置ssh免密碼登錄安裝Hadoop格式化NameNo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教師教育教學(xué)反思與社會支持機(jī)制的結(jié)合試題及答案
- 生態(tài)修復(fù)工程2025年生物多樣性保護(hù)與生態(tài)修復(fù)工程審計報告
- 環(huán)境保護(hù)概論試題及答案
- 濰坊地理期末試題及答案
- 家具設(shè)計中創(chuàng)意表達(dá)與實(shí)現(xiàn)試題及答案
- 物理學(xué)各分支特點(diǎn)分析試題及答案
- 針對心血管疾病的2025年互聯(lián)網(wǎng)醫(yī)療平臺在線問診報告
- 工業(yè)廢氣凈化處理技術(shù)2025年市場潛力深度研究報告
- 沉浸式戲劇與科技融合:2025年創(chuàng)新創(chuàng)作與市場推廣前景報告
- 鐵嶺師范高等??茖W(xué)?!兑苿踊ヂ?lián)網(wǎng)應(yīng)用開發(fā)技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 數(shù)學(xué)三角形的高、中線、角平分線教案2024-2025學(xué)年北師大版(2024)七年級數(shù)學(xué)下冊
- 高低壓柜常見故障及檢修培訓(xùn)
- 2021水閘工程運(yùn)行管理規(guī)程
- (高清版)DB51∕T 1292-2011 牧草種質(zhì)資源田間鑒定與評價技術(shù)規(guī)程
- 三農(nóng)項目申請操作流程指南
- 組織行為學(xué)(對外經(jīng)濟(jì)貿(mào)易大學(xué))知到課后答案智慧樹章節(jié)測試答案2025年春對外經(jīng)濟(jì)貿(mào)易大學(xué)
- 貼太陽膜知識培訓(xùn)課件
- 面粉廠粉塵防爆培訓(xùn)課件
- 1000道二年級數(shù)學(xué)口算練習(xí)題
- 第16課《有為有不為 》課件-2024-2025學(xué)年統(tǒng)編版語文七年級下冊
- 2024版股權(quán)分配與員工持股計劃協(xié)議書模板3篇
評論
0/150
提交評論