




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
云?安全事業(yè)部
大數(shù)據(jù)與相關技術簡介李鵬2016-01目錄什么是大數(shù)據(jù)大數(shù)據(jù)應用場景大數(shù)據(jù)的相關技術什么是大數(shù)據(jù)大數(shù)據(jù)就是數(shù)據(jù)量大,很大,非常大因為數(shù)據(jù)量大,所以可以用來做很多事情,或者是用來將很多事情做得更好一些什么是大數(shù)據(jù)不是隨機樣本,而是全體數(shù)據(jù)小數(shù)據(jù)時代,精心設計的算法模型在大數(shù)據(jù)時代已經(jīng)沒有必要了,好的算法模型和不好的算法模型在大數(shù)據(jù)面前已經(jīng)沒有明顯差距了不是精確性,而是混雜性因為數(shù)據(jù)量巨大,不準確的數(shù)據(jù)并不會對最終結(jié)果產(chǎn)生重大影響,相反在小數(shù)據(jù)時代,一個不準確的數(shù)字可能帶來災難性結(jié)果不是因果關系,而是相關關系事件萬物都相互關聯(lián),但是沒有必要苛求為什么關聯(lián),只要知道能關聯(lián)就可以了例子:1)沃爾瑪在颶風之前將手電筒和蛋撻放到一起銷售大數(shù)據(jù)應用場景大數(shù)據(jù)的很多應用場景之前就有,未必是因為大數(shù)據(jù)才興起的,而是隨著大數(shù)據(jù)技術而逐步完善的過去是有心無力(有想法,無技術),現(xiàn)在是既有心又有力(有想法,有技術)大數(shù)據(jù)應用場景多角度分析買家、賣家和商品大數(shù)據(jù)應用場景商品推薦大數(shù)據(jù)應用場景實時分析交易額大數(shù)據(jù)應用場景餓了么通過分析晚上的外賣,得出某某地方加班最多farecast通過分析常年歷史數(shù)據(jù),得出某某日期機票最便宜(可惜微軟將其關閉)交管局通過分析實時交通數(shù)據(jù),有效疏導客流,安排車輛大數(shù)據(jù)應用場景凡是數(shù)據(jù)量非常大的地方,都是大數(shù)據(jù)的應用場景通過大數(shù)據(jù)分析,能夠獲取很多結(jié)論和預測大數(shù)據(jù)相關技術分布式基本框架zookeeper(競爭選舉)mesos(資源管理)marathon(調(diào)度管理)chronos(調(diào)度管理)docker(虛擬化,進程管理,應用發(fā)布)hadoop(分布式計算系統(tǒng),文件系統(tǒng))HBase(數(shù)據(jù)庫)Spark(更快的集群計算系統(tǒng))還有很多,不再舉例分布式基本框架1)多臺服務器和PC主機通過網(wǎng)絡相連2)多臺服務器協(xié)同完成工作,管理員通過主機訪問、控制服務器集群3)多個服務器必然有主服務器(master)和從服務器(slave)4)主服務器收集各個從服務器的工作狀態(tài),下發(fā)工作命令5)管理員通過PC主機將命令下發(fā)到主服務器分布式基本框架為了防止master單點故障,可以配置多個master,如圖中有三個master多個master中只有一個對外提供功能,該master稱為leader除leader外的其他master,作為備份,同步leader的數(shù)據(jù),當leader失效后接管leader工作,并變?yōu)閘eaderzookeeperzookeeper是分布式應用程序協(xié)調(diào)服務,為分布式應用提供一致性的服務,提供的功能包括:配置維護、名字服務、分布式同步、組服務zookeeper通常用來進行選舉leader。想想前面多個master之間選舉leader實際上zookeeper能做的事情很多,選舉leader只是其中之一
mesos:只是做資源調(diào)度,不做任務調(diào)度
多個mesosmaster通過zookeeper選舉出leaderleader下發(fā)任務到mesosslave一個mesosslave可以執(zhí)行多個任務marathon:基于mesos的任務調(diào)度平臺基于mesos的任務調(diào)度marathon適合啟動會長期的、始終運行的任務,如果任務終止說明任務出現(xiàn)問題,marathon會重新啟動任務,即marathon會確保任務始終得到執(zhí)行(類比下p003中的sigcuggio.bin)marathon根據(jù)資源使用情況動態(tài)安排任務到某個mesosslave,每個任務在執(zhí)行之前是不知道它將來在哪一臺服務器上執(zhí)行chronos:基于Mesos的任務調(diào)度平臺和marathon區(qū)別:1)chronos適合執(zhí)行短期的任務,即任務在執(zhí)行完畢后會主動退出2)chronos可以定時執(zhí)行某個任務
以上兩點可以和定時器做下類比
3)支持通過某個完成的任務來觸發(fā)新任務docker:Build,Ship,andRunAnyApp,AnywhereDocker提供了一種在安全、可重復的環(huán)境中自動部署軟件的方式,它的出現(xiàn)拉開了基于云計算平臺發(fā)布產(chǎn)品方式的變革序幕DockerContainersasaService(CaaS)Docker使得軟件開發(fā)、運維變得更容易,通過建立docker鏡像,發(fā)布docker,可以方便的在任何地方運行基于docker的分布式應用程序Docker解決的問題可以簡化部署多種應用實例工作,比如Web應用、后臺應用、數(shù)據(jù)庫應用、大數(shù)據(jù)應用比如Hadoop集群、消息隊列等等都可以打包成一個Image部署組成docker后,后續(xù)的部署再也不需要繁瑣的步驟,直接運行docker就可以了,否則每個服務器都需要按照手操一步一步執(zhí)行Docker解決的問題虛擬化手段的變化:云時代采用標配硬件來降低成本,采用虛擬化手段來滿足用戶按需分配的資源需求以及保證可用性和隔離性可以類比下VMdockervsVMdocker更輕量級docker啟動速度快docker部署更容易hadoop開源的、可靠的、可擴展的、分布式的計算系統(tǒng)hadoop包含下述模塊1)Utilities:基礎工具模塊,比如hadoop的基本命令程序2)HDFS:HadoopDistribtedFileSystem,分布式文件系統(tǒng),具有高容錯性,和高吞吐性的特點3)YARN:YetAnotherResourceNegotiator,任務調(diào)度和集群資源管理框架4)MapReduce:基于YARN的,并行處理大數(shù)據(jù)的系統(tǒng)hadoop-HDFS我要存東西給你存到server1server1原始數(shù)據(jù)server2這里看下簡化模型我要取東西我想想?給你存到哪里了?知道了,是server1server1原始數(shù)據(jù)server2命令響應者:1)負責響應命令2)負責管理文件存在哪里server:負責實際存儲動作hadoop-HDFS我要存東西給你存到server1server1原始數(shù)據(jù)server2繼續(xù)看下簡化模型你掛了,我給你頂上有備份更安全hadoop-HDFS我要存東西給你存到server1還給你存上副本到server2原始數(shù)據(jù)繼續(xù)看下簡化模型你掛了,我給你頂上多存點更保險副本hadoop-HDFS我要存東西給你存到server1還給你存上副本到server2給你分開存儲,并行操作更快原始數(shù)據(jù)1/副本1繼續(xù)看下簡化模型你掛了,我給你頂上分散存儲,并行操作,速度更快原始數(shù)據(jù)2/副本2hadoop-HDFSHadoopDistribtedFileSystem,分布式文件系統(tǒng)數(shù)據(jù)分散在各個存儲節(jié)點,數(shù)據(jù)都有副本,副本丟失或者宕機后可以自動恢復一句話保證了數(shù)據(jù)的可靠性。hadoop-HDFSHDFS通常由namenode,datanode,secondarynamenode組成,namenode是master,datanode是slave,secondarynamenode是namenode的冷備份。namenode,secondarynamenode和datanode是三個進程,進程通過相互通信完成存儲協(xié)作。namenode,secondarynamenode各自占用1個服務器節(jié)點,3個datanode占用3個服務器節(jié)點。當然還有其他部署方案,比如將namenode和secondarynamenode部署在同一個節(jié)點上等等datanode負責將數(shù)據(jù)寫入本節(jié)點的存儲設備中Hadoop-MapReduce一個文件,其內(nèi)容是a,b,c,a,b,a,c,在HDFS中被分為3個部分存儲(不考慮副本)第一部分內(nèi)容是a,b,c第二部分內(nèi)容是a,b第三部分內(nèi)容:a,c現(xiàn)在要統(tǒng)計該文件中,字母a的個數(shù),怎么統(tǒng)計?方法:1)串行統(tǒng)計三個部分,逐步累加2)分別統(tǒng)計三個部分,最后綜合到一起Hadoop-MapReduce
我們要數(shù)圖書館中的所有書。你數(shù)1號書架,我數(shù)2號書架。這就是“Map”。我們?nèi)嗽蕉?,?shù)得就越快?,F(xiàn)在我們到一起,把所有人的統(tǒng)計數(shù)加在一起。這就是“Reduce”。Hadoop-YARNYARN:YetAnotherResourceNegotiator,任務調(diào)度和集群資源管理框架,通常YARN也稱為MapReduce2.0(MRv2),它是對第一代MapReduce的改進??梢院唵蔚恼J為YARN用于資源管理下面兩個圖是兩種資源管理的基本方法,可以用來說明一些基本原理,實際情況會更復雜一些Hadoop-YARN進一步討論,在分布式集群中,資源管理的簡化模型對于分布式集群來說,一個任務或者說應用可能會在多個節(jié)點上同時執(zhí)行(MapReduce)資源管理者只能有一個,統(tǒng)籌管理所有資源資源管理者如何知道當前有多少資源可用呢?Hadoop-YARN每個節(jié)點上報自己的本節(jié)點的資源情況,由資源管理者統(tǒng)一管理、分配除非有顯示說明,后續(xù)討論為了畫圖方便,會隱去資源匯報者部分Hadoop-YARN多個任務(A和B),都可以向資源申請者發(fā)起請求,由申請者向資源管理者申請資源當任務較多時,資源申請者會比較忙。資源管理者要多資源請求進行排隊
資源申請者做的事情太簡單了,想擴展下其他功能,比如獲取下資源使用者的狀態(tài)。當任務比較多時,資源申請者變?yōu)槠款i。如何解決??
Hadoop-YARN前面提到的資源申請者現(xiàn)在不僅用于資源申請了,還做了其他功能,因此將名字換為“任務掌控者”任務掌控者可以控制、獲取任務的狀態(tài),可以向資源管理者申請資源對于資源管理者來說,還是需要對請求排隊每個任務都有自己的唯一一個任務掌控者,這樣任務掌控者不再成為瓶頸,但是會占用一些資源Hadoop-YARN
一個全局ResourceManager,對可用資源進行管理。ApplicationMaster(AppMstr)用來協(xié)調(diào)應用程序內(nèi)的所有任務的執(zhí)行。這包括監(jiān)視任務,重新啟動失敗的任務,向ResourceManager申請資源。Nodemanager:以容器的形式提供資源,監(jiān)控資源的使用情況,向ResourceManager報告資源情況。容器:運行具體的任務。ResourceManager和NodeManager是HadoopYARN的進程,ApplicationMaster提供了編程框架,不同的應用程序會有自己的實現(xiàn)
HBaseHBase:HadoopDatabase分布式的、可以擴展的大數(shù)據(jù)存儲數(shù)據(jù)庫適用于隨機的、實時的讀寫大數(shù)據(jù)可以認為HBase是基于HDFS的數(shù)據(jù)庫,是和Hadoop配合一起使用的Spark快速的、通用的集群計算系統(tǒng)提供了高級別的API,包括Java,Scala,Python,R提供了優(yōu)秀的圖形計算引擎支持豐富的高級工具,包括SparkSQL相對比hadoop而言提供了不僅map,reduce操作,還有其他更多的操作有文章稱spark會替換掉hadoop目前看到很多案例是hadoop和spark結(jié)合使用Storm分布式的、實時計算系統(tǒng)用于實時分析、在線機器學習、連續(xù)計算注
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025中國鐵路通信信號股份有限公司招聘23人筆試參考題庫附帶答案詳解
- 2025年上半年安徽省蕪湖市煙草專賣局(公司)招聘8人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽省渦陽縣政府購買治安輔助人員641人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽滁州市教育體育局所屬事業(yè)單位招聘工作人員4人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽淮南經(jīng)濟技術開發(fā)區(qū)實業(yè)發(fā)展總公司公開招聘巡防隊員30人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽安慶懷寧縣引進緊缺專業(yè)人才20人易考易錯模擬試題(共500題)試卷后附參考答案
- 2024年民爆器材項目資金需求報告代可行性研究報告
- 2025年上半年寧波市國際交流服務中心招考易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年寧波光耀熱電限公司招聘1人易考易錯模擬試題(共500題)試卷后附參考答案
- 【2025】年山東頤養(yǎng)健康產(chǎn)業(yè)發(fā)展集團有限公司集團總部紀委筆試考點考試試題及答案
- 醫(yī)院實習生崗前培訓課件
- 照明燈具統(tǒng)計表
- 杭州市居住房屋出租安全管理若干規(guī)定
- 2022年江西工業(yè)貿(mào)易職業(yè)技術學院職業(yè)適應性測試題庫及答案解析
- 給水排水管道工程質(zhì)量通病以及防治
- 計算機視覺全套課件
- 中國聯(lián)通IMS接口規(guī)范 第三分冊:Sh接口 V1.0
- protel完全教程(原理圖部分)
- 迎澤公園文化廣場歌詞匯集
- 環(huán)境化學物的毒性作用及其影響因素
- Q∕GDW 12176-2021 反竊電監(jiān)測終端技術規(guī)范
評論
0/150
提交評論