版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
大數(shù)據(jù)系統(tǒng)運維第一章配置管理1.1配置管理內(nèi)容1.2配置管理方法1.3配置管理工具1.4其他運維工具習題1.1配置管理內(nèi)容第一章配置管理配置管理術語定義配置基線配置項配置項屬性配置管理數(shù)據(jù)庫配置審計制定配置管理計劃版本控制變更控制1.1配置管理內(nèi)容第一章配置管理配置管理與資產(chǎn)管理的區(qū)別配置管理資產(chǎn)管理提供IT環(huán)境的邏輯模型,為ITIL流程提供數(shù)據(jù)依據(jù)。管理IT資產(chǎn)在整個生命周期內(nèi)的成本及變化情況。相關的ITIL流程可以提供服務穩(wěn)定性和質(zhì)量??梢越档唾Y產(chǎn)的總體成本,減少采購成本,增加資產(chǎn)的利用率,提供準確的資產(chǎn)規(guī)劃。配置項是從運維的角度出發(fā),標識的是IT部件。資產(chǎn)是基于價值、合同跟蹤管理的IT部件。如果需要保證你某個資產(chǎn)穩(wěn)定運行,可將其作為配置項管理。如果某個配置項需要跟蹤其成本、合同及使用信息,可以作為資產(chǎn)進行管理。維護CI項之間的復雜關系,以便進行風險評估。維護資產(chǎn)之間基本的關聯(lián)關系,如父子關系等。1.1配置管理內(nèi)容第一章配置管理應用軟件配置A服務器設備B網(wǎng)絡設備C安全設備D存儲設備E終端設備硬件配置軟件配置管理的最終目標是管理軟件產(chǎn)品。第一章大數(shù)據(jù)概念與應用1.1配置管理內(nèi)容1.2配置管理方法1.3配置管理工具1.4其他運維工具習題1.2配置管理方法第一章配置管理配置管理基本流程1.2配置管理方法第一章配置管理配置管理更新維護子流程1.2配置管理方法第一章配置管理配置審核子流程1.2配置管理方法第一章配置管理配置自動發(fā)現(xiàn)配置管理庫(CMDB)三大難點一是配置項識別。三是保證配置數(shù)據(jù)的持續(xù)更新。二是配置管理模型的創(chuàng)建與維護。第一章大數(shù)據(jù)概念與應用1.1
配置管理內(nèi)容1.2配置管理方法1.3配置管理工具1.4其他運維工具習題1.3配置管理工具第一章配置管理CMDB數(shù)據(jù)庫介紹與實踐ABC主要涉及CI的寬度和深度,以及CI的生命周期。確定配置管理的范圍設計者需要遵循一個原則和一套結(jié)構(gòu)。定義配置項的屬性采取兩種方法即“自上而下”和“自下而上”。構(gòu)建CI之間的關系CMDB存儲與管理企業(yè)IT架構(gòu)中設備的各種配置信息,它與所有服務支持和服務交付流程都緊密相聯(lián),支持這些流程的運轉(zhuǎn)、發(fā)揮配置信息的價值,同時依賴于相關流程保證數(shù)據(jù)的準確性。1.3配置管理工具第一章配置管理Puppet介紹與實踐Puppet是一個優(yōu)秀的基礎設施管理平臺。下面將介紹Puppet的工作原理,以及它是如何幫助處于各種不同狀況的團隊增強協(xié)作能力,以進行軟件開發(fā)和發(fā)布的——這種工作方式的演變通常被稱做DevOps(開發(fā)運維)。1.3配置管理工具第一章配置管理Chef介紹與實踐Chef是一個全新的開源應用,包括系統(tǒng)集成、配置管理和預配置等功能,由來自華盛頓西雅圖的Opscode基于Apache2.0許可證發(fā)布。Chef通過定義系統(tǒng)節(jié)點、食譜(cookbook)和程序庫來進行工作,食譜用于表達管理任務,而程序庫則用于定義和其他比如應用程序、數(shù)據(jù)庫或者像LDAP目錄一類的系統(tǒng)管理資源等工具之間的交互。1.3配置管理工具第一章配置管理Ansible介紹與實踐Ansible是一個IT自動化工具。它可以配置系統(tǒng),開發(fā)軟件,或者編排高級的IT任務,例如持續(xù)開發(fā)或者零宕機滾動更新。主要目標是簡單易用。它也同樣專注安全性和可靠性,最小化的移動部件,使用Openssh傳輸(有加速socket模式和同樣可用拉取模式),易于人類閱讀的語言,使不熟悉編程的人也可以看得懂。適用于管理所有類型的環(huán)境,從隨手可安裝的實例,到企業(yè)級別的成千上萬個實例都可行。1.3配置管理工具第一章配置管理SaltStack介紹與實踐SaltStack管理工具允許管理員對多個操作系統(tǒng)創(chuàng)建一個一致的管理系統(tǒng),包括VMwarevSphere環(huán)境。作用于仆從和主拓撲。SaltStack與特定的命令結(jié)合使用可以在一個或多個下屬執(zhí)行。實現(xiàn)這一點,此時SaltMaster可以發(fā)出命令,如salt'*'cmd.run'ls-l/'。1.3配置管理工具第一章配置管理不同階段CMDB發(fā)展類型第一階段第二階段第三階段模型偏靜態(tài)動態(tài)、調(diào)整難道適中動態(tài)、調(diào)整快速數(shù)據(jù)初始化Excel導入自動發(fā)現(xiàn)+Excel導入自動發(fā)現(xiàn)+服務的同時更新了配置庫配置更新手工自動+手動實時更新配置管理范圍設備設備+軟件所有IT組件及相關的服務場景資產(chǎn)管理配置自動發(fā)現(xiàn)、告警分析配置管理服務化第一章大數(shù)據(jù)概念與應用1.1
配置管理內(nèi)容1.2配置管理方法1.3配置管理工具1.4其他運維工具習題1.4其他運維工具第一章配置管理AmbariAmbari自身也是一個分布式架構(gòu)的軟件,主要由兩部分組成:AmbariServer和AmbariAgent。簡單來說,用戶通過AmbariServer通知AmbariAgent安裝對應的軟件;Agent會定時地發(fā)送各個機器每個軟件模塊的狀態(tài)給AmbariServer,最終這些狀態(tài)信息會呈現(xiàn)在Ambari的GUI,方便用戶了解到集群的各種狀態(tài),并進行相應的維護。1.4其他運維工具第一章配置管理CLI工具主要命令命令作用diff比較文件的差異。grep或者egrep正則表達式過濾文件中的關鍵字。find查找文件。sed通過正則表達式修改文件內(nèi)容。df、du查看文件系統(tǒng)。free查看內(nèi)存。ps查看進程。top查看cpu、內(nèi)存、進程等整體性能情況。netstat查看網(wǎng)絡連接情況。telnet、ping、traceroute跟蹤網(wǎng)絡連接情況。1.4其他運維工具第一章配置管理GangliaGanglia是UCBerkeley發(fā)起的一個開源監(jiān)視項目,用于測量海量節(jié)點。每臺計算機都運行一個收集和發(fā)送度量數(shù)據(jù)的名為gmond的守護進程。它將從操作系統(tǒng)和指定主機中收集。接收所有度量數(shù)據(jù)的主機可以顯示這些數(shù)據(jù)并且可以將這些數(shù)據(jù)的精簡表單傳遞到層次結(jié)構(gòu)中。gmond帶來的系統(tǒng)負載非常少,這使得它成為在集群中各臺計算機上運行的一段代碼,而不會影響用戶性能。1.4其他運維工具第一章配置管理ClouderaManagerClouderaManager一個hadoop集群的綜合管理平臺,對ClouderaDistributionHadoop(簡稱CDH)的每個部件都提供了細粒度的可視化和控制。1、文件傳輸使用文件傳輸工具如scp命令,ftp命令,filezilla,winscp等負責文件的上傳和下載。2、網(wǎng)絡抓包和分析在排查網(wǎng)絡問題時,抓包是最有效率的的排查方式,linux上的tcpdump和windows平臺的wireshark是比較流行的抓包分析工具。3、日志分析日志是排查故障的最重要依據(jù),利用日志分析工具可以方便地提取日志中的有效信息,對性能和故障點做深入分析。當日志量較多時,也可以借助日志分析平臺,如ELK或者SPLUNK。4、批量執(zhí)行命令在定位到故障之后,需要盡快修復,如果故障涉及到的服務器數(shù)量比較多,可以借助批量執(zhí)行命令的工具ansible完成此項工作。5、Dump分析在進程故障退出之后,可能會生成threaddump或者heapdump,dump文件是比日志還要詳細的數(shù)據(jù),記載了程序運行時的各種信息,可以通過dump分析工具對dump文件進行進一步分析。1.4其他運維工具第一章配置管理其他工具第一章大數(shù)據(jù)概念與應用1.1
配置管理內(nèi)容1.2配置管理方法1.3配置管理工具1.4其他運維工具習題1.CMDB經(jīng)歷了幾個階段的發(fā)展?2.配置管理和資產(chǎn)管理有什么區(qū)別?3.云時代的CMDB有什么特征?4.請簡要設計你所理解的配置管理模型?習題:第二章系統(tǒng)管理及日志巡檢2.1系統(tǒng)建設2.2系統(tǒng)管理對象2.3系統(tǒng)管理內(nèi)容2.4系統(tǒng)管理工具習題2.5系統(tǒng)管理制度規(guī)范2.6日常巡檢2.1系統(tǒng)建設第二章系統(tǒng)管理及日志巡檢技術方案業(yè)務系統(tǒng)層01資源管理層03數(shù)據(jù)計算層02數(shù)據(jù)收集/存儲層04大數(shù)據(jù)系統(tǒng)應該具有以下4個特點:①彈性容量大;②高性能;③集成化;④自動化。常規(guī)的大數(shù)據(jù)系統(tǒng)架構(gòu)圖2.1系統(tǒng)建設第二章系統(tǒng)管理及日志巡檢技術方案靜態(tài)數(shù)據(jù)的批量處理:Hadoop流式數(shù)據(jù)的實時處理:Storm交互式數(shù)據(jù):Spark目前,大數(shù)據(jù)系統(tǒng)主要的應用場景和典型的大數(shù)據(jù)系統(tǒng)技術方案有以下三種:2.1系統(tǒng)建設第二章系統(tǒng)管理及日志巡檢部署實施針對不同的源數(shù)據(jù)和業(yè)務需求,需要部署不同的技術框架。而Hadoop是其中最受歡迎、最成熟、應用最廣的大數(shù)據(jù)系統(tǒng)架構(gòu),其他的大數(shù)據(jù)架構(gòu)很多都是基于Hadoop進行擴展和優(yōu)化,因此本節(jié)主要介紹Hadoop架構(gòu)的部署實施。2.1系統(tǒng)建設第二章系統(tǒng)管理及日志巡檢測試驗收A功能測試B性能測試C可用性測試D容錯性測試E穩(wěn)定性測試第二章系統(tǒng)管理及日志巡檢2.1系統(tǒng)建設2.2系統(tǒng)管理對象2.3系統(tǒng)管理內(nèi)容2.4系統(tǒng)管理工具習題2.5系統(tǒng)管理制度規(guī)范2.6日常巡檢2.2系統(tǒng)管理對象第二章系統(tǒng)管理及日志巡檢系統(tǒng)管理對象2.2系統(tǒng)管理對象第二章系統(tǒng)管理及日志巡檢分布式的架構(gòu)搭建大數(shù)據(jù)分析系統(tǒng)的部署過程分一下幾部分:底層操作系統(tǒng)分布式計算系統(tǒng)架構(gòu)數(shù)據(jù)分析算法及工具結(jié)果可視化及輸出API2.2系統(tǒng)管理對象第二章系統(tǒng)管理及日志巡檢系統(tǒng)硬件服務器環(huán)境數(shù)據(jù)采集服務器、數(shù)據(jù)清洗轉(zhuǎn)換服務器、分布式存儲服務器、并行分析服務器、數(shù)據(jù)管理服務器和數(shù)據(jù)運營服務器。存儲環(huán)境數(shù)據(jù)存數(shù)主要包含結(jié)構(gòu)化數(shù)據(jù)存儲,半結(jié)構(gòu)化數(shù)據(jù)存儲,非結(jié)構(gòu)化數(shù)據(jù)存儲。備份環(huán)境選擇合適備份方式,適當備份存儲空間,對大數(shù)據(jù)平臺的數(shù)據(jù)進行備份,備份存儲可以考慮使用第三方數(shù)據(jù)服務機構(gòu)的異地備份服務。網(wǎng)絡環(huán)境如果相關數(shù)據(jù)信息是經(jīng)由互聯(lián)網(wǎng)采集,則必須選擇滿足互聯(lián)網(wǎng)基本采集要求的,并適合該大數(shù)據(jù)系統(tǒng)的Internet網(wǎng)絡類型。2.2系統(tǒng)管理對象第二章系統(tǒng)管理及日志巡檢系統(tǒng)數(shù)據(jù)原始系統(tǒng)數(shù)據(jù)預處理后數(shù)據(jù)存儲數(shù)據(jù)備份數(shù)據(jù)2.2系統(tǒng)管理對象第二章系統(tǒng)管理及日志巡檢IT供應商01數(shù)據(jù)提供商02架構(gòu)和平臺提供商03大數(shù)據(jù)咨詢公司04分析運營商05可視化供應商第二章系統(tǒng)管理及日志巡檢2.1系統(tǒng)建設2.2系統(tǒng)管理對象2.3系統(tǒng)管理內(nèi)容2.4系統(tǒng)管理工具習題2.5系統(tǒng)管理制度規(guī)范2.6日常巡檢2.3系統(tǒng)管理內(nèi)容第二章系統(tǒng)管理及日志巡檢事件管理在IT服務管理中事件管理是重要流程之一,事件解決的時效性決定系統(tǒng)管理服務的質(zhì)量。事件管理是指及時處理中斷的IT服務并快速恢復IT服務能力。事件的來源來自于IT報告、監(jiān)控系統(tǒng)自動轉(zhuǎn)發(fā)等。事件管理流程的目的是為了降低IT故障對企業(yè)業(yè)務的影響,達到提升業(yè)務穩(wěn)定性的作用。具體操作是,按照事件的優(yōu)先級,多渠道及時響應服務請求,快速有序地解決,從而減少IT服務中斷造成的影響。2.3系統(tǒng)管理內(nèi)容第二章系統(tǒng)管理及日志巡檢問題管理問題管理通過標準化的方法管理已發(fā)生的IT的技術問題,其目的是為了幫助企業(yè)提高工作效率。問題管理流程的主要階段為:問題的識別和提交、調(diào)查和診斷、實施解決以及回顧關閉。作為一個旨在提高效率的管理流程,問題管理流程的目的是要找到管賬的根本原因,設計并實施解決方案,提高系統(tǒng)穩(wěn)定性。2.3系統(tǒng)管理內(nèi)容第二章系統(tǒng)管理及日志巡檢配置管理配置管理是對IT資源進行管理的重要步驟之一,也是大數(shù)據(jù)運維重要依據(jù)。配置管理是IT管理的關鍵,也是事件管理、問題管理等流程審查原因所在,具體數(shù)據(jù)來自配置管理數(shù)據(jù)庫。配置管理錄入并管理IT基礎設施的配置信息,是IT服務準確的信息來源。由配置流程經(jīng)理組織制定或修訂配置管理相關定義與策略,包括:配置管理的范圍、結(jié)構(gòu)規(guī)劃、審核策略等,并接受部門負責人的審閱確認。2.3系統(tǒng)管理內(nèi)容第二章系統(tǒng)管理及日志巡檢變更管理變更管理的目的是有效的審批和控制IT設施變更,及時降低業(yè)務故障率,保證業(yè)務盡快、正常、有序地運行,從而減少故障對用戶的影響,以提升服務質(zhì)量。變更管理在于規(guī)范和控制變更流程:在保證管控的前提下發(fā)起評估、批準、實施、回顧變更,運用正確的方法處理變更,在可控范圍內(nèi)壓縮變更產(chǎn)生的負面效應,且保證在規(guī)定范圍之內(nèi)實施變更管理流程。確保完整記錄所有變革及對應措施,確保跟蹤變更直到實施完成,通過對變更進行風險評估,保證變更能夠更好地滿足業(yè)務的需求。2.3系統(tǒng)管理內(nèi)容第二章系統(tǒng)管理及日志巡檢發(fā)布管理發(fā)布管理是變更流程的其中一種,主要為了在盡可能不影響系統(tǒng)正常服務運行的情況下對IT環(huán)境實施可控的變更。發(fā)布管理的主要步驟包括:發(fā)布前的規(guī)劃準備、申請與審批發(fā)布、同步災備系統(tǒng)、試點運行、評估發(fā)布流程。發(fā)布管理流程的目的是通過規(guī)范的操作流程,確保在生產(chǎn)環(huán)境中系統(tǒng)能夠平穩(wěn)地執(zhí)行變更操作,并降低一切風險,保證業(yè)務正常運行。發(fā)布管理的流程包括:明確參與發(fā)布管理的人員職責,系統(tǒng)發(fā)布過程和具體實施步驟,確保系統(tǒng)發(fā)布后能夠持續(xù)安全運行。2.3系統(tǒng)管理內(nèi)容第二章系統(tǒng)管理及日志巡檢知識管理知識管理流程是IT運維人員獲取各種來源的知識,結(jié)合存量技術,實現(xiàn)知識的生產(chǎn)、分享、使用和創(chuàng)新的過程。知識管理的目的在于通過對知識庫的有效管理,協(xié)助企業(yè)和個人創(chuàng)造價值。具體通過收集、梳理、歸納、撰寫等手段對本系統(tǒng)運維知識進行整理,形成文檔、視頻,錄入知識庫,并選取正確、科學的維度錄入知識庫,形成系列課件指導新人通過知識庫進行學習。2.3系統(tǒng)管理內(nèi)容第二章系統(tǒng)管理及日志巡檢日志管理日志管理對系統(tǒng)運行至關重要,日志管理的質(zhì)量直接關系到定位系統(tǒng)問題的速度和效率。日志管理的重點是把不同需求的日志進行分類,方便問題分析和問題處理,而對于每一種需求,存在特定的記錄格式和內(nèi)容。日志管理最終是為了分析日志,常見的日志管理系統(tǒng)包括Web服務器日志和Linux日志。通過自動解析標準格式日志的日志分析系統(tǒng),用戶能夠快速高效的解析日志文件,節(jié)省運維人員的工作時間和精力,提高處理系統(tǒng)問題的效率。2.3系統(tǒng)管理內(nèi)容第二章系統(tǒng)管理及日志巡檢備份管理因為數(shù)據(jù)傳輸、數(shù)據(jù)存儲和數(shù)據(jù)交換過程中,任何系統(tǒng)都有失效或故障的風險,因此有必要進行備份管理,從備份系統(tǒng)中還原數(shù)據(jù),最大程度地降低損失。從信息安全的角度出發(fā),備份管理也避免了人為惡意破壞等帶來的損失。數(shù)據(jù)備份是保護數(shù)據(jù)的一道防線,十分必要。備份管理的根本目的是數(shù)據(jù)恢復,即能夠快速、正確、全面地恢復數(shù)據(jù)。除此之外,備份的意義不僅在于防范意外事件的破壞,還有保存歸檔歷史數(shù)據(jù)的功能。第二章系統(tǒng)管理及日志巡檢2.1系統(tǒng)建設2.2系統(tǒng)管理對象2.3系統(tǒng)管理內(nèi)容2.4系統(tǒng)管理工具習題2.5系統(tǒng)管理制度規(guī)范2.6日常巡檢2.4系統(tǒng)管理工具第二章系統(tǒng)管理及日志巡檢資產(chǎn)管理資產(chǎn)管理:資產(chǎn)管理是指對系統(tǒng)的資產(chǎn)進行管理,提高資產(chǎn)利用率。對大數(shù)據(jù)系統(tǒng)而言,資產(chǎn)主要包括:軟件資產(chǎn)、硬件資產(chǎn)、云資產(chǎn)三種。其中,硬件資產(chǎn)包含服務器、存儲設備、網(wǎng)絡設備等;軟件資產(chǎn)包含系統(tǒng)軟件、服務許可證等;云資產(chǎn)包括云服務器、云數(shù)據(jù)庫等。資產(chǎn)管理工具:資產(chǎn)管理工具主要對資產(chǎn)采購、使用、維護、報廢的整個周期進行有效的管理和保護。使用資產(chǎn)管理工具主要為了幫助企業(yè)管控,降低成本、提高資產(chǎn)利用率。主流的資產(chǎn)管理工具有CMDBuild和MAXIMO。2.4系統(tǒng)管理工具第二章系統(tǒng)管理及日志巡檢監(jiān)控管理監(jiān)控管理:監(jiān)控管理通過把管理和技術結(jié)合,監(jiān)視基礎設施和IT基礎結(jié)構(gòu),即時發(fā)現(xiàn)并通知故障與異常。此外,監(jiān)控數(shù)據(jù)的搜集與整理是實現(xiàn)事件管理、問題管理等,以便實現(xiàn)大數(shù)據(jù)系統(tǒng)高可用性的終極目標。監(jiān)控管理工具:監(jiān)控管理工具需要結(jié)合人工判斷,綜合監(jiān)控大數(shù)據(jù)系統(tǒng)的應用情況針對故障發(fā)起事件和問題,并保證系統(tǒng)正常運行。目前,主流的監(jiān)控管理工具有Zabbix和Tivoli。2.4系統(tǒng)管理工具第二章系統(tǒng)管理及日志巡檢流程管理主流的流程管理工具有OTRS和SeviceDeskPlus。2.4系統(tǒng)管理工具第二章系統(tǒng)管理及日志巡檢外包管理外包管理:外包管理是指企業(yè)針對外包人員統(tǒng)一進行管理,要求外包人員遵守相關規(guī)定,加強人員出勤及業(yè)績考核等。外包管理工具:外包管理能有效的約束外包人員的工作行為,同時加強企業(yè)運維的管控,提升運維人員各司其職、協(xié)調(diào)配合的能力。外包管理工具內(nèi)容相對簡單,主要包括考勤管理等,一般都是與現(xiàn)有系統(tǒng)的人力資源管理模塊相結(jié)合。第二章系統(tǒng)管理及日志巡檢2.1系統(tǒng)建設2.2系統(tǒng)管理對象2.3系統(tǒng)管理內(nèi)容2.4系統(tǒng)管理工具習題2.5系統(tǒng)管理制度規(guī)范2.6日常巡檢2.5系統(tǒng)管理制度規(guī)范第二章系統(tǒng)管理及日志巡檢系統(tǒng)管理標準在IT服務領域內(nèi),ISO20000標準應用最為廣泛,國家間認可度高。IT系統(tǒng)管理主要包括4個方面:①職責管理;②IT服務管理的計劃與實施;③變更或新增IT服務目錄的計劃與實施;④服務管理流程。大數(shù)據(jù)系統(tǒng)管理主要關注的是質(zhì)量管理,從系統(tǒng)的規(guī)劃、實施、監(jiān)控、驗收等階段進行質(zhì)量管控,保證系統(tǒng)服務的質(zhì)量。同時,在這一過程中,保持與系統(tǒng)最終用戶的持續(xù)溝通,確保業(yè)務需求得到滿足。2.5系統(tǒng)管理制度規(guī)范第二章系統(tǒng)管理及日志巡檢系統(tǒng)管理制度分類規(guī)劃實施運營評價業(yè)務制定IT服務戰(zhàn)略;管理系統(tǒng)投資成本/預算;符合內(nèi)外部標準政策。需求管理;優(yōu)先級排序。服務水平管理;能力管理;業(yè)務連續(xù)性管理。系統(tǒng)投資回報率;系統(tǒng)運維績效。系統(tǒng)確定系統(tǒng)體系結(jié)構(gòu);確定技術方向;管理項目組合。IT項目內(nèi)部治理;IT項目外部治理。事件、問題管理;發(fā)布、變更管理;配置庫管理;運營監(jiān)控管理。系統(tǒng)實施評級;設定改進目標;制定改進措施。安全確定企業(yè)系統(tǒng)安全策略;制定企業(yè)系統(tǒng)安全標準;制定系統(tǒng)安全管理范圍。定義系統(tǒng)安全控制目標;系統(tǒng)安全風險評估;制定安全風險措施。系統(tǒng)安全運營維護;系統(tǒng)安全風險控制。系統(tǒng)安全風險評價;安全改進措施評價。內(nèi)控系統(tǒng)內(nèi)部控制規(guī)劃;系統(tǒng)審計規(guī)劃。系統(tǒng)實施控制;系統(tǒng)實施審計。內(nèi)部控制和持續(xù)改進。服務水平評估與監(jiān)控;評估內(nèi)控措施有效性。2.5系統(tǒng)管理制度規(guī)范第二章系統(tǒng)管理及日志巡檢系統(tǒng)管理規(guī)范ITIL提供了服務管理最佳實踐指南,為高品質(zhì)IT服務的交付和支持提供一套客觀、嚴謹、可量化的綜合流程規(guī)范,是系統(tǒng)管理的最佳規(guī)范。第二章系統(tǒng)管理及日志巡檢2.1系統(tǒng)建設2.2系統(tǒng)管理對象2.3系統(tǒng)管理內(nèi)容2.4系統(tǒng)管理工具習題2.5系統(tǒng)管理制度規(guī)范2.6日常巡檢2.6日常巡檢第二章系統(tǒng)管理及日志巡檢日常巡檢檢查內(nèi)容分類:①環(huán)境和設備檢查;②應用系統(tǒng)檢查。巡檢方法分類:①巡檢;②點檢;③廠商巡檢。巡檢流程:①巡檢規(guī)劃;②巡檢實施;③巡檢記錄處理。第二章系統(tǒng)管理及日志巡檢2.1系統(tǒng)建設2.2系統(tǒng)管理對象2.3系統(tǒng)管理內(nèi)容2.4系統(tǒng)管理工具習題2.5系統(tǒng)管理制度規(guī)范2.6日常巡檢1.簡述大數(shù)據(jù)系統(tǒng)主要的三種應用場景和對應的大數(shù)據(jù)系統(tǒng)技術方案。2.簡述安裝部署HDP的主要步驟。3.列舉出幾個具有代表性的大數(shù)據(jù)系統(tǒng)軟件,并簡要說明其作用。4.簡述事件管理的流程目標。5.簡述問題管理的流程。6.為什么說IT運維管理的基礎是配置管理?7.為什么要做好變更管理?8.你認為日志管理最大的作用是什么?9.如果做好了安全防護措施,大數(shù)據(jù)系統(tǒng)還需不需要備份管理?10.簡述主流的監(jiān)控管理工具,并探討如何更好地利用這些工具?11.流程管理的意義是什么?12.在大數(shù)據(jù)系統(tǒng)管理中遵循ITIL規(guī)范有什么好處?習題:第三章故障管理3.1集群結(jié)構(gòu)3.2故障報告3.3故障處理3.4故障后期管理習題3.1集群結(jié)構(gòu)第三章故障管理CDH(ClouderaDistributionHadoop)版的HADOOP集群介紹集群結(jié)構(gòu)。3.1集群結(jié)構(gòu)第三章故障管理CDH功能模塊系統(tǒng)部署和管理數(shù)據(jù)存儲資源管理處理引擎安全、數(shù)據(jù)管理工具庫3.1集群結(jié)構(gòu)第三章故障管理集群的結(jié)構(gòu)組成模塊組件名稱系統(tǒng)部署和管理ClouderaManagerClouderaDirector數(shù)據(jù)存儲HDFSHBase資源管理YARN處理引擎SparkImpalaSearch安全、數(shù)據(jù)管理ClouderaNavigator工具款Hive3.1集群結(jié)構(gòu)第三章故障管理硬件配置組成硬件名稱管理節(jié)點工作節(jié)點處理器兩路Intel?至強處理器,可選用E5-2630處理器兩路Intel?至強處理器,可選用E5-2660處理器內(nèi)核數(shù)6核/CPU(或者可選用8核/CPU),主頻2.3GHz或以上6核/CPU(或者可選用8核/CPU),主頻2.0GHz或以上內(nèi)存64GBECCDDR364GBECCDDR3硬盤2個2TB的SAS硬盤(3.5寸),7200RPM,RAID14-12個4TB的SAS硬盤(3.5寸),7200RPM,不使用RAID網(wǎng)絡至少兩個1GbE以太網(wǎng)電口,推薦使用光口提高性能??梢詢蓚€網(wǎng)口鏈路聚合提供更高帶寬。至少兩個1GbE以太網(wǎng)電口,推薦使用光口提高性能??梢詢蓚€網(wǎng)口鏈路聚合提供更高帶寬。硬件尺寸1U或2U1U或2U接入交換機48口千兆交換機,要求全千兆,可堆疊聚合交換機(可選)4口SFP+萬兆光纖核心交換機,一般用于50節(jié)點以上大規(guī)模集群第三章故障管理3.1集群結(jié)構(gòu)3.2故障報告3.3故障處理3.4故障后期管理習題3.2故障報告第三章故障管理發(fā)現(xiàn)在故障發(fā)現(xiàn)之后,需要精確描述,包括如何發(fā)現(xiàn)的故障(如果是用戶,用戶的聯(lián)系方式要保留,便于后期回訪)故障發(fā)生的時間點,故障的現(xiàn)象,故障暫時的影響等,只有把這些描述清楚了,才有可能在后續(xù)的流程中提升效率,一個典型的故障記錄單如下表所示:
分類記錄單號20170511000328狀態(tài)已指派等待代碼等待管理員接單記錄人員張三分析員李四報告時間2017-05-1111:18:20客戶王五客戶組織業(yè)務一部客戶電話XXX客戶郵箱XXXVIP屬性VIP故障來源用戶報告摘要大數(shù)據(jù)分析系統(tǒng)X無法登錄詳細信息今天10:00,李四使用Chrome瀏覽器訪問X系統(tǒng)時,在輸入用戶名和密碼之后,頁面出現(xiàn)錯誤信息“服務器內(nèi)部故障308,請聯(lián)系管理員”,截圖如附件所示故障分類大數(shù)據(jù)分析系統(tǒng)/X系統(tǒng)/用戶登錄故障故障級別低3.2故障報告第三章故障管理影響分析在運維部門,一般會有一二三線的人員劃分:一線人員指的是客服人員或者監(jiān)控值班人員,負責處理日常性的用戶詢問和故障處理;二線人員指的是專業(yè)的系統(tǒng)管理員,如網(wǎng)絡管理員,服務器管理員,應用管理員等,當一線人員處理不了故障,會有二線的管理員跟進;三線指的是系統(tǒng)開發(fā)人員,產(chǎn)品供應商,當是比較深層的故障,例如是軟件開發(fā)的問題,操作系統(tǒng)缺陷或者深層故障,會交給三線人員處理。第三章故障管理3.1集群結(jié)構(gòu)3.2故障報告3.3故障處理3.4故障后期管理習題3.3故障處理第三章故障管理故障診斷參考大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構(gòu),從故障發(fā)生的位置來看,可以分為:應用層故障,系統(tǒng)層故障,網(wǎng)絡層故障,硬件層故障,機房環(huán)境故障,客戶端故障等。從故障的原因出發(fā),在運維過程中的的常見故障主要有:3.3故障處理第三章故障管理故障診斷1、故障的完整描述如前文3.3.1所述,準確的故障描述至關重要,能幫助管理員把故障的范圍縮小,對故障的發(fā)生源有個預判定位,避免在大范圍內(nèi)浪費資源。通過故障的完整描述,應該能核實以下信息,該問題的具體報錯碼,具體報錯時間,是不是首次發(fā)生等。如果信息比較模糊,還需要反復確認。2、監(jiān)控信息,dump文件,日志等現(xiàn)場快照故障發(fā)生時的現(xiàn)場信息是排查故障的關鍵,如同車禍現(xiàn)場的視頻記錄一樣,日志,監(jiān)控信息,dump文件,網(wǎng)路抓包情況是故障現(xiàn)場的記錄數(shù)據(jù)。一些沒有經(jīng)驗的開發(fā)者往往由于開發(fā)的應用輸出的日志太少,在生產(chǎn)環(huán)境出現(xiàn)問題時,沒有任何記錄,排查故障時也毫無頭緒。大多數(shù)故障都可以通過日志發(fā)現(xiàn)端倪,一些復雜的故障要依靠多種手段才能定位原因。如果當時無法定位原因,則需要考慮通過降低日志輸出的級別,在關鍵位置增加日志,部署一些詳細監(jiān)控的策略,等待故障再次發(fā)生時,能夠捕獲更多的信息。3、文檔,經(jīng)驗和知識通過現(xiàn)場快照發(fā)現(xiàn)了錯誤的具體信息后,還要結(jié)合系統(tǒng)本身的文檔,知識庫或者管理員的經(jīng)驗,進行進一步分析。例如已經(jīng)發(fā)現(xiàn)了服務器應用輸出的日志有明顯的錯誤信息,顯示網(wǎng)絡連接失敗。可能該問題過去已經(jīng)發(fā)生過,是由于訪問量上升時,服務端無法再創(chuàng)建新的連接造成的。如果該經(jīng)驗沒有記錄到文檔或者知識庫中,而人員又不是當時處理故障的人員,則還需要花費資源進行診斷。一般的大型組織,都會建立自己的知識庫或者文檔庫,各種開源軟件也會有相應的文檔或者論壇在互聯(lián)網(wǎng)上開放,可以通過搜索引擎檢索到軟件相關的問題記錄和解決情況。3.3故障處理第三章故障管理故障排除故障排除通常有兩種做法,變通解決和根本解決。變通解決指的是,當故障造成了系統(tǒng)不可用,恢復服務是第一要務,如同醫(yī)生搶救病人一樣,先救活再說。根本解決指的是找到的故障的深層原因,在源頭上予以解決。例如,應用程序的缺陷造成了程序運行了一段時間會崩潰退出,此時先將程序重新啟動恢復服務,重啟動作就是變通解決,等找到了程序的缺陷,通過升級變更予以消除,這就是根本解決。排除方法適應場景重啟服務軟件或者硬件不明原因的故障,通過重啟相關模塊來恢復服務,但要注意的是,復雜系統(tǒng)尤其是分布式系統(tǒng)包含多臺服務器,多個應用模塊,按照怎樣的順序重啟,重啟哪些模塊也都是需要注意的點;性能調(diào)度當訪問量激增的時候,系統(tǒng)會出現(xiàn)卡頓,一些模塊可能會由于資源耗盡而無法再服務,可以通過擴充系統(tǒng)性能,如果系統(tǒng)是部署在云上,可以通過云管理平臺動態(tài)地增加cpu,內(nèi)存,甚至整個服務器等來解決性能問題;
修補數(shù)據(jù)當故障造成了數(shù)據(jù)錯誤,丟失,重復的情況,故障的處理就會變的異常麻煩,如果數(shù)據(jù)特別重要,一定需要修復,則需要安排資源對數(shù)據(jù)進行逐筆核對,識別出錯誤的地方,這個工作量通常非常大;升級變更如果是硬件故障,通過升級變更更換硬件;如果是軟件問題,通過升級變更修復缺陷;隔離,重置等其他應急操作當系統(tǒng)存在冗余的模塊,為了避免流量仍然導向到故障模塊,則可以徹底手工隔離故障模塊;一些系統(tǒng)可能由于自身結(jié)構(gòu)原因,會有一些常發(fā)性故障,例如用戶登錄狀態(tài)錯誤,則可以將重置用戶登錄狀態(tài)做成一個功能,方便在排除故障的時候使用;自動化在有了一定故障處理經(jīng)驗和原則之后,對于固定場景的故障,可以考慮開發(fā)成自動處理,在捕獲到異常之后,由系統(tǒng)管理模塊對故障進程自動隔離,自動重啟,自動重置,自動擴容等;第三章故障管理3.1集群結(jié)構(gòu)3.2故障報告3.3故障處理3.4故障后期管理習題3.4故障后期管理第三章故障管理建立和更新知識庫關于企業(yè)知識庫的建立,是因為運維工作所需的大量知識分散保存在文檔管理系統(tǒng)或者個人電腦中,需要時查找不便,找到又發(fā)現(xiàn)版本不統(tǒng)一,甚至陳舊過時。通過建設知識管理系統(tǒng),對大量有價值的案例、規(guī)范、手冊、經(jīng)驗等知識進行分類存儲和管理,積累知識資產(chǎn)避免流失;規(guī)范知識的存儲、分類,實現(xiàn)便捷高效的查詢;通過記錄并分析使用者的知識行為,促進知識的學習、共享、利用和傳承;并與現(xiàn)有的管理系統(tǒng)、流程系統(tǒng)進行銜接,實現(xiàn)不同系統(tǒng)間知識的整合。而對于故障處理的經(jīng)驗,除了故障處理流程記錄之外,也可以針對一些典型故障,創(chuàng)建或者更新知識庫,便于以后重復利用,減少排查故障時的工作量。3.4故障后期管理第三章故障管理故障預防1、首先任何生產(chǎn)過程都要進行程序化,這樣使整個生產(chǎn)過程都可以進行考量,這是發(fā)現(xiàn)事故征兆的前提。2、對每一個程序都要劃分相應的責任,可以找到相應的負責人,要讓他們認識到安全生產(chǎn)的重要性,以及安全事故帶來的巨大危害性。3、根據(jù)生產(chǎn)程序的可能性,列出每一個程序可能發(fā)生的事故,以及發(fā)生事故的先兆,培養(yǎng)員工對事故先兆的敏感性。4、在每一個程序上都要制定定期的檢查制度,及早發(fā)現(xiàn)事故的征兆。5、在任何程序上一旦發(fā)現(xiàn)生產(chǎn)安全事故的隱患,要及時的報告,要及時的排除。6、在生產(chǎn)過程中,即使有一些小事故發(fā)生,可能是避免不了或者經(jīng)常發(fā)生,也應引起足夠的重視,要及時排除。當事人即使不能排除,也應該向安全負責人報告,以便找出這些小事故的隱患,及時排除,避免安全事故的發(fā)生。1.從故障的原因出發(fā),故障可以分為哪些種類?2.當發(fā)生故障時,需要記錄哪些相關信息?3.運維的一線,二線,三線人員的工作職責如何劃分?習題:第四章性能管理4.1性能分析4.2性能監(jiān)控工具4.3性能優(yōu)化習題4.1性能分析第四章性能管理性能因子影響Hadoop大數(shù)據(jù)作業(yè)性能的因子有以下幾點:①Hadoop配置:配置對Hadoop集群的性能是非常重要的;不合理的配置會產(chǎn)生CPU負載、內(nèi)存交換、IO等的額外開銷問題。②文件大?。禾貏e大和特別小的文件都會影響Map任務的性能。③Mapper,Reducer的數(shù)量:會影響Map、Reduce的任務和Job的性能。④硬件:節(jié)點的性能、配置規(guī)劃及網(wǎng)絡硬件的性能會直接影響到作業(yè)的性能。⑤代碼:質(zhì)量差的代碼會影響Map/Reduce性能。4.1性能分析第四章性能管理性能指標包括:Elapsedtime、TotalAllocatedContainers、Numberofmaps,Launchedmaptasks、Numberofreduces,Launchedreducetasks、Jobstate、Totaltimespentbyallmaptasks(ms)、Totaltimespentbyallreducetasks(ms)、Totalvcore-secondstakenbyallmaptasks、Totalvcore-secondstakenbyallreducetasks、Mapinputrecords、Mapoutputrecords、Mapoutputbytes、Mapoutputmaterializedbytes、Inputsplitbytes、Combineinputrecords、Combineoutputrecords、Reduceinputgroups、Reduceshufflebytes、Reduceinputrecords、Reduceoutputrecords、SpilledRecords、ShuffledMaps、FailedShuffles、MergedMapoutputs、GCtimeelapsed(ms)、CPUtimespent(ms)、Physicalmemory(bytes)snapshot、Virtualmemory(bytes)snapshot、Totalcommittedheapusage(bytes)等。第四章性能管理4.1性能分析4.2性能監(jiān)控工具4.3性能優(yōu)化習題4.2性能監(jiān)控工具第四章性能管理通過瀏覽器查看HadoopNameNode開放的50070端口,可以了解到hadoop集群的基本配置信息和監(jiān)控到hadoop集群的狀態(tài)。集群基本信息(1)4.2性能監(jiān)控工具第四章性能管理集群基本信息(2)4.2性能監(jiān)控工具第四章性能管理集群基本信息(3)4.2性能監(jiān)控工具第四章性能管理集群基本信息(4)4.2性能監(jiān)控工具第四章性能管理(1)運行了哪些作業(yè),每個作業(yè)的類型、執(zhí)行時間、起始時間、結(jié)束時間、執(zhí)行時間、當前狀態(tài)、最終狀態(tài)等。4.2性能監(jiān)控工具第四章性能管理(2)作業(yè)運行在集群的哪些計算節(jié)點上。4.2性能監(jiān)控工具第四章性能管理(3)HDFS文件信息,包括Size、Replication、BlockSize。4.2性能監(jiān)控工具第四章性能管理集群CLI通過yarn、mapred等CLI工具,也可監(jiān)控作業(yè)的運行。操作系統(tǒng)自帶工具通過操作系統(tǒng)自帶的工具,如vmstat,可以監(jiān)控到節(jié)點的物理運行性能,可以監(jiān)控每個節(jié)點的資源占用信息。4.2性能監(jiān)控工具第四章性能管理Ganglia工作原理圖如下:4.2性能監(jiān)控工具第四章性能管理Ganglia監(jiān)控畫面4.2性能監(jiān)控工具第四章性能管理其他監(jiān)控工具其它常用監(jiān)控工具還有Dr.Elephant、nagios、eBayEagle等,如下圖顯示的Dr.Elephant監(jiān)控畫面。第四章性能管理4.1性能分析4.2性能監(jiān)控工具4.3性能優(yōu)化習題4.3性能優(yōu)化第四章性能管理Hadoop集群配置規(guī)劃優(yōu)化AHadoop硬件配置規(guī)劃優(yōu)化B操作系統(tǒng)規(guī)劃優(yōu)化CHadoop集群配置規(guī)劃優(yōu)化4.3性能優(yōu)化第四章性能管理Hadoop性能優(yōu)化內(nèi)存優(yōu)化配置多個MapReduce工作目錄壓縮MapReduce中間結(jié)果調(diào)整虛擬CPU個數(shù)其他優(yōu)化常用技巧4.3性能優(yōu)化第四章性能管理作業(yè)優(yōu)化在經(jīng)過以上Hadoop性能優(yōu)化后,如果對作業(yè)運行還有加快的需求,則采用以下優(yōu)化方法可以進一步提升作業(yè)運行性能。減少作業(yè)時間01調(diào)節(jié)節(jié)點任務02優(yōu)化shuffle,提高作業(yè)性能03代碼優(yōu)化04第四章性能管理4.1性能分析4.2性能監(jiān)控工具4.3性能優(yōu)化習題1.請列出3個以上主要性能因子。2.請列出5個以上主要性能指標并說明其代表的含義。3.請列出3個以上主要性能監(jiān)測工具并說明它的運用方法。4.Hadoop集群配置規(guī)劃優(yōu)化可以采取哪些措施?5.請說明Hadoop集群優(yōu)化的5個技巧。6.如何調(diào)整Map任務數(shù)目?請比較調(diào)整Map任務數(shù)的運行效果。7.如何修改調(diào)度策略?習題:第五章安全管理5.1安全概述5.2資產(chǎn)安全管理5.3應用安全5.4安全威脅習題5.5安全措施5.1安全概述
第五章安全管理安全管理的主要目標保密性是指對數(shù)據(jù)的訪問限制,只有被授權(quán)的人才能使用。完整性特別是與數(shù)據(jù)相關的完整性,指的是保證數(shù)據(jù)沒有在未經(jīng)授權(quán)的方式下改變??捎眯允侵赣嬎銠C服務時間內(nèi),確保服務的可用。5.1安全概述第五章安全管理自從互聯(lián)網(wǎng)誕生以來,黑客和攻擊就伴隨而來,信息安全的問題一直呈現(xiàn)上升態(tài)勢。第五章安全管理5.1安全概述5.2資產(chǎn)安全管理5.3應用安全5.4安全威脅習題5.5安全措施5.2資產(chǎn)安全管理第五章安全管理環(huán)境設施管理環(huán)境可以分為服務器機房環(huán)境和終端辦公環(huán)境門禁系統(tǒng)目前應用比較廣泛的主要分為卡片式,密碼式,生物特征和混合式:卡片式的門禁系統(tǒng),人員需憑刷卡進出;密碼式門禁系統(tǒng),人員憑借口令輸入進出;生物特征式的門禁系統(tǒng),人員可以通過指紋,虹膜,面部識別等生物特征進行進出?;旌戏绞降拈T禁系統(tǒng)可能會采取卡片,密碼或者生物特征中的多種方式。而對于非企業(yè)內(nèi)部的工作人員,最好有一套臨時人員的進出登記制度,對于機房等關鍵場所,需要有內(nèi)部人員陪同。為保護昂貴的電子設備和數(shù)據(jù)資源,機房一般都會采用報警及滅火系統(tǒng)。傳統(tǒng)的水因為會破壞電子設備,該系統(tǒng)是將某些具有滅火能力的氣態(tài)化合物,常溫下貯存于常溫高壓或低溫低壓容器中,在火災發(fā)生時通過自動或手動控制設備施放到火災發(fā)生區(qū)域,從而達到滅火目的。視頻監(jiān)控也是一個通用的安全管控手段,在關鍵的通道,入口處安裝音視頻監(jiān)控設備,通過攝像和錄音的方式獲取環(huán)境的實時狀態(tài),并根據(jù)存儲容量,保存數(shù)天或者數(shù)月的存檔,方便以后調(diào)檔查詢。5.2資產(chǎn)安全管理第五章安全管理設備安全為防各種設備的丟失或者損壞,設備的管理必不可少。常見的管控措施對所有設備進行統(tǒng)一登記和編碼,在新購、維修、報廢、遷移等環(huán)節(jié)對資產(chǎn)的配置信息進行及時維護,每年固定時間對設備信息進行審計復核。目前,已經(jīng)有二維碼或者RFID內(nèi)置的標簽,可以粘貼在各種設備的物理表面,方便進行統(tǒng)一管理。第五章安全管理5.1安全概述5.2資產(chǎn)安全管理5.3應用安全5.4安全威脅習題5.5安全措施5.3應用安全第五章安全管理技術安全A安全漏洞B安全開發(fā)C安全測試D運維加固5.3應用安全第五章安全管理技術安全漏洞概述注入注入攻擊漏洞,例如SQL,OS以及LDAP注入。這些攻擊發(fā)生在當不可信的數(shù)據(jù)作為命令或者查詢語句的一部分,被發(fā)送給解釋器的時候。攻擊者發(fā)送的惡意數(shù)據(jù)可以欺騙解釋器,以執(zhí)行計劃外的命令或者在未被恰當授權(quán)時訪問數(shù)據(jù)。失效的身份認證和會話管理與身份認證和回話管理相關的應用程序功能往往得不到正確的實現(xiàn),這就導致了攻擊者攻擊者破壞密碼、密鑰、會話令牌或攻擊其他的漏洞去冒充其他用戶的身份(暫時或永久的)??缯灸_本(XSS)當應用程序收到含有不可信的數(shù)據(jù),在沒有進行適當?shù)尿炞C和轉(zhuǎn)義的情況下,就將它發(fā)送給一個網(wǎng)頁瀏覽器,或者使用可以創(chuàng)建javaScript腳本的瀏覽器API利用用戶提供的數(shù)據(jù)更新現(xiàn)有網(wǎng)頁,這就會產(chǎn)生跨站腳本攻擊。XSS允許攻擊者在受害者的瀏覽器上執(zhí)行腳本,從而劫持用戶會話、危害網(wǎng)站或者將用戶重定向到惡意網(wǎng)站。失效的訪問控制對于通過認證的用戶所能夠執(zhí)行的操作,缺乏有效的限制。攻擊者就可以利用這些缺陷來訪問未經(jīng)授權(quán)的功能和/或數(shù)據(jù),例如訪問其他用戶的賬戶,查看敏感文件,修改其他用戶的數(shù)據(jù),更改訪問權(quán)限等。安全配置錯誤好的安全需要對應用程序、框架、應用程序服務器、web服務器、數(shù)據(jù)庫服務器和平臺定義和執(zhí)行安全配置。由于許多設置的默認值并不是安全的,因此,必須定義、實施和維護這些設置。此外,所有的軟件應該保持及時更新。5.3應用安全第五章安全管理技術安全漏洞概述敏感信息泄露許多web應用程序和API沒有正確保護敏感數(shù)據(jù),如財務、醫(yī)療保健和PII。攻擊者可能會竊取或篡改此類弱保護的數(shù)據(jù),進行信用卡欺騙、身份竊取或其他犯罪行為。敏感數(shù)據(jù)應該具有額外的保護,例如在存放或在傳輸過程中的加密,以及與瀏覽器交換時進行特殊的預防措施。攻擊檢測與防護不足大多數(shù)應用和API缺乏檢測、預防和響應手動或自動化攻擊的能力。攻擊保護措施不限于基本輸入驗證,還應具備自動檢測、記錄和響應,甚至阻止攻擊的能力。應用所有者還應能夠快速部署安全補丁以防御攻擊??缯菊埱髠卧欤–SRF)一個跨站請求偽造攻擊迫使登錄用戶的瀏覽器將偽造的HTTP請求,包括受害者的會話cookie和所有其他自動填充的身份認證信息,發(fā)送到一個存在漏洞的web應用程序。這種攻擊允許攻擊迫使受害者的瀏覽器生成讓存在漏洞的應用程序認為是受害者的合法請求的請求。使用含有已知漏洞的組件組件,比如:庫文件、框架和其他軟件模塊,具有與應用程序相同的權(quán)限。如果一個帶有漏洞的組件被利用,這種攻擊可以促成嚴重的數(shù)據(jù)丟失或服務器接管。應用程序和API使用帶有已知漏洞的組件可能會破壞應用程序的防御系統(tǒng),并使一系列可能的攻擊和影響成為可能。安全配置錯誤現(xiàn)代應用程序通常涉及豐富的客戶端應用程序和API,如:瀏覽器和移動APP中的JavaScript,其與某類API(SOAP/XML、REST/JSON、RPC、GWT等)連接。這些API通常是不受保護的,并且包含許多漏洞。5.3應用安全第五章安全管理數(shù)據(jù)安全存儲安全傳輸安全訪問安全5.3數(shù)據(jù)安全第五章安全管理水印信號技術水印信號嵌入水印信號的驗證第五章安全管理5.1安全概述5.2資產(chǎn)安全管理5.3應用安全5.4安全威脅習題5.5安全措施5.4安全威脅第五章安全管理人為失誤01人自身原因02環(huán)境原因03工具原因04流程原因5.4安全威脅第五章安全管理外部攻擊分類詳細內(nèi)容惡意程序惡意程序是未經(jīng)授權(quán)運行的、懷有惡意目的、具有攻擊意圖或者實現(xiàn)惡意功能的所有軟件的統(tǒng)稱,其表現(xiàn)形式有很多:計算機病毒、特洛伊木馬程序、蠕蟲、僵尸程序、黑客工具、漏洞利用程序、邏輯炸彈、間諜軟件等。網(wǎng)絡入侵網(wǎng)絡入侵,是指根據(jù)信息系統(tǒng)存在的漏洞和安全缺陷,通過外部對信息系統(tǒng)的硬件、軟件及數(shù)據(jù)進行攻擊行為。網(wǎng)絡攻擊的技術與方法有很多種類型,通常從攻擊對象入手,可以分為針對主機、協(xié)議、應用和信息等攻擊。拒絕服務攻擊拒絕服務攻擊(DoS)即攻擊者想辦法讓目標機器停止提供服務,是黑客常用的攻擊手段之。常見的造成網(wǎng)絡帶寬的耗盡,使合法用戶無法正常訪問服務器資源的攻擊,DDoS攻擊手段是在傳統(tǒng)的DoS攻擊基礎之上產(chǎn)生的一類攻擊方式。單一的DoS攻擊一般是采用一對一方式的,當被攻擊目標CPU速度低、內(nèi)存小或者網(wǎng)絡帶寬小等等各項性能指標不高時,它的效果是明顯的。社會工具為某些非容易的獲取訊息,利用社會科學尤其心理學,語言學,欺詐學將其進行綜合,有效的利用人性的弱點,并最終獲得信息為最終目的學科稱為“社會工程學”(SocialEngineering)。社會工程學中比較知名的案例是網(wǎng)絡釣魚,通過大量發(fā)送聲稱來自于銀行或其他知名機構(gòu)的欺騙性垃圾郵件,意圖引誘收信人給出敏感信息(如用戶名、口令、帳號ID、ATMPIN碼或信用卡詳細信息)的一種攻擊方式。5.4安全威脅第五章安全管理信息泄露信息泄露是信息安全的重大威脅,國內(nèi)外都發(fā)生過大規(guī)模的信息泄露事件。2015年2月,國內(nèi)多家酒店的網(wǎng)站存在高危漏洞,房客開房信息大量泄露,一覽無余,黑客可輕松獲取到千萬級的酒店顧客的訂單信息,包括顧客姓名、身份證、手機號、房間號、房型、開房時間、退房時間、家庭住址、信用卡后四位、信用卡截止日期、郵件等等大量敏感信息。2016年5月,位于美國紐約的輕博客網(wǎng)站Tumblr賬戶信息泄露,涉及的郵箱賬號和密碼達65,469,298個。由于一般用戶在互聯(lián)網(wǎng)上習慣使用相同賬號和密碼,一旦一個網(wǎng)站的賬號遭到泄露,其他網(wǎng)站會受到撞庫攻擊,造成更大規(guī)模的信息泄露。5.4安全威脅第五章安全管理災害洪災災害01地震災害03火災災害02人為因素04第五章安全管理5.1安全概述5.2資產(chǎn)安全管理5.3應用安全5.4安全威脅習題5.5安全措施5.5安全措施第五章安全管理安全制度規(guī)范分類詳細內(nèi)容人員組織明確各級人員對于信息安全的責任和義務,明確信息安全的領導機構(gòu)和組織形式。行為安全明確每個人在組織內(nèi)部允許和禁止的行為。機房安全明確出入機房,上架設備所必須遵守的流程規(guī)范。網(wǎng)絡安全明確組織內(nèi)部的網(wǎng)絡區(qū)域劃分,以及不同網(wǎng)絡的功能和隔離措施。開發(fā)過程安全明確軟件的開發(fā)設計和測試遵守相關規(guī)范,開發(fā)和運維分離,源代碼和文檔應落地保存。終端安全明確終端設備的使用范圍,禁止私自修改終端設備,應設置終端口令,及時鎖屏,及時更新操作系統(tǒng)補丁等。數(shù)據(jù)安全不對外傳播敏感數(shù)據(jù),生產(chǎn)數(shù)據(jù)的使用需要在監(jiān)督和授權(quán)下執(zhí)行??诹畎踩鞔_口令的復雜程度,定期修改的時間等。臨時人員的管理明確非內(nèi)部員工的的行為列表,外包人員的行為規(guī)范,防范非法入侵。5.5安全措施第五章安全管理安全防范措施分類詳細內(nèi)容機房門禁系統(tǒng),消防系統(tǒng),攝像系統(tǒng)。服務器防病毒軟件,漏洞掃描工具,配置核查系統(tǒng)。網(wǎng)絡防火墻,入侵監(jiān)測系統(tǒng),入侵防御系統(tǒng)。終端防病毒軟件,行為控制和審計軟件,堡壘機。應用程序漏洞掃描工具,源代碼掃描軟件,證書管理系統(tǒng),統(tǒng)一認證系統(tǒng),身份管理系統(tǒng)。數(shù)據(jù)備份數(shù)據(jù)備份軟件。流程管理運維管理平臺,安全管理平臺,審計平臺。5.5安全措施第五章安全管理SSL中間人攻擊第五章安全管理5.1安全概述5.2資產(chǎn)安全管理5.3應用安全5.4安全威脅習題5.5安全措施習題:1.安全中的完整性指的是計算機服務時間內(nèi),確保服務的可用。2.視頻監(jiān)控重點是實時監(jiān)控,一般不需要存檔。3.跨站腳本(XSS)漏洞的原因是因為缺少強壯的認證措施。4.健壯的輸入和輸出過濾可以大大降低Web應用受攻擊的風險。5.開發(fā)過程中的漏洞只能通過修改代碼規(guī)避,其他方式都不可行。第四章性能管理6.1高可用性概述6.2高可用性技術6.3業(yè)務連續(xù)性管理習題6.1高可用性概述第六章高可用性管理衡量系統(tǒng)運行穩(wěn)定性的關鍵指標是系統(tǒng)的可用性,可用性(availability)指的是系統(tǒng)的無故障運行時間的百分比,計算公式為:無故障運行時間/計劃對外服務時間*100%。為了保證系統(tǒng)有較高的可用性,會采取一些高可用(HighAvailability,簡稱HA)技術來減少故障中斷時間。高可用技術的核心思想是冗余,即關鍵部件要不止一個,在原部件故障或者維修的的時候,備用的零部件要能頂替原有部件的作用。當發(fā)生大規(guī)模故障時,如機房整體電力故障,對外網(wǎng)絡被物理切斷,在一定區(qū)域內(nèi)的部件冗余也失效,此時就需要考慮容災相關的方案。通過在其他物理區(qū)域的數(shù)據(jù)中心建立備份系統(tǒng),第四章性能管理6.1高可用性概述6.2高可用性技術6.3業(yè)務連續(xù)性管理習題6.2高可用性技術第六章高可用性管理系統(tǒng)架構(gòu)機房環(huán)境機房環(huán)境的高可用主要考慮的是電力和機柜分配的方面。網(wǎng)絡、主機、存儲網(wǎng)絡是數(shù)據(jù)中心的核心,主機是高可用方案的主要部分,主機層面的高可用技術分為主從模式、雙機模式和集群模式。數(shù)據(jù)庫在數(shù)據(jù)庫領域,有一些經(jīng)典的高可用技術,不同產(chǎn)品的原理和實現(xiàn)上都略有區(qū)別。應用在實現(xiàn)某個特定功能點時,應用程序可以通過多個實例完成該功能的服務。6.2高可用性技術第六章高可用性管理容災一般情況下,談到高可用技術時,討論的范圍都是在數(shù)據(jù)中心內(nèi)部的各種保障技術,但當數(shù)據(jù)中心整體發(fā)生故障,或者稱之為災難時,就需要依靠容災技術,在6.3的業(yè)務連續(xù)性管理中,會有詳細闡述。6.2高可用性技術第六章高可用性管理監(jiān)控指標項應用自身狀態(tài):服務進程狀況、服務狀態(tài)、業(yè)務開關或可使用標志狀態(tài)。數(shù)據(jù)服務:數(shù)據(jù)及時、數(shù)據(jù)關鍵路徑、數(shù)據(jù)完整性和正確性關鍵表記錄變化情況、關鍵業(yè)務數(shù)據(jù)、關鍵數(shù)據(jù)按預期清空。性能容量:用戶數(shù)量(終端/API),內(nèi)存加載量、消息并發(fā)量、事務響應時間。批量作業(yè):批量處理情況、批量開始時間、批量結(jié)束時間、批量加載時間、批處理狀態(tài)。應用占用系統(tǒng)資源:文件句柄數(shù)、應用分區(qū)空間、應用文件增長情況、網(wǎng)絡連接、單個用戶或請求進程占用的系統(tǒng)資源。應用中間件(Weblogic、Tomcat):WeblogicServer、線程池、JVM、數(shù)據(jù)源、連接池、APP狀態(tài)。MQ:隊列管理器、通道、隊列、事件、(Event)。WEB服務器(例如Apache):Apache吞吐率、Apache并發(fā)連接數(shù)、httpd進程數(shù)、httpd線程數(shù)目、提供網(wǎng)站服務的字節(jié)數(shù)、處理連接的耗時時間。6.2高可用性技術第六章高可用性管理故障轉(zhuǎn)移主機/存儲/網(wǎng)絡/數(shù)據(jù)庫一般都是心跳包機制來進行健康狀態(tài)的監(jiān)控。由管理模塊向各個模塊之間按照一定時間間隔發(fā)送心跳包,或者兩個模塊之間互相發(fā)送心跳包,如果超過設定時間周期,某個模塊沒有響應,則判斷該模塊出現(xiàn)故障,備份模塊接管該模塊的服務,這個過程被稱為故障轉(zhuǎn)移(Failover)。在主備機的高可用系統(tǒng)中,在特殊情況下會發(fā)生腦裂(split-brain)的故障。發(fā)生這種故障的原因是心跳線或者網(wǎng)絡出現(xiàn)問題,造成主備機互相探測不到對方的心跳,都以為對方發(fā)生了故障,于是便主動獲取存儲或者服務IP等資源,雙方都啟動服務,造成服務異常。為了解決腦裂問題,一般會在主備機之外,引入一個第三方模塊,作為仲裁者,由它來判斷到底是誰應該接管資源,對外提供服務。第四章性能管理6.1高可用性概述6.2高可用性技術6.3業(yè)務連續(xù)性管理習題6.3業(yè)務連續(xù)性管理第六章高可用性管理災備系統(tǒng)等級類別主要要求第一級每周一次的數(shù)據(jù)備份,場外存放備份介質(zhì)。第二級每周一次的數(shù)據(jù)備份,有備用的基礎設施場地。第三級每天一次的數(shù)據(jù)備份,利用通信網(wǎng)絡將關鍵數(shù)據(jù)定時批量傳送至備用場地。第四級每天一次的數(shù)據(jù)備份,利用通信網(wǎng)絡將關鍵數(shù)據(jù)定時批量傳送至備用場地,配備災難恢復所需的全部數(shù)據(jù)處理設備,并處于就緒狀態(tài)或運行狀態(tài)。第五級采用遠程數(shù)據(jù)復制技術,并利用通信網(wǎng)絡將關鍵數(shù)據(jù)實時復制到備用場地,配備災難恢復所需的全部數(shù)據(jù)處理設備,并處于就緒狀態(tài)或運行狀態(tài)。第六集遠程實時備份,實現(xiàn)數(shù)據(jù)零丟失,具備遠程集群系統(tǒng)的實時監(jiān)控和自動切換能力。6.3業(yè)務連續(xù)性管理第六章高可用性管理災備恢復能力要求要素要求數(shù)據(jù)備份系統(tǒng)①完全數(shù)據(jù)備份至少每天一次;②備份介質(zhì)場外存放;③遠程實時備份,實現(xiàn)數(shù)據(jù)零丟失。備用數(shù)據(jù)處理系統(tǒng)①備用數(shù)據(jù)處理系統(tǒng)具備與生產(chǎn)數(shù)據(jù)處理系統(tǒng)一致的處理能力并完全兼容;②、應用軟件是“集群的”,可實時無縫切換;③具備遠程集群系統(tǒng)的實時監(jiān)控和自動切換能力。備用網(wǎng)絡系統(tǒng)①配備與主系統(tǒng)相同等級的通信線路和網(wǎng)絡設備;②備用網(wǎng)絡處于運行狀態(tài);③最終用戶可通過網(wǎng)絡同時接入主、備中心。備用基礎設施①有符合介質(zhì)存放條件的場地;②有符合備用數(shù)據(jù)處理系統(tǒng)和備用網(wǎng)絡設備運行要求的場地;③有滿足關鍵業(yè)務功能恢復運作要求的場地;④以上場地應保持7x24小時運作。專業(yè)技術支持能力在災難備份中心7x24小時有專職的:①計算機機房管理人員;②專職數(shù)據(jù)備份技術支持人員;③專職硬件、網(wǎng)絡技術支持人員;④專職操作系統(tǒng)、數(shù)據(jù)庫和應用軟件技術支持人員。運行維護管理能力①有介質(zhì)存取、驗證和轉(zhuǎn)儲管理制度;②按介質(zhì)特性對備份數(shù)據(jù)進行定期的有效性驗證;③有備用計算機機房運行管理制度;④有硬件和網(wǎng)絡運行管理制度;⑤有實時數(shù)據(jù)備份系統(tǒng)運行管理制度;⑥有操作系統(tǒng)、數(shù)據(jù)庫和應用軟件運行管理制度。災難恢復預案有相應的經(jīng)過完整測試和演練的災難恢復預案。6.3業(yè)務連續(xù)性管理第六章高可用性管理數(shù)據(jù)復制基于數(shù)據(jù)庫的復制基于應用的復制基于存儲的數(shù)據(jù)復制6.3業(yè)務連續(xù)性管理第六章高可用性管理災備切換災備切換是一系列操作的組合,不是單一的技術動作,服務的啟動順序也有嚴格的要求。比如數(shù)據(jù)庫必須先啟動,之后才能啟動應用程序;應用服務器接管完成,才能進行網(wǎng)絡的切換。如果應用程序先于數(shù)據(jù)庫啟動,會出現(xiàn)報錯。最好通過操作手冊和切換腳本對切換的步驟進行固化,并安排一定頻率的災備演練。6.3業(yè)務連續(xù)性管理第六章高可用性管理應急預案需要對系統(tǒng)可能出現(xiàn)的故障做出預案,以便發(fā)生故障時能夠快速處理以恢復服務。應急預案中需要明確適用的故障場景,啟動預案的觸發(fā)條件,相關人員的職責,以及應急的操作步驟。其中,應急的操作步驟包括可能的技術操作步驟如重啟進程,業(yè)務操作步驟如發(fā)出通知。6.3業(yè)務連續(xù)性管理第六章高可用性管理日常演練01沙盤推演0203模擬演練真實切換第四章性能管理6.1高可用性概述6.2高可用性技術6.3業(yè)務連續(xù)性管理習題1.一個系統(tǒng)24*365小時對外服務,2017年度中斷服務20小時,該系統(tǒng)的可用性為多少?2.簡述腦裂現(xiàn)象是如何產(chǎn)生的,怎么避免?3.請列出三種數(shù)據(jù)復制技術。4.請列出三種常見的監(jiān)控指標項。習題:第七章應用變更管理7.1變更管理概述7.2變更管理流程7.3變更配置管理習題7.1變更管理概述
第七章應用變更管理變更管理目標確保變更被記錄然后被評估、授權(quán)、決定優(yōu)先級、計劃、測試、實施、記錄和審核的一些列控制措施。變更管理目標7.1變更管理概述
第七章應用變更管理變更管理范圍范圍:變更管理范圍主要是指支撐業(yè)務服務的應用軟件及其依賴的基礎設施環(huán)境等基礎配置項,在整個生命周期內(nèi)發(fā)生變化時管理。變更管理范圍7.1變更管理概述
第七章應用變更管理變更管理的種類標準變更緊急變更1、變更請求的發(fā)起是由一個已定義的場景或條件來發(fā)起的。2、管理權(quán)限事先給予。3、低風險且易于了解。1、緊急變更被預留給旨在修復那些嚴重影響到業(yè)務的緊迫程度高的IT服務故障或者緊急的業(yè)務需求。2、緊急變更的測試仍是不可避免的,應避免那些完全未經(jīng)測試的變更。變更管理的種類7.1變更管理概述
第七章應用變更管理變更管理的原則應建立組織變更管理文化。變更管理流程與企業(yè)項目管理、利益相關者的變更管理流程要一致。職責分離。防止生產(chǎn)環(huán)境中的未授權(quán)變更。和其他服務管理進程一致從而可以追蹤變更、發(fā)現(xiàn)未授權(quán)變更。明確變更窗口。嚴格評估影響服務能力的變更的風險和性能。第七章應用變更管理7.1變更管理概述7.2變更管理流程7.3變更配置管理習題7.2變更管理流程第七章應用變更管理變更的組織架構(gòu)變更的組織架構(gòu)包括CAB,全稱變更咨詢委員會;以及CCB,全稱變更控制委員會和緊急變更控制委員會(ECCB)。變更的組織架構(gòu)7.2變更管理流程第七章應用變更管理變更的管理策略變更數(shù)量。服務中斷數(shù)量、因為錯誤規(guī)則導致的缺陷或返工、不完整或缺乏評估這類現(xiàn)象的減少。未經(jīng)授權(quán)的變更數(shù)量。。無計劃變更和緊急修復的數(shù)量和百分比。變更成功率。變更失敗的數(shù)量。變更回退的數(shù)量。緊急變更數(shù)量7.2變更管理流程第七章應用變更管理變更的流程控制變更的規(guī)劃和控制變更決策和授權(quán)管理報告持續(xù)改進變更的發(fā)布和調(diào)度質(zhì)量和控制了解變更影響7.2變更管理流程第七章應用變更管理變更管理流程1、創(chuàng)建和記錄變更請求3、變更評估5、分配優(yōu)先次序7、變更的授權(quán)2、變更請求審核4、變更的風險6、變更的規(guī)劃和調(diào)度8、協(xié)調(diào)變更執(zhí)行9、變更回顧、關閉7.2變更管理流程第七章應用變更管理創(chuàng)建和記錄變更請求變更是由發(fā)起者通過一請求發(fā)起的。對于一個能給組織或財政帶來重大影響的重大變更,變更提議需要被完整說明,并連同從業(yè)務和財政角度來說明。變更記錄,記錄了變更的所有歷史痕跡,從變更請求和隨后已設定的參數(shù)記錄中獲得信息,如優(yōu)先和授權(quán)、執(zhí)行和檢查信息。7.2變更管理流程第七章應用變更管理變更請求審核應過濾以下變更:不合理的變更請求。2、過期、已接受、被拒絕或仍在審議中被重復提交的變更請求。3、提交不完整變更請求。7.2變更管理流程第七章應用變更管理變更評估誰提出的原因。變更的原因。變更的回報。變更帶來的那些風險。變更所需要的資源。誰來負責建立、測試和實施變更。變更之間的關系。7.2變更管理流程第七章應用變更管理變更的風險7.2變更管理流程第七章應用變更管理分配優(yōu)先次序確定變更順序的。每一個變更都包括發(fā)起人對影響的評估和變更的緊迫性。變更優(yōu)先是來自于影響性和緊迫性。最初的影響性和緊急度是由發(fā)起人提供的,但在變更授權(quán)流程中優(yōu)先次序可能會被修改所以風險評估在這一階段就很重要。變更顧問組織為了評估實施或者不實施變更所引發(fā)的風險時需要業(yè)務影響信息。影響是基于有利于業(yè)務的變更或由于錯誤變更造成損失和成本。影響無法用絕對數(shù)值表示,但可以取決于某些事情或某些情況的可能性。7.2變更管理流程第七章應用變更管理變更的規(guī)劃和調(diào)度仔細的規(guī)劃變更確保變更管理流程中每一個任務都是明確的;其他流程所包含的任務;給那些變更和發(fā)布的供應商或項目提供多少流程接口。許多變更可能是屬于一個發(fā)布里的,有可能是設計、測試和發(fā)布。也有許多獨立的變更組成一個發(fā)布,這可能造成復雜的依賴關系難以管理。建議變更管理中,調(diào)度變更時優(yōu)先考慮業(yè)務而不是IT的需求。事先商定和已確定的變更和發(fā)布窗口能幫助組織改善計劃和整個變更發(fā)布。只要有可能,變更管理應安排授權(quán),進行發(fā)布目標變更或部署軟件包和分配相應資源。變更管理協(xié)調(diào)產(chǎn)品和變更日程的分配和預計服務中斷。變更日程包括所有授權(quán)實施變更及實施日期的詳細信息。預計服務中斷包含SLA協(xié)議和可用性中的變更細節(jié)。7.2變更管理流程第七章應用變更管理變更的授權(quán)01預期業(yè)務風險02對財政影響03范圍變化7.2變更管理流程第七章應用變更管理調(diào)度變更執(zhí)行已授權(quán)的變更會被提交給執(zhí)行變更的相關技術組,建議使用正規(guī)的方式來實現(xiàn),便于對其追蹤。變更管理應確保變更如期完成,管理主要起到協(xié)調(diào)作用,具體實施由其他人員負責。每個變更都應提前準備修復程序并將其文檔化。因為實施期間或?qū)嵤┖蟀l(fā)生錯誤時這些程序能以對業(yè)務最小影響下進行快速恢復。變更管理有監(jiān)督的作用,確保變更是經(jīng)過測試的。對于沒有經(jīng)全面測試的變更需要在執(zhí)行時特別關注。7.2變更管理流程第七章應用變更管理變更回顧、關閉變更完成后變更管理者應對結(jié)果進行評估。評估還要包括由變更引起的任何事件。變更回顧應確認變更是否達到目標,應吸取的經(jīng)驗對今后的變更進行改進。變更若沒有實現(xiàn)目標,變更管理應決定后續(xù)的行動,如果達到目標應關閉變更。第七章應用變更管理7.1變更管理概述7.2變更管理流程7.3變更配置管理習題7.3變更配置管理第七章應用變更管理變更配置管理為了管理大型復雜的IT服務和基礎設施,資產(chǎn)和配置管理需要使用配置管理系統(tǒng)CMS。在指定范圍內(nèi)CMS掌握著所有配置項信息。CMS為所有服務組件與相關事故、問題、已知錯誤、變更發(fā)布、文檔、公司數(shù)據(jù)、供應商、客戶信息做關聯(lián)。第七章應用變更管理7.1變更管理概述7.2變更管理流程7.3變更配置管理習題1.請簡要描述變更管理的活動流程。2.請簡要描述發(fā)布管理的活動流程。3.請簡要描述變更管理的關鍵績效指標和衡量標準。4.請簡要描述發(fā)布管理的關鍵績效指標和衡量標準。習題:第八章升級管理8.1
Hadoop升級管理8.2
Spark升級管理8.3
HiveSQL升級管理8.4
ZooKeeper升級管理習題8.1Hadoop升級管理第八章升級管理Hadoop升級風險Hadoop升級最主要是HDFS的升級,HDFS的升級是否成功,才是升級的關鍵,如果升級出現(xiàn)數(shù)據(jù)丟失,則其他升級就變的毫無意義。8.1Hadoop升級管理第八章升級管理HDFS的數(shù)據(jù)和元數(shù)據(jù)升級HDFS是一種分布式文件系統(tǒng)層,可對集群節(jié)點間的存儲和復制進行協(xié)調(diào)。HDFS確保了無法避免的節(jié)點故障發(fā)生后數(shù)據(jù)依然可用,可將其用作數(shù)據(jù)來源,可用于存儲中間態(tài)的處理結(jié)果,并可存儲計算的最終結(jié)果。升級HDFS花費的時間不長,就是和啟動集群的時間要多2-3倍的時間,升級丟失數(shù)據(jù)的風險幾乎沒有。8.1Hadoop升級管理第八章升級管理YARN升級配置YARN是YetAnotherResourceNegotiator(另一個資源管理器)的縮寫,可充當Hadoop堆棧的集群協(xié)調(diào)組件。該組件負責協(xié)調(diào)并管理底層資源和調(diào)度作業(yè)的運行。通過充當集群資源的接口,YARN使得用戶能在Hadoop集群中使用比以往的迭代方式運行更多類型的工作負載。由于任務計算都是使用Hive,所以YARN的升級很簡單,只是啟動yarn就行了。唯一要注意的是,從MapReduce升級到Y(jié)ARN,資源分配方式變化了,所以要根據(jù)自己的生產(chǎn)環(huán)境修改相關的資源配置。第八章升級管理8.1
Hadoop升級管理8.2
Spark升級管理8.3
HiveSQL升級管理8.4
ZooKeeper升級管理習題8.2Spark升級管理第八章升級管理Spark特性支持比Map和Reduce更多的函數(shù)。優(yōu)化任意操作算子圖(operatorgraphs)。可以幫助優(yōu)化整體數(shù)據(jù)處理流程的大數(shù)據(jù)查詢的延遲計算。提供簡明、一致的Scala,Java和PythonAPI。提供交互式Scala和PythonShell。目前暫不支持Java。8.2Spark升級管理第八章升級管理Spark生態(tài)系統(tǒng)SparkStreaming01SparkSQL02SparkMLlib03SparkGraphX04第八章升級管理8.1
Hadoop升級管理8.2
Spark升級管理8.3
HiveSQL升級管理8.4
ZooKeeper升級管理習題8.3HiveSQL升級管理第八章升級管理HiveSQL體系結(jié)構(gòu)用戶接口用戶接口主要有三個:CLI,Client和WUI。元數(shù)據(jù)存儲Hive將元數(shù)據(jù)存儲在數(shù)據(jù)庫中,如mysql、derby。Hive中的元數(shù)據(jù)包括表的名字,表的列和分區(qū)及其屬性,表的屬性(是否為外部表等),表的數(shù)據(jù)所在目錄等。解釋器、編譯器、優(yōu)化器、執(zhí)行器解釋器、編譯器、優(yōu)化器完成HQL查詢語句從詞法分析、語法分析、編譯、優(yōu)化以及查詢計劃的生成。生成的查詢計劃存儲在HDFS中,并在隨后由MapReduce調(diào)用執(zhí)行。HadoopHive的數(shù)據(jù)存儲在HDFS中,大部分的查詢由MapReduce完成(包含*的查詢,比如s
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 除夕春節(jié)賀詞4篇
- 兼職會計勞務合同模板(3篇)
- 頂崗支教實習總結(jié)(6篇)
- DB12-T 1082-2021 公務用車保險與年審服務規(guī)范
- 2024年牛肉加工項目資金籌措計劃書代可行性研究報告
- 2024-2025學年湖南省長郡中學高三上學期月考試卷(二)地理試題及答案
- 上海市市轄區(qū)(2024年-2025年小學五年級語文)人教版摸底考試(下學期)試卷及答案
- 上海市縣(2024年-2025年小學五年級語文)人教版專題練習(下學期)試卷及答案
- 四年級數(shù)學(三位數(shù)乘兩位數(shù))計算題專項練習及答案
- 北師大二年級語文下冊教案
- 汽車點火系實訓項目
- 注氮機司機講義
- 數(shù)據(jù)庫工程師考試大綱
- 傳播學概論課件新版
- 小學數(shù)學西南師大六年級上冊七負數(shù)的初步認識 西師大數(shù)學六上《負數(shù)的初步認識》
- Proficy-Cimplicity-軟件介紹及入門提綱
- 內(nèi)蒙古伊利實業(yè)集團股份有限公司員工獎懲制度
- 中建二局“大商務”管理實施方案20200713(終稿)
- 2023年中國鐵路太原局集團有限公司校園招聘筆試題庫及答案解析
- 2023年上海聯(lián)合產(chǎn)權(quán)交易所校園招聘筆試模擬試題及答案解析
- 加強區(qū)域環(huán)境管理,提高環(huán)境質(zhì)量的關鍵
評論
0/150
提交評論