《大數(shù)據(jù)運營》課件第1-3章大數(shù)據(jù)運營概述；大數(shù)據(jù)運營技術(shù)體系；數(shù)據(jù)采集、存儲以及處理技術(shù)

上傳人：q*** IP屬地：山東上傳時間：2023-12-12 格式：PPTX 頁數(shù)：248 大?。?9.20MB 積分：30 舉報 版權(quán)申訴

《大數(shù)據(jù)運營》課件第1-3章大數(shù)據(jù)運營概述；大數(shù)據(jù)運營技術(shù)體系；數(shù)據(jù)采集、存儲以及處理技術(shù)_第2頁

《大數(shù)據(jù)運營》課件第1-3章大數(shù)據(jù)運營概述；大數(shù)據(jù)運營技術(shù)體系；數(shù)據(jù)采集、存儲以及處理技術(shù)_第3頁

《大數(shù)據(jù)運營》課件第1-3章大數(shù)據(jù)運營概述；大數(shù)據(jù)運營技術(shù)體系；數(shù)據(jù)采集、存儲以及處理技術(shù)_第4頁

《大數(shù)據(jù)運營》課件第1-3章大數(shù)據(jù)運營概述；大數(shù)據(jù)運營技術(shù)體系；數(shù)據(jù)采集、存儲以及處理技術(shù)_第5頁

已閱讀5頁，還剩243頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)運營概述本章知識點（1）理解大數(shù)據(jù)的概念（2）了解數(shù)據(jù)化運營的概念（3）掌握數(shù)據(jù)化運營的主要內(nèi)容（4）掌握大數(shù)據(jù)運營的應(yīng)用場景以及在企業(yè)中的運用案例01大數(shù)據(jù)及其特點02大數(shù)據(jù)的應(yīng)用03數(shù)據(jù)化運營04數(shù)據(jù)化運營的意義PART01大數(shù)據(jù)及其特點大數(shù)據(jù)的概念數(shù)據(jù)數(shù)據(jù)是指對客觀事件進行記錄并可以鑒別的符號，是對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。信息主要采用數(shù)據(jù)形式來表示信息與數(shù)據(jù)既有聯(lián)系，又有區(qū)別。數(shù)據(jù)是信息的載體，可以是符號、文字、數(shù)字、語音、圖像、視頻等。而信息是數(shù)據(jù)的內(nèi)涵，信息是加載于數(shù)據(jù)之上，對數(shù)據(jù)做具有含義的解釋。數(shù)據(jù)和信息是不可分離的，信息依賴數(shù)據(jù)來表達，數(shù)據(jù)則生動具體地表達出信息。數(shù)據(jù)是符號，是物理性的，信息是對數(shù)據(jù)進行加工處理之后所得到的并對決策產(chǎn)生影影響的數(shù)據(jù)，是邏輯性和觀念性的;數(shù)據(jù)是信息的表現(xiàn)形式，信息是數(shù)據(jù)有意義的表示。數(shù)據(jù)本身沒有意義，只有對實體行為產(chǎn)生影響時數(shù)據(jù)才成為信息。大數(shù)據(jù)的概念大數(shù)據(jù)大數(shù)據(jù)是指在獲取、存儲、管理、分析等方面大大超出傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,并具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低等四大特征，在數(shù)據(jù)行業(yè),要實現(xiàn)數(shù)字產(chǎn)業(yè)化,產(chǎn)業(yè)數(shù)字化,前提是要有海量數(shù)據(jù)。大數(shù)據(jù)作為當(dāng)今社會最先進的技術(shù)之一,已經(jīng)深刻地影響和改變著當(dāng)今人類社會。數(shù)據(jù)在我們的生活中無處不在，如清晨起床我們用手機打開新聞資訊，此時就產(chǎn)生了數(shù)據(jù);早高峰乘坐地鐵,刷二維碼進站又產(chǎn)生了數(shù)據(jù);打開購物網(wǎng)站，下單購買商品,還是會產(chǎn)生數(shù)據(jù)生活在當(dāng)今這個高度信息化的社會:一切行為幾乎都可以用數(shù)據(jù)來描述，這種情況幾乎發(fā)生在每個人的身上(見圖)。每時每刻都有上億條數(shù)據(jù)產(chǎn)生，這些海量數(shù)據(jù)流入那些提供互聯(lián)網(wǎng)服務(wù)的公司,存儲在他們的系統(tǒng)中。如果不對其加以利用，這些數(shù)據(jù)只會給系統(tǒng)造成沉重的負擔(dān),但如果善于挖掘,這些數(shù)據(jù)就可以產(chǎn)生巨大的商業(yè)價值。大數(shù)據(jù)的特征大數(shù)據(jù)的起始計量單位至少是P(1000個TE(100萬個T)或Z(10億個T)。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),當(dāng)前，典型個人計算機硬盤的容量為TB量級，而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。根據(jù)國際數(shù)據(jù)資訊(IDC)公司監(jiān)測全球數(shù)據(jù)量大約每兩年就翻一番預(yù)計到2025年，全球數(shù)據(jù)使用量將達到163EB并且85%以上的數(shù)據(jù)是以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在的。

數(shù)據(jù)體量巨大Volume數(shù)據(jù)類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等，這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。數(shù)據(jù)類型繁多Variety數(shù)據(jù)價值密度的高低與數(shù)據(jù)總量的大小成反比。在大數(shù)據(jù)時代，越來越多的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)站訪問日志,里面大量的內(nèi)容都是沒有價值的,真正有價值的數(shù)據(jù)比較少,雖然數(shù)據(jù)量比以前大了N倍，但價值密度確實低了很多。所以如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下待解決的難題。數(shù)據(jù)價值密度低Value隨著互聯(lián)網(wǎng)、計算機技術(shù)的發(fā)展，數(shù)據(jù)生成、存儲、分析、處理的速度遠遠超出人們的想象，這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的顯著特征。隨著新數(shù)據(jù)的不斷出現(xiàn)，人們對數(shù)據(jù)處理的速度提出了越來越高的要求，所以處理數(shù)據(jù)的效率就是企業(yè)的生命線。數(shù)據(jù)處理速度快Velocity業(yè)界通常用體量(volume)、種類(variety)、價值(value)、速度(velocity),即4v特征來概括大數(shù)據(jù)的特征大數(shù)據(jù)的發(fā)展歷程數(shù)據(jù)是通過觀察、實驗或計算得出的結(jié)果。數(shù)據(jù)和信息是兩個不同的概念。信息是較為宏觀的概念，它由數(shù)據(jù)的有序排列組合而成，傳達給讀者某個概念方法等;而數(shù)據(jù)則是構(gòu)成信息的基本單位，離散的數(shù)據(jù)沒有任何實用價值。隨著人類社會信息化進程的加快，我們在日常生產(chǎn)和生活中每天都會產(chǎn)生大量的數(shù)據(jù)，比如商業(yè)網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動化生產(chǎn)系統(tǒng)等。數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域，成為重要的生產(chǎn)因素，從新到所有決策，數(shù)據(jù)推動著企業(yè)的發(fā)展,并使得各級組織的運營更為高效,可以這樣說，數(shù)據(jù)已成為每個企業(yè)獲取核心競爭力的關(guān)鍵要素。數(shù)據(jù)資源已經(jīng)和物質(zhì)資源、人力資源一樣成為國家的重要戰(zhàn)略資源,影響著國家和社會的安全、穩(wěn)定與發(fā)展，因此，數(shù)據(jù)也可稱為“未來的石油”。數(shù)據(jù)產(chǎn)生方式的變革是促成大數(shù)據(jù)時代來臨的重要因素。大數(shù)據(jù)的發(fā)展歷程數(shù)據(jù)產(chǎn)生方式的變革，是促成大數(shù)據(jù)時代來臨的重要因素?？傮w而言，人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個階段：運營式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段。運營式系統(tǒng)階段人類社會最早大規(guī)模管理和使用數(shù)據(jù)，是從數(shù)據(jù)庫的誕生開始的。大型零售超市銷售系統(tǒng)、銀行交易系統(tǒng)、股市交易系統(tǒng)、醫(yī)院醫(yī)療系統(tǒng)、企業(yè)客戶管理系統(tǒng)等大量運營式系統(tǒng)，都是建立在數(shù)據(jù)庫基礎(chǔ)之上的，數(shù)據(jù)庫中保存了大量結(jié)構(gòu)化的企業(yè)關(guān)鍵信息，用來滿足企業(yè)各種業(yè)務(wù)需求。在這個階段，數(shù)據(jù)的產(chǎn)生方式是被動的，只有當(dāng)實際的企業(yè)業(yè)務(wù)發(fā)生時，才會產(chǎn)生新的記錄并存入數(shù)據(jù)庫。比如，對于股市交易系統(tǒng)而言，只有當(dāng)發(fā)生一筆股票交易時，才會有相關(guān)記錄生成。用戶原創(chuàng)內(nèi)容階段互聯(lián)網(wǎng)的出現(xiàn)，使得數(shù)據(jù)傳播更加快捷，不需要借助于磁盤、磁帶等物理存儲介質(zhì)傳播數(shù)據(jù)，網(wǎng)頁的出現(xiàn)進一步加速了大量網(wǎng)絡(luò)內(nèi)容的產(chǎn)生，從而使得人類社會數(shù)據(jù)量開始呈現(xiàn)“井噴式”增長。但是，互聯(lián)網(wǎng)真正的數(shù)據(jù)爆發(fā)產(chǎn)生于以“用戶原創(chuàng)內(nèi)容”為特征的Web2.0時代。Web1.0時代主要以門戶網(wǎng)站為代表，強調(diào)內(nèi)容的組織與提供，大量上網(wǎng)用戶本身并不參與內(nèi)容的產(chǎn)生。而Web2.0技術(shù)以Wiki、博客、微博、微信等自服務(wù)模式為主，強調(diào)自服務(wù)，大量上網(wǎng)用戶本身就是內(nèi)容的生成者，尤其是隨著移動互聯(lián)網(wǎng)和智能手機終端的普及，人們更是可以隨時隨地使用手機發(fā)微博、傳照片，數(shù)據(jù)量開始急劇增加。感知式系統(tǒng)階段物聯(lián)網(wǎng)的發(fā)展最終導(dǎo)致了人類社會數(shù)據(jù)量的第三次躍升。物聯(lián)網(wǎng)中包含大量傳感器，如溫度傳感器、濕度傳感器、壓力傳感器、位移傳感器、光電傳感器等，此外，視頻監(jiān)控攝像頭也是物聯(lián)網(wǎng)的重要組成部分。物聯(lián)網(wǎng)中的這些設(shè)備，每時每刻都在自動產(chǎn)生大量數(shù)據(jù)，與Web2.0時代的人工數(shù)據(jù)產(chǎn)生方式相比，物聯(lián)網(wǎng)中的自動數(shù)據(jù)產(chǎn)生方式，將在短時間內(nèi)生成更密集、更大量的數(shù)據(jù)，使得人類社會迅速步入“大數(shù)據(jù)時代”。大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為3個重要階段：萌芽期、成熟期和大規(guī)模應(yīng)用期20世紀(jì)90年代至21世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟，一批商業(yè)智能工具和知識管理技術(shù)開始被應(yīng)用，如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等第一階段：萌芽期21世紀(jì)前10年Web2.0應(yīng)用迅猛發(fā)展，非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生，傳統(tǒng)處理方法難以應(yīng)對，帶動了大數(shù)據(jù)技術(shù)的快速突破，大數(shù)據(jù)解決方案逐漸走向成熟形成了并行計算與分布式系統(tǒng)兩大核心技術(shù)，谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧，Hadoop平臺開始大行其道第二階段：成熟期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè)，數(shù)據(jù)驅(qū)動決策，信息社會智能化程度大幅第三階段：大規(guī)模應(yīng)用期大數(shù)據(jù)的發(fā)展歷程時間事件1980年著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中，將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。1997年10月邁克爾·考克斯和大衛(wèi)·埃爾斯沃思在第八屆美國電氣和電子工程師協(xié)會（IEEE）關(guān)于可視化的會議論文集中，發(fā)表了《為外存模型可視化而應(yīng)用控制程序請求頁面調(diào)度》的文章，這是在美國計算機學(xué)會的數(shù)字圖書館中第一篇使用“大數(shù)據(jù)”這一術(shù)語的文章。1999年10月在美國電氣和電子工程師協(xié)會（IEEE）關(guān)于可視化的年會上，設(shè)置了名為“自動化或者交互：什么更適合大數(shù)據(jù)？”的專題討論小組，探討大數(shù)據(jù)問題。2001年2月梅塔集團分析師道格·萊尼發(fā)布題為《3D數(shù)據(jù)管理：控制數(shù)據(jù)容量、處理速度及數(shù)據(jù)種類》的研究報告。10年后，“3V”（Volume、Variety和Velocity）作為定義大數(shù)據(jù)的三個維度而被廣泛接受。2005年9月蒂姆·奧萊利發(fā)表了《什么是Web2.0》一文，并在文中指出“數(shù)據(jù)將是下一項技術(shù)核心”。2008年《自然》雜志推出大數(shù)據(jù)?？?；計算社區(qū)聯(lián)盟（ComputingCommunityConsortium）發(fā)表了報告《大數(shù)據(jù)計算：在商業(yè)、科學(xué)和社會領(lǐng)域的革命性突破》，闡述了大數(shù)據(jù)技術(shù)及其面臨的一些挑戰(zhàn)。2010年2月肯尼斯·庫克爾在《經(jīng)濟學(xué)人》上發(fā)表了一份關(guān)于管理信息的特別報告《數(shù)據(jù)，無所不在的數(shù)據(jù)》。大數(shù)據(jù)的發(fā)展歷程時間事件2011年2月《科學(xué)》雜志推出?？短幚頂?shù)據(jù)》，討論了科學(xué)研究中的大數(shù)據(jù)問題。2011年維克托·邁爾·舍恩伯格出版著作《大數(shù)據(jù)時代：生活、工作與思維的大變革》，引起轟動。2011年5月麥肯錫全球研究院發(fā)布《大數(shù)據(jù)：下一個具有創(chuàng)新力、競爭力與生產(chǎn)力的前沿領(lǐng)域》，提出“大數(shù)據(jù)”時代到來。2012年3月美國奧巴馬政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》，正式啟動“大數(shù)據(jù)發(fā)展計劃”，大數(shù)據(jù)上升為美國國家發(fā)展戰(zhàn)略，被視為美國政府繼信息高速公路計劃之后在信息科學(xué)領(lǐng)域的又一重大舉措。2013年12月中國計算機學(xué)會發(fā)布《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》，系統(tǒng)總結(jié)了大數(shù)據(jù)的核心科學(xué)與技術(shù)問題，推動了我國大數(shù)據(jù)學(xué)科的建設(shè)與發(fā)展，并為政府部門提供了戰(zhàn)略性的意見與建議。2014年5月美國政府發(fā)布2014年全球“大數(shù)據(jù)”白皮書《大數(shù)據(jù)：抓住機遇、守護價值》，報告鼓勵使用數(shù)據(jù)來推動社會進步。2015年8月國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》，全面推進我國大數(shù)據(jù)發(fā)展和應(yīng)用，加快建設(shè)數(shù)據(jù)強國。大數(shù)據(jù)的發(fā)展歷程時間事件2016年5月在“2016大數(shù)據(jù)產(chǎn)業(yè)峰會”上工信部透露，我國將制定出臺大數(shù)據(jù)產(chǎn)業(yè)“十三五”發(fā)展規(guī)劃，有力推進我國大數(shù)據(jù)技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展。2017年9月公安部第三研究所授予貴陽大數(shù)據(jù)交易所"eID網(wǎng)絡(luò)身份服務(wù)機構(gòu)"資質(zhì)證書成立國內(nèi)首個數(shù)據(jù)交易合規(guī)化研究實驗項目。2018年2月，中國人民銀行正式下發(fā)銀征信許準(zhǔn)予字2018第1號許可文件，設(shè)立首張經(jīng)營個人征信業(yè)務(wù)的機構(gòu)許可信息表。3月，我國數(shù)據(jù)管理領(lǐng)域首個國家標(biāo)準(zhǔn)《數(shù)據(jù)管理能力成熟度評估模型》正式發(fā)布。2019年10月在第六屆世界互聯(lián)網(wǎng)大會期間組織召開了“國家數(shù)字經(jīng)濟創(chuàng)新發(fā)展試驗區(qū)啟動會”,并發(fā)布了《國家數(shù)字經(jīng)濟創(chuàng)新發(fā)展試驗區(qū)實施方案》,正式啟動河北省(雄安新區(qū))、浙江省、福建省、廣東省、重慶市、四川省等6個國家數(shù)字經(jīng)濟新發(fā)展試驗區(qū)建設(shè)工作。2020年突如其來的新冠肺炎疫情,為各行各業(yè)帶來了前所未有的挑戰(zhàn)。然而，在危機中,以大數(shù)據(jù)等為代表的新一代信息技術(shù)在疫情監(jiān)測分析、人員管控、醫(yī)療救治、復(fù)工復(fù)產(chǎn)等方面提供了強大支撐,各種新業(yè)態(tài)、新模式不斷涌現(xiàn)。數(shù)字化驅(qū)動的技術(shù)和產(chǎn)業(yè)變革加速發(fā)展,大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)和應(yīng)用逆勢而上，數(shù)據(jù)的作用在各行各業(yè)中大放異彩，“數(shù)據(jù)驅(qū)動”的價值深入人心。2021年3月，北京市經(jīng)濟和信息化局會同北京市金融局、北京市商務(wù)局、北京市委網(wǎng)信辦等部門，組織北京金控集團牽頭發(fā)起成立北京國際大數(shù)據(jù)交易有限公司,這是國內(nèi)首家基于“數(shù)據(jù)可用不可見，用途可控可計量”新型交易范式的數(shù)據(jù)交易所。2021年11月，工信部印發(fā)《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,在響應(yīng)國家“十四五”規(guī)劃的基礎(chǔ)上，圍繞“價值引領(lǐng)、基礎(chǔ)先行、系統(tǒng)推進、融合創(chuàng)新、安全發(fā)展、開放合作”六大基本原則，針對“十四五”期間大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展制定了5個發(fā)展目標(biāo)，大主要任務(wù)，6項具體行動以及6個方面的保障措施，同時指出在當(dāng)前我國邁入數(shù)字經(jīng)濟的關(guān)鍵時期，大數(shù)據(jù)產(chǎn)業(yè)將步入“集成創(chuàng)新、快速發(fā)展、深度應(yīng)用、結(jié)構(gòu)優(yōu)化”的高質(zhì)量發(fā)展新階段。PART02大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的應(yīng)用隨著互聯(lián)網(wǎng)和智能設(shè)備的應(yīng)用和普及,大量數(shù)據(jù)正在不斷產(chǎn)生，并呈爆發(fā)式增長趨勢。大數(shù)據(jù)對物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、農(nóng)業(yè)、金融、通信等行業(yè)已造成深刻影響，據(jù)調(diào)查，企業(yè)內(nèi)部的運營交易信息、互聯(lián)網(wǎng)技術(shù)中的產(chǎn)品貨運物流信息、人和人之間互動信息、位置信息等數(shù)據(jù)，每2~3年時間便會成倍增加。信息是當(dāng)代企業(yè)的關(guān)鍵資源，是企業(yè)應(yīng)用創(chuàng)新管理、決策分析的基本。這種數(shù)據(jù)有著極大的經(jīng)濟收益，可是企業(yè)所關(guān)心的數(shù)據(jù)一般只占總數(shù)據(jù)量的2%~4%，使企業(yè)無法最大化地運用已有的數(shù)據(jù)資源，以至于消耗了大量的時間和資產(chǎn),也喪失制訂重要商業(yè)服務(wù)管理決策的最好時機,針對一般的企業(yè)來講，大數(shù)據(jù)的功效具體表現(xiàn)在兩個層面。協(xié)助企業(yè)搜集信息大數(shù)據(jù)可以根據(jù)相關(guān)分析,將顧客和商品、服務(wù)項目進行串聯(lián),對用戶的喜好開展精準(zhǔn)定位，進而提供更精確、更有主導(dǎo)性的商品和服務(wù)項目，從而提高銷售額。典型性的案例如電子商務(wù)。像阿里巴巴淘寶網(wǎng)那樣的電商服務(wù)平臺，累積了很多的用戶選購數(shù)據(jù)。在初期，這些數(shù)據(jù)基本上是負累和壓力，因為存儲數(shù)據(jù)必須支付很高的硬件配置成本費。但是，如今這些數(shù)據(jù)全是阿里巴巴最珍貴的財富。大數(shù)據(jù)還可以對業(yè)績產(chǎn)生直接影響,它的高效率轉(zhuǎn)化和精確性,遠遠地超出傳統(tǒng)式的用戶調(diào)查。除了電子商務(wù)，還包含能源、影視、證券、金融、農(nóng)業(yè)、工業(yè)、交通運輸、公共事業(yè)等行業(yè)都是大數(shù)據(jù)的用武之地。協(xié)助企業(yè)分析決策除幫助企業(yè)掌握用戶數(shù)據(jù)以外,大數(shù)據(jù)還能讓企業(yè)更加精準(zhǔn)地認識自己。企業(yè)運營需要很多的資源,大數(shù)據(jù)能夠剖析和鎖住資源的詳細情況，比如儲藏量遍布和要求的發(fā)展趨勢。這種資源的數(shù)據(jù)可視化能夠協(xié)助企業(yè)管理人員更形象化地掌握企業(yè)的運行情況，迅速地發(fā)現(xiàn)問題，并立即調(diào)整運營策略,減少財務(wù)風(fēng)險?？偟膩碚f，“知彼知己,百戰(zhàn)不殆”,大數(shù)據(jù)是為管理者提供決策服務(wù)最有力的依據(jù)。對于企業(yè)來說,大數(shù)據(jù)服務(wù)的目標(biāo)可以歸結(jié)為“降本增效”四個字。企業(yè)可以借助大數(shù)據(jù)服務(wù)做精準(zhǔn)化營銷，將企業(yè)的產(chǎn)品有效地傳遞給有此需求的用戶,在為客戶創(chuàng)造價值的同時增加企業(yè)收入。企業(yè)還可以借助大數(shù)據(jù)了解客戶的偏好,從而更好地為客戶提供服務(wù)，提升客戶感知水平。雖然提升客戶服務(wù)體驗并沒有直接為企業(yè)帶來收入，但是通過這種方式提升了企業(yè)在客戶心中的形象,使得客戶獲取企業(yè)服務(wù)更加便捷、高效,客戶也因此更喜歡購買企業(yè)的產(chǎn)品，從而增加了企業(yè)的收入。企業(yè)可以借助大數(shù)據(jù)服務(wù)降低成本。從費用支出的類型角度看，成本消耗主要分為屬于投資建設(shè)的CAPAX資本性支出投資和業(yè)務(wù)運營的。PEX(運營資出)投資兩部分，因此企業(yè)可以借助大數(shù)據(jù)服務(wù)降低這兩部分投資，比如在降低CAPAX投資方面，可以以用戶價值為中心進行資源的建設(shè)，避免因為靠“假設(shè)”“猜想”而造成投資浪費。在降低OPEX投資方面，企業(yè)可以借助大數(shù)據(jù)服務(wù)來發(fā)現(xiàn)企業(yè)流程中存在的問題，通過流程優(yōu)化來提高運營效率,從而降低企業(yè)的整體運營成本。大數(shù)據(jù)的應(yīng)用(1)大數(shù)據(jù)助力政府部門完成市場經(jīng)濟體制管控、公共衛(wèi)生服務(wù)安全防護、災(zāi)禍預(yù)警信息、社會發(fā)展輿論導(dǎo)向;協(xié)助城市犯罪預(yù)防,實現(xiàn)智慧交通，提高應(yīng)急能力;電力企業(yè)會根據(jù)大數(shù)據(jù)實時做數(shù)據(jù)的檢測和預(yù)測分析,使我們更強、更便捷地做這類電力工程的生產(chǎn)調(diào)度。(2)大數(shù)據(jù)在醫(yī)療中也有比較廣泛的應(yīng)用。例如，基因工程技術(shù)及其病癥的預(yù)測分析剖析、手術(shù)治療計劃方案等都會用到大數(shù)據(jù)。大數(shù)據(jù)協(xié)助定點醫(yī)療機構(gòu)創(chuàng)建患者的病癥風(fēng)險性追蹤體制,協(xié)助醫(yī)藥企業(yè)提高藥物臨床醫(yī)學(xué)的實際效果,協(xié)助科學(xué)研究組織為病人提供定制化的藥品。(3)大數(shù)據(jù)幫助電商公司向用戶推薦商品和服務(wù)旅行網(wǎng)站為游客提供心愛的旅游線路，二手市場的買賣方尋找最好的買賣總體目標(biāo)，用戶可以更快尋找到最好的產(chǎn)品選購階段、店家及最優(yōu)惠價。(4)大數(shù)據(jù)助力企業(yè)提高營銷推廣的針對性，減少物流和庫存量的成本，降低項目投資的風(fēng)險性,及其協(xié)助企業(yè)提高廣告營銷精確度。例如，云鯨大數(shù)據(jù)助力各行業(yè)直接獲得相關(guān)App/網(wǎng)站用戶的訪客信息，這在很大程度上減少了企業(yè)推廣或引流的成本，就可以直達意向用戶。PART03數(shù)據(jù)化運營數(shù)據(jù)化運營概況數(shù)據(jù)化運營是指通過數(shù)據(jù)化的工具、技術(shù)和方法，對運營過程中的各個環(huán)節(jié)進行科學(xué)的分析，為數(shù)據(jù)使用者提供專業(yè)、準(zhǔn)確的行業(yè)數(shù)據(jù)解決方案，從而達到優(yōu)化運營效果和效率、降低運營成本、提高效益的目的。數(shù)據(jù)化運營的本質(zhì)還是運營，“數(shù)據(jù)化”僅僅是方法和手段，“運營”才是核心和目的，用數(shù)據(jù)指導(dǎo)業(yè)務(wù)運營的決策，提升業(yè)務(wù)運營的效率，實現(xiàn)業(yè)務(wù)增長的目標(biāo)。數(shù)據(jù)化運營不等于數(shù)據(jù)分析，數(shù)據(jù)分析僅僅是數(shù)據(jù)化運營的一個關(guān)鍵環(huán)節(jié)和重要手段。數(shù)據(jù)化運營是基于數(shù)據(jù)去發(fā)現(xiàn)問題，分析問題，然后通過運營的手段找到問題的解決辦法并付諸實踐的閉環(huán)工作。企業(yè)中的數(shù)據(jù)從產(chǎn)生到應(yīng)用，需要經(jīng)過數(shù)據(jù)源層、數(shù)據(jù)倉庫層、數(shù)據(jù)建模層、數(shù)據(jù)應(yīng)用層，經(jīng)過層層的加工，將原始數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)建模、再到數(shù)據(jù)挖掘，最終在應(yīng)用層產(chǎn)生價值，實現(xiàn)面向用戶的智能營銷和個性化內(nèi)容的推薦，從而實現(xiàn)降本增效的運營目的。數(shù)據(jù)化運營基本概念數(shù)據(jù)化運營概況隨著信息化時代的來臨及全球數(shù)字化浪潮的推進，企業(yè)在運營中都產(chǎn)生海量的數(shù)據(jù)，這些數(shù)據(jù)是實現(xiàn)商業(yè)智能的基礎(chǔ)。例如，沃爾瑪“啤酒與尿布”的經(jīng)典案例就是數(shù)據(jù)實現(xiàn)商業(yè)智能的一個體現(xiàn)。1987年，沃爾瑪完成了公司內(nèi)部的衛(wèi)星系統(tǒng)的安裝，該系統(tǒng)使得總部，分銷中心和各個商場之間可以實現(xiàn)實時、雙向的數(shù)據(jù)和聲音傳輸，從運營數(shù)據(jù)中發(fā)現(xiàn)了“啤酒與尿布”關(guān)聯(lián)。如今，沃爾瑪?shù)臄?shù)據(jù)倉庫中存儲著沃爾瑪數(shù)千家連鎖店在65周內(nèi)每一筆銷售的詳細記錄，通過這些數(shù)據(jù)，業(yè)務(wù)員可以分析顧客的購買行為，從而供應(yīng)最佳的銷售服務(wù)。數(shù)據(jù)化運營基本概念數(shù)據(jù)化運營概況企業(yè)大數(shù)據(jù)發(fā)展的階段性根據(jù)企業(yè)的數(shù)據(jù)量、數(shù)據(jù)更新速度、數(shù)據(jù)應(yīng)用程度、數(shù)據(jù)平臺建設(shè)及應(yīng)用能力進行如下劃分：1)無平臺階段在該階段，企業(yè)的數(shù)據(jù)量較少，且數(shù)據(jù)腳本零散地存儲在不同的地方。信息處理主要靠人工進行,管理者和運營人員不會過多關(guān)注數(shù)據(jù),有時階段性地觀察一下宏觀的數(shù)據(jù)而且企業(yè)也沒有數(shù)據(jù)平臺2)小型數(shù)據(jù)平臺階段處于小型數(shù)據(jù)平臺階段的企業(yè),擁有一些數(shù)據(jù)儲備，且各部門定期有數(shù)據(jù)需求，需要搭建小型數(shù)據(jù)平臺，用以獲取核心數(shù)據(jù)指標(biāo)。小型數(shù)據(jù)平臺的開發(fā)周期較短，工作量也較少3)中型數(shù)據(jù)平臺階段處于中型數(shù)據(jù)平臺階段的企業(yè),數(shù)據(jù)量大且數(shù)據(jù)更新速度較快，管理者做出決策需要依靠數(shù)據(jù)，這個階段就需要一個中型數(shù)據(jù)平臺來支撐各部門的數(shù)據(jù)需求，同時建立起相應(yīng)的信息處理系統(tǒng)，且需要專業(yè)的團隊對系統(tǒng)進行維護。4)大型數(shù)據(jù)平臺階段隨著企業(yè)規(guī)模逐步增大，數(shù)據(jù)呈現(xiàn)爆發(fā)式增長、秒級更新、應(yīng)用需求高的特點。處于這個階段的企業(yè)，需要搭建大型數(shù)據(jù)平臺,投入足夠的人力、物力及資源去保障平臺的運作,數(shù)據(jù)倉庫也需要不定期地做升級和變遷。企業(yè)在這個階段需要有非常豐富的數(shù)據(jù)產(chǎn)品來支持業(yè)務(wù)的發(fā)展和運營數(shù)據(jù)化運營流程明確目標(biāo)指標(biāo)體系數(shù)據(jù)獲取數(shù)據(jù)分析策略建議評估優(yōu)化數(shù)據(jù)化運營第一步要搞清楚業(yè)務(wù)的核心目標(biāo)是什么，用戶運營和產(chǎn)品運營有著不同的場景和目標(biāo)，可以通過圍繞業(yè)務(wù)的關(guān)鍵績效指標(biāo)(keyperformanceindicator，KPI)展開在業(yè)務(wù)目標(biāo)確定后，基于目標(biāo)進行數(shù)據(jù)指標(biāo)的拆解,構(gòu)建相應(yīng)的用戶運營、產(chǎn)品運營業(yè)務(wù)的監(jiān)控和結(jié)果評價的指標(biāo)體系。根據(jù)指標(biāo)體系確定數(shù)據(jù)的采集點。對于流量、行為類的數(shù)據(jù)必須要先進行埋點,埋點是指在應(yīng)用的特定流程中,收集用戶行為信息、還原用戶場景來指導(dǎo)產(chǎn)品功能改進,驗證客戶服務(wù)質(zhì)量。在數(shù)據(jù)團隊經(jīng)常遇到業(yè)務(wù)產(chǎn)品找項目管理(projectmanager，PM)要數(shù)據(jù)，最后卻發(fā)現(xiàn)都沒有埋點。利用相應(yīng)的數(shù)學(xué)模型對收集的數(shù)據(jù)進行分析，并根據(jù)運營要求采用數(shù)據(jù)可視化方法對采集到的數(shù)據(jù)進行處理,形成分析報告?；跀?shù)據(jù)分析報告，通過數(shù)理思維來推導(dǎo)、發(fā)現(xiàn)運營業(yè)務(wù)存在的問題或?qū)ふ覞撛谠鲩L點，企業(yè)以此支撐業(yè)務(wù)決策，驅(qū)動產(chǎn)品流程改進優(yōu)化。分析結(jié)論或策略建議在產(chǎn)品或運營端實施之后，可通過AB測試對比、效果分析、持續(xù)優(yōu)化迭代等方法進行評估優(yōu)化。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢起初從事數(shù)據(jù)運營的人是企業(yè)的IT部門兼任，隨著數(shù)據(jù)在業(yè)務(wù)運營上占據(jù)越來越重要的地位，從事數(shù)據(jù)運營的專職崗位也應(yīng)運而生。目前市面上數(shù)據(jù)人才是比較稀缺的，因為數(shù)據(jù)人才需要橫跨三個專業(yè)：數(shù)學(xué)、商科、計算機，且該崗位培養(yǎng)周期長，需要在既懂業(yè)務(wù)，又能掌握計算機相關(guān)技能及工具實現(xiàn)數(shù)據(jù)分析與可視化。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢目前,中國高校正在開設(shè)數(shù)據(jù)科學(xué)與技術(shù)、數(shù)字經(jīng)濟等新興專業(yè),培養(yǎng)社會上急需的大數(shù)據(jù)運營的人才。但高校人才培養(yǎng)往往受到培養(yǎng)周期長、產(chǎn)教融合脫節(jié)等諸多原因，而滯后于產(chǎn)業(yè)的人才需求,目前企業(yè)的數(shù)據(jù)技術(shù)人才依然處于稀缺狀態(tài),專家認為數(shù)字技術(shù)人才具有要求高供給少、需求大的特點，且未來10~20年都將處于稀缺狀態(tài)。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢數(shù)據(jù)化運營的崗位及崗位職責(zé)大型企業(yè)將數(shù)據(jù)運營部門設(shè)置為一級部門，設(shè)置數(shù)據(jù)運營部門負責(zé)人（總經(jīng)理級）、數(shù)據(jù)運營高級總監(jiān)、數(shù)據(jù)運營總監(jiān)、數(shù)據(jù)運營高級經(jīng)理、數(shù)據(jù)運營經(jīng)理、數(shù)據(jù)運營主管及數(shù)據(jù)運營專員等七個職級。數(shù)據(jù)運營部門的整體職責(zé)如下：搭建全鏈路數(shù)據(jù)架構(gòu)：梳理及重構(gòu)供應(yīng)鏈，基于供應(yīng)鏈和業(yè)務(wù)需求節(jié)點進行數(shù)據(jù)需求架構(gòu)；沉淀業(yè)務(wù)方法論，通過協(xié)同模式快速復(fù)制，對外賦能，提升行業(yè)效率。建立品類標(biāo)準(zhǔn)與商業(yè)規(guī)則：調(diào)研商品，并完成非標(biāo)品的標(biāo)準(zhǔn)化工作，同時承擔(dān)新商品開發(fā)研究工作；制定自動化運營商業(yè)規(guī)則，承擔(dān)制定平臺商業(yè)制度的職責(zé)；統(tǒng)籌行業(yè)、品類、商品研究，建立標(biāo)準(zhǔn)化商品數(shù)據(jù)庫，進行商品管理和商品策略研究。通過數(shù)據(jù)運營提升內(nèi)外部效率:打通銷售效率、物流效率、渠道商績效，需求預(yù)測數(shù)據(jù)等指標(biāo)，建立關(guān)聯(lián)，量化各個環(huán)節(jié)的效率提升點，并制定提升方案；研究、提供并推進B端和C端體驗和品質(zhì)提升方案。行業(yè)研究與市場洞察：通過市場調(diào)查、情報收集及時掌握市場和行業(yè)動態(tài)。數(shù)據(jù)贖能BP：承擔(dān)各個BU、城市數(shù)據(jù)賦能BP的職責(zé)；清晰傳遞集閉戰(zhàn)略和執(zhí)行信息、建立各級數(shù)據(jù)看板，推動自動化決策分析，及時收集各城市的問題并向總部反饋。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢數(shù)據(jù)化運營的崗位及崗位職責(zé)部門負責(zé)人崗位職責(zé)全面負責(zé)公司的數(shù)據(jù)運營管理，完成業(yè)務(wù)規(guī)劃、平臺優(yōu)化、資源整合，確定核心產(chǎn)品和服務(wù)及對應(yīng)的商業(yè)模式和盈利模式。研究運營數(shù)據(jù)和用戶反饋，挖掘用戶需求，發(fā)現(xiàn)運營中的問題并給出解決方案。構(gòu)建全面、準(zhǔn)確、能反映業(yè)務(wù)特征的監(jiān)控指標(biāo)體系，并基于業(yè)務(wù)指標(biāo)體系，及時發(fā)現(xiàn)和定位問題。通過專業(yè)分析，對業(yè)務(wù)問題進行深入分析，為公司的運營決策、產(chǎn)品方向、商業(yè)策略提供數(shù)據(jù)支持。對產(chǎn)品、運營、市場及客戶關(guān)系管理等領(lǐng)域提供業(yè)務(wù)支持。與內(nèi)外部相關(guān)團隊協(xié)作，推動業(yè)務(wù)部門的數(shù)據(jù)化運背，技術(shù)產(chǎn)品開發(fā)、工具培訓(xùn)等。產(chǎn)品發(fā)展方向進行預(yù)測，及時調(diào)整業(yè)務(wù)和產(chǎn)品策略，合理制定業(yè)務(wù)和產(chǎn)負責(zé)收集并研究行業(yè)及競爭對手信息，了解和分析客戶需求，對市場及品規(guī)劃。制定業(yè)務(wù)規(guī)則并對其進行管理，承擔(dān)制定平臺商業(yè)制度的職責(zé)，提升平臺業(yè)務(wù)品質(zhì)。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢數(shù)據(jù)化運營的崗位及崗位職責(zé)部門負責(zé)人任職要求數(shù)據(jù)挖掘、機器學(xué)習(xí)、計算機、統(tǒng)計、數(shù)學(xué)等相關(guān)領(lǐng)域本科或以上學(xué)歷,至少擁有8年以上豐富的互聯(lián)網(wǎng)行業(yè)背景，3年以上運營經(jīng)理/總監(jiān)崗位的經(jīng)驗。能熟練地獨立建立商業(yè)數(shù)據(jù)分析框架，具有數(shù)據(jù)敏感度，能從海量數(shù)據(jù)中分析挖掘問題，并具備敏銳的商業(yè)洞察力。熟練運用數(shù)據(jù)分析工具(SQl、Exce、Access)，以及數(shù)據(jù)可視化工具(Tableau、Microstrategy、Think-cell、PPT)對外演講能力優(yōu)秀。優(yōu)秀的分析問題和解決問題的能力，能夠把合理的思路成功應(yīng)用于實踐中。有客戶關(guān)系管理分析或運營經(jīng)驗、數(shù)據(jù)化運營經(jīng)驗、數(shù)據(jù)型產(chǎn)品規(guī)劃經(jīng)驗，有互聯(lián)網(wǎng)新零售相關(guān)領(lǐng)域經(jīng)驗的優(yōu)先.PART04數(shù)據(jù)化運營的意義數(shù)據(jù)化運營的意義在數(shù)字經(jīng)濟時代，人們生產(chǎn)、生活、工作、消費、娛樂方式都發(fā)生巨大變化，企業(yè)更需采用數(shù)字化技術(shù)實現(xiàn)數(shù)字化轉(zhuǎn)型，在產(chǎn)品升級、價值重塑、業(yè)務(wù)變革、商業(yè)模式創(chuàng)新、市場策略調(diào)整等方面，都提供了新的增長空間和發(fā)展機遇。數(shù)據(jù)化運營可以從四個維度具體幫助企業(yè)進行優(yōu)化和發(fā)展，如圖所示。數(shù)據(jù)化運營的意義業(yè)務(wù)指導(dǎo)通過對數(shù)據(jù)的收集、統(tǒng)計、追蹤和監(jiān)控搭建業(yè)務(wù)的管理模型來指導(dǎo)業(yè)務(wù)。例如，銷售業(yè)務(wù)中日銷售額、月銷售額、年銷售額的完成情況；電商營銷業(yè)務(wù)過程中的流量，新增用戶數(shù)，每日的成交量。運營分析運營分析更多注重對收集來的數(shù)據(jù)進行分析和管理，可歸納為人、貨、場、才的分析管理。例如客戶關(guān)系管理（CRM），財務(wù)分析管理，供應(yīng)鏈分析管理等等。經(jīng)營策略經(jīng)營策略管理擁有一手的管理決斷，對各經(jīng)營環(huán)節(jié)進行對應(yīng)的數(shù)據(jù)分析來修改和制定策略，比如消費者購買行為的分析，會員顧客策略，是采用積分制還是打折制。戰(zhàn)略規(guī)劃戰(zhàn)略規(guī)劃需要通過企業(yè)內(nèi)部和外部的市場外部數(shù)據(jù)制定長遠的規(guī)劃過程，如企業(yè)競爭力分析，行業(yè)環(huán)境分析，戰(zhàn)略目標(biāo)規(guī)劃等。習(xí)題1.請描述數(shù)據(jù)化運營的概念，并舉列說明企業(yè)數(shù)據(jù)化運營的應(yīng)用。2.數(shù)據(jù)化運營的關(guān)鍵步驟有哪些？3.什么是大數(shù)據(jù)？請描述云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能之間的關(guān)系？THANKYOU大數(shù)據(jù)運營技術(shù)體系本章知識點(1)掌握Hadoop、Spark、Flink3種主流技術(shù)的基本原理。(2)掌握數(shù)據(jù)處理的基本流程。(3)了解數(shù)據(jù)挖掘概論與數(shù)據(jù)挖掘的常用方法。(4)掌握數(shù)據(jù)可視化庫及可視化軟件的概念。01大數(shù)據(jù)技術(shù)概述02數(shù)據(jù)處理與數(shù)據(jù)挖掘概述03數(shù)據(jù)可視化概述PART01大數(shù)據(jù)技術(shù)概述Hadoo核心技術(shù)Hadoo核心技術(shù)Hadoop是Apache軟件基金會下用Java語言開發(fā)的一個開源分布式計算平臺，在大量計算機組成的集群中對海量數(shù)據(jù)進行分布式計算。它是一個適合大數(shù)據(jù)的分布式存儲和計算平臺。Hadoop最早起源于Nutch搜索引擎,Nutch是一個開源Java實現(xiàn)的搜索引擎Nutch的設(shè)計目標(biāo)是構(gòu)建一個大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加，遇到了嚴重的可擴展性問題，即如何解決數(shù)十億網(wǎng)頁的存儲和索引問題。在Nutch的開發(fā)人員正一籌莫展之際谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案：分布式文件系統(tǒng)distributedfilesystem，DFS)可用于處理海量網(wǎng)頁的存儲；分布式計算框架MapReduce可用于處理海量網(wǎng)頁的索引計算問題。Hadoo核心技術(shù)Hadoop之父道格·卡廷(Dougcutting)帶領(lǐng)Nutch的開發(fā)人員基于Google的兩篇論文完成了相應(yīng)的開源實現(xiàn)Hadoo分布式文件系統(tǒng)HadoopdistributedfilesystemHDFS)和MapReduce，并從Nutch中剝離成為獨立項目Hadoop，到2008年1月，Hadoop成為Apache頂級項目，迎來了它的快速發(fā)展期Hadoop的大象Logo靈感來源于道格·卡廷女兒的玩具大象。狹義上來說，Hadoop就是單獨指代hadoop這個計算框架。廣義上來說，Hadoop指代大數(shù)據(jù)的一個軟件生態(tài)圈，包括很多其他的軟件，如圖所示。MapReduc編程模型1)MapReduce的概念MapReduce是一種大規(guī)模數(shù)據(jù)處理編程模型，用于大規(guī)模數(shù)據(jù)集的并行運算，是Hadoop核心組件之一。MaReduce的核心功能是將用戶編寫的業(yè)務(wù)邏輯代碼和自帶默認組件整合成一個完整的分布式運算程序，并運行在Hadoop集群上。2)MapReduce的編程思想MapReduce的思想核心是“分而治之”適用于大量復(fù)雜的任務(wù)處理場景(大規(guī)模數(shù)據(jù)處理場景)。Map(映射)負責(zé)“分”,即把復(fù)雜的任務(wù)分解為若干個“簡單的任務(wù)”來并行處理?？梢赃M行拆分的前提是這些小任務(wù)可以并行計算,彼此間幾乎沒有依賴關(guān)系Reduce(化簡)負責(zé)“合”,即對Map階段的結(jié)果進行全局匯總。這兩個階段合起來正是MapReduce思想的體現(xiàn)。舉例如下比如我們要統(tǒng)計圖書館所有類型的書,如果一個人統(tǒng)計的話,不知道要統(tǒng)計多久,如果人多點,你統(tǒng)計1號書架,我統(tǒng)計2號書架,他統(tǒng)計3號書架····.·人越多,統(tǒng)計的速度就越快。這就是Map階段,可以并行地做一件事,彼此之間并沒有依賴關(guān)系。數(shù)完之后，聚到一起，把所有人的統(tǒng)計數(shù)加在一起，就得出的圖書館書籍的總數(shù)。這就是Reduce階段。MapReduc編程模型3)MapReduce的框架結(jié)構(gòu)一個完整的MapReduce程序在分布式運行時有三類實例進程:MRAppMaster：負責(zé)整個程序的過程調(diào)度及狀態(tài)協(xié)調(diào)。MapTask:負責(zé)Map階段整個數(shù)據(jù)處理流程。ReduceTask:負責(zé)reduce階段的整個數(shù)據(jù)處理流程。4)MapReduce的編程規(guī)范（1）用戶編寫的程序分成三個部分：Mapper，Reducer，Driver(提交運行mr程序的客戶端)。（2）Mapper的輸入數(shù)據(jù)是鍵值對的形式（鍵與值的類型可自定義）。（3）Mapper的輸出數(shù)據(jù)是鍵值對的形式（鍵與值的類型可自定義）。（4）Mapper中的業(yè)務(wù)邏輯寫在map()方法中。（5）map()方法（maptask進程）對每一個調(diào)用一次。（6）Reducer的輸入數(shù)據(jù)類型對應(yīng)Mapper的輸出數(shù)據(jù)類型，也是鍵值對。（7）Reducer的業(yè)務(wù)邏輯寫在reduce()方法中。（8）Reducetask進程對每一組相同鍵的組調(diào)用一次reduce()方法。（9）用戶自定義的Mapper和Reducer都要繼承各自的父類。（10）整個程序需要一個Drvier來進行提交，提交的是一個描述了各種必要信息的job對象。Hadoop分布式文件系統(tǒng)HDFS1)HDFS的概念HDFS是一個可以運行在通用硬件上的分布式文件系統(tǒng)（DistributedFileSystem）。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時，它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng)，適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。2)HDFS的原理多臺計算機(集群)聯(lián)網(wǎng)協(xié)同工作就像單臺系統(tǒng)一樣解決某種問題，這樣的系統(tǒng)我們稱之為分布式系統(tǒng)。分布式文件系統(tǒng)是分布式系統(tǒng)的一個子集，它們解決的問題就是數(shù)據(jù)存儲。換句話說，它們是橫跨在多臺計算機上的存儲系統(tǒng)。存儲在分布式文件系統(tǒng)上的數(shù)據(jù)自動分布在不同的節(jié)點上。分布式文件系統(tǒng)在大數(shù)據(jù)時代有著廣泛的應(yīng)用前景，它們?yōu)榇鎯吞幚韥碜跃W(wǎng)絡(luò)和其它地方的超大規(guī)模數(shù)據(jù)提供所需的擴展能力，為各類分布式運算框架（如：mapreduce，spark，……）提供數(shù)據(jù)存儲服務(wù)。Hadoop分布式文件系統(tǒng)HDFS3)HDFS設(shè)計思想分而治之：將大文件、大批量文件，分布式存放在同一集群中的不同服務(wù)器上，以便于采取分而治之的方式對海量數(shù)據(jù)進行運算分析。4)HDFS架構(gòu)HDFS是一個塊結(jié)構(gòu)的文件系統(tǒng)，其中每個文件被分成預(yù)定大小的塊（Hadoop1.x版本塊大小為64M，2.x版本塊大小為128M），這些塊存儲在一臺或多臺機器的集群中。HDFS遵循主/從架構(gòu)，其中集群包含單個NameNode（主節(jié)點），所有其他節(jié)點都是DataNode（從節(jié)點）。HDFS可以部署在支持Java的各種機器上。雖然可以在一臺機器上運行多個DataNode，但在實際應(yīng)用中，這些DataNode分布在不同的機器上。Hadoop分布式文件系統(tǒng)HDFSNameNode在原生的Hadoop集群中，HDFS分為三個角色：NameNode、DataNode、SecondaryNameNode。DataNodeHDFS中的從屬節(jié)點。不具備高質(zhì)量或高可用性，主要負責(zé)將數(shù)據(jù)落實到本地存儲，所以DataNode所在機器通常配置有大量的硬盤空間。DataNode會定期向NameNode發(fā)送心跳，如果NameNode長時間沒有接受到DataNode發(fā)送的心跳，NameNode就會認為該DataNode失效。SecondaryNameNode是NameNode的一個助手節(jié)點，來幫助NameNode更好的工作。它存在的目的就是為HDFS中提供一個檢查點，它會定時到NameNode去獲取editlogs，并更新到fsimage上，一旦它有了新的fsimage文件，它將其拷貝回NameNode中，當(dāng)NameNode在下次重啟時會使用這個新的fsimage文件，從而減少重啟的時間。ApacheHadoopHDFS架構(gòu)中的主節(jié)點，主要是用來保存HDFS的元數(shù)據(jù)信息，比如命名空間信息，塊信息等。當(dāng)它運行的時候，這些信息是存在內(nèi)存中的。但是這些信息也可以持久化到磁盤上。Hadoop分布式文件系統(tǒng)HDFS5)HDFS的優(yōu)缺點事物都具有兩面性，HDFS再強大也會存在一些缺點，下面讓我們了解一下HDFS的優(yōu)缺點，從而可以在不同的應(yīng)用場景中更好的發(fā)揮HDFS的一些特性。優(yōu)點概述高容錯性數(shù)據(jù)自動保存多個副本(默認為3份，可通過修改配置文件來修改副本數(shù))，副本丟失后，自動恢復(fù)。適合批處理HDFS會將數(shù)據(jù)位置暴露給計算框架，通過移動計算而非移動數(shù)據(jù)的方式來減少文件I/O，從而提高計算效率。適合大規(guī)模數(shù)據(jù)處理適合GB，TB，甚至PB級數(shù)據(jù)的計算，百萬規(guī)模以上的文件處理?？蓸?gòu)建在廉價機器上HDFS通過多副本提高可靠性，提供了容錯和恢復(fù)機制。HDFS的存儲節(jié)點只需要提供磁盤存儲空間即可，對操作系統(tǒng)與其他硬件資源沒有要求。缺點概述不支持低延遲數(shù)據(jù)訪問毫秒級的數(shù)據(jù)訪問，HDFS是不支持的。所以說HDFS不能作為實時任務(wù)的數(shù)據(jù)源。小文件存儲HDFS上的每一個文件的元數(shù)據(jù)都由NameNode進行管理，如果有大量的小文件，將會占用NameNode大量內(nèi)存，并且文件尋道時間超過讀取時間，所以HDFS建議將小文件進行合并或者說使用HDFS提供的archive檔案機制。文件只支持追加HDFS上的文件只支持追加操作，不支持修改。而且一個文件同一時間只能有一個用戶進行寫入操作。分布式資源調(diào)度管理系統(tǒng)分布式資源調(diào)度管理系統(tǒng),即另一種資源協(xié)調(diào)者(yetanotherresourcenegotiator，YARN)是Hadoop的資源管理器,它是一個分布式的資源管理系統(tǒng),用以提高分布式集群環(huán)境下的資源利用率,這些資源包括內(nèi)存、輸入輸出、網(wǎng)絡(luò)、磁盤等,其產(chǎn)生的原因是為了解決原MapReduce框架的不足。1)YARN的概念我們先來了解一下在Yarn誕生之前，Hadoop是如何進行資源調(diào)度的。在Hadoop1.X版本，一個Hadoop集群可分解為兩個抽象實體：Mapreduce計算引擎和分布式文件系統(tǒng)。當(dāng)一個客戶端向一個Hadoop集群發(fā)出一個請求時，此請求由Jobtracker管理。Jobtracker與Namenode聯(lián)合將任務(wù)分發(fā)到離它所處理的數(shù)據(jù)盡可能近的位置。然后Jobtracker將Map和Reduce任務(wù)安排到一個或多個Tasktracker上的可用插槽中。Tasktracker與Datanode一起對來自Datanode的數(shù)據(jù)執(zhí)行Map和Reduce任務(wù)。當(dāng)Map和Reduce任務(wù)完成時，Tasktracker會告知Jobtracker，后者確定所有任務(wù)何時完成并最終告知客戶作業(yè)已完成。分布式資源調(diào)度管理系統(tǒng)在使用Jobtracker進行資源調(diào)度的時候，會存在如下問題：Jobtracker是集群事務(wù)的集中處理點，存在單點故障。Jobtracker需要完成的任務(wù)太多，既要維護Job的狀態(tài)又要維護Job的Task的狀態(tài)，造成過多的資源消耗。在Tasktracker端，用Map/ReduceTask作為資源的表示過于簡單，沒有考慮到Cpu、內(nèi)存等資源情況，當(dāng)把兩個需要消耗大內(nèi)存的Task調(diào)度到一起，很容易出現(xiàn)OOM（內(nèi)存溢出）。把資源強制劃分為Map/ReduceSlot，當(dāng)只有MapTask時，ReduceSlot不能用；當(dāng)只有ReduceTask時，MapSlot不能用，容易造成資源利用不足。到了Hadoop2.X版本，Yarn作為Hadoop第三大核心組件橫空出世，為了解決了Hadoop1.X版本資源調(diào)度的問題，YARN將資源管理和作業(yè)監(jiān)控/調(diào)度這兩個功能拆分開來，交由不同的守護進程完成。具體來說就是有一個全局的資源管理者（Resourcemanager）和負責(zé)每一個應(yīng)用的應(yīng)用管理者（Applicationmaster）。分布式資源調(diào)度管理系統(tǒng)ResourceManager2)YARN的基本架構(gòu)YARN是一個資源管理、任務(wù)調(diào)度的框架，主要包含三大模塊：ResourceManager（簡稱RM）、NodeManager（簡稱NM）、ApplicationMaster（簡稱AM）。NodeManager是每個節(jié)點上的資源和任務(wù)管理器，它是管理這臺機器的代理，負責(zé)該節(jié)點程序的運行，以及該節(jié)點資源的管理和監(jiān)控，YARN集群每個節(jié)點都會運行一個NodeManager。NodeManager會定時向ResourceManager匯報本節(jié)點資源（CPU、內(nèi)存）的使用情況和Container的運行狀態(tài)。當(dāng)ResourceManager宕機時NodeManager自動連接RM備用節(jié)點。ApplicationMaster用戶提交的每個應(yīng)用程序均包含一個ApplicationMaster。ResourceManager會為應(yīng)用分配一個Container（分配的資源）來運行ApplicationMaster，ApplicationMaster會將得到的任務(wù)進一步分配給內(nèi)部的任務(wù)(資源的二次分配)，還有就是負責(zé)監(jiān)控所有任務(wù)運行狀態(tài)，并在任務(wù)運行失敗時重新為任務(wù)申請資源以重啟任務(wù)。負責(zé)整個集群的資源管理和分配，是一個全局的資源管理系統(tǒng)。NodeManager以心跳的方式向ResourceManager匯報資源使用情況（目前主要是CPU和內(nèi)存的使用情況）。RM只接受NM的資源回報信息，對于具體的資源處理則交給NM自己處理。YARNScheduler根據(jù)application的請求為其分配資源，不負責(zé)applicationjob的監(jiān)控、追蹤、運行狀態(tài)反饋、啟動等工作。分布式資源調(diào)度管理系統(tǒng)3)YARN調(diào)度工作的流程(1)客戶端向RM提交應(yīng)用程序,其中包括啟動該應(yīng)用的AM所必需信息。例如AM程序、啟動AM的命令、用戶程序等。(2)RM啟動一個容器用于運行AM(3)啟動中的AM向RM注冊自己啟動成后與RM保持心跳(4)AM向RM發(fā)送請求，申請相應(yīng)數(shù)目的容器(5)RM返回AM申請的容器信息。申請成功的容器,由AM進行初始化。容器的啟動信息初始化后,AM與對應(yīng)的NM通信,要求NM啟動容器。AM與NM保持心跳,從而對NM上運行的任務(wù)進行監(jiān)控和管理(6)容器運行期間，AM對容器進行監(jiān)控。容器通過RPC協(xié)議向?qū)?yīng)的AM匯報自己的進度和狀態(tài)等信息.(7)應(yīng)用運行期間，客戶端直接與AM通信獲取應(yīng)用的狀態(tài)、進度更新等信息。(8)應(yīng)用運行結(jié)束后，AM向RM注銷自己，并允許屬于它的容器被收回。分布式資源調(diào)度管理系統(tǒng)4)YARN的調(diào)度策略在YARN中，負責(zé)給應(yīng)用分配資源的就是調(diào)度器，調(diào)度本身就是一個難題，很難找到一個完美的策略可以解決所有的應(yīng)用場景。為此YARN提供了3種調(diào)度器，也可以叫作調(diào)度策略如表所示。調(diào)度器分類策略特點先進先出調(diào)度器FIFOSchedulerFIFOScheduler把應(yīng)用按提交的順序排成一個隊列，這是一個先進先出隊列，在進行資源分配的時候，先給隊列中最頭上的應(yīng)用進行分配資源，待最頭上的應(yīng)用需求滿足后再給下一個分配，以此類推。FIFOScheduler是最簡單也是最容易理解的調(diào)度器，也不需要任何配置，但它并不適用于共享集群。大的應(yīng)用可能會占用所有集群資源，這就導(dǎo)致其它應(yīng)用被阻塞公平調(diào)度器FairScheduler在Fair調(diào)度器中，我們不需要預(yù)先占用一定的系統(tǒng)資源，F(xiàn)air調(diào)度器會為所有運行的job動態(tài)的調(diào)整系統(tǒng)資源當(dāng)?shù)谝粋€占用資源較大的job提交時，如果只有這一個job在運行，那么它會獲得所有的集群資源；此時，當(dāng)?shù)诙€小任務(wù)提交后，F(xiàn)air調(diào)度器就會分配一半資源給這個小任務(wù)，讓這兩個任務(wù)公平的共享集群資源。容器調(diào)度器CapacitySchedulerCapacity調(diào)度器允許多個組織共享整個集群，每個組織可以獲得集群的一部分計算能力。通過為每個組織分配專門的隊列，然后再為每個隊列分配一定的集群資源，這樣整個集群就可以通過設(shè)置多個隊列的方式給多個組織提供服務(wù)了。除此之外，隊列內(nèi)部又可以垂直劃分，這樣一個組織內(nèi)部的多個成員就可以共享這個隊列資源了，在一個隊列內(nèi)部，資源的調(diào)度是采用的是先進先出(FIFO)策略。高性能分布式協(xié)調(diào)服務(wù)高性能分布式協(xié)調(diào)服務(wù)(ZooKeeper)致力于為分布式應(yīng)用提供一個高性能、高可用且具有嚴格順序訪問控制能力的分布式協(xié)調(diào)服務(wù)。ZooKeeper由雅虎研究院開發(fā)，是GoogleChubby的開源實現(xiàn),后來托管到Apache,于2010年11月正式成為Apache的頂級項目。ZooKeeper的應(yīng)用場景有很多，比如說HadoopHA(高可用)集群、KafkaHBase都強依賴于ZooKeeper,讓我們一起來看下ZooKeeper有哪些特性。1)zookeeper的五大特性特性概述順序一致性從同一個客戶端發(fā)起的事務(wù)請求，最終將會嚴格地按照其發(fā)起的順序被應(yīng)用到Zookeeper去。原子性所有請求的響應(yīng)結(jié)果在整個分布式集群環(huán)境中具備原子性，即要么整個集群中所有機器都成功的處理了某個請求，要么就都沒有處理，絕對不會出現(xiàn)集群中一部分機器處理了某一個請求，而另一部分機器卻沒有處理的情況。單一性無論客戶端連接到ZooKeeper集群中哪個服務(wù)器，每個客戶端所看到的服務(wù)端模型都是一致的，不可能出現(xiàn)兩種不同的數(shù)據(jù)狀態(tài)，因為ZooKeeper集群中每臺服務(wù)器之間會進行數(shù)據(jù)同步?？煽啃砸坏┓?wù)端數(shù)據(jù)的狀態(tài)發(fā)送了變化，就會立即存儲起來，除非此時有另一個請求對其進行了變更，否則數(shù)據(jù)一定是可靠的。實時性當(dāng)某個請求被成功處理后，ZooKeeper僅僅保證在一定的時間段內(nèi)，客戶端最終一定能從服務(wù)端上讀取到最新的數(shù)據(jù)狀態(tài)，即ZooKeeper保證數(shù)據(jù)的最終一致性。Zookeeper具有嚴格的寫操作順序性，客戶端能夠基于zookeeper實現(xiàn)一些復(fù)雜的同步原語。對于來自客戶端的每個更新請求，都會分配一個全局唯一的遞增編號，這個編號反應(yīng)了所有事物操作的先后順序。高性能分布式協(xié)調(diào)服務(wù)2)ZooKeeper的角色領(lǐng)導(dǎo)者(Leader)Leader是ZooKeeper集群工作的核心。主要負責(zé)調(diào)度工作，是事務(wù)請求的調(diào)度處理者和集群內(nèi)部各服務(wù)器的調(diào)度。跟隨者(Follower)Follower是ZooKeeper集群的跟隨者。主要負責(zé)處理客戶端非事務(wù)性請求(讀取數(shù)據(jù))并轉(zhuǎn)發(fā)事務(wù)請求給Leader服務(wù)器和參與Leader選舉投票。觀察者(Observer)Observer充當(dāng)觀察者角色，觀察ZooKeeper集群的最新狀態(tài)變化并將這些狀態(tài)同步過來,其對于非事務(wù)請求可以進行獨立處理,對于事務(wù)請求,則會轉(zhuǎn)發(fā)給Leader服務(wù)器進行處理。Observer不會參與任何形式的投票,包括事務(wù)請求Proposal的投票和Leader選舉投票。HBase數(shù)據(jù)庫HBase是建立在HDFS之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)。它是ApacheHadoop生態(tài)系統(tǒng)中的重要一員，主要用于海量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲，Hbase的Logo是一只鯨魚，如圖所示。HBase是GoogleBigtable的開源實現(xiàn)，與GoogleBigtable利用GFS作為其文件存儲系統(tǒng)類似，HBase利用HadoopHDFS作為其文件存儲系統(tǒng)；Google運行MapReduce來處理Bigtable中的海量數(shù)據(jù)，HBase同樣利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù)；GoogleBigtable利用Chubby作為協(xié)同服務(wù)，HBase利用Zookeeper作為對應(yīng)。HBase數(shù)據(jù)庫1)Hbase特性特點概述大一個表可以有上億行，上百萬列。面向列面向列表（簇）的存儲和權(quán)限控制，列（簇）獨立檢索。稀疏每個單元中的數(shù)據(jù)可以有多個版本，默認情況下，版本號自動分配，版本號就是單元格插入時的時間戳。數(shù)據(jù)多版本每個單元中的數(shù)據(jù)可以有多個版本，默認情況下，版本號自動分配，版本號就是單元格插入時的時間戳。數(shù)據(jù)類型單一HBase中的數(shù)據(jù)都是字符串，沒有類型。HBase數(shù)據(jù)庫2)Hbase與傳統(tǒng)數(shù)據(jù)庫對比對比傳統(tǒng)數(shù)據(jù)庫可能遇到的問題（1）數(shù)據(jù)量很大的時候無法存儲。（2）沒有很好的備份機制。（3）數(shù)據(jù)達到一定數(shù)量開始緩慢，很大的話基本無法支撐。Hbase的優(yōu)勢（1）線性擴展，隨著數(shù)據(jù)量增多可以通過節(jié)點擴展進行支撐。（2）數(shù)據(jù)存儲在hdfs上，備份機制健全。（3）通過zookeeper協(xié)調(diào)查找數(shù)據(jù)，訪問速度快。HBase數(shù)據(jù)庫3)zookeeper在HBase中的作用①可以保證在HBase集群中有且只有一個活躍的Master；②存儲所有Region的尋址入口；③實時監(jiān)控Regionserver的上線和下線信息，并實時通知給Master；④存儲HBase的schema和Table元數(shù)據(jù)。Region是HBase分布式存儲的最基本單元。它將一個數(shù)據(jù)表按Key值范圍橫向劃分為一個個的子表，實現(xiàn)分布式存儲。這個子表，在HBase中被稱作“Region”。每一個Region都關(guān)聯(lián)一個Key值范圍，即一個使用StartKey和EndKey描述的區(qū)間。HBase數(shù)據(jù)庫4)HBase的集群角色HBase的集群角色有兩種分別是HMaster和Regionserver。其中HMaster是主進程，負責(zé)管理所有的Regionserver；Regionserver是數(shù)據(jù)服務(wù)進程，負責(zé)處理用戶數(shù)據(jù)的讀寫請求。HMaster與Regionserver之間有著密切的關(guān)系，而Regionserver又與Region它是HBase中存儲數(shù)據(jù)的最小單元)密不可分，所以我們分別講解Region、Regionserver和HMaster的特點。(1)RegionRegionServer是HBase的數(shù)據(jù)服務(wù)進程。它負責(zé)處理用戶數(shù)據(jù)的讀寫請求，所有的Region都被交由RegionServer管理，包括執(zhí)行Flush、Compaction、Open、Close、Load等操作。實際上，所有用戶數(shù)據(jù)的讀寫請求，都是和RegionServer管理的Region進行交互。當(dāng)某個RegionServer發(fā)生故障的時候，此RegionServer所管理Region就會轉(zhuǎn)移到其它RegionServer下。RegionServer需要定期向HMaster匯報自身的情況，包括內(nèi)存使用狀態(tài)、在線狀態(tài)的Region等信息。RegionServer除此之外，還可以管理WAL，以及執(zhí)行數(shù)據(jù)插入、更新和刪除操作，并通過Metrics對外提供了衡量HBase內(nèi)部服務(wù)狀況的參數(shù)。另外，RegionServer還內(nèi)置了HttpServer，所以我們可以通過圖形界面的方式訪問Hbase。(2)RegionserverHMaster進程負責(zé)管理所有的RegionServer。包括新RegionServer的注冊；RegionServerFailover處理；負責(zé)建表/修改表/刪除表以及一些集群操作；新表創(chuàng)建時的Region分配；運行期間的負載均衡保障；負責(zé)所有Region的轉(zhuǎn)移操作，包括RegionServerFailover后的Region接管。(3)HMasterHBase數(shù)據(jù)庫4)HBase的集群角色HMaster進程有主備角色。集群可以配置多個HMaster角色，在集群啟動時，這些HMaster角色通過競爭獲得主HMaster角色。主HMaster只能有一個，所有的備HMaster進程在集群運行期間處于休眠狀態(tài)，不干涉任何集群事務(wù)。為了方便理解HMaster、RegionServer和Region三者之間的關(guān)系，舉一個很形象的例子,你可以把HMaster理解為部門總經(jīng)理，它管理了若干個項目經(jīng)理(RegionServer),而每個項目經(jīng)理都帶了若干個項目組成員(Region)。HBase有自己獨特的一套文件存儲架構(gòu)和數(shù)據(jù)尋址機制,來保證在海量數(shù)據(jù)中快速檢索到需要的數(shù)據(jù),有興趣的同學(xué)可以前往HBase官網(wǎng)(/)進行學(xué)習(xí)。Hive系統(tǒng)Hive是基于Hadoop構(gòu)建的一套數(shù)據(jù)倉庫分析系統(tǒng)，它提供了豐富的SQL查詢方式來分析存儲在Hadoop分布式文件系統(tǒng)（HDFS）中的數(shù)據(jù)：可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供完整的SQL查詢功能；可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運行，通過自己的SQL查詢分析需要的內(nèi)容，這套SQL簡稱HiveSQL，使不熟悉mapreduce的用戶可以很方便地利用SQL語言查詢、匯總和分析數(shù)據(jù)。而mapreduce開發(fā)人員可以把自己寫的mapper和reducer作為插件來支持hive做更復(fù)雜的數(shù)據(jù)分析。它與關(guān)系型數(shù)據(jù)庫的SQL略有不同，但支持了絕大多數(shù)的語句如DDL、DML以及常見的聚合函數(shù)、連接查詢、條件查詢。它還提供了一系列的工具進行數(shù)據(jù)提取轉(zhuǎn)化加載，用來存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)集，并支持UDF（User-DefinedFunction）、UDAF(User-DefnesAggregateFunction)和UDTF（User-DefinedTable-GeneratingFunction），也可以實現(xiàn)對map和reduce函數(shù)的定制，為數(shù)據(jù)操作提供了良好的伸縮性和可擴展性。Hive系統(tǒng)1)什么是數(shù)據(jù)倉庫數(shù)據(jù)倉庫，英文名稱為DataWarehouse，可簡寫為DW或DWH。數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境，為企業(yè)提供決策支持（DecisionSupport）。它出于分析性報告和決策支持目的而創(chuàng)建。數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù)，同時自身也不需要“消費”任何的數(shù)據(jù)，數(shù)據(jù)來源于外部，并且開放給外部應(yīng)用，這也是為什么叫“倉庫”，而不叫“工廠”的原因。數(shù)據(jù)倉庫有四個特性：分別是主體性、集成性、非易失性（不可更新性）和時變性。Hive系統(tǒng)2)數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別實際講的是OLTP與OLAP的區(qū)別，見表所示。處理方式概述OLTP聯(lián)機事務(wù)處理，也可以稱面向交易的處理系統(tǒng)，它是針對具體業(yè)務(wù)在數(shù)據(jù)庫聯(lián)機的日常操作，通常對少數(shù)記錄進行查詢、修改。用戶較為關(guān)心操作的響應(yīng)時間、數(shù)據(jù)的安全性、完整性和并發(fā)支持的用戶數(shù)等問題。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理的主要手段，主要用于操作型處理。OLAP聯(lián)機分析處理，一般針對某些主題的歷史數(shù)據(jù)進行分析，支持管理決策。數(shù)據(jù)倉庫的出現(xiàn)，并不是要取代數(shù)據(jù)庫，兩者之間的區(qū)別如下表所示。差異數(shù)據(jù)庫數(shù)據(jù)倉庫面向方向面向事務(wù)面向主題數(shù)據(jù)存儲存儲業(yè)務(wù)數(shù)據(jù)存儲歷史數(shù)據(jù)表設(shè)計盡量避免冗余有意引入冗余，依照分析需求，分析維度、分析指標(biāo)進行設(shè)計作用方向為捕獲數(shù)據(jù)而設(shè)計為分析數(shù)據(jù)而設(shè)計Hive系統(tǒng)以銀行業(yè)務(wù)為例。數(shù)據(jù)庫是事務(wù)系統(tǒng)的數(shù)據(jù)平臺，客戶在銀行做的每筆交易都會寫入數(shù)據(jù)庫，被記錄下來，這里，可以簡單地理解為用數(shù)據(jù)庫記賬。數(shù)據(jù)倉庫是分析系統(tǒng)的數(shù)據(jù)平臺，它從事務(wù)系統(tǒng)獲取數(shù)據(jù)，并做匯總、加工，為決策者提供決策的依據(jù)。比如，某銀行某分行一個月發(fā)生多少交易，該分行當(dāng)前存款余額是多少。如果存款又多，消費交易又多，那么該地區(qū)就有必要設(shè)立ATM了。顯然，銀行的交易量是巨大的，通常以百萬甚至千萬次來計算。事務(wù)系統(tǒng)是實時的，這就要求時效性，客戶存一筆錢需要幾十秒是無法忍受的，這就要求數(shù)據(jù)庫只能存儲很短一段時間的數(shù)據(jù)。而分析系統(tǒng)是事后的，它要提供關(guān)注時間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的，匯總計算起來也要慢一些，但是，只要能夠提供有效的分析數(shù)據(jù)就達到目的了。數(shù)據(jù)倉庫，是在數(shù)據(jù)庫已經(jīng)大量存在的情況下，為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的，它決不是所謂的“大型數(shù)據(jù)庫”。Hive系統(tǒng)3)Hive的作用MapReduce使用起來學(xué)習(xí)難度大，成本高，坡度陡，并且MapReduce實現(xiàn)復(fù)雜查詢邏輯開發(fā)難度較大。而Hive可以把SQL語句轉(zhuǎn)化成Mapreduce代碼，操作接口內(nèi)SQL語法，提升開發(fā)的效率；避免了去寫MapReduce，降低開發(fā)人員的學(xué)習(xí)成本；較強的擴展性，Hive支持用戶自定義函數(shù)，用戶可以根據(jù)自己的需求來實現(xiàn)自己的函數(shù)；良好的容錯性，節(jié)點出現(xiàn)問題SQL仍可完成執(zhí)行。關(guān)于Hive的使用方式與數(shù)據(jù)類型，會在第4章中詳細講解。Flume軟件Flume是Cloudera提供的一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)能浖?。Flume的核心是把數(shù)據(jù)從數(shù)據(jù)源(source)收集過來，再將收集到的數(shù)據(jù)送到指定的目的地(sink)。為了保證輸送的過程一定成功，在送到目的地(sink)之前，會先緩存數(shù)據(jù)(channel)，待數(shù)據(jù)真正到達目的地(sink)后，F(xiàn)lume在刪除自己緩存的數(shù)據(jù)。Flume支持定制各類數(shù)據(jù)發(fā)送方，用于收集各類型數(shù)據(jù)；同時，F(xiàn)lume支持定制各種數(shù)據(jù)接受方，用于最終存儲數(shù)據(jù)。一般的采集需求，通過對Flume的簡單配置即可實現(xiàn)。針對特殊場景也具備良好的自定義擴展能力。因此，F(xiàn)lume可以適用于大部分的日常數(shù)據(jù)采集場景。Flume軟件Flume系統(tǒng)中核心的角色是Agent，Agent本身是一個Java進程，一般運行在日志收集節(jié)點，執(zhí)行流程如圖所示。每一個Agent相當(dāng)于一個數(shù)據(jù)傳遞員，內(nèi)部有三個組件：Source：采集源，用于跟數(shù)據(jù)源對接，以獲取數(shù)據(jù)。Sink：下沉地，采集數(shù)據(jù)的傳送目的地，用于往下一級Agent傳遞數(shù)據(jù)或者往最終存儲系統(tǒng)傳遞數(shù)據(jù)。Channel：Agent內(nèi)部的數(shù)據(jù)傳輸通道，用于從source將數(shù)據(jù)傳遞到sink；在整個數(shù)據(jù)的傳輸?shù)倪^程中，流動的是Event，它是Flume內(nèi)部數(shù)據(jù)傳輸?shù)淖罨締卧?。Event將傳輸?shù)臄?shù)據(jù)進行封裝。如果是文本文件，通常是一行記錄，Event也是事務(wù)的基本單位。Event從Source，流向Channel，再到Sink，本身為一個字節(jié)數(shù)組，并可攜帶headers(頭信息)信息。Event代表著一個數(shù)據(jù)的最小完整單元，從外部數(shù)據(jù)源來，向外部的目的地去。一個完整的Event包括：Eventheaders、Eventbody、Event信息，其中Event信息就是Flume收集到的日記記錄。kafka系統(tǒng)1)kafka的概念A(yù)pacheKafka是一個開源消息系統(tǒng)，由Scala語言編寫，以可水平擴展和高吞吐率而被廣泛使用。Kafka最初是由Linkedin公司開發(fā)，是一個分布式、分區(qū)的、多副本的、多訂閱者，基于Zookeeper協(xié)調(diào)的分布式消息系統(tǒng)，Linkedin于2010年貢獻給了Apache基金會并成為頂級開源項目，KafkaLogo如圖所示。Kafka官網(wǎng)地址為：/kafka系統(tǒng)2)

Kafka的特性特性概述高吞吐量、低延遲kafka每秒可以處理幾十萬條消息，它的延遲最低只有幾毫秒，每個topic可以分多個partition，consumergroup對partition進行consume操作?？蓴U展性Kafka集群支持熱擴展。持久性、可靠性消息被持久化到本地磁盤，并且支持數(shù)據(jù)備份防止數(shù)據(jù)丟失。容錯性允許集群中節(jié)點失?。ㄈ舾北緮?shù)量為n，則允許n-1個節(jié)點失?。?。高并發(fā)支持數(shù)千個客戶端同時讀寫。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(1)服務(wù)器節(jié)點(Broker)0102(2)主題(Topic)Kafka集群包含一個或多個服務(wù)器，服務(wù)器節(jié)點稱為Broker。Broker存儲Topic的數(shù)據(jù)。如果某Topic有N個Partition，集群有N個Broker，那么每個Broker存儲該Topic的一個Partition。如果某Topic有N個Partition，集群有(N+M)個Broker，那么其中有N個Broker存儲該Topic的一個Partition，剩下的M個Broker不存儲該Topic的Partition數(shù)據(jù)。如果某Topic有N個Partition，集群中Broker數(shù)目少于N個，那么一個Broker存儲該Topic的一個或多個Partition。在實際生產(chǎn)環(huán)境中，盡量避免這種情況的發(fā)生，這種情況容易導(dǎo)致Kafka集群數(shù)據(jù)不均衡。每條發(fā)布到Kafka集群的消息都有一個類別，這個類別被稱為Topic。（物理上不同Topic的消息分開存儲，邏輯上一個Topic的消息雖然保存于一個或多個broker上但用戶只需指定消息的Topic即可生產(chǎn)或消費數(shù)據(jù)而不必關(guān)心數(shù)據(jù)存于何處）類似于數(shù)據(jù)庫的表名。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(3)分區(qū)(Partition)0304(4)生產(chǎn)者(Producer)Topic中的數(shù)據(jù)分割為一個或多個Partition。每個Topic至少有一個Partition。每個Partition中的數(shù)據(jù)使用多個Segment文件存儲。Partition中的數(shù)據(jù)是有序的，不同Partition間的數(shù)據(jù)丟失了數(shù)據(jù)的順序。如果Topic有多個Partition，消費數(shù)據(jù)時就不能保證數(shù)據(jù)的順序。在需要嚴格保證消息的消費順序的場景下，需要將Partition數(shù)目設(shè)為1。生產(chǎn)者即數(shù)據(jù)的發(fā)布者，該角色將消息發(fā)布到Kafka的Topic中。Broker接收到生產(chǎn)者發(fā)送的消息后，Broker將該消息追加到當(dāng)前用于追加數(shù)據(jù)的Segment文件中。生產(chǎn)者發(fā)送的消息，存儲到一個Partition中，生產(chǎn)者也可以指定數(shù)據(jù)存儲的Partition。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(5)消費者(Consumer)0304(6)消費者群ConsumerGroup)消費者可以從Broker中讀取數(shù)據(jù)。消費者可以消費多個Topic中的數(shù)據(jù)。每個Consumer屬于一個特定的ConsumerGroup（可為每個Consumer指定GroupName，若不指定GroupName則屬于默認的Group）。kafka系統(tǒng)3)Kafka與RabbitMQ的區(qū)別區(qū)別Kafka傳統(tǒng)消息隊列架構(gòu)模型Kafka遵從一般的MQ結(jié)構(gòu)，Producer，Broker，Consumer，以Consumer為中心，消息的消費信息保存的客戶端Consumer上，Consumer根據(jù)消費的點，從Broker上批量Pull數(shù)據(jù)；無消息確認機制。Rabbitmq遵循AMQP協(xié)議，Rabbitmq的Brokerexchange，Binding，Queue組成，其中Exchange和Binding組成了消息的路由鍵；客戶端Producer通過連接Channel和Server進行通信，Consumer從Queue獲取消息進行消費（長連接，Queue有消息會推送到Consumer端，Consumer循環(huán)從輸入流讀取數(shù)據(jù)）。Rabbitmq以Broker為中心；有消息的確認機制。吞吐量方面Kafka具有高的吞吐量，內(nèi)部采用消息的批量處理，zero-copy機制，數(shù)據(jù)的存儲和獲取是本地磁盤順序批量操作，具有O(1)的復(fù)雜度，消息處理的效率很高。RabbitMQ在吞吐量方面稍遜于kafka，他們的出發(fā)點不一樣，rabbitMQ支持對消息的可靠的傳遞，支持事務(wù)，不支持批量的操作；基于存儲的可靠性的要求存儲可以采用內(nèi)存或者硬盤。可用性方面Kafka的broker支持主備模式。Rabbitmq支持Miror的Queue，主Queue失效，MirorQueue接管。集群負載均衡Kafka采用Zookeeper對集群中的Broker、Consumer進行管理，可以注冊Topic到Zookeeper上；通過Zookeeper的協(xié)調(diào)機制，Producer保存對應(yīng)Topic的Broker信息，可以隨機或者輪詢發(fā)送到Broker上；并且Producer可以基于語義指定分片，消息發(fā)送到Broker的某分片上。Rabbitmq支持集群模式，但不支持負載均衡。SqoopSqoop(SQL-to-Hadoop)項目旨在協(xié)助RDBMS與Hadoop之間進行高效的大數(shù)據(jù)交流，是一款基于MapReduce的數(shù)據(jù)遷移工具，同時也是一款開源的工具。它主要用在Hadoop(Hive)與非關(guān)系型數(shù)據(jù)庫(NoSQL、HBase等)間進行數(shù)據(jù)的傳遞，可以將一個關(guān)系型數(shù)據(jù)庫(MySQL，Oracle，PostgreSQL等)中的數(shù)據(jù)導(dǎo)人Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)人關(guān)系型數(shù)據(jù)庫中。隨著聯(lián)網(wǎng)的普及，企業(yè)積累的數(shù)據(jù)量越來越大，傳統(tǒng)的數(shù)據(jù)庫已經(jīng)無法滿足存儲需求，所以更多的用戶選擇使用Hadoop的HDFS來存儲數(shù)據(jù)。那么就需要將數(shù)據(jù)在傳統(tǒng)數(shù)據(jù)庫與HDFS之間進行轉(zhuǎn)移能夠幫助數(shù)據(jù)傳輸?shù)墓ぞ咦兊酶又匾pacheSqoop就是這樣一款開源工具，可以在Hadoop和關(guān)系型數(shù)據(jù)庫之間轉(zhuǎn)移大量數(shù)據(jù)。Sqoop項目開始于2009年，最早是作為Hadop的一個第三方模塊存在，后來為了讓使用者能夠快速部署，也為了讓開發(fā)人員能夠更快速地送代開發(fā),Sqoop獨立成為一個Apache項目。Sqoop本質(zhì)其實是將導(dǎo)入或?qū)С雒罘g成MapReduce程序并執(zhí)行。在翻譯成MapReduce程序中主要是對InputFormat和OutputFormat進行定制。隨著Sqoop的使用者越來越多，舊版本的Sqoop已經(jīng)漸漸暴露出一些缺點，開發(fā)人員優(yōu)化之后推出了一個新的系列版本Sqoop2。Sqoop1與Sqoop2是兩個完全不同的版本，它們并不兼容。Sqoopl通常是指1.4.x版本，Sqoop2是指1.99.x以后的版本。1)Sqoop的概念Sqoop(1)引入sqoopserver，集中化管理connector等。(2)多種訪問方式：CLI，WebUI，RESTAPI。(3)引入基于角色的安全機制。Sqoop2和Sqoop1的功能性對比，如下表所示：2）Sqoop2比sqoop1的改進：功能Sqoop1Sqoop2用于所有主要RDBMS的連接器支持不支持解決辦法：使用已在以下數(shù)據(jù)庫上執(zhí)行測試的通用JDBC連接器：Micros

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)運營》課件第1-3章大數(shù)據(jù)運營概述；大數(shù)據(jù)運營技術(shù)體系；數(shù)據(jù)采集、存儲以及處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

《大數(shù)據(jù)運營》 課件 第1-3章 大數(shù)據(jù)運營概述；大數(shù)據(jù)運營技術(shù)體系；數(shù)據(jù)采集、存儲以及處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

《大數(shù)據(jù)運營》課件第1-3章大數(shù)據(jù)運營概述；大數(shù)據(jù)運營技術(shù)體系；數(shù)據(jù)采集、存儲以及處理技術(shù)