《大數(shù)據(jù)運營》 課件 第1-3章 大數(shù)據(jù)運營概述;大數(shù)據(jù)運營技術(shù)體系;數(shù)據(jù)采集、存儲以及處理技術(shù)_第1頁
《大數(shù)據(jù)運營》 課件 第1-3章 大數(shù)據(jù)運營概述;大數(shù)據(jù)運營技術(shù)體系;數(shù)據(jù)采集、存儲以及處理技術(shù)_第2頁
《大數(shù)據(jù)運營》 課件 第1-3章 大數(shù)據(jù)運營概述;大數(shù)據(jù)運營技術(shù)體系;數(shù)據(jù)采集、存儲以及處理技術(shù)_第3頁
《大數(shù)據(jù)運營》 課件 第1-3章 大數(shù)據(jù)運營概述;大數(shù)據(jù)運營技術(shù)體系;數(shù)據(jù)采集、存儲以及處理技術(shù)_第4頁
《大數(shù)據(jù)運營》 課件 第1-3章 大數(shù)據(jù)運營概述;大數(shù)據(jù)運營技術(shù)體系;數(shù)據(jù)采集、存儲以及處理技術(shù)_第5頁
已閱讀5頁,還剩243頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)運營概述本章知識點(1)理解大數(shù)據(jù)的概念(2)了解數(shù)據(jù)化運營的概念(3)掌握數(shù)據(jù)化運營的主要內(nèi)容(4)掌握大數(shù)據(jù)運營的應(yīng)用場景以及在企業(yè)中的運用案例01大數(shù)據(jù)及其特點02大數(shù)據(jù)的應(yīng)用03數(shù)據(jù)化運營04數(shù)據(jù)化運營的意義PART01大數(shù)據(jù)及其特點大數(shù)據(jù)的概念數(shù)據(jù)數(shù)據(jù)是指對客觀事件進(jìn)行記錄并可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。信息主要采用數(shù)據(jù)形式來表示信息與數(shù)據(jù)既有聯(lián)系,又有區(qū)別。數(shù)據(jù)是信息的載體,可以是符號、文字、數(shù)字、語音、圖像、視頻等。而信息是數(shù)據(jù)的內(nèi)涵,信息是加載于數(shù)據(jù)之上,對數(shù)據(jù)做具有含義的解釋。數(shù)據(jù)和信息是不可分離的,信息依賴數(shù)據(jù)來表達(dá),數(shù)據(jù)則生動具體地表達(dá)出信息。數(shù)據(jù)是符號,是物理性的,信息是對數(shù)據(jù)進(jìn)行加工處理之后所得到的并對決策產(chǎn)生影影響的數(shù)據(jù),是邏輯性和觀念性的;數(shù)據(jù)是信息的表現(xiàn)形式,信息是數(shù)據(jù)有意義的表示。數(shù)據(jù)本身沒有意義,只有對實體行為產(chǎn)生影響時數(shù)據(jù)才成為信息。大數(shù)據(jù)的概念大數(shù)據(jù)大數(shù)據(jù)是指在獲取、存儲、管理、分析等方面大大超出傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,并具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低等四大特征,在數(shù)據(jù)行業(yè),要實現(xiàn)數(shù)字產(chǎn)業(yè)化,產(chǎn)業(yè)數(shù)字化,前提是要有海量數(shù)據(jù)。大數(shù)據(jù)作為當(dāng)今社會最先進(jìn)的技術(shù)之一,已經(jīng)深刻地影響和改變著當(dāng)今人類社會。數(shù)據(jù)在我們的生活中無處不在,如清晨起床我們用手機打開新聞資訊,此時就產(chǎn)生了數(shù)據(jù);早高峰乘坐地鐵,刷二維碼進(jìn)站又產(chǎn)生了數(shù)據(jù);打開購物網(wǎng)站,下單購買商品,還是會產(chǎn)生數(shù)據(jù)生活在當(dāng)今這個高度信息化的社會:一切行為幾乎都可以用數(shù)據(jù)來描述,這種情況幾乎發(fā)生在每個人的身上(見圖)。每時每刻都有上億條數(shù)據(jù)產(chǎn)生,這些海量數(shù)據(jù)流入那些提供互聯(lián)網(wǎng)服務(wù)的公司,存儲在他們的系統(tǒng)中。如果不對其加以利用,這些數(shù)據(jù)只會給系統(tǒng)造成沉重的負(fù)擔(dān),但如果善于挖掘,這些數(shù)據(jù)就可以產(chǎn)生巨大的商業(yè)價值。大數(shù)據(jù)的特征大數(shù)據(jù)的起始計量單位至少是P(1000個TE(100萬個T)或Z(10億個T)。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),當(dāng)前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。根據(jù)國際數(shù)據(jù)資訊(IDC)公司監(jiān)測全球數(shù)據(jù)量大約每兩年就翻一番預(yù)計到2025年,全球數(shù)據(jù)使用量將達(dá)到163EB并且85%以上的數(shù)據(jù)是以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在的。

數(shù)據(jù)體量巨大Volume數(shù)據(jù)類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。數(shù)據(jù)類型繁多Variety數(shù)據(jù)價值密度的高低與數(shù)據(jù)總量的大小成反比。在大數(shù)據(jù)時代,越來越多的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)站訪問日志,里面大量的內(nèi)容都是沒有價值的,真正有價值的數(shù)據(jù)比較少,雖然數(shù)據(jù)量比以前大了N倍,但價值密度確實低了很多。所以如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下待解決的難題。數(shù)據(jù)價值密度低Value隨著互聯(lián)網(wǎng)、計算機技術(shù)的發(fā)展,數(shù)據(jù)生成、存儲、分析、處理的速度遠(yuǎn)遠(yuǎn)超出人們的想象,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的顯著特征。隨著新數(shù)據(jù)的不斷出現(xiàn),人們對數(shù)據(jù)處理的速度提出了越來越高的要求,所以處理數(shù)據(jù)的效率就是企業(yè)的生命線。數(shù)據(jù)處理速度快Velocity業(yè)界通常用體量(volume)、種類(variety)、價值(value)、速度(velocity),即4v特征來概括大數(shù)據(jù)的特征大數(shù)據(jù)的發(fā)展歷程數(shù)據(jù)是通過觀察、實驗或計算得出的結(jié)果。數(shù)據(jù)和信息是兩個不同的概念。信息是較為宏觀的概念,它由數(shù)據(jù)的有序排列組合而成,傳達(dá)給讀者某個概念方法等;而數(shù)據(jù)則是構(gòu)成信息的基本單位,離散的數(shù)據(jù)沒有任何實用價值。隨著人類社會信息化進(jìn)程的加快,我們在日常生產(chǎn)和生活中每天都會產(chǎn)生大量的數(shù)據(jù),比如商業(yè)網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動化生產(chǎn)系統(tǒng)等。數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素,從新到所有決策,數(shù)據(jù)推動著企業(yè)的發(fā)展,并使得各級組織的運營更為高效,可以這樣說,數(shù)據(jù)已成為每個企業(yè)獲取核心競爭力的關(guān)鍵要素。數(shù)據(jù)資源已經(jīng)和物質(zhì)資源、人力資源一樣成為國家的重要戰(zhàn)略資源,影響著國家和社會的安全、穩(wěn)定與發(fā)展,因此,數(shù)據(jù)也可稱為“未來的石油”。數(shù)據(jù)產(chǎn)生方式的變革是促成大數(shù)據(jù)時代來臨的重要因素。大數(shù)據(jù)的發(fā)展歷程數(shù)據(jù)產(chǎn)生方式的變革,是促成大數(shù)據(jù)時代來臨的重要因素。總體而言,人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個階段:運營式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段。運營式系統(tǒng)階段人類社會最早大規(guī)模管理和使用數(shù)據(jù),是從數(shù)據(jù)庫的誕生開始的。大型零售超市銷售系統(tǒng)、銀行交易系統(tǒng)、股市交易系統(tǒng)、醫(yī)院醫(yī)療系統(tǒng)、企業(yè)客戶管理系統(tǒng)等大量運營式系統(tǒng),都是建立在數(shù)據(jù)庫基礎(chǔ)之上的,數(shù)據(jù)庫中保存了大量結(jié)構(gòu)化的企業(yè)關(guān)鍵信息,用來滿足企業(yè)各種業(yè)務(wù)需求。在這個階段,數(shù)據(jù)的產(chǎn)生方式是被動的,只有當(dāng)實際的企業(yè)業(yè)務(wù)發(fā)生時,才會產(chǎn)生新的記錄并存入數(shù)據(jù)庫。比如,對于股市交易系統(tǒng)而言,只有當(dāng)發(fā)生一筆股票交易時,才會有相關(guān)記錄生成。用戶原創(chuàng)內(nèi)容階段互聯(lián)網(wǎng)的出現(xiàn),使得數(shù)據(jù)傳播更加快捷,不需要借助于磁盤、磁帶等物理存儲介質(zhì)傳播數(shù)據(jù),網(wǎng)頁的出現(xiàn)進(jìn)一步加速了大量網(wǎng)絡(luò)內(nèi)容的產(chǎn)生,從而使得人類社會數(shù)據(jù)量開始呈現(xiàn)“井噴式”增長。但是,互聯(lián)網(wǎng)真正的數(shù)據(jù)爆發(fā)產(chǎn)生于以“用戶原創(chuàng)內(nèi)容”為特征的Web2.0時代。Web1.0時代主要以門戶網(wǎng)站為代表,強調(diào)內(nèi)容的組織與提供,大量上網(wǎng)用戶本身并不參與內(nèi)容的產(chǎn)生。而Web2.0技術(shù)以Wiki、博客、微博、微信等自服務(wù)模式為主,強調(diào)自服務(wù),大量上網(wǎng)用戶本身就是內(nèi)容的生成者,尤其是隨著移動互聯(lián)網(wǎng)和智能手機終端的普及,人們更是可以隨時隨地使用手機發(fā)微博、傳照片,數(shù)據(jù)量開始急劇增加。感知式系統(tǒng)階段物聯(lián)網(wǎng)的發(fā)展最終導(dǎo)致了人類社會數(shù)據(jù)量的第三次躍升。物聯(lián)網(wǎng)中包含大量傳感器,如溫度傳感器、濕度傳感器、壓力傳感器、位移傳感器、光電傳感器等,此外,視頻監(jiān)控攝像頭也是物聯(lián)網(wǎng)的重要組成部分。物聯(lián)網(wǎng)中的這些設(shè)備,每時每刻都在自動產(chǎn)生大量數(shù)據(jù),與Web2.0時代的人工數(shù)據(jù)產(chǎn)生方式相比,物聯(lián)網(wǎng)中的自動數(shù)據(jù)產(chǎn)生方式,將在短時間內(nèi)生成更密集、更大量的數(shù)據(jù),使得人類社會迅速步入“大數(shù)據(jù)時代”。大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為3個重要階段:萌芽期、成熟期和大規(guī)模應(yīng)用期20世紀(jì)90年代至21世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等第一階段:萌芽期21世紀(jì)前10年Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對,帶動了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟形成了并行計算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺開始大行其道第二階段:成熟期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動決策,信息社會智能化程度大幅第三階段:大規(guī)模應(yīng)用期大數(shù)據(jù)的發(fā)展歷程時間事件1980年著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。1997年10月邁克爾·考克斯和大衛(wèi)·埃爾斯沃思在第八屆美國電氣和電子工程師協(xié)會(IEEE)關(guān)于可視化的會議論文集中,發(fā)表了《為外存模型可視化而應(yīng)用控制程序請求頁面調(diào)度》的文章,這是在美國計算機學(xué)會的數(shù)字圖書館中第一篇使用“大數(shù)據(jù)”這一術(shù)語的文章。1999年10月在美國電氣和電子工程師協(xié)會(IEEE)關(guān)于可視化的年會上,設(shè)置了名為“自動化或者交互:什么更適合大數(shù)據(jù)?”的專題討論小組,探討大數(shù)據(jù)問題。2001年2月梅塔集團(tuán)分析師道格·萊尼發(fā)布題為《3D數(shù)據(jù)管理:控制數(shù)據(jù)容量、處理速度及數(shù)據(jù)種類》的研究報告。10年后,“3V”(Volume、Variety和Velocity)作為定義大數(shù)據(jù)的三個維度而被廣泛接受。2005年9月蒂姆·奧萊利發(fā)表了《什么是Web2.0》一文,并在文中指出“數(shù)據(jù)將是下一項技術(shù)核心”。2008年《自然》雜志推出大數(shù)據(jù)???;計算社區(qū)聯(lián)盟(ComputingCommunityConsortium)發(fā)表了報告《大數(shù)據(jù)計算:在商業(yè)、科學(xué)和社會領(lǐng)域的革命性突破》,闡述了大數(shù)據(jù)技術(shù)及其面臨的一些挑戰(zhàn)。2010年2月肯尼斯·庫克爾在《經(jīng)濟學(xué)人》上發(fā)表了一份關(guān)于管理信息的特別報告《數(shù)據(jù),無所不在的數(shù)據(jù)》。大數(shù)據(jù)的發(fā)展歷程時間事件2011年2月《科學(xué)》雜志推出??短幚頂?shù)據(jù)》,討論了科學(xué)研究中的大數(shù)據(jù)問題。2011年維克托·邁爾·舍恩伯格出版著作《大數(shù)據(jù)時代:生活、工作與思維的大變革》,引起轟動。2011年5月麥肯錫全球研究院發(fā)布《大數(shù)據(jù):下一個具有創(chuàng)新力、競爭力與生產(chǎn)力的前沿領(lǐng)域》,提出“大數(shù)據(jù)”時代到來。2012年3月美國奧巴馬政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,正式啟動“大數(shù)據(jù)發(fā)展計劃”,大數(shù)據(jù)上升為美國國家發(fā)展戰(zhàn)略,被視為美國政府繼信息高速公路計劃之后在信息科學(xué)領(lǐng)域的又一重大舉措。2013年12月中國計算機學(xué)會發(fā)布《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》,系統(tǒng)總結(jié)了大數(shù)據(jù)的核心科學(xué)與技術(shù)問題,推動了我國大數(shù)據(jù)學(xué)科的建設(shè)與發(fā)展,并為政府部門提供了戰(zhàn)略性的意見與建議。2014年5月美國政府發(fā)布2014年全球“大數(shù)據(jù)”白皮書《大數(shù)據(jù):抓住機遇、守護(hù)價值》,報告鼓勵使用數(shù)據(jù)來推動社會進(jìn)步。2015年8月國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,全面推進(jìn)我國大數(shù)據(jù)發(fā)展和應(yīng)用,加快建設(shè)數(shù)據(jù)強國。大數(shù)據(jù)的發(fā)展歷程時間事件2016年5月在“2016大數(shù)據(jù)產(chǎn)業(yè)峰會”上工信部透露,我國將制定出臺大數(shù)據(jù)產(chǎn)業(yè)“十三五”發(fā)展規(guī)劃,有力推進(jìn)我國大數(shù)據(jù)技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展。2017年9月公安部第三研究所授予貴陽大數(shù)據(jù)交易所"eID網(wǎng)絡(luò)身份服務(wù)機構(gòu)"資質(zhì)證書成立國內(nèi)首個數(shù)據(jù)交易合規(guī)化研究實驗項目。2018年2月,中國人民銀行正式下發(fā)銀征信許準(zhǔn)予字2018第1號許可文件,設(shè)立首張經(jīng)營個人征信業(yè)務(wù)的機構(gòu)許可信息表。3月,我國數(shù)據(jù)管理領(lǐng)域首個國家標(biāo)準(zhǔn)《數(shù)據(jù)管理能力成熟度評估模型》正式發(fā)布。2019年10月在第六屆世界互聯(lián)網(wǎng)大會期間組織召開了“國家數(shù)字經(jīng)濟創(chuàng)新發(fā)展試驗區(qū)啟動會”,并發(fā)布了《國家數(shù)字經(jīng)濟創(chuàng)新發(fā)展試驗區(qū)實施方案》,正式啟動河北省(雄安新區(qū))、浙江省、福建省、廣東省、重慶市、四川省等6個國家數(shù)字經(jīng)濟新發(fā)展試驗區(qū)建設(shè)工作。2020年突如其來的新冠肺炎疫情,為各行各業(yè)帶來了前所未有的挑戰(zhàn)。然而,在危機中,以大數(shù)據(jù)等為代表的新一代信息技術(shù)在疫情監(jiān)測分析、人員管控、醫(yī)療救治、復(fù)工復(fù)產(chǎn)等方面提供了強大支撐,各種新業(yè)態(tài)、新模式不斷涌現(xiàn)。數(shù)字化驅(qū)動的技術(shù)和產(chǎn)業(yè)變革加速發(fā)展,大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)和應(yīng)用逆勢而上,數(shù)據(jù)的作用在各行各業(yè)中大放異彩,“數(shù)據(jù)驅(qū)動”的價值深入人心。2021年3月,北京市經(jīng)濟和信息化局會同北京市金融局、北京市商務(wù)局、北京市委網(wǎng)信辦等部門,組織北京金控集團(tuán)牽頭發(fā)起成立北京國際大數(shù)據(jù)交易有限公司,這是國內(nèi)首家基于“數(shù)據(jù)可用不可見,用途可控可計量”新型交易范式的數(shù)據(jù)交易所。2021年11月,工信部印發(fā)《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,在響應(yīng)國家“十四五”規(guī)劃的基礎(chǔ)上,圍繞“價值引領(lǐng)、基礎(chǔ)先行、系統(tǒng)推進(jìn)、融合創(chuàng)新、安全發(fā)展、開放合作”六大基本原則,針對“十四五”期間大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展制定了5個發(fā)展目標(biāo),大主要任務(wù),6項具體行動以及6個方面的保障措施,同時指出在當(dāng)前我國邁入數(shù)字經(jīng)濟的關(guān)鍵時期,大數(shù)據(jù)產(chǎn)業(yè)將步入“集成創(chuàng)新、快速發(fā)展、深度應(yīng)用、結(jié)構(gòu)優(yōu)化”的高質(zhì)量發(fā)展新階段。PART02大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的應(yīng)用隨著互聯(lián)網(wǎng)和智能設(shè)備的應(yīng)用和普及,大量數(shù)據(jù)正在不斷產(chǎn)生,并呈爆發(fā)式增長趨勢。大數(shù)據(jù)對物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、農(nóng)業(yè)、金融、通信等行業(yè)已造成深刻影響,據(jù)調(diào)查,企業(yè)內(nèi)部的運營交易信息、互聯(lián)網(wǎng)技術(shù)中的產(chǎn)品貨運物流信息、人和人之間互動信息、位置信息等數(shù)據(jù),每2~3年時間便會成倍增加。信息是當(dāng)代企業(yè)的關(guān)鍵資源,是企業(yè)應(yīng)用創(chuàng)新管理、決策分析的基本。這種數(shù)據(jù)有著極大的經(jīng)濟收益,可是企業(yè)所關(guān)心的數(shù)據(jù)一般只占總數(shù)據(jù)量的2%~4%,使企業(yè)無法最大化地運用已有的數(shù)據(jù)資源,以至于消耗了大量的時間和資產(chǎn),也喪失制訂重要商業(yè)服務(wù)管理決策的最好時機,針對一般的企業(yè)來講,大數(shù)據(jù)的功效具體表現(xiàn)在兩個層面。協(xié)助企業(yè)搜集信息大數(shù)據(jù)可以根據(jù)相關(guān)分析,將顧客和商品、服務(wù)項目進(jìn)行串聯(lián),對用戶的喜好開展精準(zhǔn)定位,進(jìn)而提供更精確、更有主導(dǎo)性的商品和服務(wù)項目,從而提高銷售額。典型性的案例如電子商務(wù)。像阿里巴巴淘寶網(wǎng)那樣的電商服務(wù)平臺,累積了很多的用戶選購數(shù)據(jù)。在初期,這些數(shù)據(jù)基本上是負(fù)累和壓力,因為存儲數(shù)據(jù)必須支付很高的硬件配置成本費。但是,如今這些數(shù)據(jù)全是阿里巴巴最珍貴的財富。大數(shù)據(jù)還可以對業(yè)績產(chǎn)生直接影響,它的高效率轉(zhuǎn)化和精確性,遠(yuǎn)遠(yuǎn)地超出傳統(tǒng)式的用戶調(diào)查。除了電子商務(wù),還包含能源、影視、證券、金融、農(nóng)業(yè)、工業(yè)、交通運輸、公共事業(yè)等行業(yè)都是大數(shù)據(jù)的用武之地。協(xié)助企業(yè)分析決策除幫助企業(yè)掌握用戶數(shù)據(jù)以外,大數(shù)據(jù)還能讓企業(yè)更加精準(zhǔn)地認(rèn)識自己。企業(yè)運營需要很多的資源,大數(shù)據(jù)能夠剖析和鎖住資源的詳細(xì)情況,比如儲藏量遍布和要求的發(fā)展趨勢。這種資源的數(shù)據(jù)可視化能夠協(xié)助企業(yè)管理人員更形象化地掌握企業(yè)的運行情況,迅速地發(fā)現(xiàn)問題,并立即調(diào)整運營策略,減少財務(wù)風(fēng)險??偟膩碚f,“知彼知己,百戰(zhàn)不殆”,大數(shù)據(jù)是為管理者提供決策服務(wù)最有力的依據(jù)。對于企業(yè)來說,大數(shù)據(jù)服務(wù)的目標(biāo)可以歸結(jié)為“降本增效”四個字。企業(yè)可以借助大數(shù)據(jù)服務(wù)做精準(zhǔn)化營銷,將企業(yè)的產(chǎn)品有效地傳遞給有此需求的用戶,在為客戶創(chuàng)造價值的同時增加企業(yè)收入。企業(yè)還可以借助大數(shù)據(jù)了解客戶的偏好,從而更好地為客戶提供服務(wù),提升客戶感知水平。雖然提升客戶服務(wù)體驗并沒有直接為企業(yè)帶來收入,但是通過這種方式提升了企業(yè)在客戶心中的形象,使得客戶獲取企業(yè)服務(wù)更加便捷、高效,客戶也因此更喜歡購買企業(yè)的產(chǎn)品,從而增加了企業(yè)的收入。企業(yè)可以借助大數(shù)據(jù)服務(wù)降低成本。從費用支出的類型角度看,成本消耗主要分為屬于投資建設(shè)的CAPAX資本性支出投資和業(yè)務(wù)運營的。PEX(運營資出)投資兩部分,因此企業(yè)可以借助大數(shù)據(jù)服務(wù)降低這兩部分投資,比如在降低CAPAX投資方面,可以以用戶價值為中心進(jìn)行資源的建設(shè),避免因為靠“假設(shè)”“猜想”而造成投資浪費。在降低OPEX投資方面,企業(yè)可以借助大數(shù)據(jù)服務(wù)來發(fā)現(xiàn)企業(yè)流程中存在的問題,通過流程優(yōu)化來提高運營效率,從而降低企業(yè)的整體運營成本。大數(shù)據(jù)的應(yīng)用(1)大數(shù)據(jù)助力政府部門完成市場經(jīng)濟體制管控、公共衛(wèi)生服務(wù)安全防護(hù)、災(zāi)禍預(yù)警信息、社會發(fā)展輿論導(dǎo)向;協(xié)助城市犯罪預(yù)防,實現(xiàn)智慧交通,提高應(yīng)急能力;電力企業(yè)會根據(jù)大數(shù)據(jù)實時做數(shù)據(jù)的檢測和預(yù)測分析,使我們更強、更便捷地做這類電力工程的生產(chǎn)調(diào)度。(2)大數(shù)據(jù)在醫(yī)療中也有比較廣泛的應(yīng)用。例如,基因工程技術(shù)及其病癥的預(yù)測分析剖析、手術(shù)治療計劃方案等都會用到大數(shù)據(jù)。大數(shù)據(jù)協(xié)助定點醫(yī)療機構(gòu)創(chuàng)建患者的病癥風(fēng)險性追蹤體制,協(xié)助醫(yī)藥企業(yè)提高藥物臨床醫(yī)學(xué)的實際效果,協(xié)助科學(xué)研究組織為病人提供定制化的藥品。(3)大數(shù)據(jù)幫助電商公司向用戶推薦商品和服務(wù)旅行網(wǎng)站為游客提供心愛的旅游線路,二手市場的買賣方尋找最好的買賣總體目標(biāo),用戶可以更快尋找到最好的產(chǎn)品選購階段、店家及最優(yōu)惠價。(4)大數(shù)據(jù)助力企業(yè)提高營銷推廣的針對性,減少物流和庫存量的成本,降低項目投資的風(fēng)險性,及其協(xié)助企業(yè)提高廣告營銷精確度。例如,云鯨大數(shù)據(jù)助力各行業(yè)直接獲得相關(guān)App/網(wǎng)站用戶的訪客信息,這在很大程度上減少了企業(yè)推廣或引流的成本,就可以直達(dá)意向用戶。PART03數(shù)據(jù)化運營數(shù)據(jù)化運營概況數(shù)據(jù)化運營是指通過數(shù)據(jù)化的工具、技術(shù)和方法,對運營過程中的各個環(huán)節(jié)進(jìn)行科學(xué)的分析,為數(shù)據(jù)使用者提供專業(yè)、準(zhǔn)確的行業(yè)數(shù)據(jù)解決方案,從而達(dá)到優(yōu)化運營效果和效率、降低運營成本、提高效益的目的。數(shù)據(jù)化運營的本質(zhì)還是運營,“數(shù)據(jù)化”僅僅是方法和手段,“運營”才是核心和目的,用數(shù)據(jù)指導(dǎo)業(yè)務(wù)運營的決策,提升業(yè)務(wù)運營的效率,實現(xiàn)業(yè)務(wù)增長的目標(biāo)。數(shù)據(jù)化運營不等于數(shù)據(jù)分析,數(shù)據(jù)分析僅僅是數(shù)據(jù)化運營的一個關(guān)鍵環(huán)節(jié)和重要手段。數(shù)據(jù)化運營是基于數(shù)據(jù)去發(fā)現(xiàn)問題,分析問題,然后通過運營的手段找到問題的解決辦法并付諸實踐的閉環(huán)工作。企業(yè)中的數(shù)據(jù)從產(chǎn)生到應(yīng)用,需要經(jīng)過數(shù)據(jù)源層、數(shù)據(jù)倉庫層、數(shù)據(jù)建模層、數(shù)據(jù)應(yīng)用層,經(jīng)過層層的加工,將原始數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)建模、再到數(shù)據(jù)挖掘,最終在應(yīng)用層產(chǎn)生價值,實現(xiàn)面向用戶的智能營銷和個性化內(nèi)容的推薦,從而實現(xiàn)降本增效的運營目的。數(shù)據(jù)化運營基本概念數(shù)據(jù)化運營概況隨著信息化時代的來臨及全球數(shù)字化浪潮的推進(jìn),企業(yè)在運營中都產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù)是實現(xiàn)商業(yè)智能的基礎(chǔ)。例如,沃爾瑪“啤酒與尿布”的經(jīng)典案例就是數(shù)據(jù)實現(xiàn)商業(yè)智能的一個體現(xiàn)。1987年,沃爾瑪完成了公司內(nèi)部的衛(wèi)星系統(tǒng)的安裝,該系統(tǒng)使得總部,分銷中心和各個商場之間可以實現(xiàn)實時、雙向的數(shù)據(jù)和聲音傳輸,從運營數(shù)據(jù)中發(fā)現(xiàn)了“啤酒與尿布”關(guān)聯(lián)。如今,沃爾瑪?shù)臄?shù)據(jù)倉庫中存儲著沃爾瑪數(shù)千家連鎖店在65周內(nèi)每一筆銷售的詳細(xì)記錄,通過這些數(shù)據(jù),業(yè)務(wù)員可以分析顧客的購買行為,從而供應(yīng)最佳的銷售服務(wù)。數(shù)據(jù)化運營基本概念數(shù)據(jù)化運營概況企業(yè)大數(shù)據(jù)發(fā)展的階段性根據(jù)企業(yè)的數(shù)據(jù)量、數(shù)據(jù)更新速度、數(shù)據(jù)應(yīng)用程度、數(shù)據(jù)平臺建設(shè)及應(yīng)用能力進(jìn)行如下劃分:1)無平臺階段在該階段,企業(yè)的數(shù)據(jù)量較少,且數(shù)據(jù)腳本零散地存儲在不同的地方。信息處理主要靠人工進(jìn)行,管理者和運營人員不會過多關(guān)注數(shù)據(jù),有時階段性地觀察一下宏觀的數(shù)據(jù)而且企業(yè)也沒有數(shù)據(jù)平臺2)小型數(shù)據(jù)平臺階段處于小型數(shù)據(jù)平臺階段的企業(yè),擁有一些數(shù)據(jù)儲備,且各部門定期有數(shù)據(jù)需求,需要搭建小型數(shù)據(jù)平臺,用以獲取核心數(shù)據(jù)指標(biāo)。小型數(shù)據(jù)平臺的開發(fā)周期較短,工作量也較少3)中型數(shù)據(jù)平臺階段處于中型數(shù)據(jù)平臺階段的企業(yè),數(shù)據(jù)量大且數(shù)據(jù)更新速度較快,管理者做出決策需要依靠數(shù)據(jù),這個階段就需要一個中型數(shù)據(jù)平臺來支撐各部門的數(shù)據(jù)需求,同時建立起相應(yīng)的信息處理系統(tǒng),且需要專業(yè)的團(tuán)隊對系統(tǒng)進(jìn)行維護(hù)。4)大型數(shù)據(jù)平臺階段隨著企業(yè)規(guī)模逐步增大,數(shù)據(jù)呈現(xiàn)爆發(fā)式增長、秒級更新、應(yīng)用需求高的特點。處于這個階段的企業(yè),需要搭建大型數(shù)據(jù)平臺,投入足夠的人力、物力及資源去保障平臺的運作,數(shù)據(jù)倉庫也需要不定期地做升級和變遷。企業(yè)在這個階段需要有非常豐富的數(shù)據(jù)產(chǎn)品來支持業(yè)務(wù)的發(fā)展和運營數(shù)據(jù)化運營流程明確目標(biāo)指標(biāo)體系數(shù)據(jù)獲取數(shù)據(jù)分析策略建議評估優(yōu)化數(shù)據(jù)化運營第一步要搞清楚業(yè)務(wù)的核心目標(biāo)是什么,用戶運營和產(chǎn)品運營有著不同的場景和目標(biāo),可以通過圍繞業(yè)務(wù)的關(guān)鍵績效指標(biāo)(keyperformanceindicator,KPI)展開在業(yè)務(wù)目標(biāo)確定后,基于目標(biāo)進(jìn)行數(shù)據(jù)指標(biāo)的拆解,構(gòu)建相應(yīng)的用戶運營、產(chǎn)品運營業(yè)務(wù)的監(jiān)控和結(jié)果評價的指標(biāo)體系。根據(jù)指標(biāo)體系確定數(shù)據(jù)的采集點。對于流量、行為類的數(shù)據(jù)必須要先進(jìn)行埋點,埋點是指在應(yīng)用的特定流程中,收集用戶行為信息、還原用戶場景來指導(dǎo)產(chǎn)品功能改進(jìn),驗證客戶服務(wù)質(zhì)量。在數(shù)據(jù)團(tuán)隊經(jīng)常遇到業(yè)務(wù)產(chǎn)品找項目管理(projectmanager,PM)要數(shù)據(jù),最后卻發(fā)現(xiàn)都沒有埋點。利用相應(yīng)的數(shù)學(xué)模型對收集的數(shù)據(jù)進(jìn)行分析,并根據(jù)運營要求采用數(shù)據(jù)可視化方法對采集到的數(shù)據(jù)進(jìn)行處理,形成分析報告?;跀?shù)據(jù)分析報告,通過數(shù)理思維來推導(dǎo)、發(fā)現(xiàn)運營業(yè)務(wù)存在的問題或?qū)ふ覞撛谠鲩L點,企業(yè)以此支撐業(yè)務(wù)決策,驅(qū)動產(chǎn)品流程改進(jìn)優(yōu)化。分析結(jié)論或策略建議在產(chǎn)品或運營端實施之后,可通過AB測試對比、效果分析、持續(xù)優(yōu)化迭代等方法進(jìn)行評估優(yōu)化。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢起初從事數(shù)據(jù)運營的人是企業(yè)的IT部門兼任,隨著數(shù)據(jù)在業(yè)務(wù)運營上占據(jù)越來越重要的地位,從事數(shù)據(jù)運營的專職崗位也應(yīng)運而生。目前市面上數(shù)據(jù)人才是比較稀缺的,因為數(shù)據(jù)人才需要橫跨三個專業(yè):數(shù)學(xué)、商科、計算機,且該崗位培養(yǎng)周期長,需要在既懂業(yè)務(wù),又能掌握計算機相關(guān)技能及工具實現(xiàn)數(shù)據(jù)分析與可視化。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢目前,中國高校正在開設(shè)數(shù)據(jù)科學(xué)與技術(shù)、數(shù)字經(jīng)濟等新興專業(yè),培養(yǎng)社會上急需的大數(shù)據(jù)運營的人才。但高校人才培養(yǎng)往往受到培養(yǎng)周期長、產(chǎn)教融合脫節(jié)等諸多原因,而滯后于產(chǎn)業(yè)的人才需求,目前企業(yè)的數(shù)據(jù)技術(shù)人才依然處于稀缺狀態(tài),專家認(rèn)為數(shù)字技術(shù)人才具有要求高供給少、需求大的特點,且未來10~20年都將處于稀缺狀態(tài)。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢數(shù)據(jù)化運營的崗位及崗位職責(zé)大型企業(yè)將數(shù)據(jù)運營部門設(shè)置為一級部門,設(shè)置數(shù)據(jù)運營部門負(fù)責(zé)人(總經(jīng)理級)、數(shù)據(jù)運營高級總監(jiān)、數(shù)據(jù)運營總監(jiān)、數(shù)據(jù)運營高級經(jīng)理、數(shù)據(jù)運營經(jīng)理、數(shù)據(jù)運營主管及數(shù)據(jù)運營專員等七個職級。數(shù)據(jù)運營部門的整體職責(zé)如下:搭建全鏈路數(shù)據(jù)架構(gòu):梳理及重構(gòu)供應(yīng)鏈,基于供應(yīng)鏈和業(yè)務(wù)需求節(jié)點進(jìn)行數(shù)據(jù)需求架構(gòu);沉淀業(yè)務(wù)方法論,通過協(xié)同模式快速復(fù)制,對外賦能,提升行業(yè)效率。建立品類標(biāo)準(zhǔn)與商業(yè)規(guī)則:調(diào)研商品,并完成非標(biāo)品的標(biāo)準(zhǔn)化工作,同時承擔(dān)新商品開發(fā)研究工作;制定自動化運營商業(yè)規(guī)則,承擔(dān)制定平臺商業(yè)制度的職責(zé);統(tǒng)籌行業(yè)、品類、商品研究,建立標(biāo)準(zhǔn)化商品數(shù)據(jù)庫,進(jìn)行商品管理和商品策略研究。通過數(shù)據(jù)運營提升內(nèi)外部效率:打通銷售效率、物流效率、渠道商績效,需求預(yù)測數(shù)據(jù)等指標(biāo),建立關(guān)聯(lián),量化各個環(huán)節(jié)的效率提升點,并制定提升方案;研究、提供并推進(jìn)B端和C端體驗和品質(zhì)提升方案。行業(yè)研究與市場洞察:通過市場調(diào)查、情報收集及時掌握市場和行業(yè)動態(tài)。數(shù)據(jù)贖能BP:承擔(dān)各個BU、城市數(shù)據(jù)賦能BP的職責(zé);清晰傳遞集閉戰(zhàn)略和執(zhí)行信息、建立各級數(shù)據(jù)看板,推動自動化決策分析,及時收集各城市的問題并向總部反饋。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢數(shù)據(jù)化運營的崗位及崗位職責(zé)部門負(fù)責(zé)人崗位職責(zé)全面負(fù)責(zé)公司的數(shù)據(jù)運營管理,完成業(yè)務(wù)規(guī)劃、平臺優(yōu)化、資源整合,確定核心產(chǎn)品和服務(wù)及對應(yīng)的商業(yè)模式和盈利模式。研究運營數(shù)據(jù)和用戶反饋,挖掘用戶需求,發(fā)現(xiàn)運營中的問題并給出解決方案。構(gòu)建全面、準(zhǔn)確、能反映業(yè)務(wù)特征的監(jiān)控指標(biāo)體系,并基于業(yè)務(wù)指標(biāo)體系,及時發(fā)現(xiàn)和定位問題。通過專業(yè)分析,對業(yè)務(wù)問題進(jìn)行深入分析,為公司的運營決策、產(chǎn)品方向、商業(yè)策略提供數(shù)據(jù)支持。對產(chǎn)品、運營、市場及客戶關(guān)系管理等領(lǐng)域提供業(yè)務(wù)支持。與內(nèi)外部相關(guān)團(tuán)隊協(xié)作,推動業(yè)務(wù)部門的數(shù)據(jù)化運背,技術(shù)產(chǎn)品開發(fā)、工具培訓(xùn)等。產(chǎn)品發(fā)展方向進(jìn)行預(yù)測,及時調(diào)整業(yè)務(wù)和產(chǎn)品策略,合理制定業(yè)務(wù)和產(chǎn)負(fù)責(zé)收集并研究行業(yè)及競爭對手信息,了解和分析客戶需求,對市場及品規(guī)劃。制定業(yè)務(wù)規(guī)則并對其進(jìn)行管理,承擔(dān)制定平臺商業(yè)制度的職責(zé),提升平臺業(yè)務(wù)品質(zhì)。數(shù)據(jù)化運營的職業(yè)發(fā)展趨勢數(shù)據(jù)化運營的崗位及崗位職責(zé)部門負(fù)責(zé)人任職要求數(shù)據(jù)挖掘、機器學(xué)習(xí)、計算機、統(tǒng)計、數(shù)學(xué)等相關(guān)領(lǐng)域本科或以上學(xué)歷,至少擁有8年以上豐富的互聯(lián)網(wǎng)行業(yè)背景,3年以上運營經(jīng)理/總監(jiān)崗位的經(jīng)驗。能熟練地獨立建立商業(yè)數(shù)據(jù)分析框架,具有數(shù)據(jù)敏感度,能從海量數(shù)據(jù)中分析挖掘問題,并具備敏銳的商業(yè)洞察力。熟練運用數(shù)據(jù)分析工具(SQl、Exce、Access),以及數(shù)據(jù)可視化工具(Tableau、Microstrategy、Think-cell、PPT)對外演講能力優(yōu)秀。優(yōu)秀的分析問題和解決問題的能力,能夠把合理的思路成功應(yīng)用于實踐中。有客戶關(guān)系管理分析或運營經(jīng)驗、數(shù)據(jù)化運營經(jīng)驗、數(shù)據(jù)型產(chǎn)品規(guī)劃經(jīng)驗,有互聯(lián)網(wǎng)新零售相關(guān)領(lǐng)域經(jīng)驗的優(yōu)先.PART04數(shù)據(jù)化運營的意義數(shù)據(jù)化運營的意義在數(shù)字經(jīng)濟時代,人們生產(chǎn)、生活、工作、消費、娛樂方式都發(fā)生巨大變化,企業(yè)更需采用數(shù)字化技術(shù)實現(xiàn)數(shù)字化轉(zhuǎn)型,在產(chǎn)品升級、價值重塑、業(yè)務(wù)變革、商業(yè)模式創(chuàng)新、市場策略調(diào)整等方面,都提供了新的增長空間和發(fā)展機遇。數(shù)據(jù)化運營可以從四個維度具體幫助企業(yè)進(jìn)行優(yōu)化和發(fā)展,如圖所示。數(shù)據(jù)化運營的意義業(yè)務(wù)指導(dǎo)通過對數(shù)據(jù)的收集、統(tǒng)計、追蹤和監(jiān)控搭建業(yè)務(wù)的管理模型來指導(dǎo)業(yè)務(wù)。例如,銷售業(yè)務(wù)中日銷售額、月銷售額、年銷售額的完成情況;電商營銷業(yè)務(wù)過程中的流量,新增用戶數(shù),每日的成交量。運營分析運營分析更多注重對收集來的數(shù)據(jù)進(jìn)行分析和管理,可歸納為人、貨、場、才的分析管理。例如客戶關(guān)系管理(CRM),財務(wù)分析管理,供應(yīng)鏈分析管理等等。經(jīng)營策略經(jīng)營策略管理擁有一手的管理決斷,對各經(jīng)營環(huán)節(jié)進(jìn)行對應(yīng)的數(shù)據(jù)分析來修改和制定策略,比如消費者購買行為的分析,會員顧客策略,是采用積分制還是打折制。戰(zhàn)略規(guī)劃戰(zhàn)略規(guī)劃需要通過企業(yè)內(nèi)部和外部的市場外部數(shù)據(jù)制定長遠(yuǎn)的規(guī)劃過程,如企業(yè)競爭力分析,行業(yè)環(huán)境分析,戰(zhàn)略目標(biāo)規(guī)劃等。習(xí)題1.請描述數(shù)據(jù)化運營的概念,并舉列說明企業(yè)數(shù)據(jù)化運營的應(yīng)用。2.數(shù)據(jù)化運營的關(guān)鍵步驟有哪些?3.什么是大數(shù)據(jù)?請描述云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能之間的關(guān)系?THANKYOU大數(shù)據(jù)運營技術(shù)體系本章知識點(1)掌握Hadoop、Spark、Flink3種主流技術(shù)的基本原理。(2)掌握數(shù)據(jù)處理的基本流程。(3)了解數(shù)據(jù)挖掘概論與數(shù)據(jù)挖掘的常用方法。(4)掌握數(shù)據(jù)可視化庫及可視化軟件的概念。01大數(shù)據(jù)技術(shù)概述02數(shù)據(jù)處理與數(shù)據(jù)挖掘概述03數(shù)據(jù)可視化概述PART01大數(shù)據(jù)技術(shù)概述Hadoo核心技術(shù)Hadoo核心技術(shù)Hadoop是Apache軟件基金會下用Java語言開發(fā)的一個開源分布式計算平臺,在大量計算機組成的集群中對海量數(shù)據(jù)進(jìn)行分布式計算。它是一個適合大數(shù)據(jù)的分布式存儲和計算平臺。Hadoop最早起源于Nutch搜索引擎,Nutch是一個開源Java實現(xiàn)的搜索引擎Nutch的設(shè)計目標(biāo)是構(gòu)建一個大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加,遇到了嚴(yán)重的可擴展性問題,即如何解決數(shù)十億網(wǎng)頁的存儲和索引問題。在Nutch的開發(fā)人員正一籌莫展之際谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案:分布式文件系統(tǒng)distributedfilesystem,DFS)可用于處理海量網(wǎng)頁的存儲;分布式計算框架MapReduce可用于處理海量網(wǎng)頁的索引計算問題。Hadoo核心技術(shù)Hadoop之父道格·卡廷(Dougcutting)帶領(lǐng)Nutch的開發(fā)人員基于Google的兩篇論文完成了相應(yīng)的開源實現(xiàn)Hadoo分布式文件系統(tǒng)HadoopdistributedfilesystemHDFS)和MapReduce,并從Nutch中剝離成為獨立項目Hadoop,到2008年1月,Hadoop成為Apache頂級項目,迎來了它的快速發(fā)展期Hadoop的大象Logo靈感來源于道格·卡廷女兒的玩具大象。狹義上來說,Hadoop就是單獨指代hadoop這個計算框架。廣義上來說,Hadoop指代大數(shù)據(jù)的一個軟件生態(tài)圈,包括很多其他的軟件,如圖所示。MapReduc編程模型1)MapReduce的概念MapReduce是一種大規(guī)模數(shù)據(jù)處理編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算,是Hadoop核心組件之一。MaReduce的核心功能是將用戶編寫的業(yè)務(wù)邏輯代碼和自帶默認(rèn)組件整合成一個完整的分布式運算程序,并運行在Hadoop集群上。2)MapReduce的編程思想MapReduce的思想核心是“分而治之”適用于大量復(fù)雜的任務(wù)處理場景(大規(guī)模數(shù)據(jù)處理場景)。Map(映射)負(fù)責(zé)“分”,即把復(fù)雜的任務(wù)分解為若干個“簡單的任務(wù)”來并行處理。可以進(jìn)行拆分的前提是這些小任務(wù)可以并行計算,彼此間幾乎沒有依賴關(guān)系Reduce(化簡)負(fù)責(zé)“合”,即對Map階段的結(jié)果進(jìn)行全局匯總。這兩個階段合起來正是MapReduce思想的體現(xiàn)。舉例如下比如我們要統(tǒng)計圖書館所有類型的書,如果一個人統(tǒng)計的話,不知道要統(tǒng)計多久,如果人多點,你統(tǒng)計1號書架,我統(tǒng)計2號書架,他統(tǒng)計3號書架····.·人越多,統(tǒng)計的速度就越快。這就是Map階段,可以并行地做一件事,彼此之間并沒有依賴關(guān)系。數(shù)完之后,聚到一起,把所有人的統(tǒng)計數(shù)加在一起,就得出的圖書館書籍的總數(shù)。這就是Reduce階段。MapReduc編程模型3)MapReduce的框架結(jié)構(gòu)一個完整的MapReduce程序在分布式運行時有三類實例進(jìn)程:MRAppMaster:負(fù)責(zé)整個程序的過程調(diào)度及狀態(tài)協(xié)調(diào)。MapTask:負(fù)責(zé)Map階段整個數(shù)據(jù)處理流程。ReduceTask:負(fù)責(zé)reduce階段的整個數(shù)據(jù)處理流程。4)MapReduce的編程規(guī)范(1)用戶編寫的程序分成三個部分:Mapper,Reducer,Driver(提交運行mr程序的客戶端)。(2)Mapper的輸入數(shù)據(jù)是鍵值對的形式(鍵與值的類型可自定義)。(3)Mapper的輸出數(shù)據(jù)是鍵值對的形式(鍵與值的類型可自定義)。(4)Mapper中的業(yè)務(wù)邏輯寫在map()方法中。(5)map()方法(maptask進(jìn)程)對每一個調(diào)用一次。(6)Reducer的輸入數(shù)據(jù)類型對應(yīng)Mapper的輸出數(shù)據(jù)類型,也是鍵值對。(7)Reducer的業(yè)務(wù)邏輯寫在reduce()方法中。(8)Reducetask進(jìn)程對每一組相同鍵的組調(diào)用一次reduce()方法。(9)用戶自定義的Mapper和Reducer都要繼承各自的父類。(10)整個程序需要一個Drvier來進(jìn)行提交,提交的是一個描述了各種必要信息的job對象。Hadoop分布式文件系統(tǒng)HDFS1)HDFS的概念HDFS是一個可以運行在通用硬件上的分布式文件系統(tǒng)(DistributedFileSystem)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。2)HDFS的原理多臺計算機(集群)聯(lián)網(wǎng)協(xié)同工作就像單臺系統(tǒng)一樣解決某種問題,這樣的系統(tǒng)我們稱之為分布式系統(tǒng)。分布式文件系統(tǒng)是分布式系統(tǒng)的一個子集,它們解決的問題就是數(shù)據(jù)存儲。換句話說,它們是橫跨在多臺計算機上的存儲系統(tǒng)。存儲在分布式文件系統(tǒng)上的數(shù)據(jù)自動分布在不同的節(jié)點上。分布式文件系統(tǒng)在大數(shù)據(jù)時代有著廣泛的應(yīng)用前景,它們?yōu)榇鎯吞幚韥碜跃W(wǎng)絡(luò)和其它地方的超大規(guī)模數(shù)據(jù)提供所需的擴展能力,為各類分布式運算框架(如:mapreduce,spark,……)提供數(shù)據(jù)存儲服務(wù)。Hadoop分布式文件系統(tǒng)HDFS3)HDFS設(shè)計思想分而治之:將大文件、大批量文件,分布式存放在同一集群中的不同服務(wù)器上,以便于采取分而治之的方式對海量數(shù)據(jù)進(jìn)行運算分析。4)HDFS架構(gòu)HDFS是一個塊結(jié)構(gòu)的文件系統(tǒng),其中每個文件被分成預(yù)定大小的塊(Hadoop1.x版本塊大小為64M,2.x版本塊大小為128M),這些塊存儲在一臺或多臺機器的集群中。HDFS遵循主/從架構(gòu),其中集群包含單個NameNode(主節(jié)點),所有其他節(jié)點都是DataNode(從節(jié)點)。HDFS可以部署在支持Java的各種機器上。雖然可以在一臺機器上運行多個DataNode,但在實際應(yīng)用中,這些DataNode分布在不同的機器上。Hadoop分布式文件系統(tǒng)HDFSNameNode在原生的Hadoop集群中,HDFS分為三個角色:NameNode、DataNode、SecondaryNameNode。DataNodeHDFS中的從屬節(jié)點。不具備高質(zhì)量或高可用性,主要負(fù)責(zé)將數(shù)據(jù)落實到本地存儲,所以DataNode所在機器通常配置有大量的硬盤空間。DataNode會定期向NameNode發(fā)送心跳,如果NameNode長時間沒有接受到DataNode發(fā)送的心跳,NameNode就會認(rèn)為該DataNode失效。SecondaryNameNode是NameNode的一個助手節(jié)點,來幫助NameNode更好的工作。它存在的目的就是為HDFS中提供一個檢查點,它會定時到NameNode去獲取editlogs,并更新到fsimage上,一旦它有了新的fsimage文件,它將其拷貝回NameNode中,當(dāng)NameNode在下次重啟時會使用這個新的fsimage文件,從而減少重啟的時間。ApacheHadoopHDFS架構(gòu)中的主節(jié)點,主要是用來保存HDFS的元數(shù)據(jù)信息,比如命名空間信息,塊信息等。當(dāng)它運行的時候,這些信息是存在內(nèi)存中的。但是這些信息也可以持久化到磁盤上。Hadoop分布式文件系統(tǒng)HDFS5)HDFS的優(yōu)缺點事物都具有兩面性,HDFS再強大也會存在一些缺點,下面讓我們了解一下HDFS的優(yōu)缺點,從而可以在不同的應(yīng)用場景中更好的發(fā)揮HDFS的一些特性。優(yōu)點概述高容錯性數(shù)據(jù)自動保存多個副本(默認(rèn)為3份,可通過修改配置文件來修改副本數(shù)),副本丟失后,自動恢復(fù)。適合批處理HDFS會將數(shù)據(jù)位置暴露給計算框架,通過移動計算而非移動數(shù)據(jù)的方式來減少文件I/O,從而提高計算效率。適合大規(guī)模數(shù)據(jù)處理適合GB,TB,甚至PB級數(shù)據(jù)的計算,百萬規(guī)模以上的文件處理??蓸?gòu)建在廉價機器上HDFS通過多副本提高可靠性,提供了容錯和恢復(fù)機制。HDFS的存儲節(jié)點只需要提供磁盤存儲空間即可,對操作系統(tǒng)與其他硬件資源沒有要求。缺點概述不支持低延遲數(shù)據(jù)訪問毫秒級的數(shù)據(jù)訪問,HDFS是不支持的。所以說HDFS不能作為實時任務(wù)的數(shù)據(jù)源。小文件存儲HDFS上的每一個文件的元數(shù)據(jù)都由NameNode進(jìn)行管理,如果有大量的小文件,將會占用NameNode大量內(nèi)存,并且文件尋道時間超過讀取時間,所以HDFS建議將小文件進(jìn)行合并或者說使用HDFS提供的archive檔案機制。文件只支持追加HDFS上的文件只支持追加操作,不支持修改。而且一個文件同一時間只能有一個用戶進(jìn)行寫入操作。分布式資源調(diào)度管理系統(tǒng)分布式資源調(diào)度管理系統(tǒng),即另一種資源協(xié)調(diào)者(yetanotherresourcenegotiator,YARN)是Hadoop的資源管理器,它是一個分布式的資源管理系統(tǒng),用以提高分布式集群環(huán)境下的資源利用率,這些資源包括內(nèi)存、輸入輸出、網(wǎng)絡(luò)、磁盤等,其產(chǎn)生的原因是為了解決原MapReduce框架的不足。1)YARN的概念我們先來了解一下在Yarn誕生之前,Hadoop是如何進(jìn)行資源調(diào)度的。在Hadoop1.X版本,一個Hadoop集群可分解為兩個抽象實體:Mapreduce計算引擎和分布式文件系統(tǒng)。當(dāng)一個客戶端向一個Hadoop集群發(fā)出一個請求時,此請求由Jobtracker管理。Jobtracker與Namenode聯(lián)合將任務(wù)分發(fā)到離它所處理的數(shù)據(jù)盡可能近的位置。然后Jobtracker將Map和Reduce任務(wù)安排到一個或多個Tasktracker上的可用插槽中。Tasktracker與Datanode一起對來自Datanode的數(shù)據(jù)執(zhí)行Map和Reduce任務(wù)。當(dāng)Map和Reduce任務(wù)完成時,Tasktracker會告知Jobtracker,后者確定所有任務(wù)何時完成并最終告知客戶作業(yè)已完成。分布式資源調(diào)度管理系統(tǒng)在使用Jobtracker進(jìn)行資源調(diào)度的時候,會存在如下問題:Jobtracker是集群事務(wù)的集中處理點,存在單點故障。Jobtracker需要完成的任務(wù)太多,既要維護(hù)Job的狀態(tài)又要維護(hù)Job的Task的狀態(tài),造成過多的資源消耗。在Tasktracker端,用Map/ReduceTask作為資源的表示過于簡單,沒有考慮到Cpu、內(nèi)存等資源情況,當(dāng)把兩個需要消耗大內(nèi)存的Task調(diào)度到一起,很容易出現(xiàn)OOM(內(nèi)存溢出)。把資源強制劃分為Map/ReduceSlot,當(dāng)只有MapTask時,ReduceSlot不能用;當(dāng)只有ReduceTask時,MapSlot不能用,容易造成資源利用不足。到了Hadoop2.X版本,Yarn作為Hadoop第三大核心組件橫空出世,為了解決了Hadoop1.X版本資源調(diào)度的問題,YARN將資源管理和作業(yè)監(jiān)控/調(diào)度這兩個功能拆分開來,交由不同的守護(hù)進(jìn)程完成。具體來說就是有一個全局的資源管理者(Resourcemanager)和負(fù)責(zé)每一個應(yīng)用的應(yīng)用管理者(Applicationmaster)。分布式資源調(diào)度管理系統(tǒng)ResourceManager2)YARN的基本架構(gòu)YARN是一個資源管理、任務(wù)調(diào)度的框架,主要包含三大模塊:ResourceManager(簡稱RM)、NodeManager(簡稱NM)、ApplicationMaster(簡稱AM)。NodeManager是每個節(jié)點上的資源和任務(wù)管理器,它是管理這臺機器的代理,負(fù)責(zé)該節(jié)點程序的運行,以及該節(jié)點資源的管理和監(jiān)控,YARN集群每個節(jié)點都會運行一個NodeManager。NodeManager會定時向ResourceManager匯報本節(jié)點資源(CPU、內(nèi)存)的使用情況和Container的運行狀態(tài)。當(dāng)ResourceManager宕機時NodeManager自動連接RM備用節(jié)點。ApplicationMaster用戶提交的每個應(yīng)用程序均包含一個ApplicationMaster。ResourceManager會為應(yīng)用分配一個Container(分配的資源)來運行ApplicationMaster,ApplicationMaster會將得到的任務(wù)進(jìn)一步分配給內(nèi)部的任務(wù)(資源的二次分配),還有就是負(fù)責(zé)監(jiān)控所有任務(wù)運行狀態(tài),并在任務(wù)運行失敗時重新為任務(wù)申請資源以重啟任務(wù)。負(fù)責(zé)整個集群的資源管理和分配,是一個全局的資源管理系統(tǒng)。NodeManager以心跳的方式向ResourceManager匯報資源使用情況(目前主要是CPU和內(nèi)存的使用情況)。RM只接受NM的資源回報信息,對于具體的資源處理則交給NM自己處理。YARNScheduler根據(jù)application的請求為其分配資源,不負(fù)責(zé)applicationjob的監(jiān)控、追蹤、運行狀態(tài)反饋、啟動等工作。分布式資源調(diào)度管理系統(tǒng)3)YARN調(diào)度工作的流程(1)客戶端向RM提交應(yīng)用程序,其中包括啟動該應(yīng)用的AM所必需信息。例如AM程序、啟動AM的命令、用戶程序等。(2)RM啟動一個容器用于運行AM(3)啟動中的AM向RM注冊自己啟動成后與RM保持心跳(4)AM向RM發(fā)送請求,申請相應(yīng)數(shù)目的容器(5)RM返回AM申請的容器信息。申請成功的容器,由AM進(jìn)行初始化。容器的啟動信息初始化后,AM與對應(yīng)的NM通信,要求NM啟動容器。AM與NM保持心跳,從而對NM上運行的任務(wù)進(jìn)行監(jiān)控和管理(6)容器運行期間,AM對容器進(jìn)行監(jiān)控。容器通過RPC協(xié)議向?qū)?yīng)的AM匯報自己的進(jìn)度和狀態(tài)等信息.(7)應(yīng)用運行期間,客戶端直接與AM通信獲取應(yīng)用的狀態(tài)、進(jìn)度更新等信息。(8)應(yīng)用運行結(jié)束后,AM向RM注銷自己,并允許屬于它的容器被收回。分布式資源調(diào)度管理系統(tǒng)4)YARN的調(diào)度策略在YARN中,負(fù)責(zé)給應(yīng)用分配資源的就是調(diào)度器,調(diào)度本身就是一個難題,很難找到一個完美的策略可以解決所有的應(yīng)用場景。為此YARN提供了3種調(diào)度器,也可以叫作調(diào)度策略如表所示。調(diào)度器分類策略特點先進(jìn)先出調(diào)度器FIFOSchedulerFIFOScheduler把應(yīng)用按提交的順序排成一個隊列,這是一個先進(jìn)先出隊列,在進(jìn)行資源分配的時候,先給隊列中最頭上的應(yīng)用進(jìn)行分配資源,待最頭上的應(yīng)用需求滿足后再給下一個分配,以此類推。FIFOScheduler是最簡單也是最容易理解的調(diào)度器,也不需要任何配置,但它并不適用于共享集群。大的應(yīng)用可能會占用所有集群資源,這就導(dǎo)致其它應(yīng)用被阻塞公平調(diào)度器FairScheduler在Fair調(diào)度器中,我們不需要預(yù)先占用一定的系統(tǒng)資源,F(xiàn)air調(diào)度器會為所有運行的job動態(tài)的調(diào)整系統(tǒng)資源當(dāng)?shù)谝粋€占用資源較大的job提交時,如果只有這一個job在運行,那么它會獲得所有的集群資源;此時,當(dāng)?shù)诙€小任務(wù)提交后,F(xiàn)air調(diào)度器就會分配一半資源給這個小任務(wù),讓這兩個任務(wù)公平的共享集群資源。容器調(diào)度器CapacitySchedulerCapacity調(diào)度器允許多個組織共享整個集群,每個組織可以獲得集群的一部分計算能力。通過為每個組織分配專門的隊列,然后再為每個隊列分配一定的集群資源,這樣整個集群就可以通過設(shè)置多個隊列的方式給多個組織提供服務(wù)了。除此之外,隊列內(nèi)部又可以垂直劃分,這樣一個組織內(nèi)部的多個成員就可以共享這個隊列資源了,在一個隊列內(nèi)部,資源的調(diào)度是采用的是先進(jìn)先出(FIFO)策略。高性能分布式協(xié)調(diào)服務(wù)高性能分布式協(xié)調(diào)服務(wù)(ZooKeeper)致力于為分布式應(yīng)用提供一個高性能、高可用且具有嚴(yán)格順序訪問控制能力的分布式協(xié)調(diào)服務(wù)。ZooKeeper由雅虎研究院開發(fā),是GoogleChubby的開源實現(xiàn),后來托管到Apache,于2010年11月正式成為Apache的頂級項目。ZooKeeper的應(yīng)用場景有很多,比如說HadoopHA(高可用)集群、KafkaHBase都強依賴于ZooKeeper,讓我們一起來看下ZooKeeper有哪些特性。1)zookeeper的五大特性特性概述順序一致性從同一個客戶端發(fā)起的事務(wù)請求,最終將會嚴(yán)格地按照其發(fā)起的順序被應(yīng)用到Zookeeper去。原子性所有請求的響應(yīng)結(jié)果在整個分布式集群環(huán)境中具備原子性,即要么整個集群中所有機器都成功的處理了某個請求,要么就都沒有處理,絕對不會出現(xiàn)集群中一部分機器處理了某一個請求,而另一部分機器卻沒有處理的情況。單一性無論客戶端連接到ZooKeeper集群中哪個服務(wù)器,每個客戶端所看到的服務(wù)端模型都是一致的,不可能出現(xiàn)兩種不同的數(shù)據(jù)狀態(tài),因為ZooKeeper集群中每臺服務(wù)器之間會進(jìn)行數(shù)據(jù)同步??煽啃砸坏┓?wù)端數(shù)據(jù)的狀態(tài)發(fā)送了變化,就會立即存儲起來,除非此時有另一個請求對其進(jìn)行了變更,否則數(shù)據(jù)一定是可靠的。實時性當(dāng)某個請求被成功處理后,ZooKeeper僅僅保證在一定的時間段內(nèi),客戶端最終一定能從服務(wù)端上讀取到最新的數(shù)據(jù)狀態(tài),即ZooKeeper保證數(shù)據(jù)的最終一致性。Zookeeper具有嚴(yán)格的寫操作順序性,客戶端能夠基于zookeeper實現(xiàn)一些復(fù)雜的同步原語。對于來自客戶端的每個更新請求,都會分配一個全局唯一的遞增編號,這個編號反應(yīng)了所有事物操作的先后順序。高性能分布式協(xié)調(diào)服務(wù)2)ZooKeeper的角色領(lǐng)導(dǎo)者(Leader)Leader是ZooKeeper集群工作的核心。主要負(fù)責(zé)調(diào)度工作,是事務(wù)請求的調(diào)度處理者和集群內(nèi)部各服務(wù)器的調(diào)度。跟隨者(Follower)Follower是ZooKeeper集群的跟隨者。主要負(fù)責(zé)處理客戶端非事務(wù)性請求(讀取數(shù)據(jù))并轉(zhuǎn)發(fā)事務(wù)請求給Leader服務(wù)器和參與Leader選舉投票。觀察者(Observer)Observer充當(dāng)觀察者角色,觀察ZooKeeper集群的最新狀態(tài)變化并將這些狀態(tài)同步過來,其對于非事務(wù)請求可以進(jìn)行獨立處理,對于事務(wù)請求,則會轉(zhuǎn)發(fā)給Leader服務(wù)器進(jìn)行處理。Observer不會參與任何形式的投票,包括事務(wù)請求Proposal的投票和Leader選舉投票。HBase數(shù)據(jù)庫HBase是建立在HDFS之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)。它是ApacheHadoop生態(tài)系統(tǒng)中的重要一員,主要用于海量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲,Hbase的Logo是一只鯨魚,如圖所示。HBase是GoogleBigtable的開源實現(xiàn),與GoogleBigtable利用GFS作為其文件存儲系統(tǒng)類似,HBase利用HadoopHDFS作為其文件存儲系統(tǒng);Google運行MapReduce來處理Bigtable中的海量數(shù)據(jù),HBase同樣利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù);GoogleBigtable利用Chubby作為協(xié)同服務(wù),HBase利用Zookeeper作為對應(yīng)。HBase數(shù)據(jù)庫1)Hbase特性特點概述大一個表可以有上億行,上百萬列。面向列面向列表(簇)的存儲和權(quán)限控制,列(簇)獨立檢索。稀疏每個單元中的數(shù)據(jù)可以有多個版本,默認(rèn)情況下,版本號自動分配,版本號就是單元格插入時的時間戳。數(shù)據(jù)多版本每個單元中的數(shù)據(jù)可以有多個版本,默認(rèn)情況下,版本號自動分配,版本號就是單元格插入時的時間戳。數(shù)據(jù)類型單一HBase中的數(shù)據(jù)都是字符串,沒有類型。HBase數(shù)據(jù)庫2)Hbase與傳統(tǒng)數(shù)據(jù)庫對比對比傳統(tǒng)數(shù)據(jù)庫可能遇到的問題(1)數(shù)據(jù)量很大的時候無法存儲。(2)沒有很好的備份機制。(3)數(shù)據(jù)達(dá)到一定數(shù)量開始緩慢,很大的話基本無法支撐。Hbase的優(yōu)勢(1)線性擴展,隨著數(shù)據(jù)量增多可以通過節(jié)點擴展進(jìn)行支撐。(2)數(shù)據(jù)存儲在hdfs上,備份機制健全。(3)通過zookeeper協(xié)調(diào)查找數(shù)據(jù),訪問速度快。HBase數(shù)據(jù)庫3)zookeeper在HBase中的作用①可以保證在HBase集群中有且只有一個活躍的Master;②存儲所有Region的尋址入口;③實時監(jiān)控Regionserver的上線和下線信息,并實時通知給Master;④存儲HBase的schema和Table元數(shù)據(jù)。Region是HBase分布式存儲的最基本單元。它將一個數(shù)據(jù)表按Key值范圍橫向劃分為一個個的子表,實現(xiàn)分布式存儲。這個子表,在HBase中被稱作“Region”。每一個Region都關(guān)聯(lián)一個Key值范圍,即一個使用StartKey和EndKey描述的區(qū)間。HBase數(shù)據(jù)庫4)HBase的集群角色HBase的集群角色有兩種分別是HMaster和Regionserver。其中HMaster是主進(jìn)程,負(fù)責(zé)管理所有的Regionserver;Regionserver是數(shù)據(jù)服務(wù)進(jìn)程,負(fù)責(zé)處理用戶數(shù)據(jù)的讀寫請求。HMaster與Regionserver之間有著密切的關(guān)系,而Regionserver又與Region它是HBase中存儲數(shù)據(jù)的最小單元)密不可分,所以我們分別講解Region、Regionserver和HMaster的特點。(1)RegionRegionServer是HBase的數(shù)據(jù)服務(wù)進(jìn)程。它負(fù)責(zé)處理用戶數(shù)據(jù)的讀寫請求,所有的Region都被交由RegionServer管理,包括執(zhí)行Flush、Compaction、Open、Close、Load等操作。實際上,所有用戶數(shù)據(jù)的讀寫請求,都是和RegionServer管理的Region進(jìn)行交互。當(dāng)某個RegionServer發(fā)生故障的時候,此RegionServer所管理Region就會轉(zhuǎn)移到其它RegionServer下。RegionServer需要定期向HMaster匯報自身的情況,包括內(nèi)存使用狀態(tài)、在線狀態(tài)的Region等信息。RegionServer除此之外,還可以管理WAL,以及執(zhí)行數(shù)據(jù)插入、更新和刪除操作,并通過Metrics對外提供了衡量HBase內(nèi)部服務(wù)狀況的參數(shù)。另外,RegionServer還內(nèi)置了HttpServer,所以我們可以通過圖形界面的方式訪問Hbase。(2)RegionserverHMaster進(jìn)程負(fù)責(zé)管理所有的RegionServer。包括新RegionServer的注冊;RegionServerFailover處理;負(fù)責(zé)建表/修改表/刪除表以及一些集群操作;新表創(chuàng)建時的Region分配;運行期間的負(fù)載均衡保障;負(fù)責(zé)所有Region的轉(zhuǎn)移操作,包括RegionServerFailover后的Region接管。(3)HMasterHBase數(shù)據(jù)庫4)HBase的集群角色HMaster進(jìn)程有主備角色。集群可以配置多個HMaster角色,在集群啟動時,這些HMaster角色通過競爭獲得主HMaster角色。主HMaster只能有一個,所有的備HMaster進(jìn)程在集群運行期間處于休眠狀態(tài),不干涉任何集群事務(wù)。為了方便理解HMaster、RegionServer和Region三者之間的關(guān)系,舉一個很形象的例子,你可以把HMaster理解為部門總經(jīng)理,它管理了若干個項目經(jīng)理(RegionServer),而每個項目經(jīng)理都帶了若干個項目組成員(Region)。HBase有自己獨特的一套文件存儲架構(gòu)和數(shù)據(jù)尋址機制,來保證在海量數(shù)據(jù)中快速檢索到需要的數(shù)據(jù),有興趣的同學(xué)可以前往HBase官網(wǎng)(/)進(jìn)行學(xué)習(xí)。Hive系統(tǒng)Hive是基于Hadoop構(gòu)建的一套數(shù)據(jù)倉庫分析系統(tǒng),它提供了豐富的SQL查詢方式來分析存儲在Hadoop分布式文件系統(tǒng)(HDFS)中的數(shù)據(jù):可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的SQL查詢功能;可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運行,通過自己的SQL查詢分析需要的內(nèi)容,這套SQL簡稱HiveSQL,使不熟悉mapreduce的用戶可以很方便地利用SQL語言查詢、匯總和分析數(shù)據(jù)。而mapreduce開發(fā)人員可以把自己寫的mapper和reducer作為插件來支持hive做更復(fù)雜的數(shù)據(jù)分析。它與關(guān)系型數(shù)據(jù)庫的SQL略有不同,但支持了絕大多數(shù)的語句如DDL、DML以及常見的聚合函數(shù)、連接查詢、條件查詢。它還提供了一系列的工具進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載,用來存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)集,并支持UDF(User-DefinedFunction)、UDAF(User-DefnesAggregateFunction)和UDTF(User-DefinedTable-GeneratingFunction),也可以實現(xiàn)對map和reduce函數(shù)的定制,為數(shù)據(jù)操作提供了良好的伸縮性和可擴展性。Hive系統(tǒng)1)什么是數(shù)據(jù)倉庫數(shù)據(jù)倉庫,英文名稱為DataWarehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(DecisionSupport)。它出于分析性報告和決策支持目的而創(chuàng)建。數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù),同時自身也不需要“消費”任何的數(shù)據(jù),數(shù)據(jù)來源于外部,并且開放給外部應(yīng)用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。數(shù)據(jù)倉庫有四個特性:分別是主體性、集成性、非易失性(不可更新性)和時變性。Hive系統(tǒng)2)數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別實際講的是OLTP與OLAP的區(qū)別,見表所示。處理方式概述OLTP聯(lián)機事務(wù)處理,也可以稱面向交易的處理系統(tǒng),它是針對具體業(yè)務(wù)在數(shù)據(jù)庫聯(lián)機的日常操作,通常對少數(shù)記錄進(jìn)行查詢、修改。用戶較為關(guān)心操作的響應(yīng)時間、數(shù)據(jù)的安全性、完整性和并發(fā)支持的用戶數(shù)等問題。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理的主要手段,主要用于操作型處理。OLAP聯(lián)機分析處理,一般針對某些主題的歷史數(shù)據(jù)進(jìn)行分析,支持管理決策。數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫,兩者之間的區(qū)別如下表所示。差異數(shù)據(jù)庫數(shù)據(jù)倉庫面向方向面向事務(wù)面向主題數(shù)據(jù)存儲存儲業(yè)務(wù)數(shù)據(jù)存儲歷史數(shù)據(jù)表設(shè)計盡量避免冗余有意引入冗余,依照分析需求,分析維度、分析指標(biāo)進(jìn)行設(shè)計作用方向為捕獲數(shù)據(jù)而設(shè)計為分析數(shù)據(jù)而設(shè)計Hive系統(tǒng)以銀行業(yè)務(wù)為例。數(shù)據(jù)庫是事務(wù)系統(tǒng)的數(shù)據(jù)平臺,客戶在銀行做的每筆交易都會寫入數(shù)據(jù)庫,被記錄下來,這里,可以簡單地理解為用數(shù)據(jù)庫記賬。數(shù)據(jù)倉庫是分析系統(tǒng)的數(shù)據(jù)平臺,它從事務(wù)系統(tǒng)獲取數(shù)據(jù),并做匯總、加工,為決策者提供決策的依據(jù)。比如,某銀行某分行一個月發(fā)生多少交易,該分行當(dāng)前存款余額是多少。如果存款又多,消費交易又多,那么該地區(qū)就有必要設(shè)立ATM了。顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計算。事務(wù)系統(tǒng)是實時的,這就要求時效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求數(shù)據(jù)庫只能存儲很短一段時間的數(shù)據(jù)。而分析系統(tǒng)是事后的,它要提供關(guān)注時間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的,匯總計算起來也要慢一些,但是,只要能夠提供有效的分析數(shù)據(jù)就達(dá)到目的了。數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫”。Hive系統(tǒng)3)Hive的作用MapReduce使用起來學(xué)習(xí)難度大,成本高,坡度陡,并且MapReduce實現(xiàn)復(fù)雜查詢邏輯開發(fā)難度較大。而Hive可以把SQL語句轉(zhuǎn)化成Mapreduce代碼,操作接口內(nèi)SQL語法,提升開發(fā)的效率;避免了去寫MapReduce,降低開發(fā)人員的學(xué)習(xí)成本;較強的擴展性,Hive支持用戶自定義函數(shù),用戶可以根據(jù)自己的需求來實現(xiàn)自己的函數(shù);良好的容錯性,節(jié)點出現(xiàn)問題SQL仍可完成執(zhí)行。關(guān)于Hive的使用方式與數(shù)據(jù)類型,會在第4章中詳細(xì)講解。Flume軟件Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)能浖?。Flume的核心是把數(shù)據(jù)從數(shù)據(jù)源(source)收集過來,再將收集到的數(shù)據(jù)送到指定的目的地(sink)。為了保證輸送的過程一定成功,在送到目的地(sink)之前,會先緩存數(shù)據(jù)(channel),待數(shù)據(jù)真正到達(dá)目的地(sink)后,F(xiàn)lume在刪除自己緩存的數(shù)據(jù)。Flume支持定制各類數(shù)據(jù)發(fā)送方,用于收集各類型數(shù)據(jù);同時,F(xiàn)lume支持定制各種數(shù)據(jù)接受方,用于最終存儲數(shù)據(jù)。一般的采集需求,通過對Flume的簡單配置即可實現(xiàn)。針對特殊場景也具備良好的自定義擴展能力。因此,F(xiàn)lume可以適用于大部分的日常數(shù)據(jù)采集場景。Flume軟件Flume系統(tǒng)中核心的角色是Agent,Agent本身是一個Java進(jìn)程,一般運行在日志收集節(jié)點,執(zhí)行流程如圖所示。每一個Agent相當(dāng)于一個數(shù)據(jù)傳遞員,內(nèi)部有三個組件:Source:采集源,用于跟數(shù)據(jù)源對接,以獲取數(shù)據(jù)。Sink:下沉地,采集數(shù)據(jù)的傳送目的地,用于往下一級Agent傳遞數(shù)據(jù)或者往最終存儲系統(tǒng)傳遞數(shù)據(jù)。Channel:Agent內(nèi)部的數(shù)據(jù)傳輸通道,用于從source將數(shù)據(jù)傳遞到sink;在整個數(shù)據(jù)的傳輸?shù)倪^程中,流動的是Event,它是Flume內(nèi)部數(shù)據(jù)傳輸?shù)淖罨締卧?。Event將傳輸?shù)臄?shù)據(jù)進(jìn)行封裝。如果是文本文件,通常是一行記錄,Event也是事務(wù)的基本單位。Event從Source,流向Channel,再到Sink,本身為一個字節(jié)數(shù)組,并可攜帶headers(頭信息)信息。Event代表著一個數(shù)據(jù)的最小完整單元,從外部數(shù)據(jù)源來,向外部的目的地去。一個完整的Event包括:Eventheaders、Eventbody、Event信息,其中Event信息就是Flume收集到的日記記錄。kafka系統(tǒng)1)kafka的概念A(yù)pacheKafka是一個開源消息系統(tǒng),由Scala語言編寫,以可水平擴展和高吞吐率而被廣泛使用。Kafka最初是由Linkedin公司開發(fā),是一個分布式、分區(qū)的、多副本的、多訂閱者,基于Zookeeper協(xié)調(diào)的分布式消息系統(tǒng),Linkedin于2010年貢獻(xiàn)給了Apache基金會并成為頂級開源項目,KafkaLogo如圖所示。Kafka官網(wǎng)地址為:/kafka系統(tǒng)2)

Kafka的特性特性概述高吞吐量、低延遲kafka每秒可以處理幾十萬條消息,它的延遲最低只有幾毫秒,每個topic可以分多個partition,consumergroup對partition進(jìn)行consume操作。可擴展性Kafka集群支持熱擴展。持久性、可靠性消息被持久化到本地磁盤,并且支持?jǐn)?shù)據(jù)備份防止數(shù)據(jù)丟失。容錯性允許集群中節(jié)點失?。ㄈ舾北緮?shù)量為n,則允許n-1個節(jié)點失?。?。高并發(fā)支持?jǐn)?shù)千個客戶端同時讀寫。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(1)服務(wù)器節(jié)點(Broker)0102(2)主題(Topic)Kafka集群包含一個或多個服務(wù)器,服務(wù)器節(jié)點稱為Broker。Broker存儲Topic的數(shù)據(jù)。如果某Topic有N個Partition,集群有N個Broker,那么每個Broker存儲該Topic的一個Partition。如果某Topic有N個Partition,集群有(N+M)個Broker,那么其中有N個Broker存儲該Topic的一個Partition,剩下的M個Broker不存儲該Topic的Partition數(shù)據(jù)。如果某Topic有N個Partition,集群中Broker數(shù)目少于N個,那么一個Broker存儲該Topic的一個或多個Partition。在實際生產(chǎn)環(huán)境中,盡量避免這種情況的發(fā)生,這種情況容易導(dǎo)致Kafka集群數(shù)據(jù)不均衡。每條發(fā)布到Kafka集群的消息都有一個類別,這個類別被稱為Topic。(物理上不同Topic的消息分開存儲,邏輯上一個Topic的消息雖然保存于一個或多個broker上但用戶只需指定消息的Topic即可生產(chǎn)或消費數(shù)據(jù)而不必關(guān)心數(shù)據(jù)存于何處)類似于數(shù)據(jù)庫的表名。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(3)分區(qū)(Partition)0304(4)生產(chǎn)者(Producer)Topic中的數(shù)據(jù)分割為一個或多個Partition。每個Topic至少有一個Partition。每個Partition中的數(shù)據(jù)使用多個Segment文件存儲。Partition中的數(shù)據(jù)是有序的,不同Partition間的數(shù)據(jù)丟失了數(shù)據(jù)的順序。如果Topic有多個Partition,消費數(shù)據(jù)時就不能保證數(shù)據(jù)的順序。在需要嚴(yán)格保證消息的消費順序的場景下,需要將Partition數(shù)目設(shè)為1。生產(chǎn)者即數(shù)據(jù)的發(fā)布者,該角色將消息發(fā)布到Kafka的Topic中。Broker接收到生產(chǎn)者發(fā)送的消息后,Broker將該消息追加到當(dāng)前用于追加數(shù)據(jù)的Segment文件中。生產(chǎn)者發(fā)送的消息,存儲到一個Partition中,生產(chǎn)者也可以指定數(shù)據(jù)存儲的Partition。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(5)消費者(Consumer)0304(6)消費者群ConsumerGroup)消費者可以從Broker中讀取數(shù)據(jù)。消費者可以消費多個Topic中的數(shù)據(jù)。每個Consumer屬于一個特定的ConsumerGroup(可為每個Consumer指定GroupName,若不指定GroupName則屬于默認(rèn)的Group)。kafka系統(tǒng)3)Kafka與RabbitMQ的區(qū)別區(qū)別Kafka傳統(tǒng)消息隊列架構(gòu)模型Kafka遵從一般的MQ結(jié)構(gòu),Producer,Broker,Consumer,以Consumer為中心,消息的消費信息保存的客戶端Consumer上,Consumer根據(jù)消費的點,從Broker上批量Pull數(shù)據(jù);無消息確認(rèn)機制。Rabbitmq遵循AMQP協(xié)議,Rabbitmq的Brokerexchange,Binding,Queue組成,其中Exchange和Binding組成了消息的路由鍵;客戶端Producer通過連接Channel和Server進(jìn)行通信,Consumer從Queue獲取消息進(jìn)行消費(長連接,Queue有消息會推送到Consumer端,Consumer循環(huán)從輸入流讀取數(shù)據(jù))。Rabbitmq以Broker為中心;有消息的確認(rèn)機制。吞吐量方面Kafka具有高的吞吐量,內(nèi)部采用消息的批量處理,zero-copy機制,數(shù)據(jù)的存儲和獲取是本地磁盤順序批量操作,具有O(1)的復(fù)雜度,消息處理的效率很高。RabbitMQ在吞吐量方面稍遜于kafka,他們的出發(fā)點不一樣,rabbitMQ支持對消息的可靠的傳遞,支持事務(wù),不支持批量的操作;基于存儲的可靠性的要求存儲可以采用內(nèi)存或者硬盤。可用性方面Kafka的broker支持主備模式。Rabbitmq支持Miror的Queue,主Queue失效,MirorQueue接管。集群負(fù)載均衡Kafka采用Zookeeper對集群中的Broker、Consumer進(jìn)行管理,可以注冊Topic到Zookeeper上;通過Zookeeper的協(xié)調(diào)機制,Producer保存對應(yīng)Topic的Broker信息,可以隨機或者輪詢發(fā)送到Broker上;并且Producer可以基于語義指定分片,消息發(fā)送到Broker的某分片上。Rabbitmq支持集群模式,但不支持負(fù)載均衡。SqoopSqoop(SQL-to-Hadoop)項目旨在協(xié)助RDBMS與Hadoop之間進(jìn)行高效的大數(shù)據(jù)交流,是一款基于MapReduce的數(shù)據(jù)遷移工具,同時也是一款開源的工具。它主要用在Hadoop(Hive)與非關(guān)系型數(shù)據(jù)庫(NoSQL、HBase等)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫(MySQL,Oracle,PostgreSQL等)中的數(shù)據(jù)導(dǎo)人Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)人關(guān)系型數(shù)據(jù)庫中。隨著聯(lián)網(wǎng)的普及,企業(yè)積累的數(shù)據(jù)量越來越大,傳統(tǒng)的數(shù)據(jù)庫已經(jīng)無法滿足存儲需求,所以更多的用戶選擇使用Hadoop的HDFS來存儲數(shù)據(jù)。那么就需要將數(shù)據(jù)在傳統(tǒng)數(shù)據(jù)庫與HDFS之間進(jìn)行轉(zhuǎn)移能夠幫助數(shù)據(jù)傳輸?shù)墓ぞ咦兊酶又匾?。ApacheSqoop就是這樣一款開源工具,可以在Hadoop和關(guān)系型數(shù)據(jù)庫之間轉(zhuǎn)移大量數(shù)據(jù)。Sqoop項目開始于2009年,最早是作為Hadop的一個第三方模塊存在,后來為了讓使用者能夠快速部署,也為了讓開發(fā)人員能夠更快速地送代開發(fā),Sqoop獨立成為一個Apache項目。Sqoop本質(zhì)其實是將導(dǎo)入或?qū)С雒罘g成MapReduce程序并執(zhí)行。在翻譯成MapReduce程序中主要是對InputFormat和OutputFormat進(jìn)行定制。隨著Sqoop的使用者越來越多,舊版本的Sqoop已經(jīng)漸漸暴露出一些缺點,開發(fā)人員優(yōu)化之后推出了一個新的系列版本Sqoop2。Sqoop1與Sqoop2是兩個完全不同的版本,它們并不兼容。Sqoopl通常是指1.4.x版本,Sqoop2是指1.99.x以后的版本。1)Sqoop的概念Sqoop(1)引入sqoopserver,集中化管理connector等。(2)多種訪問方式:CLI,WebUI,RESTAPI。(3)引入基于角色的安全機制。Sqoop2和Sqoop1的功能性對比,如下表所示:2)Sqoop2比sqoop1的改進(jìn):功能Sqoop1Sqoop2用于所有主要RDBMS的連接器支持不支持解決辦法:使用已在以下數(shù)據(jù)庫上執(zhí)行測試的通用JDBC連接器:Micros

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論