![Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第1頁](http://file4.renrendoc.com/view12/M09/0A/23/wKhkGWYLtsGAOwKXAACOIunwQ-o867.jpg)
![Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第2頁](http://file4.renrendoc.com/view12/M09/0A/23/wKhkGWYLtsGAOwKXAACOIunwQ-o8672.jpg)
![Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第3頁](http://file4.renrendoc.com/view12/M09/0A/23/wKhkGWYLtsGAOwKXAACOIunwQ-o8673.jpg)
![Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第4頁](http://file4.renrendoc.com/view12/M09/0A/23/wKhkGWYLtsGAOwKXAACOIunwQ-o8674.jpg)
![Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第5頁](http://file4.renrendoc.com/view12/M09/0A/23/wKhkGWYLtsGAOwKXAACOIunwQ-o8675.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
廣電大數(shù)據(jù)用戶畫像
需求分析背景介紹新一代信息技術(shù)和互聯(lián)網(wǎng)的迅猛發(fā)展,為廣電行業(yè)帶來了前所未有的巨大挑戰(zhàn)和重大機(jī)遇。新媒體的飛速發(fā)展,對傳統(tǒng)媒體造成了巨大沖擊,廣電公司依靠稀缺資源形成的優(yōu)勢已經(jīng)逐漸失去。廣電公司具備了獲取用戶身份數(shù)據(jù)、實(shí)時收視數(shù)據(jù)的能力,可通過網(wǎng)絡(luò)終端設(shè)備和后臺系統(tǒng)采集用戶基本數(shù)據(jù)、用戶收視數(shù)據(jù)、用戶訂單數(shù)據(jù)、用戶賬單數(shù)據(jù)等。通過大數(shù)據(jù)分析,把握廣電用戶群體的特征和收視行為,了解用戶的實(shí)際特征和實(shí)際需求,并提供個性化、精準(zhǔn)化和智能化的推薦服務(wù),以此挽留用戶、減少用戶的流失。需求分析與架構(gòu)認(rèn)識Hive需求分析與架構(gòu)基于雙向廣電有線網(wǎng)絡(luò),可深入應(yīng)用大數(shù)據(jù)技術(shù),對用戶數(shù)據(jù)進(jìn)行采集、存儲以此為基礎(chǔ),進(jìn)行有效分析與處理實(shí)現(xiàn)廣電有線網(wǎng)絡(luò)用戶從看電視到用電視的轉(zhuǎn)變,推動廣電行業(yè)進(jìn)一步發(fā)展,也可為社會信息化、政府信息化等提供全面支撐。對廣電公司的需求進(jìn)行分析,并結(jié)合大數(shù)據(jù)技術(shù)為廣電公司用戶數(shù)據(jù)的存儲與分析提供解決方案,同時對大數(shù)據(jù)技術(shù)進(jìn)行簡要介紹。業(yè)務(wù)需求分析需求分析與架構(gòu)主要處理流程大數(shù)據(jù)的處理過程可分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用大數(shù)據(jù)存儲技術(shù)架構(gòu)大數(shù)據(jù)存儲技術(shù)商用存儲GBase系列數(shù)據(jù)庫產(chǎn)品、AmazonS3和EMC系列產(chǎn)品開源OceanBase、Swift、Alluxio、HDFS、HBase和Hive常見的存儲產(chǎn)品的簡介及優(yōu)缺點(diǎn)對比存儲產(chǎn)品簡介優(yōu)點(diǎn)缺點(diǎn)GBase系列數(shù)據(jù)庫產(chǎn)品該系列數(shù)據(jù)庫產(chǎn)品包含分布式邏輯數(shù)據(jù)倉庫(GBase8a)、基于共享存儲的數(shù)據(jù)庫集群(GBase8s)、多模多態(tài)分布式數(shù)據(jù)庫(GBase8c)、云原生數(shù)據(jù)倉庫(GBaseGCDW)等具有高可用性和高可靠性??蓴U(kuò)展性好:支持Master-Slave模式擴(kuò)展以及支持使用OnlineAdd節(jié)點(diǎn)等方式來增強(qiáng)性能。安全性強(qiáng):可提供完善的數(shù)據(jù)庫安全方案,包括密文存儲、訪問權(quán)限控制、數(shù)據(jù)審計(jì)等。體積小,并且Ubuntu平臺可免費(fèi)使用??梢灾苯釉贕Base上運(yùn)行SQL語句而無須進(jìn)行太多額外配置生態(tài)環(huán)境還較為不成熟,在某些場景下會受到功能缺失的限制OceanBaseOceanBase是阿里巴巴集團(tuán)自主研發(fā)的一款分布式關(guān)系數(shù)據(jù)庫管理系統(tǒng),旨在滿足大規(guī)模應(yīng)用與服務(wù)的高性能等要求,支持從單臺機(jī)器到百臺機(jī)器甚至更多機(jī)器的水平擴(kuò)展,具有海量數(shù)據(jù)存儲和快速查詢的能力高性能:支持自動故障轉(zhuǎn)移、水平和垂直擴(kuò)展等特性,可以確保24/7無故障運(yùn)行;采用多核架構(gòu)實(shí)現(xiàn)并行查詢,能夠快速讀取和處理海量數(shù)據(jù)。全球部署:支持本地化存儲和異地多活,可以滿足多終端、全網(wǎng)覆蓋等要求。開源社區(qū)活躍:擁有大量用戶社區(qū),支持對產(chǎn)品進(jìn)行二次開發(fā)和個性化定制運(yùn)維復(fù)雜:需要一定的技術(shù)支撐,涉及配置管理、監(jiān)控和調(diào)優(yōu)等方面,不太適合小規(guī)模企業(yè)使用。需要專門的技術(shù)人員:由于其復(fù)雜性較高,需要專業(yè)技術(shù)人員進(jìn)行維護(hù)和開發(fā)。系統(tǒng)學(xué)習(xí)成本高:相較于傳統(tǒng)關(guān)系數(shù)據(jù)庫,OceanBase具有更多的新特性和命令,需要用戶進(jìn)行學(xué)習(xí)和了解常見的存儲產(chǎn)品的簡介及優(yōu)缺點(diǎn)對比續(xù)上表存儲產(chǎn)品簡介優(yōu)點(diǎn)缺點(diǎn)AmazonS3簡稱S3,是Amazon公司于2006年針對開發(fā)者推出的云存儲服務(wù),可減輕開發(fā)人員壓力,使其專注于上層業(yè)務(wù);存儲可靠;按用量收費(fèi);使用方便是AmazonAWS云服務(wù)體系的一部分,兼容Amazon生態(tài)圈的其他服務(wù);重新定義了對象存儲;可靠性高,性能優(yōu)良,易于擴(kuò)展,方便遷移非開源、收費(fèi)較高;不支持隨機(jī)位置讀、寫操作,只能讀取、寫入或覆蓋整個文件EMC系列產(chǎn)品EMC公司于2008年推出了PB級對象存儲平臺Atmos;于2010年收購了Isilon,定位PB級文件存儲;于2014年推出了ECS,布局ZB級存儲。EMC系列產(chǎn)品均可橫向擴(kuò)展。EMC公司市場拓荒早,產(chǎn)品種類全,高端用戶多高端產(chǎn)品與解決方案;可提供較好的數(shù)據(jù)保護(hù);支持PB~ZB級各類數(shù)據(jù)存儲。兼容EMCVMware、Pivotal、RSA等多款產(chǎn)品;支持Hadoop;支持與S3數(shù)據(jù)的雙向遷移非開源,需購買價(jià)格昂貴的專用硬件常見的存儲產(chǎn)品的簡介及優(yōu)缺點(diǎn)對比續(xù)上表存儲產(chǎn)品簡介優(yōu)點(diǎn)缺點(diǎn)Swift于2010年加入OpenStack社區(qū),可為虛擬機(jī)及計(jì)算服務(wù)Nova提供鏡像存儲,是S3的開源實(shí)現(xiàn)屬于OpenStack生態(tài)圈組件,可兼容CloudStack,支持多租戶模式。技術(shù)成熟,成功案例多,被設(shè)計(jì)成一種比較通用的存儲產(chǎn)品,能夠可靠地存儲數(shù)量非常多的大小不一的文件未針對大型文件做優(yōu)化處理Alluxio是以內(nèi)存為中心的虛擬分布式存儲系統(tǒng),其核心思想是將存儲與計(jì)算分離通過數(shù)據(jù)緩存,提高存儲、計(jì)算的效率;將存儲與計(jì)算解耦,架構(gòu)清晰、簡潔該產(chǎn)品較新,部分功能有待完善;該產(chǎn)品對用戶技術(shù)積累和研發(fā)能力要求較高常見的存儲產(chǎn)品的簡介及優(yōu)缺點(diǎn)對比存儲產(chǎn)品簡介優(yōu)點(diǎn)缺點(diǎn)HDFS設(shè)計(jì)參考GoogleGFS,于2006年加入Apache社區(qū)下的Hadoop項(xiàng)目,是其核心組件之一擁有強(qiáng)大的數(shù)據(jù)生態(tài)圈,適合大型文件一次寫入、長期存儲、順序讀取、批處理的場景;成功案例多,優(yōu)化方案豐富;用戶規(guī)模龐大,是大數(shù)據(jù)文件系統(tǒng)事實(shí)標(biāo)準(zhǔn),支持上萬個節(jié)點(diǎn)的ZB級海量數(shù)據(jù)存儲;具有高容錯性;支持多種數(shù)據(jù)編碼不支持并發(fā)寫入、文件隨機(jī)修改;不適合毫秒級低延遲數(shù)據(jù)訪問;不適合小型文件存儲HBase構(gòu)建在HDFS之上高性能的大數(shù)據(jù)列式存儲數(shù)據(jù)庫適合存儲海量稀疏數(shù)據(jù),可以通過版本檢索到歷史數(shù)據(jù),解決HDFS不支持?jǐn)?shù)據(jù)隨機(jī)查找、不適合增量數(shù)據(jù)處理、不支持?jǐn)?shù)據(jù)更新等問題。常用于存儲超大規(guī)模的實(shí)時隨機(jī)讀寫數(shù)據(jù),如互聯(lián)網(wǎng)搜索引擎數(shù)據(jù)僅能通過主鍵或主鍵范圍檢索數(shù)據(jù),不適合檢索條件較多的復(fù)雜查詢場景HiveHive是基于Hadoop生態(tài)圈的數(shù)據(jù)倉庫,用于進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化和加載,是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的開源產(chǎn)品封裝了調(diào)用接口,并提供了類SQL的查詢語言,減少了開發(fā)人員的學(xué)習(xí)成本;支持用戶自定義函數(shù)。適合處理大數(shù)據(jù);可擴(kuò)展性強(qiáng);容錯性強(qiáng)不支持記錄級別的增、刪、改操作,延遲較高,不適合實(shí)時分析;不支持事務(wù),不適合做聯(lián)機(jī)事務(wù)處理;自動生成的MapReduce作業(yè)通常情況下不夠智能大數(shù)據(jù)存儲技術(shù)架構(gòu)常見的開發(fā)語言R語言免費(fèi)、開源、各種各樣的模塊十分齊全Python數(shù)據(jù)分析和交互、探索性計(jì)算以及數(shù)據(jù)可視化等方面都比較方便SQL入門較容易Java具有可移植性強(qiáng)的特點(diǎn),可以跨平臺運(yùn)行需求分析與架構(gòu)認(rèn)識Hive認(rèn)識HiveHive是基于Hadoop的數(shù)據(jù)倉庫優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句實(shí)現(xiàn)快速M(fèi)apReduce統(tǒng)計(jì)MapReduce的使用變得更加簡單。Hive十分適合用于對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析Hive簡介2007年,F(xiàn)acebook公司(現(xiàn)Meta公司)為了對每天產(chǎn)生的海量網(wǎng)絡(luò)平臺數(shù)據(jù)進(jìn)行分析而開發(fā)了HiveHive就成為傳統(tǒng)數(shù)據(jù)架構(gòu)和HadoopMapReduce之間的“橋梁”。Hive的架構(gòu)Hadoop生態(tài)圈Sqoop:用于在HDFS和關(guān)系數(shù)據(jù)庫之間導(dǎo)入和導(dǎo)出數(shù)據(jù)。Pig:用于開發(fā)MapReduce作業(yè)的程序語言的工具,通過將PigLatin腳本編譯成MapReduce任務(wù)來實(shí)現(xiàn)數(shù)據(jù)處理和計(jì)算。Hive:用于開發(fā)SQL類型腳本進(jìn)行MapReduce作業(yè)的工具,通過將HQL轉(zhuǎn)換為MapReduce任務(wù)來實(shí)現(xiàn)數(shù)據(jù)處理。認(rèn)識HiveHive的架構(gòu)認(rèn)識HiveHive主要組件訪問接口命令行接口(CommandLineInterface,CLI),HiveWeb接口(HiveWebInterface,HWI)。ThriftServer。元數(shù)據(jù)存儲服務(wù)Hive的元數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫里,Hive支持的關(guān)系數(shù)據(jù)庫有Derby、MySQL等認(rèn)識HiveHive主要組件DriverDriver的主要功能是將用戶編寫的HQL語句進(jìn)行解析、編譯、優(yōu)化,生成邏輯執(zhí)行計(jì)劃,并提交給Hadoop集群進(jìn)行處理組件說明解析器(Parser)將HQL轉(zhuǎn)換為抽象語法樹編譯器(Compiler)將語法樹編譯為邏輯執(zhí)行計(jì)劃優(yōu)化器(Optimizer)對邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化,形成更優(yōu)的邏輯執(zhí)行計(jì)劃執(zhí)行器(Executor)將邏輯執(zhí)行計(jì)劃切分成對應(yīng)引擎的可執(zhí)行物理計(jì)劃,調(diào)用底層執(zhí)行框架執(zhí)行認(rèn)識HiveHive設(shè)計(jì)特性Hive的特點(diǎn)HQL與SQL有著相似的語法,大大提高了開發(fā)人員的開發(fā)效率。Hive支持運(yùn)行在不同的框架上,包括YARN、Tez、Spark、Flink等。Hive支持HDFS與HBase上的即席查詢(Ad-Hoc)。Hive支持用戶自定義的函數(shù)、腳本等。認(rèn)識HiveHive設(shè)計(jì)特性Hive優(yōu)點(diǎn)可擴(kuò)展。Hive可以自由擴(kuò)展集群的規(guī)模,一般情況下無須重啟服務(wù)??裳诱?。Hive支持用戶自定義函數(shù),用戶可根據(jù)自己的需求來編寫自定義函數(shù)??扇蒎e。Hive良好的容錯性使得當(dāng)節(jié)點(diǎn)出現(xiàn)問題時HQL語句仍可完成執(zhí)行。Hive的適用場景Hive的最佳適用場景是大數(shù)據(jù)集的批處理作業(yè)認(rèn)識HiveHive與傳統(tǒng)數(shù)據(jù)庫的區(qū)別項(xiàng)目Hive關(guān)系數(shù)據(jù)庫查詢語言HQLSQL數(shù)據(jù)存儲HDFS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Module 10 Unit 2 You shouldn't be late(說課稿)-2024-2025學(xué)年外研版(一起)英語五年級上冊001
- 16 滑輪 說課稿-2023-2024學(xué)年科學(xué)六年級上冊青島版001
- 3 珍貴的淡水資源(說課稿)-2023-2024學(xué)年四年級科學(xué)下冊大象版
- 3 我不拖拉 第2課時(說課稿)-2023-2024學(xué)年道德與法治一年級下冊統(tǒng)編版
- 2023二年級數(shù)學(xué)上冊 二 角的初步認(rèn)識 銳角和鈍角說課稿 西師大版
- 19《夜宿山寺》說課稿-2024-2025學(xué)年二年級上冊語文統(tǒng)編版
- 2023八年級道德與法治上冊 第四單元 維護(hù)國家利益 第八課 國家利益至上 第1框 國家好 大家才會好說課稿 新人教版
- 2024年八年級道德與法治下冊 第三單元 人民當(dāng)家作主 第五課 我國基本制度 第2框 根本政治制度說課稿 新人教版
- 2024年秋九年級歷史上冊 第一單元 古代亞非文明 第3課 古代印度說課稿2 新人教版001
- 2025北京建筑材料購貨合同
- 2022年湖南高速鐵路職業(yè)技術(shù)學(xué)院單招數(shù)學(xué)模擬試題及答案解析
- 小學(xué)生必備古詩
- 人教版英語八年級上冊單詞默寫表
- SRE Google運(yùn)維解密(中文版)
- 綜合性學(xué)習(xí)公開課《我的語文生活》一等獎?wù)n件
- IBM:中建八局ERP解決方案
- 高考語文復(fù)習(xí)高中語文文言文注釋集萃
- 初中歷史 教材分析與教學(xué)策略 課件
- 幼兒剪紙-打印版
- 中小學(xué)2021年秋季開學(xué)第一課手心班會圖文精品
- 如何提高和加強(qiáng)人力資源隊(duì)伍的建設(shè)
評論
0/150
提交評論