大數(shù)據(jù)解決方案_第1頁
大數(shù)據(jù)解決方案_第2頁
大數(shù)據(jù)解決方案_第3頁
大數(shù)據(jù)解決方案_第4頁
大數(shù)據(jù)解決方案_第5頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)解決方案Digital引言數(shù)據(jù)or數(shù)字?DataInformationTechnology“基于大數(shù)據(jù)思維和技術(shù),可以挖掘蘊(yùn)含在數(shù)據(jù)冰山下的巨大價(jià)值“ 計(jì)算社交數(shù)據(jù)傳感器數(shù)據(jù)文本網(wǎng)絡(luò)存儲(chǔ)提綱大數(shù)據(jù)背景知識(shí)大數(shù)據(jù)技術(shù)基礎(chǔ)大數(shù)據(jù)解決方案大數(shù)據(jù)方案建設(shè)及應(yīng)用場(chǎng)景什么是大數(shù)據(jù)?所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊維基百科大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集 麥肯錫大數(shù)據(jù)是任何超過了一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)量亞馬遜指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新

2、處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn) 百度百科多種數(shù)據(jù)并存(Variety)文本/圖片/視頻/文檔等數(shù)據(jù)量日益增長(Volume)DC最新數(shù)字宇宙研究報(bào)告表明,到2020年,全球數(shù)據(jù)使用量預(yù)計(jì)暴增44倍,達(dá)到40ZB要求數(shù)據(jù)實(shí)時(shí)性強(qiáng)(Velocity)海量數(shù)據(jù)的及時(shí)有效分析沙里淘金價(jià)值密度低(Value)單條數(shù)據(jù)并無太多價(jià)值,但龐大的數(shù)據(jù)量蘊(yùn)含巨大財(cái)富大數(shù)據(jù)來自于對(duì)現(xiàn)實(shí)世界的測(cè)量、描述(Veracity)處理速度數(shù)據(jù)價(jià)值來源真實(shí)Bigger Than Bigger五個(gè)大V數(shù)據(jù)種類多數(shù)據(jù)規(guī)模大大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。就像望遠(yuǎn)鏡讓我們

3、能夠感受浩瀚宇宙,顯微鏡讓我們得以觀測(cè)絕妙微觀,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉。大數(shù)據(jù)帶來生活、工作和思維的變革更全:由獲取抽樣樣本,轉(zhuǎn)變?yōu)楂@取全體數(shù)據(jù)更雜:由關(guān)注精確性,轉(zhuǎn)變?yōu)榻邮芑祀s更好:由關(guān)注因果關(guān)系,轉(zhuǎn)變?yōu)殛P(guān)注相關(guān)關(guān)系更全:由獲取抽樣樣本,轉(zhuǎn)變?yōu)楂@取全體數(shù)據(jù)紙牌屋的誕生是Netflix從3000萬付費(fèi)用戶的數(shù)據(jù)中總結(jié)收視習(xí)慣,并根據(jù)對(duì)用戶喜好的精準(zhǔn)分析進(jìn)行創(chuàng)作紙牌屋的數(shù)據(jù)庫包含了3000萬用戶的收視選擇、400萬條評(píng)論、300萬次主題搜索。最終,拍什么、誰來拍、誰來演、怎么播,都由數(shù)千萬觀眾的客觀喜好統(tǒng)計(jì)決定,由用戶需求決定生產(chǎn)。技術(shù)的進(jìn)步使樣本=

4、總體成為可能,我們不再通過管中窺豹,而是通過“上帝視角”洞察藏匿在細(xì)節(jié)中的價(jià)值和真相Google利用網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測(cè)流感Facebook、微信基于社交網(wǎng)絡(luò)數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)營銷PASS更雜:由關(guān)注精確性,轉(zhuǎn)變?yōu)榻邮芑祀s注重語法規(guī)則,關(guān)注翻譯逐字逐句的精確性Candide項(xiàng)目失敗廣開言路,接受混雜通過基于質(zhì)量參差不齊的數(shù)十億文檔的機(jī)器學(xué)習(xí),獲得了最高質(zhì)量的翻譯效果大數(shù)據(jù)基礎(chǔ)上的簡單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效更好:由關(guān)注因果關(guān)系,轉(zhuǎn)變?yōu)殛P(guān)注相關(guān)關(guān)系Before:“亞馬遜的聲音”20多名專業(yè)書評(píng)家團(tuán)隊(duì),向用戶推薦新書。Now:個(gè)性化推薦系統(tǒng),通過歷史書籍銷售信息,結(jié)合用戶搜索記錄、購物車甚至鼠標(biāo)懸

5、停時(shí)間,挖掘產(chǎn)品、數(shù)據(jù)之間的相關(guān)性,即時(shí)推薦相關(guān)書籍給用戶?!拔覀儾⒉恢烙脩魹槭裁促I這些書,計(jì)算機(jī)也不知道,但我們相信如果系統(tǒng)運(yùn)行良好,亞馬遜可以做到只會(huì)為用戶推薦一本書,而這本書就是用戶打算買的下一本”探尋事物的因果關(guān)系是人類的本性,但是大數(shù)據(jù)時(shí)代可以做某種程度的妥協(xié),可以只需要關(guān)注“是什么”,而忽略“為什么?”大數(shù)據(jù)的價(jià)值10000+研發(fā)工程師市場(chǎng)價(jià)值挖掘消費(fèi)者需求探尋細(xì)分市場(chǎng)管理價(jià)值挖掘信息,清晰戰(zhàn)略優(yōu)化流程,減少內(nèi)耗提升決策水平產(chǎn)品價(jià)值產(chǎn)品定制化、個(gè)性化快速迭代,響應(yīng)需求服務(wù)價(jià)值推送貼身產(chǎn)品提升使用體驗(yàn)提供更多、更佳、更優(yōu)惠選擇分析過去 預(yù)測(cè)未來 優(yōu)化決策大數(shù)據(jù)產(chǎn)業(yè)鏈H3CH3C提綱

6、大數(shù)據(jù)背景知識(shí)大數(shù)據(jù)技術(shù)基礎(chǔ)大數(shù)據(jù)解決方案大數(shù)據(jù)方案建設(shè)及應(yīng)用場(chǎng)景12大表查詢慢數(shù)據(jù)間關(guān)系模糊計(jì)算節(jié)點(diǎn)擴(kuò)展瓶頸數(shù)據(jù)結(jié)構(gòu)多樣 數(shù)據(jù)來源廣泛 計(jì)算性能瓶頸存儲(chǔ)容量瓶頸服務(wù)級(jí)別要求越來越高Old SQL瓶頸半、非結(jié)構(gòu)化數(shù)據(jù)難以處理數(shù)據(jù)采集困難數(shù)據(jù)幾何增長存儲(chǔ)節(jié)點(diǎn)擴(kuò)展瓶頸數(shù)據(jù)清洗復(fù)雜系統(tǒng)響應(yīng)慢數(shù)據(jù)吞吐能力低單表數(shù)據(jù)量激增分析方式單一分析結(jié)果展現(xiàn)不友好無即席查詢?yōu)槭裁葱枰髷?shù)據(jù)技術(shù)?數(shù)據(jù)交易決策分析基礎(chǔ)數(shù)據(jù)大數(shù)據(jù)技術(shù)架構(gòu)元數(shù)據(jù)專題庫關(guān)聯(lián)庫全文庫媒體庫數(shù)據(jù)標(biāo)準(zhǔn)管理數(shù)據(jù)質(zhì)量檢測(cè)數(shù)據(jù)操作監(jiān)控?cái)?shù)據(jù)資源目錄數(shù)據(jù)安全管理數(shù)據(jù)價(jià)值評(píng)價(jià)數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸并數(shù)據(jù)加載數(shù)據(jù)轉(zhuǎn)發(fā)數(shù)據(jù)源和采集數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)價(jià)值變現(xiàn)

7、用戶畫像精準(zhǔn)營銷輿情分析其它APP網(wǎng)絡(luò)服務(wù)器安全非結(jié)構(gòu)化ERP應(yīng)用CRMSCM其他數(shù)據(jù)物聯(lián)網(wǎng)MPP分布式數(shù)據(jù)庫集群Hadoop分布式集群數(shù)據(jù)處理平臺(tái)MPP分布式數(shù)據(jù)庫集群memoryCPUCPUdisksmemoryCPUCPUmemoryCPUCPUInterconnection NetworkShared storage:SAN,NAS數(shù)據(jù)傳統(tǒng)數(shù)據(jù)庫Shared Disk架構(gòu)disksdisksmemoryCPUCPUdisksmemoryCPUCPUdisksmemoryCPUCPUInterconnection Network數(shù)據(jù)數(shù)據(jù)分布策略Hash,Range,RandomMPP架構(gòu)

8、橫向擴(kuò)展最多192個(gè)節(jié)點(diǎn)MPP數(shù)據(jù)庫Shared Nothing架構(gòu)MPP數(shù)據(jù)庫大規(guī)模并行計(jì)算統(tǒng)一接口層收到上層發(fā)送的查詢請(qǐng)求,根據(jù)指定的集群節(jié)點(diǎn)或經(jīng)過負(fù)載均衡后選出的集群節(jié)點(diǎn),將SQL發(fā)送至指定節(jié)點(diǎn)的GCluster層。收到請(qǐng)求的節(jié)點(diǎn)GCluster層負(fù)責(zé)對(duì)SQL進(jìn)行詞法、語法檢查,進(jìn)行查詢優(yōu)化,生成分布式執(zhí)行計(jì)劃,將生成的分布式執(zhí)行計(jì)劃發(fā)送至集群相關(guān)節(jié)點(diǎn)的GNode層進(jìn)行執(zhí)行。GCWare層對(duì)各節(jié)點(diǎn)當(dāng)前狀態(tài)進(jìn)行監(jiān)控,保證分布式查詢計(jì)劃可以正確執(zhí)行。集群各節(jié)點(diǎn)GNode層對(duì)執(zhí)行計(jì)劃進(jìn)行解析和執(zhí)行。涉及到數(shù)據(jù)在不同節(jié)點(diǎn)間的搬運(yùn)、結(jié)果匯總等操作通過GCluster層進(jìn)行統(tǒng)一調(diào)度,GCWare層在

9、各節(jié)點(diǎn)執(zhí)行過程中對(duì)節(jié)點(diǎn)狀態(tài)進(jìn)行監(jiān)控,各節(jié)點(diǎn)將最終執(zhí)行結(jié)果發(fā)送至SQL發(fā)起節(jié)點(diǎn)進(jìn)行匯總,再通過統(tǒng)一接口層返回給上層應(yīng)用。MPP數(shù)據(jù)庫高可用性MPP ClusterdatabaseT1p2T1p1T1p3node1T1p2T1p1T1p3node3T1p2T1p1T1p3node2數(shù)據(jù)共3個(gè)副本Replicator/復(fù)制引擎一個(gè)safegroupMPP數(shù)據(jù)庫動(dòng)態(tài)擴(kuò)展能力MPPClusterdatabase 通過Safegroup 動(dòng)態(tài)擴(kuò)展集群節(jié)點(diǎn) 可以實(shí)際擴(kuò)展到64x3個(gè)節(jié)點(diǎn) 每個(gè)節(jié)點(diǎn)可以處理10-20TB有效數(shù)據(jù) 每個(gè)節(jié)點(diǎn)同時(shí)提供計(jì)算和存儲(chǔ)能力 Gcware 負(fù)責(zé)新節(jié)點(diǎn)的數(shù)據(jù)同步Hadoop分布

10、式集群Hadoop的發(fā)展歷程2002Apache Nutch誕生2003-2004Google發(fā)表GFS和MapReduce論文2004-2006Doug Cutting基于Google論文實(shí)現(xiàn)了自己的NDFS和MapReduce2006Hadoop作為Lucene的子項(xiàng)目誕生。同年,Doug Cutting加入Yahoo2008成為Apache頂級(jí)項(xiàng)目2009至今YARN, HBase, Spark, Storm等各類新服務(wù)不斷加入實(shí)時(shí)計(jì)算內(nèi)存計(jì)算分布式文件系統(tǒng)HDFS批處理MapReduce數(shù)據(jù)庫HBaseHivePig內(nèi)存計(jì)算SparkSharkStreaming消息隊(duì)列Kafka流處理

11、Storm資源管理YARN離線計(jì)算Hadoop基于X86服務(wù)器本地的計(jì)算與存儲(chǔ)資源提供了分布式并行計(jì)算和低成本存儲(chǔ),提供低時(shí)延、高并發(fā)的查詢功能,集群可以擴(kuò)展到上千臺(tái)服務(wù)器。資源管理YARN:改進(jìn)的YARN統(tǒng)一資源管理,在同一物理主機(jī)/虛擬主機(jī)和數(shù)據(jù)集上運(yùn)行多種計(jì)算框架,包括離線計(jì)算、內(nèi)存計(jì)算和實(shí)時(shí)計(jì)算,可以看做集群操作系統(tǒng)。分布式文件系統(tǒng)HDFS:分布式文件系統(tǒng),有較強(qiáng)的容錯(cuò)性,可在x86平臺(tái)上運(yùn)行,減少總體成本,可擴(kuò)展,能構(gòu)建大規(guī)模的應(yīng)用離線計(jì)算: MapReduce是一種離線計(jì)算框架,將一個(gè)算法抽象成Map和Reduce兩個(gè)階段進(jìn)行處理,適合數(shù)據(jù)密集型計(jì)算場(chǎng)景。內(nèi)存計(jì)算:MapReduc

12、e計(jì)算框架不適合迭代計(jì)算和交互式計(jì)算,MapReduce是一種磁盤計(jì)算框架,而Spark則是一種內(nèi)存計(jì)算框架,它將數(shù)據(jù)盡可能放到內(nèi)存中以提高迭代應(yīng)用和交互式應(yīng)用的計(jì)算效率。實(shí)時(shí)計(jì)算:MapReduce也不適合進(jìn)行流式計(jì)算、實(shí)時(shí)分析,比如廣告點(diǎn)擊計(jì)算等,而Storm則更擅長這種計(jì)算、它在實(shí)時(shí)性要遠(yuǎn)遠(yuǎn)好于MapReduce計(jì)算框架。 Hadoop分布式集群系統(tǒng)HDFS分布式文件系統(tǒng)HDFS設(shè)計(jì)理念大規(guī)模數(shù)據(jù)集橫向線性擴(kuò)展硬件錯(cuò)誤是常態(tài)復(fù)本冗余機(jī)制流式數(shù)據(jù)訪問批量讀而非隨機(jī)讀Master/Slave主從架構(gòu)namenodedatanode批處理Map/ReduceMapReduce是一種并行計(jì)算的框

13、架提供并行計(jì)算能力,隨著節(jié)點(diǎn)數(shù)增加近似線性遞增兩個(gè)核心操作Map和Reduce分而治之的思想“我們統(tǒng)計(jì)一棟樓的人數(shù),可以先數(shù)每一層的人數(shù)”內(nèi)存計(jì)算SparkSpark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計(jì)算框架,Spark基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法Spark特點(diǎn)中間結(jié)果內(nèi)存存儲(chǔ)合并任務(wù)流ite

14、r. 1iter. 2. . .InputHDFSreadHDFSwriteHDFSreadHDFSwriteiter. 1iter. 2. . .Input輕量級(jí)的調(diào)度框架和多線程計(jì)算模型,極低的調(diào)度和啟動(dòng)開銷比Hadoop快10 x100 xStorm與HadoopHadoopStormStorm:流式處理框架,實(shí)時(shí)的Hadoop。在處理方式上Hadoop的MapReduce程序是一批一批進(jìn)行處理的,等數(shù)據(jù)增長到一定的程度的時(shí)候,運(yùn)行一個(gè)MapReduce任務(wù),數(shù)據(jù)處理完成MapReduce任務(wù)結(jié)束。而在Storm中如果你運(yùn)行了一個(gè)Topology程序,則該程序會(huì)一直處于運(yùn)行狀態(tài),隨時(shí)處理

15、發(fā)送過來的數(shù)據(jù),除非使用命令手動(dòng)停止Topology程序。信息流處理連續(xù)計(jì)算分布式遠(yuǎn)程程序調(diào)用數(shù)據(jù)庫HBase簡介Hbase是分布式面向列存的數(shù)據(jù)庫。Zookeeper:本身是分布式的應(yīng)用程序協(xié)調(diào)服務(wù),它可以是外部單獨(dú)的,HBase集群依賴該組件,將rs節(jié)點(diǎn)注冊(cè)于zk上,利用zk的高一致性保存系統(tǒng)表的信息等。Hbase Master:HBase集群運(yùn)行在主機(jī)上進(jìn)行管理調(diào)度的主進(jìn)程(可配置backup master),如分配region,監(jiān)聽zk上region上下線失效情況等。Regionserver:運(yùn)行在各個(gè)機(jī)器節(jié)點(diǎn)上,負(fù)責(zé)region(可以認(rèn)為是連接真正數(shù)據(jù)的數(shù)據(jù)庫)的維護(hù),處理真正的IO

16、請(qǐng)求。HDFS:Hadoop HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持。YARN架構(gòu)ClientClientClientResource Manager(全局資源管理者)Node ManagerMRApp MstrContainerMap TaskContainerNode ManagerSpark TaskContainerReduce TaskContainerNode ManagerSparkApp MstrContainerSpark TaskContainerRM:全局資源管理器NM:節(jié)點(diǎn)上的資源和任務(wù)管理器。A. 上報(bào)本節(jié)點(diǎn)信息;B. 處理來自Ma的Container啟動(dòng)/

17、停止請(qǐng)求。Container:資源抽象,包括CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等多維度資源。AM或Task運(yùn)行在Container之中。AM:應(yīng)用管理器(一個(gè)應(yīng)用程序一個(gè)AM)。A. 為Task申請(qǐng)資源; B. 啟動(dòng)停止Task、監(jiān)控Task執(zhí)行情況Client:提交作業(yè)提交作業(yè)上報(bào)節(jié)點(diǎn)狀態(tài)請(qǐng)求資源上報(bào)任務(wù)狀態(tài)提綱大數(shù)據(jù)背景知識(shí)大數(shù)據(jù)技術(shù)基礎(chǔ)大數(shù)據(jù)解決方案大數(shù)據(jù)方案建設(shè)及應(yīng)用場(chǎng)景IT運(yùn)維大數(shù)據(jù)應(yīng)用安全大數(shù)據(jù)應(yīng)用數(shù)據(jù)標(biāo)準(zhǔn)管理數(shù)據(jù)質(zhì)量檢測(cè)數(shù)據(jù)資源監(jiān)測(cè)數(shù)據(jù)資源目錄元數(shù)據(jù)管理無線大數(shù)據(jù)應(yīng)用工業(yè)4.0大數(shù)據(jù)應(yīng)用教育大數(shù)據(jù)應(yīng)用多并發(fā)ETL集中調(diào)度系統(tǒng)容錯(cuò)報(bào)警機(jī)制數(shù)據(jù)交換系統(tǒng)網(wǎng)絡(luò)服務(wù)器安全非結(jié)構(gòu)化ERP應(yīng)用CRMSC

18、M其他數(shù)據(jù)物聯(lián)網(wǎng)ETL數(shù)據(jù)集成數(shù)據(jù)管理系統(tǒng) 大數(shù)據(jù)應(yīng)用安裝布署運(yùn)維監(jiān)控單點(diǎn)登錄用戶管理權(quán)限管理安全審計(jì)功能導(dǎo)航運(yùn)維管理DataEngine大數(shù)據(jù)平臺(tái)用戶門戶MPP分布式數(shù)據(jù)庫集群Hadoop/Spark集群大數(shù)據(jù)解決方案DataEngine大數(shù)據(jù)架構(gòu)兼容性好:基于開源Hadoop分布式計(jì)算框架,提供開放、兼容的大數(shù)據(jù)計(jì)算能力;硬件無關(guān):支持物理機(jī)布署、虛擬機(jī)布署;支持獨(dú)立布署、云平臺(tái)布署;安裝便捷:支持一鍵式快速布署,幾分鐘即可完成集群創(chuàng)建;擴(kuò)展性強(qiáng):集群數(shù)量從幾臺(tái)到上千臺(tái),并支持在線橫向擴(kuò)展;方便運(yùn)維:支持圖形化管理工具,運(yùn)維管理簡單易用;兼容SQL:100兼容標(biāo)準(zhǔn)SQL92,包括Hadoo

19、p和MPPLinux操作系統(tǒng)X86服務(wù)器集群資源管理YARN任務(wù)調(diào)度Oozie安全管理Kerberos文件系統(tǒng)HDFS集群安裝布署消息隊(duì)列Kafka數(shù)據(jù)管理可視化數(shù)據(jù)挖掘離線計(jì)算MapReduceMPP數(shù)據(jù)庫HBase數(shù)據(jù)庫統(tǒng)一用戶管理自助服務(wù)Hive數(shù)據(jù)倉庫同步系統(tǒng)ZooKeeper內(nèi)存計(jì)算Spark流計(jì)算Storm數(shù)據(jù)交換全文檢索工作流管理集群監(jiān)控管理大數(shù)據(jù)應(yīng)用DataEngine大數(shù)據(jù)平臺(tái)統(tǒng)一安全管理SQL即席查詢DataEngine : Hadoop+32原生Hadoop是一套分布式計(jì)算框架,可以處理低價(jià)值密度半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),不能處理高價(jià)值密度的關(guān)系型結(jié)構(gòu)化數(shù)據(jù)。原生Hadoo

20、p是一個(gè)開源生態(tài)圈,商用化需要經(jīng)過二次開發(fā),提高穩(wěn)定性、可靠性、安全性、易用性等,提供數(shù)據(jù)從ETL采集到可視化BI展示的端到端解決方案。隨著Hadoop的發(fā)展,用戶對(duì)Hadoop有了更高的期待,對(duì)云與大數(shù)據(jù)融合、大數(shù)據(jù)與安全融合、網(wǎng)絡(luò)對(duì)大數(shù)據(jù)支撐等提出了新的要求。開放兼容MPP數(shù)據(jù)庫自動(dòng)安裝混合架構(gòu)云平臺(tái)融合多業(yè)務(wù)高可靠H3C在Hadoop基礎(chǔ)上進(jìn)行了大量優(yōu)化,并與H3C其他產(chǎn)品線高度融合,提供端到端的大數(shù)據(jù)解決方案。基于開源Hadoop架構(gòu)增強(qiáng)開發(fā),可以快速集成開源社區(qū)優(yōu)秀組件;提供標(biāo)準(zhǔn)API,兼容標(biāo)準(zhǔn)SQL,便于大數(shù)據(jù)應(yīng)用開發(fā)、數(shù)據(jù)分析挖掘,為ISV提供良好開發(fā)接口;提供自助服務(wù),統(tǒng)一用戶

21、管理、統(tǒng)一安全管理、工作流管理、數(shù)據(jù)管理、可視化數(shù)據(jù)挖掘以及BI等業(yè)務(wù)能力。優(yōu)化集群部署方式,提供自動(dòng)安裝功能,支持分鐘級(jí)交付集群;集群規(guī)模靈活,集群主機(jī)可以從3臺(tái)到上千臺(tái)橫向擴(kuò)展;支持圖形化管理工具,運(yùn)維管理簡單易用。采用Hadoop+MPP混合架構(gòu),對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)差異化處理;解決Hadoop與MPP運(yùn)維管理融合以及集群間高速通道的搭建,對(duì)上層提供統(tǒng)一服務(wù)??梢耘cH3Cloud集成,通過云平臺(tái)為大數(shù)據(jù)分配和管理計(jì)算資源,提供多租戶服務(wù)。提供管理節(jié)點(diǎn)HA、服務(wù)節(jié)點(diǎn)HA、數(shù)據(jù)多備份以及災(zāi)備機(jī)制DataEngine_MPP分布式數(shù)據(jù)庫采用Shared Nothing 技術(shù),具有如下技術(shù)

22、優(yōu)勢(shì):列存儲(chǔ)、高效壓縮、智能索引、并行加載、數(shù)據(jù)安全組、橫向擴(kuò)展。一鍵部署,分鐘級(jí)交付主節(jié)點(diǎn):一鍵下發(fā)指令、自動(dòng)安裝部署Hadoop集群MPP集群其他組件細(xì)顆粒度在線水平擴(kuò)容管理節(jié)點(diǎn)Hadoop集群(3臺(tái)即可)MPP集群(4臺(tái)即可)其他組件可按1-2個(gè)節(jié)點(diǎn)為最小單位進(jìn)行批量在線擴(kuò)容動(dòng)態(tài)擴(kuò)展可視化運(yùn)維安裝部署集群管理主機(jī)管理服務(wù)管理用戶管理告警監(jiān)控多維度監(jiān)控告警多維度監(jiān)控(節(jié)點(diǎn)、服務(wù)、組件)告警類型豐富(CPU、內(nèi)存、硬盤)可自定義告警組自定義告警通知類型 (SNMP、EMAIL)BI展示提綱大數(shù)據(jù)背景知識(shí)大數(shù)據(jù)技術(shù)基礎(chǔ)大數(shù)據(jù)解決方案大數(shù)據(jù)方案建設(shè)及應(yīng)用場(chǎng)景企業(yè)面臨的數(shù)據(jù)困境?業(yè)務(wù)現(xiàn)狀面臨挑戰(zhàn)價(jià)

23、值挑戰(zhàn)數(shù)據(jù)這么多,不知道怎么用不知道如何建立高效率高價(jià)值的數(shù)據(jù)分析體系數(shù)據(jù)團(tuán)隊(duì)疲于變化的需求,卻得不到認(rèn)可業(yè)務(wù)挑戰(zhàn)業(yè)務(wù)變化紛繁復(fù)雜,響應(yīng)成本高需求突發(fā)性與實(shí)時(shí)性強(qiáng),傳統(tǒng)工具無法解決技術(shù)與業(yè)務(wù)脫節(jié),只有少數(shù)人能夠領(lǐng)會(huì)利用數(shù)據(jù)技術(shù)挑戰(zhàn)傳統(tǒng)數(shù)據(jù)倉庫建設(shè)復(fù)雜,成本高ETL工作繁瑣,實(shí)施速度慢數(shù)據(jù)分析與數(shù)據(jù)挖掘技術(shù)門檻高無法應(yīng)對(duì)未來大數(shù)據(jù)的沖擊業(yè)務(wù)需求變化多樣數(shù)據(jù)量爆發(fā)式增長數(shù)據(jù)部門疲于應(yīng)對(duì)需求變化無法用好現(xiàn)有數(shù)據(jù)數(shù)據(jù)分析、挖掘體系不夠完善企業(yè)或單位沒有數(shù)據(jù)決策的意識(shí)企業(yè)大數(shù)據(jù)建設(shè)步驟三段論數(shù)據(jù)變現(xiàn)數(shù)據(jù)整合技術(shù)升級(jí)第一階段第二階段第三階段先有金剛鉆再攬瓷器活瓷器變金錢MPP分布式數(shù)據(jù)庫Hadoop結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)高價(jià)值密度數(shù)據(jù)低價(jià)值密度數(shù)據(jù)大數(shù)據(jù)應(yīng)用用MPP處理PB級(jí)別的、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),同時(shí)為應(yīng)用提供豐富的SQL支持能力用H

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論