華為FusionInsight大數(shù)據(jù)平臺(tái)方案介紹_第1頁
華為FusionInsight大數(shù)據(jù)平臺(tái)方案介紹_第2頁
華為FusionInsight大數(shù)據(jù)平臺(tái)方案介紹_第3頁
華為FusionInsight大數(shù)據(jù)平臺(tái)方案介紹_第4頁
華為FusionInsight大數(shù)據(jù)平臺(tái)方案介紹_第5頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、華為FusionInsight大數(shù)據(jù)平臺(tái)讓數(shù)據(jù)“慧”說話產(chǎn)業(yè)趨勢(shì)邁入大數(shù)據(jù)時(shí)代大數(shù)據(jù)應(yīng)用場(chǎng)景IT產(chǎn)業(yè)快速發(fā)展移動(dòng)互聯(lián)70+億 用戶 接近全球人口總數(shù) 78% CAGR 數(shù)據(jù)增長(zhǎng)大數(shù)據(jù)數(shù)據(jù)即資產(chǎn)未來5年,企業(yè)間的競(jìng)爭(zhēng)在數(shù)據(jù)層面云計(jì)算云成為新一代IT基礎(chǔ)設(shè)施 56%中小型企業(yè)購(gòu)買云服務(wù)社交社交即業(yè)務(wù)86% 企業(yè)在社交媒體上開展業(yè)務(wù) 邁入大數(shù)據(jù)時(shí)代1000+PB24億網(wǎng)民1天產(chǎn)生的數(shù)據(jù)63% GAGR非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率數(shù)據(jù)摩爾定律:Y=C2XX代表時(shí)間,Y代表用戶的信息分享量,C代表現(xiàn)在時(shí)刻的分享信息量30+TB交易量3000+萬筆/天1PB/SCERN:核爆產(chǎn)生數(shù)據(jù)的速度華為對(duì)大數(shù)據(jù)的理解本質(zhì):物

2、理世界在數(shù)字世界的映像目標(biāo):更多維度的數(shù)據(jù),挖掘事務(wù)背后的因果關(guān)系企業(yè)提高競(jìng)爭(zhēng)力,應(yīng)該掌握和分析更多的數(shù)據(jù)大數(shù)據(jù)可以幫助企業(yè)更準(zhǔn)確預(yù)判客戶需求,洞察市場(chǎng),產(chǎn)品創(chuàng)新。金融:實(shí)時(shí)征信,精準(zhǔn)小微貸,防欺詐電信:流量經(jīng)營(yíng)、客戶維挽、套餐包精準(zhǔn)營(yíng)銷公安:同行車輛、碰撞分析、電商:亞馬遜推出“預(yù)判發(fā)貨”媒資:Netflix推出紙牌屋電視劇傳統(tǒng)媒體互聯(lián)網(wǎng)1.0互聯(lián)網(wǎng)2.0/3.0顧客的力量和選擇公司的力量和聲音客戶占據(jù)主動(dòng)金融:大數(shù)據(jù)讓銀行更了解客戶與識(shí)別潛在風(fēng)險(xiǎn)王五作為某銀行客戶,需要申請(qǐng)一張新的信用卡實(shí)時(shí)征信、精準(zhǔn)營(yíng)銷、在線明細(xì)、精準(zhǔn)小微貸、24周大數(shù)據(jù)平臺(tái)客戶信息系統(tǒng)交易系統(tǒng)信用系統(tǒng)根據(jù)拜訪客戶需要進(jìn)

3、行裁減金融:大數(shù)據(jù)支撐金融從降成本向業(yè)務(wù)創(chuàng)新邁進(jìn)互聯(lián)網(wǎng)等技術(shù)應(yīng)用讓數(shù)據(jù)獲取成本降低,但數(shù)據(jù)挖掘成本還很高階段一階段二階段三卸載模式離線批處理海量特征全量建模實(shí)時(shí)業(yè)務(wù)創(chuàng)新業(yè)務(wù)根據(jù)拜訪客戶需要進(jìn)行裁減運(yùn)營(yíng)商:在用戶數(shù)據(jù)方面相較互聯(lián)網(wǎng)擁有天然優(yōu)勢(shì)User Data in Telecom NetworksUser Profile Comparison Basic Information(Gender, Age)Preference(Interesting, Habits)Social relation(Family, Contacts)Telcos VS Internet SPsSuggestion

4、For TelcosHave done little, be potential to pursue advancers from InternetDoing well, but can do better!Knows more than competitors, should mine more.Internet SP could get user data in these 4 layersTelcos could get data in all 7 layers!Context(Location, Presence, emotion)Good base of network awaren

5、ess, could do muchcategories of User Profile運(yùn)營(yíng)商擁有數(shù)據(jù)源的優(yōu)勢(shì),已經(jīng)做了很多數(shù)據(jù)分析的工作,但可以做的更好客戶移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)內(nèi)容興趣標(biāo)簽金融、汽車、綜藝、美容、旅游、娛樂、體育、房產(chǎn)等自有業(yè)務(wù)偏好信息手機(jī)游戲、手機(jī)動(dòng)漫、手機(jī)閱讀等網(wǎng)絡(luò)輿情熱點(diǎn)關(guān)注釣魚島、遼寧號(hào)、十八大等位置軌跡家庭位置、工作場(chǎng)所、移動(dòng)軌跡、常去地點(diǎn)等終端使用特征 IMEI、終端類型、是否支持GPRS、是否支持WLAN、上次換機(jī)時(shí)間、換機(jī)周期、換機(jī)次數(shù)、是否定制終端等使用時(shí)間特征上網(wǎng)集中時(shí)間段、平均每次上網(wǎng)時(shí)間、平均每天上網(wǎng)次數(shù)、使用最長(zhǎng)時(shí)間等行為偏好即時(shí)通訊、微博、炒股、上網(wǎng)、聽

6、歌、閱讀、游戲等OTT業(yè)務(wù)使用應(yīng)用軟件偏好、網(wǎng)站偏好等根據(jù)拜訪客戶需要進(jìn)行裁減運(yùn)營(yíng)商:大數(shù)據(jù)支撐運(yùn)營(yíng)商向Digital Telco轉(zhuǎn)型服務(wù)器網(wǎng)絡(luò)存儲(chǔ)安全工程消費(fèi)信息位置信息關(guān)系信息日常跟蹤服務(wù)數(shù)據(jù)業(yè)務(wù)內(nèi)容合作方運(yùn)營(yíng)電話短信video網(wǎng)絡(luò)數(shù)據(jù)用戶數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)獲取 To C:用戶市場(chǎng)To B:企業(yè)市場(chǎng)To Self:內(nèi)部個(gè)性化,智能化,長(zhǎng)尾業(yè)務(wù)數(shù)據(jù)開放,企業(yè)智能。輔助決策,提升效率。數(shù)據(jù)存儲(chǔ)數(shù)據(jù)分析與公共信息結(jié)合政府交通社交搜索與社交信息結(jié)合123基于電信自有數(shù)據(jù)數(shù)據(jù)挖掘根據(jù)拜訪客戶需要進(jìn)行裁減公安:大數(shù)據(jù)實(shí)現(xiàn)在海量數(shù)據(jù)中快速發(fā)現(xiàn)價(jià)值信息道路自動(dòng)發(fā)現(xiàn)治安管理社會(huì)關(guān)系發(fā)現(xiàn)犯罪預(yù)警根據(jù)拜訪客戶需要

7、進(jìn)行裁減公安:以大數(shù)據(jù)為支柱的智慧警務(wù)成為警務(wù)發(fā)展的潮流智慧指揮智慧偵查智慧情報(bào)資源管理平臺(tái)計(jì)算資源池網(wǎng)絡(luò)資源池存儲(chǔ)資源池智慧警務(wù)更高效的情報(bào)收集更方便的數(shù)據(jù)共享更精準(zhǔn)的犯罪預(yù)防更有效的情報(bào)處理根據(jù)拜訪客戶需要進(jìn)行裁減主流數(shù)據(jù)處理技術(shù)及數(shù)據(jù)處理技術(shù)趨勢(shì)大數(shù)據(jù)處理技術(shù)數(shù)據(jù)處理技術(shù)與架構(gòu)發(fā)展趨勢(shì)傳統(tǒng)數(shù)據(jù)倉庫SQL、UPFSQL執(zhí)行引擎行存、磁盤、單機(jī)/SE集群I/O存在瓶頸擴(kuò)展能力差實(shí)時(shí)性差非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)無法支持復(fù)雜計(jì)算數(shù)據(jù)處理能力弱UPF: User-defined Process FunctionSE: Share EverythingSN:Share Nothing并行批處理/Hadoop

8、SQL、Java、Python多種計(jì)算模型(MR、圖計(jì)算、)HDFS、SN分布式解決“大、雜”多類型數(shù)據(jù)復(fù)雜計(jì)算模型靈活編程接口MPP數(shù)據(jù)倉庫SQL、UPF向量迭代、并行列存、SN分布式內(nèi)存分析數(shù)據(jù)庫SQL、UPFMicroEngine、并行列存、內(nèi)存流處理引擎CQL、規(guī)則網(wǎng)狀算子執(zhí)行內(nèi)存解決“大、快”結(jié)構(gòu)化數(shù)據(jù)快速查詢、交互式實(shí)時(shí)查詢One sizes fit all單一架構(gòu)One sizes fit domain分離架構(gòu)(四套系統(tǒng))One stack rules them all融合架構(gòu)(四套變一套)統(tǒng)一持久層,數(shù)據(jù)減少移動(dòng)統(tǒng)一管理,實(shí)現(xiàn)資源共享和管理自動(dòng)化同一數(shù)據(jù)可同時(shí)進(jìn)行批處理、流處理

9、以及查詢多種計(jì)算模型解決“快、雜”異構(gòu)流數(shù)據(jù)實(shí)時(shí)處理MPP DB高級(jí)編程接口批計(jì)算流計(jì)算分布式文件系統(tǒng)資源管理開發(fā)IDE系統(tǒng)管理數(shù)據(jù)挖掘算法/建模/其他工具 Hadoop已成為大數(shù)據(jù)事實(shí)標(biāo)準(zhǔn)第一階段(20052009年):模仿Google的“三駕馬車”,主導(dǎo)者是Yahoo!,Facebook等互聯(lián)網(wǎng)廠商,相關(guān)項(xiàng)目第二階段(2009年):模仿Google的“新三駕馬車”,主導(dǎo)者是Cloudera、Hortonworks等Hadoop發(fā)行版廠商,IBM、EMC、Intel、Huawei等傳統(tǒng)IT廠商開始集成Hadoop,Haoop進(jìn)入企業(yè)市場(chǎng),相關(guān)項(xiàng)目第三階段(2012年):博采眾長(zhǎng),吸納AMP

10、Lab、流計(jì)算等成果,通過配套工具構(gòu)筑大數(shù)據(jù)領(lǐng)域生態(tài)系統(tǒng),形成事實(shí)標(biāo)準(zhǔn);相關(guān)項(xiàng)目。6大Hadoop 發(fā)行版廠商Cloudera、Hortonworks、MapR、 IBM 、EMC、Huawei揭開Hadoop神秘的面紗Hadoop是Apache基金會(huì)的一個(gè)項(xiàng)目總稱,主要由HDFS和MapReduce組成。 HDFS是對(duì)Google GFS的開源實(shí)現(xiàn),MapReduce是對(duì)Google MapReduce的開源實(shí)現(xiàn)。 Hadoop 來源于其創(chuàng)始人Doug Cutting的兒子給一頭黃色大象取的名字。Hadoop最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺(tái)。Hadoop 框架與實(shí)例HD

11、FS 分布式文件系統(tǒng)Hadoop 框架HCatalog元數(shù)據(jù)管理HBase分布式列數(shù)據(jù)庫HiveSQL查詢語言Pig流數(shù)據(jù)處理語言MapReduce分布式數(shù)據(jù)處理框架&集群資源管理協(xié)調(diào)服務(wù),分布式鎖ZooKeepereHadoop Common分布式文件系統(tǒng)和通用I/O的組件與接口數(shù)據(jù)源數(shù)據(jù)倉庫日志文件媒體文件RSS分布式數(shù)據(jù)存儲(chǔ)HDFS, 分布式數(shù)據(jù)處理數(shù)據(jù)應(yīng)用QueriesAnalyticsSearchDatameerSqoop、Flume、Hadoop 實(shí)例HBase MapReduceHadoop 核心組件: HDFS 和 MapReduce海量數(shù)據(jù)的分布式存儲(chǔ)海量數(shù)據(jù)的分布式處理大數(shù)

12、據(jù)處理技術(shù)日新月異,更高效的計(jì)算框架不斷涌現(xiàn)HDFSHadoop 1.0MapReduce集群資源管理 & 分布式數(shù)據(jù)處理HDFSHadoop 2.0YARN 集群資源管理批處理Off-line computation交互計(jì)算Tez (Hive/Pig)批處理M-R流處理Storm,S4,迭代計(jì)算Spark其它Graph Spark :迭代計(jì)算模型Spark是UC Berkeley AMP 實(shí)驗(yàn)室基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算框架,輸出和結(jié)果保存在內(nèi)存中,不需要頻繁讀寫HDFS,數(shù)據(jù)處理效率更高Spark適用于近線或準(zhǔn)實(shí)時(shí)、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景Hadoop:兩步計(jì)算,磁盤存

13、儲(chǔ)Spark:多步計(jì)算,內(nèi)存存儲(chǔ)VSSpark:大數(shù)據(jù)技術(shù)新方向Spark SQLSpark vs HadoopHadoop /Spark /是否開源成熟的開源項(xiàng)目開源,2013年8月申請(qǐng)成為Apache孵化項(xiàng)目文件系統(tǒng)HDFS支持HDFS、MESOS、S3等文件系統(tǒng),可以直接將spark集成到hadoop上,可以從hdfs讀取和寫入文件中間結(jié)果存儲(chǔ)存儲(chǔ)到磁盤內(nèi)存存儲(chǔ)Job定義Map-Reduce 兩步計(jì)算DAG的Job定義,支持多步計(jì)算開發(fā)語言JavaScala、Java 、Python易用性Java API,無交互式界面提供豐富的Scala, Java,Python API及交互式Shel

14、l來提高可用性容錯(cuò)性數(shù)據(jù)冗余,任務(wù)失敗重計(jì)算Checkpoint機(jī)制,RDD支持重計(jì)算性能頻繁讀寫磁盤,低數(shù)據(jù)緩存內(nèi)存,高應(yīng)用場(chǎng)景適用于大數(shù)據(jù)量,迭代次數(shù)少,無時(shí)延要求的業(yè)務(wù)適用于中等數(shù)據(jù)量(TB級(jí)),需要多次操作特定數(shù)據(jù)集,且頻繁迭代計(jì)算的數(shù)據(jù)業(yè)務(wù)場(chǎng)合未來發(fā)展第2代hadoop,融合的分布式計(jì)算框架可插拔的job調(diào)度器/緩存管理策略Spark大數(shù)據(jù)棧-構(gòu)建MLbase、Tachyon、GraphXStrom:流式數(shù)據(jù)處理引擎Hadoop:分批處理Storm:實(shí)時(shí)處理Storm 廣泛應(yīng)用于實(shí)時(shí)分析,在線機(jī)器學(xué)習(xí),持續(xù)計(jì)算等領(lǐng)域。VSStorm 框架及實(shí)例Storm框架Storm實(shí)例華為大數(shù)據(jù)解

15、決方案方案介紹FusionInsight產(chǎn)品定位: 企業(yè)級(jí)大數(shù)據(jù)處理、分析挖掘平臺(tái)運(yùn)營(yíng)商金融政府FusionInsight 大數(shù)據(jù)平臺(tái)數(shù)據(jù)服務(wù)離/近線計(jì)算內(nèi)存計(jì)算并行數(shù)據(jù)庫MPPDB實(shí)時(shí)流計(jì)算征信推薦明細(xì)(影像)偽控?cái)?shù)據(jù)采集數(shù)據(jù)集成數(shù)據(jù)探索分析結(jié)果呈現(xiàn)數(shù)據(jù)分析敏捷完全開放的架構(gòu),性能線性擴(kuò)展豐富的工具支持,開發(fā)運(yùn)維高效強(qiáng)大的SQL能力,業(yè)務(wù)移植便捷智慧全量建模,深刻洞察自研算法,高效精準(zhǔn)可信全組件HA、異地容災(zāi)、金融等保 開放共贏,可信賴的合作伙伴FusionInsight產(chǎn)品架構(gòu)概述FusionInsight的Hadoop層提供大數(shù)據(jù)處理環(huán)境,基于社區(qū)開源軟件增強(qiáng),按照?qǐng)鼍斑x擇業(yè)界最佳實(shí)踐

16、FusionInsight的DataFarm層提供支撐端到端數(shù)據(jù)洞察,構(gòu)建數(shù)據(jù)到信息到知識(shí)到智慧的數(shù)據(jù)供應(yīng)鏈, 其中包括相對(duì)獨(dú)立的數(shù)據(jù)集成服務(wù)Porter,數(shù)據(jù)挖掘服務(wù)Miner和數(shù)據(jù)服務(wù)框架FarmerFusionInsight Manager是一個(gè)分布式系統(tǒng)管理框架,管理員可以從單一接入點(diǎn)操控分布式集群,包括系統(tǒng)管理(OM/NTP/災(zāi)備)、數(shù)據(jù)安全管理HIVE/Impala/ElkHDFS/HBaseM/RSparkPorterMinerDataFarmHadoopSolr系統(tǒng)管理FarmerManagerHadoop APIPlugin APIOpenAPI/SDK應(yīng)用服務(wù)層REST/S

17、NMP/SyslogDataInformationKnowledgewisdomYarn/ Zookeeper 安全管理MPP DBStorm為業(yè)務(wù)進(jìn)行優(yōu)化的統(tǒng)一開放大數(shù)據(jù)平臺(tái),數(shù)據(jù)處理敏捷高效智慧可信敏捷FusionInsight用100開源的核心支持混合負(fù)載,從批量、交互查詢、數(shù)據(jù)挖掘,到實(shí)時(shí)流和查詢等各種場(chǎng)景開放式存儲(chǔ)格式(Rcfile/ORCfile/Parquet),以避免鎖定私有文件格式所有的組件都通過Manager提供的插件框架來按需安裝開源 輕度增強(qiáng)開源深度增強(qiáng)開源孵化特性自研DSLIDE分布式計(jì)算框架HDFS/HBaseStormMapReduce/TezPigHiveYAR

18、N/ZookeeperSparkFlumeSqoopIntegrationBatch ProcessingInteractiveQuerySearchMachine LearningEvent StreamProcessImpalaSolrMLLIB分布式存儲(chǔ)StreamingCalculation基礎(chǔ)設(shè)施Standard ServerIMC ServerStorage ServerPluggable AcceleratorNetworkOnline QuerySparkStreamingCQLPhoenixElkHiGraphCTBaseMPP DB組件特性優(yōu)化HBase二級(jí)索引CTBase

19、MOBHDFS文件塊同分布NameNode啟動(dòng)加速M(fèi)apReduce任務(wù)優(yōu)先級(jí)調(diào)度容器重用SparkSpark SQL增強(qiáng)Spark Core增強(qiáng)。豐富的工具支持,業(yè)務(wù)開發(fā)運(yùn)維高效便捷智慧可信敏捷HBaseRecoverable Connection ManagerSchema DataEnhance Hbase SDKtry table = new HTable(conf, TABLE); / 1. Generate RowKey. . / 2. Create Put instance. Put put = new Put(rowKey); / 3. Convert columns into

20、 qualifiers(Need to consider merging cold columns). / 3.1. Add hot columns. . / 3.2. Merge cold columns. . put.add(COLUMN_FAMILY, Bytes.toBytes(QA), hotCol); / 3.3. Add cold columns. put.add(COLUMN_FAMILY, Bytes.toBytes(QB), coldCols); / 4. Put into HBase. table.put(put); catch (IOException e) / Han

21、dle IOE. Need to re-create connections under some scenarios.try table = new ClusterTable(conf, CLUSTER_TABLE); / 1. Create CTRow instance. CTRow row = new CTRow(); / 2. Add columns. . / 3. Put into HBase. table.put(TABLE, row); catch (IOException e) / Does not care connection re-creation.HBase原生API增

22、強(qiáng)APIHBase APIStormDef Input:public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) public void nextTuple() public void declareOutputFields(OutputFieldsDeclarer declarer) Def logic:public void execute(Tuple tuple, BasicOutputCollector collector) public void declareOutputF

23、ields(OutputFieldsDeclarer ofd) Def Output: public void execute(Tuple tuple, BasicOutputCollector collector) public void declareOutputFields(OutputFieldsDeclarer ofd) Def Topology:public static void main(String args) throws Exception Def Input:Create Input Stream kafkareaderDef logic:Insert into fil

24、terstr select * from kafkareader where name=“HUAWEI”;Def Output:Create Output Stream kafkawriterDef Topology:Submit application test;Storm原生APICQL:CQL SDKStorm API豐富的二次開發(fā)接口增強(qiáng)Step2:配置集群拓?fù)銼tep3:配置集群參數(shù)自動(dòng)完成安裝配置集群節(jié)點(diǎn)狀態(tài)集群服務(wù)狀態(tài)HBase RS狀態(tài)便捷的運(yùn)維管理DB文件服務(wù)器MR/spark/Hive任務(wù)提交目標(biāo)系統(tǒng)HDFS/HiveHBaseRDMS數(shù)據(jù)數(shù)據(jù)FTP/SFTP/NFSJDB

25、C強(qiáng)大的數(shù)據(jù)加載工具M(jìn)Q接入子系統(tǒng)containers系統(tǒng)管理ManagerHadoop其他外部系統(tǒng)外部應(yīng)用RediszookeeperBLU管理服務(wù)管理Redis管理ALBHadoop APIFusionInsight Farmer高效的大數(shù)據(jù)應(yīng)用開發(fā)運(yùn)行平臺(tái)強(qiáng)大的SQL支持能力,業(yè)務(wù)開發(fā)移植方便智慧可信敏捷通用SQL標(biāo)準(zhǔn)接口,全面兼容傳統(tǒng)SQL和Hadoop的HQL全面支持JDBC、ODBC接口,并提供豐富的擴(kuò)展接口如PL/C,PL/Jaca,PL/Python靈活的存儲(chǔ)格式HDFS(ORC、Parquet),HBase(KV)基于插件式方案構(gòu)建基于Spark SQL框架的差異化語法解析器

26、和性能優(yōu)化器實(shí)現(xiàn)標(biāo)準(zhǔn)SQL的TPC-DS用例99個(gè)全部通過。滿足客戶常用的標(biāo)準(zhǔn)SQL訴求SparkSQL增強(qiáng)查詢、報(bào)表、統(tǒng)計(jì)DataHDFSSQL 引擎SQL 引擎SQL 執(zhí)行器Loader ManagerELK結(jié)構(gòu)化數(shù)據(jù)分析挖掘、機(jī)器學(xué)習(xí)半/非結(jié)構(gòu)化數(shù)據(jù)分析挖掘平臺(tái);流處理平臺(tái);非結(jié)構(gòu)化處理平臺(tái);SQL 執(zhí)行器SQL 執(zhí)行器FusionInsight HDELK:SQL on Hadoop超百萬維數(shù)據(jù)分析挖掘平臺(tái),深刻洞察數(shù)據(jù)價(jià)值智慧可信敏捷FusionInsight Miner數(shù)據(jù)探索并行化機(jī)器學(xué)習(xí)算法庫(HIMM/Mahout/MLlib/HiGraph)建模分析行業(yè)應(yīng)用使能器(Enab

27、ler)金融行業(yè)模型使能套件電信行業(yè)模型使能套件通用使能套件(標(biāo)簽管理、推薦引擎)特征工程數(shù)據(jù)處理平臺(tái)端到端分析平臺(tái)一站式平臺(tái)支撐數(shù)據(jù)分析全流程 ,讓大數(shù)據(jù)探索和洞察變得簡(jiǎn)單特征工程/社交化特征復(fù)用,基于分布式內(nèi)存計(jì)算,支持超百萬維度特征分析圖形化控件開發(fā)過程封裝成圖形化算子,無需任何代碼高性能算法庫自研HiGraph算法庫, 比開源Mllib算法庫快35倍開放性與R無縫對(duì)接, 支持與SAS、SPSS等對(duì)接業(yè)務(wù)驅(qū)動(dòng)提供基于業(yè)務(wù)問題驅(qū)動(dòng)的閉環(huán)解決方案自研數(shù)據(jù)挖掘算法庫HiGraph,提升數(shù)據(jù)挖掘效率智慧可信敏捷自研算法集算法名稱HiGraph(目前提供60多個(gè)算法,其中50以上為華為自研算法,包

28、括對(duì)現(xiàn)有算法的優(yōu)化以及完全自研算法)LR based SGDLR based TRONALSSVD+AproiroDBScanFastunfold。相比開源MLLIB提速3X以上可信產(chǎn)品:全面的產(chǎn)品安全性智慧可信敏捷系統(tǒng)安全數(shù)據(jù)安全認(rèn)證安全完全開源組件增強(qiáng)操作系統(tǒng)安全加固用戶組件權(quán)限控制用戶權(quán)限認(rèn)證管理數(shù)據(jù)完整性校驗(yàn)組件數(shù)據(jù)加密首家符合國(guó)家金融等級(jí)保護(hù)的大數(shù)據(jù)平臺(tái)可信產(chǎn)品:完備的產(chǎn)品可靠性智慧可信敏捷系統(tǒng)可靠性數(shù)據(jù)可靠性所有組件無單點(diǎn)故障跨數(shù)據(jù)中心容災(zāi)所有管理節(jié)點(diǎn)HA軟硬件健康狀態(tài)監(jiān)控網(wǎng)絡(luò)平面隔離第三方備份系統(tǒng)集成關(guān)鍵數(shù)據(jù)掉電保護(hù)硬盤熱插拔首家支持1000+km容災(zāi)的大數(shù)據(jù)平臺(tái)可信開發(fā)流程:安

29、全活動(dòng)嵌入IPD開發(fā)流程智慧可信敏捷安全活動(dòng)DCP/TR檢查點(diǎn)IPD安全活動(dòng)融入決策檢查點(diǎn),合同和技術(shù)評(píng)審/其他評(píng)審或檢查點(diǎn)安全需求安全設(shè)計(jì)安全開發(fā)安全測(cè)試安全交付和維護(hù)安全需求分析安全威脅分析安全架構(gòu)/特性設(shè)計(jì)開源及第三方軟件選型代碼安全檢視代碼安全掃描報(bào)告安全測(cè)試方案和用例安全測(cè)試報(bào)告(包括開源軟件)安全補(bǔ)?。ê_源軟件及第三方軟件)軟件外包(安全需求傳遞, 設(shè)計(jì)評(píng)審,代碼安全審查,安全測(cè)試驗(yàn)收)配置管理 (代碼,文檔,研發(fā)工具,開源軟件) 安全基線、規(guī)范、標(biāo)準(zhǔn)、指導(dǎo)書ConceptTR1PlanTR2TR3DevelopmentTR4TR4ATR5QualifyTR6LaunchGALi

30、fecycleCharterCDCPPDCPADCP部分Hadoop開源風(fēng)險(xiǎn)舉例智慧可信敏捷序號(hào)安全風(fēng)險(xiǎn)華為安全紅線要求1不安全加密算法:包括加密算法和隨機(jī)數(shù)生成 例如:zookeeper里面某些認(rèn)證相關(guān)代碼使用了java.util.Random弱隨機(jī)函數(shù)禁止使用公司認(rèn)定的不安全的密碼算法,出于行業(yè)標(biāo)準(zhǔn)遵從、與第三方對(duì)接、向下兼容的場(chǎng)景例外。不安全密碼算法: 1)分組密碼算法:Blowfish, DES, DESX, RC2, Skipjack, 2TDEA, TEA 2)流密碼算法: SEAL, CYLINK_MEK, RC4 (128 bits) 3)哈希算法: SHA0, MD2, MD

31、4, MD5, RIPEMD, RIPEMD-128;SHA-1禁止用于數(shù)字簽名的場(chǎng)景 4)數(shù)字簽名算法:RSA (1024 bits)、DSA (1024 bits)、ECDSA(160bits) 5)密鑰交換算法:DH ( 1024 bits)2Web無需認(rèn)證即可訪問 ,例如:HDFS,Hbase等組件的Web服務(wù)可以直接訪問,不需要是集群的合法用戶。對(duì)于每一個(gè)需要授權(quán)訪問的請(qǐng)求,必須核實(shí)用戶的會(huì)話標(biāo)識(shí)是否合法、用戶是否被授權(quán)執(zhí)行這個(gè)操作。3XSS注入保護(hù)不足 ,例如:webhdfs頁面的路徑輸入框存在腳本注入問題在服務(wù)器端對(duì)所有來自不可信數(shù)據(jù)源的數(shù)據(jù)進(jìn)行校驗(yàn),拒絕任何沒有通過校驗(yàn)的數(shù)據(jù)。

32、若輸出到客戶端的數(shù)據(jù)來自不可信的數(shù)據(jù)源,則須對(duì)該數(shù)據(jù)進(jìn)行相應(yīng)的編碼或轉(zhuǎn)義。4審計(jì)日志記錄不全 ,例如:Hive的metastore,社區(qū)版本完全沒有審計(jì)日志管理面所有對(duì)系統(tǒng)產(chǎn)生影響的用戶活動(dòng)、操作指令必須記錄日志,日志內(nèi)容要能支撐事后的審計(jì),記錄包括用戶ID、時(shí)間、事件類型、被訪問資源的名稱、訪問發(fā)起端地址或標(biāo)識(shí)、訪問結(jié)果等;日志要有訪問控制,只有管理員才能有刪除權(quán)限。5認(rèn)證憑據(jù)等敏感信息打印 ,例如:hbase、hdfs等的debug日志打印了TGT信息產(chǎn)品安全敏感數(shù)據(jù)(如:個(gè)人用戶使用的口令、操作維護(hù)用途的口令、用于網(wǎng)絡(luò)通信協(xié)議協(xié)商的身份認(rèn)證Key等)不得在日志中明文記錄。開放共贏,可信賴

33、合作伙伴智慧可信敏捷2014年,金融大數(shù)據(jù)聯(lián)盟成立2015年,上海聯(lián)通合作創(chuàng)新展示中心揭幕2015年,大數(shù)據(jù)聯(lián)合解決方案發(fā)布全球布局、全面覆蓋大數(shù)據(jù)領(lǐng)域關(guān)鍵技術(shù)西安研究所:Hadoop產(chǎn)品化(IT)ELK/MPP DB(高斯實(shí)驗(yàn)室)深圳研發(fā)基地/香港:大數(shù)據(jù)洞察平臺(tái)(IT)大數(shù)據(jù)解決方案(IT)數(shù)據(jù)挖掘算法(諾亞實(shí)驗(yàn)室)印度研究所:Hadoop(中央軟件院)數(shù)據(jù)可視化(中央軟件院)MOLAP(中央軟件院)美研所:Spark (中央軟件院)ELK/MPP DB(高斯實(shí)驗(yàn)室)大數(shù)據(jù)系統(tǒng)加速(香農(nóng)實(shí)驗(yàn)室)歐研所:分布式內(nèi)存DB(中央軟件院)分布式計(jì)算算法(中央軟件院)杭州研究所:Hadoop(中央軟

34、件院)Spark(中央軟件院)流計(jì)算(中央軟件院)加研所:Yarn/大規(guī)模調(diào)度硬件加速(中央硬件院)金融大數(shù)據(jù)分析(IT)俄研所:大數(shù)據(jù)算法(香農(nóng)實(shí)驗(yàn)室)融合開放、深度回饋社區(qū)4實(shí)踐經(jīng)驗(yàn)華為大數(shù)據(jù)成功實(shí)踐招商銀行:構(gòu)筑大數(shù)據(jù)平臺(tái)向互聯(lián)網(wǎng)金融轉(zhuǎn)型銀行業(yè)務(wù)競(jìng)爭(zhēng)激烈,急需以金融數(shù)據(jù)分析、挖掘?yàn)榛A(chǔ)的產(chǎn)品預(yù)測(cè)、創(chuàng)新和風(fēng)險(xiǎn)評(píng)估,提升自身競(jìng)爭(zhēng)力面對(duì)金融數(shù)據(jù)量和種類不斷增加,傳統(tǒng)數(shù)據(jù)倉庫僅適合結(jié)構(gòu)化數(shù)據(jù)處理,擴(kuò)展性差、擴(kuò)容成本高,無法滿足大數(shù)據(jù)時(shí)代要求客戶挑戰(zhàn)解決方案企業(yè)級(jí)大數(shù)據(jù)平臺(tái):高可靠、高安全、易管理、易開發(fā)第一家支持金融等保、第一家支持1000公里以上異地容災(zāi) 的海量數(shù)據(jù)分析和挖掘平臺(tái),無縫銜接企業(yè)

35、應(yīng)用擁有內(nèi)核級(jí)開發(fā)的工程團(tuán)隊(duì)和咨詢、定制化的服務(wù)能力客戶價(jià)值統(tǒng)一的全量數(shù)據(jù)分析和挖掘平臺(tái)豐富的創(chuàng)新業(yè)務(wù):在線明細(xì),精準(zhǔn)營(yíng)銷,實(shí)時(shí)征信 小微貸獲客預(yù)測(cè),比傳統(tǒng)方式提升40倍的轉(zhuǎn)化率;或有金融資產(chǎn)預(yù)測(cè)誤差率降低一倍;信用卡征信由原來的15天減少到2-5秒鐘支持線性擴(kuò)容,擴(kuò)容成本低招商銀行是中國(guó)第一家企業(yè)創(chuàng)辦的股份制商業(yè)銀行,一直秉承“創(chuàng)新、穩(wěn)健、服務(wù)”的核心價(jià)值觀,“因您而變,因勢(shì)而變”的經(jīng)營(yíng)理念,不斷創(chuàng)新著金融產(chǎn)品和服務(wù),已經(jīng)迅速發(fā)展成中國(guó)第六大商業(yè)銀行,躋身全球前100家大銀行之列。應(yīng)用1:在線歷史明細(xì)查詢X86服務(wù)器X86服務(wù)器X86服務(wù)器X86服務(wù)器HDFSZooKeeperHBase/C

36、TBaseFusionInsight HDFusionInsight Farmer業(yè)務(wù)請(qǐng)求接入和分發(fā)分布式應(yīng)用容器歷史明細(xì)查詢業(yè)務(wù)邏輯電話銀行95555系統(tǒng)網(wǎng)點(diǎn)柜員系統(tǒng)在線歷史明細(xì)查詢解決方案:華為提供:FusionInsight Farmer數(shù)據(jù)服務(wù)平臺(tái) + FusionInsight HD基礎(chǔ)數(shù)據(jù)平臺(tái)解決方案,客戶只需專注歷史明細(xì)查詢業(yè)務(wù)的編寫FusionInsight Farmer數(shù)據(jù)服務(wù)平臺(tái)支持多業(yè)務(wù)系統(tǒng)并發(fā)訪問,實(shí)現(xiàn)實(shí)時(shí)歷史明細(xì)查詢能力FusionInsight Farmer數(shù)據(jù)服務(wù)平臺(tái)同時(shí)支持Socket、Web業(yè)務(wù)請(qǐng)求接入和分發(fā),與招行業(yè)務(wù)系統(tǒng)無縫銜接創(chuàng)新的CTBase方案,獨(dú)有

37、的表聚簇和多級(jí)索引支持HBase多表關(guān)聯(lián)查詢的能力HBase同時(shí)支持SQL、Java API編程接口,適應(yīng)客戶的編程習(xí)慣Manager統(tǒng)一管理Loader數(shù)據(jù)集成FusionInsight歷史明細(xì)查詢業(yè)務(wù)邏輯歷史明細(xì)查詢業(yè)務(wù)邏輯應(yīng)用2:全量多維度客戶行為分析X86服務(wù)器X86服務(wù)器X86服務(wù)器X86服務(wù)器HDFSZooKeeperHBase/CTBaseMiner 數(shù)據(jù)洞察特征管理銀行零售客戶分析MRYARNHiveMahout算法庫建模分析數(shù)據(jù)可視化用戶特征刻畫小微貸傾向分析銀行對(duì)公客戶分析企業(yè)輿情分析金融關(guān)系發(fā)現(xiàn)或有資產(chǎn)預(yù)測(cè)企業(yè)特征刻畫企業(yè)結(jié)算關(guān)系Manager統(tǒng)一管理HadoopLoader數(shù)據(jù)集成全量多維客戶行為分析解決方案:華為提供:FusionInsight Miner數(shù)據(jù)洞察平臺(tái) + FusionInsight HD基礎(chǔ)數(shù)據(jù)平臺(tái)的解決方案,客戶只需專注客戶行為分析業(yè)務(wù)的編寫FusionInsight Miner數(shù)據(jù)洞察平臺(tái)基于大數(shù)據(jù)全量建模分析,可以挖掘出14000維客戶特征,實(shí)現(xiàn)多維客戶行為并發(fā)分析FusionInsight Miner數(shù)據(jù)洞察平臺(tái)采用機(jī)器自動(dòng)學(xué)習(xí)機(jī)制,大大提高分析準(zhǔn)確度客戶行為分析結(jié)果存儲(chǔ)在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論