大數(shù)據(jù)技術(shù)與構(gòu)成團隊介紹展示課件_第1頁
大數(shù)據(jù)技術(shù)與構(gòu)成團隊介紹展示課件_第2頁
大數(shù)據(jù)技術(shù)與構(gòu)成團隊介紹展示課件_第3頁
大數(shù)據(jù)技術(shù)與構(gòu)成團隊介紹展示課件_第4頁
大數(shù)據(jù)技術(shù)與構(gòu)成團隊介紹展示課件_第5頁
已閱讀5頁,還剩149頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

關(guān)于大數(shù)據(jù)技術(shù)與思路的介紹關(guān)于大數(shù)據(jù)技術(shù)與思路的介紹1從大數(shù)據(jù)思維談起從大數(shù)據(jù)思維談起2功能的價值VS數(shù)據(jù)的價值功能的價值數(shù)據(jù)的價值產(chǎn)品或服務靜態(tài)的被動的價值遞減的動態(tài)的主動的價值遞增的創(chuàng)新與發(fā)現(xiàn)傳統(tǒng)與經(jīng)驗用戶使用中留下了實用的信息痕跡產(chǎn)生了數(shù)據(jù),能告訴我們,每一個客戶的消費傾向,他們想要什么,喜歡什么,每個人的需求有哪些區(qū)別,哪些又可以被集合到一起來進行分類。功能的價值VS數(shù)據(jù)的價值功能的價值數(shù)據(jù)的價值產(chǎn)品靜態(tài)的被動的3大數(shù)據(jù)思維重要特征是相關(guān)性思維一些看起來不相關(guān)的東西,其實它們有其內(nèi)在相關(guān)性。大數(shù)據(jù)沒有必要找到原因,不需要證明這個事件和那個事件之間有一個必然,不需要找到先后關(guān)聯(lián)發(fā)生的一個因果規(guī)律。傳統(tǒng)的思維方式習慣于“因果”大數(shù)據(jù)的思維是“相關(guān)性”思維往往只能夠想到“前應后果”“多因一果”“一因多果”。數(shù)據(jù)的分析按照我們既定的目標進行,一切以業(yè)務驅(qū)動為主。大數(shù)據(jù)思維重要特征是相關(guān)性思維一些看起來不相關(guān)的東西,其實它4從“人找信息”到“信息找人”人找信息信息找人從人找信息到信息找人,是交互時代的一個轉(zhuǎn)變,也是智能時代的要求,你需要什么信息,企業(yè)和機器提前知道,而且主動給你提供你所需要的信息。從“人找信息”到“信息找人”人找信息信息找人從人找信息到信息5大數(shù)據(jù)應用需要大數(shù)據(jù)技術(shù)大數(shù)據(jù)應用需要大數(shù)據(jù)技術(shù)6需要具備海量存儲的能力磁盤陣列分布式存儲海量歷史數(shù)據(jù)事務數(shù)據(jù)容量可擴展單位存儲成本低適用于海量存儲容量擴展有限單位存儲成本高適用于關(guān)鍵交易系統(tǒng)需要具備海量存儲的能力磁盤陣列分布式存儲海量歷史數(shù)據(jù)事務數(shù)據(jù)7需要兼容全類別格式的數(shù)據(jù)關(guān)系型數(shù)據(jù)文本數(shù)據(jù)二進制數(shù)據(jù)大數(shù)據(jù)平臺需要兼容全類別格式的數(shù)據(jù)關(guān)系型數(shù)據(jù)文本數(shù)據(jù)二進制數(shù)據(jù)大數(shù)據(jù)平8需要具備分布式處理能力計算節(jié)點大規(guī)模計算和處理任務計算任務拆分隨著節(jié)點數(shù)的增加,其處理能力線性提升。需要具備分布式處理能力計算節(jié)點大規(guī)模計算和處理任務計算任務拆9需要支持開放式的數(shù)據(jù)結(jié)構(gòu)Key-ValueJSon索引向量空間矩陣鄰接表關(guān)系模型GIS大數(shù)據(jù)技術(shù)需要支持開放式的數(shù)據(jù)結(jié)構(gòu)Key-ValueJSon索引向量空10需要具備多種數(shù)據(jù)處理的技術(shù)數(shù)據(jù)檢索(精確、模糊)數(shù)據(jù)統(tǒng)計流式處理內(nèi)存計算批量處理圖計算機器學習自然語言識別大數(shù)據(jù)技術(shù)需要具備多種數(shù)據(jù)處理的技術(shù)數(shù)據(jù)檢索數(shù)據(jù)統(tǒng)計流式處理內(nèi)存計算批11Hadoop技術(shù)是支撐大數(shù)據(jù)的最佳實踐Hadoop技術(shù)是支撐大數(shù)據(jù)的最佳實踐12從Apache軟件基金會講起專門為運作一個開源軟件項目的Apache的團體提供支持的非盈利性組織。這個開源軟件項目就是Apache項目。Apache軟件基金會榮獲了著名IT雜志SDTimes頒發(fā)的2013SDTimes100獎項,位于“極大影響力”分類第二位,僅次于亞馬遜。Apache軟件基金會自成立15年來,已經(jīng)擁有超過150個世界頂級項目。從Apache軟件基金會講起專門為運作一個開源軟件項目的A13Hadoop生態(tài)體系Hadoop由Apache基金會于2005年秋天作為Lucene的子項目Nutch的一部分正式引入。Hadoop的意義不僅在于其自身,而且它具備豐富的生態(tài)技術(shù)體系。HDFS為分布式文件系統(tǒng),為海量數(shù)據(jù)提供了存儲服務。為海量數(shù)據(jù)提供了分布式處理.Hadoop數(shù)據(jù)庫,提供海量結(jié)構(gòu)化存儲。.分布式內(nèi)存計算技術(shù),提供高性能數(shù)據(jù)計算。高性能的全文搜索服務.數(shù)據(jù)實時計算,流式數(shù)據(jù)處理技術(shù)??蓴U展的機器學習領(lǐng)域經(jīng)典算法的實現(xiàn)??缮炜s的分布式迭代圖處理系統(tǒng)提供類SQL交互接口。Hadoop與關(guān)系型數(shù)據(jù)庫交互大規(guī)模科學的計算……Hadoop生態(tài)體系Hadoop由Apache基金會于14Hadoop開源生態(tài)發(fā)展法則批處理數(shù)據(jù)庫消息傳遞內(nèi)存計算索引技術(shù)流處理圖計算Tez?Impala?Storm?Kafka?Spark?Ooize?Hbase?Solr?任務調(diào)度框架:YARN數(shù)據(jù)存儲框架:HDFSHadoopCoreFalcon?Databus?Pregel?Hive?MapReduce?MPI?1:計算框架多樣性在分布式計算環(huán)境中成為事實,沒有一種框架適合所有計算,不同的場景使用多種的計算框架組合。Google,Facebook等獲得巨大商業(yè)化成功的公司,將研發(fā)的部分計算框架開源回饋社區(qū);分享與迭代創(chuàng)新精神,推動社區(qū)不斷出現(xiàn)新的計算框架;2:Hadoopcore開源核心成為一種標準,成為眾多計算框架彼此合作的基礎(chǔ).沒有任何商業(yè)實體能夠擁有hadoop核心;任何對hadoopcore的優(yōu)化改進,如果采用商業(yè)形式的封裝,都是對行業(yè)sayNO;數(shù)據(jù)處理技術(shù)Hadoop開源生態(tài)發(fā)展法則批處理數(shù)據(jù)庫消息內(nèi)存索引流處理圖15豐富的生態(tài)體系滿足專業(yè)化的需求用戶選擇視角互聯(lián)網(wǎng)程序猿視角i7處理器光驅(qū)主板至強處理器內(nèi)存顯示器顯卡不同的應用場景,對組件的選擇要求不同,豐富的生態(tài)技術(shù)滿足專業(yè)化需求服務器游戲主機辦公電腦移動設(shè)備數(shù)據(jù)治理,日志分析,歷史數(shù)據(jù)查詢,關(guān)聯(lián)關(guān)系網(wǎng)絡分析,機器學習,統(tǒng)計分析,自然語言識別Tez?Impala?Storm?Kafka?Spark?Ooize?Solr?Falcon?Databus?Pregel?Hive?MR?MPI?豐富的生態(tài)體系滿足專業(yè)化的需求用戶選擇視角互聯(lián)網(wǎng)程序猿視角i16與似類技術(shù)對比MPP數(shù)據(jù)庫分布式存儲分布式處理數(shù)據(jù)庫內(nèi)存計算流式處理數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)挖掘統(tǒng)計計算是是是是是是nosqlsql數(shù)據(jù)處理技術(shù)(包括nosql)否否是否否是單一單一豐富否否是是是是與似類技術(shù)對比MPP數(shù)據(jù)庫分布式存儲分布式處理數(shù)據(jù)庫內(nèi)存計算17數(shù)據(jù)采集OracleDB2Mysql。。。HDFSFlume日志系統(tǒng)console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等Hadoop導入實時關(guān)系型二進制Hadoop支持所有類型數(shù)據(jù)的導入與存儲數(shù)據(jù)采集OracleDB2Mysql。。。HDFSFlume18數(shù)據(jù)存儲(分布式)HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點。。。Oracle實時日志數(shù)據(jù)Hadoop分布式存儲系統(tǒng)滿足大規(guī)模的全數(shù)據(jù)數(shù)據(jù)存儲節(jié)點擴展數(shù)據(jù)存儲(分布式)HDFSHDFS節(jié)點HDFS節(jié)點HDFS節(jié)19數(shù)據(jù)處理(分布式)清洗、歸整、轉(zhuǎn)換、計算、建模。。。。。。MPP關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)提取數(shù)據(jù)模型創(chuàng)建查詢統(tǒng)計科學計算備份歸檔數(shù)據(jù)處理(分布式)清洗、歸整、轉(zhuǎn)換、計算、建模。。。MPP結(jié)20數(shù)據(jù)應用(分布式)HadoopYARNHadoopCore數(shù)據(jù)結(jié)構(gòu)、模型Key-Value文本JSon全文索引向量空間矩陣鄰接表數(shù)據(jù)應用查詢、統(tǒng)計報表、機器學習、自然語言識別、復雜網(wǎng)絡數(shù)據(jù)應用(分布式)HadoopHadoop數(shù)據(jù)結(jié)構(gòu)Key21如何組建大數(shù)據(jù)團隊如何組建大數(shù)據(jù)團隊22大數(shù)據(jù)團隊的組成算法研究開發(fā)測試實施維護大數(shù)據(jù)團隊業(yè)務分析大數(shù)據(jù)團隊的組成算法研究開發(fā)測試實施維護大數(shù)據(jù)業(yè)務分析23團隊組織業(yè)務分析算法研究業(yè)務專家理解業(yè)務梳理數(shù)據(jù)開發(fā)模型構(gòu)建算法編碼算法訓練測試挖掘分析場景確定分析目標場景抽象算法研究匹配功能開發(fā)功能測試功能驗證應用場景溝通規(guī)劃功能點制定開發(fā)計劃算法實現(xiàn)驗證業(yè)務驗證實施代碼交付實施培訓業(yè)務驗證用戶系統(tǒng)實施系統(tǒng)交付使用培訓團隊組織業(yè)務算法研究業(yè)務理解業(yè)務開發(fā)模型構(gòu)建測試挖掘分析場景24崗位角色總經(jīng)理主管業(yè)務分析師業(yè)務分析師主管算法工程師算法工程師主管后端開發(fā)工程師后端開發(fā)工程師前端開發(fā)工程師前端開發(fā)工程師主管測試工程師測試分析師主管實施運維工程師實施運維分析師崗位角色總經(jīng)理主管業(yè)務分析師業(yè)務分析師主管算法工程師算法工程25關(guān)于大數(shù)據(jù)平臺規(guī)劃關(guān)于大數(shù)據(jù)平臺規(guī)劃26大數(shù)據(jù)典型場景分類查詢查詢統(tǒng)計類處理離線批量處理類計算挖掘計算類大數(shù)據(jù)典型場景分類查詢查詢統(tǒng)計類處理離線批量處理類計算挖掘計27不同的場景對硬件資源的要求查詢統(tǒng)計類應用CPU磁盤網(wǎng)絡離線批量處理類應用科學計算類應用內(nèi)存不同類大數(shù)據(jù)應用場景,對硬件資源的偏好有所不同。不同的場景對硬件資源的要求查詢統(tǒng)計類應用CPU磁盤網(wǎng)絡離線批28不同的場景對軟件資源的要求查詢統(tǒng)計類應用離線批量處理類應用科學計算類應用不同類大數(shù)據(jù)應用場景,對生態(tài)技術(shù)資源的偏好有所不同。YARN不同的場景對軟件資源的要求查詢統(tǒng)計類應用離線批量處理類應用科29大獨立,小集中配置適合的硬件資源,資源充分利用。計算框架專業(yè),避免部署大而全的臃腫計算框架。維護難度低,節(jié)點數(shù)量不是很大,降低了運維的技術(shù)難度。技術(shù)風險小,獨立資源,物理隔離,不會出現(xiàn)大面積事故。Hadoop集群(查詢統(tǒng)計類)Hadoop集群(批處理類)Hadoop集群(挖掘計算類)大獨立,小集中配置適合的硬件資源,資源充分利用。Hadoop30小集中VS大集中小集中大集中成本較高低硬件資源利用充分低計算組件專業(yè)大而全運維難度低高運維量高低技術(shù)風險低較高小集中VS大集中小集中大集中成本較高低硬件資源利用充分低計算31Hadoop技術(shù)為什么要企業(yè)化Hadoop技術(shù)為什么要企業(yè)化32企業(yè)就緒大數(shù)據(jù)能力所面臨的問題陡峭的學習曲線計算框架的豐富性,帶來眾多的編程接口(API)、操作、部署以及維護管理方式,增加了學習成本,抬高了技術(shù)人員入行的門檻。SQLJAVAOracleJDBCHadoop技能不能快速就緒企業(yè)就緒大數(shù)據(jù)能力所面臨的問題陡峭的學習曲線計算框架的豐富性33企業(yè)就緒大數(shù)據(jù)能力所面臨的問題不具有企業(yè)友好性及通用性例如,黑屏命令行操作維護方式,增加了運維開發(fā)人員的工作難度、操作量,降低的工具的友好性。企業(yè)就緒大數(shù)據(jù)能力所面臨的問題不具有企業(yè)友好性及通用性例如,34企業(yè)就緒大數(shù)據(jù)能力所面臨的問題分析算法或模型的不足決策樹貝葉斯邏輯回歸協(xié)同過濾聚類最短路徑DFSBFSK-殼K-核度值統(tǒng)計PageRank分詞標注詞頻統(tǒng)計文本分類語義圖譜摘要提取語義提取情感分析機器學習復雜網(wǎng)絡自然語言。。。自己編互聯(lián)網(wǎng)開源社區(qū)正確性時間成本支持與服務企業(yè)就緒大數(shù)據(jù)能力所面臨的問題分析算法或模型的不足決策樹貝葉35企業(yè)就緒大數(shù)據(jù)能力所面臨的問題運維難度大數(shù)據(jù)集群數(shù)量眾多的服務器不便于整體的部署與管理。資源監(jiān)控組件部署資源分配輔助工具…企業(yè)就緒大數(shù)據(jù)能力所面臨的問題運維難度大數(shù)據(jù)集群數(shù)量眾多的服36企業(yè)就緒大數(shù)據(jù)能力所面臨的問題版本的選擇支持與服務HBasev0.98.17、HBasev1.1.3、

Hbase

v1.2.0、Hbase

v1.0.3。。。哪個框架最適合,需要分析。哪個版本最穩(wěn)定,需要測試??蚣苌壥欠窦嫒荩枰芯俊?yōu)化與故障處理。專業(yè)的運維培訓。組件選型的方案級建議。企業(yè)就緒大數(shù)據(jù)能力所面臨的問題版本的選擇支持與服務HBase37公司的主要大數(shù)據(jù)產(chǎn)品天云大數(shù)據(jù)平臺(簡稱BDP)解決了企業(yè)使用Hadoop遇到的困境自然語言處理引擎機器學習引擎復雜網(wǎng)絡引擎公司的主要大數(shù)據(jù)產(chǎn)品天云大數(shù)據(jù)平臺(簡稱BDP)自然語言處理38天云大數(shù)據(jù)產(chǎn)品BDP介紹天云大數(shù)據(jù)產(chǎn)品BDP介紹39天云BDP產(chǎn)品簡介天云大數(shù)據(jù)的BDP企業(yè)級平臺產(chǎn)品是業(yè)界第一個實現(xiàn)了Hadoop技術(shù)落地的商業(yè)版產(chǎn)品。在體系架構(gòu)、功能組件、外圍工具、科學算法、客戶友好、運維管理、應用開發(fā)支撐等多方面都在與國內(nèi)外友商的競爭中占據(jù)明顯強勢地位。在大量落地項目中展現(xiàn)了產(chǎn)品、服務、交付能力、經(jīng)驗知識儲備和技術(shù)發(fā)展前瞻性的優(yōu)勢。在產(chǎn)品創(chuàng)新、技術(shù)融合、業(yè)務完善等多方面有效解決了客戶所面臨的各種問題。天云BDP產(chǎn)品簡介天云大數(shù)據(jù)的BDP企業(yè)級平臺產(chǎn)品是業(yè)界第一40天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)OpensourceInfrastructureHadoopMiddlewareHadoopApplications天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)OpensourceInfrast41天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)Hadoop

CoreLinuxSystemRedhatCentOSSuseDebian紅旗UbuntuMandrivaApacheClouderaCDHHortonworksHDPComputing

Template數(shù)據(jù)管理Ingress/egress/compression/schemaseriaiization/retention/dual-activecluster數(shù)據(jù)處理DataPipeline/Consistence/ResidenceFramework&

InstanceBATCHNoSQLIndexStreamNLPGraphMLIn-memoryAd-HocQuerySecurityGovernanceDeploymentOrchestrationProvisioning結(jié)構(gòu)檢索機器日志語義分析流數(shù)據(jù)模糊查詢文檔檢索關(guān)聯(lián)計算HadoopApplications行為分析/規(guī)律發(fā)現(xiàn)日志處理及分析預警目標市場分析(預測)機器學習精準推薦天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)HadoopCoreLinuxSy42BDP產(chǎn)品的價值降低了學習和維護成本統(tǒng)一的編程接口、操作、部署以及維護管理和狀態(tài)監(jiān)控。圖形化操作界面決策樹、聚類、貝葉斯、邏輯回歸、最短路、PageRank。豐富的企業(yè)版算法包穩(wěn)定可靠的Hadoop組件版本每個組件在出廠之前會進行嚴格測試,保證其兼容穩(wěn)定。靈活組件升級局部組件升級,而不用整體大的版本升級。模板化實施提供豐富的場景技術(shù)模板,幫助用戶快速平臺就緒。安全訪問控制安全授權(quán)、細粒度訪問控制、基于角色的管理、多租戶管理、機器級別的安全認證。BDP產(chǎn)品的價值降低了學習和維護成本統(tǒng)一的編程接口、操作、部43REST接口資源與權(quán)限管理硬件資源服務插件模版策略&流程Hadoop框架服務實例配置部署監(jiān)控管理插件管理模塊Plugin1Plugin4Plugin2Plugin3…計算模版架構(gòu)LogFilesNoSQL流采集分布式消息隊列分布式流引擎模版實例:實時數(shù)據(jù)服務模版實例:模糊查詢數(shù)據(jù)服務多元計算框架模板REST接口資源與權(quán)限管理硬件資源服務插件模版策略&流程Ha44公司的主要大數(shù)據(jù)產(chǎn)品備注公司的主要大數(shù)據(jù)產(chǎn)品備注45復雜網(wǎng)絡引擎(BDCN)復雜網(wǎng)絡引擎46什么是復雜網(wǎng)絡錢學森給出了復雜網(wǎng)絡的一個較嚴格的定義:具有自組織、自相似、吸引子、小世界、無標度中部分或全部性質(zhì)的網(wǎng)絡稱為復雜網(wǎng)絡。結(jié)構(gòu)復雜節(jié)點數(shù)目巨大,網(wǎng)絡結(jié)構(gòu)呈現(xiàn)多種不同特征。網(wǎng)絡進化節(jié)點或連接的產(chǎn)生與消失。連接多樣性節(jié)點之間的連接權(quán)重存在差異,且有可能存在方向性。節(jié)點多樣性節(jié)點可以代表任何事物.多重復雜性融合多重復雜性相互影響,導致更為難以預料的結(jié)果.動力學復雜性節(jié)點集可能屬于非線性動力學系統(tǒng)。由節(jié)點和邊構(gòu)成的圖。什么是復雜網(wǎng)絡錢學森給出了復雜網(wǎng)絡的一個較嚴格的定義:具有47復雜網(wǎng)絡研究的領(lǐng)域城市公共交通網(wǎng)經(jīng)濟物理學科學家合作網(wǎng)航空網(wǎng)朋友關(guān)系網(wǎng)神經(jīng)網(wǎng)絡道路交通網(wǎng)只要能抽象出網(wǎng)絡結(jié)構(gòu)的客觀事務,都可以作為復雜網(wǎng)絡的研究的對象。復雜網(wǎng)絡研究的領(lǐng)域城市公共交通網(wǎng)經(jīng)濟物理學科學家合作網(wǎng)航空網(wǎng)48天云復雜網(wǎng)絡引擎簡介天云大數(shù)據(jù)的復雜網(wǎng)絡引擎(BDCN)是一款對網(wǎng)絡科學研究及應用的專業(yè)數(shù)據(jù)處理引擎。用戶可以快速方便的實現(xiàn)對關(guān)聯(lián)數(shù)據(jù)的加載、建模、存儲、計算以及可視化展示。在實現(xiàn)數(shù)據(jù)分布式存儲的同時提供了如最短路徑、Ranking、隨機游走、子圖發(fā)現(xiàn)等諸多復雜網(wǎng)絡的算法實現(xiàn)。天云復雜網(wǎng)絡引擎簡介天云大數(shù)據(jù)的復雜網(wǎng)絡引擎(BDCN)是一49復雜網(wǎng)絡理論的豐富算法分析能力節(jié)點重要性分析中心性權(quán)威性樞紐性PR值分析相似性分析關(guān)系性分析BFSDFS最短路徑閉環(huán)發(fā)現(xiàn)社團分析網(wǎng)絡特征分析連通性度分布稀疏與稠密平均路徑聚類系數(shù)冪率分布基于復雜網(wǎng)絡算法幫助我們從新的視角觀察分析事物的本質(zhì)規(guī)律。復雜網(wǎng)絡理論的豐富算法分析能力節(jié)點重要性分析中心性權(quán)威性樞紐50某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢商業(yè)銀行A企業(yè)1放貸擔保企業(yè)1企業(yè)2擔保商業(yè)銀行B放貸企業(yè)1擔保擔保商業(yè)銀行C放貸商業(yè)銀行D放貸擔保圈形成商業(yè)銀行不能看到擔保鏈條全部。單純的財務報表,企業(yè)經(jīng)營狀況檢查很難揭示企業(yè)風險,需要更深一步的信息挖掘,才能發(fā)現(xiàn)潛在的金融風險,保證金融市場的安全?;谄髽I(yè)之間的各種關(guān)聯(lián)關(guān)系構(gòu)建出來的復雜關(guān)系網(wǎng)絡,從新的分析視角分析金融風險。某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢商業(yè)銀行A企業(yè)1放貸擔保企業(yè)1企業(yè)51某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢關(guān)系型數(shù)據(jù)庫(核心系統(tǒng))結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)互聯(lián)網(wǎng)網(wǎng)絡爬取某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)互聯(lián)52某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢文本數(shù)據(jù)擔保關(guān)系對家族關(guān)系對投資關(guān)系對集團關(guān)系對0

1

0

1

0

1

01

1

0

1

0

1

10

1

0

1

1

1

01

1

0

1

0

1

11

1

0

1

1

1

11

1

0

1

1

1

11

1

0

1

1

1

1鄰接矩陣復雜網(wǎng)絡平臺數(shù)據(jù)匯總構(gòu)建模型企業(yè)關(guān)系網(wǎng)絡某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢文本數(shù)據(jù)擔保關(guān)系對0153某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢BDCN計算引擎BDCN復雜網(wǎng)絡Warshall算法Breath-First

Search,BFS算法Deep-First

Search,DFS算法擔保圈發(fā)現(xiàn)企業(yè)關(guān)聯(lián)關(guān)系查找技術(shù)與算法支撐某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢BDCN計算引擎BDCN復雜網(wǎng)絡W54企業(yè)關(guān)聯(lián)關(guān)系查詢系統(tǒng)企業(yè)名稱:山東東方伊特廣告有限責任公司投資總額:

¥1,000,000被投資額:¥300,000投資企業(yè)數(shù):10家被投資企業(yè)數(shù):6家投資總額:¥38,234,532投資企業(yè)被投資企業(yè)投資額度所查企業(yè)企業(yè)1¥3,000,000所查企業(yè)北京市京東林元養(yǎng)殖場¥2,300,000企業(yè)5企業(yè)6¥1,000,000所查企業(yè)北京東豪德利經(jīng)貿(mào)…¥500,000投資額排名:按投資關(guān)系展示查詢結(jié)果企業(yè)關(guān)聯(lián)關(guān)系查詢系統(tǒng)企業(yè)名稱:山東東方伊特廣告有限責任公司投55機器學習引擎(BDML)機器學習引擎56什么是機器學習機器學習(MachineLearning,ML)是一門多領(lǐng)域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機器學習有監(jiān)督學習無監(jiān)督學習半監(jiān)督學習對具有概念標記(分類)的訓練樣本進行學習,以盡可能對訓練樣本集外的數(shù)據(jù)進行標記(分類)預測。這里,所有的標記(分類)是已知的。對沒有概念標記(分類)的訓練樣本進行學習,以發(fā)現(xiàn)訓練樣本集中的結(jié)構(gòu)性知識。這里,所有的標記(分類)是未知的。因此,訓練樣本的岐義性高。聚類就是典型的無監(jiān)督學習介于有監(jiān)督和無監(jiān)督之間。什么是機器學習機器學習(MachineLearning,57天云機器學習引擎簡介機器學習是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領(lǐng)域,包括分類、協(xié)同過濾、聚類分析、統(tǒng)計分析等理論方法。天云大數(shù)據(jù)的機器學習引擎基于分布式平臺,為數(shù)據(jù)挖掘提供了算法支撐,能夠處理海量數(shù)據(jù)深度挖掘。天云機器學習引擎簡介機器學習是人工智能的核心,是使計算機具有58基于有監(jiān)督機器學習技術(shù)的客戶流失分析客戶1客戶2客戶3客戶4……基本信息購買數(shù)據(jù)理賠數(shù)據(jù)健康數(shù)據(jù)繳費數(shù)據(jù)呼叫數(shù)據(jù)HDFS已流失客戶清洗、轉(zhuǎn)換規(guī)整、建模有監(jiān)督學習算法模型訓練成熟的算法模型基于有監(jiān)督機器學習技術(shù)的客戶流失分析客戶1客戶2客戶3客戶459基于有監(jiān)督機器學習技術(shù)的客戶流失分析成熟的算法模型客戶1客戶2客戶3客戶4……基本信息購買數(shù)據(jù)理賠數(shù)據(jù)健康數(shù)據(jù)繳費數(shù)據(jù)呼叫數(shù)據(jù)現(xiàn)有客戶客戶1客戶2客戶3客戶4流失預警穩(wěn)定客戶客戶經(jīng)理基于有監(jiān)督機器學習技術(shù)的客戶流失分析成熟的算法模型客戶1客戶60基于無監(jiān)督機器學習技術(shù)的客戶流失分析年收入2.9萬,總標保1.5萬以上,高達9萬的兩全產(chǎn)品,產(chǎn)品覆蓋面齊全年收入高達18萬,總標保只有1萬,壽險和年金金額較高,無投連產(chǎn)品年收入2.9萬,高達6.3萬的萬能產(chǎn)品,產(chǎn)品覆蓋面齊全年收入只有0.3萬,高達7.7萬的投連產(chǎn)品年收入9.7萬,標保只有0.5萬年收入只有0.8萬,高達2.9萬的年金產(chǎn)品年收入4.8萬,總標保2.6萬以上,高達7.6萬的年金產(chǎn)品,產(chǎn)品覆蓋面齊全基于無監(jiān)督機器學習技術(shù)的客戶流失分析年收入2.9萬,總標保161自然語言處理引擎(BDNLP)自然語言處理引擎62什么是自然語言處理自然語言處理在海量文本數(shù)據(jù)之上進行處理,通過機器實現(xiàn)了文本分類、情感分析、主題模型、摘要抽取等多個模型。分詞標注、實體抽取、詞頻統(tǒng)計、新詞識別、文本分類、情感分析、關(guān)鍵詞抽取、詞向量、依存文法、簡繁轉(zhuǎn)換、自動注音、摘要提取、文本聚類什么是自然語言處理自然語言處理在海量文本數(shù)據(jù)之上進行處理,通63湯森路透上市公司公告處理湯森路透(ThomsonReuters)成立于2008年4月17日,是由加拿大湯姆森公司(TheThomsonCorporation)與英國路透集團(ReutersGroupPLC)合并組成的商務和專業(yè)智能信息提供商。主要為專業(yè)企業(yè)、金融機構(gòu)和消費者提供財經(jīng)信息服務,例如電子交易系統(tǒng)、企業(yè)管理系統(tǒng)和風險管理系統(tǒng)、桌面系統(tǒng)、新聞,以及為在法律、稅務和會計、科學、醫(yī)療保健和媒體市場的專業(yè)人員提供智能信息及解決方案。上市公司公告內(nèi)容抓取自然語言分類和摘要提取并購、公開募股、私募股權(quán)、可轉(zhuǎn)債、其它分類……湯森路透上市公司公告處理湯森路透(ThomsonReute64分詞湯森路透上市公司公告處理通用詞庫專業(yè)詞庫新詞發(fā)現(xiàn)有監(jiān)督機器學習算法模型上市公司公告并購公開募股私募股權(quán)可轉(zhuǎn)債其它分類分詞湯森路透上市公司公告處理通用詞庫專業(yè)詞庫新詞發(fā)現(xiàn)有監(jiān)督機65湯森路透上市公司公告處理并購公開募股私募股權(quán)可轉(zhuǎn)債其它分類基于復雜網(wǎng)絡技術(shù)的文章摘要提取摘要信息(涵蓋70%信息量)湯森路透上市公司公告處理并購基于復雜網(wǎng)絡技術(shù)的文章摘要提取摘66自然語言處理之文章摘要隨著信息時代的發(fā)展,大量文本涌現(xiàn)出來,包括新聞、咨詢、論文、小說等,面對如此大的信息量,如何快速提取文本中心思想并評價文本內(nèi)容,是當今信息處理領(lǐng)域的關(guān)鍵研究領(lǐng)域。本場景主要介紹的是如何基于復雜網(wǎng)絡技術(shù)對文本進行摘要信息的提取。復雜網(wǎng)絡節(jié)點邊文章句子句子間共有詞自然語言處理之文章摘要隨著信息時代的發(fā)展,大量文本涌現(xiàn)出來,67自然語言處理之文章摘要0

1

0

1

0

1

01

1

0

1

0

1

10

1

0

1

1

1

01

1

0

1

0

1

11

1

0

1

1

1

11

1

0

1

1

1

11

1

0

1

1

1

1句子1句子2句子3句子5句子6句子7句子4句子1句子4句子2句子3句子5句子6句子70

6

0

1

0

1

01

1

0

7

0

1

10

1

0

1

1

1

01

8

0

3

0

3

11

1

0

1

1

1

11

1

0

1

0

1

13

1

0

2

1

1

1句子1句子2句子3句子5句子6句子7句子4句子1句子4句子2句子3句子5句子6句子7矩陣A矩陣W僅表示節(jié)點與節(jié)點關(guān)系含權(quán),表示節(jié)點與節(jié)點共有詞數(shù)自然語言處理之文章摘要0101068自然語言處理之文章摘要度與強度的分析度描述一個句子與其它句子是否有關(guān)系,一個句子的度分布越高,則表明與該句子有聯(lián)系的句子就越多。度分布高度分布低度強度描述一個句子與其它句子的關(guān)系的緊密度,一個句子的度強度分布越高,則表明該句子與其它有關(guān)系的句子共有詞的頻度就越高。自然語言處理之文章摘要度與強度的分析度描述一個句子與其它句子69自然語言處理之文章摘要根據(jù)句子節(jié)點度和節(jié)點強度的部分排名,選出度值和強度值都比較大的節(jié)點,一般來說,根據(jù)統(tǒng)計,前10名左右的句子基本上覆蓋全文60%的信息量,因此,根據(jù)排名提取文本的中心思想和摘要。自然語言處理之文章摘要根據(jù)句子節(jié)點度和節(jié)點強度的部分排名,選70實時查詢引擎(BDTQ)實時查詢引擎71BDTQ特性BDTQ與Hadoop生態(tài)圈緊密結(jié)合。Hbase與solr的有效整合。通過solr實現(xiàn)Hbase二級索引。強大的一致性支持。線性擴展能力。讀寫嚴格一致。基類支持HBase表的MapReduce作業(yè)。數(shù)據(jù)查詢的秒級、毫秒級響應。BDTQ特性BDTQ與Hadoop生態(tài)圈緊密結(jié)合。Hbase72軟件系統(tǒng)架構(gòu)CassandraHBaseBerkeley

DB…HDFSSolrLucene…后端存儲后端索引BDTQ應用1應用2應用3應用4應用5應用6…存儲索引層事務控制層讀寫接口層軟件系統(tǒng)架構(gòu)CassandraHBaseBerkeleyD73BDTQ適用場景需要從海量的歷史、實時數(shù)據(jù)中快速獲取有用信息數(shù)據(jù)量不斷增大,需要高速的在線讀寫,更需要count/groupby等復雜應用。用戶使用頻率非常高,重要程度接近核心應用,對數(shù)據(jù)丟失以及服務中斷是零容忍。對數(shù)據(jù)有ACID的要求。幫助開發(fā)者簡化使用搜索服務的復雜度,降低開發(fā)成本,加快產(chǎn)品迭代速度。BDTQ適用場景需要從海量的歷史、實時數(shù)據(jù)中快速獲取有用信息74SQL引擎SQL引擎75存儲插件SQL引擎應用接口大數(shù)據(jù)SQL引擎架構(gòu)圖存儲插件SQL引擎應用接口大數(shù)據(jù)SQL引擎架構(gòu)圖76大數(shù)據(jù)技術(shù)與構(gòu)成團隊介紹展示課件77關(guān)于大數(shù)據(jù)技術(shù)與思路的介紹關(guān)于大數(shù)據(jù)技術(shù)與思路的介紹78從大數(shù)據(jù)思維談起從大數(shù)據(jù)思維談起79功能的價值VS數(shù)據(jù)的價值功能的價值數(shù)據(jù)的價值產(chǎn)品或服務靜態(tài)的被動的價值遞減的動態(tài)的主動的價值遞增的創(chuàng)新與發(fā)現(xiàn)傳統(tǒng)與經(jīng)驗用戶使用中留下了實用的信息痕跡產(chǎn)生了數(shù)據(jù),能告訴我們,每一個客戶的消費傾向,他們想要什么,喜歡什么,每個人的需求有哪些區(qū)別,哪些又可以被集合到一起來進行分類。功能的價值VS數(shù)據(jù)的價值功能的價值數(shù)據(jù)的價值產(chǎn)品靜態(tài)的被動的80大數(shù)據(jù)思維重要特征是相關(guān)性思維一些看起來不相關(guān)的東西,其實它們有其內(nèi)在相關(guān)性。大數(shù)據(jù)沒有必要找到原因,不需要證明這個事件和那個事件之間有一個必然,不需要找到先后關(guān)聯(lián)發(fā)生的一個因果規(guī)律。傳統(tǒng)的思維方式習慣于“因果”大數(shù)據(jù)的思維是“相關(guān)性”思維往往只能夠想到“前應后果”“多因一果”“一因多果”。數(shù)據(jù)的分析按照我們既定的目標進行,一切以業(yè)務驅(qū)動為主。大數(shù)據(jù)思維重要特征是相關(guān)性思維一些看起來不相關(guān)的東西,其實它81從“人找信息”到“信息找人”人找信息信息找人從人找信息到信息找人,是交互時代的一個轉(zhuǎn)變,也是智能時代的要求,你需要什么信息,企業(yè)和機器提前知道,而且主動給你提供你所需要的信息。從“人找信息”到“信息找人”人找信息信息找人從人找信息到信息82大數(shù)據(jù)應用需要大數(shù)據(jù)技術(shù)大數(shù)據(jù)應用需要大數(shù)據(jù)技術(shù)83需要具備海量存儲的能力磁盤陣列分布式存儲海量歷史數(shù)據(jù)事務數(shù)據(jù)容量可擴展單位存儲成本低適用于海量存儲容量擴展有限單位存儲成本高適用于關(guān)鍵交易系統(tǒng)需要具備海量存儲的能力磁盤陣列分布式存儲海量歷史數(shù)據(jù)事務數(shù)據(jù)84需要兼容全類別格式的數(shù)據(jù)關(guān)系型數(shù)據(jù)文本數(shù)據(jù)二進制數(shù)據(jù)大數(shù)據(jù)平臺需要兼容全類別格式的數(shù)據(jù)關(guān)系型數(shù)據(jù)文本數(shù)據(jù)二進制數(shù)據(jù)大數(shù)據(jù)平85需要具備分布式處理能力計算節(jié)點大規(guī)模計算和處理任務計算任務拆分隨著節(jié)點數(shù)的增加,其處理能力線性提升。需要具備分布式處理能力計算節(jié)點大規(guī)模計算和處理任務計算任務拆86需要支持開放式的數(shù)據(jù)結(jié)構(gòu)Key-ValueJSon索引向量空間矩陣鄰接表關(guān)系模型GIS大數(shù)據(jù)技術(shù)需要支持開放式的數(shù)據(jù)結(jié)構(gòu)Key-ValueJSon索引向量空87需要具備多種數(shù)據(jù)處理的技術(shù)數(shù)據(jù)檢索(精確、模糊)數(shù)據(jù)統(tǒng)計流式處理內(nèi)存計算批量處理圖計算機器學習自然語言識別大數(shù)據(jù)技術(shù)需要具備多種數(shù)據(jù)處理的技術(shù)數(shù)據(jù)檢索數(shù)據(jù)統(tǒng)計流式處理內(nèi)存計算批88Hadoop技術(shù)是支撐大數(shù)據(jù)的最佳實踐Hadoop技術(shù)是支撐大數(shù)據(jù)的最佳實踐89從Apache軟件基金會講起專門為運作一個開源軟件項目的Apache的團體提供支持的非盈利性組織。這個開源軟件項目就是Apache項目。Apache軟件基金會榮獲了著名IT雜志SDTimes頒發(fā)的2013SDTimes100獎項,位于“極大影響力”分類第二位,僅次于亞馬遜。Apache軟件基金會自成立15年來,已經(jīng)擁有超過150個世界頂級項目。從Apache軟件基金會講起專門為運作一個開源軟件項目的A90Hadoop生態(tài)體系Hadoop由Apache基金會于2005年秋天作為Lucene的子項目Nutch的一部分正式引入。Hadoop的意義不僅在于其自身,而且它具備豐富的生態(tài)技術(shù)體系。HDFS為分布式文件系統(tǒng),為海量數(shù)據(jù)提供了存儲服務。為海量數(shù)據(jù)提供了分布式處理.Hadoop數(shù)據(jù)庫,提供海量結(jié)構(gòu)化存儲。.分布式內(nèi)存計算技術(shù),提供高性能數(shù)據(jù)計算。高性能的全文搜索服務.數(shù)據(jù)實時計算,流式數(shù)據(jù)處理技術(shù)??蓴U展的機器學習領(lǐng)域經(jīng)典算法的實現(xiàn)??缮炜s的分布式迭代圖處理系統(tǒng)提供類SQL交互接口。Hadoop與關(guān)系型數(shù)據(jù)庫交互大規(guī)模科學的計算……Hadoop生態(tài)體系Hadoop由Apache基金會于91Hadoop開源生態(tài)發(fā)展法則批處理數(shù)據(jù)庫消息傳遞內(nèi)存計算索引技術(shù)流處理圖計算Tez?Impala?Storm?Kafka?Spark?Ooize?Hbase?Solr?任務調(diào)度框架:YARN數(shù)據(jù)存儲框架:HDFSHadoopCoreFalcon?Databus?Pregel?Hive?MapReduce?MPI?1:計算框架多樣性在分布式計算環(huán)境中成為事實,沒有一種框架適合所有計算,不同的場景使用多種的計算框架組合。Google,Facebook等獲得巨大商業(yè)化成功的公司,將研發(fā)的部分計算框架開源回饋社區(qū);分享與迭代創(chuàng)新精神,推動社區(qū)不斷出現(xiàn)新的計算框架;2:Hadoopcore開源核心成為一種標準,成為眾多計算框架彼此合作的基礎(chǔ).沒有任何商業(yè)實體能夠擁有hadoop核心;任何對hadoopcore的優(yōu)化改進,如果采用商業(yè)形式的封裝,都是對行業(yè)sayNO;數(shù)據(jù)處理技術(shù)Hadoop開源生態(tài)發(fā)展法則批處理數(shù)據(jù)庫消息內(nèi)存索引流處理圖92豐富的生態(tài)體系滿足專業(yè)化的需求用戶選擇視角互聯(lián)網(wǎng)程序猿視角i7處理器光驅(qū)主板至強處理器內(nèi)存顯示器顯卡不同的應用場景,對組件的選擇要求不同,豐富的生態(tài)技術(shù)滿足專業(yè)化需求服務器游戲主機辦公電腦移動設(shè)備數(shù)據(jù)治理,日志分析,歷史數(shù)據(jù)查詢,關(guān)聯(lián)關(guān)系網(wǎng)絡分析,機器學習,統(tǒng)計分析,自然語言識別Tez?Impala?Storm?Kafka?Spark?Ooize?Solr?Falcon?Databus?Pregel?Hive?MR?MPI?豐富的生態(tài)體系滿足專業(yè)化的需求用戶選擇視角互聯(lián)網(wǎng)程序猿視角i93與似類技術(shù)對比MPP數(shù)據(jù)庫分布式存儲分布式處理數(shù)據(jù)庫內(nèi)存計算流式處理數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)挖掘統(tǒng)計計算是是是是是是nosqlsql數(shù)據(jù)處理技術(shù)(包括nosql)否否是否否是單一單一豐富否否是是是是與似類技術(shù)對比MPP數(shù)據(jù)庫分布式存儲分布式處理數(shù)據(jù)庫內(nèi)存計算94數(shù)據(jù)采集OracleDB2Mysql。。。HDFSFlume日志系統(tǒng)console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等Hadoop導入實時關(guān)系型二進制Hadoop支持所有類型數(shù)據(jù)的導入與存儲數(shù)據(jù)采集OracleDB2Mysql。。。HDFSFlume95數(shù)據(jù)存儲(分布式)HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點。。。Oracle實時日志數(shù)據(jù)Hadoop分布式存儲系統(tǒng)滿足大規(guī)模的全數(shù)據(jù)數(shù)據(jù)存儲節(jié)點擴展數(shù)據(jù)存儲(分布式)HDFSHDFS節(jié)點HDFS節(jié)點HDFS節(jié)96數(shù)據(jù)處理(分布式)清洗、歸整、轉(zhuǎn)換、計算、建模。。。。。。MPP關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)提取數(shù)據(jù)模型創(chuàng)建查詢統(tǒng)計科學計算備份歸檔數(shù)據(jù)處理(分布式)清洗、歸整、轉(zhuǎn)換、計算、建模。。。MPP結(jié)97數(shù)據(jù)應用(分布式)HadoopYARNHadoopCore數(shù)據(jù)結(jié)構(gòu)、模型Key-Value文本JSon全文索引向量空間矩陣鄰接表數(shù)據(jù)應用查詢、統(tǒng)計報表、機器學習、自然語言識別、復雜網(wǎng)絡數(shù)據(jù)應用(分布式)HadoopHadoop數(shù)據(jù)結(jié)構(gòu)Key98如何組建大數(shù)據(jù)團隊如何組建大數(shù)據(jù)團隊99大數(shù)據(jù)團隊的組成算法研究開發(fā)測試實施維護大數(shù)據(jù)團隊業(yè)務分析大數(shù)據(jù)團隊的組成算法研究開發(fā)測試實施維護大數(shù)據(jù)業(yè)務分析100團隊組織業(yè)務分析算法研究業(yè)務專家理解業(yè)務梳理數(shù)據(jù)開發(fā)模型構(gòu)建算法編碼算法訓練測試挖掘分析場景確定分析目標場景抽象算法研究匹配功能開發(fā)功能測試功能驗證應用場景溝通規(guī)劃功能點制定開發(fā)計劃算法實現(xiàn)驗證業(yè)務驗證實施代碼交付實施培訓業(yè)務驗證用戶系統(tǒng)實施系統(tǒng)交付使用培訓團隊組織業(yè)務算法研究業(yè)務理解業(yè)務開發(fā)模型構(gòu)建測試挖掘分析場景101崗位角色總經(jīng)理主管業(yè)務分析師業(yè)務分析師主管算法工程師算法工程師主管后端開發(fā)工程師后端開發(fā)工程師前端開發(fā)工程師前端開發(fā)工程師主管測試工程師測試分析師主管實施運維工程師實施運維分析師崗位角色總經(jīng)理主管業(yè)務分析師業(yè)務分析師主管算法工程師算法工程102關(guān)于大數(shù)據(jù)平臺規(guī)劃關(guān)于大數(shù)據(jù)平臺規(guī)劃103大數(shù)據(jù)典型場景分類查詢查詢統(tǒng)計類處理離線批量處理類計算挖掘計算類大數(shù)據(jù)典型場景分類查詢查詢統(tǒng)計類處理離線批量處理類計算挖掘計104不同的場景對硬件資源的要求查詢統(tǒng)計類應用CPU磁盤網(wǎng)絡離線批量處理類應用科學計算類應用內(nèi)存不同類大數(shù)據(jù)應用場景,對硬件資源的偏好有所不同。不同的場景對硬件資源的要求查詢統(tǒng)計類應用CPU磁盤網(wǎng)絡離線批105不同的場景對軟件資源的要求查詢統(tǒng)計類應用離線批量處理類應用科學計算類應用不同類大數(shù)據(jù)應用場景,對生態(tài)技術(shù)資源的偏好有所不同。YARN不同的場景對軟件資源的要求查詢統(tǒng)計類應用離線批量處理類應用科106大獨立,小集中配置適合的硬件資源,資源充分利用。計算框架專業(yè),避免部署大而全的臃腫計算框架。維護難度低,節(jié)點數(shù)量不是很大,降低了運維的技術(shù)難度。技術(shù)風險小,獨立資源,物理隔離,不會出現(xiàn)大面積事故。Hadoop集群(查詢統(tǒng)計類)Hadoop集群(批處理類)Hadoop集群(挖掘計算類)大獨立,小集中配置適合的硬件資源,資源充分利用。Hadoop107小集中VS大集中小集中大集中成本較高低硬件資源利用充分低計算組件專業(yè)大而全運維難度低高運維量高低技術(shù)風險低較高小集中VS大集中小集中大集中成本較高低硬件資源利用充分低計算108Hadoop技術(shù)為什么要企業(yè)化Hadoop技術(shù)為什么要企業(yè)化109企業(yè)就緒大數(shù)據(jù)能力所面臨的問題陡峭的學習曲線計算框架的豐富性,帶來眾多的編程接口(API)、操作、部署以及維護管理方式,增加了學習成本,抬高了技術(shù)人員入行的門檻。SQLJAVAOracleJDBCHadoop技能不能快速就緒企業(yè)就緒大數(shù)據(jù)能力所面臨的問題陡峭的學習曲線計算框架的豐富性110企業(yè)就緒大數(shù)據(jù)能力所面臨的問題不具有企業(yè)友好性及通用性例如,黑屏命令行操作維護方式,增加了運維開發(fā)人員的工作難度、操作量,降低的工具的友好性。企業(yè)就緒大數(shù)據(jù)能力所面臨的問題不具有企業(yè)友好性及通用性例如,111企業(yè)就緒大數(shù)據(jù)能力所面臨的問題分析算法或模型的不足決策樹貝葉斯邏輯回歸協(xié)同過濾聚類最短路徑DFSBFSK-殼K-核度值統(tǒng)計PageRank分詞標注詞頻統(tǒng)計文本分類語義圖譜摘要提取語義提取情感分析機器學習復雜網(wǎng)絡自然語言。。。自己編互聯(lián)網(wǎng)開源社區(qū)正確性時間成本支持與服務企業(yè)就緒大數(shù)據(jù)能力所面臨的問題分析算法或模型的不足決策樹貝葉112企業(yè)就緒大數(shù)據(jù)能力所面臨的問題運維難度大數(shù)據(jù)集群數(shù)量眾多的服務器不便于整體的部署與管理。資源監(jiān)控組件部署資源分配輔助工具…企業(yè)就緒大數(shù)據(jù)能力所面臨的問題運維難度大數(shù)據(jù)集群數(shù)量眾多的服113企業(yè)就緒大數(shù)據(jù)能力所面臨的問題版本的選擇支持與服務HBasev0.98.17、HBasev1.1.3、

Hbase

v1.2.0、Hbase

v1.0.3。。。哪個框架最適合,需要分析。哪個版本最穩(wěn)定,需要測試??蚣苌壥欠窦嫒?,需要研究。優(yōu)化與故障處理。專業(yè)的運維培訓。組件選型的方案級建議。企業(yè)就緒大數(shù)據(jù)能力所面臨的問題版本的選擇支持與服務HBase114公司的主要大數(shù)據(jù)產(chǎn)品天云大數(shù)據(jù)平臺(簡稱BDP)解決了企業(yè)使用Hadoop遇到的困境自然語言處理引擎機器學習引擎復雜網(wǎng)絡引擎公司的主要大數(shù)據(jù)產(chǎn)品天云大數(shù)據(jù)平臺(簡稱BDP)自然語言處理115天云大數(shù)據(jù)產(chǎn)品BDP介紹天云大數(shù)據(jù)產(chǎn)品BDP介紹116天云BDP產(chǎn)品簡介天云大數(shù)據(jù)的BDP企業(yè)級平臺產(chǎn)品是業(yè)界第一個實現(xiàn)了Hadoop技術(shù)落地的商業(yè)版產(chǎn)品。在體系架構(gòu)、功能組件、外圍工具、科學算法、客戶友好、運維管理、應用開發(fā)支撐等多方面都在與國內(nèi)外友商的競爭中占據(jù)明顯強勢地位。在大量落地項目中展現(xiàn)了產(chǎn)品、服務、交付能力、經(jīng)驗知識儲備和技術(shù)發(fā)展前瞻性的優(yōu)勢。在產(chǎn)品創(chuàng)新、技術(shù)融合、業(yè)務完善等多方面有效解決了客戶所面臨的各種問題。天云BDP產(chǎn)品簡介天云大數(shù)據(jù)的BDP企業(yè)級平臺產(chǎn)品是業(yè)界第一117天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)OpensourceInfrastructureHadoopMiddlewareHadoopApplications天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)OpensourceInfrast118天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)Hadoop

CoreLinuxSystemRedhatCentOSSuseDebian紅旗UbuntuMandrivaApacheClouderaCDHHortonworksHDPComputing

Template數(shù)據(jù)管理Ingress/egress/compression/schemaseriaiization/retention/dual-activecluster數(shù)據(jù)處理DataPipeline/Consistence/ResidenceFramework&

InstanceBATCHNoSQLIndexStreamNLPGraphMLIn-memoryAd-HocQuerySecurityGovernanceDeploymentOrchestrationProvisioning結(jié)構(gòu)檢索機器日志語義分析流數(shù)據(jù)模糊查詢文檔檢索關(guān)聯(lián)計算HadoopApplications行為分析/規(guī)律發(fā)現(xiàn)日志處理及分析預警目標市場分析(預測)機器學習精準推薦天云大數(shù)據(jù)產(chǎn)品體系架構(gòu)HadoopCoreLinuxSy119BDP產(chǎn)品的價值降低了學習和維護成本統(tǒng)一的編程接口、操作、部署以及維護管理和狀態(tài)監(jiān)控。圖形化操作界面決策樹、聚類、貝葉斯、邏輯回歸、最短路、PageRank。豐富的企業(yè)版算法包穩(wěn)定可靠的Hadoop組件版本每個組件在出廠之前會進行嚴格測試,保證其兼容穩(wěn)定。靈活組件升級局部組件升級,而不用整體大的版本升級。模板化實施提供豐富的場景技術(shù)模板,幫助用戶快速平臺就緒。安全訪問控制安全授權(quán)、細粒度訪問控制、基于角色的管理、多租戶管理、機器級別的安全認證。BDP產(chǎn)品的價值降低了學習和維護成本統(tǒng)一的編程接口、操作、部120REST接口資源與權(quán)限管理硬件資源服務插件模版策略&流程Hadoop框架服務實例配置部署監(jiān)控管理插件管理模塊Plugin1Plugin4Plugin2Plugin3…計算模版架構(gòu)LogFilesNoSQL流采集分布式消息隊列分布式流引擎模版實例:實時數(shù)據(jù)服務模版實例:模糊查詢數(shù)據(jù)服務多元計算框架模板REST接口資源與權(quán)限管理硬件資源服務插件模版策略&流程Ha121公司的主要大數(shù)據(jù)產(chǎn)品備注公司的主要大數(shù)據(jù)產(chǎn)品備注122復雜網(wǎng)絡引擎(BDCN)復雜網(wǎng)絡引擎123什么是復雜網(wǎng)絡錢學森給出了復雜網(wǎng)絡的一個較嚴格的定義:具有自組織、自相似、吸引子、小世界、無標度中部分或全部性質(zhì)的網(wǎng)絡稱為復雜網(wǎng)絡。結(jié)構(gòu)復雜節(jié)點數(shù)目巨大,網(wǎng)絡結(jié)構(gòu)呈現(xiàn)多種不同特征。網(wǎng)絡進化節(jié)點或連接的產(chǎn)生與消失。連接多樣性節(jié)點之間的連接權(quán)重存在差異,且有可能存在方向性。節(jié)點多樣性節(jié)點可以代表任何事物.多重復雜性融合多重復雜性相互影響,導致更為難以預料的結(jié)果.動力學復雜性節(jié)點集可能屬于非線性動力學系統(tǒng)。由節(jié)點和邊構(gòu)成的圖。什么是復雜網(wǎng)絡錢學森給出了復雜網(wǎng)絡的一個較嚴格的定義:具有124復雜網(wǎng)絡研究的領(lǐng)域城市公共交通網(wǎng)經(jīng)濟物理學科學家合作網(wǎng)航空網(wǎng)朋友關(guān)系網(wǎng)神經(jīng)網(wǎng)絡道路交通網(wǎng)只要能抽象出網(wǎng)絡結(jié)構(gòu)的客觀事務,都可以作為復雜網(wǎng)絡的研究的對象。復雜網(wǎng)絡研究的領(lǐng)域城市公共交通網(wǎng)經(jīng)濟物理學科學家合作網(wǎng)航空網(wǎng)125天云復雜網(wǎng)絡引擎簡介天云大數(shù)據(jù)的復雜網(wǎng)絡引擎(BDCN)是一款對網(wǎng)絡科學研究及應用的專業(yè)數(shù)據(jù)處理引擎。用戶可以快速方便的實現(xiàn)對關(guān)聯(lián)數(shù)據(jù)的加載、建模、存儲、計算以及可視化展示。在實現(xiàn)數(shù)據(jù)分布式存儲的同時提供了如最短路徑、Ranking、隨機游走、子圖發(fā)現(xiàn)等諸多復雜網(wǎng)絡的算法實現(xiàn)。天云復雜網(wǎng)絡引擎簡介天云大數(shù)據(jù)的復雜網(wǎng)絡引擎(BDCN)是一126復雜網(wǎng)絡理論的豐富算法分析能力節(jié)點重要性分析中心性權(quán)威性樞紐性PR值分析相似性分析關(guān)系性分析BFSDFS最短路徑閉環(huán)發(fā)現(xiàn)社團分析網(wǎng)絡特征分析連通性度分布稀疏與稠密平均路徑聚類系數(shù)冪率分布基于復雜網(wǎng)絡算法幫助我們從新的視角觀察分析事物的本質(zhì)規(guī)律。復雜網(wǎng)絡理論的豐富算法分析能力節(jié)點重要性分析中心性權(quán)威性樞紐127某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢商業(yè)銀行A企業(yè)1放貸擔保企業(yè)1企業(yè)2擔保商業(yè)銀行B放貸企業(yè)1擔保擔保商業(yè)銀行C放貸商業(yè)銀行D放貸擔保圈形成商業(yè)銀行不能看到擔保鏈條全部。單純的財務報表,企業(yè)經(jīng)營狀況檢查很難揭示企業(yè)風險,需要更深一步的信息挖掘,才能發(fā)現(xiàn)潛在的金融風險,保證金融市場的安全?;谄髽I(yè)之間的各種關(guān)聯(lián)關(guān)系構(gòu)建出來的復雜關(guān)系網(wǎng)絡,從新的分析視角分析金融風險。某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢商業(yè)銀行A企業(yè)1放貸擔保企業(yè)1企業(yè)128某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢關(guān)系型數(shù)據(jù)庫(核心系統(tǒng))結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)互聯(lián)網(wǎng)網(wǎng)絡爬取某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)互聯(lián)129某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢文本數(shù)據(jù)擔保關(guān)系對家族關(guān)系對投資關(guān)系對集團關(guān)系對0

1

0

1

0

1

01

1

0

1

0

1

10

1

0

1

1

1

01

1

0

1

0

1

11

1

0

1

1

1

11

1

0

1

1

1

11

1

0

1

1

1

1鄰接矩陣復雜網(wǎng)絡平臺數(shù)據(jù)匯總構(gòu)建模型企業(yè)關(guān)系網(wǎng)絡某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢文本數(shù)據(jù)擔保關(guān)系對01130某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢BDCN計算引擎BDCN復雜網(wǎng)絡Warshall算法Breath-First

Search,BFS算法Deep-First

Search,DFS算法擔保圈發(fā)現(xiàn)企業(yè)關(guān)聯(lián)關(guān)系查找技術(shù)與算法支撐某金融機構(gòu)企業(yè)關(guān)聯(lián)關(guān)系查詢BDCN計算引擎BDCN復雜網(wǎng)絡W131企業(yè)關(guān)聯(lián)關(guān)系查詢系統(tǒng)企業(yè)名稱:山東東方伊特廣告有限責任公司投資總額:

¥1,000,000被投資額:¥300,000投資企業(yè)數(shù):10家被投資企業(yè)數(shù):6家投資總額:¥38,234,532投資企業(yè)被投資企業(yè)投資額度所查企業(yè)企業(yè)1¥3,000,000所查企業(yè)北京市京東林元養(yǎng)殖場¥2,300,000企業(yè)5企業(yè)6¥1,000,000所查企業(yè)北京東豪德利經(jīng)貿(mào)…¥500,000投資額排名:按投資關(guān)系展示查詢結(jié)果企業(yè)關(guān)聯(lián)關(guān)系查詢系統(tǒng)企業(yè)名稱:山東東方伊特廣告有限責任公司投132機器學習引擎(BDML)機器學習引擎133什么是機器學習機器學習(MachineLearning,ML)是一門多領(lǐng)域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機器學習有監(jiān)督學習無監(jiān)督學習半監(jiān)督學習對具有概念標記(分類)的訓練樣本進行學習,以盡可能對訓練樣本集外的數(shù)據(jù)進行標記(分類)預測。這里,所有的標記(分類)是已知的。對沒有概念標記(分類)的訓練樣本進行學習,以發(fā)現(xiàn)訓練樣本集中的結(jié)構(gòu)性知識。這里,所有的標記(分類)是未知的。因此,訓練樣本的岐義性高。聚類就是典型的無監(jiān)督學習介于有監(jiān)督和無監(jiān)督之間。什么是機器學習機器學習(MachineLearning,134天云機器學習引擎簡介機器學習是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領(lǐng)域,包括分類、協(xié)同過濾、聚類分析、統(tǒng)計分析等理論方法。天云大數(shù)據(jù)的機器學習引擎基于分布式平臺,為數(shù)據(jù)挖掘提供了算法支撐,能夠處理海量數(shù)據(jù)深度挖掘。天云機器學習引擎簡介機器學習是人工智能的核心,是使計算機具有135基于有監(jiān)督機器學習技術(shù)的客戶流失分析客戶1客戶2客戶3客戶4……基本信息購買數(shù)據(jù)理賠數(shù)據(jù)健康數(shù)據(jù)繳費數(shù)據(jù)呼叫數(shù)據(jù)HDFS已流失客戶清洗、轉(zhuǎn)換規(guī)整、建模有監(jiān)督學習算法模型訓練成熟的算法模型基于有監(jiān)督機器學習技術(shù)的客戶流失分析客戶1客戶2客戶3客戶4136基于有監(jiān)督機器學習技術(shù)的客戶流失分析成熟的算法模型客戶1客戶2客戶3客戶4……基本信息購買數(shù)據(jù)理賠數(shù)據(jù)健康數(shù)據(jù)繳費數(shù)據(jù)呼叫數(shù)據(jù)現(xiàn)有客戶客戶1客戶2客戶3客戶4流失預警穩(wěn)定客戶客戶經(jīng)理基于有監(jiān)督機器學習技術(shù)的客戶流失分析成熟的算法模型客戶1客戶137基于無監(jiān)督機器學習技術(shù)的客戶流失分析年收入2.9萬,總標保1.5萬以上,高達9萬的兩全產(chǎn)品,產(chǎn)品覆蓋面齊全年收入高達18萬,總標保只有1萬,壽險和年金金額較高,無投連產(chǎn)品年收入2.9萬,高達6.3萬的萬能產(chǎn)品,產(chǎn)品覆蓋面齊全年收入只有0.3萬,高達7.7萬的投連產(chǎn)品年收入9.7萬,標保只有0.5萬年收入只有0.8萬,高達2.9萬的年金產(chǎn)品年收入4.8萬,總標保2.6萬以上,高達7.6萬的年金產(chǎn)品,產(chǎn)品覆蓋面齊全基于無監(jiān)督機器學習技術(shù)的客戶流失分析年收入2.9萬,總標保1138自然語言處理引擎(BDNLP)自然語言處理引擎139什么是自然語言處理自然語言處理在海量文本數(shù)據(jù)之上進行處理,通過機器實現(xiàn)了文本分類、情感分析、主題模型、摘要抽取等多個模型。分詞標注、實體抽取、詞頻統(tǒng)計、新詞識別、文本分類、情感分析、關(guān)鍵詞抽取、詞向量、依存文法、簡繁轉(zhuǎn)換、自動注音、摘要提取、文本聚類什么是自然語言處理自然語言處理在海量文本數(shù)據(jù)之上進行處理,通140湯森路透上市公司公告處理湯森路透(Thomso

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論