版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
關于大數據技術與思路的介紹從大數據思維談起功能的價值VS數據的價值功能的價值數據的價值產品或服務靜態(tài)的被動的價值遞減的動態(tài)的主動的價值遞增的創(chuàng)新與發(fā)現傳統(tǒng)與經驗用戶使用中留下了實用的信息痕跡產生了數據,能告訴我們,每一個客戶的消費傾向,他們想要什么,喜歡什么,每個人的需求有哪些區(qū)別,哪些又可以被集合到一起來進行分類。大數據思維重要特征是相關性思維一些看起來不相關的東西,其實它們有其內在相關性。大數據沒有必要找到原因,不需要證明這個事件和那個事件之間有一個必然,不需要找到先后關聯發(fā)生的一個因果規(guī)律。傳統(tǒng)的思維方式習慣于“因果”大數據的思維是“相關性”思維往往只能夠想到“前應后果”“多因一果”“一因多果”。數據的分析按照我們既定的目標進行,一切以業(yè)務驅動為主。從“人找信息”到“信息找人”人找信息信息找人從人找信息到信息找人,是交互時代的一個轉變,也是智能時代的要求,你需要什么信息,企業(yè)和機器提前知道,而且主動給你提供你所需要的信息。大數據應用需要大數據技術需要具備海量存儲的能力磁盤陣列分布式存儲海量歷史數據事務數據容量可擴展單位存儲成本低適用于海量存儲容量擴展有限單位存儲成本高適用于關鍵交易系統(tǒng)需要兼容全類別格式的數據關系型數據文本數據二進制數據大數據平臺需要具備分布式處理能力計算節(jié)點大規(guī)模計算和處理任務計算任務拆分隨著節(jié)點數的增加,其處理能力線性提升。需要支持開放式的數據結構Key-ValueJSon索引向量空間矩陣鄰接表關系模型GIS大數據技術需要具備多種數據處理的技術數據檢索(精確、模糊)數據統(tǒng)計流式處理內存計算批量處理圖計算機器學習自然語言識別大數據技術Hadoop技術是支撐大數據的最佳實踐從Apache軟件基金會講起專門為運作一個開源軟件項目的Apache的團體提供支持的非盈利性組織。這個開源軟件項目就是Apache項目。Apache軟件基金會榮獲了著名IT雜志SDTimes頒發(fā)的2013SDTimes100獎項,位于“極大影響力”分類第二位,僅次于亞馬遜。Apache軟件基金會自成立15年來,已經擁有超過150個世界頂級項目。Hadoop生態(tài)體系Hadoop由Apache基金會于2005年秋天作為Lucene的子項目Nutch的一部分正式引入。Hadoop的意義不僅在于其自身,而且它具備豐富的生態(tài)技術體系。HDFS為分布式文件系統(tǒng),為海量數據提供了存儲服務。為海量數據提供了分布式處理.Hadoop數據庫,提供海量結構化存儲。.分布式內存計算技術,提供高性能數據計算。高性能的全文搜索服務.數據實時計算,流式數據處理技術??蓴U展的機器學習領域經典算法的實現??缮炜s的分布式迭代圖處理系統(tǒng)提供類SQL交互接口。Hadoop與關系型數據庫交互大規(guī)??茖W的計算……Hadoop開源生態(tài)發(fā)展法則批處理數據庫消息傳遞內存計算索引技術流處理圖計算Tez?Impala?Storm?Kafka?Spark?Ooize?Hbase?Solr?任務調度框架:YARN數據存儲框架:HDFSHadoopCoreFalcon?Databus?Pregel?Hive?MapReduce?MPI?1:計算框架多樣性在分布式計算環(huán)境中成為事實,沒有一種框架適合所有計算,不同的場景使用多種的計算框架組合。Google,Facebook等獲得巨大商業(yè)化成功的公司,將研發(fā)的部分計算框架開源回饋社區(qū);分享與迭代創(chuàng)新精神,推動社區(qū)不斷出現新的計算框架;2:Hadoopcore開源核心成為一種標準,成為眾多計算框架彼此合作的基礎.沒有任何商業(yè)實體能夠擁有hadoop核心;任何對hadoopcore的優(yōu)化改進,如果采用商業(yè)形式的封裝,都是對行業(yè)sayNO;數據處理技術豐富的生態(tài)體系滿足專業(yè)化的需求用戶選擇視角互聯網程序猿視角i7處理器光驅主板至強處理器內存顯示器顯卡不同的應用場景,對組件的選擇要求不同,豐富的生態(tài)技術滿足專業(yè)化需求服務器游戲主機辦公電腦移動設備數據治理,日志分析,歷史數據查詢,關聯關系網絡分析,機器學習,統(tǒng)計分析,自然語言識別Tez?Impala?Storm?Kafka?Spark?Ooize?Solr?Falcon?Databus?Pregel?Hive?MR?MPI?與似類技術對比MPP數據庫分布式存儲分布式處理數據庫內存計算流式處理數據結構數據挖掘統(tǒng)計計算是是是是是是nosqlsql數據處理技術(包括nosql)否否是否否是單一單一豐富否否是是是是數據采集OracleDB2Mysql。。。HDFSFlume日志系統(tǒng)console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等Hadoop導入實時關系型二進制Hadoop支持所有類型數據的導入與存儲數據存儲(分布式)HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點HDFS節(jié)點。。。Oracle實時日志數據Hadoop分布式存儲系統(tǒng)滿足大規(guī)模的全數據數據存儲節(jié)點擴展數據處理(分布式)清洗、歸整、轉換、計算、建模。。。。。。MPP關系型數據庫結構化數據提取數據模型創(chuàng)建查詢統(tǒng)計科學計算備份歸檔數據應用(分布式)HadoopYARNHadoopCore數據結構、模型Key-Value文本JSon全文索引向量空間矩陣鄰接表數據應用查詢、統(tǒng)計報表、機器學習、自然語言識別、復雜網絡如何組建大數據團隊大數據團隊的組成算法研究開發(fā)測試實施維護大數據團隊業(yè)務分析團隊組織業(yè)務分析算法研究業(yè)務專家理解業(yè)務梳理數據開發(fā)模型構建算法編碼算法訓練測試挖掘分析場景確定分析目標場景抽象算法研究匹配功能開發(fā)功能測試功能驗證應用場景溝通規(guī)劃功能點制定開發(fā)計劃算法實現驗證業(yè)務驗證實施代碼交付實施培訓業(yè)務驗證用戶系統(tǒng)實施系統(tǒng)交付使用培訓崗位角色總經理主管業(yè)務分析師業(yè)務分析師主管算法工程師算法工程師主管后端開發(fā)工程師后端開發(fā)工程師前端開發(fā)工程師前端開發(fā)工程師主管測試工程師測試分析師主管實施運維工程師實施運維分析師關于大數據平臺規(guī)劃大數據典型場景分類查詢查詢統(tǒng)計類處理離線批量處理類計算挖掘計算類不同的場景對硬件資源的要求查詢統(tǒng)計類應用CPU磁盤網絡離線批量處理類應用科學計算類應用內存不同類大數據應用場景,對硬件資源的偏好有所不同。不同的場景對軟件資源的要求查詢統(tǒng)計類應用離線批量處理類應用科學計算類應用不同類大數據應用場景,對生態(tài)技術資源的偏好有所不同。YARN大獨立,小集中配置適合的硬件資源,資源充分利用。計算框架專業(yè),避免部署大而全的臃腫計算框架。維護難度低,節(jié)點數量不是很大,降低了運維的技術難度。技術風險小,獨立資源,物理隔離,不會出現大面積事故。Hadoop集群(查詢統(tǒng)計類)Hadoop集群(批處理類)Hadoop集群(挖掘計算類)小集中VS大集中小集中大集中成本較高低硬件資源利用充分低計算組件專業(yè)大而全運維難度低高運維量高低技術風險低較高Hadoop技術為什么要企業(yè)化企業(yè)就緒大數據能力所面臨的問題陡峭的學習曲線計算框架的豐富性,帶來眾多的編程接口(API)、操作、部署以及維護管理方式,增加了學習成本,抬高了技術人員入行的門檻。SQLJAVAOracleJDBCHadoop技能不能快速就緒企業(yè)就緒大數據能力所面臨的問題不具有企業(yè)友好性及通用性例如,黑屏命令行操作維護方式,增加了運維開發(fā)人員的工作難度、操作量,降低的工具的友好性。企業(yè)就緒大數據能力所面臨的問題分析算法或模型的不足決策樹貝葉斯邏輯回歸協同過濾聚類最短路徑DFSBFSK-殼K-核度值統(tǒng)計PageRank分詞標注詞頻統(tǒng)計文本分類語義圖譜摘要提取語義提取情感分析機器學習復雜網絡自然語言。。。自己編互聯網開源社區(qū)正確性時間成本支持與服務企業(yè)就緒大數據能力所面臨的問題運維難度大數據集群數量眾多的服務器不便于整體的部署與管理。資源監(jiān)控組件部署資源分配輔助工具…企業(yè)就緒大數據能力所面臨的問題版本的選擇支持與服務HBasev0.98.17、HBasev1.1.3、
Hbase
v1.2.0、Hbase
v1.0.3。。。哪個框架最適合,需要分析。哪個版本最穩(wěn)定,需要測試??蚣苌壥欠窦嫒?,需要研究。優(yōu)化與故障處理。專業(yè)的運維培訓。組件選型的方案級建議。公司的主要大數據產品天云大數據平臺(簡稱BDP)解決了企業(yè)使用Hadoop遇到的困境自然語言處理引擎機器學習引擎復雜網絡引擎天云大數據產品BDP介紹天云BDP產品簡介天云大數據的BDP企業(yè)級平臺產品是業(yè)界第一個實現了Hadoop技術落地的商業(yè)版產品。在體系架構、功能組件、外圍工具、科學算法、客戶友好、運維管理、應用開發(fā)支撐等多方面都在與國內外友商的競爭中占據明顯強勢地位。在大量落地項目中展現了產品、服務、交付能力、經驗知識儲備和技術發(fā)展前瞻性的優(yōu)勢。在產品創(chuàng)新、技術融合、業(yè)務完善等多方面有效解決了客戶所面臨的各種問題。天云大數據產品體系架構OpensourceInfrastructureHadoopMiddlewareHadoopApplications天云大數據產品體系架構Hadoop
CoreLinuxSystemRedhatCentOSSuseDebian紅旗UbuntuMandrivaApacheClouderaCDHHortonworksHDPComputing
Template數據管理Ingress/egress/compression/schemaseriaiization/retention/dual-activecluster數據處理DataPipeline/Consistence/ResidenceFramework&
InstanceBATCHNoSQLIndexStreamNLPGraphMLIn-memoryAd-HocQuerySecurityGovernanceDeploymentOrchestrationProvisioning結構檢索機器日志語義分析流數據模糊查詢文檔檢索關聯計算HadoopApplications行為分析/規(guī)律發(fā)現日志處理及分析預警目標市場分析(預測)機器學習精準推薦BDP產品的價值降低了學習和維護成本統(tǒng)一的編程接口、操作、部署以及維護管理和狀態(tài)監(jiān)控。圖形化操作界面決策樹、聚類、貝葉斯、邏輯回歸、最短路、PageRank。豐富的企業(yè)版算法包穩(wěn)定可靠的Hadoop組件版本每個組件在出廠之前會進行嚴格測試,保證其兼容穩(wěn)定。靈活組件升級局部組件升級,而不用整體大的版本升級。模板化實施提供豐富的場景技術模板,幫助用戶快速平臺就緒。安全訪問控制安全授權、細粒度訪問控制、基于角色的管理、多租戶管理、機器級別的安全認證。REST接口資源與權限管理硬件資源服務插件模版策略&流程Hadoop框架服務實例配置部署監(jiān)控管理插件管理模塊Plugin1Plugin4Plugin2Plugin3…計算模版架構LogFilesNoSQL流采集分布式消息隊列分布式流引擎模版實例:實時數據服務模版實例:模糊查詢數據服務多元計算框架模板公司的主要大數據產品備注復雜網絡引擎(BDCN)什么是復雜網絡錢學森給出了復雜網絡的一個較嚴格的定義:具有自組織、自相似、吸引子、小世界、無標度中部分或全部性質的網絡稱為復雜網絡。結構復雜節(jié)點數目巨大,網絡結構呈現多種不同特征。網絡進化節(jié)點或連接的產生與消失。連接多樣性節(jié)點之間的連接權重存在差異,且有可能存在方向性。節(jié)點多樣性節(jié)點可以代表任何事物.多重復雜性融合多重復雜性相互影響,導致更為難以預料的結果.動力學復雜性節(jié)點集可能屬于非線性動力學系統(tǒng)。由節(jié)點和邊構成的圖。復雜網絡研究的領域城市公共交通網經濟物理學科學家合作網航空網朋友關系網神經網絡道路交通網只要能抽象出網絡結構的客觀事務,都可以作為復雜網絡的研究的對象。天云復雜網絡引擎簡介天云大數據的復雜網絡引擎(BDCN)是一款對網絡科學研究及應用的專業(yè)數據處理引擎。用戶可以快速方便的實現對關聯數據的加載、建模、存儲、計算以及可視化展示。在實現數據分布式存儲的同時提供了如最短路徑、Ranking、隨機游走、子圖發(fā)現等諸多復雜網絡的算法實現。復雜網絡理論的豐富算法分析能力節(jié)點重要性分析中心性權威性樞紐性PR值分析相似性分析關系性分析BFSDFS最短路徑閉環(huán)發(fā)現社團分析網絡特征分析連通性度分布稀疏與稠密平均路徑聚類系數冪率分布基于復雜網絡算法幫助我們從新的視角觀察分析事物的本質規(guī)律。某金融機構企業(yè)關聯關系查詢商業(yè)銀行A企業(yè)1放貸擔保企業(yè)1企業(yè)2擔保商業(yè)銀行B放貸企業(yè)1擔保擔保商業(yè)銀行C放貸商業(yè)銀行D放貸擔保圈形成商業(yè)銀行不能看到擔保鏈條全部。單純的財務報表,企業(yè)經營狀況檢查很難揭示企業(yè)風險,需要更深一步的信息挖掘,才能發(fā)現潛在的金融風險,保證金融市場的安全?;谄髽I(yè)之間的各種關聯關系構建出來的復雜關系網絡,從新的分析視角分析金融風險。某金融機構企業(yè)關聯關系查詢關系型數據庫(核心系統(tǒng))結構化數據文本數據互聯網網絡爬取某金融機構企業(yè)關聯關系查詢文本數據擔保關系對家族關系對投資關系對集團關系對0
1
0
1
0
1
01
1
0
1
0
1
10
1
0
1
1
1
01
1
0
1
0
1
11
1
0
1
1
1
11
1
0
1
1
1
11
1
0
1
1
1
1鄰接矩陣復雜網絡平臺數據匯總構建模型企業(yè)關系網絡某金融機構企業(yè)關聯關系查詢BDCN計算引擎BDCN復雜網絡Warshall算法Breath-First
Search,BFS算法Deep-First
Search,DFS算法擔保圈發(fā)現企業(yè)關聯關系查找技術與算法支撐企業(yè)關聯關系查詢系統(tǒng)企業(yè)名稱:山東東方伊特廣告有限責任公司投資總額:
¥1,000,000被投資額:¥300,000投資企業(yè)數:10家被投資企業(yè)數:6家投資總額:¥38,234,532投資企業(yè)被投資企業(yè)投資額度所查企業(yè)企業(yè)1¥3,000,000所查企業(yè)北京市京東林元養(yǎng)殖場¥2,300,000企業(yè)5企業(yè)6¥1,000,000所查企業(yè)北京東豪德利經貿…¥500,000投資額排名:按投資關系展示查詢結果機器學習引擎(BDML)什么是機器學習機器學習(MachineLearning,ML)是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。機器學習有監(jiān)督學習無監(jiān)督學習半監(jiān)督學習對具有概念標記(分類)的訓練樣本進行學習,以盡可能對訓練樣本集外的數據進行標記(分類)預測。這里,所有的標記(分類)是已知的。對沒有概念標記(分類)的訓練樣本進行學習,以發(fā)現訓練樣本集中的結構性知識。這里,所有的標記(分類)是未知的。因此,訓練樣本的岐義性高。聚類就是典型的無監(jiān)督學習介于有監(jiān)督和無監(jiān)督之間。天云機器學習引擎簡介機器學習是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,包括分類、協同過濾、聚類分析、統(tǒng)計分析等理論方法。天云大數據的機器學習引擎基于分布式平臺,為數據挖掘提供了算法支撐,能夠處理海量數據深度挖掘?;谟斜O(jiān)督機器學習技術的客戶流失分析客戶1客戶2客戶3客戶4……基本信息購買數據理賠數據健康數據繳費數據呼叫數據HDFS已流失客戶清洗、轉換規(guī)整、建模有監(jiān)督學習算法模型訓練成熟的算法模型基于有監(jiān)督機器學習技術的客戶流失分析成熟的算法模型客戶1客戶2客戶3客戶4……基本信息購買數據理賠數據健康數據繳費數據呼叫數據現有客戶客戶1客戶2客戶3客戶4流失預警穩(wěn)定客戶客戶經理基于無監(jiān)督機器學習技術的客戶流失分析年收入2.9萬,總標保1.5萬以上,高達9萬的兩全產品,產品覆蓋面齊全年收入高達18萬,總標保只有1萬,壽險和年金金額較高,無投連產品年收入2.9萬,高達6.3萬的萬能產品,產品覆蓋面齊全年收入只有0.3萬,高達7.7萬的投連產品年收入9.7萬,標保只有0.5萬年收入只有0.8萬,高達2.9萬的年金產品年收入4.8萬,總標保2.6萬以上,高達7.6萬的年金產品,產品覆蓋面齊全自然語言處理引擎(BDNLP)什么是自然語言處理自然語言處理在海量文本數據之上進行處理,通過機器實現了文本分類、情感分析、主題模型、摘要抽取等多個模型。分詞標注、實體抽取、詞頻統(tǒng)計、新詞識別、文本分類、情感分析、關鍵詞抽取、詞向量、依存文法、簡繁轉換、自動注音、摘要提取、文本聚類湯森路透上市公司公告處理湯森路透(ThomsonReuters)成立于2008年4月17日,是由加拿大湯姆森公司(TheThomsonCorporation)與英國路透集團(ReutersGroupPLC)合并組成的商務和專業(yè)智能信息提供商。主要為專業(yè)企業(yè)、金融機構和消費者提供財經信息服務,例如電子交易系統(tǒng)、企業(yè)管理系統(tǒng)和風險管理系統(tǒng)、桌面系統(tǒng)、新聞,以及為在法律、稅務和會計、科學、醫(yī)療保健和媒體市場的專業(yè)人員提供智能信息及解決方案。上市公司公告內容抓取自然語言分類和摘要提取并購、公開募股、私募股權、可轉債、其它分類……分詞湯森路透上市公司公告處理通用詞庫專業(yè)詞庫新詞發(fā)現有監(jiān)督機器學習算法模型上市公司公告并購公開募股私募股權可轉債其它分類湯森路透上市公司公告處理并購公開募股私募股權可轉債其它分類基于復雜網絡技術的文章摘要提取摘要信息(涵蓋70%信息量)自然語言處理之文章摘要隨著信息時代的發(fā)展,大量文本涌現出來,包括新聞、咨詢、論文、小說等,面對如此大的信息量,如何快速提取文本中心思想并評價文本內容,是當今信息處理領域的關鍵研究領域。本場景主要介紹的是如何基于復雜網絡技術對文本進行摘要信息的提取。復雜網絡節(jié)點邊文章句子句子間共有詞自然語言處理之文章摘要0
1
0
1
0
1
01
1
0
1
0
1
10
1
0
1
1
1
01
1
0
1
0
1
11
1
0
1
1
1
11
1
0
1
1
1
11
1
0
1
1
1
1句子1句子2句子3句子5句子6句子7句子4句子1句子4句子2句子3句子5句子6句子70
6
0
1
0
1
01
1
0
7
0
1
10
1
0
1
1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貨樣買賣合同范本
- 2025版委托培訓人才職業(yè)技能培訓合同3篇
- 2025年度個人貸款合同補充協議(逾期罰息調整)4篇
- 電子產品維修退貨運輸合同
- 文化創(chuàng)意產業(yè)投資開發(fā)合同書
- 2024年房地產行業(yè)項目合作開發(fā)合同
- 食品采購合同協議
- 2024年人力資源服務外包合同
- 2025年度商鋪買賣合同(含商業(yè)配套移交協議)
- 智能交通系統(tǒng)運營合同
- 2025年上半年江蘇連云港灌云縣招聘“鄉(xiāng)村振興專干”16人易考易錯模擬試題(共500題)試卷后附參考答案
- DB3301T 0382-2022 公共資源交易開評標數字見證服務規(guī)范
- 人教版2024-2025學年八年級上學期數學期末壓軸題練習
- 【人教版化學】必修1 知識點默寫小紙條(答案背誦版)
- 俄語版:中國文化概論之中國的傳統(tǒng)節(jié)日
- 《奧特萊斯業(yè)態(tài)淺析》課件
- 2022年湖南省公務員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 婦科一病一品護理匯報
- 養(yǎng)殖場獸醫(yī)服務合同
- 哪吒之魔童降世
- HR六大板塊+三支柱體系
評論
0/150
提交評論