行業(yè)大數據技術架構介紹2_第1頁
行業(yè)大數據技術架構介紹2_第2頁
行業(yè)大數據技術架構介紹2_第3頁
行業(yè)大數據技術架構介紹2_第4頁
行業(yè)大數據技術架構介紹2_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

行業(yè)大數據部署思路淺析大數據的特點理解大數據相關技術與應用什么是大數據?

海量數據本身+處理方法*大數據的4V特征體量Volume多樣性Variety價值密度Value速度Velocity非結構化數據的超大規(guī)模和增長總數據量的80~90%比結構化數據增長快10倍到50倍是傳統(tǒng)數據倉庫的10倍到50倍大數據的異構和多樣性很多不同形式(文本、圖像、視頻、機器數據)無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數據輸入、處理與丟棄立竿見影而非事后見效*1、密不可分的大數據與云計算商業(yè)模式驅動應用需求驅動云計算本身也是大數據的一種業(yè)務模式大數據是落地的云云計算的模式是業(yè)務模式,本質是數據處理技術。數據是資產,云為數據資產提供存儲、訪問和計算。當前云計算更偏重海量存儲和計算,以及提供的云服務,運行云應用,但是缺乏盤活數據資產的能力,挖掘價值性信息和預測性分析,為國家、企業(yè)、個人提供決策和服務,是大數據核心議題,也是云計算的最終方向。*2、大數據不僅僅是“大”多大?至少PB級比大更重要的是數據的復雜性,有時甚至大數據中的小數據如一條微博就具有顛覆性的價值*4、大數據的應用不僅僅是精準營銷通過用戶行為分析實現精準營銷是大數據的典型應用,但是大數據在各行各業(yè)特別是公共服務領域具有廣闊的應用前景消費行業(yè)金融服務食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務氣象*5、管理大數據“易”理解大數據“難”雖然大數據是一個重大問題,真正的問題是讓大數據更有意義目前大數據管理多從架構和并行等方面考慮,解決高并發(fā)數據存取的性能要求及數據存儲的橫向擴展,但對非結構化數據的內容理解仍缺乏實質性的突破和進展,這是實現大數據資源化、知識化、普適化的核心非結構化海量信息的智能化處理:自然語言理解、多媒體內容理解、機器學習等挖掘掘內內部部需需求求經過過大大數數據據改改造造的的IT不再再是是一一個個冷冷冰冰冰冰的的系系統(tǒng)統(tǒng),,而而變變成成了了推推動動業(yè)業(yè)務務發(fā)發(fā)展展,,挖挖掘掘客客戶戶內內心心需需求求的的真真正正推推動動劑劑;;大大數數據據將將催催生生更更多多的的應應用用領領域域需需求求。。數據據源源內部部結結構構化化數數據據外部部其其他他渠渠道道網絡絡/應用用日日志志EDW(內內外外部部結結構構化化數數據據))用戶戶基基本本信信息息數據據庫庫Hadoop(內內外外部部非非結結構構化化數數據據))Hadoop/GPFSClusterMapReduce&Analytics網絡絡日日志志分分析析內容容分分析析交互互數數據據分分析析個體體分分析析用戶戶購購買買記記錄錄數數據據庫庫用戶戶維維修修記記錄錄數數據據庫庫內部部非非結結構構化化數數據據社會化媒體數據生產、銷售、服務、售后數據數據據應應用用倉倉庫庫用戶戶在在線線瀏瀏覽覽據據庫庫用戶戶安安裝裝配配送送數數據據庫庫。。。。。。。。。其他他數數據據集集清洗整合用戶數據清洗整合規(guī)則確定ETLDQ數據清洗、整合、轉換開發(fā)清洗整合規(guī)則自動調度規(guī)則與標準制定用戶信息歸屬規(guī)則確定用戶數據使用權限與流程確定用戶數據質量標準確定數據據應應用用/服務務營銷銷/關懷懷活活動動自自動動化化管管理理商業(yè)業(yè)智智能能管理理駕駕駛駛艙艙業(yè)務務報報表表專題題分分析析嵌入入運運營營系系統(tǒng)統(tǒng)的的大大數數據據應應用用信息息可可視視化化工工具具CRMSCMMESPLM平臺臺化化企企業(yè)業(yè),,需需要要大大數數據據架架構構的的支支撐撐大數據時代的企業(yè)發(fā)展更高高一一層層數數據據層層面面整整合合企企業(yè)業(yè)內內外外部部*數據據的的再再利利用用::由于于在在信信息息價價值值鏈鏈中中的的特特殊殊位位置置,,有有些些公公司司可可能能會會收收集集到到大大量量的的數數據據,,但但他他們們并并不不急急需需使使用用也也不不擅擅長長再再次次利利用用這這些些數數據據。。例例如如,,移移動動電電話話運運營營商商手手機機用用戶戶的的位位置置信信息息來來傳傳輸輸電電話話信信號號,,這這對對以以他他們們來來說說,,數數據據只只有有狹狹窄窄的的技技術術用用途途。。但但當當它它被被一一些些發(fā)發(fā)布布個個性性化化位位置置廣廣告告服服務務和和促促銷銷活活動動的的公公司司再再次次利利用用時時,,則則變變得得更更有有價價值值。。大數數據據價價值值鏈鏈的的3大構構成成::數數據據本本身身、、技技能能與與思思維維谷歌歌公公司司三三者者兼兼具具,,在在剛剛開開始始收收集集數數據據的的時時候候就就已已經經有有多多次次使使用用數數據據的的想想法法。。比比方方說說,,它它的的街街景景采采集集車車手手機機全全球球定定位位系系統(tǒng)統(tǒng)數數據據不不光光是是為為了了創(chuàng)創(chuàng)建建谷谷歌歌地地圖圖,,也也是是為為了了制制成成全全自自動動汽汽車車以以及及谷谷歌歌眼眼鏡鏡等等與與實實景景交交匯匯的的產產品品。。未來來,,企企業(yè)業(yè)會會依依靠靠洞洞悉悉數數據據中中的的信信息息更更加加了了解解自自己己,,也也更更加加了了解解客客戶戶。?!洞髷禂祿r時代代》傳統(tǒng)統(tǒng)行行業(yè)業(yè)最最終終都都會會轉轉變變?yōu)闉榇蟠髷禂祿行袠I(yè)業(yè),,無無論論是是金金融融服服務務也也、、醫(yī)醫(yī)藥藥還還是是制制造造業(yè)業(yè)。。大數據的未來和機遇大數據相關技術分析析技技術術::數據據處處理理::自自然然語語言言處處理理技技術術統(tǒng)計計和和分分析析::A/Btest;topN排行行榜榜;;地地域域占占比比;;文文本本情情感感分分析析數據據挖挖掘掘::關關聯(lián)聯(lián)規(guī)規(guī)則則分分析析;;分分類類;;聚聚類類模型型預預測測::預預測測模模型型;;機機器器學學習習;;建建模模仿仿真真大數數據據技技術術::數據據采采集集::ETL工具具數據存取?。宏P系系數據庫庫;NoSQL;SQL等基礎架構構支持::云存儲儲;分布布式文件件系統(tǒng)等等計算結果果展現::云計算算;標簽簽云;關關系圖等等存儲結構化數數據:海量數據據的查詢詢、統(tǒng)計計、更新新等操作作效率低低非結構化化數據圖片、視視頻、word、pdf、ppt等文件存存儲不利于檢檢索、查查詢和存存儲半結構化化數據轉換為結結構化存存儲按照非結結構化存存儲解決方案案:Hadoop(MapReduce技術)流計算((twitter的storm和yahoo!的S4)數據采集數據儲存數據管理數據分析與挖掘什么是hadoop開源Apache項項目,靈靈感來源源于Google的MapReduce白白皮書和和Google文件系系(GFS),Yahoo完成成了絕大大部分初初始設計計和開發(fā)發(fā)Hadoop核核心組組件包括括:-分布式式文件系系統(tǒng)-Map/Reduce––分布式式計算用Java編寫寫運行平臺臺:?Linux,MacOS/X,Solaris,Windows?普通的的X86硬件平平臺為什么hadoop很很重要非結構化化數據暴暴增:–估計未來來5年,企業(yè)業(yè)的數據據將增長長650%,其中80%都是非結結構化數數據–比如FACEBOOK每天收集集100TB的數據,,Twitter會有每天產生生3500億的tweets非結構化化的數據據同樣蘊蘊藏巨大大價值需要新方方法利用用所有數數據進行行業(yè)務分分析–ApacheHadoop作為一個個分析存存儲大量量數據的的關鍵數據平臺臺出現hadoop與與大數據據Hadoop是致力于于“大數數據”處處理的最最重要平平臺之一一–能夠輕松松擴展到到PB級別的數數據存儲儲,處理理規(guī)模–帶有高度度容錯能能力的并并行處理理架構–基于普通通的X86平臺硬件件架構,,硬件成成本低廉廉–用內置格格式存儲儲/處理數據據–基于開源源項目,,擁有當當量的代代碼來源源,并且且傳統(tǒng)廠廠商也日日益重視視對其的的支持,,它已經經成為重重要的并并行處理理架構標標準之一一企業(yè)級Hadoop堆棧數據存儲儲與訪問問方式大數據與與應用總總體設計計行業(yè)大數數據建設設思考1.思考的問問題使用當前前數據資資源建設設大數據據平臺能能做什么么?實現以前前無法實實現的應應用需求求針對當前前業(yè)務狀狀況,為為什么需需要建設設大數據據平臺改善現狀狀,為未未來發(fā)展展奠定基基礎具備什么么樣的條條件才能能建設大大數據平平臺?硬件和網網絡資源源具備了了嗎?數據應用用業(yè)務需需求明確確了嗎??已有業(yè)務遷移移到大數數據平臺臺可行嗎嗎?2.建設步驟驟分析當前前及未來來數據量量及數據據類型((不止是是原始數數據哦,,還有新新產生的的大數據據應用中中間及結結果數據據)明確大數數據應用用業(yè)務需需求(包

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論