版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
行業(yè)大數(shù)據(jù)部署思路淺析大數(shù)據(jù)的特點(diǎn)理解大數(shù)據(jù)相關(guān)技術(shù)與應(yīng)用什么是大大數(shù)據(jù)??海量數(shù)據(jù)據(jù)本身+處理方法法*大數(shù)據(jù)的的4V特征體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)實(shí)時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效*1、密不可可分的大大數(shù)據(jù)與與云計算算商業(yè)模式式驅(qū)動應(yīng)用需求求驅(qū)動云計算本本身也是是大數(shù)據(jù)據(jù)的一種種業(yè)務(wù)模模式大數(shù)據(jù)是是落地的的云云計算的的模式是是業(yè)務(wù)模模式,本本質(zhì)是數(shù)數(shù)據(jù)處理理技術(shù)。。數(shù)據(jù)是資資產(chǎn),云云為數(shù)據(jù)據(jù)資產(chǎn)提提供存儲儲、訪問問和計算算。當(dāng)前云計計算更偏偏重海量量存儲和和計算,,以及提提供的云云服務(wù),,運(yùn)行云云應(yīng)用,,但是缺缺乏盤活活數(shù)據(jù)資資產(chǎn)的能能力,挖挖掘價值值性信息息和預(yù)測測性分析析,為國國家、企企業(yè)、個個人提供供決策和和服務(wù),,是大數(shù)數(shù)據(jù)核心心議題,,也是云云計算的的最終方方向。*2、大數(shù)據(jù)據(jù)不僅僅僅是“大大”多大?至少PB級比大更重重要的是是數(shù)據(jù)的的復(fù)雜性性,有時時甚至大大數(shù)據(jù)中中的小數(shù)數(shù)據(jù)如一一條微博博就具有有顛覆性性的價值值*4、大數(shù)據(jù)據(jù)的應(yīng)用用不僅僅僅是精準(zhǔn)準(zhǔn)營銷通過用戶戶行為分分析實(shí)現(xiàn)現(xiàn)精準(zhǔn)營營銷是大大數(shù)據(jù)的的典型應(yīng)應(yīng)用,但但是大數(shù)數(shù)據(jù)在各各行各業(yè)業(yè)特別是是公共服服務(wù)領(lǐng)域域具有廣廣闊的應(yīng)應(yīng)用前景景消費(fèi)行業(yè)業(yè)金融服務(wù)務(wù)食品安全全醫(yī)療衛(wèi)生生軍事交通環(huán)保保電子商務(wù)務(wù)氣象*5、管理大大數(shù)據(jù)““易”理理解大數(shù)數(shù)據(jù)“難難”雖然大數(shù)數(shù)據(jù)是一一個重大大問題,,真正的的問題是是讓大數(shù)數(shù)據(jù)更有有意義目前大數(shù)數(shù)據(jù)管理理多從架架構(gòu)和并并行等方方面考慮慮,解決決高并發(fā)發(fā)數(shù)據(jù)存存取的性性能要求求及數(shù)據(jù)據(jù)存儲的的橫向擴(kuò)擴(kuò)展,但但對非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)的內(nèi)內(nèi)容理解解仍缺乏乏實(shí)質(zhì)性性的突破破和進(jìn)展展,這是是實(shí)現(xiàn)大大數(shù)據(jù)資資源化、、知識化化、普適適化的核核心非結(jié)構(gòu)化化海量信信息的智智能化處處理:自自然語言言理解、、多媒體體內(nèi)容理理解、機(jī)機(jī)器學(xué)習(xí)習(xí)等挖掘內(nèi)部部需求經(jīng)過大數(shù)數(shù)據(jù)改造造的IT不再是一一個冷冰冰冰的系系統(tǒng),而而變成了了推動業(yè)業(yè)務(wù)發(fā)展展,挖掘掘客戶內(nèi)內(nèi)心需求求的真正正推動劑劑;大數(shù)數(shù)據(jù)將催催生更多多的應(yīng)用用領(lǐng)域需需求。數(shù)據(jù)源內(nèi)部結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)外部其他他渠道網(wǎng)絡(luò)/應(yīng)用日日志EDW(內(nèi)外部部結(jié)構(gòu)化化數(shù)據(jù)))用戶基本本信息數(shù)據(jù)庫Hadoop(內(nèi)外部部非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù))Hadoop/GPFSClusterMapReduce&Analytics網(wǎng)絡(luò)日志志分析內(nèi)容分析析交互數(shù)據(jù)據(jù)分析個體分析析用戶購買買記錄數(shù)數(shù)據(jù)庫用戶維修修記錄數(shù)數(shù)據(jù)庫內(nèi)部非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)社會化媒體數(shù)據(jù)生產(chǎn)、銷售、服務(wù)、售后數(shù)據(jù)數(shù)據(jù)應(yīng)用用倉庫用戶在線線瀏覽據(jù)據(jù)庫用戶安裝裝配送數(shù)數(shù)據(jù)庫。。。。。。其他數(shù)據(jù)據(jù)集清洗整合用戶數(shù)據(jù)清洗整合規(guī)則確定ETLDQ數(shù)據(jù)清洗、整合、轉(zhuǎn)換開發(fā)清洗整合規(guī)則自動調(diào)度規(guī)則與標(biāo)準(zhǔn)制定用戶信息歸屬規(guī)則確定用戶數(shù)據(jù)使用權(quán)限與流程確定用戶數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)確定數(shù)據(jù)應(yīng)用用/服務(wù)營銷/關(guān)懷活動動自動化化管理商業(yè)智能能管理駕駛駛艙業(yè)務(wù)報表表專題分析析嵌入運(yùn)營營系統(tǒng)的的大數(shù)據(jù)據(jù)應(yīng)用信息可視視化工具具CRMSCMMESPLM平臺化企企業(yè),需需要大數(shù)數(shù)據(jù)架構(gòu)構(gòu)的支撐撐大數(shù)據(jù)時代的企業(yè)發(fā)展更高一層層數(shù)據(jù)層層面整合合企業(yè)內(nèi)內(nèi)外部*數(shù)據(jù)的再再利用::由于在信信息價值值鏈中的的特殊位位置,有有些公司司可能會會收集到到大量的的數(shù)據(jù),,但他們們并不急急需使用用也不擅擅長再次次利用這這些數(shù)據(jù)據(jù)。例如如,移動動電話運(yùn)運(yùn)營商手手機(jī)用戶戶的位置置信息來來傳輸電電話信號號,這對對以他們們來說,,數(shù)據(jù)只只有狹窄窄的技術(shù)術(shù)用途。。但當(dāng)它它被一些些發(fā)布個個性化位位置廣告告服務(wù)和和促銷活活動的公公司再次次利用時時,則變變得更有有價值。。大數(shù)據(jù)價價值鏈的的3大構(gòu)成::數(shù)據(jù)本本身、技技能與思思維谷歌公司司三者兼兼具,在在剛開始始收集數(shù)數(shù)據(jù)的時時候就已已經(jīng)有多多次使用用數(shù)據(jù)的的想法。。比方說說,它的的街景采采集車手手機(jī)全球球定位系系統(tǒng)數(shù)據(jù)據(jù)不光是是為了創(chuàng)創(chuàng)建谷歌歌地圖,,也是為為了制成成全自動動汽車以以及谷歌歌眼鏡等等與實(shí)景景交匯的的產(chǎn)品。。未來,企企業(yè)會依依靠洞悉悉數(shù)據(jù)中中的信息息更加了了解自己己,也更更加了解解客戶。。《大數(shù)據(jù)時時代》傳統(tǒng)行業(yè)業(yè)最終都都會轉(zhuǎn)變變?yōu)榇髷?shù)數(shù)據(jù)行業(yè)業(yè),無論論是金融融服務(wù)也也、醫(yī)藥藥還是制制造業(yè)。。大數(shù)據(jù)的未來和機(jī)遇大數(shù)據(jù)相關(guān)技術(shù)分析技術(shù)術(shù):數(shù)據(jù)處理理:自然然語言處處理技術(shù)術(shù)統(tǒng)計和分分析:A/Btest;topN排行榜;;地域占占比;文文本情感感分析數(shù)據(jù)挖掘掘:關(guān)聯(lián)聯(lián)規(guī)則分分析;分分類;聚聚類模型預(yù)測測:預(yù)測測模型;;機(jī)器學(xué)學(xué)習(xí);建建模仿真真大數(shù)據(jù)技技術(shù):數(shù)據(jù)采集集:ETL工具數(shù)據(jù)存取?。宏P(guān)系系數(shù)據(jù)庫庫;NoSQL;SQL等基礎(chǔ)架構(gòu)構(gòu)支持::云存儲儲;分布布式文件件系統(tǒng)等等計算結(jié)果果展現(xiàn)::云計算算;標(biāo)簽簽云;關(guān)關(guān)系圖等等存儲結(jié)構(gòu)化數(shù)數(shù)據(jù):海量數(shù)據(jù)據(jù)的查詢詢、統(tǒng)計計、更新新等操作作效率低低非結(jié)構(gòu)化化數(shù)據(jù)圖片、視視頻、word、pdf、ppt等文件存存儲不利于檢檢索、查查詢和存存儲半結(jié)構(gòu)化化數(shù)據(jù)轉(zhuǎn)換為結(jié)結(jié)構(gòu)化存存儲按照非結(jié)結(jié)構(gòu)化存存儲解決方案案:Hadoop(MapReduce技術(shù))流計算((twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘什么是hadoop開源Apache項(xiàng)項(xiàng)目,靈靈感來源源于Google的MapReduce白白皮書和和Google文件系系(GFS),,Yahoo完成成了絕大大部分初初始設(shè)計計和開發(fā)發(fā)Hadoop核核心組組件包括括:-分布式式文件系系統(tǒng)-Map/Reduce––分布式式計算用Java編寫寫運(yùn)行平臺臺:?Linux,,MacOS/X,Solaris,Windows?普通的的X86硬件平平臺為什么hadoop很很重要非結(jié)構(gòu)化化數(shù)據(jù)暴暴增:–估計未來來5年,企業(yè)業(yè)的數(shù)據(jù)據(jù)將增長長650%%,其中80%都是非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)–比如FACEBOOK每天收集集100TB的數(shù)據(jù),,Twitter會有每天產(chǎn)生生3500億的tweets非結(jié)構(gòu)化化的數(shù)據(jù)據(jù)同樣蘊(yùn)蘊(yùn)藏巨大大價值需要新方方法利用用所有數(shù)數(shù)據(jù)進(jìn)行行業(yè)務(wù)分分析–ApacheHadoop作為一個個分析存存儲大量量數(shù)據(jù)的的關(guān)鍵數(shù)據(jù)平臺臺出現(xiàn)hadoop與與大數(shù)據(jù)據(jù)Hadoop是致力于于“大數(shù)數(shù)據(jù)”處處理的最最重要平平臺之一一–能夠輕松松擴(kuò)展到到PB級別的數(shù)數(shù)據(jù)存儲儲,處理理規(guī)模–帶有高度度容錯能能力的并并行處理理架構(gòu)–基于普通通的X86平臺硬件件架構(gòu),,硬件成成本低廉廉–用內(nèi)置格格式存儲儲/處理數(shù)據(jù)據(jù)–基于開源源項(xiàng)目,,擁有當(dāng)當(dāng)量的代代碼來源源,并且且傳統(tǒng)廠廠商也日日益重視視對其的的支持,,它已經(jīng)經(jīng)成為重重要的并并行處理理架構(gòu)標(biāo)標(biāo)準(zhǔn)之一一企業(yè)級Hadoop堆棧數(shù)據(jù)存儲儲與訪問問方式大數(shù)據(jù)與與應(yīng)用總總體設(shè)計計行業(yè)大數(shù)數(shù)據(jù)建設(shè)設(shè)思考1.思考的問問題使用當(dāng)前前數(shù)據(jù)資資源建設(shè)設(shè)大數(shù)據(jù)據(jù)平臺能能做什么么?實(shí)現(xiàn)以前前無法實(shí)實(shí)現(xiàn)的應(yīng)應(yīng)用需求求針對當(dāng)前前業(yè)務(wù)狀狀況,為為什么需需要建設(shè)設(shè)大數(shù)據(jù)據(jù)平臺改善現(xiàn)狀狀,為未未來發(fā)展展奠定基基礎(chǔ)具備什么么樣的條條件才能能建設(shè)大大數(shù)據(jù)平平臺?硬件和網(wǎng)網(wǎng)絡(luò)資源源具備了了嗎?數(shù)據(jù)應(yīng)用用業(yè)務(wù)需需求明確確了嗎??已有業(yè)務(wù)遷移移到大數(shù)數(shù)據(jù)平臺臺可行嗎嗎?2.建設(shè)步驟驟分析當(dāng)前前及未來來數(shù)據(jù)量量及數(shù)據(jù)據(jù)類型((不止是是原始數(shù)數(shù)據(jù)哦,,還有新新產(chǎn)生的的大數(shù)據(jù)據(jù)應(yīng)用中中間及結(jié)結(jié)果數(shù)據(jù)據(jù))明確大數(shù)數(shù)據(jù)應(yīng)用用業(yè)務(wù)需需求(包包括已有有業(yè)務(wù)遷遷移和未未來面對對海量數(shù)數(shù)據(jù)進(jìn)行行的以前前無法做做到的新新型業(yè)務(wù)務(wù)需求和和模式))根據(jù)需求求確定數(shù)數(shù)據(jù)存儲儲模式及及結(jié)構(gòu)((與應(yīng)用用相關(guān)))根據(jù)需求求確定大大數(shù)據(jù)應(yīng)應(yīng)用建設(shè)設(shè)技術(shù)路路線●批處處理模式式●●實(shí)實(shí)時訪訪問技術(shù)術(shù)●●流式式計算●●大規(guī)規(guī)模并行行計算●統(tǒng)計分分析●●OLAP分析●●數(shù)據(jù)挖挖掘●●智智能搜索索●。。。。搭建系統(tǒng)統(tǒng)運(yùn)行及及監(jiān)控
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆廣州市高三年級調(diào)研測試(零模)化學(xué)試卷(含答案)
- 傳染病培訓(xùn)課件
- 律師工作計劃合集七篇
- 智慧食藥監(jiān)整體解決方案
- 聯(lián)通公司工作計劃
- 小學(xué)生校園安全知識培訓(xùn)制度
- 遼寧沈陽出版發(fā)行集團(tuán)有限公司及所屬企業(yè)招聘筆試沖刺題2024
- 學(xué)生的實(shí)習(xí)報告合集15篇
- 戰(zhàn)略管理讀書心得
- 護(hù)理自查報告
- 中考、高考標(biāo)準(zhǔn)答題卡答題注意事項(xiàng)ppt課件
- VTE預(yù)防健康教育ppt課件(PPT 42頁)
- 分戶驗(yàn)收表格(全部)(18341)
- 最新laravel框架
- 3、信息系統(tǒng)及其建設(shè)軟件工程基礎(chǔ)7.24
- 中藥分類大全
- 精文減會經(jīng)驗(yàn)交流材料
- 管道定額價目表
- 新時期如何做好檔案管理課件
- 真崎航の21部
- 復(fù)興號動車組空調(diào)系統(tǒng)設(shè)計優(yōu)化及應(yīng)用
評論
0/150
提交評論