大數(shù)據(jù)和ODPS課件_第1頁
大數(shù)據(jù)和ODPS課件_第2頁
大數(shù)據(jù)和ODPS課件_第3頁
大數(shù)據(jù)和ODPS課件_第4頁
大數(shù)據(jù)和ODPS課件_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與ODPS概述主講人:李權(quán)1.什么是大數(shù)據(jù)?2.意義與價值?3.面對什么樣的困難?4.怎樣處理這些數(shù)據(jù)呢?5.什么是ODPS?6.與傳統(tǒng)數(shù)據(jù)倉庫工具相比ODPS有那些優(yōu)勢?7.ODPS有怎樣的發(fā)展?

大數(shù)據(jù)(bigdata),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。1.什么是大數(shù)據(jù)?

難關(guān):數(shù)據(jù)大,更重要的是多樣性、實時性、不確定性、關(guān)聯(lián)性、異質(zhì)性,如何從大數(shù)據(jù)中得到大價值才是關(guān)鍵所在。3.面對什么樣的困難?

大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。4.怎樣處理這些數(shù)據(jù)呢?

主要采用分布式分布式計算是近年提出的一種新的計算方式。所謂分布式計算就是在兩個或多個軟件互相共享信息,這些軟件既可以在同一臺計算機(jī)上運(yùn)行,也可以在通過網(wǎng)絡(luò)連接起來的多臺計算機(jī)上運(yùn)行。分布式計算比起其它算法具有以下幾個優(yōu)點(diǎn):1、稀有資源可以共享。2、通過分布式計算可以在多臺計算機(jī)上平衡計算負(fù)載。3、可以把程序放在最適合運(yùn)行它的計算機(jī)上。其中,共享稀有資源和平衡負(fù)載是計算機(jī)分布式計算的核心思想之一。分布式系統(tǒng)的挑戰(zhàn)挑戰(zhàn):容災(zāi)數(shù)據(jù)容災(zāi)是指建立一個異地的數(shù)據(jù)系統(tǒng),為了保護(hù)數(shù)據(jù)安全和提高數(shù)據(jù)的持續(xù)可用性,企業(yè)要從RAID保護(hù)、冗余結(jié)構(gòu)、數(shù)據(jù)備份、故障預(yù)警等多方面考慮,將數(shù)據(jù)庫的必要文件復(fù)制到存儲設(shè)備的過程,備份是系統(tǒng)中需要考慮的最重要的事項,雖然他們在系統(tǒng)的整個規(guī)劃。有人摔倒了...分布式系統(tǒng)的挑戰(zhàn)挑戰(zhàn):動態(tài)環(huán)境下的不確定性草地不平整,地上有石頭,也許天上還會下雨你需要解決什么問題?你的業(yè)務(wù)需求是什么,性能需求是什么?沒有最優(yōu)的技術(shù),只有最優(yōu)的選擇!6.與傳統(tǒng)數(shù)據(jù)倉庫工具相比ODPS有那些優(yōu)勢?

處理能力強(qiáng)大:客戶都曾經(jīng)購買使用過傳統(tǒng)數(shù)據(jù)倉庫技術(shù)解決方案,但是都無法適應(yīng)劇烈膨脹的數(shù)據(jù)規(guī)模。

成本低廉,伸縮靈活:由于云計算的業(yè)務(wù)特點(diǎn),用戶可以根據(jù)自己的實際需求租用相應(yīng)的計算能力。同時節(jié)省昂貴的運(yùn)營費(fèi)用。7.ODPS有怎樣的發(fā)展?國內(nèi)唯一的大數(shù)據(jù)云服務(wù)平臺,真正的數(shù)據(jù)分享平臺數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)分享阿里集團(tuán)內(nèi)部使用的統(tǒng)一數(shù)據(jù)處理平臺,支持阿里貸款、數(shù)據(jù)魔方、DMP(阿里巴巴廣告聯(lián)盟)、余額寶等多款產(chǎn)品ODPS規(guī)模單一集群規(guī)模可以達(dá)到10000+服務(wù)器(保持80%線性擴(kuò)展)單個ODPS部署可以支持100萬服務(wù)器以上,無限制(線性擴(kuò)展略差),支持同城、異地多數(shù)據(jù)中心模式10000+用戶數(shù),1000+項目應(yīng)用、100+部門(多租戶)100萬以上作業(yè)(目前單日平均提交任務(wù)),20000以上并發(fā)作業(yè)參考:與數(shù)據(jù)分析有關(guān)的云服務(wù)Splunk /splunk/index.htmPentaho /Jaspersoft /SumoLogic /Connotate /Inrix /Tableau /MetaMarkets /DataSift /Data

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論