版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)與ODPS概述主講人:李權(quán)1.什么是大數(shù)據(jù)?2.意義與價值?3.面對什么樣的困難?4.怎樣處理這些數(shù)據(jù)呢?5.什么是ODPS?6.與傳統(tǒng)數(shù)據(jù)倉庫工具相比ODPS有那些優(yōu)勢?7.ODPS有怎樣的發(fā)展?
大數(shù)據(jù)(bigdata),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。1.什么是大數(shù)據(jù)?
難關(guān):數(shù)據(jù)大,更重要的是多樣性、實時性、不確定性、關(guān)聯(lián)性、異質(zhì)性,如何從大數(shù)據(jù)中得到大價值才是關(guān)鍵所在。3.面對什么樣的困難?
大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。4.怎樣處理這些數(shù)據(jù)呢?
主要采用分布式分布式計算是近年提出的一種新的計算方式。所謂分布式計算就是在兩個或多個軟件互相共享信息,這些軟件既可以在同一臺計算機(jī)上運(yùn)行,也可以在通過網(wǎng)絡(luò)連接起來的多臺計算機(jī)上運(yùn)行。分布式計算比起其它算法具有以下幾個優(yōu)點(diǎn):1、稀有資源可以共享。2、通過分布式計算可以在多臺計算機(jī)上平衡計算負(fù)載。3、可以把程序放在最適合運(yùn)行它的計算機(jī)上。其中,共享稀有資源和平衡負(fù)載是計算機(jī)分布式計算的核心思想之一。分布式系統(tǒng)的挑戰(zhàn)挑戰(zhàn):容災(zāi)數(shù)據(jù)容災(zāi)是指建立一個異地的數(shù)據(jù)系統(tǒng),為了保護(hù)數(shù)據(jù)安全和提高數(shù)據(jù)的持續(xù)可用性,企業(yè)要從RAID保護(hù)、冗余結(jié)構(gòu)、數(shù)據(jù)備份、故障預(yù)警等多方面考慮,將數(shù)據(jù)庫的必要文件復(fù)制到存儲設(shè)備的過程,備份是系統(tǒng)中需要考慮的最重要的事項,雖然他們在系統(tǒng)的整個規(guī)劃。有人摔倒了...分布式系統(tǒng)的挑戰(zhàn)挑戰(zhàn):動態(tài)環(huán)境下的不確定性草地不平整,地上有石頭,也許天上還會下雨你需要解決什么問題?你的業(yè)務(wù)需求是什么,性能需求是什么?沒有最優(yōu)的技術(shù),只有最優(yōu)的選擇!6.與傳統(tǒng)數(shù)據(jù)倉庫工具相比ODPS有那些優(yōu)勢?
處理能力強(qiáng)大:客戶都曾經(jīng)購買使用過傳統(tǒng)數(shù)據(jù)倉庫技術(shù)解決方案,但是都無法適應(yīng)劇烈膨脹的數(shù)據(jù)規(guī)模。
成本低廉,伸縮靈活:由于云計算的業(yè)務(wù)特點(diǎn),用戶可以根據(jù)自己的實際需求租用相應(yīng)的計算能力。同時節(jié)省昂貴的運(yùn)營費(fèi)用。7.ODPS有怎樣的發(fā)展?國內(nèi)唯一的大數(shù)據(jù)云服務(wù)平臺,真正的數(shù)據(jù)分享平臺數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)分享阿里集團(tuán)內(nèi)部使用的統(tǒng)一數(shù)據(jù)處理平臺,支持阿里貸款、數(shù)據(jù)魔方、DMP(阿里巴巴廣告聯(lián)盟)、余額寶等多款產(chǎn)品ODPS規(guī)模單一集群規(guī)模可以達(dá)到10000+服務(wù)器(保持80%線性擴(kuò)展)單個ODPS部署可以支持100萬服務(wù)器以上,無限制(線性擴(kuò)展略差),支持同城、異地多數(shù)據(jù)中心模式10000+用戶數(shù),1000+項目應(yīng)用、100+部門(多租戶)100萬以上作業(yè)(目前單日平均提交任務(wù)),20000以上并發(fā)作業(yè)參考:與數(shù)據(jù)分析有關(guān)的云服務(wù)Splunk /splunk/index.htmPentaho /Jaspersoft /SumoLogic /Connotate /Inrix /Tableau /MetaMarkets /DataSift /Data
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林師范大學(xué)《視覺設(shè)計基礎(chǔ)》2021-2022學(xué)年第一學(xué)期期末試卷
- 吉林師范大學(xué)《行書理論與技法I》2021-2022學(xué)年第一學(xué)期期末試卷
- 中醫(yī)藥法與現(xiàn)代醫(yī)療結(jié)合的總結(jié)
- 幼兒園文化建設(shè)與推廣制度
- 吉林大學(xué)《消費(fèi)行為學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- 幼兒園食品安全教育活動總結(jié)
- 2024藥店合作合同協(xié)議書
- 跨國企業(yè)財務(wù)管理制度合規(guī)性研究
- 2024活動委托合同(模板)
- 八年級下學(xué)期家長會發(fā)言稿:教育理念分享
- 管轄權(quán)異議申請書電子版下載
- 論文評審意見范文(通用7篇)
- 《當(dāng)代教育心理學(xué)》(第3版)配套題庫考研真題+章節(jié)題庫
- 2011深圳市公務(wù)員錄用考試《行測》真題
- 學(xué)校校園欺凌師生訪談記錄表六篇
- 基因測試題樣本
- 2023年度軍隊文職《教育學(xué)》真題庫(含答案)
- 電氣安全管理程序
- 全國教育期刊雜志社網(wǎng)址投稿郵箱電話地址一覽
- GB/T 11836-2023混凝土和鋼筋混凝土排水管
- 第三章 繼承優(yōu)良傳統(tǒng) 弘揚(yáng)中國精神
評論
0/150
提交評論