2023學(xué)年完整公開課版大數(shù)據(jù)存儲(chǔ)_第1頁
2023學(xué)年完整公開課版大數(shù)據(jù)存儲(chǔ)_第2頁
2023學(xué)年完整公開課版大數(shù)據(jù)存儲(chǔ)_第3頁
2023學(xué)年完整公開課版大數(shù)據(jù)存儲(chǔ)_第4頁
2023學(xué)年完整公開課版大數(shù)據(jù)存儲(chǔ)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)存儲(chǔ)2知識目標(biāo)大數(shù)據(jù)存儲(chǔ)技術(shù)路線數(shù)據(jù)倉庫的重要性數(shù)據(jù)處理技術(shù)的核心問題01能力目標(biāo)了解大數(shù)據(jù)存儲(chǔ)技術(shù)路線掌握數(shù)據(jù)處理技術(shù)的核心問題02學(xué)習(xí)目標(biāo)3學(xué)習(xí)任務(wù)了解大數(shù)據(jù)存儲(chǔ)技術(shù)路線初步探索數(shù)據(jù)倉庫初步數(shù)據(jù)處理技術(shù)的核心問題4目錄01大數(shù)據(jù)存儲(chǔ)技術(shù)路線02數(shù)據(jù)倉庫的重要性03數(shù)據(jù)處理技術(shù)核心問題大數(shù)據(jù)存儲(chǔ)技術(shù)路線5采用MPP架構(gòu)的新型數(shù)據(jù)庫集群,重點(diǎn)面向行業(yè)大數(shù)據(jù),采用SharedNothing架構(gòu),通過列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)高效的分布式計(jì)算模式,完成對分析類應(yīng)用的支撐,運(yùn)行環(huán)境多為低成本PCServer,具有高性能和高擴(kuò)展性的特點(diǎn),在企業(yè)分析類應(yīng)用領(lǐng)域獲得極其廣泛的應(yīng)用大數(shù)據(jù)存儲(chǔ)技術(shù)路線6圍繞Hadoop衍生出相關(guān)的大數(shù)據(jù)技術(shù),應(yīng)對傳統(tǒng)關(guān)系型數(shù)據(jù)庫較難處理的數(shù)據(jù)和場景,例如針對非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算等,充分利用Hadoop開源的優(yōu)勢,伴隨相關(guān)技術(shù)的不斷進(jìn)步,其應(yīng)用場景也將逐步擴(kuò)大,目前最為典型的應(yīng)用場景就是通過擴(kuò)展和封裝Hadoop來實(shí)現(xiàn)對互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析的支撐。這里面有幾十種NoSQL技術(shù),也在進(jìn)一步的細(xì)分。對于非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)處理、復(fù)雜的ETL流程、復(fù)雜的數(shù)據(jù)挖掘和計(jì)算模型,Hadoop平臺更擅長。7數(shù)據(jù)倉庫的重要性在互聯(lián)網(wǎng)高速發(fā)展之前,無論是電信運(yùn)營商,還是大銀行,保險(xiǎn)公司等都花費(fèi)了巨額資金建立了自己的企業(yè)級數(shù)據(jù)倉庫。這些倉庫主要是為企業(yè)決策者生成企業(yè)的一些關(guān)鍵指標(biāo)(KPI),有的企業(yè)有幾千張、甚至上萬張KPI報(bào)表,有日表,周表,月表等等。這些系統(tǒng)有幾個(gè)主要特征:技術(shù)架構(gòu)主要基于傳統(tǒng)RDBMS+小型機(jī)+高端陣列(就是大家說的IOE),當(dāng)然數(shù)據(jù)庫有部分DB2,Teradata等。8數(shù)據(jù)倉庫的重要性報(bào)表基本都是固定的靜態(tài)報(bào)表,產(chǎn)生的方式是T+1(無法即時(shí)產(chǎn)生)數(shù)據(jù)量增長相對緩慢,DW的環(huán)境變化很少。最終用戶只能看匯總的報(bào)表,很少能夠基于匯總數(shù)據(jù)做動(dòng)態(tài)drilldown(鉆?。?。多數(shù)領(lǐng)導(dǎo)基本上認(rèn)為花了很多錢,但看不出是否值得做,有雞肋的感覺。最后大家對大量的報(bào)表都視而不見了。9數(shù)據(jù)處理技術(shù)的核心問題10總結(jié)-新型MPP數(shù)據(jù)庫的價(jià)值技術(shù):基于列存儲(chǔ)+MPP架構(gòu)的新型數(shù)據(jù)庫在核心技術(shù)上跟傳統(tǒng)數(shù)據(jù)庫有巨大差別,是為面向結(jié)構(gòu)化數(shù)據(jù)分析設(shè)計(jì)開發(fā)的,能夠有效處理PB級別的數(shù)據(jù)量。在技術(shù)上為很多行業(yè)用戶解決了數(shù)據(jù)處理性能問題。用戶價(jià)值:新型數(shù)據(jù)庫是運(yùn)行在x-86PC服務(wù)器之上的,可以大大降低數(shù)據(jù)處理的成本(1個(gè)數(shù)量級)。11總結(jié)-新型MPP數(shù)據(jù)庫的價(jià)值未來趨勢:新型數(shù)據(jù)庫將逐步與Hadoop生態(tài)系統(tǒng)結(jié)合混搭使用,用MPP處理PB級別的、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),同時(shí)為應(yīng)用提供豐富的SQL和事務(wù)支持能力;用Hadoop實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理。這樣可同時(shí)滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理需求。12數(shù)據(jù)處理技術(shù)的核心問題大數(shù)據(jù)需要多元化的技術(shù)來支撐。當(dāng)前數(shù)據(jù)處理對企業(yè)的挑戰(zhàn)越來越大,主要是下面幾個(gè)原因:第一個(gè)原因是數(shù)據(jù)量已經(jīng)是上一代的一個(gè)數(shù)量級了,1個(gè)省份級運(yùn)營商1年就可超越1PB結(jié)構(gòu)化數(shù)據(jù)。第二個(gè)原因是“大數(shù)據(jù)”關(guān)注的更多是用戶行為、群體趨勢、事件之間的相關(guān)性等,而不僅僅是過去的KPI,。這就對數(shù)據(jù)分析平臺對數(shù)據(jù)的分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論