![Redshift Spectrum架構(gòu)介紹及最佳實(shí)踐_第1頁(yè)](http://file4.renrendoc.com/view/c5dc9c7f33c1384d83da1271349f307e/c5dc9c7f33c1384d83da1271349f307e1.gif)
![Redshift Spectrum架構(gòu)介紹及最佳實(shí)踐_第2頁(yè)](http://file4.renrendoc.com/view/c5dc9c7f33c1384d83da1271349f307e/c5dc9c7f33c1384d83da1271349f307e2.gif)
![Redshift Spectrum架構(gòu)介紹及最佳實(shí)踐_第3頁(yè)](http://file4.renrendoc.com/view/c5dc9c7f33c1384d83da1271349f307e/c5dc9c7f33c1384d83da1271349f307e3.gif)
![Redshift Spectrum架構(gòu)介紹及最佳實(shí)踐_第4頁(yè)](http://file4.renrendoc.com/view/c5dc9c7f33c1384d83da1271349f307e/c5dc9c7f33c1384d83da1271349f307e4.gif)
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 Redshift Spectrum 架構(gòu)介紹及最佳實(shí)踐隨著數(shù)據(jù)存儲(chǔ)技術(shù)的快速發(fā)展,眾多企業(yè)客戶可以以低成本存儲(chǔ) PB 級(jí)別甚者 EB 級(jí)別的數(shù)據(jù)。這使得大數(shù)據(jù)分析在近幾年來(lái)不但成為現(xiàn)實(shí)而且愈發(fā)火熱。然而真正實(shí)現(xiàn)海量數(shù)據(jù)的分析既要有存儲(chǔ)海量數(shù)據(jù)的資源,又要有足夠強(qiáng)大的分析能力。近年來(lái),我們看到數(shù)據(jù)分析能力的發(fā)展并沒有追趕上存儲(chǔ)技術(shù)的發(fā)展速度 ?,F(xiàn)實(shí)中企業(yè)客戶雖然有了可以收集并存儲(chǔ)大量數(shù)據(jù)的能力,但很多數(shù)據(jù)并不能被有效的分析甚至根本未作任何分析,形成了所謂的暗數(shù)據(jù)。這使得數(shù)據(jù)分析能力成為實(shí)現(xiàn)大數(shù)據(jù)分析的真正瓶頸。作為一個(gè)托管的數(shù)據(jù)倉(cāng)庫(kù)服務(wù),Amazon Redshift 從它發(fā)布至今已經(jīng)幫助全球
2、成千上萬(wàn)的客戶解決了 PB 級(jí)別數(shù)據(jù)的分析能力,實(shí)現(xiàn)了復(fù)雜 SQL 的快速查詢。但隨著數(shù)據(jù)的飛速增長(zhǎng),我們看到越來(lái)越多的客戶數(shù)據(jù)開始逼近 EB 級(jí)別。對(duì)于這樣體量的大數(shù)據(jù),雖然 Redshift 也可以支持快速的復(fù)雜 SQL 查詢,但畢竟我們需要啟動(dòng)更多的 Redshift 集群,消耗更多的 CPU 和存儲(chǔ)成本,同時(shí)還要付出更多的數(shù)據(jù)加載時(shí)間。相反如果我們?yōu)榱斯?jié)省資源和成本把數(shù)據(jù)放在 S3 上,通過(guò) EMR 集群也可以實(shí)現(xiàn)快速低成本的數(shù)據(jù)清理,但針對(duì)復(fù)雜的(諸如 Join 類)的查詢速度會(huì)很慢,不能很好支持。這形成了一個(gè)魚與熊掌不可兼得的選擇題。為了真正擺脫數(shù)據(jù)分析的瓶頸、消滅暗數(shù)據(jù),我們的客
3、戶需要既能高效執(zhí)行復(fù)雜的查詢,又能享受高度可擴(kuò)展的數(shù)據(jù)并行處理,也能利用近乎無(wú)限的、低成本的 S3 存儲(chǔ)資源,還要可以支持多種常用的數(shù)據(jù)格式。滿足這種”既又也還”的任性就是我們的新服務(wù)Redshift Spectrum的使命。Redshift Spectrum 介紹Redshift Spectrum 可以幫助客戶通過(guò) Redshift 直接查詢 S3 中的數(shù)據(jù)。如同 Amazon EMR,通過(guò) Redshift Spectrum 客戶可以方便的使用多種開放數(shù)據(jù)格式并享有低廉的存儲(chǔ)成本,同時(shí)還可以輕松擴(kuò)展到上千個(gè)計(jì)算節(jié)點(diǎn)實(shí)現(xiàn)數(shù)據(jù)的提取、篩選、投影、聚合、group、排序等等操作。Redshift
4、 Spectrum 采用了無(wú)服務(wù)器架構(gòu),所以客戶不需要額外配置或管理任何資源,而只需為 Redshift Spectrum 的用量付費(fèi)。使用方面,Redshift Spectrum 享有和 Amazon Redshift 一樣的復(fù)雜查詢的優(yōu)化機(jī)制、本地?cái)?shù)據(jù)的快速讀取以及對(duì)標(biāo)準(zhǔn) SQL 的支持。結(jié)合上述功能特點(diǎn),Redshift Spectrum 可以在幾分鐘內(nèi)完成對(duì) EB 級(jí)別的數(shù)據(jù)的復(fù)雜查詢,這使它在眾多大數(shù)據(jù)分析服務(wù)中脫穎而出。我們做了一個(gè)實(shí)驗(yàn),在對(duì)一個(gè) EB 的數(shù)據(jù)做涉及四個(gè)表的 join、filter 和 group 的查詢時(shí),1000個(gè)節(jié)點(diǎn)的 Hive 集群預(yù)估需要耗時(shí)5年,而 Re
5、dshift Spectrum只用了173秒。另外 Redshift Spectrum 是 Amazon Redshift 的一個(gè)內(nèi)置功能,所以使用 Redshift Spectrum 對(duì) Redshift 客戶現(xiàn)有的查詢服務(wù)和 BI 工具不會(huì)有任何影響。在 Redshift Spectrum 的底層,我們負(fù)責(zé)管理著成千上萬(wàn)的跨多個(gè)可用區(qū)的計(jì)算節(jié)點(diǎn)。這些節(jié)點(diǎn)根據(jù)客戶查詢?nèi)蝿?wù)的復(fù)雜度和數(shù)據(jù)量實(shí)現(xiàn)透明的擴(kuò)展和分配,前端的客戶無(wú)需做任何資源部署和配置。Redshift Spectrum 也很好的支持了高并發(fā) 客戶可以通過(guò)任何多個(gè) Amazon Redshift 集群同時(shí)訪問(wèn) S3 上的數(shù)據(jù)。Reds
6、hift Spectrum 上一個(gè)查詢?nèi)蝿?wù)的生命周期一切從 Redshift Spectrum 的查詢?nèi)蝿?wù)提交給 Amazon Redshift 集群的領(lǐng)導(dǎo)節(jié)點(diǎn)開始。首先,領(lǐng)導(dǎo)節(jié)點(diǎn)負(fù)責(zé)優(yōu)化、編譯、并推送查詢?nèi)蝿?wù)給 Amazon Redshift 集群的計(jì)算節(jié)點(diǎn)。然后,計(jì)算節(jié)點(diǎn)從外部表獲得數(shù)據(jù)目錄,并基于查詢?nèi)蝿?wù)里的 join 和 filter 動(dòng)態(tài)移除不相關(guān)的數(shù)據(jù)分區(qū)。這些計(jì)算節(jié)點(diǎn)同時(shí)也會(huì)檢測(cè)在 Redshift 本地是否已有部分查詢數(shù)據(jù),從而只從 S3上 掃描本地沒有的數(shù)據(jù)以提升效率。接下來(lái),Amazon Redshift 的計(jì)算節(jié)點(diǎn)會(huì)基于需要處理的數(shù)據(jù)對(duì)象生成多個(gè)查詢需求,并行提交給 Re
7、dshift Spectrum、Redshift Spectrum 再據(jù)此啟動(dòng)上千個(gè)工作線程。 這些工作線程進(jìn)一步從 S3 上掃描、篩選并聚合數(shù)據(jù),將處理好的結(jié)果數(shù)據(jù)傳回 Amazon Redshift 集群。最后,傳回的結(jié)果數(shù)據(jù)在 Redshift 集群本地作 join 和 merge 操作,然后將最終結(jié)果返回給客戶。Redshift Spectrum 的優(yōu)勢(shì)Redshift Spectrum 的架構(gòu)設(shè)計(jì)有很多優(yōu)勢(shì)。第一,剝離計(jì)算與 S3 上的存儲(chǔ),使計(jì)算資源可以獨(dú)立彈性擴(kuò)展。第二,大幅提升了并發(fā)效率,因?yàn)榭蛻艨梢杂枚鄠€(gè) Redshift 集群訪問(wèn)同一組 S3 上的數(shù)據(jù)。第三, Redshift Spectrum 沿用了 Amazon Redshift 的查詢優(yōu)化機(jī)制,可以生成高效的查詢規(guī)劃,即便面對(duì)諸如多表 join 或者帶統(tǒng)計(jì)函數(shù)(window function)的復(fù)雜查詢也能勝任。第四,可以對(duì)多種格式的數(shù)據(jù)源直接查詢 Parquet, RCFile, CSV, TSV, Sequence, Avro, RegexSerDe 等等。這意味著我們無(wú)需再做數(shù)據(jù)加載和轉(zhuǎn)化,同時(shí)也消除了存儲(chǔ)重復(fù)數(shù)據(jù)帶來(lái)的成本浪費(fèi)。第五,通過(guò)對(duì)開放數(shù)據(jù)格式的支持,客戶的不同團(tuán)隊(duì)也可以借助其他的 AWS 服務(wù)訪問(wèn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度腳手架施工安全教育與培訓(xùn)服務(wù)合同
- 2025年度交換機(jī)產(chǎn)品市場(chǎng)推廣與品牌建設(shè)合同
- 2025年度物流園區(qū)運(yùn)營(yíng)管理合同樣本下載
- 重慶2025年重慶市涪陵區(qū)教育事業(yè)單位面向應(yīng)屆公費(fèi)師范生招聘75人筆試歷年參考題庫(kù)附帶答案詳解
- 部分學(xué)校上學(xué)期期中考試八年級(jí)語(yǔ)文試卷(PDF版無(wú)答案)
- 漯河2024年河南漯河市審計(jì)局事業(yè)單位引進(jìn)高層次人才2人筆試歷年參考題庫(kù)附帶答案詳解
- 漯河2024年河南漯河市中醫(yī)院招聘高層次人才5人筆試歷年參考題庫(kù)附帶答案詳解
- 浙江2025年浙江省數(shù)據(jù)局下屬事業(yè)單位招聘3人筆試歷年參考題庫(kù)附帶答案詳解
- 泰州江蘇泰州靖江市機(jī)關(guān)企事業(yè)單位勞務(wù)派遣管理服務(wù)中心招聘筆試歷年參考題庫(kù)附帶答案詳解
- 河南2024年河南信陽(yáng)師范大學(xué)招聘碩士研究生42人筆試歷年參考題庫(kù)附帶答案詳解
- 慢阻肺試題練習(xí)
- 人工智能在生物醫(yī)學(xué)倫理與法律中的基因編輯與生命倫理問(wèn)題研究
- 饅頭制作過(guò)程
- 大數(shù)據(jù)與能源經(jīng)濟(jì)分析
- 國(guó)有資產(chǎn)管理辦法-國(guó)有資產(chǎn)管理辦法條例
- 公務(wù)車輛定點(diǎn)維修車輛保養(yǎng)(附彩圖) 投標(biāo)方案
- 00015-英語(yǔ)二自學(xué)教程-unit3
- 淺談第三方物流的倉(cāng)儲(chǔ)管理
- 第二章共混改性基本原理
- 乳腺專業(yè)知識(shí)課件
- 碳納米管及其應(yīng)用課件
評(píng)論
0/150
提交評(píng)論