




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
主講:張義目錄0102Shuffle參數(shù)總結(jié)壓縮和shuffle0302選擇合適的轉(zhuǎn)換(運(yùn)算)04使用廣播變量避免shuffleShuffle參數(shù)總結(jié)1Shuffle參數(shù)總結(jié)與Spark的其余配置一樣,當(dāng)配置shuffle行為時,可以設(shè)置很多參數(shù)。主要的shuffle相關(guān)配置參數(shù)總結(jié)如下。如果要限制從每個reduce任務(wù)同時獲取map輸出的固定內(nèi)存開銷,可以設(shè)置spark.reducer.maxSizeInFlight屬性。默認(rèn)值為48MB,這里的建議是當(dāng)Spark內(nèi)存有限時設(shè)置一個較小的值??梢酝ㄟ^設(shè)置spark.shuffle.file.buffer屬性來優(yōu)化創(chuàng)建中間shuffle文件期間的磁盤查找和系統(tǒng)調(diào)用次數(shù)。此參數(shù)的默認(rèn)值為32KB,表示shuffle文件輸出流的內(nèi)存緩沖區(qū)的大小。Shuffle參數(shù)總結(jié)在shuffle的上下文中有兩個與壓縮有關(guān)的屬性,在默認(rèn)情況下它們均被設(shè)置為true。-press:指定Spark是否壓縮map輸出文件。-press:指定是否壓縮shuffle期間溢出的數(shù)據(jù)。壓縮和shuffle2壓縮和shuffleSpark的map作業(yè)將它們的shuffle操作寫入一個shuffle文件。shuffle文件的數(shù)量與map的總數(shù)乘以reducer的數(shù)量所得結(jié)果相同??梢酝ㄟ^將press屬性設(shè)置為true來減少shuffle文件的數(shù)量。壓縮和shuffle一旦map階段完成,Spark的reduce階段就會開始,而reducers會拉取shuffle數(shù)據(jù)。可以通過配置spark.reducer.maxSizeInFlight參數(shù)來控制網(wǎng)絡(luò)緩沖區(qū)大小,以使map輸出到reducer??梢栽趍ap和reduce階段之間添加中間合并階段,以減少輸出和shuffle文件的數(shù)量。通過將spark.shuffleconsolidateFiles屬性設(shè)置為true,可以引入shuffle文件合并。這樣,shuffle文件的數(shù)量會更少,因為此時的數(shù)量等于每個內(nèi)核的reducer數(shù),而不是每個map的reducer數(shù)。選擇合適的轉(zhuǎn)換(運(yùn)算)3選擇合適的轉(zhuǎn)換(運(yùn)算)shuffle對于磁盤和網(wǎng)絡(luò)I/О來說都是昂貴的。應(yīng)該選擇一系列的運(yùn)算,以最小化shuffle的次數(shù)以及我們無法避免的任何shuffle操作所需的數(shù)據(jù)量。通常,可以選擇多個運(yùn)算和轉(zhuǎn)換來獲取結(jié)果。然而,各種運(yùn)算并非都是平等的,運(yùn)算的選擇可能對性能有重要的影響。使用廣播變量避免shuffle4使用廣播變量避免shuffle當(dāng)加入兩個數(shù)據(jù)集時,可以通過使用廣播變量來避免shuffle。在Spark中,廣播值意味著所有的集群節(jié)點(diǎn)都將擁有該值。如果正在處理每個執(zhí)行器所需的小型查找表或map,則廣播是一種有效的處理,這是一個很好的做法。一個小的查找表完全可以適應(yīng)執(zhí)行器的內(nèi)存,Spark可以將其加載到哈希表(在驅(qū)動程序中),并將其廣播到集群中的所有執(zhí)行器。在執(zhí)行器上運(yùn)行的轉(zhuǎn)換可以引用這個哈希表進(jìn)行查找,從而避免昂貴的shuffle操作。使用廣播變量避免shuffleSpark使用兩種類型的共享變量:廣播變量和累加器。它們各自用于不同的目的。當(dāng)應(yīng)用程序由大量需要訪問相同變量的任務(wù)組成時,可以考慮使用廣播變量。廣播變量是在集群中分發(fā)大量數(shù)據(jù)的方式,因此任務(wù)可以共享這些變量,這還免去了復(fù)制數(shù)據(jù)的開銷。廣播變量是Spark在所有節(jié)點(diǎn)的內(nèi)存中緩存的共享只讀值,而不是在每個任務(wù)中復(fù)制這些值,Spark讓任務(wù)共享該值,其在集群的每個節(jié)點(diǎn)上僅存儲一次。副本的數(shù)量不取決于分區(qū)的數(shù)量(分區(qū)的數(shù)量取決于節(jié)點(diǎn)的數(shù)量)。由于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年舞蹈生韌性測試題及答案
- 威海市2024-2025學(xué)年高二上學(xué)期期末考試語文試題(含答案詳解)
- 2025年階位認(rèn)定測試題及答案
- 2025年急診科規(guī)培試題及答案
- 主管護(hù)師外科練習(xí)卷附答案
- 保育師中級復(fù)習(xí)測試有答案
- 2025年數(shù)字藏品面試題及答案
- 工業(yè)分析與檢驗練習(xí)試題附答案
- 2025年二模中國近代試題及答案
- 2025年復(fù)試如何做筆試題及答案
- 高中數(shù)學(xué)圓錐曲線知識點(diǎn)總結(jié)
- 第14章歐姆定律復(fù)習(xí)說課稿 2022-2023學(xué)年蘇科版九年級物理上冊
- 技術(shù)部出差申請單(模版)
- 化妝品功效評價
- 【眼科學(xué)基礎(chǔ)】眼科癥狀學(xué)
- 4.與食品經(jīng)營相適應(yīng)的主要設(shè)備設(shè)施布局操作流程等文件
- 固定污染源煙氣排放連續(xù)監(jiān)測技術(shù)規(guī)范(HJ 75-2017)考試題
- 2022年4月天津高考英語試題-(第一次)
- 私人房屋抵押借條
- 2023年全球造紙化學(xué)品發(fā)展空間放大
- 手拉葫蘆安全使用培訓(xùn)課件
評論
0/150
提交評論