




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
云環(huán)境下優(yōu)化科學工作流執(zhí)行性能的
兩階段數(shù)據(jù)放置與任務調(diào)度策略姓名:張燦云環(huán)境下優(yōu)化科學工作流執(zhí)行性能的
兩階段數(shù)據(jù)放置與任務調(diào)度策1摘要云環(huán)境中跨數(shù)據(jù)中心科學工作流的高效執(zhí)行通常面臨數(shù)據(jù)交互量大的問題。本文給出基于相關(guān)度的兩階段高效數(shù)據(jù)放置策略和任務調(diào)度策略。最終通過實驗表明,該策略能有效減少跨數(shù)據(jù)中心科學工作流執(zhí)行時的數(shù)據(jù)傳輸量,從而能有效提升科學工作流的執(zhí)行效率,并能減少資源的租賃費用。摘要云環(huán)境中跨數(shù)據(jù)中心科學工作流的高效執(zhí)行通常面臨數(shù)據(jù)交互量2主要內(nèi)容一、引言二、相關(guān)工作三、科學工作流形式化描述和問題分析四、基于相關(guān)度的兩階段數(shù)據(jù)放置與任務調(diào)度策略五、實驗分析六、結(jié)論與展望主要內(nèi)容一、引言3一、引言在眾多科學研究領(lǐng)域中,科學計算過程往往由成千上萬個步驟構(gòu)成,這往往需要對TB甚至PB量級的數(shù)據(jù)進行分析和處理。在過去,科學家通常使用簡單的方法編排任務以及管理數(shù)據(jù),但是這種方式不僅耗時而且容易出錯。科學工作流系統(tǒng)開始受到關(guān)注并被用來進行自動化科學任務的編排、執(zhí)行、監(jiān)控以及追蹤。隨著問題求解規(guī)模的增大,當今大型科學工作流通常需要在復雜的分布式計算機系統(tǒng)上執(zhí)行。構(gòu)造這樣的系統(tǒng)往往需要付出異常昂貴的代價,申請訪問這些系統(tǒng)也需要復雜耗時的過程。云計算技術(shù)提供共享基礎(chǔ)架構(gòu)的方法,通過這種方式,云計算中心可以提供高性能的計算資源和海量的存儲資源,而且成本低廉,使用簡單。一、引言在眾多科學研究領(lǐng)域中,科學計算過程往往由成千上萬個步4科學工作流任務間存在較強的數(shù)據(jù)依賴關(guān)系,其執(zhí)行往往需要頻繁對跨數(shù)據(jù)中心的數(shù)據(jù)集進行傳輸和訪問,不合理的數(shù)據(jù)放置和任務調(diào)度策略容易導致數(shù)據(jù)中心間數(shù)據(jù)傳輸量和訪問量過大:增加用戶使用云資源的費用,嚴重影響了科學工作流的執(zhí)行效率。研究基于云環(huán)境的高效數(shù)據(jù)放置策略和任務調(diào)度策略對減少跨數(shù)據(jù)中心數(shù)據(jù)傳輸量、提升科學工作流執(zhí)行性能、減少用戶費用等方面具有重要意義。科學工作流任務間存在較強的數(shù)據(jù)依賴關(guān)系,其執(zhí)行往往需要頻繁對5本文通過分析科學工作流數(shù)據(jù)集之間的依賴關(guān)系、數(shù)據(jù)集和數(shù)據(jù)中心之間的相關(guān)度以及任務和數(shù)據(jù)中心之間的相關(guān)度,提出了一種云平臺下基于相關(guān)度的兩階段高效數(shù)據(jù)放置策略。根據(jù)數(shù)據(jù)依賴關(guān)系圖在工作流建立階段將關(guān)系緊密的數(shù)據(jù)集放置到同一個數(shù)據(jù)中心,將關(guān)系松散的數(shù)據(jù)集放置在不同數(shù)據(jù)中心。任務調(diào)度策略在運行階段將任務調(diào)度到數(shù)據(jù)依賴最大的數(shù)據(jù)中心執(zhí)行,并將新產(chǎn)生數(shù)據(jù)集放置到相關(guān)度最高的數(shù)據(jù)中心。實驗表明:本文提出的策略不但極大地減少了數(shù)據(jù)中心間的數(shù)據(jù)移動量,提高了工作流任務的并行執(zhí)行效率,同時也節(jié)省了用戶的云資源使用費用。本文通過分析科學工作流數(shù)據(jù)集之間的依賴關(guān)系、數(shù)據(jù)集和數(shù)據(jù)中心6本文的貢獻主要表現(xiàn)在以下幾個方面:在科學工作流建立階段,提出了基于數(shù)據(jù)依賴的初始化數(shù)據(jù)布局方法,充分挖掘數(shù)據(jù)相關(guān)性,使得數(shù)據(jù)布局盡可能的符合使用規(guī)則,同一個任務所需數(shù)據(jù)集最大規(guī)模地聚集在一個數(shù)據(jù)中心。在科學工作流運行階段,提出一種相應的任務調(diào)度策略,將任務調(diào)度到所需數(shù)據(jù)集規(guī)模最大的數(shù)據(jù)中心上,減少數(shù)據(jù)中心之間的數(shù)據(jù)傳輸量,加快科學工作流執(zhí)行速度。針對任務執(zhí)行過程中產(chǎn)生的中間數(shù)據(jù)集,本文利用數(shù)據(jù)集之間的關(guān)系,通過量化計算將它們放置到合適的數(shù)據(jù)中心,使得后續(xù)的任務調(diào)度與執(zhí)行能夠快速展開。本文的貢獻主要表現(xiàn)在以下幾個方面:7二、相關(guān)工作Pegasus工作流數(shù)據(jù)放置策略:它首先預先分配數(shù)據(jù)到執(zhí)行任務的計算單元,這樣可以加快任務的執(zhí)行速度,降低任務等待時間;然后動態(tài)地刪除那些不會被后續(xù)任務使用的數(shù)據(jù),以減少存儲開銷。這種策略只是保證了數(shù)據(jù)傳輸?shù)目煽啃院陀行裕]有考慮到云計算環(huán)境下因為數(shù)據(jù)交互引起的跨數(shù)據(jù)中心之間的傳輸開銷。副本機制它使用改進后的貪婪算法和經(jīng)過優(yōu)化的遺傳算法計算副本的最佳放置策略,并利用基于Web服務的數(shù)據(jù)網(wǎng)絡系統(tǒng)ADPPS產(chǎn)生工作流來進行實驗驗證。為了減少數(shù)據(jù)傳輸開銷,但數(shù)據(jù)集副本機制增加了存儲開銷。該策略主要針對網(wǎng)絡環(huán)境下多節(jié)點之間的數(shù)據(jù)傳輸而非針對云計算平臺上多數(shù)據(jù)中心之間的數(shù)據(jù)傳輸,并沒有考慮到數(shù)據(jù)之間存在相關(guān)性和依賴關(guān)系。二、相關(guān)工作Pegasus工作流副本機制8BitDew由用戶定義數(shù)據(jù)間的依賴關(guān)系,但并沒有利用數(shù)據(jù)間的依賴關(guān)系減少傳輸開銷。Sector/Sphere是由Gu等人設計和實現(xiàn)一種分布式文件系統(tǒng)該系統(tǒng)中數(shù)據(jù)集是規(guī)模龐大的若干未分塊(non-block)的文件集合。Sphere通過設置目錄和文件樹將文件按照數(shù)據(jù)局部性原則聚合起來,同時使用高速傳輸協(xié)議UDT和文件副本減少傳輸延遲。實驗結(jié)果表明,該系統(tǒng)比Hadoop處理數(shù)據(jù)要快2~4倍,但Sphere只是根據(jù)任務來聚集數(shù)據(jù),并沒有對數(shù)據(jù)之間的關(guān)系進行仔細分析利用。Nephele項目是現(xiàn)有的第一個數(shù)據(jù)處理框架,注重發(fā)掘在任務的調(diào)度、執(zhí)行過程中IaaS云環(huán)境下資源的動態(tài)分配,有效地減少了資源使用開銷,卻沒有減少數(shù)據(jù)傳輸開銷。BitDew由用戶定義數(shù)據(jù)間的依賴關(guān)系,但并沒有利用數(shù)據(jù)間的9聚類矩陣的數(shù)據(jù)放置策略:用于多數(shù)據(jù)中心之間數(shù)據(jù)集的放置。該方法的數(shù)據(jù)放置策略分為兩步,在科學工作流建立階段:構(gòu)建一個相關(guān)度矩陣。通過BEA算法得到聚類矩陣。通過該矩陣將所有數(shù)據(jù)集劃分為K個集合。科學工作流執(zhí)行階段,在考慮存儲條件滿足的情況下,新產(chǎn)生的數(shù)據(jù)集被放置在與它相關(guān)度最大的數(shù)據(jù)中心上。實驗表明,該方法可以有效減少跨據(jù)中心之間的數(shù)據(jù)移動次數(shù)。但這種方法并未考慮移動的數(shù)據(jù)大小,如果移動次數(shù)較少,但所移動的數(shù)據(jù)太大,傳輸開銷不一定降低,導致科學工作流的執(zhí)行效率反而下降。聚類矩陣的數(shù)據(jù)放置策略:用于多數(shù)據(jù)中心之間數(shù)據(jù)集的放置。10三、科學工作流形式化描述和問題分析
3.1相關(guān)模型和符號定義定義1數(shù)據(jù)中心設為DC=dci=〈capi,csi,λini〉表示編號為i數(shù)據(jù)中心,capi表示dci的計算能力,并用執(zhí)行同一任務所需的時間的倒數(shù)來量化表示,并假設該值保持不變;csi表示dci的存儲空間大?。沪薸ni表示在科學工作流建立階段,數(shù)據(jù)中心可以使用的存儲空間的比例。因為科學工作流執(zhí)行過程中產(chǎn)生的中間數(shù)據(jù)有可能規(guī)模龐大,因此在原始數(shù)據(jù)分配階段要留有一定的空間來存儲中間數(shù)據(jù),所以0<λini<1。λini是一個經(jīng)驗值,它的大小取決于科學工作流的性質(zhì)。三、科學工作流形式化描述和問題分析3.1相關(guān)模型和符號定11定義2原始數(shù)據(jù)集設為DSini={d1,d2,d3…}DSini表示在科學工作流建立時所存在的數(shù)據(jù)集,即所有原始輸入。中間數(shù)據(jù)集設為DSgen={d1,d2,d3…}DSgen表示在科學工作流執(zhí)行過程中所產(chǎn)生的數(shù)據(jù)集。固定數(shù)據(jù)集和非固定數(shù)據(jù)集分別設為FD和NFD.FD表示必須放置在固定數(shù)據(jù)中心的數(shù)據(jù)集,這是因為某些數(shù)據(jù)需要特定數(shù)據(jù)中心的特定設備才能處理,或者某些數(shù)據(jù)具有私有性和產(chǎn)權(quán)性.NFD表示沒有固定數(shù)據(jù)中心的數(shù)據(jù)集,這是相對FD而言。定義3T={t1,t2,t3…}表示在科學工作流上運行的任務集,每一個任務執(zhí)行都需要若干數(shù)據(jù)集作為輸入。定義4di=〈Ti,si,dci,fix_flag,deplink〉di表示科學工作流中編號為i的數(shù)據(jù)集。Ti={t1,t2,t3…}表示使用di的任務集合;si表示數(shù)據(jù)集的大小;dci表示di所對應的數(shù)據(jù)中心;fix_flag為true表示di是固定數(shù)據(jù),反之則為非固定數(shù)據(jù);deplink是一個鏈表。定義2原始數(shù)據(jù)集設為DSini={d1,d2,d3…}123.2實例分析與問題說明圖1(a)給出了一個科學工作流的例子,該科學工作流包含5個子任務{t1,t2,t3,t4,t5},5個輸入數(shù)據(jù)集{d1,d2,d3,d4_f,d5}和一個中間數(shù)據(jù)集{d6},其中{d4_f}是dc2上的固定數(shù)據(jù)集,不能移動。3.2實例分析與問題說明圖1(a)給出了一個科學工作流的例13以圖1為例,科學工作流的數(shù)據(jù)放置策略需要考慮以下幾點:(1)數(shù)據(jù)相關(guān)對科學工作流的影響??茖W工作流運行中數(shù)據(jù)集和任務之間并不是一對多或者多對一的關(guān)系,而是多對多的關(guān)系,即一個數(shù)據(jù)集可能會被多個任務同時使用,一個任務也可能調(diào)用多個數(shù)據(jù)集。(2)數(shù)據(jù)集大小對科學工作流的影響。(3)固定數(shù)據(jù)集對科學工作流的影響。固定數(shù)據(jù)集對科學工作流的影響。因為固定數(shù)據(jù)集只能放置在特定的數(shù)據(jù)中心,無法向外傳輸,一旦任務使用到固定數(shù)據(jù)集,該任務一定會被調(diào)度到這個數(shù)據(jù)中心上執(zhí)行。(4)數(shù)據(jù)中心的計算能力、存儲能力對科學工作流的影響.由于各個數(shù)據(jù)中心隸屬于不同的組織機構(gòu),其計算能力、存儲能力可能差異較大。合理的數(shù)據(jù)放置策略也要也要將這兩個因素考慮到,即在存儲空間足夠的前提下,向計算能力強的數(shù)據(jù)中心放置盡量多的數(shù)據(jù)集,以加快科學工作流的執(zhí)行速度。由于數(shù)據(jù)移動開銷對科學工作流性能影響較大,因此合理的數(shù)據(jù)放置策略應該努力減少數(shù)據(jù)移動量,本文針對這種情況提出了一種基于相關(guān)度的數(shù)據(jù)放置策略,該策略綜合考慮了數(shù)據(jù)相關(guān)度(即數(shù)據(jù)之間被相同任務使用的多少)、數(shù)據(jù)大小、固定數(shù)據(jù)集、數(shù)據(jù)中心的計算能力和存儲能力,有效提升了科學工作流的執(zhí)行效率。以圖1為例,科學工作流的數(shù)據(jù)放置策略需要考慮以下幾點:14四、基于相關(guān)度的兩階段數(shù)據(jù)放置與任務調(diào)度策略4.1建立階段數(shù)據(jù)放置策略在科學工作流建立階段,該策略對所有的原始輸入數(shù)據(jù)集在邏輯上進行預分配,這樣做可以優(yōu)化數(shù)據(jù)分配方案,防止前期出現(xiàn)不合理分配的情況。預分配主要從局部性考慮,使得子任務在調(diào)度后,所需使用的數(shù)據(jù)集都盡量在本地數(shù)據(jù)中心上存儲。定義5數(shù)據(jù)集相關(guān)度設為count(Ti∩Tj)×min{si,sj},di,dj∈NFDdepij=count(Ti∩Tj)×si,di∈NFD,dj∈FDcount(Ti∩Tj)×si,di∈FD,dj∈NFD0,di,dj∈FD四、基于相關(guān)度的兩階段數(shù)據(jù)放置與任務調(diào)度策略4.1建立階段15depij表示數(shù)據(jù)di和數(shù)據(jù)dj的相關(guān)度大小。count(Ti∩Tj)表示共同使用di和dj的任務數(shù)量。depij與數(shù)據(jù)集大小有關(guān)。由定義4知,數(shù)據(jù)集di有一個屬性deplink,此處定義為deplink(i)={<di,depij>|j≠i},根據(jù)depij大小形成一個降序鏈表。定義6預分配數(shù)據(jù)中心設為DCk,k=1,2,…,m,假定DCk的存儲空間值為相應的dck存儲空間大小。在科學工作流建立階段,需要先將原始數(shù)據(jù)集邏輯上分配到DCk,k=1,2,…,m,然后按照DCk→dck的映射原則,將邏輯上的分配方案在物理的數(shù)據(jù)中心上實現(xiàn)。定義7待分配數(shù)據(jù)集集合設為DCwait。在科學工作流建立階段,該集合中存放的是與其它任何數(shù)據(jù)集相關(guān)度均為0的數(shù)據(jù)集;在科學工作流運行階段,該集合中存放在后續(xù)過程中需要分配的數(shù)據(jù)集。depij表示數(shù)據(jù)di和數(shù)據(jù)dj的相關(guān)度大小。16如圖2所示,在科學工作流建立階段需要對所有的原始數(shù)據(jù)進行預分配,其流程大致如下:第1步(語句1~5)算法首先將所有的原始數(shù)據(jù)分為兩類,固定數(shù)據(jù)集FD和非固定數(shù)據(jù)集NFD。第2步(語句6~22)判斷di的deplink中相關(guān)度最大的數(shù)據(jù)集di是固定數(shù)據(jù)集還是非固定數(shù)據(jù)集。第3步(語句23~27)對DCwait中的數(shù)據(jù)集進行預分配。如圖2所示,在科學工作流建立階段需要對所有的原始數(shù)據(jù)進行預分174.2運行階段數(shù)據(jù)放置與任務調(diào)度策略在科學工作流執(zhí)行階段,基于相關(guān)度的數(shù)據(jù)放置策略將中間數(shù)據(jù)集放置到與它相關(guān)度最大的數(shù)據(jù)中心上,如果該中心存儲空間不足,則按照該策略中的Adjustment算法對全局數(shù)據(jù)集進行調(diào)整。定義8數(shù)據(jù)集dk和數(shù)據(jù)中心dcm的相關(guān)度dc_depmk=Ti表示數(shù)據(jù)中心dcm上數(shù)據(jù)集di所需使用的任務集,N表示dcm上數(shù)據(jù)集的個數(shù),Tk指使用數(shù)據(jù)集dk的任務集集合,sk表示數(shù)據(jù)集dk大小。4.2運行階段數(shù)據(jù)放置與任務調(diào)度策略18定義9調(diào)度任務tk在數(shù)據(jù)中心dcm上執(zhí)行引起的傳輸開銷設為transCostmk=[size(DSk)-size(DSk∩DSm)+size(DS’gen-DS’m)]size(DS)表示集合DS中所有數(shù)據(jù)集大小之和,DSk是任務tk所需使用的數(shù)據(jù)集,DSm包含數(shù)據(jù)中心dcm上的所有數(shù)據(jù)集,DS’gen表示任務tk執(zhí)行完畢后產(chǎn)生的數(shù)據(jù)集,DS’m表示DS’gen中應該放在dcm上的數(shù)據(jù)集。[size(DSk)-size(DSk∩DSm)]表示tk在dcm上執(zhí)行需要從其它數(shù)據(jù)中心調(diào)入的數(shù)據(jù)集大小,size(DS’gen-DS’m))表示tk在dcm上執(zhí)行完畢后產(chǎn)生的中間數(shù)據(jù)集向其它數(shù)據(jù)中心發(fā)送的數(shù)據(jù)集大小。如果transCosthk=,將tk調(diào)度到dch上執(zhí)行所引起的傳輸開銷是最低的。定義9調(diào)度任務tk在數(shù)據(jù)中心dcm上執(zhí)行引起的傳輸開銷設為19科學工作流運行的時候,從任務集合中選取任務ti,根據(jù)定義9將ti調(diào)度到合適的數(shù)據(jù)中心執(zhí)行,執(zhí)行完畢后若產(chǎn)生新的任務和新的數(shù)據(jù)集,則首先更新任務集合,然后給新產(chǎn)生的數(shù)據(jù)集選擇合適的數(shù)據(jù)中心放置。對新產(chǎn)生的中間數(shù)據(jù)dk,根據(jù)定義8計算其與所有數(shù)據(jù)中心的相關(guān)度dc_depmk,選擇相關(guān)度最大的數(shù)據(jù)中心分配,如果該數(shù)據(jù)中心存儲空間不足,表明科學工作流已經(jīng)運行了一段時間,出現(xiàn)了負載不均衡,因此需要對所有數(shù)據(jù)集進行重新調(diào)整??茖W工作流運行的時候,從任務集合中選取任務ti,根據(jù)定義920調(diào)整算法如圖4所示,詳細過程如下:第1步(語句1~31)對所有數(shù)據(jù)中心上的數(shù)據(jù)集進行預分配。第2步(語句32~38)預分配完成以后,對所有邏輯數(shù)據(jù)中心DCi和物理數(shù)據(jù)中心dci上的每個數(shù)據(jù)集dk進行對比。調(diào)整算法如圖4所示,詳細過程如下:21五、實驗分析5.1實驗環(huán)境和設置為了驗證基于相關(guān)度的數(shù)據(jù)放置策略效果,在“天河”集群上建立了一個包含80個節(jié)點的測試平臺,每一個節(jié)點包含一個IntelXeonE55402.53GHz的四核cpu。為了模擬云計算平臺,在每個節(jié)點上安裝Xen并在上面創(chuàng)建了虛擬集群以模擬數(shù)據(jù)中心;為每一個cpu核創(chuàng)建一個帶有存儲空間的計算實體,每個數(shù)據(jù)中心包含16個計算實體,于是共有20個數(shù)據(jù)中心;為了對數(shù)據(jù)進行管理,在每個數(shù)據(jù)中心上安裝了ApacheHDFS,并運行swinDew-C(SwinburneDecentralisedWorkflowforCloud)用來解釋和執(zhí)行工作流。本文將采用模擬的、可定制的科學工作流來測試基于相關(guān)度的數(shù)據(jù)放置策略。通過分別改變科學工作流的數(shù)據(jù)集和任務的數(shù)量來控制科學工作流的復雜度;通過改變上界與下界來控制數(shù)據(jù)集大小的取值范圍;同樣,固定數(shù)據(jù)集的比例和數(shù)據(jù)中心的數(shù)量也可以進行調(diào)整。實驗過程中,為了保證結(jié)果的可靠性,每一個科學工作流在保持配置和云平臺環(huán)境不變的情況下,運行300次后取平均值作為測試結(jié)果。五、實驗分析5.1實驗環(huán)境和設置22為了說明本文所提數(shù)據(jù)放置策略的效果,實驗對比了3種數(shù)據(jù)放置策略,分別是Random、Cluster和本文所提出的基于相關(guān)度的數(shù)據(jù)放置策略。Random策略:輸入數(shù)據(jù)集在建立階段隨機的放到其中一個數(shù)據(jù)中心,如果是固定數(shù)據(jù)集則放置到指定的數(shù)據(jù)中心;運行階段,如果空間足夠,產(chǎn)生的中間數(shù)據(jù)集則存放在本地數(shù)據(jù)中心,否則隨機放置到其中一個數(shù)據(jù)中心。在網(wǎng)格、集群系統(tǒng)中,產(chǎn)生的中間數(shù)據(jù)集就是存放在本地或者隨機放在存儲空間富余的結(jié)點上。Cluster策略:在文獻[11]中提到的數(shù)據(jù)放置策略。在建立階段,把所有的輸入數(shù)據(jù)分為犓個數(shù)據(jù)集合,把這犓個數(shù)據(jù)集合放置到合適的數(shù)據(jù)中心;在運行階段,把新產(chǎn)生的數(shù)據(jù)集放置到合適的數(shù)據(jù)中心?;谙嚓P(guān)度的數(shù)據(jù)放置策略:本文所提的數(shù)據(jù)放置策略,在文章后續(xù)部分所有圖示中用Data-dependence表示該策略。為了說明本文所提數(shù)據(jù)放置策略的效果,實驗對比了3種數(shù)據(jù)放置策235.2測試結(jié)果及分析5.2.1數(shù)據(jù)集數(shù)量變化對結(jié)果的影響
圖5顯示的是當數(shù)據(jù)集數(shù)量增加時,數(shù)據(jù)移動次數(shù)和數(shù)據(jù)移動量的變化趨勢。實驗設定如下:科學工作流任務量犖和數(shù)據(jù)集數(shù)量犖取相同的值,數(shù)據(jù)集的變化范圍設為1~500MB,固定數(shù)據(jù)集比例為20%,數(shù)據(jù)中心為15個。5.2測試結(jié)果及分析圖5顯示的是當數(shù)據(jù)集數(shù)量增加時,數(shù)據(jù)24原因分析:Cluster策略按照最大數(shù)量的原則將數(shù)據(jù)集聚集在同一個數(shù)據(jù)中心,而基于相關(guān)度的數(shù)據(jù)放置策略按照最大流量的原則將數(shù)據(jù)集聚集在同一個數(shù)據(jù)中心;同時,在運行階段Cluster策略將任務調(diào)度到包含數(shù)據(jù)個數(shù)最多的數(shù)據(jù)中心,基于相關(guān)度的數(shù)據(jù)放置策略則將任務調(diào)度到數(shù)據(jù)量最多的數(shù)據(jù)中心,所以任務執(zhí)行時,基于相關(guān)度的數(shù)據(jù)放置策略引起的數(shù)據(jù)傳輸量就會明顯減少。原因分析:Cluster策略按照最大數(shù)量的原則將數(shù)據(jù)集聚集255.2.2數(shù)據(jù)集大小取值范圍變化對數(shù)據(jù)移動量的影響圖6表示數(shù)據(jù)集大小幅度改變時數(shù)據(jù)移動量的變化趨勢。實驗設定如下:科學工作流任務量為80,數(shù)據(jù)集數(shù)量為80,固定數(shù)據(jù)集比例為20%,數(shù)據(jù)中心為15個,數(shù)據(jù)集大小的平均值是250MB。原因分析:若數(shù)據(jù)大小變化幅度很大,則Data-dependence策略在大多數(shù)情況下會選擇移動規(guī)模小的數(shù)據(jù)集,這樣就降低了數(shù)據(jù)移動量。5.2.2數(shù)據(jù)集大小取值范圍變化對數(shù)據(jù)移動量的影響圖6表示265.2.3固定數(shù)據(jù)集比例的改變對數(shù)據(jù)移動量的影響圖7表出的是固定數(shù)據(jù)集比例改變時數(shù)據(jù)的移動量的變化趨勢。實驗設定如下:科學工作流任務量為80,數(shù)據(jù)集個數(shù)為80,數(shù)據(jù)中心為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 輸液反應的預防與處理規(guī)范
- 語言活動布谷鳥繪本-野孩子的奇幻之旅
- 2025年制磚機械:砌塊機合作協(xié)議書
- 2025年高效酸霧凈化器項目合作計劃書
- 2025年二溴菊酸項目建議書
- 中職高考數(shù)學二輪復習專項突破練習專題10 函數(shù)綜合應用(含答案)
- 2025年壓紙輪項目建議書
- 2025年LED照明燈具合作協(xié)議書
- 2025年電離輻射計量標準器具項目建議書
- 革皮服裝企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 2025年中儲糧吉林分公司招聘(74人)筆試參考題庫附帶答案詳解
- 2024年上海煙草集團有限責任公司招聘筆試真題
- 2025年長春醫(yī)學高等專科學校單招職業(yè)技能測試題庫及完整答案1套
- 2025年中國大唐集團有限公司重慶分公司高校畢業(yè)生招聘筆試參考題庫附帶答案詳解
- 游戲賬號購買協(xié)議書范本
- 北京工裝合同范本
- 建筑工地道路養(yǎng)護的進度與措施
- 加油站合作經(jīng)營協(xié)議書范本
- 《苗圃生產(chǎn)與管理》教案-第二章 園林苗木的種實生產(chǎn)
- 2025年西安鐵路職業(yè)技術(shù)學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 化工原理完整(天大版)課件
評論
0/150
提交評論