作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介質(zhì)_第1頁
作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介質(zhì)_第2頁
作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介質(zhì)_第3頁
作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介質(zhì)_第4頁
作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介質(zhì)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

(19)中華人民共和國國家知識產(chǎn)權(quán)局

(12)發(fā)明專利申請

(10)申請公布號CN114217920A

(43)申請公布日2022.03.22

(21)申請?zhí)?02111353082.4

(22)申請日2021.11.16

(71)申請人曙光信息產(chǎn)業(yè)(北京)有限公司

地址100089北京市海淀區(qū)東北旺西路8號

院36號樓

(72)發(fā)明人蘇勇李博萬偉

(74)專利代理機構(gòu)華進聯(lián)合專利商標(biāo)代理有限

公司44224

代理人賴遠龍

(51)Int.CI.

G06F9/48(2006.01)

G06F9/50(2006.01)

H04L67/5/(2022.01)

權(quán)利要求書2頁說明書20頁附圖6頁

(54)發(fā)明名稱

作業(yè)調(diào)度方法和裝置、計算機機群、計算機

可讀存儲介質(zhì)

(57)摘要?320

本申請涉及一種作業(yè)調(diào)度方法和裝置、計算

機機群、計算機可讀存儲介質(zhì),計算機機群包括

至少兩個不同通信帶寬的機群,各機群包括多個

同一通信帶寬的計算節(jié)點。該方法包括:獲取待

處理業(yè)務(wù)的服務(wù)級別;服務(wù)級別用于表征待處理

業(yè)務(wù)調(diào)用計算機機群中不同通信帶寬的計算節(jié)

點的優(yōu)先級順序;獲取計算機機群的多條通信鏈

路;多條通信鏈路包括多個不同通信帶寬的計算

節(jié)點;根據(jù)待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、待

處理業(yè)務(wù)的服務(wù)級別,從多條通信鏈路中確定目

標(biāo)通信鏈路,將待處理業(yè)務(wù)分配至目標(biāo)通信鏈路

V上的計算節(jié)點進行執(zhí)行。實現(xiàn)了在不同通信帶寬

0

Z

6的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模

Z

I

Z機群作業(yè)的優(yōu)化。

I寸

I

g

CN114217920A權(quán)利要求書1/2頁

1.一種作業(yè)調(diào)度方法,其特征在于,應(yīng)用于計算機機群,所述計算機機群包括至少兩個

不同通信帶寬的機群,各所述機群包括多個同一通信帶寬的計算節(jié)點;所述方法包括:

獲取待處理業(yè)務(wù)的服務(wù)級別;所述服務(wù)級別用于表征所述待處理業(yè)務(wù)調(diào)用所述計算機

機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序;

獲取所述計算機機群的多條通信鏈路;所述多條通信鏈路包括從所述不同通信帶寬的

機群中所獲取的多個不同通信帶寬的計算節(jié)點;

根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)級別,從所述多條

通信鏈路中確定目標(biāo)通信鏈路,將所述待處理業(yè)務(wù)分配至所述目標(biāo)通信鏈路上的計算節(jié)點

進行執(zhí)行。

2.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述方法還包括:

在所述計算機機群中,預(yù)先遍歷所述至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),

對所述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路。

3.根據(jù)權(quán)利要求2所述的作業(yè)調(diào)度方法,其特征在于,所述在所述計算機機群中,預(yù)先

遍歷所述至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對所述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生

成多條通信鏈路,包括:

在所述計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷所述至少兩個不同通信帶寬的機群的網(wǎng)

絡(luò)拓?fù)浣Y(jié)構(gòu),獲取所述至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備;

獲取所述網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系,基于所述網(wǎng)絡(luò)設(shè)備、所述網(wǎng)絡(luò)設(shè)備的端口連接關(guān)

系構(gòu)建所述計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);

遍歷所述計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對所述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈

路;所述通信鏈路包括從源節(jié)點到目標(biāo)節(jié)點之間的網(wǎng)絡(luò)設(shè)備及所述網(wǎng)絡(luò)設(shè)備之間的鏈路信

,息、。

4.根據(jù)權(quán)利要求3所述的作業(yè)調(diào)度方法,其特征在于,所述方法還包括:

若所述計算機機群發(fā)生更新,則從預(yù)設(shè)根節(jié)點重新開始遍歷所述計算機機群,獲取所

述計算機機群中的網(wǎng)絡(luò)設(shè)備;

獲取所述網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系,基于所述網(wǎng)絡(luò)設(shè)備、所述網(wǎng)絡(luò)設(shè)備的端口連接關(guān)

系重新構(gòu)建所述計算機機群的新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);

遍歷所述計算機機群的新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對所述新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多

條新的通信鏈路。

5.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述根據(jù)所述待處理業(yè)務(wù)所需的

計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)級別,從所述多條通信鏈路中確定目標(biāo)通信鏈路,包

括:

獲取所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目;

根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目,從所述多條通信鏈路中確定候選通信鏈

路;所述候選通信鏈路所包含的計算節(jié)點的數(shù)目與所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目相

同;

計算所述候選通信鏈路的帶寬資源代價;

根據(jù)所述待處理業(yè)務(wù)的服務(wù)級別及所述候選通信鏈路的帶寬資源代價,從所述候選通

信鏈路中確定所述帶寬資源代價與所述服務(wù)級別相匹配的目標(biāo)通信鏈路。

2

CN114217920A權(quán)利要求書2/2頁

6.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述獲取待處理業(yè)務(wù)的服務(wù)級

別,包括:

獲取所述待處理業(yè)務(wù)的通信帶寬需求;

根據(jù)所述待處理業(yè)務(wù)的通信帶寬需求,確定所述待處理業(yè)務(wù)的服務(wù)級別。

7.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述方法還包括:

獲取所述待處理業(yè)務(wù)的數(shù)據(jù)通信特征;

根據(jù)所述待處理業(yè)務(wù)的數(shù)據(jù)通信特征,確定所述待處理業(yè)務(wù)的流量類型;

所述根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)級別,從所述

多條通信鏈路中確定目標(biāo)通信鏈路,將所述待處理業(yè)務(wù)分配至所述目標(biāo)通信鏈路上的計算

節(jié)點進行執(zhí)行,包括:

根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)級別及所述待處理

業(yè)務(wù)的流量類型,從所述多條通信鏈路中確定目標(biāo)通信鏈路,將所述待處理業(yè)務(wù)分配至所

述目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)行。

8.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述多個不同通信帶寬的機群包

括第一機群、第二機群及第三機群;

所述第一機群中包括多個第一通信帶寬的計算節(jié)點;所述第二機群中包括多個第二通

信帶寬的計算節(jié)點;所述第三機群中包括多個第三通信帶寬的計算節(jié)點;所述第一通信帶

寬小于所述第二通信帶寬,所述第二通信帶寬小于所述第三通信帶寬。

9.一種作業(yè)調(diào)度裝置,其特征在于,應(yīng)用于計算機機群,所述計算機機群包括至少兩個

不同通信帶寬的機群,各所述機群包括多個同一通信帶寬的計算節(jié)點;所述裝置包括:

服務(wù)級別獲取模塊,用于獲取待處理業(yè)務(wù)的服務(wù)級別;所述服務(wù)級別用于表征所述待

處理業(yè)務(wù)調(diào)用所述計算機機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序;

通信鏈路獲取模塊,用于獲取所述計算機機群的多條通信鏈路;所述多條通信鏈路包

括從所述不同通信帶寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點;

目標(biāo)通信鏈路確定模塊,用于根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理

業(yè)務(wù)的服務(wù)級別,從所述多條通信鏈路中確定目標(biāo)通信鏈路,將所述待處理業(yè)務(wù)分配至所

述目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)行。

10.一種計算機機群,包括存儲器及處理器,所述存儲器中儲存有計算機程序,其特征

在于,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1至8中任一

項所述的作業(yè)調(diào)度方法的步驟。

11.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序

被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的作業(yè)調(diào)度方法的步驟。

3

CN114217920A說明書1/20頁

作業(yè)調(diào)度方法和裝置'計算機機群'計算機可讀存儲介質(zhì)

技術(shù)領(lǐng)域

[0001]本申請涉及計算機技術(shù)領(lǐng)域,特別是涉及一種作業(yè)調(diào)度方法和裝置、計算機機群、

計算機可讀存儲介質(zhì)。

背景技術(shù)

[0002]隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)設(shè)備也得到了快速地發(fā)展,隨之出現(xiàn)了各種各

樣高性能的網(wǎng)絡(luò)設(shè)備。

[0003]數(shù)據(jù)中心(DataCenter)通常是指在一個物理空間內(nèi)實現(xiàn)信息的集中處理、存儲、

傳輸、交換、管理的場所,由位于同一個機房的一個或者多個機群組成。機群是由眾多服務(wù)

器或工作站(workstation)通過高速網(wǎng)絡(luò)連接起來構(gòu)成的計算機系統(tǒng),構(gòu)成機群的服務(wù)器

或工作站被稱為節(jié)點。

[0004]近年來,互聯(lián)網(wǎng)應(yīng)用發(fā)展迅速,呈現(xiàn)出應(yīng)用類型多,應(yīng)用規(guī)模大(活躍用戶量、訪問

量和業(yè)務(wù)數(shù)據(jù)量)等特征,使得支撐互聯(lián)網(wǎng)應(yīng)用的數(shù)據(jù)中心規(guī)模急劇擴大,由幾百臺、幾千

臺擴展至幾萬臺甚至是幾十萬臺規(guī)模。

[0005]為了構(gòu)建更大規(guī)模的數(shù)據(jù)中心,一般會在早期的機群系統(tǒng)的基礎(chǔ)上進行擴展,而

早期的機群系統(tǒng)中的機群的通信帶寬一般較低,后期的機群系統(tǒng)中的機群的通信帶寬一般

較高。因此,基于早期的機群系統(tǒng)的基礎(chǔ)上進行擴展所形成的數(shù)據(jù)中心,會存在多個不同通

信帶寬的機群共存的情況。

[0006]由于擴展后的數(shù)據(jù)中心中包括多個不同通信帶寬的機群,因此,針對多個不同通

信帶寬的機群共存的數(shù)據(jù)中心,現(xiàn)有的作業(yè)調(diào)度系統(tǒng),不能在整個機群范圍內(nèi)進行作業(yè)調(diào)

度,實現(xiàn)大規(guī)模機群作業(yè)的優(yōu)化。

發(fā)明內(nèi)容

[0007]本申請實施例提供了一種作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介

質(zhì),能夠?qū)崿F(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的

優(yōu)化。

[0008]在其中一個實施例中,提供了一種作業(yè)調(diào)度方法,應(yīng)用于計算機機群,所述計算機

機群包括至少兩個不同通信帶寬的機群,各所述機群包括多個同一通信帶寬的計算節(jié)點;

所述方法包括:

[0009]獲取待處理業(yè)務(wù)的服務(wù)級別;所述服務(wù)級別用于表征所述待處理業(yè)務(wù)調(diào)用所述計

算機機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序;

[0010]獲取所述計算機機群的多條通信鏈路;所述多條通信鏈路包括從所述不同通信帶

寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點;

[0011]根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)級別,從所述

多條通信鏈路中確定目標(biāo)通信鏈路,將所述待處理業(yè)務(wù)分配至所述目標(biāo)通信鏈路上的計算

節(jié)點進行執(zhí)行。

4

CN114217920A說明書2/20頁

[0012]本申請實施例中,首先,獲取待處理業(yè)務(wù)的服務(wù)級別。其次,預(yù)先獲取計算機機群

的多條通信鏈路,多條通信鏈路包括從不同通信帶寬的機群中所獲取的多個不同通信帶寬

的計算節(jié)點。最后,根據(jù)待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、待處理業(yè)務(wù)的服務(wù)級別,按照待

處理業(yè)務(wù)調(diào)用計算機機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序,從多條通信鏈路中確

定目標(biāo)通信鏈路,將待處理業(yè)務(wù)分配至目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)行o如此,就實現(xiàn)

了在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

[0013]在其中一個實施例中,所述方法還包括:

[0014]在所述計算機機群中,預(yù)先遍歷所述至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)

構(gòu),對所述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路。

[0015]本申請實施例中,在后續(xù)進行作業(yè)調(diào)度時,可以基于作業(yè)所需的通信帶寬需求,從

至少兩個不同通信帶寬的機群中的多條通信鏈路里面篩選出匹配的通信鏈路。

[0016]在其中一個實施例中,所述在所述計算機機群中,預(yù)先遍歷所述至少兩個不同通

信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對所述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路,包括:

[0017]在所述計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷所述至少兩個不同通信帶寬的機群

的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),獲取所述至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備;

[0018]獲取所述網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系,基于所述網(wǎng)絡(luò)設(shè)備、所述網(wǎng)絡(luò)設(shè)備的端口連

接關(guān)系構(gòu)建所述計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);

[0019]遍歷所述計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對所述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通

信鏈路;所述通信鏈路包括從源節(jié)點到目標(biāo)節(jié)點之間的網(wǎng)絡(luò)設(shè)備及所述網(wǎng)絡(luò)設(shè)備之間的鏈

路信息。

[0020]本申請實施例中,針對至少兩個不同通信帶寬的計算機機群,通過網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

發(fā)現(xiàn)的過程可以獲取計算機機群中的網(wǎng)絡(luò)設(shè)備。然后,再基于所獲取的網(wǎng)絡(luò)設(shè)備,構(gòu)建計算

機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。最后,遍歷計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析

生成多條通信鏈路。如此,就實現(xiàn)了在不同通信帶寬的計算機機群中解析出了多條通信鏈

路,以便在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

[0021]在其中一個實施例中,所述方法還包括:

[0022]若所述計算機機群發(fā)生更新,則從預(yù)設(shè)根節(jié)點重新開始遍歷所述計算機機群,獲

取所述計算機機群中的網(wǎng)絡(luò)設(shè)備;

[0023]獲取所述網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系,基于所述網(wǎng)絡(luò)設(shè)備、所述網(wǎng)絡(luò)設(shè)備的端口連

接關(guān)系重新構(gòu)建所述計算機機群的新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);

[0024]遍歷所述計算機機群的新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對所述新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生

成多條新的通信鏈路。

[0025]本申請實施例中,若具有不同通信帶寬的計算機機群發(fā)生更新,也依然可以及時

從新的計算機機群中解析出了多條通信鏈路,以便在新的計算機機群之間進行作業(yè)調(diào)度,

進而實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

[0026]在其中一個實施例中,所述根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處

理業(yè)務(wù)的服務(wù)級別,從所述多條通信鏈路中確定目標(biāo)通信鏈路,包括:

[0027]獲取所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目;

[0028]根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目,從所述多條通信鏈路中確定候選通信

5

CN114217920A說明書3/20頁

鏈路;所述候選通信鏈路所包含的計算節(jié)點的數(shù)目與所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目

相同;

[0029]計算所述候選通信鏈路的帶寬資源代價;

[0030]根據(jù)所述待處理業(yè)務(wù)的服務(wù)級別及所述候選通信鏈路的帶寬資源代價,從所述候

選通信鏈路中確定所述帶寬資源代價與所述服務(wù)級別相匹配的目標(biāo)通信鏈路。

[0031]本申請實施例中,針對各候選通信鏈路,首先計算候選通信鏈路的帶寬資源代價,

然后,再結(jié)合待處理業(yè)務(wù)的服務(wù)級別及候選通信鏈路的帶寬資源代價,從候選通信鏈路中

為待處理業(yè)務(wù)分配目標(biāo)通信鏈路。如此,通過將帶寬資源代價與服務(wù)級別進行匹配,就能夠

實現(xiàn)在不同通信帶寬的計算機機群之間進行資源分配。也就實現(xiàn)了在不同通信帶寬的機群

之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

[0032]在其中一個實施例中,所述獲取待處理業(yè)務(wù)的服務(wù)級別,包括:

[0033]獲取所述待處理業(yè)務(wù)的通信帶寬需求;

[0034]根據(jù)所述待處理業(yè)務(wù)的通信帶寬需求,確定所述待處理業(yè)務(wù)的服務(wù)級別。

[0035]本申請實施例中,基于通信帶寬需求確定了待處理業(yè)務(wù)的服務(wù)級別之后,后續(xù)就

可以基于待處理業(yè)務(wù)的服務(wù)級別從計算進機群中的多條通信鏈路中確定目標(biāo)通信鏈路。并

將待處理業(yè)務(wù)分配至目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)行,就實現(xiàn)了在不同通信帶寬的機

群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

[0036]在其中一個實施例中,所述方法還包括:

[0037]獲取所述待處理業(yè)務(wù)的數(shù)據(jù)通信特征;

[0038]根據(jù)所述待處理業(yè)務(wù)的數(shù)據(jù)通信特征,確定所述待處理業(yè)務(wù)的流量類型;

[0039]所述根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)級別,從

所述多條通信鏈路中確定目標(biāo)通信鏈路,將所述待處理業(yè)務(wù)分配至所述目標(biāo)通信鏈路上的

計算節(jié)點進行執(zhí)行,包括:

[0040]根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)級別及所述待

處理業(yè)務(wù)的流量類型,從所述多條通信鏈路中確定目標(biāo)通信鏈路,將所述待處理業(yè)務(wù)分配

至所述目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)行。

[0041]本申請實施例中,因為各候選通信鏈路中包括不同通信帶寬的計算機機群中的計

算節(jié)點,所以,同樣數(shù)目的計算節(jié)點所能夠提供的帶寬資源代價是不同的。因此,針對各候

選通信鏈路,首先計算候選通信鏈路的帶寬資源代價,然后,再結(jié)合待處理業(yè)務(wù)的服務(wù)級別

及候選通信鏈路的帶寬資源代價,從候選通信鏈路中為待處理業(yè)務(wù)分配目標(biāo)通信鏈路。

[0042]在其中一個實施例中,所述多個不同通信帶寬的機群包括第一機群、第二機群及

第三機群;

[0043]所述第一機群中包括多個第一通信帶寬的計算節(jié)點;所述第二機群中包括多個第

二通信帶寬的計算節(jié)點;所述第三機群中包括多個第三通信帶寬的計算節(jié)點;所述第一通

信帶寬小于所述第二通信帶寬,所述第二通信帶寬小于所述第三通信帶寬。

[0044]本申請實施例中,本申請中的作業(yè)調(diào)度方法,應(yīng)用于包括至少兩個不同通信帶寬

的計算機機群。其中,至少兩個不同通信帶寬的機群包括早期的FDR機群、EDR機群及新的

HDR機群。因此,本申請中的作業(yè)調(diào)度方法,應(yīng)用于包括早期的FDR機群、EDR機群及新的HDR

機群的計算機機群。從而,實現(xiàn)了在早期機群的基礎(chǔ)上,及時引進新的機群對計算機機群進

6

CN114217920A說明書4/20頁

行擴展,以滿足快速增長的計算需求。且通過本申請中的作用調(diào)度方法,能夠?qū)崿F(xiàn)在不同通

信帶寬的機群之間進行作業(yè)調(diào)度,提高了計算機機群中資源的利用率。

[0045]在其中一個實施例中,提供了一種作業(yè)調(diào)度裝置,應(yīng)用于計算機機群,所述計算機

機群包括至少兩個不同通信帶寬的機群,各所述機群包括多個同一通信帶寬的計算節(jié)點;

所述裝置包括:

[0046]服務(wù)級別獲取模塊,用于獲取待處理業(yè)務(wù)的服務(wù)級別;所述服務(wù)級別用于表征所

述待處理業(yè)務(wù)調(diào)用所述計算機機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序;

[0047]通信鏈路獲取模塊,用于獲取所述計算機機群的多條通信鏈路;所述多條通信鏈

路包括從所述不同通信帶寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點;

[0048]目標(biāo)通信鏈路確定模塊,用于根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待

處理業(yè)務(wù)的服務(wù)級別,從所述多條通信鏈路中確定目標(biāo)通信鏈路,將所述待處理業(yè)務(wù)分配

至所述目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)行。

[0049]一種計算機機群,包括存儲器及處理器,所述存儲器中儲存有計算機程序,所述計

算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如上所述的作業(yè)調(diào)度方法的步驟。

[0050]一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)

行時實現(xiàn)如上所述的作業(yè)調(diào)度方法的步驟。

[0051]一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上

所述的作業(yè)調(diào)度方法的步驟。

[0052]上述作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介質(zhì),計算機機群包括至

少兩個不同通信帶寬的機群,各機群包括多個同一通信帶寬的計算節(jié)點。該方法包括:獲取

待處理業(yè)務(wù)的服務(wù)級別;服務(wù)級別用于表征待處理業(yè)務(wù)調(diào)用計算機機群中不同通信帶寬的

計算節(jié)點的優(yōu)先級順序;獲取計算機機群的多條通信鏈路;多條通信鏈路包括多個不同通

信帶寬的計算節(jié)點;根據(jù)待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、待處理業(yè)務(wù)的服務(wù)級別,從多條

通信鏈路中確定目標(biāo)通信鏈路,將待處理業(yè)務(wù)分配至目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)

行。

[0053]傳統(tǒng)的作業(yè)調(diào)度方法,僅能夠在同一通信帶寬的機群內(nèi)部進行作業(yè)調(diào)度。而本申

請中的計算機機群包括至少兩個不同通信帶寬的機群,且各機群包括多個同一通信帶寬的

計算節(jié)點。因此,為了實現(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,首先,獲取待處理業(yè)

務(wù)的服務(wù)級別。其次,預(yù)先獲取計算機機群的多條通信鏈路,多條通信鏈路包括從不同通信

帶寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點。最后,根據(jù)待處理業(yè)務(wù)所需的計算

節(jié)點數(shù)目、待處理業(yè)務(wù)的服務(wù)級別,按照待處理業(yè)務(wù)調(diào)用計算機機群中不同通信帶寬的計

算節(jié)點的優(yōu)先級順序,從多條通信鏈路中確定目標(biāo)通信鏈路,將待處理業(yè)務(wù)分配至目標(biāo)通

信鏈路上的計算節(jié)點進行執(zhí)行。如此,就實現(xiàn)了在不同通信帶寬的機群之間進行作業(yè)調(diào)度,

進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

附圖說明

[0054]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)

有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本

申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以

7

CN114217920A說明書5/20頁

根據(jù)這些附圖獲得其他的附圖。

[0055]圖1為一個實施例中傳統(tǒng)的計算機機群的結(jié)構(gòu)示意圖;

[0056]圖2為一個實施例中作業(yè)調(diào)度方法的應(yīng)用場景圖;

[0057]圖3為一個實施例中作業(yè)調(diào)度方法的流程圖;

[0058]圖4為一個實施例中在計算機機群中,預(yù)先遍歷至少兩個不同通信帶寬的機群的

網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路方法的示意圖;

[0059]圖5為一個實施例中拓?fù)浒l(fā)現(xiàn)過程的流程示意圖;

[0060]圖6為圖3中根據(jù)待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、待處理業(yè)務(wù)的服務(wù)級別,從多

條通信鏈路中確定目標(biāo)通信鏈路方法的流程圖;

[0061]圖7為另一個實施例中作業(yè)調(diào)度方法的流程圖;

[0062]圖8為一個具體的實施例中作業(yè)調(diào)度方法的示意圖;

[0063]圖9為一個實施例中作業(yè)調(diào)度裝置的結(jié)構(gòu)框圖;

[0064]圖10為另一個實施例中作業(yè)調(diào)度裝置的結(jié)構(gòu)框圖;

[0065]圖11為一個實施例中服務(wù)器的內(nèi)部結(jié)構(gòu)示意圖。

具體實施方式

[0066]為了使本申請的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對

本申請進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本申請,并

不用于限定本申請。

[0067]近年來,互聯(lián)網(wǎng)應(yīng)用發(fā)展迅速,呈現(xiàn)出應(yīng)用類型多,應(yīng)用規(guī)模大(活躍用戶量、訪問

量和業(yè)務(wù)數(shù)據(jù)量)等特征,使得支撐互聯(lián)網(wǎng)應(yīng)用的數(shù)據(jù)中心規(guī)模急劇擴大,由幾百臺、幾千

臺擴展至幾萬臺甚至是幾十萬臺規(guī)模。

[0068]為了構(gòu)建更大規(guī)模的數(shù)據(jù)中心,一般會在早期的機群系統(tǒng)的基礎(chǔ)上進行擴展,而

早期的機群系統(tǒng)中的機群的通信帶寬一般較低,后期的機群系統(tǒng)中的機群的通信帶寬一般

較高。因此,基于早期的機群系統(tǒng)的基礎(chǔ)上進行擴展所形成的數(shù)據(jù)中心,會存在多個不同通

信帶寬的機群共存的情況。

[0069]傳統(tǒng)的作業(yè)調(diào)度方法,僅能夠在同一通信帶寬的機群內(nèi)部進行作業(yè)調(diào)度。由于擴

展后的數(shù)據(jù)中心中包括多個不同通信帶寬的機群,因此,針對多個不同通信帶寬的機群共

存的數(shù)據(jù)中心,傳統(tǒng)的作業(yè)調(diào)度方法,不能在整個機群范圍內(nèi)進行作業(yè)調(diào)度,實現(xiàn)大規(guī)模機

群作業(yè)的優(yōu)化。

[0070]例如,以網(wǎng)絡(luò)標(biāo)準(zhǔn)infiniband為例,通信帶寬從早期的FDR機群中的計算節(jié)點的

56Gbps(每秒傳輸56X109比特數(shù)據(jù)),提升到EDR機群中的計算節(jié)點的lOOGbps,而最新的

HDR機群則可提供200Gbps的高速通信帶寬。為了構(gòu)建更大規(guī)模的計算機機群系統(tǒng),許多數(shù)

據(jù)中心會在早期的機群系統(tǒng)的基礎(chǔ)上進行擴展,于是許多數(shù)據(jù)中心存在FDR/EDR/HDR機群

這些各種時代產(chǎn)品共存的情況。

[0071]如圖1所示,為包括3個獨立的FDR/EDR/HDR機群的計算機機群的結(jié)構(gòu)示意圖。該計

算機機群包括1個FDR的機群-FDRCluster(一期建設(shè))、1個EDR機群-EDRCluster(二期建

設(shè))及1個HDR機群-HDRCluster(三期建設(shè))。傳統(tǒng)的作業(yè)調(diào)度方法,例如,slrum(Simple

LinuxUtilityforResourceManagement)資源管理系統(tǒng),僅能夠在同一通信帶寬的機群

8

CN114217920A說明書6/20頁

內(nèi)部進行作業(yè)調(diào)度,不能在不同通信帶寬的機群之間進行作業(yè)調(diào)度。其中,Rack指的是機

柜,機柜中包括通過交換機連接的多個計算節(jié)點。其中,SW(switch)指的是交換機。這里,計

算節(jié)點可以是服務(wù)器或終端設(shè)備,其中,終端設(shè)備可以是臺式機電腦、筆記本電腦、平板電

腦、PDA(PersonalDigitalAssistant,個人數(shù)字助理)等終端設(shè)備,本申請對此不做限

定。

[0072]為了解決這個問題,本申請中提出了一種新的作業(yè)調(diào)度方法。圖2為一個實施例中

作業(yè)調(diào)度方法的應(yīng)用場景圖,為包括通過網(wǎng)絡(luò)連接的FDR/EDR/HDR機群的計算機機群的示

意圖。通過增加部分HDR交換機208將3個二層胖樹網(wǎng)絡(luò)連接為一個三層胖樹網(wǎng)絡(luò)210。這里,

3個二層胖樹網(wǎng)絡(luò)分別指的是圖2中的3個獨立的FDR機群202、EDR機群204及HDR機群206。

其中,SystemCluster指的是通過網(wǎng)絡(luò)連接的FDR/EDR/HDR機群的計算機機群,具體指三層

胖樹網(wǎng)絡(luò)210。

[0073]因此,本申請實施例中提出了一種作業(yè)調(diào)度方法,可以在如圖2所示的計算機機群

中進行作業(yè)調(diào)度,實現(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機

群作業(yè)的優(yōu)化。圖3為一個實施例中作業(yè)調(diào)度方法的流程圖。應(yīng)用于計算機機群,計算機機

群包括至少兩個不同通信帶寬的機群,各機群包括多個同一通信帶寬的計算節(jié)點,該方法

包括以下步驟320至步驟360,其中,

[0074]步驟320,獲取待處理業(yè)務(wù)的服務(wù)級別;服務(wù)級別用于表征待處理業(yè)務(wù)調(diào)用計算機

機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序。

[0075]每個應(yīng)用在運行過程中,實際是在執(zhí)行多個不同的業(yè)務(wù)。這里,待處理業(yè)務(wù)包括通

過計算機機群運行應(yīng)用時,所執(zhí)行的多種業(yè)務(wù),具體可以是計算業(yè)務(wù)等,本申請對此不做限

定。

[0076]其中,待處理業(yè)務(wù)的服務(wù)級別與待處理業(yè)務(wù)的通信帶寬需求相關(guān)。例如,待處理業(yè)

務(wù)主要用于發(fā)送較大的數(shù)據(jù)包,則待處理業(yè)務(wù)對通信帶寬的需求較大,同時預(yù)先為待處理

業(yè)務(wù)設(shè)置較高的服務(wù)級別;待處理業(yè)務(wù)主要用于發(fā)送較小的數(shù)據(jù)包,則待處理業(yè)務(wù)對通信

帶寬的需求較小,同時預(yù)先為待處理業(yè)務(wù)設(shè)置較低的服務(wù)級別?;诿總€待處理業(yè)務(wù)及該

待處理業(yè)務(wù)的服務(wù)級別建立數(shù)據(jù)表,該數(shù)據(jù)表中存儲了每個待處理業(yè)務(wù)及該待處理業(yè)務(wù)的

服務(wù)級別的對應(yīng)關(guān)系。

[0077]其中,服務(wù)級別用于表征待處理業(yè)務(wù)調(diào)用計算機機群中不同通信帶寬的計算節(jié)點

的優(yōu)先級順序。即服務(wù)級別越高的待處理業(yè)務(wù),調(diào)用計算機機群中通信帶寬大的計算節(jié)點

的優(yōu)先級順序越高,即可以優(yōu)先調(diào)用計算機機群中通信帶寬大的計算節(jié)點。例如,可以為待

處理業(yè)務(wù)設(shè)置五級優(yōu)先級,包括第1級、第2級、第3級、第4級及第5級。其中,以上五級的優(yōu)先

級順序依次降低。即處于第1級的待處理業(yè)務(wù)調(diào)用計算機機群中通信帶寬大的計算節(jié)點的

優(yōu)先級順序最高,處于第2級的待處理業(yè)務(wù)調(diào)用計算機機群中通信帶寬大的計算節(jié)點的優(yōu)

先級順序次之,依次類推,處于第5級的待處理業(yè)務(wù)調(diào)用計算機機群中通信帶寬大的計算節(jié)

點的優(yōu)先級順序最低。

[0078]因此,在進行作業(yè)調(diào)度時,首先,就可以直接從該數(shù)據(jù)表中獲取預(yù)先為待處理業(yè)務(wù)

所設(shè)置的服務(wù)級別。并在獲取了待處理業(yè)務(wù)的服務(wù)級別之后,就可以確定待處理業(yè)務(wù)調(diào)用

計算機機群中通信帶寬大的計算節(jié)點的優(yōu)先級順序。以便后續(xù)根據(jù)該優(yōu)先級順序調(diào)用計算

機機群中不同的通信鏈路,這里,不同的通信鏈路可以提供不同的通信帶寬。

9

CN114217920A說明書7/20頁

[0079]步驟340,獲取計算機機群的多條通信鏈路;多條通信鏈路包括從不同通信帶寬的

機群中所獲取的多個不同通信帶寬的計算節(jié)點。

[0080]在進行作業(yè)調(diào)度時,首先,就可以直接從該數(shù)據(jù)表中獲取預(yù)先為待處理業(yè)務(wù)所設(shè)

置的服務(wù)級別。其次,獲取計算機機群的多條通信鏈路。其中,每個計算機機群都有特定的

網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),基于該計算機機群特定的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),從根節(jié)點(源節(jié)點)開始遍歷整個

網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)就可以得到多條通信鏈路。

[0081]由于計算機機群包括至少兩個不同通信帶寬的機群,各機群包括多個同一通信帶

寬的計算節(jié)點。因此,為了提高不同通信帶寬的機群中計算節(jié)點的資源利用率,在預(yù)先從計

算機機群中獲取通信鏈路時,可以分別從不同的通信帶寬的機群中獲取多個不同通信帶寬

的計算節(jié)點,基于這些多個不同通信帶寬的計算節(jié)點得到通信鏈路。從而,就可以形成多種

多樣、包含不同節(jié)點數(shù)目且不同通信帶寬的通信鏈路。

[0082]其中,每條通信鏈路均包括源節(jié)點、目標(biāo)節(jié)點及從源節(jié)點到目標(biāo)節(jié)點之間的網(wǎng)絡(luò)

設(shè)備及各網(wǎng)絡(luò)設(shè)備之間的鏈路信息。

[0083]步驟360,根據(jù)待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、待處理業(yè)務(wù)的服務(wù)級別,從多條

通信鏈路中確定目標(biāo)通信鏈路,將待處理業(yè)務(wù)分配至目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)

行。

[0084]獲取待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目,其中,待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目可

以是根據(jù)預(yù)設(shè)經(jīng)驗所設(shè)置的計算節(jié)點數(shù)目,或根據(jù)待處理業(yè)務(wù)的計算量大小來設(shè)置。例如,

A業(yè)務(wù)所需的計算節(jié)點數(shù)目為200個。

[0085]然后,就可以根據(jù)待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、待處理業(yè)務(wù)的服務(wù)級別,從多

條通信鏈路中確定目標(biāo)通信鏈路。具體的,從該計算機機群的多條通信鏈路中,確定與待處

理業(yè)務(wù)所需的計算節(jié)點數(shù)目一致、與待處理業(yè)務(wù)的服務(wù)級別匹配的目標(biāo)通信鏈路。換言之,

目標(biāo)通信鏈路所包含的計算節(jié)點數(shù)目與待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目一致,且目標(biāo)通信

鏈路適配的服務(wù)級別與待處理業(yè)務(wù)的服務(wù)級別一致。

[0086]最后,將待處理業(yè)務(wù)分配至目標(biāo)通信鏈路上的計算節(jié)點依次進行執(zhí)行。

[0087]傳統(tǒng)的作業(yè)調(diào)度方法,僅能夠在同一通信帶寬的機群內(nèi)部進行作業(yè)調(diào)度。而本申

請中的計算機機群包括至少兩個不同通信帶寬的機群,且各機群包括多個同一通信帶寬的

計算節(jié)點。因此,為了實現(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,本申請實施例中,首

先,獲取待處理業(yè)務(wù)的服務(wù)級別。其次,預(yù)先獲取計算機機群的多條通信鏈路,多條通信鏈

路包括從不同通信帶寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點。最后,根據(jù)待處

理業(yè)務(wù)所需的計算節(jié)點數(shù)目、待處理業(yè)務(wù)的服務(wù)級別,按照待處理業(yè)務(wù)調(diào)用計算機機群中

不同通信帶寬的計算節(jié)點的優(yōu)先級順序,從多條通信鏈路中確定目標(biāo)通信鏈路,將待處理

業(yè)務(wù)分配至目標(biāo)通信鏈路上的計算節(jié)點進行執(zhí)行。如此,就實現(xiàn)了在不同通信帶寬的機群

之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

[0088]在一個實施例中,提供了一種作業(yè)調(diào)度方法,還包括:

[0089]在計算機機群中,預(yù)先遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)

絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路。

[0090]具體的,針對每個計算機機群,在進行作業(yè)調(diào)度之前,需要預(yù)先遍歷至少兩個不同

通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路。以便后續(xù)

10

CN114217920A說明書8/20頁

在進行作業(yè)調(diào)度時,可以從至少兩個不同通信帶寬的機群中的多條通信鏈路里面篩選出匹

配的通信鏈路。

[0091]其中,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)是指用傳輸介質(zhì)互連各種設(shè)備的物理布局。網(wǎng)絡(luò)中的計算機

等設(shè)備要實現(xiàn)互聯(lián),就需要以一定的結(jié)構(gòu)方式進行連接,這種連接方式就叫做“拓?fù)浣Y(jié)構(gòu)”,

通俗地講就是這些網(wǎng)絡(luò)設(shè)備是如何連接在一起的。常見的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)主要有:總線型結(jié)

構(gòu)、環(huán)形結(jié)構(gòu)、星形結(jié)構(gòu)、樹形結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)等。

[0092]首先,需要遍歷整個計算機機群,構(gòu)建計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。然后,就可以

對計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析,生成多條通信鏈路。具體的,在預(yù)先從計算機機群

的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中解析出通信鏈路時,可以分別從不同的通信帶寬的機群中獲取多個不同

通信帶寬的計算節(jié)點,基于這些多個不同通信帶寬的計算節(jié)點得到通信鏈路。從而,就可以

形成多種多樣、包含不同節(jié)點數(shù)目且不同通信帶寬的通信鏈路。其中,每條通信鏈路包括多

個網(wǎng)絡(luò)設(shè)備及網(wǎng)絡(luò)設(shè)備之間的鏈路信息(即連接信息)。

[0093]其中,對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析指的是需要將所收集到的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)轉(zhuǎn)化為作

業(yè)調(diào)度系統(tǒng)可識別的形式,匯總為各個源節(jié)點到目標(biāo)節(jié)點的鏈路信息,使現(xiàn)有調(diào)度系統(tǒng)可

據(jù)此進行后續(xù)的資源分配。例如,以下為對計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析,生成作業(yè)

調(diào)度系統(tǒng)可識別的多條通信鏈路的形式的示例:

[0094]Fromca{0xe612c24004120191}portnumHid82-82"L44HCA-2”

[0095][l]->switchport{0xlc34da03005127f4}[9]lid66-66/,SW200-R0-G0L0/,

/,,/

[0096][36]->switchPort{0xlc34da03006082c4}[26]lid62-62SW200-R0-G0Rl

[0097][34]->switchport{0xlc34da0300608244}[24]lid54-54^200-RO-GOLI"

[0098][H]->caport{Oxe612c24004120481}[1]lid44-44"L19HCA-2”

[0099]Toca{0xe612c24004120481}portnumHid44-44"L19HCA-2”

[0100]該通信鏈路的根節(jié)點為:計算節(jié)點L44中的HCA-2(編號為2的網(wǎng)卡)。該HCA-2的

LID(本地標(biāo)識)為82。

[0101]然后,該完整的通信鏈路具體為:

[0102]從該根節(jié)點HCA-2的第1端口,指向設(shè)備名稱為“SW200-R0-G0L0”的路由器的第9端

口,該路由器”SW200-R0-G0L0”的設(shè)備GUID為{0xlc34da03005127f4};該路由器”SW200-

RO-GOLO”的LID(本地標(biāo)識)為66;

[0103]從路由器“SW200-R0-G0L0”的第36端口指向設(shè)備名稱為"SW200-R0-G0R1”的路由

器的第26端口,該路由器“SW200-R0-G0R1”的設(shè)備GUID為{0xlc34da03006082c4};該路由器

“SW200-R0-G0R1”的LID(本地標(biāo)識)為62;

[0104]從路由器“SW200-R0-G0R1”的第34端口,指向設(shè)備名稱為“SW200-R0-G0L1”的路由

器的第24端口,該路由器“SW200-R0-G0L1”的設(shè)備GUID為{0xlc34da0300608244};該路由器

“SW200-R0-G0L1”的LID(本地標(biāo)識)為54;

[0105]從路由器“SW200-R0-G0L1”的第11端口,指向計算節(jié)點L19中的HCA-2(編號為2的

網(wǎng)卡)。該HCA-2的LID(本地標(biāo)識)為44。

[0106]至此,該通信鏈路的末端節(jié)點為:計算節(jié)點L19中的HCA-2(編號為2的網(wǎng)卡)。

[0107]如此,在后續(xù)根據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)

級別,從所述多條通信鏈路中確定目標(biāo)通信鏈路時,就可以直接從這些預(yù)先建立的通信鏈

11

CN114217920A說明書9/20頁

路中直接確定。由于這些通信鏈路是從所述多個不同通信帶寬的機群中所獲取的,因此,就

可以實現(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)

化。

[0108]本申請實施例中,針對每個計算機機群,在進行作業(yè)調(diào)度之前,需要在計算機機群

中,預(yù)先遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生

成多條通信鏈路。且這些通信鏈路中包括多個不同通信帶寬的計算節(jié)點。因此,在后續(xù)進行

作業(yè)調(diào)度時,可以基于作業(yè)所需的通信帶寬需求,從至少兩個不同通信帶寬的機群中的多

條通信鏈路里面篩選出匹配的通信鏈路。

[0109]在一個實施例中,如圖4所示,在計算機機群中,預(yù)先遍歷至少兩個不同通信帶寬

的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路,包括:

[0110]步驟420,在計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷至少兩個不同通信帶寬的機群

的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備。

tom]在預(yù)先對計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析,生成多條通信鏈路時,首先,進行

網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn),即在計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷至少兩個不同通信帶寬的

機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備。即在計算機機群

中,從預(yù)設(shè)根節(jié)點開始尋找與該預(yù)設(shè)根節(jié)點的端口相連的下一個網(wǎng)絡(luò)設(shè)備,基于該網(wǎng)絡(luò)設(shè)

備再尋找與該網(wǎng)絡(luò)設(shè)備的端口相連的下一個網(wǎng)絡(luò)設(shè)備,依次尋找下一個網(wǎng)絡(luò)設(shè)備,就實現(xiàn)

了在計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)

構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備的過程。這里的網(wǎng)絡(luò)設(shè)備包括網(wǎng)卡設(shè)

備及交換機設(shè)備等,本申請對此不做限定。

[0112]然后,在基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)得到的網(wǎng)絡(luò)設(shè)備,獲取該網(wǎng)絡(luò)設(shè)備之間的端口連

接關(guān)系。基于網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系構(gòu)建計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。最后,

就可以遍歷計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路。

[0113]其中,拓?fù)浒l(fā)現(xiàn)算法的具體流程為:

[0114]1.首先,通過檢測函數(shù)檢測算法所在的節(jié)點信息,將其作為根節(jié)點;

[0115]2.然后,通過檢測函數(shù)從根節(jié)點開始對網(wǎng)絡(luò)設(shè)備進行搜索,遍歷全部網(wǎng)絡(luò):并返回

每個設(shè)備的相關(guān)信息(例如,設(shè)備名稱,設(shè)備類型:FDR/EDR/HDR,全局唯一標(biāo)識符GUID等);

[0116]3.再遍歷每個節(jié)點的全部端口,將節(jié)點的全部相鄰節(jié)點添加到節(jié)點列表,并獲取

每個鏈路端口的端口類型和帶寬信息,返回端口類型port_type和帶寬信息port_

bandwidth;

[0117]4.通過函數(shù)建立設(shè)備信息,并根據(jù)設(shè)備類型識別設(shè)備是交換機設(shè)備還是網(wǎng)卡設(shè)

備;

[0118]5.再調(diào)用函數(shù)對拓?fù)浒l(fā)現(xiàn)的設(shè)備進行坐標(biāo)賦值和命名,并將其加入網(wǎng)絡(luò)拓?fù)浣Y(jié)

構(gòu)。

[0119]6.最后,調(diào)用函數(shù)來構(gòu)建設(shè)備數(shù)組,將全部網(wǎng)絡(luò)設(shè)備映射到設(shè)備數(shù)組,即可完成拓

撲發(fā)現(xiàn)的過程。

[0120]其中,如圖6所示,為進行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)的過程的流程圖,即在計算機機群中,

從預(yù)設(shè)根節(jié)點開始遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),獲取至少兩個不同

通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備過程的流程圖。其中,物理網(wǎng)絡(luò)結(jié)構(gòu)(Physical_Topology)是

12

CN114217920A說明書10/20頁

指計算機機群中實際網(wǎng)絡(luò)設(shè)備之間的連接關(guān)系,對應(yīng)到某個交換機的某個端口連接到對端

的某個交換機的某個端口或者某個HCA(HostChannelAdapter)網(wǎng)卡的某個端口。邏輯網(wǎng)

絡(luò)結(jié)構(gòu)(Logical_Topology)是計算機機群中的作業(yè)調(diào)度系統(tǒng)可識別理解的邏輯形式,便

于進行作業(yè)調(diào)度。其中,物理網(wǎng)絡(luò)結(jié)構(gòu)與邏輯網(wǎng)絡(luò)結(jié)構(gòu)二者在對應(yīng)關(guān)系上是完全一致的。將

所獲取的網(wǎng)絡(luò)設(shè)備數(shù)組,劃分為網(wǎng)卡設(shè)備數(shù)組及交換機設(shè)備數(shù)組。

[0121]步驟440,獲取網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系,基于網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備的端口連接關(guān)

系構(gòu)建計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。

[0122]在進行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn),即在計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷至少兩個

不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備之

后,構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。具體的,基于進行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)所得到的網(wǎng)絡(luò)設(shè)備,遍歷整個

計算機機群,梳理出每條鏈路的連接關(guān)系,即梳理出每條鏈路上的網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備的端

口連接關(guān)系,就可以基于網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系構(gòu)建計算機機群的網(wǎng)絡(luò)拓?fù)?/p>

結(jié)構(gòu)。

[0123]例如,可以以交換機為基礎(chǔ)單位,構(gòu)建每臺交換機的端口連接關(guān)系列表

topology.list,該端口連接關(guān)系列表topology.list中包括交換機名稱、設(shè)備類型、端口

號、端口類型、端口帶寬等信息,以供在進行作業(yè)調(diào)度時進行解析拓?fù)浣Y(jié)構(gòu)。其中,端口連接

關(guān)系列表topology.list,具體如表1所示:

[0124]表1端口連接關(guān)系列表topology,list

設(shè)備命設(shè)備類對端設(shè)對端設(shè)備端口端口

設(shè)備名稱設(shè)備GUID對端GUID

名型備名稱類型類型帶寬

SW-HDSW200-a0x98039b0300bSW200-0x98039b0300b

SwitchSwitchHDR200G

R-01Olrl7d6deR017d6ee

SW-EDSW100-C0xb8599f03005SW100-0xb8599f03003

SwitchSwitchEDR100G

R-0202r323df8R02f7f36

..............................................................

[0126]其中,全局唯一標(biāo)識符(GUI中GloballyUniqueIdentifier)是一種由算法生成

的二進制長度為128位的數(shù)字標(biāo)識符。

[0127]步驟460,遍歷計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通

信鏈路;通信鏈路包括從源節(jié)點到目標(biāo)節(jié)點之間的網(wǎng)絡(luò)設(shè)備及網(wǎng)絡(luò)設(shè)備之間的鏈路信息。

[0128]在計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓

撲結(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備之后,構(gòu)建了計算機機群的網(wǎng)絡(luò)

拓?fù)浣Y(jié)構(gòu)。然后,遍歷整個網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對端口連接關(guān)系列表topology,list進行解析,生

成多條通信鏈路。即從源節(jié)點到目標(biāo)節(jié)點,將網(wǎng)絡(luò)設(shè)備基于網(wǎng)絡(luò)設(shè)備之間的鏈路關(guān)系進行

連接起來。如下所示為所解析出的一條具體的通信鏈路1:

[0129]Fromca{0xe612c24004120191}portnum1lid82-82"L44HCA-2"

[0130][l]->switchport{0xlc34da03005127f4}[9]lid66-66,,SW200-R0-G0L0,/

[0131][36]->switchport{0xlc34da03006082c4}[26]lid62-62z,SW200-R0-G0Rl/,

[0132][34]->switchport{0xlc34da0300608244}[24]lid54-54^200-R0-GOLI"

[0133][H]->caport{Oxe612c24004120481}[1]lid44-44"L19HCA-2"

[0134]Toca{0xe612c24004120481}portnum1lid44-44"L19HCA-2"

[0135]對該通信鏈路的具體解釋,可以參考上文中的描述,在此處不再贅述。其中,若根

13

CN114217920A說明書11/20頁

據(jù)所述待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、所述待處理業(yè)務(wù)的服務(wù)級別,從所述多條通信鏈

路中確定目標(biāo)通信鏈路為通信鏈路1,則將所述待處理業(yè)務(wù)分配至所述通信鏈路1進行執(zhí)

行。即待處理業(yè)務(wù)依次由通信鏈路1上計算節(jié)點L44的網(wǎng)卡HCA-2、路由器“SW200-R0-G0L0”、

路由器”SW200-R0-G0R1"、路由器"SW200-R0-G0L1”、計算節(jié)點L19中的HCA-2進行執(zhí)行,以完

成待處理業(yè)務(wù)的整個處理過程。

[0136]本申請實施例中,在計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷至少兩個不同通信帶

寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)備。獲取網(wǎng)絡(luò)設(shè)

備的端口連接關(guān)系,基于網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系構(gòu)建計算機機群的網(wǎng)絡(luò)拓?fù)?/p>

結(jié)構(gòu)。遍歷計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路;通信

鏈路包括從源節(jié)點到目標(biāo)節(jié)點之間的網(wǎng)絡(luò)設(shè)備及網(wǎng)絡(luò)設(shè)備之間的鏈路信息。針對至少兩個

不同通信帶寬的計算機機群,通過網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)的過程可以獲取計算機機群中的網(wǎng)絡(luò)

設(shè)備。然后,再基于所獲取的網(wǎng)絡(luò)設(shè)備,構(gòu)建計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。最后,遍歷計算機

機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路。如此,就實現(xiàn)了在不同

通信帶寬的計算機機群中解析出了多條通信鏈路,以便在不同通信帶寬的機群之間進行作

業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

[0137]在一個實施例中,提供了一種作業(yè)調(diào)度方法,還包括:

[0138]若計算機機群發(fā)生更新,則從預(yù)設(shè)根節(jié)點重新開始遍歷計算機機群,獲取計算機

機群中的網(wǎng)絡(luò)設(shè)備;

[0139]獲取網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系,基于網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系重新構(gòu)

建計算機機群的新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);

[0140]遍歷計算機機群的新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條新

的通信鏈路。

[0141]具體的,計算機機群并不是一成不變的,計算機機群內(nèi)部的網(wǎng)絡(luò)設(shè)備會發(fā)生變更。

例如,在計算機機群中增加、減少或變更網(wǎng)絡(luò)設(shè)備,均為計算機機群發(fā)生了更新的情況,本

申請對此不做限定。

[0142]若計算機機群發(fā)生更新時,首先,需要重新在計算機機群中,從預(yù)設(shè)根節(jié)點開始遍

歷至少兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的

網(wǎng)絡(luò)設(shè)備。如圖6所示,為進行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)的過程的流程圖,即從預(yù)設(shè)根節(jié)點開始遍

歷計算機機群,獲取計算機機群中的網(wǎng)絡(luò)設(shè)備過程的流程圖。

[0143]其次,在進行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn),即在計算機機群中,從預(yù)設(shè)根節(jié)點開始遍歷至少

兩個不同通信帶寬的機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡(luò)設(shè)

備之后,構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。具體的,基于進行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)所得到的網(wǎng)絡(luò)設(shè)備,遍歷

整個計算機機群,梳理出每條鏈路的連接關(guān)系,即梳理出每條鏈路上的網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備

的端口連接關(guān)系,就可以基于網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備的端口連接關(guān)系構(gòu)建計算機機群的網(wǎng)絡(luò)

拓?fù)浣Y(jié)構(gòu)。

[0144]最后,遍歷整個網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),對端口連接關(guān)系列表topology,list進行解析,生

成多條通信鏈路。即從源節(jié)點到目標(biāo)節(jié)點,將網(wǎng)絡(luò)設(shè)備基于網(wǎng)絡(luò)設(shè)備之間的鏈路關(guān)系進行

連接起來。具體的解析算法,同上一個實施例中的記載,在此不再贅述。

[0145]本申請實施例中,若計算機機群發(fā)生更新,針對至少兩個不同通信帶寬的計算機

14

CN114217920A說明書12/20頁

機群,通過網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)的過程可以獲取計算機機群中的網(wǎng)絡(luò)設(shè)備。然后,再基于所獲

取的網(wǎng)絡(luò)設(shè)備,構(gòu)建計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。最后,遍歷計算機機群的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),

對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進行解析生成多條通信鏈路。如此,若具有不同通信帶寬的計算機機群發(fā)

生更新,也依然可以及時從新的計算機機群中解析出了多條通信鏈路,以便在新的計算機

機群之間進行作業(yè)調(diào)度,進而實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。

[0146]在一個實施例中,如圖6所示,步驟360,根據(jù)待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目、待

處理業(yè)務(wù)的服務(wù)級別,從多條通信鏈路中確定目標(biāo)通信鏈路,包括:

[0147]步驟362,獲取待處理業(yè)務(wù)所需的計算節(jié)點數(shù)目。

[0148]不同的業(yè)務(wù)的計算量是不同的,而不同的計算量顯然所需的計算節(jié)點數(shù)目也是不

同的。一般計算量越大則所需的計算節(jié)點數(shù)目越多。因此,可以基于業(yè)務(wù)的不同計算量確定

該業(yè)務(wù)所需的計算節(jié)點數(shù)目?;蛘?,預(yù)先對業(yè)務(wù)進行劃分類型,針對不同類型的業(yè)務(wù)確定其

所需的計算節(jié)點數(shù)目。

[0149]由于預(yù)先確定了不同業(yè)務(wù)所需的計算節(jié)點數(shù)目,因此,在進行作業(yè)調(diào)度過程中,就

可以根據(jù)待處理業(yè)務(wù)獲取到該待處

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論