![《路由優(yōu)化算法和網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn)》6800字(論文)_第1頁](http://file4.renrendoc.com/view11/M01/05/29/wKhkGWd5VBeAHmUwAALxq28sB_g833.jpg)
![《路由優(yōu)化算法和網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn)》6800字(論文)_第2頁](http://file4.renrendoc.com/view11/M01/05/29/wKhkGWd5VBeAHmUwAALxq28sB_g8332.jpg)
![《路由優(yōu)化算法和網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn)》6800字(論文)_第3頁](http://file4.renrendoc.com/view11/M01/05/29/wKhkGWd5VBeAHmUwAALxq28sB_g8333.jpg)
![《路由優(yōu)化算法和網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn)》6800字(論文)_第4頁](http://file4.renrendoc.com/view11/M01/05/29/wKhkGWd5VBeAHmUwAALxq28sB_g8334.jpg)
![《路由優(yōu)化算法和網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn)》6800字(論文)_第5頁](http://file4.renrendoc.com/view11/M01/05/29/wKhkGWd5VBeAHmUwAALxq28sB_g8335.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
路由優(yōu)化算法和網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn)摘要 隨著通信技術(shù)和互聯(lián)網(wǎng)產(chǎn)業(yè)的高速發(fā)展,網(wǎng)絡(luò)的形態(tài)出現(xiàn)了多樣化、復(fù)雜化和扁平化的趨勢。在軟件定義網(wǎng)絡(luò)的背景下,傳統(tǒng)的面對(duì)網(wǎng)絡(luò)層的路由優(yōu)化技術(shù)收斂速度不足,無法及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)變化等問題越加凸顯。近年來試圖利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)路由優(yōu)化的研究越來越多,例如將Q-Learning應(yīng)用到網(wǎng)絡(luò)路由中的嘗試。由于強(qiáng)化學(xué)習(xí)擁有較強(qiáng)的決策能力,其在網(wǎng)絡(luò)優(yōu)化中的應(yīng)用較為常見。本論文設(shè)計(jì)了基于深度強(qiáng)化學(xué)習(xí)的DDPG算法的網(wǎng)絡(luò)路由優(yōu)化算法。由于DDPG算法改進(jìn)了強(qiáng)化學(xué)習(xí)中的固定策略梯度算法,可以更準(zhǔn)確地?cái)M合策略函數(shù),擁有解決連續(xù)高維度規(guī)劃的能力,適應(yīng)目前實(shí)際網(wǎng)絡(luò)控制的需要,并且對(duì)特定的網(wǎng)絡(luò)形態(tài)依賴較小,因而采取了這一算法。首先采用了OMNeT++網(wǎng)絡(luò)仿真軟件搭建了一個(gè)小型的軟件控制網(wǎng)絡(luò)作為仿真平臺(tái),網(wǎng)絡(luò)節(jié)點(diǎn)之間通過三種數(shù)據(jù)包傳遞信息,通過流量控制組件讀取網(wǎng)絡(luò)權(quán)重更新路由。進(jìn)而基于Keras+tensorflow編寫了路由優(yōu)化算法的主體部分,調(diào)用并讀取網(wǎng)絡(luò)自發(fā)產(chǎn)生的流量矩陣并在每個(gè)步驟中對(duì)其進(jìn)行學(xué)習(xí)和優(yōu)化。定義了該算法輸入的狀態(tài)為流量矩陣,輸出的動(dòng)作為鏈路權(quán)重,并且可以針對(duì)不同需求和網(wǎng)絡(luò)指標(biāo)靈活調(diào)整反饋函數(shù),來適應(yīng)不同的網(wǎng)絡(luò)形態(tài)。最后,進(jìn)行了仿真實(shí)驗(yàn)檢驗(yàn)算法性能。實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)的最短路徑優(yōu)先算法,該算法可以有效地降低網(wǎng)絡(luò)平均時(shí)延,減少網(wǎng)絡(luò)流量浪費(fèi),并且具有較好的泛化性。關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)路由優(yōu)化DDPG目錄TOC\o"1-2"\h\u31549路由優(yōu)化算法和網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn) i18207摘要 i237331.1基于DRL的路由優(yōu)化算法需求分析 ii256481.2路由優(yōu)化算法的設(shè)計(jì) ii64611.2.1路由算法設(shè)計(jì)的分析 ii274051.2.2路由算法設(shè)計(jì)的實(shí)現(xiàn) v267311.3網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn) vii17461.3.1網(wǎng)絡(luò)模型的分析 vii233651.3.2網(wǎng)絡(luò)模型的實(shí)現(xiàn) viii13672結(jié)語 x11581參考文獻(xiàn) xi1.1基于DRL的路由優(yōu)化算法需求分析 路由優(yōu)化算法是根據(jù)一系列網(wǎng)絡(luò)條件來優(yōu)化路由的選取,從而提高網(wǎng)絡(luò)性能的算法。在傳統(tǒng)的網(wǎng)絡(luò)形態(tài)中,動(dòng)態(tài)路由算法諸如OSPF和BGP雖然能動(dòng)態(tài)生成路由表,但大多只是參考靜態(tài)的網(wǎng)絡(luò)參數(shù)來確定最佳路徑,例如路由器時(shí)延、路徑跳數(shù)、網(wǎng)絡(luò)容量等。然而容量大、條數(shù)少的路徑往往數(shù)據(jù)量也更大,總是選取最佳路徑有時(shí)候未必會(huì)獲得最佳的效果。而在軟件定義網(wǎng)絡(luò)架構(gòu)中,位于控制平面的控制器(controller)不僅可以知道網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、線路容量、往返時(shí)延等整體數(shù)據(jù),也可以獲得諸如端到端的流量、網(wǎng)絡(luò)節(jié)點(diǎn)的加入和離開等實(shí)時(shí)性的信息。充分利用這些實(shí)時(shí)性的信息,實(shí)時(shí)性改變局部節(jié)點(diǎn)的路由策略,可以獲得更優(yōu)秀的路由效果。已經(jīng)有一些采用智能算法優(yōu)化路由關(guān)系的研究,但它們的應(yīng)用大多并不廣泛,而且沒有結(jié)合深度強(qiáng)化學(xué)習(xí)。 本項(xiàng)目組基于DDPG算法開發(fā)出的路由優(yōu)化算法可以接收網(wǎng)絡(luò)產(chǎn)生的流量矩陣(即以特定節(jié)點(diǎn)對(duì)為起點(diǎn)和終點(diǎn)的流量分布),產(chǎn)生鏈路權(quán)重,通過鏈路權(quán)重計(jì)算出最佳路由,從而實(shí)時(shí)調(diào)整路由策略。 因此,本次畢設(shè)的目的就是通過網(wǎng)絡(luò)流量矩陣調(diào)整鏈路權(quán)重,在控制平面生成新路由表,并改變轉(zhuǎn)發(fā)層面的轉(zhuǎn)發(fā)策略。使用此算法,用戶可以通過訓(xùn)練程序內(nèi)的神經(jīng)網(wǎng)絡(luò)使之產(chǎn)生更準(zhǔn)確的鏈路信息,實(shí)現(xiàn)路由優(yōu)化。并且可以根據(jù)網(wǎng)絡(luò)的具體環(huán)境修改參數(shù),來改變優(yōu)化目標(biāo)和鏈路信息的生成規(guī)則。1.2路由優(yōu)化算法的設(shè)計(jì)1.2.1路由算法設(shè)計(jì)的分析 強(qiáng)化學(xué)習(xí)中智能體通過狀態(tài)、動(dòng)作,和獎(jiǎng)勵(lì)與環(huán)境交互,合理設(shè)置這些輸入輸出值以及它們與網(wǎng)絡(luò)模型的關(guān)系,是將DRL引入網(wǎng)絡(luò)路由優(yōu)化最重要的事情。根據(jù)一系列相關(guān)深度強(qiáng)化學(xué)習(xí)路由優(yōu)化的研究可知,傳統(tǒng)意義上學(xué)術(shù)界常用的解決網(wǎng)絡(luò)路由的方法是將某一時(shí)刻所有節(jié)點(diǎn)和通路的路由狀態(tài)視為神經(jīng)網(wǎng)絡(luò)輸入的狀態(tài),動(dòng)作影響所有節(jié)點(diǎn)到其下一跳節(jié)點(diǎn)的路由選擇,最后使用最短路徑優(yōu)先算法(ShortestPathFirst,SPF)得到每對(duì)源-目的節(jié)點(diǎn)之間的最短路徑。對(duì)于每一狀態(tài)——?jiǎng)幼鲗?duì),環(huán)境都根據(jù)下一時(shí)間段單個(gè)或多個(gè)網(wǎng)絡(luò)狀態(tài)指標(biāo)決定反饋的獎(jiǎng)勵(lì),這些指標(biāo)可能包括時(shí)延、吞吐量、丟包率、帶寬、擁塞水平等。在此可以對(duì)深度強(qiáng)化學(xué)習(xí)模型的諸要素作出限定。 (1)狀態(tài):狀態(tài)應(yīng)當(dāng)是智能體所處環(huán)境的實(shí)時(shí)特征,否則難以反映網(wǎng)絡(luò)需要。由于路由器一般以數(shù)據(jù)包的形式進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā),通常使用業(yè)務(wù)流的傳輸狀況指代整個(gè)網(wǎng)絡(luò)的路由情況??梢远x所有數(shù)據(jù)包的集合為P,對(duì)每個(gè)通過網(wǎng)絡(luò)傳播的數(shù)據(jù)包pi而言,它在一個(gè)又一個(gè)的節(jié)點(diǎn)間的相互傳播,可以簡化為單位時(shí)間從di節(jié)點(diǎn)傳輸?shù)絛j節(jié)點(diǎn)的運(yùn)動(dòng),到達(dá)dj后可以視為離開了網(wǎng)絡(luò)。不妨假設(shè)網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)為N,而且每個(gè)節(jié)點(diǎn)都可以轉(zhuǎn)發(fā)信息而且將數(shù)據(jù)包傳入傳出網(wǎng)絡(luò),則所有源——目的節(jié)點(diǎn)對(duì)構(gòu)成了一個(gè)N×N的方陣??梢詫顟B(tài)s定義為維度N×N的流量矩陣(TrafficMatrix,TM),其中每個(gè)元素dijs= (2)動(dòng)作:動(dòng)作是智能體每一時(shí)刻對(duì)網(wǎng)絡(luò)發(fā)出的具體路由規(guī)定,它需要根據(jù)當(dāng)前觀察到的網(wǎng)絡(luò)狀態(tài)和策略做出。不同于傳統(tǒng)的路由策略,基于概率的路由輸出的動(dòng)作給所有鏈路指定權(quán)重,然后根據(jù)最短路徑優(yōu)先計(jì)算出具體的路由表,根據(jù)鏈路權(quán)重可以唯一確定一個(gè)路由表??梢远x節(jié)點(diǎn)i到節(jié)點(diǎn)j的權(quán)重是wij,如果此節(jié)點(diǎn)有m個(gè)鄰接節(jié)點(diǎn),則可以組成一個(gè)權(quán)重向量Wi={wi1 (3)獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)的形式是強(qiáng)化學(xué)習(xí)的核心問題,網(wǎng)絡(luò)根據(jù)智能體的指令做出行動(dòng)之后,返還給智能體的評(píng)價(jià)指標(biāo),是當(dāng)前狀態(tài)對(duì)應(yīng)當(dāng)前動(dòng)作的映射。它可以由很多網(wǎng)絡(luò)指標(biāo)組成,再依據(jù)現(xiàn)實(shí)需要加入一些超參數(shù)來調(diào)整不同指標(biāo)的比例,比如如下公式2-6的情況。R它描述了在狀態(tài)st的情況下發(fā)出動(dòng)作at獲得的獎(jiǎng)勵(lì),其中?(at)是一個(gè)函數(shù),表明動(dòng)作at產(chǎn)生作用的時(shí)間(包含轉(zhuǎn)換網(wǎng)絡(luò)權(quán)重,數(shù)據(jù)包重新開始發(fā)送的時(shí)間)。而α,β,γ∈[0,1]則分別是時(shí)延、帶寬、丟包率的權(quán)重參數(shù)。TPij是節(jié)點(diǎn) (4)策略:智能體的策略指導(dǎo)智能體在特定環(huán)境下的行為方式,是從當(dāng)前狀態(tài)到當(dāng)前動(dòng)作的映射。DDPG的Action模塊應(yīng)用了固定策略算法,策略網(wǎng)絡(luò)會(huì)直接選擇預(yù)期回報(bào)之和最大的動(dòng)作,而不是輸出概率分布,因此可以有效減少算法的計(jì)算量,提升收斂速度。為了引入隨機(jī)性,一般會(huì)給動(dòng)作加一個(gè)隨機(jī)噪聲。整體模型訓(xùn)練的偽代碼大體可以寫成如下形式: 1.隨機(jī)初始化DDPG的決策網(wǎng)絡(luò)μθ(s)和價(jià)值網(wǎng)絡(luò) 2.設(shè)置相對(duì)于μθ(s)的貪婪策略π0 3.whilenotDone: 4.根據(jù)環(huán)境初始化狀態(tài)s0 5.for(n=1,2,3,…): 6.從策略網(wǎng)絡(luò)中獲取動(dòng)作a。 7.給動(dòng)作引入OU噪聲,獲得更新的動(dòng)作a'。 8.sk+1 9.將軌跡[s 10.sk 11.k←k+1 12.從經(jīng)驗(yàn)池buffer中隨機(jī)抽取數(shù)據(jù)計(jì)算yt 13.根據(jù)公式2.1計(jì)算損失函數(shù)。 14.計(jì)算出? 15.用梯度下降法最小化損失函數(shù),更新參數(shù) 16.ifk%n==0,更新目標(biāo)網(wǎng)絡(luò)參數(shù) 17.endfor 18.endwhile 以上算法中,第6到11行為正向采樣的過程,第12到第16行為根據(jù)數(shù)據(jù)訓(xùn)練并更新模型參數(shù)的過程,其中第8行對(duì)網(wǎng)絡(luò)環(huán)境進(jìn)行了封裝,省略了網(wǎng)絡(luò)模型的創(chuàng)建部分。 以上狀態(tài)空間、動(dòng)作空間和策略的具體設(shè)計(jì)就是DRL路由優(yōu)化網(wǎng)絡(luò)的主要工作,和網(wǎng)絡(luò)形態(tài)關(guān)系緊密,而且基本不需要補(bǔ)充額外的內(nèi)容。處在知識(shí)平面上的DRL全局規(guī)劃網(wǎng)絡(luò)周期性地從控制平面接收網(wǎng)絡(luò)的流量狀態(tài),然后輸入內(nèi)部的兩個(gè)神經(jīng)網(wǎng)絡(luò),得出下一步的鏈路信息并訓(xùn)練預(yù)測模型,再將計(jì)算后的鏈路信息通過控制平面下發(fā)給數(shù)據(jù)平面的每個(gè)路由器,展開新一輪的循環(huán)。1.2.2路由算法設(shè)計(jì)的實(shí)現(xiàn) 算法程序部分主要內(nèi)容均使用Python完成,少部分重要參數(shù)寫在JSON文件中。主要包括DDPG算法與環(huán)境的設(shè)置。參照通行的強(qiáng)化學(xué)習(xí)框架,設(shè)置為智能體和環(huán)境兩個(gè)部分。 智能體部分分別構(gòu)建了Actor模塊和的Critic模塊,它們分別在程序中對(duì)應(yīng)AcotorNetwork類和CriticNetwork類。使用Keras構(gòu)建主神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)是完全一致的。Actor網(wǎng)絡(luò)有三個(gè)全連接層,輸入層輸入的是去掉對(duì)角線的路由矩陣(狀態(tài)),由于網(wǎng)絡(luò)采用的是14*14的無圈網(wǎng)絡(luò),輸入長度為184個(gè)單位,信息的維度在三個(gè)全連接層之間逐漸收縮。第一個(gè)隱藏層有91個(gè)單元,第二個(gè)隱藏層收縮到了42個(gè)神經(jīng)元,輸出層輸出21維鏈路權(quán)重向量(動(dòng)作)。前兩層的激活函數(shù)采用sigmoid函數(shù),而輸出層采用relu函數(shù)作為激活函數(shù)。Critic網(wǎng)絡(luò)結(jié)合了強(qiáng)化學(xué)習(xí)的動(dòng)作與狀態(tài),分別對(duì)應(yīng)兩個(gè)輸入層,流量數(shù)據(jù)會(huì)經(jīng)過兩個(gè)全連接層,將維度降低到42,動(dòng)作數(shù)據(jù)只經(jīng)過一個(gè)全連接層,兩者被加工成相等維度,進(jìn)入一個(gè)融合層(Merge)匯合,再由兩個(gè)全連接層得出對(duì)價(jià)值函數(shù)的價(jià)值。獎(jiǎng)勵(lì)采用網(wǎng)絡(luò)的平均時(shí)延,可以根據(jù)參數(shù)改為最大時(shí)延或時(shí)延的中位數(shù),是一個(gè)標(biāo)量。為了以獎(jiǎng)勵(lì)最大化算法縮減時(shí)延,獎(jiǎng)勵(lì)的數(shù)值取負(fù)數(shù)。環(huán)境部分?jǐn)M定了環(huán)境類OmnetBalancerEnv和OmnetLinkweightEnv作為和算法程序交互的環(huán)境,也起到聯(lián)系仿真平臺(tái)的作用。主函數(shù)定義環(huán)境實(shí)例,并在神經(jīng)網(wǎng)絡(luò)訓(xùn)練前初始化,迭代過程中不斷接收主動(dòng)作,并返回強(qiáng)化學(xué)習(xí)的狀態(tài)、獎(jiǎng)勵(lì)和完成情況(done),同時(shí)將必要的信息存儲(chǔ)到文件中。環(huán)境的主要參數(shù)如表3-1所示:參數(shù)名稱具體說明ENV環(huán)境環(huán)境的名稱ROUTING路由路由的格式folder文件夾存取文件的文件夾ACTIVE_NODES活動(dòng)節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)點(diǎn)的數(shù)目graph拓?fù)鋱D網(wǎng)絡(luò)的拓?fù)鋱D(采用networkx的圖格式)a_dim動(dòng)作維度強(qiáng)化學(xué)習(xí)動(dòng)作對(duì)應(yīng)的長度s_dim狀態(tài)維度強(qiáng)化學(xué)習(xí)狀態(tài)對(duì)應(yīng)的長度tgen流量方陣流量矩陣(采用單獨(dú)編寫的Trafftic類)capacity容量網(wǎng)絡(luò)的容量,即能正常傳輸?shù)牧髁孔畲笾抵蚭nv_T流量矩陣環(huán)境的流量矩陣(ndarray形式)env_W權(quán)重各條鏈路的權(quán)重env_R路由網(wǎng)絡(luò)的路由表env_D時(shí)延各條鏈路的時(shí)延表3-1環(huán)境的參數(shù)環(huán)境類主要有兩個(gè)方法,一個(gè)是環(huán)境初始化函數(shù)reset,一個(gè)是迭代函數(shù)step。reset函數(shù)會(huì)隨機(jī)初始化鏈路權(quán)重,并生成一個(gè)流量矩陣,并轉(zhuǎn)化成向量形式作為強(qiáng)化學(xué)習(xí)的狀態(tài)返還給主函數(shù),reset函數(shù)不需要參數(shù)。step函數(shù)在訓(xùn)練模型的每個(gè)循環(huán)內(nèi)都會(huì)被調(diào)用一次,它接收Actor神經(jīng)網(wǎng)絡(luò)生成的權(quán)重,依據(jù)Dijkstra計(jì)算并存儲(chǔ)最佳路由,并通過命令行啟動(dòng)OMNeT++程序,讀取仿真數(shù)據(jù)并調(diào)用函數(shù),生成對(duì)應(yīng)的獎(jiǎng)勵(lì)。最后會(huì)把獎(jiǎng)勵(lì)、更新后的狀態(tài)和是否完成傳送到主函數(shù)。同時(shí)還包含一些轉(zhuǎn)化函數(shù)負(fù)責(zé)各種職能。(1)讀取文件:file_to_csv、ned_to_capacity等。(2)存儲(chǔ)文件:vector_to_file等。(3)轉(zhuǎn)換數(shù)據(jù)格式:matrix_to_rl、matrix_to_omnet_v、csv_to_matrix等。(4)最終輸出內(nèi)容:rl_state、rl_reward等。程序主函數(shù)是playGame,它負(fù)責(zé)接收參數(shù)、訓(xùn)練網(wǎng)絡(luò),并將將數(shù)據(jù)存儲(chǔ)到特定文件夾中。函數(shù)流程如圖所示:圖3-1playGame的流程圖1.3網(wǎng)絡(luò)模型的設(shè)計(jì)與實(shí)現(xiàn)1.3.1網(wǎng)絡(luò)模型的分析 本論文設(shè)計(jì)的基于深度強(qiáng)化學(xué)習(xí)的路由優(yōu)化算法預(yù)期會(huì)運(yùn)行在知識(shí)定義網(wǎng)絡(luò)的知識(shí)平面,利用網(wǎng)絡(luò)設(shè)備的編程接口API和控制層交互,自動(dòng)化接收和分析網(wǎng)絡(luò)傳輸?shù)臅r(shí)延等網(wǎng)絡(luò)指標(biāo)。再把更新的鏈路權(quán)重以及其他控制信息發(fā)送給控制平面,控制平面的流量控制組件接收網(wǎng)絡(luò)權(quán)重,再搜索出特定的鏈路數(shù)據(jù)信息轉(zhuǎn)發(fā)給數(shù)據(jù)平面的路由器,路由器會(huì)根據(jù)鏈路權(quán)重更新路由表,決定轉(zhuǎn)發(fā)方向。從而對(duì)網(wǎng)絡(luò)上有限的資源進(jìn)行優(yōu)化,減少網(wǎng)絡(luò)資源的浪費(fèi)。根據(jù)軟件定義網(wǎng)絡(luò)編程的可擴(kuò)展性,在不需要逐一配置每個(gè)交換設(shè)備的情況下,利用控制器提供的更新策略完成流量管理功能升級(jí),智能地整合全網(wǎng)資源。一個(gè)路由器對(duì)應(yīng)著多個(gè)端口,它的每個(gè)端口都對(duì)應(yīng)著信息隊(duì)列,如果一個(gè)數(shù)據(jù)包在隊(duì)列里的時(shí)間過長,則會(huì)視為超時(shí)丟棄。路由器會(huì)讀取路由優(yōu)化算法計(jì)算出來的路由信息,然后依照特定的路由信息決定該把數(shù)據(jù)包發(fā)送到哪個(gè)信息隊(duì)列中去。網(wǎng)絡(luò)分組到達(dá)路由可以視為一個(gè)離散時(shí)間排隊(duì)系統(tǒng)的問題,上級(jí)的交換機(jī)負(fù)責(zé)將數(shù)據(jù)包傳送給下級(jí)的交換機(jī),容量為一個(gè)單位。一般使用先入先出的準(zhǔn)則,路由器需要提前為隊(duì)列的隊(duì)首分組安排一個(gè)下級(jí)交換機(jī)承接信息。所有分組到達(dá)下一個(gè)交換機(jī)后,繼續(xù)進(jìn)行新一輪分組,類似的路由和分組方法依次重復(fù)。網(wǎng)絡(luò)中的應(yīng)用不定期地產(chǎn)生數(shù)據(jù)在網(wǎng)絡(luò)中相互傳輸,統(tǒng)計(jì)模塊會(huì)將采集到的信息存儲(chǔ)在相應(yīng)的模塊中(模擬程序里是存儲(chǔ)到文件中)以備知識(shí)平面提取。定期獲得全網(wǎng)拓?fù)湟呀?jīng)流量狀態(tài)等信息,監(jiān)控網(wǎng)絡(luò)層數(shù),調(diào)節(jié)網(wǎng)絡(luò)活動(dòng)??傮w而言控制平面包流量控制組件和信息采集組件,數(shù)據(jù)平面包括具體的網(wǎng)絡(luò)節(jié)點(diǎn)和轉(zhuǎn)發(fā)器(也包括路由器)。每經(jīng)過一定時(shí)間,知識(shí)平面地路由優(yōu)化算法就會(huì)讀出網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行優(yōu)化,再將優(yōu)化后的鏈路權(quán)重信息下發(fā)出去,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)管理的多樣性和靈活性。1.3.2網(wǎng)絡(luò)模型的實(shí)現(xiàn)網(wǎng)絡(luò)仿真部分采用的仿真軟件是OMNeT++,OMNeT++是一個(gè)應(yīng)用廣泛的離散事件仿真器,同時(shí)也是一個(gè)開源網(wǎng)絡(luò)仿真平臺(tái),擁有較為完善的圖形界面。本實(shí)驗(yàn)?zāi)M了SDN網(wǎng)絡(luò)的控制平面和數(shù)據(jù)平面,并完成了收集記錄網(wǎng)絡(luò)時(shí)延的功能。OMNeT++程序主要由ned程序和相對(duì)應(yīng)的c++程序,以及負(fù)責(zé)初始化的ini文件和組裝程序的makefile文件組成,網(wǎng)絡(luò)的主體部分定義在包package中。本實(shí)驗(yàn)構(gòu)建了一個(gè)14節(jié)點(diǎn)的全連通網(wǎng)絡(luò),網(wǎng)絡(luò)的結(jié)構(gòu)如圖所示。圖3-2網(wǎng)絡(luò)的結(jié)構(gòu)NetworkAll文件定義了網(wǎng)絡(luò)節(jié)點(diǎn)和它們之間的通路。網(wǎng)絡(luò)節(jié)點(diǎn)可以是服務(wù)器(server)也可以是負(fù)載均衡器(balancer),本實(shí)驗(yàn)的節(jié)點(diǎn)均為服務(wù)器。服務(wù)器內(nèi)部結(jié)構(gòu)如圖3-3所示:圖3-3server內(nèi)部結(jié)構(gòu)其中包含若干元件:(1)流量控制器(TrafficController):從主程序中讀取更新的流量矩陣并將流量數(shù)據(jù)發(fā)送給對(duì)應(yīng)的應(yīng)用。(2)應(yīng)用(Application):模擬網(wǎng)絡(luò)中實(shí)際的應(yīng)用,數(shù)量就是網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù),可以根據(jù)流量控制器傳入的間隔,定期發(fā)送不定長的數(shù)據(jù)。本實(shí)驗(yàn)中數(shù)據(jù)長度采用指數(shù)分布,但最長不超過5000比特,實(shí)際操作也可以采用其他分布。每個(gè)Application對(duì)應(yīng)一個(gè)目的節(jié)點(diǎn),通過設(shè)置發(fā)送間隔來控制端口之間流量大小。(3)路由器:負(fù)責(zé)數(shù)據(jù)的轉(zhuǎn)發(fā)和接收。如果此節(jié)點(diǎn)就是接受數(shù)據(jù)的目的節(jié)點(diǎn)則將數(shù)據(jù)接收,如果數(shù)據(jù)包的轉(zhuǎn)發(fā)次數(shù)到達(dá)TTL則刪除數(shù)據(jù),視為丟包。如果處在中間節(jié)點(diǎn)則轉(zhuǎn)發(fā)到對(duì)應(yīng)端口。路由器通過讀取主程序更新的路由表指導(dǎo)路由,內(nèi)部沒有算法模塊。(4)端口隊(duì)列(NodeQueue):對(duì)應(yīng)服務(wù)器的一個(gè)端口,數(shù)量和服務(wù)器的端口相等,負(fù)責(zé)數(shù)據(jù)隊(duì)列的等待和管理。負(fù)責(zé)數(shù)據(jù)隊(duì)列的加入和添加,對(duì)于待輸出的數(shù)據(jù)包,如果數(shù)據(jù)等待時(shí)間過長則會(huì)刪除掉,視為丟包。對(duì)從外部接收到的數(shù)據(jù)包則直接傳給路由器,由路由器決定下一步的處理方式。仿真數(shù)據(jù)定義了控制消息ControlPacket、數(shù)據(jù)消息DataPacket、計(jì)時(shí)消息TimerNextPacket三種。流量控制器傳輸出控制消息提供流量強(qiáng)度信息,應(yīng)用產(chǎn)生長度不等的數(shù)據(jù)消息來模擬顯示網(wǎng)絡(luò)中的數(shù)據(jù)包,計(jì)時(shí)消息用于計(jì)算時(shí)間,以便應(yīng)用定期傳出數(shù)據(jù)。結(jié)語路由是傳統(tǒng)通信網(wǎng)絡(luò)的核心功能之一,在網(wǎng)絡(luò)需求和形式日趨多樣化和復(fù)雜化的今天,一些新的應(yīng)用場景需要新的路由策略。路由器本質(zhì)上就是一種特殊的計(jì)算機(jī),隨著芯片技術(shù)的發(fā)展和路由器等網(wǎng)絡(luò)硬件性能的不斷提升,以及包括深度強(qiáng)化學(xué)習(xí)的各種人工智能技術(shù)的提升,基于深度強(qiáng)化學(xué)習(xí)的路由優(yōu)化算法的出現(xiàn)成為了可能。在本論文中,我們實(shí)現(xiàn)了使用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)自動(dòng)路由以及路由優(yōu)化的程序。具有深度學(xué)習(xí)能力的智能硬件設(shè)備使用該算法盡可能壓低傳輸時(shí)延,平均網(wǎng)絡(luò)流量分布,提升網(wǎng)絡(luò)的性能。經(jīng)檢驗(yàn),基于DDPG的路由優(yōu)化算法對(duì)路由時(shí)延和網(wǎng)絡(luò)穩(wěn)定性有較好的效果,尤其是在網(wǎng)絡(luò)流量密集,網(wǎng)絡(luò)負(fù)載大的地方更為突出。該訓(xùn)練方法可以適應(yīng)不斷變化的網(wǎng)絡(luò)流量和鏈路模型,提升了強(qiáng)化學(xué)習(xí)對(duì)網(wǎng)絡(luò)的不同狀態(tài)的穩(wěn)定性。在本實(shí)驗(yàn)中,我們發(fā)現(xiàn)深度強(qiáng)化學(xué)習(xí)應(yīng)用于路由優(yōu)化算法有相對(duì)于傳統(tǒng)路由算法以及啟發(fā)性路由優(yōu)化有以下較為明顯的優(yōu)點(diǎn):不依賴模型:深度強(qiáng)化學(xué)習(xí)只需要知道網(wǎng)絡(luò)的狀態(tài)和延遲即可更新數(shù)據(jù),它可以通過和環(huán)境不斷進(jìn)行動(dòng)態(tài)信息交互(比如動(dòng)作、狀態(tài)、獎(jiǎng)勵(lì)等)來提升自己的性能,對(duì)于有些算法并不需要對(duì)網(wǎng)絡(luò)建模。而傳統(tǒng)的路由優(yōu)化算法大多數(shù)需要對(duì)網(wǎng)絡(luò)模型進(jìn)行詳細(xì)的考察,還要加入一些特殊的條件和簡化方式。更新頻率高:傳統(tǒng)的路由優(yōu)化算法需要走很多步才會(huì)有一次更新,有時(shí)候只有接收方接收到包才能知道傳輸?shù)臅r(shí)延。而基于深度強(qiáng)化學(xué)習(xí)的路由優(yōu)化算法可以讓網(wǎng)絡(luò)節(jié)點(diǎn)在傳播幾步之內(nèi)更新自己的數(shù)據(jù),獲得接近最優(yōu)的路由配置。甚至通過適當(dāng)?shù)膮?shù)設(shè)定可以實(shí)現(xiàn)在一步之內(nèi)實(shí)現(xiàn)近乎最優(yōu)的網(wǎng)絡(luò)配置更新。泛用性強(qiáng):DRL算法驅(qū)動(dòng)的網(wǎng)絡(luò)節(jié)點(diǎn)不需要知道網(wǎng)絡(luò)的整體形態(tài),它們一般假定網(wǎng)絡(luò)是一個(gè)黑盒而自動(dòng)優(yōu)化算法,對(duì)于不同的網(wǎng)絡(luò),只需要修改回報(bào)函數(shù),不需要重新設(shè)計(jì)算法,即可獲得不錯(cuò)的路由優(yōu)化效果。這樣就節(jié)約了大量網(wǎng)絡(luò)建模的時(shí)間以及適配不同網(wǎng)絡(luò)和硬件花費(fèi)的時(shí)間和網(wǎng)絡(luò)資源。參考文獻(xiàn)BouzidiEH,OuttagartsA,LangarR.Deepreinforcementlearningapplicationfornetworklatencymanagementinsoftwaredefinednetworks[C]//2019IEEEGlobalCommunicationsConference(GLOBECOM).IEEE,2019:1-6.LiW,LiG,YuX.AfasttrafficclassificationmethodbasedonSDNnetwork[C]//The4thInternationalConferenceonElectronics,CommunicationsandNetworks,Beijing,China.2015:223-229.ParsaeiMR,MohammadiR,JavidanR.AnewadaptivetrafficengineeringmethodfortelesurgeryusingACOalgorithmoversoftwaredefinednetworks[J].EuropeanResearchinTelemedicine/LaRechercheEuropeenneenTelemedecine,2017,6(3-4):173-180.WangJ,deLaatC,ZhaoZ.QoS-awarevirtualSDNnetworkplanning[C]//2017IFIP/IEEESymposiumonIntegratedNetworkandServiceManagement(IM).IEEE,2017:644
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 圖書館裝修合同書-@-1
- 辦公用品快遞寄件合同模板
- 農(nóng)業(yè)科技園區(qū)肥料配送協(xié)議
- 書店裝修合同主要條款
- 洗浴中心舒適裝修合同模板
- 企業(yè)總部衛(wèi)生間裝修合同
- 博物館裝修設(shè)計(jì)合同模板
- 液態(tài)膠水槽罐車物流合同
- 體育館裝修及看臺(tái)座椅合同
- 專業(yè)健身房裝修協(xié)議
- 2025年中國山泉水市場前景預(yù)測及投資規(guī)劃研究報(bào)告
- GB/T 18109-2024凍魚
- 重慶市2025屆高三第一次聯(lián)合診斷檢測英語試卷(含解析含聽力原文無音頻)
- 《榜樣9》觀后感心得體會(huì)二
- 《西安交通大學(xué)》課件
- 天津市部分區(qū)2024-2025學(xué)年九年級(jí)(上)期末物理試卷(含答案)
- 小學(xué)二年級(jí)數(shù)學(xué)計(jì)算題共4165題
- 一氧化碳中毒培訓(xùn)
- 初二上冊(cè)好的數(shù)學(xué)試卷
- 保潔服務(wù)質(zhì)量與服務(wù)意識(shí)的培訓(xùn)
- 突發(fā)公共衛(wèi)生事件衛(wèi)生應(yīng)急
評(píng)論
0/150
提交評(píng)論