《強化學(xué)習(xí)理論與應(yīng)用》基于AC框架的深度強化學(xué)習(xí)方法_第1頁
《強化學(xué)習(xí)理論與應(yīng)用》基于AC框架的深度強化學(xué)習(xí)方法_第2頁
《強化學(xué)習(xí)理論與應(yīng)用》基于AC框架的深度強化學(xué)習(xí)方法_第3頁
《強化學(xué)習(xí)理論與應(yīng)用》基于AC框架的深度強化學(xué)習(xí)方法_第4頁
《強化學(xué)習(xí)理論與應(yīng)用》基于AC框架的深度強化學(xué)習(xí)方法_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目錄行動者-評論家架構(gòu)14.114.3

A3C算法的實驗結(jié)果及分析14.2

A3C算法14.5

A2C算法的實驗結(jié)果及分析14.4

A2C算法114.6

小結(jié)2在基于隨機策略的AC(Actor-Critic,AC)框架深度強化學(xué)習(xí)系列方法中,一個最核心的算法是由Mnih等人提出的異步優(yōu)勢行動者評論家算法(AsynchronousAdvantageActorCirtic,A3C):該算法基于異步強化學(xué)習(xí)(AsynchronousReinforcementLearning,ARL)思想,在AC框架中加入異步操作,使多個AC網(wǎng)絡(luò)異步并行地工作,加快算法運行速度,使深度強化學(xué)習(xí)算法能夠在CPU上快速地運行。此外,A3C算法不再使用經(jīng)驗回放機制,節(jié)省了內(nèi)存,實現(xiàn)了完全在線式的強化學(xué)習(xí)方式。引言(1)3優(yōu)勢AC算法(AdvantageActorCirtic,A2C):

但由于A3C采用了多個異步并行的網(wǎng)絡(luò)結(jié)構(gòu),所以參數(shù)多,占用內(nèi)存空間大。針對A3C算法存在的問題,提出了優(yōu)勢AC算法(AdvantageActorCirtic,A2C)算法,該算法不再使用異步并行的網(wǎng)絡(luò)結(jié)構(gòu),只用一個AC網(wǎng)絡(luò),其異步并行結(jié)構(gòu)只用于收集樣本,每次樣本收集完成后再進行更新網(wǎng)絡(luò)。引言(2)14.1

行動者-評論家架構(gòu)(1)行動者-評論家(Actor-Critic,AC)方法:

行動者-評論家方法是一類結(jié)合了值函數(shù)方法和策略梯度方法的學(xué)習(xí)方法。

如圖14.1所示。表示策略函數(shù)的結(jié)構(gòu)被稱為行動者,其根據(jù)當前的環(huán)境狀態(tài)信息來選擇Agent所執(zhí)行的動作。表示值函數(shù)的結(jié)構(gòu)被稱為評論家,其通過計算值函數(shù)來評價行動者選擇動作的好與壞。4圖14.1AC結(jié)構(gòu)示意圖14.1

行動者-評論家架構(gòu)(2)右圖中的TD誤差表示的是當前狀態(tài)的1-步回報或者n-步回報與其值函數(shù)之間的差值,TD誤差的計算公式如下:(14.1)5其中::表示TD誤差;:表示在狀態(tài)根據(jù)策略采取動作所獲得的立即獎賞;:表示在狀態(tài)的期望回報值;

行動者-評論家TD方法誤差:圖14.1AC結(jié)構(gòu)示意圖14.1

行動者-評論家架構(gòu)(3)當時表示1-步回報,

時表示k-步回報。TD誤差可以用來評估當前正在被選擇動作的好與壞。當TD誤差為正時,表明未來選擇動作的趨勢應(yīng)該加強;當TD誤差為負時,表明未來選擇動作的趨勢應(yīng)該減弱。假設(shè)動作產(chǎn)生于Gibbs軟最大化方法:其中:,為正的步長參數(shù)。6

14.2

行動者-評論家架(4)AC算法是一種策略梯度算法,與值函數(shù)方法相比,AC方法在選擇動作時所需的計算量相對較小。因為在值函數(shù)方法中,需要計算出當前狀態(tài)下所有可能的動作的函數(shù)值,并且值函數(shù)方法無法用在連續(xù)動作空間任務(wù)中。AC方法的策略是明確的,行動者的動作選擇僅通過策略參數(shù)直接選擇,不需要計算當前狀態(tài)下的所有行動的函數(shù)值。即使動作空間是連續(xù)的情況,AC算法在選擇動作時也不需要在每次的選擇動作時,在無窮的動作空間中做大量的計算。7AC算法具有的兩個顯著的優(yōu)點:14.2

行動者-評論家架(5)AC算法通過對策略的直接更新對策略進行改進,該方式能使Agent學(xué)習(xí)到一個確定的隨機策略。而值函數(shù)方法是通過狀態(tài)-動作值函數(shù)來選擇動作,Agent往往學(xué)習(xí)到的是確定策略。AC方法甚至可以用來解決非MDP問題。8目錄行動者-評論家架構(gòu)14.114.3

A3C算法的實驗結(jié)果及分析14.2

A3C算法14.5

A2C算法的實驗結(jié)果及分析14.4

A2C算法914.6

小結(jié)14.2

A3C算法(1)10深度Q網(wǎng)絡(luò)方法的優(yōu)勢與缺陷:深度Q網(wǎng)絡(luò)方法通過利用深度神經(jīng)網(wǎng)絡(luò)強大的特征識別能力,使強化學(xué)習(xí)算法在大規(guī)模狀態(tài)空間任務(wù)、高維狀態(tài)空間任務(wù)甚至連續(xù)動作空間控制任務(wù)中取得了令人矚目的成果。深度Q網(wǎng)絡(luò)方法將Agent與環(huán)境交互獲得的數(shù)據(jù)存儲在經(jīng)驗回放池中,每次通過選取一定小批量的數(shù)據(jù)進行更新。該方式可以打破數(shù)據(jù)之間的相關(guān)性,提升DQN算法的性能。經(jīng)驗重放機制需要更多的存儲資源和計算資源,并且要求使用異策略算法。14.2

A3C算法(2)11A3C算法的引入:異步深度強化學(xué)習(xí)方法,如A3C,通過將異步方法引入深度強化學(xué)習(xí)方法中替代經(jīng)驗重放機制,利用多線程技術(shù)使多個模型同時訓(xùn)練,來打破數(shù)據(jù)間的相關(guān)性,提升算法的學(xué)習(xí)效果、學(xué)習(xí)速度和學(xué)習(xí)穩(wěn)定性。Mnih等人提出的A3C算法,其核心思想在于:通過創(chuàng)建多個Agent,在多個環(huán)境實例中并行且異步地執(zhí)行和學(xué)習(xí)。A3C算法中異步方法的引入使得同策略和異策略的強化學(xué)習(xí)算法均能用于深度強化學(xué)習(xí)中。14.2

A3C算法(3)12通過A3C架構(gòu),可以將1-步Sarsa、1-步Q-learning、n-步Q-learning等經(jīng)典算法擴展為多線程異步學(xué)習(xí)算法。A3C算法能夠運行在單個機器的多個CPU線程上,而不必使用參數(shù)服務(wù)器的分布式系統(tǒng),這樣就可以避免通信開銷,也無需利用lock-free的高效數(shù)據(jù)同步方法。另外A3C算法既可以處理離散動作空間任務(wù),又可以處理連續(xù)動作空間任務(wù)。由于算法采用并行異步方式,在學(xué)習(xí)過程中可以大幅度減少訓(xùn)練時間。14.2

A3C算法(4)1314.2.1A3C算法的核心思路:A3C算法利用異步方法,減少了算法對存儲資源和計算資源的開銷,同時加快了Agent的學(xué)習(xí)速度。尤其是在處理高維狀態(tài)空間任務(wù)以及大規(guī)模狀態(tài)空間任務(wù)時,使用異步方法的A3C算法相比于使用經(jīng)驗重放機制的深度強化學(xué)習(xí)算法,能夠使Agent更快地獲得較好的學(xué)習(xí)效果。14.2

A3C算法(5)141.A3C異步算法:DQN僅處理一個Agent與環(huán)境的交互信息。A3C在AC框架中加入了異步學(xué)習(xí)的機制,利用多個Agent與多個環(huán)境進行交互,使得訓(xùn)練時可以使用多線程的CPU,而不是只依賴于GPU來處理圖像網(wǎng)絡(luò)。A3C異步架構(gòu)如圖14.2所示,它主要由環(huán)境(Environment)、工作組(Worker)和全局網(wǎng)絡(luò)(GlobalNetwork)組成。工作組代表不同線程的Agent,每個工作組對應(yīng)一個獨立的Agent,并擁有屬于自己的網(wǎng)絡(luò)模型,分別與一個獨立的環(huán)境進行交互。14.2

A3C算法(6)15圖14.2A3C異步架構(gòu)圖14.2

A3C算法(7)16A3C異步工作組:每個工作組的網(wǎng)絡(luò)與全局網(wǎng)絡(luò)都共用一個網(wǎng)絡(luò)結(jié)構(gòu),每個網(wǎng)絡(luò)有兩個輸出端,一個通過softmax輸出隨機策略,另一個通過線性函數(shù)輸出狀態(tài)值函數(shù)。圖14.3A3C網(wǎng)絡(luò)架構(gòu)圖14.2

A3C算法(8)17A3C算法工作流程:(1)初始化線程和網(wǎng)絡(luò):先初始化一個全局網(wǎng)絡(luò),包括一個策略網(wǎng)絡(luò)和一個價值網(wǎng)絡(luò);然后再創(chuàng)建多個與全局網(wǎng)絡(luò)相同的子線程,即工作組,然后將全局網(wǎng)絡(luò)的參數(shù)拷貝到各個工作組中。在實際應(yīng)用時,還會創(chuàng)建一個全局目標價值網(wǎng)絡(luò),用于構(gòu)成工作組網(wǎng)絡(luò)的雙價值網(wǎng)絡(luò)架構(gòu)。(2)訓(xùn)練工作組網(wǎng)絡(luò):

每個工作組采用不同的策略,與獨立的環(huán)境進行實時交互,產(chǎn)生不同的經(jīng)驗。利用這些經(jīng)驗,每個工作組計算各自網(wǎng)絡(luò)的損失函數(shù)梯度和策略梯度,并更新相關(guān)梯度信息。14.2

A3C算法(9)18(3)更新全局網(wǎng)絡(luò):由于每個工作組訓(xùn)練的時間存在差異,所以通??梢栽O(shè)定,當有一個工作組優(yōu)先完成訓(xùn)練時(假定它是最優(yōu)工作組),就利用這個工作組的梯度信息,對全局網(wǎng)絡(luò)的參數(shù)進行更新;同時,再將全局網(wǎng)絡(luò)的參數(shù)拷貝至所有工作組中,以此保證所有工作組的網(wǎng)絡(luò)參數(shù)都是最新的。同時,初始化所有工作組的梯度信息。(4)算法終止:

循環(huán)(2)(3)過程直到全局網(wǎng)絡(luò)收斂,算法結(jié)束。14.2

A3C算法(10)初始化線程和網(wǎng)絡(luò)訓(xùn)練工作組網(wǎng)絡(luò)更新全局網(wǎng)絡(luò)全局網(wǎng)絡(luò)收斂不收斂算法終止收斂19圖14.4A3C算法工作流程14.2

A3C算法(11)20A3C算法具有的優(yōu)勢:不同的工作組使用不同的探索策略,能夠?qū)W習(xí)到不同的經(jīng)驗,保證了算法的有效探索性。通過并行的工作組采樣到的經(jīng)驗,進行獨立的訓(xùn)練學(xué)習(xí),從而降低了樣本的相關(guān)性,而無需采用經(jīng)驗回放機制。在達到同樣的效果時,A3C比DQN更節(jié)省時間。14.2

A3C算法(12)212.價值網(wǎng)絡(luò)-評論家:回顧DQN損失函數(shù):(14.3)A3C引入優(yōu)勢函數(shù)思想,于是將目標Q值替換為目標V值:(14.4)該損失函數(shù)是基于Q-learning預(yù)測算法的,其缺點是過度考慮每一步環(huán)境的變化,使得算法學(xué)習(xí)速度較慢。在表格法算法中,介紹了一種n-步TD算法,它能夠更好地模擬歷史經(jīng)驗,降低方差,提高算法性能。14.2

A3C算法(13)22采用函數(shù)逼近方法,基于狀態(tài)值函數(shù)的n-步回報

計算公式為:(14.5)A3C算法采用n-步回報,構(gòu)建損失函數(shù):(14.6)然后采用SGD更新價值網(wǎng)絡(luò)參數(shù)

:(14.7)其中,n-步TD誤差被替換為優(yōu)勢函數(shù);為價值網(wǎng)絡(luò)的學(xué)習(xí)步長。14.2

A3C算法(14)233.策略網(wǎng)絡(luò)-行動者:策略網(wǎng)絡(luò)使用n-步回報

替代動作值函數(shù)估計值,構(gòu)建SPG方程如下所示:(14.8)然后使用SGA法更新行動者參數(shù)

:(14.9)其中,為策略網(wǎng)絡(luò)學(xué)習(xí)步長。A3C引入優(yōu)勢函數(shù)能夠更好地對動作值進行估計,減少評估策略梯度時的偏差。14.2

A3C算法(15)244.策略熵:在實際計算過程中,A3C將策略熵加入到目標函數(shù)中:

(14.10)其中,為溫度參數(shù)。直觀上,加上該正則項后目標函數(shù)更傾向于尋找熵更大的,即形狀更為“扁平”的策略函數(shù),增加了探索性,這樣就不容易在訓(xùn)練過程中聚集到某一種策略(或者動作)上,也避免了容易收斂到次優(yōu)解的問題。14.2

A3C算法(16)25在Atari2600,TORCS,MoJoCo等平臺上做了一系列的實驗,實驗證明,在一些游戲中n-步方法比1-步方法學(xué)習(xí)速度更快。A3C還討論了多線程方法的可擴展性,結(jié)果顯示當工作線程增多時,算法可以獲得顯著的加速,而且在一些算法中(如1-步Q-learning和Sarsa)還達到了超過線性的加速比,產(chǎn)生這一現(xiàn)象的原因在于多線程減少了1-步TD的有偏性。14.2

A3C算法(17)2614.2.2異步1-步Q-學(xué)習(xí)算法:異步方法通過多線程技術(shù)實現(xiàn)工作組之間的并行操作。在訓(xùn)練算法時,每個工作組線程均創(chuàng)建一個獨立的環(huán)境和Agent,并且創(chuàng)建一個所有線程共享的Agent。線程Agent的網(wǎng)絡(luò)模型參數(shù)從共享的Agent中獲取,并與自己私有的環(huán)境進行交互,然后計算出每一個狀態(tài)-動作的價值梯度值:(14.11)其中,和分別為第i個工作組線程的預(yù)測價值網(wǎng)絡(luò)參數(shù)和目標價值網(wǎng)絡(luò)參數(shù)。14.2

A3C算法(18)27當線程Agent與環(huán)境交互t時間步或者遇到情節(jié)結(jié)束時,計算累積梯度值:(14.12)利用該梯度值來更新共享Agent的網(wǎng)絡(luò)模型參數(shù)。此外還可以采用目標網(wǎng)絡(luò)來提升算法的穩(wěn)定性,目標網(wǎng)絡(luò)的參數(shù)取自當前網(wǎng)絡(luò),與當前網(wǎng)絡(luò)存在一定的延時,即目標網(wǎng)絡(luò)參數(shù)是一定時間步之前的當前網(wǎng)絡(luò)的參數(shù),更新方式為:(14.13)14.2

A3C算法(19)28在異步方法中并未采用經(jīng)驗重放機制,不需要存儲大量的歷史樣本,節(jié)省了大量的存儲空間;同時利用共享的模型,使得Agent之間可以充分利用各自探索到的環(huán)境知識來更新模型參數(shù),加速了訓(xùn)練過程。14.2

A3C算法(20)29算法14.1描述了用于構(gòu)建價值網(wǎng)絡(luò)模型的異步1-步Q-學(xué)習(xí)算法,算法為單個工作組的工作流程:14.2

A3C算法(21)30異步深度強化學(xué)習(xí),如算法14.1異步1-步Q學(xué)習(xí)算法,利用多線程技術(shù)同時訓(xùn)練多個Agent,其中不同的Agent可能會探索到環(huán)境的不同部分,使得算法能夠充分探索環(huán)境。此外,同時訓(xùn)練多個Agent存在兩方面的優(yōu)點:可以在不同的Agent中采取不同的探索策略,來最大化Agent探索環(huán)境的多樣性,從而提升Agent的最終學(xué)習(xí)效果;與單個Agent相比,多個Agent同時訓(xùn)練更能夠打破數(shù)據(jù)間的相關(guān)性,可以在不利用經(jīng)驗重放機制的情況下,提升算法的穩(wěn)定性。14.2

A3C算法(22)3114.2.3A3C算法算法14.2描述了A3C算法中單個工作組的工作流程。目錄行動者-評論家架構(gòu)14.114.3

A3C算法的實驗結(jié)果及分析14.2

A3C算法14.5

A2C算法的實驗結(jié)果及分析14.4

A2C算法3214.6

小結(jié)14.3

A3C算法的實驗結(jié)果及分析(1)3314.3.1A3C算法實驗環(huán)境設(shè)置為了驗證A3C算法的性能,本節(jié)選取4個連續(xù)動作空間的環(huán)境,分別是Pendulum、Ant、HalfCheetah和Humanoid對A3C算法進行驗證。主要的超參數(shù)如下表所示:序號超參數(shù)取值具體描述15截斷長度21000000最大全局計數(shù)器3learningrate0.0001用于SGD算法的學(xué)習(xí)率4strengthoftheentropy0.01策略熵溫度參數(shù)5discountfactor0.9折扣因子表14.1A3C算法主要超參數(shù)14.3

A3C算法的實驗結(jié)果及分析(2)34在實驗中,評論家網(wǎng)絡(luò)和行動者網(wǎng)絡(luò)均采用線性神經(jīng)網(wǎng)絡(luò),每個網(wǎng)絡(luò)含有兩個隱層,每個隱層含有256個神經(jīng)元。評論家網(wǎng)絡(luò)輸出狀態(tài)動作值,行動者網(wǎng)絡(luò)則輸出均值和方差,以高斯分布描述當前策略。14.3

A3C算法的實驗結(jié)果及分析(3)3514.3.2實驗結(jié)果分析根據(jù)14.3.1中的超參數(shù),A3C算法能夠在所給出的4個連續(xù)動作空間的環(huán)境中訓(xùn)練至收斂,結(jié)果如圖14.5所示:在Pendulum環(huán)境和HalfCheetah環(huán)境中,A3C算法收斂后較為穩(wěn)定。而在Ant環(huán)境和Humanoid環(huán)境中,A3C算法收斂后波動較大,即方差大。因為A3C算法采用同策略的方式進行訓(xùn)練,Agent采取的策略隨著策略網(wǎng)絡(luò)的更新而變化,從而導(dǎo)致A3C算法訓(xùn)練時會產(chǎn)生波動。若采取柔性更新策略,可有效解決該問題。14.3

A3C算法的實驗結(jié)果及分析(4)36圖14.5連續(xù)環(huán)境A3C性能14.3

A3C算法的實驗結(jié)果及分析(5)37強化學(xué)習(xí)的目標是得到回報最大化的策略,這就要求在策略的訓(xùn)練過程中,增強探索性,找到更多可能的動作來獲得更好的策略。但是,過強的探索性也會導(dǎo)致策略在訓(xùn)練過程中,獲得大量沒有學(xué)習(xí)價值的動作,導(dǎo)致算法難以收斂。在A3C算法中,引入策略熵增強算法的探索性,為獲得最佳的策略熵溫度參數(shù),通過設(shè)置不同的溫度參數(shù),在Pendulum環(huán)境上進行對比實驗,得到以下結(jié)果。14.3.3A3C算法中不同溫度參數(shù)與學(xué)習(xí)率的性能比較14.3

A3C算法的實驗結(jié)果及分析(6)38如右圖所示:當選取溫度參數(shù)為1e-1時,此時策略雖然能夠探索到更多的動作,但是隨機性太強,導(dǎo)致算法無法收斂。當選取溫度參數(shù)為1e-3和1e-4時,此時策略的探索性不足,無法從更多的動作中學(xué)習(xí),導(dǎo)致算法無法收斂。由實驗可知,當選取1e-2作為溫度參數(shù)時,算法能夠有效收斂。14.3.3.1A3C算法中不同溫度參數(shù)的性能比較圖14.6A3C算法中不同溫度參數(shù)的性能比較14.3

A3C算法的實驗結(jié)果及分析(7)39學(xué)習(xí)率的選取對于評論家網(wǎng)絡(luò)和行動者網(wǎng)絡(luò)具有重要的作用。較大的學(xué)習(xí)率,不利于算法收斂,而較小的學(xué)習(xí)率則會影響算法的訓(xùn)練時間。利用A3C算法,在Pendulum環(huán)境中選取學(xué)習(xí)率為1e-3、1e-4和1e-5進行對比實驗,結(jié)果如圖14.7所示:14.3

A3C算法的實驗結(jié)果及分析(8)40如右圖所示:當選擇學(xué)習(xí)率為1e-3時,開始收斂速度較快,但是訓(xùn)練不穩(wěn)定,無法收斂。當學(xué)習(xí)率為1e-5時,收斂速度較慢。實驗表明,在Pendulum環(huán)境中,最佳學(xué)習(xí)率為1e-4。14.3.3.2A3C算法中不同學(xué)習(xí)率的性能比較圖14.7A3C算法中不同學(xué)習(xí)率的性能比較目錄行動者-評論家架構(gòu)14.114.3

A3C算法的實驗結(jié)果及分析14.2

A3C算法14.5

A2C算法的實驗結(jié)果及分析14.4

A2C算法4114.6

小結(jié)14.4A2C算法(1)42A2C算法簡介A2C為A3C的改進版本,也是一種簡化形式。A3C用多個異步并行的工作組進行梯度累積,然后對全局網(wǎng)絡(luò)進行異步更新,若并行的工作組過多,則網(wǎng)絡(luò)的參數(shù)也會變得巨大,占用較多內(nèi)存。為了節(jié)省內(nèi)存,A2C僅使用工作組來獨立采樣,而不再用于累積梯度。當所有工作組的采樣總量到達mini-batch大小時,就全部停止采樣;全局網(wǎng)絡(luò)再根據(jù)這些樣本進行參數(shù)更新,具體更新方式與A3C相同。最后再更新工作組參數(shù)。14.4A2C算法(2)4314.3.1A2C算法用于構(gòu)建策略網(wǎng)絡(luò)模型的A2C算法如下所示:目錄行動者-評論家架構(gòu)14.114.3

A3C算法的實驗結(jié)果及分析14.2

A3C算法14.5

A2C算法的實驗結(jié)果及分析14.4

A2C算法4414.6

小結(jié)14.5

A2C算法的實驗結(jié)果與分析(1)4514.5.1A2C算法實驗環(huán)境設(shè)置為了驗證A2C算法的性能,選取4個連續(xù)動作空間的環(huán)境,分別是Pendulum、Ant、HalfCheetah和Humanoid對A2C算法進行驗證。主要的超參數(shù)和A3C算法相同,如表14.2所示:序號超參數(shù)取值具體描述15截斷長度21000000最大全局計數(shù)器3learningrate0.0001用于SGD算法的學(xué)習(xí)率4strengthoftheentropy0.01策略熵溫度參數(shù)5discountfactor0.9折扣因子表14.2A2C算法主要超參數(shù)14.5

A2C算法的實驗結(jié)果與分析(2)46在實驗中,與A3C算法一樣,A2C算法的評論家網(wǎng)絡(luò)和行動者網(wǎng)絡(luò)均采用線性神經(jīng)網(wǎng)絡(luò),每個網(wǎng)絡(luò)含有兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論