《強化學習理論與應用》略梯度方法_第1頁
《強化學習理論與應用》略梯度方法_第2頁
《強化學習理論與應用》略梯度方法_第3頁
《強化學習理論與應用》略梯度方法_第4頁
《強化學習理論與應用》略梯度方法_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄1

隨機策略梯度法12.3策略表達形式12.2策略優(yōu)化方法12.5行動者-評論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結12.1隨機策略梯度法(1)參數(shù)化策略方法(parameterizedpolicy),該方法不再利用值函數(shù),而是利用策略函數(shù)來選擇動作,同時使用值函數(shù)來輔助策略函數(shù)參數(shù)的更新。策略梯度法(policygradient,PG)是參數(shù)化策略函數(shù)的一種常用算法。根據(jù)策略類型的不同,PG可以分為:隨機策略梯度(stochasticpolicygradient,SPG)確定性策略梯度(deterministicpolicygradient,DPG)2023/11/6212.1.1梯度上升方法參數(shù)化策略不再是一個概率集合,而是一個可微的函數(shù)。策略函數(shù)

表示

時刻在狀態(tài)

和參數(shù)

下選擇動作

的概率:

其中,

表示策略參數(shù)。參數(shù)化策略函數(shù)可以簡記為

,這樣

可以簡記為

。12.1隨機策略梯度法(2)2023/11/6312.1隨機策略梯度法(3)參數(shù)化策略函數(shù)

可以看作概率密度函數(shù),Agent按照該概率分布進行動作選擇。通常最直接的思想就是將目標函數(shù)定義為折扣回報的期望:算法的目標是使得回報最大化,所以對參數(shù)采用梯度上升方法,該方法也被稱為隨機梯度上升(stochasticgradient-ascent,SGA)算法。2023/11/6412.1隨機策略梯度法(4)基于SGA的參數(shù)更新方程為:其中,為策略梯度函數(shù)的估計值,即近似策略梯度。策略參數(shù)與值函數(shù)逼近中的權重參數(shù)作用相同,使用不同的符號僅用于區(qū)分所采用的方法;維度也僅用于與值函數(shù)逼近參數(shù)的維度之間的區(qū)分。REINFORCE算法和行動器-評論家(AC)算法都屬于策略梯度(PG)方法。2023/11/6512.1隨機策略梯度法(5)12.1.2策略梯度法與值函數(shù)逼近法的比較PG法的優(yōu)點(1)平滑收斂:有很強的收斂性;值函數(shù)逼近法基于貪婪策略對策略進行改進,即出現(xiàn)策略退化現(xiàn)象。(2)處理連續(xù)動作空間任務:值函數(shù)逼近法需要對比狀態(tài)中的所有動作的價值,才能得到最優(yōu)動作值函數(shù)

,在處理大動作空間或連續(xù)狀態(tài)動作空間任務時,難以實現(xiàn)。

12.1隨機策略梯度法(6)

(3)學習隨機策略:在實際問題中,策略通常都是隨機的,PG法能夠輸出隨機策略,而值函數(shù)逼近法基于貪婪方法,每次輸出的都是確定性策略。

12.1隨機策略梯度法(7)PG法的缺點

(1)PG法通常只能收斂到局部最優(yōu)解。

(2)PG法的易收斂性和學習過程平滑優(yōu)勢,都會使Agent嘗試過多的無效探索,從而造成學習效率低,整體策略方差偏大,以及存在累積誤差帶來的過高估計問題。12.1隨機策略梯度法(8)例12.1以格子世界為例,說明算法只能輸出確定性策略的缺陷。

如圖(a)所示格子世界,要求Agent在不掉入陷阱區(qū)域“X”的情況下,到達目標“G”。Agent的初始狀態(tài)可能隨機地出現(xiàn)在第一行的5個格子中。12.1隨機策略梯度法(9)采用坐標信息來表示格子:可以使用值函數(shù)方法,方程組求解。采用“格子某個方向是否有墻”來描述格子位置:就會出現(xiàn)如圖(b)所示的情況,兩個灰色格子的狀態(tài)特征描述是一樣的,即發(fā)生了重名現(xiàn)象:隨機策略就會比確定性策略效果更好:例12.2以格子世界為例,比較采用值函數(shù)逼近法與策略梯度法學習到的策略之間的區(qū)別。

如圖所示,S為起點,G為終點,陰影表示障礙物,動作A={上,下,左,右},Agent若離開邊界或撞到障礙物時,都會返回到上一個位置,到達目標G時獎賞為1,其他轉移情況獎賞均為0。12.1

隨機策略梯度法(10)目錄12

隨機策略梯度法12.3策略表達形式12.2策略優(yōu)化方法12.5行動者-評論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結12.2策略優(yōu)化方法(1)情節(jié)式策略目標函數(shù)PG法的目標為最大化目標函數(shù)

。針對情節(jié)式任務,又可以根據(jù)離散狀態(tài)-動作空間任務和連續(xù)狀態(tài)-動作空間任務,來分別定義不同的目標函數(shù):(1)初始價值(startvalue)

初始價值適用于離散狀態(tài)-動作空間任務,假設每個情節(jié)都從初始狀態(tài)

開始,其目標函數(shù)由初始狀態(tài)價值的期望構成:其中,

表示策略函數(shù)

的真實狀態(tài)值函數(shù),有時也將

記為。12.2策略優(yōu)化方法(2)(2)平均價值(averagevalue)

平均價值適用于連續(xù)狀態(tài)-動作空間任務,在該任務中,Agent不存在初始狀態(tài)

,所以平均價值計算的是

時刻下所有可能狀態(tài)的價值,與

時刻的狀態(tài)分布概率

的加權和:12.2策略優(yōu)化方法(3)(3)時間步平均獎賞(averagerewardpertime-stepvalue)時間步平均獎賞適用于連續(xù)狀態(tài)-動作空間任務,這是一種使用1-步TD(0)算法的方法,它計算t時刻的獎賞期望:12.2策略優(yōu)化方法(4)連續(xù)式策略目標函數(shù)在無法使用情節(jié)式邊界的連續(xù)式任務中,根據(jù)每個時刻的平均回報來定義目標函數(shù):其中,,滿足遍歷性假設。12.2策略優(yōu)化方法(5)策略梯度定理原則上,可以直接對目標函數(shù)

求梯度,然后利用SGA優(yōu)化參數(shù)

。但是基于回報期望的目標函數(shù)和策略函數(shù)的聯(lián)系并不直觀,這樣的目標函數(shù)梯度難以直接用于參數(shù)優(yōu)化。對于連續(xù)狀態(tài)-動作空間任務來說,除了動作的選擇,狀態(tài)分布

也受到策略參數(shù)的影響,雖然可以通過策略參數(shù)

計算出動作選擇概率

和相應獎賞

,但因為狀態(tài)分布

與環(huán)境有關,所以無法確定策略梯度

與狀態(tài)分布

之間的關系。由此需要對目標函數(shù)進行調整。12.2策略優(yōu)化方法(6)(1)全部動作算法下的策略梯度定理如果執(zhí)行某一個動作能夠得到更多獎賞(或回報,或值函數(shù)),那么就應該增加它出現(xiàn)的概率,反之減小其概率。基于這一想法,考慮最簡單的1-步TD(0)情況,構建一個與策略參數(shù)

無關的評價指標函數(shù),用于測量在狀態(tài)

下采取動作

可以獲得的獎賞(或回報,或值函數(shù)),以此得到基于評價指標期望的目標函數(shù):其中,狀態(tài)分布是策略函數(shù)下的同策略分布。12.2策略優(yōu)化方法(7)

以離散空間任務為例,為了構建一個僅對策略參數(shù)

求導,而不涉及對狀態(tài)分布

求導的目標函數(shù)導數(shù)形式,將狀態(tài)作為分布函數(shù):由于涉及所有可能的動作,所以該算法也被稱為全部動作算法(all-actionsmethod)。12.2策略優(yōu)化方法(8)

評價指標可以用獎賞r、回報G或值函數(shù)等形式來表示,常用的評價指標為動作值函數(shù)

,其策略梯度如下所示:該式也被稱為策略梯度定理,該定理同時適用于離散和連續(xù)狀態(tài)-動作空間任務,也就是說,四種目標函數(shù)

都可以采用這一策略梯度。由此得到策略參數(shù)更新方程如下所示:12.2策略優(yōu)化方法(9)

(2)單步算法下的策略梯度定理

在實際情況下,由于需要進行采樣,策略梯度定理通常僅考慮采樣得到動作。其中,策略梯度

或其對數(shù)

被稱為跡向量表示參數(shù)空間中在訪問狀態(tài)

時最能增加重復動作的概率的方向。評價指標期望越大的動作,就讓它出現(xiàn)的概率(即跡向量)越大,反之越小。12.2

策略優(yōu)化方法(9)

同理,將動作值函數(shù)

作為評價指標,策略梯度法也可以表示為如下形式:

該式表示,動作值函數(shù)期望越高的動作,其出現(xiàn)概率也應該越高。有時也將

記為

。

現(xiàn)在,我們的目標轉為求解跡向量

和動作值函數(shù)

。目錄23

隨機策略梯度法12.3策略表達形式12.2策略優(yōu)化方法12.5行動者-評論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結

為了求跡向量

,首先需要構建策略函數(shù)的參數(shù)表達形式。

在PG法中,策略函數(shù)

需要分成:小型離散動作空間(softmax函數(shù));大型或連續(xù)動作空間(高斯策略函數(shù))。

12.3策略表達形式(1)

12.3.1離散動作空間策略參數(shù)化針對小型離散動作空間問題,對每一組狀態(tài)-動作對都估計一個動作偏好值

,也就是特征函數(shù)。動作偏好值

可以用任意的方式參數(shù)化,通常將它視為多個特征的線性加權之和:

其中,表示特征向量。在某個狀態(tài)下動作表現(xiàn)越

好,其偏好值

就越高;若最優(yōu)策略是確定性策略,

則相對于次優(yōu)動作,其偏好值將趨于無窮大。

策略函數(shù)

正比于動作偏好值

。12.3策略表達形式(2)

12.3策略表達形式(3)

用指數(shù)柔性最大化分布(softmax函數(shù))構建基于動作偏好值的策略函數(shù),輸出狀態(tài)s下所有可執(zhí)行動作的概率分布:softmax策略的跡向量如下所示:其中,

表示在狀態(tài)s下,采取動作a的得分;

表示在狀態(tài)s的期望分值。12.3策略表達形式(4)

12.3.2連續(xù)動作空間策略參數(shù)化

對于大型離散動作空間或連續(xù)動作空間問題,PG法根據(jù)高斯分布來選擇動作。高斯分布的概率密度函數(shù)為:其中,

分別為高斯分布的均值和標準差;

表示小于x的圖像所圍成的面積,

圖像下的總面積恒為1。12.3策略表達形式(5)

將策略函數(shù)定義為實數(shù)型動作的正態(tài)概率密度:其中,

通常用一個線性函數(shù)來逼近:

;則

設置為一個固定正數(shù)。滿足該式的策略函數(shù)稱為高斯策略函數(shù)。12.3

策略表達形式(6)

高斯策略的跡向量所示為:目錄30

隨機策略梯度法12.3策略表達形式12.2策略優(yōu)化方法12.5行動者-評論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結12.4蒙特卡洛策略梯度法(1)

動作值函數(shù)

可以通過DP、MC、TD等基礎強化學習算法進行學習。蒙特卡洛策略梯度法(REINFORCE)是一種針對情節(jié)式問題的,基于MC算法的PG法。12.4蒙特卡洛策略梯度法(2)

12.4.1REINFORCEREINFORCE算法采用MC算法來計算動作值函數(shù),只考慮Agent在狀態(tài)

下實際采取的動作

:由于采用MC算法,所以這是一種對策略梯度的無偏估計。

REINFORCE算法的策略參數(shù)

更新方程為:12.4蒙特卡洛策略梯度法(3)

該方法可以從理論上保證策略參數(shù)

的收斂性,最大化

:梯度增量

正比于回報

,使得策略參數(shù)

向著能夠產生最大回報的動作的方向更新;梯度增量

反比于跡向量,能夠減少被頻繁選擇的動作。12.4蒙特卡洛策略梯度法(4)

12.4蒙特卡洛策略梯度法(5)

12.4.2REINFORCE算法的實驗結果及分析

為了說明隨機策略的優(yōu)點,引入短走廊網(wǎng)格世界環(huán)境。

短走廊網(wǎng)格世界環(huán)境與大部分網(wǎng)格環(huán)境一樣,每步的收益是-1,對于三個非終止狀態(tài)都有兩個動作可供選擇:向左或者向右。特殊的是:第一個狀態(tài)向左走會保持原地不動,而在第二個狀態(tài)執(zhí)行的動作會導致向相反的方向移動。12.4蒙特卡洛策略梯度法(6)

對短走廊環(huán)境以及gym的CartPole-v0環(huán)境進行了實驗,應用REINFORCE算法實現(xiàn)過程中,在網(wǎng)絡模型、訓練控制等方面通常設置很多超參數(shù)。

在CartPole環(huán)境中REINFORCE算法的主要超參數(shù)序號超參數(shù)取值具體描述1discountfactor0.99折扣因子2learningrate0.001確定一次執(zhí)行動作時所在圖像幀的位置3Send1隨機種子4hiddenlayer128隱藏層節(jié)點個數(shù)5ActivationFunctionrelu網(wǎng)絡的激活函數(shù)

在短走廊環(huán)境中REINFORCE算法的主要超參數(shù)12.4蒙特卡洛策略梯度法(7)

序號超參數(shù)取值具體描述1discountfactor1折扣因子2learningrate2e-4確定一次執(zhí)行動作時所在圖像幀的位置3Send1隨機種子

num_trials100評估價值平均的次數(shù)12.4蒙特卡洛策略梯度法(8)

每個環(huán)境下算法的訓練情節(jié)數(shù)均為1000個情節(jié),這是因為兩個環(huán)境在1000個情節(jié)后都能收斂,兩個圖效果整體上都呈現(xiàn)先穩(wěn)步上升,后平穩(wěn)的學習趨勢。在CartPole環(huán)境下縱坐標表示平衡桿的存活時間步數(shù)。在短走廊環(huán)境中,大約500個情節(jié)后收斂在-11.6處,而CartPole環(huán)境下大約在900個情節(jié)后,收斂在了200時間步處。短走廊環(huán)境結果圖

CartPole環(huán)境結果圖

12.4蒙特卡洛策略梯度法(9)

12.4.3帶基線的REINFROCE

REINFORCE的優(yōu)勢在于只需要很小的更新步長就能收斂到局部最優(yōu),并保證了每次更新都是有利的。但是假設每個動作的獎賞均為正(即所有的策略梯度值

均大于或等于零時),則每個動作出現(xiàn)的概率將不斷提高,這一現(xiàn)象會嚴重降低學習速率,并增大梯度方差。12.4蒙特卡洛策略梯度法(10)

考慮一個隨機變量

,其方差為

,如果能夠使

減小,那么方差也會減小,最直接的做法就是讓

減去一個值。根據(jù)這一思想,構建一個僅與狀態(tài)有關的基線函數(shù)

保證能夠在不改變策略梯度

的同時,降低其方差。當

具備上述特點時,下面的推導成立:12.4蒙特卡洛策略梯度法(11)

為評價指標增加基線

并不會改變策略梯度

,所以帶基線的強化學習方法是無偏差的。原則上,與動作無關的任意函數(shù)或變量都可作為

。帶基線的REINFORCE算法策略梯度計算公式如下所示:帶基線的策略參數(shù)的更新方程如下所示:當為0時,該式就與REINFORCE一樣。12.4蒙特卡洛策略梯度法(12)

原則上,與動作無關的函數(shù)都可以作為基線

。但是為了有效地利用基線,對所有動作值都比較大的狀態(tài),需要設置一個較大的基線來區(qū)分最優(yōu)動作和次優(yōu)動作;對所有動作值都比較小的狀態(tài),則需要設置一個比較小的基線。由此用近似狀態(tài)值函數(shù)

代表基線

,當回報超過基線值時,該動作的概率將提高,反之降低:12.4蒙特卡洛策略梯度法(13)12.4蒙特卡洛策略梯度法(14)在算法中,由于帶基線的REINFORCE算法同時使用到了PG法和狀態(tài)值函數(shù)逼近法,所以需要分別設定策略梯度的步長

和近似狀態(tài)值函數(shù)的步長

;近似狀態(tài)值函數(shù)

作為基線,更新MC算法的目標值;采用基于SGD的函數(shù)逼近算法,更新近似值函數(shù)參數(shù)

;采用PG法,更新策略參數(shù)

。從這里開始,經常會在一個算法中涉及到對策略參數(shù)

和值函數(shù)參數(shù)

的更新,所以在求導時,通常使用

和來加以區(qū)分。12.4蒙特卡洛策略梯度法(15)

12.4.4帶基線的REINFORCE算法的實驗結果及分析

帶基線的REINFORCE算法其網(wǎng)絡結構、參數(shù)設置以及實驗環(huán)境與REINFORCE一樣。在算法中,近似狀態(tài)值函數(shù)參數(shù)

的學習率為0.001。實驗對REINFORCE和帶基線的REINFORCE兩種算法的性能進行了對比。短走廊環(huán)境結果圖 CartPole環(huán)境結果圖12.4蒙特卡洛策略梯度法(16)

在兩種環(huán)境下帶基線的REINFORCE算法效果都優(yōu)于REINFORCE算法。在短走廊環(huán)境下帶基線的REINFORCE算法最終也收斂在-11.6處,與REINFORCE算法一致,但收斂的更快,在100個情節(jié)后即可收斂。在CartPole環(huán)境中,帶基線的REINFORCE算法大約在600個情節(jié)穩(wěn)定在第200個時間步。12.4

蒙特卡洛策略梯度法(17)

兩個環(huán)境下的表現(xiàn)進行比較:在短走廊環(huán)境下兩個算法收斂之后都較為穩(wěn)定。在CartPole環(huán)境中,兩個算法在整個訓練過程都波動較大,帶基線的REINFORCE算法更為明顯。這是因為與短走廊環(huán)境相比較,CartPole環(huán)境更復雜。盡管REINFORCE算法在處理簡單環(huán)境,如短走廊環(huán)境,有較好效果,但在處理復雜問題時則不盡如意。為了解決此問題,在后續(xù)章節(jié)將引入基于行動者-評論家框架的DDPG、TD3算法等。目錄48

隨機策略梯度法12.3策略表達形式12.2策略優(yōu)化方法12.5行動者-評論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結12.5行動者-評論家(1)

REINFORCE都采用情節(jié)更新方法,雖然是無偏的,但是方差高。一種直觀的改進方式是采用自舉的更新方法,在每一步或幾步之后及時地做出策略改進,雖然引入了偏差,但可以有效減小方差。12.5行動者-評論家(2)

行動者-評論家(actor–critic,AC)算法正是這樣一種利用了自舉的方法,將PG法(策略網(wǎng)絡)和值函數(shù)逼近法(值函數(shù)網(wǎng)絡)相結合,同時學習策略和值函數(shù),實現(xiàn)實時、在線地學習:行動者(actor)依賴于評論家(critic)的值函數(shù),利用PG法更新策略參數(shù),學習(改進)策略;評論家依賴于行動者策略

得到的經驗樣本,利用值函數(shù)逼近法更新值函數(shù)參數(shù),學習(改進)近似值函數(shù)

或。12.5行動者-評論家(3)

對于AC過程可以直觀來理解:Agent根據(jù)任務的當前狀態(tài)選擇一個動作(基于當前策略或初始化策略);評論家根據(jù)當前狀態(tài)-動作對,針對當前策略的表現(xiàn)打分;AC基本框架圖12.5行動者-評論家(4)

行動者依據(jù)評論家的打分,改進策略(調整策略參數(shù));評論家根據(jù)環(huán)境返回的獎賞,改進策略打分方式(調整值函數(shù)參數(shù));利用更新后的策略在下一狀態(tài)處選擇動作,重復以上過程。12.5行動者-評論家(5)

最初行動者隨機選擇動作,評論家隨機打分。但由于環(huán)境返回的獎賞,評論家的評分會越來越準確,行動者會選擇到更好的動作。需要注意的是,帶基線的REINFORCE算法雖然也同時運用了值函數(shù)和策略函數(shù),但它并不屬于AC方法,因為它的值函數(shù)僅僅作為基線,而不是評論家。12.5行動者-評論家算法(6)行動者-評論家方法屬于一種TD方法;用兩個獨立的存儲結構分別表示策略和值函數(shù):行動者:表示策略函數(shù),根據(jù)評估的TD誤差選擇動作;評論家:表示估計的值函數(shù),通過計算值函數(shù)來評價行動者的好壞。2023/11/65412.5行動者-評論家算法(7)行動者-評論家TD誤差:TD誤差表示的是當前狀態(tài)的1-步回報或者n-步回報與其值函數(shù)之間的差值,TD誤差的計算公式如下:TD誤差可以用來評估當前正在被選擇動作的好與壞。當TD誤差為正時,表明未來選擇動作的趨勢應該加強;當TD誤差為負時,表明未來選擇動作的趨勢應該減弱。2023/11/65512.5行動者-評論家算法(8)假設動作產生于Gibbs軟最大化方法:其中:,為正的步長參數(shù)。2023/11/656AC算法是一種策略梯度算法,與值函數(shù)方法相比,AC方法在選擇動作時所需的計算量相對較小。即使動作空間是連續(xù)的情況,AC算法在選擇動作時也不需要在每次的選擇動作時,在無窮的動作空間中做大量的計算。57AC算法具有的兩個顯著的優(yōu)點:AC算法通過對策略的直接更新對策略進行改進,該方式能使Agent學習到一個確定的隨機策略。而值函數(shù)方法是通過狀態(tài)-動作值函數(shù)來選擇動作,Agent往往學習到的是確定策略。AC方法甚至可以用來解決非MDP問題。12.5

行動者-評論家算法(9)2023/11/6目錄58

隨機策略梯度法12.3策略表達形式12.2策略優(yōu)化方法12.5行動者-評論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結12.6確定性策略梯度定理(1)

與確定性策略相比,隨機策略自帶探索屬性,它可以通過探索產生多樣的采樣數(shù)據(jù),并由強化學習算法來改進當前策略。SPG理論相對比較成熟,計算過程更為簡單。而采用DPG法時,在初始狀態(tài)已知的情況下,用確定性策略所產生的軌跡是固定的,也就是說,Agent無法學習。為了在確定性策略下實現(xiàn)對環(huán)境的探索,確定性策略需要采用AC框架,并利用異策略學習方法,設置行動策略為隨機策略。12.6確定性策略梯度定理(2)

(1)同策略SPG與DPG

SPG計算公式如下所示:DPG計算公式如下所示:其中,

是基于確定性策略的動作值函數(shù);有時也會將

記為或,以明確表示這是一個關于確定性策略的參數(shù)。12.6確定性策略梯度定理(3)

DPG是SPG定理在策略方差趨向于0時的極限情況。比較SPG和DPG的策略梯度計算公式,可以發(fā)現(xiàn)它們的差異在于SPG中多一個log項,同時期望也不同,這些差異本質上是因為DPG不對動作求期望。(2)異策略SPG與DPG

異策略SPG計算公式為:其中,

為目標策略,

為行為策略,有時也將

直接表示為參數(shù)化策略函數(shù)

;表示遵循行為策略

進行采樣的,關于策略參數(shù)

的目標函數(shù);

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論