《強(qiáng)化學(xué)習(xí)技術(shù)》教學(xué)大綱_第1頁
《強(qiáng)化學(xué)習(xí)技術(shù)》教學(xué)大綱_第2頁
《強(qiáng)化學(xué)習(xí)技術(shù)》教學(xué)大綱_第3頁
《強(qiáng)化學(xué)習(xí)技術(shù)》教學(xué)大綱_第4頁
《強(qiáng)化學(xué)習(xí)技術(shù)》教學(xué)大綱_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《強(qiáng)化學(xué)習(xí)技術(shù)》教學(xué)大綱適用范圍:202X版本科人才培養(yǎng)方案課程代碼:22150611課程性質(zhì):專業(yè)選修課學(xué)分:2學(xué)分學(xué)時:32學(xué)時(理論24學(xué)時,實(shí)驗(yàn)8學(xué)時)先修課程:程序設(shè)計(jì)基礎(chǔ)、人工智能程序設(shè)計(jì)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)與應(yīng)用后續(xù)課程:計(jì)算機(jī)視覺、數(shù)字圖像處理、虛擬現(xiàn)實(shí)與人機(jī)交互適用專業(yè):人工智能專業(yè)開課單位:智能工程學(xué)院一、課程說明《強(qiáng)化學(xué)習(xí)技術(shù)》是人工智能專業(yè)的一門專業(yè)選修課,強(qiáng)化學(xué)習(xí)在人工智能的研發(fā)中起到?jīng)Q定性的作用。強(qiáng)化學(xué)習(xí)是一種尋找搜索策略模型的優(yōu)化控制算法,它通過環(huán)境交互和數(shù)據(jù)反饋不斷地改進(jìn)算法模型,實(shí)現(xiàn)算法模型的自學(xué)習(xí)和更新,從而更好地找到優(yōu)化目標(biāo)和方向。此課程作為機(jī)器學(xué)習(xí)、自然語言理解、數(shù)據(jù)挖掘、模式識別等人工智能領(lǐng)域的基礎(chǔ),課設(shè)課程是十分必要的。通過學(xué)習(xí)該課程后,學(xué)生能更好地將深度學(xué)習(xí)的表征能力與強(qiáng)化學(xué)習(xí)的決策能力有機(jī)地結(jié)合起來,提高學(xué)生解決復(fù)雜系統(tǒng)控制優(yōu)化的能力。二、課程目標(biāo)通過本課程的學(xué)習(xí),使學(xué)生達(dá)到如下目標(biāo):課程目標(biāo)1:熟練掌握強(qiáng)化學(xué)習(xí)相關(guān)的知識,能合理分析強(qiáng)化學(xué)習(xí)中的遇到的問題,學(xué)生能夠運(yùn)用強(qiáng)化學(xué)習(xí)知識對人工智能問題提出相應(yīng)解決方案。課程目標(biāo)2:培養(yǎng)學(xué)生的動手能力的同時,要求能夠針對一個實(shí)際的強(qiáng)化學(xué)習(xí)應(yīng)用問題,采用知識建模、優(yōu)化并有效評估。培養(yǎng)學(xué)生對人工智能底層算法及工程問題進(jìn)行研究的興趣,樹立追求真理、勇于探索的精神,提高責(zé)任擔(dān)當(dāng)意識,塑造社會主義核心價值觀,為更好的服務(wù)社會,建設(shè)國家做貢獻(xiàn)力量。課程目標(biāo)3:培養(yǎng)學(xué)生主動學(xué)習(xí)的意識,強(qiáng)調(diào)學(xué)生具備不斷學(xué)習(xí),適應(yīng)社會發(fā)展的能力。通過專業(yè)內(nèi)容與勞動教育有機(jī)融合的實(shí)踐活動,提倡自學(xué)拓展,結(jié)合實(shí)際問題進(jìn)行思考和展開討論,并在此基礎(chǔ)上,學(xué)會分析案例,解決實(shí)際問題,切實(shí)提高創(chuàng)造性勞動的能力。三、課程目標(biāo)與畢業(yè)要求《強(qiáng)化學(xué)習(xí)技術(shù)》課程教學(xué)目標(biāo)對人工智能專業(yè)畢業(yè)要求的支撐見表1。表1課程教學(xué)目標(biāo)與畢業(yè)要求關(guān)系畢業(yè)要求指標(biāo)點(diǎn)課程目標(biāo)支撐強(qiáng)度1.工程知識:具備強(qiáng)化學(xué)習(xí)、自然科學(xué)、工程基礎(chǔ)和專業(yè)知識用于解決人工智能及交叉應(yīng)用領(lǐng)域工程問題。1.3解決針對人工智能及交叉應(yīng)用領(lǐng)域工程問題的強(qiáng)化學(xué)習(xí)案例,并綜合運(yùn)用強(qiáng)化學(xué)習(xí)、自然科學(xué)、工程基礎(chǔ)和專業(yè)知識等進(jìn)行問題的求解。課程目標(biāo)1:熟練掌握強(qiáng)化學(xué)習(xí)相關(guān)的知識,能合理分析強(qiáng)化學(xué)習(xí)中的遇到的問題,學(xué)生能夠運(yùn)用強(qiáng)化學(xué)習(xí)知識對人工智能問題提出相應(yīng)解決方案。M3.設(shè)計(jì)/開發(fā)解決方案:能設(shè)計(jì)針對人工智能及交叉應(yīng)用領(lǐng)域工程問題的解決方案和滿足特定需求,并在設(shè)計(jì)中體現(xiàn)創(chuàng)新意識,考慮社會、環(huán)境、健康、安全、法律、文化等因素。3.2設(shè)計(jì)針對人工智能領(lǐng)域復(fù)雜工程問題的解決方案,包括設(shè)計(jì)或開發(fā)滿足特定需求和約束條件的軟硬件系統(tǒng)、模塊或算法流程,并能夠進(jìn)行模塊和系統(tǒng)級優(yōu)化。課程目標(biāo)2:培養(yǎng)學(xué)生的動手能力的同時,要求能夠針對一個實(shí)際的強(qiáng)化學(xué)習(xí)應(yīng)用問題,采用知識建模、優(yōu)化并有效評估。培養(yǎng)學(xué)生對人工智能底層算法及工程問題進(jìn)行研究的興趣,樹立追求真理、勇于探索的精神,提高責(zé)任擔(dān)當(dāng)意識,塑造社會主義核心價值觀,為更好的服務(wù)社會,建設(shè)國家做貢獻(xiàn)力量。課程目標(biāo)3:培養(yǎng)學(xué)生主動學(xué)習(xí)的意識,強(qiáng)調(diào)學(xué)生具備不斷學(xué)習(xí),適應(yīng)社會發(fā)展的能力。通過專業(yè)內(nèi)容與勞動教育有機(jī)融合的實(shí)踐活動,提倡自學(xué)拓展,結(jié)合實(shí)際問題進(jìn)行思考和展開討論,并在此基礎(chǔ)上,學(xué)會分析案例,解決實(shí)際問題,切實(shí)提高創(chuàng)造性勞動的能力。M注:表中“H(高)、M(中)”表示課程與相關(guān)畢業(yè)要求的關(guān)聯(lián)度。四、教學(xué)內(nèi)容、基本要求與學(xué)時分配1.理論部分理論部分的教學(xué)內(nèi)容、基本要求與學(xué)時分配見表2。表2教學(xué)內(nèi)容、基本要求與學(xué)時分配教學(xué)內(nèi)容教學(xué)要求,教學(xué)重點(diǎn)難點(diǎn)理論學(xué)時實(shí)驗(yàn)學(xué)時對應(yīng)的課程目標(biāo)強(qiáng)化學(xué)習(xí)基礎(chǔ)1.1引言1.2起源和發(fā)展1.3問題建模1.4常見強(qiáng)化學(xué)習(xí)算法 思政1:從北理工華匯雙足機(jī)器人看中國科技崛起教學(xué)要求:理解本課程在強(qiáng)化學(xué)習(xí)領(lǐng)域的基礎(chǔ)作用;教學(xué)重點(diǎn):了解強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識。教學(xué)難點(diǎn):掌握常見的強(qiáng)化學(xué)習(xí)算法。201、2、3基于強(qiáng)化學(xué)習(xí)的實(shí)時搜索排序策略調(diào)控2.1研究背景2.2問題建模 2.3算法設(shè)計(jì) 2.4獎賞塑形 2.5實(shí)驗(yàn)效果 2.6DDPG與梯度融合教學(xué)要求:理解算法設(shè)計(jì)、獎賞塑形、DDPG與梯度融合教學(xué)重點(diǎn):掌握實(shí)時搜索排序策略的調(diào)控。教學(xué)難點(diǎn):分析案例,建立模型,展示實(shí)驗(yàn)效果。221、2、33.延遲獎賞在搜索排序場景中的作用分析3.1研究背景 3.2搜索交互建模3.3數(shù)據(jù)統(tǒng)計(jì)分析3.4搜索排序問題形式化 3.5理論分析教學(xué)要求:理解延遲獎賞在搜索排序場景中的應(yīng)用、數(shù)據(jù)統(tǒng)計(jì)分析、搜索排序問題形式化教學(xué)重點(diǎn):掌握搜索交互建模,統(tǒng)計(jì)分析數(shù)據(jù)。教學(xué)難點(diǎn):分析案例,建立模型,展示實(shí)驗(yàn)效果。201、34.基于多智能體強(qiáng)化學(xué)習(xí)的多場景聯(lián)合優(yōu)化4.1研究背景 4.2問題建模 4.3算法應(yīng)用 思政2:當(dāng)今的無人駕駛汽車技術(shù),展現(xiàn)了中國發(fā)展之迅速,國家實(shí)力之強(qiáng)大,激發(fā)學(xué)生的愛國之心。教學(xué)要求:掌握多智能體強(qiáng)化學(xué)習(xí)的多場景聯(lián)合優(yōu)化;更深入地理解和掌握算法應(yīng)用;教學(xué)重點(diǎn):掌握多智能體強(qiáng)化學(xué)習(xí)的多場景聯(lián)合。教學(xué)難點(diǎn):分析案例,建立模型,展示實(shí)驗(yàn)效果。421、2、35.虛擬淘寶5.1研究背景 5.2問題描述 5.3虛擬化淘寶 教學(xué)要求:掌握虛擬化淘寶的應(yīng)用;教學(xué)重點(diǎn):虛擬化淘寶的背景分析。教學(xué)難點(diǎn):分析案例,建立模型,展示實(shí)驗(yàn)效果。202、36.組合優(yōu)化視角下基于強(qiáng)化學(xué)習(xí)的精準(zhǔn)定向6.1研究背景 6.2問題建模 6.3模型選擇 6.4探索學(xué)習(xí) 6.5業(yè)務(wù)實(shí)戰(zhàn)思政3:分析問題,解決問題,培養(yǎng)學(xué)生嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度,加強(qiáng)職業(yè)道德和職業(yè)規(guī)范教育 教學(xué)要求:掌握組合優(yōu)化視角下基于強(qiáng)化學(xué)習(xí)的精準(zhǔn)定向,學(xué)會利用問題建模來解決實(shí)際問題。教學(xué)重點(diǎn):掌握組合優(yōu)化視角下基于強(qiáng)化學(xué)習(xí)的精準(zhǔn)定向。教學(xué)難點(diǎn):分析案例,建立模型,展示實(shí)驗(yàn)效果。421、2、37.策略優(yōu)化方法在搜索廣告排序和競價機(jī)制中的應(yīng)用7.1研究背景7.2數(shù)學(xué)模型和優(yōu)化方法 7.3排序公式設(shè)計(jì) 7.4系統(tǒng)簡介 7.5在線策略優(yōu)化 教學(xué)要求:學(xué)會利用數(shù)學(xué)模型和優(yōu)化方法來解決實(shí)際問題教學(xué)重點(diǎn):策略優(yōu)化方法在搜索廣告排序和競價機(jī)制中的應(yīng)用。教學(xué)難點(diǎn):分析案例,建立模型,展示實(shí)驗(yàn)效果。422、38.TaskBot——阿里小蜜的任務(wù)型問答技術(shù)8.1研究背景 8.2模型設(shè)計(jì) 教學(xué)要求:掌握TaskBot——阿里小蜜的任務(wù)型問答技術(shù)的應(yīng)用。教學(xué)重點(diǎn):分析TaskBot——阿里小蜜的任務(wù)型問答技術(shù)的應(yīng)用背景。教學(xué)難點(diǎn):分析案例,建立模型,展示實(shí)驗(yàn)效果。201、2、39.DRL導(dǎo)購——阿里小蜜的多輪標(biāo)簽推薦技術(shù)9.1研究背景 9.2算法框架 9.3深度強(qiáng)化學(xué)習(xí)模型 教學(xué)要求:掌握DRL導(dǎo)購——阿里小蜜的多輪標(biāo)簽推薦技術(shù)教學(xué)重點(diǎn):掌握多輪標(biāo)簽推薦技術(shù)的算法框架。教學(xué)難點(diǎn):分析案例,建立模型,展示實(shí)驗(yàn)效果。201、3合計(jì)2482.實(shí)驗(yàn)部分實(shí)驗(yàn)部分的教學(xué)內(nèi)容、基本要求與學(xué)時分配見表3。表3實(shí)驗(yàn)項(xiàng)目、實(shí)驗(yàn)內(nèi)容與學(xué)時實(shí)驗(yàn)項(xiàng)目實(shí)驗(yàn)內(nèi)容和要求實(shí)驗(yàn)學(xué)時對應(yīng)的課程目標(biāo)1.基于強(qiáng)化學(xué)習(xí)的實(shí)時搜索排序策略調(diào)控實(shí)驗(yàn)內(nèi)容:算法設(shè)計(jì)、獎賞塑形、DDPG與梯度融合實(shí)驗(yàn)要求:掌握實(shí)時搜索排序策略的調(diào)控,建立模型,展示實(shí)驗(yàn)效果。21、22.基于多智能體強(qiáng)化學(xué)習(xí)的多場景聯(lián)合優(yōu)化實(shí)驗(yàn)內(nèi)容:掌握多智能體強(qiáng)化學(xué)習(xí)的多場景聯(lián)合優(yōu)化;更深入地理解和掌握算法應(yīng)用;實(shí)驗(yàn)要求:掌握多智能體強(qiáng)化學(xué)習(xí)的多場景聯(lián)合,建立模型,展示實(shí)驗(yàn)效果。22、33.組合優(yōu)化視角下基于強(qiáng)化學(xué)習(xí)的精準(zhǔn)定向?qū)嶒?yàn)內(nèi)容:掌握組合優(yōu)化視角下基于強(qiáng)化學(xué)習(xí)的精準(zhǔn)定向,學(xué)會利用問題建模來解決實(shí)際問題。實(shí)驗(yàn)要求:掌握組合優(yōu)化視角下基于強(qiáng)化學(xué)習(xí)的精準(zhǔn)定向,建立模型,展示實(shí)驗(yàn)效果。21、24.策略優(yōu)化方法在搜索廣告排序和競價機(jī)制中的應(yīng)用實(shí)驗(yàn)內(nèi)容:學(xué)會利用數(shù)學(xué)模型和優(yōu)化方法來解決實(shí)際問題實(shí)驗(yàn)要求:策略優(yōu)化方法在搜索廣告排序和競價機(jī)制中的應(yīng)用。分析案例,建立模型,展示實(shí)驗(yàn)效果。22、3合計(jì)8五、教學(xué)方法及手段課程教學(xué)以課堂講授為主,結(jié)合實(shí)驗(yàn)、作業(yè)、慕課、雨課堂資源,配合多媒體課件等共同課完成堂授課內(nèi)容。采用E-mail、QQ、微信等交流工具,加強(qiáng)和學(xué)生之間的交流和溝通。本課程以課堂講授為主,結(jié)合討論、案例、視頻資源共享、實(shí)驗(yàn)演示等教學(xué)手段完成課程教學(xué)任務(wù)和相關(guān)能力的培養(yǎng)。學(xué)生比較全面地理解強(qiáng)化學(xué)習(xí)的基本原理,在掌握人工智能與計(jì)算機(jī)算法的基礎(chǔ)上,具備將所掌握的強(qiáng)化學(xué)習(xí)知識應(yīng)用到實(shí)際工程的初步能力。在實(shí)驗(yàn)教學(xué)環(huán)節(jié)中,通過任務(wù)式教學(xué)、討論式教學(xué)培養(yǎng)學(xué)生的基本操作能力及相應(yīng)的分析能力。培養(yǎng)學(xué)生自主學(xué)習(xí)能力、激發(fā)學(xué)生的創(chuàng)新思維。六、課程資源庫1.推薦教材:(1)笪慶,曾安祥.強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn):強(qiáng)化學(xué)習(xí)在阿里的技術(shù)演進(jìn)和業(yè)務(wù)創(chuàng)新[M].北京.電子工業(yè)出版社.2018.102.參考書:(1)羅俊海.Python深度強(qiáng)化學(xué)習(xí)[M].北京.清華大學(xué)出版社,2022(2)莫凡.機(jī)器學(xué)習(xí)算法的數(shù)學(xué)解析與Python實(shí)現(xiàn)[M].北京.機(jī)械工業(yè)出版社,2020(3)彭偉.揭秘深度強(qiáng)化學(xué)習(xí)[M].北京.中國水利水電出版社,2018(4)Bishop,C.M.PatternRecognitionandMachineLearning[M].SpringScience+BusinessMedia,LLC,2006。(5)德梅萃·P.

博賽卡斯(Dimitri

P.

Bertsekas).強(qiáng)化學(xué)習(xí)與最優(yōu)控制[M].北京.清華大學(xué)出版社.2020(6)MarcPeterDeisenroth,A.AldoFaisal,ChengSoonOng.MathematicsforMachineLearning[M].CambridgeUniversityPress,20203.期刊:(1)張倩.基于多智能體強(qiáng)化學(xué)習(xí)的分層決策優(yōu)化方法[J].電子科技大學(xué)學(xué)報(社科版).2022,24(06)(2)毛鵬強(qiáng).基于深度強(qiáng)化學(xué)習(xí)的無線網(wǎng)絡(luò)邊緣緩存技術(shù)綜述[J].陸軍工程大學(xué)學(xué)報.2022,1(06)4.網(wǎng)絡(luò)資源:(1)中國大學(xué)MOOC(慕課)國家精品課程在線學(xué)習(xí)平臺:/.(2)智慧樹在線教育平臺:/.(3)學(xué)堂在線國家精品課堂在線學(xué)習(xí)平臺:/(4)Coursera在線課程平臺:/courses.七、課程考核對課程目標(biāo)的支撐課程成績由過程性考核成績和期末考核成績兩部分構(gòu)成,具體考核/評價細(xì)則及對課程目標(biāo)的支撐關(guān)系見表4。表4課程考核對課程目標(biāo)的支撐考核環(huán)節(jié)占比考核/評價細(xì)則課程目標(biāo)123過程性考核課堂表現(xiàn)10(1)根據(jù)課堂出勤情況和課堂回答問題情況進(jìn)行考核,滿分100分。(2)以平時考核成績乘以其在總評成績中所占的比例計(jì)入課程總評成績?!獭獭?35作業(yè)15(1)主要考核學(xué)生對各章節(jié)知識點(diǎn)的復(fù)習(xí)、理解和掌握程度,滿分100分;(2)每次作業(yè)單獨(dú)評分,取各次成績的平均值作為此環(huán)節(jié)的最終成績。(3)以作業(yè)成績乘以其在總評成績中所占的比例計(jì)入課程總評成績。√√√555分組任務(wù)15(1)根據(jù)學(xué)生參與的所有線上、線下小組任務(wù)活動獲得的分?jǐn)?shù)取平均分,滿分100分。(2)以平時考核成績乘以其在總評成績中所占的比例計(jì)入課程總評成績。√√√555期末考核60大作業(yè)為線下考核為主,每位同學(xué)應(yīng)從多個題目中選取一個進(jìn)行撰寫相關(guān)報告或論文。學(xué)生應(yīng)當(dāng)獨(dú)立完任務(wù),報告或論文應(yīng)當(dāng)邏輯通順、內(nèi)容豐富,有自己的見解。(3)禁止抄襲?!獭獭?52510合計(jì):100分373825八、考核與成績評定1.考核方式及成績評定考核方式:本課程主要以出勤、課堂表現(xiàn)、作業(yè)、期末大作業(yè)等方式對學(xué)生進(jìn)行考核評價??己嘶疽螅嚎己丝偝煽冇善谀┐笞鳂I(yè)和過程性考核成績組成。其中:期末大作業(yè)成績?yōu)?00分(權(quán)重60%),大作業(yè)類型為報告或論文;課堂表現(xiàn)、實(shí)驗(yàn)、作業(yè)等過程性考核成績?yōu)?00分(權(quán)重40%)。2.過程性考核成績的標(biāo)準(zhǔn)過程性考核方式重點(diǎn)考核內(nèi)容、評價標(biāo)準(zhǔn)、所占比重見表5。表5過程性考核方式評價標(biāo)準(zhǔn)考核方式所占比重(%)100>x≥9090>x≥8080>x≥7070>x≥60x<60課堂表現(xiàn)25筆記完整,積極參與教學(xué)活動,踴躍回答問題,準(zhǔn)確率大于90%。筆記完整,認(rèn)真參與教學(xué)活動,回答問題準(zhǔn)確率大于80%。筆記不完整,偶爾參與教學(xué)活動,回答問題準(zhǔn)確率大于70%。上課不認(rèn)真,上課不記筆記,偶爾參與教學(xué)活動。上課不認(rèn)真,上課不記筆記,不參與教學(xué)活動。作業(yè)37.5作業(yè)完整,思路清晰,準(zhǔn)確率大于90%,字跡工整。作業(yè)完整,準(zhǔn)確率大于80%,字跡工整。不交作業(yè)2次以內(nèi),準(zhǔn)確率大于70%.不交作業(yè)4次以內(nèi),準(zhǔn)確率大于60%.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論