![任務(wù)驅(qū)動(dòng)的多輪對話的設(shè)計(jì)_第1頁](http://file4.renrendoc.com/view/40fc5972b34b22a7b28d4bc3ba258a1c/40fc5972b34b22a7b28d4bc3ba258a1c1.gif)
![任務(wù)驅(qū)動(dòng)的多輪對話的設(shè)計(jì)_第2頁](http://file4.renrendoc.com/view/40fc5972b34b22a7b28d4bc3ba258a1c/40fc5972b34b22a7b28d4bc3ba258a1c2.gif)
![任務(wù)驅(qū)動(dòng)的多輪對話的設(shè)計(jì)_第3頁](http://file4.renrendoc.com/view/40fc5972b34b22a7b28d4bc3ba258a1c/40fc5972b34b22a7b28d4bc3ba258a1c3.gif)
![任務(wù)驅(qū)動(dòng)的多輪對話的設(shè)計(jì)_第4頁](http://file4.renrendoc.com/view/40fc5972b34b22a7b28d4bc3ba258a1c/40fc5972b34b22a7b28d4bc3ba258a1c4.gif)
![任務(wù)驅(qū)動(dòng)的多輪對話的設(shè)計(jì)_第5頁](http://file4.renrendoc.com/view/40fc5972b34b22a7b28d4bc3ba258a1c/40fc5972b34b22a7b28d4bc3ba258a1c5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、-. z.背景知識介紹多輪對話之所以稱之為多輪對話,而不是多輪問答,是因?yàn)槌藛柎鹑萃?,還有閑聊模式下的情感交流,以及多數(shù)情況以述句形式表達(dá)的情景模式,因此多輪問答實(shí)際是多輪對話的子集。由于事件的復(fù)雜性直接導(dǎo)致了多輪對話的復(fù)雜性,即上文所述的正常的知識問答和命令問答外,還有情感和場景表述,造成每一句與上下文語義高度相關(guān)或不相關(guān)交織出現(xiàn),就導(dǎo)致了規(guī)則的高度復(fù)雜性。如果用有限狀態(tài)機(jī)來處理多輪對話,就必須對話語權(quán)方即誰說出的話,必須被對方答復(fù),則這方為對話話語權(quán)方的每一個(gè)token語句進(jìn)展意圖識別,引入意圖隊(duì)列,對隊(duì)列進(jìn)展基于規(guī)則的推理機(jī)處理或基于深度學(xué)習(xí)的預(yù)測,例如:應(yīng)酬 查訂單 確認(rèn)退款 正常情
2、況? = 再見完畢本輪對話。當(dāng)然也可以用seq2seq的方法,將整個(gè)對話過程,抽象成一個(gè)session。輸入假設(shè)干個(gè)相關(guān)句子,解碼成一個(gè)句子,即答案。多輪交互的一個(gè)重點(diǎn)問題是:如何根據(jù)上下文理解當(dāng)前的意圖,而不僅僅是針對單輪進(jìn)展一個(gè)分析,從而能夠使得對話在一個(gè)連續(xù)的語境下,是具備session粒度理解能力的。以下方案,均假設(shè)有一個(gè)已經(jīng)做得比擬好的單輪理解以后的情況:嘗試方案1:最簡單粗暴地,把多輪query,融合成一個(gè)單輪的query,進(jìn)展一次性的解析.直接將多輪交互的意圖理解問題,轉(zhuǎn)換成一個(gè)單輪的意圖理解問題,從而復(fù)用原有的單輪理解效果。例如:我想看電影-周星馳演的-喜劇片,三個(gè)query合
3、并以后,解析到實(shí)際用戶的需求,是周星馳主演的喜劇電影。優(yōu)點(diǎn):簡單,粗暴,易于實(shí)現(xiàn),幾乎服用了單輪解析能力缺點(diǎn):簡單,粗暴,易于出錯(cuò),幾乎沒有任何實(shí)質(zhì)性的多輪解析能力,純粹靠運(yùn)氣優(yōu)化方向:可以參加一些query拼接的限制,提高拼接的準(zhǔn)確率,從而在運(yùn)用到單輪解析能力的同時(shí),不至于在準(zhǔn)召上偏離得太離譜如:只拼接兩輪的、三輪及以上拼接,考慮拼接后的意圖變化情況等嘗試方案2:不是簡單拼接,而是結(jié)果和query的識別過程拼接:單輪已經(jīng)解析出了一個(gè)意圖和*些槽位,將此意圖及槽位存儲(chǔ)起來。遇到query的時(shí)候,判定該意圖下,這個(gè)query能否納入同樣的意圖中,抽取出對應(yīng)的槽位。如果可以,則更新意圖的槽位容。如
4、果不可以,則拋棄當(dāng)前意圖,以query作為單輪解析,得到新的意圖。例如:我想看電影-要免費(fèi)的,第一輪意圖為電影,第二輪在電影這個(gè)意圖下,發(fā)現(xiàn)免費(fèi)這個(gè)槽位,是符合電影意圖描述的,所以,為該意圖的槽位新增一個(gè)免費(fèi)例如:我想看愛情電影-能給我講個(gè)笑話嗎,第一輪意圖為電影,而第二輪在電影這個(gè)意圖下,發(fā)現(xiàn)query并沒有任何跟電影相關(guān)的槽位信息,所以,拋棄第一輪的電影意圖,直接將第二輪query當(dāng)成單輪的,直接解析得到新的意圖-笑話。優(yōu)點(diǎn):基于意圖來進(jìn)展判定,比拼接更準(zhǔn)確,也更廣泛地識別當(dāng)前query是否仍在同一個(gè)意圖中,遞歸地實(shí)現(xiàn)多輪意圖解析,防止了拼接過長,拼接過于粗暴帶來的誤召回和欠召回缺點(diǎn):存儲(chǔ)
5、下來的是意圖和槽位,然后再基于此進(jìn)展新的query解析,判定是否槽位能夠納入原有意圖圍,這種遞歸一旦有*一步除了問題,后面的每一步,根本上都掛掉了,解析錯(cuò)誤的傳播深度和廣度,都會(huì)很大優(yōu)化方向:前面幾步,可以輔助以方案一的拼接,來提高意圖的正確性,保證后續(xù)的方向,都是正確的嘗試方案3:以對話管理過程中增加一些冗余性來對方案2進(jìn)展擴(kuò)大,提高召回率。多輪交互一旦進(jìn)入了*個(gè)意圖,即開場該意圖的滿足,而當(dāng)其第一次多輪解析未能命中該意圖,也無法命中任何其他意圖純屬閑聊的時(shí)候,可以跳過該輪的意圖解析,而繼續(xù)進(jìn)入下一輪,檢測該意圖是否涵蓋了當(dāng)前query中的槽位,是則可以繼續(xù)該意圖的滿足,不至于輕易斷開多輪對
6、話流此處的冗余輪數(shù)可以根據(jù)實(shí)際情況自行調(diào)整,一輪、兩輪均可。例如:給我推薦個(gè)餐廳-有川菜口味的嗎-咦,還蠻多嘛冗余跳過-找個(gè)最廉價(jià)的吧優(yōu)點(diǎn):可以一定程度上緩解方案二遞歸性帶來的意外跳出意圖的問題,提高每個(gè)意圖的效勞整體性,保證多輪的延續(xù)性。缺點(diǎn):因?yàn)樵砩细桨付且恢碌?,所以還是會(huì)存在方案二的缺點(diǎn),并且冗余跳過有可能是未能識別到具體的意圖,從而令本該跳出對話的多輪,多停留了一兩輪在了當(dāng)前意圖,才能跳出去,會(huì)降低交互的智能性。優(yōu)化方向:盡可能提升多個(gè)意圖的覆蓋面,從而減少切換意圖的誤判為聊天,提升冗余的準(zhǔn)確性上述三個(gè)方案,都是可以直接通過比擬簡單的框架設(shè)計(jì)來實(shí)現(xiàn)的,而讀者可以發(fā)現(xiàn),可能最關(guān)鍵的
7、還是這些方案的前提:【假設(shè)有一個(gè)已經(jīng)做得比擬好的單輪理解】。可以看到,單輪理解是所有意圖識別的根底,只有做好單輪的理解,才可能做好多輪,當(dāng)然,做好了單輪,不一定就能做好多輪。對話系統(tǒng)的分類及方法:按照對話答案的生成方式大致可以分為以下幾種:規(guī)則依存系統(tǒng)Rule-based system:對話經(jīng)過預(yù)定義的規(guī)則關(guān)鍵詞、if-else、機(jī)器學(xué)習(xí)方法等處理,然后執(zhí)行相應(yīng)的操作,產(chǎn)生回復(fù)。ELIZA系統(tǒng),如果輸入語句中沒有發(fā)現(xiàn)預(yù)定義規(guī)則,則生成generic的響應(yīng)。缺點(diǎn)是規(guī)則的定義,系統(tǒng)越復(fù)雜規(guī)則也越多,而且其無法理解人類語言,也無法生成有意義的自然語言對話。處在比擬淺層的階段;檢索依存系統(tǒng)IR-bas
8、ed Systems:信息檢索或者最近鄰方法,要求生成的響應(yīng)與對話存在語義相關(guān)性VSM、TF-IDF、Rank、推薦等排序方法。有點(diǎn)是比生成模型簡單,直接從訓(xùn)練集中選擇答案,且可以添加自定義規(guī)則干預(yù)排序函數(shù)較為靈活;缺點(diǎn)是無法應(yīng)對自然語言的多變性、語境解構(gòu)、連貫性等,對語義的細(xì)微差異也無法識別;自生成依存系統(tǒng)Generation-based Systems:將對話視為input-output mapping問題,提出了MT-based方法SMT統(tǒng)計(jì)機(jī)器翻譯、IBM-model、phrase-based MT等,這種方法復(fù)雜且無法很好的解決輸入輸出的對應(yīng)關(guān)系尤其是當(dāng)句子較復(fù)雜的時(shí)候,只適合單詞級
9、別。但是NN、seq-to-seq等方法很好地解決了這些問題,可以生成更加豐富、有意義、特別的對話響應(yīng)。但是還存在許多問題,比方沉悶的回應(yīng)、agent沒有一個(gè)固定的風(fēng)格、多輪對話槽填充等等??蚣芤来嫦到y(tǒng)Frame-based Dialogue Systems:定義一個(gè)對話的框架,及其中所涉及的重要元素。優(yōu)點(diǎn)是目標(biāo)明確框架對對話指導(dǎo)意義明顯,適用于飛機(jī)票、餐館等預(yù)定領(lǐng)域。缺點(diǎn)是框架設(shè)計(jì)需要人工本錢,且無法遷移到別的領(lǐng)域,并未涉及到人類語言的理解層面。按照對話的應(yīng)答方式大致可以分為以下幾種:有限狀態(tài)機(jī)系統(tǒng)Finite-State Machine Systems:用戶使用預(yù)定義的模板提問,系統(tǒng)之響應(yīng)
10、能力圍之的問題,這種方法的缺點(diǎn)是完全依賴于對框架slot的填充,而無法決定對話的進(jìn)程和狀態(tài)用戶承受建議、拒絕等純粹的多輪對話依存系統(tǒng)State-based Systems:主要包含系統(tǒng)狀態(tài)上下文信息、用戶意圖、對話進(jìn)程等和系統(tǒng)行動(dòng)兩基于state采取action個(gè)局部。MDP、POMDP等模型。純粹的單輪對話Question-Answering -QA)系統(tǒng)Based Dialogue Systems:factoid QA-based,個(gè)人助手,需要答復(fù)各種各樣的問題并且進(jìn)展交互式對話。目前的研究點(diǎn)主要包括,bot如何通過對話進(jìn)展自學(xué)習(xí)、對于out-of-vocab的詞匯應(yīng)該學(xué)會(huì)問,即學(xué)會(huì)與人
11、交流、如何通過在線反應(yīng)學(xué)習(xí)犯錯(cuò)時(shí)調(diào)整、正確時(shí)加強(qiáng)待處理局部1.2 本文解決問題本文主要關(guān)注于chit-chat和QA-based dialog system。1.2.1 開放域?qū)υ捝?chit-chat首先探討如何構(gòu)建一個(gè)能夠與人類進(jìn)展有趣,有意義,連貫,一致和長期對話的引人入勝的閑聊式對話系統(tǒng)。要求其擁有以下特性:防止dull沉悶的回應(yīng),產(chǎn)生語義更加豐富的響應(yīng)解決一致性問題,防止前后相應(yīng)不一致可以進(jìn)展長期多輪對話使用對抗學(xué)習(xí)生成人類無法區(qū)分的對話響應(yīng)為了實(shí)現(xiàn)上述的功能和特點(diǎn),主要會(huì)引入下面幾種技術(shù)和算法來解決相應(yīng)的問題。互信息-防止無聊的相應(yīng)目前神經(jīng)網(wǎng)絡(luò)傾向于產(chǎn)生類似于I dont kno
12、w這種無聊的響應(yīng)dull response/generic response,不利于對話進(jìn)展。因?yàn)閷τ谀P蛠碇v,I dont know這種答案往往都是正確的,但是我們可以反過來思考這個(gè)問題,也就是將I dont know作為輸入進(jìn)展訓(xùn)練。因此可以使用Ma*imum Mutual Information (MMI)取代MLE作為訓(xùn)練的優(yōu)化指標(biāo),事實(shí)證明這種方法可以大幅度提升模型響應(yīng)的豐富度,減少dull response產(chǎn)生的頻率。這局部方法將會(huì)在第三章進(jìn)展詳細(xì)的介紹。解決Bot前后一致性問題目前對話機(jī)器人無法產(chǎn)生前后一致性的對話,簡單說就是沒有一個(gè)固定的風(fēng)格。所以要給bot一個(gè)連續(xù)的角色,這種
13、角色可以當(dāng)做是身份元素事實(shí)背景、用戶簡介、語言行為、交互方式等的組合。作者基于Seq-to-Seq模型提出了兩種角色模型,一個(gè)是單bot的Spearker Model,另一個(gè)是雙bot的Spearker-Addressee Model。這局部容可以參考第四章以及他在2016年發(fā)表在ACL的論文 A persona-based neural conversation model。使用強(qiáng)化學(xué)習(xí)RL實(shí)現(xiàn)長期多輪對話當(dāng)前的Seq-to-Seq模型大都使用MLE作為目標(biāo)函數(shù)并根據(jù)一輪對話來產(chǎn)生響應(yīng),很難產(chǎn)生更長久的多輪對話,一般在兩輪之后就陷入重復(fù)。所以作者提出使用強(qiáng)化學(xué)習(xí)來最大化長期獎(jiǎng)勵(lì)的期望來增加對
14、話輪次。并建立性地提出了三種Reward公式,*forward-looking、informative、coherent*,最后使用policy gradient的方法進(jìn)展訓(xùn)練,取得了很好的效果。這局部容會(huì)在第五章進(jìn)展詳細(xì)介紹,或者參考其在2016年發(fā)表在EMNLP的文章Deep Reinforcement Learning for Dialogue Generation使用對抗生成學(xué)習(xí)GAN產(chǎn)生對話目前模型生成的對話大都來自于訓(xùn)練數(shù)據(jù)集,這就一定程度上限制了產(chǎn)生相應(yīng)的多樣性、豐富程度等。所以引入GAN來生成更接近于人類語言的響應(yīng)。這里使用一個(gè)Seq-to-Seq作為生成器,在用一個(gè)鑒別器來標(biāo)
15、記生成的響應(yīng)是人類語言還是機(jī)器生成語言,這樣Seq-to-Seq最終生成的響應(yīng)會(huì)越來越接近人類語言。這局部容會(huì)在第六章進(jìn)展介紹,或者參考其在2017年發(fā)表在EMNLP上的文章Adversarial learning for neural dialogue generation。1.2.2 交互式QA對話機(jī)器人其次探討bot如何通過online學(xué)習(xí)完善自己,使得交互性更強(qiáng)。要求其可以:學(xué)會(huì)向人類提問,何時(shí)何處問什么從online學(xué)習(xí),根據(jù)錯(cuò)誤改良自己通過提問進(jìn)展交互學(xué)習(xí)因?yàn)槟壳皢柎鹣到y(tǒng)當(dāng)遇到自己答復(fù)不了的問題時(shí)沒見過的表達(dá)形式,自己不知道的東西等情況,往往會(huì)做出很差的回應(yīng)或者重定向到其他資源展示
16、搜索網(wǎng)頁的結(jié)果。但我們更希望機(jī)器人在遇到這種問題時(shí)可以通過向?qū)Ψ教釂柕姆绞絹磉M(jìn)展交互式問答進(jìn)而解決該問題。可以通過離線學(xué)習(xí)或者在線強(qiáng)化學(xué)習(xí)的方式進(jìn)展訓(xùn)練。這局部容將會(huì)在第七章進(jìn)展介紹,也可以參考其在2017年發(fā)表在ICLR上的論文Learning through dialogue interactions by asking questions。Human-in-the-Loop的對話學(xué)習(xí)目前的對話機(jī)器人大都使用固定的數(shù)據(jù)集提前訓(xùn)練好之后就開場使用,但很多情況下我們需要機(jī)器人上線之后不斷地根據(jù)具體環(huán)境改善自己,也就是要進(jìn)展在線學(xué)習(xí),根據(jù)對方的反應(yīng)來不斷地調(diào)整自己。所以作者使用一個(gè)teacher
17、-student的對話數(shù)據(jù)集并結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)展訓(xùn)練。這局部工作將在第八章進(jìn)展介紹,也可以參考其2017年發(fā)表在ICLR上的文章Dialogue learning with human-in-the-loop。第二章背景知識這一局部主要介紹了論文中使用到的Seq-to-Seq模型、Memory Network模型、增強(qiáng)學(xué)習(xí)中的policy gradient方法這三塊容。如果不熟悉的同學(xué)可以抽時(shí)間看一看,這里因?yàn)橹耙呀?jīng)對Seq-to-Seq和MemNN兩局部有所掌握,所以主要看了一下policy network方面的知識,當(dāng)做是背景知識補(bǔ)充。強(qiáng)化學(xué)習(xí)中兩個(gè)主流的方法就是Q_learning和Po
18、licy Network,相比Q_learning,policy network不需要顯示的求解估值函數(shù),而且對于連續(xù)動(dòng)作和狀態(tài)空間的問題,也可以很好的解決,所以經(jīng)常在NLP相關(guān)領(lǐng)域中得到廣泛應(yīng)用。我們的樣本是一個(gè)個(gè)action-reward對,即每采取一個(gè)action都會(huì)有相應(yīng)的reward。再給定一個(gè)state時(shí),神經(jīng)網(wǎng)絡(luò)會(huì)輸出一個(gè)action的概率分布,我們的目標(biāo)是最終獎(jiǎng)勵(lì)的期望最大。如下列圖所示,即取動(dòng)作at的概率*其相應(yīng)的獎(jiǎng)勵(lì)r,然后再求和:為了實(shí)現(xiàn)期望最大,就要使用policy gradient的方法來求解和更新網(wǎng)絡(luò)參數(shù)Q。我們使用最大似然比likelihood ratio來估算J對Q的梯度,故有下式:引入b的目的是為了減少方差,原則上來講b可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 9 生活離不開規(guī)則 (說課稿)2023-2024學(xué)年統(tǒng)編版道德與法治三年級下冊001
- 2025工地集控室裝飾裝修工程分包合同
- 2025原料玉原料玉米電FEGN子交易合同文本
- 2025二手房交易合同(合同版本)
- 2024年五年級數(shù)學(xué)上冊 3 小數(shù)除法練習(xí)課說課稿 新人教版
- 2024年高中歷史 第三單元 從人文精神之源到科學(xué)理性時(shí)代 第13課 挑戰(zhàn)教皇的權(quán)威說課稿 岳麓版必修3
- Unit 6 Growing Up(說課稿)2023-2024學(xué)年人教新起點(diǎn)版英語五年級下冊001
- 2024秋七年級英語下冊 Module 8 Story time Unit 3 Language in use說課稿 (新版)外研版
- 書柜供貨合同范例
- 9短詩三首 說課稿-2024-2025學(xué)年語文四年級下冊統(tǒng)編版
- 二零二五年度集團(tuán)公司內(nèi)部項(xiàng)目專項(xiàng)借款合同范本3篇
- 事業(yè)單位公開招聘工作人員考試題(公共基礎(chǔ)知識試題和答案)
- 甲狀腺的科普宣教
- 《算法定價(jià)壟斷屬性問題研究的國內(nèi)外文獻(xiàn)綜述》4200字
- 廉潔應(yīng)征承諾書
- 煤礦機(jī)電運(yùn)輸安全培訓(xùn)課件
- 扣繳個(gè)人所得稅報(bào)告表-(Excel版)
- Unit+4+History+and+Traditions單元整體教學(xué)設(shè)計(jì)課件 高中英語人教版(2019)必修第二冊單元整體教學(xué)設(shè)計(jì)
- 2023年全國自學(xué)考試00054管理學(xué)原理試題答案
- 六年級譯林版小學(xué)英語閱讀理解訓(xùn)練經(jīng)典題目(附答案)
- GB/T 18015.1-1999數(shù)字通信用對絞或星絞多芯對稱電纜第1部分:總規(guī)范
評論
0/150
提交評論