




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
面向跨領(lǐng)域多輪對(duì)話系統(tǒng)的設(shè)計(jì)案例綜述系統(tǒng)設(shè)計(jì)流程本文集成上述方法和模型設(shè)計(jì)了系統(tǒng)的開(kāi)發(fā)流程,如圖1.1所示,實(shí)現(xiàn)了面向跨領(lǐng)域的多輪對(duì)話系統(tǒng)。圖1.1系統(tǒng)設(shè)計(jì)用文字來(lái)總結(jié)為:第一步,針對(duì)數(shù)據(jù)集中跨景點(diǎn)、餐館、酒店和交通等四個(gè)領(lǐng)域,設(shè)計(jì)了相對(duì)應(yīng)的意圖請(qǐng)求和語(yǔ)義表示;第二步,數(shù)據(jù)集預(yù)處理。按照預(yù)定義的意圖以及語(yǔ)義槽,基于中文預(yù)訓(xùn)練的BERT模型對(duì)對(duì)話數(shù)據(jù)進(jìn)行意圖檢測(cè)和領(lǐng)域識(shí)別,進(jìn)而對(duì)語(yǔ)料進(jìn)行語(yǔ)義槽填充;第三步,數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,首先在訓(xùn)練集上訓(xùn)練得到性能穩(wěn)定的模型,然后通過(guò)驗(yàn)證集和測(cè)試集的實(shí)驗(yàn),獲得性能表現(xiàn)最優(yōu)的模型;第四步,設(shè)計(jì)實(shí)現(xiàn)基于規(guī)則的對(duì)話狀態(tài)追蹤模塊,為驗(yàn)證規(guī)則的合理性,評(píng)估了該方法在數(shù)據(jù)集上的表現(xiàn);第五步,在數(shù)據(jù)集上基于模仿學(xué)習(xí)的方法進(jìn)行監(jiān)督學(xué)習(xí),根據(jù)語(yǔ)料庫(kù)中相對(duì)應(yīng)的系統(tǒng)回復(fù),構(gòu)建并訓(xùn)練得到最優(yōu)的動(dòng)作預(yù)測(cè)模型;第六步,設(shè)計(jì)與定義每個(gè)系統(tǒng)動(dòng)作對(duì)應(yīng)的應(yīng)答回復(fù)模板或者訓(xùn)練系統(tǒng)回答的SC-LSTM模型;最后一步,進(jìn)行系統(tǒng)的統(tǒng)一部署與測(cè)試。數(shù)據(jù)集的介紹通過(guò)調(diào)研任務(wù)型對(duì)話常見(jiàn)的的應(yīng)用場(chǎng)景,對(duì)比了不同數(shù)據(jù)集之間的優(yōu)劣以及特點(diǎn),最終確定使用一種面向多領(lǐng)域交互任務(wù)的大規(guī)模中文對(duì)話數(shù)據(jù)集。表1.1為基于該數(shù)據(jù)集的一個(gè)對(duì)話示例。表1.1對(duì)話示例對(duì)話標(biāo)注你好,幫我找一個(gè)免費(fèi)的景點(diǎn)。Id=1(景點(diǎn)):門(mén)票=免費(fèi),名稱(chēng)=?,周邊酒店=?天安門(mén)廣場(chǎng)怎么樣?景點(diǎn):門(mén)票=免費(fèi)多謝,我還想在天安門(mén)廣場(chǎng)旁邊找一家有叫醒服務(wù)的酒店住宿。Id=2(酒店):名稱(chēng)=附近(Id=1),叫醒服務(wù)=yes,評(píng)分=?向您推薦北京首都賓館。酒店:附近=天安門(mén)廣場(chǎng),酒店設(shè)施=叫醒服務(wù)這是一個(gè)中文大規(guī)模多領(lǐng)域任務(wù)導(dǎo)向?qū)υ挃?shù)據(jù)集,包含6千次對(duì)話,10萬(wàn)個(gè)句子,涉及5個(gè)領(lǐng)域(景點(diǎn)、酒店、餐館、地鐵、出租)。各領(lǐng)域包含的信息如下表1.2所示:表1.2數(shù)據(jù)集描述景點(diǎn)域名稱(chēng)*、評(píng)分*、門(mén)票*、游玩時(shí)間*、地址、電話、周邊景點(diǎn)、周邊餐館、周邊酒店餐館域名稱(chēng)*、評(píng)分*、人均消費(fèi)*、推薦菜*、地址、電話、營(yíng)業(yè)時(shí)間、周邊景點(diǎn)、周邊餐館、周邊酒店酒店域名稱(chēng)*、評(píng)分*、價(jià)格*、酒店類(lèi)型*、酒店設(shè)施*、電話、地址、周邊景點(diǎn)、周邊餐館出租域出發(fā)地、目的地、車(chē)型、車(chē)牌號(hào)碼地鐵域出發(fā)地、目的地、粗體部分可以是跨域的信息槽;帶星號(hào)的為信息槽;除了出租車(chē)和地鐵域中的“from”和“to”插槽外,所有插槽都是可請(qǐng)求的插槽。“周邊景點(diǎn)/餐館/酒店”槽和“推薦菜”槽可以以列表形式表示。“酒店設(shè)施”的值用1和0表示有無(wú)。實(shí)驗(yàn)將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,各部分的信息如下表1.3所示:表1.3數(shù)據(jù)集描述TrainValidTest對(duì)話總數(shù)5012500500對(duì)話總輪次8469284588476標(biāo)記1376033137736137427詞匯量1250252025143平均涉及領(lǐng)域3.243.263.26平均語(yǔ)義圖14.814.915.0平均輪次16.916.917.0平均標(biāo)記16.316.316.2針對(duì)本文的對(duì)話系統(tǒng),定義的部分意圖類(lèi)型如下表1.4所示:表1.4意圖類(lèi)型示例意圖類(lèi)型含義General+greet+none+none問(wèn)候General+thank+none+none感謝Inform+景點(diǎn)+門(mén)票告知景點(diǎn)價(jià)格Inform+景點(diǎn)+評(píng)分告知景點(diǎn)評(píng)分信息Request+景點(diǎn)+名稱(chēng)+請(qǐng)求推薦景點(diǎn)的名稱(chēng)Request+景點(diǎn)+游玩時(shí)間+請(qǐng)求景點(diǎn)的開(kāi)放時(shí)間區(qū)間Request+景點(diǎn)+周邊餐館+請(qǐng)求景點(diǎn)周邊的餐館Inform+餐館+人均消費(fèi)告知餐館人均消費(fèi)Inform+餐館+評(píng)分告知餐館評(píng)分信息Request+餐館+名稱(chēng)+請(qǐng)求推薦餐館的名稱(chēng)Request+餐館+電話+請(qǐng)求餐館的電話Request+餐館+營(yíng)業(yè)時(shí)間+請(qǐng)求餐館的營(yíng)業(yè)時(shí)間Request+餐館+周邊酒店+請(qǐng)求餐館周邊的酒店Inform+酒店+價(jià)格告知酒店價(jià)格Inform+酒店+評(píng)分告知酒店評(píng)分信息Inform+酒店+酒店設(shè)施-叫醒服務(wù)+是告知系統(tǒng)需要酒店提供叫醒服務(wù)Inform+酒店+酒店設(shè)施-無(wú)煙房+是告知系統(tǒng)需要酒店提供無(wú)煙房Inform+出租+目的地告知系統(tǒng)乘坐出租的目的地General+bye+none+none再見(jiàn)接口的設(shè)計(jì)與實(shí)現(xiàn)本節(jié)主要介紹系統(tǒng)代理接口的設(shè)計(jì)與實(shí)現(xiàn),接口中主要包括的方法是回復(fù)函數(shù)和對(duì)話進(jìn)程管理函數(shù)。在接口的實(shí)現(xiàn)中,要求給定該管道方法各個(gè)模塊所需要使用的方法和模型,并詳細(xì)定義了各個(gè)成員函數(shù)的實(shí)現(xiàn)過(guò)程。管道對(duì)話代理基類(lèi),包括NLU,DST,Policy和NLG。流水線代理模塊的組合方式非常靈活,可以根據(jù)客戶(hù)的需求制定各個(gè)模塊使用的模型和方法,從而實(shí)現(xiàn)對(duì)話系統(tǒng)的對(duì)多樣性。例如,在對(duì)話狀態(tài)追蹤模塊是使用RuleDST還是TRADE模型等。在對(duì)話系統(tǒng)被投入使用之前,便可以按照預(yù)定義的NLU,DST,Policy和NLG預(yù)先完成系統(tǒng)代理的部署。而各個(gè)模塊的具體實(shí)現(xiàn)就會(huì)按照第三章中介紹的流程,一步步地完成各模塊的任務(wù)實(shí)現(xiàn)。本文搭建的對(duì)話系統(tǒng)將系統(tǒng)動(dòng)作的具體實(shí)現(xiàn)過(guò)程以及信息處理的細(xì)節(jié)都封裝在代理類(lèi)中,系統(tǒng)通過(guò)代理類(lèi)的實(shí)現(xiàn)來(lái)設(shè)計(jì)在線客服。在多輪對(duì)話的過(guò)程中,用戶(hù)只需要向系統(tǒng)發(fā)出自己信息咨詢(xún)的具體請(qǐng)求,通過(guò)系統(tǒng)內(nèi)部方法的實(shí)現(xiàn)向用戶(hù)提供合適的回復(fù)。但是正如同現(xiàn)實(shí)中人類(lèi)之間的交互一樣,雙方會(huì)存在表意不明或者要求不具體的因此,因而也需要通過(guò)用戶(hù)和系統(tǒng)的多次交互來(lái)收集用戶(hù)的需求以完成系統(tǒng)任務(wù)。NLU接口的實(shí)現(xiàn)通過(guò)意圖識(shí)別和命名實(shí)體識(shí)別我們就可以完成自然語(yǔ)言理解,本文提出了一種BERTNLU-context的模型來(lái)做多輪對(duì)話下的自然語(yǔ)言理解。表1.5NLU接口的使用示例BERTNLU輸入:你好,給我推薦一個(gè)評(píng)分是5分,價(jià)格在100-200元的酒店。歷史信息:無(wú)NLU輸出:['General','greet','none','none'],['Request','酒店','名稱(chēng)',''],['Inform','酒店','評(píng)分','5分'],['Inform','酒店','價(jià)格','100-200元']輸入:北京布提克精品酒店酒店是什么類(lèi)型,有健身房嗎?歷史信息:'你好,給我推薦一個(gè)評(píng)分是5分,價(jià)格在100-200元的酒店。','推薦您去北京布提克精品酒店。'NLU輸出:['Request','酒店','酒店類(lèi)型',''],['Request','酒店','酒店設(shè)施-健身房',''],['Inform','酒店','名稱(chēng)','北京布提克精品酒店']DST接口的實(shí)現(xiàn)對(duì)話狀態(tài)跟蹤負(fù)責(zé)從對(duì)話上下文識(shí)別用戶(hù)目標(biāo),然后將目標(biāo)編碼到預(yù)定義的系統(tǒng)狀態(tài)中。傳統(tǒng)的狀態(tài)跟蹤模型以自然語(yǔ)言理解模塊解析的用戶(hù)對(duì)話行為作為輸入,而近年來(lái)出現(xiàn)了直接從上下文獲取系統(tǒng)狀態(tài)的聯(lián)合模型。我們?cè)谶@個(gè)實(shí)驗(yàn)中既實(shí)現(xiàn)了一個(gè)基于規(guī)則的模型(RuleDST),也使用了TRADE(TransferableDialogueStateGenerator)模型REF_Ref71109008\r\h[27]。下面表1.6展示了該基于RuleDST實(shí)現(xiàn)的一個(gè)示例。表1.6RuleDST的實(shí)現(xiàn)示例RuleDSTDST輸入:['General','greet','none','none'],['Request','酒店','名稱(chēng)',''],['Inform','酒店','評(píng)分','5分'],['Inform','酒店','價(jià)格','100-200元']圖1.2狀態(tài)更新示例DPL接口的實(shí)現(xiàn)該接口的預(yù)測(cè)示例如下表1.7所示:表1.7對(duì)話策略預(yù)測(cè)示例對(duì)話策略預(yù)測(cè)示例DPL輸入:{'user_action':[['General','greet','none','none'],['Request','景點(diǎn)','名稱(chēng)',''],['Inform','景點(diǎn)','門(mén)票','免費(fèi)']],'system_action':[],'belief_state':{'景點(diǎn)':{'名稱(chēng)':'','門(mén)票':'免費(fèi)','游玩時(shí)間':'','評(píng)分':'','周邊景點(diǎn)':'','周邊餐館':'','周邊酒店':''},'餐館':{'名稱(chēng)':'','推薦菜':'','人均消費(fèi)':'','評(píng)分':'','周邊景點(diǎn)':'','周邊餐館':'','周邊酒店':''},'酒店':{'名稱(chēng)':'','酒店類(lèi)型':'','酒店設(shè)施':'','價(jià)格':'','評(píng)分':'','周邊景點(diǎn)':'','周邊餐館':'','周邊酒店':''},'地鐵':{'出發(fā)地':'','目的地':''},'出租':{'出發(fā)地':'','目的地':''}},'cur_domain':'景點(diǎn)','request_slots':[['景點(diǎn)','名稱(chēng)']],'terminated':False,'history':[['sys',''],['user','你好,麻煩幫我推薦一個(gè)門(mén)票免費(fèi)的景點(diǎn)。']]}預(yù)測(cè)輸出:[['Inform','景點(diǎn)','名稱(chēng)','天安門(mén)廣場(chǎng)']]NLG接口的實(shí)現(xiàn)在TemplateNLG模塊中,我們預(yù)先定義了系統(tǒng)動(dòng)作對(duì)應(yīng)的回復(fù)模板。表1.8TemplateNLG的生成示例TemplateNLG輸入:['Inform','景點(diǎn)','名稱(chēng)','天安門(mén)廣場(chǎng)']輸出:您可以考慮天安門(mén)廣場(chǎng)這個(gè)景點(diǎn)。輸入:['Inform','景點(diǎn)','周邊餐館','北京全聚德(王府井店)']輸出:還真挺方便的,有一家飯店叫北京全聚德(王府井店)。如下表1.9所示為基于SC-LSTM的自然語(yǔ)言生成模塊的作用原理。表1.9SC-LSTM方法的作用原理SC-LSTM輸入:(Inform,Restaurant,name,$name)(Inform,Restaurant,cost,$cost)輸出:為您推薦$name,人均消費(fèi)$cost。如下表1.10展示了基于SC-LSTM方法的自然語(yǔ)言生成模塊的作用示例:表1.10基于SC-LSTM方法的自然語(yǔ)言生成示例SC-LSTM系統(tǒng)端輸入:['Inform','景點(diǎn)','名稱(chēng)','天安門(mén)廣場(chǎng)']系統(tǒng)端輸出:推薦您去天安門(mén)廣場(chǎng)游玩。用戶(hù)端輸入:['Inform','餐館','人均消費(fèi)','100-150元'],['Request','餐館','電話','']用戶(hù)端輸出:好的,請(qǐng)給我推薦一家人均消費(fèi)100-150元的餐館吃飯,這家的電話是多少?對(duì)話系統(tǒng)總體流程及成果展示對(duì)話系統(tǒng)總體設(shè)計(jì)流程圖1.3系統(tǒng)流程多輪對(duì)話系統(tǒng)測(cè)試如表1.11所示,在多輪對(duì)話系統(tǒng)的測(cè)試過(guò)程中,用戶(hù)輸入請(qǐng)求語(yǔ)句,系統(tǒng)會(huì)實(shí)時(shí)的反饋用戶(hù)意圖的識(shí)別情況,以及系統(tǒng)下一步行為的預(yù)測(cè),并生成最終給用戶(hù)的答復(fù)。系統(tǒng)會(huì)根據(jù)預(yù)定義的對(duì)話狀態(tài),每一輪交互中都會(huì)更新用戶(hù)的行為,直至語(yǔ)義槽填充完畢。在這里依次集成了BERTNLU模型、RuleDST模型、基于監(jiān)督學(xué)習(xí)的對(duì)話策略學(xué)習(xí)模型和基于語(yǔ)義控制的LSTM模型用于系統(tǒng)測(cè)試。表1.11系統(tǒng)測(cè)試示例系統(tǒng)測(cè)試結(jié)果用戶(hù)輸入:你好,麻煩幫我推薦一個(gè)門(mén)票免費(fèi)的景點(diǎn)。系統(tǒng)輸出:推薦您去天安門(mén)廣場(chǎng)游玩。用戶(hù)輸入:天安門(mén)廣場(chǎng)不錯(cuò),這附
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 63297:2025 EN-FR Sensing devices for non-intrusive load monitoring (NILM) systems
- 【正版授權(quán)】 IEC 63119-1:2025 EN Information exchange for electric vehicle charging roaming service - Part 1: General
- 華科版五年級(jí)信息技術(shù)課件
- 海南省小升初數(shù)學(xué)試卷
- 懷化市高三聯(lián)考數(shù)學(xué)試卷
- 濟(jì)南初三中考數(shù)學(xué)試卷
- 健康管理學(xué)概論課件
- 2024-2030年中國(guó)浙江省房地產(chǎn)行業(yè)市場(chǎng)調(diào)查研究及投資前景展望報(bào)告
- 中國(guó)香熏爐行業(yè)市場(chǎng)發(fā)展前景及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告(2024-2030)
- 中國(guó)櫸木行業(yè)市場(chǎng)發(fā)展前景及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告(2024-2030)
- 球磨工培訓(xùn)課件
- 《計(jì)算機(jī)總復(fù)習(xí)》課件
- 材料科學(xué)基礎(chǔ)第七章:二元相圖及其合金的凝固
- 數(shù)據(jù)治理課件
- 某煤礦雙軌運(yùn)輸水平大巷斷面及爆破設(shè)計(jì)
- 人力資源專(zhuān)員筆試題及答案
- 2022-2023學(xué)年北京市通州區(qū)高一期末語(yǔ)文試卷及答案解析
- 光伏2021施工上崗證考核答案
- 譯林版九年級(jí)上下冊(cè)英語(yǔ)單詞表(含音標(biāo))
- 大力加強(qiáng)依法治校推進(jìn)學(xué)校治理體系與治理能力現(xiàn)代化課件
- 病媒生物監(jiān)測(cè)方案
評(píng)論
0/150
提交評(píng)論