小米小愛智能問答系統(tǒng)概覽_第1頁
小米小愛智能問答系統(tǒng)概覽_第2頁
小米小愛智能問答系統(tǒng)概覽_第3頁
小米小愛智能問答系統(tǒng)概覽_第4頁
小米小愛智能問答系統(tǒng)概覽_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DataFunSummit知識圖譜在線峰會|DataFunSummit|小米小愛智能問答系統(tǒng)概覽代文小米高級算法工程師代文小米高級算法工程師-CONTENTS介紹應(yīng)用場景02圖譜問答介紹應(yīng)用場景02基于知識圖譜的問答形式檢索問答基于檢索匹配的問答形式0304閱讀理解檢索問答基于檢索匹配的問答形式0304基于閱讀理解的問答形式|DataFunSummit介紹小愛同學(xué)應(yīng)用場景|DataFunSummit生活服務(wù)生活服務(wù)介紹—應(yīng)用場景信息查詢基礎(chǔ)工具基礎(chǔ)工具截止2021年3月,數(shù)據(jù)來源:/Homewear語音控制天氣智能語音控制天氣智能音樂介紹—應(yīng)用場景>有客觀事實(shí)性答案>滿足用戶信息查詢類需求02問答算法模塊基于知識圖譜的問答形式|DataFunSummit基于知識圖譜的問答超百億超百億數(shù)十億+數(shù)十億+本地生活字詞、古詩房產(chǎn)人物、作品基于知識圖譜的問答 姚明教練1962年1月19日身高226cm 運(yùn)動員類型 姚明教練1962年1月19日身高226cm 運(yùn)動員類型 配偶杰夫.范甘迪 麥迪佛羅里達(dá)模板庫人物:set字詞:set古詩:set基于模板的方法姚明的老婆是誰實(shí)體鏈接老婆是誰 老婆是誰 命中模板庫查詢語句模板的獲取是一個(gè)困難的問題模板的獲取是一個(gè)困難的問題從線上高頻query擴(kuò)展補(bǔ)充答案答案基于模板的方法—模板挖掘方法結(jié)構(gòu)化詞條1.答案中出現(xiàn)多個(gè)屬性值的問答對要過濾掉2.出現(xiàn)頻次低的問法要過濾掉結(jié)構(gòu)化解析…抽取序數(shù)詞槽位結(jié)果抽取約束條件選擇屬性答案第一抽取序數(shù)詞槽位結(jié)果抽取約束條件選擇屬性答案第一帶約束的問答—世界之最支持實(shí)體抽取抽取實(shí)體類型體重最大的貓科動物query是否包含世界之最支持實(shí)體類型,以及是否包含最大、最小、第一、第二等帶約束的問答—世界之最解決方案:同義詞、詞向量、句對相似度匹配實(shí)體的屬性放電量最大的魚放電量花期最長的植物花期開花時(shí)長解決方案:對量詞(大、長)設(shè)置一些默認(rèn)排序的屬性可能的屬性世界上最大的動物體重最大、高度最大、咬合力最大、翅展最大帶約束的問答—世界之最基于模板的方法線上性能好適合做體驗(yàn)精品化準(zhǔn)確率很準(zhǔn)確率很耗時(shí)耗力耗時(shí)耗力模板擴(kuò)充模板擴(kuò)充跨垂域粗粒度的語義解析方法>槽填充:通過NER方式提取槽位>意圖識別:按文本分類方式識別query意圖>多任務(wù)學(xué)習(xí):將二者聯(lián)合學(xué)習(xí)>后處理策略:根據(jù)領(lǐng)域詞表對識別槽位進(jìn)行糾錯(cuò)菜譜、古詩垂域:對欠召回badcase擴(kuò)召約30%,意圖準(zhǔn)確率87.2%,槽位抽取準(zhǔn)確率intentdetectionandslotfilling[J].arXivpreprintarXiv:1609.01454,2016.菜譜垂域80.41%85.76%古詩垂域84.59%87.79%模型部署意圖/槽位模型訓(xùn)練intention查上下句模型部署意圖/槽位模型訓(xùn)練intention查上下句模型部署獲取訓(xùn)練數(shù)據(jù)意圖/槽位模型訓(xùn)練獲取訓(xùn)練數(shù)據(jù)重復(fù)工作多樣本少intention查表達(dá)式概念抽象intention低資源問題:跨垂域粗粒度體系概念抽象intentionintention查上下句查定理提出者查定理查表達(dá)式粗粒度跨垂域作品類型作品時(shí)間細(xì)粒度映射細(xì)粒度意圖細(xì)粒度槽位基于路徑匹配的方法基于路徑匹配的方法—實(shí)體鏈接杰夫.范甘迪運(yùn)動員佛羅里達(dá)教練杰夫.范甘迪運(yùn)動員佛羅里達(dá)教練基于路徑匹配的方法—子圖檢索226cm226cm>以單實(shí)體/多實(shí)體作為起點(diǎn)>按照路徑模板挖掘候選子圖預(yù)定義路徑模板類型類型路徑模板單實(shí)體單跳Subject-Predicate-Answer單實(shí)體單跳Answer-Predicate-Object單實(shí)體兩跳Subject-Predicate-Intermediate-Predicate-Answer單實(shí)體兩跳Intermediate-Predicate-Object-Intermediate-Predicate-Answer單實(shí)體兩跳Intermediate-Predicate-Object-Answer-Predicate-Intermediate兩個(gè)實(shí)體兩跳Two-Entity-Path三個(gè)實(shí)體三跳Three-Entity-Path將路徑中的謂詞mask掉第一階段第二階段將路徑中的謂詞mask掉第一階段第二階段基于路徑匹配的方法—子圖匹配姚明的老婆的身高是多少姚明配偶身高姚明的老婆的身高是多少姚明配偶身高^候選路徑姚明配偶身高^候選路徑姚明的老婆的身姚明的老婆的身高是多少姚明教練出生日期^姚明隊(duì)友出生地^….03問答算法模塊基于檢索匹配的問答形式|DataFunSummitWHETHER物嗎基于檢索的FAQ問答非結(jié)構(gòu)化query:WHYQA范疇語義理解分詞詞性句法成分關(guān)鍵詞識別生成式Weight檢索相關(guān)性計(jì)算模型數(shù)據(jù)QA范疇語義理解分詞詞性句法成分關(guān)鍵詞識別生成式Weight檢索相關(guān)性計(jì)算模型數(shù)據(jù)增強(qiáng)對抗Lexical–entity/keyword深度學(xué)習(xí)Answer意圖理解否則Query意圖理解否則屬于詞性分詞關(guān)鍵詞識別情感識別詞性分詞關(guān)鍵詞識別情感識別句法成分語義索引語義索引實(shí)體索引權(quán)威性答案質(zhì)量度…基于檢索的FAQ問答?query改寫基于檢索的FAQ問答—檢索?為每一個(gè)問題計(jì)算句子的語義向量...V1V2Network2weights...V1V2Network2weights語義檢索.Step1:學(xué)習(xí)得到每個(gè)doc的語義向量...Network1docquerydocl0,x>t語義檢索雙向lstm0.50390.49470.48770.717185.680.712985.250.701284.810.700884.52?Step2:搭建faiss語義檢索服務(wù),以docid作為key,語義向量作為value語義檢索—ANN算法用戶query字面召回用戶query字面召回語義召回太陽有多大年紀(jì)太陽有多大體積太陽有多少歲數(shù)了狗狗能吃菠蘿嗎幼兒能吃菠蘿嗎小狗能不能吃孕期要注意什么孕期運(yùn)動有什么要注意的事項(xiàng)孕婦應(yīng)該注意些什么怎么才能讓寶寶吃飯的時(shí)候怎么才能讓寶寶玩的時(shí)候去吃飯?jiān)趺床拍茏寣殞毢煤贸燥堈Z義檢索—線上性能及效果索引索引聚類數(shù)量數(shù)量索引檢索4--44基于檢索的FAQ問答—詞權(quán)重長尾query:“孫子兵法智慧的現(xiàn)代意義”點(diǎn)擊數(shù)據(jù):根據(jù)Q=abc中a/b/c三個(gè)term在點(diǎn)擊結(jié)果中的出現(xiàn)次數(shù)來計(jì)算;為了解決從未出現(xiàn)過提取特征訓(xùn)練xgb模型特征類型特征類型特征名稱動態(tài)特征上下文特征根據(jù)語境動態(tài)自適應(yīng)的termweight。訓(xùn)練基于embedding的lstm網(wǎng)絡(luò),來動態(tài)計(jì)算每個(gè)term長尾query:“誰發(fā)明了新中國”2.獲取包含種子的句子集合(如:劉德華也被叫作華仔)3.生成pattern4.基于pattern集合獲取更多的SPO數(shù)據(jù)(如:姚明也被叫作大姚)5.將4的結(jié)果回灌1中,迭代整個(gè)流程4:VOB清洗清洗從線上業(yè)務(wù)效果出發(fā),優(yōu)先準(zhǔn)確率不含同義詞的語句利用人工標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練利用線上未召回query進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練返回結(jié)果利用人工標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練利用線上未召回query進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練返回結(jié)果請求Action:改寫Q基于檢索的FAQ問答—生成式改寫原Query改寫器Reward:改寫Q召Reward:改寫Q召Env原QueryEnv檢索式問答系統(tǒng)queryquery檢索結(jié)果歷史上最短的朝代是哪個(gè)朝1.歷史上中國最長的是哪個(gè)朝代2.趙飛燕是歷史上哪個(gè)朝代的3.歷史上禪讓只在哪個(gè)朝代4.唐朝是不是歷史上最強(qiáng)大的朝代5.中國第一個(gè)朝代是哪個(gè)朝哪個(gè)朝代歷史最短1.中國歷史上哪個(gè)朝代時(shí)間最長,哪個(gè)朝代時(shí)間最短2.中國歷史上哪個(gè)朝代存在的時(shí)間最長哪個(gè)最短3.中國時(shí)間最短的朝代是哪個(gè)4.青帝是哪個(gè)朝代的歷史人物5.裴松之是哪個(gè)朝代的歷史人物基于檢索的FAQ問答?query改寫Network1weightsNetwork1weights基于檢索的FAQ問答—常用匹配模型Representation-basedMethodsoutputNetwork2query>雙塔結(jié)構(gòu)>DSSM、CNN-DSSM、ARC-I等Interaction-basedMethods>ESIM、MatchPyramid、K-NRM、ABCNN、BiMPM、DIIN等生成器判別器生成器判別器基于檢索的FAQ問答—模型訓(xùn)練數(shù)據(jù)數(shù)據(jù)語義匹配模型語義匹配模型生成混淆性強(qiáng)的負(fù)樣本,用于訓(xùn)練判別器根據(jù)判別難度,對生成器構(gòu)造的負(fù)樣本計(jì)算reward,用于訓(xùn)練生成器(基于策略梯度的強(qiáng)化學(xué)習(xí))>首先,基于用戶行為日志的海量數(shù)據(jù)做粗訓(xùn)練,這部分海量數(shù)據(jù)質(zhì)量較低,噪音偏多。>然后,用高質(zhì)的人工標(biāo)注數(shù)據(jù)+數(shù)據(jù)增強(qiáng)做進(jìn)一步的fine-tuning。數(shù)據(jù)增強(qiáng)級聯(lián)操作體替換提取關(guān)鍵詞共享部分層級聯(lián)操作體替換提取關(guān)鍵詞共享部分層語義焦點(diǎn):額外特征輸出層輸出層語義向量語義向量怎么算”語義向量語義向量總不聽話”term-weightwithoutkeyword-頭部評測集長尾評測集04問答算法模塊基于閱讀理解的問答形式|DataFunSummit輸出層:答案起點(diǎn)、終點(diǎn)位置預(yù)測表示層:信息抽取輸入層:問題和篇章輸出層:答案起點(diǎn)、終點(diǎn)位置預(yù)測表示層:信息抽取輸入層:問題和篇章基于BERT的MRC模型NoNoAnswer主要問題–開放場景下,候選passage太長,檢索難度大–誤召比較嚴(yán)重,準(zhǔn)確率難以適應(yīng)產(chǎn)品應(yīng)用–

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論