八章問答系統(tǒng)基礎(chǔ)_第1頁
八章問答系統(tǒng)基礎(chǔ)_第2頁
八章問答系統(tǒng)基礎(chǔ)_第3頁
八章問答系統(tǒng)基礎(chǔ)_第4頁
八章問答系統(tǒng)基礎(chǔ)_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第八章問答系統(tǒng)基礎(chǔ)本章內(nèi)容主要取自JohnM.Prager“QuestionAnsweringTutorial”和王強(qiáng)“ResearchonIntelligentInformationRetrievalSystemforTourismDomain”問答系統(tǒng)基礎(chǔ)問答簡(jiǎn)史術(shù)語基于文本的問答的核心問題問答系統(tǒng)基本結(jié)構(gòu)問答系統(tǒng)的相關(guān)技術(shù)問答簡(jiǎn)史帶有自然語言接口的專家系統(tǒng)NLPSHRDLU(MIT博士研究生Winograd,1972):積木世界中機(jī)器人與控制者問答語法語義推理技術(shù)的首次完整的實(shí)際的展示帶有自然語言接口的數(shù)據(jù)庫(kù)LUNAR(Woods,1973)用于查詢?cè)虑虻刭|(zhì)數(shù)據(jù),協(xié)助地質(zhì)學(xué)家查詢分析阿波羅11號(hào)在月球采集的巖石標(biāo)本的成分,回答用戶的問題,數(shù)據(jù)庫(kù)中有13000條化學(xué)分析規(guī)則和10000條文獻(xiàn)論題索引采用的擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)和過程語義分析LIFER/LADDER(Hendrixetal.1977)回答有關(guān)美國(guó)海軍軍艦的問題采用了語義文法,將領(lǐng)域知識(shí)也編入了文法自然語言處理+邏輯CHAT-80(Warren&Pereira,1982)采用prolog實(shí)現(xiàn)的自然語言問答系統(tǒng),能夠回答世界地理方面的問題問答簡(jiǎn)史(續(xù))首個(gè)現(xiàn)代意義上的問答系統(tǒng)MURAX(Kupiec,2001)為百科全書提供一個(gè)自然語言接口NLP+手工編寫與標(biāo)注的資源(例如:自然語言問答對(duì))AskJeeves()START(Katz,1997)

最早面向文本的問答,近年來拓展到多媒體問答簡(jiǎn)史(續(xù))IR+NLPTRECTextREtrievalConference組織者NIST(NationalInstituteofStandardsandTechnology),政府部門DARPA(DefenseAdvancedResearchProjectsAgency),軍方會(huì)議情況評(píng)測(cè)會(huì)議1992~2006,15屆總目標(biāo):支持在信息檢索領(lǐng)域的基礎(chǔ)研究,提供對(duì)大規(guī)模文本檢索方法的評(píng)估辦法TREC8-9中的部分“事實(shí)類問題”9:HowfarisYaroslavlfromMoscow?15:WhenwasLondon'sDocklandsLightRailwayconstructed?22:WhendidtheJurassicPeriodend?29:WhatisthebrighteststarvisiblefromEarth?30:WhataretheValdezPrinciples?73:WhereistheTajMahal?134:Whereisitplannedtoberththemerchantship,LaneVictory,whichMerchantMarineveteransareconvertingintoafloatingmuseum?197:WhatdidRichardFeynmansayuponhearinghewouldreceivetheNobelPrizeinPhysics?198:HowdidSocratesdie?199:HowtallistheMatterhorn?200:HowtallisthereplicaoftheMatterhornatDisneyland?227:Wheredoesdewcomefrom?269:WhowasPicasso?298:WhatisCalifornia'sstatetree?術(shù)語問題類型QuestionType答案類型AnswerType問句焦點(diǎn)QuestionFocus問句主題QuestionTopic候選段落CandidatePassage候選答案CandidateAnswer問句類型問句類型:對(duì)問句的分類,用以區(qū)分不同的處理策略以及答案的格式E.g.TREC2003事實(shí)型問題FACTOID:“HowfarisitfromEarthtoMars?”列表型問題:“Listthenamesofchewinggums”定義型問題DEFINITION:“WhoisVladtheImpaler?”其他可能的類型:

關(guān)系型問題RELATIONSHIP:“WhatistheconnectionbetweenValentinaTereshkovaandSallyRide?”

最型問題:“WhatisthelargestcityonEarth?”

是非問題YES-NO:“Isbenladinalive?”

觀點(diǎn)問題OPINION:“WhatdomostAmericansthinkofguncontrol?”

原因/結(jié)果問題CAUSE&EFFECT:“WhydidIraqinvadeKuwait?”…答案類型答案類型:問句所對(duì)應(yīng)的目標(biāo)的類型.E.g.人PERSON(from“Who…”)地點(diǎn)PLACE(from“Where…”)時(shí)間DATE(from“When…”)數(shù)量NUMBER(from“Howmany…”)…

以及解釋EXPLANATION(from“Why…”)方法METHOD(from“How…”)…答案類型通常與系統(tǒng)采用的命名實(shí)體識(shí)別系統(tǒng)所能夠識(shí)別的類型緊密相關(guān)問句焦點(diǎn)問句焦點(diǎn):問句所需查詢的屬性或者實(shí)體、E.g.“InwhatstateistheGrandCanyon(大峽谷)?”“WhatisthepopulationofBulgaria?”“Whatcolourisapomegranate(石榴)?”問句主題問句主題:問句所討論的對(duì)象或者事件E.g.“WhatistheheightofMt.Everest?”height是問句焦點(diǎn)Mt.Everest是問句主題候選段落候選段落:由搜索引擎響應(yīng)用戶問句而檢索得到的文本片斷(從一個(gè)單句到整篇文檔).依賴于用戶查詢與索引的種類,候選段落并不保證一定有候選答案搜索引擎給每個(gè)候選段落一個(gè)對(duì)應(yīng)的相關(guān)分?jǐn)?shù)候選答案候選答案:問句的可能答案,是一小段文本(從一個(gè)詞到一個(gè)句子或者更長(zhǎng),通常是一個(gè)名詞短語),其類型與答案類型匹配(精確匹配或者模糊匹配)在候選段落中查找候選答案E.g.50QueenElizabethIISeptember8,2003bybakingamixtureofflourandwater基于文本的問答的核心問題查找能夠回答問題的文本片斷找到候選段落與問句匹配并檢查段落的語義抽取答案基于文本的問答的核心問題如果文本數(shù)據(jù)全集數(shù)量較小,則可以逐一搜索需要對(duì)好的段落進(jìn)行定位如果搜索的范圍過寬,可能面對(duì)過多的噪聲文檔,造成系統(tǒng)精度的下降如果搜索的范圍過窄,則可能錯(cuò)過好的段落找到候選段落基于文本的問答的核心問題候選段落的語義與問句的語義進(jìn)行匹配包含在段落中的問句中的詞匯基于相似程度來打分基于語法關(guān)系來打分基于語義關(guān)系來打分。。。。。。匹配基于文本的問答的核心問題找到與答案類型匹配的候選答案答案抽取問答系統(tǒng)的基本結(jié)構(gòu)SeeforexampleAbneyetal.,2000;Clarkeetal.,2001;Harabagiuetal.;Hovyetal.,2001;Prageretal.2000問句分析答案抽取查找語料庫(kù)或者網(wǎng)絡(luò)自然語言問句答案文本/段落查詢答案類型問答系統(tǒng)的相關(guān)技術(shù)網(wǎng)絡(luò)相關(guān)支撐技術(shù)網(wǎng)頁爬蟲基于GoogleAPI以及百度API的搜索引擎搜索結(jié)果挖掘多內(nèi)碼支持網(wǎng)頁重復(fù)判定與去重網(wǎng)頁正文內(nèi)容提取數(shù)據(jù)庫(kù)索引技術(shù)PAT樹,B+樹,哈希庫(kù)對(duì)Smart系統(tǒng)、indri系統(tǒng)的中文移植BerkerlyDB,MySQL,Oracle問答系統(tǒng)的相關(guān)技術(shù)(續(xù))智能化信息檢索模型研究現(xiàn)有的主要信息檢索模型布爾模型向量空間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論