招生領(lǐng)域問答系統(tǒng)中問題理解的研究_第1頁
招生領(lǐng)域問答系統(tǒng)中問題理解的研究_第2頁
招生領(lǐng)域問答系統(tǒng)中問題理解的研究_第3頁
招生領(lǐng)域問答系統(tǒng)中問題理解的研究_第4頁
招生領(lǐng)域問答系統(tǒng)中問題理解的研究_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

摘要PAGEI摘要隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)上的信息越來越多,如何在這些海量信息中快速準確地找到所需要的信息也越來越困難。自動問答系統(tǒng)的出現(xiàn)很好的解決了這一問題,它既能夠讓用戶用自然語言句子提問,又能夠為用戶返回一個簡潔、準確的答案。中國每年高考的考生數(shù)百萬之巨,很多考生和家長對高考有這樣或那樣的問題。因此,開發(fā)一個招生咨詢領(lǐng)域的自動問答系統(tǒng)是非常具有現(xiàn)實意義的。本文通過對自動問答系統(tǒng)中的答案抽取部分的研究,提出了一種將FAQ庫(常問問題答案庫)與蘊涵豐富招生咨詢材料的文本庫相結(jié)合的答案抽取方式,有效地提高了系統(tǒng)的性能。在FAQ庫中,由于存儲了大量而正確的問題答案對,使得答案的抽取更為準確和快捷;在基于FAQ庫的答案抽取方法中,本文提出采用基于關(guān)鍵詞信息和基于語義詞典相結(jié)合的融合算法來計算用戶問句與FAQ庫中問句的相似度。該算法不僅考慮了詞面的信息,更深入到語義層次的信息,使句子間的相似度計算更為精確,從而使答案的提取也更為準確。在文本庫的答案抽取方法中,采用的是比較成熟和常見的基于向量空間模型的TF-IDF方法來計算問句與文本之間的相似度。并將從文本庫中提取出的答案定期進行人工判斷整理,備份至FAQ庫中,從而使更多的問題能直接從FAQ庫中獲得答案,有利于提高系統(tǒng)的運行速度。最后本文設(shè)計實現(xiàn)了一個招生咨詢問答系統(tǒng)。實驗結(jié)果表明,系統(tǒng)可以快速、準確的滿足用戶的需求,從而有效地驗證了上述方法的有效性和可行性。關(guān)鍵詞:自動問答系統(tǒng);答案抽取;常問問題答案庫(FAQ庫);文本庫ABSTRACT

ABSTRACTWiththerapiddevelopmentofInternet,therearemoreandmoreinformationsonline,howtofindtheinformationstheyneedquicklyandaccuratelyaremoreandmoredifficult.TheAutomaticQuestionandAnsweringSystemisagoodmethodtoresolvethisproblem,itnotonlyletpeopleaskaquestionwithnaturallanguage,butalsoreturnaconciseandaccurateanswer.Chinahasmillionsofcandidatestaketheuniversityentranceexaminationeachyear,manystudentsandparentshavethisorthatproblemsonthecollegeentranceexamination.ThereforethedevelopmentofQuestionAnsweringSystembasedonAdmissionCounselinghasaverypracticalsignificance.Inthispaper,researchbyAnswerExtractionofAutomaticQuestionandAnsweringSystem,itadvancesanewmethodthatcombinestheFrequentlyAnswerQuestionLibrary(FAQ)withthedocumentlibrarywhichhastherichmaterialsaboutAdmissionCounseling,andeffectivelyimprovestheperformanceofthesystem.IntheFAQLibrary,itcangettheansweraccuratelyandquicklybecauseitstoresalotofcorrectquestion-answerpairs;InthemethodofAnswerExtractionbasedontheFAQLibrary,thepaperadvancestheamalgamationarithmeticthatcombinesthekeywordsinformationwiththesemanticdictionarytocalculatethesimilaritybetweentheuser’squestionandthequestionintheFAQlibrary.Thisarithmeticisnotonlyconsidertheinformationofthewordssurface,butalsoconsiderthemoredepthinformationsofthesemanticlevel,makesthesimilaritycalculationbetweenthesentencesmoreaccurate,andalsomakestheanwerextractionmoreaccuratetoo.InthemethodofAnswerExtractionbasedonthedocumentlibrary,itusestherelativelymatureandcommonTF-IDFmethodwhichbasedontheVertorSpaceModeltocalculatethesimilaritybetweenthequestionandthedocument.Italsomanualcorrectstheanswerregularlywhichextractfromthedocumentlibrary,andbackupstotheFAQlibrary.SothatmorequestionscanbedirectlyobtainedtheanswersfromtheFAQlibrarydirectly.Itcanimpovethesystemspeed.Attheendofthepaper,itdesignsaQuestionAnsweringSystembasedonAdmissionCounseling.Theresultoftheexperimentshowsthatthesystemcanrapidlyandaccuratelymeettherequirementoftheusers,anditalsovalidatesthevalidityandfeasibilityofallthemethodsabove.ChunlanYuan(ComputerApplicationTechnology)DirectedbyA.Prof.LinZhang KEYWORDS:AutomaticQuestionandAnsweringSystem;AnswerExtraction;FrequentlyAnswerQuestionLibrary;DocumentLibrary目錄

目錄第1章緒論 11.1課題的背景和意義 11.2自動問答系統(tǒng)概述 21.2.1國內(nèi)外研究現(xiàn)狀 21.2.2問答系統(tǒng)的一般結(jié)構(gòu) 31.3答案抽取簡介 41.3.1答案抽取的定義 41.3.2答案抽取技術(shù)的分類 41.4主要工作與本文的組織 7第2章FAQ庫中的答案抽取技術(shù) 92.1引言 92.2FAQ庫的建立 92.2.1FAQ庫的收集 92.2.2FAQ庫的組織與存儲 112.3候選問題集的建立 122.4句子相似度計算的主要方法 132.4.1句子相似度的概念及分類 132.4.2TF-IDF方法 142.4.3基于語義依存的相似度計算方法 152.4.4基于知網(wǎng)的語義方法介紹 152.4.5各種句子相似度計算方法的優(yōu)劣勢比較 192.5FAQ庫中相似度計算新方法 202.5.1改進的基于關(guān)鍵詞信息的方法 202.5.2基于知網(wǎng)的語義相似度計算具體步驟 232.5.3改進的相似度方法-基于關(guān)鍵詞信息與基于知網(wǎng)相結(jié)合的方法 252.6實驗 252.6.1算法中特定值的確定 252.6.2實驗步驟 262.6.3結(jié)果分析 372.7本章小結(jié) 37第3章文本庫中的答案抽取技術(shù) 383.1引言 383.2文本庫的建立 383.2.1網(wǎng)頁抓取程序 383.2.2HTML格式過濾 403.3文本庫預處理 403.4中文文本相似度計算的主要方法 423.4.1基于向量空間模型的TF-IDF方法 423.4.2基于漢明距離的文本相似度計算方法 433.4.3潛在語義分析技術(shù) 443.4.4基于語義理解的相似度計算方法 453.4.5各種方法的優(yōu)劣勢比較 453.5文本庫中的答案抽取技術(shù) 463.5.1文本相似度計算方法的選擇 463.5.2文本庫中答案抽取的具體實現(xiàn)步驟 473.5.3實驗結(jié)果及分析 483.6本章小結(jié) 51第4章系統(tǒng)設(shè)計與實現(xiàn) 524.1引言 524.2系統(tǒng)的總體設(shè)計 524.2.1系統(tǒng)的總體框架 524.2.2系統(tǒng)設(shè)計的基本思想 534.3系統(tǒng)各模塊的實現(xiàn) 534.3.1自動問答系統(tǒng)界面設(shè)計 534.3.2問題分析模塊 544.3.3信息檢索模塊 564.3.4答案抽取模塊 564.3.5FAQ庫更新模塊 614.4本章小結(jié) 61第5章系統(tǒng)總體測試與評價 625.1引言 625.2TREC評測標準 625.3本系統(tǒng)的評測標準 635.4測試結(jié)果及分析 635.5本章小結(jié) 70第6章總結(jié)與展望 71致謝 73參考文獻 74附錄:攻讀碩士學位期間發(fā)表的學術(shù)論文 76PAGE1第1章緒論PAGE76第1章緒論1.1課題的背景和意義20世紀90年代以來,Internet在世界范圍內(nèi)得到了迅猛的發(fā)展,互聯(lián)網(wǎng)上的信息也越來越豐富。但人們也越來越煩惱這樣一個問題:如何從堆積如山的電子文檔中獲取自己需要的答案?雖然現(xiàn)在的搜索引擎如Google,baidu等己經(jīng)取得了很大的成功,但仍存在很多不足的地方,其中主要有三個方面:一是很難以幾個關(guān)鍵詞的邏輯組合來表達清楚用戶的檢索意圖;二是相關(guān)性信息太多,用戶將浪費很多時間在這些網(wǎng)頁中查找自己所需要的信息;三是以關(guān)鍵詞為基礎(chǔ)的索引、匹配算法盡管簡單易行,畢竟停留在語言的表層,而沒有觸及語義,因此檢索效果很難進一步提高。而自動問答系統(tǒng)的出現(xiàn)彌補了這些不足。自動問答系統(tǒng)[1](AutomaticQuestionandAnsweringSystem),簡稱問答系統(tǒng)(QA),是指接受用戶以自然語言形式描述的提問,并從大量的異構(gòu)數(shù)據(jù)中查找出能回答該提問的準確、簡潔答案的信息檢索系統(tǒng)。它既能夠讓用戶用自然語言句子提問,又能夠為用戶返回一個簡潔、準確的答案。自動問答系統(tǒng)的研究主要分為開放域問答系統(tǒng)和受限域問答系統(tǒng)[2]。如果把問答系統(tǒng)限定在某一領(lǐng)域來研究,就是我們常說的受限域問答系統(tǒng)。在受限域問答系統(tǒng)方面,英語、日語和德語的問答系統(tǒng)已經(jīng)獲得了相當?shù)膽?。在國?nèi),復旦大學[3]、中科院計算所[4]、清華大學也都開展了這方面的研究工作。受限域中文問答系統(tǒng)在國內(nèi)已經(jīng)成為一個研究的重點,具有重要的基礎(chǔ)理論研究意義和重大的應用價值,其社會效益深遠,經(jīng)濟效益巨大。本文所要研究的就是受限域問答系統(tǒng),即高考招生咨詢領(lǐng)域的自動問答系統(tǒng)。中國每年高考的考生數(shù)百萬之巨,很多考生和家長對高考有這樣或那樣的問題。如果采用普通搜索引擎,不僅浪費時間和精力去篩選信息,而且往往還很難獲得所需的確切答案;而如果采用人工回答的方式也不現(xiàn)實,不僅浪費人力物力,而且也不具有時效性。因此開發(fā)招生咨詢領(lǐng)域的自動問答系統(tǒng)是非常具有現(xiàn)實意義的。1.2自動問答系統(tǒng)概述1.2.1國內(nèi)外研究現(xiàn)狀隨著網(wǎng)絡(luò)和信息技術(shù)的快速發(fā)展,有越來越多的公司和科研院所參與了自動問答技術(shù)的研究。在每年一度的文本信息檢索(TREC)會議上,自動問答(QuestionAnsweringTrack)是最受關(guān)注的主題之一。同時,越來越多的大學和科研機構(gòu)參與了TREC會議的QuestionAnsweringTrack[5]-[9]。目前,國外已經(jīng)開發(fā)出一些相對成熟的問答系統(tǒng),典型的有:麻省理工(MIT)開發(fā)的一個問答系統(tǒng)Start。它可以回答一些有關(guān)地理、歷史、文化、科技、娛樂等方面的簡單問題。但Start的回答能力非常有限,系統(tǒng)的準確性和穩(wěn)定性都比較差。Kupiec等人開發(fā)的MURAX系統(tǒng)使用百科全書作為知識庫用來回答一般性問題,它采用了基于統(tǒng)計與語言學知識相結(jié)合的技術(shù),通過布爾搜索引擎和句法分析器從百科全書中抽取問題的答案。AnswerBus是一個比較成熟的問答系統(tǒng),而且是個多語種的自動問答系統(tǒng),它不僅可以回答英語的問題,還可以回答法語、西班牙語、德語、意大利語和葡萄牙語的問題[10]-[12]。AskJeeves系統(tǒng)是通過手工收集大量的自然語言問句以及相應的URL鏈接,盡管它比較實用,但它的準確率比較低,并且返回給用戶的還是網(wǎng)頁而不是準確的答案。相對英文問答系統(tǒng)來說,中文問答系統(tǒng)起步較晚,不夠成熟,這和中文的語法、語義復雜性等多種因素有關(guān)。國內(nèi)也有不少大學和研究所正在進行問答系統(tǒng)的研究,但是參與中文自動問答技術(shù)研究的科研機構(gòu)比較少,而且基本沒有成型的中文自動問答系統(tǒng)。復旦大學和中科院都參加了QATrack的競賽,哈工大也在這方面做了一些研究。中科院計算所正在進行的大規(guī)模知識處理科研項目NationalKnowledgeInfrastructure(簡稱NKI)中的一個具體應用就是NKI知識問答系統(tǒng)——HKI。HKI以NKI知識庫為基礎(chǔ),向用戶提供各個領(lǐng)域的知識服務(wù),其特點是向用戶提供準確的信息,支持自由的提問方式。1.2.2問答系統(tǒng)的一般結(jié)構(gòu)問答系統(tǒng)通常包含三個主要部分:問題分析、信息檢索和答案抽取[13]。如下圖1-1所示:圖1-1自動問答系統(tǒng)結(jié)構(gòu)1.問題分析問題分析模塊主要對自然語言表達的問句進行處理,將其中的信息提取出來,供后續(xù)處理環(huán)節(jié)使用。通常需要提取兩種問句信息:答案類型和問句關(guān)鍵詞。2.信息檢索(IR:informationretrieval)IR的目的是縮小答案抽取需要處理的文檔范圍,它使用檢索詞組合從語料庫中查找候選集,這些檢索詞組合在問題分析模塊由問句轉(zhuǎn)化而來。問答系統(tǒng)中的信息檢索可以有多種選擇,如果語料庫存放在本地,則可以使用開放的檢索系統(tǒng)如SMART[14]或者QUERY;如果語料庫是互聯(lián)網(wǎng)知識庫,那么調(diào)用商業(yè)搜索引擎如Google則是比較好的選擇。3.答案抽取IR模塊返回的是候選句子集或文檔集,而問答系統(tǒng)則返回答案本身。所以還需要對答案進行抽取?;诓煌恼Z料庫的問答系統(tǒng),有著不同的答案抽取方法。如基于FAQ庫的問答系統(tǒng),該系統(tǒng)的FAQ庫存儲了用戶可能提出的問答對。系統(tǒng)根據(jù)用戶輸入的自然語言句子,通過一定的答案抽取方法來提取出與用戶問句最相關(guān)的問題答案對,將其中的答案返回給用戶。而如基于全文檢索的問答系統(tǒng),它的特點是知識庫不是現(xiàn)成的問題答案對,而是相關(guān)文本庫。先提取出與用戶問句相關(guān)度比較高的文檔,再從這些候選文檔集中進行答案抽取,提取出最相關(guān)的句子返回給用戶。1.3答案抽取簡介1.3.1答案抽取的定義答案抽取是一個復雜的研究領(lǐng)域,它涉及分類、統(tǒng)計、邏輯表示、模式識別等多個領(lǐng)域的內(nèi)容,并對語言處理技術(shù)有相當高的要求。不同學者從不同的研究方面出發(fā),可能會得到對此問題的不同理解,盡管如此,其根本目的都是獲得質(zhì)量較高的返回答案。對答案抽取的定義可能有多種,其中普遍認可的定義是:定義1-1答案抽取[15]是指根據(jù)用戶提出的問題從搜索引擎返回的相關(guān)網(wǎng)頁中抽取出能夠體現(xiàn)答案的詞、短語或是段落。在具體實現(xiàn)中,需要考慮用戶提問的問題類型。1.3.2答案抽取技術(shù)的分類按照自動問答系統(tǒng)依托的技術(shù)來劃分,答案抽取技術(shù)可以分為基于自然語言理解(NLP,NaturalLanguageProcessing)、基于問題模板(QP,Questionpatterns)和基于信息檢索(IR,InformationRetrieval)三類。下面以這三類技術(shù)為線索,對答案抽取技術(shù)的研究現(xiàn)狀和成果作簡要的回顧。1.基于NLP的答案抽取技術(shù)傳統(tǒng)計算機處理的數(shù)據(jù)是結(jié)構(gòu)化的,而非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù),如自然語言文本和網(wǎng)頁,轉(zhuǎn)化成特征向量后,特征數(shù)可能高達幾萬或幾十萬。所以,答案抽取面臨的首要任務(wù)是如何在計算機中合理的表示文本。這種表示方法既要包含足夠的信息以反映文本的特征,又不至于過于復雜而不利于答案抽取。這就涉及到了NLP技術(shù)。NLP是一種將自然語言映射為形式語言模型(Formalworldmodel)的技術(shù)。形式語言模型可以是一階謂詞邏輯、語義網(wǎng)絡(luò)、概念依存圖或某種框架表示形式[16]。在NLP應用初期,QA系統(tǒng)試圖模擬人的思維,形式語言模型扮演著“前置語言”(frontendNaturallanguage)的角色,對數(shù)據(jù)庫系統(tǒng)、對話系統(tǒng)或故事理解系統(tǒng)進行查詢。前置分析器首先將用戶輸入自然語言形式的問句轉(zhuǎn)化成中間邏輯查詢,然后再轉(zhuǎn)換成數(shù)據(jù)庫支持的查詢語言。而在另外一些應用中,形式語言模型普遍表示為本體論(Ontologies)[17],它對基于知識的概念做出了明確的規(guī)定。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,在線文本迅速增加,信息抽取技術(shù)(IE,InformationExtraction)[18]逐漸成為從大規(guī)模非結(jié)構(gòu)化文本獲取信息的關(guān)鍵技術(shù)。為適應這種需要,淺層句法分析技術(shù)開始引入NLP中?;跍\層句法分析的NLP技術(shù)沒有進行文本語義分析,與傳統(tǒng)的文本理解不同,它側(cè)重文本組塊分析,以匹配事先準備的問題模式庫。比如在“whowontheNobelprizein1998?”這個問題中,疑問詞who對應于“PersonNames”實體類型,通過查找與關(guān)鍵詞“won”,“1998”,“Nobel”,“prize”有關(guān)聯(lián)的人名信息,即可得到正確答案。在文獻[19]的研究中,還引入機器學習方法進行模式抽取。基于淺層分析的NLP具有領(lǐng)域無關(guān)的性質(zhì),但要求文本中的答案和模式樣式相符。采用這種技術(shù)的問答系統(tǒng)有文獻[20]和[21]所描述的方法。2.基于句模(QP)的答案抽取技術(shù)基于模板的答案抽取技術(shù)是自然語言模式匹配技術(shù)的擴展,其智能性體現(xiàn)在人工創(chuàng)建的問題模板集上。START[22]系統(tǒng)是采用模板技術(shù)的典型系統(tǒng)之一,自1993年以來,START回答在線提問己達數(shù)百萬條。該系統(tǒng)運行時根據(jù)問題查詢預先處理過的“主、謂、賓”三元組數(shù)據(jù)庫,形成模式“subject-relationship-object",在匹配用戶問題的時候,通過詞匯層和結(jié)構(gòu)層兩個層次進行。如果用戶問題匹配標注實體,系統(tǒng)追蹤并返回指針指向的信息片斷,作為提交用戶的答案。START的成功離不開Ommibase[23]的支持。Ommibase是建立在START知識標注基礎(chǔ)上的虛擬數(shù)據(jù)庫系統(tǒng),內(nèi)部存放了大量的聯(lián)機半結(jié)構(gòu)化數(shù)據(jù),比如CIA事實手冊、網(wǎng)絡(luò)電影數(shù)據(jù)庫等等。Ommibase的數(shù)據(jù)模型可以表示為“object-property-value",數(shù)據(jù)源包括對象,對象由屬性描述。憑借著Ommibase,START可以按照屬性描述把問題轉(zhuǎn)化成結(jié)構(gòu)式查詢條件。Sniders[24]介紹了一種類似START的數(shù)據(jù)庫查詢系統(tǒng),該系統(tǒng)通過操縱問題模板,建立與數(shù)據(jù)庫概念模型相互映射關(guān)系。問題模板由關(guān)鍵詞表達式構(gòu)成,類似于正則表達式。每個問題模板都可以看成一個帶變元和固定參數(shù)的謂詞,形如:在匹配過程中,固定的參數(shù)(varl,...,varn)表示用戶提問的詞。如果數(shù)據(jù)庫中有一組實例(datal,...,datan)恰好符合謂詞的變參,那么Q的值為真,表示這組實例可以構(gòu)成問題的答案。START和Ommibase的自然語言注釋和問題模板一樣,有一個共同的特點,它們都經(jīng)過了標注處理,且非常貼近答案信息,這使得運用自然語言查詢潛在的數(shù)據(jù)模型成為可能。答案形式可以是靜態(tài)文本、數(shù)據(jù)庫查詢結(jié)果,甚至是多媒體材料。目前,基于QP的答案抽取技術(shù)并不是只停留在學術(shù)界的研究中,其方法已經(jīng)在商業(yè)化產(chǎn)品中獲得了成功應用。較為著名的商業(yè)問答系統(tǒng)有ASKJEEVS[25]、Kivilogic[26]和QUICKASK[27]。3.基于信息檢索(IR)的答案抽取技術(shù)IR是處理信息的表示、存儲、組織和訪問。在問答系統(tǒng)中,IR對用戶提交的問題進行查詢,以獲得問題的答案。IR系統(tǒng)通常又稱為文本查詢系統(tǒng),因為它只返回嵌入答案的文本,而不是明確的答案。在目前大多數(shù)系統(tǒng)中,IR已成為標準答案抽取組件,為進一步的答案分析和抽取提供相關(guān)文本。例如,SMART[23]就是采用IR技術(shù)的比較著名的問答系統(tǒng)之一。在常問問題系統(tǒng)方面,IR是答案查找的主要方法,如FAQFinder[28]采用傳統(tǒng)的基于詞頻的統(tǒng)計方法,同時結(jié)合了英語語義知識庫Wordnet進行相關(guān)問題檢索。近年來,在國際性評估會議(如ANLP-NAACL和TREC)的大力推動下,IR和NLP相結(jié)合逐漸成為答案抽取技術(shù)發(fā)展的主流。Voohees對參加TRECQATrack的問答系統(tǒng)的執(zhí)行步驟做出了如下總結(jié)[29]:第一,根據(jù)用戶提問確定期望問題類型,如對出現(xiàn)的疑問詞“Who",判定期望的答案為人名類型“PersonNames";第二,在不影響答案內(nèi)容的前提下,盡可能減少相關(guān)文本的詞條數(shù);第三,對含有答案的文本排序,從中抽取確切的答案。Mulder[30]是第一個基于網(wǎng)絡(luò)的開放系統(tǒng),它和其它參加TREC的系統(tǒng)一樣,在答案抽取過程結(jié)合了IR和NLP技術(shù)。Mulder的答案抽取過程分為三個階段,首先,用句法分析器處理用戶提問,使提問詞劃歸到臨時目錄;然后,系統(tǒng)把句法分析結(jié)果轉(zhuǎn)換成一系列查詢詞,這些查詢詞最終提交到Google,作為檢索項進行信息查詢;最后,Mulder對Google返回的網(wǎng)頁進行加工,包括解析、抽取相關(guān)文本片斷(Snippets)、生成可能的候選答案隊列。1.4主要工作與本文的組織在受限域中文問答系統(tǒng)的研究中,答案抽取是最關(guān)鍵的環(huán)節(jié)之一,答案抽取的實時性和準確性直接影響到問答系統(tǒng)的效率。因此,答案抽取是一個非常值得研究的話題。本文所要研究的是招生咨詢領(lǐng)域的自動問答系統(tǒng)中答案抽取的部分。本文根據(jù)目前國內(nèi)問答系統(tǒng)中存在的主要問題,即基于FAQ庫的問答系統(tǒng)的答疑能力比較有限;而基于文本庫的問答系統(tǒng)的速度比較慢的情況,提出了一種利用兩者優(yōu)勢的更有效的方法:即把蘊涵豐富招生咨詢方面材料的文本庫與常問問題答案庫(FAQ)相結(jié)合的方法。該方案使得系統(tǒng)對常問問題能快速給出解答,提高了系統(tǒng)的效率和準確率;同時系統(tǒng)還能自動回答FAQ庫中沒有存儲的其他大部分問題,大大增強了系統(tǒng)的答疑能力和實用性。本文主要對以下幾個方面開展研究:1.FAQ庫及文本庫的結(jié)構(gòu)設(shè)計。FAQ庫的設(shè)計是系統(tǒng)設(shè)計的重點之一,F(xiàn)AQ庫結(jié)構(gòu)設(shè)計的好壞直接關(guān)系到查詢的速度和準確度。2.答案提取研究。答案提取是問答系統(tǒng)的主要模塊,答案提取有許多方式和方法,本文主要采取以下兩種方式相結(jié)合的答案抽取技術(shù):一是通過FAQ庫中的問題答案對進行匹配,直接尋找需要回答的問題;二是對文本庫進行檢索,通過一定的答案抽取技術(shù),獲取答案。3.FAQ庫的更新。將從文本庫中提取出來的答案,建立好與之匹配的問題答案對后,存入到FAQ庫,進行更新。4.問答系統(tǒng)設(shè)計。本文設(shè)計了一個招生咨詢領(lǐng)域的問答系統(tǒng),完成了系統(tǒng)中答案抽取部分的架構(gòu)和流程設(shè)計。本文的內(nèi)容組織如下:第1章緒論。分析了本課題的背景和意義,介紹了目前問答系統(tǒng)的發(fā)展狀況,并詳細介紹了一些常用的答案抽取技術(shù),最后給出本文的工作與結(jié)構(gòu)安排。第2章FAQ庫中的答案抽取技術(shù)。介紹了FAQ庫的設(shè)計內(nèi)容,并詳細介紹了在FAQ庫中進行答案抽取的關(guān)鍵技術(shù),即候選問題集的建立及句子相似度的計算。提出了采用基于關(guān)鍵詞信息和基于語義詞典相結(jié)合的相似度計算方法,來提高相似度計算的準確性。最后給出一定的實驗分析。第3章文本庫中的答案抽取技術(shù)。介紹了文本庫的建立及預處理的過程,重點研究了文本庫的相似度計算方法,并選擇基于向量空間模型的TF-IDF方法來計算問句與文本之間的相似度。最后也給出了一定的實驗及分析。第4章系統(tǒng)設(shè)計與實現(xiàn)。給出了系統(tǒng)的總體設(shè)計框架和各模塊的實現(xiàn)過程。重點描述了招生咨詢領(lǐng)域問答系統(tǒng)中的答案抽取部分的設(shè)計與實現(xiàn)。第5章系統(tǒng)總體測試與評價。給出系統(tǒng)的評價機制,并進行了系統(tǒng)的測試,結(jié)果證明該系統(tǒng)能有效提高準確度,具有一定的實用價值。第6章總結(jié)與展望。給出本文的結(jié)論并對今后需要改進的地方做出分析和展望。第2章FAQ庫中的答案抽取技術(shù)

第2章FAQ庫中的答案抽取技術(shù)2.1引言自動問答系統(tǒng)通常包含三個主要部分:問題分析、信息檢索和答案抽取。其中的關(guān)鍵部分是答案抽取。本章主要介紹在FAQ庫中的答案抽取技術(shù)。FAQ(FrequentlyAnswerQuestion)庫即常問問題答案庫,FAQ庫中保存了用戶常問的問題和對應的答案。在進行答案抽取時,我們采取先到FAQ庫中去查找答案的策略。如果在FAQ庫中,我們能夠找到最相似的問題,就直接將FAQ庫中問題所對應的答案返回給用戶,從而避免進行一系列復雜的檢索和答案提取的過程。因此,常問問題庫的引進,將大大提高自動問答系統(tǒng)的準確率和效率。2.2FAQ庫的建立2.2.1FAQ庫的收集FAQ數(shù)據(jù)庫是問答系統(tǒng)的核心資源,F(xiàn)AQ庫中的數(shù)據(jù)主要來源于三種途徑:第一種是采用人工收集的方式。收集在FAQ庫中不存在且詢問頻率較高的問題,把這類問句和對應的答案加入到FAQ庫中;第二種是對于一些已經(jīng)存在的格式化數(shù)據(jù),如原有系統(tǒng)數(shù)據(jù)庫中保存的問答對、或者是以文本格式保存但是具有一定規(guī)律的數(shù)據(jù),對于這部分數(shù)據(jù)即可以通過編寫專門的接口實現(xiàn)轉(zhuǎn)換;第三種從網(wǎng)上自動獲取。由于本系統(tǒng)是關(guān)于限定的高考咨詢領(lǐng)域的問題,內(nèi)容相對集中,數(shù)據(jù)收集主要采取人工收集的方式。以上海海事大學高考咨詢領(lǐng)域為例,通過招生辦的電話咨詢及錄音、招生網(wǎng)站留言、招生咨詢現(xiàn)場對話記錄等方式,收集大量的用戶問句。將所有問句中出現(xiàn)頻率超過5%的問句收集為常問問題集。同時將問題分類整理,分類的方法按照問題分析階段的分類算法來實現(xiàn)。(問題分類模塊的工作由另一位同學負責研究,不在我研究的范圍之內(nèi))對收集、歸類好的所有信息,給出對應的答案,將問題與答案對收集入庫。以下給出部分問答對的例子:(Q代表問句,A代表問句所對應的答案)關(guān)于分數(shù)Q:上海海事大學2007年計算機科學與技術(shù)專業(yè)在上海的招生分數(shù)是多少?A:2007年我校計算機科學與技術(shù)專業(yè)在上海的招生分數(shù)是428分(理科)。Q:我考了500分,能不能進上海海事大學的計算機科學與技術(shù)專業(yè),我是上海的考生。A:2008年我校計算機科學與技術(shù)專業(yè)在上海的招生分數(shù)是435分(理科)。Q:上海海事大學2007年理科類在上海的最低分數(shù)線是多少?A:2007年我校在上海的最低分數(shù)線是412分,專業(yè)是航海技術(shù)(理科)。關(guān)于人數(shù)Q:上海海事大學2007年計算機科學與技術(shù)專業(yè)在上海的招生人數(shù)是多少?A:2007年我校計算機科學與技術(shù)專業(yè)在上海的招生人數(shù)是77個(理科)。關(guān)于學校,學院,專業(yè)的介紹Q:請介紹一下上海海事大學?A:上海海事大學是一所以航運技術(shù)、經(jīng)濟與管理為特色的具有工學、管理學、經(jīng)濟學、法學和文學等學科門類的多科性大學。Q:請介紹一下信息工程學院?A:信息工程學院下設(shè)計算機科學系、電子工程系、兩個實驗中心和四個研究所?,F(xiàn)有計算機科學與技術(shù)、網(wǎng)絡(luò)工程、信息管理和信息系統(tǒng)、電子信息工程、通信工程5個本科專業(yè);計算機應用技術(shù)、計算機軟件與理論、通信與信息系統(tǒng)、信號與信息處理4個碩士點,并有計算機技術(shù)和電子與通信工程2個工程碩士學位授予權(quán)。Q:請介紹一下計算機科學與技術(shù)專業(yè)就業(yè)情況如何?A:就業(yè)方向:學生畢業(yè)后能在科研、教育、企業(yè)、事業(yè)、技術(shù)和行政管理等單位從事計算機科學工程技術(shù)和應用各領(lǐng)域有關(guān)教學、科研、開發(fā)和應用等工作。關(guān)于政策Q:上海海事大學貧困生的貸款政策是什么?A:學生可根據(jù)有關(guān)規(guī)定,申請國家助學貸款,包括學費貸款和生活費貸款,但是最多每年不超過5000元。關(guān)于其他Q:上海海事大學可以專升本嗎?A:根據(jù)上海市教委的相關(guān)文件,我校高職部分專業(yè)可參加學校自行組織的“專升本”考試。近年來,我校每年都有近百個“專升本”計劃。2.2.2FAQ庫的組織與存儲FAQ庫的組織與存儲也是FAQ庫設(shè)計的關(guān)鍵之一。FAQ庫主要存儲的是問題答案對,我們將其存儲在一張Q-A表中,表中主要有問題ID(Que_ID),問題內(nèi)容(Quetion),相對應的答案內(nèi)容(Answer),問題的類型(Que_Type)這幾個字段。在另一張Q-K表中,主要存儲的是每個問題相對應的關(guān)鍵字序列,主要有問題ID(Que_ID),關(guān)鍵字序列(Keywords)字段。為了進一步提高后續(xù)的答案抽取速度,縮小候選問題集的規(guī)模,在庫中建立一個基于關(guān)鍵詞倒排索引表。主要有關(guān)鍵詞(Keyword),問題ID集(Que_IDs),關(guān)鍵詞的權(quán)重(Key_Weight)字段。FAQ庫中的表的設(shè)計如下列各表所示:表2-1Q-A表(問題-答案表)Que_IDQuestionAnswerQue_Type1Que1Ans1T12Que2Ans2T2nQuenAnsnTn表2-2Q-K表(問題-關(guān)鍵詞表)Que_IDKeywords1W11,W12,…2W21,W22,…NWn1,Wn2,…表2-3Index表(索引表)KeywordQue_IDsKey_WeightW1S11,S12,…w(W1)W2S21,S22,…w(W2)WmSm1,Sm2,…w(Wn)FAQ庫中的這種組織和存儲的方式,有利于在FAQ庫中答案抽取前的候選問題集的建立。2.3候選問題集的建立建立候選問題集的目的是縮小查找范圍,使后續(xù)的相似度計算等較為復雜的過程都在候選問題集這個相對較小的范圍內(nèi)進行,提高系統(tǒng)的效率。由于在FAQ庫中,問題答案對是按照類型分類存儲,因此,在問題分析階段,首先確定了用戶問句的類型,然后在FAQ庫中,將相應問句類型的問題答案對提取出來,作為問題集R1。為了進一步提高算法的效率,本系統(tǒng)采用了與倒排索引類似的方法,在R1中選出50%的問句作為候選問題集R2。設(shè)用戶輸入的問句共有n個詞(),F(xiàn)AQ庫中共有m個問句,第i(1≤i≤m)個問句含有ni個詞()。第i個問句和目標問句之間重疊的詞個數(shù)記為,=,則值最大的前50%的FAQ問句就組成候選問題集R2。計算時,如果將FAQ庫中分類后的R1問題集一一讀出來和目標問句進行比較,效率是比較低的。對于問句中的某個詞,為了能夠快速地統(tǒng)計R1集合中究竟有多少問句含有這個詞,設(shè)計了如圖2-1所示的數(shù)據(jù)結(jié)構(gòu)。Word1Word1Word2Word3S11S21S31S12S22S32S13S23S33圖2-1Index表圖2-1表示的是查找候選問題集的數(shù)據(jù)結(jié)構(gòu),圖中Word1、Word2、……是FAQ庫中的問句包含的詞經(jīng)過排序后所形成的鏈表。而每個Wordi指向一個S鏈表,這個S鏈表中的每個節(jié)點記錄R1問題集中含有Wordi的一個問句的句子ID。在實際的檢索過程中,對于目標句子中的一個詞,首先尋找它在Word鏈表中的位置。由于Word鏈表是有序的,可以很容易地利用折半查找等方法在的時間復雜度內(nèi)找到目標。不妨設(shè)找到的節(jié)點為Wordk,沿著Wordk所指向的S鏈表,就可以統(tǒng)計出有哪些R1問題集中的問句包含Wordk。對目標問句中的每一個詞都進行這樣的處理之后,就可以進一步計算出上面提到的的值。接下來,找出值最大的50%個問句的句子號,通過FAQ庫中Q-A表可以很容易地將R1問題集中的相應的問句讀出。2.4句子相似度計算的主要方法2.4.1句子相似度的概念及分類相似度是一個很復雜的概念,在語義學、哲學和信息理論中被廣泛的討論。目前,關(guān)于相似度的定義還沒有一個通用方法,因為其涉及到語言、語句結(jié)構(gòu)和其他一些因素。在自動問答系統(tǒng)中,句子相似度更多地反映句子之間的語義上的匹配符合程度。本文把句子間的相似度定義為一個在[0,1]之間的數(shù)值,0代表兩個句子不相似,1代表兩個句子完全相似,兩個句子之間的相似度的值越大表示它們就越相似。在此,給出本文句子相似度的定義[31]。定義2-1句子相似度指兩個句子在語義上的匹配符合程度,值為[0,1]之間的實數(shù),值越大表明兩個句子越相似。當取值為1時,表明兩個句子在語義上完全相同;值越小則表明兩個句子相似度越低,當取值為0時,表明兩個句子在語義上完全不同。問句相似度計算是FAQ庫中相似問句查找的基礎(chǔ),同時也是答案提取的關(guān)鍵,其直接影響答案提取的準確程度,當前已有多種中文句子相似度計算方法,通常分為三個等級:語法相似度、語義相似度和語用相似度。語用相似度具有相當?shù)碾y度,目前效果不理想。而在一般的應用中,計算句子的語法相似度或語義相似度就基本能夠滿足要求。當前,在漢語句子相似度計算方面已有很多研究,其中主要存在以下幾類方法:(1)基于關(guān)鍵詞信息的方法。該類型的一種傳統(tǒng)方法是根據(jù)字符串匹配的原理,計算兩個句子中相同關(guān)鍵詞的個數(shù)與總關(guān)鍵詞的個數(shù)的比例,即2c/m+n,其中m、n分別表示兩個句子的關(guān)鍵詞個數(shù),而c是兩個句子中相同關(guān)鍵詞的個數(shù)。而該類型最常見的是基于向量空間模型(VectorSpaceModel,VSM)的TF-IDF方法。(2)基于句法結(jié)構(gòu)信息的方法。一般的是基于語義依存的方法來進行句子的相似度計算,對語句進行完全的句法與語義分析。(3)基于語義詞典的計算方法,即基于語義的方法。該方法需要一定的語義知識資源作為基礎(chǔ)。人們常用WordNet、HowNet(知網(wǎng))、同義詞詞林等作為系統(tǒng)的語義知識資源。(4)基于多重信息的方法。該方法是應用于當前中文自動問答領(lǐng)域的主流方法,它或基于關(guān)鍵詞信息和語義信息相結(jié)合,或基于關(guān)鍵詞信息和語義信息以及句法結(jié)構(gòu)信息相結(jié)合。由于結(jié)合了多種特征信息,該類方法的準確率會得到顯著的提高。2.4.2TF-IDF方法基于關(guān)鍵詞向量空間模型(VSM:VectorSpaceModel)的TF-IDF(TermFrequencyInvertedDocumentFrequency)問句相似度計算方法是一種基于語料庫中出現(xiàn)的關(guān)鍵詞詞頻的統(tǒng)計方法,它綜合考慮了不同的詞在所有文本中的出現(xiàn)頻率(TF值)和這個詞對不同文本的分辨能力(IDF值)。TF-IDF方法的算法實現(xiàn)如下[32][33]:根據(jù)詞頻統(tǒng)計出問句語料庫中出現(xiàn)的所有詞;把每一個問句表示為一個n維向量:,其中,,n為詞語Wi在該問句中出現(xiàn)的次數(shù),m為問句語料庫中包含詞語Wi的問句數(shù)量,M為語料庫中的問句總數(shù)量。任意兩個問句間相似度可用兩個問句向量的余弦夾角來計算。2.4.3基于語義依存的相似度計算方法依存語法通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中動詞是支配其他成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者。二十世紀七十年代,Robinson提出依存語法中關(guān)于依存關(guān)系的四條公理,在處理中文信息的研究中,中國學者提出了依存關(guān)系的第五條公理[34]:1.一個句子中只有一個成分是獨立的;2.其它成分直接依存于某一成分;3.任何一個成分都不能依存于兩個或兩個以上的成分;4.如果A成分直接依存于B成分,而C成分在句中位于A和B之間,那么C或者直接依存于B,或者直接依存處于A和B之間的某一成分;5.中心成分左右兩邊的其它成分相互不發(fā)生關(guān)系。依存句法分析可以反映出句子中各成分之間的語義修飾關(guān)系,它可以獲得長距離的搭配,并跟句子成分的物理位置無關(guān)[35]。利用依存結(jié)構(gòu)計算句子間的相似度,關(guān)鍵的一步是如何獲得句子各成分間的依存關(guān)系信息。2.4.4基于知網(wǎng)的語義方法介紹知網(wǎng)(HowNet)簡介知網(wǎng)[36][37][38]是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫,由多個數(shù)據(jù)文件構(gòu)成,是一個網(wǎng)狀的有機的知識系統(tǒng)。知網(wǎng)中含有豐富的詞匯語義知識和世界知識,為自然語言處理和機器翻譯等方面的研究提供了寶貴的資源。知網(wǎng)的結(jié)構(gòu)在知網(wǎng)中,“概念”是對詞匯語義的一種描述,是由詞表示的概念標識符。每一個詞有多個語義,就對應有多個不同的概念?!案拍睢笔怯靡环N“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”?!傲x原”用來描述詞匯語義的“概念”,它是知網(wǎng)中最基本的、不易于再分割的意義的最小單位。與一般的語義詞典(如同義詞詞林,或WordNet)不同,知網(wǎng)并不是簡單的將所有的“概念”歸結(jié)到一個樹狀的概念層次體系中,而是試圖用一系列的“義原”來對每一個“概念”進行描述,每個詞可以具有多個概念(即一詞多義)。知網(wǎng)作為一個知識系統(tǒng),名副其實是一個網(wǎng)而不是樹,它不僅僅是一部語義詞典,它所著力要反映的是概念的共性和個性,概念之間和概念屬性之間的各種關(guān)系,這是它與其它樹狀的詞匯數(shù)據(jù)庫的本質(zhì)不同。知網(wǎng)通過對約六千個漢字進行考察和分析,抽取了1500個義原,這些義原可分為十類:Event|事件;entity|實體;attribute|屬性;aValue|屬性值;quantity|數(shù)量;qValue|數(shù)量值;SecondaryFeature|次要特征;syntax|語法;EventRole|動態(tài)角色;EventFeatures|動態(tài)屬性。義原一方面作為描述概念的最基本的單位,另一方面,義原之間也反映了概念之間和概念屬性之間的各種關(guān)系。知網(wǎng)總結(jié)描述了下列16種關(guān)系:上下位關(guān)系、同義關(guān)系、反義關(guān)系、對義關(guān)系、部件-整體關(guān)系、屬性-宿主關(guān)系、材料-成品關(guān)系、施事/經(jīng)驗者/關(guān)系主體-事件關(guān)系、受事/內(nèi)容/領(lǐng)屬物等-事件關(guān)系、工具-事件關(guān)系、場所-事件關(guān)系、時間-事件關(guān)系、值-屬性關(guān)系、實體-值關(guān)系、事件-角色關(guān)系、相關(guān)關(guān)系。這些關(guān)系在知網(wǎng)中用義原前附加一些符號來對概念的語義進行描述,如表2-4所示:表2-4知網(wǎng)中的符號及其含義符號語義描述例子,多個屬性之間,表示“和”的關(guān)系qValue|數(shù)量值,amount|多少#表示“與其相關(guān)”#fund|資金%表示“是其部分”%GoInto|進入$表示可以被該‘V’處置,或是該‘V’的受事,對象,領(lǐng)有物,或者內(nèi)容$copy|抄寫*表示“會‘V’”或主要用于‘V’,即施事或工具*LaughAt|笑話+對V類,它表示它所標記的角色是一種隱性的,幾乎在實際語言中不會出現(xiàn)+diagnose|診察&表示指向&shiver|顫動~表示多半是,多半有,很可能的~清@表示可以做“V”的空間或時間@record|記錄?表示可以是“N”的材料?material|材料{}對于V類,置于{}中的是該類V所有的“必備角色”表示動態(tài)角色,如介詞的定義{comment|評論}()置于其中的應該是一個詞表記(China|中國)^表示不存在,或沒有,或不能^Vable|能力!表示某一屬性為一種敏感的屬性!odorl氣味[]標識概念的共性屬性[]我們把這些符號又分為三類:一類是用來表示語義描述式之間的邏輯關(guān)系,包括以下幾個符號:,~^,另一類用來表示概念之間的關(guān)系,包括以下幾個符號:#%$*+&@?!,第三類包括幾個無法歸入以上兩類的特殊符號:{}()[]。從以上知網(wǎng)的結(jié)構(gòu)可以看出,義原之間組成的是一個復雜的網(wǎng)狀結(jié)構(gòu),而不是一個單純的樹狀結(jié)構(gòu)。不過,義原關(guān)系中最重要的還是的上下位關(guān)系。根據(jù)義原的上下位關(guān)系,所有的“基本義原”組成了一個義原層次體系。這個義原層次體系是一個樹狀結(jié)構(gòu),我們稱之為義原分類樹,義原分類樹把各個義原及它們之間的聯(lián)系以樹的形式組織在一起,樹中父節(jié)點和子節(jié)點的義原具有上下位的關(guān)系。可以利用義原分類樹計算兩個詞之間的語義距離。知網(wǎng)中存在Entity、Event、Attribute等11棵義原樹。但有些義原樹,例如Converse、Antonym等,里面的義原沒有父子關(guān)系,并不體現(xiàn)上述的詞與詞之間的上下位特征,因此無法使用。在11棵義原樹中總共選取了以下6棵義原樹用來計算詞的語義距離:Entity、Event、Attribute、AttributeValue、Quantity、QuantityValue。這些是我們進行語義相似度計算的基礎(chǔ)。知網(wǎng)的知識詞典知網(wǎng)的全部的主要文件構(gòu)成了一個有機結(jié)合的知識系統(tǒng),例如,主要特征文件、次要特征文件、同義、反義以及對義組的形成,以及事件關(guān)系和角色轉(zhuǎn)換等都是系統(tǒng)的重要組成部分。被我們稱為知識詞典的常識性知識庫是知網(wǎng)的最基本的數(shù)據(jù)庫。在知識詞典的描述語言(KnowledgeDictionaryMark-upLanguage,KDML)中每一個詞語的概念及其描述用一個記錄來表示,我們稱這個記錄為語義表達式。每個語義表達式都主要包含4項內(nèi)容,其中每一項都由兩部分組成,中間以“=”分隔,每一個“=”的左側(cè)是數(shù)據(jù)的域名,右側(cè)是數(shù)據(jù)的值。每一個記錄都有唯一的一個記錄號NO.與其對應,它們排列如下:NO.=詞或短語編號W_X=詞語E_X=詞語例子G_X=詞語詞性DEF=概念定義其中的W_X,E_X,G_X構(gòu)成每種語言的記錄,X用以描述記錄所代表語種,X為C則為漢語,為E則為英語。每個詞語由DEF來描述其概念定義,DEF的值由若干個義原及它們與主干詞之間的語義關(guān)系描述組成,它是知網(wǎng)的核心,必須填寫,不得為空,DEF項中的第一位置所標注的必須是知網(wǎng)所規(guī)定的主要特征。下面是動詞“打”作“打球”解的義項在詞典中的定義:NO.=017144W_C=打G_C=VE_C=~網(wǎng)球,~牌,~秋千,~太極,球~得很棒W_E=playG_E=VE_E=DEF=exercise|鍛煉,sport|體育上例中E_C項的“~”,代表W_C項的詞。通過DEF的定義我們可以知道在“打球”中“打”與“體育”和“鍛煉”有關(guān)。在知網(wǎng)中便是通過使用上述結(jié)構(gòu),并用自己的描述語言來定義知識詞典中收入的詞語。2.4.5各種句子相似度計算方法的優(yōu)劣勢比較句子相似度計算的各個方法都有不同的優(yōu)勢和劣勢,概括如下:(1)基于關(guān)鍵詞信息的傳統(tǒng)方法的主要優(yōu)點是計算簡單,主要缺點是沒有考慮任何語義信息和句法結(jié)構(gòu)信息,不能區(qū)別在語義或句法結(jié)構(gòu)上相似的句子。實際應用于中文自動問答系統(tǒng),則需要考慮更多的其他有用信息,例如,關(guān)鍵詞的順序,關(guān)鍵詞之間的距離以及句子的長度等信息。這些信息對于獲取正確的答案同樣有著非常重要的影響。基于關(guān)鍵詞信息的常見方法即TF-IDF方法,它比基于關(guān)鍵詞信息的傳統(tǒng)方法正確率要高。該方法屬于統(tǒng)計方法,它基于關(guān)鍵詞在語料庫中的出現(xiàn)頻率,建立在大量真實文本語料基礎(chǔ)之上。由于該方法是一種基于詞頻信息的統(tǒng)計方法,在非受限的大規(guī)模的文本庫中會產(chǎn)生較好的效果,而對于一般面向特定應用領(lǐng)域的文本庫檢索,比如FAQ庫檢索,則不足以體現(xiàn)這種方法的效果。另外,該方法只考慮了詞在上下文中的詞形統(tǒng)計特性,仍然沒有考慮詞本身的詞義信息以及句法結(jié)構(gòu)信息。(2)基于依存樹的方法利用句子之間句法依存關(guān)系進行相似度計算。將基于依存分析的相似度計算方法應用到自動問答系統(tǒng)中,可以使對句子的理解更加充分,算法的準確率也會得到一定程度的提高。但目前的中文自動問答系統(tǒng)較少采用這類方法,一方面是因為依存分析的工作量很大,會大大降低系統(tǒng)的及時交互性;另一方面由于對漢語句子進行依存分析時不能考慮相關(guān)的語義信息,會嚴重影響系統(tǒng)的準確率。(3)使用語義詞典的方法,考慮了詞本身的詞義信息以及相應的權(quán)重,這種方法在處理兩個句子中相同詞很少但兩句意思非常接近的情況下比TF-IDF方法優(yōu)越。但是該方法單純的使用語義詞典,并沒有考慮到句子內(nèi)部的結(jié)構(gòu)和詞語之間的相互作用關(guān)系。(4)基于多重信息的方法,通過利用不同的特征信息,較好地保留了基于關(guān)鍵詞信息的方法所具有的簡單、高效、以及基于語義或句法結(jié)構(gòu)信息的方法所具有的準確性較高的優(yōu)點,同時,也在一定程度上避免了上述3類方法的缺點。將該方法應用到中文自動問答系統(tǒng),需要根據(jù)漢語的特點和特定應用領(lǐng)域的要求,在關(guān)鍵詞信息、語義信息以及句法結(jié)構(gòu)信息之間尋找一個合理的、恰當?shù)慕Y(jié)合點,或者說尋找一個最佳的權(quán)重組合,這是關(guān)系到系統(tǒng)質(zhì)量的關(guān)鍵,也是該領(lǐng)域目前研究的一個重點和熱點。2.5FAQ庫中相似度計算新方法由以上分析可知,基于多重信息的方法是目前比較實用和流行的方法。本文根據(jù)招生咨詢領(lǐng)域的信息相對集中和單一的特點,將采用基于關(guān)鍵詞信息和基于語義詞典相結(jié)合的方法來計算用戶問句和FAQ庫中問句的相似度。而其中基于關(guān)鍵詞信息的方法,將充分利用句子的各種信息,如關(guān)鍵詞的順序,關(guān)鍵詞之間的距離以及句子的長度等信息,來改進單純的依靠字符串匹配的計算方法。2.5.1改進的基于關(guān)鍵詞信息的方法基于關(guān)鍵詞類型的一種傳統(tǒng)方法是根據(jù)字符串匹配的原理,計算兩個句子中相同關(guān)鍵詞的個數(shù)與總關(guān)鍵詞的個數(shù)的比例,即2c/m+n,其中m、n分別表示兩個句子的關(guān)鍵詞個數(shù),而c是兩個句子中相同關(guān)鍵詞的個數(shù)。實際應用于中文自動問答系統(tǒng),則需要考慮更多的其他有用信息,例如,關(guān)鍵詞的順序,關(guān)鍵詞之間的距離以及句子的長度等信息。這些信息對于獲取正確的答案同樣有著非常重要的影響。因此本文所用的改進的基于關(guān)鍵詞信息的方法,就是不僅考慮了詞形相似度,還考慮了句子長度,句子中關(guān)鍵詞的順序,關(guān)鍵詞之間的距離等因素,通過加入權(quán)重的方式,綜合考慮了各個因素。具體的定義與計算方法如下:定義1詞形相似度從句子形態(tài)以及詞形上來標注句子的相似性,反映句子形態(tài)上的相似性。表示句子與中相同關(guān)鍵詞的個數(shù)。則詞形相似度可以根據(jù)Jaccard系數(shù)來計算。其計算方法如下:(2-1)其中,表示與相同關(guān)鍵詞的個數(shù),如果同一關(guān)鍵詞出現(xiàn)多次則只算一次,其中的關(guān)鍵詞不包含句子中的疑問詞及停用詞表中的詞,如:怎么樣、如何、的、地、得等。其中和分別表示句子、中的關(guān)鍵詞個數(shù)。在實踐過程中發(fā)現(xiàn)名詞和動詞在句子中起著非常重要的作用,并且名詞比動詞承載著更多的信息量。一個句子的中心信息基本上都是圍繞著動詞和名詞來展開的,所以在進行計算的時候也特意加大了名詞和動詞的重要程度,將句子的重心落在名詞和動詞上面。這樣,在此處計算相同關(guān)鍵詞的個數(shù)時,若兩個詞相同并且都是名詞,相同個數(shù)以5計,若兩個詞相同并且都是動詞,相同個數(shù)以3計,在計算句子A、B中的關(guān)鍵詞個數(shù)時,名詞的個數(shù)也按5計,動詞個數(shù)以3計,即一個名詞實際出現(xiàn)一次計算為5次,一個動詞實際出現(xiàn)一次計算為3次。編程時,對每個句子分詞后,然后要進行詞性標記從而區(qū)分是否為名詞和動詞。定義2句長相似度從句子長度上來標注句子的相似性,在一定程度上也反映句子形態(tài)上的相似性。其計算方法如下:(2-2)其中和分別表示句子、中(關(guān)鍵)詞的個數(shù)。定義3詞序相似性從關(guān)鍵詞的順序上來標注句子的相似性,反映兩個句子中所含相同詞或同義詞在位置關(guān)系上的相似程度,以兩個句子中所含相同詞或同義詞的相鄰順序逆向的個數(shù)來衡量。其計算方法如下:(2-3)其中,:表示與相同關(guān)鍵詞的個數(shù)的自然數(shù)序列的最大逆序數(shù),例:若與相同關(guān)鍵詞的個數(shù)為4,則自然數(shù)序列為{4,3,2,1},它的逆序數(shù)為6。:表示中關(guān)鍵詞在中的位置構(gòu)成的自然數(shù)序列的逆序數(shù)。反映兩個句子中所含相同詞或同義詞在位置關(guān)系上的相似程度,以兩個句子中所含相同詞或同義詞的相鄰順序逆向的個數(shù)來衡量。設(shè)、為兩個句子,為、中所含相同詞或同義詞的集合,重復出現(xiàn)的詞僅計一次,為中的詞在中出現(xiàn)關(guān)鍵詞的先后順序所構(gòu)成的向量(為一自然數(shù)順序序列,重復出現(xiàn)的關(guān)鍵詞計第一次出現(xiàn)),為中的分量按對應詞在中的次序排序生成的向量,為序列的逆序數(shù)。定義4距離相似性從相同關(guān)鍵詞的距離上來標注句子的相似性。其計算方法如下:(2-4)其中和分別表示,中的相同的關(guān)鍵詞分別在,中的距離。若關(guān)鍵詞重復出現(xiàn)多次,以產(chǎn)生最大距離為準。:表示中非重復關(guān)鍵詞中最左及最右關(guān)鍵詞之間的距離。若關(guān)鍵詞出現(xiàn)多次,以產(chǎn)生最小距離值為準。的表示與之類似。定義5句子相似度反映兩個句子之間的相似程度。通常為一個0~1之間的數(shù)值,0表示不相似,1表示完全相似,數(shù)值越大表示兩句越相似。記兩個要比較的句子為、,、的相似度記為,則:(2-5)其中:且。2.5.2基于知網(wǎng)的語義相似度計算具體步驟本文利用董振東和董強先生創(chuàng)建的知網(wǎng)(HowNet)作為系統(tǒng)的語義知識資源。使用知網(wǎng)進行問句語義相似度計算的主要步驟為:首先使用知網(wǎng)的義原樹計算兩個詞語間的語義距離;其次,根據(jù)詞語間的語義距離,計算兩個詞語間的語義相似度;最后,在對問句進行分析的基礎(chǔ)上,計算用戶問句與候選問題集中問句的語義相似度。(1)詞語間的語義距離我們將詞語間的語義距離定義為兩個詞語對應的義原在義原樹中的最短距離。設(shè)有兩個詞語和,記其語義距離為,則(2-6)式中Tl、T2分別為和兩個詞語所在義原樹從樹根到該節(jié)點語義元素集合,表示義原樹中從樹根到、各自語義節(jié)點包括的所有義原的集合,是該集合元素的個數(shù)。表示、對應的義原樹中相同語義節(jié)點的集合,表示公共節(jié)點的個數(shù)。由上式可知,,即兩個相同詞語的語義距離為0。如果兩個詞語中有一個詞語的義原無法在6棵義原樹中找到,或者兩個詞語的義原分別處于兩棵不同的義原樹,則認為這兩個詞語間的語義距離為∞。(2)詞語間的語義相似度詞語間的語義相似度與詞語間的語義距離有著密切的關(guān)系:兩個詞語間的語義距離越大,則其語義相似度越低;反之,兩個詞語間的語義距離越小,則其語義相似度越大。在很多情況下,直接計算詞語間的語義相似度比較困難,通??梢韵扔嬎阍~語間的語義距離,然后再轉(zhuǎn)換成詞語間的語義相似度。設(shè)有兩個詞語和,記其語義相似度為,采用如下轉(zhuǎn)換關(guān)系計算詞語間的語義相度:(2-7)式中k是一個可調(diào)節(jié)的參數(shù)。由于,由上式可知:。即兩個詞語間的語義距離為0時,其相似度為1;兩個詞語間的語義距離為無窮大時,其相似度為0;兩個詞語間的語義距離越大,其相似度越?。▎握{(diào)下降)。本文利用董振東和董強先生創(chuàng)建的知網(wǎng)(HowNet)作為系統(tǒng)的語義知識資源。在計算語義相似度時,直接利用沈陽格微軟件有限公司開發(fā)的知網(wǎng)在線()來計算詞語間的語義相似度。(3)問句間的語義相似度計算有了詞語間的語義相似度,就可以用它來計算用戶問句與候選問題集中的問句之間的語義相似度。設(shè)有用戶問句A和候選問題集中的問句B,A包含的詞語為A1、A2、…、Am,B包含的詞語為B1、B2、…、Bn,詞語(1≤i≤m)和(1≤j≤n)之間的語義相似度為,則兩個問句中任意兩個詞語間的語義相似度矩陣:(2-8)由此可以計算出用戶問句A和候選問題集中的問句B之間的語義相似度:(2-9)式中:、分別為詞語和在系統(tǒng)中的權(quán)重。2.5.3改進的相似度方法-基于關(guān)鍵詞信息與基于知網(wǎng)相結(jié)合的方法改進的基于關(guān)鍵詞信息的方法,充分利用了句子的各種信息,具有一定的實用性。但是單純運用這種方法,效果仍然不是很好,原因是基于關(guān)鍵字的方法只考慮了詞語表面上的信息,而沒有考慮詞本身的詞義信息。例如,“你們學校在哪里???”和“上海海事大學的地址是什么?”所表達的應該是完全相同的意思。如果單純運用基于關(guān)鍵詞信息的方法,將使語義上相似的兩個句子的相似度變的很小,系統(tǒng)的準確率下降。因此,本文在上文中引入了基于知網(wǎng)的語義相似度計算方法,并將采用基于關(guān)鍵詞信息和基于語義詞典相結(jié)合的方法來計算問句之間的相似度。記兩個要比較的句子為、,、的相似度記為,其公式如下:(2-10)其中:,且。和的計算公式分別由(2-5)和(2-9)給出。2.6實驗2.6.1算法中特定值的確定在對FAQ庫的答案抽取的研究中,涉及到了一些λ值的取值、關(guān)鍵詞的權(quán)重設(shè)定、FAQ庫及文本庫切換的閾值的確定等問題。我們進行大量的實驗,在有100個問題的問題集中進行測試。最終確定=0.6,=0.2,=0.1,=0.1,=0.35,=0.65。對于句子中關(guān)鍵詞的權(quán)重設(shè)定,我們主要根據(jù)關(guān)鍵詞的詞性為每個要匹配的關(guān)鍵詞分配權(quán)重,當關(guān)鍵詞中有專有名詞時,專有名詞的權(quán)重會加倍。一般名詞的權(quán)重排在第二位,其次是數(shù)詞、動詞、形容詞和副詞。分配的權(quán)重分別為:專有名詞(0.9)、一般名詞(0.75)、疑問詞(0.65)、時間詞(0.5)、數(shù)詞(0.5)、動詞(0.4)、形容詞和副詞(0.38)、其他詞類(0.1)。但有些形容詞或副詞需要引起我們特殊的關(guān)注,如“第一”、“最高”、“最多”、“最好”等形容詞或副詞賦予加倍的權(quán)重。另外,我們在判斷FAQ庫中是否存在所需要的答案時,設(shè)定了一個閾值,將計算出來的相似度和該閾值來進行比較,來決定是否需要去文本庫中進行答案抽取。在經(jīng)過一定的實驗分析,我們確定設(shè)置該閾值為0.65時能收到較好的準確度。2.6.2實驗步驟FAQ庫中存儲了大量的問題答案對,它們按照問句的類型進行分類存儲,問句類型主要有:分數(shù)、人數(shù)、學校,學院,專業(yè)的介紹、政策、其他;分別標記為1,2,3,4,5.例如:FAQ庫中存儲的某些類型的問題答案對:表2-5Q-A表Que_IDQuestionAnswerQue_Type1007上海海事大學2007年計算機科學與技術(shù)專業(yè)在上海的招生分數(shù)是多少?2007年我校計算機科學與技術(shù)專業(yè)在上海的招生分數(shù)是428分(理科)。1(分數(shù))4721上海海事大學有哪些優(yōu)惠政策?1、對在高中階段獲得上海市三好學生、上海市優(yōu)秀學生干部、上海市優(yōu)秀推薦生資格的考生在錄取時,達到我校錄取線的考生,同等分數(shù)條件下優(yōu)先考慮。2、銅管樂方面有特長的,一志愿報考我校,經(jīng)我校事先考核合格并簽訂協(xié)議,在錄取時按協(xié)議約定優(yōu)先考慮。3、其他方面有特長的考生,我校在錄取時,在同等分數(shù)的條件下優(yōu)先考慮。4(政策)4890上海海事大學可以專升本嗎?根據(jù)上海市教委的相關(guān)文件,我校高職部分專業(yè)可參加學校自行組織的“專升本”考試。近年來,我校每年都有近百個“專升本”計劃。5(其他)5030上海海事大學的地址是什么?老校區(qū)地址:上海市浦東大道1550號(200135);新校區(qū)地址:臨港新城海港大道1550號(201303)。3(學校,學院,專業(yè)的介紹)5032上海海事大學的就業(yè)情況

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論