




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
②相似度度量模型這里用到的是余弦相似度,別稱也可以說是余弦相似性,用到的核心公式為所用的方式方法是,算出兩向量之間的角度的余弦值,來對于兩個向量的相似性進行一個大致評估。對于兩個矢量,方法是這樣的,從原點([0,0,...])出發(fā),想象朝向不同方向的空間的兩個線段。這時候會有一個角度形成在兩個線段之間:如果所含角度顯示為0度,則意味著方向相同,且線段是一致的;如果是90度的話,那就是形成直角,方向完全不同的意思;如果包含的角度是180度的話,那就是顯示出方向是相反的。因此,可以根據(jù)角度區(qū)分,來確定向量的相似性。角度越小,相似度越高亦即越像。而用此法進行文本相似度計算,流程大致如下,圖3.3為分詞流程圖:圖3.3分詞流程圖可以進行如下情況的一個實例演算分析:圖3.4實例圖將其進行向量化:=(1,1,1,2,1,1,1,1,0,0,0,0,0,0,0,0,0,0)=(1,1,0,2,2,0,1,1,0,0,0,0,0,0,1,0,0,1)=(1,1,0,2,2,0,1,1,2,2,2,1,1,1,2,1,1,1)計算余弦:=0.8058229640253802=0.0=0.06299407883487121的夾角的余弦更趨近于1,所以相似度更高。3.樸素貝葉斯算法分類該部分主要是進行模型訓練以及模型預測,這里用到的一個算法是樸素貝葉斯算法模型,以此進行分類的操作;該算法的主要思想是如下這樣的:給出一個待分類的項目,需要知道的是該項出現(xiàn)的條件下某個類別出現(xiàn)的概率,出現(xiàn)概率最高的類別,即為該項目所屬于的類別;接下來對于整體算法流程進行大概了解,圖3.5為樸素貝葉斯分類流程圖:圖3.5樸素貝葉斯分類流程對于樸素貝葉斯分類,首先要知道的是,此項利用到的核心算法是:,可以對此做一個轉換,更易于被理解:然后根據(jù)上述流程圖可以進行大致分析:
階段步驟一——前期準備,主要工作可以進行如下表述,根據(jù)不同的具體情況,可以對于特征屬性有一個確定,適當?shù)貏澐置總€特征屬性,并對于其中進行手動分類,得到一個訓練樣本集。該階段的輸入是仍需分類的數(shù)據(jù),特征屬性和訓練樣本作為得到的輸出結果項目。
階段步驟二——分類器的訓練操作,這一階段的主要任務是創(chuàng)建分類,主要任務是在訓練樣本中,對于每個類別在此其中出現(xiàn)的頻率,以及針對每個特征屬性劃分來說,其對每個類別的條件進行概率估計,并記錄得到相應的結果。
階段步驟三——實際應用情況。此階段的任務是通過分類,對要分類的項目進行分類。輸入是分類和要分類的條目,輸出是這些條目和類別之間的映射鏈接。4.答案匹配基于前面的語料庫以及對于庫中內容的預處理,將對用戶輸入的問句進行配置答案,調用的是fuzzywuzzy庫,可稱之為模糊匹配庫,可以通過LevenshteinDistance算法,計算得出兩個序列間的不同之處。依據(jù)的該算法,又可以又稱為EditDistance算法,意思可以這樣去理解,對于兩個有差異情況的字符串來說,要是想要將其從一個轉換成為另一個的話,需要進行編輯的最低操作次數(shù)。這些操作主要涵蓋了以下幾種,插入或者刪除一個字符,將一個字符用另一個字符替代之類的操作。不難理解,編輯操作的次數(shù)越少,二者的相似度便越高。此項將會對于相似度閾值有一個具體的設定,相似度大于該閾值則說明匹配成功,比對后若匹配成功,則同等情況下將按照相似度的高低順序反饋給用戶問句答案,得到最終的結果映射。四系統(tǒng)實現(xiàn)基于前面內容已經(jīng)闡述的設計分析,可以對系統(tǒng)基本功能進行實現(xiàn),可視化界面如下所示,將會對與每個分類下的問答功能進行展示;旅游準備類首先,對于“你好”“再見”諸如此類的寒暄客套話,此前已經(jīng)進行了該種問候語的集合,做成了一個小詞庫,會相應給予答復;出游之前需要對該地方氣候、需要穿的衣物有一定的了解,輸入相應問句可以對于該問題的類屬有一個確定,并將答案進行反饋,可以得到回復如下,圖4.1為可視化界面1:圖4.1可視化界面1旅游景點類對于出游前相關信息進行了大致了解后,就可以對于要去的景點地方進行大致了解,如下可以進行具體展示,圖4.2為可視化界面2;圖4.2可視化界面2美食推薦類可以通過了解北京特色小吃,進行美食搜尋,游玩之余也可以滿足自己的果腹之欲;圖4.3為可視化界面3;圖4.3可視化界面3住宿安排類出游過程中還需要對住宿的方面的安排有一個大致的規(guī)劃,了解北京適合居住的地方是必要的;圖4.4為可視化界面4;圖4.4可視化界面4出游推薦類若是陪同老人小孩出游,還需要了解北京的一些公園,適合全家游玩;圖4.5為可視化界面5;圖4.5可視化界面5購物推薦類除了食宿問題,需要進行娛樂活動,故此可以對一些商場進行大致了解如下所示;圖4.6為可視化界面6;圖4.6可視化界面6五總結反思通過對于近幾年問答系統(tǒng)分析設計等資料的搜查與了解,對相關問答知識領域的知識,了解程度上變得更加全面豐富,故此可以對問答系統(tǒng)做一些具體的解析。對于一個問答系統(tǒng)的以下若干方面:首先,分析提出的問題。使用者將需要的關鍵字或者句子進行輸入,將相關內容進行提交系統(tǒng),此時,根據(jù)系統(tǒng)內部的信息資料庫,將會采用對用戶提交的關鍵字進行分析的步驟,進行某些水平上的理解解析;其次,檢索內部文字信息。對于關鍵字進行一定加工,通過加工,關鍵字導入后可以進行數(shù)據(jù)庫的一個系統(tǒng)查詢,呈現(xiàn)與關鍵字相關性較高的內容;然后,問題答案的提取與呈現(xiàn)。數(shù)據(jù)庫查詢之后,將返回的結果,依據(jù)特定的序列規(guī)則進行整合與排列,并突出關鍵字(用戶輸入的內容),之后會加以相關鏈接,反饋給用戶。本次設計開發(fā)的系統(tǒng)的多數(shù)模塊固然已經(jīng)得到了實現(xiàn),同時也符合以上幾個所需要的特性。然而,一個可以正式使用運行的系統(tǒng)如果只憑借短時間的分析、設計來開發(fā),還是未能達到理想狀態(tài)的,因此著實應該花上更長的精力投入來測試并完善此設計系統(tǒng)。在此次研究實踐的過程之中,現(xiàn)實情況下會出現(xiàn)某些問題,譬如,我們僅對某個分類的問答進行了研究開發(fā),所以能回答的范疇是有限的,提問問題的答復只能回復我們事先設定的某一類問題,是屬于事先分好的類別,而難以對我們的實際需求給出確切的回應。究其原因,在于我們目前使用的語料庫中,對于其他分類下的信息儲存量較小,因此在有限的范圍之下,在某些程度上,比較難區(qū)找到,與使用者實際情況下,所提出的問題相似度較高的問題,故此會在一定程度上影響結果。整個程序設計過程中亦是存在著不少問題,譬如數(shù)據(jù)庫語料庫等的內容相對局限于某些范疇,若要在現(xiàn)實生活中進行使用還需要大幅度改進調整;開題報告中理想狀態(tài)下的很多功能,依據(jù)本人目前的知識水平和技能能力,在實際程序的設計與調試中無法順利實現(xiàn),因此在實際操作中進行了一些簡化與修改的操作,我們操作完成的相關程序的基本功能也得以順利實現(xiàn)。綜上所述,這個開發(fā)系統(tǒng)依然具有著部分需要修改的地方以及不夠優(yōu)化的問題。譬如,從開發(fā)系統(tǒng)的整體設計看來,不少細節(jié)之處需要進一步加以顯得更為美觀的效果,可讀性的方面也應該需要加以強化,使得使用者在實際操作中更加便利,而論及系統(tǒng)的自適應性,不得不承認的是,亦存在著不少需要改進完善的地方,著實也應該進一步修改有關程序,我們所設計的系統(tǒng),開發(fā)需要的部分代碼內容著實應該改變一下,需要讓它更為精細,也或者說需要加強程序的實現(xiàn)功能性。有理由相信,通過未來日子里的研究與學習,將會進一步完善自身本領,進一步深化個人知識層面,但必須承認的是,方方面面的問題應該也會伴隨我左右,整個開發(fā)系統(tǒng)的深入完善以及修改,亟待我未來的學習領悟。參考文獻[1]陳方正.中文旅游領域問答系統(tǒng)的研究與實現(xiàn)[D].西南交通大學,2015.[2]王文晶,李茹,宋小香.基于漢語框架知識庫的旅游信息問答系統(tǒng)設計[A].中國中文信息學會.第四屆全國學生計算語言學研討會會議論文集[C].中國中文信息學會:中國中文信息學會,2008:9.[3]陳曉偉.基于中文知識圖譜的問答系統(tǒng)的設計與實現(xiàn)[D].電子科技大學,2019.[4]任夢婷,王娟,阮佩姍,劉振盼.影響高質量網(wǎng)絡問答系統(tǒng)建設的因素[J].物流科技,2016,39(12):38-41.[5]費建軍.智能問答系統(tǒng)中命名實體識別問題研究[J].數(shù)字技術與應用,2017(07):93-96.[6]張積賓,徐志明,王恒,潘啟樹.面向大規(guī)模網(wǎng)絡數(shù)據(jù)的社會化問答系統(tǒng)[J].哈爾濱工業(yè)大學學報,2008,40(12):2011-2015.[7]耿志紅.中文問答系統(tǒng)的現(xiàn)代漢語疑問句類型分析研究概述[J].佳木斯職業(yè)學院學報,2016(12):365+367.[8]高勇,荀恩東,宋柔.構造自然語言問答系統(tǒng)平臺[A].中國中文信息學會.第二屆全國學生計算語言學研討會論文集[C].中國中文信息學會:中國中文信息學會,2004:4.[9]張曉孿,王西鋒,李乃乾.中文問答系統(tǒng)中問題理解的研究與實現(xiàn)[J].西華大學學報(自然科學版),2008(02):4-7+1.[10]張曉孿.中文問答系統(tǒng)中問題理解與信息檢索的研究與實現(xiàn)[D].西北大學,2007.[11]李茹,王文晶,梁吉業(yè),宋小香,劉海靜,由麗萍.基于漢語框架網(wǎng)的旅游信息問答系統(tǒng)設計[A].中國中文信息學會信息檢索與內容安全專業(yè)委員會.第四屆全國信息檢索與內容安全學術會議論文集(上)[C].中國中文信息學會信息檢索與內容安全專業(yè)委員會:中國中文信息學會,2008:9.[12]楊鳳.基于人工智能的課程答疑系統(tǒng)的研究[D].大連海事大學,2020.[13]張亮.面向開放域的中文問答系統(tǒng)問句處理相關技術研究[D].南京理工大學,2006.[14]JiangChuan,SuQianmin,ZhangLele,HuangBo.AutomaticQuestionAnsweringSystemBasedonConvolutionalNeuralNetworkandItsApplicationtoWasteCollectionSystem[J].JournalofCircuits,SystemsandComputers,2021,30(01).[15]ShiyaoZhao,ZhezhiJin.ResearchProgressofAutomaticQuestionAnsweringSystemBasedonDeepLearning[J].OpenAccessLibraryJournal,2020,07(06).[16]XiaohuiPan,TaoZhang.ResearchonE-CommerceAutomaticQuestionAnsweringSystemModelBasedonDataMining[J].JournalofPhysics:ConferenceSeries,2018,1069(1).[17]TrivediHari,MesterhazyJoseph,LagunaBenjamin,VuThienkhai,SohnJaeHo.AutomaticDeterminationoftheNeedforIntravenousContrastinMusculoskeletalMRIExaminationsUsingIBMWatson'sNaturalLanguageProcessingAlgorithm.[J].Journalofdigitalimaging,2018,31(2).[18]WidedBakari,PatriceBellot,MahmoudNeji.AlogicalrepresentationofArabicquestionstowardautomaticpassageextractionfromtheWeb[J].InternationalJournalofSpeechTechnology,2017,20(2).[19]JawadSadek,FaridMeziane.ADiscourse-BasedApproachforArabicQuestionAnswering[J].
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玻璃行業(yè)安全使用方法
- 服務項目合同書(2025年版)
- Unit4 Section A (2a-2d) 教學設計2024-2025學年人教版英語八年級上冊
- 圓的面積(一)(教案)2024-2025學年數(shù)學六年級上冊-北師大版
- 2025年九江下載貨運從業(yè)資格證模擬考試
- 2025年哈爾濱貨運叢業(yè)資格證試題和答案
- 2025年泉州貨運資格證模擬考試
- 七年級英語下冊 Unit 8 The seasons and the Weather Topic 3 Lets celebrate Section C教學實錄 (新版)仁愛版
- 2025年改性塑料粒子合作協(xié)議書
- 2025年異丙醚項目建議書
- 2024年陜西省中考數(shù)學試題含答案
- 2024年國網(wǎng)河南省電力公司招聘歷年高頻500題難、易錯點模擬試題附帶答案詳解
- 2024年清理化糞池協(xié)議書
- 民營醫(yī)院并購合同范本
- 中國高血壓防治指南(2024年修訂版)圖文解讀
- 2024年全國國家電網(wǎng)招聘之電網(wǎng)計算機考試歷年考試題(附答案)
- (正式版)QB∕T 8049-2024 家用和類似用途微壓富氧艙
- 傳染病醫(yī)院隔離手術操作流程
- 2024年廣東省高三一模高考英語試卷試題答案祥解(含作文范文)
- 全新合伙協(xié)議三人模板下載
- 人體成分分析在健康管理中的應用
評論
0/150
提交評論