![基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/16/0cd98803-c0bc-4043-a606-7f4f802728a8/0cd98803-c0bc-4043-a606-7f4f802728a81.gif)
![基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/16/0cd98803-c0bc-4043-a606-7f4f802728a8/0cd98803-c0bc-4043-a606-7f4f802728a82.gif)
![基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/16/0cd98803-c0bc-4043-a606-7f4f802728a8/0cd98803-c0bc-4043-a606-7f4f802728a83.gif)
![基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/16/0cd98803-c0bc-4043-a606-7f4f802728a8/0cd98803-c0bc-4043-a606-7f4f802728a84.gif)
![基于中文分詞算法的英語學習資源查詢系統(tǒng)研究_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/16/0cd98803-c0bc-4043-a606-7f4f802728a8/0cd98803-c0bc-4043-a606-7f4f802728a85.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于中文分詞算法的英語學習資源查詢系統(tǒng)研究摘要:針對人工智能在信息搜索領(lǐng)域的實際應用,本文介紹了一種基于中文分詞算法的英語學習資源查詢系統(tǒng)。該系統(tǒng)通過一種基于中文分詞算法的搜索策略,結(jié)合事例推理技術(shù)實現(xiàn)對英語學習資源的智能搜索。系統(tǒng)測試結(jié)果說明,用戶可以通過該系統(tǒng)搜索到所提問問題的類似事例以及解決該問題的相關(guān)知識條款。關(guān)鍵詞:中文分詞算法;智能搜索;事例推理;英語學習A Study on Information Resources of English Learning Inquires System Based on Chinese Word Segmentation AlgorithmAb
2、stract:Aiming at the usage of Artificial intelligence in the field of information search,this paper having introduced the information resources of English learning inquires system based on Chinese word segmentation algorithm.The system having achieved intelligent search of the English learning which
3、 through a kind of Chinese word segmentations search strategy and case-based reasoning technology. The results show that this system can get the users to gain satisfying results.Key words:Chinese word segmentation algorithm;intelligent search;Case-based reasoning;English learning;一、引言隨著信息技術(shù)的迅速開展,英語學
4、習信息資源成為中小學數(shù)字圖書館的重要組成部分,它的建立也已成為圖書館界研究的重要課題,其對中小學英語教學以及學生學習的輔助功能也愈來愈顯著。然而經(jīng)過長期的調(diào)查研究說明,中小學英語學習信息資源具有信息量大、內(nèi)容繁雜、涉及面廣等特點。很多學生甚至教師在應用的過程中,經(jīng)常會遇到無從下手去查詢相關(guān)信息的情況。針對這種情況,本文筆者將基于中文分詞算法的搜索技術(shù)應用在海量英語學習資源的智能搜索過程中。二、關(guān)鍵技術(shù)1.中文分詞算法。中文分詞就是把漢字字串序列切分成有意義的詞串序列。如將句子“我是一名中學教師進展分詞,得到:“我/是/一名/中學/教師?,F(xiàn)有的中文分詞算法有很多,根據(jù)其特點,可以分為基于字符串匹
5、配的分詞算法、基于統(tǒng)計的分詞算法、基于理解的分詞算法、基于途徑的分詞算法和基于語義的分詞算法等。在這些分詞算法中,實現(xiàn)最簡單、使用最廣泛、效率最高的是基于字符串匹配的中文分詞算法,它是一種以詞典為根底的方法,該算法按照一定的策略將待切分的漢字串與一個充分大的詞庫進展匹配,假設找到某個詞條,那么匹配成功識別出一個詞?;谧址ヅ涞姆衷~算法主要有以下三種:最大正向匹配分詞算法,簡稱MM法,假設假設Words為詞庫,Max表示詞庫中最大詞條的長度,Str為待切分的漢字串,那么MM分詞算法的根本思想是:首先,取Str中的前Max個漢字作為匹配字段,與Words中的詞條進展匹配,假設詞庫中存在這樣一個
6、詞,那么匹配成功,詞條被切分出來;假設詞庫中找不到這樣一個詞,那么去掉匹配字段的最后一個字,將剩余的漢字串作為新的匹配字段,繼續(xù)匹配;如此進展下去,直到匹配成功為止1,2。最大逆向匹配分詞算法,簡稱RMM法。它的根本思想與MM法一樣,不同的是該方法從待切分漢字串的末尾開始處理,每次匹配不成功時去掉最前面的一個漢字。雙向匹配分詞算法,簡稱BM法,它是把MM法和RMM法相結(jié)合的一種方法。由于是雙向掃描漢字串,所以可能會出現(xiàn)多種結(jié)果,這時,我們采用人工干預的方法來確定正確含義的字符串。例如,“進步成功確實定性字符串在正向掃描時,切分結(jié)果為“進步/成功/確實/定性,逆向掃描時,切分結(jié)果為“進步/成功/
7、的/確定性,顯然我們需要的是逆向掃描的結(jié)果,只需人工選擇一下即可。本系統(tǒng)所用的分詞算法就是雙向匹配分詞算法。2.匹配度的計算方法。我們將問題字符串中關(guān)鍵詞在檢索結(jié)果字符串中的包含程度稱為匹配度,其計算公式如下:M=Q/A100%。其中,M指匹配度,Q指關(guān)鍵詞在檢索結(jié)果中出現(xiàn)的個數(shù),A指關(guān)鍵詞個數(shù)。3.事例推理原理。基于事例的推理Case-based Reasoning,CBR是機器學習的一種方法,它利用以前積累的知識和經(jīng)歷來解決問題,在許多領(lǐng)域被廣泛的應用3。其根本思想是:在進展問題求解時,首先在事例庫中檢索與該問題最類似的事例,假設能找到完全匹配的事例,那么作為問題的解輸出,假設找不到,那么
8、尋求一個類似的事例,根據(jù)問題的需求進展修正,并將修正結(jié)果存入事例庫中。事例推理模型主要包括四個階段:事例檢索,事例重用,解決方案修正和事例保存3。三、中小學英語學習資源查詢系統(tǒng)的實現(xiàn)1.系統(tǒng)應用功能設計。中小學英語學習資源查詢系統(tǒng)是以中小學英語學習資源為理論根底的,以事例推理的根本思想為根據(jù)來解決問題的。它的功能主要是按照用戶輸入的問題進展答復并將結(jié)果顯示給用戶,本系統(tǒng)按照功能可以分為四個模塊:根底信息維護模塊、分詞處理模塊、智能查詢模塊、事例維護模塊。通過對用戶輸入的自然語言的提問,對問題進展分詞處理,提取關(guān)鍵詞,提交查詢系統(tǒng),在知識庫中查找到相匹配的信息,并將其作為最后的輸出結(jié)果。各模塊的
9、功能如下:根底信息維護模塊:維護系統(tǒng)所需的英語學習資源等根底信息。分詞處理模塊:接收用戶輸入的以自然語言方式表述的句子,按照詞義進展分割,提取關(guān)鍵詞,供查詢模塊使用。智能查詢模塊:使用分詞處理模塊的結(jié)果,在知識庫中查找答案,并將查詢結(jié)果顯示給用戶。這里的知識庫是由事例庫和英語學習根底知識庫組成。事例維護模塊:事例庫的維護主要來自兩個方面,一是教學人員歸納整理在教學過程中遇到的知識重點以及相關(guān)的本卷須知等信息添加到事例庫中;二是在用戶查詢后未得到結(jié)果時,從英語學習資源根底信息庫中查找出相應的解決方案,形成一條新的事例添加到事例庫中。 本系統(tǒng)的效勞對象主要包括兩類人員:中小學教師、學生。系統(tǒng)采用“
10、B/S形式的系統(tǒng)架構(gòu),用戶可以通過具有上網(wǎng)功能的PDA或者直接訪問系統(tǒng)。2.系統(tǒng)總體部署構(gòu)造圖。系統(tǒng)的總體部署構(gòu)造圖如圖1所示,系統(tǒng)部署的網(wǎng)絡分為內(nèi)網(wǎng)校園網(wǎng)和外網(wǎng)因特網(wǎng)兩種。應用程序效勞器和數(shù)據(jù)庫效勞器均部署在學校,內(nèi)外網(wǎng)間的數(shù)據(jù)交互采用基于USB介質(zhì)的專用協(xié)議,實現(xiàn)內(nèi)外網(wǎng)間的物理隔離,保證數(shù)據(jù)傳輸?shù)钠桨?。挪動終端可以通過無線網(wǎng)絡直接訪問系統(tǒng)。3.系統(tǒng)的處理流程。系統(tǒng)主要的處理流程為:輸入所要查詢的問題;對該問題進展分詞,過濾掉一些停用詞主要是疑問詞和虛詞,抽取出關(guān)鍵詞;根據(jù)關(guān)鍵詞,在事例庫中進展檢索,對檢索結(jié)果按照與問題的匹配度進展排序,取出匹配度最高的信息作為最終的檢索結(jié)果,顯示給用戶;假
11、設在事例庫中檢索不到結(jié)果,那么去檢索英語學習資源根底庫,從中找出匹配的結(jié)果,并將其整理為新案例添加到案例庫中;假設在英語學習資源根底庫中仍然未找到結(jié)果,那么將問題提交給相關(guān)系統(tǒng)管理人員,由其給出解決方案,并將新案例添加到案例庫中。四、系統(tǒng)測試及結(jié)果分析系統(tǒng)測試有兩個目的:一是測試搜索結(jié)果的準確性;二是測試搜索效率。為驗證系統(tǒng)搜索結(jié)果的準確性,筆者作了一個測試,以?初中英語語法大全?為根底庫,將近些年來教學過程中常用的語法案例整理到事例庫中,共計390條事例。筆者利用200余條自然語言問句進展搜索處理,然后將搜索得到的結(jié)果進展人工驗證,測試時采用一個指標:正確率Accuracy。其計算公式如下:Accuracy=a/b100%其中,a為搜索結(jié)果匹配的提問句個數(shù);b為所有的提問句個數(shù)。經(jīng)過測試得到正確率為97.3%,這個正確率已經(jīng)滿足了用戶的要求。實驗結(jié)果說明,系統(tǒng)不僅可以提供正確的答案,也可以提供一些跟問題比較相關(guān)的答案,因此,系統(tǒng)總體搜索結(jié)果令人根本滿意。將中文分詞算法的思想結(jié)合事例推理技術(shù)運用到查詢信息系統(tǒng)領(lǐng)域,可以很好地發(fā)揮事例推理模型的自學習才能,躲避傳統(tǒng)人工智能在知識獲取上的“瓶頸問題,進而獲得更好的搜索結(jié)果。參考文獻:1王遠定,梁久禎.利用關(guān)鍵詞倒
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度杭州電子科技大學產(chǎn)學研合作項目合同
- 2025年度出租車司機培訓與技能提升合同
- 2025年國際海上救助服務海運貨物運輸合同協(xié)議范本
- 2025年度綠色生態(tài)建設環(huán)保合同范本
- 2025年度企業(yè)并購貸款續(xù)借合同模板
- 北京餐飲合伙合同范本
- 買賣山地合同范例
- vr制作合同范本
- 修路車輛租賃合同范例
- 出售翻新塔吊合同范本
- 咖啡店合同咖啡店合作經(jīng)營協(xié)議
- 藥膳與食療試題及答案高中
- 北京市西城區(qū)2024-2025學年八年級上學期期末考試數(shù)學試卷含答案
- 2025年南京信息職業(yè)技術(shù)學院高職單招數(shù)學歷年(2016-2024)頻考點試題含答案解析
- 二零二五年度海外市場拓展合作協(xié)議4篇
- 2025年春新外研版(三起)英語三年級下冊課件 Unit4第2課時Speedup
- 2024年湖南汽車工程職業(yè)學院單招職業(yè)技能測試題庫標準卷
- 2025中國鐵塔集團安徽分公司招聘29人高頻重點提升(共500題)附帶答案詳解
- 2025年河北省農(nóng)村信用社招聘歷年高頻重點提升(共500題)附帶答案詳解
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評價導則
- 公共關(guān)系學完整教學課件
評論
0/150
提交評論