《教師答疑系統(tǒng)設(shè)計(jì)（論文）》

上傳人：E*** IP屬地：湖北上傳時(shí)間：2023-02-04 格式：DOCX 頁數(shù)：4 大小：70.81KB 積分：8.4 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于Nlp的教師答疑系統(tǒng)設(shè)計(jì)1教師答疑系統(tǒng)的NLP的實(shí)現(xiàn)NLP是本系統(tǒng)的核心，解決學(xué)生提出的自然語言形式的問題，從本質(zhì)上講，就是以問題為查詢需求，在系統(tǒng)問題資源庫中進(jìn)行搜索的過程。在自然語言查詢時(shí)，學(xué)生提出的問題首先交給問題內(nèi)容過濾部件進(jìn)行過濾，如果問題里面含有禁用詞匯，則提示出錯(cuò)，查詢過程終止；否則，在問題庫和答案庫中進(jìn)行搜索匹配；然后把滿足條件的問題按照一定的標(biāo)準(zhǔn)進(jìn)行排序，從而把最相關(guān)的若干個(gè)問題返回給學(xué)生。如果學(xué)生對(duì)查詢結(jié)果滿意，則查詢過程結(jié)束；如果不滿意，可以把問題提交到無解問題庫，等待教師或其他學(xué)生回答，也可以通過站內(nèi)信箱、異步討論區(qū)互相討論。問題查詢的基本過程如下圖所示。圖1NLP查詢的基本過程1.1分詞分詞是一切自然語言處理的基礎(chǔ)，也是本系統(tǒng)回答自然語言提問的第一步。下面對(duì)分詞所依據(jù)的詞庫、預(yù)處理和具體實(shí)現(xiàn)進(jìn)行闡述。1.1.1詞庫設(shè)計(jì)詞庫是中文分詞的依據(jù)，詞庫設(shè)計(jì)的適當(dāng)與否將直接影響分詞的準(zhǔn)確程度，從而影響搜索的效率。根據(jù)查詢過程中的各階段對(duì)不同種類的詞的需要，本系統(tǒng)設(shè)計(jì)了如下幾個(gè)詞庫。1.停用詞庫在進(jìn)行搜索的時(shí)候把哪些經(jīng)常出現(xiàn)，但是又和語義關(guān)系不大的詞統(tǒng)統(tǒng)都刪選掉，直接執(zhí)行忽略操作，這樣大大的簡化搜索條件，提高速度。2.專業(yè)詞庫答疑學(xué)科當(dāng)中經(jīng)常會(huì)用到的一些專業(yè)詞語，是和一般的詞典是不同的，它還包括了一些重要詞組的搭配問題，這樣做能夠最大匹配分詞法時(shí)提高分詞的準(zhǔn)確度，同樣的是凸顯出詞匯的重要性。3.禁用詞匯這就包含一些不正常詞匯，比如說“法輪功”、“笨蛋”等等之內(nèi)的，和政治、宗教以及色情相關(guān)的詞匯進(jìn)行篩選。1.1.2預(yù)處理預(yù)處理就是在分詞之前首先把輸入的問題分割成若干子串（這些子串一般是比較短的），然后對(duì)這些子串進(jìn)行分詞。問題分割的依據(jù)有兩個(gè)：一是顯式的標(biāo)點(diǎn)、數(shù)字及其它非中文符號(hào)。這些符號(hào)在處理時(shí)也采用不同的規(guī)則，標(biāo)點(diǎn)和數(shù)字直接過濾掉，考慮到問題中的英文單詞，我們把連續(xù)的英文字母當(dāng)作一個(gè)子串，如“OS”。二是停用詞表中的詞匯，主要是沒有意義的詞。比方說輸入問題“請(qǐng)問JSP和ASP各自的優(yōu)缺點(diǎn)是什么？”經(jīng)過了分析，分割的依據(jù)就是英文和標(biāo)點(diǎn)，問題被分成了5個(gè)子串：請(qǐng)問/JSP和/ASP/各自的優(yōu)缺點(diǎn)是什么這樣的話，就有一個(gè)非常完整的自然語言形式的問題就慢慢的轉(zhuǎn)變成為5個(gè)短字符串，接下來就是選擇適當(dāng)?shù)姆衷~算法對(duì)字符串進(jìn)行分詞。1.1.3分詞算法的實(shí)現(xiàn)作為網(wǎng)絡(luò)教學(xué)平臺(tái)的一部分，答疑系統(tǒng)主要是針對(duì)某個(gè)具體領(lǐng)域或具體學(xué)科的，所涉及的內(nèi)容具有很強(qiáng)的專業(yè)性。學(xué)生所提問題包含的詞匯也比較集中，重復(fù)率較高，并且在問題中一般都包含了表明問題性質(zhì)的詞、短語或語法結(jié)構(gòu)。因此，本系統(tǒng)采用雙向最大匹配法。只要詞庫設(shè)計(jì)得合理，分詞的準(zhǔn)確性能達(dá)到較高的水平。在雙向最大匹配法是采用了一些歧義排除方法，先是通過正向和逆向最大匹配的到兩組切分結(jié)果，然后是根據(jù)一些具體的情況來決定選擇哪一組作為最終的分詞結(jié)果。1.2問題過濾問題過濾是指對(duì)學(xué)生提出的問題內(nèi)容進(jìn)行檢查，判斷問題中是否含有非法詞匯并做出相應(yīng)處理。這一過程是判斷問題中是否包含于禁用詞庫中的詞，如果包含，則系統(tǒng)認(rèn)為該問題是非法的，給學(xué)生出錯(cuò)提示，搜索過程終止。如果系統(tǒng)認(rèn)為問題合法，則進(jìn)行下一步的處理。1.3基于文本段的空間模型1.3.1文本段文本段是指文檔中一個(gè)具有獨(dú)立邏輯意義的文本部分。例如，一般文檔中的標(biāo)題、摘要、正文乃至參考文獻(xiàn)部分都可以看作是一個(gè)文本段。實(shí)際操作中，文本段可以根據(jù)文檔的表現(xiàn)形式予以確定。在本系統(tǒng)中，學(xué)生提出的新問題是一個(gè)文本段，一個(gè)有解問題及其所有答案一起看作為一個(gè)搜索文檔，是一個(gè)整體，而這個(gè)有解問題及各個(gè)答案都作為此搜索文檔的文本段。1.3.2特征向量本系統(tǒng)要用到的特征項(xiàng)是文本段的特征項(xiàng)，設(shè)文檔集為C，文檔D的第i個(gè)文本段記為Si，Si中第k個(gè)特征項(xiàng)記為Tik(k＝1，2，…，n，n為特征項(xiàng)總數(shù))。文檔、文本段、特征項(xiàng)之間的關(guān)系如下圖所示。圖2文檔結(jié)構(gòu)圖特征項(xiàng)權(quán)重的計(jì)算是基于文本段的向量空間模型中最重要的步驟。設(shè)文檔集為C時(shí)，Tik在Si中的權(quán)重記為)，(iikCSTw，計(jì)算公式可以通過公式得到。其中，tf(Tik，Si)表示特征項(xiàng)Tik在文本段Si中出現(xiàn)的次數(shù)；N表示文檔集C中的文檔總數(shù)，ikTn為文檔集中包含Tik的文檔數(shù)。1.3.3相似度與閥值本系統(tǒng)中，新提問題Q和搜索文檔D的相關(guān)性首先由局部相似度最大值來度量，當(dāng)最大值是超過了某一設(shè)定值的時(shí)候，就能夠認(rèn)為文檔D與Q的相關(guān)性較大，能夠滿足學(xué)生的提問需求。當(dāng)有多大文檔符合的時(shí)候，就會(huì)按照Q和各文檔的局部相似度的最大值進(jìn)行降序排列，然后把問題返回給學(xué)生。1.4用戶反饋用戶反饋是讓學(xué)生對(duì)檢索結(jié)果進(jìn)行判斷，這些問題是否滿足查詢需求。如果滿足則直接查看即可；如果沒有查詢到相關(guān)問題或?qū)W生對(duì)結(jié)果不滿意，

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《教師答疑系統(tǒng)設(shè)計(jì)（論文）》

文檔簡介

溫馨提示

最新文檔

評(píng)論

《教師答疑系統(tǒng)設(shè)計(jì)（論文）》

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔