《教師答疑系統(tǒng)設(shè)計(jì)(論文)》_第1頁
《教師答疑系統(tǒng)設(shè)計(jì)(論文)》_第2頁
《教師答疑系統(tǒng)設(shè)計(jì)(論文)》_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于Nlp的教師答疑系統(tǒng)設(shè)計(jì)1教師答疑系統(tǒng)的NLP的實(shí)現(xiàn)NLP是本系統(tǒng)的核心,解決學(xué)生提出的自然語言形式的問題,從本質(zhì)上講,就是以問題為查詢需求,在系統(tǒng)問題資源庫中進(jìn)行搜索的過程。在自然語言查詢時(shí),學(xué)生提出的問題首先交給問題內(nèi)容過濾部件進(jìn)行過濾,如果問題里面含有禁用詞匯,則提示出錯(cuò),查詢過程終止;否則,在問題庫和答案庫中進(jìn)行搜索匹配;然后把滿足條件的問題按照一定的標(biāo)準(zhǔn)進(jìn)行排序,從而把最相關(guān)的若干個(gè)問題返回給學(xué)生。如果學(xué)生對(duì)查詢結(jié)果滿意,則查詢過程結(jié)束;如果不滿意,可以把問題提交到無解問題庫,等待教師或其他學(xué)生回答,也可以通過站內(nèi)信箱、異步討論區(qū)互相討論。問題查詢的基本過程如下圖所示。圖1NLP查詢的基本過程1.1分詞分詞是一切自然語言處理的基礎(chǔ),也是本系統(tǒng)回答自然語言提問的第一步。下面對(duì)分詞所依據(jù)的詞庫、預(yù)處理和具體實(shí)現(xiàn)進(jìn)行闡述。1.1.1詞庫設(shè)計(jì)詞庫是中文分詞的依據(jù),詞庫設(shè)計(jì)的適當(dāng)與否將直接影響分詞的準(zhǔn)確程度,從而影響搜索的效率。根據(jù)查詢過程中的各階段對(duì)不同種類的詞的需要,本系統(tǒng)設(shè)計(jì)了如下幾個(gè)詞庫。1.停用詞庫在進(jìn)行搜索的時(shí)候把哪些經(jīng)常出現(xiàn),但是又和語義關(guān)系不大的詞統(tǒng)統(tǒng)都刪選掉,直接執(zhí)行忽略操作,這樣大大的簡化搜索條件,提高速度。2.專業(yè)詞庫答疑學(xué)科當(dāng)中經(jīng)常會(huì)用到的一些專業(yè)詞語,是和一般的詞典是不同的,它還包括了一些重要詞組的搭配問題,這樣做能夠最大匹配分詞法時(shí)提高分詞的準(zhǔn)確度,同樣的是凸顯出詞匯的重要性。3.禁用詞匯這就包含一些不正常詞匯,比如說“法輪功”、“笨蛋”等等之內(nèi)的,和政治、宗教以及色情相關(guān)的詞匯進(jìn)行篩選。1.1.2預(yù)處理預(yù)處理就是在分詞之前首先把輸入的問題分割成若干子串(這些子串一般是比較短的),然后對(duì)這些子串進(jìn)行分詞。問題分割的依據(jù)有兩個(gè):一是顯式的標(biāo)點(diǎn)、數(shù)字及其它非中文符號(hào)。這些符號(hào)在處理時(shí)也采用不同的規(guī)則,標(biāo)點(diǎn)和數(shù)字直接過濾掉,考慮到問題中的英文單詞,我們把連續(xù)的英文字母當(dāng)作一個(gè)子串,如“OS”。二是停用詞表中的詞匯,主要是沒有意義的詞。比方說輸入問題“請(qǐng)問JSP和ASP各自的優(yōu)缺點(diǎn)是什么?”經(jīng)過了分析,分割的依據(jù)就是英文和標(biāo)點(diǎn),問題被分成了5個(gè)子串:請(qǐng)問/JSP和/ASP/各自的優(yōu)缺點(diǎn)是什么這樣的話,就有一個(gè)非常完整的自然語言形式的問題就慢慢的轉(zhuǎn)變成為5個(gè)短字符串,接下來就是選擇適當(dāng)?shù)姆衷~算法對(duì)字符串進(jìn)行分詞。1.1.3分詞算法的實(shí)現(xiàn)作為網(wǎng)絡(luò)教學(xué)平臺(tái)的一部分,答疑系統(tǒng)主要是針對(duì)某個(gè)具體領(lǐng)域或具體學(xué)科的,所涉及的內(nèi)容具有很強(qiáng)的專業(yè)性。學(xué)生所提問題包含的詞匯也比較集中,重復(fù)率較高,并且在問題中一般都包含了表明問題性質(zhì)的詞、短語或語法結(jié)構(gòu)。因此,本系統(tǒng)采用雙向最大匹配法。只要詞庫設(shè)計(jì)得合理,分詞的準(zhǔn)確性能達(dá)到較高的水平。在雙向最大匹配法是采用了一些歧義排除方法,先是通過正向和逆向最大匹配的到兩組切分結(jié)果,然后是根據(jù)一些具體的情況來決定選擇哪一組作為最終的分詞結(jié)果。1.2問題過濾問題過濾是指對(duì)學(xué)生提出的問題內(nèi)容進(jìn)行檢查,判斷問題中是否含有非法詞匯并做出相應(yīng)處理。這一過程是判斷問題中是否包含于禁用詞庫中的詞,如果包含,則系統(tǒng)認(rèn)為該問題是非法的,給學(xué)生出錯(cuò)提示,搜索過程終止。如果系統(tǒng)認(rèn)為問題合法,則進(jìn)行下一步的處理。1.3基于文本段的空間模型1.3.1文本段文本段是指文檔中一個(gè)具有獨(dú)立邏輯意義的文本部分。例如,一般文檔中的標(biāo)題、摘要、正文乃至參考文獻(xiàn)部分都可以看作是一個(gè)文本段。實(shí)際操作中,文本段可以根據(jù)文檔的表現(xiàn)形式予以確定。在本系統(tǒng)中,學(xué)生提出的新問題是一個(gè)文本段,一個(gè)有解問題及其所有答案一起看作為一個(gè)搜索文檔,是一個(gè)整體,而這個(gè)有解問題及各個(gè)答案都作為此搜索文檔的文本段。1.3.2特征向量本系統(tǒng)要用到的特征項(xiàng)是文本段的特征項(xiàng),設(shè)文檔集為C,文檔D的第i個(gè)文本段記為Si,Si中第k個(gè)特征項(xiàng)記為Tik(k=1,2,…,n,n為特征項(xiàng)總數(shù))。文檔、文本段、特征項(xiàng)之間的關(guān)系如下圖所示。圖2文檔結(jié)構(gòu)圖特征項(xiàng)權(quán)重的計(jì)算是基于文本段的向量空間模型中最重要的步驟。設(shè)文檔集為C時(shí),Tik在Si中的權(quán)重記為),(iikCSTw,計(jì)算公式可以通過公式得到。其中,tf(Tik,Si)表示特征項(xiàng)Tik在文本段Si中出現(xiàn)的次數(shù);N表示文檔集C中的文檔總數(shù),ikTn為文檔集中包含Tik的文檔數(shù)。1.3.3相似度與閥值本系統(tǒng)中,新提問題Q和搜索文檔D的相關(guān)性首先由局部相似度最大值來度量,當(dāng)最大值是超過了某一設(shè)定值的時(shí)候,就能夠認(rèn)為文檔D與Q的相關(guān)性較大,能夠滿足學(xué)生的提問需求。當(dāng)有多大文檔符合的時(shí)候,就會(huì)按照Q和各文檔的局部相似度的最大值進(jìn)行降序排列,然后把問題返回給學(xué)生。1.4用戶反饋用戶反饋是讓學(xué)生對(duì)檢索結(jié)果進(jìn)行判斷,這些問題是否滿足查詢需求。如果滿足則直接查看即可;如果沒有查詢到相關(guān)問題或?qū)W生對(duì)結(jié)果不滿意,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論