教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第1頁(yè)
教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第2頁(yè)
教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第3頁(yè)
教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第4頁(yè)
教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究 【摘要】基于教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)應(yīng)用,從試題表征、知識(shí)點(diǎn)標(biāo)注、試題難度預(yù)測(cè)、學(xué)生認(rèn)知診斷和個(gè)性化推薦5個(gè)方面的應(yīng)用進(jìn)行闡述,分析它們?cè)谀壳笆褂弥械年P(guān)鍵技術(shù)、優(yōu)勢(shì)和不足,并對(duì)教育數(shù)據(jù)挖掘領(lǐng)域發(fā)展趨勢(shì)進(jìn)行展望。 【關(guān)鍵詞】教育數(shù)據(jù)挖掘;知識(shí)點(diǎn)標(biāo)注;試題難度預(yù)測(cè);學(xué)生認(rèn)知診斷;個(gè)性化推薦 隨著教育信息化進(jìn)程不斷深入推進(jìn),人們的學(xué)習(xí)方式從線下轉(zhuǎn)到線上,由此產(chǎn)生的教育數(shù)據(jù)量非常巨大,如何利用海量的教育數(shù)據(jù)資源,已然成為當(dāng)前亟需解決的重要課題。教育數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而成,旨在有效幫助學(xué)生學(xué)習(xí)1,然而教育數(shù)據(jù)資源具有異構(gòu)性、隱含性和不可比性,導(dǎo)致數(shù)據(jù)挖掘非常困難,因而,對(duì)教育數(shù)據(jù)挖掘

2、技術(shù)進(jìn)行深入研究具有重要意義?,F(xiàn)從試題表征、知識(shí)點(diǎn)標(biāo)注、試題難度預(yù)測(cè)、學(xué)生認(rèn)知診斷和個(gè)性化推薦5個(gè)方面的關(guān)鍵技術(shù)應(yīng)用進(jìn)行介紹,分析它們目前使用的關(guān)鍵技術(shù)、優(yōu)缺點(diǎn)和發(fā)展趨勢(shì)。 1關(guān)鍵技術(shù)應(yīng)用 1.1試題表征相關(guān)技術(shù)。對(duì)于學(xué)習(xí),試題永遠(yuǎn)是最常見(jiàn),也是非常重要的一種表現(xiàn)形式,對(duì)教育數(shù)據(jù)進(jìn)行挖掘的第一件事情就是需要對(duì)試題進(jìn)行表征,目前試題主要由文本、圖片、視頻等多種異構(gòu)數(shù)據(jù)形式組成,不同的數(shù)據(jù)形式,采用的表征技術(shù)也各不相同。文本資源主要采用詞袋和詞向量?jī)煞N模型。典型模型有word2vec、ELMo和BERT等。針對(duì)知識(shí)點(diǎn)資源主要采用One-hot表征、知識(shí)圖譜表征技術(shù)。針對(duì)圖片資源主要采用基于卷積神經(jīng)

3、網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)框架。1.2知識(shí)點(diǎn)標(biāo)注。試題的知識(shí)點(diǎn)是描述試題用到的知識(shí),知識(shí)點(diǎn)的標(biāo)注是構(gòu)建題庫(kù)和個(gè)性化推薦的基礎(chǔ)。試題知識(shí)點(diǎn)標(biāo)注常用方法:一是人工標(biāo)注,對(duì)標(biāo)注人員的專業(yè)知識(shí)背景要求較高,耗時(shí)費(fèi)力。二是傳統(tǒng)機(jī)器學(xué)習(xí)方法,常用多標(biāo)簽分類方法,沒(méi)有考慮文本的深層語(yǔ)義,預(yù)測(cè)效果欠佳,對(duì)標(biāo)注語(yǔ)料少的知識(shí)點(diǎn)的表現(xiàn)不好。三是深度學(xué)習(xí),雖然能夠很好地提取文本的深層次語(yǔ)義特征,但沒(méi)有加入先驗(yàn)知識(shí),不同專業(yè)領(lǐng)域的知識(shí)無(wú)法融合,數(shù)據(jù)不平衡問(wèn)題嚴(yán)重。1.3試題難度預(yù)測(cè)。試題難度的評(píng)估和預(yù)測(cè)是教育數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要的研究課題,其思路是讓學(xué)生做題,對(duì)于某道試題來(lái)說(shuō)

4、,答錯(cuò)的學(xué)生越多,該試題越難。該做法需要學(xué)生事先做完試題,事后針對(duì)答題情況進(jìn)行計(jì)算分析得出該試題難度。然而,有的時(shí)候需要提前對(duì)試題的難度進(jìn)行評(píng)估。例如,對(duì)于標(biāo)準(zhǔn)化測(cè)試(如:高考、CET等),需要考試之前對(duì)試題進(jìn)行難度的初步預(yù)測(cè)。傳統(tǒng)的方法多數(shù)采取人工評(píng)估,該方法存在專家主觀性強(qiáng)、費(fèi)時(shí)費(fèi)力的問(wèn)題,沒(méi)有利用試題的文本特征。基于此,黃振亞2等人提出基于試題文本的難度預(yù)測(cè)框架(Test-AwareAttention-BasedConvolutionalNeuralNetwork,TACNN)。1.4學(xué)生認(rèn)知診斷。認(rèn)知診斷模型是通過(guò)對(duì)學(xué)生作答情況,了解學(xué)生對(duì)知識(shí)水平掌握的情況,由此進(jìn)行個(gè)性化學(xué)習(xí)和資源推

5、薦。常見(jiàn)的認(rèn)知診斷模型包括IRT(ItemResponseTheory)和DINA(deterministicinputs,noisy“and”gate)模型。傳統(tǒng)DINA模型只適用于客觀題,不能對(duì)主觀題的答題情況進(jìn)行分析。如果作答學(xué)生存在游戲心理,通過(guò)該模型診斷出來(lái)的學(xué)生能力就不夠客觀和準(zhǔn)確。隨后,Wu3等人在此基礎(chǔ)上,又提出知識(shí)加猜測(cè)反應(yīng)模型(KnowledgePlusGamingResponseModel,KPGRM),該模型通過(guò)基于聚合P值的方法多次對(duì)作答學(xué)生的游戲心理進(jìn)行認(rèn)知診斷,診斷準(zhǔn)確性明顯提高。在大數(shù)據(jù)時(shí)代,需要處理大規(guī)模數(shù)據(jù),傳統(tǒng)DINA模型計(jì)算效率很差。針對(duì)DINA模型計(jì)算

6、時(shí)間過(guò)長(zhǎng)的問(wèn)題,王超4等人對(duì)原始DINA模型中的EM算法進(jìn)行了改進(jìn),提出了基于增量DINA模型,有效提高了計(jì)算效率。1.5個(gè)性化推薦。個(gè)性化推薦是實(shí)現(xiàn)個(gè)性化教育的第一步,是教育數(shù)據(jù)挖掘領(lǐng)域非常重要的應(yīng)用之一。近年來(lái),有學(xué)者將基于協(xié)同過(guò)濾推薦技術(shù)應(yīng)用到試題推薦當(dāng)中,取得了一定的效果,但該方法只關(guān)注分?jǐn)?shù)相近學(xué)生間的相似度和試題間的相似度,沒(méi)有涉及知識(shí)點(diǎn)信息,由此推薦的結(jié)果解釋性不強(qiáng),合理性欠缺。為了解決以上問(wèn)題,朱天宇5等人提出了一種結(jié)合概率矩陣分解(PMF)和認(rèn)知診斷的個(gè)性化試題推薦方法PMF-CD,該方法通過(guò)對(duì)學(xué)生掌握的知識(shí)點(diǎn)與試題考察的知識(shí)點(diǎn)進(jìn)行聯(lián)合分析來(lái)進(jìn)行試題推薦。 2問(wèn)題與發(fā)展趨勢(shì) 教

7、育數(shù)據(jù)挖掘領(lǐng)域發(fā)展至今,雖然在某些領(lǐng)域取得了較大的進(jìn)步,但是仍然有很多沒(méi)有解決的問(wèn)題,現(xiàn)就主要的問(wèn)題及未來(lái)發(fā)展趨勢(shì)總結(jié)如下。2.1問(wèn)題。2.1.1大量未標(biāo)記的資源沒(méi)有被利用。近年來(lái)產(chǎn)生了大量的教育資源數(shù)據(jù),然而教育資源數(shù)據(jù)的屬性標(biāo)注較少,大量未標(biāo)記的資源沒(méi)有得到充分的利用。因此,如何有效利用這些未標(biāo)記的資源,是機(jī)器學(xué)習(xí)方法在教育數(shù)據(jù)挖掘中不可避免的問(wèn)題。2.1.2知識(shí)點(diǎn)標(biāo)注權(quán)重相同問(wèn)題。目前知識(shí)點(diǎn)標(biāo)注方法中,不管是人工標(biāo)注,還是采取一些算法自動(dòng)完成標(biāo)注,都只是簡(jiǎn)單地把知識(shí)點(diǎn)標(biāo)注出來(lái),事實(shí)上對(duì)于一道包含多個(gè)知識(shí)點(diǎn)的題目而言,不同的知識(shí)點(diǎn)的重要程度是不一樣的,如果能將此道題目與知識(shí)點(diǎn)結(jié)合起來(lái),會(huì)大

8、大提高解決問(wèn)題的能力,且對(duì)試題個(gè)性化推薦系統(tǒng)的性能好壞起到關(guān)鍵性的作用,因此,如何科學(xué)地對(duì)不同的知識(shí)點(diǎn)標(biāo)注設(shè)置合理的權(quán)重,是值得深入研究的問(wèn)題。2.1.3教育資源的表征、挖掘和應(yīng)用比較困難。例如表征問(wèn)題:目前試題表征都是基于不同的資源類型選擇不同表征技術(shù)。如:文本資源通常采用詞袋和詞向量技術(shù);圖片資源通常選擇CNN框架等?,F(xiàn)實(shí)大量存在一道題中同時(shí)具有多種資源類型,例如一道數(shù)學(xué)幾何題,既有文字描述,又有公式和幾何圖形,他們之間有內(nèi)在的知識(shí)點(diǎn)和意義上的聯(lián)系。傳統(tǒng)的表征技術(shù)很難描述這種關(guān)聯(lián)關(guān)系,亟待找到一種方法能夠有效解決此類問(wèn)題。2.2發(fā)展趨勢(shì)。2.2.1無(wú)監(jiān)督表征。針對(duì)大量未標(biāo)記的資源沒(méi)有被利用

9、的問(wèn)題,設(shè)計(jì)有效的無(wú)監(jiān)督表征框架以解決大規(guī)模教育資源數(shù)據(jù)的標(biāo)注缺失問(wèn)題,具有極其重要的現(xiàn)實(shí)意義。2.2.2教育知識(shí)圖譜的結(jié)合。由于教育數(shù)據(jù)資源多源異構(gòu)性,導(dǎo)致教育資源的表征、挖掘和應(yīng)用非常困難,未來(lái)可以嘗試教育知識(shí)圖譜,并結(jié)合教育知識(shí)圖譜對(duì)異構(gòu)教育資源之間隱含邏輯關(guān)系的抽取和復(fù)雜語(yǔ)義結(jié)構(gòu)關(guān)聯(lián)的挖掘,或許能夠取得顯著的效果。 3結(jié)語(yǔ) 教育數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到教育數(shù)據(jù)領(lǐng)域,具有數(shù)據(jù)的異構(gòu)性、關(guān)系的隱含性和異構(gòu)數(shù)據(jù)之間的不可比性,造成了教育數(shù)據(jù)的表示、挖掘和應(yīng)用上的困難,未來(lái)依然是一塊充滿挑戰(zhàn)的研究領(lǐng)域,有許多問(wèn)題亟需深入探索和解決。從試題表征、知識(shí)點(diǎn)標(biāo)注、試題難度預(yù)測(cè)、學(xué)生認(rèn)知診斷和個(gè)性

10、化推薦5個(gè)方面應(yīng)用的關(guān)鍵技術(shù)進(jìn)行介紹,對(duì)比分析它們之間的優(yōu)勢(shì)和不足,提出目前依然面臨的問(wèn)題和未來(lái)發(fā)展的趨勢(shì),旨在對(duì)后期進(jìn)一步深入研究起到基石的作用。 參考文獻(xiàn) 1李宇帆,張會(huì)福,劉上力,等.教育數(shù)據(jù)挖掘研究進(jìn)展J.計(jì)算機(jī)工程與應(yīng)用,2019,55(14):15-23. 2HUANGZY,LIUQ,CHENEH,etal.Ques-tionDifficultyPredictionforREADINGProblemsinStandardTests/Procofthe31stAAAIConferenceonArtificialIntelligence.PaloAlto,USA:AAAIPress,2

11、017:1352-1359. 3WURZ,XUGD,CHENEH,etal.Knowl-edgeorGaming?CognitiveModellingBasedonMulti-ple-AttemptResponse/Procofthe26thInternationalWorldWideWebConferenceNewYork,USA:ACM,2017:321-329. 4王超,劉淇,陳恩紅,等.面向大規(guī)模認(rèn)知診斷的DINA模型快速計(jì)算方法研究J.電子學(xué)報(bào),2018(5):1047-1055. 5朱天宇,黃振亞,陳恩紅,等.基于認(rèn)知診斷的個(gè)性化試題推薦方法J.計(jì)算機(jī)學(xué)報(bào),2017,40(1):176-191. 6劉淇,汪飛,王新.教育資源的深度表征與智能應(yīng)用J.人工智能,2019(3):45-54. 7胡國(guó)平,張丹,蘇喻,等.試題知識(shí)點(diǎn)預(yù)測(cè):一種教研知識(shí)強(qiáng)化的卷積神經(jīng)網(wǎng)絡(luò)模型J.中文信息學(xué)報(bào),2018,32(5):137-146. 8WURZ,LIUQ,LIUYP,etal.CognitiveModellingforPredictingExaminee

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論