教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究

上傳人：瑪*** IP屬地：四川上傳時(shí)間：2021-08-19 格式：DOC 頁(yè)數(shù)：6 大小：21.50KB 積分：9.6 舉報(bào) 版權(quán)申訴

教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第2頁(yè)

教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第3頁(yè)

教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第4頁(yè)

教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究_第5頁(yè)

已閱讀5頁(yè)，還剩1頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究【摘要】基于教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)應(yīng)用，從試題表征、知識(shí)點(diǎn)標(biāo)注、試題難度預(yù)測(cè)、學(xué)生認(rèn)知診斷和個(gè)性化推薦5個(gè)方面的應(yīng)用進(jìn)行闡述，分析它們?cè)谀壳笆褂弥械年P(guān)鍵技術(shù)、優(yōu)勢(shì)和不足，并對(duì)教育數(shù)據(jù)挖掘領(lǐng)域發(fā)展趨勢(shì)進(jìn)行展望。【關(guān)鍵詞】教育數(shù)據(jù)挖掘；知識(shí)點(diǎn)標(biāo)注；試題難度預(yù)測(cè)；學(xué)生認(rèn)知診斷；個(gè)性化推薦隨著教育信息化進(jìn)程不斷深入推進(jìn)，人們的學(xué)習(xí)方式從線下轉(zhuǎn)到線上，由此產(chǎn)生的教育數(shù)據(jù)量非常巨大，如何利用海量的教育數(shù)據(jù)資源，已然成為當(dāng)前亟需解決的重要課題。教育數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而成，旨在有效幫助學(xué)生學(xué)習(xí)1，然而教育數(shù)據(jù)資源具有異構(gòu)性、隱含性和不可比性，導(dǎo)致數(shù)據(jù)挖掘非常困難，因而，對(duì)教育數(shù)據(jù)挖掘

2、技術(shù)進(jìn)行深入研究具有重要意義?，F(xiàn)從試題表征、知識(shí)點(diǎn)標(biāo)注、試題難度預(yù)測(cè)、學(xué)生認(rèn)知診斷和個(gè)性化推薦5個(gè)方面的關(guān)鍵技術(shù)應(yīng)用進(jìn)行介紹，分析它們目前使用的關(guān)鍵技術(shù)、優(yōu)缺點(diǎn)和發(fā)展趨勢(shì)。 1關(guān)鍵技術(shù)應(yīng)用 1.1試題表征相關(guān)技術(shù)。對(duì)于學(xué)習(xí)，試題永遠(yuǎn)是最常見(jiàn)，也是非常重要的一種表現(xiàn)形式，對(duì)教育數(shù)據(jù)進(jìn)行挖掘的第一件事情就是需要對(duì)試題進(jìn)行表征，目前試題主要由文本、圖片、視頻等多種異構(gòu)數(shù)據(jù)形式組成，不同的數(shù)據(jù)形式，采用的表征技術(shù)也各不相同。文本資源主要采用詞袋和詞向量?jī)煞N模型。典型模型有word2vec、ELMo和BERT等。針對(duì)知識(shí)點(diǎn)資源主要采用One-hot表征、知識(shí)圖譜表征技術(shù)。針對(duì)圖片資源主要采用基于卷積神經(jīng)

3、網(wǎng)絡(luò)（ConvolutionalNeuralNetwork,CNN）框架。1.2知識(shí)點(diǎn)標(biāo)注。試題的知識(shí)點(diǎn)是描述試題用到的知識(shí)，知識(shí)點(diǎn)的標(biāo)注是構(gòu)建題庫(kù)和個(gè)性化推薦的基礎(chǔ)。試題知識(shí)點(diǎn)標(biāo)注常用方法：一是人工標(biāo)注，對(duì)標(biāo)注人員的專業(yè)知識(shí)背景要求較高，耗時(shí)費(fèi)力。二是傳統(tǒng)機(jī)器學(xué)習(xí)方法，常用多標(biāo)簽分類方法，沒(méi)有考慮文本的深層語(yǔ)義，預(yù)測(cè)效果欠佳，對(duì)標(biāo)注語(yǔ)料少的知識(shí)點(diǎn)的表現(xiàn)不好。三是深度學(xué)習(xí)，雖然能夠很好地提取文本的深層次語(yǔ)義特征，但沒(méi)有加入先驗(yàn)知識(shí)，不同專業(yè)領(lǐng)域的知識(shí)無(wú)法融合，數(shù)據(jù)不平衡問(wèn)題嚴(yán)重。1.3試題難度預(yù)測(cè)。試題難度的評(píng)估和預(yù)測(cè)是教育數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要的研究課題，其思路是讓學(xué)生做題，對(duì)于某道試題來(lái)說(shuō)

4、，答錯(cuò)的學(xué)生越多，該試題越難。該做法需要學(xué)生事先做完試題，事后針對(duì)答題情況進(jìn)行計(jì)算分析得出該試題難度。然而，有的時(shí)候需要提前對(duì)試題的難度進(jìn)行評(píng)估。例如，對(duì)于標(biāo)準(zhǔn)化測(cè)試（如：高考、CET等），需要考試之前對(duì)試題進(jìn)行難度的初步預(yù)測(cè)。傳統(tǒng)的方法多數(shù)采取人工評(píng)估，該方法存在專家主觀性強(qiáng)、費(fèi)時(shí)費(fèi)力的問(wèn)題，沒(méi)有利用試題的文本特征。基于此，黃振亞2等人提出基于試題文本的難度預(yù)測(cè)框架（Test-AwareAttention-BasedConvolutionalNeuralNetwork，TACNN）。1.4學(xué)生認(rèn)知診斷。認(rèn)知診斷模型是通過(guò)對(duì)學(xué)生作答情況，了解學(xué)生對(duì)知識(shí)水平掌握的情況，由此進(jìn)行個(gè)性化學(xué)習(xí)和資源推

5、薦。常見(jiàn)的認(rèn)知診斷模型包括IRT（ItemResponseTheory）和DINA（deterministicinputs,noisy“and”gate）模型。傳統(tǒng)DINA模型只適用于客觀題，不能對(duì)主觀題的答題情況進(jìn)行分析。如果作答學(xué)生存在游戲心理，通過(guò)該模型診斷出來(lái)的學(xué)生能力就不夠客觀和準(zhǔn)確。隨后，Wu3等人在此基礎(chǔ)上，又提出知識(shí)加猜測(cè)反應(yīng)模型（KnowledgePlusGamingResponseModel，KPGRM），該模型通過(guò)基于聚合P值的方法多次對(duì)作答學(xué)生的游戲心理進(jìn)行認(rèn)知診斷，診斷準(zhǔn)確性明顯提高。在大數(shù)據(jù)時(shí)代，需要處理大規(guī)模數(shù)據(jù)，傳統(tǒng)DINA模型計(jì)算效率很差。針對(duì)DINA模型計(jì)算

6、時(shí)間過(guò)長(zhǎng)的問(wèn)題，王超4等人對(duì)原始DINA模型中的EM算法進(jìn)行了改進(jìn)，提出了基于增量DINA模型，有效提高了計(jì)算效率。1.5個(gè)性化推薦。個(gè)性化推薦是實(shí)現(xiàn)個(gè)性化教育的第一步，是教育數(shù)據(jù)挖掘領(lǐng)域非常重要的應(yīng)用之一。近年來(lái)，有學(xué)者將基于協(xié)同過(guò)濾推薦技術(shù)應(yīng)用到試題推薦當(dāng)中，取得了一定的效果，但該方法只關(guān)注分?jǐn)?shù)相近學(xué)生間的相似度和試題間的相似度，沒(méi)有涉及知識(shí)點(diǎn)信息，由此推薦的結(jié)果解釋性不強(qiáng)，合理性欠缺。為了解決以上問(wèn)題，朱天宇5等人提出了一種結(jié)合概率矩陣分解（PMF）和認(rèn)知診斷的個(gè)性化試題推薦方法PMF-CD，該方法通過(guò)對(duì)學(xué)生掌握的知識(shí)點(diǎn)與試題考察的知識(shí)點(diǎn)進(jìn)行聯(lián)合分析來(lái)進(jìn)行試題推薦。 2問(wèn)題與發(fā)展趨勢(shì) 教

7、育數(shù)據(jù)挖掘領(lǐng)域發(fā)展至今，雖然在某些領(lǐng)域取得了較大的進(jìn)步，但是仍然有很多沒(méi)有解決的問(wèn)題，現(xiàn)就主要的問(wèn)題及未來(lái)發(fā)展趨勢(shì)總結(jié)如下。2.1問(wèn)題。2.1.1大量未標(biāo)記的資源沒(méi)有被利用。近年來(lái)產(chǎn)生了大量的教育資源數(shù)據(jù)，然而教育資源數(shù)據(jù)的屬性標(biāo)注較少，大量未標(biāo)記的資源沒(méi)有得到充分的利用。因此，如何有效利用這些未標(biāo)記的資源，是機(jī)器學(xué)習(xí)方法在教育數(shù)據(jù)挖掘中不可避免的問(wèn)題。2.1.2知識(shí)點(diǎn)標(biāo)注權(quán)重相同問(wèn)題。目前知識(shí)點(diǎn)標(biāo)注方法中，不管是人工標(biāo)注，還是采取一些算法自動(dòng)完成標(biāo)注，都只是簡(jiǎn)單地把知識(shí)點(diǎn)標(biāo)注出來(lái)，事實(shí)上對(duì)于一道包含多個(gè)知識(shí)點(diǎn)的題目而言，不同的知識(shí)點(diǎn)的重要程度是不一樣的，如果能將此道題目與知識(shí)點(diǎn)結(jié)合起來(lái)，會(huì)大

8、大提高解決問(wèn)題的能力，且對(duì)試題個(gè)性化推薦系統(tǒng)的性能好壞起到關(guān)鍵性的作用，因此，如何科學(xué)地對(duì)不同的知識(shí)點(diǎn)標(biāo)注設(shè)置合理的權(quán)重，是值得深入研究的問(wèn)題。2.1.3教育資源的表征、挖掘和應(yīng)用比較困難。例如表征問(wèn)題：目前試題表征都是基于不同的資源類型選擇不同表征技術(shù)。如：文本資源通常采用詞袋和詞向量技術(shù)；圖片資源通常選擇CNN框架等?，F(xiàn)實(shí)大量存在一道題中同時(shí)具有多種資源類型，例如一道數(shù)學(xué)幾何題，既有文字描述，又有公式和幾何圖形，他們之間有內(nèi)在的知識(shí)點(diǎn)和意義上的聯(lián)系。傳統(tǒng)的表征技術(shù)很難描述這種關(guān)聯(lián)關(guān)系，亟待找到一種方法能夠有效解決此類問(wèn)題。2.2發(fā)展趨勢(shì)。2.2.1無(wú)監(jiān)督表征。針對(duì)大量未標(biāo)記的資源沒(méi)有被利用

9、的問(wèn)題，設(shè)計(jì)有效的無(wú)監(jiān)督表征框架以解決大規(guī)模教育資源數(shù)據(jù)的標(biāo)注缺失問(wèn)題，具有極其重要的現(xiàn)實(shí)意義。2.2.2教育知識(shí)圖譜的結(jié)合。由于教育數(shù)據(jù)資源多源異構(gòu)性，導(dǎo)致教育資源的表征、挖掘和應(yīng)用非常困難，未來(lái)可以嘗試教育知識(shí)圖譜，并結(jié)合教育知識(shí)圖譜對(duì)異構(gòu)教育資源之間隱含邏輯關(guān)系的抽取和復(fù)雜語(yǔ)義結(jié)構(gòu)關(guān)聯(lián)的挖掘，或許能夠取得顯著的效果。 3結(jié)語(yǔ) 教育數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到教育數(shù)據(jù)領(lǐng)域，具有數(shù)據(jù)的異構(gòu)性、關(guān)系的隱含性和異構(gòu)數(shù)據(jù)之間的不可比性，造成了教育數(shù)據(jù)的表示、挖掘和應(yīng)用上的困難，未來(lái)依然是一塊充滿挑戰(zhàn)的研究領(lǐng)域，有許多問(wèn)題亟需深入探索和解決。從試題表征、知識(shí)點(diǎn)標(biāo)注、試題難度預(yù)測(cè)、學(xué)生認(rèn)知診斷和個(gè)性

10、化推薦5個(gè)方面應(yīng)用的關(guān)鍵技術(shù)進(jìn)行介紹，對(duì)比分析它們之間的優(yōu)勢(shì)和不足，提出目前依然面臨的問(wèn)題和未來(lái)發(fā)展的趨勢(shì)，旨在對(duì)后期進(jìn)一步深入研究起到基石的作用。參考文獻(xiàn) 1李宇帆,張會(huì)福,劉上力,等.教育數(shù)據(jù)挖掘研究進(jìn)展J.計(jì)算機(jī)工程與應(yīng)用,2019,55(14):15-23. 2HUANGZY，LIUQ，CHENEH，etal.Ques-tionDifficultyPredictionforREADINGProblemsinStandardTests/Procofthe31stAAAIConferenceonArtificialIntelligence.PaloAlto，USA:AAAIPress,2

11、017:1352-1359. 3WURZ，XUGD，CHENEH，etal.Knowl-edgeorGaming?CognitiveModellingBasedonMulti-ple-AttemptResponse/Procofthe26thInternationalWorldWideWebConferenceNewYork，USA:ACM，2017:321-329. 4王超,劉淇,陳恩紅,等.面向大規(guī)模認(rèn)知診斷的DINA模型快速計(jì)算方法研究J.電子學(xué)報(bào),2018(5):1047-1055. 5朱天宇,黃振亞,陳恩紅,等.基于認(rèn)知診斷的個(gè)性化試題推薦方法J.計(jì)算機(jī)學(xué)報(bào),2017,40(1):176-191. 6劉淇,汪飛,王新.教育資源的深度表征與智能應(yīng)用J.人工智能,2019(3):45-54. 7胡國(guó)平,張丹,蘇喻,等.試題知識(shí)點(diǎn)預(yù)測(cè)：一種教研知識(shí)強(qiáng)化的卷積神經(jīng)網(wǎng)絡(luò)模型J.中文信息學(xué)報(bào),2018,32(5):137-146. 8WURZ，LIUQ，LIUYP，etal.CognitiveModellingforPredictingExaminee

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

教育數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔