關(guān)聯(lián)規(guī)則Apriori算法在個(gè)性化學(xué)習(xí)系統(tǒng)中的應(yīng)用研究_第1頁
關(guān)聯(lián)規(guī)則Apriori算法在個(gè)性化學(xué)習(xí)系統(tǒng)中的應(yīng)用研究_第2頁
關(guān)聯(lián)規(guī)則Apriori算法在個(gè)性化學(xué)習(xí)系統(tǒng)中的應(yīng)用研究_第3頁
關(guān)聯(lián)規(guī)則Apriori算法在個(gè)性化學(xué)習(xí)系統(tǒng)中的應(yīng)用研究_第4頁
關(guān)聯(lián)規(guī)則Apriori算法在個(gè)性化學(xué)習(xí)系統(tǒng)中的應(yīng)用研究_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 關(guān)聯(lián)規(guī)則Apriori算法在個(gè)性化學(xué)習(xí)系統(tǒng)中的應(yīng)用研究 繆廣寒摘 要 關(guān)聯(lián)算法是實(shí)現(xiàn)學(xué)習(xí)系統(tǒng)的個(gè)性化、自主化的有效工具,利用Apriori算法我們可以在學(xué)習(xí)系統(tǒng)中尋找到學(xué)生的學(xué)習(xí)規(guī)律,進(jìn)而實(shí)現(xiàn)個(gè)性化的學(xué)習(xí)推薦,是為個(gè)性化學(xué)習(xí)系統(tǒng)不可取少的功能模塊。Key Apriori算法;個(gè)性化學(xué)習(xí)系統(tǒng);AprioriTid算法;數(shù)據(jù)挖掘:TP311 :A :1671-7597(2014)05-0047-02目前,眾多的學(xué)習(xí)系統(tǒng)大多類似,主要表現(xiàn)在:通用型較多,有專業(yè)特色的開發(fā)者少;理論類多,實(shí)踐類少;大眾類多,個(gè)性化少。而對于目前的個(gè)性化系統(tǒng)來說,由于缺乏一個(gè)可以量化的個(gè)性化的標(biāo)準(zhǔn),所以在具體實(shí)現(xiàn)上很難

2、真正的實(shí)現(xiàn)個(gè)性化學(xué)習(xí),即在內(nèi)容上、模塊上、結(jié)構(gòu)上很難有較為系統(tǒng)、全面、高質(zhì)量的系統(tǒng)出現(xiàn)。同時(shí),人們的網(wǎng)絡(luò)學(xué)習(xí)已經(jīng)不再滿足于傳統(tǒng)書本的電子化。交互性、自主性、個(gè)性、多元化等各種學(xué)習(xí)特征急需實(shí)現(xiàn)。因此,許多教育學(xué)者協(xié)同學(xué)習(xí)系統(tǒng)開發(fā)者們都不斷投入到個(gè)性化學(xué)習(xí)系統(tǒng)中的個(gè)性化的開發(fā)建設(shè)中去,希望能在技術(shù)層面解決個(gè)性化需求與海量學(xué)習(xí)資源之間的矛盾,實(shí)時(shí)給網(wǎng)絡(luò)學(xué)習(xí)者個(gè)性化的學(xué)習(xí)指導(dǎo),實(shí)現(xiàn)真正的因材施教。基于上述問題的解決,本文構(gòu)建設(shè)計(jì)了一個(gè)課外體育的個(gè)性化學(xué)習(xí)系統(tǒng),并利用數(shù)據(jù)挖掘技術(shù)中Apriori算法來改進(jìn)當(dāng)前的個(gè)性化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)模式,對每一個(gè)網(wǎng)絡(luò)學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)進(jìn)程。1 個(gè)性化學(xué)習(xí)系統(tǒng)及其技術(shù)支

3、持個(gè)性化學(xué)習(xí)是指根據(jù)學(xué)習(xí)者的個(gè)性特征實(shí)施教育活動(dòng),充分發(fā)揮學(xué)習(xí)者的主動(dòng)性,促進(jìn)學(xué)生全面、自由、協(xié)調(diào)的發(fā)展,從而進(jìn)一步發(fā)展學(xué)生的個(gè)性和潛能激發(fā)。個(gè)性化學(xué)習(xí)是一種創(chuàng)造性、實(shí)踐性和探索性的學(xué)習(xí)方式,它的根本目標(biāo)是讓每個(gè)學(xué)生獲得個(gè)性發(fā)展,實(shí)現(xiàn)個(gè)性化學(xué)習(xí)的關(guān)鍵主要是看個(gè)性化系統(tǒng)能否適應(yīng)學(xué)生的個(gè)性化差異,其中包括學(xué)生的學(xué)習(xí)能力的差異、學(xué)習(xí)興趣的差異、學(xué)習(xí)適應(yīng)性差異和學(xué)習(xí)經(jīng)驗(yàn)差異。為了滿足學(xué)習(xí)者個(gè)性化、自主式學(xué)習(xí)要求,網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)平臺(tái)也在不斷的發(fā)展改進(jìn),以各種技術(shù)支撐的學(xué)習(xí)系統(tǒng)應(yīng)運(yùn)而生,如自適應(yīng)學(xué)習(xí)系統(tǒng)、課程點(diǎn)播系統(tǒng)系統(tǒng)、課程視頻會(huì)議等,還有以建設(shè)個(gè)性化學(xué)習(xí)環(huán)境為主的WEB2.0技術(shù),RSS聚合技術(shù)、Aja

4、x技術(shù)、Ontology本體檢索技術(shù)、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)庫技術(shù)等應(yīng)運(yùn)而生??梢哉f從國家到學(xué)校,各種相關(guān)研究和投入已經(jīng)多有嘗試,頗具規(guī)模。要實(shí)現(xiàn)學(xué)習(xí)系統(tǒng)個(gè)性關(guān)鍵在于從信息資源的海洋中得到關(guān)于學(xué)習(xí)者對系統(tǒng)資源使用模式的相關(guān)知識,并進(jìn)一步結(jié)合這些知識根據(jù)學(xué)習(xí)者的個(gè)人興趣特征實(shí)現(xiàn)對學(xué)習(xí)者的個(gè)性化推薦,提供相應(yīng)資源。目前這些功能的實(shí)現(xiàn)主要采用數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)。其中,關(guān)聯(lián)規(guī)則就是數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要分析模式。1.1 關(guān)聯(lián)規(guī)則數(shù)據(jù)關(guān)聯(lián)是指數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。如果兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就可稱之為關(guān)聯(lián)。數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則實(shí)在滿足一定支持度和置信度算法的同時(shí)在事務(wù)數(shù)據(jù)

5、庫數(shù)量龐大的關(guān)聯(lián)規(guī)則中找到強(qiáng)規(guī)則。Apriori算法是一個(gè)典型的關(guān)聯(lián)規(guī)則算法 ,也稱廣度優(yōu)先算法。是R Agrawal和R Srikant 于1994年提出的。1.2 Apriori算法Apriori算法的基本思想是:1)找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣;2)從頻繁項(xiàng)集發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則。從一開始找到的頻繁項(xiàng)集的規(guī)則中找出只包含集合的項(xiàng)的所有規(guī)則。掃描項(xiàng)集,使用遞歸的方法找出所有頻繁項(xiàng)集,為了生成所有頻集,使用了遞歸的方法。具體算法偽代碼如下:Input:數(shù)據(jù)庫D;最小支持度MinSuport_count。Output:數(shù)據(jù)庫D中的頻繁項(xiàng)集I。Begina、獲得所有

6、支持度不小于 MinSupport的1-項(xiàng)目集Im=large1-Itemsets;b、找出數(shù)據(jù)庫D 中所有的頻繁項(xiàng)集IFOR(k=2;Ik-1;k+)DOCk=apriori_gen(Ik-1);FOR 所有transactions l D DOCt=subset(CK,t);FOR 所有候選 cCt DOc.count+ENDENDIk= c Ck|c.countMinSuport_countENDI=IkEnd其中,apriori_gen(Ik-1)算法按照上一次迭代發(fā)現(xiàn)新的候選項(xiàng)集,分為鏈接和修剪兩個(gè)部分。具體描述如下:1.2.1 鏈接BeginFOR 所有項(xiàng)目集 pLk-1 DOFO

7、R 所有項(xiàng)目集 qLk-1 DOIF p.item1=q.item1,p.item2=q.item2p.itemk-2=q.itemk-2, p.itemk-1=q.itemk-1, THEN C=pq; /鏈接,產(chǎn)生候選集IF has_infrequent_subset(c,Ik-1) THENDelete c; / 修剪。去掉無用候選項(xiàng)ELSE add c to CkReturn CkEnd1.2.2 修剪在上述算法中,語句“IF has_infrequent_subset(c,Lk-1) THEN刪除”是判斷c 是否需要加入到 k-候選集中,不需要就修剪掉。endprintBeginFO

8、R each (k-1)-subsets of c DOIF S ? Ik-1 THENReturn true;Return False;ENDEnd2 使用Apriori 算法獲得學(xué)習(xí)者的學(xué)習(xí)規(guī)則關(guān)聯(lián)規(guī)則挖掘算法可以應(yīng)用在學(xué)生的成績分析上,如知識點(diǎn)與測試成績之間函數(shù)關(guān)系。通過對籃球課程的活動(dòng)記錄與相應(yīng)的測試成績的數(shù)據(jù)分析,我們可以找到一些對今后指導(dǎo)學(xué)生課外學(xué)習(xí)的有用規(guī)律。其具體流程如下。2.1 整理數(shù)據(jù)學(xué)生的學(xué)習(xí)記錄庫中記錄了學(xué)生的個(gè)人信息與基本學(xué)習(xí)過程信息。如學(xué)生姓名、學(xué)號、學(xué)習(xí)風(fēng)格、學(xué)習(xí)時(shí)間、學(xué)習(xí)路徑、測試成績等內(nèi)容。整理數(shù)據(jù)的目的是為了使學(xué)生的數(shù)據(jù)記錄等符合Apriori算法所需的項(xiàng)目

9、集開展數(shù)據(jù)挖掘,首先需要將關(guān)系表轉(zhuǎn)換成相應(yīng)的事務(wù)數(shù)據(jù)庫。2.2 生成事物數(shù)據(jù)庫選擇自主學(xué)習(xí)內(nèi)容,以代碼代替2.3 生成頻繁項(xiàng)集通過以上的對應(yīng)抽象,我們可知事務(wù)集,假設(shè)最小支持度為25%,使用Apriori算法尋找D的所有頻繁項(xiàng)集。2.4 關(guān)聯(lián)規(guī)則生成在Apriori算法中,對于每一個(gè)頻繁k-項(xiàng)集都要找出其中所有可能的真子集,計(jì)算出相應(yīng)規(guī)則的置信度。當(dāng)我們發(fā)現(xiàn)某一規(guī)則的置信度大于設(shè)定的最小置信度就導(dǎo)出該規(guī)則。其中,每驗(yàn)證一個(gè)項(xiàng)子集都要重新掃描一遍Ik-1。在對某學(xué)生的籃球?qū)W習(xí)記錄中分析,最小置信度閾值設(shè)置為75%則可以發(fā)現(xiàn)強(qiáng)規(guī)則I01I08I03。此規(guī)則告訴我們發(fā)現(xiàn)如果某生的運(yùn)球技能與防守戰(zhàn)術(shù)同

10、時(shí)成績優(yōu)秀,則發(fā)現(xiàn)的該生在實(shí)踐活動(dòng)中的投籃技能成績也一般為優(yōu)秀。通過該例,我們可以發(fā)現(xiàn)數(shù)據(jù)關(guān)聯(lián)算法可以發(fā)現(xiàn)學(xué)生學(xué)習(xí)中的一些隱藏的學(xué)習(xí)規(guī)律,而這些規(guī)律正好可供學(xué)習(xí)系統(tǒng)給學(xué)習(xí)者提供下一步個(gè)性化學(xué)習(xí)方案。3 多項(xiàng)目集的Apriori算法改進(jìn)我們發(fā)現(xiàn),由于Apriori算法對數(shù)據(jù)庫的掃描次數(shù)過多,所以在有限的內(nèi)存容量下存放大量的事務(wù)數(shù)據(jù)時(shí),系統(tǒng)I/O負(fù)載會(huì)變大,每次掃描數(shù)據(jù)庫的時(shí)間就會(huì)越長。此外,如果學(xué)習(xí)系統(tǒng)中某一課程的知識節(jié)點(diǎn)太多而導(dǎo)致分析的頻繁項(xiàng)集個(gè)數(shù)太多會(huì)產(chǎn)生大量的侯選項(xiàng)集。這會(huì)導(dǎo)致運(yùn)算時(shí)間顯著增加。所以根據(jù)不同的課程,我們可以改進(jìn)Apriori算法,采用減低候選項(xiàng)目數(shù)量的方法,我們稱之為Apr

11、ioriTid。此算法無需此次掃描數(shù)據(jù)庫,當(dāng)?shù)谝淮螔呙钄?shù)據(jù)庫之后,第二次只需要掃描前一次產(chǎn)生的項(xiàng)目集而不再需要完全的掃描數(shù)據(jù)庫,這樣就可以有效的減少了I/O負(fù)載和數(shù)據(jù)運(yùn)算時(shí)間。具體改進(jìn)為在事務(wù)集TID中。當(dāng)k=1時(shí),C1掃描數(shù)據(jù)庫D,C1=數(shù)據(jù)庫D,但當(dāng)k1時(shí),有算法產(chǎn)生Ck,Ck=apriori-gen(Lk-1)。此外,我們還可以在AprioriTid的基礎(chǔ)上通過把項(xiàng)目集中一些無關(guān)的屬性先去掉以及通過把兩個(gè)元素結(jié)合在一起組成一個(gè)新屬性的辦法來減少工作量,又或者在產(chǎn)生頻繁k-項(xiàng)集以后去掉一些非頻繁項(xiàng)集來簡化掃描時(shí)間。以上兩種方法的結(jié)合使用類似于矩陣中逐漸去掉行與列。4 現(xiàn)存的問題與思考利用A

12、priori算法與AprioriTid算法,我們可以有效的挖掘出個(gè)性化學(xué)習(xí)中學(xué)習(xí)者的學(xué)習(xí)關(guān)聯(lián),掌握學(xué)生的學(xué)習(xí)動(dòng)態(tài),進(jìn)而更深入了了解學(xué)生的學(xué)習(xí)規(guī)律與特點(diǎn)。但是在分布式計(jì)算與學(xué)習(xí)增量的情況下,我們不得不需要進(jìn)一步地改進(jìn)算法,以適合當(dāng)前及未來的個(gè)性化學(xué)習(xí)系統(tǒng)發(fā)展的趨勢。Reference1劉美玲.基于數(shù)據(jù)挖掘技術(shù)的個(gè)性化學(xué)習(xí)系統(tǒng)研究D.揚(yáng)州:揚(yáng)州大學(xué),2009.2盛立,高明,劉希玉.一種高效的關(guān)聯(lián)規(guī)則的算法研究J.濱州學(xué)院學(xué)報(bào),2005(12).3盛立,劉希玉,高明.數(shù)據(jù)關(guān)聯(lián)規(guī)則中AprioriTidJ.山東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(10).4李曼.Web日志挖掘技術(shù)在心靈家園網(wǎng)中的應(yīng)用

13、研究D.河南:河南大學(xué),2013.5何月順.關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用D.江蘇:南京航空航天大學(xué),2010.6王志強(qiáng).基于遠(yuǎn)程教育網(wǎng)站的信息采集與數(shù)據(jù)挖掘技術(shù)研究D.上海:華東師范大學(xué),2007.endprintBeginFOR each (k-1)-subsets of c DOIF S ? Ik-1 THENReturn true;Return False;ENDEnd2 使用Apriori 算法獲得學(xué)習(xí)者的學(xué)習(xí)規(guī)則關(guān)聯(lián)規(guī)則挖掘算法可以應(yīng)用在學(xué)生的成績分析上,如知識點(diǎn)與測試成績之間函數(shù)關(guān)系。通過對籃球課程的活動(dòng)記錄與相應(yīng)的測試成績的數(shù)據(jù)分析,我們可以找到一些對今后指導(dǎo)學(xué)生課外學(xué)習(xí)的有用規(guī)

14、律。其具體流程如下。2.1 整理數(shù)據(jù)學(xué)生的學(xué)習(xí)記錄庫中記錄了學(xué)生的個(gè)人信息與基本學(xué)習(xí)過程信息。如學(xué)生姓名、學(xué)號、學(xué)習(xí)風(fēng)格、學(xué)習(xí)時(shí)間、學(xué)習(xí)路徑、測試成績等內(nèi)容。整理數(shù)據(jù)的目的是為了使學(xué)生的數(shù)據(jù)記錄等符合Apriori算法所需的項(xiàng)目集開展數(shù)據(jù)挖掘,首先需要將關(guān)系表轉(zhuǎn)換成相應(yīng)的事務(wù)數(shù)據(jù)庫。2.2 生成事物數(shù)據(jù)庫選擇自主學(xué)習(xí)內(nèi)容,以代碼代替2.3 生成頻繁項(xiàng)集通過以上的對應(yīng)抽象,我們可知事務(wù)集,假設(shè)最小支持度為25%,使用Apriori算法尋找D的所有頻繁項(xiàng)集。2.4 關(guān)聯(lián)規(guī)則生成在Apriori算法中,對于每一個(gè)頻繁k-項(xiàng)集都要找出其中所有可能的真子集,計(jì)算出相應(yīng)規(guī)則的置信度。當(dāng)我們發(fā)現(xiàn)某一規(guī)則的置

15、信度大于設(shè)定的最小置信度就導(dǎo)出該規(guī)則。其中,每驗(yàn)證一個(gè)項(xiàng)子集都要重新掃描一遍Ik-1。在對某學(xué)生的籃球?qū)W習(xí)記錄中分析,最小置信度閾值設(shè)置為75%則可以發(fā)現(xiàn)強(qiáng)規(guī)則I01I08I03。此規(guī)則告訴我們發(fā)現(xiàn)如果某生的運(yùn)球技能與防守戰(zhàn)術(shù)同時(shí)成績優(yōu)秀,則發(fā)現(xiàn)的該生在實(shí)踐活動(dòng)中的投籃技能成績也一般為優(yōu)秀。通過該例,我們可以發(fā)現(xiàn)數(shù)據(jù)關(guān)聯(lián)算法可以發(fā)現(xiàn)學(xué)生學(xué)習(xí)中的一些隱藏的學(xué)習(xí)規(guī)律,而這些規(guī)律正好可供學(xué)習(xí)系統(tǒng)給學(xué)習(xí)者提供下一步個(gè)性化學(xué)習(xí)方案。3 多項(xiàng)目集的Apriori算法改進(jìn)我們發(fā)現(xiàn),由于Apriori算法對數(shù)據(jù)庫的掃描次數(shù)過多,所以在有限的內(nèi)存容量下存放大量的事務(wù)數(shù)據(jù)時(shí),系統(tǒng)I/O負(fù)載會(huì)變大,每次掃描數(shù)據(jù)庫的

16、時(shí)間就會(huì)越長。此外,如果學(xué)習(xí)系統(tǒng)中某一課程的知識節(jié)點(diǎn)太多而導(dǎo)致分析的頻繁項(xiàng)集個(gè)數(shù)太多會(huì)產(chǎn)生大量的侯選項(xiàng)集。這會(huì)導(dǎo)致運(yùn)算時(shí)間顯著增加。所以根據(jù)不同的課程,我們可以改進(jìn)Apriori算法,采用減低候選項(xiàng)目數(shù)量的方法,我們稱之為AprioriTid。此算法無需此次掃描數(shù)據(jù)庫,當(dāng)?shù)谝淮螔呙钄?shù)據(jù)庫之后,第二次只需要掃描前一次產(chǎn)生的項(xiàng)目集而不再需要完全的掃描數(shù)據(jù)庫,這樣就可以有效的減少了I/O負(fù)載和數(shù)據(jù)運(yùn)算時(shí)間。具體改進(jìn)為在事務(wù)集TID中。當(dāng)k=1時(shí),C1掃描數(shù)據(jù)庫D,C1=數(shù)據(jù)庫D,但當(dāng)k1時(shí),有算法產(chǎn)生Ck,Ck=apriori-gen(Lk-1)。此外,我們還可以在AprioriTid的基礎(chǔ)上通過把

17、項(xiàng)目集中一些無關(guān)的屬性先去掉以及通過把兩個(gè)元素結(jié)合在一起組成一個(gè)新屬性的辦法來減少工作量,又或者在產(chǎn)生頻繁k-項(xiàng)集以后去掉一些非頻繁項(xiàng)集來簡化掃描時(shí)間。以上兩種方法的結(jié)合使用類似于矩陣中逐漸去掉行與列。4 現(xiàn)存的問題與思考利用Apriori算法與AprioriTid算法,我們可以有效的挖掘出個(gè)性化學(xué)習(xí)中學(xué)習(xí)者的學(xué)習(xí)關(guān)聯(lián),掌握學(xué)生的學(xué)習(xí)動(dòng)態(tài),進(jìn)而更深入了了解學(xué)生的學(xué)習(xí)規(guī)律與特點(diǎn)。但是在分布式計(jì)算與學(xué)習(xí)增量的情況下,我們不得不需要進(jìn)一步地改進(jìn)算法,以適合當(dāng)前及未來的個(gè)性化學(xué)習(xí)系統(tǒng)發(fā)展的趨勢。Reference1劉美玲.基于數(shù)據(jù)挖掘技術(shù)的個(gè)性化學(xué)習(xí)系統(tǒng)研究D.揚(yáng)州:揚(yáng)州大學(xué),2009.2盛立,高明,

18、劉希玉.一種高效的關(guān)聯(lián)規(guī)則的算法研究J.濱州學(xué)院學(xué)報(bào),2005(12).3盛立,劉希玉,高明.數(shù)據(jù)關(guān)聯(lián)規(guī)則中AprioriTidJ.山東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(10).4李曼.Web日志挖掘技術(shù)在心靈家園網(wǎng)中的應(yīng)用研究D.河南:河南大學(xué),2013.5何月順.關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用D.江蘇:南京航空航天大學(xué),2010.6王志強(qiáng).基于遠(yuǎn)程教育網(wǎng)站的信息采集與數(shù)據(jù)挖掘技術(shù)研究D.上海:華東師范大學(xué),2007.endprintBeginFOR each (k-1)-subsets of c DOIF S ? Ik-1 THENReturn true;Return False;END

19、End2 使用Apriori 算法獲得學(xué)習(xí)者的學(xué)習(xí)規(guī)則關(guān)聯(lián)規(guī)則挖掘算法可以應(yīng)用在學(xué)生的成績分析上,如知識點(diǎn)與測試成績之間函數(shù)關(guān)系。通過對籃球課程的活動(dòng)記錄與相應(yīng)的測試成績的數(shù)據(jù)分析,我們可以找到一些對今后指導(dǎo)學(xué)生課外學(xué)習(xí)的有用規(guī)律。其具體流程如下。2.1 整理數(shù)據(jù)學(xué)生的學(xué)習(xí)記錄庫中記錄了學(xué)生的個(gè)人信息與基本學(xué)習(xí)過程信息。如學(xué)生姓名、學(xué)號、學(xué)習(xí)風(fēng)格、學(xué)習(xí)時(shí)間、學(xué)習(xí)路徑、測試成績等內(nèi)容。整理數(shù)據(jù)的目的是為了使學(xué)生的數(shù)據(jù)記錄等符合Apriori算法所需的項(xiàng)目集開展數(shù)據(jù)挖掘,首先需要將關(guān)系表轉(zhuǎn)換成相應(yīng)的事務(wù)數(shù)據(jù)庫。2.2 生成事物數(shù)據(jù)庫選擇自主學(xué)習(xí)內(nèi)容,以代碼代替2.3 生成頻繁項(xiàng)集通過以上的對應(yīng)抽象

20、,我們可知事務(wù)集,假設(shè)最小支持度為25%,使用Apriori算法尋找D的所有頻繁項(xiàng)集。2.4 關(guān)聯(lián)規(guī)則生成在Apriori算法中,對于每一個(gè)頻繁k-項(xiàng)集都要找出其中所有可能的真子集,計(jì)算出相應(yīng)規(guī)則的置信度。當(dāng)我們發(fā)現(xiàn)某一規(guī)則的置信度大于設(shè)定的最小置信度就導(dǎo)出該規(guī)則。其中,每驗(yàn)證一個(gè)項(xiàng)子集都要重新掃描一遍Ik-1。在對某學(xué)生的籃球?qū)W習(xí)記錄中分析,最小置信度閾值設(shè)置為75%則可以發(fā)現(xiàn)強(qiáng)規(guī)則I01I08I03。此規(guī)則告訴我們發(fā)現(xiàn)如果某生的運(yùn)球技能與防守戰(zhàn)術(shù)同時(shí)成績優(yōu)秀,則發(fā)現(xiàn)的該生在實(shí)踐活動(dòng)中的投籃技能成績也一般為優(yōu)秀。通過該例,我們可以發(fā)現(xiàn)數(shù)據(jù)關(guān)聯(lián)算法可以發(fā)現(xiàn)學(xué)生學(xué)習(xí)中的一些隱藏的學(xué)習(xí)規(guī)律,而這些規(guī)律正好可供學(xué)習(xí)系統(tǒng)給學(xué)習(xí)者提供下一步個(gè)性化學(xué)習(xí)方案。3 多項(xiàng)目集的Apriori算法改進(jìn)我們發(fā)現(xiàn),由于Apriori算法對數(shù)據(jù)庫的掃描次數(shù)過多,所以在有限的內(nèi)存容量下存放大量的事務(wù)數(shù)據(jù)時(shí),系統(tǒng)I/O負(fù)載會(huì)變大,每次掃描數(shù)據(jù)庫的時(shí)間就會(huì)越長。此外,如果學(xué)習(xí)系統(tǒng)中某一課程的知識節(jié)點(diǎn)太多而導(dǎo)致分析的頻繁項(xiàng)集個(gè)數(shù)太多會(huì)產(chǎn)生大量的侯選項(xiàng)集。這會(huì)導(dǎo)致運(yùn)算時(shí)間顯著增加。所以根據(jù)不同的課程,我們可以改進(jìn)Apriori算法,采用減低候選項(xiàng)目數(shù)量的方法,我們稱之為AprioriTid。此算法無需此次掃描數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論