利用K-means聚類(lèi)分析技術(shù)分析學(xué)生成績(jī)_第1頁(yè)
利用K-means聚類(lèi)分析技術(shù)分析學(xué)生成績(jī)_第2頁(yè)
利用K-means聚類(lèi)分析技術(shù)分析學(xué)生成績(jī)_第3頁(yè)
利用K-means聚類(lèi)分析技術(shù)分析學(xué)生成績(jī)_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、利用K-means聚類(lèi)分析技術(shù)分析學(xué)生成績(jī)摘要:數(shù)據(jù)挖掘是在海量的數(shù)據(jù)中尋找模式或規(guī)則的過(guò)程。數(shù)據(jù)聚類(lèi)則是數(shù)據(jù)挖掘中的一項(xiàng)重要技術(shù),就是將數(shù)據(jù)對(duì)象劃分到不同的類(lèi)或者簇中,使得屬于同簇的數(shù)據(jù)對(duì)象相似性盡量大,而不同簇的數(shù)據(jù)對(duì)象相異性盡量大。目前數(shù)據(jù)挖掘技術(shù)在商業(yè)、金融業(yè)等方面都得到了廣泛的應(yīng)用,而在教育領(lǐng)域的應(yīng)用較少,隨著高校招生規(guī)模的擴(kuò)大,在校學(xué)生成績(jī)分布越來(lái)越復(fù)雜,除了傳統(tǒng)成績(jī)分析得到的一些結(jié)論外,還有一些不易發(fā)現(xiàn)的信息隱含其中,因而把數(shù)據(jù)挖掘技術(shù)引入到學(xué)生成績(jī)分析中,有利于針對(duì)性地提高教學(xué)質(zhì)量。本論文就是運(yùn)用數(shù)據(jù)挖掘中的聚類(lèi)分析學(xué)生成績(jī)的,利用學(xué)生在選擇專(zhuān)業(yè)前的各主要學(xué)科的成績(jī)構(gòu)成,對(duì)數(shù)據(jù)

2、進(jìn)行選擇,預(yù)處理,挖掘分析等。運(yùn)用聚類(lèi)算法分析學(xué)生對(duì)哪個(gè)專(zhuān)業(yè)的強(qiáng)弱選擇,從而為具有不同成績(jī)特征的同學(xué)在專(zhuān)業(yè)選擇及分專(zhuān)業(yè)后如何開(kāi)展學(xué)習(xí)提供一定的參考意見(jiàn)。關(guān)鍵字:數(shù)據(jù)挖掘聚類(lèi)分析學(xué)生成績(jī)分析Abstract:Dataminingisaprocessthatinthevastamountsofdatalookingforpatternsorrules.Dataclusteringisanimportantdataminingtechnologyforpeopletounderstandandexploretheinherentrelationshipbetweenthings.Clustering

3、istopartitiondataobjectsintodifferentcategories,orclusters,makingthesimilaritywiththeclustersofdataaslargeaspossible.Whilethedissimilarityofdifferentclustersofdataaslargeaspossible.Nowadaysdataminingtechnologyiswidelyusedinbusinessandfinance.Butitislessusedineducationfield.Withtheincreaseofenrollmen

4、tinuniversities,therearemoreandmorestudentsincampus,andthatmakesitmoreandmorecomplexinthedistributionofstudentsrecords.Besidessomeconclusionsfromtraditionalrecordanalysis,alotofpotentialinformationcannotbefounded.Importingthedataminingtechnologytostudentsrecordanalyzingmakesitmoreconvenientandimprov

5、etheteachingquality.Inthispaper,clusteringtechniqueindataminingisusedtostudentsperformanceanalysis,theuseofdatastructureofmainsubjectbeforethestudentsspecializedinchoiceofmode,pretreatmentanddatamining.Usingclusteringtechnologytoanalysewhichprofessionalstudentsaregoodat,soastochoosehowtolearnprofess

6、ionalandgivesomereferenceopinionsafterstudentsofdifferentgradeschoosetheirmajors.Keywords:DataMining,ClusteringTechnology,StudentsAchievement1 .概述1.1 背景隨著我國(guó)經(jīng)濟(jì)的發(fā)展,網(wǎng)絡(luò)已被應(yīng)用到各個(gè)行業(yè),人們對(duì)網(wǎng)絡(luò)帶來(lái)的高效率越來(lái)越重視,然而大量數(shù)據(jù)信息給人們帶來(lái)方便的同時(shí),也隨之帶來(lái)了許多新問(wèn)題,大量數(shù)據(jù)資源的背后隱藏著許多重要的信息,人們希望能對(duì)其進(jìn)行更深入的分析,以便更好地利用這些數(shù)據(jù),從中找出潛在的規(guī)律。那么,如何從大量的數(shù)據(jù)中提取并發(fā)現(xiàn)有用信

7、息以提供決策的依據(jù),已成為一個(gè)新的研究課題。高校是教學(xué)和科研的重要基地,也是培養(yǎng)人才的重要場(chǎng)所,教學(xué)管理工作當(dāng)中的學(xué)生成績(jī)分析是高校管理工作的一個(gè)重要組成部分,也是衡量高校管理水平的依據(jù)。從目前來(lái)看。各高校隨著招生規(guī)模的擴(kuò)大,信息量大幅度增加,學(xué)校運(yùn)行著各類(lèi)管理系統(tǒng),存在著各類(lèi)數(shù)據(jù)庫(kù),如有成績(jī)管理,學(xué)籍管理等。這些系統(tǒng)積累了大量的數(shù)據(jù),在很大程度上提高了工作的效率,但在這樣的教學(xué)管理系統(tǒng)中,學(xué)校的管理人員、教師和學(xué)生都只能通過(guò)查看,或者簡(jiǎn)單的排序以及統(tǒng)計(jì)功能來(lái)獲得數(shù)據(jù)表面的信息,由于缺乏信息意識(shí)和相應(yīng)的技術(shù),隱藏在這些大量數(shù)據(jù)中的信息一直沒(méi)有得到充分應(yīng)用。如何對(duì)這些數(shù)據(jù)進(jìn)行重新分析利用,在原基

8、礎(chǔ)上擴(kuò)充高校教學(xué)管理系統(tǒng)的功能,從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,提高學(xué)校管理的決策性,是很多高校正在考慮的問(wèn)題。1.2 發(fā)展現(xiàn)狀目前將數(shù)據(jù)挖掘技術(shù)與學(xué)校學(xué)生成績(jī)分析管理系統(tǒng)相結(jié)合,通過(guò)分析和處理系統(tǒng)中大量的學(xué)生成績(jī)數(shù)據(jù),從中挖掘潛在的規(guī)律及模式,促使學(xué)校更好地開(kāi)展教學(xué)工作,提高教學(xué)質(zhì)量,幫助教學(xué)管理者制定教學(xué)計(jì)劃,使學(xué)生成績(jī)管理系統(tǒng)的功能能夠更加完善。目前,在高校學(xué)生成績(jī)管理中,影響學(xué)生學(xué)習(xí)成績(jī)的因素很多,因此要進(jìn)行綜合分析。傳統(tǒng)分析無(wú)非是得到均值、方差等一些簡(jiǎn)單的分析結(jié)果,往往還是基于教學(xué)本身。其實(shí),還有一些教學(xué)中不易察覺(jué)的因素和教學(xué)以外的因素影響學(xué)生學(xué)習(xí)成績(jī),這些都需要進(jìn)一步分析,從而得出結(jié)論,

9、為教學(xué)管理人員及學(xué)生做出相應(yīng)的決策。1.3 研究意義利用數(shù)據(jù)挖掘聚類(lèi)技術(shù)挖掘發(fā)現(xiàn)課程與課程之間,或者每門(mén)課程中的知識(shí)點(diǎn)之間,以及學(xué)生的成績(jī)與課程的設(shè)置之間都存在著千絲萬(wàn)縷的聯(lián)系。使得現(xiàn)階段已有的數(shù)據(jù)發(fā)揮其真正的價(jià)值,為了解決這一問(wèn)題,可以利用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行合理的利用和深層的分析,從而更好的指導(dǎo)教師在教學(xué)中的工作。2 .數(shù)據(jù)挖掘理論概述2.1 數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘是集統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、并行計(jì)算、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)可視化和信息檢索等技術(shù)的一個(gè)交叉性學(xué)科。數(shù)據(jù)挖掘是數(shù)據(jù)倉(cāng)庫(kù)之上的一種應(yīng)用。但是數(shù)據(jù)挖掘不限于分析數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它執(zhí)行關(guān)聯(lián)、分類(lèi)、預(yù)測(cè)、聚類(lèi)、時(shí)

10、間序列分析等任務(wù),而且數(shù)據(jù)挖掘應(yīng)用范圍也相對(duì)較廣。2.2 數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘是一個(gè)復(fù)雜的多階段過(guò)程,如圖2.2所示,主要可以分為如下幾個(gè)主要階段:(1)確定挖掘?qū)ο螅?2)數(shù)據(jù)準(zhǔn)備;數(shù)據(jù)選擇;數(shù)據(jù)預(yù)處理;數(shù)據(jù)的轉(zhuǎn)換。(3)數(shù)據(jù)挖掘;(4)結(jié)果分析;(5)知識(shí)表達(dá)和解釋。圖2.2數(shù)據(jù)挖掘過(guò)程圖示聚類(lèi)分析及K-means算法聚類(lèi)分析是數(shù)據(jù)挖掘中的一個(gè)重要研究領(lǐng)域。聚類(lèi)分析就是將一組數(shù)據(jù)分組,使其具有最大的組內(nèi)相似性和最小的組間相似性。聚類(lèi)分析的算法可以分為以下幾類(lèi):劃分方法、層次方法、基于密度方法等,其中劃分方法的典型算法當(dāng)推K均值算法,即K-means算法。K均值聚類(lèi),即數(shù)據(jù)挖掘中的C均值聚

11、類(lèi),屬于聚類(lèi)分析方法中一種基本的且應(yīng)用最廣泛的劃分算法。K-均值算法以k為參數(shù),把N個(gè)對(duì)象分為k個(gè)簇,以使簇內(nèi)具有較高的相似度。相似度的計(jì)算根據(jù)一個(gè)簇中對(duì)象的平均值來(lái)進(jìn)行。算法首先隨機(jī)地選擇K個(gè)對(duì)象,每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心。對(duì)剩余的每個(gè)對(duì)象根據(jù)其與各個(gè)簇中心的距離,將它賦給最近的簇。然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。K-Means算法的準(zhǔn)則函數(shù)定義為:k2E=x-XjiHx4一j,其中E是數(shù)據(jù)庫(kù)所有對(duì)象的平方誤差的總和,x是空間中的點(diǎn),表示給定的數(shù)據(jù)對(duì)象,Xi是簇Ci的平均值。聚類(lèi)分析工具軟件(WEKAWEKA是懷卡托智能分析環(huán)境(Waikato

12、EnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化(與之對(duì)應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品-Clementine)的,基于JAVA環(huán)境下開(kāi)源的機(jī)器學(xué)習(xí)(MachineLearning)以及數(shù)據(jù)挖掘(DataMining)軟件。該軟件的縮寫(xiě)WEKA也是NewZealand獨(dú)有的一種鳥(niǎo)名,而WEKA的主要開(kāi)發(fā)者同時(shí)恰好來(lái)自NewZealand的theUniversityofWaikato。WEKA作為一個(gè)公開(kāi)的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類(lèi),回歸,聚類(lèi),關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開(kāi)發(fā)者

13、則可使用Java語(yǔ)言,利用WEKA的架構(gòu)上開(kāi)發(fā)出更多的數(shù)據(jù)挖掘算法。讀者如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話(huà),可以看一看WEKA的接口文檔。在WEKA中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。聚類(lèi),分類(lèi)和關(guān)聯(lián)分窗口提供對(duì)數(shù)據(jù)應(yīng)用對(duì)應(yīng)各類(lèi)數(shù)據(jù)挖掘算法的界面,尤其對(duì)于成績(jī)管理系統(tǒng)中大都是數(shù)值的數(shù)據(jù)。因此,選用WEKA工具來(lái)對(duì)高校學(xué)生成績(jī)分析能夠得到很有效的結(jié)果。數(shù)據(jù)準(zhǔn)備及預(yù)處理本文在數(shù)據(jù)挖掘過(guò)程當(dāng)中所使用的工具是WEKA,而WEKA所支持的數(shù)據(jù)格式有兩種:ARFF文件和CSV文件。故將原始數(shù)據(jù)EXCEL文件轉(zhuǎn)換為ARFF或CSV文件。轉(zhuǎn)換方法為:在EXCEL中打開(kāi)“MARK

14、.xls”,選擇菜單一另存為,在彈出的對(duì)話(huà)框中,文件名輸入“Mark,保存類(lèi)型選擇“CSV(逗號(hào)分隔)”,保存,便可得到“Mark.csv”文件。其結(jié)果如圖3.1所示:如恥明IDBrauLCc*giiterSft*wkIarctJESflftwtytEriCLaterInrl-=HfcUlliID32LQJra.o8L.tJ7i.DAID3ZLD2T3.0M.tJT4.D3IDBZLD3n.o陶。T6.D(id眨mT4.057.06.05ID32-LD5n.O77.0e.ID9ZLD6Eli.oMi.tJ31.MFIDaSLOTEll.O61。TC.O8。瞠L08TO.O75.0T3.09ID

15、瞠L的阻口77.0蛇口LDIDD2LWT5.0W.OT3.0LLIDB2L11時(shí)口%.015.0L2:IDIL12T4D7L.0附口L3IDIfLn況.口岷。14.0IDQ2L1.4穌巾gfl.DM.SID92L15的Lt)電口L&I限的.口9L0aa.nL7前1.口13.0HAlUlfLIH的.0瞄0始0晦hlSLlfiM.0ffi0如IM凱加$3.0的。-I:Tltoiasi時(shí)白的電SO段IDIflESfft.O雨。1900ini?l23T9Q腳。就Q%工,_i刈:Cttue)圖3.1數(shù)據(jù)文件截圖打開(kāi)WEKA軟件的Exporler菜單,點(diǎn)擊Openfile按鈕,打開(kāi)剛得到的“Mark.cs

16、v文件,點(diǎn)擊“Save”按鈕,在彈出的對(duì)話(huà)框中,文件名輸入“Mark”,文件類(lèi)型選擇“Arffdatefiles(*.arff)”,這樣就得到的數(shù)據(jù)文件為“Mark.arff”。算法應(yīng)用3.數(shù)據(jù)挖掘?qū)嶒?yàn)過(guò)程打開(kāi)WEKA軟件中的Exporler,點(diǎn)擊剛才得到的“Mark.arff”,出現(xiàn)下面的窗口,如圖3.2.1所示:圖3.3結(jié)果散點(diǎn)圖圖3.2.1數(shù)據(jù)分析截圖切換到“Cluster,點(diǎn)Choose”按鈕選擇SimpleKmeans,這是WEKA3實(shí)現(xiàn)K均值的算法。點(diǎn)擊旁邊的文本框,將“numClusters”設(shè)置為3,把實(shí)例分成三個(gè)簇,即K=3。其他結(jié)果按默認(rèn)值,如圖3.2.2所示。育業(yè)1clu-ittrs.SiHfltOtuisClu$lerdatusingliiekalgorithm加七mnClmltr*3seed10如她,.、QE!圖3.2.2設(shè)置界面截圖結(jié)果及分析右擊左下方“Resultlist”列出的結(jié)果,點(diǎn)“Visualizeclusterassignments。顯示彈出的窗口給出了各實(shí)例的散點(diǎn)圖。散點(diǎn)圖如圖3.3所示:結(jié)論在Cluster。簇里的實(shí)例,占總實(shí)例的32%,其中男生相對(duì)較多,這類(lèi)學(xué)生在分專(zhuān)業(yè)時(shí)選擇了硬件方向。故在以后計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生在分方向時(shí),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論