利用K-means聚類分析技術(shù)分析學(xué)生成績_第1頁
利用K-means聚類分析技術(shù)分析學(xué)生成績_第2頁
利用K-means聚類分析技術(shù)分析學(xué)生成績_第3頁
利用K-means聚類分析技術(shù)分析學(xué)生成績_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、利用K-means聚類分析技術(shù)分析學(xué)生成績摘要:數(shù)據(jù)挖掘是在海量的數(shù)據(jù)中尋找模式或規(guī)則的過程。數(shù)據(jù)聚類則是數(shù)據(jù)挖掘中的一項重要技術(shù),就是將數(shù)據(jù)對象劃分到不同的類或者簇中,使得屬于同簇的數(shù)據(jù)對象相似性盡量大,而不同簇的數(shù)據(jù)對象相異性盡量大。目前數(shù)據(jù)挖掘技術(shù)在商業(yè)、金融業(yè)等方面都得到了廣泛的應(yīng)用,而在教育領(lǐng)域的應(yīng)用較少,隨著高校招生規(guī)模的擴(kuò)大,在校學(xué)生成績分布越來越復(fù)雜,除了傳統(tǒng)成績分析得到的一些結(jié)論外,還有一些不易發(fā)現(xiàn)的信息隱含其中,因而把數(shù)據(jù)挖掘技術(shù)引入到學(xué)生成績分析中,有利于針對性地提高教學(xué)質(zhì)量。本論文就是運(yùn)用數(shù)據(jù)挖掘中的聚類分析學(xué)生成績的,利用學(xué)生在選擇專業(yè)前的各主要學(xué)科的成績構(gòu)成,對數(shù)據(jù)

2、進(jìn)行選擇,預(yù)處理,挖掘分析等。運(yùn)用聚類算法分析學(xué)生對哪個專業(yè)的強(qiáng)弱選擇,從而為具有不同成績特征的同學(xué)在專業(yè)選擇及分專業(yè)后如何開展學(xué)習(xí)提供一定的參考意見。關(guān)鍵字:數(shù)據(jù)挖掘 聚類分析 學(xué)生成績分析 Abstract:Data mining is a process that in the vast amounts of data looking for patterns or rules. Data clustering is an important data mining technology for people to understand and explore the inherent

3、relationship between things. Clustering is to partition data objects into different categories, or clusters, making the similarity with the clusters of data as large as possible. While the dissimilarity of different clusters of data as large as possible. Nowadays data mining technology is widely use

4、d in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record anal

5、ysis, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data

6、 structure of main subject before the students specialized in choice of mode, pretreatment and data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give some reference opinions after students of different grades ch

7、oose their majors.Keywords : Data Mining , Clustering Technology , Students' Achievement1.概述1.1背景隨著我國經(jīng)濟(jì)的發(fā)展,網(wǎng)絡(luò)已被應(yīng)用到各個行業(yè),人們對網(wǎng)絡(luò)帶來的高效率越來越重視,然而大量數(shù)據(jù)信息給人們帶來方便的同時,也隨之帶來了許多新問題,大量數(shù)據(jù)資源的背后隱藏著許多重要的信息,人們希望能對其進(jìn)行更深入的分析,以便更好地利用這些數(shù)據(jù),從中找出潛在的規(guī)律。那么,如何從大量的數(shù)據(jù)中提取并發(fā)現(xiàn)有用信息以提供決策的依據(jù),已成為一個新的研究課題。高校是教學(xué)和科研的重要基地,也是培養(yǎng)人才的重要場所,教學(xué)管

8、理工作當(dāng)中的學(xué)生成績分析是高校管理工作的一個重要組成部分,也是衡量高校管理水平的依據(jù)。從目前來看。各高校隨著招生規(guī)模的擴(kuò)大,信息量大幅度增加,學(xué)校運(yùn)行著各類管理系統(tǒng),存在著各類數(shù)據(jù)庫,如有成績管理,學(xué)籍管理等。這些系統(tǒng)積累了大量的數(shù)據(jù),在很大程度上提高了工作的效率,但在這樣的教學(xué)管理系統(tǒng)中,學(xué)校的管理人員、教師和學(xué)生都只能通過查看,或者簡單的排序以及統(tǒng)計功能來獲得數(shù)據(jù)表面的信息,由于缺乏信息意識和相應(yīng)的技術(shù),隱藏在這些大量數(shù)據(jù)中的信息一直沒有得到充分應(yīng)用。如何對這些數(shù)據(jù)進(jìn)行重新分析利用,在原基礎(chǔ)上擴(kuò)充高校教學(xué)管理系統(tǒng)的功能,從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,提高學(xué)校管理的決策性,是很多高校正在考慮的問

9、題。1.2發(fā)展現(xiàn)狀目前將數(shù)據(jù)挖掘技術(shù)與學(xué)校學(xué)生成績分析管理系統(tǒng)相結(jié)合,通過分析和處理系統(tǒng)中大量的學(xué)生成績數(shù)據(jù),從中挖掘潛在的規(guī)律及模式,促使學(xué)校更好地開展教學(xué)工作,提高教學(xué)質(zhì)量,幫助教學(xué)管理者制定教學(xué)計劃,使學(xué)生成績管理系統(tǒng)的功能能夠更加完善。目前,在高校學(xué)生成績管理中,影響學(xué)生學(xué)習(xí)成績的因素很多,因此要進(jìn)行綜合分析。傳統(tǒng)分析無非是得到均值、方差等一些簡單的分析結(jié)果,往往還是基于教學(xué)本身。其實(shí),還有一些教學(xué)中不易察覺的因素和教學(xué)以外的因素影響學(xué)生學(xué)習(xí)成績,這些都需要進(jìn)一步分析,從而得出結(jié)論,為教學(xué)管理人員及學(xué)生做出相應(yīng)的決策。1.3 研究意義利用數(shù)據(jù)挖掘聚類技術(shù)挖掘發(fā)現(xiàn)課程與課程之間,或者每門

10、課程中的知識點(diǎn)之間,以及學(xué)生的成績與課程的設(shè)置之間都存在著千絲萬縷的聯(lián)系。使得現(xiàn)階段已有的數(shù)據(jù)發(fā)揮其真正的價值,為了解決這一問題,可以利用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行合理的利用和深層的分析,從而更好的指導(dǎo)教師在教學(xué)中的工作。2.數(shù)據(jù)挖掘理論概述2.1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘是集統(tǒng)計學(xué)、人工智能、模式識別、并行計算、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、數(shù)據(jù)可視化和信息檢索等技術(shù)的一個交叉性學(xué)科。數(shù)據(jù)挖掘是數(shù)據(jù)倉庫之上的一種應(yīng)用。但是數(shù)據(jù)挖掘不限于分析數(shù)據(jù)倉庫中的數(shù)據(jù),它執(zhí)行關(guān)聯(lián)、分類、預(yù)測、聚類、時間序列分析等任務(wù),而且數(shù)據(jù)挖掘應(yīng)用范圍也相對較廣。2.2數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘是一個復(fù)雜的多階段過程,如圖2

11、.2所示,主要可以分為如下幾個主要階段:(1)確定挖掘?qū)ο螅?(2)數(shù)據(jù)準(zhǔn)備;數(shù)據(jù)選擇;數(shù)據(jù)預(yù)處理;數(shù)據(jù)的轉(zhuǎn)換。(3)數(shù)據(jù)挖掘; (4)結(jié)果分析; (5)知識表達(dá)和解釋。 圖2.2 數(shù)據(jù)挖掘過程圖示2.3 聚類分析及K-means算法聚類分析是數(shù)據(jù)挖掘中的一個重要研究領(lǐng)域。聚類分析就是將一組數(shù)據(jù)分組,使其具有最大的組內(nèi)相似性和最小的組間相似性。聚類分析的算法可以分為以下幾類:劃分方法、層次方法、基于密度方法等,其中劃分方法的典型算法當(dāng)推K均值算法,即K-means算法。K均值聚類,即數(shù)據(jù)挖掘中的C均值聚類,屬于聚類分析方法中一種基本的且應(yīng)用最廣泛的劃分算法。K-均值算法以k為參數(shù),把N個對象分

12、為k個簇,以使簇內(nèi)具有較高的相似度。相似度的計算根據(jù)一個簇中對象的平均值來進(jìn)行。算法首先隨機(jī)地選擇K個對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象根據(jù)其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。K-Means算法的準(zhǔn)則函數(shù)定義為: , 其中E是數(shù)據(jù)庫所有對象的平方誤差的總和,x是空間中的點(diǎn),表示給定的數(shù)據(jù)對象,i 是簇 Ci 的平均值。2.4 聚類分析工具軟件(WEKA)WEKA是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一款免費(fèi)的,非商業(yè)化(與之

13、對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品-Clementine )的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(Machine Learning)以及數(shù)據(jù)挖掘(DataMining)軟件。該軟件的縮寫WEKA也是New Zealand獨(dú)有的一種鳥名,而WEKA的主要開發(fā)者同時恰好來自New Zealand的the University of Waikato。 WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸,聚類,關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用WEKA的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。 讀者如果

14、想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看WEKA的接口文檔。在WEKA中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。聚類,分類和關(guān)聯(lián)分窗口提供對數(shù)據(jù)應(yīng)用對應(yīng)各類數(shù)據(jù)挖掘算法的界面,尤其對于成績管理系統(tǒng)中大都是數(shù)值的數(shù)據(jù)。因此,選用WEKA工具來對高校學(xué)生成績分析能夠得到很有效的結(jié)果。3數(shù)據(jù)挖掘?qū)嶒?yàn)過程3.1 數(shù)據(jù)準(zhǔn)備及預(yù)處理本文在數(shù)據(jù)挖掘過程當(dāng)中所使用的工具是WEKA,而WEKA所支持的數(shù)據(jù)格式有兩種:ARFF文件和CSV文件。故將原始數(shù)據(jù)EXCEL文件轉(zhuǎn)換為ARFF或CSV文件。轉(zhuǎn)換方法為:在EXCEL中打開“MARK.xls”,選擇菜單>另存為,在彈出的對話框

15、中,文件名輸入“Mark”,保存類型選擇“CSV( 逗號分隔)”,保存,便可得到“Mark.csv”文件。其結(jié)果如圖3.1所示:圖3.1數(shù)據(jù)文件截圖打開WEKA軟件的Exporler菜單,點(diǎn)擊Open file按鈕,打開剛得到的“Mark.csv”文件,點(diǎn)擊“Save”按鈕,在彈出的對話框中,文件名輸入“Mark”,文件類型選擇“Arff date files (*.arff)”,這樣就得到的數(shù)據(jù)文件為“Mark.arff”。3.2 算法應(yīng)用打開WEKA軟件中的Exporler,點(diǎn)擊剛才得到的“Mark.arff”,出現(xiàn)下面的窗口,如圖3.2.1所示:圖3.2.1數(shù)據(jù)分析截圖切換到“Clust

16、er”,點(diǎn)“Choose”按鈕選擇“SimpleKmeans”,這是WEKA中實(shí)現(xiàn)K均值的算法。點(diǎn)擊旁邊的文本框,將“numClusters”設(shè)置為3,把實(shí)例分成三個簇,即K=3。其他結(jié)果按默認(rèn)值,如圖3.2.2所示。 圖3.2.2 設(shè)置界面截圖3.3 結(jié)果及分析右擊左下方“Result list”列出的結(jié)果,點(diǎn)“Visualize cluster assignments”。顯示彈出的窗口給出了各實(shí)例的散點(diǎn)圖。散點(diǎn)圖如圖3.3所示:圖3.3 結(jié)果散點(diǎn)圖3.4結(jié)論在Cluster0簇里的實(shí)例,占總實(shí)例的32%,其中男生相對較多,這類學(xué)生在分專業(yè)時選擇了硬件方向。故在以后計算機(jī)專業(yè)的學(xué)生在分方向時,對計算機(jī)硬件結(jié)構(gòu)及系統(tǒng)有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論