版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)挖掘課程建設(shè)研究 摘要:為了解決數(shù)據(jù)挖掘課程建設(shè)中存在的不足之處,培養(yǎng)符合時(shí)代要求的大數(shù)據(jù)挖掘人才,引入R語(yǔ)言作為課程的實(shí)踐軟件。R語(yǔ)言作為目前流行的數(shù)據(jù)分析軟件,有著簡(jiǎn)單易學(xué)、功能強(qiáng)大、可擴(kuò)展性強(qiáng)等特點(diǎn),在教學(xué)過(guò)程中可以充分利用其功能包生成各種算法的過(guò)程示意圖或動(dòng)畫來(lái)提高教學(xué)效果,同時(shí)便于開展課程的實(shí)踐教學(xué)環(huán)節(jié)。文章對(duì)基于R語(yǔ)言的大數(shù)據(jù)挖掘課程建設(shè)進(jìn)行研究。 關(guān)鍵詞:大數(shù)據(jù)挖掘;R語(yǔ)言;實(shí)踐;課程建設(shè) 1R語(yǔ)言簡(jiǎn)介 R語(yǔ)言是一種用于統(tǒng)計(jì)計(jì)算的編程語(yǔ)言和環(huán)境,它是由S語(yǔ)言發(fā)展而來(lái)的。R語(yǔ)言擅長(zhǎng)統(tǒng)計(jì)建模和解決數(shù)據(jù)分析相關(guān)的問(wèn)題,是一種為數(shù)據(jù)而生的程序設(shè)計(jì)語(yǔ)言。不同于其他主流的計(jì)算機(jī)編程語(yǔ)言
2、,R語(yǔ)言使用命令加回車的方式進(jìn)行操作,以人機(jī)對(duì)話模式進(jìn)行交互,使用起來(lái)較為簡(jiǎn)單。R的核心要素是數(shù)據(jù)和函數(shù),任何數(shù)據(jù)分析都可以理解為通過(guò)函數(shù)來(lái)操作數(shù)據(jù),學(xué)習(xí)R語(yǔ)言無(wú)需掌握復(fù)雜的語(yǔ)法。R語(yǔ)言可以很方便地和幾乎市面上所有的數(shù)據(jù)庫(kù)系統(tǒng)相連接,再加上諸多的R數(shù)據(jù)庫(kù)支持包,使R能夠方便地對(duì)數(shù)據(jù)庫(kù)進(jìn)行讀寫操作,實(shí)現(xiàn)的技術(shù)包括ODBC和JDBC兩大方面(其中RJDBC和RpgSQL需要Java的支持)。R語(yǔ)言中提供了大量數(shù)據(jù)挖掘相關(guān)的函數(shù)及功能包1。通過(guò)以上R語(yǔ)言的簡(jiǎn)介可以總結(jié)出選用R語(yǔ)言作為數(shù)據(jù)挖掘課程的實(shí)踐軟件有以下5個(gè)優(yōu)點(diǎn):(1)R語(yǔ)言是免費(fèi)的,相比多數(shù)價(jià)格不菲的商業(yè)統(tǒng)計(jì)軟件而言,其優(yōu)勢(shì)顯而易見。(2)
3、通過(guò)數(shù)據(jù)挖掘課程的學(xué)習(xí)使得學(xué)生認(rèn)識(shí)并掌握R語(yǔ)言的數(shù)據(jù)分析方法,為學(xué)生今后的職業(yè)發(fā)展提供更加廣闊的選擇空間。(3)R語(yǔ)言有著強(qiáng)大的圖形和動(dòng)畫功能,在教學(xué)過(guò)程中可以方便地通過(guò)R語(yǔ)言生成各種數(shù)據(jù)挖掘算法的過(guò)程示意圖和過(guò)程演示動(dòng)畫,能有效提高教學(xué)效果并增加學(xué)生的學(xué)習(xí)興趣。(4)R語(yǔ)言的簡(jiǎn)單、易操作性可以使得擁有不同計(jì)算機(jī)編程基礎(chǔ)的學(xué)生都能在較短時(shí)間內(nèi)學(xué)會(huì)利用R語(yǔ)言進(jìn)行數(shù)據(jù)挖掘?qū)嵺`操作,便于開展課程的實(shí)踐教學(xué)。(5)R語(yǔ)言能支持各種數(shù)據(jù)庫(kù)系統(tǒng),因此對(duì)于先修課程數(shù)據(jù)庫(kù)系統(tǒng)所使用的實(shí)踐軟件無(wú)特別要求,方便銜接形成課程體系。 2教學(xué)大綱設(shè)置 美國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)挖掘?qū)iT興趣小組(ACMSIGKDD)曾在2006
4、年擬定了一套公認(rèn)的標(biāo)準(zhǔn)數(shù)據(jù)挖掘課程的教學(xué)大綱2。大綱建議將數(shù)據(jù)挖掘的教學(xué)內(nèi)容分為基礎(chǔ)和高級(jí)專題兩部分,其中基礎(chǔ)部分包括數(shù)據(jù)挖掘?qū)д摚瑪?shù)據(jù)預(yù)處理,數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理(OnlineAnalyticalProcessing,OLAP),關(guān)聯(lián)規(guī)則與頻繁模式挖掘、分類、聚類與孤立點(diǎn)分析,時(shí)間序列與序列模式,文本與Web挖掘,數(shù)據(jù)挖掘的可視化,數(shù)據(jù)挖掘應(yīng)用十章內(nèi)容。高級(jí)部分主要是對(duì)基礎(chǔ)部分進(jìn)行進(jìn)一步的深入擴(kuò)展,對(duì)不同的挖掘算法進(jìn)行比較分析,并增加了數(shù)據(jù)流挖掘、多媒體數(shù)據(jù)挖掘等內(nèi)容??紤]到本科階段該課程的教學(xué)總學(xué)時(shí)一般為3248學(xué)時(shí),且學(xué)生的理論背景知識(shí)有限,因此需要對(duì)標(biāo)準(zhǔn)大綱的內(nèi)容作一定的調(diào)整,對(duì)理論
5、部分可以做一定刪減而增加一些大數(shù)據(jù)相關(guān)的背景知識(shí),讓學(xué)生對(duì)數(shù)據(jù)挖掘的大環(huán)境有一個(gè)完整的認(rèn)識(shí)。同時(shí)為了突出培養(yǎng)學(xué)生的實(shí)踐能力,課時(shí)安排以實(shí)踐教學(xué)為主,理論教學(xué)為輔。實(shí)踐教學(xué)中以學(xué)生為主體,教師利用實(shí)踐任務(wù)引導(dǎo)學(xué)生學(xué)習(xí)相關(guān)知識(shí),在實(shí)踐環(huán)節(jié)中鞏固理論教學(xué)3。可以先安排24個(gè)學(xué)時(shí)來(lái)講解R語(yǔ)言的基礎(chǔ)知識(shí),讓學(xué)生掌握R語(yǔ)言在數(shù)據(jù)挖掘過(guò)程中的應(yīng)用方法,并通過(guò)介紹一些大數(shù)據(jù)挖掘的案例讓學(xué)生了解數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用領(lǐng)域及當(dāng)前的研究熱點(diǎn)問(wèn)題,增強(qiáng)學(xué)生對(duì)數(shù)據(jù)挖掘課程的學(xué)習(xí)興趣。在充分調(diào)動(dòng)了學(xué)生對(duì)數(shù)據(jù)挖掘的興趣后,可以通過(guò)增加課外學(xué)習(xí)學(xué)時(shí)來(lái)彌補(bǔ)課內(nèi)學(xué)時(shí)的不足。教師可以充分利用網(wǎng)絡(luò)上的大量有關(guān)數(shù)據(jù)挖掘的學(xué)習(xí)資源,例如
6、一些國(guó)外大學(xué)的在線課程,教學(xué)案例等。對(duì)這些資料進(jìn)行分類整合,并通過(guò)郵件、微信公眾號(hào)等方法推送給學(xué)生,提高學(xué)生的課后學(xué)習(xí)效果。 3基于R語(yǔ)言的數(shù)據(jù)挖掘課程教學(xué) 以下以數(shù)據(jù)挖掘中常用的聚類算法為例,介紹如何利用R語(yǔ)言作為數(shù)據(jù)挖掘?qū)嵺`軟件來(lái)開展教學(xué)。聚類分析是數(shù)據(jù)挖掘中一個(gè)非常重要的領(lǐng)域,將數(shù)據(jù)劃分成有意義或有用的組(簇),使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性,而不同類別之間的個(gè)體則應(yīng)具有盡可能高的異質(zhì)性4。聚類算法有多種,一般分為兩大類:基于原型的聚類和基于密度的聚類。本科教材中主要介紹基于原型的K-means算法,在課時(shí)充足時(shí)也可補(bǔ)充介紹基于密度的Dbscan算法。在介紹完聚類算法的基本概念后
7、,可以通過(guò)加載一個(gè)名為animation的R包來(lái)演示K-means算法的運(yùn)算過(guò)程。該R包中提供了許多關(guān)于統(tǒng)計(jì)、數(shù)據(jù)分析類的動(dòng)畫功能,對(duì)教學(xué)可以起到輔助作用5。教師只要調(diào)用該包中的相應(yīng)函數(shù)就能生成算法的執(zhí)行過(guò)程動(dòng)畫,并可以通過(guò)轉(zhuǎn)換函數(shù)將動(dòng)畫轉(zhuǎn)換為GIF和FLASH等格式或者利用LaTeX將動(dòng)畫嵌入到PDF文件中。利用animation包中的生成的K-means算法的動(dòng)畫截圖如圖12所示,該動(dòng)畫直觀地展示了從最初的隨機(jī)中心開始,一步一步迭代計(jì)算距離并更新中心直到結(jié)果不再變化,完成聚類。通過(guò)算法動(dòng)畫的演示可以在很大程度上幫助學(xué)生來(lái)理解枯燥的挖掘算法原理。在介紹完K-means算法的原理之后,就可以通
8、過(guò)一些實(shí)例來(lái)展示如何利用R語(yǔ)言來(lái)完成聚類。R語(yǔ)言可以很方便地利用read函數(shù)讀入TXT或者CSV格式的數(shù)據(jù),命令行如下:data1 4課程實(shí)踐與考核方式設(shè)計(jì) 教師可以將實(shí)踐內(nèi)容分成兩大類:驗(yàn)證實(shí)踐和案例實(shí)踐。驗(yàn)證實(shí)踐主要是對(duì)教材和教師的理論講解部分作重復(fù)性驗(yàn)證,主要目的是幫助學(xué)生理解并鞏固理論部分的知識(shí)。案例實(shí)踐則是學(xué)生在掌握基本的數(shù)據(jù)挖掘方法后,獨(dú)立完成教師布置的案例作業(yè),從而進(jìn)一步提高學(xué)生的獨(dú)立解決數(shù)據(jù)分析問(wèn)題的能力。針對(duì)課程內(nèi)容的不同特點(diǎn),開展課程實(shí)踐時(shí)可以分為3步走。(1)熟悉挖掘工具:該部分的主要任務(wù)是讓學(xué)生學(xué)會(huì)R語(yǔ)言的基本操作。(2)學(xué)習(xí)數(shù)據(jù)挖掘基本算法:該部分主要任務(wù)是讓學(xué)生學(xué)會(huì)
9、使用R語(yǔ)言的數(shù)據(jù)挖掘相關(guān)的函數(shù)和功能包。(3)綜合數(shù)據(jù)挖掘技術(shù)的訓(xùn)練:該部分主要任務(wù)是讓學(xué)生學(xué)會(huì)數(shù)據(jù)挖掘的整套流程操作,能獨(dú)立解決數(shù)據(jù)挖掘相關(guān)的實(shí)際問(wèn)題。課程的考核方式應(yīng)該能夠客觀地反映學(xué)生對(duì)數(shù)據(jù)挖掘的基本原理和算法應(yīng)用的掌握程度。由于完成數(shù)據(jù)挖掘任務(wù)往往需要較大規(guī)模的原始數(shù)據(jù),且如果沒(méi)有計(jì)算機(jī)的支持,一次數(shù)據(jù)挖掘可能需要數(shù)小時(shí),紙質(zhì)試卷無(wú)法勝任,因此傳統(tǒng)的筆試只能考查學(xué)生對(duì)于一些基本概念的記憶程度,無(wú)法全面反映學(xué)生的真實(shí)水平。因此課程考核應(yīng)以能力測(cè)試為中心,將實(shí)踐操作在總成績(jī)中的占比提高到50%以上??梢詥⒂秒娮涌季?,讓學(xué)生在規(guī)定時(shí)間內(nèi)利用R語(yǔ)言對(duì)給定的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,并將挖掘結(jié)果整
10、理成報(bào)告上傳至指定服務(wù)器。實(shí)踐成績(jī)從兩方面進(jìn)行評(píng)定:通過(guò)查看結(jié)果報(bào)告判斷挖掘結(jié)果是否真實(shí)有效;通過(guò)調(diào)取并查看學(xué)生所使用過(guò)的R語(yǔ)言的命令行判斷挖掘過(guò)程是否合理。當(dāng)然這種電子考卷需要教師在考試前充分準(zhǔn)備電子試題庫(kù),并且對(duì)于挖掘過(guò)程部分的判定需要教師花費(fèi)較多精力,因此還需不斷地摸索改進(jìn)。 參考文獻(xiàn) 1卡巴科弗.語(yǔ)言實(shí)戰(zhàn)M.王小寧,譯.北京:人民郵電出版社,2016. 2石向榮.基于TDC模式的數(shù)據(jù)挖掘課程教學(xué)新方法J.經(jīng)濟(jì)師,2015(5):311. 3黃劍.任務(wù)驅(qū)動(dòng)探究式教學(xué)模式在數(shù)據(jù)挖掘課程中的應(yīng)用研究J.電腦知識(shí)與技術(shù),2014(10):1253-1255. 4陳封能,斯坦巴赫,庫(kù)瑪爾.數(shù)據(jù)挖掘?qū)д揗.范明,范宏建,譯.北京:人民郵電出版社,2013. 5岳強(qiáng),胡中玉,文瑾,等.基于R語(yǔ)言的數(shù)據(jù)挖掘課程實(shí)驗(yàn)設(shè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《基層干部管理》課件
- 2019年高考語(yǔ)文試卷(北京)(解析卷)
- 2013年高考語(yǔ)文試卷(北京)(解析卷)
- 諧波治理設(shè)備可靠性研究-洞察分析
- 育種基因功能研究-洞察分析
- 污水處理離子交換裝置-洞察分析
- 音樂(lè)制作行業(yè)的競(jìng)爭(zhēng)格局分析-洞察分析
- 圖算法創(chuàng)新實(shí)踐-洞察分析
- 唐代宗教與世俗生活-洞察分析
- 信立泰材料性能優(yōu)化-洞察分析
- 有關(guān)新加坡公司治理的思考
- 團(tuán)意險(xiǎn)項(xiàng)目招標(biāo)書
- 大概念教學(xué)讀書分享
- 駕駛員資格申請(qǐng)表
- Module 6 Unit1 Can I have some sweets (說(shuō)課稿)外研版(三起)英語(yǔ)四年級(jí)上冊(cè)
- 主要負(fù)責(zé)人重大隱患帶隊(duì)檢查表
- 《建筑施工模板安全技術(shù)規(guī)范》(JGJ 162-2008)
- 菜品作業(yè)指導(dǎo)書-06
- 小學(xué)勞動(dòng)教育調(diào)查報(bào)告
- 電動(dòng)叉車控制系統(tǒng)詳解帶電路圖
- JGJ-16--民用建筑電氣設(shè)計(jì)規(guī)范
評(píng)論
0/150
提交評(píng)論