數(shù)據(jù)挖掘+數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大綱_第1頁
數(shù)據(jù)挖掘+數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大綱_第2頁
數(shù)據(jù)挖掘+數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大綱_第3頁
數(shù)據(jù)挖掘+數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大綱_第4頁
數(shù)據(jù)挖掘+數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大綱_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)挖掘教學(xué)大綱課程類別:專業(yè)任選修課程 課程名稱:數(shù)據(jù)挖掘開課單位:理學(xué)院 課程編號(hào):B總學(xué)時(shí):40 學(xué) 分:4適用專業(yè):統(tǒng)計(jì)學(xué)專業(yè)先修課程:概率論、數(shù)理統(tǒng)計(jì)、多元統(tǒng)計(jì)分析等 一、課程在教學(xué)計(jì)劃中地位、作用數(shù)據(jù)挖掘是20世紀(jì)末剛剛興起的數(shù)據(jù)智能分析技術(shù),由于有廣闊的應(yīng)用前景而備受重視。數(shù)據(jù)挖掘作為一門新興的學(xué)科,在它的形成和發(fā)展過程中表現(xiàn)出了強(qiáng)大的生命力,廣大從事數(shù)據(jù)科學(xué)和統(tǒng)計(jì)科學(xué)的科研工作者和工程技術(shù)人員迫切需要了解和掌握它。數(shù)據(jù)挖掘自產(chǎn)生以來就是以分析數(shù)據(jù)、理解數(shù)據(jù)的實(shí)際需求為推動(dòng)力的,其研究發(fā)展也逐步滲透到工業(yè)、農(nóng)業(yè)、醫(yī)療衛(wèi)生和商業(yè)的實(shí)際需求當(dāng)中。數(shù)據(jù)挖掘涉及

2、的內(nèi)容較為廣泛,已成為迅速發(fā)展并在信息社會(huì)中廣泛應(yīng)用的一門綜合性學(xué)科。數(shù)據(jù)挖掘已成為計(jì)算機(jī)、統(tǒng)計(jì)學(xué)專業(yè)的一門重要課程,也是從事相關(guān)研究和應(yīng)用人員必須掌握的重要知識(shí)。二、課程目標(biāo)通過本課程的實(shí)驗(yàn)教學(xué),使學(xué)生具備下列能力:(1)全面而深入地掌握數(shù)據(jù)挖掘的基本概念和原理,了解模型精度的評(píng)價(jià)方法。(2)深入地掌握線性回歸分析及模型的改進(jìn)與評(píng)價(jià),掌握各種分類方法以及對(duì)其進(jìn)行比較。能夠?qū)?shí)際數(shù)據(jù)進(jìn)行分類模型的建立,具有比較各方法的能力。(3)通過學(xué)習(xí)關(guān)聯(lián)分析、社交網(wǎng)絡(luò)分析以及文本挖掘,能夠?qū)?shí)際數(shù)據(jù)進(jìn)行處理、分析,并建立解釋合理的統(tǒng)計(jì)模型。三、課程內(nèi)容及基本要求第一章 數(shù)據(jù)挖掘概述1、理解和掌握數(shù)據(jù)挖掘的

3、基本概念、數(shù)據(jù)挖掘過程以及數(shù)據(jù)挖掘功能;2、了解數(shù)據(jù)挖掘的應(yīng)用和面臨的問題;3、對(duì)數(shù)據(jù)挖掘能夠解決的問題和解決問題思路有清晰的認(rèn)識(shí)。第二章 數(shù)據(jù)探索1、了解數(shù)據(jù)的導(dǎo)入與導(dǎo)出;2、了解單變量數(shù)據(jù)的探索方法;3、了解多變量數(shù)據(jù)的探索方法;4、掌握?qǐng)D表的意義以及數(shù)據(jù)的描述統(tǒng)計(jì)。第三章 回歸分析1、理解多元線性回歸模型的確定方法以及模型的檢驗(yàn)方法; 2、理解基于樹的回歸分析方法; 3、了解非線性回歸方法。第四章 分類1、了解分類及預(yù)測(cè)的基本思想、概念和意義;2、掌握邏輯斯蒂回歸,掌握線性判別分析,了解非線性判別分析;3、了解分類方法的比較。第五章 聚類分析1、了解聚類分析的基本思想、概念和意義;2、

4、掌握相似度(或相異度)的常用度量方法;3、 掌握常用的聚類算法,包括K-Means、SOM 、BIRCH、DBSCAN、STING;4、了解孤立點(diǎn)分析的三類方法;了解其它方法的內(nèi)容;了解聚類分析的研究動(dòng)態(tài)。第六章 關(guān)聯(lián)規(guī)則 1、了解關(guān)聯(lián)規(guī)則的基本思想、概念和意義;2、了解關(guān)聯(lián)規(guī)則挖掘的應(yīng)用背景; 3、掌握常用的關(guān)聯(lián)規(guī)則算法,包括Apriori、GRI、Sequence Detection;4、了解關(guān)聯(lián)規(guī)則挖掘的研究動(dòng)態(tài)。第七章 文本挖掘1、了解文本挖掘的基本思想、概念和意義;2、掌握常用的文本挖掘的軟件包,了解分詞方法,掌握詞項(xiàng)-文檔矩陣的建立方法。3、能夠進(jìn)行詞頻統(tǒng)計(jì)分析以及詞項(xiàng)聚類; 3、

5、能夠利用文本挖掘工具對(duì)實(shí)際文本數(shù)據(jù)進(jìn)行建模分析。第八章 社交網(wǎng)絡(luò)分析1、了解社交網(wǎng)絡(luò)分析的基本思想、概念和意義;2、了解社交網(wǎng)絡(luò)分析的應(yīng)用背景;3、掌握社交網(wǎng)絡(luò)分析方法。第九章 綜合案例分析1、了解數(shù)據(jù)挖掘課程所學(xué)內(nèi)容,能夠利用所學(xué)統(tǒng)計(jì)模型建立合適的回歸方程;2、了解關(guān)聯(lián)規(guī)則和社交網(wǎng)絡(luò)分析在商品銷售中應(yīng)用;四、學(xué)時(shí)分配章節(jié)名稱講授(學(xué)時(shí))實(shí)驗(yàn)(學(xué)時(shí))小計(jì)第一章 數(shù)據(jù)挖掘概述202第二章 數(shù)據(jù)探索202第三章 回歸分析808第四章 分類404第五章 聚類分析404第六章 關(guān)聯(lián)規(guī)則404第七章 文本挖掘606第八章 社交網(wǎng)絡(luò)分析404第九章 綜合案例分析606合計(jì)40040五、課程目標(biāo)達(dá)成評(píng)價(jià)的途

6、徑和措施本課程通過“平時(shí)成績(jī)”、 “綜合數(shù)據(jù)分析答辯成績(jī)”兩種方式對(duì)課程目標(biāo)達(dá)成進(jìn)行評(píng)價(jià),考核成績(jī)計(jì)算公式如下(本大綱中成績(jī)均采用百分制):考核成績(jī) = 平時(shí)成績(jī)30% +綜合數(shù)據(jù)分析答辯成績(jī)70%平時(shí)成績(jī) = 出勤成績(jī) 1.平時(shí)成績(jī) 平時(shí)成績(jī)給定方法如下表所示:序號(hào)出勤次數(shù)成績(jī)12010021990-9531880-8541770-7551660-6561550-5571440-454小于等于130在課堂上能積極主動(dòng)回答問題,并回答正確者每次加10分;能積極主動(dòng)回答問題,但有缺陷者每次加5分,該成績(jī)加入平時(shí)成績(jī)中。如平時(shí)成績(jī)超過100分者,按最高分100分計(jì)。2、綜合數(shù)據(jù)處理答辯成績(jī) 綜合數(shù)

7、據(jù)處理答辯成績(jī)給定方法如下表所示:序號(hào)綜合數(shù)據(jù)處理答辯情況成績(jī)1統(tǒng)計(jì)描述恰當(dāng)、圖表使用正確、統(tǒng)計(jì)方法正確,結(jié)論合理,檢驗(yàn)有效90-1002統(tǒng)計(jì)描述和圖表解釋不詳,統(tǒng)計(jì)模型正確,結(jié)論合理,檢驗(yàn)有效80-893統(tǒng)計(jì)描述恰當(dāng),圖表適用正確,模型合理,結(jié)論合理,缺失模型檢驗(yàn)70-794數(shù)據(jù)處理恰當(dāng),統(tǒng)計(jì)模型正確,結(jié)論較為合理,缺失模型檢驗(yàn)60-695數(shù)據(jù)處理有錯(cuò)誤,建立統(tǒng)計(jì)模型,結(jié)論沒有有效分析31-596數(shù)據(jù)處理有錯(cuò)誤,模型建立不合理0-30六、主要參考書1. Yanchang Zhao (陳健 黃琰 譯). R語言與數(shù)據(jù)挖掘 最佳實(shí)踐和經(jīng)典案例. 機(jī)械工業(yè)出版社2. Luis Torgo (李洪成

8、、陳道輪 吳立明譯) . 數(shù)據(jù)挖掘與R語言. 機(jī)械工業(yè)出版社3. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani(王星譯). 統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論 基于R應(yīng)用. 機(jī)械工業(yè)出版社數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大綱實(shí)驗(yàn)類別:專業(yè)教育課程 所屬課程名稱:數(shù)據(jù)挖掘?qū)嶒?yàn)實(shí)驗(yàn)學(xué)時(shí):24 所屬課程編碼:BS實(shí)驗(yàn)室名稱:大學(xué)數(shù)學(xué)實(shí)驗(yàn)室 實(shí)驗(yàn)室類別:基礎(chǔ)實(shí)驗(yàn)室教學(xué)中心適用專業(yè):統(tǒng)計(jì)學(xué)專業(yè) 先修課程:多元統(tǒng)計(jì)、概率論、數(shù)理統(tǒng)計(jì)一、實(shí)驗(yàn)在教學(xué)計(jì)劃中地位、作用 本課程是統(tǒng)計(jì)學(xué)專業(yè)的專業(yè)教育實(shí)驗(yàn)課之一,是具有實(shí)際操作性和廣闊應(yīng)用前景的專業(yè)實(shí)驗(yàn)課。該課程要求學(xué)生掌握

9、一種統(tǒng)計(jì)語言,通過編寫程序,處理解決回歸、分類、聚類、社交網(wǎng)絡(luò)、關(guān)聯(lián)分析、文本挖掘等數(shù)據(jù)問題。通過該課程的學(xué)習(xí),使學(xué)生更深刻地認(rèn)識(shí)數(shù)據(jù)挖掘各模塊的實(shí)際應(yīng)用背景,處理方法,可以提高觀察、解決問題、科學(xué)思維以及從事科學(xué)研究的能力,養(yǎng)成嚴(yán)謹(jǐn)科學(xué)的作風(fēng)和良好的實(shí)驗(yàn)習(xí)慣,為后續(xù)課程的學(xué)習(xí)奠定必要的基礎(chǔ)。二、課程目標(biāo)通過本課程的實(shí)驗(yàn)教學(xué),學(xué)生應(yīng)具備下列能力:1. 能夠?qū)搿⑤敵龈鞣N類型的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單描述統(tǒng)計(jì)2. 能夠編寫建立線性回歸模型、非線性回歸模型、樹回歸模型的程序,并能夠通過程序檢驗(yàn)?zāi)P汀?. 能夠?qū)?shù)據(jù)進(jìn)行聚類分析、分類分析、關(guān)聯(lián)分析、社交網(wǎng)絡(luò)分析,并能夠?qū)ξ谋緮?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。三、實(shí)驗(yàn)

10、內(nèi)容及基本要求實(shí)驗(yàn)一 數(shù)據(jù)的輸入與導(dǎo)出1.掌握EXCEL數(shù)據(jù)、SAS數(shù)據(jù)、SPSS數(shù)據(jù)、文本數(shù)據(jù)等數(shù)據(jù)類型的輸入2.掌握其它從外部獲取數(shù)據(jù)源的方法3.掌握對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述4.掌握R數(shù)據(jù)的導(dǎo)出方法,以及熟悉R語言的常用統(tǒng)計(jì)命令實(shí)驗(yàn)二 多元線性回歸分析1.了解多元線性回歸模型的命令,能夠解釋回歸模型的系數(shù)2. 掌握殘差分析的方法3.了解Vif、updata、fit、predict等命令實(shí)驗(yàn)三 局部多項(xiàng)式回歸1.了解局部多項(xiàng)式回歸的應(yīng)用條件,使用背景2.掌握利用lm命令進(jìn)行局部多項(xiàng)式回歸3. 掌握局部多項(xiàng)式回歸的評(píng)價(jià)方法實(shí)驗(yàn)四 決策樹回歸 1.了解決策樹的基本原理 2.掌握tree、randomF

11、orest、gbm、Importance等命令的使用方法 3.能夠利用決策樹理論分析離線數(shù)據(jù)的回歸問題實(shí)驗(yàn)五 分類分析 1.理解Logistics回歸在二分類中的應(yīng)用2.掌握Logistics回歸命令glm、線性判別命令lda、二次判別命令qda,以及其它的用于分類判別的R命令3.了解各種判別方法的比較方法實(shí)驗(yàn)六 聚類分析 1.了解聚類分析的基本思想2.掌握聚類分析的幾種算法,K-means, k-medoids,系統(tǒng)聚類分,密度聚類法等,掌握R語言命令:Kmeans,hclust,cutree,pamk,dbscan等命令 3.能夠利用各種聚類方法對(duì)實(shí)際數(shù)據(jù)iries進(jìn)行聚類分析實(shí)驗(yàn)七 關(guān)聯(lián)

12、分析1.了解關(guān)聯(lián)規(guī)則的基本概念置信度、可信度、提升度,掌握關(guān)聯(lián)規(guī)則的冗余消除方法。2.掌握apriori算法,能夠利用arules包對(duì)數(shù)據(jù)Titanic進(jìn)行關(guān)聯(lián)分析,挖掘出有效的關(guān)聯(lián)規(guī)則。3.了解arulesviz包的使用,能夠?qū)?jīng)過冗余處理和裁剪的關(guān)聯(lián)規(guī)則進(jìn)行可視化處理 實(shí)驗(yàn)八 文本挖掘1、了解文本挖掘的常用的R包tm、jiebaR等,并掌握它們的安裝方法2. 掌握文本數(shù)據(jù)語料庫的建立命令Corpus,語料庫的處理命令tm_map;3、掌握分詞命令,建立詞項(xiàng)-文檔矩陣。4、能夠進(jìn)行詞頻統(tǒng)計(jì)分析以及詞項(xiàng)聚類; 5、利用詞云命令Wordcloud畫出詞云,找出關(guān)鍵詞。實(shí)驗(yàn)九 社交網(wǎng)絡(luò)分析1、了解

13、處理社交網(wǎng)絡(luò)的常用R包igraph;2、掌握社交網(wǎng)絡(luò)中節(jié)點(diǎn),中心點(diǎn),社區(qū)的概念;3、掌握igraph包命令graph.adjacency, simplify, V, degree,plot的使用。實(shí)驗(yàn)十 綜合案例分析1 綜合分析個(gè)案觀察數(shù)據(jù)1、了解個(gè)案觀測(cè)數(shù)據(jù)的變量分布特點(diǎn),掌握描述統(tǒng)計(jì)方法;2、掌握建立回歸方程的方法,比較各回歸方程的優(yōu)缺點(diǎn);3、掌握模型檢驗(yàn)的方法實(shí)驗(yàn)十一 綜合案例分析2 綜合分析大型超市零售記錄數(shù)據(jù)1、了解大型超市零售記錄數(shù)據(jù)的特點(diǎn),進(jìn)行描述統(tǒng)計(jì)2、掌握建立關(guān)聯(lián)規(guī)則的方法和進(jìn)行社交網(wǎng)絡(luò)分析的方法四、學(xué)時(shí)分配實(shí)驗(yàn)項(xiàng)目名稱實(shí)驗(yàn)性質(zhì)實(shí)驗(yàn)(學(xué)時(shí))實(shí)驗(yàn)一 數(shù)據(jù)的輸入與導(dǎo)出驗(yàn)證性2實(shí)驗(yàn)

14、二 多元線性回歸分析驗(yàn)證性2實(shí)驗(yàn)三 局部多項(xiàng)式回歸驗(yàn)證性2實(shí)驗(yàn)四 決策樹回歸驗(yàn)證性2實(shí)驗(yàn)五 分類分析驗(yàn)證性2實(shí)驗(yàn)六 聚類分析驗(yàn)證性2實(shí)驗(yàn)七 關(guān)聯(lián)分析驗(yàn)證性2實(shí)驗(yàn)八 文本挖掘綜合性4實(shí)驗(yàn)九 社交網(wǎng)絡(luò)分析驗(yàn)證性2實(shí)驗(yàn)十 綜合案例分析1綜合分析個(gè)案觀測(cè)數(shù)據(jù)綜合性2實(shí)驗(yàn)十一 綜合案例分析2 綜合分析大型超市零售記錄數(shù)據(jù)綜合性2合計(jì)24五、課程目標(biāo)達(dá)成評(píng)價(jià)的途徑和措施本課程中每次實(shí)驗(yàn)均是考核內(nèi)容,考核成績(jī)將是每次實(shí)驗(yàn)成績(jī)的均值。 每次實(shí)驗(yàn)成績(jī)分為“平時(shí)成績(jī)”、“實(shí)驗(yàn)報(bào)告成績(jī)”兩部分進(jìn)行評(píng)價(jià),考核成績(jī)計(jì)算公式如下(每次成績(jī)采用百分制):考核成績(jī) = 平時(shí)成績(jī)30% + 實(shí)驗(yàn)報(bào)告成績(jī)70% 平時(shí)成績(jī) = 出勤成績(jī) 1.平時(shí)成績(jī) 平時(shí)成績(jī)給定方法如下表所示:序號(hào)出勤次數(shù)成績(jī)12010021990-9531880-8541770-7551660-6561550-5571440-454小于等于130在課堂上能積極主動(dòng)回答問題,并回答正確者每次加10分;能積極主動(dòng)回答問題,但有缺陷者每次加5分,該成績(jī)加入平時(shí)成績(jī)中。如平時(shí)成績(jī)超過100分者,按最高分100分計(jì)。 2. 實(shí)驗(yàn)報(bào)告成績(jī):取所有實(shí)驗(yàn)報(bào)告成績(jī)的平均值。 每次實(shí)驗(yàn)報(bào)告成績(jī)給定方法如下表所示:序號(hào)實(shí)驗(yàn)報(bào)告完成情況課程目標(biāo)達(dá)成度成績(jī)1實(shí)驗(yàn)報(bào)告全部完成,正確率為100%,能夠用較簡(jiǎn)單的命令或方法解答實(shí)驗(yàn)內(nèi)容表明熟練掌握了課程知識(shí)點(diǎn)90-1002實(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論