




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)挖掘教學(xué)大綱課程類別:專業(yè)任選修課程 課程名稱:數(shù)據(jù)挖掘開課單位:理學(xué)院 課程編號:B總學(xué)時:40 學(xué) 分:4適用專業(yè):統(tǒng)計學(xué)專業(yè)先修課程:概率論、數(shù)理統(tǒng)計、多元統(tǒng)計分析等 一、課程在教學(xué)計劃中地位、作用數(shù)據(jù)挖掘是20世紀末剛剛興起的數(shù)據(jù)智能分析技術(shù),由于有廣闊的應(yīng)用前景而備受重視。數(shù)據(jù)挖掘作為一門新興的學(xué)科,在它的形成和發(fā)展過程中表現(xiàn)出了強大的生命力,廣大從事數(shù)據(jù)科學(xué)和統(tǒng)計科學(xué)的科研工作者和工程技術(shù)人員迫切需要了解和掌握它。數(shù)據(jù)挖掘自產(chǎn)生以來就是以分析數(shù)據(jù)、理解數(shù)據(jù)的實際需求為推動力的,其研究發(fā)展也逐步滲透到工業(yè)、農(nóng)業(yè)、醫(yī)療衛(wèi)生和商業(yè)的實際需求當(dāng)中。數(shù)據(jù)挖掘涉及
2、的內(nèi)容較為廣泛,已成為迅速發(fā)展并在信息社會中廣泛應(yīng)用的一門綜合性學(xué)科。數(shù)據(jù)挖掘已成為計算機、統(tǒng)計學(xué)專業(yè)的一門重要課程,也是從事相關(guān)研究和應(yīng)用人員必須掌握的重要知識。二、課程目標通過本課程的實驗教學(xué),使學(xué)生具備下列能力:(1)全面而深入地掌握數(shù)據(jù)挖掘的基本概念和原理,了解模型精度的評價方法。(2)深入地掌握線性回歸分析及模型的改進與評價,掌握各種分類方法以及對其進行比較。能夠?qū)嶋H數(shù)據(jù)進行分類模型的建立,具有比較各方法的能力。(3)通過學(xué)習(xí)關(guān)聯(lián)分析、社交網(wǎng)絡(luò)分析以及文本挖掘,能夠?qū)嶋H數(shù)據(jù)進行處理、分析,并建立解釋合理的統(tǒng)計模型。三、課程內(nèi)容及基本要求第一章 數(shù)據(jù)挖掘概述1、理解和掌握數(shù)據(jù)挖掘的
3、基本概念、數(shù)據(jù)挖掘過程以及數(shù)據(jù)挖掘功能;2、了解數(shù)據(jù)挖掘的應(yīng)用和面臨的問題;3、對數(shù)據(jù)挖掘能夠解決的問題和解決問題思路有清晰的認識。第二章 數(shù)據(jù)探索1、了解數(shù)據(jù)的導(dǎo)入與導(dǎo)出;2、了解單變量數(shù)據(jù)的探索方法;3、了解多變量數(shù)據(jù)的探索方法;4、掌握圖表的意義以及數(shù)據(jù)的描述統(tǒng)計。第三章 回歸分析1、理解多元線性回歸模型的確定方法以及模型的檢驗方法; 2、理解基于樹的回歸分析方法; 3、了解非線性回歸方法。第四章 分類1、了解分類及預(yù)測的基本思想、概念和意義;2、掌握邏輯斯蒂回歸,掌握線性判別分析,了解非線性判別分析;3、了解分類方法的比較。第五章 聚類分析1、了解聚類分析的基本思想、概念和意義;2、
4、掌握相似度(或相異度)的常用度量方法;3、 掌握常用的聚類算法,包括K-Means、SOM 、BIRCH、DBSCAN、STING;4、了解孤立點分析的三類方法;了解其它方法的內(nèi)容;了解聚類分析的研究動態(tài)。第六章 關(guān)聯(lián)規(guī)則 1、了解關(guān)聯(lián)規(guī)則的基本思想、概念和意義;2、了解關(guān)聯(lián)規(guī)則挖掘的應(yīng)用背景; 3、掌握常用的關(guān)聯(lián)規(guī)則算法,包括Apriori、GRI、Sequence Detection;4、了解關(guān)聯(lián)規(guī)則挖掘的研究動態(tài)。第七章 文本挖掘1、了解文本挖掘的基本思想、概念和意義;2、掌握常用的文本挖掘的軟件包,了解分詞方法,掌握詞項-文檔矩陣的建立方法。3、能夠進行詞頻統(tǒng)計分析以及詞項聚類; 3、
5、能夠利用文本挖掘工具對實際文本數(shù)據(jù)進行建模分析。第八章 社交網(wǎng)絡(luò)分析1、了解社交網(wǎng)絡(luò)分析的基本思想、概念和意義;2、了解社交網(wǎng)絡(luò)分析的應(yīng)用背景;3、掌握社交網(wǎng)絡(luò)分析方法。第九章 綜合案例分析1、了解數(shù)據(jù)挖掘課程所學(xué)內(nèi)容,能夠利用所學(xué)統(tǒng)計模型建立合適的回歸方程;2、了解關(guān)聯(lián)規(guī)則和社交網(wǎng)絡(luò)分析在商品銷售中應(yīng)用;四、學(xué)時分配章節(jié)名稱講授(學(xué)時)實驗(學(xué)時)小計第一章 數(shù)據(jù)挖掘概述202第二章 數(shù)據(jù)探索202第三章 回歸分析808第四章 分類404第五章 聚類分析404第六章 關(guān)聯(lián)規(guī)則404第七章 文本挖掘606第八章 社交網(wǎng)絡(luò)分析404第九章 綜合案例分析606合計40040五、課程目標達成評價的途
6、徑和措施本課程通過“平時成績”、 “綜合數(shù)據(jù)分析答辯成績”兩種方式對課程目標達成進行評價,考核成績計算公式如下(本大綱中成績均采用百分制):考核成績 = 平時成績30% +綜合數(shù)據(jù)分析答辯成績70%平時成績 = 出勤成績 1.平時成績 平時成績給定方法如下表所示:序號出勤次數(shù)成績12010021990-9531880-8541770-7551660-6561550-5571440-454小于等于130在課堂上能積極主動回答問題,并回答正確者每次加10分;能積極主動回答問題,但有缺陷者每次加5分,該成績加入平時成績中。如平時成績超過100分者,按最高分100分計。2、綜合數(shù)據(jù)處理答辯成績 綜合數(shù)
7、據(jù)處理答辯成績給定方法如下表所示:序號綜合數(shù)據(jù)處理答辯情況成績1統(tǒng)計描述恰當(dāng)、圖表使用正確、統(tǒng)計方法正確,結(jié)論合理,檢驗有效90-1002統(tǒng)計描述和圖表解釋不詳,統(tǒng)計模型正確,結(jié)論合理,檢驗有效80-893統(tǒng)計描述恰當(dāng),圖表適用正確,模型合理,結(jié)論合理,缺失模型檢驗70-794數(shù)據(jù)處理恰當(dāng),統(tǒng)計模型正確,結(jié)論較為合理,缺失模型檢驗60-695數(shù)據(jù)處理有錯誤,建立統(tǒng)計模型,結(jié)論沒有有效分析31-596數(shù)據(jù)處理有錯誤,模型建立不合理0-30六、主要參考書1. Yanchang Zhao (陳健 黃琰 譯). R語言與數(shù)據(jù)挖掘 最佳實踐和經(jīng)典案例. 機械工業(yè)出版社2. Luis Torgo (李洪成
8、、陳道輪 吳立明譯) . 數(shù)據(jù)挖掘與R語言. 機械工業(yè)出版社3. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani(王星譯). 統(tǒng)計學(xué)習(xí)導(dǎo)論 基于R應(yīng)用. 機械工業(yè)出版社數(shù)據(jù)挖掘?qū)嶒灲虒W(xué)大綱實驗類別:專業(yè)教育課程 所屬課程名稱:數(shù)據(jù)挖掘?qū)嶒瀸嶒瀸W(xué)時:24 所屬課程編碼:BS實驗室名稱:大學(xué)數(shù)學(xué)實驗室 實驗室類別:基礎(chǔ)實驗室教學(xué)中心適用專業(yè):統(tǒng)計學(xué)專業(yè) 先修課程:多元統(tǒng)計、概率論、數(shù)理統(tǒng)計一、實驗在教學(xué)計劃中地位、作用 本課程是統(tǒng)計學(xué)專業(yè)的專業(yè)教育實驗課之一,是具有實際操作性和廣闊應(yīng)用前景的專業(yè)實驗課。該課程要求學(xué)生掌握
9、一種統(tǒng)計語言,通過編寫程序,處理解決回歸、分類、聚類、社交網(wǎng)絡(luò)、關(guān)聯(lián)分析、文本挖掘等數(shù)據(jù)問題。通過該課程的學(xué)習(xí),使學(xué)生更深刻地認識數(shù)據(jù)挖掘各模塊的實際應(yīng)用背景,處理方法,可以提高觀察、解決問題、科學(xué)思維以及從事科學(xué)研究的能力,養(yǎng)成嚴謹科學(xué)的作風(fēng)和良好的實驗習(xí)慣,為后續(xù)課程的學(xué)習(xí)奠定必要的基礎(chǔ)。二、課程目標通過本課程的實驗教學(xué),學(xué)生應(yīng)具備下列能力:1. 能夠?qū)搿⑤敵龈鞣N類型的數(shù)據(jù),并對數(shù)據(jù)進行簡單描述統(tǒng)計2. 能夠編寫建立線性回歸模型、非線性回歸模型、樹回歸模型的程序,并能夠通過程序檢驗?zāi)P汀?. 能夠?qū)?shù)據(jù)進行聚類分析、分類分析、關(guān)聯(lián)分析、社交網(wǎng)絡(luò)分析,并能夠?qū)ξ谋緮?shù)據(jù)進行數(shù)據(jù)挖掘。三、實驗
10、內(nèi)容及基本要求實驗一 數(shù)據(jù)的輸入與導(dǎo)出1.掌握EXCEL數(shù)據(jù)、SAS數(shù)據(jù)、SPSS數(shù)據(jù)、文本數(shù)據(jù)等數(shù)據(jù)類型的輸入2.掌握其它從外部獲取數(shù)據(jù)源的方法3.掌握對數(shù)據(jù)進行統(tǒng)計描述4.掌握R數(shù)據(jù)的導(dǎo)出方法,以及熟悉R語言的常用統(tǒng)計命令實驗二 多元線性回歸分析1.了解多元線性回歸模型的命令,能夠解釋回歸模型的系數(shù)2. 掌握殘差分析的方法3.了解Vif、updata、fit、predict等命令實驗三 局部多項式回歸1.了解局部多項式回歸的應(yīng)用條件,使用背景2.掌握利用lm命令進行局部多項式回歸3. 掌握局部多項式回歸的評價方法實驗四 決策樹回歸 1.了解決策樹的基本原理 2.掌握tree、randomF
11、orest、gbm、Importance等命令的使用方法 3.能夠利用決策樹理論分析離線數(shù)據(jù)的回歸問題實驗五 分類分析 1.理解Logistics回歸在二分類中的應(yīng)用2.掌握Logistics回歸命令glm、線性判別命令lda、二次判別命令qda,以及其它的用于分類判別的R命令3.了解各種判別方法的比較方法實驗六 聚類分析 1.了解聚類分析的基本思想2.掌握聚類分析的幾種算法,K-means, k-medoids,系統(tǒng)聚類分,密度聚類法等,掌握R語言命令:Kmeans,hclust,cutree,pamk,dbscan等命令 3.能夠利用各種聚類方法對實際數(shù)據(jù)iries進行聚類分析實驗七 關(guān)聯(lián)
12、分析1.了解關(guān)聯(lián)規(guī)則的基本概念置信度、可信度、提升度,掌握關(guān)聯(lián)規(guī)則的冗余消除方法。2.掌握apriori算法,能夠利用arules包對數(shù)據(jù)Titanic進行關(guān)聯(lián)分析,挖掘出有效的關(guān)聯(lián)規(guī)則。3.了解arulesviz包的使用,能夠?qū)?jīng)過冗余處理和裁剪的關(guān)聯(lián)規(guī)則進行可視化處理 實驗八 文本挖掘1、了解文本挖掘的常用的R包tm、jiebaR等,并掌握它們的安裝方法2. 掌握文本數(shù)據(jù)語料庫的建立命令Corpus,語料庫的處理命令tm_map;3、掌握分詞命令,建立詞項-文檔矩陣。4、能夠進行詞頻統(tǒng)計分析以及詞項聚類; 5、利用詞云命令Wordcloud畫出詞云,找出關(guān)鍵詞。實驗九 社交網(wǎng)絡(luò)分析1、了解
13、處理社交網(wǎng)絡(luò)的常用R包igraph;2、掌握社交網(wǎng)絡(luò)中節(jié)點,中心點,社區(qū)的概念;3、掌握igraph包命令graph.adjacency, simplify, V, degree,plot的使用。實驗十 綜合案例分析1 綜合分析個案觀察數(shù)據(jù)1、了解個案觀測數(shù)據(jù)的變量分布特點,掌握描述統(tǒng)計方法;2、掌握建立回歸方程的方法,比較各回歸方程的優(yōu)缺點;3、掌握模型檢驗的方法實驗十一 綜合案例分析2 綜合分析大型超市零售記錄數(shù)據(jù)1、了解大型超市零售記錄數(shù)據(jù)的特點,進行描述統(tǒng)計2、掌握建立關(guān)聯(lián)規(guī)則的方法和進行社交網(wǎng)絡(luò)分析的方法四、學(xué)時分配實驗項目名稱實驗性質(zhì)實驗(學(xué)時)實驗一 數(shù)據(jù)的輸入與導(dǎo)出驗證性2實驗
14、二 多元線性回歸分析驗證性2實驗三 局部多項式回歸驗證性2實驗四 決策樹回歸驗證性2實驗五 分類分析驗證性2實驗六 聚類分析驗證性2實驗七 關(guān)聯(lián)分析驗證性2實驗八 文本挖掘綜合性4實驗九 社交網(wǎng)絡(luò)分析驗證性2實驗十 綜合案例分析1綜合分析個案觀測數(shù)據(jù)綜合性2實驗十一 綜合案例分析2 綜合分析大型超市零售記錄數(shù)據(jù)綜合性2合計24五、課程目標達成評價的途徑和措施本課程中每次實驗均是考核內(nèi)容,考核成績將是每次實驗成績的均值。 每次實驗成績分為“平時成績”、“實驗報告成績”兩部分進行評價,考核成績計算公式如下(每次成績采用百分制):考核成績 = 平時成績30% + 實驗報告成績70% 平時成績 = 出勤成績 1.平時成績 平時成績給定方法如下表所示:序號出勤次數(shù)成績12010021990-9531880-8541770-7551660-6561550-5571440-454小于等于130在課堂上能積極主動回答問題,并回答正確者每次加10分;能積極主動回答問題,但有缺陷者每次加5分,該成績加入平時成績中。如平時成績超過100分者,按最高分100分計。 2. 實驗報告成績:取所有實驗報告成績的平均值。 每次實驗報告成績給定方法如下表所示:序號實驗報告完成情況課程目標達成度成績1實驗報告全部完成,正確率為100%,能夠用較簡單的命令或方法解答實驗內(nèi)容表明熟練掌握了課程知識點90-1002實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流專業(yè)托管承包合同
- 普法宣講【法律學(xué)堂】第八章 訴訟保全申請書-ldfjxs004
- 肇慶市實驗中學(xué)高三上學(xué)期語文高效課堂教學(xué)設(shè)計:詩歌鑒賞3
- 沈陽化工大學(xué)《汽車文化》2023-2024學(xué)年第一學(xué)期期末試卷
- 江西省上饒市玉山縣2025年三下數(shù)學(xué)期末質(zhì)量檢測模擬試題含解析
- 玉溪市通海縣2025年五年級數(shù)學(xué)第二學(xué)期期末檢測試題含答案
- 西安建筑科技大學(xué)華清學(xué)院《運動控制系統(tǒng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 吉林市昌邑區(qū)2025屆數(shù)學(xué)三下期末復(fù)習(xí)檢測試題含解析
- 深圳市華僑實驗中學(xué)2024-2025學(xué)年初三下-期中考試生物試題試卷含解析
- 內(nèi)蒙古鄂托克旗2025年初三下學(xué)期二模(4月)生物試題含解析
- 《孔雀魚組》課件
- 2024年河南質(zhì)量工程職業(yè)學(xué)院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 《習(xí)近平法治思想概論(第二版)》 課件 11.第十一章 堅持依法治國、依法執(zhí)政、依法行政共同推進法治國家、法治政府、法治社會一體建設(shè)
- 2024版編劇網(wǎng)絡(luò)劇保密及收益分配協(xié)議3篇
- 李四光《看看我們的地球》原文閱讀
- 2025年道德與法治二輪專題復(fù)習(xí)課件:生命安全與健康教育
- 2024年全國“紀檢監(jiān)察”業(yè)務(wù)相關(guān)知識考試題庫(附含答案)
- 湖南長沙長郡中學(xué)2025屆高考英語二模試卷含解析
- 科技改變生活英文課件
- DB22JT 143-2015 住宅工程質(zhì)量常見問題防控技術(shù)規(guī)程
- 更換窗戶施工方案
評論
0/150
提交評論