




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、?數(shù)據(jù)挖掘?教學(xué)大綱課程類別:專業(yè)任選修課程課程名稱:數(shù)據(jù)挖掘開課單位:理學(xué)院課程編號:B03081904總學(xué)時:40學(xué) 分:4適用專業(yè):統(tǒng)計學(xué)專業(yè)先修課程:概率論、數(shù)理統(tǒng)計、多元統(tǒng)計分析等一、課程在教學(xué)方案中地位、作用數(shù)據(jù)挖掘是20世紀(jì)末剛剛興起的數(shù)據(jù)智能分析技術(shù),由于有廣闊的應(yīng)用前景而備受重視.數(shù)據(jù)挖掘作為一門新興的學(xué)科,在它的形成和開展過程中表現(xiàn)出了強(qiáng)大的生命力,廣闊從事數(shù)據(jù)科學(xué)和統(tǒng)計科 ,一 一, 學(xué)的科研工作者和工程技術(shù)人員迫切需要了解和掌握它.數(shù)據(jù)挖掘自產(chǎn)生以來就是以分析數(shù)據(jù)、 理解數(shù)據(jù)的實際需求為推動力的,其研究開展也逐步滲透到工業(yè)、農(nóng)業(yè)、醫(yī)療衛(wèi)生和商業(yè)的實際需求當(dāng)中. 數(shù)據(jù)挖掘
2、涉及的內(nèi)容較為廣泛,已成為迅速開展并在信息社會中廣泛應(yīng)用的一門綜合性學(xué)科.數(shù)據(jù)挖掘已成為計算機(jī)、統(tǒng)計學(xué)專業(yè)的一門重要課程,也是從事相關(guān)研究和應(yīng)用人員必須掌握的重要知識.二、課程目標(biāo)通過本課程的實驗教學(xué),使學(xué)生具備以下水平:(1)全面而深入地掌握數(shù)據(jù)挖掘的根本概念和原理,了解模型精度的評價方法.(2)深入地掌握線性回歸分析及模型的改進(jìn)與評價,掌握各種分類方法以及對其進(jìn)行比較.能夠 對實際數(shù)據(jù)進(jìn)行分類模型的建立,具有比較各方法的水平.(3)通過學(xué)習(xí)關(guān)聯(lián)分析、社交網(wǎng)絡(luò)分析以及文本挖掘,能夠?qū)嶋H數(shù)據(jù)進(jìn)行處理、分析,并建立 解釋合理的統(tǒng)計模型.L_ I三、課程內(nèi)容及根本要求第一章數(shù)據(jù)挖掘概述1、理解和
3、掌握數(shù)據(jù)挖掘的根本概念、數(shù)據(jù)挖掘過程以及數(shù)據(jù)挖掘功能;2、了解數(shù)據(jù)挖掘的應(yīng)用和面臨的問題;3、對數(shù)據(jù)挖掘能夠解決的問題和解決問題思路有清楚的熟悉.第二章數(shù)據(jù)探索1、了解數(shù)據(jù)的導(dǎo)入與導(dǎo)出;2、了解單變量數(shù)據(jù)的探索方法;3、了解多變量數(shù)據(jù)的探索方法;4、掌握圖表的意義以及數(shù)據(jù)的描述統(tǒng)計.第三章回歸分析1、理解多元線性回歸模型確實定方法以及模型的檢驗方法;歡迎閱讀2、理解基于樹的回歸分析方法;3、了解非線性回歸方法.第四章分類1、了解分類及預(yù)測的根本思想、概念和意義;2、掌握邏輯斯蒂回歸,掌握線性判別分析,了解非線性判別分析;3、了解分類方法的比較.第五章聚類分析1、了解聚類分析的根本思想、概念和意
4、義;2、掌握相似度或相異度的常用度量方法;3、 掌握常用的聚類算法,包括 K-Means、SOM、BIRCH DBSCAN STING4、了解孤立點分析的三類方法;了解其它方法的內(nèi)容;了解聚類分析的研究動態(tài).第六章關(guān)聯(lián)規(guī)那么1、了解關(guān)聯(lián)規(guī)那么的根本思想、概念和意義;2、了解關(guān)聯(lián)規(guī)那么挖掘的應(yīng)用背景;3、掌握常用的關(guān)聯(lián)規(guī)那么算法,包括 Apriori、GRI、Sequence Detection ;4、了解關(guān)聯(lián)規(guī)那么挖掘的研究動態(tài).第七章文本挖掘r "!i1、了解文本挖掘的根本思想、概念和意義;.-12、掌握常用的文本挖掘的軟件包,了解分詞方法,掌握詞項-文檔矩陣的建立方法.3、能夠進(jìn)
5、行詞頻統(tǒng)計分析以及詞項聚類;3、能夠利用文本挖掘工具對實際文本數(shù)據(jù)進(jìn)行建模分析.第八章社交網(wǎng)絡(luò)分析1、了解社交網(wǎng)絡(luò)分析的根本思想、概念和意義;2、了解社交網(wǎng)絡(luò)分析的應(yīng)用背景; T I * J3、掌握社交網(wǎng)絡(luò)分析方法.第九章綜合案例分析 | .1、了解數(shù)據(jù)挖掘課程所學(xué)內(nèi)容,能夠利用所學(xué)統(tǒng)計模型建立適宜的回歸方程;2、了解關(guān)聯(lián)規(guī)那么和社交網(wǎng)絡(luò)分析在商品銷售中應(yīng)用;四、學(xué)時分配章節(jié)名稱講授學(xué)時實驗學(xué)時小計第一章數(shù)據(jù)挖掘概述202第二章數(shù)據(jù)探索202第三章回歸分析808第四章分類404第五章聚類分析404第六章關(guān)聯(lián)規(guī)那么404第七章文本挖掘606第八章社交網(wǎng)絡(luò)分析404第九章綜合案例分析606合計40
6、040五、課程目標(biāo)達(dá)成評價的途徑和舉措本課程通過“平時成績、“綜合數(shù)據(jù)分析辯論成績兩種方式對課程目標(biāo)達(dá)成進(jìn)行評價,考核成績計算公式如下本大綱中成績均采用百分制:考核成績=平時成績30% +綜合數(shù)據(jù)分析辯論成績 70%平時成績=出勤成績1.平時成績序號出勤次數(shù)成績12010021990-9531880-8541770-7551660-6561550-5571440-454小于等于130平時成績給定方法如下表所示:在課堂上能積極主動答復(fù)以下問題, 并回答正確者每次加10分;能積極主動答復(fù) 問題,但有缺陷者每次加 5分,該成績加 入平時成績中.如平時成績超過100分者, 按最高分100分計.2、綜合
7、數(shù)據(jù)處理辯論成績綜合數(shù)據(jù)處理辯論成績給定方法如序號綜合數(shù)據(jù)處理辯論情況成績1統(tǒng)計描述恰當(dāng)、圖表使用正確、統(tǒng)計方法正確,結(jié)論合理,檢驗 有效90-1002統(tǒng)計描述和圖表解釋不詳,統(tǒng)計模型正確,結(jié)論合理,檢驗有效80-893統(tǒng)計描述恰當(dāng),圖表適用正確,模型合理,結(jié)論合理,缺失模型 檢驗70-794數(shù)據(jù)處理恰當(dāng),統(tǒng)計模型正確,結(jié)論較為合理,缺失模型檢驗60-695數(shù)據(jù)處理有錯誤,建立統(tǒng)計模型,結(jié)論沒有有效分析31-596數(shù)據(jù)處理有錯誤,模型建立不合理1 10-30六、主要參考書1. YanchangZhao 陳健 黃琰 譯.R語言與數(shù)據(jù)挖掘最正確實踐和經(jīng)典案例.機(jī)械工業(yè)出版社2. Luis Torg
8、o 律下表所示:洪成、陳道輪 吳立明譯.數(shù)據(jù)挖掘與R語言.機(jī)械工業(yè)出版社3. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani王星譯.統(tǒng)計學(xué)習(xí)導(dǎo)論 基于 R應(yīng)用.機(jī)械工業(yè)出版社?數(shù)據(jù)挖掘?qū)嶒?教學(xué)大綱實驗類別:專業(yè)教育課程實驗學(xué)時:24所屬課程名稱:數(shù)據(jù)挖掘?qū)嶒炈鶎僬n程編碼:B03081904S歡迎閱讀實驗室類別:根底實驗室教學(xué)中央先修課程:多元統(tǒng)計、概率論、數(shù)理統(tǒng)計實驗室名稱:大學(xué)數(shù)學(xué)實驗室適用專業(yè):統(tǒng)計學(xué)專業(yè) 一、實驗在教學(xué)方案中地位、作用本課程是統(tǒng)計學(xué)專業(yè)的專業(yè)教育實驗課之一,是具有實際操作性和廣闊應(yīng)用前景的專業(yè)
9、實驗課.該課程要求學(xué)生掌握一種統(tǒng)計語言,通過編寫程序,處理解決回歸、分類、聚類、社交網(wǎng)絡(luò)、關(guān)聯(lián)分析、文本挖掘等數(shù)據(jù)問題.通過該課程的學(xué)習(xí),使學(xué)生更深刻地熟悉數(shù)據(jù)挖掘各模塊的實際應(yīng)用背景,處理方法,可以提升觀察、解決問題、科學(xué)思維以及從事科學(xué)研究的水平,養(yǎng)成嚴(yán)謹(jǐn)科學(xué)的作風(fēng)和良好的實驗習(xí)慣,為后續(xù)課程的學(xué)習(xí)奠定必要的根底.二、課程目標(biāo)通過本課程的實驗教學(xué),學(xué)生應(yīng)具備以下水平:1 .能夠?qū)?、輸出各種類型的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行簡單描述統(tǒng)計2 .能夠編寫建立線性回歸模型、非線性回歸模型、 樹回歸模型的程序, 并能夠通過程序檢驗?zāi)P?3 .能夠?qū)?shù)據(jù)進(jìn)行聚類分析、分類分析、關(guān)聯(lián)分析、社交網(wǎng)絡(luò)分析,并能夠?qū)?/p>
10、文本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘.三、實驗內(nèi)容及根本要求 實驗一 數(shù)據(jù)的輸入與導(dǎo)出1 .掌握EXCE嗷據(jù)、SAS數(shù)據(jù)、SPSS數(shù)據(jù)、文本數(shù)據(jù)等數(shù)據(jù)類型的輸入2 .掌握其它從外部獲取數(shù)據(jù)源的方法3 .掌握對數(shù)據(jù)進(jìn)行統(tǒng)計描述4 .掌握R數(shù)據(jù)的導(dǎo)出方法,以及熟悉R語言的常用統(tǒng)計命令實驗二 多元線性回歸分析1. 了解多元線性回歸模型的命令,能夠解釋回歸模型的系數(shù) J I b " iI2. 掌握殘差分析的方法3. 了解 Vif、updata、fit 、predict 等命令 .實驗三局部多項式回歸1 .了解局部多項式回歸的應(yīng)用條件,使用背景2 .掌握利用lm命令進(jìn)行局部多項式回歸3 .掌握局部多項式回歸的
11、評價方法實驗四決策樹回歸1 .了解決策樹的根本原理2 . 掌握 tree 、 randomForest 、 gbm Importance 等命令的使用方法3 .能夠利用決策樹理論分析離線數(shù)據(jù)的回歸問題 實驗五分類分析1 .理解Logistics 回歸在二分類中的應(yīng)用2 .掌握Logistics 回歸命令glm、線性判別命令I(lǐng)da、二次判別命令 qda,以及其它的用于分類判 別的R命令3 . 了解各種判別方法的比較方法實驗六聚類分析1 .了解聚類分析的根本思想2 .掌握聚類分析的幾種算法,K-means, k-medoids ,系統(tǒng)聚類分,密度聚類法等,掌握 R語言命令:Kmeans hclus
12、t , cutree , pamk, dbscan 等命令3 .能夠利用各種聚類方法對實際數(shù)據(jù)iries進(jìn)行聚類分析實驗七關(guān)聯(lián)分析1.了解關(guān)聯(lián)規(guī)那么的根本概念置信度、可信度、提升度,掌握關(guān)聯(lián)規(guī)那么的冗余消除方法.2.掌握apriori算法,能夠利用arules包對數(shù)據(jù)Titanic 進(jìn)行關(guān)聯(lián)分析,挖掘出有效的關(guān)聯(lián)規(guī)那么.3. 了解arulesviz包的使用,能夠?qū)?jīng)過冗余處理和裁剪的關(guān)聯(lián)規(guī)那么進(jìn)行可視化處理實驗八文本挖掘1、了解文本挖掘的常用的R包tm、jiebaR等,并掌握它們的安裝方法2.掌握文本數(shù)據(jù)語料庫的建立命令Corpus,語料庫的處理命令 tm_map ;3、掌握分詞命令,建立詞項
13、-文檔矩陣.4、能夠進(jìn)行詞頻統(tǒng)計分析以及詞項聚類;r" ¥0'< jr'5、利用詞云命令 Wordcloud畫出詞云,找出關(guān)鍵詞.實驗九社交網(wǎng)絡(luò)分析1、了解處理社交網(wǎng)絡(luò)的常用R包igraph;2、掌握社交網(wǎng)絡(luò)中節(jié)點,中央點,社區(qū)的概念;3、 掌握 igraph 包命令 graph.adjacency, simplify, V, degree, plot 的使用.實驗十綜合案例分析1綜合分析個案觀察數(shù)據(jù)1、了解個案觀測數(shù)據(jù)的變量分布特點,掌握描述統(tǒng)計方法; T I* - J2、掌握建立回歸方程的方法,比較各回歸方程的優(yōu)缺點;3、掌握模型檢驗的方法實驗十一
14、綜合案例分析2綜合分析大型超市零售記錄數(shù)據(jù)1、了解大型超市零售記錄數(shù)據(jù)的特點,進(jìn)行描述統(tǒng)計2、掌握建立關(guān)聯(lián)規(guī)那么的方法和進(jìn)行社交網(wǎng)絡(luò)分析的方法 四、學(xué)時分配實驗工程名稱實驗性質(zhì)實驗學(xué)時實驗一 數(shù)據(jù)的輸入與導(dǎo)出驗證性2實驗二多元線性回歸分析驗證性2實驗三局部多項式回歸驗證性2實驗四決策樹回歸驗證性2實驗五分類分析驗證性2實驗六聚類分析驗證性2歡迎閱讀實驗七關(guān)聯(lián)分析驗證性2實驗八文本挖掘綜合性4實驗九社交網(wǎng)絡(luò)分析驗證性2實驗十綜合案區(qū)J分析1綜合分析個案觀測數(shù)據(jù)綜合性2實驗十一綜合案區(qū)J分析2綜合分析大型超市零售記錄數(shù)據(jù)綜合性2合計24五、課程目標(biāo)達(dá)成評價的途徑和舉措本課程中每次實驗均是考核內(nèi)容,
15、考核成績將是每次實驗成績的均值.每次實驗成績分為“平時成績、“實驗報告成績兩局部進(jìn)行評價,考核成績計算公式如下每次成績采用百分制:考核成績=平時成績30% +實驗報告成績70%平時成績=出勤成績1.平時成績平時成績給定方法如下表所示:序號出勤次數(shù)成績在課堂上能積極主動答復(fù)以下問題,并回120100答正確者每次加10分;能積極主動答復(fù)21990-95問題,但有缺陷者每次加 5分,該成績加31880-85入平時成績中.如平時成績超過100分者, 按最高分100分計.41770-7551660-6561550-552.實驗報告成績:取所有實驗報告71440-454小于等于130成績的平均值.1 1 ',一每次實驗報告成績給定方法如卜表所示:序號實驗報告完成情況課程目標(biāo)達(dá)成度成績1實驗報告全部完成,正確率為100%能夠用較簡單的命令或方法解答實驗內(nèi)容說明熟練掌握了課程知識
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)殖庫房出售合同范本
- 單位鍋爐人員合同范本
- 個體工商合同范本
- 專業(yè)白蟻防治服務(wù)合同范本
- 養(yǎng)老機(jī)構(gòu)銷售合同范本
- 醫(yī)療設(shè)備議標(biāo)合同范本
- 化工鋼材采購合同范例
- 介紹費(fèi)協(xié)議合同范本
- 勞務(wù)派遣合同勞動合同范本
- 辦公品合同范本
- 《會展經(jīng)濟(jì)與策劃》課件
- 工廠廠區(qū)道路拆除實施方案
- 新課標(biāo)背景下的跨學(xué)科學(xué)習(xí)內(nèi)涵、設(shè)置邏輯與實踐原則
- 公寓管家培訓(xùn)課件
- 新大象版科學(xué)四年級下冊全冊教學(xué)設(shè)計
- 《民間工藝美術(shù)》課件
- 車站值班員(中級)職業(yè)鑒定題庫(含答案)
- 2025教科版一年級科學(xué)下冊教學(xué)計劃
- 分娩前的準(zhǔn)備
- 部編版小學(xué)三年級語文下冊作文教學(xué)計劃
- 中學(xué)生勞動安全課件
評論
0/150
提交評論