




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘教學(xué)大綱課程名稱:數(shù)據(jù)課程編號:學(xué) 分:4課程類別:專業(yè)任選修課程挖掘開課單位:理學(xué)院B03081904總學(xué)時:40適用專業(yè):統(tǒng)計學(xué)專業(yè) 先修課程:概率論、數(shù)理統(tǒng)計、多元統(tǒng)訃分析等一、課程在教學(xué)計劃中地位、作用數(shù)據(jù)挖掘是20世紀(jì)末剛剛興起的數(shù)據(jù)智能分析技術(shù),山于有廣闊的應(yīng)用前景而備受 重視。數(shù)據(jù)挖掘作為一門新興的學(xué)科,在它的形成和發(fā)展過程中表現(xiàn)出了強(qiáng)大的生命 力,廣大從事數(shù)據(jù)科學(xué)和統(tǒng)計科學(xué)的科研工作者和工程技術(shù)人員迫切需要了解和掌握 它。數(shù)據(jù)挖掘自產(chǎn)生以來就是以分析數(shù)據(jù)、理解數(shù)據(jù)的實(shí)際需求為推動力的,其研究發(fā) 展也逐步滲透到工業(yè)、農(nóng)業(yè)、醫(yī)療衛(wèi)生和商業(yè)的實(shí)際需求當(dāng)中。數(shù)據(jù)挖掘涉及的內(nèi)容較
2、 為廣泛,已成為迅速發(fā)展并在信息社會中廣泛應(yīng)用的一門綜合性學(xué)科。數(shù)據(jù)挖掘已成為 計算機(jī)、統(tǒng)計學(xué)專業(yè)的一門重要課程,也是從事相關(guān)研究和應(yīng)用人員必須掌握的重要知 識。二、課程目標(biāo)通過本課程的實(shí)驗(yàn)教學(xué),使學(xué)生具備下列能力:(1)全面而深入地掌握數(shù)據(jù)挖掘的基本概念和原理,了解模型精度的評價方法。(2)深入地掌握線性回歸分析及模型的改進(jìn)與評價,掌握各種分類方法以及對其進(jìn) 行比較。能夠?qū)?shí)際數(shù)據(jù)進(jìn)行分類模型的建立,具有比較各方法的能力。(3)通過學(xué)習(xí)關(guān)聯(lián)分析、社交網(wǎng)絡(luò)分析以及文本挖掘,能夠?qū)?shí)際數(shù)據(jù)進(jìn)行處理、 分析,并建立解釋合理的統(tǒng)訃模型。三、課程內(nèi)容及基本要求第一章數(shù)據(jù)挖掘概述1、理解和掌握數(shù)據(jù)挖掘的
3、基本概念、數(shù)據(jù)挖掘過程以及數(shù)據(jù)挖掘功能:2、了解數(shù)據(jù)挖掘的應(yīng)用和面臨的問題;3、對數(shù)據(jù)挖掘能夠解決的問題和解決問題思路有清晰的認(rèn)識。第二章數(shù)據(jù)探索1、了解數(shù)據(jù)的導(dǎo)入與導(dǎo)出;2、了解單變量數(shù)據(jù)的探索方法;3、了解多變量數(shù)據(jù)的探索方法:4、掌握圖表的意義以及數(shù)據(jù)的描述統(tǒng)計。第三章回歸分析1、理解多元線性回歸模型的確定方法以及模型的檢驗(yàn)方法;2、理解基于樹的回歸分析方法;3、了解非線性回歸方法。第四章分類1、了解分類及預(yù)測的基本思想、概念和意義;2、掌握邏輯斯蒂回歸,掌握線性判別分析,了解非線性判別分析:3、了解分類方法的比較。第五章聚類分析1、了解聚類分析的基本思想、概念和意義;2、掌握相似度(或
4、相異度)的常用度量方法;3、掌握常用的聚類算法,包括 K-MeanS> SOM、BIRCH> DBSCAN> STING;4、了解孤立點(diǎn)分析的三類方法;了解其它方法的內(nèi)容;了解聚類分析的研究動態(tài)。第六章關(guān)聯(lián)規(guī)則1、了解關(guān)聯(lián)規(guī)則的基本思想、概念和意義;2、了解關(guān)聯(lián)規(guī)則挖掘的應(yīng)用背景;3、掌握常用的關(guān)聯(lián)規(guī)則算法,包括APriOri> GRI> SeQUenCe DeteCtion;4、了解關(guān)聯(lián)規(guī)則挖掘的研究動態(tài)。第七章文本挖掘1、了解文本挖掘的基本思想、概念和意義;2、掌握常用的文本挖掘的軟件包,了解分詞方法,掌握詞項(xiàng)-文檔矩陣的建立方 法。3、能夠進(jìn)行詞頻統(tǒng)訃分析以
5、及詞項(xiàng)聚類;3、能夠利用文本挖掘工具對實(shí)際文本數(shù)據(jù)進(jìn)行建模分析。第八章社交網(wǎng)絡(luò)分析1、了解社交網(wǎng)絡(luò)分析的基本思想、概念和意義:2、了解社交網(wǎng)絡(luò)分析的應(yīng)用背景;3、掌握社交網(wǎng)絡(luò)分析方法。第九章綜合案例分析1、了解數(shù)據(jù)挖掘課程所學(xué)內(nèi)容,能夠利用所學(xué)統(tǒng)訃模型建立合適的回歸方程;2、了解關(guān)聯(lián)規(guī)則和社交網(wǎng)絡(luò)分析在商品銷售中應(yīng)用:四、學(xué)時分配蘋節(jié)名稱講授(學(xué)時)實(shí)驗(yàn)(學(xué)時)小計第一章數(shù)據(jù)挖掘概述202第二章數(shù)據(jù)探索202第三章回歸分析808第四草分類404第五章聚類分析404第六章關(guān)聯(lián)規(guī)則404第七章文本挖掘606第八章社交網(wǎng)絡(luò)分析404第九章綜合案例分析606合計40040五、課程Ll標(biāo)達(dá)成評價的途徑和
6、措施本課程通過“平時成績”、“綜合數(shù)據(jù)分析答辯成績”兩種方式對課程H標(biāo)達(dá)成進(jìn) 行評價,考核成績計算公式如下(本大綱中成績均釆用百分制):考核成績=平時成績30% +綜合數(shù)據(jù)分析答辯成績70%平時成績二出勤成績序號出勤次數(shù)成績12010021990-9531880-8511770-7551660-6561550-5571440-15I小于等于13平時成績給定方法如下表所示:最高分100分計。1. 平時成績在課堂上能積極主動回答問題,并回答正確者每次加10分;能積極主動回答問題,但有缺陷者每次加5分,該成績加入平時成績中。如平時成績超過100分者,按2、綜合數(shù)據(jù)處理答辯成績綜合數(shù)據(jù)處理答辯成績給定
7、方法如下表所示:序號綜合數(shù)據(jù)處理答辯情況成績1統(tǒng)計描述恰為、圖表使用正確、統(tǒng)計方法正確結(jié)論合埋,檢 驗(yàn)有效90-1002統(tǒng)汁描述和圖表解祥不詳.統(tǒng)汁模型正確結(jié)論合理.檢驗(yàn)有 效80-893統(tǒng)汁描述恰十圖表適用正確,模型合理.結(jié)論合理,缺失模 型檢驗(yàn)70-79六、主要參考書1數(shù)據(jù)處理恰當(dāng)統(tǒng)計模型正確,結(jié)論較為合理,缺失模型檢驗(yàn)60-691 YanChang5數(shù)據(jù)處理有錯誤,建立統(tǒng)汁模型結(jié)論沒有有效分析31-596數(shù)據(jù)處理有錯誤,模型建立不合理0-30ZhaO (陳健黃琰譯)R語言與數(shù)據(jù)挖掘 最佳實(shí)踐和經(jīng)典案例機(jī)械匸業(yè)出版社2. LUiS TOrgO (李洪成、陳道輪 吳立明譯)數(shù)據(jù)挖掘與R語言機(jī)
8、械工業(yè)出版 社3. Gareth JameSJ DanieIa WittenJ TreVOr Hastie, RObert TibShirani (壬星譯) 統(tǒng)計學(xué)習(xí)導(dǎo)論基于R應(yīng)用.機(jī)械工業(yè)出版社數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大綱實(shí)驗(yàn)類別:專業(yè)教育課程實(shí)驗(yàn)學(xué)時:24實(shí)驗(yàn)室名稱:大學(xué)數(shù)學(xué)實(shí)驗(yàn)室適用專業(yè):統(tǒng)訃學(xué)專業(yè)計一、實(shí)驗(yàn)在教學(xué)計劃中地位.作用所屬課程名稱:數(shù)據(jù)挖掘?qū)嶒?yàn)所屬課程編碼:B03081904S實(shí)驗(yàn)室類別:基礎(chǔ)實(shí)驗(yàn)室教學(xué)中心先修課程:多元統(tǒng)計、概率論、數(shù)理統(tǒng)本課程是統(tǒng)計學(xué)專業(yè)的專業(yè)教育實(shí)驗(yàn)課之一,是具有實(shí)際操作性和廣闊應(yīng)用前景的 專業(yè)實(shí)驗(yàn)課。該課程要求學(xué)生掌握一種統(tǒng)訃語言,通過編寫程序,處理解決回歸、
9、分 類、聚類、社交網(wǎng)絡(luò)、關(guān)聯(lián)分析、文本挖掘等數(shù)據(jù)問題。通過該課程的學(xué)習(xí),使學(xué)生更 深刻地認(rèn)識數(shù)據(jù)挖掘各模塊的實(shí)際應(yīng)用背景,處理方法,可以提高觀察、解決問題、科 學(xué)思維以及從事科學(xué)研究的能力,養(yǎng)成嚴(yán)謹(jǐn)科學(xué)的作風(fēng)和良好的實(shí)驗(yàn)習(xí)慣,為后續(xù)課程 的學(xué)習(xí)奠定必要的基礎(chǔ)。二、課程目標(biāo)通過本課程的實(shí)驗(yàn)教學(xué),學(xué)生應(yīng)具備下列能力:1. 能夠?qū)搿⑤敵龈鞣N類型的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行簡單描述統(tǒng)計2. 能夠編寫建立線性回歸模型、非線性回歸模型、樹回歸模型的程序,并能夠通過 程序檢驗(yàn)?zāi)P汀?. 能夠?qū)?shù)據(jù)進(jìn)行聚類分析、分類分析、關(guān)聯(lián)分析、社交網(wǎng)絡(luò)分析,并能夠?qū)ξ谋?數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。三. 實(shí)驗(yàn)內(nèi)容及基本要求實(shí)驗(yàn)一數(shù)據(jù)的輸
10、入與導(dǎo)出1. 掌握EXCEL數(shù)據(jù)、SAS數(shù)據(jù)、SPSS數(shù)據(jù)、文本數(shù)據(jù)等數(shù)據(jù)類型的輸入2. 掌握其它從外部獲取數(shù)據(jù)源的方法3. 掌握對數(shù)據(jù)進(jìn)行統(tǒng)訃描述4. 掌握R數(shù)據(jù)的導(dǎo)出方法,以及熟悉R語言的常用統(tǒng)計命令實(shí)驗(yàn)二多元線性回歸分析1. 了解多元線性回歸模型的命令,能夠解釋回歸模型的系數(shù)2. 掌握殘差分析的方法3. 了解 V辻、UPdata、fit、PrediCt 等命令實(shí)驗(yàn)三局部多項(xiàng)式回歸1. 了解局部多項(xiàng)式回歸的應(yīng)用條件,使用背景2. 掌握利用Im命令進(jìn)行局部多項(xiàng)式回歸3. 掌握局部多項(xiàng)式回歸的評價方法實(shí)驗(yàn)四決策樹回歸1. 了解決策樹的基本原理2. 掌握 tree> randomFores
11、t > gbm> ImPOrtanCe 等命令的使用方法3. 能夠利用決策樹理論分析離線數(shù)據(jù)的回歸問題實(shí)驗(yàn)五分類分析1. 理解LOgiStiCS回歸在1.分類中的應(yīng)用2. 掌握LOgiStiCS回歸命令glm、線性判別命令I(lǐng)da、二次判別命令qdd,以及其它 的用于分類判別的R命令3. 了解各種判別方法的比較方法實(shí)驗(yàn)六聚類分析1. 了解聚類分析的基本思想2. 掌握聚類分析的兒種算法,K-means, k-medoids,系統(tǒng)聚類分,密度聚類法等, 掌握 R 語言命令:Kmeans, hclust, CUtree, PanIk, dbscan 等命令3. 能夠利用各種聚類方法對實(shí)際數(shù)
12、據(jù)iries進(jìn)行聚類分析實(shí)驗(yàn)七關(guān)聯(lián)分析1. 了解關(guān)聯(lián)規(guī)則的基本概念置信度、可信度、提升度,掌握關(guān)聯(lián)規(guī)則的冗余消除方 法。2. 掌握apriori算法,能夠利用arules包對數(shù)據(jù)TitaniC進(jìn)行關(guān)聯(lián)分析,挖掘出有 效的關(guān)聯(lián)規(guī)則。3. 了解arulesviz包的使用,能夠?qū)?jīng)過冗余處理和裁剪的關(guān)聯(lián)規(guī)則進(jìn)行可視化處 理實(shí)驗(yàn)八文本挖掘1、了解文本挖掘的常用的R包tm、JiebaR等,并掌握它們的安裝方法2、掌握文本數(shù)據(jù)語料庫的建立命令COrPUS,語料庫的處理命令3、掌握分詞命令,建立詞項(xiàng)-文檔矩陣。4、能夠進(jìn)行詞頻統(tǒng)訃分析以及詞項(xiàng)聚類:5、利用詞云命令WOrdCIOUd畫出詞云,找出關(guān)鍵詞。實(shí)驗(yàn)
13、九社交網(wǎng)絡(luò)分析1、了解處理社交網(wǎng)絡(luò)的常用R包igraph;2、掌握社交網(wǎng)絡(luò)中節(jié)點(diǎn),中心點(diǎn),社區(qū)的概念;3、掌握 igraph 包命令,simplify, V, degree, PIOt 的使用。實(shí)驗(yàn)十綜合案例分析1綜合分析個案觀察數(shù)據(jù)1、了解個案觀測數(shù)據(jù)的變量分布特點(diǎn),掌握描述統(tǒng)訃方法;2、掌握建立回歸方程的方法,比較各回歸方程的優(yōu)缺點(diǎn):3、掌握模型檢驗(yàn)的方法實(shí)驗(yàn)十一 綜合案例分析2綜合分析大型超市零售記錄數(shù)據(jù)1、了解大型超市零售記錄數(shù)據(jù)的特點(diǎn),進(jìn)行描述統(tǒng)汁2、掌握建立關(guān)聯(lián)規(guī)則的方法和進(jìn)行社交網(wǎng)絡(luò)分析的方法四、學(xué)時分配實(shí)驗(yàn)項(xiàng)目名稱實(shí)驗(yàn)性質(zhì)實(shí)驗(yàn)(學(xué)時)實(shí)驗(yàn)一數(shù)據(jù)的輸入與導(dǎo)出驗(yàn)證性2實(shí)驗(yàn)二多元線性
14、回歸分析驗(yàn)證性2實(shí)驗(yàn)三局部多項(xiàng)式回歸驗(yàn)證性2實(shí)驗(yàn)四決策樹回歸驗(yàn)證性2實(shí)驗(yàn)五分類分析驗(yàn)證性2實(shí)驗(yàn)六聚類分析驗(yàn)證性2實(shí)驗(yàn)七關(guān)聯(lián)分析驗(yàn)證性2實(shí)驗(yàn)八文木挖掘綜合性4實(shí)驗(yàn)九社交網(wǎng)絡(luò)分析驗(yàn)證性2實(shí)驗(yàn)十綜合案例分析1綜合分析個案觀測數(shù)據(jù)綜合性2實(shí)驗(yàn)十一綜合案例分析2綜合分析大型超市零售記錄數(shù)據(jù)綜合性2合計24五、課程Ll標(biāo)達(dá)成評價的途徑和措施本課程中每次實(shí)驗(yàn)均是考核內(nèi)容,考核成績將是每次實(shí)驗(yàn)成績的均值。每次實(shí)驗(yàn)成績分為“平時成績”、“實(shí)驗(yàn)報告成績”兩部分進(jìn)行評價,考核成績計 算公式如下(每次成績采用百分制):考核成績=平時成績30% +實(shí)驗(yàn)報告成績70%平時成績二出勤成績1 平時成績平時成績給定方法如下表所示:序號出勤次數(shù)成績12010021990-9531880-8511770-7551660-6561550-5571440-451小于等于130在課堂上能積極主動回答問 題,并回答正確者每次加10分; 能積極主動回答問題,但有缺陷者 每次加5分,該成績加入平時成績 中。如平時成績超過100分者,按 最高分100分計。2.實(shí)驗(yàn)報告成績:取所有實(shí)驗(yàn)報告成績的平均值。每次實(shí)驗(yàn)報告成績給定方法如下表所示:序號實(shí)驗(yàn)報告完成情況課程目標(biāo)達(dá)成度成績1實(shí)驗(yàn)報告全部完成.正確率為100%,能夠 用較簡爪的命令或方法解答實(shí)驗(yàn)內(nèi)容表明熟練學(xué)握了課程知識點(diǎn)90-1002
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 互聯(lián)網(wǎng)建設(shè)合同范本
- 分期合同范本模板
- 廠子務(wù)工合同范例
- 吊車協(xié)議合同范本
- 廈門合同范例范例
- 制造加工企業(yè)勞動合同范例
- 保供煤合同范例
- 出售商用烤箱合同范例
- 沙子承包的合同范本
- 同意賣公司股合同范例
- 《合理調(diào)節(jié)情緒-做自己情緒的主人》班會課件
- 20222023學(xué)年山西省朔州市朔城區(qū)七年級(下)期末語文試卷(解析)
- 國家義務(wù)教育質(zhì)量監(jiān)測心理健康和德育測試題
- 農(nóng)民橡膠割膠技術(shù)培訓(xùn)方案
- 新編物理基礎(chǔ)學(xué)(下冊)(9-17章)課后習(xí)題(每題都有)詳細(xì)答案
- 絕經(jīng)綜合征(中醫(yī))評定量表
- 村委會會議簽到表
- 中考物理復(fù)習(xí)交流
- 《紅樓夢》中的女性群像-賈府的庶女們
- 營養(yǎng)風(fēng)險篩查(NRS2002)解讀
- 餐飲店巡店表
評論
0/150
提交評論