數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-教學大綱_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-教學大綱_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-教學大綱_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-教學大綱_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-教學大綱_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學大綱 一、 課程概況課程名稱:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘英文名稱:Data warehousing and data mining課程性質:選修課程學時:32課程學分:2授課對象:信息類的大學本科高年級學生開課時間:三年級下學期講課方式:課堂+實驗主講老師: 二、 教學目的本課程把數(shù)據(jù)視為基礎資源,根據(jù)軟件工程的思想,總結了數(shù)據(jù)利用的歷程,講述了數(shù)據(jù)倉庫的基礎知識和工具,研究了數(shù)據(jù)挖掘的任務及其挑戰(zhàn),給出了經典的數(shù)據(jù)挖掘算法,介紹了數(shù)據(jù)挖掘的產品,剖析了稅務數(shù)據(jù)挖掘的案例,探索了大數(shù)據(jù)的管理和應用問題。三、 教學任務完成數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教材內容,及教學

2、計劃中的互動實踐內容,另有學生自主選題的大作業(yè)、選作的論文報告。32學時:課堂24、實驗2、課外2、研討4學時。四、 教學內容的結構課程由9個教學單元組成,對應于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的內容。第1章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘概述1.1概述11.2數(shù)據(jù)中心41.2.1關系型數(shù)據(jù)中心1.2.2非關系型數(shù)據(jù)中心1.2.3混合型數(shù)據(jù)中心(大數(shù)據(jù)平臺)1.3混合型數(shù)據(jù)中心參考架構第2章 數(shù)據(jù)2.1數(shù)據(jù)的概念2.2數(shù)據(jù)的內容2.2.1實時數(shù)據(jù)與歷史數(shù)據(jù)2.2.2時態(tài)數(shù)據(jù)與事務數(shù)據(jù)2.2.3圖形數(shù)據(jù)與圖像數(shù)據(jù)2.2.4主題數(shù)據(jù)與全部數(shù)據(jù)2.2.5空間數(shù)據(jù)2.2.6序列數(shù)據(jù)和數(shù)據(jù)流2.2.7元數(shù)據(jù)與數(shù)據(jù)字典2.3數(shù)據(jù)屬性

3、及數(shù)據(jù)集2.4數(shù)據(jù)特征的統(tǒng)計描述222.4.1集中趨勢222.4.2離散程度232.4.3數(shù)據(jù)的分布形狀252.5數(shù)據(jù)的可視化262.6數(shù)據(jù)相似與相異性的度量292.7數(shù)據(jù)質量322.8數(shù)據(jù)預處理322.8.1被污染的數(shù)據(jù)332.8.2數(shù)據(jù)清理352.8.3數(shù)據(jù)集成362.8.4數(shù)據(jù)變換372.8.5數(shù)據(jù)規(guī)約38第3章 數(shù)據(jù)倉庫與數(shù)據(jù)ETL基礎393.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫393.2數(shù)據(jù)倉庫的結構393.2.1兩層體系結構413.2.2三層體系結構413.2.3組成元素423.3數(shù)據(jù)倉庫的數(shù)據(jù)模型433.3.1概念模型433.3.2邏輯模型433.3.3物理模型463.4 ETL463.4.1數(shù)

4、據(jù)抽取473.4.2數(shù)據(jù)轉換483.4.3數(shù)據(jù)加載493.5 OLAP493.5.1維493.5.2 OLAP與OLTP493.5.3 OLAP的基本操作503.6 OLAP的數(shù)據(jù)模型513.6.1 ROLAP523.6.2 MOLAP523.6.3 HOLAP53第四章 數(shù)據(jù)倉庫和ETL工具544.1 IBM DB2 V104.1.1自適應壓縮544.1.2多溫度存儲554.1.3時間旅行查詢564.1.4 DB2兼容性功能604.1.5工作負載管理614.1.6 PureXML624.1.7當前已落實634.1.8 DB2 PureScale Feature634.1.9 分區(qū)特性654.

5、1.10并行技術674.1.11 SQW684.1.12 Cubing Services684.1.13 列式存儲及壓縮技術(BLU)704.2 InfoSphere Datastage714.2.1基于Information Server的架構724.2.2企業(yè)級實施和管理754.2.3高擴展的體系架構794.2.4具備線性擴充能力814.2.5 ETL元數(shù)據(jù)管理824.3 InfoSphere QualityStage82第5章 數(shù)據(jù)挖掘基礎845.1數(shù)據(jù)挖掘的起源845.2數(shù)據(jù)挖掘的定義855.3數(shù)據(jù)挖掘的任務865.3.1分類5.3.2回歸分析5.3.3相關分析5.3.4聚類分析5.3

6、.5關聯(lián)規(guī)則5.3.6異常檢測5.4數(shù)據(jù)挖掘標準流程5.4.1商業(yè)理解5.4.2數(shù)據(jù)理解5.4.3數(shù)據(jù)準備5.4.4建立模型5.4.5模型評估5.4.6結果部署5.5數(shù)據(jù)挖掘的十大挑戰(zhàn)性問題5.5.1數(shù)據(jù)挖掘統(tǒng)一理論的探索5.5.2高維數(shù)據(jù)和高速數(shù)據(jù)流的研究與應用5.5.3時序數(shù)據(jù)的挖掘與降噪5.5.4從復雜數(shù)據(jù)中找尋復雜知識5.5.5網(wǎng)絡環(huán)境中的數(shù)據(jù)挖掘5.5.6分布式數(shù)據(jù)挖掘5.5.7生物醫(yī)學和環(huán)境科學數(shù)據(jù)挖掘5.5.8數(shù)據(jù)挖掘過程自動化與可視化5.5.9信息安全與隱私保護5.5.10動態(tài)、不平衡及成本敏感數(shù)據(jù)的挖掘第6章 數(shù)據(jù)挖掘算法6.1算法概述6.1.1分類算法及評估指標6.1.2聚

7、類算法及其評價指標6.2 C4.56.3 CART算法6.4 K-Means 算法6.5 SVM算法1216.6 Apriori算法6.7 EM算法6.8 PageRank6.9Adaboost算法6.10KNN算法6.11Naive Bayes第7章 數(shù)據(jù)挖掘工具與產品7.1 數(shù)據(jù)挖掘工具概述7.2 商業(yè)數(shù)據(jù)挖掘工具IBM SPSS Modeler7.3 開源通用的數(shù)據(jù)挖掘工具WEKA第8章 數(shù)據(jù)挖掘案例8.1概述8.2納稅評估示例8.3稅收預測建模示例8.4稅務行業(yè)納稅人客戶細分探索8.5基于Hadoop平臺的數(shù)據(jù)挖掘思考題第9章 大數(shù)據(jù)管理9.1 什么是大數(shù)據(jù)9.2 Hadoop介紹9.3 NoSQL介紹9.4 InfoSphere BigInsights 3.0介紹五、 教學活動以及教學方法上的基本要求課堂教學、實驗、課外作業(yè)、自選題目的大作業(yè)、論文和報告結合,另有課外討論環(huán)節(jié)。通過課堂教學講解基本原理和方法;通過互動實踐課鞏固課堂教學內容,并在助教輔導下完成基礎實驗,由助教驗收;課外作業(yè)由學生獨立完成,并提交系統(tǒng)進行評分。自選題目的大作業(yè)可以分組進行,要在期中提交選題報告,期末提交全部文檔及程序并且逐一答辯。答辯形式為:學生演示9分鐘,教師提問3分鐘,當即給出成績。論文和報告屬于加分因素。課外討論安排在每次課堂教學之后,加1學時,自愿參加,每

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論