模塊1 緒論《Python數據挖掘實戰(zhàn)》教學課件_第1頁
模塊1 緒論《Python數據挖掘實戰(zhàn)》教學課件_第2頁
模塊1 緒論《Python數據挖掘實戰(zhàn)》教學課件_第3頁
模塊1 緒論《Python數據挖掘實戰(zhàn)》教學課件_第4頁
模塊1 緒論《Python數據挖掘實戰(zhàn)》教學課件_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《Python數據挖掘實戰(zhàn)》?精品課件合集《Python數據挖掘實戰(zhàn)》第一章緒論二、

數據挖掘的基本步驟

一、數據挖掘概述主要內容三、數據挖掘的常見任務四、數據挖掘的主要工具4

為什么挖掘數據?大量數據被收集,存儲在數據庫、數據 倉庫中。計算機越來越便宜,功能越來越強大。數據爆炸但知識貧乏。人們積累的數據越來越多。但是,目前這些數據還僅僅應用在數據的錄入、查詢、統(tǒng)計等功能,無法發(fā)現數據中存在的關系和規(guī)則,無法根據現有的數據預測未來的發(fā)展趨勢,導致了“數據爆炸但知識貧乏”的現象。一、數據挖掘概述為什么挖掘數據?數據以極快的速度收集和存儲(GB/hour)傳統(tǒng)的技術難以處理這些——

rawdata低價值密度的數據許多數據根本未曾分析過數據挖掘可能幫助科學家一、數據挖掘概述定義:數據、信息和知識(1)數據(Data):以文本、數字、圖形、聲音和視頻等形式對現實世界中的某種實體、事件或活動的記錄,是未經加工和修飾的原料。(2)信息(Information):是為了特定的目的,對數據進行過濾、融合、標準化、歸類等一系列處理后得到的有價值的數據流。(3)知識(Knowledge):是通過對信息進行歸納、演繹、提煉和總結,得到的更具價值的觀點、規(guī)律或者方法論。一、數據挖掘概述什么是數據挖掘?定義:數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。其它名字:Knowledgediscovery(mining)indatabases(KDD),knowledgeextraction,data/patternanalysis,informationharvesting一、數據挖掘概述數據挖掘的歷史演變一、數據挖掘概述數據挖掘是多學科交叉領域利用了來自如下一些領域的思想:統(tǒng)計學的抽樣、估計和假設檢驗人工智能、機器學習的搜索算法、建模技術和學習理論數據庫系統(tǒng)提供有效的存儲、索引和查詢處理支持此外,還包括:分布式技術、最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索等技術。MachineLearning/AIStatisticsDataMiningDatabasesystems一、數據挖掘概述

在什么樣的數據上進行挖掘?在計算機科學中,數據是數字、文字、聲音、圖像、視頻等可以輸入到計算機并被識別的符號。如:企業(yè)運營數據用戶數據視頻、游戲數據等從表現形式上:數字、文本、聲音、圖像、視頻等從數據組織和存儲方式上看,分為:結構化數據非結構數據一、數據挖掘概述通常,數據挖掘可以在任何類型的數據上進行,包括:關系數據庫、數據倉庫、事務數據庫、高級數據庫系統(tǒng)、文本、Web、日志、圖像、視頻、語音等。

在什么樣的數據上進行挖掘?一、數據挖掘概述數據挖掘的應用

數據挖掘技術的應用非常廣泛,在金融、電子商務、醫(yī)學、市場營銷、生物學、科學研究等方面均有大量應用,例如:信貸風險管理反洗錢監(jiān)測客戶關系管理蛋白質分子結構預測股票交易地震預警商品推薦一、數據挖掘概述二、數據挖掘的一般流程典型的數據分析的流程:需求分析:數據分析中的需求分析也是數據分析環(huán)節(jié)的第一步和最重要的步驟之一,決定了后續(xù)的分析的方向、方法。數據獲?。簲祿菙祿治龉ぷ鞯幕A,是指根據需求分析的結果提取,收集數據。數據預處理:數據預處理是指對數據進行數據合并,數據清洗,數據變換和數據標準化,數據變換后使得整體數據變?yōu)楦蓛粽R,可以直接用于分析建模這一過程的總稱。數據挖掘建模:通過統(tǒng)計分析、回歸分析、聚類、分類、關聯(lián)規(guī)則、智能推薦等模型與算法發(fā)現數據中的有價值信息,并得出結論的過程。模型評價與優(yōu)化:模型評價是指對已經建立的一個或多個模型,根據其模型的類別,使用不同的指標評價其性能優(yōu)劣的過程。部署:部署是指將通過了正式應用數據分析結果與結論應用至實際生產系統(tǒng)的過程。二、數據挖掘的一般流程三、數據挖掘的常見任務預測vs.描述預測(Prediction)根據其他屬性的值,預測特定屬性的值描述(Description)導出概括數據中潛在聯(lián)系的模式三、數據挖掘的常見任務預測vs.描述預測(Prediction)根據其他屬性的值,預測特定屬性的值描述(Description)導出概括數據中潛在聯(lián)系的模式任務類型:分類(Classification)[Predictive]回歸(Regression)[Predictive]關聯(lián)規(guī)則發(fā)現(AssociationRuleDiscovery)[Descriptive]聚類(Clustering)[Descriptive]異常/偏差檢測(Anomaly/DeviationDetection)[Predictive]時間序列分析(timeseriesanalysis)四、數據挖掘工具介紹

數據挖掘是一個包含多個步驟的復雜數據處理流程,在實施過程中必須依賴特定的數據挖掘工具或軟件,才能取得較好的結果。商業(yè)化的數據挖掘軟件:SAS的EnterpriseMiner,IBM的SPSSModeler,Oracle的DataMiner等開源數據挖掘軟件:Weka,RapidMiner,KNIME等基于腳本語言的工具:如Python語言,R語言等語法簡單精練。對于初學者來說,比起其他編程語言,Python更容易上手。有很強大的庫。可以只使用Python這一種語言去構建以數據為中心的應用程序。功能強大。Python是一個混合體,豐富的工具集使它介于傳統(tǒng)的腳本語言和系統(tǒng)語言之間。Python不僅具備所有腳本語言簡單和易用的特點,還提供了編譯語言所具有的高級軟件工程工具。不僅適用于研究和原型構建,同時也適用于構建生產系統(tǒng)。研究人員和工程技術人員使用同一種編程工具,會給企業(yè)帶來非常顯著的組織效益,并降低企業(yè)的運營成本。Python是一門膠水語言。Python程序能夠以多種方式輕易地與其他語言的組件“粘接”在一起。Python數據分析主要包含以下5個方面優(yōu)勢四、數據挖掘工具介紹快速高效的多維數組對象ndarray。對數組執(zhí)行元素級的計算以及直接對數組執(zhí)行數學運算的函數。讀寫硬盤上基于數組的數據集的工具。線性代數運算、傅里葉變換,以及隨機數生成的功能。將C、C++、Fortran代碼集成到Python的工具。

Python數據分析常用類庫1.NumPy(NumericalPython)——

Python科學計算的基礎包四、數據挖掘工具介紹SciPy主要包含了8個模塊,不同的子模塊有不同的應用,如插值、積分、優(yōu)化、圖像處理和特殊函數等。egrate數值積分例程和微分方程求解器scipy.linalg擴展了由numpy.linalg提供的線性代數例程和矩陣分解功能scipy.optimize函數優(yōu)化器(最小化器)以及根查找算法scipy.signal信號處理工具scipy.sparse稀疏矩陣和稀疏線性系統(tǒng)求解器scipy.specialSPECFUN(這是一個實現了許多常用數學函數的Fortran庫)的包裝器scipy.stats檢驗連續(xù)和離散概率分布、各種統(tǒng)計檢驗方法,以及更好的描述統(tǒng)計法scipy.weave利用內聯(lián)C++代碼加速數組計算的工具2.SciPy——專門解決科學計算中各種標準問題域的模塊的集合四、數據挖掘工具介紹提供了一系列能夠快速、便捷地處理結構化數據的數據結構和函數。高性能的數組計算功能以及電子表格和關系型數據庫(如SQL)靈活的數據處理功能。復雜精細的索引功能,以便便捷地完成重塑、切片和切塊、聚合及選取數據子集等操作。3.Pandas——數據訪問的核心庫四、數據挖掘工具介紹Python的2D繪圖庫,非常適合創(chuàng)建出版物上用的圖表。操作比較容易,只需幾行代碼即可生成直方圖、功率譜圖、條形圖、錯誤圖和散點圖等圖形。提供了pylab的模塊,其中包括了NumPy和pyplot中許多常用的函數,方便用戶快速進行計算和繪圖。交互式的數據繪圖環(huán)境,繪制的圖表也是交互式的。4.Matplotlib——繪制數據圖表的Python庫四、數據挖掘工具介紹簡單有效,可以供用戶在各種環(huán)境下重復使用。封裝了一些常用的算法方法。基本模塊主要有數據預處理、模型選擇、分類、聚類、數據降維和回歸6個,在數據量不大的情況下,scikit-learn可以解決大部分問題。5.scikit-learn——數據挖掘和數據分析工具四、數據挖掘工具介紹Python環(huán)境的安裝和配置學習編程語言的第一關,就是安裝和環(huán)境配置。我們必須與計算機約定如何理解代碼、指令和語法,才能夠順利地與計算機交流,賦予它復雜的功能。Python便是其中的一種“方言”。對于新手,Python及其第三方模塊在安裝環(huán)節(jié)有許多已知的難題。比如源碼編譯的安裝方式、環(huán)境變量的配置、不同模塊之間的版本依賴問題。為了避免不必要的麻煩,我們將采用更加簡單的安裝方式。本書使用的是Python的科學計算發(fā)行版——Anaconda。

除Python本身之外,Anaconda囊括了科學計算和數據分析所需的主流模塊,獨立的包管理工具Conda,以及兩款不同風格的編輯器Jupyter和Spyder.四、數據挖掘工具介紹預裝了大量常用Packages。完全開源和免費。額外的加速和優(yōu)化是收費的,但對于學術用途,可以申請免費的License。對全平臺和幾乎所有Python版本支持。

Python的Anaconda發(fā)行版Anaconda最新版本的下載地址:/download四、數據挖掘工具介紹安裝包——“next”——“Iagree”——“AllUsers(requiresadminprivileges)”——選擇安裝路徑——“Install”——“finish”。在Wind

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論