Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)PPT完整全套教學(xué)課件

上傳人：b*** IP屬地：浙江上傳時(shí)間：2023-06-28 格式：PPTX 頁數(shù)：632 大?。?2.81MB 積分：35 舉報(bào) 版權(quán)申訴

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)PPT完整全套教學(xué)課件_第2頁

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)PPT完整全套教學(xué)課件_第3頁

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)PPT完整全套教學(xué)課件_第4頁

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)PPT完整全套教學(xué)課件_第5頁

已閱讀5頁，還剩627頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘基礎(chǔ)第1章數(shù)據(jù)挖掘基礎(chǔ)第2章Python數(shù)據(jù)分析簡(jiǎn)介第3章數(shù)據(jù)探索第4章數(shù)據(jù)預(yù)處理第5章數(shù)據(jù)挖掘算法基礎(chǔ)-（1）分類與回歸第5章數(shù)據(jù)挖掘算法基礎(chǔ)-（2）聚類第5章數(shù)據(jù)挖掘算法基礎(chǔ)-（3）關(guān)聯(lián)規(guī)則第5章數(shù)據(jù)挖掘算法基礎(chǔ)-（4）智能推薦第5章數(shù)據(jù)挖掘算法基礎(chǔ)-（5）時(shí)間序列第5章數(shù)據(jù)挖掘算法基礎(chǔ)第6章信用卡高風(fēng)險(xiǎn)客戶識(shí)別第7章餐飲企業(yè)菜品關(guān)聯(lián)分析第8章金融服務(wù)機(jī)構(gòu)資金流量預(yù)測(cè)第9章O2O優(yōu)惠券使用預(yù)測(cè)第10章電視產(chǎn)品個(gè)性化推薦第11章基于TipDM數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)金融服務(wù)機(jī)構(gòu)資金流量預(yù)測(cè)1數(shù)據(jù)挖掘的基本任務(wù)目錄數(shù)據(jù)挖掘發(fā)展史2數(shù)據(jù)挖掘的通用流程3常用數(shù)據(jù)挖掘建模工具4Python數(shù)據(jù)挖掘環(huán)境配置5數(shù)據(jù)挖掘的發(fā)展史1989年從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)（KDD）1995年第一屆國際知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘大會(huì)1997第三屆國際學(xué)術(shù)大會(huì)數(shù)據(jù)挖掘發(fā)展史數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)中的核心部分，它是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有價(jià)值的信息的過程。1數(shù)據(jù)挖掘的基本任務(wù)目錄數(shù)據(jù)挖掘發(fā)展史2數(shù)據(jù)挖掘的通用流程3常用數(shù)據(jù)挖掘建模工具4Python數(shù)據(jù)挖掘環(huán)境配置5分類與回歸預(yù)測(cè)分類是一種對(duì)離散型隨機(jī)變量建?；蝾A(yù)測(cè)的方法，如：客戶流失預(yù)測(cè)；而回歸是通過建模來研究變量之間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)以及進(jìn)行模型預(yù)測(cè)的工具，如財(cái)政收入預(yù)測(cè)等。

數(shù)據(jù)挖掘的基本任務(wù)聚類分析代墊學(xué)生高收入貿(mào)易文書高矮低收入Group1Group2Group3Groupn

聚類分析是指在預(yù)先不知道類別標(biāo)簽的情況下，根據(jù)信息的相似度原則進(jìn)行信息聚集的一種方法。目的是使得類別內(nèi)數(shù)據(jù)的“差異性”盡可能小(即“同質(zhì)性”盡可能大)，類別間“差異性”盡可能大。數(shù)據(jù)挖掘的基本任務(wù)關(guān)聯(lián)規(guī)則關(guān)聯(lián)模式挖掘旨在從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系。這種存在于給定數(shù)據(jù)集中的頻繁出現(xiàn)的關(guān)聯(lián)模式，又稱為關(guān)聯(lián)規(guī)則。前項(xiàng)(Antecedent)后項(xiàng)(Consequent)蔬菜鮮魚紅酒?啤酒?前項(xiàng)(Antecedent)后項(xiàng)(Consequent)耳機(jī)?內(nèi)存?手機(jī)配飾前提(1)&前提(2)&…&前提(m)

結(jié)論AntecedentsConsequentBuyingPattern

數(shù)據(jù)挖掘的基本任務(wù)智能推薦智能推薦用于聯(lián)系用戶和信息，并利用信息分析用戶的興趣偏好，為用戶推薦感興趣信息。數(shù)據(jù)挖掘的基本任務(wù)

時(shí)間序列

對(duì)不同時(shí)間下取得的樣本數(shù)據(jù)進(jìn)行挖掘，用于分析樣本數(shù)據(jù)之間的變化趨勢(shì)，如：股指預(yù)測(cè)、天氣預(yù)測(cè)等。時(shí)間

數(shù)據(jù)挖掘的基本任務(wù)1數(shù)據(jù)挖掘的基本任務(wù)目錄數(shù)據(jù)挖掘發(fā)展史2數(shù)據(jù)挖掘的通用流程3常用數(shù)據(jù)挖掘建模工具4Python數(shù)據(jù)挖掘環(huán)境配置5數(shù)據(jù)挖掘的通用流程數(shù)據(jù)挖掘的通用流程抽取數(shù)據(jù)的標(biāo)準(zhǔn)：相關(guān)性、可靠性、有效性衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)：資料完整無缺，各類指標(biāo)項(xiàng)齊全；數(shù)據(jù)準(zhǔn)確無誤，反映的都是正常狀態(tài)下的水平。數(shù)據(jù)挖掘的通用流程隨機(jī)抽樣等距抽樣分層抽樣按起始順序抽樣分類抽樣抽取方式：1數(shù)據(jù)挖掘的基本任務(wù)目錄數(shù)據(jù)挖掘發(fā)展史2數(shù)據(jù)挖掘的通用流程3常用數(shù)據(jù)挖掘建模工具4Python數(shù)據(jù)挖掘環(huán)境配置5常用數(shù)據(jù)挖掘建模工具Python是一種面向?qū)ο?、解釋性的?jì)算機(jī)程序設(shè)計(jì)語言，它擁有高效的數(shù)據(jù)結(jié)構(gòu)。

R是一種由統(tǒng)計(jì)計(jì)算基金會(huì)支持的用于統(tǒng)計(jì)計(jì)算和圖形的編程語言和自由軟件環(huán)境，R語言及其庫實(shí)現(xiàn)了各種各樣的統(tǒng)計(jì)和圖形技術(shù)，包括線性和非線性建模、時(shí)間序列分析、分類、聚類等。常用數(shù)據(jù)挖掘建模工具M(jìn)atlab是一種主要用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語言。常用數(shù)據(jù)挖掘建模工具SPSS(StatisticalProductandServiceSolutions)采用類似EXCEL表格的方式輸入與管理數(shù)據(jù)，數(shù)據(jù)接口較為通用，能方便的從其他數(shù)據(jù)庫中讀入數(shù)據(jù)，輸出結(jié)果十分美觀。常用數(shù)據(jù)挖掘建模工具KNIME是基于Java開發(fā)的，采用類似數(shù)據(jù)流的方式來建立分析挖掘模型。常用數(shù)據(jù)挖掘建模工具RapidMiner也叫YALE(YetAnotherLearningEnvironment)，提供圖形化界面，拖拽操作，無需編程，運(yùn)算速度快。常用數(shù)據(jù)挖掘建模工具TipDM開源建模平臺(tái)是基于Python引擎的，可以通過拖拽功能組件的方式實(shí)現(xiàn)數(shù)據(jù)的輸入輸出，數(shù)據(jù)預(yù)處理，挖掘建模，模型評(píng)估等操作，以達(dá)到數(shù)據(jù)挖掘的目的。常用數(shù)據(jù)挖掘建模工具1數(shù)據(jù)挖掘的基本任務(wù)目錄數(shù)據(jù)挖掘發(fā)展史2數(shù)據(jù)挖掘的通用流程3常用數(shù)據(jù)挖掘建模工具4Python數(shù)據(jù)挖掘環(huán)境配置5Anaconda是一個(gè)Python的集成開發(fā)環(huán)境，可以便捷的地獲取庫，且提供對(duì)庫的管理功能，對(duì)環(huán)境可以進(jìn)行統(tǒng)一管理。Python數(shù)據(jù)挖掘環(huán)境配置Python數(shù)據(jù)挖掘環(huán)境配置Python數(shù)據(jù)挖掘環(huán)境配置Python數(shù)據(jù)挖掘環(huán)境配置Python數(shù)據(jù)挖掘環(huán)境配置Python數(shù)據(jù)挖掘環(huán)境配置Python數(shù)據(jù)挖掘環(huán)境配置小結(jié)本章節(jié)主要介紹數(shù)據(jù)挖掘的基礎(chǔ)知識(shí)，包括數(shù)據(jù)挖掘的發(fā)展史、基本任務(wù)、通用流程和常用工具，以及Python數(shù)據(jù)挖掘的環(huán)境配置。數(shù)據(jù)挖掘的基本任務(wù)包括分類與回歸、聚類、關(guān)聯(lián)規(guī)則、智能推薦、時(shí)間序列。數(shù)據(jù)挖掘的通用流程包括了目標(biāo)分析、數(shù)據(jù)抽取、數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、分析與建模、模型評(píng)價(jià)。常用的挖掘工具包括了Python、R、Matlab、IBMSPSSModeler、TipDM開源數(shù)據(jù)挖掘建模平臺(tái)等。

Python數(shù)據(jù)挖掘編程基礎(chǔ)1Python數(shù)據(jù)分析預(yù)處理常用庫目錄Python使用入門2Python數(shù)據(jù)挖掘建模常用庫和框架3賦值運(yùn)算乘法運(yùn)算冪運(yùn)算多重賦值字符串操作基本命令基本運(yùn)算a=3a*3a**3a,b,c=1,2,3#多重賦值#字符串操作a='ThisisthePythonworld'a+'Welcome!'#將a與'Welcome!'拼接，得到'ThisisthePythonworldWelcome!'a.split('')#將a以空格分割，得到列表['This','is','the','Python','world']基本命令基本運(yùn)算判斷語句基本命令判斷與循環(huán)程序1程序2程序3if條件表達(dá)式：

elif條件表達(dá)式：

FalseTrueFalseTruefor循環(huán)語句基本命令條件表達(dá)式FalseTrue循環(huán)體while循環(huán)語句基本命令while條件表達(dá)式：True程序Falseforiinrange(1,5,1):print(i)基本命令range函數(shù)Python要像C語言的格式進(jìn)行循環(huán)，實(shí)際上需要的是一個(gè)數(shù)字序列。range函數(shù)能夠快速構(gòu)造一個(gè)數(shù)字序列。defpea(x):returnx+1print(pea(1))#輸出結(jié)果為2基本命令函數(shù)

函數(shù)是Python為了代碼效率的最大化，減少冗余而提供的最基本的程序結(jié)構(gòu)。Python使用def自定義函數(shù)：c=lambdax:x+1#定義函數(shù)c(x)=x+1d=lambdax,y:x+y+6#定義函數(shù)d(x,y)=x+y+6基本命令使用def定義函數(shù)需要使用規(guī)范的命名、添加計(jì)算內(nèi)容，以及明確返回值，將會(huì)相對(duì)復(fù)雜。因此，Python支持使用lambda定義“行內(nèi)函數(shù)”。數(shù)據(jù)結(jié)構(gòu)序列類型：列表、元組映射類型：字典集合類型：可變集合、不可變集合數(shù)據(jù)結(jié)構(gòu)Python中的數(shù)據(jù)結(jié)構(gòu)主要分為三種類型：集合（Set）、序列（Sequence）、映射（Mapping），它們可以統(tǒng)稱為容器（container）。數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)列表（可變）元組（不可變）字典（可變）集合可變數(shù)據(jù)類型可以直接對(duì)數(shù)據(jù)結(jié)構(gòu)對(duì)象的內(nèi)容進(jìn)行修改（并非是重新對(duì)對(duì)象賦值操作），即可以對(duì)數(shù)據(jù)結(jié)構(gòu)對(duì)象進(jìn)行元素的賦值修改、刪除或增加等操作。不可變數(shù)據(jù)類型與可變數(shù)據(jù)類型不同，不可變數(shù)據(jù)類型不能對(duì)數(shù)據(jù)結(jié)構(gòu)對(duì)象的內(nèi)容進(jìn)行修改操作（對(duì)對(duì)象當(dāng)中的元素進(jìn)行增加、刪除和賦值修改）。（1）列表的基本操作列表的創(chuàng)建列表的長(zhǎng)度列表元素計(jì)數(shù)列表的下標(biāo)列表的切片與索引列表的運(yùn)算列表的增、刪、改、查操作數(shù)據(jù)結(jié)構(gòu)列表方法功能m.append(1)將1添加到列表m末尾m.count(1)統(tǒng)計(jì)列表m中元素1出現(xiàn)的次數(shù)m.extend([1,2])將列表[1,2]的內(nèi)容追加到列表m的末尾中m.index(1)從列表m中找出第一個(gè)1的索引位置m.insert(2,1)將1插入列表m的索引為2的位置m.pop(1)移除列表m中索引為1的元素（2）列表的其他常用函數(shù)數(shù)據(jù)結(jié)構(gòu)函數(shù)功能函數(shù)功能cmp(m,n)比較兩個(gè)列表的元素min(m)返回列表中元素最小值len(m)返回列表元素個(gè)數(shù)sum(m)將列表中的元素求和max(m)返回列表元素最大值sorted(m)對(duì)列表的元素進(jìn)行升序排序（1）元組的基本操作元組的創(chuàng)建元組的長(zhǎng)度元組元素計(jì)數(shù)元組的下標(biāo)元組的切片與索引元組的運(yùn)算元組的查詢操作數(shù)據(jù)結(jié)構(gòu)元組1'word'True'pear'0123-4-3-2-1在數(shù)學(xué)上，字典實(shí)際上是一個(gè)映射。字典將鍵映射到值，通過鍵來調(diào)取數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)字典123ABC數(shù)據(jù)結(jié)構(gòu)集合集合既不是序列也不是映射類型，更不是標(biāo)量。集合是自成一體的類型。集合是唯一的，無序的。一般通過{}或set函數(shù)創(chuàng)建一個(gè)集合。k={1,1,2,3,3}#注意1和3會(huì)自動(dòng)去重，得到{1,2,3}k=set([1,1,2,3,3])#同樣地，將列表轉(zhuǎn)換為集合，得到{1,2,3}數(shù)據(jù)結(jié)構(gòu)集合的運(yùn)算a=f|g#f和g的并集b=f&g#f和g的交集c=f–g#求差集（項(xiàng)在f中，但不在g中）d=f^g#對(duì)稱差集（項(xiàng)在f或g中，但不會(huì)同時(shí)出現(xiàn)在二者中）

函數(shù)式編程（Functionalprogramming）或函數(shù)程序設(shè)計(jì)，又稱泛函編程，是一種編程范型。在Python中，函數(shù)式編程主要由lambda、map、reduce、filter幾個(gè)函數(shù)構(gòu)成。假設(shè)有一個(gè)列表a=[5,6,7]，需要為列表a中的每個(gè)元素都加3，使用map函數(shù)實(shí)現(xiàn)并生成一個(gè)新列表：數(shù)據(jù)結(jié)構(gòu)函數(shù)式編程a=[5,6,7]b=map(lambdax:x+3,a)b=list(b)print(b)#輸出結(jié)果也為[8,9,10]函數(shù)式編程（Functionalprogramming）或函數(shù)程序設(shè)計(jì)，又稱泛函編程，是一種編程范型。在Python中，函數(shù)式編程主要由lambda、map、reduce、filter幾個(gè)函數(shù)構(gòu)成。假設(shè)有一個(gè)列表a=[5,6,7]，需要為列表a中的每個(gè)元素都加3，使用map函數(shù)實(shí)現(xiàn)并生成一個(gè)新列表：數(shù)據(jù)結(jié)構(gòu)a=[5,6,7]b=map(lambdax:x+3,a)b=list(b)print(b)#輸出結(jié)果也為[8,9,10]庫的導(dǎo)入與添加庫的導(dǎo)入Python本身內(nèi)置了很多強(qiáng)大的庫，如數(shù)學(xué)相關(guān)的math庫，可以為我們提供更加豐富復(fù)雜的數(shù)學(xué)運(yùn)算。#使用math庫進(jìn)行數(shù)學(xué)運(yùn)算importmathmath.sin(2)#計(jì)算正弦math.exp(2)#計(jì)算指數(shù)math.pi#內(nèi)置的圓周率常數(shù)庫的導(dǎo)入與添加導(dǎo)入庫中的所有函數(shù)frommathimport*#導(dǎo)入math庫中包含的所有函數(shù)，若大量地這樣引入第三庫，則可能會(huì)容易引起命名沖突exp(2)sin(2)庫的導(dǎo)入與添加添加第三方庫思路特點(diǎn)下載源代碼自行安裝安裝靈活，但需要自行解決上級(jí)依賴問題用pip命令安裝比較方便，自動(dòng)解決上級(jí)依賴問題用easy_install命令安裝比較方便，自動(dòng)解決上級(jí)依賴問題，比pip稍弱下載編譯好的文件包一般是Windows系統(tǒng)才提供現(xiàn)成的可執(zhí)行文件包系統(tǒng)自帶的安裝方式Linux或Mac系統(tǒng)的軟件管理器自帶了某些庫的安裝方式1Python數(shù)據(jù)分析預(yù)處理常用庫目錄Python使用入門2Python數(shù)據(jù)挖掘建模常用庫和框架3NumPyNumPy的前身Numeric最早是由吉姆·弗賈寧（JimHugunin）與其他協(xié)作者共同開發(fā)，2005年，特拉維斯.奧利芬特（TravisOliphant）在Numeric中結(jié)合了另一個(gè)同性質(zhì)的程序庫Numarray的特色，并加入了其他擴(kuò)展而開發(fā)了NumPy。進(jìn)行科學(xué)計(jì)算的基礎(chǔ)軟件包。更多高級(jí)擴(kuò)展庫的依賴庫。內(nèi)置函數(shù)處理數(shù)據(jù)的效率較高。pandaspandas的名稱源自面板數(shù)據(jù)（paneldata）和Python數(shù)據(jù)分析（DataAnalysis），最初是被作為金融數(shù)據(jù)分析工具而開發(fā)出來，由AQRCapitalManagement于2008年4月開發(fā)，并于2009年底開源。提供了快速、靈活、明確的數(shù)據(jù)結(jié)構(gòu)。帶有豐富的數(shù)據(jù)預(yù)處理函數(shù)。支持?jǐn)?shù)據(jù)的增、刪、改、查。Matplotlib是約翰·亨特（JohnHunter）在2008年左右的博士后研究中發(fā)明出來的，最初只是為了可視化癩痢病人的一些健康指標(biāo)，慢慢的Matplotlib變成了Python上最廣泛使用的可視化工具包。支持折線圖、條形圖、柱狀圖、餅圖的繪制。支持交互式繪圖和非交互式繪圖。支持Linux、Windows、MacOSX與Solaris的跨平臺(tái)繪圖。遷移學(xué)習(xí)的成本比較低。Matplotlib1Python數(shù)據(jù)分析預(yù)處理常用庫目錄Python使用入門2Python數(shù)據(jù)挖掘建模常用庫和框架3scikit-learn還是Python下強(qiáng)大的機(jī)器學(xué)習(xí)工具包，提供了完善的機(jī)器學(xué)習(xí)工具箱，是一種簡(jiǎn)單高效的數(shù)據(jù)分析和挖掘的工具。scikit-learn不僅提供了一些實(shí)例數(shù)據(jù)用于練習(xí)，還提供了很多功能接口：model.fit()：用于訓(xùn)練模型model.predict(X_new)：預(yù)測(cè)新樣本model.predict_proba(X_new)：預(yù)測(cè)概率model.score()：得分越高，模型擬合效果越好model.transform()：在fit函數(shù)的基礎(chǔ)上，進(jìn)行標(biāo)準(zhǔn)化，降維，歸一化等數(shù)據(jù)處理操作model.fit_transform()：fit函數(shù)和transform函數(shù)的組合，既包括了訓(xùn)練又包含了數(shù)據(jù)處理操作。Scikit-learn深度學(xué)習(xí)TensorflowTensorflow是基于Google2011年開發(fā)的深度學(xué)習(xí)基礎(chǔ)框架DistBelief構(gòu)建而成。主要用于搭建深度神經(jīng)網(wǎng)絡(luò)。TensorFlow即Tensor和Flow，Tensor意味著data，F(xiàn)low意味著流動(dòng)、計(jì)算、映射，即數(shù)據(jù)的流動(dòng)、數(shù)據(jù)的計(jì)算、數(shù)據(jù)的映射，同時(shí)也體現(xiàn)數(shù)據(jù)是有向的流動(dòng)、計(jì)算和映射的。Keras是由Python編寫而成并使用TensorFlow、Theano以及CNTK作為后端的一個(gè)深度學(xué)習(xí)框架，也是深度學(xué)習(xí)框架中最容易使用的一個(gè)。Keras具有高度模塊化、用戶友好性和易擴(kuò)展特性。支持卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)，以及兩者的組合。Keras可無縫銜接CPU和GPU的切換。深度學(xué)習(xí)KerasPyTorch可幫助構(gòu)建深度學(xué)習(xí)項(xiàng)目，其強(qiáng)調(diào)靈活性，并允許用Python表達(dá)深度學(xué)習(xí)模型；命令式體驗(yàn)，直接使用nn.module封裝便可使網(wǎng)絡(luò)搭建更快速和方便；調(diào)試簡(jiǎn)單，調(diào)試PyTorch就像調(diào)試Python代碼一樣簡(jiǎn)單。除此之外，PyTorch中還存在著較為完備的應(yīng)用領(lǐng)域所對(duì)應(yīng)的庫：深度學(xué)習(xí)PyTorch應(yīng)用領(lǐng)域?qū)?yīng)的PyTorch庫計(jì)算機(jī)視覺TorchVision自然語言處理PyTorchNLP圖卷積PyTorchGeometric工業(yè)部署FastaiPaddlePaddle支持超大規(guī)模深度學(xué)習(xí)模型的訓(xùn)練、多端多平臺(tái)部署的高性能推理引擎等。命令式編程模式（動(dòng)態(tài)圖）功能、性能和體驗(yàn)；原生推理庫性能顯著優(yōu)化，輕量級(jí)推理引擎實(shí)現(xiàn)了對(duì)硬件支持的極大覆蓋。新增了CUDA下多線程多流支持、TRI子圖對(duì)動(dòng)態(tài)shape輸入的支持，強(qiáng)化量化推理，性能顯著優(yōu)化；全面提升對(duì)支持芯片的覆蓋度（包括寒武紀(jì)、比特大陸等）以及對(duì)應(yīng)的模型數(shù)量和性能。深度學(xué)習(xí)PaddlePaddleCaffe是由伯克利人工智能研究所和社區(qū)貢獻(xiàn)者共同開發(fā)的。主要應(yīng)用在視頻、圖像處理等方面，核心語言是C++，支持命令行、Python和MATLAB接口，及支持在CPU上運(yùn)行、GPU上運(yùn)行，且Caffe通用性好、非常穩(wěn)健、快速以及性能優(yōu)異。深度學(xué)習(xí)Caffe除了前面所介紹的常用于數(shù)據(jù)挖掘建模的庫之外，還有許多的庫也是運(yùn)用于數(shù)據(jù)挖掘建模：其他庫名版本PyMySQL0.10.0SciPy1.4.1Statsmodels0.11.1XGBoost1.2.1小結(jié)本章結(jié)合了Python數(shù)據(jù)挖掘編程基礎(chǔ)，重點(diǎn)介紹了Python的使用入門、Python數(shù)據(jù)分析常用庫和Python數(shù)據(jù)挖掘建模常用庫。結(jié)合實(shí)際操作，對(duì)Python基本語句的使用進(jìn)行操作。結(jié)合實(shí)際意義與作用，對(duì)常用庫進(jìn)行簡(jiǎn)單的介紹。

第3章數(shù)據(jù)探索1數(shù)據(jù)特征分析目錄數(shù)據(jù)校驗(yàn)2時(shí)間范圍不一致一致性校驗(yàn)時(shí)間校驗(yàn)time_1time_22020-01-0108:35:002020-01-1710:31:002020-01-0209:16:002020-01-1811:36:002020-01-0310:33:002020-01-199:45:00…………2020-01-3015:20:002020-02-1919:27:002020-01-3121:18:002020-02-2023:55:00時(shí)間粒度不一致一致性校驗(yàn)unupgraded_time_1upgrade_time_22020/03/1610:35:002020/6/814:12:302020/03/1610:36:002020/6/814:13:002020/03/1610:37:002020/6/814:13:302020/03/1610:38:002020/6/814:14:002020/03/1610:39:002020/6/814:14:30時(shí)間格式不一致一致性校驗(yàn)order_time1end_time22020-08-1515:16:00202011051430002020-08-1515:25:00202011051435002020-08-1515:33:00202011051442002020-08-1515:40:00202011051448002020-08-1515:47:0020201105145100時(shí)區(qū)不一致一致性校驗(yàn)Overseas_sever_timeLocal_sever_time2020/05/1009:10:302020/05/1014:10:302020/05/1009:11:002020/05/1014:11:002020/05/1009:11:302020/05/1014:11:302020/05/1009:12:002020/05/1014:12:002020/05/1009:12:302020/05/1014:12:30同名異議一致性校驗(yàn)字段信息校驗(yàn)Number（A）Number（B）1004538109101600016210045383061016000175100453842542380003391004538333423800034810045380074238000256同名同義一致性校驗(yàn)Sold_dtSales_dt2020/7/012020/7/012020/7/032020/7/032020/7/102020/7/102020/7/152020/7/152020/7/242020/7/24單位不統(tǒng)一一致性校驗(yàn)Gold_coins（A）Gold_coins（B）49.56.343456.97.291743.05.510480.610.328867.28.6116信息暫時(shí)無法獲取或獲取信息的代價(jià)太大信息遺漏屬性值不存在缺失值校驗(yàn)缺失值產(chǎn)生的原因缺失值校驗(yàn)缺失值產(chǎn)生的影響丟失大量有用信息不確定性更加顯著，模型中蘊(yùn)涵的規(guī)律更難把握使建模過程陷入混亂，導(dǎo)致不可靠的輸出函數(shù)或方法名函數(shù)或方法功能使用格式isnull用于判斷是否為空值pandas.DataFrame.isnull()或pandas.isnull(obj)notnull用于判斷是否為非空值pandas.DataFrame.notnull()或pandas.notnull(obj)count用于計(jì)算非空元素pandas.DataFrame.count(axis=0,level=None,numeric_only=False)缺失值校驗(yàn)缺失值產(chǎn)生的校驗(yàn)簡(jiǎn)單統(tǒng)計(jì)質(zhì)量分析

可以先對(duì)變量做一個(gè)描述性統(tǒng)計(jì)分析，進(jìn)而查看哪些數(shù)據(jù)是不合理的。Python異常值檢測(cè)函數(shù)或方法：異常值校驗(yàn)函數(shù)或方法名函數(shù)或方法功能使用格式percentile用于計(jì)算百分位數(shù)numpy.percentile(a,q,axis=None,out=None,overwrite_input=False,interpolation='linear',keepdims=False)mean用于計(jì)算平均值pandas.DataFrame.mean(axis=None,skipna=None,level=None,numeric_only=None,**kwargs)std用于計(jì)算標(biāo)準(zhǔn)差pandas.DataFrame.std(axis=None,skipna=None,level=None,ddof=1,numeric_only=None,**kwargs)函數(shù)或方法名參數(shù)名參數(shù)說明percentilea接收array_like。表示輸入數(shù)組或可以轉(zhuǎn)換為數(shù)組的對(duì)象。無默認(rèn)值q接收浮點(diǎn)數(shù)的array_like。表示要計(jì)算的百分位數(shù)或百分位數(shù)的序列，必須在0到100之間（含0和100）。無默認(rèn)值axis接收int、int元組、None。表示計(jì)算百分位數(shù)的一個(gè)或多個(gè)的軸。默認(rèn)為Nonemeanaxis接收int。表示所要應(yīng)用的功能的軸，可選0和1。默認(rèn)為Noneskipna接收bool。表示排除空值。默認(rèn)為Nonelevel接收int或級(jí)別名稱。表示標(biāo)簽所在級(jí)別。默認(rèn)為Nonestdaxis接收int。表示所要應(yīng)用的功能的軸，可選0和1。默認(rèn)為Noneskipna接收bool。表示排除NA或空值。默認(rèn)為Nonelevel接收int或級(jí)別名稱。表示標(biāo)簽所在級(jí)別。默認(rèn)為Noneddof接收int。表示Delta的自由度。默認(rèn)為1異常值校驗(yàn)

Python異常值檢測(cè)函數(shù)或方法的常用參數(shù)及其說明：如果數(shù)據(jù)服從正態(tài)分布，異常值被定義為一組測(cè)定值中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。如果數(shù)據(jù)不服從正態(tài)分布，則與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的數(shù)據(jù)為異常值，稱為四分位距準(zhǔn)則（IQR）。使用IQR準(zhǔn)則和3σ原則可以檢測(cè)ary=(19,57,68,52,79,43,55,94,376,4581,3648,70,51,38)中的異常值，返回為異常值的元素，并計(jì)算元組ary異常值所占的比例：異常值校驗(yàn)3σ原則檢測(cè)方法檢測(cè)的異常值異常值比例IQR準(zhǔn)則[376,4581,3648]0.21428571428571427原則[4581,3648]0.14285714285714285

異常值校驗(yàn)箱型圖分析1數(shù)據(jù)特征分析目錄數(shù)據(jù)校驗(yàn)2集中趨勢(shì)是指總體中各單位的次數(shù)分布從兩邊向中間集中的趨勢(shì)，用于對(duì)比同類現(xiàn)象在不同的時(shí)間、地點(diǎn)和條件下的一般水平，反映同一總體某類現(xiàn)象在不同時(shí)間上變化的規(guī)律性、分析現(xiàn)象之間的依存關(guān)系。描述性統(tǒng)計(jì)分析集中趨勢(shì)度量指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個(gè)數(shù)均值指將一組觀察值從小到大進(jìn)行排列，位于中間的數(shù)據(jù)中位數(shù)指數(shù)據(jù)集中出現(xiàn)最頻繁的值中位數(shù)離中趨勢(shì)是指總體中各單位標(biāo)志值背離分布中心的規(guī)?；虺潭?，用于衡量和比較平均數(shù)代表性的大小、反映社會(huì)經(jīng)濟(jì)活動(dòng)過程的均衡性和節(jié)奏性、衡量風(fēng)險(xiǎn)程度。描述性統(tǒng)計(jì)分析離中趨勢(shì)度量極差數(shù)據(jù)的離散程度標(biāo)準(zhǔn)差數(shù)據(jù)偏離均值的程度變異系數(shù)標(biāo)準(zhǔn)差相對(duì)于均值的離中趨勢(shì)四分位數(shù)間距標(biāo)間距準(zhǔn)差相對(duì)于均值的離中趨勢(shì)pandas庫的describe()方法可以給出一些基本的統(tǒng)計(jì)量，包括均值、標(biāo)準(zhǔn)差、最大值、最小值、分位數(shù)等。describe()方法的基本使用格式及參數(shù)說明如下：pandas.DataFrame.describe(percentiles=None,include=None,exclude=None,datetime_is_numeric=False)描述性統(tǒng)計(jì)分析參數(shù)名稱參數(shù)說明percentiles接收int。表示要包含在輸出中的百分比，須介于0~1。默認(rèn)為Noneinclude接收類似dtype的列表。表示包括在結(jié)果中的數(shù)據(jù)類型的白名單。默認(rèn)為Noneexclude接收類似dtype的列表型。表示從結(jié)果中忽略的數(shù)據(jù)類型黑名單。默認(rèn)為Nonedatetime_is_numeric接收bool。表示是否將datetimedtypes視為數(shù)字。默認(rèn)為False頻率分布分析主要步驟：定量數(shù)據(jù)分組遵循的主要原則如下：各組之間必須是相互排斥的。各組必須將所有的數(shù)據(jù)包含在內(nèi)。各組的組寬最好相等。分布分析定量數(shù)據(jù)的分布分析求極差決定組距與組數(shù)決定分點(diǎn)列出頻率分布表繪制頻率分布直方圖對(duì)于定性數(shù)據(jù)，常根據(jù)數(shù)據(jù)的分類類型進(jìn)行分組，可以采用餅圖和柱形圖對(duì)定性變量進(jìn)行分布分析。以某餐館的各菜系在某段時(shí)間內(nèi)的銷售額為例，采用定性數(shù)據(jù)的分布分析方法進(jìn)行分析：分布分析定性數(shù)據(jù)的分布分析對(duì)比分析是指將兩個(gè)相互聯(lián)系的指標(biāo)進(jìn)行比較，從數(shù)量上展示和說明研究對(duì)象規(guī)模的大小、水平的高低、速度的快慢，以及各種關(guān)系是否協(xié)調(diào)，適用于指標(biāo)間的橫縱向比較、時(shí)間序列的比較分析。對(duì)比分析主要有以下兩種形式：對(duì)比分析絕對(duì)數(shù)比較是利用絕對(duì)數(shù)進(jìn)行對(duì)比，從而尋找差異的一種方法絕對(duì)數(shù)比較用于反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo)相對(duì)數(shù)比較由于研究目的和對(duì)比基礎(chǔ)不同，相對(duì)數(shù)可以分為以下幾種：對(duì)比分析結(jié)構(gòu)相對(duì)數(shù)將同一總體內(nèi)的部分?jǐn)?shù)值與全部數(shù)值對(duì)比求得比重比例相對(duì)數(shù)將同一總體內(nèi)不同部分的數(shù)值對(duì)比比較相對(duì)數(shù)將同一時(shí)期兩個(gè)性質(zhì)相同的指標(biāo)數(shù)值對(duì)比強(qiáng)度相對(duì)數(shù)將兩個(gè)性質(zhì)不同但有一定聯(lián)系的總量指標(biāo)對(duì)比計(jì)劃完成程度相對(duì)數(shù)將某一時(shí)期實(shí)際完成數(shù)與計(jì)劃數(shù)對(duì)比動(dòng)態(tài)相對(duì)數(shù)將同一現(xiàn)象在不同時(shí)期的指標(biāo)數(shù)值對(duì)比周期性分析是探索某個(gè)變量是否隨著時(shí)間變化而呈現(xiàn)出某種周期變化趨勢(shì)。以某景區(qū)2019年3月份人流量為例，根據(jù)人流量數(shù)據(jù)，制時(shí)序圖，并分析景區(qū)人流量的變化趨勢(shì)：周期分析貢獻(xiàn)度分析又稱帕累托分析，貢獻(xiàn)度分析的原理是帕累托法則，又稱20/80定律。以服裝企業(yè)為例，根據(jù)企業(yè)對(duì)應(yīng)的秋裝盈利數(shù)據(jù)，繪制服裝盈利帕累托圖：貢獻(xiàn)度分析判斷兩個(gè)變量是否具有線性相關(guān)關(guān)系的最直觀的方法是直接繪制散點(diǎn)圖。相關(guān)性分析直接繪制散點(diǎn)圖利用散點(diǎn)圖矩陣同時(shí)繪制各變量間的散點(diǎn)圖，從而快速發(fā)現(xiàn)多個(gè)變量間的主要相關(guān)性。相關(guān)性分析繪制散點(diǎn)圖矩陣為了更加準(zhǔn)確地描述變量之間的線性相關(guān)程度，可以通過計(jì)算相關(guān)系數(shù)來進(jìn)行相關(guān)分析。Pearson相關(guān)系數(shù)Pearson相關(guān)系數(shù)一般可用于分析兩個(gè)連續(xù)性變量之間的關(guān)系，其計(jì)算公式為：相關(guān)性分析計(jì)算相關(guān)系數(shù)

相關(guān)性分析Spearman秩相關(guān)系數(shù)不服從正態(tài)分布的變量、分類或等級(jí)變量之間的關(guān)聯(lián)性可采用Spearman秩相關(guān)系數(shù)，也稱等級(jí)相關(guān)系數(shù)來描述。Spearman秩相關(guān)系數(shù)計(jì)算公式如下：對(duì)兩個(gè)變量成對(duì)的取值分別按照從小到大（或從大到?。╉樞蚓幹龋淼闹却?，代表的秩次，為、的秩次之差。相關(guān)性分析

一個(gè)變量秩次的計(jì)算過程：相關(guān)性分析

從小到大排序從小到大排序時(shí)的位置秩次

0.5110.8221.0331.24(4+5)/2=4.51.25(4+5)/2=4.52.3662.877判定系數(shù)定系數(shù)是相關(guān)系數(shù)的平方，可用進(jìn)行表示，用于衡量回歸方程對(duì)的解釋程度。判定系數(shù)取值范圍為

。越接近于1，表明兩個(gè)變量之間的相關(guān)性越強(qiáng)；接近于0，表明兩個(gè)變量之間幾乎沒有直線相關(guān)關(guān)系。相關(guān)性分析

pandas庫的corr()方法可計(jì)算出列與列、變量與變量之間的成對(duì)相關(guān)系數(shù)，但不包括空值。corr()方法的基本使用格式和參數(shù)說明如下：pandas.DataFrame.corr(method='pearson',min_periods=1)相關(guān)性分析參數(shù)名稱參數(shù)說明method接收方法的名稱。表示計(jì)算相關(guān)系數(shù)所要使用的方法，可選pearson、kendall、spearman。默認(rèn)為pearsonmin_periods接收int。表示每對(duì)列必須具有有效結(jié)果的最小觀察數(shù)。默認(rèn)為1小結(jié)本章主要講解如何從數(shù)據(jù)校驗(yàn)和數(shù)據(jù)特征分析兩個(gè)方面對(duì)數(shù)據(jù)進(jìn)行探索。介紹了數(shù)據(jù)校驗(yàn)中的一致性、缺失值和異常值的校驗(yàn)方法。介紹了數(shù)據(jù)特征分析中的分布、對(duì)比、統(tǒng)計(jì)量、周期、貢獻(xiàn)度和相關(guān)性分析，并相應(yīng)結(jié)合了各種小案例進(jìn)行演示。

第4章數(shù)據(jù)預(yù)處理1數(shù)據(jù)變換目錄數(shù)據(jù)清洗2數(shù)據(jù)合并3記錄重復(fù)是指數(shù)據(jù)中某條記錄的一個(gè)或多個(gè)屬性的值完全相同。在某企業(yè)的母嬰發(fā)貨記錄表中，利用列表（list）對(duì)用品名稱去重，查看所有的品牌名稱：重復(fù)值處理記錄重復(fù)defdelRep(list1):list2=[]foriinlist1:ifinotinlist2:list2.append(i)returnlist2names=list(data['品牌名稱'])#提取品牌名稱name=delRep(names)#使用自定義的去重函數(shù)去重重復(fù)值處理除了利用列表去重之外，還可以利用集合（set）元素為唯一的特性去重：print('去重前品牌總數(shù)為：',len(names))name_set=set(names)#利用set的特性去重print('去重后品牌總數(shù)為：',len(name_set))pandas.DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)重復(fù)值處理pandas提供了一個(gè)名為drop_duplicates的去重方法。該方法只對(duì)DataFrame或Series類型有效。drop_duplicates()方法的基本使用格式和參數(shù)說明如下：參數(shù)名稱參數(shù)說明subset接收str或sequence。表示進(jìn)行去重的列。默認(rèn)為Nonekeep接收特定str。表示重復(fù)時(shí)保留第幾個(gè)數(shù)據(jù)。first：保留第一個(gè)。last：保留最后一個(gè)。false：只要有重復(fù)都不保留。默認(rèn)為firstinplace接收bool。表示是否在原表上進(jìn)行操作。默認(rèn)為False屬性內(nèi)容重復(fù)是指數(shù)據(jù)中存在一個(gè)或多個(gè)屬性名稱不同，但數(shù)據(jù)完全相同。當(dāng)需要去除連續(xù)型屬性重復(fù)時(shí)，可以利用屬性間的相似度，去除兩個(gè)相似度為1的屬性的其中一個(gè)：corr_=data[['品牌標(biāo)簽','倉庫標(biāo)簽']].corr(method='kendall')print('kendall相似度為：\n',corr_)重復(fù)值處理屬性內(nèi)容重復(fù)重復(fù)值處理除了使用相似度矩陣進(jìn)行屬性去重之外，可以通過pandas庫的DataFrame.equals()方法進(jìn)行屬性去重。DataFrame.equals()方法的基本使用格式和參數(shù)說明如下：pandas.DataFrame.equals(other)參數(shù)名稱參數(shù)說明other接收Series或DataFrame。表示要與第一個(gè)進(jìn)行比較的另一個(gè)Series或DataFrame。無默認(rèn)值處理缺失值的方法可分為3類：刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。在數(shù)據(jù)分析中常用的插補(bǔ)方法處理缺失值：缺失值處理插補(bǔ)可方法方法描述平均數(shù)/中位數(shù)/眾數(shù)插補(bǔ)根據(jù)屬性值的類型，用該屬性取值的平均數(shù)/中位數(shù)/眾數(shù)進(jìn)行插補(bǔ)使用固定值將缺失的屬性值用一個(gè)常量替換最近臨插補(bǔ)在記錄中找到與缺失樣本最接近的樣本的該屬性值插補(bǔ)回歸方法對(duì)帶有缺失值的變量，根據(jù)已有數(shù)據(jù)和與其有關(guān)的其他變量（因變量）的數(shù)據(jù)建立擬合模型來預(yù)測(cè)缺失的屬性值插值法插值法是利用已知點(diǎn)建立合適的插值函數(shù)

，未知值由對(duì)應(yīng)點(diǎn)

求出的函數(shù)值

近似代替拉格朗日插值公式指的是在節(jié)點(diǎn)上給出節(jié)點(diǎn)基函數(shù)，然后做基函數(shù)的線性組合，組合系數(shù)為節(jié)點(diǎn)函數(shù)值的一種插值多項(xiàng)式。拉格朗日插值法的基本實(shí)現(xiàn)步驟如下：缺失值處理拉格朗日插值法確定原始數(shù)據(jù)因變量和自變量取缺失值前后取缺失值前后各k個(gè)數(shù)據(jù)基于拉格朗日插值多項(xiàng)式對(duì)全部缺失數(shù)據(jù)依次進(jìn)行插補(bǔ)牛頓插值法也是多項(xiàng)式插值，與拉格朗日插值相比，具有承襲性和易于變動(dòng)節(jié)點(diǎn)的特點(diǎn)。牛頓插值法的基本實(shí)現(xiàn)步驟如下：缺失值處理牛頓插值法計(jì)算差商計(jì)算牛頓插值多項(xiàng)式利用所得多項(xiàng)式計(jì)算所需插入缺失部分的值在數(shù)據(jù)預(yù)處理時(shí)，異常值是否剔除，需視具體情況而定，因?yàn)橛行┊惓Ｖ悼赡芴N(yùn)含著有用的信息。異常值處理常用方法如下：異常值處理異常值處理方法方法描述刪除含有異常值的記錄直接將含有異常值的記錄刪除視為缺失值將異常值視為缺失值，利用缺失值處理的方法進(jìn)行處理平均值修正可用前后兩個(gè)觀測(cè)值的平均值修正該異常值不處理直接在具有異常值的數(shù)據(jù)集上進(jìn)行分析建模1數(shù)據(jù)變換目錄數(shù)據(jù)清洗2數(shù)據(jù)合并3簡(jiǎn)單函數(shù)變換是對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換，常用的包括平方、開方、取對(duì)數(shù)、差分運(yùn)算等。平方：開方：取對(duì)數(shù)：差分運(yùn)算：簡(jiǎn)單函數(shù)變換最小-最大標(biāo)準(zhǔn)化也稱為離差標(biāo)準(zhǔn)化，是對(duì)原始數(shù)據(jù)的線性變換，將數(shù)值映射到[0,1]之間。其中，max為樣本數(shù)據(jù)的最大值，min為樣本數(shù)據(jù)的最小值。max-min為極差。數(shù)據(jù)標(biāo)準(zhǔn)化最小-最大標(biāo)準(zhǔn)化零-均值標(biāo)準(zhǔn)化也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化，經(jīng)過處理的數(shù)據(jù)的均值為0，標(biāo)準(zhǔn)差為1。其中為原始數(shù)據(jù)的均值，為原始數(shù)據(jù)的標(biāo)準(zhǔn)差，零-均值標(biāo)準(zhǔn)化是當(dāng)前用得最多的數(shù)據(jù)標(biāo)準(zhǔn)化方法。數(shù)據(jù)標(biāo)準(zhǔn)化零-均值標(biāo)準(zhǔn)化通過移動(dòng)屬性值的小數(shù)位數(shù)，將屬性值映射到[-1,1]之間，移動(dòng)的小數(shù)位數(shù)取決于屬性值絕對(duì)值的最大值。其中k為屬性值中絕對(duì)值最大的數(shù)值的位數(shù)。數(shù)據(jù)標(biāo)準(zhǔn)化小數(shù)定標(biāo)標(biāo)準(zhǔn)化數(shù)據(jù)離散化離散化的過程：確定分類數(shù)設(shè)定離散劃分點(diǎn)用不同符號(hào)代表落在每個(gè)子區(qū)間的數(shù)據(jù)值數(shù)據(jù)離散化常用的離散化方法：

首先將連續(xù)屬性的值用聚類算法進(jìn)行聚類，然后再將聚類得到的簇進(jìn)行處理，合并到一個(gè)簇的連續(xù)屬性值做同一標(biāo)記

等寬法將屬性的值域分成具有相同寬度的區(qū)間，區(qū)間的個(gè)數(shù)由數(shù)據(jù)本身的特點(diǎn)決定或由用戶指定等寬法等頻法將相同數(shù)量的記錄放進(jìn)每個(gè)區(qū)間等頻法聚類獨(dú)熱編碼即One-Hot編碼，又稱一位有效編碼，是處理類型數(shù)據(jù)較好的方法，主要是使用N位狀態(tài)寄存器來對(duì)N個(gè)狀態(tài)進(jìn)行編碼，每個(gè)狀態(tài)都有它獨(dú)立的寄存器位，并且在任意時(shí)候都只有一個(gè)編碼位有效。獨(dú)熱編碼有以下優(yōu)點(diǎn)：將離散型屬性的取值擴(kuò)展到歐氏空間，離散型屬性的某個(gè)取值就對(duì)應(yīng)歐氏空間的某個(gè)點(diǎn)。對(duì)離散型屬性使用獨(dú)熱編碼，可以讓屬性之間的距離計(jì)算更為合理。獨(dú)熱編碼在Python中使用scikit-learn庫中preprocessing模塊的OneHotEncoder函數(shù)進(jìn)行獨(dú)熱編碼，該函數(shù)的基本使用格式如下：classsklearn.preprocessing.OneHotEncoder(n_values=‘a(chǎn)uto’,categorical_features=‘a(chǎn)ll’,dtype=<class‘numpy.float64’>,sparse=True,handle_unknown=’error’)獨(dú)熱編碼參數(shù)名稱參數(shù)說明n_values接收int或arrayofints。表示每個(gè)功能的值數(shù)。默認(rèn)為autocategorical_features接收all或arrayofindices或mask。表示將哪些功能視為分類功能。默認(rèn)為allspares接收boolean。表示返回是稀疏矩陣還是數(shù)組。默認(rèn)為Truehandle_unknown接收str。表示在轉(zhuǎn)換過程中引發(fā)錯(cuò)誤還是忽略是否存在未知的分類特征。默認(rèn)為error1數(shù)據(jù)變換目錄數(shù)據(jù)清洗2數(shù)據(jù)合并3多表合并堆疊合并數(shù)據(jù)橫向堆疊多表合并堆疊合并數(shù)據(jù)縱向堆疊pandas.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)多表合并使用pandas庫的concat函數(shù)可以實(shí)現(xiàn)橫向堆疊和縱向堆疊，concat函數(shù)的基本使用格式和常用參數(shù)說明如下：參數(shù)名稱參數(shù)說明objs接收多個(gè)Series、DataFrame、Panel的組合。表示參與連接的pandas對(duì)象的列表的組合。無默認(rèn)值axis接收0或1。表示連接的軸向，默認(rèn)為0join接收inner或outer。表示其他軸向上的索引是按交集（inner）還是并集（outer）進(jìn)行合并。默認(rèn)為outerpandas.DataFrame.append(other,ignore_index=False,verify_integrity=False)多表合并除了concat函數(shù)之外，pandas庫的append()方法也可以用于縱向合并兩張表，append()方法的基本使用格式和常用參數(shù)說明如下：參數(shù)名稱參數(shù)說明other接收DataFrame或Series。表示要添加的新數(shù)據(jù)。無默認(rèn)值ignore_index接收bool。如果輸入True，就會(huì)對(duì)新生成的DataFrame使用新的索引（自動(dòng)產(chǎn)生），而忽略原來數(shù)據(jù)的索引。默認(rèn)為Falseverify_integrity接收bool。如果輸入True，那么當(dāng)ignore_index為False時(shí)，會(huì)檢查添加的數(shù)據(jù)索引是否沖突，如果沖突，那么會(huì)添加失敗。默認(rèn)為False主鍵合并，即通過一個(gè)或多個(gè)鍵將兩個(gè)數(shù)據(jù)集的行連接起來。多表合并主鍵合并數(shù)據(jù)pandas庫中的merge函數(shù)和join()方法都可以實(shí)現(xiàn)主鍵合并，但兩者的實(shí)現(xiàn)方式并不相同。merge函數(shù)的基本使用格式和常用參數(shù)說明如下：pandas.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=False,suffixes=('_x','_y'),copy=True,indicator=False)多表合并參數(shù)名稱參數(shù)說明left接收DataFrame或Series。表示要添加的新數(shù)據(jù)1。無默認(rèn)值right接收DataFrame或Series。表示要添加的新數(shù)據(jù)2。無默認(rèn)值how接收inner、outer、left、right。表示數(shù)據(jù)的連接方式。默認(rèn)為inneron接收str或sequence。表示兩個(gè)數(shù)據(jù)合并的主鍵（必須一致）。默認(rèn)為Noneleft_on接收str或sequence。表示left參數(shù)接收數(shù)據(jù)用于合并的主鍵。默認(rèn)為Noneright_on接收str或sequence。表示right參數(shù)接收數(shù)據(jù)用于合并的主鍵。默認(rèn)為Nonesort接收bool。表示是否根據(jù)連接鍵對(duì)合并后的數(shù)據(jù)進(jìn)行排序。默認(rèn)為False除了使用merge函數(shù)以外，join()方法也可以實(shí)現(xiàn)部分主鍵合并的功能。但是使用join()方法時(shí)，兩個(gè)主鍵的名字必須相同，join函數(shù)的基本使用格式和常用參數(shù)說明如下：pandas.DataFrame.join(other,on=None,how='left',lsuffix='',rsuffix='',sort=False)多表合并參數(shù)名稱參數(shù)說明other接收DataFrame、Series或包含了多個(gè)DataFrame的list。表示參與連接的其他DataFrame。無默認(rèn)值on接收列名或包含列名的list或tuple。表示用于連接的列名。默認(rèn)為Nonehow接收特定str。取值為“inner”時(shí)代表內(nèi)連接；取值為“outer”時(shí)代表外連接；取值為“l(fā)eft”時(shí)代表左連接；取值為“right”時(shí)代表右連接。默認(rèn)為“inner”lsuffix接收str。表示用于追加到左側(cè)重疊列名的尾綴。無默認(rèn)值rsuffix接收str。表示用于追加到右側(cè)重疊列名的尾綴。無默認(rèn)值sort接收bool。表示根據(jù)連接鍵對(duì)合并后的數(shù)據(jù)進(jìn)行排序。默認(rèn)為False多表合并重疊合并數(shù)據(jù)數(shù)據(jù)分析和處理過程中偶爾會(huì)出現(xiàn)兩份數(shù)據(jù)的內(nèi)容幾乎一致的情況，但是某些屬性在其中一張表上是完整的，而在另外一張表上的數(shù)據(jù)則是缺失的。這時(shí)除了使用將數(shù)據(jù)一對(duì)一比較，然后進(jìn)行填充的方法外，還有一種方法就是重疊合并。分組是使用特定的條件將元數(shù)據(jù)進(jìn)行劃分為多個(gè)組。聚合是對(duì)每個(gè)分組中的數(shù)據(jù)執(zhí)行某些操作，最后將計(jì)算結(jié)果進(jìn)行整合。分組聚合groupby()方法提供的是分組聚合步驟中的拆分功能，能夠根據(jù)索引或字段對(duì)數(shù)據(jù)進(jìn)行分組。其基本使用格式和常用參數(shù)說明如下：pandas.DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=False,**kwargs)分組聚合使用groupby()方法拆分?jǐn)?shù)據(jù)參數(shù)名稱參數(shù)說明by接收list、str、mapping或generator。用于確定進(jìn)行分組的依據(jù)。如果傳入的是一個(gè)函數(shù)，那么對(duì)索引進(jìn)行計(jì)算并分組；如果傳入的是一個(gè)字典或Series，那么字典或Series的值用來作為分組依據(jù)；如果傳入一個(gè)NumPy數(shù)組，那么數(shù)據(jù)的元素作為分組依據(jù)；如果傳入的是字符串或字符串列表，那么使用這些字符串所代表的字段作為分組依據(jù)。無默認(rèn)值axis接收int。表示操作的軸向，默認(rèn)對(duì)列進(jìn)行操作。默認(rèn)為0level接收int或索引名。表示標(biāo)簽所在級(jí)別。默認(rèn)為Noneas_index接收bool。表示聚合后的聚合標(biāo)簽是否以DataFrame索引形式輸出。默認(rèn)為Truesort接收bool。表示是否對(duì)分組依據(jù)、分組標(biāo)簽進(jìn)行排序。默認(rèn)為Trueagg()方法和aggregate()方法都支持對(duì)每個(gè)分組應(yīng)用某函數(shù)，包括Python內(nèi)置函數(shù)或自定義函數(shù)。針對(duì)DataFrame的agg()方法與aggregate()方法的基本使用格式和常用參數(shù)說明如下：pandas.DataFrame.agg(func,axis=0,*args,**kwargs)pandas.DataFrame.aggregate(func,axis=0,*args,**kwargs)分組聚合使用agg()方法聚合數(shù)據(jù)參數(shù)名稱參數(shù)說明func接收list、dict、function。表示應(yīng)用于每行或每列的函數(shù)。無默認(rèn)值axis接收0或1。代表操作的軸向。默認(rèn)為0apply()方法類似于agg()方法，能夠?qū)⒑瘮?shù)應(yīng)用于每一列。不同之處在于，與agg()方法相比，apply()方法傳入的函數(shù)只能夠作用于整個(gè)DataFrame或Series，而無法像agg()方法一樣能夠?qū)Σ煌侄螒?yīng)用不同函數(shù)來獲取不同結(jié)果。apply()方法的基本使用格式和常用參數(shù)說明如下：pandas.DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args=(),**kwds)分組聚合使用apply()方法聚合數(shù)據(jù)參數(shù)名稱參數(shù)說明func接收functions。表示應(yīng)用于每行或每列的函數(shù)。無默認(rèn)值axis接收0或1。表示操作的軸向。默認(rèn)為0broadcast接收bool。表示是否進(jìn)行廣播。默認(rèn)為Falseraw接收bool。表示是否直接將ndarray對(duì)象傳遞給函數(shù)。默認(rèn)為Falsereduce接收bool或None。表示返回值的格式。默認(rèn)為Nonetransform()方法能夠?qū)φ麄€(gè)DataFrame的所有元素進(jìn)行操作。transform()方法只有一個(gè)參數(shù)“func”，表示對(duì)DataFrame操作的函數(shù)。以菜品詳情表為例，對(duì)銷量和售價(jià)使用pandas庫的transform()方法進(jìn)行翻倍：detail[['counts','amounts']].transform(lambdax:x*2).head(4)分組聚合使用transform()方法聚合數(shù)據(jù)counts（菜品銷量）amounts（菜品售價(jià)）0258129022903298本章介紹了數(shù)據(jù)預(yù)處理的數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)合并3個(gè)主要任務(wù)。數(shù)據(jù)清洗主要介紹了對(duì)重復(fù)值、缺失值和異常值的處理。數(shù)據(jù)變換介紹了如何從不同的應(yīng)用角度對(duì)已有屬性進(jìn)行簡(jiǎn)單的函數(shù)變換、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)離散化和獨(dú)熱編碼。數(shù)據(jù)合并主要介紹了多表合并和分組聚合。小結(jié)

第5章數(shù)據(jù)挖掘算法基礎(chǔ)第5章數(shù)據(jù)挖掘算法基礎(chǔ)1聚類目錄分類與回歸2關(guān)聯(lián)規(guī)則3智能推薦4時(shí)間序列5分類算法構(gòu)造一個(gè)分類模型，模型的輸入為樣本的屬性值，輸出為對(duì)應(yīng)的類別，將每個(gè)樣本映射到預(yù)先定義好的類別?；貧w算法則是建立兩種或兩種以上變量間相互依賴的函數(shù)模型，然后使用函數(shù)模型預(yù)測(cè)目標(biāo)的值。常用的分類算法與回歸算法常用的分類與回歸算法：常用的分類算法與回歸算法算法名稱算法描述回歸分析回歸分析是確定預(yù)測(cè)屬性（數(shù)值型）與其他變量間相互依賴的定量關(guān)系最常用的統(tǒng)計(jì)學(xué)方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型決策樹決策樹采用自頂向下的遞歸方式，在內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較，并根據(jù)不同的屬性值從該結(jié)點(diǎn)向下分支，最終得到的葉結(jié)點(diǎn)是學(xué)習(xí)劃分的類最近鄰分類最近鄰分類是一種典型的“懶惰學(xué)習(xí)”算法，基于指定的距離度量，找出測(cè)試樣本的最近鄰，并基于投票法對(duì)測(cè)試樣本進(jìn)行分類支持向量機(jī)支持向量機(jī)的基本思想是在樣本空間或特征空間中，構(gòu)造出最優(yōu)超平面，使得超平面與不同類樣本集之間的距離最大，從而達(dá)到最大化泛化能力的目的。人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是一種模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的信息處理系統(tǒng)，表示神經(jīng)網(wǎng)絡(luò)的輸入與輸出變量之間關(guān)系的模型集成學(xué)習(xí)集成算法使用多種算法的組合進(jìn)行預(yù)測(cè)，比單一分類器具有更高的準(zhǔn)確率和魯棒性，通常分為Bagging（聚合）、Boosting（提升）和Stacking（堆疊）三種模式對(duì)于分類模型的評(píng)價(jià)，常用的模型評(píng)價(jià)指標(biāo)包括了準(zhǔn)確率、精確率、反饋率、混淆矩陣和ROC曲線等。分類與回歸的模型評(píng)價(jià)分類模型的評(píng)價(jià)指標(biāo)準(zhǔn)確率準(zhǔn)確率（Accuracy）是指預(yù)測(cè)正確的結(jié)果所占總樣本的百分比：錯(cuò)誤率

錯(cuò)誤率（Fallibility）是指預(yù)測(cè)錯(cuò)誤的結(jié)果所占總樣本的百分比：分類與回歸的模型評(píng)價(jià)精確率精確率（Precision）是指所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率：反饋率反饋率（Recall）是指實(shí)際為正樣本預(yù)測(cè)為正樣本占實(shí)際為正樣本的總數(shù)概率：分類與回歸的模型評(píng)價(jià)分類與回歸的模型評(píng)價(jià)ROC曲線接收者操作特征曲線（ReceiverOperatingCharacteristiccurve，ROC曲線）是一種非常有效的模型評(píng)價(jià)方法，可為選定臨界值給出定量提示。對(duì)于回歸模型，常用的模型評(píng)價(jià)指標(biāo)包括了絕對(duì)誤差與相對(duì)誤差、誤差分析中的綜合指標(biāo)（平均絕對(duì)誤差、均方誤差、均方根誤差）、平均絕對(duì)百分誤差和Kappa統(tǒng)計(jì)量等。絕對(duì)誤差（AbsoluteError）：相對(duì)誤差（RelativeError）：平均絕對(duì)誤差（MeanAbsoluteError，MAE）：分類與回歸的模型評(píng)價(jià)回歸模型的評(píng)價(jià)指標(biāo)均方誤差（MeanSquaredError，MSE）：均方根誤差：平均絕對(duì)百分誤差：分類與回歸的模型評(píng)價(jià)Kappa統(tǒng)計(jì)Kappa統(tǒng)計(jì)是比較兩個(gè)或多個(gè)觀測(cè)者對(duì)同一事物，或觀測(cè)者對(duì)同一事物的兩次或多次觀測(cè)結(jié)果是否一致，將由隨機(jī)造成的一致性和實(shí)際觀測(cè)的一致性之間的差別大小作為評(píng)價(jià)基礎(chǔ)的統(tǒng)計(jì)指標(biāo)。Kappa取值在區(qū)間[-1,1]內(nèi)，其值的大小均有不同意義，具體如下：當(dāng)Kappa=1時(shí)，說明兩次判斷的結(jié)果完全一致。當(dāng)Kappa=-1時(shí)，說明兩次判斷的結(jié)果完全不一致。當(dāng)Kappa=0時(shí)，說明兩次判斷的結(jié)果是隨機(jī)造成。當(dāng)Kappa<0時(shí)，說明一致程度比隨機(jī)造成的還差，兩次檢查結(jié)果很不一致，在實(shí)際應(yīng)用中無意義。當(dāng)Kappa>0時(shí)，說明有意義，Kappa愈大，說明一致性愈好。當(dāng)

時(shí)，說明已經(jīng)取得相當(dāng)滿意的一致程度。當(dāng)Kappa<0.4時(shí)，說明一致程度不夠。分類與回歸的模型評(píng)價(jià)對(duì)于由d個(gè)屬性組成的樣本集，其中是

在第

個(gè)屬性上的取值，線性模型即通過學(xué)習(xí)得到一個(gè)屬性的線性組合來預(yù)測(cè)樣本標(biāo)簽的函數(shù)：

其中，表示回歸系數(shù)的集合，其中回歸系數(shù)表示屬性在預(yù)測(cè)目標(biāo)變量時(shí)的重要性，b為常數(shù)。線性模型線性回歸模型使用scikit-learn庫中l(wèi)inear_model模塊的LinearRegression類可以建立線性回歸模型，其基本使用格式和常用參數(shù)描述如下：classsklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)線性模型參數(shù)名稱說明fit_intercept接收bool。表示是否有截?fù)?jù)，若沒有則直線過原點(diǎn)。默認(rèn)為Truenormalize接收bool，表示是否將數(shù)據(jù)歸一化，默認(rèn)為Falsecopy_X接收bool，表示是否復(fù)制數(shù)據(jù)表進(jìn)行運(yùn)算，默認(rèn)為Truen_jobs接收int，表示計(jì)算時(shí)使用的核數(shù)，默認(rèn)為1

邏輯回歸是一種廣義的線性回歸模型，但實(shí)際是邏輯回歸是一個(gè)分類算法。具體的分類方法：設(shè)定一個(gè)分類閾值，將預(yù)測(cè)結(jié)果大于分類閾值的樣本歸為正類，反之歸為反類。其中，的取值范圍是，與線性模型中的一致。線性模型邏輯回歸模型邏輯回歸模型的建模步驟：線性模型使用scikit-learn庫中l(wèi)inear_model模塊的LogisticRegression類可以建立邏輯回歸模型，其語法格式和常用參數(shù)描述如下：classsklearn.linear_model.LogisticRegression(penalty='l2',class_weight=None,random_state=None,solver='liblinear',max_iter=100)線性模型參數(shù)名稱說明penalty接收str。表示正則化選擇參數(shù)，可選l1或l2。默認(rèn)為l2solver接收str。表示優(yōu)化算法選擇參數(shù)，可選參數(shù)為newton-cg,lbfg,liblinear,sag，當(dāng)penalty='l2'時(shí)，4種都可選；當(dāng)penalty='l1'時(shí)，只能選liblinear。默認(rèn)為liblinearclass_weight接收balanced以及字典，表示類型權(quán)重參數(shù)，如對(duì)于因變量取值為0或1的二元模型，可以定義class_weight={0:0.9,1:0.1}，這樣類型0的權(quán)重為90%，而類型1的權(quán)重為10%。默認(rèn)為None決策樹是一樹狀結(jié)構(gòu)，它的每一個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類，非葉節(jié)點(diǎn)對(duì)應(yīng)著在某個(gè)屬性上的劃分，根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn)，多數(shù)類的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類。決策樹根部節(jié)點(diǎn)(rootnode)中間節(jié)點(diǎn)(non-leafnode)分支(branches)葉節(jié)點(diǎn)(leafnode）決策樹問題：對(duì)于給定樣本集，如何判斷應(yīng)該先選擇在哪個(gè)屬性上進(jìn)行拆分？理想情況：在拆分過程中，當(dāng)葉節(jié)點(diǎn)只擁有單一類別時(shí)，將不必繼續(xù)拆分。目標(biāo)是尋找較小的樹，希望遞歸過程盡早停止較小的樹意味著什么？當(dāng)前最好的拆分屬性產(chǎn)生的拆分中目標(biāo)類的分布應(yīng)該盡可能地單一（單純），多數(shù)類占優(yōu)。決策樹算法通常按照純度的增加來選擇拆分屬性。用于評(píng)價(jià)拆分分類目標(biāo)變量的純度度量包括：熵(entropy，信息量)信息增益(Gain)信息增益率基尼(Gini，總體發(fā)散性)改變拆分準(zhǔn)則（splittingcriteria）導(dǎo)致樹的外觀互不相同。決策樹純度的度量常用的決策樹算法：決策樹決策樹算法算法描述ID3算法其核心是在決策樹的各級(jí)節(jié)點(diǎn)上，使用信息增益方法作為屬性的選擇標(biāo)準(zhǔn)，來幫助確定生成每個(gè)節(jié)點(diǎn)時(shí)所應(yīng)采用的合適屬性C4.5算法C4.5決策樹生成算法相對(duì)于ID3算法的重要改進(jìn)是使用信息增益率來選擇節(jié)點(diǎn)屬性。C4.5算法可以克服ID3算法存在的不足：ID3算法只適用于離散的描述屬性，而C4.5算法既能夠處理離散的描述屬性，也可以處理連續(xù)的描述屬性CART算法CART決策樹是一種十分有效的非參數(shù)分類和回歸方法，通過構(gòu)建樹、修剪樹、評(píng)估樹來構(gòu)建一個(gè)二叉樹。當(dāng)終結(jié)點(diǎn)是連續(xù)變量時(shí)，該樹為回歸樹；當(dāng)終結(jié)點(diǎn)是分類變量，該樹為分類樹SLIQ算法SLIQ算法對(duì)C4.5決策樹分類算法的實(shí)現(xiàn)方法進(jìn)行了改進(jìn)，使得其能處理比C4.5大得多的訓(xùn)練集，在一定范圍內(nèi)具有良好的可伸縮性決策樹天氣情況對(duì)是否打高爾夫球的影響日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？ID3算法簡(jiǎn)介及其原理決策樹天氣Yes濕度風(fēng)YesNoNoYes晴陰雨>75<=75是否日期天氣溫度(華氏度)濕度起風(fēng)打球?1Sunny8585FNo2Sunny8090TNo3Overcast8378FYes4Rainy7096FYes5Rainy6880FYes6Rainy6570TNo7Overcast6465TYes8Sunny7295FNo9Sunny6970FYes10Rainy7580FYes11Sunny7570TYes12Overcast7290TYes13Overcast8175FYes14Rainy7180TNo如果數(shù)據(jù)集D中共有N類樣本，出現(xiàn)的概率分別為，則D的信息熵為：打球問題的信息熵為：決策樹日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？天氣屬性的信息增益晴：打球記錄2條，不打球記錄為3條陰：打球記錄4條，不打球記錄0條雨：打球記錄3條，不打球記錄2條某屬性a的信息增益為：決策樹日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？決策樹ID3算法具體流程對(duì)當(dāng)前樣本集合，計(jì)算所有屬性的信息增益選擇信息增益最大的屬性作為測(cè)試屬性，將測(cè)試屬性中取值相同的樣本劃為同一個(gè)子樣本集若子樣本集的類別屬性只含有單個(gè)類別，則分支為葉子節(jié)點(diǎn)，判斷其屬性值并標(biāo)上相應(yīng)的符號(hào)，然后返回調(diào)用處；否則對(duì)子樣本集遞歸調(diào)用本算法使用scikit-learn庫中tree模塊的DecisionTreeClassifier類可以建立決策樹模型，其語法格式和常用參數(shù)描述如下：classsklearn.tree.DecisionTreeClassifier(*,criterion='gini',

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)PPT完整全套教學(xué)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)PPT完整全套教學(xué)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔