數(shù)據(jù)挖掘（第2版）課件全套王朝霞第1-9章緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-01-05 格式：PPTX 頁(yè)數(shù)：820 大小：25.64MB 積分：60 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘（第2版）課件全套王朝霞第1-9章緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第2頁(yè)

數(shù)據(jù)挖掘（第2版）課件全套王朝霞第1-9章緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第3頁(yè)

數(shù)據(jù)挖掘（第2版）課件全套王朝霞第1-9章緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第4頁(yè)

數(shù)據(jù)挖掘（第2版）課件全套王朝霞第1-9章緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第5頁(yè)

已閱讀5頁(yè)，還剩815頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘（第二版）第一章緒論of432高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用我們生活在一個(gè)信息時(shí)代，社會(huì)信息化水平的不斷提高和數(shù)據(jù)庫(kù)應(yīng)用的日益普及，使人類積累的數(shù)據(jù)量正在以指數(shù)方式增長(zhǎng)。信息化時(shí)代給我們帶來(lái)大量的數(shù)據(jù)電子商務(wù)：電子商務(wù)交易數(shù)據(jù)社交平臺(tái)數(shù)據(jù)：微博，QQ，微信等金融：銀行卡交易數(shù)據(jù)科學(xué)計(jì)算：天氣、地理環(huán)境等豐富的數(shù)據(jù)，貧乏的知識(shí)理解數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)人的能力迫切希望對(duì)海量數(shù)據(jù)進(jìn)行更深入地分析，發(fā)現(xiàn)隱藏在其中的有價(jià)值信息。數(shù)據(jù)挖掘出現(xiàn)的時(shí)代背景1.1數(shù)據(jù)挖掘基本概念第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.3數(shù)據(jù)挖掘常用工具3.1數(shù)據(jù)挖掘概述1.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景of433高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用習(xí)題數(shù)據(jù)挖掘（DataMining，DM），是從大量的、有噪聲的、不完全的、模糊和隨機(jī)的數(shù)據(jù)中，提取出隱含在其中的、人們事先不知道的、具有潛在利用價(jià)值的信息和知識(shí)的過(guò)程。這個(gè)定義包含以下幾層含義：數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的；發(fā)現(xiàn)的是用戶感興趣的知識(shí)；發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用；不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí)，僅支持特定的發(fā)現(xiàn)問(wèn)題1.1.1數(shù)據(jù)挖掘的概念of4341.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的定義DataInformationKnowledgeWisdom數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)掘知識(shí)的過(guò)程，在這個(gè)過(guò)程中人工智能和數(shù)據(jù)庫(kù)技術(shù)可以作為挖掘工具，數(shù)據(jù)可以被看作是土壤，云平臺(tái)可以看作是承載數(shù)據(jù)和挖掘算法的基礎(chǔ)設(shè)施。在挖掘數(shù)據(jù)的過(guò)程中需要用到一些挖掘工具和方法，如機(jī)器學(xué)習(xí)的方法。當(dāng)挖掘完畢后，數(shù)據(jù)挖掘還需要對(duì)知識(shí)進(jìn)行可視化和展現(xiàn)。1.1.1數(shù)據(jù)挖掘的概念of4351.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)、人工智能數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科，涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、模式識(shí)別、高性能計(jì)算、知識(shí)工程、神經(jīng)網(wǎng)絡(luò)、信息檢索、信息的可視化等眾多領(lǐng)域。1.1.1數(shù)據(jù)挖掘的概念of4361.1數(shù)據(jù)挖掘基本概念數(shù)據(jù)挖掘是多學(xué)科的匯合第一章緒論關(guān)系型數(shù)據(jù)庫(kù)、事務(wù)型數(shù)據(jù)庫(kù)、面向?qū)ο蟮臄?shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)/多維數(shù)據(jù)庫(kù)空間數(shù)據(jù)（如地圖信息）工程數(shù)據(jù)（如建筑、集成電路信息）文本和多媒體數(shù)據(jù)（如文本、圖像、音頻、視頻數(shù)據(jù)）時(shí)間相關(guān)的數(shù)據(jù)（如歷史數(shù)據(jù)或股票交換數(shù)據(jù)）萬(wàn)維網(wǎng)（如半結(jié)構(gòu)化的HTML、結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息）1.1.1數(shù)據(jù)挖掘的概念of4371.1數(shù)據(jù)挖掘基本概念常見(jiàn)的數(shù)據(jù)挖掘?qū)ο蟮谝徽戮w論大數(shù)據(jù)挖掘：從體量巨大、類型多樣、動(dòng)態(tài)快速流轉(zhuǎn)及價(jià)值密度低的大數(shù)據(jù)中挖掘出有巨大潛在價(jià)值的信息和知識(shí)，并以服務(wù)的形式提供給用戶。大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘相比：技術(shù)背景差異處理對(duì)象差異挖掘程度差異1.1.2大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘of4381.1數(shù)據(jù)挖掘基本概念第一章緒論在大數(shù)據(jù)時(shí)代，數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ)，數(shù)據(jù)挖掘是關(guān)鍵，即數(shù)據(jù)挖掘是大數(shù)據(jù)中最關(guān)鍵、最有價(jià)值的工作。大數(shù)據(jù)挖掘的特性：應(yīng)用性工程性集合性1.1.3大數(shù)據(jù)挖掘的特性of4391.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的任務(wù)主要分為描述性任務(wù)和預(yù)測(cè)性任務(wù)。描述性任務(wù)：刻畫(huà)目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì)，例如，通過(guò)客戶行為特征，將客戶進(jìn)行不同類型的聚類劃分。預(yù)測(cè)性任務(wù)：在當(dāng)前數(shù)據(jù)上進(jìn)行歸納，以便做出預(yù)測(cè)。例如，通過(guò)一個(gè)消費(fèi)者的消費(fèi)情況判斷是否會(huì)成為自己的重要客戶。1.1.4數(shù)據(jù)挖掘的任務(wù)和功能of43101.1數(shù)據(jù)挖掘基本概念第一章緒論常見(jiàn)的數(shù)據(jù)挖掘功能：分類聚類關(guān)聯(lián)分析數(shù)據(jù)總結(jié)離群點(diǎn)分析預(yù)測(cè)1.1.4數(shù)據(jù)挖掘的任務(wù)和功能of43111.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的對(duì)象可以是任何類型的數(shù)據(jù)。數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)，包括：數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)和事務(wù)數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)，包括：序列數(shù)據(jù)、圖或網(wǎng)絡(luò)數(shù)據(jù)、空間數(shù)據(jù)、文本和多媒體數(shù)據(jù)、萬(wàn)維網(wǎng)數(shù)據(jù)等。1.1.5數(shù)據(jù)挖掘的對(duì)象of43121.1數(shù)據(jù)挖掘基本概念第一章緒論1999年，歐盟創(chuàng)建了跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM，提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評(píng)述，包括業(yè)務(wù)理解、數(shù)據(jù)理解及收集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、模型評(píng)估與部署六個(gè)階段。1.1.6數(shù)據(jù)挖掘的過(guò)程of43131.1數(shù)據(jù)挖掘基本概念第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具3.1數(shù)據(jù)挖掘概述習(xí)題1.4數(shù)據(jù)挖掘應(yīng)用of4314高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用之后每年召開(kāi)一次這樣的會(huì)議，經(jīng)過(guò)十幾年的努力，數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)取得了豐碩的成果。美國(guó)麻省理工學(xué)院在2001年1月份的《科技評(píng)論》提出數(shù)據(jù)挖掘?qū)⑹俏磥?lái)5年對(duì)人類產(chǎn)生重大影響的10大新興技術(shù)之一。1.數(shù)據(jù)挖掘的起源of43151.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1989年8月于美國(guó)底特律市召開(kāi)的第十一屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上首次提到“知識(shí)發(fā)現(xiàn)”這一概念；1993年，美國(guó)電氣電子工程師學(xué)會(huì)(IEEE)的知識(shí)與數(shù)據(jù)工程(KnowledgeandDataEngineering)會(huì)刊出版了KDD技術(shù)?？?，發(fā)表的論文和摘要體現(xiàn)了當(dāng)時(shí)KDD的最新研究成果和動(dòng)態(tài)。1995年，在加拿大蒙特利爾召開(kāi)的首屆“知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘”國(guó)際學(xué)術(shù)會(huì)議上，首次提出了“數(shù)據(jù)挖掘”這一學(xué)科的名稱，并把數(shù)據(jù)挖掘技術(shù)分為科研領(lǐng)域的知識(shí)發(fā)現(xiàn)與工程領(lǐng)域的數(shù)據(jù)挖掘。1）多媒體數(shù)據(jù)挖掘2）時(shí)序數(shù)據(jù)挖掘3）Web數(shù)據(jù)挖掘4）文本數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的研究熱點(diǎn)of43161.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論web數(shù)據(jù)挖掘分類示意圖隨著物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)時(shí)代的來(lái)臨，在大數(shù)據(jù)背景下數(shù)據(jù)挖掘要面臨的挑戰(zhàn)，主要表現(xiàn)在以下幾個(gè)方面：數(shù)據(jù)挖掘分析模型的重構(gòu)：在大數(shù)據(jù)的背景下要以低成本和可擴(kuò)展的方式處理大數(shù)據(jù)，這就需要對(duì)整個(gè)IT架構(gòu)進(jìn)行重構(gòu)，開(kāi)發(fā)先進(jìn)的軟件平臺(tái)和算法。清洗粒度大小不易把握：由于普適終端的所處地理位置的復(fù)雜性，使得產(chǎn)生的數(shù)據(jù)具有很多噪聲。數(shù)據(jù)開(kāi)放與隱私的權(quán)衡：互聯(lián)網(wǎng)的交互性，使得人們?cè)诓煌恢卯a(chǎn)生的數(shù)據(jù)足跡得到積累和關(guān)聯(lián)，從而增加了隱私暴露的概率，且這種隱性的數(shù)據(jù)暴露往往是無(wú)法控制和預(yù)知的。3.數(shù)據(jù)挖掘面臨的新挑戰(zhàn)of43171.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化描述：標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語(yǔ)言將有助于數(shù)據(jù)挖掘的系統(tǒng)化開(kāi)發(fā)。改進(jìn)多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作，促進(jìn)其在企業(yè)和社會(huì)中的使用。數(shù)據(jù)挖掘過(guò)程的可視化方法：可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)?？梢栽诎l(fā)現(xiàn)知識(shí)的過(guò)程中進(jìn)行很好的人機(jī)交互。與特定數(shù)據(jù)存儲(chǔ)類型的適應(yīng)問(wèn)題：根據(jù)不同的數(shù)據(jù)存儲(chǔ)類型的特點(diǎn),進(jìn)行針對(duì)性的研究是目前流行以及將來(lái)一段時(shí)間必須面對(duì)的問(wèn)題。4數(shù)據(jù)挖掘未來(lái)的發(fā)展趨勢(shì)of43181.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘問(wèn)題：隨著Internet的不斷發(fā)展，網(wǎng)絡(luò)資源日漸豐富，這就需要分散的技術(shù)人員各自獨(dú)立地處理分離數(shù)據(jù)庫(kù)的工作方式應(yīng)是可協(xié)作的。數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成：數(shù)據(jù)庫(kù)系統(tǒng)和以Web查詢接口方式訪問(wèn)數(shù)據(jù)庫(kù)資源的Web數(shù)據(jù)庫(kù)已經(jīng)成為信息處理系統(tǒng)的主流。4數(shù)據(jù)挖掘未來(lái)的發(fā)展趨勢(shì)of43191.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1.3數(shù)據(jù)挖掘常用工具第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.1數(shù)據(jù)挖掘基本概念3.1數(shù)據(jù)挖掘概述1.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景of4320高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用習(xí)題我們需要借助一些有效的工具進(jìn)行數(shù)據(jù)挖掘工作，更輕松地從巨大的數(shù)據(jù)集中找出關(guān)系、集群、模式、分類信息等，借助這類工具可以幫助我們做出最準(zhǔn)確的決策，為我們的業(yè)務(wù)獲取更多收益。數(shù)據(jù)挖掘工具分為：商用工具和開(kāi)源工具。1.3數(shù)據(jù)挖掘工具of43211.3數(shù)據(jù)挖掘常用工具第一章緒論SASEnterpriseMinerSPSSClementineIntelligentMinerQUEST1.3.1商用工具of43221.3數(shù)據(jù)挖掘常用工具第一章緒論SASEnterpriseMinerEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具，按照“抽樣-探索-修改-建模-評(píng)價(jià)”的方法進(jìn)行數(shù)據(jù)挖掘，它把統(tǒng)計(jì)分析系統(tǒng)和圖形用戶界面(GUI)集成起來(lái)，為用戶提供了用于建模的圖形化流程處理環(huán)境。1.3.1商用工具of43231.3數(shù)據(jù)挖掘常用工具第一章緒論SPSSClementineClementine是SPSS公司開(kāi)發(fā)的數(shù)據(jù)挖掘工具，支持整個(gè)數(shù)據(jù)挖掘過(guò)程，即從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評(píng)估到最終部署的全部過(guò)程，還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)CRISP-DM。1.3.1商用工具of43241.3數(shù)據(jù)挖掘常用工具第一章緒論RWekaMahoutRapidMinerPythonSparkMLlib1.3.2開(kāi)源工具of43251.3數(shù)據(jù)挖掘常用工具第一章緒論RR是用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語(yǔ)言及分析工具，提供了豐富的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘功能，其核心模塊是用C、C++和Fortran編寫(xiě)的。1.3.2開(kāi)源工具of43261.3數(shù)據(jù)挖掘常用工具第一章緒論P(yáng)ythonPython是一種功能強(qiáng)大的、開(kāi)源的、解釋性、面向?qū)ο笥?jì)算機(jī)編程語(yǔ)言，內(nèi)建有各種高級(jí)數(shù)據(jù)結(jié)構(gòu)，支持模塊和包，支持多種平臺(tái)并可擴(kuò)展。Python提供sklearn第三方程序庫(kù)，對(duì)一些常用的機(jī)器學(xué)習(xí)方法進(jìn)行了封裝，只需要調(diào)用模塊中的函數(shù)就可實(shí)現(xiàn)大多數(shù)機(jī)器學(xué)習(xí)任務(wù)，包括分類、回歸、聚類、數(shù)據(jù)降維、數(shù)據(jù)預(yù)處理等。1.3.2開(kāi)源工具of43271.3數(shù)據(jù)挖掘常用工具第一章緒論WEKAWEKA是一個(gè)基于JAVA環(huán)境下免費(fèi)開(kāi)源的數(shù)據(jù)挖掘工作平臺(tái)，集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法，包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，分類，回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。1.3.2開(kāi)源工具of43281.3數(shù)據(jù)挖掘常用工具第一章緒論MahoutMahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開(kāi)源項(xiàng)目，在機(jī)器學(xué)習(xí)領(lǐng)域提供了一些可擴(kuò)展的經(jīng)典算法的實(shí)現(xiàn)和數(shù)據(jù)挖掘的程序庫(kù)。它可以實(shí)現(xiàn)很多功能，包括聚類、分類、推薦過(guò)濾、頻繁子項(xiàng)挖掘等。1.3.2開(kāi)源工具of43291.3數(shù)據(jù)挖掘常用工具第一章緒論SparkMLlibMLlib（machinelearninglib）是Spark中的一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù)，由通用的學(xué)習(xí)算法和工具組成，包括分類、線性回歸、聚類、協(xié)同過(guò)濾、梯度下降以及底層優(yōu)化原語(yǔ)。1.3.2開(kāi)源工具of43301.3數(shù)據(jù)挖掘常用工具第一章緒論1.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具of4331高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用習(xí)題數(shù)據(jù)挖掘能做什么？發(fā)現(xiàn)最有價(jià)值的客戶1.4數(shù)據(jù)挖掘的應(yīng)用of43321.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論數(shù)據(jù)挖掘能做什么？發(fā)現(xiàn)最有價(jià)值的客戶使組合銷售更有效率1.4數(shù)據(jù)挖掘的應(yīng)用of43331.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論數(shù)據(jù)挖掘能做什么？發(fā)現(xiàn)最有價(jià)值的客戶使組合銷售更有效率留住那些最有價(jià)值的客戶1.4數(shù)據(jù)挖掘的應(yīng)用of43341.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論數(shù)據(jù)挖掘能做什么？發(fā)現(xiàn)最有價(jià)值的客戶使組合銷售更有效率留住那些最有價(jià)值的客戶用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象1.4數(shù)據(jù)挖掘的應(yīng)用of43351.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論電信：客戶細(xì)分，客戶流失分析銀行：優(yōu)化客戶服務(wù)，信貸風(fēng)險(xiǎn)評(píng)估，欺詐檢測(cè)百貨公司/超市：購(gòu)物籃分析（關(guān)聯(lián)規(guī)則）電子商務(wù)：挖掘客戶潛在需求，交叉銷售稅務(wù)部門(mén)：偷漏稅行為探測(cè)警察機(jī)關(guān)：犯罪行為分析醫(yī)學(xué)：醫(yī)療保健1.4數(shù)據(jù)挖掘的應(yīng)用of43361.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論應(yīng)用案例1：啤酒與尿不濕

沃爾瑪超市，關(guān)聯(lián)規(guī)則1.4數(shù)據(jù)挖掘的應(yīng)用of43371.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論應(yīng)用案例2匯豐銀行需要對(duì)不斷增長(zhǎng)的客戶群進(jìn)行分類，對(duì)每種產(chǎn)品找出最有價(jià)值的客戶，營(yíng)銷費(fèi)用減少了30％。應(yīng)用案例3美國(guó)國(guó)防財(cái)務(wù)部需要從每年上百萬(wàn)比的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象。發(fā)現(xiàn)可能存在欺詐的交易，進(jìn)行深入調(diào)查，節(jié)約了大量的調(diào)查成本。1.4數(shù)據(jù)挖掘的應(yīng)用of43381.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論習(xí)題第一章緒論1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具1.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景of4339高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.什么是數(shù)據(jù)挖掘？2．?dāng)?shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間的關(guān)系是什么？3．什么是物聯(lián)網(wǎng)、云計(jì)算？并說(shuō)明它們和大數(shù)據(jù)的關(guān)系。4．查閱資料，說(shuō)明在大數(shù)據(jù)背景下，數(shù)據(jù)挖掘面臨哪些挑戰(zhàn)，以及如何解決。5．什么是數(shù)據(jù)倉(cāng)庫(kù)？數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)有何不同？6．?dāng)?shù)據(jù)挖掘有哪些常用的工具？of4340習(xí)題第一章緒論感謝聆聽(tīng)高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘（第二版）第二章數(shù)據(jù)預(yù)處理與相似性of4343高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)是數(shù)據(jù)挖掘的目標(biāo)對(duì)象和原始資源，對(duì)數(shù)據(jù)挖掘最終結(jié)果起著決定性的作用。現(xiàn)實(shí)世界中的數(shù)據(jù)是多種多樣的，具有不同的特征，這就要求數(shù)據(jù)的存儲(chǔ)采用合適的數(shù)據(jù)類型，并且數(shù)據(jù)挖掘算法的適用性會(huì)受到具體的數(shù)據(jù)類型限制。另外，原始數(shù)據(jù)通常存在著噪聲、不一致、部分?jǐn)?shù)據(jù)缺失等問(wèn)題，為了達(dá)到較好的挖掘結(jié)果，有必要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理加工從而提高數(shù)據(jù)的質(zhì)量。2.1

數(shù)據(jù)類型第二章數(shù)據(jù)預(yù)處理與相似性2.2

數(shù)據(jù)特征分析2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性of4344高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用習(xí)題屬性是數(shù)據(jù)對(duì)象的性質(zhì)或特性，屬性又可稱為特征。每一個(gè)數(shù)據(jù)對(duì)象用一組屬性描述，數(shù)據(jù)集用結(jié)構(gòu)化數(shù)據(jù)表表示，其中列是存放在表中的對(duì)象的屬性，行代表一個(gè)對(duì)象實(shí)例，表中單元格是實(shí)例對(duì)應(yīng)屬性的屬性值。2.1數(shù)據(jù)類型2.1數(shù)據(jù)類型

可以通過(guò)以下4種基本操作來(lái)確定屬性的類型：（1）相異性：＝和≠

（2）序：≤、≥、<和>（3）加法：+和-（4）乘法：*和/按照上面屬性測(cè)量值可使用的基本操作，可將屬性值大致可以分為：標(biāo)稱、序數(shù)、區(qū)間、二元、比率5種類型。2.1.1屬性與度量2.1數(shù)據(jù)類型2.1數(shù)據(jù)類型2.1.1屬性與度量2.1數(shù)據(jù)類型

2.1.2數(shù)據(jù)集的類型記錄數(shù)據(jù)有序數(shù)據(jù)圖形數(shù)據(jù)記錄數(shù)據(jù)是最常見(jiàn)的數(shù)據(jù)集類型，數(shù)據(jù)集是一個(gè)二維表格，其中表中行代表記錄，列代表屬性。例如一張普通的Excel表格文件或一張關(guān)系數(shù)據(jù)庫(kù)中的表。有序數(shù)據(jù)對(duì)象之間存在時(shí)間或空間上的順序關(guān)系。例如股票價(jià)格波動(dòng)信息，醫(yī)療儀器監(jiān)視病人的心跳、血壓、呼吸數(shù)值，用戶上網(wǎng)購(gòu)物會(huì)產(chǎn)生鼠標(biāo)點(diǎn)擊網(wǎng)頁(yè)等操作指令序列，這些信息可以用來(lái)挖掘用戶的上網(wǎng)習(xí)慣。圖形數(shù)據(jù)對(duì)象之間存在顯式或隱式的聯(lián)系，相互之間有一定的復(fù)雜依賴關(guān)系，構(gòu)成圖形或網(wǎng)狀結(jié)構(gòu)，如互聯(lián)網(wǎng)中的超鏈接。第二章數(shù)據(jù)預(yù)處理與相似性of4349高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性2.1

數(shù)據(jù)類型2.2

數(shù)據(jù)特征分析習(xí)題2.2數(shù)據(jù)特征分析描述數(shù)據(jù)集中趨勢(shì)(centraltendency)的度量:Mean(均值),median(中位數(shù)),mode(眾數(shù)),midrange(中列數(shù))：最大和最小值的均值描述數(shù)據(jù)離散程度(dispersion)的度量:Quartiles(四分位數(shù)),interquartilerange(IQR)：四分位數(shù)極差,andvariance(方差)2.2數(shù)據(jù)特征分析1.算術(shù)平均值（ArithmeticMean）算術(shù)平均值是最常用的數(shù)據(jù)集中趨勢(shì)指標(biāo)，就是數(shù)據(jù)集合中所有數(shù)值的加和除以數(shù)值個(gè)數(shù)，定義如下：2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量平均數(shù)的優(yōu)點(diǎn)：它能夠利用所有數(shù)據(jù)的特征，而且比較好算。不足之處，平均數(shù)容易受極端數(shù)據(jù)的影響。2.2數(shù)據(jù)特征分析2.眾數(shù)（Mode）2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量眾數(shù)(Mode):在一組數(shù)據(jù)中,出現(xiàn)次數(shù)最多的數(shù)據(jù);用眾數(shù)代表一組數(shù)據(jù)，適合于數(shù)據(jù)量較多時(shí)使用，且眾數(shù)不受極端數(shù)據(jù)的影響；

當(dāng)數(shù)值或被觀察者沒(méi)有明顯次序（常發(fā)生于非數(shù)值性資料）時(shí)特別有用，由于可能無(wú)法良好定義算術(shù)平均數(shù)和中位數(shù)。例子：{蘋(píng)果，蘋(píng)果，香蕉，橙，橙，橙，桃}的眾數(shù)是橙。2.2數(shù)據(jù)特征分析3.中位數(shù)（Median）2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。例:3,13,7,5,21,23,39,23,40,23,14,12,56,23,29

排序后:3,5,7,12,13,14,21,23,23,23,23,29,39,40,56這15個(gè)數(shù)中，第8個(gè)數(shù)為中位數(shù):23中位數(shù)是通過(guò)排序得到的，它不受最大、最小兩個(gè)極端數(shù)值的影響。2.2數(shù)據(jù)特征分析4.k百分位數(shù)（Percentile）在一組數(shù)據(jù)從小到大排序，并計(jì)算相應(yīng)的累計(jì)百分比，處于k%位置的值成為第k百分位數(shù)。第k百分位數(shù)是這樣一個(gè)值，它使得至少有k％的數(shù)據(jù)項(xiàng)小于或等于這個(gè)值，且至少有(100－k)％的數(shù)據(jù)項(xiàng)大于或等于這個(gè)值。前面介紹的中位數(shù)就是50百分位數(shù)。2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量2.2數(shù)據(jù)特征分析4.k百分位數(shù)（Percentile）求k百分位數(shù)的步驟：第1步：以遞增順序排列原始數(shù)據(jù)（即從小到大排列）。第2步：計(jì)算指數(shù)i=1+(n-1)*k%（n是數(shù)據(jù)個(gè)數(shù)）第3步：i是數(shù)據(jù)序列中k百分位數(shù)據(jù)的位置2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量2.2數(shù)據(jù)特征分析4.k百分位數(shù)（Percentile）【例2-1】有一組數(shù)據(jù)：3,13,7,5,21,23,39,23,40,23,14,12,56,23,29，求這組數(shù)的50百分位數(shù)（也就是中位數(shù)）。排序后：3,5,7,12,13,14,21,23,23,23,23,29,39,40,56

計(jì)算50百分位數(shù)的位置：1+(15-1)*50%=8第8個(gè)數(shù)據(jù)（即23）是50百分位數(shù)的位置。2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量2.2數(shù)據(jù)特征分析1.極差（Range）極差是指在在某個(gè)數(shù)值屬性上的最大值和最小值之差。比如，示例2-1中的數(shù)列的最大值和最小值差是56-3=53，53位這個(gè)屬性值上的極差。極差能體現(xiàn)一組數(shù)據(jù)波動(dòng)的范圍。極差越大，離散程度越大；但是極差未能利用全部測(cè)量值的信息，不能細(xì)致地反映測(cè)量值彼此相符合的程度，易受極端值的影響。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析2.四分位極差（IQR）前面學(xué)習(xí)過(guò)的50百分位數(shù)（即中位數(shù)）是指用中位數(shù)把數(shù)據(jù)分布分成了高低兩半。這里的四分位數(shù)指的是有三個(gè)分位點(diǎn)把數(shù)據(jù)分布分成了四個(gè)相等的部分。這三個(gè)分位點(diǎn)是：第一個(gè)分位點(diǎn)是25百分位數(shù)，記作Q1；第二個(gè)分位點(diǎn)是50百分位數(shù)，記作Q2；第三個(gè)分位點(diǎn)是75百分位數(shù)，記作Q3。四分位極差記作IQR，IQR=Q3-Q1。經(jīng)驗(yàn)公式：超過(guò)Q3+1.5×IQR或者低于Q1-1.5×IQR的數(shù)據(jù)，可能是離群點(diǎn)。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析2.四分位極差（IQR）【例2-2】例2-1中的15個(gè)數(shù)：3,5,7,12,13,14,21,23,23,23,23,29,39,40,56。求出IQR。25百分位位置是4，25百分位數(shù)Q1=1275百分位位置是12，75百分位數(shù)Q3=29則IQR=29-12=17。根據(jù)經(jīng)驗(yàn)公式計(jì)算可得離群點(diǎn)是56。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析3.五數(shù)概括與箱圖因?yàn)镼1、Q2（Median）和Q3并不包含數(shù)據(jù)序列的兩個(gè)端點(diǎn)信息，因此，為了數(shù)據(jù)分布形狀更完整的概括可以同時(shí)給出兩個(gè)端點(diǎn)信息，也就是最小值（Minimum）和最大值（Maximum），稱為五數(shù)概括。分布的五數(shù)概括包括：內(nèi)限內(nèi)最小值、Q1、中位數(shù)、Q3和內(nèi)限內(nèi)最大值。一般在五數(shù)箱圖中內(nèi)限內(nèi)最小值是不小于Q1-1.5×IQR的最小值，內(nèi)限內(nèi)最大值是不大于Q3+1.5×IRQ的最大值。在內(nèi)限內(nèi)最小值到內(nèi)限內(nèi)最大值范圍以外的數(shù)據(jù)稱為離群點(diǎn)數(shù)據(jù)。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析3.五數(shù)概括與箱圖【例2-3】示例2-1中的15個(gè)數(shù)：3,5,7,12,13,14,21,23,23,23,23,29,39,40,56。使用箱圖來(lái)直觀展示五數(shù)概括，如下圖2-2所示：此例中內(nèi)限內(nèi)最大值是40，內(nèi)限內(nèi)最小值是3，離群點(diǎn)是56。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析4.方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差都是數(shù)據(jù)散布度量，它們指出數(shù)據(jù)分布的散布程度。方差σ2的計(jì)算機(jī)公式：2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析4.方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差都是數(shù)據(jù)散布度量，它們指出數(shù)據(jù)分布的散布程度。方差σ2的計(jì)算機(jī)公式：2.2.2描述數(shù)據(jù)離散程度的度量標(biāo)準(zhǔn)差σ是σ2的開(kāi)方。方差大表示觀測(cè)的數(shù)據(jù)兩極分化大，方差小表示觀測(cè)的數(shù)據(jù)比較靠近均值。例如，兩個(gè)班級(jí)中，A班級(jí)的成績(jī)方差大，B班級(jí)方差小，則A班級(jí)學(xué)生學(xué)習(xí)成績(jī)比較離散，適于分層教學(xué)；B班級(jí)成績(jī)比較集中，不適于分層教學(xué)。2.2數(shù)據(jù)特征分析5.離散系數(shù)離散系數(shù)又稱變異系數(shù)，是統(tǒng)計(jì)學(xué)當(dāng)中的指標(biāo)。離散系數(shù)是度量數(shù)據(jù)離散程度的相對(duì)統(tǒng)計(jì)量，主要是用于比較不同樣本數(shù)據(jù)的離散程度。當(dāng)進(jìn)行兩個(gè)或多個(gè)數(shù)據(jù)集合離散程度的比較時(shí)，均值相當(dāng)?shù)那闆r下，可以用標(biāo)準(zhǔn)差來(lái)判斷離散程度；但是均值相差很大的情況下，用離散系數(shù)判斷離散程度。離散系數(shù)用符號(hào)表示，計(jì)算公式如下：2.2.2描述數(shù)據(jù)離散程度的度量

σ是樣本標(biāo)準(zhǔn)差，是樣本的平均值。離散系數(shù)大，說(shuō)明數(shù)據(jù)的離散程度也大；離散系數(shù)小，說(shuō)明數(shù)據(jù)的離散程度也小。2.2數(shù)據(jù)特征分析5.離散系數(shù)【例2-4】甲乙兩個(gè)運(yùn)動(dòng)員都是中等水平，各連續(xù)打靶8次，請(qǐng)問(wèn)那個(gè)運(yùn)動(dòng)員發(fā)揮穩(wěn)定？甲運(yùn)動(dòng)員：[8，9，8，9，9，8，10，10]乙運(yùn)動(dòng)員：[10，6，8，10，8，9，9，10]通過(guò)計(jì)算，得到了甲、乙運(yùn)動(dòng)員的平均值、標(biāo)準(zhǔn)差和離散系數(shù)如下表2-2：表2-2標(biāo)準(zhǔn)差和離散系數(shù)表2.2.2描述數(shù)據(jù)離散程度的度量名稱甲乙平均值8.8758.75標(biāo)準(zhǔn)差0.781.30離散系數(shù)0.0880.1482.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)對(duì)于離散數(shù)據(jù)，我們可以使用卡方檢驗(yàn)來(lái)做類似計(jì)算。假設(shè)兩個(gè)屬性分別為A和B，卡方檢驗(yàn)用符號(hào)表示，計(jì)算公式如下：上述公式中，Oij表示A和B屬性的配對(duì)值（Ai，Bj）的實(shí)際觀測(cè)值；Eij表示A和B屬性的配對(duì)值（Ai，Bj）的理論推算值，卡方檢驗(yàn)就是說(shuō)明了理論值和實(shí)際觀測(cè)值的偏差程度：卡方值越大，偏差越大；卡方值越小，偏差越?。豢ǚ街禐?，則理論值和實(shí)際值完全符合。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)【例2-6】我們要觀察性別和網(wǎng)上購(gòu)物有沒(méi)有關(guān)系。通過(guò)對(duì)987名顧客的調(diào)查，結(jié)果如下表2-4所示。那么，怎么判斷買(mǎi)不買(mǎi)生鮮跟性別有沒(méi)有關(guān)聯(lián)呢？2.2.3數(shù)據(jù)相關(guān)性分析

男女總計(jì)線上不買(mǎi)生鮮434102536線上買(mǎi)生鮮206245451總計(jì)6403479872.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)上表中數(shù)據(jù)是實(shí)際觀察值，通過(guò)這個(gè)值，我們發(fā)現(xiàn)的人不在線上買(mǎi)生鮮，的人會(huì)在線上買(mǎi)生鮮，按照這個(gè)比例，我們可以算出（男，線上不買(mǎi)生鮮）的理論值是，依次算出（男，線上買(mǎi)生鮮）、（女，線上不買(mǎi)生鮮）、（女，線上買(mǎi)生鮮）的理論值，我們還可以得到理論值如下表2-5所示。2.2.3數(shù)據(jù)相關(guān)性分析

男女總計(jì)線上不買(mǎi)生鮮348188536線上買(mǎi)生鮮292159451總計(jì)6403479872.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)判斷線上買(mǎi)不買(mǎi)生鮮跟性別相關(guān)性步驟如下：(1)求出卡方值根據(jù)前面得到的實(shí)際觀察值和理論值，可得：

=（434-348）2/348+（102-188）2/188+（206-292）2/292+（245-159）2/159=132.46(2)求自由度（行數(shù)-1）*（列數(shù)-1）=（2-1）*（2-1）=1(3)置信度此例確定為90%，查找卡方分布表獲得置信度為90%的卡方值是2.706因?yàn)?32.46遠(yuǎn)遠(yuǎn)大于2.706，因此，性別和線上購(gòu)買(mǎi)生鮮兩者之間是強(qiáng)關(guān)聯(lián)性。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析2.數(shù)值數(shù)據(jù)的協(xié)方差公式中，X和Y為兩個(gè)不同的屬性集，Xi和Yi分別是X和Y屬性對(duì)應(yīng)的屬性值，和分別是X和Y屬性值的平均值。假設(shè)協(xié)方差結(jié)果為C，C的取值范圍：–1≤C≤1。若>0，表明屬性X和屬性Y之間存在正線性相關(guān)關(guān)系，數(shù)據(jù)變化是同向的；若<0，表明屬性X和屬性Y之間存在負(fù)線性相關(guān)關(guān)系，數(shù)據(jù)變化是負(fù)向的；若=0，說(shuō)明二者之間不存在線性相關(guān)關(guān)系，但并不排除存在非線性相關(guān)性。因此，協(xié)方差的正負(fù)代表了兩個(gè)屬性之間相關(guān)性的方向，而協(xié)方差的絕對(duì)值代表了它們相互關(guān)系的強(qiáng)弱。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析2.數(shù)值數(shù)據(jù)的協(xié)方差【例2-7】下圖2-3是某種商品銷售受溫度影響的數(shù)據(jù)散點(diǎn)圖。圖2-3中左圖是正相關(guān)，（銷售量，溫度）協(xié)方差是大于0的，說(shuō)明這兩個(gè)屬性是正相關(guān)的。但是圖2-3右圖得到的（銷售量，溫度）協(xié)方差是等于0的，按照協(xié)方差規(guī)律，這個(gè)兩屬性是不相關(guān)的。顯然根據(jù)數(shù)據(jù)分布情況，這兩個(gè)屬性是相關(guān)的，先是正相關(guān)，超過(guò)一定溫度的時(shí)候呈現(xiàn)負(fù)相關(guān)性，所以右圖顯示的兩個(gè)屬性之間是存在非線性相關(guān)性的，此時(shí)，用協(xié)方差結(jié)果來(lái)評(píng)判是不客觀的。所以，協(xié)方差只是針對(duì)線性相關(guān)有效，當(dāng)協(xié)方差為0的時(shí)候有可能也存在非線性相關(guān)。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析3.數(shù)值數(shù)據(jù)的相關(guān)系數(shù)協(xié)方差的大小與屬性的取值范圍以及量綱都有關(guān)系，造成不同的屬性對(duì)之間的協(xié)方差難以進(jìn)行橫向比較。為了解決這個(gè)問(wèn)題，把協(xié)方差歸一化，就得到樣本相關(guān)系數(shù)用r表示，計(jì)算如公式2.6所示：如果取值在-1與1之間，且如果>0，表示它們正相關(guān)，值越大相關(guān)性越大。相反，如果<0，表示負(fù)相關(guān)。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析3.數(shù)值數(shù)據(jù)的相關(guān)系數(shù)【例2-8】冰激凌銷售和溫度的統(tǒng)計(jì)數(shù)據(jù)如表所示，右邊是數(shù)據(jù)分布散點(diǎn)圖，用python程序計(jì)算銷售和溫度兩個(gè)屬性的協(xié)方差和相關(guān)系數(shù)。2.2.3數(shù)據(jù)相關(guān)性分析第二章數(shù)據(jù)預(yù)處理與相似性2.2

數(shù)據(jù)特征分析3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性of4374高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用2.3數(shù)據(jù)預(yù)處理2.1

數(shù)據(jù)類型習(xí)題2.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的過(guò)程2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗數(shù)據(jù)清洗(Datacleaning)缺失值填充：Fillinginmissingvalues平滑噪聲：Smoothingnoisydata識(shí)別和去除離群點(diǎn)：Identifyingorremovingoutliers,解決不一致性：Resolvinginconsistencies2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗1.處理缺失值（1）忽略元組（2）數(shù)據(jù)補(bǔ)齊：人工填寫(xiě)、特殊值填充、平均值填充、使用最有可能的值填充。（3）不處理：有很多數(shù)據(jù)挖掘方法在屬性值缺失方面具有良好的魯棒性，直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘。這類方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗2.平滑噪聲主要使用的技術(shù)有回歸、分箱、離群點(diǎn)分析。現(xiàn)在主要介紹分箱方法。分箱（binning）:是將屬性的值域劃分成若干個(gè)連續(xù)子區(qū)間。分箱的方法：有4種：等深分箱法、等寬分箱法、最小熵法和用戶自定義區(qū)間法。等深分箱法：將數(shù)據(jù)集按記錄行數(shù)分箱，每箱具有相同的記錄數(shù)，每箱記錄數(shù)稱為箱子的深度。等寬分箱法：使數(shù)據(jù)集在整個(gè)屬性值的區(qū)間上平均分布，即每個(gè)箱的區(qū)間范圍是一個(gè)常量，稱為箱子寬度。最小熵法：在分箱時(shí)考慮因變量的取值，使得分享后箱內(nèi)達(dá)到最小熵。用戶自定義區(qū)間，用戶可以根據(jù)需要自定義區(qū)間，當(dāng)用戶明確希望觀察某些區(qū)間范圍內(nèi)的數(shù)據(jù)分布時(shí)，使用這種方法可以方便地幫助用戶達(dá)到目的。2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗2.平滑噪聲將數(shù)據(jù)分箱后，對(duì)每個(gè)分箱中的數(shù)據(jù)進(jìn)行局部平滑，常用的方式有下面三種：

按平均值平滑對(duì)同一箱值中的數(shù)據(jù)求平均值，用平均值替代該箱子中的所有數(shù)據(jù)。

按邊界值平滑用距離較小的邊界值替代箱中每一數(shù)據(jù)。

按中值平滑取箱子的中值，用來(lái)替代箱子中的所有數(shù)據(jù)。2.3數(shù)據(jù)預(yù)處理2.3.2數(shù)據(jù)集成數(shù)據(jù)集成就是將若干個(gè)分散的數(shù)據(jù)源中的數(shù)據(jù)，邏輯地或物理地集成到一個(gè)統(tǒng)一的數(shù)據(jù)集合中。這些數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和一般文件。數(shù)據(jù)集成的核心任務(wù)是要將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起，使用戶能夠以透明的方式訪問(wèn)這些數(shù)據(jù)源。數(shù)據(jù)集成中經(jīng)常會(huì)遇到以下問(wèn)題：1.實(shí)體識(shí)別問(wèn)題2.屬性冗余問(wèn)題3.數(shù)據(jù)值沖突問(wèn)題2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化數(shù)據(jù)規(guī)范化主要包括數(shù)據(jù)同趨化處理和無(wú)量綱化處理兩個(gè)方面，可以使屬性值按比例落入到一個(gè)特定區(qū)間，如[-1,1]或[0,1]。數(shù)據(jù)規(guī)范化一方面可以簡(jiǎn)化計(jì)算，提升模型的收斂速度；另一方面，在涉及到一些距離計(jì)算的算法時(shí)防止較大初始值域的屬性與具有較小初始值域的屬性相比權(quán)重過(guò)大，可以有效提高結(jié)果精度。介紹三種規(guī)范化方法。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化也稱離差標(biāo)準(zhǔn)化，是對(duì)原始數(shù)據(jù)的線性變換，假定min，max分別為屬性A的最小值和最大值。轉(zhuǎn)換函數(shù)如下：

將轉(zhuǎn)換到區(qū)間[new_min?〖,new_max〗]中，結(jié)果為。這種方法有一個(gè)缺陷就是當(dāng)有新的數(shù)據(jù)加入時(shí)，可能導(dǎo)致max,min值的變化，需要重新定義。另外，如果要做0-1規(guī)范化，上述式子可以簡(jiǎn)化為：2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化

【例2-11】下表2-8中是某部分同學(xué)數(shù)學(xué)和語(yǔ)文成績(jī)的成績(jī)，數(shù)據(jù)是百分制，語(yǔ)文是150分制，兩組數(shù)據(jù)不在同一個(gè)量綱，對(duì)其進(jìn)行最小-最大規(guī)范。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化

【例2-11】下表2-8中是某部分同學(xué)數(shù)學(xué)和語(yǔ)文成績(jī)的成績(jī)，數(shù)據(jù)是百分制，語(yǔ)文是150分制，兩組數(shù)據(jù)不在同一個(gè)量綱，對(duì)其進(jìn)行最小-最大規(guī)范。結(jié)果分析：以姓名為胡建的學(xué)生為例，他的（數(shù)學(xué)，語(yǔ)文）成績(jī)是（80,80），由于分制不同，所以直接比較是不正確的，經(jīng)過(guò)最小-最大規(guī)范后可以得出（數(shù)學(xué)，語(yǔ)文）成績(jī)是（0.57142857,0），這樣就可以比較出該同學(xué)的數(shù)學(xué)成績(jī)要比語(yǔ)文成績(jī)好。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化2.z-score規(guī)范化也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化，經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布，即均值為0，標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為如如公式2.9所示，其中表示屬性的均值，為標(biāo)準(zhǔn)差。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化3.按小數(shù)定標(biāo)規(guī)范化通過(guò)移動(dòng)數(shù)據(jù)的小數(shù)點(diǎn)位置來(lái)進(jìn)行標(biāo)準(zhǔn)化。小數(shù)點(diǎn)的移動(dòng)位數(shù)取決于屬性的最大絕對(duì)值。規(guī)范后的值計(jì)算方法：其中j是使的最小整數(shù)。例如，，取j=3，-84規(guī)范化后值為-0.084，231規(guī)范化后為0.231。需要注意的是，z-score規(guī)范化和按小數(shù)定標(biāo)規(guī)范化在計(jì)算過(guò)程中有參數(shù)值，需要保存起來(lái)，為后續(xù)的數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化使用。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化3.按小數(shù)定標(biāo)規(guī)范化【例2-13】對(duì)于樣本數(shù)據(jù)（0，-3，1）（3，1，2）（0，1，-1），通過(guò)按小數(shù)定標(biāo)規(guī)范化實(shí)現(xiàn)標(biāo)準(zhǔn)化的程序如下：運(yùn)行結(jié)果：[[0.-0.30.1][0.30.10.2][0.0.1-0.1]]2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化4.獨(dú)熱編碼處理標(biāo)稱屬性數(shù)據(jù)獨(dú)熱編碼（OneHotEncoding）將每個(gè)標(biāo)稱屬性進(jìn)行擴(kuò)充，在上面的例子中，可以擴(kuò)充為如下表2-9。左圖進(jìn)行獨(dú)熱編碼后如右表所示。編號(hào)血型1123324153編號(hào)A型B型O型AB型1100020010301004100050010這樣做的好處是任何兩個(gè)血型之間的差異是相同的，比如編號(hào)1和編號(hào)3的人的血型差異是（歐式距離），可以看到任意兩個(gè)人之間的血型差異都是，這和數(shù)值本身的實(shí)際意義是相符合的。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約（datareduction）技術(shù)是指在盡可能的保持原始數(shù)據(jù)集完整性的前堤下，最大限度地精簡(jiǎn)數(shù)據(jù)量。數(shù)據(jù)歸約技術(shù)可以用來(lái)得到數(shù)據(jù)集的歸約表示，它雖然小，但仍大致保持原數(shù)據(jù)的完整性。這樣，在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行Вa(chǎn)生相同(或幾乎相同)的分析結(jié)果。數(shù)據(jù)規(guī)約的策略主要包括維規(guī)約和數(shù)量規(guī)約。維規(guī)約減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)，主要方法有小波變換、主成分分析和屬性子集選擇，通過(guò)這些方法可以把原始數(shù)據(jù)變換或投影到較小的空間，其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測(cè)或刪除。數(shù)量規(guī)約是用替代的、較小的數(shù)據(jù)表示形式換原始數(shù)據(jù)。這些技術(shù)可以是參數(shù)或者非參數(shù)的。對(duì)于參數(shù)方法而言，使用模型估計(jì)數(shù)據(jù)，使得一般只需要存放模型參數(shù)而不是實(shí)際數(shù)據(jù)（離群點(diǎn)需存放）。非參數(shù)方法包括：直方圖、聚類、抽樣和數(shù)據(jù)立方體聚類。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約1.主成分分析主成分分析（principalcomponentanalysis,PCA）是一種廣泛用于不同領(lǐng)域的無(wú)監(jiān)督線性數(shù)據(jù)轉(zhuǎn)換技術(shù)。PCA的目標(biāo)是在高維數(shù)據(jù)中找到最大方差的方向，并將數(shù)據(jù)映射到一個(gè)維度小得多的新子空間上。借助于正交變換，將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約1.主成分分析PCA的基本過(guò)程：（1）首先對(duì)所有屬性數(shù)據(jù)規(guī)范化，每個(gè)屬性都落入相同的區(qū)間，消去量綱對(duì)算法的影響。（2）計(jì)算樣本數(shù)據(jù)的協(xié)方差矩陣（3）求出協(xié)方差矩陣的的特征值及相應(yīng)正交化單位特征向量。前m個(gè)較大的特征值就是前m個(gè)主成分對(duì)應(yīng)的方差。主成分的方差貢獻(xiàn)優(yōu)選法反映信息量的大小。（4）通過(guò)計(jì)算累計(jì)貢獻(xiàn)率來(lái)選擇主成分。主成分向量構(gòu)成了一組正交基，輸入數(shù)據(jù)可以由它們線性組成表示。（5）對(duì)主成分按重要性排序。主成分是新空間下的坐標(biāo)軸，提供了關(guān)于方差的重要信息。（6）選擇重要性最高的若干個(gè)主成分，同時(shí)將剩下的較弱主成分舍棄，這樣就完成了約簡(jiǎn)數(shù)據(jù)的規(guī)模。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約2.屬性子集選擇屬性子集選擇的基本啟發(fā)式方法包括以下技術(shù)：(1)逐步向前選擇：該過(guò)程由空屬性集作為歸約集開(kāi)始，確定原屬性集中最好的屬性，并將它添加到歸約集中。在其后的每一次迭代，將剩下的原屬性集中的最好的屬性添加到該集合中。(2)逐步向后刪除：該過(guò)程由整個(gè)屬性集開(kāi)始。在每一步中，刪除尚在屬性集中最差的屬性。(3)逐步向前選擇和逐步向后刪除的組合：可以將逐步向前選擇和逐步向后刪除方法結(jié)合在一起，每一步選擇一個(gè)最好的屬性，并在剩余屬性中刪除一個(gè)最差的屬性。(4)決策樹(shù)歸納：決策樹(shù)算法(在后面第三章介紹)最初是用于分類的。決策樹(shù)歸納構(gòu)造一個(gè)類似于流程圖的結(jié)構(gòu)，其中每個(gè)內(nèi)部(非樹(shù)葉)結(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試，每個(gè)分枝對(duì)應(yīng)于測(cè)試的一個(gè)結(jié)果；每個(gè)外部(樹(shù)葉)結(jié)點(diǎn)表示一個(gè)類預(yù)測(cè)。在每個(gè)結(jié)點(diǎn)上，算法選擇“最好”的屬性，將數(shù)據(jù)劃分成類。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖直方圖使用分箱近似數(shù)據(jù)分布，是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。桶安放在水平軸上，而桶的高度（和面積）是該桶所代表的值的平均頻率。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì)，則該桶稱為單值桶。通常，桶表示給定屬性的一個(gè)連續(xù)區(qū)間。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖【例2-16】我們得到一個(gè)商店每日利潤(rùn)數(shù)據(jù)：390、100、350、380、160、350、400、340、430、150、380、390、400、440、600、230、440首先，以50為區(qū)間統(tǒng)計(jì)利潤(rùn)的直方圖如下圖2-12所示。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖【例2-16】我們得到一個(gè)商店每日利潤(rùn)數(shù)據(jù)：390、100、350、380、160、350、400、340、430、150、380、390、400、440、600、230、440其次，我們以100為區(qū)間統(tǒng)計(jì)利潤(rùn)的直方圖如下所示。以50劃分區(qū)間得到的13個(gè)桶的數(shù)據(jù)，以100為區(qū)間得到的7個(gè)桶的數(shù)據(jù)。利用直方圖壓縮了數(shù)據(jù)，而得到結(jié)論仍然是商店每日利潤(rùn)集中300-400這個(gè)區(qū)間。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約4.聚類把數(shù)據(jù)元組看作對(duì)象。它將對(duì)象劃分為群或簇，使得一個(gè)簇中的對(duì)象相互“相似”，而與其他簇中的對(duì)象“相異”。通常，相似性基于距離函數(shù)，形心距離是另一種度量。聚類方法在后面第五章有詳細(xì)介紹。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約5.抽樣很多應(yīng)用領(lǐng)域的數(shù)據(jù)也不能完全存儲(chǔ)，或者分析的時(shí)候是以動(dòng)態(tài)的流式數(shù)據(jù)形式存在，在很多情況下，數(shù)據(jù)抽樣是數(shù)量規(guī)約的一種常見(jiàn)方法。常見(jiàn)的抽樣有簡(jiǎn)單抽樣（包含不放回簡(jiǎn)單隨機(jī)抽樣和有放回簡(jiǎn)單隨機(jī)抽樣）、簇抽樣、分層抽樣。采用抽樣進(jìn)行數(shù)據(jù)歸約的優(yōu)點(diǎn)是，得到樣本的花費(fèi)正比例于樣本集的大小s，而不是數(shù)據(jù)集的大小N。因此，抽樣的復(fù)雜度可能亞線性(sublinear)于數(shù)據(jù)的大小。其它數(shù)據(jù)歸約技術(shù)至少需要完全掃描D。對(duì)于固定的樣本大小，抽樣的復(fù)雜度僅隨數(shù)據(jù)的維數(shù)n線性地增加；而其它技術(shù)，如使用直方圖，復(fù)雜度隨d呈指數(shù)增長(zhǎng)。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化數(shù)據(jù)離散化是指將連續(xù)的數(shù)據(jù)進(jìn)行分段，使其變?yōu)橐欢味坞x散化的區(qū)間。連續(xù)屬性離散化的問(wèn)題本質(zhì)是：決定選擇多少個(gè)分割點(diǎn)和確定分割點(diǎn)位置。任務(wù)可分為兩個(gè)步驟完成。首先將連續(xù)屬性排序并通過(guò)指定n-1個(gè)分割點(diǎn)把它們分成n個(gè)區(qū)間。然后，將一個(gè)區(qū)間中的所有值映射到相同的分類值。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化1.數(shù)據(jù)離散化的原因（1）算法需要像決策樹(shù)，NaiveBayes算法，都是基于離散型的數(shù)據(jù)展開(kāi)的。如果要使用該類算法，必須將連續(xù)型數(shù)據(jù)處理成離散型的數(shù)據(jù)。（2）數(shù)據(jù)離散化更方便對(duì)連續(xù)型數(shù)據(jù)的理解例如，某個(gè)問(wèn)題中的年齡屬性可以按照如下辦法離散化：[0-11]→兒童，[12-17]→青少年，[18-44]→青年，[45-69]→中年，[69-∞]→老年。這樣，可以更加方便對(duì)于年齡屬性的理解。（3）可以有效的克服數(shù)據(jù)中隱藏的缺陷，使模型結(jié)果更加穩(wěn)定。比如如果對(duì)用戶年齡離散化，[18-44]作為一個(gè)區(qū)間，不會(huì)因?yàn)橐粋€(gè)用戶年齡長(zhǎng)了一歲就變成一個(gè)完全不同的人。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法數(shù)據(jù)離散化的方法有多種類型，通?？梢苑譃闊o(wú)監(jiān)督離散化和有監(jiān)督離散化。在離散化過(guò)種中使用類信息的方法是監(jiān)督的，而不使用類信息的方法是無(wú)監(jiān)督的。無(wú)監(jiān)督離散化方法中最簡(jiǎn)單的方法是等寬分箱法和等深分箱法（分箱法見(jiàn)本章2.3.1節(jié)）。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法等寬分箱法將排好序的數(shù)據(jù)從最小值到最大值均勻劃分成n等份，每份的間距是相等的。假設(shè)A和B分別是屬性值的最小值和最大值，那么劃分間距為W=(B-A)/n，每個(gè)類別的劃分邊界將為A+W,A+2W,A+3W,…A+(n-1)W。這種方法的缺點(diǎn)對(duì)異常點(diǎn)比較敏感，傾向于不均勻地把實(shí)例分布到各個(gè)箱中。等深分箱法將數(shù)據(jù)總記錄數(shù)均勻分為n等分，每份包含的數(shù)據(jù)個(gè)數(shù)相同。如果n=10，那么每一份中將包含大約10%的數(shù)據(jù)對(duì)象。這兩種方法都需要人工確定劃分區(qū)間的個(gè)數(shù)。等頻法可能將具有不相同類標(biāo)號(hào)的相同屬性值分入不同的箱中以滿足箱中數(shù)據(jù)的固定個(gè)數(shù)的條件。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge是一種監(jiān)督的、基于χ2檢驗(yàn)（卡方檢驗(yàn)見(jiàn)2.3.3）的數(shù)據(jù)離散化方法。其基本思想：對(duì)于精確的離散化，相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)完全一致。因此，如果兩個(gè)相鄰的區(qū)間具有非常類似的類分布，則這兩個(gè)區(qū)間可以合并；否則，它們應(yīng)當(dāng)保持分開(kāi)。而低χ2值表明它們具有相似的類分布。ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個(gè)部分：第一步：初始化根據(jù)連續(xù)變量的值的大小排序，進(jìn)行初始的離散處理。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個(gè)部分：第二步：合并箱子合并過(guò)程分為兩個(gè)步驟，連續(xù)重復(fù)進(jìn)行：(1)對(duì)每對(duì)相鄰的區(qū)間進(jìn)行檢驗(yàn)。(2)將最小值的相鄰區(qū)間合并成一個(gè)區(qū)間。（根據(jù)卡方檢驗(yàn)原理可知卡方值越低，表明兩個(gè)類別越獨(dú)立，相互影響的程度越??；或者另一種理解是兩箱分布相似，可以進(jìn)行合并。）重復(fù)執(zhí)行檢驗(yàn)并且至底向上合并區(qū)間直到達(dá)到設(shè)定的閾值。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個(gè)部分：合并停止條件:直到所有相鄰箱子的值大于等于設(shè)置的閾值。（根據(jù)自由度和顯著性水平選取合適的值閾值；自由度則是根據(jù)數(shù)據(jù)能夠確定的為（R-1）*（C-1）,因?yàn)槎际怯?jì)算相鄰兩箱的，故R=2;C也可根據(jù)數(shù)據(jù)情況確定。顯著性水平推薦選擇0.1，0.05，0.01。）或者，箱子數(shù)量達(dá)到預(yù)先設(shè)置的數(shù)量。2.3數(shù)據(jù)預(yù)處理第二章數(shù)據(jù)預(yù)處理與相似性of43105高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用2.2

數(shù)據(jù)特征分析2.3

數(shù)據(jù)預(yù)處理2.1

數(shù)據(jù)類型2.4數(shù)據(jù)的相似性習(xí)題2.4數(shù)據(jù)的相似性數(shù)據(jù)挖掘任務(wù)需要計(jì)算數(shù)據(jù)對(duì)象之間的相似性或相異性，如聚類、最近鄰分類、異常檢測(cè)等。相似度指兩個(gè)對(duì)象相似程度的數(shù)據(jù)度量。相異度指兩個(gè)對(duì)象差異程度的數(shù)值度量，距離可以作為相異度的同義詞，兩個(gè)數(shù)據(jù)所在的空間距離越大表示數(shù)據(jù)越相異，。相似性和相異性計(jì)算方法是一致的，通常是用兩個(gè)對(duì)象之間的一個(gè)或多個(gè)屬性距離來(lái)表示。數(shù)據(jù)對(duì)象之間的鄰近度計(jì)算與數(shù)據(jù)對(duì)象屬性類型密切相關(guān)。掌握簡(jiǎn)單屬性之間的鄰近度是計(jì)算復(fù)雜對(duì)象之間鄰近度的基礎(chǔ)。本節(jié)分別以標(biāo)稱和數(shù)值類型屬性介紹鄰近性度量方法。2.4數(shù)據(jù)的相似性假設(shè)每個(gè)對(duì)象有m個(gè)屬性，可以把一個(gè)對(duì)象視為m維空間的一個(gè)點(diǎn)，n個(gè)對(duì)象就是m維空間中的n個(gè)點(diǎn)。從直觀上看，屬于同一類的對(duì)象在空間中應(yīng)該互相靠近，而不同類的對(duì)象之間的距離要大得多，因此可用距離來(lái)衡量對(duì)象之間的相似程度。距離越小，對(duì)象間的相似性就越大。常用的距離形式有：曼哈頓距離、歐幾里得距離、切比雪夫距離、閔可夫斯基距離、杰卡德距離等。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性1.曼哈頓距離(ManhattanDistance)曼哈頓距離之所以稱為“曼哈頓距離”，是因?yàn)檫@里在兩個(gè)點(diǎn)之間行進(jìn)時(shí)必須要沿著網(wǎng)格線前進(jìn)，就如同沿著城市（如曼哈頓）的街道行進(jìn)一樣。對(duì)于一個(gè)具有正南正北、正東正西方向規(guī)則布局的城市街道，從一點(diǎn)到達(dá)另一點(diǎn)的距離正是在南北方向上旅行的距離加上在東西方向上旅行的距離，是將多個(gè)維度上的距離進(jìn)行求和的結(jié)果。其距離公式：2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性2.歐幾里得距離(EuclideanDistance)歐幾里得距離，也稱歐氏距離是最為熟知的距離測(cè)度，也就是我們常說(shuō)的“距離”。在m維歐氏空間中，每個(gè)點(diǎn)是一個(gè)m維實(shí)數(shù)向量，該空間中的傳統(tǒng)距離測(cè)度為L(zhǎng)2范式定義如下：也就是說(shuō)，首先計(jì)算每一維上的距離，然后求它們的平方和，最后求算術(shù)平方根。另一個(gè)有趣的距離測(cè)度是L范式，也就是當(dāng)r趨向無(wú)窮大時(shí)Lr范式的極限值。當(dāng)r增大時(shí)，只有那個(gè)具有最大距離的維度才真正其作用，因此，通常L范式定義為在所有維度下中的最大值。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性3.切比雪夫距離(Chebyshev)以數(shù)學(xué)的觀點(diǎn)來(lái)看，切比雪夫距離是由一致范數(shù)（uniformnorm）（或稱為上確界范數(shù)）所衍生的度量，也是超凸度量（injectivemetricspace）的一種。它產(chǎn)生兩個(gè)數(shù)據(jù)對(duì)象的最大屬性值差。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性4.閔可夫斯基距離(MinkowskiDistance)閔可夫斯基距離又稱閔氏距離，是歐幾里得距離、曼哈頓距離和切比雪夫距離的推廣。閔氏距離對(duì)應(yīng)Lp范數(shù)，其中p是一個(gè)變參數(shù)，根據(jù)參數(shù)的不同閔氏距離可以表示一類的距離。當(dāng)p=1時(shí)，就是曼哈頓距離;當(dāng)p=2時(shí)，就是歐氏距離;當(dāng)p→∞時(shí)，就是切比雪夫距離。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性5.杰卡德距離杰卡德距離(JaccardDistance)用于衡量?jī)蓚€(gè)集合的差異性，它是杰卡德相似度的補(bǔ)集，被定義為1減去Jaccard相似度。Jaccard相似度用來(lái)度量?jī)蓚€(gè)集合之間的相似性，它被定義為兩個(gè)集合交集的元素個(gè)數(shù)除以并集的元素個(gè)數(shù)，即集合A和B的相似度為:2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性5.杰卡德距離多維二元數(shù)據(jù)，其某位數(shù)據(jù)為1表示元素集合中的某個(gè)元素出現(xiàn)，為0表示不出現(xiàn)。例如，超市的一張交易清單中的1或0來(lái)表示是否包含某件商品，一篇文章中用0或1來(lái)表示詞語(yǔ)是否出現(xiàn)。多維二元數(shù)據(jù)情況下，集合Ａ、Ｂ的相似度可以進(jìn)一步寫(xiě)成：2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性數(shù)值數(shù)據(jù)是有大小順序的，距離公式非常適合計(jì)算不同維度的數(shù)值數(shù)據(jù)的鄰近度。但是，離散的標(biāo)稱屬性數(shù)據(jù)間并不存在大小順序關(guān)系，不能直接距離來(lái)計(jì)算相似度或相異度。標(biāo)稱屬性取值是代表事物狀態(tài)的若干值，只包含了相異性信息。標(biāo)稱類型可以通過(guò)編碼方案轉(zhuǎn)換成二元數(shù)據(jù)類型，然后使用數(shù)值計(jì)算方法來(lái)計(jì)算鄰近度。如果一個(gè)標(biāo)稱類型數(shù)據(jù)有M個(gè)不同的狀態(tài)值，那么將該標(biāo)稱數(shù)據(jù)轉(zhuǎn)換成M個(gè)二元屬性值，每一個(gè)標(biāo)稱狀態(tài)值對(duì)應(yīng)一個(gè)二元屬性，這些二元屬性中有一個(gè)值為1，剩余的全為0。這樣標(biāo)稱屬性相似度計(jì)算就可可通過(guò)編碼方式轉(zhuǎn)化為多個(gè)二元屬性的相似度計(jì)算。2.4.2標(biāo)稱屬性的相似性度量2.4數(shù)據(jù)的相似性一般地，二元屬性相似度，可以通過(guò)對(duì)屬性匹配值求和來(lái)計(jì)算。即首先分別求解對(duì)應(yīng)單個(gè)屬性間的相似度，然后對(duì)所有相似度數(shù)值進(jìn)行直接累加：中，d代表對(duì)象的屬性總數(shù)。更為直接的理解，相似度可用“取值相同的同位屬性數(shù)/屬性總位數(shù)”標(biāo)識(shí)對(duì)于包含多個(gè)二元屬性的數(shù)據(jù)對(duì)象相似度計(jì)算。設(shè)有={1,0,0,1,0,0,1,0,1,1}，={0,0,0,1,0,1,1,1,1,1}，兩個(gè)對(duì)象共有7個(gè)屬性取值相同，3個(gè)取值不同，那么相似度可以標(biāo)識(shí)為3/10=0.3。2.4.2標(biāo)稱屬性的相似性度量2.4數(shù)據(jù)的相似性1.距離度量的標(biāo)準(zhǔn)化和相關(guān)性當(dāng)數(shù)據(jù)對(duì)象屬性具有不同的域值時(shí)，即屬性變量的大小變化范圍不同，量綱不同，測(cè)量單位不同。如果不對(duì)屬性值進(jìn)行標(biāo)準(zhǔn)化處理，那么在使用歐幾里得距離計(jì)算相似度，將會(huì)受到屬性值大的屬性影響。例如第一個(gè)變量的數(shù)量級(jí)是1000,而第二個(gè)變量的數(shù)量級(jí)是10，如v1=(2000,20),v2=(5000,60),那么如果只有2維的點(diǎn)中，歐氏距離為2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性2.組合異種屬性的相似度異種對(duì)象X，Y的相似度計(jì)算算法：步驟1：將第k個(gè)屬性標(biāo)準(zhǔn)化到區(qū)間[0，1]，計(jì)算相似度。步驟2：創(chuàng)建一個(gè)指示變量用來(lái)標(biāo)示兩個(gè)對(duì)象在第k個(gè)屬性上是否同時(shí)取值為0，如果同時(shí)為0，=0，否則=1。步驟3：使用如下公式計(jì)算對(duì)象X，Y的相似度：2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性3.使用權(quán)值前面所述所有相似度計(jì)算，都是將對(duì)象的所有屬性同等對(duì)待，沒(méi)有區(qū)分不同屬性的重要程度。當(dāng)現(xiàn)實(shí)問(wèn)題中屬性的重要程度存在較大差異時(shí)，可以借助于領(lǐng)域?qū)I(yè)知識(shí)，給它們賦予不同的權(quán)值，以期望獲得更好的性能。相似度計(jì)算公式增加權(quán)值項(xiàng)后形式如下：2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性文檔是由大量詞語(yǔ)構(gòu)成，如果把特定詞語(yǔ)出現(xiàn)的頻率看作一個(gè)單獨(dú)屬性，那么文檔可以由數(shù)千個(gè)詞頻屬性構(gòu)成的向量表示。詞頻向量通常很長(zhǎng)，并且是稀疏的，因?yàn)樗舜罅康牧阒祵傩?。統(tǒng)計(jì)兩個(gè)文檔中共同沒(méi)有的詞，即公共零值屬性對(duì)計(jì)算它們間的相似度并沒(méi)有多大幫助。對(duì)于文檔這種特殊結(jié)構(gòu)數(shù)據(jù)，使用基于距離計(jì)算鄰近度的方法，會(huì)受到大量零值的影響，評(píng)估效果并不好。文檔相似度需要關(guān)注兩個(gè)文檔同時(shí)出現(xiàn)的詞語(yǔ)，以及這些詞語(yǔ)出現(xiàn)的次數(shù)，忽略零匹配的數(shù)值數(shù)據(jù)度量。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.余弦相似度又稱為余弦相似性，適合用來(lái)計(jì)算文檔間的相似度。其原理是把兩個(gè)文本文檔以詞頻向量表示，通過(guò)計(jì)算兩個(gè)向量的夾角余弦值來(lái)評(píng)估他們的相似度。如果余弦值越接近于1，夾角越小，代表向量之間的匹配越大。而如果兩個(gè)向量的余弦值為0，表示它們正交，沒(méi)有匹配。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.余弦相似度2.4.4文本相似性度量

假設(shè)有兩個(gè)文檔，新聞a和新聞b，將它們的內(nèi)容經(jīng)過(guò)分詞、詞頻統(tǒng)計(jì)處理后得到如下兩個(gè)向量：文檔a:(1,1,2,1,1,1,0,0,0)文檔b:(1,1,1,0,1,3,1,6,1)。使用余弦相似度來(lái)計(jì)算兩個(gè)文檔的相似度過(guò)程如下：新聞a和新聞b對(duì)應(yīng)的向量分別是

和（1）計(jì)算向量a、b的點(diǎn)積：（2）計(jì)算向量a、b的歐幾里得范數(shù)，即||a||、||b||：（3）計(jì)算相似度：2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)?；诮y(tǒng)計(jì)學(xué)方法來(lái)評(píng)估詞語(yǔ)對(duì)文檔的重要性。字詞的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加，但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。其中，詞頻(termfrequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的次數(shù)。由于同一個(gè)詞語(yǔ)在長(zhǎng)文檔里可能會(huì)比短文檔有更高的詞頻，為了防止它偏向較長(zhǎng)的文檔，通常會(huì)采用詞頻除以文檔總詞數(shù)來(lái)歸一化。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

逆向文檔頻率(inversedocumentfrequency,IDF)的主要思想是：出現(xiàn)頻率較少的詞才能夠表達(dá)文檔的主題。如果包含詞語(yǔ)w的文檔越少,IDF值越大，則說(shuō)明詞條具有很好的類別區(qū)分能力。為了避免分母為０值，分母做加１處理。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

最終TF-IDF的計(jì)算式為：TF-IDF算法用來(lái)對(duì)文本進(jìn)行特征提取，選出可以表征文章特性的關(guān)鍵詞。假設(shè)文章X由d個(gè)關(guān)鍵詞的詞頻組成的向量表示,兩篇文章X,Y的相似度可表示為：2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.編輯距離編輯距離具有下面幾個(gè)性質(zhì)：兩個(gè)字符串的最小編輯距離是兩個(gè)符串的長(zhǎng)度差；兩個(gè)字符串的最大編輯距離是兩字符串中較長(zhǎng)字符串的長(zhǎng)度；只有兩個(gè)相等的字符串的編輯距離才會(huì)為0；編輯距離滿足三角不等式，即；2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性1.編輯距離編輯距離（EditDistance）是指將序列變換為序列所用的最少編輯操作次數(shù)。編輯操作類型包括字符的替換、插入和刪除，三種類型可以根據(jù)實(shí)際應(yīng)用問(wèn)題指定相同或不同的操作代價(jià)。一般來(lái)說(shuō)，編輯距離越小，兩個(gè)字符串的相似度越大。2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性2.最長(zhǎng)公共子序列最長(zhǎng)公共子序列（LongestCommonSubsequence，LCS）的定義是，一個(gè)序列S，如果分別是兩個(gè)或多個(gè)已知序列的子序列，且是所有符合此條件序列中最長(zhǎng)的，則S稱為已知序列的最長(zhǎng)公共子序列。子序列要求左右兩元素在母序列中為相鄰元素，且前后順序一致。設(shè)序列和的最長(zhǎng)公共子序列為，則有如下特性：1)若xm=yn，則zk=xm=yn，且zk-1是xm-1和yn-1的最長(zhǎng)公共子序列。2)若xm≠yn且zk≠xm，則Z是xm-1和Y的最長(zhǎng)公共子序列。3)若xm≠yn且zk≠yn，則Z是X和yn-1的最長(zhǎng)公共子序列。2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性2.最長(zhǎng)公共子序列當(dāng)兩個(gè)序列X,Y中任意一個(gè)為空集時(shí)，它們的最長(zhǎng)公共子序列為零。即有和，這兩個(gè)式子可以作為求解算法的邊界條件。2.4.5離散序列相似性度量第二章數(shù)據(jù)預(yù)處理與相似性of43129高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性2.1

數(shù)據(jù)類型習(xí)題2.2

數(shù)據(jù)圖特征分析

1.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理？2.簡(jiǎn)述數(shù)據(jù)清洗的基本內(nèi)容。3.簡(jiǎn)述數(shù)據(jù)預(yù)處理的方法和內(nèi)容。4.簡(jiǎn)述數(shù)據(jù)空缺值的處理方法。5.數(shù)據(jù)約簡(jiǎn)的方法有哪些？6.什么是數(shù)據(jù)規(guī)范化？規(guī)范化的常用方法有哪些？寫(xiě)出對(duì)應(yīng)的變換公式。7.【示例2-10】種的數(shù)據(jù)[3、22、8、22、9、11、32、93、12],試用等寬分箱法完成數(shù)據(jù)平滑。8.下列數(shù)據(jù)是對(duì)鳶尾花進(jìn)行頻率統(tǒng)計(jì)后的部分?jǐn)?shù)據(jù)，在此基礎(chǔ)上，用ChiMerge方法完成數(shù)據(jù)離散化。of43130習(xí)題第二章數(shù)據(jù)預(yù)處理與相似性of43131習(xí)題第二章數(shù)據(jù)預(yù)處理與相似性9．計(jì)算數(shù)據(jù)對(duì)象X=(3,5,2,7)和Y=(6,8,2,3)之間的歐幾里得距離、曼哈頓距離以及閔可夫斯基距離，其中閔可夫斯距離中p值取為３。sepal_length0類1類2類和4.310014.430034.510014.640044.720024.850054.941165820105.181095.231045.31

015.451065.525075.605165.725185.813375.90213感謝聆聽(tīng)高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘（第二版）第三章分類of56134高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用

分類是一種很重要的數(shù)據(jù)挖掘技術(shù)，也是數(shù)據(jù)挖掘研究的重點(diǎn)和熱點(diǎn)之一。分類的目的是分析輸入數(shù)據(jù)，通過(guò)訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來(lái)的特性，為每一個(gè)類找到一種準(zhǔn)確描述或者模型，這種描述常常用謂詞來(lái)表示。由此生成的類描述用來(lái)對(duì)未來(lái)的測(cè)試數(shù)據(jù)進(jìn)行分類。盡管這些未來(lái)測(cè)試數(shù)據(jù)的類標(biāo)簽是未知的，仍可以由此預(yù)測(cè)這些新數(shù)據(jù)所屬的類。也可以由此對(duì)數(shù)據(jù)中每一個(gè)類有更好的理解。More應(yīng)用市場(chǎng)：醫(yī)療診斷、人臉檢測(cè)、故障診斷和故障預(yù)警······3.1分類概述第三章分類3.2

決策樹(shù)3.3

貝葉斯分類3.5實(shí)戰(zhàn)：Python支持向量機(jī)分類習(xí)題3.4

支持向量機(jī)of56135高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一，大數(shù)據(jù)挖掘技術(shù)與應(yīng)用

分類（Classification）是一種重要的數(shù)據(jù)分析形式，它提取刻畫(huà)重要數(shù)據(jù)類的模型。這種模型稱為分類器，預(yù)測(cè)分類的（離散的、無(wú)序的）類標(biāo)號(hào)。這些類別可以用離散值表示，其中值之間的次序沒(méi)有意義。3.1.1分類的基本概念of561363.1分類概述第三章分類

分類可描述如下：從訓(xùn)練數(shù)據(jù)中確定函數(shù)模型y=f(x1,x2,...,xd)，其中xi,i=1,...d為特征變量，y為分類變量。當(dāng)y為離散變量時(shí)，即dom(y)={y1,y2,...,ym}，被稱為分類。

分類也可定義為：分類的任務(wù)就是通過(guò)學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)(TargetFunction)?，把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y。

數(shù)據(jù)分類過(guò)程有兩階段：

（1）學(xué)習(xí)階段（構(gòu)建分類模型）。

（2）分類階段（使用學(xué)習(xí)階段構(gòu)建的模型預(yù)測(cè)給定數(shù)據(jù)的類標(biāo)號(hào)）。3.1.2分類的過(guò)程of561373.1分類概述第三章分類建立分類模型的一般方法3.1.2分類的過(guò)程of561383.1分類概述第三章分類建立分類模型的一般方法

訓(xùn)練集：用于訓(xùn)練模型，擬合參數(shù)，即模型擬合的數(shù)據(jù)樣本集合，如通過(guò)訓(xùn)練擬合一些參數(shù)來(lái)建立一個(gè)分類器。

測(cè)試集：用來(lái)評(píng)估訓(xùn)練好的最終模型的性能如何，評(píng)價(jià)模型好壞，測(cè)試集沒(méi)有參于訓(xùn)練，主要是測(cè)試訓(xùn)練好的模型的準(zhǔn)確能力等，但不能作為調(diào)參、選擇特征等算法相關(guān)的選擇的依據(jù)。

訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)不能再出現(xiàn)在驗(yàn)證數(shù)據(jù)以及測(cè)試數(shù)據(jù)中，驗(yàn)證數(shù)據(jù)最好也不要出現(xiàn)在測(cè)試數(shù)據(jù)中，這點(diǎn)在訓(xùn)練分類器的時(shí)候一定要特別注意。

3.1.3分類器性能的評(píng)估方法of561393.1分類概述第三章分類（1）評(píng)估分類器性能的度量度量公式準(zhǔn)確率、識(shí)別率（TP+TN)/(P+N)錯(cuò)誤率、誤分類率（FP+FN)/(P+N)敏感度、真正例率、召回率TP/P特效型、真負(fù)例率TN/N精度TP/(TP+FP)TP,TN,FP,FN,P,N分別表示真正例，真負(fù)例，假正例，假負(fù)例，正和負(fù)樣本數(shù)。

3.1.3分類器性能的評(píng)估方法of561403.1分類概述第三章分類（2）

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘（第2版） 課件全套 王朝霞 第1-9章 緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

數(shù)據(jù)挖掘（第2版）課件全套王朝霞第1-9章緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘