數(shù)據(jù)挖掘（第2版）全套教學(xué)課件

上傳人：b*** IP屬地：浙江上傳時間：2024-01-17 格式：PPTX 頁數(shù)：562 大?。?5.47MB 積分：35 舉報 版權(quán)申訴

已閱讀5頁，還剩557頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘（第二版）DATAMINING第1章緒論.pptx第2章數(shù)據(jù)特征分析與預(yù)處理.pptx第3章分類.pptx第4章回歸.pptx第5章聚類.pptx第6章關(guān)聯(lián)規(guī)則.pptx第7章集成學(xué)習(xí).pptx第8章推薦系統(tǒng).pptx第9章互聯(lián)網(wǎng)數(shù)據(jù)挖掘.pptx全套可編輯PPT課件第一章緒論of432

我們生活在一個信息時代，社會信息化水平的不斷提高和數(shù)據(jù)庫應(yīng)用的日益普及，使人類積累的數(shù)據(jù)量正在以指數(shù)方式增長。信息化時代給我們帶來大量的數(shù)據(jù)電子商務(wù)：電子商務(wù)交易數(shù)據(jù)社交平臺數(shù)據(jù)：微博，QQ，微信等金融：銀行卡交易數(shù)據(jù)科學(xué)計(jì)算：天氣、地理環(huán)境等豐富的數(shù)據(jù)，貧乏的知識理解數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過人的能力迫切希望對海量數(shù)據(jù)進(jìn)行更深入地分析，發(fā)現(xiàn)隱藏在其中的有價值信息。數(shù)據(jù)挖掘出現(xiàn)的時代背景1.1數(shù)據(jù)挖掘基本概念第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.3數(shù)據(jù)挖掘常用工具3.1數(shù)據(jù)挖掘概述1.4數(shù)據(jù)挖掘應(yīng)用場景of433

習(xí)題數(shù)據(jù)挖掘（DataMining，DM），是從大量的、有噪聲的、不完全的、模糊和隨機(jī)的數(shù)據(jù)中，提取出隱含在其中的、人們事先不知道的、具有潛在利用價值的信息和知識的過程。這個定義包含以下幾層含義：數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的；發(fā)現(xiàn)的是用戶感興趣的知識；發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用；不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識，僅支持特定的發(fā)現(xiàn)問題1.1.1數(shù)據(jù)挖掘的概念of4341.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的定義DataInformationKnowledgeWisdom數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)掘知識的過程，在這個過程中人工智能和數(shù)據(jù)庫技術(shù)可以作為挖掘工具，數(shù)據(jù)可以被看作是土壤，云平臺可以看作是承載數(shù)據(jù)和挖掘算法的基礎(chǔ)設(shè)施。在挖掘數(shù)據(jù)的過程中需要用到一些挖掘工具和方法，如機(jī)器學(xué)習(xí)的方法。當(dāng)挖掘完畢后，數(shù)據(jù)挖掘還需要對知識進(jìn)行可視化和展現(xiàn)。1.1.1數(shù)據(jù)挖掘的概念of4351.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘、數(shù)據(jù)庫、人工智能數(shù)據(jù)挖掘是一個交叉學(xué)科，涉及數(shù)據(jù)庫技術(shù)、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、模式識別、高性能計(jì)算、知識工程、神經(jīng)網(wǎng)絡(luò)、信息檢索、信息的可視化等眾多領(lǐng)域。1.1.1數(shù)據(jù)挖掘的概念of4361.1數(shù)據(jù)挖掘基本概念數(shù)據(jù)挖掘是多學(xué)科的匯合第一章緒論關(guān)系型數(shù)據(jù)庫、事務(wù)型數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫數(shù)據(jù)倉庫/多維數(shù)據(jù)庫空間數(shù)據(jù)（如地圖信息）工程數(shù)據(jù)（如建筑、集成電路信息）文本和多媒體數(shù)據(jù)（如文本、圖像、音頻、視頻數(shù)據(jù)）時間相關(guān)的數(shù)據(jù)（如歷史數(shù)據(jù)或股票交換數(shù)據(jù)）萬維網(wǎng)（如半結(jié)構(gòu)化的HTML、結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息）1.1.1數(shù)據(jù)挖掘的概念of4371.1數(shù)據(jù)挖掘基本概念常見的數(shù)據(jù)挖掘?qū)ο蟮谝徽戮w論大數(shù)據(jù)挖掘：從體量巨大、類型多樣、動態(tài)快速流轉(zhuǎn)及價值密度低的大數(shù)據(jù)中挖掘出有巨大潛在價值的信息和知識，并以服務(wù)的形式提供給用戶。大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘相比：技術(shù)背景差異處理對象差異挖掘程度差異1.1.2大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘of4381.1數(shù)據(jù)挖掘基本概念第一章緒論在大數(shù)據(jù)時代，數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ)，數(shù)據(jù)挖掘是關(guān)鍵，即數(shù)據(jù)挖掘是大數(shù)據(jù)中最關(guān)鍵、最有價值的工作。大數(shù)據(jù)挖掘的特性：應(yīng)用性工程性集合性1.1.3大數(shù)據(jù)挖掘的特性of4391.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的任務(wù)主要分為描述性任務(wù)和預(yù)測性任務(wù)。描述性任務(wù)：刻畫目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì)，例如，通過客戶行為特征，將客戶進(jìn)行不同類型的聚類劃分。預(yù)測性任務(wù)：在當(dāng)前數(shù)據(jù)上進(jìn)行歸納，以便做出預(yù)測。例如，通過一個消費(fèi)者的消費(fèi)情況判斷是否會成為自己的重要客戶。1.1.4數(shù)據(jù)挖掘的任務(wù)和功能of43101.1數(shù)據(jù)挖掘基本概念第一章緒論常見的數(shù)據(jù)挖掘功能：分類聚類關(guān)聯(lián)分析數(shù)據(jù)總結(jié)離群點(diǎn)分析預(yù)測1.1.4數(shù)據(jù)挖掘的任務(wù)和功能of43111.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的對象可以是任何類型的數(shù)據(jù)。數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)，包括：數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)和事務(wù)數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)，包括：序列數(shù)據(jù)、圖或網(wǎng)絡(luò)數(shù)據(jù)、空間數(shù)據(jù)、文本和多媒體數(shù)據(jù)、萬維網(wǎng)數(shù)據(jù)等。1.1.5數(shù)據(jù)挖掘的對象of43121.1數(shù)據(jù)挖掘基本概念第一章緒論1999年，歐盟創(chuàng)建了跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM，提供了一個數(shù)據(jù)挖掘生命周期的全面評述，包括業(yè)務(wù)理解、數(shù)據(jù)理解及收集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、模型評估與部署六個階段。1.1.6數(shù)據(jù)挖掘的過程of43131.1數(shù)據(jù)挖掘基本概念第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具3.1數(shù)據(jù)挖掘概述習(xí)題1.4數(shù)據(jù)挖掘應(yīng)用of4314

之后每年召開一次這樣的會議，經(jīng)過十幾年的努力，數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)取得了豐碩的成果。美國麻省理工學(xué)院在2001年1月份的《科技評論》提出數(shù)據(jù)挖掘?qū)⑹俏磥?年對人類產(chǎn)生重大影響的10大新興技術(shù)之一。1.數(shù)據(jù)挖掘的起源of43151.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1989年8月于美國底特律市召開的第十一屆國際聯(lián)合人工智能學(xué)術(shù)會議上首次提到“知識發(fā)現(xiàn)”這一概念；1993年，美國電氣電子工程師學(xué)會(IEEE)的知識與數(shù)據(jù)工程(KnowledgeandDataEngineering)會刊出版了KDD技術(shù)專刊，發(fā)表的論文和摘要體現(xiàn)了當(dāng)時KDD的最新研究成果和動態(tài)。1995年，在加拿大蒙特利爾召開的首屆“知識發(fā)現(xiàn)和數(shù)據(jù)挖掘”國際學(xué)術(shù)會議上，首次提出了“數(shù)據(jù)挖掘”這一學(xué)科的名稱，并把數(shù)據(jù)挖掘技術(shù)分為科研領(lǐng)域的知識發(fā)現(xiàn)與工程領(lǐng)域的數(shù)據(jù)挖掘。1）多媒體數(shù)據(jù)挖掘2）時序數(shù)據(jù)挖掘3）Web數(shù)據(jù)挖掘4）文本數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的研究熱點(diǎn)of43161.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論web數(shù)據(jù)挖掘分類示意圖隨著物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)時代的來臨，在大數(shù)據(jù)背景下數(shù)據(jù)挖掘要面臨的挑戰(zhàn)，主要表現(xiàn)在以下幾個方面：數(shù)據(jù)挖掘分析模型的重構(gòu)：在大數(shù)據(jù)的背景下要以低成本和可擴(kuò)展的方式處理大數(shù)據(jù)，這就需要對整個IT架構(gòu)進(jìn)行重構(gòu)，開發(fā)先進(jìn)的軟件平臺和算法。清洗粒度大小不易把握：由于普適終端的所處地理位置的復(fù)雜性，使得產(chǎn)生的數(shù)據(jù)具有很多噪聲。數(shù)據(jù)開放與隱私的權(quán)衡：互聯(lián)網(wǎng)的交互性，使得人們在不同位置產(chǎn)生的數(shù)據(jù)足跡得到積累和關(guān)聯(lián)，從而增加了隱私暴露的概率，且這種隱性的數(shù)據(jù)暴露往往是無法控制和預(yù)知的。3.數(shù)據(jù)挖掘面臨的新挑戰(zhàn)of43171.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化描述：標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語言將有助于數(shù)據(jù)挖掘的系統(tǒng)化開發(fā)。改進(jìn)多個數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作，促進(jìn)其在企業(yè)和社會中的使用。數(shù)據(jù)挖掘過程的可視化方法：可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)?？梢栽诎l(fā)現(xiàn)知識的過程中進(jìn)行很好的人機(jī)交互。與特定數(shù)據(jù)存儲類型的適應(yīng)問題：根據(jù)不同的數(shù)據(jù)存儲類型的特點(diǎn),進(jìn)行針對性的研究是目前流行以及將來一段時間必須面對的問題。4數(shù)據(jù)挖掘未來的發(fā)展趨勢of43181.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘問題：隨著Internet的不斷發(fā)展，網(wǎng)絡(luò)資源日漸豐富，這就需要分散的技術(shù)人員各自獨(dú)立地處理分離數(shù)據(jù)庫的工作方式應(yīng)是可協(xié)作的。數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)的集成：數(shù)據(jù)庫系統(tǒng)和以Web查詢接口方式訪問數(shù)據(jù)庫資源的Web數(shù)據(jù)庫已經(jīng)成為信息處理系統(tǒng)的主流。4數(shù)據(jù)挖掘未來的發(fā)展趨勢of43191.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1.3數(shù)據(jù)挖掘常用工具第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.1數(shù)據(jù)挖掘基本概念3.1數(shù)據(jù)挖掘概述1.4數(shù)據(jù)挖掘應(yīng)用場景of4320

習(xí)題我們需要借助一些有效的工具進(jìn)行數(shù)據(jù)挖掘工作，更輕松地從巨大的數(shù)據(jù)集中找出關(guān)系、集群、模式、分類信息等，借助這類工具可以幫助我們做出最準(zhǔn)確的決策，為我們的業(yè)務(wù)獲取更多收益。數(shù)據(jù)挖掘工具分為：商用工具和開源工具。1.3數(shù)據(jù)挖掘工具of43211.3數(shù)據(jù)挖掘常用工具第一章緒論SASEnterpriseMinerSPSSClementineIntelligentMinerQUEST1.3.1商用工具of43221.3數(shù)據(jù)挖掘常用工具第一章緒論SASEnterpriseMinerEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具，按照“抽樣-探索-修改-建模-評價”的方法進(jìn)行數(shù)據(jù)挖掘，它把統(tǒng)計(jì)分析系統(tǒng)和圖形用戶界面(GUI)集成起來，為用戶提供了用于建模的圖形化流程處理環(huán)境。1.3.1商用工具of43231.3數(shù)據(jù)挖掘常用工具第一章緒論SPSSClementineClementine是SPSS公司開發(fā)的數(shù)據(jù)挖掘工具，支持整個數(shù)據(jù)挖掘過程，即從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評估到最終部署的全部過程，還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)CRISP-DM。1.3.1商用工具of43241.3數(shù)據(jù)挖掘常用工具第一章緒論RWekaMahoutRapidMinerPythonSparkMLlib1.3.2開源工具of43251.3數(shù)據(jù)挖掘常用工具第一章緒論RR是用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語言及分析工具，提供了豐富的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘功能，其核心模塊是用C、C++和Fortran編寫的。1.3.2開源工具of43261.3數(shù)據(jù)挖掘常用工具第一章緒論P(yáng)ythonPython是一種功能強(qiáng)大的、開源的、解釋性、面向?qū)ο笥?jì)算機(jī)編程語言，內(nèi)建有各種高級數(shù)據(jù)結(jié)構(gòu)，支持模塊和包，支持多種平臺并可擴(kuò)展。Python提供sklearn第三方程序庫，對一些常用的機(jī)器學(xué)習(xí)方法進(jìn)行了封裝，只需要調(diào)用模塊中的函數(shù)就可實(shí)現(xiàn)大多數(shù)機(jī)器學(xué)習(xí)任務(wù)，包括分類、回歸、聚類、數(shù)據(jù)降維、數(shù)據(jù)預(yù)處理等。1.3.2開源工具of43271.3數(shù)據(jù)挖掘常用工具第一章緒論WEKAWEKA是一個基于JAVA環(huán)境下免費(fèi)開源的數(shù)據(jù)挖掘工作平臺，集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法，包括對數(shù)據(jù)進(jìn)行預(yù)處理，分類，回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。1.3.2開源工具of43281.3數(shù)據(jù)挖掘常用工具第一章緒論MahoutMahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項(xiàng)目，在機(jī)器學(xué)習(xí)領(lǐng)域提供了一些可擴(kuò)展的經(jīng)典算法的實(shí)現(xiàn)和數(shù)據(jù)挖掘的程序庫。它可以實(shí)現(xiàn)很多功能，包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等。1.3.2開源工具of43291.3數(shù)據(jù)挖掘常用工具第一章緒論SparkMLlibMLlib（machinelearninglib）是Spark中的一個可擴(kuò)展的機(jī)器學(xué)習(xí)庫，由通用的學(xué)習(xí)算法和工具組成，包括分類、線性回歸、聚類、協(xié)同過濾、梯度下降以及底層優(yōu)化原語。1.3.2開源工具of43301.3數(shù)據(jù)挖掘常用工具第一章緒論1.4數(shù)據(jù)挖掘應(yīng)用場景第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具of4331

習(xí)題數(shù)據(jù)挖掘能做什么？發(fā)現(xiàn)最有價值的客戶1.4數(shù)據(jù)挖掘的應(yīng)用of43321.4數(shù)據(jù)挖掘應(yīng)用場景第一章緒論數(shù)據(jù)挖掘能做什么？發(fā)現(xiàn)最有價值的客戶使組合銷售更有效率1.4數(shù)據(jù)挖掘的應(yīng)用of43331.4數(shù)據(jù)挖掘應(yīng)用場景第一章緒論數(shù)據(jù)挖掘能做什么？發(fā)現(xiàn)最有價值的客戶使組合銷售更有效率留住那些最有價值的客戶1.4數(shù)據(jù)挖掘的應(yīng)用of43341.4數(shù)據(jù)挖掘應(yīng)用場景第一章緒論數(shù)據(jù)挖掘能做什么？發(fā)現(xiàn)最有價值的客戶使組合銷售更有效率留住那些最有價值的客戶用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象1.4數(shù)據(jù)挖掘的應(yīng)用of43351.4數(shù)據(jù)挖掘應(yīng)用場景第一章緒論電信：客戶細(xì)分，客戶流失分析銀行：優(yōu)化客戶服務(wù)，信貸風(fēng)險評估，欺詐檢測百貨公司/超市：購物籃分析（關(guān)聯(lián)規(guī)則）電子商務(wù)：挖掘客戶潛在需求，交叉銷售稅務(wù)部門：偷漏稅行為探測警察機(jī)關(guān)：犯罪行為分析醫(yī)學(xué)：醫(yī)療保健1.4數(shù)據(jù)挖掘的應(yīng)用of43361.4數(shù)據(jù)挖掘應(yīng)用場景第一章緒論應(yīng)用案例1：啤酒與尿不濕

沃爾瑪超市，關(guān)聯(lián)規(guī)則1.4數(shù)據(jù)挖掘的應(yīng)用of43371.4數(shù)據(jù)挖掘應(yīng)用場景第一章緒論應(yīng)用案例2匯豐銀行需要對不斷增長的客戶群進(jìn)行分類，對每種產(chǎn)品找出最有價值的客戶，營銷費(fèi)用減少了30％。應(yīng)用案例3美國國防財務(wù)部需要從每年上百萬比的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象。發(fā)現(xiàn)可能存在欺詐的交易，進(jìn)行深入調(diào)查，節(jié)約了大量的調(diào)查成本。1.4數(shù)據(jù)挖掘的應(yīng)用of43381.4數(shù)據(jù)挖掘應(yīng)用場景第一章緒論習(xí)題第一章緒論1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具1.4數(shù)據(jù)挖掘應(yīng)用場景of4339

1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.什么是數(shù)據(jù)挖掘？2．?dāng)?shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間的關(guān)系是什么？3．什么是物聯(lián)網(wǎng)、云計(jì)算？并說明它們和大數(shù)據(jù)的關(guān)系。4．查閱資料，說明在大數(shù)據(jù)背景下，數(shù)據(jù)挖掘面臨哪些挑戰(zhàn)，以及如何解決。5．什么是數(shù)據(jù)倉庫？數(shù)據(jù)倉庫與數(shù)據(jù)庫有何不同？6．?dāng)?shù)據(jù)挖掘有哪些常用的工具？of4340習(xí)題第一章緒論感謝聆聽第二章數(shù)據(jù)預(yù)處理與相似性of4342

數(shù)據(jù)是數(shù)據(jù)挖掘的目標(biāo)對象和原始資源，對數(shù)據(jù)挖掘最終結(jié)果起著決定性的作用?，F(xiàn)實(shí)世界中的數(shù)據(jù)是多種多樣的，具有不同的特征，這就要求數(shù)據(jù)的存儲采用合適的數(shù)據(jù)類型，并且數(shù)據(jù)挖掘算法的適用性會受到具體的數(shù)據(jù)類型限制。另外，原始數(shù)據(jù)通常存在著噪聲、不一致、部分?jǐn)?shù)據(jù)缺失等問題，為了達(dá)到較好的挖掘結(jié)果，有必要對這些數(shù)據(jù)進(jìn)行預(yù)處理加工從而提高數(shù)據(jù)的質(zhì)量。2.1

數(shù)據(jù)類型第二章數(shù)據(jù)預(yù)處理與相似性2.2

數(shù)據(jù)特征分析2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性of4343

習(xí)題屬性是數(shù)據(jù)對象的性質(zhì)或特性，屬性又可稱為特征。每一個數(shù)據(jù)對象用一組屬性描述，數(shù)據(jù)集用結(jié)構(gòu)化數(shù)據(jù)表表示，其中列是存放在表中的對象的屬性，行代表一個對象實(shí)例，表中單元格是實(shí)例對應(yīng)屬性的屬性值。2.1數(shù)據(jù)類型2.1數(shù)據(jù)類型

可以通過以下4種基本操作來確定屬性的類型：（1）相異性：＝和≠

（2）序：≤、≥、<和>（3）加法：+和-（4）乘法：*和/按照上面屬性測量值可使用的基本操作，可將屬性值大致可以分為：標(biāo)稱、序數(shù)、區(qū)間、二元、比率5種類型。2.1.1屬性與度量2.1數(shù)據(jù)類型2.1數(shù)據(jù)類型2.1.1屬性與度量2.1數(shù)據(jù)類型

2.1.2數(shù)據(jù)集的類型記錄數(shù)據(jù)有序數(shù)據(jù)圖形數(shù)據(jù)記錄數(shù)據(jù)是最常見的數(shù)據(jù)集類型，數(shù)據(jù)集是一個二維表格，其中表中行代表記錄，列代表屬性。例如一張普通的Excel表格文件或一張關(guān)系數(shù)據(jù)庫中的表。有序數(shù)據(jù)對象之間存在時間或空間上的順序關(guān)系。例如股票價格波動信息，醫(yī)療儀器監(jiān)視病人的心跳、血壓、呼吸數(shù)值，用戶上網(wǎng)購物會產(chǎn)生鼠標(biāo)點(diǎn)擊網(wǎng)頁等操作指令序列，這些信息可以用來挖掘用戶的上網(wǎng)習(xí)慣。圖形數(shù)據(jù)對象之間存在顯式或隱式的聯(lián)系，相互之間有一定的復(fù)雜依賴關(guān)系，構(gòu)成圖形或網(wǎng)狀結(jié)構(gòu)，如互聯(lián)網(wǎng)中的超鏈接。第二章數(shù)據(jù)預(yù)處理與相似性of4348

2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性2.1

數(shù)據(jù)類型2.2

數(shù)據(jù)特征分析習(xí)題2.2數(shù)據(jù)特征分析描述數(shù)據(jù)集中趨勢(centraltendency)的度量:Mean(均值),median(中位數(shù)),mode(眾數(shù)),midrange(中列數(shù))：最大和最小值的均值描述數(shù)據(jù)離散程度(dispersion)的度量:Quartiles(四分位數(shù)),interquartilerange(IQR)：四分位數(shù)極差,andvariance(方差)2.2數(shù)據(jù)特征分析1.算術(shù)平均值（ArithmeticMean）算術(shù)平均值是最常用的數(shù)據(jù)集中趨勢指標(biāo)，就是數(shù)據(jù)集合中所有數(shù)值的加和除以數(shù)值個數(shù)，定義如下：2.2.1描述數(shù)據(jù)集中趨勢的度量平均數(shù)的優(yōu)點(diǎn)：它能夠利用所有數(shù)據(jù)的特征，而且比較好算。不足之處，平均數(shù)容易受極端數(shù)據(jù)的影響。2.2數(shù)據(jù)特征分析2.眾數(shù)（Mode）2.2.1描述數(shù)據(jù)集中趨勢的度量眾數(shù)(Mode):在一組數(shù)據(jù)中,出現(xiàn)次數(shù)最多的數(shù)據(jù);用眾數(shù)代表一組數(shù)據(jù)，適合于數(shù)據(jù)量較多時使用，且眾數(shù)不受極端數(shù)據(jù)的影響；

當(dāng)數(shù)值或被觀察者沒有明顯次序（常發(fā)生于非數(shù)值性資料）時特別有用，由于可能無法良好定義算術(shù)平均數(shù)和中位數(shù)。例子：{蘋果，蘋果，香蕉，橙，橙，橙，桃}的眾數(shù)是橙。2.2數(shù)據(jù)特征分析3.中位數(shù)（Median）2.2.1描述數(shù)據(jù)集中趨勢的度量按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。例:3,13,7,5,21,23,39,23,40,23,14,12,56,23,29

排序后:3,5,7,12,13,14,21,23,23,23,23,29,39,40,56這15個數(shù)中，第8個數(shù)為中位數(shù):23中位數(shù)是通過排序得到的，它不受最大、最小兩個極端數(shù)值的影響。2.2數(shù)據(jù)特征分析4.k百分位數(shù)（Percentile）在一組數(shù)據(jù)從小到大排序，并計(jì)算相應(yīng)的累計(jì)百分比，處于k%位置的值成為第k百分位數(shù)。第k百分位數(shù)是這樣一個值，它使得至少有k％的數(shù)據(jù)項(xiàng)小于或等于這個值，且至少有(100－k)％的數(shù)據(jù)項(xiàng)大于或等于這個值。前面介紹的中位數(shù)就是50百分位數(shù)。2.2.1描述數(shù)據(jù)集中趨勢的度量2.2數(shù)據(jù)特征分析4.k百分位數(shù)（Percentile）求k百分位數(shù)的步驟：第1步：以遞增順序排列原始數(shù)據(jù)（即從小到大排列）。第2步：計(jì)算指數(shù)i=1+(n-1)*k%（n是數(shù)據(jù)個數(shù)）第3步：i是數(shù)據(jù)序列中k百分位數(shù)據(jù)的位置2.2.1描述數(shù)據(jù)集中趨勢的度量2.2數(shù)據(jù)特征分析4.k百分位數(shù)（Percentile）【例2-1】有一組數(shù)據(jù)：3,13,7,5,21,23,39,23,40,23,14,12,56,23,29，求這組數(shù)的50百分位數(shù)（也就是中位數(shù)）。排序后：3,5,7,12,13,14,21,23,23,23,23,29,39,40,56

計(jì)算50百分位數(shù)的位置：1+(15-1)*50%=8第8個數(shù)據(jù)（即23）是50百分位數(shù)的位置。2.2.1描述數(shù)據(jù)集中趨勢的度量2.2數(shù)據(jù)特征分析1.極差（Range）極差是指在在某個數(shù)值屬性上的最大值和最小值之差。比如，示例2-1中的數(shù)列的最大值和最小值差是56-3=53，53位這個屬性值上的極差。極差能體現(xiàn)一組數(shù)據(jù)波動的范圍。極差越大，離散程度越大；但是極差未能利用全部測量值的信息，不能細(xì)致地反映測量值彼此相符合的程度，易受極端值的影響。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析2.四分位極差（IQR）前面學(xué)習(xí)過的50百分位數(shù)（即中位數(shù)）是指用中位數(shù)把數(shù)據(jù)分布分成了高低兩半。這里的四分位數(shù)指的是有三個分位點(diǎn)把數(shù)據(jù)分布分成了四個相等的部分。這三個分位點(diǎn)是：第一個分位點(diǎn)是25百分位數(shù)，記作Q1；第二個分位點(diǎn)是50百分位數(shù)，記作Q2；第三個分位點(diǎn)是75百分位數(shù)，記作Q3。四分位極差記作IQR，IQR=Q3-Q1。經(jīng)驗(yàn)公式：超過Q3+1.5×IQR或者低于Q1-1.5×IQR的數(shù)據(jù)，可能是離群點(diǎn)。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析2.四分位極差（IQR）【例2-2】例2-1中的15個數(shù)：3,5,7,12,13,14,21,23,23,23,23,29,39,40,56。求出IQR。25百分位位置是4，25百分位數(shù)Q1=1275百分位位置是12，75百分位數(shù)Q3=29則IQR=29-12=17。根據(jù)經(jīng)驗(yàn)公式計(jì)算可得離群點(diǎn)是56。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析3.五數(shù)概括與箱圖因?yàn)镼1、Q2（Median）和Q3并不包含數(shù)據(jù)序列的兩個端點(diǎn)信息，因此，為了數(shù)據(jù)分布形狀更完整的概括可以同時給出兩個端點(diǎn)信息，也就是最小值（Minimum）和最大值（Maximum），稱為五數(shù)概括。分布的五數(shù)概括包括：內(nèi)限內(nèi)最小值、Q1、中位數(shù)、Q3和內(nèi)限內(nèi)最大值。一般在五數(shù)箱圖中內(nèi)限內(nèi)最小值是不小于Q1-1.5×IQR的最小值，內(nèi)限內(nèi)最大值是不大于Q3+1.5×IRQ的最大值。在內(nèi)限內(nèi)最小值到內(nèi)限內(nèi)最大值范圍以外的數(shù)據(jù)稱為離群點(diǎn)數(shù)據(jù)。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析3.五數(shù)概括與箱圖【例2-3】示例2-1中的15個數(shù)：3,5,7,12,13,14,21,23,23,23,23,29,39,40,56。使用箱圖來直觀展示五數(shù)概括，如下圖2-2所示：此例中內(nèi)限內(nèi)最大值是40，內(nèi)限內(nèi)最小值是3，離群點(diǎn)是56。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析4.方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差都是數(shù)據(jù)散布度量，它們指出數(shù)據(jù)分布的散布程度。方差σ2的計(jì)算機(jī)公式：2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析4.方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差都是數(shù)據(jù)散布度量，它們指出數(shù)據(jù)分布的散布程度。方差σ2的計(jì)算機(jī)公式：2.2.2描述數(shù)據(jù)離散程度的度量標(biāo)準(zhǔn)差σ是σ2的開方。方差大表示觀測的數(shù)據(jù)兩極分化大，方差小表示觀測的數(shù)據(jù)比較靠近均值。例如，兩個班級中，A班級的成績方差大，B班級方差小，則A班級學(xué)生學(xué)習(xí)成績比較離散，適于分層教學(xué)；B班級成績比較集中，不適于分層教學(xué)。2.2數(shù)據(jù)特征分析5.離散系數(shù)離散系數(shù)又稱變異系數(shù)，是統(tǒng)計(jì)學(xué)當(dāng)中的指標(biāo)。離散系數(shù)是度量數(shù)據(jù)離散程度的相對統(tǒng)計(jì)量，主要是用于比較不同樣本數(shù)據(jù)的離散程度。當(dāng)進(jìn)行兩個或多個數(shù)據(jù)集合離散程度的比較時，均值相當(dāng)?shù)那闆r下，可以用標(biāo)準(zhǔn)差來判斷離散程度；但是均值相差很大的情況下，用離散系數(shù)判斷離散程度。離散系數(shù)用符號表示，計(jì)算公式如下：2.2.2描述數(shù)據(jù)離散程度的度量

σ是樣本標(biāo)準(zhǔn)差，是樣本的平均值。離散系數(shù)大，說明數(shù)據(jù)的離散程度也大；離散系數(shù)小，說明數(shù)據(jù)的離散程度也小。2.2數(shù)據(jù)特征分析5.離散系數(shù)【例2-4】甲乙兩個運(yùn)動員都是中等水平，各連續(xù)打靶8次，請問那個運(yùn)動員發(fā)揮穩(wěn)定？甲運(yùn)動員：[8，9，8，9，9，8，10，10]乙運(yùn)動員：[10，6，8，10，8，9，9，10]通過計(jì)算，得到了甲、乙運(yùn)動員的平均值、標(biāo)準(zhǔn)差和離散系數(shù)如下表2-2：表2-2標(biāo)準(zhǔn)差和離散系數(shù)表2.2.2描述數(shù)據(jù)離散程度的度量名稱甲乙平均值8.8758.75標(biāo)準(zhǔn)差0.781.30離散系數(shù)0.0880.1482.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)對于離散數(shù)據(jù)，我們可以使用卡方檢驗(yàn)來做類似計(jì)算。假設(shè)兩個屬性分別為A和B，卡方檢驗(yàn)用符號表示，計(jì)算公式如下：上述公式中，Oij表示A和B屬性的配對值（Ai，Bj）的實(shí)際觀測值；Eij表示A和B屬性的配對值（Ai，Bj）的理論推算值，卡方檢驗(yàn)就是說明了理論值和實(shí)際觀測值的偏差程度：卡方值越大，偏差越大；卡方值越小，偏差越??；卡方值為0，則理論值和實(shí)際值完全符合。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)【例2-6】我們要觀察性別和網(wǎng)上購物有沒有關(guān)系。通過對987名顧客的調(diào)查，結(jié)果如下表2-4所示。那么，怎么判斷買不買生鮮跟性別有沒有關(guān)聯(lián)呢？2.2.3數(shù)據(jù)相關(guān)性分析

男女總計(jì)線上不買生鮮434102536線上買生鮮206245451總計(jì)6403479872.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)上表中數(shù)據(jù)是實(shí)際觀察值，通過這個值，我們發(fā)現(xiàn)的人不在線上買生鮮，的人會在線上買生鮮，按照這個比例，我們可以算出（男，線上不買生鮮）的理論值是，依次算出（男，線上買生鮮）、（女，線上不買生鮮）、（女，線上買生鮮）的理論值，我們還可以得到理論值如下表2-5所示。2.2.3數(shù)據(jù)相關(guān)性分析

男女總計(jì)線上不買生鮮348188536線上買生鮮292159451總計(jì)6403479872.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)判斷線上買不買生鮮跟性別相關(guān)性步驟如下：(1)求出卡方值根據(jù)前面得到的實(shí)際觀察值和理論值，可得：

=（434-348）2/348+（102-188）2/188+（206-292）2/292+（245-159）2/159=132.46(2)求自由度（行數(shù)-1）*（列數(shù)-1）=（2-1）*（2-1）=1(3)置信度此例確定為90%，查找卡方分布表獲得置信度為90%的卡方值是2.706因?yàn)?32.46遠(yuǎn)遠(yuǎn)大于2.706，因此，性別和線上購買生鮮兩者之間是強(qiáng)關(guān)聯(lián)性。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析2.數(shù)值數(shù)據(jù)的協(xié)方差公式中，X和Y為兩個不同的屬性集，Xi和Yi分別是X和Y屬性對應(yīng)的屬性值，和分別是X和Y屬性值的平均值。假設(shè)協(xié)方差結(jié)果為C，C的取值范圍：–1≤C≤1。若>0，表明屬性X和屬性Y之間存在正線性相關(guān)關(guān)系，數(shù)據(jù)變化是同向的；若<0，表明屬性X和屬性Y之間存在負(fù)線性相關(guān)關(guān)系，數(shù)據(jù)變化是負(fù)向的；若=0，說明二者之間不存在線性相關(guān)關(guān)系，但并不排除存在非線性相關(guān)性。因此，協(xié)方差的正負(fù)代表了兩個屬性之間相關(guān)性的方向，而協(xié)方差的絕對值代表了它們相互關(guān)系的強(qiáng)弱。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析2.數(shù)值數(shù)據(jù)的協(xié)方差【例2-7】下圖2-3是某種商品銷售受溫度影響的數(shù)據(jù)散點(diǎn)圖。圖2-3中左圖是正相關(guān)，（銷售量，溫度）協(xié)方差是大于0的，說明這兩個屬性是正相關(guān)的。但是圖2-3右圖得到的（銷售量，溫度）協(xié)方差是等于0的，按照協(xié)方差規(guī)律，這個兩屬性是不相關(guān)的。顯然根據(jù)數(shù)據(jù)分布情況，這兩個屬性是相關(guān)的，先是正相關(guān)，超過一定溫度的時候呈現(xiàn)負(fù)相關(guān)性，所以右圖顯示的兩個屬性之間是存在非線性相關(guān)性的，此時，用協(xié)方差結(jié)果來評判是不客觀的。所以，協(xié)方差只是針對線性相關(guān)有效，當(dāng)協(xié)方差為0的時候有可能也存在非線性相關(guān)。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析3.數(shù)值數(shù)據(jù)的相關(guān)系數(shù)協(xié)方差的大小與屬性的取值范圍以及量綱都有關(guān)系，造成不同的屬性對之間的協(xié)方差難以進(jìn)行橫向比較。為了解決這個問題，把協(xié)方差歸一化，就得到樣本相關(guān)系數(shù)用r表示，計(jì)算如公式2.6所示：如果取值在-1與1之間，且如果>0，表示它們正相關(guān)，值越大相關(guān)性越大。相反，如果<0，表示負(fù)相關(guān)。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析3.數(shù)值數(shù)據(jù)的相關(guān)系數(shù)【例2-8】冰激凌銷售和溫度的統(tǒng)計(jì)數(shù)據(jù)如表所示，右邊是數(shù)據(jù)分布散點(diǎn)圖，用python程序計(jì)算銷售和溫度兩個屬性的協(xié)方差和相關(guān)系數(shù)。2.2.3數(shù)據(jù)相關(guān)性分析第二章數(shù)據(jù)預(yù)處理與相似性2.2

數(shù)據(jù)特征分析3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性of4373

2.3數(shù)據(jù)預(yù)處理2.1

數(shù)據(jù)類型習(xí)題2.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的過程2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗數(shù)據(jù)清洗(Datacleaning)缺失值填充：Fillinginmissingvalues平滑噪聲：Smoothingnoisydata識別和去除離群點(diǎn)：Identifyingorremovingoutliers,解決不一致性：Resolvinginconsistencies2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗1.處理缺失值（1）忽略元組（2）數(shù)據(jù)補(bǔ)齊：人工填寫、特殊值填充、平均值填充、使用最有可能的值填充。（3）不處理：有很多數(shù)據(jù)挖掘方法在屬性值缺失方面具有良好的魯棒性，直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘。這類方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗2.平滑噪聲主要使用的技術(shù)有回歸、分箱、離群點(diǎn)分析?，F(xiàn)在主要介紹分箱方法。分箱（binning）:是將屬性的值域劃分成若干個連續(xù)子區(qū)間。分箱的方法：有4種：等深分箱法、等寬分箱法、最小熵法和用戶自定義區(qū)間法。等深分箱法：將數(shù)據(jù)集按記錄行數(shù)分箱，每箱具有相同的記錄數(shù)，每箱記錄數(shù)稱為箱子的深度。等寬分箱法：使數(shù)據(jù)集在整個屬性值的區(qū)間上平均分布，即每個箱的區(qū)間范圍是一個常量，稱為箱子寬度。最小熵法：在分箱時考慮因變量的取值，使得分享后箱內(nèi)達(dá)到最小熵。用戶自定義區(qū)間，用戶可以根據(jù)需要自定義區(qū)間，當(dāng)用戶明確希望觀察某些區(qū)間范圍內(nèi)的數(shù)據(jù)分布時，使用這種方法可以方便地幫助用戶達(dá)到目的。2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗2.平滑噪聲將數(shù)據(jù)分箱后，對每個分箱中的數(shù)據(jù)進(jìn)行局部平滑，常用的方式有下面三種：

按平均值平滑對同一箱值中的數(shù)據(jù)求平均值，用平均值替代該箱子中的所有數(shù)據(jù)。

按邊界值平滑用距離較小的邊界值替代箱中每一數(shù)據(jù)。

按中值平滑取箱子的中值，用來替代箱子中的所有數(shù)據(jù)。2.3數(shù)據(jù)預(yù)處理2.3.2數(shù)據(jù)集成數(shù)據(jù)集成就是將若干個分散的數(shù)據(jù)源中的數(shù)據(jù)，邏輯地或物理地集成到一個統(tǒng)一的數(shù)據(jù)集合中。這些數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和一般文件。數(shù)據(jù)集成的核心任務(wù)是要將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起，使用戶能夠以透明的方式訪問這些數(shù)據(jù)源。數(shù)據(jù)集成中經(jīng)常會遇到以下問題：1.實(shí)體識別問題2.屬性冗余問題3.數(shù)據(jù)值沖突問題2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化數(shù)據(jù)規(guī)范化主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面，可以使屬性值按比例落入到一個特定區(qū)間，如[-1,1]或[0,1]。數(shù)據(jù)規(guī)范化一方面可以簡化計(jì)算，提升模型的收斂速度；另一方面，在涉及到一些距離計(jì)算的算法時防止較大初始值域的屬性與具有較小初始值域的屬性相比權(quán)重過大，可以有效提高結(jié)果精度。介紹三種規(guī)范化方法。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化也稱離差標(biāo)準(zhǔn)化，是對原始數(shù)據(jù)的線性變換，假定min，max分別為屬性A的最小值和最大值。轉(zhuǎn)換函數(shù)如下：

將轉(zhuǎn)換到區(qū)間[new_min?〖,new_max〗]中，結(jié)果為。這種方法有一個缺陷就是當(dāng)有新的數(shù)據(jù)加入時，可能導(dǎo)致max,min值的變化，需要重新定義。另外，如果要做0-1規(guī)范化，上述式子可以簡化為：2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化

【例2-11】下表2-8中是某部分同學(xué)數(shù)學(xué)和語文成績的成績，數(shù)據(jù)是百分制，語文是150分制，兩組數(shù)據(jù)不在同一個量綱，對其進(jìn)行最小-最大規(guī)范。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化

【例2-11】下表2-8中是某部分同學(xué)數(shù)學(xué)和語文成績的成績，數(shù)據(jù)是百分制，語文是150分制，兩組數(shù)據(jù)不在同一個量綱，對其進(jìn)行最小-最大規(guī)范。結(jié)果分析：以姓名為胡建的學(xué)生為例，他的（數(shù)學(xué)，語文）成績是（80,80），由于分制不同，所以直接比較是不正確的，經(jīng)過最小-最大規(guī)范后可以得出（數(shù)學(xué)，語文）成績是（0.57142857,0），這樣就可以比較出該同學(xué)的數(shù)學(xué)成績要比語文成績好。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化2.z-score規(guī)范化也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化，經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布，即均值為0，標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為如如公式2.9所示，其中表示屬性的均值，為標(biāo)準(zhǔn)差。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化3.按小數(shù)定標(biāo)規(guī)范化通過移動數(shù)據(jù)的小數(shù)點(diǎn)位置來進(jìn)行標(biāo)準(zhǔn)化。小數(shù)點(diǎn)的移動位數(shù)取決于屬性的最大絕對值。規(guī)范后的值計(jì)算方法：其中j是使的最小整數(shù)。例如，，取j=3，-84規(guī)范化后值為-0.084，231規(guī)范化后為0.231。需要注意的是，z-score規(guī)范化和按小數(shù)定標(biāo)規(guī)范化在計(jì)算過程中有參數(shù)值，需要保存起來，為后續(xù)的數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化使用。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化3.按小數(shù)定標(biāo)規(guī)范化【例2-13】對于樣本數(shù)據(jù)（0，-3，1）（3，1，2）（0，1，-1），通過按小數(shù)定標(biāo)規(guī)范化實(shí)現(xiàn)標(biāo)準(zhǔn)化的程序如下：運(yùn)行結(jié)果：[[0.-0.30.1][0.30.10.2][0.0.1-0.1]]2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化4.獨(dú)熱編碼處理標(biāo)稱屬性數(shù)據(jù)獨(dú)熱編碼（OneHotEncoding）將每個標(biāo)稱屬性進(jìn)行擴(kuò)充，在上面的例子中，可以擴(kuò)充為如下表2-9。左圖進(jìn)行獨(dú)熱編碼后如右表所示。編號血型1123324153編號A型B型O型AB型1100020010301004100050010這樣做的好處是任何兩個血型之間的差異是相同的，比如編號1和編號3的人的血型差異是（歐式距離），可以看到任意兩個人之間的血型差異都是，這和數(shù)值本身的實(shí)際意義是相符合的。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約（datareduction）技術(shù)是指在盡可能的保持原始數(shù)據(jù)集完整性的前堤下，最大限度地精簡數(shù)據(jù)量。數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示，它雖然小，但仍大致保持原數(shù)據(jù)的完整性。這樣，在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行?，并產(chǎn)生相同(或幾乎相同)的分析結(jié)果。數(shù)據(jù)規(guī)約的策略主要包括維規(guī)約和數(shù)量規(guī)約。維規(guī)約減少所考慮的隨機(jī)變量或?qū)傩缘膫€數(shù)，主要方法有小波變換、主成分分析和屬性子集選擇，通過這些方法可以把原始數(shù)據(jù)變換或投影到較小的空間，其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測或刪除。數(shù)量規(guī)約是用替代的、較小的數(shù)據(jù)表示形式換原始數(shù)據(jù)。這些技術(shù)可以是參數(shù)或者非參數(shù)的。對于參數(shù)方法而言，使用模型估計(jì)數(shù)據(jù)，使得一般只需要存放模型參數(shù)而不是實(shí)際數(shù)據(jù)（離群點(diǎn)需存放）。非參數(shù)方法包括：直方圖、聚類、抽樣和數(shù)據(jù)立方體聚類。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約1.主成分分析主成分分析（principalcomponentanalysis,PCA）是一種廣泛用于不同領(lǐng)域的無監(jiān)督線性數(shù)據(jù)轉(zhuǎn)換技術(shù)。PCA的目標(biāo)是在高維數(shù)據(jù)中找到最大方差的方向，并將數(shù)據(jù)映射到一個維度小得多的新子空間上。借助于正交變換，將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約1.主成分分析PCA的基本過程：（1）首先對所有屬性數(shù)據(jù)規(guī)范化，每個屬性都落入相同的區(qū)間，消去量綱對算法的影響。（2）計(jì)算樣本數(shù)據(jù)的協(xié)方差矩陣（3）求出協(xié)方差矩陣的的特征值及相應(yīng)正交化單位特征向量。前m個較大的特征值就是前m個主成分對應(yīng)的方差。主成分的方差貢獻(xiàn)優(yōu)選法反映信息量的大小。（4）通過計(jì)算累計(jì)貢獻(xiàn)率來選擇主成分。主成分向量構(gòu)成了一組正交基，輸入數(shù)據(jù)可以由它們線性組成表示。（5）對主成分按重要性排序。主成分是新空間下的坐標(biāo)軸，提供了關(guān)于方差的重要信息。（6）選擇重要性最高的若干個主成分，同時將剩下的較弱主成分舍棄，這樣就完成了約簡數(shù)據(jù)的規(guī)模。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約2.屬性子集選擇屬性子集選擇的基本啟發(fā)式方法包括以下技術(shù)：(1)逐步向前選擇：該過程由空屬性集作為歸約集開始，確定原屬性集中最好的屬性，并將它添加到歸約集中。在其后的每一次迭代，將剩下的原屬性集中的最好的屬性添加到該集合中。(2)逐步向后刪除：該過程由整個屬性集開始。在每一步中，刪除尚在屬性集中最差的屬性。(3)逐步向前選擇和逐步向后刪除的組合：可以將逐步向前選擇和逐步向后刪除方法結(jié)合在一起，每一步選擇一個最好的屬性，并在剩余屬性中刪除一個最差的屬性。(4)決策樹歸納：決策樹算法(在后面第三章介紹)最初是用于分類的。決策樹歸納構(gòu)造一個類似于流程圖的結(jié)構(gòu)，其中每個內(nèi)部(非樹葉)結(jié)點(diǎn)表示一個屬性上的測試，每個分枝對應(yīng)于測試的一個結(jié)果；每個外部(樹葉)結(jié)點(diǎn)表示一個類預(yù)測。在每個結(jié)點(diǎn)上，算法選擇“最好”的屬性，將數(shù)據(jù)劃分成類。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖直方圖使用分箱近似數(shù)據(jù)分布，是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。桶安放在水平軸上，而桶的高度（和面積）是該桶所代表的值的平均頻率。如果每個桶只代表單個屬性值/頻率對，則該桶稱為單值桶。通常，桶表示給定屬性的一個連續(xù)區(qū)間。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖【例2-16】我們得到一個商店每日利潤數(shù)據(jù)：390、100、350、380、160、350、400、340、430、150、380、390、400、440、600、230、440首先，以50為區(qū)間統(tǒng)計(jì)利潤的直方圖如下圖2-12所示。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖【例2-16】我們得到一個商店每日利潤數(shù)據(jù)：390、100、350、380、160、350、400、340、430、150、380、390、400、440、600、230、440其次，我們以100為區(qū)間統(tǒng)計(jì)利潤的直方圖如下所示。以50劃分區(qū)間得到的13個桶的數(shù)據(jù)，以100為區(qū)間得到的7個桶的數(shù)據(jù)。利用直方圖壓縮了數(shù)據(jù)，而得到結(jié)論仍然是商店每日利潤集中300-400這個區(qū)間。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約4.聚類把數(shù)據(jù)元組看作對象。它將對象劃分為群或簇，使得一個簇中的對象相互“相似”，而與其他簇中的對象“相異”。通常，相似性基于距離函數(shù)，形心距離是另一種度量。聚類方法在后面第五章有詳細(xì)介紹。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約5.抽樣很多應(yīng)用領(lǐng)域的數(shù)據(jù)也不能完全存儲，或者分析的時候是以動態(tài)的流式數(shù)據(jù)形式存在，在很多情況下，數(shù)據(jù)抽樣是數(shù)量規(guī)約的一種常見方法。常見的抽樣有簡單抽樣（包含不放回簡單隨機(jī)抽樣和有放回簡單隨機(jī)抽樣）、簇抽樣、分層抽樣。采用抽樣進(jìn)行數(shù)據(jù)歸約的優(yōu)點(diǎn)是，得到樣本的花費(fèi)正比例于樣本集的大小s，而不是數(shù)據(jù)集的大小N。因此，抽樣的復(fù)雜度可能亞線性(sublinear)于數(shù)據(jù)的大小。其它數(shù)據(jù)歸約技術(shù)至少需要完全掃描D。對于固定的樣本大小，抽樣的復(fù)雜度僅隨數(shù)據(jù)的維數(shù)n線性地增加；而其它技術(shù)，如使用直方圖，復(fù)雜度隨d呈指數(shù)增長。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化數(shù)據(jù)離散化是指將連續(xù)的數(shù)據(jù)進(jìn)行分段，使其變?yōu)橐欢味坞x散化的區(qū)間。連續(xù)屬性離散化的問題本質(zhì)是：決定選擇多少個分割點(diǎn)和確定分割點(diǎn)位置。任務(wù)可分為兩個步驟完成。首先將連續(xù)屬性排序并通過指定n-1個分割點(diǎn)把它們分成n個區(qū)間。然后，將一個區(qū)間中的所有值映射到相同的分類值。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化1.數(shù)據(jù)離散化的原因（1）算法需要像決策樹，NaiveBayes算法，都是基于離散型的數(shù)據(jù)展開的。如果要使用該類算法，必須將連續(xù)型數(shù)據(jù)處理成離散型的數(shù)據(jù)。（2）數(shù)據(jù)離散化更方便對連續(xù)型數(shù)據(jù)的理解例如，某個問題中的年齡屬性可以按照如下辦法離散化：[0-11]→兒童，[12-17]→青少年，[18-44]→青年，[45-69]→中年，[69-∞]→老年。這樣，可以更加方便對于年齡屬性的理解。（3）可以有效的克服數(shù)據(jù)中隱藏的缺陷，使模型結(jié)果更加穩(wěn)定。比如如果對用戶年齡離散化，[18-44]作為一個區(qū)間，不會因?yàn)橐粋€用戶年齡長了一歲就變成一個完全不同的人。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法數(shù)據(jù)離散化的方法有多種類型，通?？梢苑譃闊o監(jiān)督離散化和有監(jiān)督離散化。在離散化過種中使用類信息的方法是監(jiān)督的，而不使用類信息的方法是無監(jiān)督的。無監(jiān)督離散化方法中最簡單的方法是等寬分箱法和等深分箱法（分箱法見本章2.3.1節(jié)）。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法等寬分箱法將排好序的數(shù)據(jù)從最小值到最大值均勻劃分成n等份，每份的間距是相等的。假設(shè)A和B分別是屬性值的最小值和最大值，那么劃分間距為W=(B-A)/n，每個類別的劃分邊界將為A+W,A+2W,A+3W,…A+(n-1)W。這種方法的缺點(diǎn)對異常點(diǎn)比較敏感，傾向于不均勻地把實(shí)例分布到各個箱中。等深分箱法將數(shù)據(jù)總記錄數(shù)均勻分為n等分，每份包含的數(shù)據(jù)個數(shù)相同。如果n=10，那么每一份中將包含大約10%的數(shù)據(jù)對象。這兩種方法都需要人工確定劃分區(qū)間的個數(shù)。等頻法可能將具有不相同類標(biāo)號的相同屬性值分入不同的箱中以滿足箱中數(shù)據(jù)的固定個數(shù)的條件。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge是一種監(jiān)督的、基于χ2檢驗(yàn)（卡方檢驗(yàn)見2.3.3）的數(shù)據(jù)離散化方法。其基本思想：對于精確的離散化，相對類頻率在一個區(qū)間內(nèi)應(yīng)當(dāng)完全一致。因此，如果兩個相鄰的區(qū)間具有非常類似的類分布，則這兩個區(qū)間可以合并；否則，它們應(yīng)當(dāng)保持分開。而低χ2值表明它們具有相似的類分布。ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個部分：第一步：初始化根據(jù)連續(xù)變量的值的大小排序，進(jìn)行初始的離散處理。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個部分：第二步：合并箱子合并過程分為兩個步驟，連續(xù)重復(fù)進(jìn)行：(1)對每對相鄰的區(qū)間進(jìn)行檢驗(yàn)。(2)將最小值的相鄰區(qū)間合并成一個區(qū)間。（根據(jù)卡方檢驗(yàn)原理可知卡方值越低，表明兩個類別越獨(dú)立，相互影響的程度越小；或者另一種理解是兩箱分布相似，可以進(jìn)行合并。）重復(fù)執(zhí)行檢驗(yàn)并且至底向上合并區(qū)間直到達(dá)到設(shè)定的閾值。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個部分：合并停止條件:直到所有相鄰箱子的值大于等于設(shè)置的閾值。（根據(jù)自由度和顯著性水平選取合適的值閾值；自由度則是根據(jù)數(shù)據(jù)能夠確定的為（R-1）*（C-1）,因?yàn)槎际怯?jì)算相鄰兩箱的，故R=2;C也可根據(jù)數(shù)據(jù)情況確定。顯著性水平推薦選擇0.1，0.05，0.01。）或者，箱子數(shù)量達(dá)到預(yù)先設(shè)置的數(shù)量。2.3數(shù)據(jù)預(yù)處理第二章數(shù)據(jù)預(yù)處理與相似性of43104

2.2

數(shù)據(jù)特征分析2.3

數(shù)據(jù)預(yù)處理2.1

數(shù)據(jù)類型2.4數(shù)據(jù)的相似性習(xí)題2.4數(shù)據(jù)的相似性數(shù)據(jù)挖掘任務(wù)需要計(jì)算數(shù)據(jù)對象之間的相似性或相異性，如聚類、最近鄰分類、異常檢測等。相似度指兩個對象相似程度的數(shù)據(jù)度量。相異度指兩個對象差異程度的數(shù)值度量，距離可以作為相異度的同義詞，兩個數(shù)據(jù)所在的空間距離越大表示數(shù)據(jù)越相異，。相似性和相異性計(jì)算方法是一致的，通常是用兩個對象之間的一個或多個屬性距離來表示。數(shù)據(jù)對象之間的鄰近度計(jì)算與數(shù)據(jù)對象屬性類型密切相關(guān)。掌握簡單屬性之間的鄰近度是計(jì)算復(fù)雜對象之間鄰近度的基礎(chǔ)。本節(jié)分別以標(biāo)稱和數(shù)值類型屬性介紹鄰近性度量方法。2.4數(shù)據(jù)的相似性假設(shè)每個對象有m個屬性，可以把一個對象視為m維空間的一個點(diǎn)，n個對象就是m維空間中的n個點(diǎn)。從直觀上看，屬于同一類的對象在空間中應(yīng)該互相靠近，而不同類的對象之間的距離要大得多，因此可用距離來衡量對象之間的相似程度。距離越小，對象間的相似性就越大。常用的距離形式有：曼哈頓距離、歐幾里得距離、切比雪夫距離、閔可夫斯基距離、杰卡德距離等。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性1.曼哈頓距離(ManhattanDistance)曼哈頓距離之所以稱為“曼哈頓距離”，是因?yàn)檫@里在兩個點(diǎn)之間行進(jìn)時必須要沿著網(wǎng)格線前進(jìn)，就如同沿著城市（如曼哈頓）的街道行進(jìn)一樣。對于一個具有正南正北、正東正西方向規(guī)則布局的城市街道，從一點(diǎn)到達(dá)另一點(diǎn)的距離正是在南北方向上旅行的距離加上在東西方向上旅行的距離，是將多個維度上的距離進(jìn)行求和的結(jié)果。其距離公式：2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性2.歐幾里得距離(EuclideanDistance)歐幾里得距離，也稱歐氏距離是最為熟知的距離測度，也就是我們常說的“距離”。在m維歐氏空間中，每個點(diǎn)是一個m維實(shí)數(shù)向量，該空間中的傳統(tǒng)距離測度為L2范式定義如下：也就是說，首先計(jì)算每一維上的距離，然后求它們的平方和，最后求算術(shù)平方根。另一個有趣的距離測度是L范式，也就是當(dāng)r趨向無窮大時Lr范式的極限值。當(dāng)r增大時，只有那個具有最大距離的維度才真正其作用，因此，通常L范式定義為在所有維度下中的最大值。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性3.切比雪夫距離(Chebyshev)以數(shù)學(xué)的觀點(diǎn)來看，切比雪夫距離是由一致范數(shù)（uniformnorm）（或稱為上確界范數(shù)）所衍生的度量，也是超凸度量（injectivemetricspace）的一種。它產(chǎn)生兩個數(shù)據(jù)對象的最大屬性值差。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性4.閔可夫斯基距離(MinkowskiDistance)閔可夫斯基距離又稱閔氏距離，是歐幾里得距離、曼哈頓距離和切比雪夫距離的推廣。閔氏距離對應(yīng)Lp范數(shù)，其中p是一個變參數(shù)，根據(jù)參數(shù)的不同閔氏距離可以表示一類的距離。當(dāng)p=1時，就是曼哈頓距離;當(dāng)p=2時，就是歐氏距離;當(dāng)p→∞時，就是切比雪夫距離。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性5.杰卡德距離杰卡德距離(JaccardDistance)用于衡量兩個集合的差異性，它是杰卡德相似度的補(bǔ)集，被定義為1減去Jaccard相似度。Jaccard相似度用來度量兩個集合之間的相似性，它被定義為兩個集合交集的元素個數(shù)除以并集的元素個數(shù)，即集合A和B的相似度為:2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性5.杰卡德距離多維二元數(shù)據(jù)，其某位數(shù)據(jù)為1表示元素集合中的某個元素出現(xiàn)，為0表示不出現(xiàn)。例如，超市的一張交易清單中的1或0來表示是否包含某件商品，一篇文章中用0或1來表示詞語是否出現(xiàn)。多維二元數(shù)據(jù)情況下，集合Ａ、Ｂ的相似度可以進(jìn)一步寫成：2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性數(shù)值數(shù)據(jù)是有大小順序的，距離公式非常適合計(jì)算不同維度的數(shù)值數(shù)據(jù)的鄰近度。但是，離散的標(biāo)稱屬性數(shù)據(jù)間并不存在大小順序關(guān)系，不能直接距離來計(jì)算相似度或相異度。標(biāo)稱屬性取值是代表事物狀態(tài)的若干值，只包含了相異性信息。標(biāo)稱類型可以通過編碼方案轉(zhuǎn)換成二元數(shù)據(jù)類型，然后使用數(shù)值計(jì)算方法來計(jì)算鄰近度。如果一個標(biāo)稱類型數(shù)據(jù)有M個不同的狀態(tài)值，那么將該標(biāo)稱數(shù)據(jù)轉(zhuǎn)換成M個二元屬性值，每一個標(biāo)稱狀態(tài)值對應(yīng)一個二元屬性，這些二元屬性中有一個值為1，剩余的全為0。這樣標(biāo)稱屬性相似度計(jì)算就可可通過編碼方式轉(zhuǎn)化為多個二元屬性的相似度計(jì)算。2.4.2標(biāo)稱屬性的相似性度量2.4數(shù)據(jù)的相似性一般地，二元屬性相似度，可以通過對屬性匹配值求和來計(jì)算。即首先分別求解對應(yīng)單個屬性間的相似度，然后對所有相似度數(shù)值進(jìn)行直接累加：中，d代表對象的屬性總數(shù)。更為直接的理解，相似度可用“取值相同的同位屬性數(shù)/屬性總位數(shù)”標(biāo)識對于包含多個二元屬性的數(shù)據(jù)對象相似度計(jì)算。設(shè)有={1,0,0,1,0,0,1,0,1,1}，={0,0,0,1,0,1,1,1,1,1}，兩個對象共有7個屬性取值相同，3個取值不同，那么相似度可以標(biāo)識為3/10=0.3。2.4.2標(biāo)稱屬性的相似性度量2.4數(shù)據(jù)的相似性1.距離度量的標(biāo)準(zhǔn)化和相關(guān)性當(dāng)數(shù)據(jù)對象屬性具有不同的域值時，即屬性變量的大小變化范圍不同，量綱不同，測量單位不同。如果不對屬性值進(jìn)行標(biāo)準(zhǔn)化處理，那么在使用歐幾里得距離計(jì)算相似度，將會受到屬性值大的屬性影響。例如第一個變量的數(shù)量級是1000,而第二個變量的數(shù)量級是10，如v1=(2000,20),v2=(5000,60),那么如果只有2維的點(diǎn)中，歐氏距離為2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性2.組合異種屬性的相似度異種對象X，Y的相似度計(jì)算算法：步驟1：將第k個屬性標(biāo)準(zhǔn)化到區(qū)間[0，1]，計(jì)算相似度。步驟2：創(chuàng)建一個指示變量用來標(biāo)示兩個對象在第k個屬性上是否同時取值為0，如果同時為0，=0，否則=1。步驟3：使用如下公式計(jì)算對象X，Y的相似度：2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性3.使用權(quán)值前面所述所有相似度計(jì)算，都是將對象的所有屬性同等對待，沒有區(qū)分不同屬性的重要程度。當(dāng)現(xiàn)實(shí)問題中屬性的重要程度存在較大差異時，可以借助于領(lǐng)域?qū)I(yè)知識，給它們賦予不同的權(quán)值，以期望獲得更好的性能。相似度計(jì)算公式增加權(quán)值項(xiàng)后形式如下：2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性文檔是由大量詞語構(gòu)成，如果把特定詞語出現(xiàn)的頻率看作一個單獨(dú)屬性，那么文檔可以由數(shù)千個詞頻屬性構(gòu)成的向量表示。詞頻向量通常很長，并且是稀疏的，因?yàn)樗舜罅康牧阒祵傩浴＝y(tǒng)計(jì)兩個文檔中共同沒有的詞，即公共零值屬性對計(jì)算它們間的相似度并沒有多大幫助。對于文檔這種特殊結(jié)構(gòu)數(shù)據(jù)，使用基于距離計(jì)算鄰近度的方法，會受到大量零值的影響，評估效果并不好。文檔相似度需要關(guān)注兩個文檔同時出現(xiàn)的詞語，以及這些詞語出現(xiàn)的次數(shù)，忽略零匹配的數(shù)值數(shù)據(jù)度量。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.余弦相似度又稱為余弦相似性，適合用來計(jì)算文檔間的相似度。其原理是把兩個文本文檔以詞頻向量表示，通過計(jì)算兩個向量的夾角余弦值來評估他們的相似度。如果余弦值越接近于1，夾角越小，代表向量之間的匹配越大。而如果兩個向量的余弦值為0，表示它們正交，沒有匹配。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.余弦相似度2.4.4文本相似性度量

假設(shè)有兩個文檔，新聞a和新聞b，將它們的內(nèi)容經(jīng)過分詞、詞頻統(tǒng)計(jì)處理后得到如下兩個向量：文檔a:(1,1,2,1,1,1,0,0,0)文檔b:(1,1,1,0,1,3,1,6,1)。使用余弦相似度來計(jì)算兩個文檔的相似度過程如下：新聞a和新聞b對應(yīng)的向量分別是

和（1）計(jì)算向量a、b的點(diǎn)積：（2）計(jì)算向量a、b的歐幾里得范數(shù)，即||a||、||b||：（3）計(jì)算相似度：2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。基于統(tǒng)計(jì)學(xué)方法來評估詞語對文檔的重要性。字詞的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加，但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。其中，詞頻(termfrequency,TF)指的是某一個給定的詞語在該文檔中出現(xiàn)的次數(shù)。由于同一個詞語在長文檔里可能會比短文檔有更高的詞頻，為了防止它偏向較長的文檔，通常會采用詞頻除以文檔總詞數(shù)來歸一化。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

逆向文檔頻率(inversedocumentfrequency,IDF)的主要思想是：出現(xiàn)頻率較少的詞才能夠表達(dá)文檔的主題。如果包含詞語w的文檔越少,IDF值越大，則說明詞條具有很好的類別區(qū)分能力。為了避免分母為０值，分母做加１處理。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

最終TF-IDF的計(jì)算式為：TF-IDF算法用來對文本進(jìn)行特征提取，選出可以表征文章特性的關(guān)鍵詞。假設(shè)文章X由d個關(guān)鍵詞的詞頻組成的向量表示,兩篇文章X,Y的相似度可表示為：2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.編輯距離編輯距離具有下面幾個性質(zhì)：兩個字符串的最小編輯距離是兩個符串的長度差；兩個字符串的最大編輯距離是兩字符串中較長字符串的長度；只有兩個相等的字符串的編輯距離才會為0；編輯距離滿足三角不等式，即；2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性1.編輯距離編輯距離（EditDistance）是指將序列變換為序列所用的最少編輯操作次數(shù)。編輯操作類型包括字符的替換、插入和刪除，三種類型可以根據(jù)實(shí)際應(yīng)用問題指定相同或不同的操作代價。一般來說，編輯距離越小，兩個字符串的相似度越大。2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性2.最長公共子序列最長公共子序列（LongestCommonSubsequence，LCS）的定義是，一個序列S，如果分別是兩個或多個已知序列的子序列，且是所有符合此條件序列中最長的，則S稱為已知序列的最長公共子序列。子序列要求左右兩元素在母序列中為相鄰元素，且前后順序一致。設(shè)序列和的最長公共子序列為，則有如下特性：1)若xm=yn，則zk=xm=yn，且zk-1是xm-1和yn-1的最長公共子序列。2)若xm≠yn且zk≠xm，則Z是xm-1和Y的最長公共子序列。3)若xm≠yn且zk≠yn，則Z是X和yn-1的最長公共子序列。2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性2.最長公共子序列當(dāng)兩個序列X,Y中任意一個為空集時，它們的最長公共子序列為零。即有和，這兩個式子可以作為求解算法的邊界條件。2.4.5離散序列相似性度量第二章數(shù)據(jù)預(yù)處理與相似性of43128

2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性2.1

數(shù)據(jù)類型習(xí)題2.2

數(shù)據(jù)圖特征分析

1.在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進(jìn)行預(yù)處理？2.簡述數(shù)據(jù)清洗的基本內(nèi)容。3.簡述數(shù)據(jù)預(yù)處理的方法和內(nèi)容。4.簡述數(shù)據(jù)空缺值的處理方法。5.數(shù)據(jù)約簡的方法有哪些？6.什么是數(shù)據(jù)規(guī)范化？規(guī)范化的常用方法有哪些？寫出對應(yīng)的變換公式。7.【示例2-10】種的數(shù)據(jù)[3、22、8、22、9、11、32、93、12],試用等寬分箱法完成數(shù)據(jù)平滑。8.下列數(shù)據(jù)是對鳶尾花進(jìn)行頻率統(tǒng)計(jì)后的部分?jǐn)?shù)據(jù)，在此基礎(chǔ)上，用ChiMerge方法完成數(shù)據(jù)離散化。of43129習(xí)題第二章數(shù)據(jù)預(yù)處理與相似性of43130習(xí)題第二章數(shù)據(jù)預(yù)處理與相似性9．計(jì)算數(shù)據(jù)對象X=(3,5,2,7)和Y=(6,8,2,3)之間的歐幾里得距離、曼哈頓距離以及閔可夫斯基距離，其中閔可夫斯距離中p值取為３。sepal_length0類1類2類和4.310014.430034.510014.640044.720024.850054.941165820105.181095.231045.31

015.451065.525075.605165.725185.813375.90213感謝聆聽第三章分類of56132

分類是一種很重要的數(shù)據(jù)挖掘技術(shù)，也是數(shù)據(jù)挖掘研究的重點(diǎn)和熱點(diǎn)之一。分類的目的是分析輸入數(shù)據(jù)，通過訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性，為每一個類找到一種準(zhǔn)確描述或者模型，這種描述常常用謂詞來表示。由此生成的類描述用來對未來的測試數(shù)據(jù)進(jìn)行分類。盡管這些未來測試數(shù)據(jù)的類標(biāo)簽是未知的，仍可以由此預(yù)測這些新數(shù)據(jù)所屬的類。也可以由此對數(shù)據(jù)中每一個類有更好的理解。More應(yīng)用市場：醫(yī)療診斷、人臉檢測、故障診斷和故障預(yù)警······3.1分類概述第三章分類3.2

決策樹3.3

貝葉斯分類3.5實(shí)戰(zhàn)：Python支持向量機(jī)分類習(xí)題3.4

支持向量機(jī)of56133

分類（Classification）是一種重要的數(shù)據(jù)分析形式，它提取刻畫重要數(shù)據(jù)類的模型。這種模型稱為分類器，預(yù)測分類的（離散的、無序的）類標(biāo)號。這些類別可以用離散值表示，其中值之間的次序沒有意義。3.1.1分類的基本概念of561343.1分類概述第三章分類

分類可描述如下：從訓(xùn)練數(shù)據(jù)中確定函數(shù)模型y=f(x1,x2,...,xd)，其中xi,i=1,...d為特征變量，y為分類變量。當(dāng)y為離散變量時，即dom(y)={y1,y2,...,ym}，被稱為分類。

分類也可定義為：分類的任務(wù)就是通過學(xué)習(xí)得到一個目標(biāo)函數(shù)(TargetFunction)?，把每個屬性集x映射到一個預(yù)先定義的類標(biāo)號y。

數(shù)據(jù)分類過程有兩階段：

（1）學(xué)習(xí)階段（構(gòu)建分類模型）。

（2）分類階段（使用學(xué)習(xí)階段構(gòu)建的模型預(yù)測給定數(shù)據(jù)的類標(biāo)號）。3.1.2分類的過程of561353.1分類概述第三章分類建立分類模型的一般方法3.1.2分類的過程of561363.1分類概述第三章分類建立分類模型的一般方法

訓(xùn)練集：用于訓(xùn)練模型，擬合參數(shù)，即模型擬合的數(shù)據(jù)樣本集合，如通過訓(xùn)練擬合一些參數(shù)來建立一個分類器。

測試集：用來評估訓(xùn)練好的最終模型的性能如何，評價模型好壞，測試集沒有參于訓(xùn)練，主要是測試訓(xùn)練好的模型的準(zhǔn)確能力等，但不能作為調(diào)參、選擇特征等算法相關(guān)的選擇的依據(jù)。

訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)不能再出現(xiàn)在驗(yàn)證數(shù)據(jù)以及測試數(shù)據(jù)中，驗(yàn)證數(shù)據(jù)最好也不要出現(xiàn)在測試數(shù)據(jù)中，這點(diǎn)在訓(xùn)練分類器的時候一定要特別注意。

3.1.3分類器性能的評估方法of561373.1分類概述第三章分類（1）評估分類器性能的度量度量公式準(zhǔn)確率、識別率（TP+TN)/(P+N)錯誤率、誤分類率（FP+FN)/(P+N)敏感度、真正例率、召回率TP/P特效型、真負(fù)例率TN/N精度TP/(TP+FP)TP,TN,FP,FN,P,N分別表示真正例，真負(fù)例，假正例，假負(fù)例，正和負(fù)樣本數(shù)。

3.1.3分類器性能的評估方法of561383.1分類概述第三章分類（2）比較分類器的其他方面速度：這涉及產(chǎn)生和使用分類器的計(jì)算開銷。魯棒性：這是假的數(shù)據(jù)有噪聲或有缺失值時分類器做出正確預(yù)測的能力。通常，魯棒性用噪聲和缺失值漸增的一系列合成數(shù)據(jù)集評估?？缮炜s性：這涉及給定大量數(shù)據(jù)，有效的構(gòu)造分類器的能力。通常，可伸縮性用規(guī)模漸增的一系列數(shù)據(jù)集評估。可解釋性：這涉及分類器或預(yù)測其提供的理解和洞察水平?？山忉屝允侵饔^的，因而很難評估。決策樹和分類規(guī)則可能容易解釋，但隨著它們變得更復(fù)雜，它們的可解釋性也隨著消失。

3.1.3分類器性能的評估方法of561393.1分類概述

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘（第2版）全套教學(xué)課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔