數(shù)據(jù)挖掘(第2版) 課件全套 王朝霞 第1-9章 緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第1頁(yè)
數(shù)據(jù)挖掘(第2版) 課件全套 王朝霞 第1-9章 緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第2頁(yè)
數(shù)據(jù)挖掘(第2版) 課件全套 王朝霞 第1-9章 緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第3頁(yè)
數(shù)據(jù)挖掘(第2版) 課件全套 王朝霞 第1-9章 緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第4頁(yè)
數(shù)據(jù)挖掘(第2版) 課件全套 王朝霞 第1-9章 緒論、數(shù)據(jù)特征分析與預(yù)處理- 互聯(lián)網(wǎng)數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩815頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘(第二版)第一章緒論of432高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用我們生活在一個(gè)信息時(shí)代,社會(huì)信息化水平的不斷提高和數(shù)據(jù)庫(kù)應(yīng)用的日益普及,使人類積累的數(shù)據(jù)量正在以指數(shù)方式增長(zhǎng)。信息化時(shí)代給我們帶來(lái)大量的數(shù)據(jù)電子商務(wù):電子商務(wù)交易數(shù)據(jù)社交平臺(tái)數(shù)據(jù):微博,QQ,微信等金融:銀行卡交易數(shù)據(jù)科學(xué)計(jì)算:天氣、地理環(huán)境等豐富的數(shù)據(jù),貧乏的知識(shí)理解數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)人的能力迫切希望對(duì)海量數(shù)據(jù)進(jìn)行更深入地分析,發(fā)現(xiàn)隱藏在其中的有價(jià)值信息。數(shù)據(jù)挖掘出現(xiàn)的時(shí)代背景1.1數(shù)據(jù)挖掘基本概念第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.3數(shù)據(jù)挖掘常用工具3.1數(shù)據(jù)挖掘概述1.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景of433高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用習(xí)題數(shù)據(jù)挖掘(DataMining,DM),是從大量的、有噪聲的、不完全的、模糊和隨機(jī)的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、具有潛在利用價(jià)值的信息和知識(shí)的過(guò)程。這個(gè)定義包含以下幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題1.1.1數(shù)據(jù)挖掘的概念of4341.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的定義DataInformationKnowledgeWisdom數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)掘知識(shí)的過(guò)程,在這個(gè)過(guò)程中人工智能和數(shù)據(jù)庫(kù)技術(shù)可以作為挖掘工具,數(shù)據(jù)可以被看作是土壤,云平臺(tái)可以看作是承載數(shù)據(jù)和挖掘算法的基礎(chǔ)設(shè)施。在挖掘數(shù)據(jù)的過(guò)程中需要用到一些挖掘工具和方法,如機(jī)器學(xué)習(xí)的方法。當(dāng)挖掘完畢后,數(shù)據(jù)挖掘還需要對(duì)知識(shí)進(jìn)行可視化和展現(xiàn)。1.1.1數(shù)據(jù)挖掘的概念of4351.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)、人工智能數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科,涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、模式識(shí)別、高性能計(jì)算、知識(shí)工程、神經(jīng)網(wǎng)絡(luò)、信息檢索、信息的可視化等眾多領(lǐng)域。1.1.1數(shù)據(jù)挖掘的概念of4361.1數(shù)據(jù)挖掘基本概念數(shù)據(jù)挖掘是多學(xué)科的匯合第一章緒論關(guān)系型數(shù)據(jù)庫(kù)、事務(wù)型數(shù)據(jù)庫(kù)、面向?qū)ο蟮臄?shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)/多維數(shù)據(jù)庫(kù)空間數(shù)據(jù)(如地圖信息)工程數(shù)據(jù)(如建筑、集成電路信息)文本和多媒體數(shù)據(jù)(如文本、圖像、音頻、視頻數(shù)據(jù))時(shí)間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交換數(shù)據(jù))萬(wàn)維網(wǎng)(如半結(jié)構(gòu)化的HTML、結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息)1.1.1數(shù)據(jù)挖掘的概念of4371.1數(shù)據(jù)挖掘基本概念常見(jiàn)的數(shù)據(jù)挖掘?qū)ο蟮谝徽戮w論大數(shù)據(jù)挖掘:從體量巨大、類型多樣、動(dòng)態(tài)快速流轉(zhuǎn)及價(jià)值密度低的大數(shù)據(jù)中挖掘出有巨大潛在價(jià)值的信息和知識(shí),并以服務(wù)的形式提供給用戶。大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘相比:技術(shù)背景差異處理對(duì)象差異挖掘程度差異1.1.2大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘of4381.1數(shù)據(jù)挖掘基本概念第一章緒論在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ),數(shù)據(jù)挖掘是關(guān)鍵,即數(shù)據(jù)挖掘是大數(shù)據(jù)中最關(guān)鍵、最有價(jià)值的工作。大數(shù)據(jù)挖掘的特性:應(yīng)用性工程性集合性1.1.3大數(shù)據(jù)挖掘的特性of4391.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的任務(wù)主要分為描述性任務(wù)和預(yù)測(cè)性任務(wù)。描述性任務(wù):刻畫(huà)目標(biāo)數(shù)據(jù)中數(shù)據(jù)的一般性質(zhì),例如,通過(guò)客戶行為特征,將客戶進(jìn)行不同類型的聚類劃分。預(yù)測(cè)性任務(wù):在當(dāng)前數(shù)據(jù)上進(jìn)行歸納,以便做出預(yù)測(cè)。例如,通過(guò)一個(gè)消費(fèi)者的消費(fèi)情況判斷是否會(huì)成為自己的重要客戶。1.1.4數(shù)據(jù)挖掘的任務(wù)和功能of43101.1數(shù)據(jù)挖掘基本概念第一章緒論常見(jiàn)的數(shù)據(jù)挖掘功能:分類聚類關(guān)聯(lián)分析數(shù)據(jù)總結(jié)離群點(diǎn)分析預(yù)測(cè)1.1.4數(shù)據(jù)挖掘的任務(wù)和功能of43111.1數(shù)據(jù)挖掘基本概念第一章緒論數(shù)據(jù)挖掘的對(duì)象可以是任何類型的數(shù)據(jù)。數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù),包括:數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)和事務(wù)數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù),包括:序列數(shù)據(jù)、圖或網(wǎng)絡(luò)數(shù)據(jù)、空間數(shù)據(jù)、文本和多媒體數(shù)據(jù)、萬(wàn)維網(wǎng)數(shù)據(jù)等。1.1.5數(shù)據(jù)挖掘的對(duì)象of43121.1數(shù)據(jù)挖掘基本概念第一章緒論1999年,歐盟創(chuàng)建了跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM,提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評(píng)述,包括業(yè)務(wù)理解、數(shù)據(jù)理解及收集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、模型評(píng)估與部署六個(gè)階段。1.1.6數(shù)據(jù)挖掘的過(guò)程of43131.1數(shù)據(jù)挖掘基本概念第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具3.1數(shù)據(jù)挖掘概述習(xí)題1.4數(shù)據(jù)挖掘應(yīng)用of4314高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用之后每年召開(kāi)一次這樣的會(huì)議,經(jīng)過(guò)十幾年的努力,數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)取得了豐碩的成果。美國(guó)麻省理工學(xué)院在2001年1月份的《科技評(píng)論》提出數(shù)據(jù)挖掘?qū)⑹俏磥?lái)5年對(duì)人類產(chǎn)生重大影響的10大新興技術(shù)之一。1.數(shù)據(jù)挖掘的起源of43151.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1989年8月于美國(guó)底特律市召開(kāi)的第十一屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上首次提到“知識(shí)發(fā)現(xiàn)”這一概念;1993年,美國(guó)電氣電子工程師學(xué)會(huì)(IEEE)的知識(shí)與數(shù)據(jù)工程(KnowledgeandDataEngineering)會(huì)刊出版了KDD技術(shù)???,發(fā)表的論文和摘要體現(xiàn)了當(dāng)時(shí)KDD的最新研究成果和動(dòng)態(tài)。1995年,在加拿大蒙特利爾召開(kāi)的首屆“知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘”國(guó)際學(xué)術(shù)會(huì)議上,首次提出了“數(shù)據(jù)挖掘”這一學(xué)科的名稱,并把數(shù)據(jù)挖掘技術(shù)分為科研領(lǐng)域的知識(shí)發(fā)現(xiàn)與工程領(lǐng)域的數(shù)據(jù)挖掘。1)多媒體數(shù)據(jù)挖掘2)時(shí)序數(shù)據(jù)挖掘3)Web數(shù)據(jù)挖掘4)文本數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的研究熱點(diǎn)of43161.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論web數(shù)據(jù)挖掘分類示意圖隨著物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)時(shí)代的來(lái)臨,在大數(shù)據(jù)背景下數(shù)據(jù)挖掘要面臨的挑戰(zhàn),主要表現(xiàn)在以下幾個(gè)方面:數(shù)據(jù)挖掘分析模型的重構(gòu):在大數(shù)據(jù)的背景下要以低成本和可擴(kuò)展的方式處理大數(shù)據(jù),這就需要對(duì)整個(gè)IT架構(gòu)進(jìn)行重構(gòu),開(kāi)發(fā)先進(jìn)的軟件平臺(tái)和算法。清洗粒度大小不易把握:由于普適終端的所處地理位置的復(fù)雜性,使得產(chǎn)生的數(shù)據(jù)具有很多噪聲。數(shù)據(jù)開(kāi)放與隱私的權(quán)衡:互聯(lián)網(wǎng)的交互性,使得人們?cè)诓煌恢卯a(chǎn)生的數(shù)據(jù)足跡得到積累和關(guān)聯(lián),從而增加了隱私暴露的概率,且這種隱性的數(shù)據(jù)暴露往往是無(wú)法控制和預(yù)知的。3.數(shù)據(jù)挖掘面臨的新挑戰(zhàn)of43171.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化描述:標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語(yǔ)言將有助于數(shù)據(jù)挖掘的系統(tǒng)化開(kāi)發(fā)。改進(jìn)多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進(jìn)其在企業(yè)和社會(huì)中的使用。數(shù)據(jù)挖掘過(guò)程的可視化方法:可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)??梢栽诎l(fā)現(xiàn)知識(shí)的過(guò)程中進(jìn)行很好的人機(jī)交互。與特定數(shù)據(jù)存儲(chǔ)類型的適應(yīng)問(wèn)題:根據(jù)不同的數(shù)據(jù)存儲(chǔ)類型的特點(diǎn),進(jìn)行針對(duì)性的研究是目前流行以及將來(lái)一段時(shí)間必須面對(duì)的問(wèn)題。4數(shù)據(jù)挖掘未來(lái)的發(fā)展趨勢(shì)of43181.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘問(wèn)題:隨著Internet的不斷發(fā)展,網(wǎng)絡(luò)資源日漸豐富,這就需要分散的技術(shù)人員各自獨(dú)立地處理分離數(shù)據(jù)庫(kù)的工作方式應(yīng)是可協(xié)作的。數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成:數(shù)據(jù)庫(kù)系統(tǒng)和以Web查詢接口方式訪問(wèn)數(shù)據(jù)庫(kù)資源的Web數(shù)據(jù)庫(kù)已經(jīng)成為信息處理系統(tǒng)的主流。4數(shù)據(jù)挖掘未來(lái)的發(fā)展趨勢(shì)of43191.2數(shù)據(jù)挖掘起源及發(fā)展第一章緒論1.3數(shù)據(jù)挖掘常用工具第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.1數(shù)據(jù)挖掘基本概念3.1數(shù)據(jù)挖掘概述1.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景of4320高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用習(xí)題我們需要借助一些有效的工具進(jìn)行數(shù)據(jù)挖掘工作,更輕松地從巨大的數(shù)據(jù)集中找出關(guān)系、集群、模式、分類信息等,借助這類工具可以幫助我們做出最準(zhǔn)確的決策,為我們的業(yè)務(wù)獲取更多收益。數(shù)據(jù)挖掘工具分為:商用工具和開(kāi)源工具。1.3數(shù)據(jù)挖掘工具of43211.3數(shù)據(jù)挖掘常用工具第一章緒論SASEnterpriseMinerSPSSClementineIntelligentMinerQUEST1.3.1商用工具of43221.3數(shù)據(jù)挖掘常用工具第一章緒論SASEnterpriseMinerEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具,按照“抽樣-探索-修改-建模-評(píng)價(jià)”的方法進(jìn)行數(shù)據(jù)挖掘,它把統(tǒng)計(jì)分析系統(tǒng)和圖形用戶界面(GUI)集成起來(lái),為用戶提供了用于建模的圖形化流程處理環(huán)境。1.3.1商用工具of43231.3數(shù)據(jù)挖掘常用工具第一章緒論SPSSClementineClementine是SPSS公司開(kāi)發(fā)的數(shù)據(jù)挖掘工具,支持整個(gè)數(shù)據(jù)挖掘過(guò)程,即從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評(píng)估到最終部署的全部過(guò)程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)CRISP-DM。1.3.1商用工具of43241.3數(shù)據(jù)挖掘常用工具第一章緒論RWekaMahoutRapidMinerPythonSparkMLlib1.3.2開(kāi)源工具of43251.3數(shù)據(jù)挖掘常用工具第一章緒論RR是用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語(yǔ)言及分析工具,提供了豐富的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘功能,其核心模塊是用C、C++和Fortran編寫(xiě)的。1.3.2開(kāi)源工具of43261.3數(shù)據(jù)挖掘常用工具第一章緒論P(yáng)ythonPython是一種功能強(qiáng)大的、開(kāi)源的、解釋性、面向?qū)ο笥?jì)算機(jī)編程語(yǔ)言,內(nèi)建有各種高級(jí)數(shù)據(jù)結(jié)構(gòu),支持模塊和包,支持多種平臺(tái)并可擴(kuò)展。Python提供sklearn第三方程序庫(kù),對(duì)一些常用的機(jī)器學(xué)習(xí)方法進(jìn)行了封裝,只需要調(diào)用模塊中的函數(shù)就可實(shí)現(xiàn)大多數(shù)機(jī)器學(xué)習(xí)任務(wù),包括分類、回歸、聚類、數(shù)據(jù)降維、數(shù)據(jù)預(yù)處理等。1.3.2開(kāi)源工具of43271.3數(shù)據(jù)挖掘常用工具第一章緒論WEKAWEKA是一個(gè)基于JAVA環(huán)境下免費(fèi)開(kāi)源的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。1.3.2開(kāi)源工具of43281.3數(shù)據(jù)挖掘常用工具第一章緒論MahoutMahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開(kāi)源項(xiàng)目,在機(jī)器學(xué)習(xí)領(lǐng)域提供了一些可擴(kuò)展的經(jīng)典算法的實(shí)現(xiàn)和數(shù)據(jù)挖掘的程序庫(kù)。它可以實(shí)現(xiàn)很多功能,包括聚類、分類、推薦過(guò)濾、頻繁子項(xiàng)挖掘等。1.3.2開(kāi)源工具of43291.3數(shù)據(jù)挖掘常用工具第一章緒論SparkMLlibMLlib(machinelearninglib)是Spark中的一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù),由通用的學(xué)習(xí)算法和工具組成,包括分類、線性回歸、聚類、協(xié)同過(guò)濾、梯度下降以及底層優(yōu)化原語(yǔ)。1.3.2開(kāi)源工具of43301.3數(shù)據(jù)挖掘常用工具第一章緒論1.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具of4331高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用習(xí)題數(shù)據(jù)挖掘能做什么?發(fā)現(xiàn)最有價(jià)值的客戶1.4數(shù)據(jù)挖掘的應(yīng)用of43321.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論數(shù)據(jù)挖掘能做什么?發(fā)現(xiàn)最有價(jià)值的客戶使組合銷售更有效率1.4數(shù)據(jù)挖掘的應(yīng)用of43331.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論數(shù)據(jù)挖掘能做什么?發(fā)現(xiàn)最有價(jià)值的客戶使組合銷售更有效率留住那些最有價(jià)值的客戶1.4數(shù)據(jù)挖掘的應(yīng)用of43341.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論數(shù)據(jù)挖掘能做什么?發(fā)現(xiàn)最有價(jià)值的客戶使組合銷售更有效率留住那些最有價(jià)值的客戶用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象1.4數(shù)據(jù)挖掘的應(yīng)用of43351.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論電信:客戶細(xì)分,客戶流失分析銀行:優(yōu)化客戶服務(wù),信貸風(fēng)險(xiǎn)評(píng)估,欺詐檢測(cè)百貨公司/超市:購(gòu)物籃分析(關(guān)聯(lián)規(guī)則)電子商務(wù):挖掘客戶潛在需求,交叉銷售稅務(wù)部門(mén):偷漏稅行為探測(cè)警察機(jī)關(guān):犯罪行為分析醫(yī)學(xué):醫(yī)療保健1.4數(shù)據(jù)挖掘的應(yīng)用of43361.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論應(yīng)用案例1:啤酒與尿不濕

沃爾瑪超市,關(guān)聯(lián)規(guī)則1.4數(shù)據(jù)挖掘的應(yīng)用of43371.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論應(yīng)用案例2匯豐銀行需要對(duì)不斷增長(zhǎng)的客戶群進(jìn)行分類,對(duì)每種產(chǎn)品找出最有價(jià)值的客戶,營(yíng)銷費(fèi)用減少了30%。應(yīng)用案例3美國(guó)國(guó)防財(cái)務(wù)部需要從每年上百萬(wàn)比的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象。發(fā)現(xiàn)可能存在欺詐的交易,進(jìn)行深入調(diào)查,節(jié)約了大量的調(diào)查成本。1.4數(shù)據(jù)挖掘的應(yīng)用of43381.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景第一章緒論習(xí)題第一章緒論1.1數(shù)據(jù)挖掘基本概念1.3數(shù)據(jù)挖掘常用工具1.4數(shù)據(jù)挖掘應(yīng)用場(chǎng)景of4339高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用1.2數(shù)據(jù)挖掘起源及發(fā)展歷史1.什么是數(shù)據(jù)挖掘?2.?dāng)?shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間的關(guān)系是什么?3.什么是物聯(lián)網(wǎng)、云計(jì)算?并說(shuō)明它們和大數(shù)據(jù)的關(guān)系。4.查閱資料,說(shuō)明在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘面臨哪些挑戰(zhàn),以及如何解決。5.什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)有何不同?6.?dāng)?shù)據(jù)挖掘有哪些常用的工具?of4340習(xí)題第一章緒論感謝聆聽(tīng)高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘(第二版)第二章數(shù)據(jù)預(yù)處理與相似性of4343高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)是數(shù)據(jù)挖掘的目標(biāo)對(duì)象和原始資源,對(duì)數(shù)據(jù)挖掘最終結(jié)果起著決定性的作用。現(xiàn)實(shí)世界中的數(shù)據(jù)是多種多樣的,具有不同的特征,這就要求數(shù)據(jù)的存儲(chǔ)采用合適的數(shù)據(jù)類型,并且數(shù)據(jù)挖掘算法的適用性會(huì)受到具體的數(shù)據(jù)類型限制。另外,原始數(shù)據(jù)通常存在著噪聲、不一致、部分?jǐn)?shù)據(jù)缺失等問(wèn)題,為了達(dá)到較好的挖掘結(jié)果,有必要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理加工從而提高數(shù)據(jù)的質(zhì)量。2.1

數(shù)據(jù)類型第二章數(shù)據(jù)預(yù)處理與相似性2.2

數(shù)據(jù)特征分析2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性of4344高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用習(xí)題屬性是數(shù)據(jù)對(duì)象的性質(zhì)或特性,屬性又可稱為特征。每一個(gè)數(shù)據(jù)對(duì)象用一組屬性描述,數(shù)據(jù)集用結(jié)構(gòu)化數(shù)據(jù)表表示,其中列是存放在表中的對(duì)象的屬性,行代表一個(gè)對(duì)象實(shí)例,表中單元格是實(shí)例對(duì)應(yīng)屬性的屬性值。2.1數(shù)據(jù)類型2.1數(shù)據(jù)類型

可以通過(guò)以下4種基本操作來(lái)確定屬性的類型:(1)相異性:=和≠

(2)序:≤、≥、<和>(3)加法:+和-(4)乘法:*和/按照上面屬性測(cè)量值可使用的基本操作,可將屬性值大致可以分為:標(biāo)稱、序數(shù)、區(qū)間、二元、比率5種類型。2.1.1屬性與度量2.1數(shù)據(jù)類型2.1數(shù)據(jù)類型2.1.1屬性與度量2.1數(shù)據(jù)類型

2.1.2數(shù)據(jù)集的類型記錄數(shù)據(jù)有序數(shù)據(jù)圖形數(shù)據(jù)記錄數(shù)據(jù)是最常見(jiàn)的數(shù)據(jù)集類型,數(shù)據(jù)集是一個(gè)二維表格,其中表中行代表記錄,列代表屬性。例如一張普通的Excel表格文件或一張關(guān)系數(shù)據(jù)庫(kù)中的表。有序數(shù)據(jù)對(duì)象之間存在時(shí)間或空間上的順序關(guān)系。例如股票價(jià)格波動(dòng)信息,醫(yī)療儀器監(jiān)視病人的心跳、血壓、呼吸數(shù)值,用戶上網(wǎng)購(gòu)物會(huì)產(chǎn)生鼠標(biāo)點(diǎn)擊網(wǎng)頁(yè)等操作指令序列,這些信息可以用來(lái)挖掘用戶的上網(wǎng)習(xí)慣。圖形數(shù)據(jù)對(duì)象之間存在顯式或隱式的聯(lián)系,相互之間有一定的復(fù)雜依賴關(guān)系,構(gòu)成圖形或網(wǎng)狀結(jié)構(gòu),如互聯(lián)網(wǎng)中的超鏈接。第二章數(shù)據(jù)預(yù)處理與相似性of4349高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性2.1

數(shù)據(jù)類型2.2

數(shù)據(jù)特征分析習(xí)題2.2數(shù)據(jù)特征分析描述數(shù)據(jù)集中趨勢(shì)(centraltendency)的度量:Mean(均值),median(中位數(shù)),mode(眾數(shù)),midrange(中列數(shù)):最大和最小值的均值描述數(shù)據(jù)離散程度(dispersion)的度量:Quartiles(四分位數(shù)),interquartilerange(IQR):四分位數(shù)極差,andvariance(方差)2.2數(shù)據(jù)特征分析1.算術(shù)平均值(ArithmeticMean)算術(shù)平均值是最常用的數(shù)據(jù)集中趨勢(shì)指標(biāo),就是數(shù)據(jù)集合中所有數(shù)值的加和除以數(shù)值個(gè)數(shù),定義如下:2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量平均數(shù)的優(yōu)點(diǎn):它能夠利用所有數(shù)據(jù)的特征,而且比較好算。不足之處,平均數(shù)容易受極端數(shù)據(jù)的影響。2.2數(shù)據(jù)特征分析2.眾數(shù)(Mode)2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量眾數(shù)(Mode):在一組數(shù)據(jù)中,出現(xiàn)次數(shù)最多的數(shù)據(jù);用眾數(shù)代表一組數(shù)據(jù),適合于數(shù)據(jù)量較多時(shí)使用,且眾數(shù)不受極端數(shù)據(jù)的影響;

當(dāng)數(shù)值或被觀察者沒(méi)有明顯次序(常發(fā)生于非數(shù)值性資料)時(shí)特別有用,由于可能無(wú)法良好定義算術(shù)平均數(shù)和中位數(shù)。例子:{蘋(píng)果,蘋(píng)果,香蕉,橙,橙,橙,桃}的眾數(shù)是橙。2.2數(shù)據(jù)特征分析3.中位數(shù)(Median)2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。例:3,13,7,5,21,23,39,23,40,23,14,12,56,23,29

排序后:3,5,7,12,13,14,21,23,23,23,23,29,39,40,56這15個(gè)數(shù)中,第8個(gè)數(shù)為中位數(shù):23中位數(shù)是通過(guò)排序得到的,它不受最大、最小兩個(gè)極端數(shù)值的影響。2.2數(shù)據(jù)特征分析4.k百分位數(shù)(Percentile)在一組數(shù)據(jù)從小到大排序,并計(jì)算相應(yīng)的累計(jì)百分比,處于k%位置的值成為第k百分位數(shù)。第k百分位數(shù)是這樣一個(gè)值,它使得至少有k%的數(shù)據(jù)項(xiàng)小于或等于這個(gè)值,且至少有(100-k)%的數(shù)據(jù)項(xiàng)大于或等于這個(gè)值。前面介紹的中位數(shù)就是50百分位數(shù)。2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量2.2數(shù)據(jù)特征分析4.k百分位數(shù)(Percentile)求k百分位數(shù)的步驟:第1步:以遞增順序排列原始數(shù)據(jù)(即從小到大排列)。第2步:計(jì)算指數(shù)i=1+(n-1)*k%(n是數(shù)據(jù)個(gè)數(shù))第3步:i是數(shù)據(jù)序列中k百分位數(shù)據(jù)的位置2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量2.2數(shù)據(jù)特征分析4.k百分位數(shù)(Percentile)【例2-1】有一組數(shù)據(jù):3,13,7,5,21,23,39,23,40,23,14,12,56,23,29,求這組數(shù)的50百分位數(shù)(也就是中位數(shù))。排序后:3,5,7,12,13,14,21,23,23,23,23,29,39,40,56

計(jì)算50百分位數(shù)的位置:1+(15-1)*50%=8第8個(gè)數(shù)據(jù)(即23)是50百分位數(shù)的位置。2.2.1描述數(shù)據(jù)集中趨勢(shì)的度量2.2數(shù)據(jù)特征分析1.極差(Range)極差是指在在某個(gè)數(shù)值屬性上的最大值和最小值之差。比如,示例2-1中的數(shù)列的最大值和最小值差是56-3=53,53位這個(gè)屬性值上的極差。極差能體現(xiàn)一組數(shù)據(jù)波動(dòng)的范圍。極差越大,離散程度越大;但是極差未能利用全部測(cè)量值的信息,不能細(xì)致地反映測(cè)量值彼此相符合的程度,易受極端值的影響。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析2.四分位極差(IQR)前面學(xué)習(xí)過(guò)的50百分位數(shù)(即中位數(shù))是指用中位數(shù)把數(shù)據(jù)分布分成了高低兩半。這里的四分位數(shù)指的是有三個(gè)分位點(diǎn)把數(shù)據(jù)分布分成了四個(gè)相等的部分。這三個(gè)分位點(diǎn)是:第一個(gè)分位點(diǎn)是25百分位數(shù),記作Q1;第二個(gè)分位點(diǎn)是50百分位數(shù),記作Q2;第三個(gè)分位點(diǎn)是75百分位數(shù),記作Q3。四分位極差記作IQR,IQR=Q3-Q1。經(jīng)驗(yàn)公式:超過(guò)Q3+1.5×IQR或者低于Q1-1.5×IQR的數(shù)據(jù),可能是離群點(diǎn)。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析2.四分位極差(IQR)【例2-2】例2-1中的15個(gè)數(shù):3,5,7,12,13,14,21,23,23,23,23,29,39,40,56。求出IQR。25百分位位置是4,25百分位數(shù)Q1=1275百分位位置是12,75百分位數(shù)Q3=29則IQR=29-12=17。根據(jù)經(jīng)驗(yàn)公式計(jì)算可得離群點(diǎn)是56。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析3.五數(shù)概括與箱圖因?yàn)镼1、Q2(Median)和Q3并不包含數(shù)據(jù)序列的兩個(gè)端點(diǎn)信息,因此,為了數(shù)據(jù)分布形狀更完整的概括可以同時(shí)給出兩個(gè)端點(diǎn)信息,也就是最小值(Minimum)和最大值(Maximum),稱為五數(shù)概括。分布的五數(shù)概括包括:內(nèi)限內(nèi)最小值、Q1、中位數(shù)、Q3和內(nèi)限內(nèi)最大值。一般在五數(shù)箱圖中內(nèi)限內(nèi)最小值是不小于Q1-1.5×IQR的最小值,內(nèi)限內(nèi)最大值是不大于Q3+1.5×IRQ的最大值。在內(nèi)限內(nèi)最小值到內(nèi)限內(nèi)最大值范圍以外的數(shù)據(jù)稱為離群點(diǎn)數(shù)據(jù)。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析3.五數(shù)概括與箱圖【例2-3】示例2-1中的15個(gè)數(shù):3,5,7,12,13,14,21,23,23,23,23,29,39,40,56。使用箱圖來(lái)直觀展示五數(shù)概括,如下圖2-2所示:此例中內(nèi)限內(nèi)最大值是40,內(nèi)限內(nèi)最小值是3,離群點(diǎn)是56。2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析4.方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差都是數(shù)據(jù)散布度量,它們指出數(shù)據(jù)分布的散布程度。方差σ2的計(jì)算機(jī)公式:2.2.2描述數(shù)據(jù)離散程度的度量2.2數(shù)據(jù)特征分析4.方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差都是數(shù)據(jù)散布度量,它們指出數(shù)據(jù)分布的散布程度。方差σ2的計(jì)算機(jī)公式:2.2.2描述數(shù)據(jù)離散程度的度量標(biāo)準(zhǔn)差σ是σ2的開(kāi)方。方差大表示觀測(cè)的數(shù)據(jù)兩極分化大,方差小表示觀測(cè)的數(shù)據(jù)比較靠近均值。例如,兩個(gè)班級(jí)中,A班級(jí)的成績(jī)方差大,B班級(jí)方差小,則A班級(jí)學(xué)生學(xué)習(xí)成績(jī)比較離散,適于分層教學(xué);B班級(jí)成績(jī)比較集中,不適于分層教學(xué)。2.2數(shù)據(jù)特征分析5.離散系數(shù)離散系數(shù)又稱變異系數(shù),是統(tǒng)計(jì)學(xué)當(dāng)中的指標(biāo)。離散系數(shù)是度量數(shù)據(jù)離散程度的相對(duì)統(tǒng)計(jì)量,主要是用于比較不同樣本數(shù)據(jù)的離散程度。當(dāng)進(jìn)行兩個(gè)或多個(gè)數(shù)據(jù)集合離散程度的比較時(shí),均值相當(dāng)?shù)那闆r下,可以用標(biāo)準(zhǔn)差來(lái)判斷離散程度;但是均值相差很大的情況下,用離散系數(shù)判斷離散程度。離散系數(shù)用符號(hào)表示,計(jì)算公式如下:2.2.2描述數(shù)據(jù)離散程度的度量

σ是樣本標(biāo)準(zhǔn)差,是樣本的平均值。離散系數(shù)大,說(shuō)明數(shù)據(jù)的離散程度也大;離散系數(shù)小,說(shuō)明數(shù)據(jù)的離散程度也小。2.2數(shù)據(jù)特征分析5.離散系數(shù)【例2-4】甲乙兩個(gè)運(yùn)動(dòng)員都是中等水平,各連續(xù)打靶8次,請(qǐng)問(wèn)那個(gè)運(yùn)動(dòng)員發(fā)揮穩(wěn)定?甲運(yùn)動(dòng)員:[8,9,8,9,9,8,10,10]乙運(yùn)動(dòng)員:[10,6,8,10,8,9,9,10]通過(guò)計(jì)算,得到了甲、乙運(yùn)動(dòng)員的平均值、標(biāo)準(zhǔn)差和離散系數(shù)如下表2-2:表2-2標(biāo)準(zhǔn)差和離散系數(shù)表2.2.2描述數(shù)據(jù)離散程度的度量名稱甲乙平均值8.8758.75標(biāo)準(zhǔn)差0.781.30離散系數(shù)0.0880.1482.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)對(duì)于離散數(shù)據(jù),我們可以使用卡方檢驗(yàn)來(lái)做類似計(jì)算。假設(shè)兩個(gè)屬性分別為A和B,卡方檢驗(yàn)用符號(hào)表示,計(jì)算公式如下:上述公式中,Oij表示A和B屬性的配對(duì)值(Ai,Bj)的實(shí)際觀測(cè)值;Eij表示A和B屬性的配對(duì)值(Ai,Bj)的理論推算值,卡方檢驗(yàn)就是說(shuō)明了理論值和實(shí)際觀測(cè)值的偏差程度:卡方值越大,偏差越大;卡方值越小,偏差越?。豢ǚ街禐?,則理論值和實(shí)際值完全符合。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)【例2-6】我們要觀察性別和網(wǎng)上購(gòu)物有沒(méi)有關(guān)系。通過(guò)對(duì)987名顧客的調(diào)查,結(jié)果如下表2-4所示。那么,怎么判斷買(mǎi)不買(mǎi)生鮮跟性別有沒(méi)有關(guān)聯(lián)呢?2.2.3數(shù)據(jù)相關(guān)性分析

男女總計(jì)線上不買(mǎi)生鮮434102536線上買(mǎi)生鮮206245451總計(jì)6403479872.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)上表中數(shù)據(jù)是實(shí)際觀察值,通過(guò)這個(gè)值,我們發(fā)現(xiàn)的人不在線上買(mǎi)生鮮,的人會(huì)在線上買(mǎi)生鮮,按照這個(gè)比例,我們可以算出(男,線上不買(mǎi)生鮮)的理論值是,依次算出(男,線上買(mǎi)生鮮)、(女,線上不買(mǎi)生鮮)、(女,線上買(mǎi)生鮮)的理論值,我們還可以得到理論值如下表2-5所示。2.2.3數(shù)據(jù)相關(guān)性分析

男女總計(jì)線上不買(mǎi)生鮮348188536線上買(mǎi)生鮮292159451總計(jì)6403479872.2數(shù)據(jù)特征分析1.標(biāo)稱數(shù)據(jù)的卡方檢驗(yàn)判斷線上買(mǎi)不買(mǎi)生鮮跟性別相關(guān)性步驟如下:(1)求出卡方值根據(jù)前面得到的實(shí)際觀察值和理論值,可得:

=(434-348)2/348+(102-188)2/188+(206-292)2/292+(245-159)2/159=132.46(2)求自由度(行數(shù)-1)*(列數(shù)-1)=(2-1)*(2-1)=1(3)置信度此例確定為90%,查找卡方分布表獲得置信度為90%的卡方值是2.706因?yàn)?32.46遠(yuǎn)遠(yuǎn)大于2.706,因此,性別和線上購(gòu)買(mǎi)生鮮兩者之間是強(qiáng)關(guān)聯(lián)性。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析2.數(shù)值數(shù)據(jù)的協(xié)方差公式中,X和Y為兩個(gè)不同的屬性集,Xi和Yi分別是X和Y屬性對(duì)應(yīng)的屬性值,和分別是X和Y屬性值的平均值。假設(shè)協(xié)方差結(jié)果為C,C的取值范圍:–1≤C≤1。若>0,表明屬性X和屬性Y之間存在正線性相關(guān)關(guān)系,數(shù)據(jù)變化是同向的;若<0,表明屬性X和屬性Y之間存在負(fù)線性相關(guān)關(guān)系,數(shù)據(jù)變化是負(fù)向的;若=0,說(shuō)明二者之間不存在線性相關(guān)關(guān)系,但并不排除存在非線性相關(guān)性。因此,協(xié)方差的正負(fù)代表了兩個(gè)屬性之間相關(guān)性的方向,而協(xié)方差的絕對(duì)值代表了它們相互關(guān)系的強(qiáng)弱。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析2.數(shù)值數(shù)據(jù)的協(xié)方差【例2-7】下圖2-3是某種商品銷售受溫度影響的數(shù)據(jù)散點(diǎn)圖。圖2-3中左圖是正相關(guān),(銷售量,溫度)協(xié)方差是大于0的,說(shuō)明這兩個(gè)屬性是正相關(guān)的。但是圖2-3右圖得到的(銷售量,溫度)協(xié)方差是等于0的,按照協(xié)方差規(guī)律,這個(gè)兩屬性是不相關(guān)的。顯然根據(jù)數(shù)據(jù)分布情況,這兩個(gè)屬性是相關(guān)的,先是正相關(guān),超過(guò)一定溫度的時(shí)候呈現(xiàn)負(fù)相關(guān)性,所以右圖顯示的兩個(gè)屬性之間是存在非線性相關(guān)性的,此時(shí),用協(xié)方差結(jié)果來(lái)評(píng)判是不客觀的。所以,協(xié)方差只是針對(duì)線性相關(guān)有效,當(dāng)協(xié)方差為0的時(shí)候有可能也存在非線性相關(guān)。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析3.數(shù)值數(shù)據(jù)的相關(guān)系數(shù)協(xié)方差的大小與屬性的取值范圍以及量綱都有關(guān)系,造成不同的屬性對(duì)之間的協(xié)方差難以進(jìn)行橫向比較。為了解決這個(gè)問(wèn)題,把協(xié)方差歸一化,就得到樣本相關(guān)系數(shù)用r表示,計(jì)算如公式2.6所示:如果取值在-1與1之間,且如果>0,表示它們正相關(guān),值越大相關(guān)性越大。相反,如果<0,表示負(fù)相關(guān)。2.2.3數(shù)據(jù)相關(guān)性分析2.2數(shù)據(jù)特征分析3.數(shù)值數(shù)據(jù)的相關(guān)系數(shù)【例2-8】冰激凌銷售和溫度的統(tǒng)計(jì)數(shù)據(jù)如表所示,右邊是數(shù)據(jù)分布散點(diǎn)圖,用python程序計(jì)算銷售和溫度兩個(gè)屬性的協(xié)方差和相關(guān)系數(shù)。2.2.3數(shù)據(jù)相關(guān)性分析第二章數(shù)據(jù)預(yù)處理與相似性2.2

數(shù)據(jù)特征分析3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性of4374高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用2.3數(shù)據(jù)預(yù)處理2.1

數(shù)據(jù)類型習(xí)題2.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的過(guò)程2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗數(shù)據(jù)清洗(Datacleaning)缺失值填充:Fillinginmissingvalues平滑噪聲:Smoothingnoisydata識(shí)別和去除離群點(diǎn):Identifyingorremovingoutliers,解決不一致性:Resolvinginconsistencies2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗1.處理缺失值(1)忽略元組(2)數(shù)據(jù)補(bǔ)齊:人工填寫(xiě)、特殊值填充、平均值填充、使用最有可能的值填充。(3)不處理:有很多數(shù)據(jù)挖掘方法在屬性值缺失方面具有良好的魯棒性,直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘。這類方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗2.平滑噪聲主要使用的技術(shù)有回歸、分箱、離群點(diǎn)分析。現(xiàn)在主要介紹分箱方法。分箱(binning):是將屬性的值域劃分成若干個(gè)連續(xù)子區(qū)間。分箱的方法:有4種:等深分箱法、等寬分箱法、最小熵法和用戶自定義區(qū)間法。等深分箱法:將數(shù)據(jù)集按記錄行數(shù)分箱,每箱具有相同的記錄數(shù),每箱記錄數(shù)稱為箱子的深度。等寬分箱法:使數(shù)據(jù)集在整個(gè)屬性值的區(qū)間上平均分布,即每個(gè)箱的區(qū)間范圍是一個(gè)常量,稱為箱子寬度。最小熵法:在分箱時(shí)考慮因變量的取值,使得分享后箱內(nèi)達(dá)到最小熵。用戶自定義區(qū)間,用戶可以根據(jù)需要自定義區(qū)間,當(dāng)用戶明確希望觀察某些區(qū)間范圍內(nèi)的數(shù)據(jù)分布時(shí),使用這種方法可以方便地幫助用戶達(dá)到目的。2.3數(shù)據(jù)預(yù)處理2.3.1數(shù)據(jù)清洗2.平滑噪聲將數(shù)據(jù)分箱后,對(duì)每個(gè)分箱中的數(shù)據(jù)進(jìn)行局部平滑,常用的方式有下面三種:

按平均值平滑對(duì)同一箱值中的數(shù)據(jù)求平均值,用平均值替代該箱子中的所有數(shù)據(jù)。

按邊界值平滑用距離較小的邊界值替代箱中每一數(shù)據(jù)。

按中值平滑取箱子的中值,用來(lái)替代箱子中的所有數(shù)據(jù)。2.3數(shù)據(jù)預(yù)處理2.3.2數(shù)據(jù)集成數(shù)據(jù)集成就是將若干個(gè)分散的數(shù)據(jù)源中的數(shù)據(jù),邏輯地或物理地集成到一個(gè)統(tǒng)一的數(shù)據(jù)集合中。這些數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和一般文件。數(shù)據(jù)集成的核心任務(wù)是要將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明的方式訪問(wèn)這些數(shù)據(jù)源。數(shù)據(jù)集成中經(jīng)常會(huì)遇到以下問(wèn)題:1.實(shí)體識(shí)別問(wèn)題2.屬性冗余問(wèn)題3.數(shù)據(jù)值沖突問(wèn)題2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化數(shù)據(jù)規(guī)范化主要包括數(shù)據(jù)同趨化處理和無(wú)量綱化處理兩個(gè)方面,可以使屬性值按比例落入到一個(gè)特定區(qū)間,如[-1,1]或[0,1]。數(shù)據(jù)規(guī)范化一方面可以簡(jiǎn)化計(jì)算,提升模型的收斂速度;另一方面,在涉及到一些距離計(jì)算的算法時(shí)防止較大初始值域的屬性與具有較小初始值域的屬性相比權(quán)重過(guò)大,可以有效提高結(jié)果精度。介紹三種規(guī)范化方法。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化也稱離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,假定min,max分別為屬性A的最小值和最大值。轉(zhuǎn)換函數(shù)如下:

將轉(zhuǎn)換到區(qū)間[new_min?〖,new_max〗]中,結(jié)果為。這種方法有一個(gè)缺陷就是當(dāng)有新的數(shù)據(jù)加入時(shí),可能導(dǎo)致max,min值的變化,需要重新定義。另外,如果要做0-1規(guī)范化,上述式子可以簡(jiǎn)化為:2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化

【例2-11】下表2-8中是某部分同學(xué)數(shù)學(xué)和語(yǔ)文成績(jī)的成績(jī),數(shù)據(jù)是百分制,語(yǔ)文是150分制,兩組數(shù)據(jù)不在同一個(gè)量綱,對(duì)其進(jìn)行最小-最大規(guī)范。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化1.最小-最大規(guī)范化

【例2-11】下表2-8中是某部分同學(xué)數(shù)學(xué)和語(yǔ)文成績(jī)的成績(jī),數(shù)據(jù)是百分制,語(yǔ)文是150分制,兩組數(shù)據(jù)不在同一個(gè)量綱,對(duì)其進(jìn)行最小-最大規(guī)范。結(jié)果分析:以姓名為胡建的學(xué)生為例,他的(數(shù)學(xué),語(yǔ)文)成績(jī)是(80,80),由于分制不同,所以直接比較是不正確的,經(jīng)過(guò)最小-最大規(guī)范后可以得出(數(shù)學(xué),語(yǔ)文)成績(jī)是(0.57142857,0),這樣就可以比較出該同學(xué)的數(shù)學(xué)成績(jī)要比語(yǔ)文成績(jī)好。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化2.z-score規(guī)范化也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)為如如公式2.9所示,其中表示屬性的均值,為標(biāo)準(zhǔn)差。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化3.按小數(shù)定標(biāo)規(guī)范化通過(guò)移動(dòng)數(shù)據(jù)的小數(shù)點(diǎn)位置來(lái)進(jìn)行標(biāo)準(zhǔn)化。小數(shù)點(diǎn)的移動(dòng)位數(shù)取決于屬性的最大絕對(duì)值。規(guī)范后的值計(jì)算方法:其中j是使的最小整數(shù)。例如,,取j=3,-84規(guī)范化后值為-0.084,231規(guī)范化后為0.231。需要注意的是,z-score規(guī)范化和按小數(shù)定標(biāo)規(guī)范化在計(jì)算過(guò)程中有參數(shù)值,需要保存起來(lái),為后續(xù)的數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化使用。2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化3.按小數(shù)定標(biāo)規(guī)范化【例2-13】對(duì)于樣本數(shù)據(jù)(0,-3,1)(3,1,2)(0,1,-1),通過(guò)按小數(shù)定標(biāo)規(guī)范化實(shí)現(xiàn)標(biāo)準(zhǔn)化的程序如下:運(yùn)行結(jié)果:[[0.-0.30.1][0.30.10.2][0.0.1-0.1]]2.3數(shù)據(jù)預(yù)處理2.3.3數(shù)據(jù)規(guī)范化4.獨(dú)熱編碼處理標(biāo)稱屬性數(shù)據(jù)獨(dú)熱編碼(OneHotEncoding)將每個(gè)標(biāo)稱屬性進(jìn)行擴(kuò)充,在上面的例子中,可以擴(kuò)充為如下表2-9。左圖進(jìn)行獨(dú)熱編碼后如右表所示。編號(hào)血型1123324153編號(hào)A型B型O型AB型1100020010301004100050010這樣做的好處是任何兩個(gè)血型之間的差異是相同的,比如編號(hào)1和編號(hào)3的人的血型差異是(歐式距離),可以看到任意兩個(gè)人之間的血型差異都是,這和數(shù)值本身的實(shí)際意義是相符合的。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約(datareduction)技術(shù)是指在盡可能的保持原始數(shù)據(jù)集完整性的前堤下,最大限度地精簡(jiǎn)數(shù)據(jù)量。數(shù)據(jù)歸約技術(shù)可以用來(lái)得到數(shù)據(jù)集的歸約表示,它雖然小,但仍大致保持原數(shù)據(jù)的完整性。這樣,在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行Вa(chǎn)生相同(或幾乎相同)的分析結(jié)果。數(shù)據(jù)規(guī)約的策略主要包括維規(guī)約和數(shù)量規(guī)約。維規(guī)約減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù),主要方法有小波變換、主成分分析和屬性子集選擇,通過(guò)這些方法可以把原始數(shù)據(jù)變換或投影到較小的空間,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測(cè)或刪除。數(shù)量規(guī)約是用替代的、較小的數(shù)據(jù)表示形式換原始數(shù)據(jù)。這些技術(shù)可以是參數(shù)或者非參數(shù)的。對(duì)于參數(shù)方法而言,使用模型估計(jì)數(shù)據(jù),使得一般只需要存放模型參數(shù)而不是實(shí)際數(shù)據(jù)(離群點(diǎn)需存放)。非參數(shù)方法包括:直方圖、聚類、抽樣和數(shù)據(jù)立方體聚類。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約1.主成分分析主成分分析(principalcomponentanalysis,PCA)是一種廣泛用于不同領(lǐng)域的無(wú)監(jiān)督線性數(shù)據(jù)轉(zhuǎn)換技術(shù)。PCA的目標(biāo)是在高維數(shù)據(jù)中找到最大方差的方向,并將數(shù)據(jù)映射到一個(gè)維度小得多的新子空間上。借助于正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量。2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約1.主成分分析PCA的基本過(guò)程:(1)首先對(duì)所有屬性數(shù)據(jù)規(guī)范化,每個(gè)屬性都落入相同的區(qū)間,消去量綱對(duì)算法的影響。(2)計(jì)算樣本數(shù)據(jù)的協(xié)方差矩陣(3)求出協(xié)方差矩陣的的特征值及相應(yīng)正交化單位特征向量。前m個(gè)較大的特征值就是前m個(gè)主成分對(duì)應(yīng)的方差。主成分的方差貢獻(xiàn)優(yōu)選法反映信息量的大小。(4)通過(guò)計(jì)算累計(jì)貢獻(xiàn)率來(lái)選擇主成分。主成分向量構(gòu)成了一組正交基,輸入數(shù)據(jù)可以由它們線性組成表示。(5)對(duì)主成分按重要性排序。主成分是新空間下的坐標(biāo)軸,提供了關(guān)于方差的重要信息。(6)選擇重要性最高的若干個(gè)主成分,同時(shí)將剩下的較弱主成分舍棄,這樣就完成了約簡(jiǎn)數(shù)據(jù)的規(guī)模。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約2.屬性子集選擇屬性子集選擇的基本啟發(fā)式方法包括以下技術(shù):(1)逐步向前選擇:該過(guò)程由空屬性集作為歸約集開(kāi)始,確定原屬性集中最好的屬性,并將它添加到歸約集中。在其后的每一次迭代,將剩下的原屬性集中的最好的屬性添加到該集合中。(2)逐步向后刪除:該過(guò)程由整個(gè)屬性集開(kāi)始。在每一步中,刪除尚在屬性集中最差的屬性。(3)逐步向前選擇和逐步向后刪除的組合:可以將逐步向前選擇和逐步向后刪除方法結(jié)合在一起,每一步選擇一個(gè)最好的屬性,并在剩余屬性中刪除一個(gè)最差的屬性。(4)決策樹(shù)歸納:決策樹(shù)算法(在后面第三章介紹)最初是用于分類的。決策樹(shù)歸納構(gòu)造一個(gè)類似于流程圖的結(jié)構(gòu),其中每個(gè)內(nèi)部(非樹(shù)葉)結(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分枝對(duì)應(yīng)于測(cè)試的一個(gè)結(jié)果;每個(gè)外部(樹(shù)葉)結(jié)點(diǎn)表示一個(gè)類預(yù)測(cè)。在每個(gè)結(jié)點(diǎn)上,算法選擇“最好”的屬性,將數(shù)據(jù)劃分成類。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖直方圖使用分箱近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集或桶。桶安放在水平軸上,而桶的高度(和面積)是該桶所代表的值的平均頻率。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則該桶稱為單值桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖【例2-16】我們得到一個(gè)商店每日利潤(rùn)數(shù)據(jù):390、100、350、380、160、350、400、340、430、150、380、390、400、440、600、230、440首先,以50為區(qū)間統(tǒng)計(jì)利潤(rùn)的直方圖如下圖2-12所示。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約3.直方圖【例2-16】我們得到一個(gè)商店每日利潤(rùn)數(shù)據(jù):390、100、350、380、160、350、400、340、430、150、380、390、400、440、600、230、440其次,我們以100為區(qū)間統(tǒng)計(jì)利潤(rùn)的直方圖如下所示。以50劃分區(qū)間得到的13個(gè)桶的數(shù)據(jù),以100為區(qū)間得到的7個(gè)桶的數(shù)據(jù)。利用直方圖壓縮了數(shù)據(jù),而得到結(jié)論仍然是商店每日利潤(rùn)集中300-400這個(gè)區(qū)間。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約4.聚類把數(shù)據(jù)元組看作對(duì)象。它將對(duì)象劃分為群或簇,使得一個(gè)簇中的對(duì)象相互“相似”,而與其他簇中的對(duì)象“相異”。通常,相似性基于距離函數(shù),形心距離是另一種度量。聚類方法在后面第五章有詳細(xì)介紹。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.4數(shù)據(jù)規(guī)約5.抽樣很多應(yīng)用領(lǐng)域的數(shù)據(jù)也不能完全存儲(chǔ),或者分析的時(shí)候是以動(dòng)態(tài)的流式數(shù)據(jù)形式存在,在很多情況下,數(shù)據(jù)抽樣是數(shù)量規(guī)約的一種常見(jiàn)方法。常見(jiàn)的抽樣有簡(jiǎn)單抽樣(包含不放回簡(jiǎn)單隨機(jī)抽樣和有放回簡(jiǎn)單隨機(jī)抽樣)、簇抽樣、分層抽樣。采用抽樣進(jìn)行數(shù)據(jù)歸約的優(yōu)點(diǎn)是,得到樣本的花費(fèi)正比例于樣本集的大小s,而不是數(shù)據(jù)集的大小N。因此,抽樣的復(fù)雜度可能亞線性(sublinear)于數(shù)據(jù)的大小。其它數(shù)據(jù)歸約技術(shù)至少需要完全掃描D。對(duì)于固定的樣本大小,抽樣的復(fù)雜度僅隨數(shù)據(jù)的維數(shù)n線性地增加;而其它技術(shù),如使用直方圖,復(fù)雜度隨d呈指數(shù)增長(zhǎng)。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化數(shù)據(jù)離散化是指將連續(xù)的數(shù)據(jù)進(jìn)行分段,使其變?yōu)橐欢味坞x散化的區(qū)間。連續(xù)屬性離散化的問(wèn)題本質(zhì)是:決定選擇多少個(gè)分割點(diǎn)和確定分割點(diǎn)位置。任務(wù)可分為兩個(gè)步驟完成。首先將連續(xù)屬性排序并通過(guò)指定n-1個(gè)分割點(diǎn)把它們分成n個(gè)區(qū)間。然后,將一個(gè)區(qū)間中的所有值映射到相同的分類值。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化1.數(shù)據(jù)離散化的原因(1)算法需要像決策樹(shù),NaiveBayes算法,都是基于離散型的數(shù)據(jù)展開(kāi)的。如果要使用該類算法,必須將連續(xù)型數(shù)據(jù)處理成離散型的數(shù)據(jù)。(2)數(shù)據(jù)離散化更方便對(duì)連續(xù)型數(shù)據(jù)的理解例如,某個(gè)問(wèn)題中的年齡屬性可以按照如下辦法離散化:[0-11]→兒童,[12-17]→青少年,[18-44]→青年,[45-69]→中年,[69-∞]→老年。這樣,可以更加方便對(duì)于年齡屬性的理解。(3)可以有效的克服數(shù)據(jù)中隱藏的缺陷,使模型結(jié)果更加穩(wěn)定。比如如果對(duì)用戶年齡離散化,[18-44]作為一個(gè)區(qū)間,不會(huì)因?yàn)橐粋€(gè)用戶年齡長(zhǎng)了一歲就變成一個(gè)完全不同的人。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法數(shù)據(jù)離散化的方法有多種類型,通??梢苑譃闊o(wú)監(jiān)督離散化和有監(jiān)督離散化。在離散化過(guò)種中使用類信息的方法是監(jiān)督的,而不使用類信息的方法是無(wú)監(jiān)督的。無(wú)監(jiān)督離散化方法中最簡(jiǎn)單的方法是等寬分箱法和等深分箱法(分箱法見(jiàn)本章2.3.1節(jié))。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法等寬分箱法將排好序的數(shù)據(jù)從最小值到最大值均勻劃分成n等份,每份的間距是相等的。假設(shè)A和B分別是屬性值的最小值和最大值,那么劃分間距為W=(B-A)/n,每個(gè)類別的劃分邊界將為A+W,A+2W,A+3W,…A+(n-1)W。這種方法的缺點(diǎn)對(duì)異常點(diǎn)比較敏感,傾向于不均勻地把實(shí)例分布到各個(gè)箱中。等深分箱法將數(shù)據(jù)總記錄數(shù)均勻分為n等分,每份包含的數(shù)據(jù)個(gè)數(shù)相同。如果n=10,那么每一份中將包含大約10%的數(shù)據(jù)對(duì)象。這兩種方法都需要人工確定劃分區(qū)間的個(gè)數(shù)。等頻法可能將具有不相同類標(biāo)號(hào)的相同屬性值分入不同的箱中以滿足箱中數(shù)據(jù)的固定個(gè)數(shù)的條件。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge是一種監(jiān)督的、基于χ2檢驗(yàn)(卡方檢驗(yàn)見(jiàn)2.3.3)的數(shù)據(jù)離散化方法。其基本思想:對(duì)于精確的離散化,相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)完全一致。因此,如果兩個(gè)相鄰的區(qū)間具有非常類似的類分布,則這兩個(gè)區(qū)間可以合并;否則,它們應(yīng)當(dāng)保持分開(kāi)。而低χ2值表明它們具有相似的類分布。ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個(gè)部分:第一步:初始化根據(jù)連續(xù)變量的值的大小排序,進(jìn)行初始的離散處理。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個(gè)部分:第二步:合并箱子合并過(guò)程分為兩個(gè)步驟,連續(xù)重復(fù)進(jìn)行:(1)對(duì)每對(duì)相鄰的區(qū)間進(jìn)行檢驗(yàn)。(2)將最小值的相鄰區(qū)間合并成一個(gè)區(qū)間。(根據(jù)卡方檢驗(yàn)原理可知卡方值越低,表明兩個(gè)類別越獨(dú)立,相互影響的程度越??;或者另一種理解是兩箱分布相似,可以進(jìn)行合并。)重復(fù)執(zhí)行檢驗(yàn)并且至底向上合并區(qū)間直到達(dá)到設(shè)定的閾值。2.3數(shù)據(jù)預(yù)處理2.3數(shù)據(jù)預(yù)處理2.3.5數(shù)據(jù)離散化2.數(shù)據(jù)離散化的方法ChiMerge算法離散化數(shù)據(jù)操作流程包含兩個(gè)部分:合并停止條件:直到所有相鄰箱子的值大于等于設(shè)置的閾值。(根據(jù)自由度和顯著性水平選取合適的值閾值;自由度則是根據(jù)數(shù)據(jù)能夠確定的為(R-1)*(C-1),因?yàn)槎际怯?jì)算相鄰兩箱的,故R=2;C也可根據(jù)數(shù)據(jù)情況確定。顯著性水平推薦選擇0.1,0.05,0.01。)或者,箱子數(shù)量達(dá)到預(yù)先設(shè)置的數(shù)量。2.3數(shù)據(jù)預(yù)處理第二章數(shù)據(jù)預(yù)處理與相似性of43105高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用2.2

數(shù)據(jù)特征分析2.3

數(shù)據(jù)預(yù)處理2.1

數(shù)據(jù)類型2.4數(shù)據(jù)的相似性習(xí)題2.4數(shù)據(jù)的相似性數(shù)據(jù)挖掘任務(wù)需要計(jì)算數(shù)據(jù)對(duì)象之間的相似性或相異性,如聚類、最近鄰分類、異常檢測(cè)等。相似度指兩個(gè)對(duì)象相似程度的數(shù)據(jù)度量。相異度指兩個(gè)對(duì)象差異程度的數(shù)值度量,距離可以作為相異度的同義詞,兩個(gè)數(shù)據(jù)所在的空間距離越大表示數(shù)據(jù)越相異,。相似性和相異性計(jì)算方法是一致的,通常是用兩個(gè)對(duì)象之間的一個(gè)或多個(gè)屬性距離來(lái)表示。數(shù)據(jù)對(duì)象之間的鄰近度計(jì)算與數(shù)據(jù)對(duì)象屬性類型密切相關(guān)。掌握簡(jiǎn)單屬性之間的鄰近度是計(jì)算復(fù)雜對(duì)象之間鄰近度的基礎(chǔ)。本節(jié)分別以標(biāo)稱和數(shù)值類型屬性介紹鄰近性度量方法。2.4數(shù)據(jù)的相似性假設(shè)每個(gè)對(duì)象有m個(gè)屬性,可以把一個(gè)對(duì)象視為m維空間的一個(gè)點(diǎn),n個(gè)對(duì)象就是m維空間中的n個(gè)點(diǎn)。從直觀上看,屬于同一類的對(duì)象在空間中應(yīng)該互相靠近,而不同類的對(duì)象之間的距離要大得多,因此可用距離來(lái)衡量對(duì)象之間的相似程度。距離越小,對(duì)象間的相似性就越大。常用的距離形式有:曼哈頓距離、歐幾里得距離、切比雪夫距離、閔可夫斯基距離、杰卡德距離等。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性1.曼哈頓距離(ManhattanDistance)曼哈頓距離之所以稱為“曼哈頓距離”,是因?yàn)檫@里在兩個(gè)點(diǎn)之間行進(jìn)時(shí)必須要沿著網(wǎng)格線前進(jìn),就如同沿著城市(如曼哈頓)的街道行進(jìn)一樣。對(duì)于一個(gè)具有正南正北、正東正西方向規(guī)則布局的城市街道,從一點(diǎn)到達(dá)另一點(diǎn)的距離正是在南北方向上旅行的距離加上在東西方向上旅行的距離,是將多個(gè)維度上的距離進(jìn)行求和的結(jié)果。其距離公式:2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性2.歐幾里得距離(EuclideanDistance)歐幾里得距離,也稱歐氏距離是最為熟知的距離測(cè)度,也就是我們常說(shuō)的“距離”。在m維歐氏空間中,每個(gè)點(diǎn)是一個(gè)m維實(shí)數(shù)向量,該空間中的傳統(tǒng)距離測(cè)度為L(zhǎng)2范式定義如下:也就是說(shuō),首先計(jì)算每一維上的距離,然后求它們的平方和,最后求算術(shù)平方根。另一個(gè)有趣的距離測(cè)度是L范式,也就是當(dāng)r趨向無(wú)窮大時(shí)Lr范式的極限值。當(dāng)r增大時(shí),只有那個(gè)具有最大距離的維度才真正其作用,因此,通常L范式定義為在所有維度下中的最大值。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性3.切比雪夫距離(Chebyshev)以數(shù)學(xué)的觀點(diǎn)來(lái)看,切比雪夫距離是由一致范數(shù)(uniformnorm)(或稱為上確界范數(shù))所衍生的度量,也是超凸度量(injectivemetricspace)的一種。它產(chǎn)生兩個(gè)數(shù)據(jù)對(duì)象的最大屬性值差。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性4.閔可夫斯基距離(MinkowskiDistance)閔可夫斯基距離又稱閔氏距離,是歐幾里得距離、曼哈頓距離和切比雪夫距離的推廣。閔氏距離對(duì)應(yīng)Lp范數(shù),其中p是一個(gè)變參數(shù),根據(jù)參數(shù)的不同閔氏距離可以表示一類的距離。當(dāng)p=1時(shí),就是曼哈頓距離;當(dāng)p=2時(shí),就是歐氏距離;當(dāng)p→∞時(shí),就是切比雪夫距離。2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性5.杰卡德距離杰卡德距離(JaccardDistance)用于衡量?jī)蓚€(gè)集合的差異性,它是杰卡德相似度的補(bǔ)集,被定義為1減去Jaccard相似度。Jaccard相似度用來(lái)度量?jī)蓚€(gè)集合之間的相似性,它被定義為兩個(gè)集合交集的元素個(gè)數(shù)除以并集的元素個(gè)數(shù),即集合A和B的相似度為:2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性5.杰卡德距離多維二元數(shù)據(jù),其某位數(shù)據(jù)為1表示元素集合中的某個(gè)元素出現(xiàn),為0表示不出現(xiàn)。例如,超市的一張交易清單中的1或0來(lái)表示是否包含某件商品,一篇文章中用0或1來(lái)表示詞語(yǔ)是否出現(xiàn)。多維二元數(shù)據(jù)情況下,集合A、B的相似度可以進(jìn)一步寫(xiě)成:2.4.1數(shù)值屬性的相似性度量2.4數(shù)據(jù)的相似性數(shù)值數(shù)據(jù)是有大小順序的,距離公式非常適合計(jì)算不同維度的數(shù)值數(shù)據(jù)的鄰近度。但是,離散的標(biāo)稱屬性數(shù)據(jù)間并不存在大小順序關(guān)系,不能直接距離來(lái)計(jì)算相似度或相異度。標(biāo)稱屬性取值是代表事物狀態(tài)的若干值,只包含了相異性信息。標(biāo)稱類型可以通過(guò)編碼方案轉(zhuǎn)換成二元數(shù)據(jù)類型,然后使用數(shù)值計(jì)算方法來(lái)計(jì)算鄰近度。如果一個(gè)標(biāo)稱類型數(shù)據(jù)有M個(gè)不同的狀態(tài)值,那么將該標(biāo)稱數(shù)據(jù)轉(zhuǎn)換成M個(gè)二元屬性值,每一個(gè)標(biāo)稱狀態(tài)值對(duì)應(yīng)一個(gè)二元屬性,這些二元屬性中有一個(gè)值為1,剩余的全為0。這樣標(biāo)稱屬性相似度計(jì)算就可可通過(guò)編碼方式轉(zhuǎn)化為多個(gè)二元屬性的相似度計(jì)算。2.4.2標(biāo)稱屬性的相似性度量2.4數(shù)據(jù)的相似性一般地,二元屬性相似度,可以通過(guò)對(duì)屬性匹配值求和來(lái)計(jì)算。即首先分別求解對(duì)應(yīng)單個(gè)屬性間的相似度,然后對(duì)所有相似度數(shù)值進(jìn)行直接累加:中,d代表對(duì)象的屬性總數(shù)。更為直接的理解,相似度可用“取值相同的同位屬性數(shù)/屬性總位數(shù)”標(biāo)識(shí)對(duì)于包含多個(gè)二元屬性的數(shù)據(jù)對(duì)象相似度計(jì)算。設(shè)有={1,0,0,1,0,0,1,0,1,1},={0,0,0,1,0,1,1,1,1,1},兩個(gè)對(duì)象共有7個(gè)屬性取值相同,3個(gè)取值不同,那么相似度可以標(biāo)識(shí)為3/10=0.3。2.4.2標(biāo)稱屬性的相似性度量2.4數(shù)據(jù)的相似性1.距離度量的標(biāo)準(zhǔn)化和相關(guān)性當(dāng)數(shù)據(jù)對(duì)象屬性具有不同的域值時(shí),即屬性變量的大小變化范圍不同,量綱不同,測(cè)量單位不同。如果不對(duì)屬性值進(jìn)行標(biāo)準(zhǔn)化處理,那么在使用歐幾里得距離計(jì)算相似度,將會(huì)受到屬性值大的屬性影響。例如第一個(gè)變量的數(shù)量級(jí)是1000,而第二個(gè)變量的數(shù)量級(jí)是10,如v1=(2000,20),v2=(5000,60),那么如果只有2維的點(diǎn)中,歐氏距離為2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性2.組合異種屬性的相似度異種對(duì)象X,Y的相似度計(jì)算算法:步驟1:將第k個(gè)屬性標(biāo)準(zhǔn)化到區(qū)間[0,1],計(jì)算相似度。步驟2:創(chuàng)建一個(gè)指示變量用來(lái)標(biāo)示兩個(gè)對(duì)象在第k個(gè)屬性上是否同時(shí)取值為0,如果同時(shí)為0,=0,否則=1。步驟3:使用如下公式計(jì)算對(duì)象X,Y的相似度:2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性3.使用權(quán)值前面所述所有相似度計(jì)算,都是將對(duì)象的所有屬性同等對(duì)待,沒(méi)有區(qū)分不同屬性的重要程度。當(dāng)現(xiàn)實(shí)問(wèn)題中屬性的重要程度存在較大差異時(shí),可以借助于領(lǐng)域?qū)I(yè)知識(shí),給它們賦予不同的權(quán)值,以期望獲得更好的性能。相似度計(jì)算公式增加權(quán)值項(xiàng)后形式如下:2.4.3組合異種屬性的相似性度量2.4數(shù)據(jù)的相似性文檔是由大量詞語(yǔ)構(gòu)成,如果把特定詞語(yǔ)出現(xiàn)的頻率看作一個(gè)單獨(dú)屬性,那么文檔可以由數(shù)千個(gè)詞頻屬性構(gòu)成的向量表示。詞頻向量通常很長(zhǎng),并且是稀疏的,因?yàn)樗舜罅康牧阒祵傩?。統(tǒng)計(jì)兩個(gè)文檔中共同沒(méi)有的詞,即公共零值屬性對(duì)計(jì)算它們間的相似度并沒(méi)有多大幫助。對(duì)于文檔這種特殊結(jié)構(gòu)數(shù)據(jù),使用基于距離計(jì)算鄰近度的方法,會(huì)受到大量零值的影響,評(píng)估效果并不好。文檔相似度需要關(guān)注兩個(gè)文檔同時(shí)出現(xiàn)的詞語(yǔ),以及這些詞語(yǔ)出現(xiàn)的次數(shù),忽略零匹配的數(shù)值數(shù)據(jù)度量。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.余弦相似度又稱為余弦相似性,適合用來(lái)計(jì)算文檔間的相似度。其原理是把兩個(gè)文本文檔以詞頻向量表示,通過(guò)計(jì)算兩個(gè)向量的夾角余弦值來(lái)評(píng)估他們的相似度。如果余弦值越接近于1,夾角越小,代表向量之間的匹配越大。而如果兩個(gè)向量的余弦值為0,表示它們正交,沒(méi)有匹配。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.余弦相似度2.4.4文本相似性度量

假設(shè)有兩個(gè)文檔,新聞a和新聞b,將它們的內(nèi)容經(jīng)過(guò)分詞、詞頻統(tǒng)計(jì)處理后得到如下兩個(gè)向量:文檔a:(1,1,2,1,1,1,0,0,0)文檔b:(1,1,1,0,1,3,1,6,1)。使用余弦相似度來(lái)計(jì)算兩個(gè)文檔的相似度過(guò)程如下:新聞a和新聞b對(duì)應(yīng)的向量分別是

和(1)計(jì)算向量a、b的點(diǎn)積:(2)計(jì)算向量a、b的歐幾里得范數(shù),即||a||、||b||:(3)計(jì)算相似度:2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)?;诮y(tǒng)計(jì)學(xué)方法來(lái)評(píng)估詞語(yǔ)對(duì)文檔的重要性。字詞的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。其中,詞頻(termfrequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的次數(shù)。由于同一個(gè)詞語(yǔ)在長(zhǎng)文檔里可能會(huì)比短文檔有更高的詞頻,為了防止它偏向較長(zhǎng)的文檔,通常會(huì)采用詞頻除以文檔總詞數(shù)來(lái)歸一化。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

逆向文檔頻率(inversedocumentfrequency,IDF)的主要思想是:出現(xiàn)頻率較少的詞才能夠表達(dá)文檔的主題。如果包含詞語(yǔ)w的文檔越少,IDF值越大,則說(shuō)明詞條具有很好的類別區(qū)分能力。為了避免分母為0值,分母做加1處理。2.4.4文本相似性度量2.4數(shù)據(jù)的相似性2.詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)

最終TF-IDF的計(jì)算式為:TF-IDF算法用來(lái)對(duì)文本進(jìn)行特征提取,選出可以表征文章特性的關(guān)鍵詞。假設(shè)文章X由d個(gè)關(guān)鍵詞的詞頻組成的向量表示,兩篇文章X,Y的相似度可表示為:2.4.4文本相似性度量2.4數(shù)據(jù)的相似性1.編輯距離編輯距離具有下面幾個(gè)性質(zhì): 兩個(gè)字符串的最小編輯距離是兩個(gè)符串的長(zhǎng)度差; 兩個(gè)字符串的最大編輯距離是兩字符串中較長(zhǎng)字符串的長(zhǎng)度; 只有兩個(gè)相等的字符串的編輯距離才會(huì)為0; 編輯距離滿足三角不等式,即;2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性1.編輯距離編輯距離(EditDistance)是指將序列變換為序列所用的最少編輯操作次數(shù)。編輯操作類型包括字符的替換、插入和刪除,三種類型可以根據(jù)實(shí)際應(yīng)用問(wèn)題指定相同或不同的操作代價(jià)。一般來(lái)說(shuō),編輯距離越小,兩個(gè)字符串的相似度越大。2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性2.最長(zhǎng)公共子序列最長(zhǎng)公共子序列(LongestCommonSubsequence,LCS)的定義是,一個(gè)序列S,如果分別是兩個(gè)或多個(gè)已知序列的子序列,且是所有符合此條件序列中最長(zhǎng)的,則S稱為已知序列的最長(zhǎng)公共子序列。子序列要求左右兩元素在母序列中為相鄰元素,且前后順序一致。設(shè)序列和的最長(zhǎng)公共子序列為,則有如下特性:1)若xm=yn,則zk=xm=yn,且zk-1是xm-1和yn-1的最長(zhǎng)公共子序列。2)若xm≠yn且zk≠xm,則Z是xm-1和Y的最長(zhǎng)公共子序列。3)若xm≠yn且zk≠yn,則Z是X和yn-1的最長(zhǎng)公共子序列。2.4.5離散序列相似性度量2.4數(shù)據(jù)的相似性2.最長(zhǎng)公共子序列當(dāng)兩個(gè)序列X,Y中任意一個(gè)為空集時(shí),它們的最長(zhǎng)公共子序列為零。即有和,這兩個(gè)式子可以作為求解算法的邊界條件。2.4.5離散序列相似性度量第二章數(shù)據(jù)預(yù)處理與相似性of43129高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用2.3

數(shù)據(jù)預(yù)處理3.1數(shù)據(jù)挖掘概述2.4

數(shù)據(jù)的相似性2.1

數(shù)據(jù)類型習(xí)題2.2

數(shù)據(jù)圖特征分析

1.在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?2.簡(jiǎn)述數(shù)據(jù)清洗的基本內(nèi)容。3.簡(jiǎn)述數(shù)據(jù)預(yù)處理的方法和內(nèi)容。4.簡(jiǎn)述數(shù)據(jù)空缺值的處理方法。5.數(shù)據(jù)約簡(jiǎn)的方法有哪些?6.什么是數(shù)據(jù)規(guī)范化?規(guī)范化的常用方法有哪些?寫(xiě)出對(duì)應(yīng)的變換公式。7.【示例2-10】種的數(shù)據(jù)[3、22、8、22、9、11、32、93、12],試用等寬分箱法完成數(shù)據(jù)平滑。8.下列數(shù)據(jù)是對(duì)鳶尾花進(jìn)行頻率統(tǒng)計(jì)后的部分?jǐn)?shù)據(jù),在此基礎(chǔ)上,用ChiMerge方法完成數(shù)據(jù)離散化。of43130習(xí)題第二章數(shù)據(jù)預(yù)處理與相似性of43131習(xí)題第二章數(shù)據(jù)預(yù)處理與相似性9.計(jì)算數(shù)據(jù)對(duì)象X=(3,5,2,7)和Y=(6,8,2,3)之間的歐幾里得距離、曼哈頓距離以及閔可夫斯基距離,其中閔可夫斯距離中p值取為3。sepal_length0類1類2類和4.310014.430034.510014.640044.720024.850054.941165820105.181095.231045.31

015.451065.525075.605165.725185.813375.90213感謝聆聽(tīng)高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用數(shù)據(jù)挖掘(第二版)第三章分類of56134高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用

分類是一種很重要的數(shù)據(jù)挖掘技術(shù),也是數(shù)據(jù)挖掘研究的重點(diǎn)和熱點(diǎn)之一。分類的目的是分析輸入數(shù)據(jù),通過(guò)訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來(lái)的特性,為每一個(gè)類找到一種準(zhǔn)確描述或者模型,這種描述常常用謂詞來(lái)表示。由此生成的類描述用來(lái)對(duì)未來(lái)的測(cè)試數(shù)據(jù)進(jìn)行分類。盡管這些未來(lái)測(cè)試數(shù)據(jù)的類標(biāo)簽是未知的,仍可以由此預(yù)測(cè)這些新數(shù)據(jù)所屬的類。也可以由此對(duì)數(shù)據(jù)中每一個(gè)類有更好的理解。More應(yīng)用市場(chǎng):醫(yī)療診斷、人臉檢測(cè)、故障診斷和故障預(yù)警······3.1分類概述第三章分類3.2

決策樹(shù)3.3

貝葉斯分類3.5實(shí)戰(zhàn):Python支持向量機(jī)分類習(xí)題3.4

支持向量機(jī)of56135高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用

分類(Classification)是一種重要的數(shù)據(jù)分析形式,它提取刻畫(huà)重要數(shù)據(jù)類的模型。這種模型稱為分類器,預(yù)測(cè)分類的(離散的、無(wú)序的)類標(biāo)號(hào)。這些類別可以用離散值表示,其中值之間的次序沒(méi)有意義。3.1.1分類的基本概念of561363.1分類概述第三章分類

分類可描述如下:從訓(xùn)練數(shù)據(jù)中確定函數(shù)模型y=f(x1,x2,...,xd),其中xi,i=1,...d為特征變量,y為分類變量。當(dāng)y為離散變量時(shí),即dom(y)={y1,y2,...,ym},被稱為分類。

分類也可定義為:分類的任務(wù)就是通過(guò)學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)(TargetFunction)?,把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y。

數(shù)據(jù)分類過(guò)程有兩階段:

(1)學(xué)習(xí)階段(構(gòu)建分類模型)。

(2)分類階段(使用學(xué)習(xí)階段構(gòu)建的模型預(yù)測(cè)給定數(shù)據(jù)的類標(biāo)號(hào))。3.1.2分類的過(guò)程of561373.1分類概述第三章分類建立分類模型的一般方法3.1.2分類的過(guò)程of561383.1分類概述第三章分類建立分類模型的一般方法

訓(xùn)練集:用于訓(xùn)練模型,擬合參數(shù),即模型擬合的數(shù)據(jù)樣本集合,如通過(guò)訓(xùn)練擬合一些參數(shù)來(lái)建立一個(gè)分類器。

測(cè)試集:用來(lái)評(píng)估訓(xùn)練好的最終模型的性能如何,評(píng)價(jià)模型好壞,測(cè)試集沒(méi)有參于訓(xùn)練,主要是測(cè)試訓(xùn)練好的模型的準(zhǔn)確能力等,但不能作為調(diào)參、選擇特征等算法相關(guān)的選擇的依據(jù)。

訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)不能再出現(xiàn)在驗(yàn)證數(shù)據(jù)以及測(cè)試數(shù)據(jù)中,驗(yàn)證數(shù)據(jù)最好也不要出現(xiàn)在測(cè)試數(shù)據(jù)中,這點(diǎn)在訓(xùn)練分類器的時(shí)候一定要特別注意。

3.1.3分類器性能的評(píng)估方法of561393.1分類概述第三章分類(1)評(píng)估分類器性能的度量度量公式準(zhǔn)確率、識(shí)別率(TP+TN)/(P+N)錯(cuò)誤率、誤分類率(FP+FN)/(P+N)敏感度、真正例率、召回率TP/P特效型、真負(fù)例率TN/N精度TP/(TP+FP)TP,TN,FP,FN,P,N分別表示真正例,真負(fù)例,假正例,假負(fù)例,正和負(fù)樣本數(shù)。

3.1.3分類器性能的評(píng)估方法of561403.1分類概述第三章分類(2)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論