數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢_第1頁
數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢_第2頁
數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢_第3頁
數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢_第4頁
數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘入門

12/17/20221引言KDD與數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢數(shù)據(jù)預(yù)處理可視化數(shù)據(jù)挖掘12/17/20222一、引言什么激發(fā)了數(shù)據(jù)挖掘

近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù)可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛應(yīng)用于各種領(lǐng)域,如商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等。面對海量數(shù)據(jù)庫和大量繁雜信息,如何才能從中提取有價值的知識,進(jìn)一步提高信息的利用率,由此引發(fā)了一個新的研究方向:基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase)及相應(yīng)的數(shù)據(jù)挖掘(DataMining)理論和技術(shù)的研究。12/17/20223為什么數(shù)據(jù)挖掘是重要的

數(shù)據(jù)的豐富帶來了對強(qiáng)有力的數(shù)據(jù)分析工具的需求??焖僭鲩L的海量數(shù)據(jù)收集存放在大型和大量的數(shù)據(jù)庫中,沒有強(qiáng)有力的工具,這些數(shù)據(jù)就變成了“數(shù)據(jù)墳?zāi)埂薄y得再訪問的數(shù)據(jù)檔案。因此數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識“金塊”。12/17/202242.1KDD定義人們給KDD下過很多定義,內(nèi)涵也各不相同,目前公認(rèn)的定義是由Fayyad等人提出的。所謂基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。二、KDD與數(shù)據(jù)挖掘12/17/202252.2KDD過程

KDD是一個人機(jī)交互處理過程。該過程需要經(jīng)歷多個步驟,并且很多決策需要由用戶提供。從宏觀上看,KDD過程主要經(jīng)由三個部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評估。12/17/20226知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標(biāo)數(shù)據(jù)Knowledge預(yù)處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估12/17/20227知識發(fā)現(xiàn)(KDD)的步驟數(shù)據(jù)準(zhǔn)備:了解KDD應(yīng)用領(lǐng)域的有關(guān)情況。包括熟悉相關(guān)的知識背景,搞清用戶需求。數(shù)據(jù)選?。簲?shù)據(jù)選取的目的是確定目標(biāo)數(shù)據(jù),根據(jù)用戶的需要從原始數(shù)據(jù)庫中選取相關(guān)數(shù)據(jù)或樣本。在此過程中,將利用一些數(shù)據(jù)庫操作對數(shù)據(jù)庫進(jìn)行相關(guān)處理。數(shù)據(jù)預(yù)處理:對步驟2中選出的數(shù)據(jù)進(jìn)行再處理,檢查數(shù)據(jù)的完整性及一致性,消除噪聲及與數(shù)據(jù)挖掘無關(guān)的冗余數(shù)據(jù),根據(jù)時間序列和已知的變化情況,利用統(tǒng)計等方法填充丟失的數(shù)據(jù)。12/17/20228數(shù)據(jù)變換:根據(jù)知識發(fā)現(xiàn)的任務(wù)對經(jīng)過預(yù)處理的數(shù)據(jù)再處理,主要是通過投影或利用數(shù)據(jù)庫的其它操作減少數(shù)據(jù)量。確定KDD目標(biāo):根據(jù)用戶的要求,確定KDD要發(fā)現(xiàn)的知識類型。選擇算法:根據(jù)步驟5確定的任務(wù),選擇合適的知識發(fā)現(xiàn)算法,包括選取合適的模型和參數(shù)。12/17/20229數(shù)據(jù)挖掘:這是整個KDD過程中很重要的一個步驟。運(yùn)用前面的選擇算法,從數(shù)據(jù)庫中提取用戶感興趣的知識,并以一定的方式表示出來。模式解釋:對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進(jìn)行解釋。通過機(jī)器評估剔除冗余或無關(guān)模式,若模式不滿足,再返回到前面某些處理步驟中反復(fù)提取。知識評價:將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。其中也包括對知識一致性的檢查,以確信本次發(fā)現(xiàn)的知識不會與以前發(fā)現(xiàn)的知識相抵觸。12/17/202210什么么是是數(shù)數(shù)據(jù)據(jù)挖挖掘掘數(shù)據(jù)據(jù)挖挖掘掘((從從數(shù)數(shù)據(jù)據(jù)中中發(fā)發(fā)現(xiàn)現(xiàn)知知識識))從海海量量的的數(shù)數(shù)據(jù)據(jù)中中抽抽取取感感興興趣趣的的((有有價價值值的的、、隱隱含含的的、、以以前前沒沒有有用用但但是是潛潛在在有有用用信信息息的的))模模式式和和知知識識。。其它它可可選選擇擇的的名名字字?jǐn)?shù)據(jù)據(jù)庫庫中中知知識識挖挖掘掘、、知知識識提提取取、、數(shù)數(shù)據(jù)據(jù)/模模式式分分析析、、數(shù)數(shù)據(jù)據(jù)考考古古、、數(shù)數(shù)據(jù)據(jù)捕捕撈撈、、信信息息獲獲取取、、事事務(wù)務(wù)智智能能等等。。廣義義觀觀點(diǎn)點(diǎn)數(shù)據(jù)據(jù)挖挖掘掘是是從從存存放放在在數(shù)數(shù)據(jù)據(jù)庫庫、、數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中或或其其它它信信息息庫庫中中的的大大量量數(shù)數(shù)據(jù)據(jù)中中挖挖掘掘有有趣趣知知識識的的過過程程。。12/12/202211數(shù)據(jù)據(jù)挖挖掘掘系系統(tǒng)統(tǒng)的的組組成成數(shù)據(jù)庫、數(shù)據(jù)據(jù)倉庫或其他他信息庫:是是一個或一組組數(shù)據(jù)庫、數(shù)數(shù)據(jù)倉庫、電電子表格或其其他類型的信信息庫??梢砸栽跀?shù)據(jù)上進(jìn)進(jìn)行數(shù)據(jù)清理理和集成。數(shù)據(jù)庫或數(shù)據(jù)據(jù)倉庫服務(wù)器器:根據(jù)用戶戶的挖掘請求求,數(shù)據(jù)庫或或數(shù)據(jù)倉庫服服務(wù)器負(fù)責(zé)提提取相關(guān)數(shù)據(jù)據(jù)。知識庫:是領(lǐng)領(lǐng)域知識,用用于指導(dǎo)搜索索,或評估結(jié)結(jié)果模式的興興趣度。12/12/202212數(shù)據(jù)挖掘引擎擎:數(shù)據(jù)挖掘掘系統(tǒng)的基本本部分,由一一組功能模塊塊組成,用于于特征化、關(guān)關(guān)聯(lián)、分類、、聚類分析以以及演變和偏偏差分析。模式評估模塊塊:使用興趣趣度量,并與與數(shù)據(jù)挖掘模模塊交互,以以便將搜索聚聚焦在有趣的的模式上,可可能使用興趣趣度閾值過濾濾發(fā)現(xiàn)的模式式。圖形用戶界面面:該模塊在在用戶和數(shù)據(jù)據(jù)挖掘系統(tǒng)之之間通信,允允許用戶與系系統(tǒng)交互,指指定數(shù)據(jù)挖掘掘查詢或任務(wù)務(wù),提供信息息,幫助搜索索聚焦,根據(jù)據(jù)數(shù)據(jù)挖掘的的中間結(jié)果進(jìn)進(jìn)行探索式數(shù)數(shù)據(jù)挖掘。12/12/202213數(shù)據(jù)挖掘系統(tǒng)統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理數(shù)數(shù)據(jù)集集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)據(jù)倉庫服務(wù)器器數(shù)據(jù)挖掘引擎擎模式評估圖形用戶界面面知識庫12/12/2022143.1可可以分分別按挖挖掘任務(wù)、挖掘?qū)ο蠛屯诰蚍椒▉矸诸?。。按挖掘任任?wù)分類類:包括括分類或或預(yù)測知知識模型型發(fā)現(xiàn),,數(shù)據(jù)總總結(jié),數(shù)數(shù)據(jù)聚類類,關(guān)聯(lián)聯(lián)規(guī)則發(fā)發(fā)現(xiàn),時時序模式式發(fā)現(xiàn),,依賴關(guān)關(guān)系或依依賴模型型發(fā)現(xiàn),,異常和和趨勢發(fā)發(fā)現(xiàn)等。。按挖掘?qū)ο蠓诸愵悾喊ɡP(guān)系數(shù)數(shù)據(jù)庫,,面向?qū)ο髷?shù)據(jù)據(jù)庫,空空間數(shù)據(jù)據(jù)庫,時時態(tài)數(shù)據(jù)據(jù)庫,文文本數(shù)據(jù)據(jù)庫,多多媒體數(shù)數(shù)據(jù)庫,,異構(gòu)數(shù)數(shù)據(jù)庫,,數(shù)據(jù)倉倉庫,演演繹數(shù)據(jù)據(jù)庫和Web數(shù)數(shù)據(jù)庫等等。三、數(shù)據(jù)據(jù)挖掘方方法12/12/202215按挖掘方方法分類類:包括括統(tǒng)計方方法,機(jī)機(jī)器學(xué)習(xí)習(xí)方法,,神經(jīng)網(wǎng)網(wǎng)絡(luò)方法法和數(shù)據(jù)據(jù)庫方法法,其中中:統(tǒng)計方法法可分為為:回歸歸分析((多元回回歸、自自回歸等等),判判別分析析(貝葉葉斯判別別、費(fèi)歇歇爾判別別、非參參數(shù)判別別等),,聚類分分析(系系統(tǒng)聚類類、動態(tài)態(tài)聚類等等),探探索性分分析(主主成分分分析、相相關(guān)分析析等)等等。機(jī)器學(xué)習(xí)習(xí)方法可可分為::歸納學(xué)學(xué)習(xí)方法法(決策策樹、規(guī)規(guī)則歸納納等),,基于范范例學(xué)習(xí)習(xí),遺傳傳算法等等。神經(jīng)網(wǎng)絡(luò)絡(luò)方法可可以分為為:前向向神經(jīng)網(wǎng)網(wǎng)絡(luò)(BP算法法等),,自組織織神經(jīng)網(wǎng)網(wǎng)絡(luò)(自自組織特特征映射射、競爭爭學(xué)習(xí)等等)。數(shù)據(jù)庫方方法分為為:多為為數(shù)據(jù)分分析和OLAP技術(shù),,此外還還有面向向?qū)傩缘牡臍w納方方法。12/12/202216數(shù)據(jù)挖掘掘技術(shù)分分類數(shù)據(jù)挖掘掘驗(yàn)證驅(qū)動動挖掘發(fā)現(xiàn)驅(qū)動動挖掘SQLSQL生生成器查詢工具具OLAP描述預(yù)測可視化聚類關(guān)聯(lián)規(guī)則則順序關(guān)聯(lián)聯(lián)匯總描述述分類統(tǒng)計回歸歸時間序列列決策樹神經(jīng)網(wǎng)路路12/12/2022173.2數(shù)據(jù)挖掘掘方法粗糙集1982年波蘭蘭數(shù)學(xué)家家Z.Pawlak針針對G.Frege的的邊界線線區(qū)域思思想提出出了粗糙糙集(RoughSet)),他把把那些無無法確認(rèn)認(rèn)的個體體都?xì)w屬屬于邊界界線區(qū)域域,而這這種邊界界線區(qū)域域被定義義為上近近似集和和下近似似集之差差集。粗糙集理理論主要要特點(diǎn)在在于它恰恰好反映映了人們們用粗糙糙集方法法處理不不分明問問題的常常規(guī)性,,即以不不完全信信息或知知識去處處理一些些不分明明現(xiàn)象的的能力,,或依據(jù)據(jù)觀察、、度量到到的某些些不精確確的結(jié)果果而進(jìn)行行分類數(shù)數(shù)據(jù)的能能力。12/12/202218模糊集經(jīng)典集合合理論對對應(yīng)二值值邏輯,,一個元元素要么么屬于、、要么不不屬于給給定集合合。因此此經(jīng)典集集合不能能很好地地描述具具有模糊糊性和不不確定性性的問題題。美國國加利福福尼亞大大學(xué)的扎扎德教授授于1965年年提出了了模糊集集合論,,用隸屬程度度來描述差差異的中中間過渡渡,是一一種用精精確的數(shù)數(shù)學(xué)語言言對模糊糊性進(jìn)行行描述的的方法。。12/12/202219定義:論論域X={x}上的模模糊集合合A由隸屬函函數(shù)A(x)來來表征。。其中A(x)在在實(shí)軸的的閉區(qū)間間[0,,1]中中取值,,A(x)的的大小反反映x對對于模糊糊集合A的隸屬程程度。A(x)的的值接近近1,表表示x隸隸屬于A的程度很很高。A(x)的的值接近近0,表表示x隸隸屬于A的程度很很低。特例,當(dāng)當(dāng)A的值域取取[0,,1]閉閉區(qū)間的的兩個端端點(diǎn),亦亦即{0,1}兩個值值時,A便退化為為一個普普通的邏邏輯子集集。隸屬屬函數(shù)也也就退化化為普通通邏輯值值。12/12/202220聚類分析析聚類是對對物理的的或抽象象的對象象集合分分組的過過程。聚聚類生成成的組為為簇,簇簇是數(shù)據(jù)據(jù)對象的的集合。。簇內(nèi)部部任意兩兩個對象象之間具具有較高高的相似似度,而而屬于不不同簇的的兩個對對象間具具有較高高的相異異度。相異度可可以根據(jù)據(jù)描述對對象的屬屬性值計計算,對對象間的的距離是是最常采采用的度度量指標(biāo)標(biāo)。在實(shí)實(shí)際應(yīng)用用中,經(jīng)經(jīng)常將一一個簇中中的數(shù)據(jù)據(jù)對象作作為一個個整體看看待。用用聚類生生成的簇簇來表達(dá)達(dá)數(shù)據(jù)集集不可避避免地會會損失一一些信息息,但卻卻可以使使問題得得到必要要的簡化化。主要的數(shù)數(shù)據(jù)挖掘掘聚類方方法有::劃分的的方法、、層次的的方法、、基于密密度的方方法、基基于網(wǎng)格格的方法法、基于于模型的的方法12/12/202221關(guān)聯(lián)規(guī)則則關(guān)聯(lián)規(guī)則則反映一一個事物物與其它它事物之之間的相相互依存存性和關(guān)關(guān)聯(lián)性,,如果兩兩個事物物或者多多個事物物之間存存在一定定的關(guān)聯(lián)聯(lián)關(guān)系,,那么其其中一個個事物就就能夠通通過其他他事物預(yù)預(yù)測到。。人們希望望在海量量的商業(yè)業(yè)交易記記錄中發(fā)發(fā)現(xiàn)感興興趣的數(shù)數(shù)據(jù)關(guān)聯(lián)聯(lián)關(guān)系,,用以幫幫助商家家作出決決策。例例如:面包2%牛牛奶奶1.5%((占超超市交易易總數(shù)))2%和1.5%表明這這兩種商商品在超超市經(jīng)營營中的重重要程度度,稱為為支持度度。商家家關(guān)注高高支持度度的產(chǎn)品品。面包=〉〉牛奶60%在購買面面包的交交易中,,有60%的交交易既買買了面包包又買了了牛奶,,成60%為規(guī)規(guī)則“面面包=〉〉牛奶””的信任任度。信信任度反反映了商商品間的的關(guān)聯(lián)程程度。12/12/202222項(xiàng)目目構(gòu)構(gòu)成成的的集集合合稱稱為為項(xiàng)項(xiàng)集集。。項(xiàng)項(xiàng)集集在在事事物物數(shù)數(shù)據(jù)據(jù)庫庫中中出出現(xiàn)現(xiàn)的的次次數(shù)數(shù)占占總總事事物物的的百百分分比比叫叫做做項(xiàng)項(xiàng)集集的的支支持持度度。。如如果果項(xiàng)項(xiàng)集集的的支支持持度度超超過過用用戶戶給給定定的的最最小小支支持持度度閾閾值值,,就就稱稱該該項(xiàng)項(xiàng)集集是是頻頻繁繁項(xiàng)項(xiàng)集集。。關(guān)聯(lián)聯(lián)規(guī)規(guī)則則就就是是支支持持度度和和信信任任度度分分別別滿滿足足用用戶戶給給定定閾閾值值的的規(guī)規(guī)則則。發(fā)發(fā)現(xiàn)現(xiàn)關(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則需需要要經(jīng)經(jīng)歷歷如如下下兩兩個個步步驟驟::(1))找找出出所所有有的的頻頻繁繁項(xiàng)項(xiàng)。。(2))由由頻頻繁繁項(xiàng)項(xiàng)集集生生成成滿滿足足最最小小信信任任度度閾閾值值的的規(guī)規(guī)則則。。12/12/2022235.人人工工神神經(jīng)經(jīng)網(wǎng)網(wǎng)絡(luò)絡(luò)人工工神神經(jīng)經(jīng)網(wǎng)網(wǎng)絡(luò)絡(luò)是是指指由由簡簡單單計計算算單單元元組組成成的的廣廣泛泛并并行行互互聯(lián)聯(lián)的的網(wǎng)網(wǎng)絡(luò)絡(luò),,能能夠夠模模擬擬生生物物神神經(jīng)經(jīng)系系統(tǒng)統(tǒng)的的結(jié)結(jié)構(gòu)構(gòu)和和功功能能。。組組成成神神經(jīng)經(jīng)網(wǎng)網(wǎng)絡(luò)絡(luò)的的單單個個神神經(jīng)經(jīng)元元的的結(jié)結(jié)構(gòu)構(gòu)簡簡單單,,功功能能有有限限,,但但是是,,由由大大量量神神經(jīng)經(jīng)元元構(gòu)構(gòu)成成的的網(wǎng)網(wǎng)絡(luò)絡(luò)系系統(tǒng)統(tǒng)可可以以實(shí)實(shí)現(xiàn)現(xiàn)強(qiáng)強(qiáng)大大的的功功能能。。由于于現(xiàn)現(xiàn)實(shí)實(shí)世世界界的的數(shù)數(shù)據(jù)據(jù)關(guān)關(guān)系系相相當(dāng)當(dāng)復(fù)復(fù)雜雜,,非非線線性性問問題題和和噪噪聲聲數(shù)數(shù)據(jù)據(jù)普普遍遍存存在在。。將將人人工工神神經(jīng)經(jīng)網(wǎng)網(wǎng)絡(luò)絡(luò)應(yīng)應(yīng)用用于于數(shù)數(shù)據(jù)據(jù)挖挖掘掘,,希希望望借借助助其其非非線線性性處處理理能能力力和和容容噪噪能能力力,,得得到到較較好好的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘結(jié)結(jié)果果。。將人工神經(jīng)網(wǎng)網(wǎng)絡(luò)應(yīng)用于數(shù)數(shù)據(jù)挖掘的主主要障礙是,,通過人工神神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)習(xí)到的知識難難于理解;學(xué)學(xué)習(xí)時間太長長,不適于大大型數(shù)據(jù)集。。12/12/2022246,分類與預(yù)預(yù)測分類和預(yù)測是是兩種重要的的數(shù)據(jù)分析方方法,在商業(yè)業(yè)上的應(yīng)用很很多。分類和和預(yù)測可以用用于提取描述述重要數(shù)據(jù)類類型或預(yù)測未未來的數(shù)據(jù)趨趨勢。分類的目的是是提出一個分分類函數(shù)或分分類模型(即即分類器)通通過分類器將將數(shù)據(jù)對象映映射到某一個個給定的類別別中。數(shù)據(jù)分分類可以分為為兩步進(jìn)行。。第一步建立立模型,用于于描述給定的的數(shù)據(jù)集合。。通過分析由由屬性描述的的數(shù)據(jù)集合來來建立反映數(shù)數(shù)據(jù)集合特性性的模型。第第二步是用模模型對數(shù)據(jù)對對象進(jìn)行分類類。預(yù)測的目的是是從歷史數(shù)據(jù)據(jù)記錄中自動動推導(dǎo)出對給給定數(shù)據(jù)的推推廣描述,從從而能夠?qū)κ率孪任粗臄?shù)數(shù)據(jù)進(jìn)行預(yù)測測。12/12/202225分類的方法::決策樹:決策策樹內(nèi)部節(jié)點(diǎn)點(diǎn)進(jìn)行屬性值值測試,并根根據(jù)屬性值判判斷由該節(jié)點(diǎn)點(diǎn)引出的分支支,在決策樹樹的葉結(jié)點(diǎn)得得到結(jié)論。內(nèi)內(nèi)部節(jié)點(diǎn)是屬屬性或?qū)傩缘牡募希~節(jié)節(jié)點(diǎn)代表樣本本所屬的類或或類分布。貝葉斯分類::是一種統(tǒng)計計學(xué)分類方法法,可以預(yù)測測類成員關(guān)系系關(guān)系的可能能性,如給定定樣本屬于一一個特征類的的概率。貝葉葉斯方法已在在文本分類、、字母識別、、經(jīng)濟(jì)預(yù)測等等領(lǐng)域獲得了了成功的應(yīng)用用。基于遺傳算法法分類:模擬擬生物進(jìn)化過過程中的計算算模型,是自自然遺傳學(xué)與與計算機(jī)科學(xué)學(xué)互相結(jié)合、、互相滲透而而形成的新的的計算方法。。利用選擇、、交叉、變異異等操作對子子代進(jìn)行操作作,優(yōu)點(diǎn)是問問題求解與初初始條件無關(guān)關(guān),搜索最優(yōu)優(yōu)解的能力極極強(qiáng),可以對對各種數(shù)據(jù)挖挖掘技術(shù)進(jìn)行行優(yōu)化。12/12/202226預(yù)測預(yù)測是構(gòu)造和和使用模型評評估無標(biāo)號樣樣本類,或評評估給定樣本本可能具有的的屬性值或區(qū)區(qū)間值。預(yù)測測的目的是從從歷史數(shù)據(jù)中中自動推導(dǎo)出出對給定數(shù)據(jù)據(jù)的推廣描述述,從而能對對未來數(shù)據(jù)進(jìn)進(jìn)行預(yù)測。例例如,金融系系統(tǒng)可以根據(jù)據(jù)顧客信譽(yù)卡卡消費(fèi)量預(yù)測測他未來的刷刷卡消費(fèi)量或或用于信譽(yù)證證實(shí)。推銷人人員希望在開開拓新客戶時時,找出顧客客一些共同特特征,預(yù)測出出潛在顧客群群。預(yù)測的方法主主要是回歸統(tǒng)統(tǒng)計,包括::線性回歸、、非線性回歸歸、多元回歸歸、泊松回歸歸、對數(shù)回歸歸等。分類也也可以用來預(yù)預(yù)測。12/12/2022277,多媒體數(shù)數(shù)據(jù)挖掘多媒體數(shù)據(jù)庫庫系統(tǒng)由多媒媒體數(shù)據(jù)庫管管理系統(tǒng)和多多媒體數(shù)據(jù)庫庫構(gòu)成。其中中多媒體數(shù)據(jù)據(jù)庫用于存儲儲和管理多媒媒體數(shù)據(jù),多多媒體數(shù)據(jù)庫庫管理系統(tǒng)負(fù)負(fù)責(zé)對多媒體體數(shù)據(jù)庫進(jìn)行行管理。多媒媒體數(shù)據(jù)庫包包括結(jié)構(gòu)化的的數(shù)據(jù)、半結(jié)結(jié)構(gòu)化的數(shù)據(jù)據(jù)和非結(jié)構(gòu)化化的數(shù)據(jù),如如音頻數(shù)據(jù)、、視頻數(shù)據(jù)、、文本數(shù)據(jù)和和圖像數(shù)據(jù)等等。多媒體數(shù)據(jù)挖挖掘就是通過過綜合分析多多媒體數(shù)據(jù)的的內(nèi)容和語義義,從大量多多媒體數(shù)據(jù)中中發(fā)現(xiàn)隱含的的、有效的、、有價值的、、可理解的模模式,得出事事件的發(fā)展趨趨向和關(guān)聯(lián)關(guān)關(guān)系,為用戶戶提供問題求求解層次上的的決策支持能能力。12/12/202228多媒體數(shù)據(jù)是是指由多種不不同類型多媒媒體數(shù)據(jù)組成成的,包括文文本、圖形、、圖像、聲音音、視頻圖像像、動畫等不不同類型的媒媒體數(shù)據(jù)。為為了挖掘多媒媒體數(shù)據(jù),必必須對兩種或或多種類型的的媒體數(shù)據(jù)進(jìn)進(jìn)行綜合挖掘掘。多媒體挖掘的的方法有兩種種:一種是先從多多媒體數(shù)據(jù)數(shù)數(shù)據(jù)庫中提取取出結(jié)構(gòu)化數(shù)數(shù)據(jù),然后用用傳統(tǒng)的數(shù)據(jù)據(jù)挖掘工具在在這些結(jié)構(gòu)化化的數(shù)據(jù)上進(jìn)進(jìn)行挖掘。另一種解決辦辦法是研究開開發(fā)可以直接接對多媒體數(shù)數(shù)據(jù)進(jìn)行挖掘掘的工具。12/12/202229四、數(shù)據(jù)據(jù)挖掘系系統(tǒng)與應(yīng)應(yīng)用數(shù)據(jù)挖掘掘系統(tǒng)的的開發(fā)工工作十分分復(fù)雜,,不僅要要有大量量的數(shù)據(jù)據(jù)挖掘算算法,而而且其應(yīng)應(yīng)用領(lǐng)域域往往取取決于最最終用戶戶的知識識結(jié)構(gòu)等等因素。。下面介介紹幾個個數(shù)據(jù)挖挖掘系統(tǒng)統(tǒng):SKICAT是是MIT噴噴氣推進(jìn)進(jìn)實(shí)驗(yàn)室室與天文文科學(xué)家家合作開開發(fā)的用于幫助助天文學(xué)學(xué)家發(fā)現(xiàn)現(xiàn)遙遠(yuǎn)的的類星體體的工具具。Health-KEFIR是是用于健健康狀況況預(yù)警的的知識發(fā)發(fā)現(xiàn)系統(tǒng)統(tǒng)。TASA是為預(yù)預(yù)測通信信網(wǎng)絡(luò)故故障而開發(fā)的的通信網(wǎng)絡(luò)絡(luò)預(yù)警分分析系統(tǒng)統(tǒng)。會產(chǎn)生生“如果果在某一一時間段段內(nèi)發(fā)生生某些預(yù)預(yù)警信息息組合,,那么其其他類型型的預(yù)警警信息將將在某個個時間范范圍內(nèi)發(fā)發(fā)生”的的規(guī)則。。時間段段大小由由用戶定定義。R-MINI運(yùn)用分類類技術(shù)從從噪聲中中提取有有價值的的信息。。由于是是在微弱弱變化中中獲取信信息,該該系統(tǒng)也也可以應(yīng)應(yīng)用于證券領(lǐng)域域中的股股市行情情預(yù)測。12/12/202230KDW是是大型商商業(yè)數(shù)據(jù)據(jù)庫中的的交互分分析系統(tǒng)統(tǒng)。包括括聚類、、分類、、總結(jié)、、相關(guān)性性分析等等多種模模式。DBMiner是加拿拿大SimonFraser大學(xué)學(xué)開發(fā)的的一個多多任務(wù)KDD系系統(tǒng)。能能夠完成成多種知知識發(fā)現(xiàn)現(xiàn),綜合合了多種種數(shù)據(jù)挖挖掘技術(shù)術(shù)。Clementine可以把把直觀的的圖形用用戶界面面與多種種分析技技術(shù)結(jié)合合在一起起,包括括神經(jīng)網(wǎng)網(wǎng)絡(luò)、關(guān)關(guān)聯(lián)規(guī)則則和規(guī)則則歸納技技術(shù)。Darwin包包含神經(jīng)經(jīng)網(wǎng)絡(luò)、、決策書書和K-鄰近三三種數(shù)據(jù)據(jù)挖掘方方法,處處理分類類、預(yù)測測和預(yù)報報問題。。DMW是是一個用用在信用用卡欺詐詐分析方方面的數(shù)數(shù)據(jù)挖掘掘工具,,支持反反向傳播播神經(jīng)網(wǎng)網(wǎng)絡(luò)算法法,并能能以自動動和人工工模式操操作IntelligentMiner是IBM開開發(fā)的包包括人工工智能、、機(jī)器學(xué)學(xué)習(xí)、語語言分析析和知識識發(fā)現(xiàn)領(lǐng)領(lǐng)域成果果在內(nèi)的的復(fù)雜軟軟件解決決方案。。12/12/202231五,數(shù)據(jù)據(jù)預(yù)處理理為什么需需要數(shù)據(jù)據(jù)預(yù)處理理?數(shù)據(jù)清洗洗數(shù)據(jù)集成成與轉(zhuǎn)換換數(shù)據(jù)歸約約數(shù)據(jù)離散散化與概概念層次次的構(gòu)建建本章小結(jié)結(jié)12/12/202232為什么需需要數(shù)據(jù)據(jù)預(yù)處理理?在現(xiàn)實(shí)社社會中,,存在著著大量的的“臟””數(shù)據(jù)不完整性性(數(shù)據(jù)結(jié)結(jié)構(gòu)的設(shè)設(shè)計人員員、數(shù)據(jù)據(jù)采集設(shè)設(shè)備和數(shù)數(shù)據(jù)錄入入人員))缺少感興興趣的屬屬性感興趣的的屬性缺缺少部分分屬性值值僅僅包含含聚合數(shù)數(shù)據(jù),沒沒有詳細(xì)細(xì)數(shù)據(jù)噪音數(shù)據(jù)據(jù)(采集集數(shù)據(jù)的的設(shè)備、、數(shù)據(jù)錄錄入人員員、數(shù)據(jù)據(jù)傳輸))數(shù)據(jù)中包包含錯誤誤的信息息存在著部部分偏離離期望值值的孤立立點(diǎn)不一致性性(數(shù)據(jù)據(jù)結(jié)構(gòu)的的設(shè)計人人員、數(shù)數(shù)據(jù)錄入入人員))數(shù)據(jù)結(jié)構(gòu)構(gòu)的不一一致性Label的不不一致性性數(shù)據(jù)值的的不一致致性12/12/202233為什么需需要數(shù)據(jù)據(jù)預(yù)處理理?數(shù)據(jù)挖掘掘的數(shù)據(jù)據(jù)源可能能是多個個互相獨(dú)獨(dú)立的數(shù)數(shù)據(jù)源關(guān)系數(shù)據(jù)據(jù)庫多維數(shù)據(jù)據(jù)庫(DataCube))文件、文文檔數(shù)據(jù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換換為了數(shù)據(jù)據(jù)挖掘的的方便海量數(shù)據(jù)據(jù)的處理理數(shù)據(jù)歸約約(在獲獲得相同同或者相相似結(jié)果果的前提提下)12/12/202234為什么需需要數(shù)據(jù)據(jù)預(yù)處理理?沒有高質(zhì)質(zhì)量的數(shù)數(shù)據(jù),就就沒有高高質(zhì)量的的挖掘結(jié)結(jié)果高質(zhì)量的的決策必必須基于于高質(zhì)量量的數(shù)據(jù)據(jù)基礎(chǔ)上上數(shù)據(jù)倉庫庫是在高高質(zhì)量數(shù)數(shù)據(jù)上的的集成12/12/202235數(shù)據(jù)預(yù)處處理的主主要任務(wù)務(wù)數(shù)據(jù)清理理填入缺失失數(shù)據(jù)平滑噪音音數(shù)據(jù)確認(rèn)和去去除孤立立點(diǎn)解決不一一致性數(shù)據(jù)集成成多個數(shù)據(jù)據(jù)庫、DataCube和和文件系系統(tǒng)的集集成數(shù)據(jù)轉(zhuǎn)換換規(guī)范化、、聚集等等數(shù)據(jù)歸約約在可能獲獲得相同同或相似似結(jié)果的的前提下下,對數(shù)數(shù)據(jù)的容容量進(jìn)行行有效的的縮減數(shù)據(jù)離散散化對于一個個特定的的連續(xù)屬屬性,尤尤其是連連續(xù)的數(shù)數(shù)字屬性性,可以以把屬性性值劃分分成若干干區(qū)間,,以區(qū)間間值來代代替實(shí)際際數(shù)據(jù)值值,以減減少屬性性值的個個數(shù).12/12/202236數(shù)據(jù)預(yù)處理理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約12/12/202237主要內(nèi)容為什么需要要數(shù)據(jù)預(yù)處處理?數(shù)據(jù)清洗數(shù)據(jù)集成與與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化化與概念層層次的構(gòu)建建本章小結(jié)12/12/202238數(shù)據(jù)清洗主要任務(wù)補(bǔ)充缺失數(shù)數(shù)據(jù)識別孤立點(diǎn)點(diǎn),平滑噪噪音數(shù)據(jù)處理不一致致的數(shù)據(jù)12/12/202239缺失數(shù)據(jù)的的處理部分?jǐn)?shù)據(jù)通通常是不可可用的在許多元組組中部分屬屬性值為空空。如:在在客戶表中中的客戶收收入為空。。導(dǎo)致數(shù)據(jù)缺缺失的原因因數(shù)據(jù)采集設(shè)設(shè)備的故障障由于與其它它信息的數(shù)數(shù)據(jù)存在不不一致性,,因此數(shù)據(jù)據(jù)項(xiàng)被刪除除由于不理解解或者不知知道而未能能輸入在當(dāng)時數(shù)據(jù)據(jù)輸入的時時候,該數(shù)數(shù)據(jù)項(xiàng)不重重要而忽略略數(shù)據(jù)傳輸過過程中引入入的錯誤缺失數(shù)據(jù)通通常需要經(jīng)經(jīng)過合理的的推斷予以以添加12/12/202240缺失數(shù)據(jù)的的處理方法法忽略該記錄錄(元組))通常在進(jìn)行行分類、描描述、聚類類等挖掘,,但是元組組缺失類標(biāo)標(biāo)識時該種方法通通常不是最最佳的,尤尤其是缺失失數(shù)據(jù)比例例比較大的的時候手工填入空空缺的值枯燥、費(fèi)時時,可操作作性差,不不推薦使用用使用一個全全局的常量量填充空缺缺數(shù)值給定一個固固定的屬性性值如:未未知、不祥祥、Unknown、Null等簡單,但是是沒有意義義12/12/202241使用屬性性的平均均值填充充空缺數(shù)數(shù)值簡單方便便、挖掘掘結(jié)果容容易產(chǎn)生生不精確確的結(jié)果果使用與給給定元組組同一個個類別的的所有樣樣本的平平均值分類非常常重要,,尤其是是分類指指標(biāo)的選選擇使用最有有可能的的值予以以填充利用回歸歸、基于于推導(dǎo)的的使用貝貝葉斯形形式化的的方法的的工具或或者判定定樹歸納納確定利用屬性性之間的的關(guān)系進(jìn)進(jìn)行推斷斷,保持持了屬性性之間的的聯(lián)系缺失數(shù)據(jù)據(jù)的處理理方法((續(xù))12/12/202242噪音數(shù)據(jù)據(jù)噪音數(shù)據(jù)據(jù):一個個度量((指標(biāo)))變量中中的隨機(jī)機(jī)錯誤或或者偏差差主要原因因數(shù)據(jù)采集集設(shè)備的的錯誤數(shù)據(jù)錄入入問題數(shù)據(jù)傳輸輸問題部分技術(shù)術(shù)的限制制數(shù)據(jù)轉(zhuǎn)換換中的不不一致數(shù)據(jù)清理理中所需需要處理理的其它它問題重復(fù)的記記錄不完整的的數(shù)據(jù)不一致的的數(shù)據(jù)12/12/202243噪音數(shù)據(jù)據(jù)的處理理分箱(Binning)的方方法聚類方法法檢測并消消除異常常點(diǎn)線性回歸歸對不符合合回歸的的數(shù)據(jù)進(jìn)進(jìn)行平滑滑處理人機(jī)結(jié)合合共同檢檢測由計算機(jī)機(jī)檢測可可疑的點(diǎn)點(diǎn),然后后由用戶戶確認(rèn)12/12/202244處理噪音音數(shù)據(jù)::分箱方方法分箱(Binning)方法法:基本思想想:通過過考察相相鄰數(shù)據(jù)據(jù)的值,,來平滑滑存儲數(shù)數(shù)據(jù)的值值基本步驟驟:首先,對對數(shù)據(jù)進(jìn)進(jìn)行排序序,并分分配到具具有相同同寬度/深度的的不同的的“箱子子”中其次,通通過箱子子的平均均值(Means)、、中值((Median)、或或者邊界界值等來來進(jìn)行平平滑處理理12/12/202245分箱(Binning)方方法舉例例對數(shù)據(jù)進(jìn)進(jìn)行排序序:4,8,9,15,21,21,24,25,26,28,29,34對數(shù)據(jù)進(jìn)進(jìn)行分割割(相同同深度):-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34根據(jù)bin中的的平均值值進(jìn)行離離散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,2912/12/202246基于聚類類分析的的平滑處處理12/12/202247通過線性性回歸的的平滑處處理xyy=x+1X1Y1Y1’12/12/202248主要要內(nèi)內(nèi)容容為什什么么需需要要數(shù)數(shù)據(jù)據(jù)預(yù)預(yù)處處理理數(shù)據(jù)據(jù)清清洗洗數(shù)據(jù)據(jù)集集成成與與轉(zhuǎn)轉(zhuǎn)換換數(shù)據(jù)據(jù)歸歸約約數(shù)據(jù)據(jù)離離散散化化與與概概念念層層次次的的構(gòu)構(gòu)建建本章章小小結(jié)結(jié)12/12/202249數(shù)據(jù)據(jù)集集成成數(shù)據(jù)據(jù)集集成成的的概概念念將多多個個數(shù)數(shù)據(jù)據(jù)源源中中的的數(shù)數(shù)據(jù)據(jù)結(jié)結(jié)合合起起來來存存放放在在一一個個一一致致的的數(shù)數(shù)據(jù)據(jù)存存儲儲中中數(shù)據(jù)據(jù)源源包包括括::多多個個數(shù)數(shù)據(jù)據(jù)庫庫、、多多維維數(shù)數(shù)據(jù)據(jù)庫庫和和一一般般的的文文件件數(shù)據(jù)據(jù)集集成成也也是是數(shù)數(shù)據(jù)據(jù)倉倉庫庫建建設(shè)設(shè)中中的的一一個個重重要要問問題題數(shù)據(jù)據(jù)集集成成的的內(nèi)內(nèi)容容模式式集集成成利用用數(shù)數(shù)據(jù)據(jù)庫庫和和數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的元元數(shù)數(shù)據(jù)據(jù)信信息息主要要工工作作是是識識別別現(xiàn)現(xiàn)實(shí)實(shí)世世界界中中的的實(shí)實(shí)體體定定義義冗余余數(shù)數(shù)據(jù)據(jù)的的處處理理檢測測和和解解決決數(shù)數(shù)值值沖沖突突對于于現(xiàn)現(xiàn)實(shí)實(shí)世世界界中中的的同同一一實(shí)實(shí)體體,,來來自自于于不不同同數(shù)數(shù)據(jù)據(jù)源源的的屬屬性性值值可可能能不不同同主要要原原因因::不不同同的的數(shù)數(shù)據(jù)據(jù)表表示示、、度度量量單單位位、、編編碼碼方方式式以以及及語語義義的的不不同同12/12/202250模式式集集成成數(shù)據(jù)據(jù)類類型型沖沖突突性別別::string(Male、、Female)、、Char((M、、F))、、Interger((0、、1))日期期::Date、、DateTime、、String數(shù)據(jù)據(jù)標(biāo)標(biāo)簽簽沖沖突突::解解決決同同名名異異義義、、異異名名同同義義學(xué)生生成成績績、、分分?jǐn)?shù)數(shù)度量量單單位位沖沖突突學(xué)生生成成績績百分分制制::100~0五分分制制::A、、B、、C、、D、、E字符符表表示示::優(yōu)優(yōu)、、良良、、及及格格、、不不及及格格概念念不不清清最近近交交易易額額::前前一一個個小小時時、、昨昨天天、、本本周周、、本本月月??聚集集沖沖突突::根根源源在在于于表表結(jié)結(jié)構(gòu)構(gòu)的的設(shè)設(shè)計計12/12/202251冗余余數(shù)數(shù)據(jù)據(jù)的的處處理理從多多個個數(shù)數(shù)據(jù)據(jù)源源中中抽抽取取不不同同的的數(shù)數(shù)據(jù)據(jù),,容容易易導(dǎo)導(dǎo)致致數(shù)數(shù)據(jù)據(jù)的的冗冗余余不同同的的屬屬性性在在不不同同的的數(shù)數(shù)據(jù)據(jù)源源中中是是不不同同的的命命名名方方式式有些些屬屬性性可可以以從從其其它它屬屬性性中中導(dǎo)導(dǎo)出出,,例如如::銷銷售售額額==單單價價××銷銷售售量量有些些冗冗余余可可以以通通過過相相關(guān)關(guān)分分析析檢檢測測到到其中中::n是元元組組的的個個數(shù)數(shù),,和和分分別別是是A和和B的的平平均均值值,,和分分別別是是A和和B的的標(biāo)標(biāo)準(zhǔn)準(zhǔn)差差元組組級級的的““重重復(fù)復(fù)””,,也也是是數(shù)數(shù)據(jù)據(jù)冗冗余余的的一一個個重重要要方方面面減少少冗冗余余數(shù)數(shù)據(jù)據(jù),,可可以以大大大大提提高高數(shù)數(shù)據(jù)據(jù)挖挖掘掘的的性性能能12/12/202252數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換平滑滑處處理理:從從數(shù)數(shù)據(jù)據(jù)中中消消除除噪噪音音數(shù)數(shù)據(jù)據(jù)聚集集操操作作:對對數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行綜綜合合,,類類似似于于DataCube的的構(gòu)構(gòu)建建數(shù)據(jù)據(jù)概概化化::構(gòu)構(gòu)建建概概念念層層次次數(shù)據(jù)據(jù)規(guī)規(guī)范范化化:將將數(shù)數(shù)據(jù)據(jù)集集中中到到一一個個較較小小的的范范圍圍之之中中最大大-最最小小規(guī)規(guī)范范化化z-score(零零-均值))規(guī)范化小數(shù)范圍規(guī)規(guī)范化(0–1規(guī)范范化)屬性構(gòu)造構(gòu)造新的屬屬性并添加加到屬性集集中,以幫幫助數(shù)據(jù)挖挖掘12/12/202253數(shù)據(jù)轉(zhuǎn)換::規(guī)范化最大-最小小規(guī)范化對原始數(shù)據(jù)據(jù)進(jìn)行線性性變換保持了原始始數(shù)據(jù)值之之間的關(guān)系系當(dāng)有新的輸輸入,落在在原數(shù)據(jù)區(qū)區(qū)之外,該該方法將面面臨“越界界”錯誤受到孤立點(diǎn)點(diǎn)的影響可可能會比較較大12/12/202254數(shù)據(jù)轉(zhuǎn)換::規(guī)范化((續(xù))z-score(零零-均值))規(guī)范化屬性基于平平均值和標(biāo)標(biāo)準(zhǔn)差規(guī)范范化當(dāng)屬性的最最大值和最最小值未知知,或者孤孤立點(diǎn)左右右了最大--最小規(guī)范范化時,該該方法有效效0-1規(guī)范范化(小數(shù)數(shù)定標(biāo)規(guī)范范化)通過移動屬屬性的小數(shù)數(shù)點(diǎn)位置進(jìn)進(jìn)行規(guī)范化化例如A的值值為125,那么|A|=125,則則j=3,,有v=0.125。WherejisthesmallestintegersuchthatMax(||)<112/12/202255屬性構(gòu)造由給定的屬屬性構(gòu)造并并增添新的的屬性,以以幫助提高高精度和對對高維數(shù)據(jù)據(jù)結(jié)構(gòu)的理理解屬性結(jié)構(gòu)還還可以幫助助平緩使用用判定算法法分類的分分裂問題例如:Area=Width×Height銷售額=單單價×銷售售量12/12/202256主要內(nèi)容為什么需要要數(shù)據(jù)預(yù)處處理?數(shù)據(jù)清洗數(shù)據(jù)集成與與轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)離散化化與概念層層次的構(gòu)建建本章小結(jié)12/12/202257數(shù)據(jù)歸約的的提出在數(shù)據(jù)倉庫庫中可能保保存TB級級的數(shù)據(jù),,大數(shù)據(jù)量量的數(shù)據(jù)挖挖掘,可能能需要大量量的時間來來完成整個個數(shù)據(jù)的數(shù)數(shù)據(jù)挖掘。。數(shù)據(jù)歸約在可能獲得得相同或相相似結(jié)果的的前提下,,對數(shù)據(jù)的的容量進(jìn)行行有效的縮縮減數(shù)據(jù)歸約的的方法數(shù)據(jù)立方體體聚集:聚聚集操作作作用于立方方體中的數(shù)數(shù)據(jù)減少數(shù)據(jù)維維度(維歸歸約):可可以檢測并并刪除不相相關(guān)、弱相相關(guān)或者冗冗余的屬性性或維數(shù)據(jù)壓縮::使用編碼碼機(jī)制壓縮縮數(shù)據(jù)集數(shù)值壓縮::用替代的的、較小的的數(shù)據(jù)表示示替換或估估計數(shù)據(jù)12/12/202258DataCube的聚集“基點(diǎn)方體體”“頂點(diǎn)方體體”DataCube中的多個個層次的聚聚集進(jìn)一步縮減減所要處理理的數(shù)據(jù)量量當(dāng)響應(yīng)OLAP查詢詢或者數(shù)據(jù)據(jù)挖掘時,,應(yīng)當(dāng)使用用與給定任任務(wù)相關(guān)的的“最小方方體”12/12/202259維歸約約(特特征提提取)維歸約約:通通過刪刪除不不相關(guān)關(guān)的屬屬性((或維維)減減少數(shù)數(shù)據(jù)量量特征選選取(屬屬性子子集的的選取取):選取最最小的的特征征屬性性集合合,得得到的的數(shù)據(jù)據(jù)挖掘掘結(jié)果果與所所有特特征參參加的的數(shù)據(jù)據(jù)挖掘掘結(jié)果果相近近或完完全一一致特征提提取,,對于于d個屬性性來說說,具具有2d個可能能的子子集12/12/202260維歸約約的主主要方方法利用啟啟發(fā)式式的方方法來來減少少數(shù)據(jù)據(jù)維度度(隨隨著維維度的的增長長數(shù)據(jù)據(jù)量將將呈指指數(shù)級級別增增長):逐步向向前選選擇::維數(shù)數(shù)逐步步增多多的方方法((每次次增添添“最最好””的屬屬性))逐步向向后選選擇::維數(shù)數(shù)逐步步減少少的方方法((每次次刪除除“最最差””的屬屬性))兩者組組合的的方法法判定樹樹歸納納方法法(ID3,C4.5))12/12/202261基于判判定樹樹歸納納的方方法Initialattributeset:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>Reducedattributeset:{A1,A4,A6}YYYNNN12/12/202262數(shù)據(jù)壓壓縮數(shù)據(jù)壓壓縮::應(yīng)用用數(shù)據(jù)據(jù)編碼碼或變變換,,以便便得到到數(shù)據(jù)據(jù)的歸歸約或或壓縮縮表示示無損壓壓縮::原數(shù)數(shù)據(jù)可可以由由壓縮縮數(shù)據(jù)據(jù)重新新構(gòu)造造而不不丟失失任何何信息息字符串串壓縮縮是典典型的的無損損壓縮縮現(xiàn)在已已經(jīng)有有許多多很好好的方方法但但是它它們只只允許許有限限的數(shù)數(shù)據(jù)操操作有損壓壓縮::只能能重新新構(gòu)造造原數(shù)數(shù)據(jù)的的近似似表示示影像文文件的的壓縮縮是典典型的的有損損壓縮縮典型的的方法法:小小波變變換、、主要要成分分分析析12/12/202263數(shù)值歸歸約數(shù)值歸歸約::通過過選擇擇替代代的、、“較較小””的數(shù)數(shù)據(jù)表表示形形式來來減少少數(shù)據(jù)據(jù)量有參的的方法法假設(shè)數(shù)數(shù)據(jù)符符合某某些模模型,,通過過評估估模型型參數(shù)數(shù),僅僅需要要存儲儲參數(shù)數(shù),不不需要要存儲儲實(shí)際際數(shù)據(jù)據(jù)(孤孤立點(diǎn)點(diǎn)也可可能被被存放放)典型方方法::對數(shù)數(shù)線性性模型型,它它估計計離散散的多多維概概率分分布無參的的方法法不存在在假想想的模模型典型方方法:直方方圖、、聚類類和抽抽樣12/12/202264直方圖圖類似于于分箱箱技術(shù)術(shù),是是一種種流行行的數(shù)數(shù)據(jù)歸歸約方方式將屬性性值劃劃分為為不相相交的的子集集,或或“桶桶”桶安放放在水水平軸軸上,,而桶桶的高高度((和面面積))是該該桶所所代表表的值值的平平均頻頻率。。每個桶桶只表表示單單個屬屬性值值,則則稱其其為““單桶桶”。。通常常,““桶””表示示給定定屬性性的一一個連連續(xù)空空間可以通通過編編程,,動態(tài)態(tài)修改改部分分參數(shù)數(shù),進(jìn)進(jìn)行合合理構(gòu)構(gòu)造。。count51015202530123456789101-1011-2021-30510152025132515PricePricecount12/12/202265主要內(nèi)內(nèi)容為什么么需要要數(shù)據(jù)據(jù)預(yù)處處理?數(shù)據(jù)清清洗數(shù)據(jù)集集成與與轉(zhuǎn)換換數(shù)據(jù)歸歸約數(shù)據(jù)離離散化化與概概念層層次的的構(gòu)建建本章小小結(jié)12/12/202266數(shù)據(jù)離散散化和概概念層次次屬性值分分類枚舉型有序的無序的連續(xù)型::如Real類型數(shù)據(jù)離散散化對于一個個特定的的連續(xù)屬屬性,可可以把屬屬性值劃劃分成若若干區(qū)間間,以區(qū)區(qū)間值來來代替實(shí)實(shí)際數(shù)據(jù)據(jù)值,以以減少屬屬性值的的個數(shù)。。概念層次次利用高層層的概念念(如兒兒童、青青年、中中年、老老年等))來代替替低層的的實(shí)際數(shù)數(shù)據(jù)值((實(shí)際年年齡),,以減少少屬性值值的個數(shù)數(shù)。12/12/202267數(shù)值數(shù)據(jù)據(jù)的離散散化和概概念分層層建立的的方法分箱(Binning)直方圖分分析聚類分析析的方法法根據(jù)自然然分類進(jìn)進(jìn)行分割割12/12/202268分箱方法法:一種種簡單的的離散化化技術(shù)相同寬度度(距離))數(shù)據(jù)分分割將數(shù)據(jù)分分成N等等份,各各個等份份數(shù)據(jù)之之間具有有相同的的距離如果A和B分分別為屬屬性值中中的最大大值和最最小值,,那么各各個數(shù)據(jù)據(jù)等份之之間的距距離為::W=(B-A)/N.異常點(diǎn)將將會扮演演很重要要的角色色傾斜的數(shù)數(shù)據(jù)不能能很好的的解決相同深度度(頻率))數(shù)據(jù)分分割將數(shù)據(jù)分分成N等等份,各各個等份份具有相相同的數(shù)數(shù)據(jù)個數(shù)數(shù)。具有較好好的可伸伸縮性適合于數(shù)數(shù)據(jù)分類類的情況況12/12/202269離散化::直方圖圖方法將數(shù)據(jù)分分割到若若干個桶桶之中,,用桶中中的平均均值(或或求和等等)來表表示各個個桶??梢酝ㄟ^編程程,動態(tài)修改改部分參數(shù),,進(jìn)行合理構(gòu)構(gòu)造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount12/12/202270離散化:聚類類分析方法將數(shù)據(jù)按照““類內(nèi)最大相相似度,類間間最小相似度度的原則”對對數(shù)據(jù)進(jìn)行有有效聚類利用聚類的中中心點(diǎn)來表示示該類所包含含的對象數(shù)據(jù)聚類將非非常有效,但但是必須保證證數(shù)據(jù)中沒有有噪音數(shù)據(jù)12/12/202271按照自然分類類進(jìn)行數(shù)據(jù)分分割利用3-4-5法則對對數(shù)字型數(shù)據(jù)據(jù)分類,將數(shù)數(shù)據(jù)分成若干干個“自然””的區(qū)間:如果在所有數(shù)數(shù)字的最高位位覆蓋3,6,7或9個不同同的值,則將將數(shù)據(jù)分成3段。3(1,1,1))6(2,,2,2)7(2,3,2)9(3,3,,3)如果在所有數(shù)數(shù)字的最高位位覆蓋2,4,8個不同的值值,則將數(shù)據(jù)據(jù)分成4段段。如果在所有數(shù)數(shù)字的最高位位覆蓋1,5,10個不同的的值,則將數(shù)數(shù)據(jù)分成5段。12/12/2022723-4-5法法則舉例例1:包含數(shù)數(shù)據(jù):101、110、、203、222、305、315方法:最高位位包含3個值值(1、2、、3)分成[100,200)),[200,300)),[300,400))三段例2:包含數(shù)數(shù)據(jù):101、110、、103、422、405、415,400方法:最高位位包含2個值值(1、4))分成[100,150)),[150,200)),[400,450),[450,500)四段例3:包含數(shù)數(shù)據(jù):101、210、、203、322、305、415,500方法:最高位位包含5個值值(1、2、、3、4、5)分成[100,200)),[200,300)),[300,400),[400,500),[500,600)五段12/12/202273分類數(shù)據(jù)的概概念分層概念分層是由由用戶或?qū)<壹覍哂衅蛐蜿P(guān)系的屬性性的一種層次次關(guān)系的顯式式表示。也是是一種數(shù)據(jù)分分類的顯式表表示。概念層次的獲獲得隱式存儲于數(shù)數(shù)據(jù)庫中。如如:地址。由專家顯式給給出。借助數(shù)據(jù)分析析自動生成。。概念層次的表表示基于實(shí)例。如如:{freshman,...,senior}undergraduate.;基于數(shù)據(jù)庫表表模式。如::address(city,province,country)?;谝?guī)則。如如:good(x)undergraduate(x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論