




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1第十講 數(shù)據(jù)挖掘概述本講講授目標(biāo):本講講授目標(biāo):1. 數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘概念2. 數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)3. 數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘的過(guò)程4. 數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)挖掘系統(tǒng)的組成5. 數(shù)據(jù)挖掘常用技術(shù)數(shù)據(jù)挖掘常用技術(shù)6. 數(shù)據(jù)挖掘的類(lèi)型數(shù)據(jù)挖掘的類(lèi)型2一. 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘(數(shù)據(jù)挖掘(ata Mining) :又稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā):又稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是基于、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化現(xiàn),是基于、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原有的數(shù)據(jù),進(jìn)行歸納性推理,從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)地分析原有的數(shù)據(jù),進(jìn)行歸納性推理,從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)等中提取可信的
2、、新穎的、有效的、人們感興趣的、能庫(kù)等中提取可信的、新穎的、有效的、人們感興趣的、能被人理解的知識(shí)的高級(jí)處理過(guò)程。這些知識(shí)是隱含的、事被人理解的知識(shí)的高級(jí)處理過(guò)程。這些知識(shí)是隱含的、事先未知的有用信息,提取的知識(shí)表現(xiàn)為概念、規(guī)則、模式、先未知的有用信息,提取的知識(shí)表現(xiàn)為概念、規(guī)則、模式、規(guī)律等形式,以幫助管理者作出正確的決策。規(guī)律等形式,以幫助管理者作出正確的決策。 模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對(duì)數(shù)據(jù)模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對(duì)數(shù)據(jù)所包含的信息更抽象的描述。模式按功能可以分為預(yù)測(cè)型所包含的信息更抽象的描述。模式按功能可以分為預(yù)測(cè)型模式和描述型模式。在實(shí)際應(yīng)用中,可
3、以細(xì)分為關(guān)聯(lián)模式、模式和描述型模式。在實(shí)際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類(lèi)模式、聚類(lèi)模式和序列模式等。分類(lèi)模式、聚類(lèi)模式和序列模式等。3數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘的發(fā)展1. 7080年代:知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘結(jié)合2. 1989年6月:在美國(guó)底特律舉行了第一屆“從數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)”的國(guó)際學(xué)術(shù)會(huì)議,在這次會(huì)議中第一次使用了KDD 這個(gè)詞來(lái)強(qiáng)調(diào)“知識(shí)”是數(shù)據(jù)驅(qū)動(dòng)(data-driven)發(fā)現(xiàn)的最終結(jié)果。 3. 1995:加拿大召開(kāi)第一屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議4數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘的發(fā)展4.數(shù)據(jù)挖掘技術(shù)的應(yīng)用開(kāi)發(fā)在國(guó)外已經(jīng)迅速發(fā)展,許多大公司(如Informix, Oracle, IBM等)都投入
4、了巨資對(duì)其進(jìn)行研究,并開(kāi)發(fā)出了一些產(chǎn)品和原型,如DBMiner、Quest、EXPLORA等。5.第一本關(guān)于數(shù)據(jù)挖掘的國(guó)際學(xué)術(shù)雜志Data Mining and Knowledge Discovery于1997年3月創(chuàng)刊。6.國(guó)內(nèi)在這方面的研究起步比較晚,早期研究的方向多集中于關(guān)聯(lián)規(guī)則的挖掘,近來(lái)關(guān)于時(shí)序模式、分類(lèi)、聚類(lèi)、WEB數(shù)據(jù)挖掘等的研究也日益受到重視,并取得了不少可喜的成果,一些原型系統(tǒng)或數(shù)據(jù)挖掘工具已經(jīng)研制成功并在不斷完善中。5二二. 數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)(1)DM的步驟:的步驟:l數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備:n數(shù)據(jù)集成數(shù)據(jù)集成n數(shù)據(jù)選擇數(shù)據(jù)選擇n預(yù)分析預(yù)分析l挖掘挖
5、掘l表述表述l評(píng)價(jià)評(píng)價(jià)(2)DM系統(tǒng)的結(jié)構(gòu):系統(tǒng)的結(jié)構(gòu): 用戶(hù)界面用戶(hù)界面結(jié)果輸出結(jié)果輸出數(shù)據(jù)挖掘核心數(shù)據(jù)挖掘核心知識(shí)庫(kù)知識(shí)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)文件系統(tǒng)文件系統(tǒng)其他其他數(shù)據(jù)源數(shù)據(jù)源ODBC或其他專(zhuān)用數(shù)據(jù)庫(kù)接口或其他專(zhuān)用數(shù)據(jù)庫(kù)接口6三三. 數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘的過(guò)程1. 數(shù)據(jù)準(zhǔn)備階段:經(jīng)過(guò)處理過(guò)的數(shù)據(jù)一般存數(shù)據(jù)準(zhǔn)備階段:經(jīng)過(guò)處理過(guò)的數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)準(zhǔn)備是否做得充分儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。包括:終模式的有效性。包括:n 數(shù)據(jù)的選擇:選擇相關(guān)的數(shù)據(jù)數(shù)據(jù)的選擇:選擇相關(guān)的數(shù)據(jù)n
6、 數(shù)據(jù)的凈化:消除噪音、冗余數(shù)據(jù)數(shù)據(jù)的凈化:消除噪音、冗余數(shù)據(jù)n 數(shù)據(jù)的推測(cè):推算缺失數(shù)據(jù)數(shù)據(jù)的推測(cè):推算缺失數(shù)據(jù)n 數(shù)據(jù)的轉(zhuǎn)化:離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間數(shù)據(jù)的轉(zhuǎn)化:離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類(lèi)、數(shù)據(jù)項(xiàng)之的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類(lèi)、數(shù)據(jù)項(xiàng)之間的計(jì)算組合等間的計(jì)算組合等n 數(shù)據(jù)的縮減:減少數(shù)據(jù)量數(shù)據(jù)的縮減:減少數(shù)據(jù)量7三三. 數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘的過(guò)程2. 挖掘階段:該階段是數(shù)據(jù)挖掘的核心步驟,挖掘階段:該階段是數(shù)據(jù)挖掘的核心步驟,也是技術(shù)難點(diǎn)所在。根據(jù)數(shù)據(jù)挖掘的目標(biāo),也是技術(shù)難點(diǎn)所在。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,采用人工智能、集合論、
7、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過(guò)可視化工具表述所獲得的模式或規(guī)則。過(guò)可視化工具表述所獲得的模式或規(guī)則。8三三. 數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘的過(guò)程3. 評(píng)價(jià)階段:在數(shù)據(jù)挖掘中得到的模式可能評(píng)價(jià)階段:在數(shù)據(jù)挖掘中得到的模式可能是沒(méi)有實(shí)際意義或沒(méi)有使用價(jià)值的,也有是沒(méi)有實(shí)際意義或沒(méi)有使用價(jià)值的,也有可能不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,甚至可能不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,甚至在某些情況下是與事實(shí)相反的,因此需要在某些情況下是與事實(shí)相反的,因此需要評(píng)估,確定哪些是有效的、有用的模式。評(píng)估,確定哪些是有效的、有用的模式。評(píng)估可以根據(jù)用戶(hù)多年的經(jīng)驗(yàn),有些模式評(píng)
8、估可以根據(jù)用戶(hù)多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來(lái)檢驗(yàn)其準(zhǔn)確性。也可以直接用數(shù)據(jù)來(lái)檢驗(yàn)其準(zhǔn)確性。9三三. 數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘的過(guò)程4. 鞏固和運(yùn)用階段:用戶(hù)理解的、并被認(rèn)為鞏固和運(yùn)用階段:用戶(hù)理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式形成了知識(shí)。是符合實(shí)際和有價(jià)值的模式形成了知識(shí)。同時(shí)還要對(duì)知識(shí)進(jìn)行一致性檢查,解決與同時(shí)還要對(duì)知識(shí)進(jìn)行一致性檢查,解決與以前得到的知識(shí)互相沖突、矛盾的地方,以前得到的知識(shí)互相沖突、矛盾的地方,使知識(shí)得到鞏固。使知識(shí)得到鞏固。 運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果,就可以對(duì)決策本身所描述的關(guān)系或結(jié)果,就可
9、以對(duì)決策提供支持;另一種是要求運(yùn)用知識(shí)對(duì)新的提供支持;另一種是要求運(yùn)用知識(shí)對(duì)新的數(shù)據(jù)進(jìn)行分析,由此可能產(chǎn)生新的問(wèn)題,數(shù)據(jù)進(jìn)行分析,由此可能產(chǎn)生新的問(wèn)題,而需要對(duì)知識(shí)作進(jìn)一步的優(yōu)化。而需要對(duì)知識(shí)作進(jìn)一步的優(yōu)化。10四. 數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)挖掘系統(tǒng)的組成 數(shù)據(jù)挖掘系統(tǒng)可以采用三層的數(shù)據(jù)挖掘系統(tǒng)可以采用三層的C/S結(jié)構(gòu):結(jié)構(gòu): 第一層:為圖形用戶(hù)界面,位于系統(tǒng)的客戶(hù)端;第一層:為圖形用戶(hù)界面,位于系統(tǒng)的客戶(hù)端; 第二層:為數(shù)據(jù)挖掘引擎,它是數(shù)據(jù)挖掘系統(tǒng)第二層:為數(shù)據(jù)挖掘引擎,它是數(shù)據(jù)挖掘系統(tǒng)的核心,位于系統(tǒng)的應(yīng)用服務(wù)器端;的核心,位于系統(tǒng)的應(yīng)用服務(wù)器端; 第三層:為數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù),位于數(shù)據(jù)服務(wù)
10、第三層:為數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù),位于數(shù)據(jù)服務(wù)器端。器端。11數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)挖掘系統(tǒng)的組成圖形用戶(hù)界面圖形用戶(hù)界面 該模塊實(shí)現(xiàn)用戶(hù)與數(shù)據(jù)挖掘系統(tǒng)之間的通該模塊實(shí)現(xiàn)用戶(hù)與數(shù)據(jù)挖掘系統(tǒng)之間的通信,允許用戶(hù)與系統(tǒng)交互。用戶(hù)可以通過(guò)信,允許用戶(hù)與系統(tǒng)交互。用戶(hù)可以通過(guò)圖形化界面指定數(shù)據(jù)挖掘任務(wù)、輸入有關(guān)圖形化界面指定數(shù)據(jù)挖掘任務(wù)、輸入有關(guān)信息,根據(jù)系統(tǒng)以可視化形式輸出的數(shù)據(jù)信息,根據(jù)系統(tǒng)以可視化形式輸出的數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。此外,該模塊還提供用戶(hù)瀏覽數(shù)據(jù)庫(kù)和數(shù)此外,該模塊還提供用戶(hù)瀏覽數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)模式或數(shù)據(jù)結(jié)構(gòu)、評(píng)價(jià)數(shù)據(jù)挖掘的據(jù)倉(cāng)庫(kù)模式或數(shù)
11、據(jù)結(jié)構(gòu)、評(píng)價(jià)數(shù)據(jù)挖掘的模式等功能。模式等功能。12數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)挖掘系統(tǒng)的組成 數(shù)據(jù)挖掘引擎數(shù)據(jù)挖掘引擎 數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)最基本、最數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)最基本、最重要的部分,是數(shù)據(jù)挖掘系統(tǒng)的核心。該重要的部分,是數(shù)據(jù)挖掘系統(tǒng)的核心。該部分由一系列功能模塊組成,分別用于關(guān)部分由一系列功能模塊組成,分別用于關(guān)聯(lián)規(guī)則挖掘、分類(lèi)規(guī)則挖掘、聚類(lèi)規(guī)則挖聯(lián)規(guī)則挖掘、分類(lèi)規(guī)則挖掘、聚類(lèi)規(guī)則挖掘、時(shí)序與序列數(shù)據(jù)挖掘和掘、時(shí)序與序列數(shù)據(jù)挖掘和WEB數(shù)據(jù)挖掘數(shù)據(jù)挖掘等。等。13數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù) 該部分位于數(shù)據(jù)服務(wù)器端,包括數(shù)據(jù)庫(kù)、該部分位于
12、數(shù)據(jù)服務(wù)器端,包括數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、文件系統(tǒng)、其他數(shù)據(jù)源以及存放知識(shí)庫(kù)、文件系統(tǒng)、其他數(shù)據(jù)源以及存放經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備提取和集成后數(shù)據(jù)的數(shù)據(jù)倉(cāng)經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備提取和集成后數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)。在知識(shí)庫(kù)中存放領(lǐng)域知識(shí),用于搜索庫(kù)。在知識(shí)庫(kù)中存放領(lǐng)域知識(shí),用于搜索和對(duì)模式進(jìn)行評(píng)價(jià)。和對(duì)模式進(jìn)行評(píng)價(jià)。 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器的功能是根據(jù)用數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器的功能是根據(jù)用戶(hù)的數(shù)據(jù)挖掘請(qǐng)求,提取相應(yīng)的數(shù)據(jù)供數(shù)戶(hù)的數(shù)據(jù)挖掘請(qǐng)求,提取相應(yīng)的數(shù)據(jù)供數(shù)據(jù)挖掘引擎使用。據(jù)挖掘引擎使用。14五. 數(shù)據(jù)挖掘常用技術(shù)數(shù)據(jù)挖掘常用技術(shù) 生物學(xué)方法生物學(xué)方法 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò) 遺傳算法遺傳算法 信息論方法信息論方法 決策樹(shù)決策樹(shù)
13、 集合論方法集合論方法 約略集約略集 模糊集模糊集 最鄰近技術(shù)最鄰近技術(shù) 統(tǒng)計(jì)學(xué)方法統(tǒng)計(jì)學(xué)方法 回歸統(tǒng)計(jì)回歸統(tǒng)計(jì) 貝葉斯分類(lèi)貝葉斯分類(lèi) 可視化技術(shù)可視化技術(shù)15六. 數(shù)據(jù)挖掘的類(lèi)型數(shù)據(jù)挖掘的類(lèi)型 數(shù)據(jù)挖掘的任務(wù)是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。根數(shù)據(jù)挖掘的任務(wù)是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。根據(jù)數(shù)據(jù)挖掘的任務(wù)可分為多種類(lèi)型,其中比較典據(jù)數(shù)據(jù)挖掘的任務(wù)可分為多種類(lèi)型,其中比較典型的有:型的有: 預(yù)測(cè)模型預(yù)測(cè)模型 關(guān)聯(lián)分析關(guān)聯(lián)分析 分類(lèi)分析分類(lèi)分析 聚類(lèi)分析聚類(lèi)分析 序列分析序列分析 偏差檢測(cè)偏差檢測(cè) 模式相似性挖掘模式相似性挖掘 Web數(shù)據(jù)挖掘數(shù)據(jù)挖掘16預(yù)測(cè)模型預(yù)測(cè)模型 預(yù)測(cè)模型(預(yù)測(cè)模型(Predicti
14、ve Modeling):所謂預(yù)測(cè)即):所謂預(yù)測(cè)即從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中已知的數(shù)據(jù)推測(cè)未知的數(shù)從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中已知的數(shù)據(jù)推測(cè)未知的數(shù)據(jù)或?qū)ο蠹心承傩缘闹捣植?。?jù)或?qū)ο蠹心承傩缘闹捣植肌?建立預(yù)測(cè)模型的常用方法:建立預(yù)測(cè)模型的常用方法: 回歸分析回歸分析 線性模型線性模型 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 決策樹(shù)預(yù)測(cè)決策樹(shù)預(yù)測(cè) 遺傳算法遺傳算法 神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)17關(guān)聯(lián)分析關(guān)聯(lián)分析 關(guān)聯(lián)(關(guān)聯(lián)(Association)分析:關(guān)聯(lián)規(guī)則描述了一組數(shù)據(jù)項(xiàng))分析:關(guān)聯(lián)規(guī)則描述了一組數(shù)據(jù)項(xiàng)之間的密切度或關(guān)系。關(guān)聯(lián)分析用于發(fā)現(xiàn)項(xiàng)目集之間的關(guān)之間的密切度或關(guān)系。關(guān)聯(lián)分析用于發(fā)現(xiàn)項(xiàng)目集之間的關(guān)聯(lián)。在關(guān)聯(lián)規(guī)則挖掘算法中
15、,通常給出了置信度和支持度聯(lián)。在關(guān)聯(lián)規(guī)則挖掘算法中,通常給出了置信度和支持度兩個(gè)概念,對(duì)于置信度和支持度均大于給定閾值的規(guī)則稱(chēng)兩個(gè)概念,對(duì)于置信度和支持度均大于給定閾值的規(guī)則稱(chēng)為強(qiáng)規(guī)則,而關(guān)聯(lián)分析主要就是對(duì)強(qiáng)規(guī)則的挖掘。為強(qiáng)規(guī)則,而關(guān)聯(lián)分析主要就是對(duì)強(qiáng)規(guī)則的挖掘。 關(guān)聯(lián)規(guī)則挖掘近幾年研究較多。現(xiàn)在,關(guān)聯(lián)規(guī)則的挖掘已關(guān)聯(lián)規(guī)則挖掘近幾年研究較多?,F(xiàn)在,關(guān)聯(lián)規(guī)則的挖掘已經(jīng)從單一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多概念層次的關(guān)經(jīng)從單一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),并把研究的重點(diǎn)放在提高算法的效率和規(guī)聯(lián)規(guī)則的發(fā)現(xiàn),并把研究的重點(diǎn)放在提高算法的效率和規(guī)??墒湛s性上。它廣泛地運(yùn)用于幫助市
16、場(chǎng)導(dǎo)向、商品目錄??墒湛s性上。它廣泛地運(yùn)用于幫助市場(chǎng)導(dǎo)向、商品目錄設(shè)計(jì)客戶(hù)關(guān)系管理)(設(shè)計(jì)客戶(hù)關(guān)系管理)(CRM)和其他各種商業(yè)決策過(guò)程)和其他各種商業(yè)決策過(guò)程中。中。 關(guān)聯(lián)分析算法:關(guān)聯(lián)分析算法:APRIORI算法、算法、DHP算法、算法、DIC算法、算法、PARTITION算法及它們的各種改進(jìn)算法等。另外,對(duì)于算法及它們的各種改進(jìn)算法等。另外,對(duì)于大規(guī)模、分布在不同站點(diǎn)上的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),關(guān)聯(lián)規(guī)大規(guī)模、分布在不同站點(diǎn)上的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),關(guān)聯(lián)規(guī)則的挖掘可以使用并行算法,如:則的挖掘可以使用并行算法,如:Count分布算法、分布算法、Data分布算法、分布算法、Candidate 分布算法
17、、智能分布算法、智能Data分布算法分布算法(IDD)和)和DMA分布算法等。分布算法等。18分類(lèi)分析分類(lèi)分析 分類(lèi)(分類(lèi)(Classification)分析:所謂分類(lèi)是根據(jù)數(shù)據(jù)的特)分析:所謂分類(lèi)是根據(jù)數(shù)據(jù)的特征為每個(gè)類(lèi)別建立一個(gè)模型,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分配征為每個(gè)類(lèi)別建立一個(gè)模型,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分配到不同的組中。在實(shí)際應(yīng)用過(guò)程中,分類(lèi)規(guī)則可以分析分到不同的組中。在實(shí)際應(yīng)用過(guò)程中,分類(lèi)規(guī)則可以分析分組中數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,從而確定組中數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,從而確定哪些數(shù)據(jù)屬于哪些組。這樣就可以利用該模型來(lái)分析已有哪些數(shù)據(jù)屬于哪些組。這樣就可以利用該模
18、型來(lái)分析已有數(shù)據(jù),并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。類(lèi)的描述可以是顯數(shù)據(jù),并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。類(lèi)的描述可以是顯式的,如用一組特征概念描述;也可以是隱式的,如用一式的,如用一組特征概念描述;也可以是隱式的,如用一個(gè)數(shù)學(xué)公式或數(shù)學(xué)模型描述。分類(lèi)分析已經(jīng)成功地用于顧個(gè)數(shù)學(xué)公式或數(shù)學(xué)模型描述。分類(lèi)分析已經(jīng)成功地用于顧客分類(lèi)、疾病分類(lèi)、商業(yè)建模和信用卡分析等。客分類(lèi)、疾病分類(lèi)、商業(yè)建模和信用卡分析等。 分類(lèi)分析的常用方法:分類(lèi)分析的常用方法: 約略(約略(Rough)集)集 決策樹(shù)決策樹(shù) 神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) 統(tǒng)計(jì)分析法統(tǒng)計(jì)分析法19聚類(lèi)分析聚類(lèi)分析 聚類(lèi)聚類(lèi)(Clustering)分析:所謂聚類(lèi)是指一組
19、彼此間非常分析:所謂聚類(lèi)是指一組彼此間非?!跋嗨葡嗨啤钡臄?shù)據(jù)對(duì)象的集合。相似的程度可以通過(guò)距離函的數(shù)據(jù)對(duì)象的集合。相似的程度可以通過(guò)距離函數(shù)來(lái)表示,由用戶(hù)或?qū)<抑付ā>垲?lèi)分析是按照某種相近數(shù)來(lái)表示,由用戶(hù)或?qū)<抑付?。聚?lèi)分析是按照某種相近程度度量方法將數(shù)據(jù)分成互不相同的一些分組。每一個(gè)分程度度量方法將數(shù)據(jù)分成互不相同的一些分組。每一個(gè)分組中的數(shù)據(jù)相近,不同分組之間的數(shù)據(jù)相差較大。好的聚組中的數(shù)據(jù)相近,不同分組之間的數(shù)據(jù)相差較大。好的聚類(lèi)方法可以產(chǎn)生高質(zhì)量的聚類(lèi),保證每一聚類(lèi)內(nèi)部的相似類(lèi)方法可以產(chǎn)生高質(zhì)量的聚類(lèi),保證每一聚類(lèi)內(nèi)部的相似性很高,而各聚類(lèi)之間的相似性很低。聚類(lèi)分析的核心是性很高,而各
20、聚類(lèi)之間的相似性很低。聚類(lèi)分析的核心是將某些定性的相近程度測(cè)量方法轉(zhuǎn)換成定量測(cè)試方法。采將某些定性的相近程度測(cè)量方法轉(zhuǎn)換成定量測(cè)試方法。采用聚類(lèi)分析,系統(tǒng)可以根據(jù)部分?jǐn)?shù)據(jù)發(fā)現(xiàn)規(guī)律,找出對(duì)全用聚類(lèi)分析,系統(tǒng)可以根據(jù)部分?jǐn)?shù)據(jù)發(fā)現(xiàn)規(guī)律,找出對(duì)全體數(shù)據(jù)的描述。體數(shù)據(jù)的描述。 聚類(lèi)分析的常用方法:聚類(lèi)分析的常用方法: 隨機(jī)搜索聚類(lèi)法隨機(jī)搜索聚類(lèi)法 特征聚類(lèi)特征聚類(lèi) CF樹(shù)樹(shù)20序列分析序列分析 序列(序列(Sequence)分析:序列分析主要用)分析:序列分析主要用于分析數(shù)據(jù)倉(cāng)庫(kù)中的某類(lèi)與時(shí)間相關(guān)的數(shù)于分析數(shù)據(jù)倉(cāng)庫(kù)中的某類(lèi)與時(shí)間相關(guān)的數(shù)據(jù),搜索類(lèi)似的序列或子序列,并挖掘時(shí)據(jù),搜索類(lèi)似的序列或子序列,并挖
21、掘時(shí)序模式、周期性、趨勢(shì)和偏離等。例如,序模式、周期性、趨勢(shì)和偏離等。例如,它可以導(dǎo)出類(lèi)似它可以導(dǎo)出類(lèi)似“若若AT&T股票連續(xù)上漲兩股票連續(xù)上漲兩天且天且DEC股票不下跌,則第三天股票不下跌,則第三天IBM股票股票上漲的可能性為上漲的可能性為75%”的數(shù)據(jù)關(guān)系。序列模的數(shù)據(jù)關(guān)系。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時(shí)間屬性。關(guān)聯(lián)模型中增加了時(shí)間屬性。21偏差檢測(cè)與模式相似性挖掘偏差檢測(cè)與模式相似性挖掘 偏差檢測(cè)(偏差檢測(cè)(Deviation Detection):用于檢測(cè)并):用于檢測(cè)并解釋數(shù)據(jù)分類(lèi)的偏差,它有助于濾掉知識(shí)發(fā)現(xiàn)引解釋數(shù)據(jù)分類(lèi)的偏差,它有助于濾掉知識(shí)發(fā)現(xiàn)引擎所抽取的無(wú)關(guān)信息,也可濾掉那些不合適的數(shù)擎所抽取的無(wú)關(guān)信息,也可濾掉那些不合適的數(shù)據(jù),同時(shí)可產(chǎn)生新的關(guān)注性事實(shí)。據(jù),同時(shí)可產(chǎn)生新的關(guān)注性事實(shí)。 模式相似性挖掘:用于在時(shí)間數(shù)據(jù)庫(kù)或空間數(shù)據(jù)模式相似性挖掘:用于在時(shí)間數(shù)據(jù)庫(kù)或空間數(shù)據(jù)庫(kù)中搜索相似模式時(shí),從所有對(duì)象中找出用戶(hù)定庫(kù)中搜索相似模式時(shí),從所有對(duì)象中找出用戶(hù)定義范圍內(nèi)的對(duì)象;或找出所有元素對(duì),元素對(duì)中義范圍內(nèi)的對(duì)象;或找出所有元素對(duì),元素對(duì)中兩者的距離小于用戶(hù)定義的距離范
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國(guó)生絲行業(yè)發(fā)展趨勢(shì)預(yù)測(cè)及投資規(guī)劃研究報(bào)告
- 16 誡子書(shū)2024-2025學(xué)年新教材七年級(jí)上冊(cè)語(yǔ)文新教學(xué)設(shè)計(jì)(統(tǒng)編版2024)
- Module5 Unit1 I was two then(教學(xué)設(shè)計(jì))-2023-2024學(xué)年外研版(三起)英語(yǔ)四年級(jí)下冊(cè)
- 化妝銷(xiāo)售合同范本
- 2025年中國(guó)癬病用藥行業(yè)市場(chǎng)調(diào)查研究及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- 2018-2024年中國(guó)核電市場(chǎng)深度調(diào)研分析及投資前景研究預(yù)測(cè)報(bào)告
- 2025年度新材料研發(fā)保密及排他性合作協(xié)議
- 2025年度防雷技術(shù)服務(wù)合同(含系統(tǒng)升級(jí))
- 環(huán)境風(fēng)險(xiǎn)評(píng)估報(bào)告
- 2025年度電子商務(wù)平臺(tái)運(yùn)營(yíng)與管理綜合服務(wù)合同
- 山東省中考物理總復(fù)習(xí) 八上 第6講 質(zhì)量與密度
- 2023年南京信息職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試筆試模擬試題及答案解析
- 10KV供配電工程施工方案設(shè)計(jì)
- 口語(yǔ)教程4整套課件完整版教學(xué)教程最全電子講義教案
- 商務(wù)部專(zhuān)員績(jī)效考核指標(biāo)量表
- (完整)PEP人教版小學(xué)生英語(yǔ)單詞四年級(jí)上冊(cè)卡片(可直接打印)
- 面神經(jīng)疾病課件
- 基本公共衛(wèi)生服務(wù)項(xiàng)目績(jī)效考核的課件
- 三年級(jí)下冊(cè)小學(xué)科學(xué)活動(dòng)手冊(cè)答案
- 班、團(tuán)、隊(duì)一體化建設(shè)實(shí)施方案
- 最全的人教初中數(shù)學(xué)常用概念、公式和定理
評(píng)論
0/150
提交評(píng)論