課程資源course-商務(wù)智能11data mining

上傳人：洞*** IP屬地：北京上傳時(shí)間：2023-02-25 格式：PPTX 頁數(shù)：102 大?。?.27MB 積分：16 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余97頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘

DataMiningSoftwareInstitute,NanjingUniversityBeiJia2數(shù)據(jù)挖掘（1/2）在數(shù)據(jù)庫及數(shù)據(jù)倉庫中存貯有大量的數(shù)據(jù)，它們具有規(guī)范的結(jié)構(gòu)形式與可靠的來源，且數(shù)量大、保存期間長(zhǎng)，是一種極為寶貴的數(shù)據(jù)資源。充分開發(fā)、利用這些數(shù)據(jù)資源是目前計(jì)算機(jī)界的一項(xiàng)重要工作數(shù)據(jù)資源的利用有三種方式：數(shù)據(jù)資源的查詢服務(wù)數(shù)據(jù)資源的演繹知識(shí)的利用與搜索（AI）演繹數(shù)據(jù)庫統(tǒng)計(jì)分析軟件（SAS，SPSS）OLAP數(shù)據(jù)資源的歸納數(shù)據(jù)挖掘：數(shù)據(jù)資源的歸納數(shù)據(jù)挖掘（2/2）數(shù)據(jù)的三種利用方式之間的區(qū)別可以從文具盒（數(shù)據(jù)庫）中找到橡皮和鉛筆，不可能得到橡皮要和鉛筆配合使用等這樣的信息使用數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)一些用戶未知的信息可以從一張家族譜中找到“甲”是“乙”的后代（知識(shí)庫），但無法據(jù)此推斷出“丙”的祖先是誰使用數(shù)據(jù)挖掘則技術(shù)可以尋找到哪些具有普遍意義的信息（知識(shí)），并可以將其應(yīng)用到其它同類應(yīng)用中，以幫助用戶進(jìn)行決策34數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘？數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用5數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘？數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用6什么是數(shù)據(jù)挖掘？（1/3）數(shù)據(jù)挖掘（DM：DataMining）又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)（KDD：KnowledgeDiscoveryinDatabase）起源于80年代初機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的理論及實(shí)踐是數(shù)據(jù)挖掘研究的基礎(chǔ)，極大的商業(yè)應(yīng)用前景又是數(shù)據(jù)挖掘研究工作的巨大推動(dòng)力傳統(tǒng)的數(shù)據(jù)庫查詢和統(tǒng)計(jì)只能提供想要的信息，而數(shù)據(jù)挖掘技術(shù)則可以發(fā)現(xiàn)沒有意識(shí)到的未知信息7什么是數(shù)據(jù)挖掘？（2/3）什么是數(shù)據(jù)挖掘？定義一：數(shù)據(jù)挖掘就是對(duì)數(shù)據(jù)庫（數(shù)據(jù)倉庫）中蘊(yùn)涵的、未知的、非平凡的、有潛在應(yīng)用價(jià)值的模式（規(guī)則）的提取定義二：數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫（數(shù)據(jù)倉庫）的數(shù)據(jù)中提取人們感興趣的知識(shí)。這些知識(shí)是隱含的、事先未知的潛在有用信息因此，數(shù)據(jù)挖掘必須包括三個(gè)因素：數(shù)據(jù)挖掘的本源：大量、完整的數(shù)據(jù)數(shù)據(jù)挖掘的結(jié)果：知識(shí)、規(guī)則結(jié)果的隱含性：因而需要一個(gè)挖掘過程8什么是數(shù)據(jù)挖掘？（3/3）數(shù)據(jù)挖掘應(yīng)該是在一個(gè)大量的、完整數(shù)據(jù)集中進(jìn)行數(shù)據(jù)的挖掘工作例如：從一個(gè)沒有同名的人群中可以抽取出關(guān)鍵字“姓名”沒有同名現(xiàn)象，但我們并不能據(jù)此推斷出“所有人都不會(huì)取相同的名字”歸納結(jié)果應(yīng)該是具有普遍性意義的規(guī)則從一萬條數(shù)據(jù)中找出的規(guī)律也應(yīng)該能夠適用于十萬、一百萬……的情況數(shù)據(jù)挖掘的目的用歸納出的規(guī)律來指導(dǎo)客觀世界9數(shù)據(jù)挖掘中的幾個(gè)基本概念模式（pattern）知識(shí)（discoveredknowledge）置信度（confidence）興趣度（interestingness）非平凡性（nontrivial）有效性（effectiveness）10模式用高級(jí)語言表示的表達(dá)一定邏輯含義的信息，這里通常指數(shù)據(jù)庫中數(shù)據(jù)與數(shù)據(jù)之間的邏輯關(guān)系例如：在某超市的商品銷售數(shù)據(jù)庫中，我們可以找到以下信息：男性顧客在購買嬰兒尿布時(shí)也往往同時(shí)購買啤酒在購買面包和黃油的顧客中，大部分的人同時(shí)也買了牛奶11知識(shí)滿足用戶對(duì)客觀評(píng)價(jià)標(biāo)準(zhǔn)（例如：興趣度/置信度）和主觀評(píng)價(jià)標(biāo)準(zhǔn)要求的模式置信度在某一數(shù)據(jù)集上，模式成立的程度例如：模式R1：在購買面包和黃油的顧客中，大部分的人同時(shí)也買了牛奶。該模式的置信度為：同時(shí)購買“面包、黃油、牛奶”的顧客人數(shù)占同時(shí)購買“面包、黃油”的顧客人數(shù)的百分比，即：通過數(shù)據(jù)挖掘所發(fā)現(xiàn)的模式的置信度大小涉及到許多因素：如數(shù)據(jù)的完整性、樣本數(shù)據(jù)的大小、領(lǐng)域知識(shí)的支持程度等如果沒有足夠的置信度，模式便不能成為知識(shí)。因此，在數(shù)據(jù)挖掘過程中，通常要規(guī)定模式的最小置信度12興趣度在某一數(shù)據(jù)集上，模式被用戶關(guān)注的程度（也被稱為支持度）例如：模式R1的支持度為“同時(shí)購買‘面包，黃油和牛奶’的顧客人數(shù)占總顧客人數(shù)的百分比”，即：只有當(dāng)一個(gè)模式的“興趣度”達(dá)到一定的程度時(shí)，那么該模式才是一個(gè)有意義的模式，才能引起用戶的注意，有助于用戶的決策制訂過程因此，在數(shù)據(jù)挖掘過程中也要規(guī)定模式的“最小興趣度”，以淘汰哪些在極少情況下才會(huì)出現(xiàn)的模式13非平凡性平凡知識(shí)能夠以確定的計(jì)算過程提取的模式稱為平凡知識(shí)例如：根據(jù)數(shù)據(jù)庫中的薪水字段求得職員的平均薪水平凡的知識(shí)不是數(shù)據(jù)挖掘的目標(biāo)在數(shù)據(jù)挖掘中，知識(shí)的發(fā)現(xiàn)過程都應(yīng)具有某種不確定性和一定的自由度，也就是要發(fā)現(xiàn)不平凡的知識(shí)1415有效性知識(shí)的發(fā)現(xiàn)過程必須能夠有效地在計(jì)算機(jī)上實(shí)現(xiàn)時(shí)間有效性空間有效性數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘要處理大量的數(shù)據(jù)處理的數(shù)據(jù)規(guī)模十分龐大，達(dá)到GB、TB，甚至更大由于用戶不能形成精確的查詢要求，因此要依靠數(shù)據(jù)挖掘技術(shù)為用戶找尋他可能感興趣的東西在數(shù)據(jù)挖掘過程中，規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù)，而是當(dāng)達(dá)到一定的“門檻”時(shí)，即認(rèn)為具有此規(guī)則。因此，利用數(shù)據(jù)挖掘技術(shù)可能會(huì)發(fā)現(xiàn)大量的規(guī)則數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動(dòng)態(tài)的，只反映了當(dāng)前狀態(tài)的數(shù)據(jù)集合具有的規(guī)則隨著不斷地向數(shù)據(jù)庫（數(shù)據(jù)倉庫）中加入新數(shù)據(jù)，需要不斷地重新進(jìn)行數(shù)據(jù)挖掘以更新所發(fā)現(xiàn)的規(guī)則1617數(shù)據(jù)挖掘的相關(guān)領(lǐng)域數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計(jì)學(xué)其他學(xué)科可視化信息科學(xué)機(jī)器學(xué)習(xí)18數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘？數(shù)據(jù)倉庫與數(shù)據(jù)挖掘常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘的應(yīng)用19數(shù)據(jù)倉庫與數(shù)據(jù)挖掘在傳統(tǒng)的決策支持系統(tǒng)中，數(shù)據(jù)挖掘技術(shù)是建立在數(shù)據(jù)庫的基礎(chǔ)上的，數(shù)據(jù)挖掘只是其中的一個(gè)部分，在這之前需要大量的數(shù)據(jù)查詢和預(yù)處理有了數(shù)據(jù)倉庫技術(shù)之后，由于數(shù)據(jù)倉庫中的數(shù)據(jù)都是經(jīng)過抽取、整理和預(yù)處理后的綜合數(shù)據(jù)，因而數(shù)據(jù)挖掘工作可以在數(shù)據(jù)倉庫上直接運(yùn)行基于數(shù)據(jù)庫和基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)的預(yù)處理數(shù)據(jù)庫數(shù)據(jù)源（含數(shù)據(jù)庫）數(shù)據(jù)抽取數(shù)據(jù)倉庫數(shù)據(jù)挖掘2021利用數(shù)據(jù)庫系統(tǒng)進(jìn)行數(shù)據(jù)挖掘的缺點(diǎn)（1/3）動(dòng)態(tài)數(shù)據(jù)大多數(shù)數(shù)據(jù)庫的基本特點(diǎn)是內(nèi)容將經(jīng)常變化。在一個(gè)在線系統(tǒng)中，必須采用預(yù)警機(jī)制來保證數(shù)據(jù)庫中的這些變化不會(huì)導(dǎo)致錯(cuò)誤的數(shù)據(jù)挖掘結(jié)果噪聲和不確定性噪聲數(shù)據(jù)數(shù)據(jù)庫中的錯(cuò)誤數(shù)據(jù)和異常現(xiàn)象不確定性發(fā)現(xiàn)的模式可能只在一部分?jǐn)?shù)據(jù)上有效22利用數(shù)據(jù)庫系統(tǒng)進(jìn)行數(shù)據(jù)挖掘的缺點(diǎn)（2/3）冗余信息同一數(shù)據(jù)在操作型數(shù)據(jù)環(huán)境中的多處出現(xiàn)這種冗余信息有時(shí)會(huì)誤導(dǎo)知識(shí)的發(fā)現(xiàn)過程有可能會(huì)“夸大”某個(gè)模式的置信度，從而導(dǎo)致發(fā)現(xiàn)大量的無意義的模式也有可能“低估”某個(gè)模式的興趣度，從而導(dǎo)致丟失一些有意義的模式23利用數(shù)據(jù)庫系統(tǒng)進(jìn)行數(shù)據(jù)挖掘的缺點(diǎn)（3/3）不完整數(shù)據(jù)由于不完整的數(shù)據(jù)域和數(shù)據(jù)域上值的缺少造成的不完整數(shù)據(jù)當(dāng)然會(huì)影響發(fā)現(xiàn)的結(jié)果數(shù)據(jù)庫的最初設(shè)計(jì)并沒有考慮知識(shí)發(fā)現(xiàn)的應(yīng)用，模式的發(fā)現(xiàn)、評(píng)價(jià)、解釋很可能需要在當(dāng)前數(shù)據(jù)庫中并不存在的信息稀疏數(shù)據(jù)數(shù)據(jù)庫中的信息在實(shí)例空間中可能是稀疏的，這會(huì)嚴(yán)重影響發(fā)現(xiàn)的效率24數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘？數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用25數(shù)據(jù)挖掘技術(shù)在決策支持過程中的地位研究問題域選擇目標(biāo)數(shù)據(jù)集數(shù)據(jù)預(yù)處理

數(shù)

據(jù)

挖

掘

模式評(píng)價(jià)與理解

決策支持應(yīng)用

如果滿足不了用戶的需要

26數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘一般可由下面5個(gè)步驟組成：數(shù)據(jù)集成數(shù)據(jù)歸約挖掘評(píng)價(jià)表示數(shù)據(jù)集成（1/2）數(shù)據(jù)挖掘的基礎(chǔ)是數(shù)據(jù)，因此在挖掘前必須進(jìn)行數(shù)據(jù)集成，這包括：首先，從各類數(shù)據(jù)系統(tǒng)中提取挖掘所需的統(tǒng)一數(shù)據(jù)模型，建立一致的數(shù)據(jù)視圖其次，完成數(shù)據(jù)加載，從而形成挖掘的數(shù)據(jù)基礎(chǔ)鑒于前述原因，目前一般都用數(shù)據(jù)倉庫以實(shí)現(xiàn)數(shù)據(jù)集成數(shù)據(jù)集成（2/2）在數(shù)據(jù)倉庫數(shù)據(jù)的加載過程中，一般需要需要對(duì)數(shù)據(jù)作以下的預(yù)處理：數(shù)據(jù)清理填補(bǔ)丟失的數(shù)據(jù)清除噪聲數(shù)據(jù)修正數(shù)據(jù)的不一致性數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換收集到的數(shù)據(jù)并不一定適合數(shù)據(jù)挖掘的需要。如已有的挖掘方法可能無法處理這些數(shù)據(jù)，存在一些不規(guī)則的數(shù)據(jù)，或者數(shù)據(jù)本身不夠充分等，因此需要對(duì)收集到的數(shù)據(jù)進(jìn)行轉(zhuǎn)換28數(shù)據(jù)歸約（1/2）用于數(shù)據(jù)挖掘的數(shù)據(jù)量是非常巨大的，通過數(shù)據(jù)歸約技術(shù)可以減低數(shù)據(jù)量，提高數(shù)據(jù)挖掘操作的性能如果在歸約后的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘可以獲得與原來一樣或幾乎一樣的挖掘結(jié)果，就可以考慮采用一定的數(shù)據(jù)歸約技術(shù)來減少數(shù)據(jù)量，提高數(shù)據(jù)挖掘的效率常見的數(shù)據(jù)歸約技術(shù)有：數(shù)據(jù)立方體計(jì)算挖掘范圍的選擇數(shù)據(jù)壓縮離散化處理29數(shù)據(jù)歸約（2/2）挖掘范圍的選擇在不影響挖掘結(jié)果的前提下，盡可能地選取哪些與挖掘操作有關(guān)的屬性集數(shù)據(jù)壓縮減低數(shù)據(jù)的規(guī)模，節(jié)省存儲(chǔ)空間開銷和數(shù)據(jù)通訊開銷如果采用的數(shù)據(jù)挖掘算法不需要解壓就可以直接利用那些壓縮數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，那么數(shù)據(jù)壓縮技術(shù)將是非常有用的離散化處理如果一個(gè)屬性的值域是一個(gè)連續(xù)區(qū)域，可以將它劃分為若干個(gè)區(qū)域，然后用每個(gè)區(qū)域的標(biāo)識(shí)值來代替原來的值。用以減低該屬性上屬性值的個(gè)數(shù)也可以利用這種數(shù)據(jù)歸約技術(shù)來自動(dòng)地建立該屬性的概念層次樹3031挖掘根據(jù)挖掘要求選擇相應(yīng)的方法與相應(yīng)的挖掘參數(shù)（如最小置信度、最小興趣度參數(shù)等），在挖掘結(jié)束后即可得到相應(yīng)的規(guī)則32評(píng)價(jià)經(jīng)過挖掘后所得結(jié)果可能有多種，此時(shí)可以對(duì)挖掘的結(jié)果按一定標(biāo)準(zhǔn)作出評(píng)價(jià)，并選取評(píng)價(jià)較高者作為最終結(jié)果33表示數(shù)據(jù)挖掘結(jié)果的規(guī)則可在計(jì)算機(jī)中用一定形式表示出來，它可以包括文字、圖形、表格、圖表等可視化形式，也可同時(shí)用內(nèi)部結(jié)構(gòu)形式存儲(chǔ)于知識(shí)庫中供日后進(jìn)一步分析之用34數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘？數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用35常用的數(shù)據(jù)挖掘方法目前一般常用的數(shù)據(jù)挖掘方法很多，它們大多屬于數(shù)學(xué)統(tǒng)計(jì)方法或人工智能中的機(jī)器學(xué)習(xí)算法，以及人工神經(jīng)網(wǎng)絡(luò)/遺傳算法等在數(shù)據(jù)庫中常用的幾種數(shù)據(jù)挖掘方法包括：特征規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘序列模式分析分類分析聚類分析36特征規(guī)則挖掘特征規(guī)則是一種常見的知識(shí)形式，它用于描述一類數(shù)據(jù)對(duì)象的普遍特征，是普化知識(shí)的一種特征規(guī)則的數(shù)據(jù)挖掘方法有兩類：面向?qū)傩詺w約方法數(shù)據(jù)立方方法37面向?qū)傩詺w約方法這是一種常用的特征規(guī)則的挖掘方法通過對(duì)屬性值間概念的層次結(jié)構(gòu)進(jìn)行歸約，以獲得相關(guān)數(shù)據(jù)的概括性知識(shí)，通常又稱為普化知識(shí)在實(shí)際情況中，許多屬性都可以進(jìn)行數(shù)據(jù)歸類，形成概念匯聚點(diǎn)這些概念依抽象程度的不同可構(gòu)成描述它們層次結(jié)構(gòu)的概念層次樹根據(jù)概念層次樹可以對(duì)供挖掘用的數(shù)據(jù)進(jìn)行預(yù)處理，以生成一個(gè)適合于進(jìn)行數(shù)據(jù)挖掘工作的數(shù)據(jù)集。因此“面向?qū)傩浴钡臄?shù)據(jù)規(guī)約過程實(shí)際上可以作為數(shù)據(jù)挖掘工作而進(jìn)行的數(shù)據(jù)預(yù)處理38概念層次樹指某屬性值所具有的從具體的概念值到概念類的層次關(guān)系樹一般由用戶提供，或者從領(lǐng)域知識(shí)中得到相關(guān)屬性的概念層次樹也可以通過多屬性體系結(jié)構(gòu)自動(dòng)構(gòu)建例：屬性“籍貫”的概念層次樹39規(guī)約用概念層次樹上高層的屬性值去替代低層的屬性值，又稱為概念提升。如：用“江蘇”去代替“南京”用“華東”去代替“江蘇”（或代替“南京”

）目的規(guī)范化一個(gè)屬性的取值提高模式的置信度和興趣度（從而達(dá)到知識(shí)的閾值）40基本關(guān)系表待挖掘的原始細(xì)節(jié)數(shù)據(jù)，以關(guān)系（二維表格）的形式出現(xiàn)，通常來自于準(zhǔn)備好的數(shù)據(jù)庫或數(shù)據(jù)倉庫中學(xué)號(hào)姓名系別書名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89928073朱小明企管大趨勢(shì)2000.5.209822041劉偉歷史大趨勢(shì)2000.6.309932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3概括關(guān)系表（1/2）概括關(guān)系表通過基本關(guān)系表規(guī)約而來，其屬性包括：目標(biāo)數(shù)據(jù)集中參與數(shù)據(jù)挖掘的一個(gè)或多個(gè)屬性每一個(gè)屬性都通過相關(guān)的概念層次樹進(jìn)行了規(guī)約系統(tǒng)為每個(gè)概括關(guān)系表新增加的一個(gè)COUNT屬性基本關(guān)系表中的元組被稱為“基本元組”，而概括關(guān)系表中的元組則被稱為“宏元組”一個(gè)宏元組概括了多個(gè)基本元組，其中的COUNT屬性被用來記錄該宏元組所概括的基本元組數(shù)4142概括關(guān)系表（2/2）在概括關(guān)系表上進(jìn)行數(shù)據(jù)挖掘的優(yōu)點(diǎn)可以通過面向?qū)傩缘囊?guī)約方法進(jìn)行數(shù)據(jù)的預(yù)處理工作，以規(guī)范化屬性的取值填補(bǔ)缺少的屬性值，剔除噪聲數(shù)據(jù)將不適宜數(shù)據(jù)挖掘工作的屬性值進(jìn)行轉(zhuǎn)化根據(jù)概括關(guān)系表中的屬性對(duì)基本關(guān)系表進(jìn)行規(guī)約，可以限制每個(gè)屬性可以取值的數(shù)量，從而將概括關(guān)系表中的宏元組的數(shù)量控制在一個(gè)合適的范圍內(nèi)，以提高數(shù)據(jù)挖掘的性能可以在不同的概念層次上進(jìn)行數(shù)據(jù)挖掘在不同概念層次上進(jìn)行數(shù)據(jù)挖掘，完全可能獲得不同的挖掘結(jié)果面向?qū)傩詺w約方法（1/8）數(shù)據(jù)挖掘的目的尋找借閱《大趨勢(shì)》一書的學(xué)生有什么特征？（就讀專業(yè)的特色）學(xué)號(hào)姓名系別書名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89928073朱小明企管大趨勢(shì)2000.5.209822041劉偉歷史大趨勢(shì)2000.6.309932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3基本關(guān)系表4344面向?qū)傩詺w約方法（2/8）構(gòu)造“系別”屬性的概念層次樹45面向?qū)傩詺w約方法（3/8）依據(jù)上述的概念層次樹對(duì)基本關(guān)系表進(jìn)行規(guī)約在概括關(guān)系表中只保留三個(gè)屬性：系別，書名，count在不同的概念層次上，經(jīng)過規(guī)約可以得到不同的概括關(guān)系表1大趨勢(shì)醫(yī)學(xué)院2大趨勢(shì)文學(xué)院4大趨勢(shì)商學(xué)院借閱次數(shù)（count）書名系別1大趨勢(shì)理科6大趨勢(shì)文科借閱次數(shù)（count）書名系別關(guān)系概括表（1）關(guān)系概括表（2）46面向?qū)傩詺w約方法（4/8）數(shù)據(jù)挖掘前的預(yù)處理在開始特征規(guī)則挖掘之前，需要從概括關(guān)系表中剔除那些出現(xiàn)頻率過低的噪聲數(shù)據(jù)（宏元組）。以減少數(shù)據(jù)挖掘所處理的宏元組的數(shù)量，提高挖掘的效率；同時(shí)也避免得到過多的興趣度不滿足要求的挖掘結(jié)果通常我們會(huì)定義一個(gè)噪聲數(shù)據(jù)的閾值MM通常指概括關(guān)系表中的count屬性的值如果某個(gè)宏元組在count屬性上的取值小于或等于M，則該宏元組將被看作為噪聲數(shù)據(jù)，不參與后續(xù)的數(shù)據(jù)挖掘過程雖然噪聲數(shù)據(jù)不參與挖掘過程，但并不能就此從概括關(guān)系表中刪除噪聲數(shù)據(jù)在計(jì)算規(guī)則的興趣度（支持度）時(shí)需要包括這些噪聲數(shù)據(jù)47面向?qū)傩詺w約方法（5/8）基于基本關(guān)系表的特征規(guī)則挖掘（M=1）以“灰色”為底色的宏元組為噪聲數(shù)據(jù)學(xué)號(hào)姓名系別書名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89928073朱小明企管大趨勢(shì)2000.5.209822041劉偉歷史大趨勢(shì)2000.6.309932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3所發(fā)現(xiàn)的特征規(guī)則是：借閱《大趨勢(shì)》一書的是“經(jīng)濟(jì)系”的學(xué)生48面向?qū)傩詺w約方法（6/8）基于概括關(guān)系表（1）的特征規(guī)則挖掘（M=1）以“灰色”為底色的宏元組為噪聲數(shù)據(jù)1大趨勢(shì)醫(yī)學(xué)院2大趨勢(shì)文學(xué)院4大趨勢(shì)商學(xué)院借閱次數(shù)（count）書名系別概括關(guān)系表（1）依據(jù)借閱次數(shù)的多少來決定是否為噪聲數(shù)據(jù)所發(fā)現(xiàn)的特征規(guī)則是：借閱《大趨勢(shì)》一書的是“商學(xué)院”的學(xué)生借閱《大趨勢(shì)》一書的是“文學(xué)院”的學(xué)生49面向?qū)傩詺w約方法（7/8）基于概括關(guān)系表（2）的特征規(guī)則挖掘（M=1）以“灰色”為底色的宏元組為噪聲數(shù)據(jù)1大趨勢(shì)理科6大趨勢(shì)文科借閱次數(shù)(count)書名系別概括關(guān)系表（2）所發(fā)現(xiàn)的特征規(guī)則是：借閱《大趨勢(shì)》一書的是“文科”的學(xué)生面向?qū)傩詺w約方法（8/8）“數(shù)據(jù)規(guī)約”與“挖掘結(jié)果”之間的關(guān)系在采用面向?qū)傩砸?guī)約方法進(jìn)行數(shù)據(jù)挖掘時(shí)，如果規(guī)約的概念層次過低或過高，可能會(huì)減少挖掘所發(fā)現(xiàn)的規(guī)則過低：大量的宏元組會(huì)成為噪聲數(shù)據(jù)，被剔除在規(guī)則的挖掘之外過高：會(huì)減少概括關(guān)系表中宏元組的數(shù)量，從而減少挖掘結(jié)果中的規(guī)則數(shù)因此，在開始挖掘之前需要選擇一個(gè)合適的規(guī)約層次。同時(shí)挖掘所獲得的結(jié)果規(guī)則的多少也與用戶定義的噪聲數(shù)據(jù)的閾值M有關(guān)50數(shù)據(jù)立方方法（1/2）可以發(fā)現(xiàn)，在面向?qū)傩砸?guī)約方法中，經(jīng)常要做各種統(tǒng)計(jì)查詢。如果預(yù)先做好某些經(jīng)常需要用到但花費(fèi)較高的統(tǒng)計(jì)、求和等集成計(jì)算，并將統(tǒng)計(jì)結(jié)果存放在多維數(shù)據(jù)庫中。那么在構(gòu)造概括關(guān)系表時(shí)，就可以直接從多維數(shù)據(jù)庫中獲得所需要的統(tǒng)計(jì)結(jié)果，從而節(jié)省數(shù)據(jù)規(guī)約的時(shí)間，提高數(shù)據(jù)挖掘的效率采用上述方法的特征規(guī)則挖掘方法被稱為“數(shù)據(jù)立方方法”51數(shù)據(jù)立方方法（2/2）在數(shù)據(jù)立方方法中，常用的分析方法有：數(shù)據(jù)概括（roll_up上翻）將屬性值提升到較高的概念層次上如：從“基本關(guān)系表”到“概括關(guān)系表一”，再到“概括關(guān)系表二”的分析過程數(shù)據(jù)細(xì)化（drill_down下翻）將屬性值減低一些層次如：從“概括關(guān)系表二”到“概括關(guān)系表一”，再到“基本關(guān)系表”的分析過程52特征規(guī)則挖掘vs.OLAP特征規(guī)則挖掘是由參數(shù)主導(dǎo)的自動(dòng)化過程，而OLAP是由分析人員主導(dǎo)的人工過程在特征規(guī)則挖掘過程中，算法可以在閾值的指導(dǎo)下：自動(dòng)決定排除冗余以及和當(dāng)前挖掘任務(wù)無關(guān)的屬性自動(dòng)決定各個(gè)屬性規(guī)約的層次在對(duì)比集的指導(dǎo)下，在挖掘結(jié)果中去除與當(dāng)前挖掘任務(wù)關(guān)聯(lián)不大的屬性53概念描述：特征與區(qū)分除了使用特征規(guī)則挖掘，發(fā)現(xiàn)目標(biāo)集中蘊(yùn)涵的數(shù)據(jù)特點(diǎn)外，還可以在引入對(duì)比集后進(jìn)行區(qū)分規(guī)則挖掘特征規(guī)則挖掘和區(qū)分規(guī)則挖掘，是描述型數(shù)據(jù)挖掘的“一體兩面”，共同構(gòu)成對(duì)一個(gè)目標(biāo)集的概念描述5455關(guān)聯(lián)規(guī)則挖掘（1/4）關(guān)聯(lián)規(guī)則挖掘是另外一種比較常用的數(shù)據(jù)挖掘方法關(guān)聯(lián)規(guī)則（AssociationRule）關(guān)聯(lián)規(guī)則用于表示事務(wù)數(shù)據(jù)庫中諸多屬性之間的關(guān)聯(lián)程度。而關(guān)聯(lián)規(guī)則挖掘則是利用數(shù)據(jù)庫中的大量數(shù)據(jù)通過關(guān)聯(lián)算法尋找屬性間的相關(guān)性“屬性”在這里也被稱為“項(xiàng)”（Item），若干個(gè)屬性所構(gòu)成的一個(gè)屬性集也被稱為一個(gè)“項(xiàng)集”（ItemSet）例：在購買商品A的客戶中的大部分人會(huì)同時(shí)購買商品B，則可用關(guān)聯(lián)規(guī)則表示為：規(guī)則R1：A→B56關(guān)聯(lián)規(guī)則挖掘（2/4）購買A的銷售記錄（X）購買B的銷售記錄（Y）同時(shí)購買A和B的銷售記錄（Z）總的銷售記錄（W）Support(A→B)=

Confidence(A→B)=

5758關(guān)聯(lián)規(guī)則挖掘（4/4）如果不考慮關(guān)聯(lián)規(guī)則的興趣度和置信度，那么任意組合均構(gòu)成關(guān)聯(lián)規(guī)則事實(shí)上，人們一般只對(duì)滿足一定的興趣度和置信度的關(guān)聯(lián)規(guī)則感興趣為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則，需要給定兩個(gè)閾值：最小興趣度和最小置信度滿足最小置信度和最小興趣度的規(guī)則為強(qiáng)規(guī)則，否則為弱規(guī)則關(guān)聯(lián)規(guī)則挖掘的實(shí)質(zhì)是在數(shù)據(jù)庫（數(shù)據(jù)倉庫）中尋找強(qiáng)規(guī)則59Apriori算法（1/3）基本概念項(xiàng)（item）在數(shù)據(jù)庫中出現(xiàn)的屬性值，每一個(gè)屬性值構(gòu)成一個(gè)項(xiàng)項(xiàng)集（itemset）在數(shù)據(jù)庫中出現(xiàn)的屬性值的集合k-項(xiàng)集（k-itemset）由k個(gè)項(xiàng)構(gòu)成的項(xiàng)集頻繁項(xiàng)集（frequentitemset）該項(xiàng)集在數(shù)據(jù)庫中出現(xiàn)的頻度滿足用戶規(guī)定的最小支持度的要求。即同時(shí)含有該項(xiàng)集中的所有屬性值的記錄數(shù)占所有記錄數(shù)的百分比大于等于用戶規(guī)定的最小支持度60Apriori算法（2/3）關(guān)聯(lián)規(guī)則一定是在滿足用戶的最小支持度要求的頻繁項(xiàng)集中產(chǎn)生的假設(shè)X是一個(gè)項(xiàng)集，將X中的屬性值劃分為A和B兩個(gè)集合，如果能夠在A和B之間找到一條關(guān)聯(lián)規(guī)則A→B，那么該規(guī)則的支持度必須能夠滿足用戶定義的最小支持度Min-Support，即：Probability(AB)≥Min-Support關(guān)聯(lián)規(guī)則的挖掘過程也就是在數(shù)據(jù)庫中尋找頻繁項(xiàng)集的過程在尋找頻繁項(xiàng)集的過程中，我們遵循一條規(guī)則：

每個(gè)頻繁項(xiàng)集的任一子集必定也是一個(gè)頻繁項(xiàng)集Apriori算法（3/3）尋找頻繁項(xiàng)集的方法根據(jù)上述的規(guī)則，如果X是一個(gè)k-頻繁項(xiàng)集，從X中任意選取一個(gè)項(xiàng)A，那么由X中除A以外的其它(k-1)個(gè)項(xiàng)所構(gòu)成的(k-1)-項(xiàng)集也是一個(gè)頻繁項(xiàng)集反言之，如果一個(gè)項(xiàng)集X不是一個(gè)頻繁項(xiàng)集（即Probability(X)<Min-Support），則在項(xiàng)集X中擴(kuò)充任意的項(xiàng)后所構(gòu)成的新的項(xiàng)集Y（XY）也不是一個(gè)頻繁項(xiàng)集如果XY，則Probability(X)≥Probability(Y)可以根據(jù)已經(jīng)找到的k-頻繁項(xiàng)集來構(gòu)造出所有可能成為頻繁項(xiàng)集的(k+1)-項(xiàng)集，并根據(jù)對(duì)數(shù)據(jù)庫中記錄的完全掃描來判定哪些是(k+1)-頻繁項(xiàng)集。依此類推，便可以尋找到所有的頻繁項(xiàng)集6162發(fā)現(xiàn)頻繁項(xiàng)集的例子（1/3）假設(shè)最小支持度和最小置信度的要求均為50%(出現(xiàn)2次）63發(fā)現(xiàn)頻繁項(xiàng)集的例子（2/3）B,E400A,B,C,E300B,C,E200A,C,D100ItemsTID數(shù)據(jù)庫D3{E}3{C}3{B}2{A}Sup.ItmesetL1{C,E}{B,E}{B,C}{A,E}{A,C}{A,B}ItmesetC22{C,E}3{B,E}2{B,C}2{A,C}Sup.ItemsetL23{E}1{D}3{C}3{B}2{A}Sup.ItmesetC1ScanD2{C,E}3{B,E}2{B,C}1{A,E}2{A,C}1{A,B}Sup.ItemsetC2ScanD64發(fā)現(xiàn)頻繁項(xiàng)集的例子（3/3）最后得到的頻繁項(xiàng)集是：L1L2L3即：{{A}，{B}，{C}，{E}，{A,C}，{B,C}，{B,E}，{C,E}，{B,C,E}}{B,C,E}ItmesetC3L22{C,E}3{B,E}2{B,C}2{A,C}Sup.ItemsetL3ScanD2{B,C,E}Sup.Itemset65生成關(guān)聯(lián)規(guī)則的例子（1/3）針對(duì)頻繁項(xiàng)集{A,C}，可以構(gòu)造兩條規(guī)則：R1：A→CR2：C→A這兩條規(guī)則的置信度都滿足用戶的最小置信度要求。其計(jì)算方法如下：Confidence(A→C)= support(A,C)/support(A)=100%Confidence(C→A)= support(A,C)/support(C)=66.7%在生成關(guān)聯(lián)規(guī)則的過程中，不需要再進(jìn)行數(shù)據(jù)庫的掃描工作頻繁項(xiàng)集出現(xiàn)次數(shù)A2B3C3E3A,C2B,C2B,E3C,E2B,C,E266生成關(guān)聯(lián)規(guī)則的例子（2/3）針對(duì)頻繁項(xiàng)集{B,C},可以構(gòu)造兩條規(guī)則：R3：B→C(Confidence(B→C)=66.7%)R4：C→B(Confidence(C→B)=66.7%)針對(duì)頻繁項(xiàng)集{B,E},可以構(gòu)造兩條規(guī)則：R5：B→E(Confidence(B→E)=100%)R6：E→B(Confidence(E→B)=100%)針對(duì)頻繁項(xiàng)集{C,E},可以構(gòu)造兩條規(guī)則：R7：C→E(Confidence(C→E)=66.7%)R8：E→C(Confidence(E→C)=66.7%)頻繁項(xiàng)集出現(xiàn)次數(shù)A2B3C3E3A,C2B,C2B,E3C,E2B,C,E267生成關(guān)聯(lián)規(guī)則的例子（3/3）假設(shè)最小置信度為75%針對(duì)頻繁項(xiàng)集{B,C,E},可以構(gòu)造六條規(guī)則：B→C,E(Confidence(B→C,E)=66.7%)C,E→B(Confidence(C,E→B)=100%)C→B,E(Confidence(C→B,E)=66.7%)B,E→C(Confidence(B,E→C)=66.7%)E→B,C(Confidence(E→B,C)=66.7%)B,C→E(Confidence(B,C→E)=100%)符合最小置信度要求的規(guī)則是：R9：C,E→BR10：B,C→E頻繁項(xiàng)集出現(xiàn)次數(shù)A2B3C3E3A,C2B,C2B,E3C,E2B,C,E268Apriori算法的優(yōu)化方法其時(shí)間開銷主要花在數(shù)據(jù)庫的多遍掃描上，主要的優(yōu)化方法有：數(shù)據(jù)庫的劃分（Partitioning）方法每一部分都能全部放在內(nèi)存中進(jìn)行掃描最后對(duì)得到的所有頻繁項(xiàng)集進(jìn)行歸并利用HASH方法篩選2-頻繁項(xiàng)集利用采樣數(shù)據(jù)集得到可能成立的規(guī)則，再利用數(shù)據(jù)庫中的剩余數(shù)據(jù)來驗(yàn)證這些規(guī)則的正確性減少每一遍掃描所處理的記錄數(shù)如果一條記錄不含有長(zhǎng)度為k的頻繁項(xiàng)集，那么該記錄也不可能含有長(zhǎng)度為(k+1)的頻繁項(xiàng)集在得到所有k-頻繁項(xiàng)集后，以后的每次掃描就不必訪問上述的那些記錄，從而逐步減少被掃描的記錄數(shù)69序列模式分析序列模式分析與關(guān)聯(lián)規(guī)則挖掘類似，也是為了找出數(shù)據(jù)對(duì)象之間的聯(lián)系，但序列模式分析法的側(cè)重點(diǎn)是為了找出數(shù)據(jù)對(duì)象之間的前因后果關(guān)系被分析對(duì)象具有前后的時(shí)序關(guān)系例如：下雨----洪澇電筒----電池70分類分析（1/4）數(shù)據(jù)分類（dataclassification）是數(shù)據(jù)挖掘的主要內(nèi)容之一，主要是通過分析訓(xùn)練數(shù)據(jù)樣本，產(chǎn)生關(guān)于類別的精確描述。這種類別通常由分類規(guī)則組成，可以用來對(duì)未來的數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)首先為每一個(gè)數(shù)據(jù)（記錄）打上一個(gè)標(biāo)記，即按標(biāo)記對(duì)數(shù)據(jù)（記錄）進(jìn)行分類，而分類分析則是對(duì)每類數(shù)據(jù)（具有相同標(biāo)記的一組記錄）找出其固有的特征與規(guī)律例如：信用卡公司對(duì)持卡人的信譽(yù)度標(biāo)記按：優(yōu)、良、一般，及差四檔分類。這樣，持卡人就被分成為四種類型，然后利用分類分析找出每一類持卡人的特征與規(guī)律電話計(jì)費(fèi)系統(tǒng)可以根據(jù)在不同時(shí)間段內(nèi)電話的使用頻率來調(diào)整計(jì)費(fèi)單價(jià)71分類分析（2/4）數(shù)據(jù)分類是一個(gè)兩個(gè)步驟的過程：第1步：建立一個(gè)模型，描述給定的數(shù)據(jù)類集或概念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型用于建立模型的元組集稱為訓(xùn)練數(shù)據(jù)集，其中每個(gè)元組稱為訓(xùn)練樣本每個(gè)訓(xùn)練樣本屬于一個(gè)預(yù)定義的類，由類標(biāo)號(hào)屬性確定由于給出了類標(biāo)號(hào)屬性，因此該步驟又稱為有指導(dǎo)的學(xué)習(xí)如果訓(xùn)練樣本的類標(biāo)號(hào)是未知的，則稱為無指導(dǎo)的學(xué)習(xí)（聚類）學(xué)習(xí)模型可用分類規(guī)則、決策樹和數(shù)學(xué)公式的形式給出第2步：使用模型對(duì)數(shù)據(jù)進(jìn)行分類。包括評(píng)估模型的分類準(zhǔn)確性以及對(duì)類標(biāo)號(hào)未知的元組按模型進(jìn)行分類72分類分析（3/4）73分類分析（4/4）訓(xùn)練數(shù)據(jù)集的分類標(biāo)準(zhǔn)可以是用戶給定的，也可以從領(lǐng)域知識(shí)中獲取分類分析法是一種特征歸納的方法，它將每類數(shù)據(jù)所共有的特性抽取以獲得規(guī)律性的規(guī)則，目前有很多分析方法，它們大都基于：決策樹方法貝葉斯方法人工神經(jīng)網(wǎng)絡(luò)方法約略集方法遺傳算法74決策樹方法（1/3）決策樹（DecisionTree）又稱為判定樹，是運(yùn)用于分類的一種樹結(jié)構(gòu)。其中的每個(gè)內(nèi)部結(jié)點(diǎn)（internalnode）代表對(duì)某個(gè)屬性的一次測(cè)試，每條邊代表一個(gè)測(cè)試結(jié)果，葉結(jié)點(diǎn)（leaf）代表某個(gè)類（class）或者類的分布（classdistribution），最上面的結(jié)點(diǎn)是根結(jié)點(diǎn)決策樹提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。75決策樹方法（2/3）下例是一棵決策樹，表示了一個(gè)關(guān)心電子產(chǎn)品的用戶是否會(huì)購買PC（puter）的知識(shí)，用它可以預(yù)測(cè)某條記錄（某個(gè)人）的購買意向76決策樹方法（3/3）由判定樹產(chǎn)生分類規(guī)則IFage＝“<=30”ANDstudent=“no”THENputer=“no”IFage＝“<=30”ANDstudent=“yes”THENputer=“yes”IFage＝“30…40”THENputer=“yes”IFage＝“>40”ANDcredit_rating=“excellent”THENputer=“no”IFage＝“>40”ANDcredit_rating=“fair”THENputer=“no”77聚類分析（1/5）聚類分析又稱集群分析，它是研究分類問題的一種多元統(tǒng)計(jì)方法聚類分析分為距離聚類和相似系數(shù)聚類78聚類分析（2/5）聚類分析與分類分析相反：首先輸入的是一組沒有被標(biāo)記的記錄，系統(tǒng)按照一定的規(guī)則合理地劃分記錄集合（相當(dāng)于給記錄打標(biāo)記，只不過分類標(biāo)準(zhǔn)不是用戶指定的）然后可以采用分類分析法進(jìn)行數(shù)據(jù)分析，并根據(jù)分析的結(jié)果重新對(duì)原來的記錄集合（沒有被標(biāo)記的記錄集合）進(jìn)行劃分，進(jìn)而再一次進(jìn)行分類分析，如此循環(huán)往復(fù)，直到獲得滿意的分析結(jié)果為止例如信用卡的等級(jí)劃分學(xué)生的分類聚類分析（3/5）主要的聚類方法劃分方法層次的方法基于密度的方法基于網(wǎng)格的方法基于模型的方法7980聚類分析（4/5）xyxy81聚類分析（5/5）聚類分析的結(jié)果——聚類樹82數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘？數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用83數(shù)據(jù)挖掘的應(yīng)用某些具有特定的應(yīng)用問題和應(yīng)用背景的領(lǐng)域，是最能體現(xiàn)數(shù)據(jù)挖掘作用的應(yīng)用領(lǐng)域?qū)@些應(yīng)用領(lǐng)域中應(yīng)用問題的了解，將有助于人們對(duì)數(shù)據(jù)挖掘技術(shù)的了解金融業(yè)保險(xiǎn)業(yè)零售業(yè)科學(xué)研究其他行業(yè)針對(duì)其他數(shù)據(jù)源的數(shù)據(jù)挖掘84金融業(yè)對(duì)帳戶進(jìn)行信用等級(jí)評(píng)估股票交易規(guī)律分析信用卡使用模式分析金融市場(chǎng)的分析和預(yù)測(cè)85保險(xiǎn)業(yè)保險(xiǎn)費(fèi)率的確定從大量客戶投保數(shù)據(jù)中分析并取得不同條件、不同人員、不同險(xiǎn)種、不同時(shí)間與年齡的保險(xiǎn)費(fèi)率，使保險(xiǎn)業(yè)主能獲得合理的利潤(rùn)險(xiǎn)種關(guān)聯(lián)分析分析客戶在購買了某種保險(xiǎn)后是否同時(shí)還會(huì)購買另一種保險(xiǎn)認(rèn)購險(xiǎn)種的預(yù)測(cè)通過數(shù)據(jù)挖掘預(yù)測(cè)新險(xiǎn)種的客戶群以及新險(xiǎn)種的前景86零售業(yè)可以分析顧客行為與習(xí)慣可以分析商場(chǎng)銷售商品的構(gòu)成數(shù)據(jù)挖掘還可用于商品銷售預(yù)測(cè)、商品價(jià)格分析以及零售點(diǎn)設(shè)置布局等方面87科學(xué)研究數(shù)據(jù)挖掘可以從大量的、漫無邊際的實(shí)驗(yàn)數(shù)據(jù)與歷史資料中提煉出對(duì)科學(xué)規(guī)則發(fā)現(xiàn)有用的信息，從而起到協(xié)助科學(xué)規(guī)律發(fā)現(xiàn)的作用88其他行業(yè)醫(yī)療電信司法故障診斷……89應(yīng)用實(shí)例（1/6）我們將數(shù)據(jù)挖掘技術(shù)應(yīng)用于某保險(xiǎn)公司的業(yè)務(wù)數(shù)據(jù)庫上，以挖掘該保險(xiǎn)公司有關(guān)客戶、業(yè)務(wù)員以及承保、理賠方面的規(guī)律。挖掘的部分結(jié)果如下：應(yīng)用實(shí)例（2/6）關(guān)聯(lián)規(guī)則發(fā)現(xiàn)：從20912條元組所構(gòu)成的524個(gè)事務(wù)中，共發(fā)現(xiàn)了4條關(guān)聯(lián)規(guī)則：①“遞增型養(yǎng)老保險(xiǎn)”和“少兒一生幸福”有關(guān)聯(lián)②“遞增型養(yǎng)老保險(xiǎn)”和“為了明天終生幸?！庇嘘P(guān)聯(lián)③“為了明天終生幸?！焙汀斑f增型養(yǎng)老保險(xiǎn)”有關(guān)聯(lián)④“為了明天終生幸福”和“少兒一生幸?！庇嘘P(guān)聯(lián)這四條知識(shí)說明，保戶投保的險(xiǎn)種之間可能有

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

課程資源course-商務(wù)智能11data mining

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

課程資源course-商務(wù)智能11data mining

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔