下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘
DataMiningSoftwareInstitute,NanjingUniversityBeiJia2數(shù)據(jù)挖掘(1/2)在數(shù)據(jù)庫(kù)及數(shù)據(jù)倉(cāng)庫(kù)中存貯有大量的數(shù)據(jù),它們具有規(guī)范的結(jié)構(gòu)形式與可靠的來(lái)源,且數(shù)量大、保存期間長(zhǎng),是一種極為寶貴的數(shù)據(jù)資源。充分開(kāi)發(fā)、利用這些數(shù)據(jù)資源是目前計(jì)算機(jī)界的一項(xiàng)重要工作數(shù)據(jù)資源的利用有三種方式:數(shù)據(jù)資源的查詢服務(wù)數(shù)據(jù)資源的演繹知識(shí)的利用與搜索(AI)演繹數(shù)據(jù)庫(kù)統(tǒng)計(jì)分析軟件(SAS,SPSS)OLAP數(shù)據(jù)資源的歸納數(shù)據(jù)挖掘:數(shù)據(jù)資源的歸納數(shù)據(jù)挖掘(2/2)數(shù)據(jù)的三種利用方式之間的區(qū)別可以從文具盒(數(shù)據(jù)庫(kù))中找到橡皮和鉛筆,不可能得到橡皮要和鉛筆配合使用等這樣的信息使用數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)一些用戶未知的信息可以從一張家族譜中找到“甲”是“乙”的后代(知識(shí)庫(kù)),但無(wú)法據(jù)此推斷出“丙”的祖先是誰(shuí)使用數(shù)據(jù)挖掘則技術(shù)可以尋找到哪些具有普遍意義的信息(知識(shí)),并可以將其應(yīng)用到其它同類應(yīng)用中,以幫助用戶進(jìn)行決策34數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用5數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用6什么是數(shù)據(jù)挖掘?(1/3)數(shù)據(jù)挖掘(DM:DataMining)又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD:KnowledgeDiscoveryinDatabase)起源于80年代初機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的理論及實(shí)踐是數(shù)據(jù)挖掘研究的基礎(chǔ),極大的商業(yè)應(yīng)用前景又是數(shù)據(jù)挖掘研究工作的巨大推動(dòng)力傳統(tǒng)的數(shù)據(jù)庫(kù)查詢和統(tǒng)計(jì)只能提供想要的信息,而數(shù)據(jù)挖掘技術(shù)則可以發(fā)現(xiàn)沒(méi)有意識(shí)到的未知信息7什么是數(shù)據(jù)挖掘?(2/3)什么是數(shù)據(jù)挖掘?定義一:數(shù)據(jù)挖掘就是對(duì)數(shù)據(jù)庫(kù)(數(shù)據(jù)倉(cāng)庫(kù))中蘊(yùn)涵的、未知的、非平凡的、有潛在應(yīng)用價(jià)值的模式(規(guī)則)的提取定義二:數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫(kù)(數(shù)據(jù)倉(cāng)庫(kù))的數(shù)據(jù)中提取人們感興趣的知識(shí)。這些知識(shí)是隱含的、事先未知的潛在有用信息因此,數(shù)據(jù)挖掘必須包括三個(gè)因素:數(shù)據(jù)挖掘的本源:大量、完整的數(shù)據(jù)數(shù)據(jù)挖掘的結(jié)果:知識(shí)、規(guī)則結(jié)果的隱含性:因而需要一個(gè)挖掘過(guò)程8什么是數(shù)據(jù)挖掘?(3/3)數(shù)據(jù)挖掘應(yīng)該是在一個(gè)大量的、完整數(shù)據(jù)集中進(jìn)行數(shù)據(jù)的挖掘工作例如:從一個(gè)沒(méi)有同名的人群中可以抽取出關(guān)鍵字“姓名”沒(méi)有同名現(xiàn)象,但我們并不能據(jù)此推斷出“所有人都不會(huì)取相同的名字”歸納結(jié)果應(yīng)該是具有普遍性意義的規(guī)則從一萬(wàn)條數(shù)據(jù)中找出的規(guī)律也應(yīng)該能夠適用于十萬(wàn)、一百萬(wàn)……的情況數(shù)據(jù)挖掘的目的用歸納出的規(guī)律來(lái)指導(dǎo)客觀世界9數(shù)據(jù)挖掘中的幾個(gè)基本概念模式(pattern)知識(shí)(discoveredknowledge)置信度(confidence)興趣度(interestingness)非平凡性(nontrivial)有效性(effectiveness)10模式用高級(jí)語(yǔ)言表示的表達(dá)一定邏輯含義的信息,這里通常指數(shù)據(jù)庫(kù)中數(shù)據(jù)與數(shù)據(jù)之間的邏輯關(guān)系例如:在某超市的商品銷售數(shù)據(jù)庫(kù)中,我們可以找到以下信息:男性顧客在購(gòu)買嬰兒尿布時(shí)也往往同時(shí)購(gòu)買啤酒在購(gòu)買面包和黃油的顧客中,大部分的人同時(shí)也買了牛奶11知識(shí)滿足用戶對(duì)客觀評(píng)價(jià)標(biāo)準(zhǔn)(例如:興趣度/置信度)和主觀評(píng)價(jià)標(biāo)準(zhǔn)要求的模式置信度在某一數(shù)據(jù)集上,模式成立的程度例如:模式R1:在購(gòu)買面包和黃油的顧客中,大部分的人同時(shí)也買了牛奶。該模式的置信度為:同時(shí)購(gòu)買“面包、黃油、牛奶”的顧客人數(shù)占同時(shí)購(gòu)買“面包、黃油”的顧客人數(shù)的百分比,即:通過(guò)數(shù)據(jù)挖掘所發(fā)現(xiàn)的模式的置信度大小涉及到許多因素:如數(shù)據(jù)的完整性、樣本數(shù)據(jù)的大小、領(lǐng)域知識(shí)的支持程度等如果沒(méi)有足夠的置信度,模式便不能成為知識(shí)。因此,在數(shù)據(jù)挖掘過(guò)程中,通常要規(guī)定模式的最小置信度12興趣度在某一數(shù)據(jù)集上,模式被用戶關(guān)注的程度(也被稱為支持度)例如:模式R1的支持度為“同時(shí)購(gòu)買‘面包,黃油和牛奶’的顧客人數(shù)占總顧客人數(shù)的百分比”,即:只有當(dāng)一個(gè)模式的“興趣度”達(dá)到一定的程度時(shí),那么該模式才是一個(gè)有意義的模式,才能引起用戶的注意,有助于用戶的決策制訂過(guò)程因此,在數(shù)據(jù)挖掘過(guò)程中也要規(guī)定模式的“最小興趣度”,以淘汰哪些在極少情況下才會(huì)出現(xiàn)的模式13非平凡性平凡知識(shí)能夠以確定的計(jì)算過(guò)程提取的模式稱為平凡知識(shí)例如:根據(jù)數(shù)據(jù)庫(kù)中的薪水字段求得職員的平均薪水平凡的知識(shí)不是數(shù)據(jù)挖掘的目標(biāo)在數(shù)據(jù)挖掘中,知識(shí)的發(fā)現(xiàn)過(guò)程都應(yīng)具有某種不確定性和一定的自由度,也就是要發(fā)現(xiàn)不平凡的知識(shí)1415有效性知識(shí)的發(fā)現(xiàn)過(guò)程必須能夠有效地在計(jì)算機(jī)上實(shí)現(xiàn)時(shí)間有效性空間有效性數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘要處理大量的數(shù)據(jù)處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB,甚至更大由于用戶不能形成精確的查詢要求,因此要依靠數(shù)據(jù)挖掘技術(shù)為用戶找尋他可能感興趣的東西在數(shù)據(jù)挖掘過(guò)程中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),而是當(dāng)達(dá)到一定的“門檻”時(shí),即認(rèn)為具有此規(guī)則。因此,利用數(shù)據(jù)挖掘技術(shù)可能會(huì)發(fā)現(xiàn)大量的規(guī)則數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動(dòng)態(tài)的,只反映了當(dāng)前狀態(tài)的數(shù)據(jù)集合具有的規(guī)則隨著不斷地向數(shù)據(jù)庫(kù)(數(shù)據(jù)倉(cāng)庫(kù))中加入新數(shù)據(jù),需要不斷地重新進(jìn)行數(shù)據(jù)挖掘以更新所發(fā)現(xiàn)的規(guī)則1617數(shù)據(jù)挖掘的相關(guān)領(lǐng)域數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)系統(tǒng)統(tǒng)計(jì)學(xué)其他學(xué)科可視化信息科學(xué)機(jī)器學(xué)習(xí)18數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘的應(yīng)用19數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘在傳統(tǒng)的決策支持系統(tǒng)中,數(shù)據(jù)挖掘技術(shù)是建立在數(shù)據(jù)庫(kù)的基礎(chǔ)上的,數(shù)據(jù)挖掘只是其中的一個(gè)部分,在這之前需要大量的數(shù)據(jù)查詢和預(yù)處理有了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)之后,由于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都是經(jīng)過(guò)抽取、整理和預(yù)處理后的綜合數(shù)據(jù),因而數(shù)據(jù)挖掘工作可以在數(shù)據(jù)倉(cāng)庫(kù)上直接運(yùn)行基于數(shù)據(jù)庫(kù)和基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)的預(yù)處理數(shù)據(jù)庫(kù)數(shù)據(jù)源(含數(shù)據(jù)庫(kù))數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘2021利用數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行數(shù)據(jù)挖掘的缺點(diǎn)(1/3)動(dòng)態(tài)數(shù)據(jù)大多數(shù)數(shù)據(jù)庫(kù)的基本特點(diǎn)是內(nèi)容將經(jīng)常變化。在一個(gè)在線系統(tǒng)中,必須采用預(yù)警機(jī)制來(lái)保證數(shù)據(jù)庫(kù)中的這些變化不會(huì)導(dǎo)致錯(cuò)誤的數(shù)據(jù)挖掘結(jié)果噪聲和不確定性噪聲數(shù)據(jù)數(shù)據(jù)庫(kù)中的錯(cuò)誤數(shù)據(jù)和異?,F(xiàn)象不確定性發(fā)現(xiàn)的模式可能只在一部分?jǐn)?shù)據(jù)上有效22利用數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行數(shù)據(jù)挖掘的缺點(diǎn)(2/3)冗余信息同一數(shù)據(jù)在操作型數(shù)據(jù)環(huán)境中的多處出現(xiàn)這種冗余信息有時(shí)會(huì)誤導(dǎo)知識(shí)的發(fā)現(xiàn)過(guò)程有可能會(huì)“夸大”某個(gè)模式的置信度,從而導(dǎo)致發(fā)現(xiàn)大量的無(wú)意義的模式也有可能“低估”某個(gè)模式的興趣度,從而導(dǎo)致丟失一些有意義的模式23利用數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行數(shù)據(jù)挖掘的缺點(diǎn)(3/3)不完整數(shù)據(jù)由于不完整的數(shù)據(jù)域和數(shù)據(jù)域上值的缺少造成的不完整數(shù)據(jù)當(dāng)然會(huì)影響發(fā)現(xiàn)的結(jié)果數(shù)據(jù)庫(kù)的最初設(shè)計(jì)并沒(méi)有考慮知識(shí)發(fā)現(xiàn)的應(yīng)用,模式的發(fā)現(xiàn)、評(píng)價(jià)、解釋很可能需要在當(dāng)前數(shù)據(jù)庫(kù)中并不存在的信息稀疏數(shù)據(jù)數(shù)據(jù)庫(kù)中的信息在實(shí)例空間中可能是稀疏的,這會(huì)嚴(yán)重影響發(fā)現(xiàn)的效率24數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用25數(shù)據(jù)挖掘技術(shù)在決策支持過(guò)程中的地位研究問(wèn)題域選擇目標(biāo)數(shù)據(jù)集數(shù)據(jù)預(yù)處理
數(shù)
據(jù)
挖
掘
模式評(píng)價(jià)與理解
決策支持應(yīng)用
如果滿足不了用戶的需要
26數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘一般可由下面5個(gè)步驟組成:數(shù)據(jù)集成數(shù)據(jù)歸約挖掘評(píng)價(jià)表示數(shù)據(jù)集成(1/2)數(shù)據(jù)挖掘的基礎(chǔ)是數(shù)據(jù),因此在挖掘前必須進(jìn)行數(shù)據(jù)集成,這包括:首先,從各類數(shù)據(jù)系統(tǒng)中提取挖掘所需的統(tǒng)一數(shù)據(jù)模型,建立一致的數(shù)據(jù)視圖其次,完成數(shù)據(jù)加載,從而形成挖掘的數(shù)據(jù)基礎(chǔ)鑒于前述原因,目前一般都用數(shù)據(jù)倉(cāng)庫(kù)以實(shí)現(xiàn)數(shù)據(jù)集成數(shù)據(jù)集成(2/2)在數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的加載過(guò)程中,一般需要需要對(duì)數(shù)據(jù)作以下的預(yù)處理:數(shù)據(jù)清理填補(bǔ)丟失的數(shù)據(jù)清除噪聲數(shù)據(jù)修正數(shù)據(jù)的不一致性數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換收集到的數(shù)據(jù)并不一定適合數(shù)據(jù)挖掘的需要。如已有的挖掘方法可能無(wú)法處理這些數(shù)據(jù),存在一些不規(guī)則的數(shù)據(jù),或者數(shù)據(jù)本身不夠充分等,因此需要對(duì)收集到的數(shù)據(jù)進(jìn)行轉(zhuǎn)換28數(shù)據(jù)歸約(1/2)用于數(shù)據(jù)挖掘的數(shù)據(jù)量是非常巨大的,通過(guò)數(shù)據(jù)歸約技術(shù)可以減低數(shù)據(jù)量,提高數(shù)據(jù)挖掘操作的性能如果在歸約后的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘可以獲得與原來(lái)一樣或幾乎一樣的挖掘結(jié)果,就可以考慮采用一定的數(shù)據(jù)歸約技術(shù)來(lái)減少數(shù)據(jù)量,提高數(shù)據(jù)挖掘的效率常見(jiàn)的數(shù)據(jù)歸約技術(shù)有:數(shù)據(jù)立方體計(jì)算挖掘范圍的選擇數(shù)據(jù)壓縮離散化處理29數(shù)據(jù)歸約(2/2)挖掘范圍的選擇在不影響挖掘結(jié)果的前提下,盡可能地選取哪些與挖掘操作有關(guān)的屬性集數(shù)據(jù)壓縮減低數(shù)據(jù)的規(guī)模,節(jié)省存儲(chǔ)空間開(kāi)銷和數(shù)據(jù)通訊開(kāi)銷如果采用的數(shù)據(jù)挖掘算法不需要解壓就可以直接利用那些壓縮數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,那么數(shù)據(jù)壓縮技術(shù)將是非常有用的離散化處理如果一個(gè)屬性的值域是一個(gè)連續(xù)區(qū)域,可以將它劃分為若干個(gè)區(qū)域,然后用每個(gè)區(qū)域的標(biāo)識(shí)值來(lái)代替原來(lái)的值。用以減低該屬性上屬性值的個(gè)數(shù)也可以利用這種數(shù)據(jù)歸約技術(shù)來(lái)自動(dòng)地建立該屬性的概念層次樹(shù)3031挖掘根據(jù)挖掘要求選擇相應(yīng)的方法與相應(yīng)的挖掘參數(shù)(如最小置信度、最小興趣度參數(shù)等),在挖掘結(jié)束后即可得到相應(yīng)的規(guī)則32評(píng)價(jià)經(jīng)過(guò)挖掘后所得結(jié)果可能有多種,此時(shí)可以對(duì)挖掘的結(jié)果按一定標(biāo)準(zhǔn)作出評(píng)價(jià),并選取評(píng)價(jià)較高者作為最終結(jié)果33表示數(shù)據(jù)挖掘結(jié)果的規(guī)則可在計(jì)算機(jī)中用一定形式表示出來(lái),它可以包括文字、圖形、表格、圖表等可視化形式,也可同時(shí)用內(nèi)部結(jié)構(gòu)形式存儲(chǔ)于知識(shí)庫(kù)中供日后進(jìn)一步分析之用34數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用35常用的數(shù)據(jù)挖掘方法目前一般常用的數(shù)據(jù)挖掘方法很多,它們大多屬于數(shù)學(xué)統(tǒng)計(jì)方法或人工智能中的機(jī)器學(xué)習(xí)算法,以及人工神經(jīng)網(wǎng)絡(luò)/遺傳算法等在數(shù)據(jù)庫(kù)中常用的幾種數(shù)據(jù)挖掘方法包括:特征規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘序列模式分析分類分析聚類分析36特征規(guī)則挖掘特征規(guī)則是一種常見(jiàn)的知識(shí)形式,它用于描述一類數(shù)據(jù)對(duì)象的普遍特征,是普化知識(shí)的一種特征規(guī)則的數(shù)據(jù)挖掘方法有兩類:面向?qū)傩詺w約方法數(shù)據(jù)立方方法37面向?qū)傩詺w約方法這是一種常用的特征規(guī)則的挖掘方法通過(guò)對(duì)屬性值間概念的層次結(jié)構(gòu)進(jìn)行歸約,以獲得相關(guān)數(shù)據(jù)的概括性知識(shí),通常又稱為普化知識(shí)在實(shí)際情況中,許多屬性都可以進(jìn)行數(shù)據(jù)歸類,形成概念匯聚點(diǎn)這些概念依抽象程度的不同可構(gòu)成描述它們層次結(jié)構(gòu)的概念層次樹(shù)根據(jù)概念層次樹(shù)可以對(duì)供挖掘用的數(shù)據(jù)進(jìn)行預(yù)處理,以生成一個(gè)適合于進(jìn)行數(shù)據(jù)挖掘工作的數(shù)據(jù)集。因此“面向?qū)傩浴钡臄?shù)據(jù)規(guī)約過(guò)程實(shí)際上可以作為數(shù)據(jù)挖掘工作而進(jìn)行的數(shù)據(jù)預(yù)處理38概念層次樹(shù)指某屬性值所具有的從具體的概念值到概念類的層次關(guān)系樹(shù)一般由用戶提供,或者從領(lǐng)域知識(shí)中得到相關(guān)屬性的概念層次樹(shù)也可以通過(guò)多屬性體系結(jié)構(gòu)自動(dòng)構(gòu)建例:屬性“籍貫”的概念層次樹(shù)39規(guī)約用概念層次樹(shù)上高層的屬性值去替代低層的屬性值,又稱為概念提升。如:用“江蘇”去代替“南京”用“華東”去代替“江蘇”(或代替“南京”
)目的規(guī)范化一個(gè)屬性的取值提高模式的置信度和興趣度(從而達(dá)到知識(shí)的閾值)40基本關(guān)系表待挖掘的原始細(xì)節(jié)數(shù)據(jù),以關(guān)系(二維表格)的形式出現(xiàn),通常來(lái)自于準(zhǔn)備好的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中學(xué)號(hào)姓名系別書(shū)名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89928073朱小明企管大趨勢(shì)2000.5.209822041劉偉歷史大趨勢(shì)2000.6.309932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3概括關(guān)系表(1/2)概括關(guān)系表通過(guò)基本關(guān)系表規(guī)約而來(lái),其屬性包括:目標(biāo)數(shù)據(jù)集中參與數(shù)據(jù)挖掘的一個(gè)或多個(gè)屬性每一個(gè)屬性都通過(guò)相關(guān)的概念層次樹(shù)進(jìn)行了規(guī)約系統(tǒng)為每個(gè)概括關(guān)系表新增加的一個(gè)COUNT屬性基本關(guān)系表中的元組被稱為“基本元組”,而概括關(guān)系表中的元組則被稱為“宏元組”一個(gè)宏元組概括了多個(gè)基本元組,其中的COUNT屬性被用來(lái)記錄該宏元組所概括的基本元組數(shù)4142概括關(guān)系表(2/2)在概括關(guān)系表上進(jìn)行數(shù)據(jù)挖掘的優(yōu)點(diǎn)可以通過(guò)面向?qū)傩缘囊?guī)約方法進(jìn)行數(shù)據(jù)的預(yù)處理工作,以規(guī)范化屬性的取值填補(bǔ)缺少的屬性值,剔除噪聲數(shù)據(jù)將不適宜數(shù)據(jù)挖掘工作的屬性值進(jìn)行轉(zhuǎn)化根據(jù)概括關(guān)系表中的屬性對(duì)基本關(guān)系表進(jìn)行規(guī)約,可以限制每個(gè)屬性可以取值的數(shù)量,從而將概括關(guān)系表中的宏元組的數(shù)量控制在一個(gè)合適的范圍內(nèi),以提高數(shù)據(jù)挖掘的性能可以在不同的概念層次上進(jìn)行數(shù)據(jù)挖掘在不同概念層次上進(jìn)行數(shù)據(jù)挖掘,完全可能獲得不同的挖掘結(jié)果面向?qū)傩詺w約方法(1/8)數(shù)據(jù)挖掘的目的尋找借閱《大趨勢(shì)》一書(shū)的學(xué)生有什么特征?(就讀專業(yè)的特色)學(xué)號(hào)姓名系別書(shū)名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89928073朱小明企管大趨勢(shì)2000.5.209822041劉偉歷史大趨勢(shì)2000.6.309932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3基本關(guān)系表4344面向?qū)傩詺w約方法(2/8)構(gòu)造“系別”屬性的概念層次樹(shù)45面向?qū)傩詺w約方法(3/8)依據(jù)上述的概念層次樹(shù)對(duì)基本關(guān)系表進(jìn)行規(guī)約在概括關(guān)系表中只保留三個(gè)屬性:系別,書(shū)名,count在不同的概念層次上,經(jīng)過(guò)規(guī)約可以得到不同的概括關(guān)系表1大趨勢(shì)醫(yī)學(xué)院2大趨勢(shì)文學(xué)院4大趨勢(shì)商學(xué)院借閱次數(shù)(count)書(shū)名系別1大趨勢(shì)理科6大趨勢(shì)文科借閱次數(shù)(count)書(shū)名系別關(guān)系概括表(1)關(guān)系概括表(2)46面向?qū)傩詺w約方法(4/8)數(shù)據(jù)挖掘前的預(yù)處理在開(kāi)始特征規(guī)則挖掘之前,需要從概括關(guān)系表中剔除那些出現(xiàn)頻率過(guò)低的噪聲數(shù)據(jù)(宏元組)。以減少數(shù)據(jù)挖掘所處理的宏元組的數(shù)量,提高挖掘的效率;同時(shí)也避免得到過(guò)多的興趣度不滿足要求的挖掘結(jié)果通常我們會(huì)定義一個(gè)噪聲數(shù)據(jù)的閾值MM通常指概括關(guān)系表中的count屬性的值如果某個(gè)宏元組在count屬性上的取值小于或等于M,則該宏元組將被看作為噪聲數(shù)據(jù),不參與后續(xù)的數(shù)據(jù)挖掘過(guò)程雖然噪聲數(shù)據(jù)不參與挖掘過(guò)程,但并不能就此從概括關(guān)系表中刪除噪聲數(shù)據(jù)在計(jì)算規(guī)則的興趣度(支持度)時(shí)需要包括這些噪聲數(shù)據(jù)47面向?qū)傩詺w約方法(5/8)基于基本關(guān)系表的特征規(guī)則挖掘(M=1)以“灰色”為底色的宏元組為噪聲數(shù)據(jù)學(xué)號(hào)姓名系別書(shū)名借閱日期9932007顏立經(jīng)濟(jì)大趨勢(shì)2000.3.169833090王家衛(wèi)金融大趨勢(shì)2000.3.169813105王向東醫(yī)學(xué)院大趨勢(shì)2000.5.89928073朱小明企管大趨勢(shì)2000.5.209822041劉偉歷史大趨勢(shì)2000.6.309932056陳立業(yè)經(jīng)濟(jì)大趨勢(shì)2000.9.199923143劉英新聞大趨勢(shì)2000.12.3所發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書(shū)的是“經(jīng)濟(jì)系”的學(xué)生48面向?qū)傩詺w約方法(6/8)基于概括關(guān)系表(1)的特征規(guī)則挖掘(M=1)以“灰色”為底色的宏元組為噪聲數(shù)據(jù)1大趨勢(shì)醫(yī)學(xué)院2大趨勢(shì)文學(xué)院4大趨勢(shì)商學(xué)院借閱次數(shù)(count)書(shū)名系別概括關(guān)系表(1)依據(jù)借閱次數(shù)的多少來(lái)決定是否為噪聲數(shù)據(jù)所發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書(shū)的是“商學(xué)院”的學(xué)生借閱《大趨勢(shì)》一書(shū)的是“文學(xué)院”的學(xué)生49面向?qū)傩詺w約方法(7/8)基于概括關(guān)系表(2)的特征規(guī)則挖掘(M=1)以“灰色”為底色的宏元組為噪聲數(shù)據(jù)1大趨勢(shì)理科6大趨勢(shì)文科借閱次數(shù)(count)書(shū)名系別概括關(guān)系表(2)所發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢(shì)》一書(shū)的是“文科”的學(xué)生面向?qū)傩詺w約方法(8/8)“數(shù)據(jù)規(guī)約”與“挖掘結(jié)果”之間的關(guān)系在采用面向?qū)傩砸?guī)約方法進(jìn)行數(shù)據(jù)挖掘時(shí),如果規(guī)約的概念層次過(guò)低或過(guò)高,可能會(huì)減少挖掘所發(fā)現(xiàn)的規(guī)則過(guò)低:大量的宏元組會(huì)成為噪聲數(shù)據(jù),被剔除在規(guī)則的挖掘之外過(guò)高:會(huì)減少概括關(guān)系表中宏元組的數(shù)量,從而減少挖掘結(jié)果中的規(guī)則數(shù)因此,在開(kāi)始挖掘之前需要選擇一個(gè)合適的規(guī)約層次。同時(shí)挖掘所獲得的結(jié)果規(guī)則的多少也與用戶定義的噪聲數(shù)據(jù)的閾值M有關(guān)50數(shù)據(jù)立方方法(1/2)可以發(fā)現(xiàn),在面向?qū)傩砸?guī)約方法中,經(jīng)常要做各種統(tǒng)計(jì)查詢。如果預(yù)先做好某些經(jīng)常需要用到但花費(fèi)較高的統(tǒng)計(jì)、求和等集成計(jì)算,并將統(tǒng)計(jì)結(jié)果存放在多維數(shù)據(jù)庫(kù)中。那么在構(gòu)造概括關(guān)系表時(shí),就可以直接從多維數(shù)據(jù)庫(kù)中獲得所需要的統(tǒng)計(jì)結(jié)果,從而節(jié)省數(shù)據(jù)規(guī)約的時(shí)間,提高數(shù)據(jù)挖掘的效率采用上述方法的特征規(guī)則挖掘方法被稱為“數(shù)據(jù)立方方法”51數(shù)據(jù)立方方法(2/2)在數(shù)據(jù)立方方法中,常用的分析方法有:數(shù)據(jù)概括(roll_up上翻)將屬性值提升到較高的概念層次上如:從“基本關(guān)系表”到“概括關(guān)系表一”,再到“概括關(guān)系表二”的分析過(guò)程數(shù)據(jù)細(xì)化(drill_down下翻)將屬性值減低一些層次如:從“概括關(guān)系表二”到“概括關(guān)系表一”,再到“基本關(guān)系表”的分析過(guò)程52特征規(guī)則挖掘vs.OLAP特征規(guī)則挖掘是由參數(shù)主導(dǎo)的自動(dòng)化過(guò)程,而OLAP是由分析人員主導(dǎo)的人工過(guò)程在特征規(guī)則挖掘過(guò)程中,算法可以在閾值的指導(dǎo)下:自動(dòng)決定排除冗余以及和當(dāng)前挖掘任務(wù)無(wú)關(guān)的屬性自動(dòng)決定各個(gè)屬性規(guī)約的層次在對(duì)比集的指導(dǎo)下,在挖掘結(jié)果中去除與當(dāng)前挖掘任務(wù)關(guān)聯(lián)不大的屬性53概念描述:特征與區(qū)分除了使用特征規(guī)則挖掘,發(fā)現(xiàn)目標(biāo)集中蘊(yùn)涵的數(shù)據(jù)特點(diǎn)外,還可以在引入對(duì)比集后進(jìn)行區(qū)分規(guī)則挖掘特征規(guī)則挖掘和區(qū)分規(guī)則挖掘,是描述型數(shù)據(jù)挖掘的“一體兩面”,共同構(gòu)成對(duì)一個(gè)目標(biāo)集的概念描述5455關(guān)聯(lián)規(guī)則挖掘(1/4)關(guān)聯(lián)規(guī)則挖掘是另外一種比較常用的數(shù)據(jù)挖掘方法關(guān)聯(lián)規(guī)則(AssociationRule)關(guān)聯(lián)規(guī)則用于表示事務(wù)數(shù)據(jù)庫(kù)中諸多屬性之間的關(guān)聯(lián)程度。而關(guān)聯(lián)規(guī)則挖掘則是利用數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)通過(guò)關(guān)聯(lián)算法尋找屬性間的相關(guān)性“屬性”在這里也被稱為“項(xiàng)”(Item),若干個(gè)屬性所構(gòu)成的一個(gè)屬性集也被稱為一個(gè)“項(xiàng)集”(ItemSet)例:在購(gòu)買商品A的客戶中的大部分人會(huì)同時(shí)購(gòu)買商品B,則可用關(guān)聯(lián)規(guī)則表示為:規(guī)則R1:A→B56關(guān)聯(lián)規(guī)則挖掘(2/4)購(gòu)買A的銷售記錄(X)購(gòu)買B的銷售記錄(Y)同時(shí)購(gòu)買A和B的銷售記錄(Z)總的銷售記錄(W)Support(A→B)=
Confidence(A→B)=
5758關(guān)聯(lián)規(guī)則挖掘(4/4)如果不考慮關(guān)聯(lián)規(guī)則的興趣度和置信度,那么任意組合均構(gòu)成關(guān)聯(lián)規(guī)則事實(shí)上,人們一般只對(duì)滿足一定的興趣度和置信度的關(guān)聯(lián)規(guī)則感興趣為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小興趣度和最小置信度滿足最小置信度和最小興趣度的規(guī)則為強(qiáng)規(guī)則,否則為弱規(guī)則關(guān)聯(lián)規(guī)則挖掘的實(shí)質(zhì)是在數(shù)據(jù)庫(kù)(數(shù)據(jù)倉(cāng)庫(kù))中尋找強(qiáng)規(guī)則59Apriori算法(1/3)基本概念項(xiàng)(item)在數(shù)據(jù)庫(kù)中出現(xiàn)的屬性值,每一個(gè)屬性值構(gòu)成一個(gè)項(xiàng)項(xiàng)集(itemset)在數(shù)據(jù)庫(kù)中出現(xiàn)的屬性值的集合k-項(xiàng)集(k-itemset)由k個(gè)項(xiàng)構(gòu)成的項(xiàng)集頻繁項(xiàng)集(frequentitemset)該項(xiàng)集在數(shù)據(jù)庫(kù)中出現(xiàn)的頻度滿足用戶規(guī)定的最小支持度的要求。即同時(shí)含有該項(xiàng)集中的所有屬性值的記錄數(shù)占所有記錄數(shù)的百分比大于等于用戶規(guī)定的最小支持度60Apriori算法(2/3)關(guān)聯(lián)規(guī)則一定是在滿足用戶的最小支持度要求的頻繁項(xiàng)集中產(chǎn)生的假設(shè)X是一個(gè)項(xiàng)集,將X中的屬性值劃分為A和B兩個(gè)集合,如果能夠在A和B之間找到一條關(guān)聯(lián)規(guī)則A→B,那么該規(guī)則的支持度必須能夠滿足用戶定義的最小支持度Min-Support,即:Probability(AB)≥Min-Support關(guān)聯(lián)規(guī)則的挖掘過(guò)程也就是在數(shù)據(jù)庫(kù)中尋找頻繁項(xiàng)集的過(guò)程在尋找頻繁項(xiàng)集的過(guò)程中,我們遵循一條規(guī)則:
每個(gè)頻繁項(xiàng)集的任一子集必定也是一個(gè)頻繁項(xiàng)集Apriori算法(3/3)尋找頻繁項(xiàng)集的方法根據(jù)上述的規(guī)則,如果X是一個(gè)k-頻繁項(xiàng)集,從X中任意選取一個(gè)項(xiàng)A,那么由X中除A以外的其它(k-1)個(gè)項(xiàng)所構(gòu)成的(k-1)-項(xiàng)集也是一個(gè)頻繁項(xiàng)集反言之,如果一個(gè)項(xiàng)集X不是一個(gè)頻繁項(xiàng)集(即Probability(X)<Min-Support),則在項(xiàng)集X中擴(kuò)充任意的項(xiàng)后所構(gòu)成的新的項(xiàng)集Y(XY)也不是一個(gè)頻繁項(xiàng)集如果XY,則Probability(X)≥Probability(Y)可以根據(jù)已經(jīng)找到的k-頻繁項(xiàng)集來(lái)構(gòu)造出所有可能成為頻繁項(xiàng)集的(k+1)-項(xiàng)集,并根據(jù)對(duì)數(shù)據(jù)庫(kù)中記錄的完全掃描來(lái)判定哪些是(k+1)-頻繁項(xiàng)集。依此類推,便可以尋找到所有的頻繁項(xiàng)集6162發(fā)現(xiàn)頻繁項(xiàng)集的例子(1/3)假設(shè)最小支持度和最小置信度的要求均為50%(出現(xiàn)2次)63發(fā)現(xiàn)頻繁項(xiàng)集的例子(2/3)B,E400A,B,C,E300B,C,E200A,C,D100ItemsTID數(shù)據(jù)庫(kù)D3{E}3{C}3{B}2{A}Sup.ItmesetL1{C,E}{B,E}{B,C}{A,E}{A,C}{A,B}ItmesetC22{C,E}3{B,E}2{B,C}2{A,C}Sup.ItemsetL23{E}1{D}3{C}3{B}2{A}Sup.ItmesetC1ScanD2{C,E}3{B,E}2{B,C}1{A,E}2{A,C}1{A,B}Sup.ItemsetC2ScanD64發(fā)現(xiàn)頻繁項(xiàng)集的例子(3/3)最后得到的頻繁項(xiàng)集是:L1L2L3即:{{A},{B},{C},{E},{A,C},{B,C},{B,E},{C,E},{B,C,E}}{B,C,E}ItmesetC3L22{C,E}3{B,E}2{B,C}2{A,C}Sup.ItemsetL3ScanD2{B,C,E}Sup.Itemset65生成關(guān)聯(lián)規(guī)則的例子(1/3)針對(duì)頻繁項(xiàng)集{A,C},可以構(gòu)造兩條規(guī)則:R1:A→CR2:C→A這兩條規(guī)則的置信度都滿足用戶的最小置信度要求。其計(jì)算方法如下:Confidence(A→C)= support(A,C)/support(A)=100%Confidence(C→A)= support(A,C)/support(C)=66.7%在生成關(guān)聯(lián)規(guī)則的過(guò)程中,不需要再進(jìn)行數(shù)據(jù)庫(kù)的掃描工作頻繁項(xiàng)集出現(xiàn)次數(shù)A2B3C3E3A,C2B,C2B,E3C,E2B,C,E266生成關(guān)聯(lián)規(guī)則的例子(2/3)針對(duì)頻繁項(xiàng)集{B,C},可以構(gòu)造兩條規(guī)則:R3:B→C(Confidence(B→C)=66.7%)R4:C→B(Confidence(C→B)=66.7%)針對(duì)頻繁項(xiàng)集{B,E},可以構(gòu)造兩條規(guī)則:R5:B→E(Confidence(B→E)=100%)R6:E→B(Confidence(E→B)=100%)針對(duì)頻繁項(xiàng)集{C,E},可以構(gòu)造兩條規(guī)則:R7:C→E(Confidence(C→E)=66.7%)R8:E→C(Confidence(E→C)=66.7%)頻繁項(xiàng)集出現(xiàn)次數(shù)A2B3C3E3A,C2B,C2B,E3C,E2B,C,E267生成關(guān)聯(lián)規(guī)則的例子(3/3)假設(shè)最小置信度為75%針對(duì)頻繁項(xiàng)集{B,C,E},可以構(gòu)造六條規(guī)則:B→C,E(Confidence(B→C,E)=66.7%)C,E→B(Confidence(C,E→B)=100%)C→B,E(Confidence(C→B,E)=66.7%)B,E→C(Confidence(B,E→C)=66.7%)E→B,C(Confidence(E→B,C)=66.7%)B,C→E(Confidence(B,C→E)=100%)符合最小置信度要求的規(guī)則是:R9:C,E→BR10:B,C→E頻繁項(xiàng)集出現(xiàn)次數(shù)A2B3C3E3A,C2B,C2B,E3C,E2B,C,E268Apriori算法的優(yōu)化方法其時(shí)間開(kāi)銷主要花在數(shù)據(jù)庫(kù)的多遍掃描上,主要的優(yōu)化方法有:數(shù)據(jù)庫(kù)的劃分(Partitioning)方法每一部分都能全部放在內(nèi)存中進(jìn)行掃描最后對(duì)得到的所有頻繁項(xiàng)集進(jìn)行歸并利用HASH方法篩選2-頻繁項(xiàng)集利用采樣數(shù)據(jù)集得到可能成立的規(guī)則,再利用數(shù)據(jù)庫(kù)中的剩余數(shù)據(jù)來(lái)驗(yàn)證這些規(guī)則的正確性減少每一遍掃描所處理的記錄數(shù)如果一條記錄不含有長(zhǎng)度為k的頻繁項(xiàng)集,那么該記錄也不可能含有長(zhǎng)度為(k+1)的頻繁項(xiàng)集在得到所有k-頻繁項(xiàng)集后,以后的每次掃描就不必訪問(wèn)上述的那些記錄,從而逐步減少被掃描的記錄數(shù)69序列模式分析序列模式分析與關(guān)聯(lián)規(guī)則挖掘類似,也是為了找出數(shù)據(jù)對(duì)象之間的聯(lián)系,但序列模式分析法的側(cè)重點(diǎn)是為了找出數(shù)據(jù)對(duì)象之間的前因后果關(guān)系被分析對(duì)象具有前后的時(shí)序關(guān)系例如:下雨----洪澇電筒----電池70分類分析(1/4)數(shù)據(jù)分類(dataclassification)是數(shù)據(jù)挖掘的主要內(nèi)容之一,主要是通過(guò)分析訓(xùn)練數(shù)據(jù)樣本,產(chǎn)生關(guān)于類別的精確描述。這種類別通常由分類規(guī)則組成,可以用來(lái)對(duì)未來(lái)的數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)首先為每一個(gè)數(shù)據(jù)(記錄)打上一個(gè)標(biāo)記,即按標(biāo)記對(duì)數(shù)據(jù)(記錄)進(jìn)行分類,而分類分析則是對(duì)每類數(shù)據(jù)(具有相同標(biāo)記的一組記錄)找出其固有的特征與規(guī)律例如:信用卡公司對(duì)持卡人的信譽(yù)度標(biāo)記按:優(yōu)、良、一般,及差四檔分類。這樣,持卡人就被分成為四種類型,然后利用分類分析找出每一類持卡人的特征與規(guī)律電話計(jì)費(fèi)系統(tǒng)可以根據(jù)在不同時(shí)間段內(nèi)電話的使用頻率來(lái)調(diào)整計(jì)費(fèi)單價(jià)71分類分析(2/4)數(shù)據(jù)分類是一個(gè)兩個(gè)步驟的過(guò)程:第1步:建立一個(gè)模型,描述給定的數(shù)據(jù)類集或概念集。通過(guò)分析由屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型用于建立模型的元組集稱為訓(xùn)練數(shù)據(jù)集,其中每個(gè)元組稱為訓(xùn)練樣本每個(gè)訓(xùn)練樣本屬于一個(gè)預(yù)定義的類,由類標(biāo)號(hào)屬性確定由于給出了類標(biāo)號(hào)屬性,因此該步驟又稱為有指導(dǎo)的學(xué)習(xí)如果訓(xùn)練樣本的類標(biāo)號(hào)是未知的,則稱為無(wú)指導(dǎo)的學(xué)習(xí)(聚類)學(xué)習(xí)模型可用分類規(guī)則、決策樹(shù)和數(shù)學(xué)公式的形式給出第2步:使用模型對(duì)數(shù)據(jù)進(jìn)行分類。包括評(píng)估模型的分類準(zhǔn)確性以及對(duì)類標(biāo)號(hào)未知的元組按模型進(jìn)行分類72分類分析(3/4)73分類分析(4/4)訓(xùn)練數(shù)據(jù)集的分類標(biāo)準(zhǔn)可以是用戶給定的,也可以從領(lǐng)域知識(shí)中獲取分類分析法是一種特征歸納的方法,它將每類數(shù)據(jù)所共有的特性抽取以獲得規(guī)律性的規(guī)則,目前有很多分析方法,它們大都基于:決策樹(shù)方法貝葉斯方法人工神經(jīng)網(wǎng)絡(luò)方法約略集方法遺傳算法74決策樹(shù)方法(1/3)決策樹(shù)(DecisionTree)又稱為判定樹(shù),是運(yùn)用于分類的一種樹(shù)結(jié)構(gòu)。其中的每個(gè)內(nèi)部結(jié)點(diǎn)(internalnode)代表對(duì)某個(gè)屬性的一次測(cè)試,每條邊代表一個(gè)測(cè)試結(jié)果,葉結(jié)點(diǎn)(leaf)代表某個(gè)類(class)或者類的分布(classdistribution),最上面的結(jié)點(diǎn)是根結(jié)點(diǎn)決策樹(shù)提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。75決策樹(shù)方法(2/3)下例是一棵決策樹(shù),表示了一個(gè)關(guān)心電子產(chǎn)品的用戶是否會(huì)購(gòu)買PC(puter)的知識(shí),用它可以預(yù)測(cè)某條記錄(某個(gè)人)的購(gòu)買意向76決策樹(shù)方法(3/3)由判定樹(shù)產(chǎn)生分類規(guī)則IFage=“<=30”ANDstudent=“no”THENputer=“no”IFage=“<=30”ANDstudent=“yes”THENputer=“yes”IFage=“30…40”THENputer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENputer=“no”IFage=“>40”ANDcredit_rating=“fair”THENputer=“no”77聚類分析(1/5)聚類分析又稱集群分析,它是研究分類問(wèn)題的一種多元統(tǒng)計(jì)方法聚類分析分為距離聚類和相似系數(shù)聚類78聚類分析(2/5)聚類分析與分類分析相反:首先輸入的是一組沒(méi)有被標(biāo)記的記錄,系統(tǒng)按照一定的規(guī)則合理地劃分記錄集合(相當(dāng)于給記錄打標(biāo)記,只不過(guò)分類標(biāo)準(zhǔn)不是用戶指定的)然后可以采用分類分析法進(jìn)行數(shù)據(jù)分析,并根據(jù)分析的結(jié)果重新對(duì)原來(lái)的記錄集合(沒(méi)有被標(biāo)記的記錄集合)進(jìn)行劃分,進(jìn)而再一次進(jìn)行分類分析,如此循環(huán)往復(fù),直到獲得滿意的分析結(jié)果為止例如信用卡的等級(jí)劃分學(xué)生的分類聚類分析(3/5)主要的聚類方法劃分方法層次的方法基于密度的方法基于網(wǎng)格的方法基于模型的方法7980聚類分析(4/5)xyxy81聚類分析(5/5)聚類分析的結(jié)果——聚類樹(shù)82數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟常用的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的應(yīng)用83數(shù)據(jù)挖掘的應(yīng)用某些具有特定的應(yīng)用問(wèn)題和應(yīng)用背景的領(lǐng)域,是最能體現(xiàn)數(shù)據(jù)挖掘作用的應(yīng)用領(lǐng)域?qū)@些應(yīng)用領(lǐng)域中應(yīng)用問(wèn)題的了解,將有助于人們對(duì)數(shù)據(jù)挖掘技術(shù)的了解金融業(yè)保險(xiǎn)業(yè)零售業(yè)科學(xué)研究其他行業(yè)針對(duì)其他數(shù)據(jù)源的數(shù)據(jù)挖掘84金融業(yè)對(duì)帳戶進(jìn)行信用等級(jí)評(píng)估股票交易規(guī)律分析信用卡使用模式分析金融市場(chǎng)的分析和預(yù)測(cè)85保險(xiǎn)業(yè)保險(xiǎn)費(fèi)率的確定從大量客戶投保數(shù)據(jù)中分析并取得不同條件、不同人員、不同險(xiǎn)種、不同時(shí)間與年齡的保險(xiǎn)費(fèi)率,使保險(xiǎn)業(yè)主能獲得合理的利潤(rùn)險(xiǎn)種關(guān)聯(lián)分析分析客戶在購(gòu)買了某種保險(xiǎn)后是否同時(shí)還會(huì)購(gòu)買另一種保險(xiǎn)認(rèn)購(gòu)險(xiǎn)種的預(yù)測(cè)通過(guò)數(shù)據(jù)挖掘預(yù)測(cè)新險(xiǎn)種的客戶群以及新險(xiǎn)種的前景86零售業(yè)可以分析顧客行為與習(xí)慣可以分析商場(chǎng)銷售商品的構(gòu)成數(shù)據(jù)挖掘還可用于商品銷售預(yù)測(cè)、商品價(jià)格分析以及零售點(diǎn)設(shè)置布局等方面87科學(xué)研究數(shù)據(jù)挖掘可以從大量的、漫無(wú)邊際的實(shí)驗(yàn)數(shù)據(jù)與歷史資料中提煉出對(duì)科學(xué)規(guī)則發(fā)現(xiàn)有用的信息,從而起到協(xié)助科學(xué)規(guī)律發(fā)現(xiàn)的作用88其他行業(yè)醫(yī)療電信司法故障診斷……89應(yīng)用實(shí)例(1/6)我們將數(shù)據(jù)挖掘技術(shù)應(yīng)用于某保險(xiǎn)公司的業(yè)務(wù)數(shù)據(jù)庫(kù)上,以挖掘該保險(xiǎn)公司有關(guān)客戶、業(yè)務(wù)員以及承保、理賠方面的規(guī)律。挖掘的部分結(jié)果如下:應(yīng)用實(shí)例(2/6)關(guān)聯(lián)規(guī)則發(fā)現(xiàn):從20912條元組所構(gòu)成的524個(gè)事務(wù)中,共發(fā)現(xiàn)了4條關(guān)聯(lián)規(guī)則:①“遞增型養(yǎng)老保險(xiǎn)”和“少兒一生幸?!庇嘘P(guān)聯(lián)②“遞增型養(yǎng)老保險(xiǎn)”和“為了明天終生幸福”有關(guān)聯(lián)③“為了明天終生幸?!焙汀斑f增型養(yǎng)老保險(xiǎn)”有關(guān)聯(lián)④“為了明天終生幸?!焙汀吧賰阂簧腋!庇嘘P(guān)聯(lián)這四條知識(shí)說(shuō)明,保戶投保的險(xiǎn)種之間可能有
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 校車的應(yīng)急預(yù)案
- 建筑工程工法管理辦法
- IT行業(yè)外包安全管理辦法
- 《Excel數(shù)據(jù)獲取與處理實(shí)戰(zhàn)》 課件 第8章 宏和VBA
- 2022年大學(xué)心理學(xué)專業(yè)大學(xué)物理二期中考試試卷-附解析
- 2022年大學(xué)法醫(yī)學(xué)專業(yè)大學(xué)物理下冊(cè)期中考試試題-含答案
- 2022年大學(xué)能源動(dòng)力專業(yè)大學(xué)物理下冊(cè)開(kāi)學(xué)考試試卷D卷-附解析
- 2022年大學(xué)動(dòng)物醫(yī)學(xué)專業(yè)大學(xué)物理下冊(cè)期中考試試卷D卷-含答案
- 腦血管病介入診療護(hù)理
- 2022年大學(xué)林業(yè)工程專業(yè)大學(xué)物理二期中考試試卷D卷-附解析
- 中藥項(xiàng)目投資合同范例
- 2024-2025學(xué)年上海市普陀區(qū)八年級(jí)(上)期中數(shù)學(xué)試卷
- 假期補(bǔ)課協(xié)議書(shū)
- 電子商務(wù)支付結(jié)算系統(tǒng)開(kāi)發(fā)合同
- 服務(wù)質(zhì)量、保證措施
- (必練)廣東省軍隊(duì)文職(經(jīng)濟(jì)學(xué))近年考試真題試題庫(kù)(含答案)
- 含羞草天氣課件
- 2024年安全生產(chǎn)知識(shí)競(jìng)賽考試題庫(kù)及答案(共五套)
- 22《鳥(niǎo)的天堂》課件
- 農(nóng)業(yè)灌溉裝置市場(chǎng)環(huán)境與對(duì)策分析
- 新疆烏魯木齊市第十一中學(xué)2024-2025學(xué)年八年級(jí)上學(xué)期期中道德與法治試卷
評(píng)論
0/150
提交評(píng)論