數(shù)據(jù)挖掘技術(shù)_第1頁
數(shù)據(jù)挖掘技術(shù)_第2頁
數(shù)據(jù)挖掘技術(shù)_第3頁
數(shù)據(jù)挖掘技術(shù)_第4頁
數(shù)據(jù)挖掘技術(shù)_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘的由來

背景網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識(shí)貧乏從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化背景人類已進(jìn)入一個(gè)嶄新的信息時(shí)代數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)量急劇膨脹全球信息量以驚人的速度急劇增長目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。產(chǎn)生了一個(gè)新的研究方向:基于數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase),以及相應(yīng)的數(shù)據(jù)挖掘(DataMining)理論和技術(shù)的研究隨著大數(shù)據(jù)庫的建立和海量數(shù)據(jù)的不斷涌現(xiàn),必然提出對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的迫切需求。但現(xiàn)實(shí)情況往往是“數(shù)據(jù)十分豐富,而信息相當(dāng)貧乏。”快速增長的海量數(shù)據(jù)收集、存放在大型數(shù)據(jù)庫中,沒有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出人的能力。因此,有人稱之為:“數(shù)據(jù)墳?zāi)埂?。由于專家系統(tǒng)工具過分依賴用戶或?qū)<胰斯さ貙⒅R(shí)輸入知識(shí)庫中,而且分析結(jié)果往往帶有偏差和錯(cuò)誤,再加上耗時(shí)、費(fèi)用高,故不可行。數(shù)據(jù)礦山信息金塊數(shù)據(jù)挖掘工具網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)大量信息在給人們帶來方便的同時(shí)也帶來了一大堆問題:信息過量,難以消化信息真假難以辨識(shí)信息安全難以保證信息形式不一致,難以統(tǒng)一處理數(shù)據(jù)爆炸但知識(shí)貧乏

隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化

進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集

(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBMCDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS)結(jié)構(gòu)化查詢語言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)多維數(shù)據(jù)庫數(shù)據(jù)倉庫PilotComshareArborCognosMicrostrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘

(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法多處理器計(jì)算機(jī)海量數(shù)據(jù)庫PilotLockheedIBMSGI其他初創(chuàng)公司提供預(yù)測性的信息KDD的出現(xiàn)數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。它是一個(gè)新興的,面向商業(yè)應(yīng)用的AI研究?;跀?shù)據(jù)庫的知識(shí)發(fā)現(xiàn)(KDD)一詞首次出現(xiàn)在1989年舉行的第十一屆AAAI學(xué)術(shù)會(huì)議上。1995年在加拿大蒙特利爾召開了第一屆KDD國際學(xué)術(shù)會(huì)議(KDD’95)。由KluwersPublishers出版,1997年創(chuàng)刊的《KnowledgeDiscoveryandDataMining》是該領(lǐng)域中的第一本學(xué)術(shù)刊物。KDD的出現(xiàn)

隨后,在1991年、1993年和1994年都舉行KDD專題討論會(huì),匯集來自各個(gè)領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識(shí)表示、知識(shí)運(yùn)用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個(gè)步驟,其后逐漸演變成KDD的同義詞。

數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計(jì)學(xué)高性能計(jì)算人工智能機(jī)器學(xué)習(xí)可視化數(shù)據(jù)挖掘是多學(xué)科的產(chǎn)物KDD已經(jīng)成為人工智能研究熱點(diǎn)目前,關(guān)于KDD的研究工作已經(jīng)被眾多領(lǐng)域所關(guān)注,如過程控制、信息管理、商業(yè)、醫(yī)療、金融等領(lǐng)域。作為大規(guī)模數(shù)據(jù)庫中先進(jìn)的數(shù)據(jù)分析工具,KDD的研究已經(jīng)成為數(shù)據(jù)庫及人工智能領(lǐng)域研究的一個(gè)熱點(diǎn)。數(shù)據(jù)挖掘的應(yīng)用電信

:流失銀行:聚類(細(xì)分),交叉銷售百貨公司/超市:購物籃分析

(關(guān)聯(lián)規(guī)則)保險(xiǎn):細(xì)分,交叉銷售,流失(原因分析)信用卡:

欺詐探測,細(xì)分電子商務(wù):

網(wǎng)站日志分析稅務(wù)部門:偷漏稅行為探測警察機(jī)關(guān):犯罪行為分析醫(yī)學(xué):

醫(yī)療保健英國電信需要發(fā)布一種新的產(chǎn)品,需要通過直郵的方式向客戶推薦這種產(chǎn)品。。。。。。使直郵的回應(yīng)率提高了100%電信GUS日用品零售商店需要準(zhǔn)確的預(yù)測未來的商品銷售量,降低庫存成本。。。。。。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.8%零售商店美國國內(nèi)稅務(wù)局需要提高對(duì)納稅人的服務(wù)水平合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準(zhǔn)確的服務(wù)稅務(wù)局銀行金融事務(wù)需要搜集和處理大量的數(shù)據(jù),由于銀行在金融領(lǐng)域的地位、工作性質(zhì)、業(yè)務(wù)特點(diǎn)以及激烈的市場競爭決定了它對(duì)信息化、電子化比其它領(lǐng)域有更迫切的要求。利用數(shù)據(jù)挖掘技術(shù)可以幫助銀行產(chǎn)品開發(fā)部門描述客戶以往的需求趨勢,并預(yù)測未來。美國商業(yè)銀行是發(fā)達(dá)國家商業(yè)銀行的典范,許多地方值得我國學(xué)習(xí)和借鑒。數(shù)據(jù)挖掘在銀行領(lǐng)域的應(yīng)用美國銀行家協(xié)會(huì)(ABA)預(yù)測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在美國商業(yè)銀行的應(yīng)用增長率是14.9%。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評(píng)測模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘(DataMining)從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。與之相似的概念稱為知識(shí)發(fā)現(xiàn)。知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases)是用數(shù)據(jù)庫管理系統(tǒng)來存儲(chǔ)數(shù)據(jù),用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后隱藏的知識(shí),稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中。從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時(shí)已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時(shí)就沒必要再清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)解決了。數(shù)據(jù)挖掘與信息處理信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數(shù)據(jù)庫中的信息。它們不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。數(shù)據(jù)挖掘與聯(lián)機(jī)分析OLAP分析過程在本質(zhì)上是一個(gè)演繹推理的過程,是決策支持領(lǐng)域的一部分。數(shù)據(jù)挖掘在本質(zhì)上是一個(gè)歸納推理的過程。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。數(shù)據(jù)挖掘與人工智能、統(tǒng)計(jì)學(xué)一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹,在足夠多的數(shù)據(jù)和計(jì)算能力下,它們幾乎不需人工干預(yù)就能自動(dòng)完成許多有價(jià)值的功能。數(shù)據(jù)挖掘就是充分利用了統(tǒng)計(jì)學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘分析海量數(shù)據(jù)許多數(shù)據(jù)庫都不適合統(tǒng)計(jì)學(xué)分析需要數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。與數(shù)據(jù)挖掘類似但稍有不同含義的術(shù)語有:從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)(KnowledgeDiscoveryfrom/inDatabase,KDD)知識(shí)提?。↘nowledgeextract)數(shù)據(jù)/模式分析(Data/Modelanalysis)。數(shù)據(jù)考古數(shù)據(jù)捕撈技術(shù)上的定義商業(yè)角度的定義

技術(shù)上的定義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。

數(shù)據(jù)挖掘的定義(續(xù))人們給數(shù)據(jù)挖掘下過很多定義,內(nèi)涵也各不相同,目前公認(rèn)的定義是由Fayyad等人提出的。所謂基于數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn)(KDD)是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。數(shù)據(jù)挖掘的數(shù)據(jù)來源關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級(jí)數(shù)據(jù)庫系統(tǒng)和高級(jí)數(shù)據(jù)庫應(yīng)用面向?qū)ο髷?shù)據(jù)庫空間數(shù)據(jù)庫時(shí)間數(shù)據(jù)庫和時(shí)間序列數(shù)據(jù)庫文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫異種數(shù)據(jù)庫WWW數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個(gè)反復(fù)迭代的人機(jī)交互處理過程。該過程需要經(jīng)歷多個(gè)步驟,并且很多決策需要由用戶提供。

從宏觀上看,數(shù)據(jù)挖掘過程主要由三個(gè)部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評(píng)估。

數(shù)據(jù)挖掘功能

數(shù)據(jù)挖掘任務(wù)有兩類:第一類是描述性挖掘任務(wù):刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性;第二類是預(yù)測性挖掘任務(wù):在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。概念/類描述:特征化和區(qū)分概念/類描述(class/conceptdescription):用匯總的、簡潔的、精確的方式描述每個(gè)類和概念。數(shù)據(jù)特征化(datacharacterization):是目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總。其中數(shù)據(jù)特征的輸出形式有:餅圖、條圖、曲線、多維數(shù)據(jù)立方體、多維表等。數(shù)據(jù)區(qū)分(Datadiscrimination):是將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性比較。關(guān)聯(lián)分析(1)定義:關(guān)聯(lián)分析(associationanalysis):發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示“屬性—值”頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關(guān)聯(lián)規(guī)則(associationrule):“X

Y”,即

A1

A2

AmB1

B2

Bn

關(guān)聯(lián)規(guī)則分為兩類:一類是“多維關(guān)聯(lián)規(guī)則”(multi-dimensionalassociationrule);另一類是“單維關(guān)聯(lián)規(guī)則”(single-dimensionalassociationrule)。(2)實(shí)例

age(x,“20..29”)income(X,“20K..29K”)buys(X,“CD_player”)[support=2%,confidence=60%]有效的知識(shí)發(fā)現(xiàn)系統(tǒng)為使知識(shí)發(fā)現(xiàn)系統(tǒng)更加有效,有幾個(gè)軟、硬件問題需要強(qiáng)調(diào):

為使數(shù)據(jù)服務(wù)更加詳盡,必須研究基礎(chǔ)的體系結(jié)構(gòu)、算法和數(shù)據(jù)結(jié)構(gòu)。

解決存儲(chǔ)管理中的新問題,開發(fā)有效的存儲(chǔ)機(jī)制。高層次的查詢語言成為重要的研究課題。描述多維對(duì)象的可視化工具在知識(shí)表示中將起重要作用??梢暬瘮?shù)據(jù)挖掘數(shù)據(jù)可視化數(shù)據(jù)挖掘結(jié)果可視化數(shù)據(jù)挖掘處理過程可視化交互式的可視化挖掘VisualizationofassociationrulesinMineSet3.0交互式的可視化挖掘數(shù)據(jù)挖掘工具目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有:SAS公司的EnterpriseMinerIBM公司的IntelligentMinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的WarehouseStudioRuleQuestResearch公司的See5還有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。

數(shù)據(jù)挖掘過程步驟步驟名稱

描述

1數(shù)據(jù)倉庫DataWarehouse數(shù)據(jù)倉庫管理用于決策支持的數(shù)據(jù)。在該步驟內(nèi),數(shù)據(jù)從操作型系統(tǒng)以及第三方的數(shù)據(jù)源聚集、清洗、以及轉(zhuǎn)換到數(shù)據(jù)倉庫中,供決策分析使用。

2數(shù)據(jù)挖掘DataMining在這個(gè)步驟中,數(shù)據(jù)從數(shù)據(jù)倉庫抽取出來,用來產(chǎn)生預(yù)測模型或者規(guī)則集。該步驟可以自動(dòng)化。

3預(yù)測模型PredictiveModeling在該步驟內(nèi),為了產(chǎn)生一個(gè)優(yōu)化的模型,一個(gè)或多個(gè)預(yù)測模型被選擇或者聯(lián)合。這些預(yù)測模型可能從數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生,也可能從統(tǒng)計(jì)模型中產(chǎn)生,或者通過第三方購買。4預(yù)測記分PredictiveScoring在這個(gè)步驟中,選擇的預(yù)測模型對(duì)操作型數(shù)據(jù)或者交易數(shù)據(jù)進(jìn)行記分(score)

。

數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清洗和集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評(píng)價(jià)圖形用戶接口知識(shí)庫粗糙集(RoughSet)粗糙集理論是波蘭數(shù)學(xué)家Z.Pawlak于1982年提出的,是一種新的處理含糊性(Vagueness)和不確定性(Uncertainty)問題的數(shù)學(xué)工具。

粗糙集理論的主要優(yōu)勢之一就在于它不需要關(guān)于數(shù)據(jù)的任何預(yù)備的或額外的信息。

粗糙集可以用于對(duì)信息系統(tǒng)的屬性進(jìn)行約簡,即求出原有屬性集合的一個(gè)子集,該子集具有與原屬性集合相同的分類能力。

粗糙集已廣泛應(yīng)用于知識(shí)發(fā)現(xiàn)、機(jī)器學(xué)習(xí)、決策支持、模式識(shí)別、專家系統(tǒng)、歸納推理等領(lǐng)域。

聚類(Clustering)

聚類(Clustering)是將物理或抽象的對(duì)象集合分成多個(gè)組的過程,聚類生成的組稱為簇(Cluster),即簇是數(shù)據(jù)對(duì)象的集合。聚類就是要讓生成的簇內(nèi)部的任意兩個(gè)對(duì)象之間具有較高的相似度,而屬于不同簇的兩個(gè)對(duì)象間具有較高的相異度。

聚類分析從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析是對(duì)數(shù)據(jù)建模,從而簡化數(shù)據(jù)的一種方法,作為多元統(tǒng)計(jì)分析的主要分支之一,聚類分析已被研究了很多年,主要集中在基于距離和基于相似度的聚類方法。

從機(jī)器學(xué)習(xí)的觀點(diǎn)看,簇相當(dāng)于隱藏模式,聚類是搜索簇的無監(jiān)督學(xué)習(xí)過程。

從實(shí)際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù)之一。數(shù)據(jù)挖掘領(lǐng)域主要研究面向大型數(shù)據(jù)庫、數(shù)據(jù)倉庫的高效和實(shí)用的聚類分析算法。

聚類分析數(shù)據(jù)挖掘中的聚類分析數(shù)據(jù)挖掘關(guān)心聚類算法的如下特性:處理不同類型屬性的能力、對(duì)大型數(shù)據(jù)集的可擴(kuò)展性、處理高維數(shù)據(jù)的能力、發(fā)現(xiàn)任意形狀簇的能力、處理孤立點(diǎn)或“噪聲”數(shù)據(jù)的能力、對(duì)數(shù)據(jù)順序的不敏感性、對(duì)先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性、聚類結(jié)果的可解釋性和實(shí)用性、基于約束的聚類等。

主要的數(shù)據(jù)挖掘聚類方法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法等。

關(guān)聯(lián)規(guī)則

Agrawal針對(duì)大型超市的銷售數(shù)據(jù)庫建立了關(guān)聯(lián)規(guī)則模型和數(shù)據(jù)挖掘算法。所謂關(guān)聯(lián)規(guī)則是指數(shù)據(jù)集中支持度和信任度分別滿足給定閾值的規(guī)則。幾年來,在基于關(guān)聯(lián)規(guī)則的算法研究中先后出現(xiàn)了AIS、SETM等數(shù)據(jù)挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。Apriori算法的核心思想是把發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的工作分為兩步:第一步通過迭代檢索出事務(wù)數(shù)據(jù)庫中的所有頻繁項(xiàng)集,即頻繁項(xiàng)集的支持度不低于用戶設(shè)定的閾值;第二步從頻繁項(xiàng)集中構(gòu)造出滿足用戶最低信任度的規(guī)則。決策樹決策樹提供了一種展示類似“在什么條件下會(huì)得到什么值”這類規(guī)則的方法。比如,在貸款申請中,要對(duì)申請的風(fēng)險(xiǎn)大小做出判斷,為了解決這個(gè)問題而建立的一棵決策樹,從中我們可以看到?jīng)Q策樹的基本組成部分:決

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論