版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1.1
數(shù)據(jù)挖掘的發(fā)展背景1.2
數(shù)據(jù)挖掘定義1.3
數(shù)據(jù)挖掘過程1.4
數(shù)據(jù)挖掘功能1.5
數(shù)據(jù)挖掘應(yīng)用1.6
數(shù)據(jù)挖掘發(fā)展
本章知識點1.1數(shù)據(jù)挖掘的發(fā)展背景人類已進入一個嶄新的信息時代,數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇膨脹數(shù)據(jù)庫急劇膨脹Back大量信息在給人們帶來方便的同時也帶來了一大堆問題:信息過量,難以消化信息真假難以辨識信息安全難以保證信息形式不一致,難以統(tǒng)一處理數(shù)據(jù)爆炸但知識貧乏隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。從商業(yè)數(shù)據(jù)到商業(yè)信息的進化進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集
(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBMCDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問
(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS)結(jié)構(gòu)化查詢語言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫決策支持
(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP)多維數(shù)據(jù)庫數(shù)據(jù)倉庫PilotComshareArborCognosMicrostrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘
(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法多處理器計算機海量數(shù)據(jù)庫PilotLockheedIBMSGI其他初創(chuàng)公司提供預(yù)測性的信息數(shù)據(jù)挖掘產(chǎn)生為了從海量數(shù)據(jù)庫和大量繁雜信息中提取有價值的知識,進一步提高信息的利用率產(chǎn)生了一個新的研究方向:基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase),以及相應(yīng)的數(shù)據(jù)挖掘(DataMining)理論和技術(shù)的研究(侯老師,胡博士,自己)(搞預(yù)測很有前途,邵偉華;易經(jīng),易學(xué))數(shù)據(jù)礦山信息金塊數(shù)據(jù)挖掘工具KDD的出現(xiàn)基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)一詞首次出現(xiàn)在1989年舉行的第十一屆AAAI學(xué)術(shù)會議上。1995年在加拿大蒙特利爾召開了第一屆KDD國際學(xué)術(shù)會議(KDD’95)。由KluwersPublishers出版,1997年創(chuàng)刊的《KnowledgeDiscoveryandDataMining》是該領(lǐng)域中的第一本學(xué)術(shù)刊物。(計算機領(lǐng)域中國的頂級刊物:5個)1.2數(shù)據(jù)挖掘定義及過程1.2.1定義數(shù)據(jù)挖掘是從大量有噪聲、不完全,甚至不一致的數(shù)據(jù)中,利用相應(yīng)的挖掘方法,提取其中存在有效、新奇、有用、可理解的知識模式,是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。與數(shù)據(jù)挖掘類似但稍有不同含義的術(shù)語有:從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KnowledgeDiscoveryfrom/inDatabase,KDD)知識提?。↘nowledgeextract)數(shù)據(jù)/模式分析(Data/Modelanalysis)。數(shù)據(jù)考古數(shù)據(jù)捕撈
Back
技術(shù)上的定義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。
目前公認(rèn)的定義人們給數(shù)據(jù)挖掘下過很多定義,內(nèi)涵也各不相同,目前公認(rèn)的定義是由UsamaFayyad等人提出的。所謂基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的過程。1.2.2過程數(shù)據(jù)挖掘是一個反復(fù)迭代的人機交互處理過程。該過程需要經(jīng)歷多個步驟,并且很多決策需要由用戶提供。從宏觀上看,數(shù)據(jù)挖掘過程主要由三個部分組成,即問題定義、數(shù)據(jù)整理(包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換)、數(shù)據(jù)挖掘?qū)嵤?,以及挖掘結(jié)果的解釋與評估。1.2.2過程1)定義問題
要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。否則,很難得到正確的結(jié)果。下一步數(shù)據(jù)選擇2)數(shù)據(jù)的選擇
數(shù)據(jù)選取的目的是確定目標(biāo)數(shù)據(jù),根據(jù)所定義的問題的需要從原始數(shù)據(jù)庫中選取相關(guān)數(shù)據(jù)或樣本,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。
目標(biāo)數(shù)據(jù)數(shù)據(jù)目標(biāo)數(shù)據(jù)預(yù)處理選擇3)數(shù)據(jù)的預(yù)處理
對步驟2中選出的數(shù)據(jù)進行再處理,檢查數(shù)據(jù)的完整性及數(shù)據(jù)一致性,消除噪聲,濾除與數(shù)據(jù)挖掘無關(guān)的冗余數(shù)據(jù),根據(jù)時間序列和已知的變化情況,利用統(tǒng)計等方法填充丟失的數(shù)據(jù)。已處理數(shù)據(jù)數(shù)據(jù)已處理數(shù)據(jù)目標(biāo)數(shù)據(jù)預(yù)處理變換選擇4)數(shù)據(jù)的轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換的主要目的就是根據(jù)知識發(fā)現(xiàn)的任務(wù)對經(jīng)過預(yù)處理的數(shù)據(jù)進行再處理,主要是通過投影或利用數(shù)據(jù)庫的其他操作減少數(shù)據(jù)量,即要從初始特征中篩選出真正與挖掘任務(wù)相關(guān)的特征。
變換后數(shù)據(jù)數(shù)據(jù)已處理數(shù)據(jù)變換后數(shù)據(jù)目標(biāo)數(shù)據(jù)預(yù)處理變換選擇數(shù)據(jù)挖掘5)數(shù)據(jù)挖掘
根據(jù)挖掘任務(wù)定義及已有的方法(分類、聚類、關(guān)聯(lián)等)選擇合適的知識發(fā)現(xiàn)算法,包括選取合適的模型和參數(shù),從數(shù)據(jù)庫中挖掘出有關(guān)知識,并以一定的方式表示出來(如產(chǎn)生式規(guī)則等)是數(shù)據(jù)挖掘的目的。
模式/知識數(shù)據(jù)已處理數(shù)據(jù)變換后數(shù)據(jù)模式/知識目標(biāo)數(shù)據(jù)解釋/評估預(yù)處理變換選擇數(shù)據(jù)挖掘6)解釋與評估
對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進行解釋。經(jīng)過用戶或機器評估后,可能會發(fā)現(xiàn)這些模式中存在冗余或無關(guān)的模式,此時應(yīng)該將其剔除。如果模式不能滿足任務(wù)的要求,就需要返回到前面的某些處理步驟中反復(fù)提取。
知識1.3數(shù)據(jù)挖掘主要功能(例子:保險公司客戶流失。p9)通過數(shù)據(jù)挖掘,人們可以預(yù)測未來趨勢及行為,做出基于知識的決策;或是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有六類功能。(1)概念描述(2)關(guān)聯(lián)(3)聚類(4)分類(5)預(yù)測(6)偏差的檢測Back(1)概念描述
概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。對大數(shù)據(jù)集總體情況的概述。例如:對電腦的銷售數(shù)據(jù)集:基本上為奔三以上兼容機對于學(xué)校教師數(shù)據(jù)集:基本上講師占大多數(shù)Back(2)關(guān)聯(lián)
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。例如:每天買啤酒的人也有可能購買香煙,比重有多大,可以通過關(guān)聯(lián)的支持度和可信度來描述。
關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
以零售業(yè)為例,體育用品商場通過對銷售數(shù)據(jù)進行關(guān)聯(lián)分析通??梢园l(fā)現(xiàn)這些數(shù)據(jù)中常常隱含形式如下的規(guī)律——“購買籃球的顧客中有70%的人同時購買運動服,所有交易中有40%的人同時購買籃球和籃球運動服”等等。
Back(3)聚類
數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。例如:將申請人分為高度風(fēng)險申請者、中度風(fēng)險申請者、低度風(fēng)險申請者。聚類增強了人們對客觀現(xiàn)實的認(rèn)識,是概念描述和偏差分析的先決條件。
聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。80年代初,Mchalski提出了概念聚類技術(shù),其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。例如:市場銷售:幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標(biāo)明確的市場計劃;保險公司:對購買了汽車保險的客戶,標(biāo)識那些有較高平均賠償成本的客戶;Back(4)分類
按照分析對象的屬性、特征,建立不同組來描述事物。例如銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。
例如:把客戶分為高風(fēng)險客戶和低風(fēng)險客戶Back(5)預(yù)測
把握分析對象的發(fā)展規(guī)律,對未來的趨勢做出預(yù)見。數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性數(shù)據(jù),以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。
一個典型的例子:市場預(yù)測問題。數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預(yù)測的問題包括預(yù)報破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。(例如,股票。從報表等預(yù)測其不久破產(chǎn))Back(6)偏差的檢測
數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減少以后經(jīng)營的風(fēng)險。(如開始幾次額度不大,信譽很好,突然一次額度很大)
偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。Back
需要注意的是:數(shù)據(jù)挖掘的各項功能不是獨立存在的,在數(shù)據(jù)挖掘中相互聯(lián)系,發(fā)揮作用。Back1.4數(shù)據(jù)挖掘應(yīng)用與發(fā)展趨勢1.4.1數(shù)據(jù)挖掘的應(yīng)用需要強調(diào)的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。目前,在很多領(lǐng)域,數(shù)據(jù)挖掘(datamining)都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業(yè)領(lǐng)域。而數(shù)據(jù)挖掘的應(yīng)用則主要集中在以下幾個領(lǐng)域:金融服務(wù)、市場營銷、工程與科學(xué)研究、產(chǎn)品制造業(yè)、司法。Back數(shù)據(jù)挖掘在各個領(lǐng)域中的應(yīng)用電信
:流失銀行:聚類(細分),交叉銷售百貨公司/超市:購物籃分析
(關(guān)聯(lián)規(guī)則)保險:細分,交叉銷售,流失(原因分析)信用卡:
欺詐探測,細分電子商務(wù):
網(wǎng)站日志分析(提問)稅務(wù)部門:偷漏稅行為探測警察機關(guān):犯罪行為分析醫(yī)學(xué):
醫(yī)療保健Back英國電信需要發(fā)布一種新的產(chǎn)品,需要通過直郵的方式向客戶推薦這種產(chǎn)品。。。。。。使直郵的回應(yīng)率提高了100%電信GUS日用品零售商店需要準(zhǔn)確的預(yù)測未來的商品銷售量,降低庫存成本。。。。。。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.8%零售商店美國國內(nèi)稅務(wù)局需要提高對納稅人的服務(wù)水平。。。。。。合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準(zhǔn)確的服務(wù)稅務(wù)局?jǐn)?shù)據(jù)挖掘在銀行領(lǐng)域的應(yīng)用金融事務(wù)需要搜集和處理大量的數(shù)據(jù),由于銀行在金融領(lǐng)域的地位、工作性質(zhì)、業(yè)務(wù)特點以及激烈的市場競爭決定了它對信息化、電子化比其它領(lǐng)域有更迫切的要求。利用數(shù)據(jù)挖掘技術(shù)可以幫助銀行產(chǎn)品開發(fā)部門描述客戶以往的需求趨勢,并預(yù)測未來。美國商業(yè)銀行是發(fā)達國家商業(yè)銀行的典范,許多地方值得我國學(xué)習(xí)和借鑒。(美國的老大地位)數(shù)據(jù)挖掘在銀行領(lǐng)域的應(yīng)用美國銀行家協(xié)會(ABA)預(yù)測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在美國商業(yè)銀行的應(yīng)用增長率是14.9%。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關(guān)系優(yōu)化;風(fēng)險控制等Mellon銀行使用數(shù)據(jù)挖掘軟件提高銷售和定價金融產(chǎn)品的精確度,如家庭普通貸款。美國Firstar銀行使用數(shù)據(jù)挖掘工具,根據(jù)客戶的消費模式預(yù)測何時為客戶提供何種產(chǎn)品。匯豐銀行需要對不斷增長的客戶群進行分類,對每種產(chǎn)品找出最有價值的客戶。。。。。。營銷費用減少了30%資料:一個數(shù)據(jù)挖掘的例子(1講)銀行1.4.2數(shù)據(jù)挖掘的發(fā)展A.數(shù)據(jù)挖掘的發(fā)展趨勢視頻和音頻數(shù)據(jù)挖掘科學(xué)和統(tǒng)計數(shù)據(jù)挖掘數(shù)據(jù)挖掘的應(yīng)用探索可伸縮的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫和Web數(shù)據(jù)庫系統(tǒng)的集成數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化可視化數(shù)據(jù)挖掘復(fù)雜數(shù)據(jù)類型挖掘的方法Web挖掘數(shù)據(jù)挖掘中的隱私保護與信息安全Back可視化數(shù)據(jù)挖掘數(shù)據(jù)可視化數(shù)據(jù)挖掘結(jié)果可視化數(shù)據(jù)挖掘處理過程可視化交互式的可視化挖掘數(shù)據(jù)可視化數(shù)據(jù)挖掘結(jié)果可視化數(shù)據(jù)挖掘過程可視化交互式的可視化挖掘B.數(shù)據(jù)挖掘未來研究方向當(dāng)前,DM研究方興未艾,其研究與開發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫技術(shù)在70年代所處的地位,迫切需要類似于關(guān)系模式、DBMS系統(tǒng)和SQL查詢語言等理論和方法的指導(dǎo),才能使DM
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年旅游公司浮動抵押合同
- 個人住宅租借押金及季度租金合同樣本(2024版)一
- 二零二五年度專業(yè)印刷品設(shè)計、印刷與打印服務(wù)合同3篇
- 事業(yè)單位基本建設(shè)粉刷工程分包合同2024版B版
- 2025年度烘焙連鎖面包磚供應(yīng)鏈合作協(xié)議4篇
- 二零二五年度干股虛擬股分紅激勵方案合同范本
- 2025年度玩具貨物運輸委托服務(wù)協(xié)議
- 二零二五年度物業(yè)小區(qū)個人承包社區(qū)物業(yè)服務(wù)綜合解決方案協(xié)議
- 2025年度家用空調(diào)拆裝安全操作規(guī)范及應(yīng)急處理合同
- 二零二五年度家政服務(wù)公司保姆雇傭協(xié)議
- 海外資管機構(gòu)赴上海投資指南(2024版)
- 山東省青島市2023-2024學(xué)年七年級上學(xué)期期末考試數(shù)學(xué)試題(含答案)
- 墓地銷售計劃及方案設(shè)計書
- 從偏差行為到卓越一生3.0版
- 優(yōu)佳學(xué)案七年級上冊歷史
- 鋁箔行業(yè)海外分析
- 紀(jì)委辦案安全培訓(xùn)課件
- 超市連鎖行業(yè)招商策劃
- 城市道路智慧路燈項目 投標(biāo)方案(技術(shù)標(biāo))
- 【公司利潤質(zhì)量研究國內(nèi)外文獻綜述3400字】
- 工行全國地區(qū)碼
評論
0/150
提交評論