大數(shù)據(jù)-大數(shù)據(jù)技術(shù)_第1頁(yè)
大數(shù)據(jù)-大數(shù)據(jù)技術(shù)_第2頁(yè)
大數(shù)據(jù)-大數(shù)據(jù)技術(shù)_第3頁(yè)
大數(shù)據(jù)-大數(shù)據(jù)技術(shù)_第4頁(yè)
大數(shù)據(jù)-大數(shù)據(jù)技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩172頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

S大數(shù)據(jù)技術(shù)張博士2015年5月2/6/2023目錄大數(shù)據(jù)技術(shù)概論

云數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能2/6/2023BigData名詞由來(lái)20世紀(jì)90年代,數(shù)據(jù)倉(cāng)庫(kù)之父的BillInmon就經(jīng)常提及BigData2011年5月,在“云計(jì)算相遇大數(shù)據(jù)”為主題的EMCWorld2011會(huì)議中,EMC拋出了BigData概念2/6/2023大數(shù)據(jù)的產(chǎn)生21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。2/6/2023數(shù)量級(jí)概念1KB=2(10)B=1024B;1MB=2(10)KB=1024KB=2(20)B;1GB=2(10)MB=1024MB=2(30)B。1TB=2(10)GB=1024GB=2(40)B1PB=2(10)TB=1024TB=2(50)B1EB=2(10)PB=1024PB=2(60)B2/6/2023數(shù)量級(jí)概念Kilobyte(KB)=1024B相當(dāng)于一則短篇故事的內(nèi)容。Megabyte(MB)=l024KB

相當(dāng)于一則短篇小說的文字內(nèi)容。Gigabyte(GB)=1024MB相當(dāng)于貝多芬第五交響樂的演奏視頻內(nèi)容。Terabyte(TB)=1024GB相當(dāng)于一家大型醫(yī)院中所有的X光照片信息。Petabyte(PB)=l024TB相當(dāng)于50%的全美學(xué)術(shù)圖書館信息內(nèi)容。Exabyte(EB)=1024PB;5EB相當(dāng)于至今全世界人類所講過的話語(yǔ)。2/6/2023信息通訊進(jìn)入新時(shí)代2/6/2023摩爾定律2/6/2023后摩爾時(shí)代2/6/2023計(jì)算機(jī)演進(jìn)2/6/2023信息計(jì)算體系演進(jìn)2/6/2023軟件技術(shù)網(wǎng)絡(luò)化演進(jìn)2/6/2023傳輸技術(shù)的發(fā)展2/6/2023從移動(dòng)數(shù)據(jù)到移動(dòng)流媒體2/6/2023移動(dòng)通信峰值速率的提升2/6/2023互聯(lián)網(wǎng)發(fā)展:從電信到泛在服務(wù)2/6/2023聯(lián)網(wǎng)主機(jī)數(shù)量2/6/2023電視網(wǎng)絡(luò)化智能化與三網(wǎng)合一2/6/2023視頻流量成為主流2/6/2023全球骨干網(wǎng)流量2/6/2023中國(guó)互聯(lián)網(wǎng)干線帶寬2/6/2023中國(guó)互聯(lián)網(wǎng)用戶2/6/2023移動(dòng)終端功能的演進(jìn)2/6/2023移動(dòng)互聯(lián)網(wǎng)加快普及2/6/2023智能終端引領(lǐng)后PC時(shí)代2/6/2023移動(dòng)數(shù)據(jù)流量超過話音2/6/2023全球移動(dòng)數(shù)據(jù)流量2/6/2023移動(dòng)互聯(lián)網(wǎng)流量2/6/2023互聯(lián)網(wǎng)上1分鐘2/6/2023互聯(lián)網(wǎng)上的1天2/6/2023照片2/6/2023大數(shù)據(jù)時(shí)代到來(lái)2/6/2023大數(shù)據(jù)定義2/6/2023大數(shù)據(jù)例子2/6/2023科學(xué)研究催生大數(shù)據(jù)2/6/2023物聯(lián)網(wǎng)催生大數(shù)據(jù)2/6/2023安全監(jiān)控的數(shù)據(jù)量2/6/2023環(huán)境監(jiān)測(cè)催生大數(shù)據(jù)2/6/2023醫(yī)療病歷隱藏大數(shù)據(jù)2/6/2023國(guó)際關(guān)注大數(shù)據(jù)2/6/2023大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來(lái)趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效2/6/2023大數(shù)據(jù)的4V2/6/2023大數(shù)據(jù)的劃分2/6/2023大數(shù)據(jù)技術(shù)挑戰(zhàn)2/6/2023大數(shù)據(jù)技術(shù)挑戰(zhàn)2/6/2023大數(shù)據(jù)平臺(tái)技術(shù)2/6/2023分布式存儲(chǔ)與架構(gòu)2/6/2023大數(shù)據(jù)的并行處理2/6/2023大數(shù)據(jù)并行處理分析2/6/2023大數(shù)據(jù)可視化分析2/6/2023虛擬化與可視化2/6/2023大數(shù)據(jù)可視化2/6/2023目錄大數(shù)據(jù)技術(shù)概論云數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023Google云數(shù)據(jù)庫(kù)GFS架構(gòu)2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023Google云數(shù)據(jù)庫(kù)2/6/2023GoogleVsHadoop2/6/2023Haddop是什么2/6/2023Hadoop發(fā)展編年2/6/20232/6/2023Hadoop子項(xiàng)目2/6/2023Hadoop特性2/6/20232/6/2023Hadoop物理部署2/6/2023Hadoop集群2/6/2023Hadoop用戶2/6/2023HDFS2/6/2023HDFS2/6/2023HDFS能做什么適合不適合2/6/2023HDFS組件2/6/2023HDFS主要組件功能2/6/2023HDFS架構(gòu)2/6/2023HDFS文件2/6/2023HDFSNameNode2/6/20232/6/2023HDFSDataNode2/6/2023HDFS可靠性保障2/6/2023HDFS可靠性保障2/6/2023HDFS可靠性保障2/6/2023提升性能的措施2/6/2023HDFS:節(jié)點(diǎn)失效是常態(tài)2/6/2023DataNode磁盤掛了2/6/2023DataNode機(jī)器掛了2/6/2023NameNode掛了2/6/20232/6/2023Client掛了2/6/2023MR+HBase2/6/2023WhyMapReduce?2/6/2023大規(guī)模數(shù)據(jù)分析2/6/2023大規(guī)模數(shù)據(jù)處理2/6/2023MR特性2/6/2023M+R2/6/20232/6/2023MR編程2/6/20232/6/20232/6/20232/6/20232/6/2023單一Reduce處理2/6/2023多個(gè)Reduce處理2/6/2023MR流程2/6/20232/6/2023目錄大數(shù)據(jù)技術(shù)概論云數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能2/6/2023數(shù)據(jù)挖掘技術(shù)的由來(lái)大量信息在給人們帶來(lái)方便的同時(shí)也帶來(lái)了一大堆問題:第一:是信息過量,難以消化;第二:是信息真假難以辨識(shí);第三:是信息安全難以保證;第四:是信息形式不一致,難以統(tǒng)一處理。

網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)

2/6/2023數(shù)據(jù)挖掘技術(shù)的由來(lái)“要學(xué)會(huì)拋棄信息”“如何才能不被信息淹沒,而是從中及時(shí)發(fā)現(xiàn)有用的知識(shí)、提高信息利用率?”數(shù)據(jù)開采和知識(shí)發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生

網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)

2/6/2023數(shù)據(jù)挖掘技術(shù)的由來(lái)

隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。

目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。數(shù)據(jù)爆炸但知識(shí)貧乏2/6/2023數(shù)據(jù)挖掘技術(shù)的由來(lái)海量數(shù)據(jù)搜集強(qiáng)大的多處理器計(jì)算機(jī)數(shù)據(jù)挖掘算法支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)

2/6/2023數(shù)據(jù)挖掘技術(shù)的由來(lái)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化

進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī),磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(kù)(RDBMS),結(jié)構(gòu)化查詢語(yǔ)言(SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫(kù);決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP),多維數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)Pilot,Comshare,Arbor,Cognos,Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法,多處理器計(jì)算機(jī),海量數(shù)據(jù)庫(kù)Pilot,Lockheed,IBM,SGI,其他初創(chuàng)公司提供預(yù)測(cè)性的信息2/6/2023數(shù)據(jù)挖掘技術(shù)的由來(lái)數(shù)據(jù)挖掘逐漸演變的過程

算法學(xué)習(xí)專家系統(tǒng)機(jī)器學(xué)習(xí)2/6/2023數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。

技術(shù)上的定義及含義

2/6/2023數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題技術(shù)上的定義及含義

2/6/2023數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。

商業(yè)角度的定義

2/6/2023數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí).數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征.

數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別

2/6/2023數(shù)據(jù)挖掘的定義

數(shù)據(jù)倉(cāng)庫(kù)是為決策支持而不是為事務(wù)處理所設(shè)計(jì)的數(shù)據(jù)庫(kù),它是將不同來(lái)源的事務(wù)處理數(shù)據(jù)庫(kù)中對(duì)決策有用的數(shù)據(jù)提取出來(lái)而建立。

數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展是數(shù)據(jù)挖掘的動(dòng)力之一。但數(shù)據(jù)挖掘既可以在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行,也可以在傳統(tǒng)的事務(wù)型數(shù)據(jù)庫(kù)中進(jìn)行。數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)

2/6/2023數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)各分公司數(shù)據(jù)集分析數(shù)據(jù)集數(shù)據(jù)挖掘數(shù)據(jù)集2/6/2023數(shù)據(jù)挖掘的定義在線分析處理(OLAP,On-Lineanalyticalprocessing)是一種增強(qiáng)的查詢技術(shù),是決策支持領(lǐng)域的一部分。但又不同于傳統(tǒng)的查詢技術(shù)。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么(whathappened),OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣(Whatnext)、和如果我采取這樣的措施又會(huì)怎么樣(Whatif)。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。數(shù)據(jù)挖掘和在線分析處理

2/6/2023數(shù)據(jù)挖掘的定義比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。

數(shù)據(jù)挖掘和在線分析處理

2/6/2023數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過程。數(shù)據(jù)挖掘和在線分析處理

比如,一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒有想過或試過的其他因素,比如年齡。2/6/2023數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析

數(shù)據(jù)挖掘統(tǒng)計(jì)分析預(yù)測(cè)簡(jiǎn)單的方法復(fù)雜的方法2/6/2023數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析

數(shù)據(jù)挖掘統(tǒng)計(jì)方法模式識(shí)別人工智能封裝預(yù)測(cè)2/6/2023數(shù)據(jù)挖掘的定義軟硬件發(fā)展對(duì)數(shù)據(jù)挖掘的影響

存貯性能的提高計(jì)算能力的提高并行處理技術(shù)2/6/2023數(shù)據(jù)挖掘應(yīng)用欺詐偵測(cè)

AT&T使用根據(jù)數(shù)據(jù)挖掘開發(fā)的系統(tǒng)來(lái)偵測(cè)盜打國(guó)際電話的行為。由HNC公司開發(fā)的隊(duì)LCON欺詐評(píng)估系統(tǒng)用于提示可能存在的盜用信用卡的交易。金融犯罪執(zhí)法網(wǎng)絡(luò)Al系統(tǒng)(FAIS)使用包括數(shù)據(jù)挖掘在內(nèi)的幾種技術(shù),識(shí)別大型現(xiàn)金交易中可能存在的洗錢行為。個(gè)人通訊高級(jí)安全(AdvancedsecurityforPersonalcommunications)歐洲研究組織己經(jīng)利用無(wú)指導(dǎo)聚類偵測(cè)移動(dòng)電話網(wǎng)絡(luò)中的欺詐。對(duì)每個(gè)用戶,系統(tǒng)儲(chǔ)存用戶的歷史和使用特征文件。在當(dāng)前使用與用戶的歷史情況有明顯區(qū)別時(shí),懷疑為欺詐行為。

2/6/2023數(shù)據(jù)挖掘應(yīng)用衛(wèi)生保健Merck-MedcoManagedcare,Merck的一個(gè)醫(yī)藥保險(xiǎn)和處方電郵訂購(gòu)單位,使用數(shù)據(jù)挖掘來(lái)幫助找出對(duì)某種類型的病人減少費(fèi)用但療效相同的治療方法。生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對(duì)于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正常基因,這都需要數(shù)據(jù)挖掘技術(shù)的支持。2/6/2023數(shù)據(jù)挖掘應(yīng)用商業(yè)和金融Farmer‘sGroup有限公司如何使用數(shù)據(jù)挖掘方法得出擁有跑車的人不具有高事故風(fēng)險(xiǎn)的假設(shè)。美國(guó)銀行(BankofAmerica)使用數(shù)據(jù)挖掘偵測(cè)哪個(gè)客戶正在使用美國(guó)銀行的哪種產(chǎn)品,以便他們能夠提供正確的產(chǎn)品和服務(wù)組合,更好地滿足客戶的需求。美國(guó)西部通信(USWestCommunications)根據(jù)諸如家庭的大小、家庭成員的平均年齡和所在地這些特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)來(lái)確定客戶的傾向和需要。20世紀(jì)Fox公司分析票房收入來(lái)確定哪個(gè)演員、情節(jié)和電影在各市場(chǎng)環(huán)境中更容易為觀眾接受。2/6/2023數(shù)據(jù)挖掘應(yīng)用科學(xué)應(yīng)用

γ射線爆是短暫的伽瑪射線反射,它來(lái)源于我們太陽(yáng)系之外。有關(guān)事件的記錄已經(jīng)超過1000次??茖W(xué)界普遍認(rèn)為存在兩種γ射線爆。Mukherjee等人使用統(tǒng)計(jì)聚類分析法(一種數(shù)據(jù)挖掘方法)發(fā)現(xiàn)了第3類γ射線爆。

2/6/2023數(shù)據(jù)挖掘應(yīng)用運(yùn)動(dòng)和游戲大約20個(gè)NBA球隊(duì)使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件AdvancedScout系統(tǒng)來(lái)優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因?yàn)檠芯苛四g(shù)隊(duì)隊(duì)員不同的布陣安排,在與邁阿密熱隊(duì)的比賽中找到了獲勝的機(jī)會(huì)。博彩產(chǎn)業(yè)將客戶賭博方式的歷史模型結(jié)合起來(lái),確定客戶在光顧他們喜歡的賭場(chǎng)時(shí),會(huì)花(輸)多少錢。2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)

我們用歸納形成基本概念定義。我們看到代表動(dòng)物、植物、建筑物和諸如此類的概念實(shí)例后,我們聽到為這些個(gè)別實(shí)例做的標(biāo)記,并選擇我們認(rèn)定的定義概念的特性(屬性)形成我們自己的分類模型。這以后,我們使用模型幫助我們進(jìn)一步來(lái)區(qū)分結(jié)構(gòu)相似的對(duì)象。這種類型的學(xué)習(xí)稱為基于歸納的有指導(dǎo)的概念學(xué)習(xí),或簡(jiǎn)稱有指導(dǎo)的學(xué)習(xí)(supervisedlearning)2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)ID喉嚨痛發(fā)燒淋巴腫充血頭痛診斷1YesYesYesYesYes鏈球菌感染喉炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo鏈球菌感染喉炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo鏈球菌感染喉炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10YesYesNoYesYes感冒2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)如果病人淋巴腫,診斷為鏈球菌感染性咽炎。如果病人沒有淋巴腫的癥狀,但發(fā)燒,診斷為感冒。如果病人沒有淋巴腫,也不發(fā)燒,診斷為敏感癥。

2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)(1)IF淋巴腫=Yes

THEN診斷=鏈球菌感染性咽炎(2) IF淋巴腫=No&發(fā)燒=Yes

THEN診斷=感冒(3)IF淋巴腫=No&發(fā)燒=No

THEN診斷=敏感癥

產(chǎn)生式規(guī)則2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)未知分類的數(shù)據(jù)實(shí)例ID喉嚨痛發(fā)燒淋巴腫充血頭痛診斷11NoNoYesYesYes?(鏈球菌感染喉炎)12YesYesNoNoYes?(感冒)13NoNoNoNoYes?(敏感癥)2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)準(zhǔn)確度在檢驗(yàn)集中符合產(chǎn)生式規(guī)則條件的實(shí)例正確顯示規(guī)則所指定結(jié)果的比率。覆蓋率在檢驗(yàn)集中顯示規(guī)則所指定結(jié)果的實(shí)例符合產(chǎn)生式規(guī)則條件的比率。

產(chǎn)生式規(guī)則應(yīng)用效果的評(píng)價(jià)指標(biāo)2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)分類學(xué)習(xí)是有指導(dǎo)的。因變量是分類的。重點(diǎn)在于建立模型,將新的實(shí)例指派給一組定義明確的類中的一個(gè)。有指導(dǎo)學(xué)習(xí)的類型2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)分類任務(wù)的例子確定用于區(qū)分患過心臟病的人和從未患過心臟病的人的特征。開發(fā)一個(gè)“成功”人士的特征文件。確定一次信用卡購(gòu)物是否為盜用。將一次購(gòu)車貸款申請(qǐng)歸類為具備良好的或者不良的信用風(fēng)險(xiǎn)。開發(fā)一個(gè)特征文件來(lái)區(qū)別女性與男性中風(fēng)患者。

有指導(dǎo)學(xué)習(xí)的類型2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)估計(jì) 與分類模型相似,估計(jì)模型的目的在于確定一個(gè)未知輸出屬性的值。然而,不同于分類模型的是,對(duì)一個(gè)估計(jì)問題,其輸出屬性值(一個(gè)或多個(gè))是數(shù)值的而不是分類的。

有指導(dǎo)學(xué)習(xí)的類型2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)估計(jì)任務(wù)的例子估計(jì)暴風(fēng)雨到達(dá)某個(gè)給定地點(diǎn)所需要的分鐘數(shù)。估計(jì)擁有一輛跑車的人的收入。估計(jì)信用卡已被盜的可能性。估計(jì)伽馬射線爆的長(zhǎng)度。

有指導(dǎo)學(xué)習(xí)的類型2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)預(yù)測(cè) 與分類模型和估計(jì)模型不同,預(yù)測(cè)模型的目的在于確定未來(lái)的輸出結(jié)果而不是當(dāng)前的行為。預(yù)測(cè)模型的輸出屬性(一個(gè)或多個(gè))可以是分類的或數(shù)值型的。

有指導(dǎo)學(xué)習(xí)的類型2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)預(yù)測(cè)任務(wù)的例子預(yù)測(cè)2002年全美橄欖球聯(lián)盟(NFL)賽季中跑衛(wèi)的觸地總得分。確定一個(gè)信用卡客戶是否可使用其信用卡賬單提供的優(yōu)惠。預(yù)測(cè)下周道瓊斯工業(yè)指數(shù)的收盤價(jià)格。預(yù)測(cè)在未來(lái)的3個(gè)月內(nèi),哪些電話用戶最有可能改變他們的供應(yīng)商。

有指導(dǎo)學(xué)習(xí)的類型2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)Acme信用卡公司信用卡促銷數(shù)據(jù)庫(kù)收入范圍雜志促銷手表促銷壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡40-50,000YesNoNoNoMale4530-40,000YesYesYesNoFemale4040-50,000NoNoNoNoMale4230-40,000YesYesYesYesMale4350-60,000YesNoYesNoFemale3820-30,000NoNoNoNoFemale5530-40,000YesNoYesYesMale3520-30,000NoYesNoNoMale2730-40,000YesNoNoNoMale4330-40,000YesYesYesNoFemale4140-50,000NoYesYesNoFemale4320-30,000NoYesYesNoMale2950-60,000YesYesYesNoFemale3940-50,000NoYesNoNoMale5520-30,000NoNoYesYesFemale192/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)

假設(shè)Acme信用卡公司己經(jīng)批準(zhǔn)了一個(gè)與上表所列的以前的促銷相似的新的壽險(xiǎn)促銷活動(dòng)。這個(gè)促銷材料將作為信用卡賬單的一部分發(fā)送給非零余額的所有信用卡持有者。我們將使用數(shù)據(jù)挖掘來(lái)幫助我們把賬單發(fā)送到選定的一組客戶手中,他們當(dāng)前沒有信用卡余額,但有可能利用促銷機(jī)會(huì)。

我們的問題要求有指導(dǎo)數(shù)據(jù)挖掘使用壽險(xiǎn)促銷作為輸出屬性。我們的目的是開發(fā)一個(gè)可能利用壽險(xiǎn)促銷的客戶的特征文件,該壽險(xiǎn)促銷是通過該客戶下一次信用卡結(jié)算表來(lái)宣傳的。

2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)IF性別=Female&19<=Age<=43

THEN壽險(xiǎn)促銷=Yes 規(guī)則準(zhǔn)確度:100.00% 規(guī)則覆蓋率:66.67%

IFSex=Male&IncomeRange=40-50K

THEN壽險(xiǎn)促銷=No 規(guī)則準(zhǔn)確度:100.00% 規(guī)則覆蓋率:50.00%

2/6/2023數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)IF信用卡保險(xiǎn)=Yes

THEN壽險(xiǎn)促銷=Yes 規(guī)則準(zhǔn)確度:100.00% 規(guī)則覆蓋率:33.33%IF收入=30-40K&手表促銷=Yes

THEN壽險(xiǎn)促銷=Yes 規(guī)則準(zhǔn)確度:100.00% 規(guī)則覆蓋率:33.33%2/6/2023數(shù)據(jù)挖掘的基本技術(shù)無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類

與有指導(dǎo)學(xué)習(xí)不同,無(wú)指導(dǎo)聚類(unsupervisedclustering)為無(wú)預(yù)定義類數(shù)據(jù)建立模型。數(shù)據(jù)實(shí)例根據(jù)聚類系統(tǒng)定義的相似分類機(jī)制進(jìn)行分組,在一種或多種評(píng)估技術(shù)的支持下,最終由我們確定所構(gòu)造聚類的含義。

2/6/2023數(shù)據(jù)挖掘的基本技術(shù)無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類

Acme投資有限公司代理帳戶數(shù)據(jù)客戶編號(hào)帳戶類型保證金帳戶交易方式月交易量性別年齡愛好收入1005JointNoOnline1.25F30Tennis40-50K1013CustodialNoBroker0.5F50Skiing80-99K1245JointNoOnllne3.6M20Golf20-39K2110IndividualYesBroker22.3M30Fishing40-59K1001IndividualYesOnline5.0M40Golf60-79K2/6/2023數(shù)據(jù)挖掘的基本技術(shù)無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類

有指導(dǎo)學(xué)習(xí)的典型問題我可以開發(fā)一個(gè)在線投資人的一般特征文件嗎?如果可以,區(qū)分在線投資者和使用經(jīng)紀(jì)人的投資者的特征是什么?有一個(gè)新客戶,他最初并沒有開設(shè)交易保證金賬戶,我是否可以確定他在將來(lái)會(huì)開設(shè)這樣的賬戶?我們能建立一個(gè)準(zhǔn)確預(yù)測(cè)新投資人每月交易平均數(shù)的模型嗎?女性和男性投資人有什么不同特征?

2/6/2023數(shù)據(jù)挖掘的基本技術(shù)無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類

無(wú)指導(dǎo)聚類的典型問題哪些屬性相似性決定Acme投資公司的客戶分組?屬性值的哪些不同之處分割了客戶數(shù)據(jù)庫(kù)?

2/6/2023數(shù)據(jù)挖掘的基本技術(shù)無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類

通過無(wú)指導(dǎo)聚類將客戶劃分為3類IF保證金帳戶=Yes&年齡=20—29&收入=40-59KTHENCluster=1 準(zhǔn)確度=0.80 覆蓋率=0.50IF帳戶類型=Custodial&愛好=Skiing&收入=80-90KTHENCluster=2 準(zhǔn)確度=0.95 覆蓋率=0.35IF帳戶類型=Joint&交易量/月>5&交易方式=OnlineTHENCluster=3 準(zhǔn)確度=0.82 覆蓋率=0.652/6/2023數(shù)據(jù)挖掘的基本技術(shù)關(guān)聯(lián)規(guī)則挖掘技術(shù)

關(guān)聯(lián)規(guī)則(associationrule)挖掘技術(shù)用于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中屬性之間的有趣聯(lián)系。和傳統(tǒng)的產(chǎn)生式規(guī)則不同,關(guān)聯(lián)規(guī)則可以有一個(gè)或多個(gè)輸出屬性。同時(shí),一個(gè)規(guī)則的輸出屬性可以是另一規(guī)則的輸入屬性。關(guān)聯(lián)規(guī)則分析有時(shí)也叫購(gòu)物籃分析,是因?yàn)樗梢哉覍こ鰸撛诘牧钊烁信d趣的所有的產(chǎn)品組合。由此,有限數(shù)目的屬性可能生成上百條關(guān)聯(lián)規(guī)則。

2/6/2023數(shù)據(jù)挖掘的基本技術(shù)關(guān)聯(lián)規(guī)則挖掘技術(shù)通過apriori關(guān)聯(lián)規(guī)則挖掘算法,從Acme公司信用卡促銷數(shù)據(jù)庫(kù)可以得到以下關(guān)聯(lián)規(guī)則:IF性別=Female&年齡=over40&信用卡保險(xiǎn)=NoTHEN壽險(xiǎn)促銷=YesIF性別=Male&年齡=over40&信用卡保險(xiǎn)=NoTHEN壽險(xiǎn)促銷=NoIF性別=Female&Age=over40THEN信用卡保險(xiǎn)=No&壽險(xiǎn)促銷=Yes

2/6/2023數(shù)據(jù)挖掘的基本算法其它數(shù)據(jù)挖掘算法

K-平均值算法(一種無(wú)指導(dǎo)聚類算法)遺傳算法(可用于有指導(dǎo)學(xué)習(xí)的算法)神經(jīng)網(wǎng)絡(luò)算法(可用于有指導(dǎo)學(xué)習(xí)的算法)

2/6/2023目錄大數(shù)據(jù)技術(shù)概論云數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能2/6/2023BI理解數(shù)據(jù)商務(wù)智能是通過對(duì)來(lái)自不同的數(shù)據(jù)源進(jìn)行統(tǒng)一處理及管理,通過靈活的展現(xiàn)方法來(lái)幫助企業(yè)進(jìn)行決策支持。數(shù)據(jù)信息知識(shí)決策獲取管理使用2/6/2023BI概念商業(yè)智能(BusinessIntelligence,簡(jiǎn)稱BI)的概念最早是GartnerGroup于1996年提出來(lái)的。當(dāng)時(shí)將商業(yè)智能定義為一類由數(shù)據(jù)倉(cāng)庫(kù)(或數(shù)據(jù)集市)、查詢報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以幫助企業(yè)決策為目的技術(shù)及其應(yīng)用。

目前,商業(yè)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。從技術(shù)層面上講,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉(cāng)庫(kù)、OLAP和數(shù)據(jù)挖掘等技術(shù)的綜合運(yùn)用。

2/6/2023商業(yè)智能是一種解決方案,關(guān)鍵是從許多來(lái)自不同的企業(yè)運(yùn)作系統(tǒng)的數(shù)據(jù)中,提取出有用的數(shù)據(jù),進(jìn)行清理以保證數(shù)據(jù)的正確性,然后經(jīng)過抽?。‥xtraction)、轉(zhuǎn)換(Transformation)和裝載(Load),即ETL過程,合并到一個(gè)企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)里,從而得到企業(yè)數(shù)據(jù)的一個(gè)全局視圖,在此基礎(chǔ)上利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具、OLAP工具等對(duì)其進(jìn)行分析和處理(這時(shí)信息變?yōu)檩o助決策的知識(shí)),最后將知識(shí)呈現(xiàn)給管理者,為管理者的決策過程提供支持。2/6/2023外部數(shù)據(jù)庫(kù)MSSQLORACAL外部文件ETL工具大數(shù)據(jù)平臺(tái),數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)數(shù)據(jù)挖掘OLAP分析信息表現(xiàn)查詢報(bào)表數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型BI系統(tǒng)用戶元數(shù)據(jù)庫(kù)元數(shù)據(jù)數(shù)據(jù)描述用法結(jié)構(gòu)安全設(shè)置數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)查詢請(qǐng)求

商業(yè)智能基本過程圖

2/6/2023信息孤島各自為政,互相獨(dú)立財(cái)務(wù)分析運(yùn)營(yíng)分析客戶分析財(cái)務(wù)系統(tǒng)營(yíng)銷系統(tǒng)服務(wù)系統(tǒng)2/6/2023幫助企業(yè)提高戰(zhàn)略決策建立業(yè)務(wù)單一視圖、消除信息孤島、多角度審視業(yè)務(wù)數(shù)據(jù)提高服務(wù)水平和客戶滿意度敏銳洞悉市場(chǎng)機(jī)會(huì)加強(qiáng)企業(yè)監(jiān)管、防范欺詐內(nèi)部效益考核優(yōu)化資源科學(xué)決策數(shù)據(jù)倉(cāng)庫(kù)2/6/2023商務(wù)智能對(duì)企業(yè)的作用和價(jià)值理解業(yè)務(wù):網(wǎng)絡(luò)資源分析產(chǎn)品結(jié)構(gòu)及組合分析服務(wù)質(zhì)量分析業(yè)務(wù)發(fā)展分析理解客戶:客戶貢獻(xiàn)度分析客戶群體劃分客戶行為分析制訂市場(chǎng)營(yíng)銷策略風(fēng)險(xiǎn)分析:客戶流失的測(cè)算信用分析欺詐分析內(nèi)部績(jī)效考核:產(chǎn)品、部門利潤(rùn)分析資源分配資源成本分析誰(shuí)是最好的客戶?如何擴(kuò)大利潤(rùn)?如何避免風(fēng)險(xiǎn)?收入/成本如何分配?大數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)2/6/2023數(shù)據(jù)質(zhì)量控制數(shù)據(jù)重新組織EII解決方案數(shù)據(jù)展現(xiàn)數(shù)據(jù)管理數(shù)據(jù)獲取數(shù)據(jù)遷移作業(yè)分配數(shù)據(jù)清洗數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)管理數(shù)據(jù)集市管理安全性、分析管理企業(yè)商務(wù)智能體系架構(gòu)規(guī)劃最終用戶數(shù)據(jù)質(zhì)量控制數(shù)據(jù)重新組織ETL/DQ解決方案數(shù)據(jù)抽取、遷移、加載周數(shù)據(jù)加載日常數(shù)據(jù)增加日周期數(shù)據(jù)源ETL/EII數(shù)據(jù)存儲(chǔ)管理業(yè)務(wù)模型數(shù)據(jù)展現(xiàn)利潤(rùn)成本分析資產(chǎn)分析營(yíng)銷分析投資組合分析平衡計(jì)分卡/KPI解決的業(yè)務(wù)問題數(shù)據(jù)分析采購(gòu)系統(tǒng)生產(chǎn)系統(tǒng)銷售系統(tǒng)財(cái)務(wù)系統(tǒng)即席查詢Intranet/Internet產(chǎn)品報(bào)告數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論