第一章+緒論-淺談數(shù)據(jù)挖掘課件_第1頁
第一章+緒論-淺談數(shù)據(jù)挖掘課件_第2頁
第一章+緒論-淺談數(shù)據(jù)挖掘課件_第3頁
第一章+緒論-淺談數(shù)據(jù)挖掘課件_第4頁
第一章+緒論-淺談數(shù)據(jù)挖掘課件_第5頁
已閱讀5頁,還剩85頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘劉云霞sxyunxiafishingDataMiningdredgingsnooping2024/12/2311.第一章+緒論-淺談數(shù)據(jù)挖掘第一章緒論一、關于數(shù)據(jù)挖掘的經(jīng)典故事和案例二、數(shù)據(jù)挖掘入門三、數(shù)據(jù)挖掘與統(tǒng)計學的關系四、數(shù)據(jù)挖掘軟件2024/12/2321.第一章+緒論-淺談數(shù)據(jù)挖掘一、關于數(shù)據(jù)挖掘的經(jīng)典故事和案例1、正在影響中國管理的10大技術2、從數(shù)字中能夠得到什么?3、一個網(wǎng)絡流傳的笑話4、啤酒與尿布5、網(wǎng)上書店關聯(lián)銷售的案例6、數(shù)據(jù)挖掘在企業(yè)中的應用2024/12/2331.第一章+緒論-淺談數(shù)據(jù)挖掘1、正在影響中國管理的10大技術No.5數(shù)據(jù)挖掘2024/12/2341.第一章+緒論-淺談數(shù)據(jù)挖掘2、從數(shù)字中能夠得到什么?WhatarethesenumberstryingtoTellme???99:8179,7954,舅舅:不要吃酒,吃酒誤事,76269,8406,9405,吃了二兩酒,不是動怒,就是動武,7918934,1.91817。吃酒要被酒殺死,一點酒也不要吃。2024/12/2351.第一章+緒論-淺談數(shù)據(jù)挖掘WhatAreTheseNumbersTryingtoTellUs?7÷22≦x≦340÷6二四六八00001×1=110002=100×100×1007/8不三不四接二連三陸續(xù)不斷無獨有偶掛萬漏一一成不變千方百計七上八下2024/12/2361.第一章+緒論-淺談數(shù)據(jù)挖掘3、一個網(wǎng)絡流傳的笑話(轉(zhuǎn)述)客服:“東東披薩店您好!請問有什么需要我為您服務?”顧客:“你好,我想要……”客服:“先生,請把您的AIC會員卡號碼告我。”顧客:“喔!請等等,?!?/p>

2024/12/2371.第一章+緒論-淺談數(shù)據(jù)挖掘

(1.客戶數(shù)據(jù)庫)顧客:“我家,為什么你知道我所有的電話號碼?”客服:“陳先生,因為我們有連線“AIC

CRM系統(tǒng)”?!笨头?“陳先生您好,您是住在泉州街一號二樓,您家的電話是,您的公司電話是23113731,您的移動電話是939956956。請問您現(xiàn)在是用哪一個電話呢?”Add-in-Cards親密合作伙伴CustomerRelationshipManagement客戶關系管理2024/12/2381.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“我想要一個海鮮披薩……”客服:“陳先生,

海鮮披薩不適合您?!鳖櫩?“為什么?”

客服:“根據(jù)您的醫(yī)療紀錄,您有高血壓和膽固醇偏高?!?2.醫(yī)療數(shù)據(jù)庫)

Why?2024/12/2391.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“那……你們有什么可以推薦的?”客服:“您可以試試我們的低脂健康披薩?!鳖櫩?“你怎么知道我會喜歡吃這種的?”客服:“喔!

您上星期一在中央圖書館借了一本《低脂健康食譜》?!?3.圖書借閱數(shù)據(jù)庫)2024/12/23101.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“哎呀!好……,我要一個家庭號特大披薩,要多少錢?”客服:“嗯,這個足夠您一家十口吃,六百九十九元?!鳖櫩?“可以刷卡嗎?”客服:“陳先生,對不起,請您付現(xiàn),因為您的信用卡已經(jīng)刷爆了,您現(xiàn)在還欠銀行十萬四千八百零七元,而且還不包括房貸利息?!?4.金融數(shù)據(jù)庫-信用卡)2024/12/23111.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“喔!那我先去附近的提款機領錢。”客服:“陳先生,根據(jù)您的記錄,您已經(jīng)超過今日提款機提款限額。”(5.金融數(shù)據(jù)庫-現(xiàn)金卡)2024/12/23121.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:“算了!你們直接把披薩送來吧,我這里有現(xiàn)金。你們多久會送到?”客服:“大約三十分鐘,如果您不想等,可以自己騎車來。”顧客:“什么?!”客服:“根據(jù)“AIC

CRM系統(tǒng)”記錄,您有一輛摩托車,

車號是GY-7878?!?1.客戶數(shù)據(jù)庫)?。?!2024/12/23131.第一章+緒論-淺談數(shù)據(jù)挖掘顧客:客服:“陳先生,請您說話小心一點。您在2000年四月一日用臟話侮辱警察,被判了十日拘役?!鳖櫩?“……”(6.刑事刑案數(shù)據(jù)庫)“……#@$%^&$%^&※!”2024/12/23141.第一章+緒論-淺談數(shù)據(jù)挖掘客服:“請問還需要什么嗎?”顧客:“沒有了,是不是有送三罐可樂?”客服:“是的!不過根據(jù)“AIC

CRM系統(tǒng)”您有糖尿病……”2024/12/23151.第一章+緒論-淺談數(shù)據(jù)挖掘CRMRoadMAP客戶數(shù)據(jù)倉庫查詢/報表在線實時分析數(shù)據(jù)挖掘(DataMining)營銷自動化接觸通路電子郵件/簡訊客服中心網(wǎng)絡銀行郵件/傳真業(yè)務代表銷售自動化服務自動化作業(yè)型資料儲存庫(ODS)整合性客戶數(shù)據(jù)庫分析性資料超市分析模塊(AnalyticalModels)/BusinessDomainReadySolutions前臺后臺2024/12/23161.第一章+緒論-淺談數(shù)據(jù)挖掘4、啤酒與尿布在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。原因何在?2024/12/23171.第一章+緒論-淺談數(shù)據(jù)挖掘原來,美國的婦女們經(jīng)常會囑咐她們的丈夫下班以后要為孩子買尿布。而丈夫在買完尿布之后又要順手買回自己愛喝的啤酒,因此啤酒和尿布在一起購買的機會還是很多的。是什么讓沃爾瑪發(fā)現(xiàn)了尿布和啤酒之間的關系呢?正是商家通過對超市一年多原始交易數(shù)字進行詳細的分析,通過數(shù)據(jù)挖掘中的關聯(lián)規(guī)則發(fā)現(xiàn)了這樣的組合。2024/12/23181.第一章+緒論-淺談數(shù)據(jù)挖掘5、網(wǎng)上書店關聯(lián)銷售的案例現(xiàn)在網(wǎng)上書店為了能夠吸引更多讀者購買圖書,常常會運用一種叫做關聯(lián)銷售分析的方法。這種方法是給客戶提供其他的相關書籍,也就是在客戶購買了一種書籍之后,推薦給客戶應該感興趣的其他相關書籍。例如:購買了《月光寶盒(2VCD)》的顧客,對什么樣的VCD還比較感興趣,購買的比較多呢?。2024/12/23191.第一章+緒論-淺談數(shù)據(jù)挖掘解決上述問題的步驟:首先,確定數(shù)據(jù)源,也就是銷售記錄。這里要用到兩張表,一張表是該書店的會員,用會員ID號來代替;另一張表是會員買了什么書。然后,應用DataMining技術,建立數(shù)據(jù)挖掘模型。2024/12/23201.第一章+緒論-淺談數(shù)據(jù)挖掘?qū)ι鲜鰡栴}進行挖掘的結(jié)果:BookName$SUPPORT$PROBABILITY$ADJUSTEDPROBABILITY大圣娶親(2VCD)13170.87030.8085大內(nèi)密探零零發(fā)(2VCD)1710.03690.7070九品芝麻官(2VCD)1460.03610.7209千王之王2000(2VCD)1560.03120.6990百變金剛(2VCD)1500.03120.7031唐伯虎點秋香(2VCD)1060.02630.721197家有喜事(2VCD)1040.02130.7017武狀元蘇乞兒(2VCD)890.02130.7177情圣(2VCD)500.01070.7058龍的傳人(2VCD)340.00900.7280支持度sup(.):表示在購物籃分析中同時包含關聯(lián)規(guī)則左右兩邊物品的交易次數(shù)百分比,即支持這個規(guī)則的交易的次數(shù)百分比。置信度confidence(.):是指在所有的購買了左邊商品的交易中,同時又購買了右邊商品的交易概率。結(jié)果:購買《月光寶盒(2VCD)》之后,又購買《大圣娶親(2VCD)》的次數(shù)是1317。2024/12/23211.第一章+緒論-淺談數(shù)據(jù)挖掘數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:銀行:反欺詐行為、關聯(lián)銷售、市場競爭分析??蛻舴诸?、客戶價值分析與預測、客戶偏好分析、客戶信用分析以及欺詐檢測等。電信:流失預警、客戶分群、關聯(lián)銷售。網(wǎng)上銷售點:購物車交叉銷售、網(wǎng)上商品布局。6、數(shù)據(jù)挖掘在企業(yè)中的應用2024/12/23221.第一章+緒論-淺談數(shù)據(jù)挖掘

DM在信用卡欺詐交易中的應用應用之一是通過評價交易數(shù)目、交易金額、賬戶信息如姓名變化和地址變遷、換卡申請等非金融信息的組合來實現(xiàn)。這些因素結(jié)合起來,描述出持卡人最近交易的大概輪廓,從而評估出是否與持卡人的交易習慣相符。一旦發(fā)現(xiàn)交易異常的明顯痕跡,發(fā)卡行需要聯(lián)系持卡人,以確定其信用卡賬戶最近是否正常,是否被以任何方式遭受損害。例如,如果一個持卡人日常生活里,每月交易筆數(shù)在3~6筆,這就是其交易模式之一。如果有一天發(fā)現(xiàn)當日其信用卡賬戶有15筆交易,例外報告將要求發(fā)卡行聯(lián)系持卡人進行確認。2024/12/23231.第一章+緒論-淺談數(shù)據(jù)挖掘

DM在大型零售企業(yè)中的應用1、優(yōu)化商品組合布局,正確安排商品進貨與庫存從眾多的商品中發(fā)現(xiàn)創(chuàng)造價值最大的商品。然后,據(jù)此調(diào)整商品的結(jié)構(gòu),安排商品的庫存和定貨。商品布局管理即商品擺放位置對銷售起著至關重要的作用。考慮購買者在商店里所穿行的路線、購買時間和地點、貨架的使用效率、暢銷商品的類別、不同商品一起購買的概率,進行挖掘。英國safeway公司,研究發(fā)現(xiàn)某一種乳酪產(chǎn)品雖然銷售額排名第209,可是消費額最高的客戶中有25%都常常買這種乳酪,這些客戶可是Safeway最不想得罪的客戶。如果使用傳統(tǒng)的分析方法的話,這種產(chǎn)品很快就會不賣了,可是事實上這種產(chǎn)品是相當重要的。Safeway也發(fā)現(xiàn)在28種品牌的橘子汁中,有8中特別受到歡迎。因此,該公司重新安排貨架的擺設,使橘子汁的銷量能夠增加到最大2024/12/23241.第一章+緒論-淺談數(shù)據(jù)挖掘例如,一個超市營銷的例子,經(jīng)由記錄客戶的消費記錄與采購路線,超級市場的廚房用品是按照女性的視線高度來擺放的。根據(jù)研究得出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130-135公分之間。在商業(yè)上,有很多特征是很難理解的,但若了解到這些信息就會增加企業(yè)的競爭能力。

2024/12/23251.第一章+緒論-淺談數(shù)據(jù)挖掘2、利用數(shù)據(jù)挖掘技術幫助企業(yè)準確制定營銷策略,主要表現(xiàn)在:(1)通過對市場同類產(chǎn)品和銷售情況、顧客情況的資料收集和分類分析,明確細分市場,確定本企業(yè)差別化的產(chǎn)品和服務定位、目標顧客和市場營銷策略。(業(yè)績分析)(2)正確安排商品進貨與庫存,降低庫存成本。即對各個商品、各色貨物進行增減,確保正確的庫存;協(xié)助企業(yè)確定最佳經(jīng)濟批量、最佳定貨時機,從而節(jié)約進貨和庫存管理費用;2024/12/23261.第一章+緒論-淺談數(shù)據(jù)挖掘(3)將顧客按照一定的標準進行分類,通過對企業(yè)銷售數(shù)據(jù)的序列分析發(fā)現(xiàn)顧客基于時間的購買模式,預測顧客需求,及時調(diào)整產(chǎn)品的結(jié)構(gòu)和內(nèi)容,提高不同顧客群的滿意度,最大限度的留住顧客。(4)通過建立顧客會員制度,記錄同一顧客在不同時期購買的商品序列,通過統(tǒng)計分析和序列模式挖掘顧客購買趨勢或忠誠度的變化。以顧客為導向2024/12/23271.第一章+緒論-淺談數(shù)據(jù)挖掘例如,Safeway在了解客戶每次采購時會購買哪些產(chǎn)品以后,就可以利用數(shù)據(jù)挖掘中的監(jiān)測功能,監(jiān)測出長期的經(jīng)常購買行為。再將這些資料與主數(shù)據(jù)庫的人口統(tǒng)計資料結(jié)合在一起,Safeway的營銷部門就可以根據(jù)每個家庭的特性,也就是哪些季節(jié)會購買哪些產(chǎn)品的趨勢,發(fā)出郵件。2024/12/23281.第一章+緒論-淺談數(shù)據(jù)挖掘例如,擁有汽車的新婚夫妻很可能購買兒童專用汽車椅,這個現(xiàn)象很容易被理解,并不需要應用到數(shù)據(jù)挖掘中。但如考慮到另一個問題,這些夫妻會購買何種顏色的兒童專用汽車椅?這時可以運用數(shù)據(jù)挖掘技術以便在新婚夫妻購買汽車的時候銷售給他們合適的兒童專用汽車椅。(7)交叉銷售2024/12/23291.第一章+緒論-淺談數(shù)據(jù)挖掘

DM在房地產(chǎn)行業(yè)中的應用關聯(lián)規(guī)則A1:地理位置無關型客戶=≥重視物業(yè)管理

支持率=9.7%;可信度=30.3%;興趣度=2.4;關聯(lián)規(guī)則B1:重視物業(yè)管理=≥地理位置無關型客戶支持率=9.7%;可信度=76.9%;興趣度=2.4;對比發(fā)現(xiàn):“重視物業(yè)管理的人不關心地理位置”的可能性(76.9%)高于“不關心地理位置的人重視物業(yè)管理”的可能性(30.3%)。說明關聯(lián)規(guī)則B1是一條更有意義的關聯(lián)規(guī)則。2024/12/23301.第一章+緒論-淺談數(shù)據(jù)挖掘

DM在公司財務分析中的應用2024/12/23311.第一章+緒論-淺談數(shù)據(jù)挖掘用比率分析法消除規(guī)模影響2024/12/23321.第一章+緒論-淺談數(shù)據(jù)挖掘首先,將企業(yè)按財務狀況分成5類;其次,利用關聯(lián)分析,找到影響企業(yè)財務狀況的因素。對公司的財務狀況有明顯影響的因素有資產(chǎn)負債率、速動比率、總資產(chǎn)周轉(zhuǎn)率、銷售毛利率、凈資產(chǎn)收益率等。2024/12/23331.第一章+緒論-淺談數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘入門什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的?什么是數(shù)據(jù)挖掘?在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的功能幾種較為流行的數(shù)據(jù)挖掘技術2024/12/23341.第一章+緒論-淺談數(shù)據(jù)挖掘1、什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的?數(shù)據(jù)爆炸性的增長:從兆字節(jié)terabytes到千兆字節(jié)petabytes。多種海量數(shù)據(jù)源商業(yè):網(wǎng)絡,電子商務,交易,股票,…科學:遙感數(shù)據(jù),生物信息學,科學模擬,…社會各個角落:新聞,數(shù)字影像,視頻,…“我們被信息淹沒卻信息貧乏!”

“需要是發(fā)明之母”———數(shù)據(jù)挖掘—海量數(shù)據(jù)庫的自動化分析。根據(jù)文章中出現(xiàn)的詞的相似性,可以把八篇文章分為兩個自然簇。第一個簇由前四篇文章組成,對應于經(jīng)濟新聞,而第二個簇包含后四篇文章,對應于衛(wèi)生保健新聞。2024/12/23351.第一章+緒論-淺談數(shù)據(jù)挖掘2、什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。2024/12/23361.第一章+緒論-淺談數(shù)據(jù)挖掘Datamining:用詞不當?從數(shù)據(jù)中挖掘知識相近的術語數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD)、知識提取、數(shù)據(jù)/模式識別、

數(shù)據(jù)考古、數(shù)據(jù)捕撈、知識獲取、商業(yè)智能等。KnowledgeDiscoveryinDatabases2024/12/23371.第一章+緒論-淺談數(shù)據(jù)挖掘知識發(fā)現(xiàn)(KDD)過程數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的核心步驟DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation2024/12/23381.第一章+緒論-淺談數(shù)據(jù)挖掘數(shù)據(jù)挖掘和商務智能IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalystDataAnalystDBADecisionMakingDataPresentationVisualizationTechniquesDataMiningInformationDiscoveryDataExplorationStatisticalSummary,Querying,andReportingDataPreprocessing/Integration,DataWarehousesDataSourcesPaper,Files,Webdocuments,Scientificexperiments,DatabaseSystems數(shù)據(jù)庫管理員OLAP商務智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助企業(yè)做出明智的業(yè)務經(jīng)營決策的工具。一般由數(shù)據(jù)倉庫、聯(lián)機分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復等部分組成。2024/12/23391.第一章+緒論-淺談數(shù)據(jù)挖掘數(shù)據(jù)挖掘:多種學科的交叉DataMiningDatabaseTechnologyStatisticsMachineLearningPatternRecognitionAlgorithmOtherDisciplinesVisualization2024/12/23401.第一章+緒論-淺談數(shù)據(jù)挖掘3、對何種數(shù)據(jù)進行挖掘?關系數(shù)據(jù)庫(Relationaldatabase)、數(shù)據(jù)倉庫(datawarehouse)、事務數(shù)據(jù)庫(transactionaldatabase)高級數(shù)據(jù)庫和面向特殊應用的數(shù)據(jù)庫數(shù)據(jù)流和遙感數(shù)據(jù)時間序列數(shù)據(jù)、時間數(shù)據(jù)、序列數(shù)據(jù)(生物序列數(shù)據(jù))結(jié)構(gòu)數(shù)據(jù)、圖、網(wǎng)絡和多維鏈數(shù)據(jù)

對象-關系數(shù)據(jù)庫(Object-relationaldatabases)異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫空間數(shù)據(jù)和時空數(shù)據(jù)多媒體數(shù)據(jù)庫、文本數(shù)據(jù)、WWW關系數(shù)據(jù)庫是表的集合,每個表都賦予一個唯一的名字。事務數(shù)據(jù)庫由一個文件組成,其中每個記錄代表一個事務。數(shù)據(jù)倉庫是從多個數(shù)據(jù)源收集的信息存儲,存放在一個一致的模式下,并通過數(shù)據(jù)清理、變換、集成等來構(gòu)造。2024/12/23411.第一章+緒論-淺談數(shù)據(jù)挖掘關系數(shù)據(jù)庫關系數(shù)據(jù)庫是表的集合,每個表都賦予一個唯一的名字。2024/12/23421.第一章+緒論-淺談數(shù)據(jù)挖掘事務數(shù)據(jù)庫ID事務數(shù)據(jù)庫由一個文件組成,其中每個記錄代表一個事務。2024/12/23431.第一章+緒論-淺談數(shù)據(jù)挖掘數(shù)據(jù)倉庫以面向主題的原則,以個人信用卡消費趨勢為主題的星形模式數(shù)據(jù)倉庫。事實表維表數(shù)據(jù)倉庫是從多個數(shù)據(jù)源收集的信息存儲,存放在一個一致的模式下,并通過數(shù)據(jù)清理、變換、集成等來構(gòu)造。2024/12/23441.第一章+緒論-淺談數(shù)據(jù)挖掘4、DataMining處理流程

DATAMINING

運行時間定義企業(yè)問題定義分析資料數(shù)據(jù)預處理數(shù)據(jù)挖掘布署與應用數(shù)據(jù)源DATAMINING處理流程2024/12/23451.第一章+緒論-淺談數(shù)據(jù)挖掘5、OLAP與數(shù)據(jù)挖掘聯(lián)機分析處理OLAP(On-LineAnalyticalProcessing)是使使用者從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、易理解并真實反映企業(yè)特性的信息進行存取,以滿足決策支持或多維環(huán)境特定的查詢和報表需求的一種軟件技術。OLAP除了能夠告訴你數(shù)據(jù)庫中都有什么,還能夠更進一步告訴你下一步會怎么樣以及如果采取這樣的措施又會怎么樣。其分析過程在本質(zhì)上是一個基于用戶建立的一系列假設驅(qū)動,通過OLAP來證實或者推翻這些假設的演繹推理過程。實質(zhì)上是通過把一個實體的多項重要的屬性定義為多個維(dimension),使用戶能對不同維上的數(shù)據(jù)進行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。旋轉(zhuǎn)、切片(塊)、鉆取鉆?。菏歉淖兙S的層次,變換分析的粒度。它包括向下鉆取(Drill-down)和向上鉆?。―rill-up)/上卷(Roll-up)。Drill-up是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill-down則相反,它從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新維。切片和切塊:是在一部分維上選定值后,關心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個或以上,則是切塊。旋轉(zhuǎn):是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。2024/12/23461.第一章+緒論-淺談數(shù)據(jù)挖掘比如:一個OLAP分析師可能認為,在某一區(qū)域開辦信用卡的用戶會更主動地進行消費。對于這個假定,他可能去觀察在那些富裕地區(qū)申辦信用卡的用戶的信用卡賬戶屬性。如果結(jié)果還不夠明顯,他也許要將年齡因素考慮進去。一直這樣下去,直到他認為他找到了能夠決定是否主動進行信用卡消費的各種變量,然后再根據(jù)這些變量,策劃他的銀行產(chǎn)品的營銷方式,最大程度上將營銷資源放在最可能接受他們產(chǎn)品的客戶對象上。2024/12/23471.第一章+緒論-淺談數(shù)據(jù)挖掘比如,在銀行間盛行的CRM的應用中,數(shù)據(jù)倉庫以面向“客戶”為主題進行數(shù)據(jù)篩選、存儲;OLAP負責分析客戶的基本信息、儲蓄賬戶信息、歷史余額信息、銀行交易日志等,以動態(tài)分析報表、直方圖、折線圖、餅圖等形式展現(xiàn)給管理者,讓他們從多方面了解和掌握客戶的動態(tài),從而發(fā)現(xiàn)客戶的交易習性、客戶流失形式,更好地針對不同類型的客戶,在不同時期進行適應性產(chǎn)品的營銷活動。數(shù)據(jù)挖掘則可以通過歷史數(shù)據(jù)建立模型,在擬合歷史的基礎上,分析未來趨勢,判斷哪些因素的改變將很可能意味著客戶的最終流失,進而避免其發(fā)生。OLAP與數(shù)據(jù)挖掘的區(qū)別2024/12/23481.第一章+緒論-淺談數(shù)據(jù)挖掘6、數(shù)據(jù)挖掘的功能關聯(lián)分析分類和預測聚類異常值探測序列模式挖掘2024/12/23491.第一章+緒論-淺談數(shù)據(jù)挖掘關聯(lián)分析是用于挖掘、發(fā)現(xiàn)大量數(shù)據(jù)中項集之間存在的、重要的、有趣的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。在不知道關聯(lián)函數(shù)或關聯(lián)函數(shù)不確定的情況下,為了反映所發(fā)現(xiàn)規(guī)則的有用性和確定性,關聯(lián)分析生成的規(guī)則都要滿足最小支持度閥值和最小置信度閥值。關聯(lián)分析2024/12/23501.第一章+緒論-淺談數(shù)據(jù)挖掘關聯(lián)分析的應用:比如人壽保險。保險公司在接受保險前,往往需要記錄投保人詳盡的信息,有時還要到醫(yī)院做身體檢查。保單上記錄有投保人的年齡、性別、健康狀況、工作單位、工作地址、工資水平等。通過分析這些數(shù)據(jù),可以得到類似以下這樣的關聯(lián)規(guī)則:年齡在40歲以上,工作在A區(qū)的投保人當中,有45%的人曾經(jīng)向保險公司索賠過。在這條規(guī)則中,“年齡在40歲以上”∩“工作在A區(qū)”→“向保險公司索賠過”

可以看出來,A區(qū)可能污染比較嚴重,環(huán)境比較差,導致工作在該區(qū)的人健康狀況不好,索賠率也相對比較高。2024/12/23511.第一章+緒論-淺談數(shù)據(jù)挖掘分類和預測分類是對一個類別進行描述及概括相關特征,并提取出描述重要數(shù)據(jù)類的模型。數(shù)據(jù)挖掘中的分類方法很多,主要有決策樹和決策規(guī)則、貝葉斯信念網(wǎng)絡、神經(jīng)網(wǎng)絡以及遺傳算法等。預測是通過建立連續(xù)值函數(shù)模型達到預測未來的數(shù)據(jù)趨勢。預測的方法主要有回歸分析、時間序列分析等。各種分類模型也可以預測,但主要是預測分類標號。2024/12/23521.第一章+緒論-淺談數(shù)據(jù)挖掘聚類聚類是在要劃分的類未知的情況下,將數(shù)據(jù)庫中的記錄劃分為多個類或簇,使得同類內(nèi)的對象之間具有較高的相似度,不同類間的差異較大。它是概念描述和偏差分析的先決條件。數(shù)據(jù)挖掘中的聚類方法有劃分方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法等。2024/12/23531.第一章+緒論-淺談數(shù)據(jù)挖掘異常值探測異常值指的是數(shù)據(jù)庫中不符合數(shù)據(jù)一般模型的數(shù)據(jù)對象。從數(shù)據(jù)庫中探測異常值很有意義,因為它們本身可能隱藏著重要的信息,比正常的數(shù)據(jù)更有用,忽略或刪除它們都會導致信息的丟失。例如,發(fā)現(xiàn)金融和保險領域的欺詐行為、稅款的脫逃、通信費用的惡意欠費、網(wǎng)絡中的黑客入侵、追尋極低或極高收入者的消費行為以及對多種治療方式不尋常反映的發(fā)現(xiàn)等。2024/12/23541.第一章+緒論-淺談數(shù)據(jù)挖掘序列模式挖掘序列模式挖掘是指挖掘相對時間或其他序列出現(xiàn)頻率高的規(guī)律或趨勢,并建模。這里的序列一般指時間序列數(shù)據(jù)庫和序列數(shù)據(jù)庫(Web日志分析和DNA分析)。在許多行業(yè)產(chǎn)生的數(shù)據(jù)庫都是時間序列數(shù)據(jù)庫,例如,商業(yè)交易、電信部門、天氣數(shù)據(jù)等等,因此,序列模式的挖掘是非常有意義的。2024/12/23551.第一章+緒論-淺談數(shù)據(jù)挖掘序列分析和關聯(lián)規(guī)則的相似之處在于,它們所用的樣本數(shù)據(jù)中,每一個樣本都包含了一個項集或狀態(tài)集合。其不同之處在于序列分析研究的是項集(或狀態(tài))間的轉(zhuǎn)換,而關聯(lián)規(guī)則模型研究的是項集之間的相關性。在序列分析模型中,先購買計算機再購買音箱,和先購買音箱再購買計算機是兩種不同的序列。而在關聯(lián)規(guī)則中這兩種行為都表達了一個同樣的項集{計算機,音箱}。2024/12/23561.第一章+緒論-淺談數(shù)據(jù)挖掘決策樹聚類時間序列關聯(lián)規(guī)則貝葉斯分類類神經(jīng)網(wǎng)絡羅吉斯回歸線性回歸文本數(shù)據(jù)挖掘7、幾種數(shù)據(jù)挖掘技術2024/12/23571.第一章+緒論-淺談數(shù)據(jù)挖掘

DecisionTree決策樹決策樹是用二叉樹形圖來表示處理邏輯的一種工具,是對數(shù)據(jù)進行分類的方法。決策樹的目標是針對類別因變量加以預測或解釋反應結(jié)果。主要有兩個步驟:首先,通過一批已知的樣本數(shù)據(jù)建立一棵決策樹;然后,利用建好的決策樹,對數(shù)據(jù)進行預測。決策樹的建立過程可以看成是數(shù)據(jù)規(guī)則的生成過程,因此,決策樹實現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果也容易理解。2024/12/23581.第一章+緒論-淺談數(shù)據(jù)挖掘決策樹的應用舉例客戶信貸分類2024/12/23591.第一章+緒論-淺談數(shù)據(jù)挖掘輸出結(jié)果:關于“buys_computer”的決策樹2024/12/23601.第一章+緒論-淺談數(shù)據(jù)挖掘

聚類(Cluster)聚類目的在將相似的事物歸類。可以將變量分類,但更多的應用是透過顧客特性做分類,通過將顧客特性進一步分割成若干類別而達到市場區(qū)隔之目的??梢詭椭髽I(yè)了解顧客的特征,將顧客分成新顧客、忠誠顧客、流失顧客、無規(guī)律購買顧客、新吸引的顧客等,便于企業(yè)針對不同群體的特征,設計出不同的營銷策略,更大程度地滿足消費者個性化需求。2024/12/23611.第一章+緒論-淺談數(shù)據(jù)挖掘HierarchicalClustering層次聚類法該方法是利用距離矩陣作為分類標準,將n個樣品各作為一類;計算n個樣品兩兩之間的距離,構(gòu)成距離矩陣;合并距離最近的兩類為一新類;計算新類與當前各類的距離;再合并、計算,直至只有一類為止。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)2024/12/23621.第一章+緒論-淺談數(shù)據(jù)挖掘K-MeansClusteringK-均值聚類方法Example:012345678910012345678910012345678910012345678910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassign2024/12/23631.第一章+緒論-淺談數(shù)據(jù)挖掘常用聚類算法的比較2024/12/23641.第一章+緒論-淺談數(shù)據(jù)挖掘

關聯(lián)規(guī)則(Association)關聯(lián)規(guī)則是分析發(fā)現(xiàn)數(shù)據(jù)庫中不同變量或個體(例如商品間的關系及年齡與購買行為……)之間的關系程度(概率大小),并用這些規(guī)則找出顧客購買行為模式。例如:購買了桌面計算機對購買其他計算機外設商品(打印機、喇叭、硬盤..)的相關影響。發(fā)現(xiàn)這樣的規(guī)則可以應用于商品貨架擺設、庫存安排以及根據(jù)購買行為模式對客戶進行分類。2024/12/23651.第一章+緒論-淺談數(shù)據(jù)挖掘啤酒與尿布的關聯(lián)分析FindalltherulesX

Y

withminimumsupportandconfidencesupport,s,probabilitythatatransactioncontainsXYconfidence,c,

conditionalprobabilitythatatransactionhavingXalsocontainsYLetminsup=50%,minconf=50%Freq.Pat.:Beer:3,Nuts:3,Diaper:4,Eggs:3,{Beer,Diaper}:3Associationrules:(manymore!)Beer

Diaper(60%,100%)Diaper

Beer(60%,75%)2024/12/23661.第一章+緒論-淺談數(shù)據(jù)挖掘

NeuralNetwork類神經(jīng)網(wǎng)絡,類似人類神經(jīng)元結(jié)構(gòu)。神經(jīng)元的主要功能是接受刺激和傳遞信息。神經(jīng)元通過傳入神經(jīng)接受來自體內(nèi)外環(huán)境變化的刺激信息,并對這些信息加以分析、綜合和儲存,再經(jīng)過傳出神經(jīng)把指令傳到所支配的器官和組織,產(chǎn)生調(diào)節(jié)和控制效應。2024/12/23671.第一章+緒論-淺談數(shù)據(jù)挖掘2024/12/23681.第一章+緒論-淺談數(shù)據(jù)挖掘單純貝葉斯分類主要是根據(jù)貝葉斯定理(BayesianTheorem),來預測分類的結(jié)果。貝葉斯定理:P(X)、P(H)和P(X|H)可以由給定的數(shù)據(jù)計算,是先驗概率。貝葉斯定理提供了一種由P(X)、P(H)和P(X|H)計算后驗概率P(H|X)的方法。貝葉斯定理是:

Na?veBayes分類2024/12/23691.第一章+緒論-淺談數(shù)據(jù)挖掘?qū)嵗恨k信用卡意愿分析項目性別年齡學生身分收入辦卡1男>45否高會2女31~45否高會3女20~30是低會4男<20是低不會5女20~30是中不會6女20~30否中會7女31~45否高會8男31~45是中不會9男31~45否中會10女<20是低會2024/12/23701.第一章+緒論-淺談數(shù)據(jù)挖掘解:首先根據(jù)訓練樣本計算各屬性相對于不同分類結(jié)果的條件概率:P(辦卡)=7/10

P(不辦卡)=3/10P(女性|辦卡)=5/7

P(女性|不辦卡)=1/3P(年齡=31~45|辦卡)=3/7

P(年齡=31~45|不辦卡)=1/3P(學生=否|辦卡)=5/7

P(學生=否|不辦卡)=0/3P(收入=中|辦卡)=2/7

P(收入=中|不辦卡)=2/3判斷:X=(女性,年齡介于31~45之間,不具學生身份,收入中等)會不會辦理信用卡。2024/12/23711.第一章+緒論-淺談數(shù)據(jù)挖掘

其次,再應用樸素貝氏分類器進行類別預測:計算P(辦卡)P(女性|辦卡)P(年齡31~45|辦卡)P(不是學生|辦卡)P(收入中|辦卡)=15/343≈0.044P(不辦卡)P(女性|不辦卡)P(年齡31~45|不辦卡)P(不是學生|不辦卡)P(收入中等|不辦卡)=00.044>02024/12/23721.第一章+緒論-淺談數(shù)據(jù)挖掘訓練樣本中對于(女性,年齡介于31~45之間,不具學生身份,收入中等)的個人,按照樸素貝葉斯分類會將其分到辦信用卡一類中。辦卡的概率是(0.044)/(0.044+0)=1(正規(guī)化分類的結(jié)果P(會)/(P(會)+P(不會))2024/12/23731.第一章+緒論-淺談數(shù)據(jù)挖掘

羅吉斯回歸(LogisticRegression)假設有個科學家想要了解某種毒物對于老鼠死亡率的分析,他做了三次實驗,分別使用不同的毒物用量,去計算每一百只老鼠的死亡概率,然后他得到以下的結(jié)果:使用10毫克毒物,死亡率為15%使用20毫克毒物,死亡率35%使用30毫克毒物,死亡率55%從這些數(shù)值看起來,毒物的用量與死亡率呈現(xiàn)顯著的正比關系,而且我們可以計算出一條非常完美準確的回歸線:Y=2X-5(Y為死亡率,X為毒物用量)。2024/12/23741.第一章+緒論-淺談數(shù)據(jù)挖掘但是,這個方程式包含有一個重大錯誤。假設我們使用100毫克毒物,根據(jù)方程式計算,這些老鼠的死亡率為195%,也就是說每一百只老鼠會死195只,而如果我們完全不放任何毒物時,死亡率為-5%,也就是每一百只老鼠會死負五只。很顯然,這個線性回歸模型沒有考慮到幾個重要的限制,即當我們使用毒物量降低時,死亡率應該是近于零(不會是負值),而當毒物量增加時,死亡率應該是接近于100%。當需要把概率限制在0~1時,就可以考慮使用LOGISTIC回歸。2024/12/23751.第一章+緒論-淺談數(shù)據(jù)挖掘Logistic回歸模型的構(gòu)造現(xiàn)y為發(fā)病或未發(fā)病,生存與死亡等定性分類變量,不能直接用回歸模型進行分析。能否用發(fā)病的概率P來直接代替y呢?即不行。但可以因此,定義logit(P)=ln[P/(1-P)]為Logistic變換,則Logistic回歸模型為:2024/12/23761.第一章+緒論-淺談數(shù)據(jù)挖掘經(jīng)數(shù)學變換可得:2024/12/23771.第一章+緒論-淺談數(shù)據(jù)挖掘Logistic回歸模型是一種概率模型,它是以疾病,死亡等結(jié)果發(fā)生的概率為因變量,影響疾病發(fā)生的因素為自變量建立回歸模型。它特別適用于因變量為二項,多項分類的資料。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論