大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能培訓(xùn)_第1頁
大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能培訓(xùn)_第2頁
大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能培訓(xùn)_第3頁
大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能培訓(xùn)_第4頁
大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能培訓(xùn)_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1大數(shù)據(jù)時代(shdi)的數(shù)據(jù)挖掘與商務(wù)智能第一頁,共八十二頁。2第四局部(jb)數(shù)據(jù)管理與數(shù)據(jù)挖掘概論第二頁,共八十二頁。3數(shù)據(jù)挖掘概況(gikung)從20世紀(jì)80年代中后期,知識發(fā)現(xiàn)的方法、技術(shù)和系統(tǒng)(xtng),從不同角度、不同領(lǐng)域和不同學(xué)科進(jìn)行了研究和實(shí)踐,主要的學(xué)科有數(shù)據(jù)庫、統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)。1989年 在底特律第11屆IJCAI會議上的KDD研討會。 1991年MIT 出版社出版了一本書 “Knowledge Discovery in Databases。1994年召開了一個國際會議(KDD94), 并于1996年由 MIT出版社又出版了一本書 “Advances in Know

2、ledge Discovery and Data Mining。第三頁,共八十二頁。4數(shù)據(jù)挖掘概況(gikung)1995年在加拿大的蒙特利爾召開KDD95,作為第一屆國際KDD會議,以后(yhu)每年一次,原為AAAI組織,1999年由ACM組織,改為SIGKDD。20*年、第12屆在美國費(fèi)城Philadelphia。20*年在美國加州圣何塞SIGKDD07) 2021年在美國LAS VEGAS(SIGKDD08)。 “Data Mining and Knowledge Discovery 1997年創(chuàng)刊。(Springer,1997,20*。國外相應(yīng)的研究小組的建立,接著數(shù)據(jù)挖掘公司風(fēng)起云

3、涌。一些大公司建立數(shù)據(jù)挖掘小組和開發(fā)各種產(chǎn)品。國內(nèi)研究小組的建立,一些公司也開始了數(shù)據(jù)挖掘工程。第四頁,共八十二頁。5數(shù)據(jù)挖掘概況(gikung)數(shù)據(jù)挖掘是20世紀(jì)80年代后期開展起來的一種新興技術(shù)。它是商業(yè)(shngy)、企業(yè)競爭和技術(shù)開展的需求的結(jié)果,數(shù)據(jù)挖掘技術(shù)是多種學(xué)科的交叉的產(chǎn)物。數(shù)據(jù)挖掘第五頁,共八十二頁。6數(shù)據(jù)挖掘任務(wù)(rn wu)數(shù)據(jù)挖掘任務(wù)技術(shù)分類預(yù)測Predication:用歷史預(yù)測未來描述Description:了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘的具體任務(wù)關(guān)聯(lián)分析序列(xli)模式分類預(yù)測聚集異常檢測第六頁,共八十二頁。7數(shù)據(jù)挖掘任務(wù)(rn wu)描述性分析聚類分析關(guān)聯(lián)(gun

4、lin)分析異常點(diǎn)分析、可視化預(yù)測性分析分類離散回歸分析連續(xù)時間序列分析第七頁,共八十二頁。8數(shù)據(jù)挖掘概況(gikung)數(shù)據(jù)挖掘技術(shù)根本內(nèi)容框架數(shù)據(jù)預(yù)處理 1數(shù)據(jù)清理 2 數(shù)據(jù)變換 3數(shù)據(jù)集成 4數(shù)據(jù)歸約 5數(shù)據(jù)離散化數(shù)據(jù)挖掘根本方法 1關(guān)聯(lián)規(guī)那么2分類與預(yù)測3聚類數(shù)據(jù)挖掘的深入內(nèi)容 1時間序列(xli)和序列(xli)2空間數(shù)據(jù)挖掘 3文本挖掘 4Web挖掘 5多媒體挖掘 6可視化第八頁,共八十二頁。9數(shù)據(jù)挖掘概況(gikung)由于任務(wù)不同,要求不同,數(shù)據(jù)不同,沒有單一的數(shù)據(jù)挖掘軟件可適用所有的情形。造成了各種方法都在快速(kui s)開展,各種數(shù)據(jù)挖掘軟件不斷增多。但商家近年來有逐漸減

5、少的趨勢,大公司的介入,一些大的有實(shí)力的公司開始更多占領(lǐng)市場。根本方法如上所述。軟件功能和性能有很大差異。選軟件應(yīng)考慮的因素很多。第九頁,共八十二頁。10數(shù)據(jù)挖掘概況(gikung) 從問題答復(fù)的角度:有些問題可明確和準(zhǔn)確答復(fù)要求(yoqi)這樣有些問題是給出可能的答復(fù)有些問題可能給出不太明確的答復(fù)有些問題可能給出可能錯誤的答復(fù)。這些答復(fù)從數(shù)據(jù)的角度:有些是查詢,有些是統(tǒng)計,有些是歸納,有些是推斷,有些預(yù)測,有些是分析。數(shù)據(jù)挖掘要答復(fù)那些不是簡單查詢和統(tǒng)計答復(fù)問題。第十頁,共八十二頁。11數(shù)據(jù)挖掘概況(gikung)無法準(zhǔn)確答復(fù)的問題信貸中信用(xnyng)評估,信用(xnyng)卡評級,信用

6、(xnyng)卡欺詐銷售一個產(chǎn)品 廣告 材料 郵寄給誰保存客戶, 爭取客戶交叉銷售違規(guī)操作,欺詐行為發(fā)現(xiàn),異常發(fā)現(xiàn) 貨架貨物的擺放國民經(jīng)濟(jì)各指標(biāo)間的關(guān)系疾病, 病癥, 藥物, 療效之間的關(guān)系DNA序列的相似分析導(dǎo)致各種疾病的特定基因序列模式憑理論,經(jīng)驗,群體分析,憑數(shù)據(jù)分析,挖掘第十一頁,共八十二頁。12數(shù)據(jù)挖掘概況(gikung)各種部門都面臨不同的挑戰(zhàn)一些面臨競爭的部門與企業(yè): 銀行,電信,保險,證券,商場,各種企業(yè)。這些企業(yè)關(guān)心的問題:爭取客戶,增大銷售,提高利潤。一些壟斷部門與企業(yè): 電力(dinl),稅務(wù),社保。面對抱怨,面對抗?fàn)?,面對欺詐。政府和企業(yè)面臨科學(xué)決策第十二頁,共八十二頁

7、。13數(shù)據(jù)挖掘概況(gikung)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工程提到日程數(shù)據(jù)分析、決策支持系統(tǒng)、商業(yè)智能BI、 知識管理、客戶關(guān)系管理(CRM)、物流與供給鏈管理(SCM)、企業(yè)資源方案(ERP)、各種預(yù)測。政府、科技部門、大型企業(yè)工廠,公司,商場,經(jīng)濟(jì)部門、金融機(jī)構(gòu)(jn rn j u)銀行、證券、保險、電子商務(wù)、電子政務(wù)、各種“金 工程。第十三頁,共八十二頁。14數(shù)據(jù)挖掘概況(gikung)數(shù)據(jù)倉庫 將不同數(shù)據(jù)源、多年的數(shù)據(jù)經(jīng)“整合 成一個有組織的便于分析的結(jié)構(gòu)化的數(shù)據(jù)環(huán)境。 組織數(shù)據(jù)方法。數(shù)據(jù)挖掘: 從數(shù)據(jù)中找出推出,歸納出,預(yù)測、挖掘有用的信息,規(guī)律(gul),知識。 分析數(shù)據(jù)方法。第十四頁,

8、共八十二頁。15數(shù)據(jù)庫集成:數(shù)據(jù)倉庫技術(shù)所有(suyu)的數(shù)據(jù)在物理上集中在一起 虛擬數(shù)據(jù)庫技術(shù)數(shù)據(jù)外表上或者在邏輯上是集成在一起,然而它們的物理存貯那么是分散在Internet不同的數(shù)據(jù)效勞器上 數(shù)據(jù)挖掘概況(gikung)第十五頁,共八十二頁。16從兩種數(shù)據(jù)庫集成技術(shù)來看:數(shù)據(jù)倉庫技術(shù)實(shí)用于數(shù)據(jù)庫變動不太頻繁、數(shù)據(jù)庫中數(shù)據(jù)類型和使用方法比較接近的情況。虛擬(xn)數(shù)據(jù)庫技術(shù)實(shí)用于數(shù)據(jù)更新速度快、數(shù)據(jù)類型和使用方法完全不一樣的情況。 數(shù)據(jù)挖掘概況(gikung)第十六頁,共八十二頁。17聯(lián)機(jī)分析(fnx)處理60年代,關(guān)系數(shù)據(jù)庫之父提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的開展(數(shù)據(jù)以

9、表格的形式而非文件(wnjin)方式存儲)。1993年,提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。 OLTP數(shù)據(jù) OLAP數(shù)據(jù) 原始數(shù)據(jù) 導(dǎo)出數(shù)據(jù) 細(xì)節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù) 當(dāng)前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 不可更新,但周期性刷新 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大面向應(yīng)用,事務(wù)驅(qū)動 面向分析,分析驅(qū)動面向操作人員,支持日常操作 面向決策人員,支持管

10、理需要第十七頁,共八十二頁。18OLAP定義(dngy)OLAP(聯(lián)機(jī)分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行(jnxng)快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會的定義)OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。第十八頁,共八十二頁。19數(shù)據(jù)倉庫與數(shù)據(jù)挖掘所處地位(dwi)決策支持系統(tǒng)OLAP數(shù)據(jù)挖掘數(shù) 據(jù) 倉 庫數(shù) 據(jù) 庫各種( zhn)信息系統(tǒng)各種( zhn)

11、管理系統(tǒng)搜索、抽取過濾萬維網(wǎng)信息發(fā)布信息檢索ACRMCRM第十九頁,共八十二頁。20數(shù)據(jù)挖掘發(fā)現(xiàn)知識(zh shi)類型 廣義型知識:反映同類事物共同性質(zhì)(xngzh)的知識 特征型知識:反映事物各方面特征的的知識 差異型知識:反映不同事物之間屬性差異的知識 關(guān)聯(lián)型知識:反映事物之間依賴和關(guān)聯(lián)的知識 偏差型知識:揭示事物偏離常規(guī)的異?,F(xiàn)象的知識 預(yù)測型知識:根據(jù)歷史與當(dāng)前數(shù)據(jù)推測未來數(shù)據(jù)第二十頁,共八十二頁。21(B) DataInformation(A) Knowledge(Arrangement)(Transmit)Knowledge transmitted by character, s

12、ign, voice, etc.(B) Data arranged to be useful for decision makingINFORMATION(Recognition)(C) Knowledge(C) Recognition memorized personally or socially(D) Judgment or a system of judgment which has objective validityKNOWLEDGE(D) Knowledge(Judgment)(D) Knowledge(Judgment)What is the energy to bring s

13、uch transformation?(E) Computers ability to judge things automatically (F) Peoples ability to understand and learn thingsINTELLIGENCEInformation ScienceManagement ScienceKnowledge Science+Information, Knowledge, and Intelligence第二十一頁,共八十二頁。22A theory of organizational knowledge creation, which sugge

14、sts that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization. Shared mental modelsor technical skills1Metaphors, analogies, concepts, hypotheses, or models2Linkingexplicitknowledge3Lea

15、rning by doing4I. Nonaka and H. Takeuchi The Knowledge-Creating Company. How Japanese Companies Create the Dynamics of Innovation. Oxford University Press, 1995.GroupexplicitknowledgeIndividual explicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationInternalizationSocializationExterna

16、lizationKey Factor in Establishing the SchoolProf. Nonaka第二十二頁,共八十二頁。23應(yīng) 用市場分析、預(yù)測和管理行銷(xngxio)策略, 客戶關(guān)系管理(CRM), 購貨籃分析, 市場分割風(fēng)險分析、預(yù)測和管理風(fēng)險預(yù)警, 客戶挽留, 改進(jìn)的保險業(yè), 質(zhì)量控制, 競爭分析欺詐檢測和管理證券違規(guī)操作,稅務(wù)偷漏,瞞報,信用卡欺詐行為判斷信用評估銀行信貸評估,信用卡評估第二十三頁,共八十二頁。24應(yīng) 用宏觀經(jīng)濟(jì)(指標(biāo)之間關(guān)聯(lián),經(jīng)濟(jì)指標(biāo)的預(yù)測,預(yù)警)電信客戶細(xì)分,客戶流失,客戶挽留金融信用評估(pn ),洗錢,欺詐)情報文本挖掘,新聞組, 電子郵件,

17、 文檔)Web 挖掘信息過濾,個性化效勞,異常行為,)DNA 數(shù)據(jù)分析一些引起疾病的DNA序列,)人力資源配置如何有效進(jìn)行人力分配醫(yī)療診斷中藥配伍規(guī)律零售業(yè)科學(xué)天氣預(yù)報,災(zāi)難預(yù)測第二十四頁,共八十二頁。25KDnuggets對數(shù)據(jù)挖掘各種情況(qngkung)進(jìn)行了調(diào)查從應(yīng)用領(lǐng)域使用(shyng)工具使用方法數(shù)據(jù)挖掘組的地位數(shù)據(jù)庫的大小10G以上,100-1000G)數(shù)據(jù)格式文本和工具特定格式居多第二十五頁,共八十二頁。26銀行 17%生物/基因 8%E商務(wù)/Web 15%欺詐檢測 8%保險 6%投資/股票 4%藥品 5%零售業(yè) 6%科學(xué)數(shù)據(jù) 8%電信(dinxn) 11%其他 11%應(yīng)用領(lǐng)域

18、情況(qngkung)2022第二十六頁,共八十二頁。27應(yīng)用領(lǐng)域情況(qngkung) 2 0 0 6第二十七頁,共八十二頁。28應(yīng)用領(lǐng)域情況(qngkung)2021170 voters第二十八頁,共八十二頁。29數(shù)據(jù)挖掘軟件(run jin) (May 2021) 347 voters第二十九頁,共八十二頁。30數(shù)據(jù)挖掘軟件(run jin) (May 2021) 第三十頁,共八十二頁。2021年 R以30.7%的得票率榮登榜首31第三十一頁,共八十二頁。32從技術(shù)看數(shù)據(jù)挖掘使用技術(shù)情況784 votes total (Feb 2005) Decision Trees/Rules (10

19、7)決策樹 14%Clustering (101)聚類 13%Regression (90)回歸 11%Statistics (80)統(tǒng)計 10%Visualization (63)可視化 8%Neural Nets (61)神經(jīng)網(wǎng)絡(luò) 8%Association rules (54)關(guān)聯(lián)規(guī)則 7%Nearest Neighbor (34)最近鄰 4%SVM (Support vector machine) (31)支持向量機(jī) 4%Bayesian (30)貝葉斯 4%Sequence/Time series analysis (26)序列/時間序列分析 3%Boosting (25) 增強(qiáng) 3

20、%Hybrid methods (23) 混合方法 3%Bagging (20) 袋裝 3%Genetic algorithms (19)遺傳算法 2%Other (20) 其他 3%第三十二頁,共八十二頁。33數(shù)據(jù)挖掘任務(wù)(rn wu)類型 ( Dec 20*) 170 voters第三十三頁,共八十二頁。34數(shù)據(jù)類型 ( Sep 2021) 第三十四頁,共八十二頁。35數(shù)據(jù)挖掘系統(tǒng)的典型(dinxng)架構(gòu)數(shù)據(jù)倉庫 數(shù)據(jù)清理與數(shù)據(jù)集成過濾 數(shù)據(jù)庫數(shù)據(jù)庫、數(shù)據(jù)倉庫管理系統(tǒng)數(shù)據(jù)挖掘引擎模型、模式評價可視化用戶界面數(shù)據(jù)挖掘方法庫其它數(shù)據(jù)源用戶知識庫World-WideWebOther InfoR

21、epositories第三十五頁,共八十二頁。36各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推薦商品推薦。基因挖掘基因表達(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析。銀行電信零售保險制藥生物信息科學(xué)研究。相關(guān)行業(yè)綜合(zngh)的數(shù)據(jù)挖掘解決方案復(fù)旦第三十六頁,共八十二頁。371. 業(yè)務(wù)分析Data SourceData Source 2. 數(shù)據(jù)收集與整理3 數(shù)據(jù)分析與處理4. 財務(wù)指標(biāo)展示6.數(shù)據(jù)挖掘結(jié)果的解釋和展示7. 系統(tǒng)建設(shè)8. 嘗試應(yīng)

22、用5. 數(shù)據(jù)挖掘建模商業(yè)銀行客戶違約模型(mxng)建立第三十七頁,共八十二頁。38數(shù)據(jù)挖掘在我國的前景(qinjng)國外數(shù)據(jù)挖掘已相當(dāng)普遍,各大數(shù)據(jù)庫公司(n s)與典型產(chǎn)品IBM, Oracle, Microsoft) SPSS, SAS, BO國內(nèi)情況如何:應(yīng)用普遍性?對其相信程度?制約的因素?市場標(biāo)準(zhǔn)程度? 消費(fèi)者成熟程度? 人為因素程度? 國內(nèi)尚處開展階段,周期長,效益不明顯,數(shù)據(jù)積累不夠,人的認(rèn)識程度,第三十八頁,共八十二頁。39為什么沒有廣泛(gungfn)使用?數(shù)據(jù)挖掘正在快速的開展技術(shù)的研究和開發(fā)已經(jīng)走在很前沿的地方數(shù)據(jù)挖掘應(yīng)用面已經(jīng)擴(kuò)充(kuchng)了很多但是仍然沒有希

23、望的高,為什么?希望在多少年內(nèi)到達(dá)數(shù)十億元的盈利?是一種增值效勞Not bread-and-butter不能認(rèn)為高不可攀,所以不去過問是一門年輕的技術(shù),需要和實(shí)際結(jié)合,解決現(xiàn)實(shí)問題第三十九頁,共八十二頁。40數(shù)據(jù)挖掘國內(nèi)應(yīng)用存在(cnzi)的問題數(shù)據(jù)積累不充分、不全面業(yè)務(wù)模型構(gòu)建困難(kn nn)缺少有經(jīng)驗的實(shí)施者第四十頁,共八十二頁。41數(shù)據(jù)挖掘的方法論第四十一頁,共八十二頁。42知識發(fā)現(xiàn)(fxin)KDD的過程第四十二頁,共八十二頁。431.數(shù)據(jù)的選擇(xunz)與抽樣 根據(jù)用戶的需要從數(shù)據(jù)庫中選擇或抽樣一局部數(shù)據(jù)。2.數(shù)據(jù)預(yù)處理1數(shù)據(jù)的過濾:除噪聲去冗余 2數(shù)據(jù)的添補(bǔ)3數(shù)據(jù)歸約與約簡3.

24、數(shù)據(jù)轉(zhuǎn)換: 數(shù)據(jù)轉(zhuǎn)換的主要目的是消減數(shù)據(jù)維數(shù)或維數(shù)縮減4.數(shù)據(jù)挖掘:挖掘方法的使用5.結(jié)果的評價 1可視化表示2解釋3知識的使用6.循環(huán)第四十三頁,共八十二頁。44KDD過程(guchng)數(shù)據(jù)挖掘: KDD過程(guchng)的核心。Data CleaningData IntegrationDatabasesData WarehouseKnowledgeTask-relevant DataSelectionData MiningPattern Evaluation第四十四頁,共八十二頁。45數(shù)據(jù)挖掘的方法論有許多數(shù)據(jù)挖掘的方法論,比較典型有CRISP-DM Cross Industry St

25、andard Process for Data Mining SAS 提出的數(shù)據(jù)挖掘方法論SEMMA (Sample,Explore,Modify,Model Access)IBM 提出的通用(tngyng)數(shù)據(jù)挖掘方法The generic data mining method)第四十五頁,共八十二頁。46數(shù)據(jù)挖掘的方法論KDnugets 調(diào)查情況:各組織機(jī)構(gòu)、公司、個人進(jìn)行(jnxng)數(shù)據(jù)挖掘時使用的方法論(Aug 20*) 第四十六頁,共八十二頁。47CRISP-DM NCR SPSS等公司提供CRISP-DM跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)數(shù)據(jù)挖掘方法論實(shí)現(xiàn)。主要包括以下(yxi)六個主要環(huán)節(jié):

26、問題業(yè)務(wù)理解(Business Understanding)數(shù)據(jù)理解(Data Understanding) 數(shù)據(jù)準(zhǔn)備(Data Preparation)建立模型(Modeling )模型評估(Evaluation) 方案實(shí)施(Deployment)第四十七頁,共八十二頁。48CRISP-DM1.業(yè)務(wù)問題理解Business Understanding要解決哪類問題:在數(shù)據(jù)挖掘之前,收集與該工程有關(guān)的信息,確定數(shù)據(jù)挖掘要解決哪類問題。并把要解決的問題轉(zhuǎn)化為數(shù)據(jù)挖掘問題。資源的評估: 硬件資源,軟件資源,數(shù)據(jù)資源, 人力資源管理人員,業(yè)務(wù)人員,技術(shù)人員數(shù)據(jù)評估:數(shù)據(jù)數(shù)量,數(shù)據(jù)質(zhì)量評估。工程成功估

27、計:成功后的效益(xioy),相應(yīng)人員分 析、維護(hù)的增加。第四十八頁,共八十二頁。49如:一個電信(dinxn)領(lǐng)域的數(shù)據(jù)挖掘工程問題可為: 一些優(yōu)質(zhì)(yuzh)客戶有什么特征? 哪些是不良客戶,他們有什么特征? 在欠費(fèi)客戶中,哪些是惡意的欠費(fèi), 哪些是善意的欠費(fèi)。 哪些客戶可能會有最好的潛力? 通過什么樣的標(biāo)準(zhǔn)來細(xì)分客戶? 如何來衡量客戶帶來的價值? 哪些是高價值客戶?如何去保住他們。第四十九頁,共八十二頁。50CRISP-DM2. 理解數(shù)據(jù) Data Understanding 從哪里進(jìn)行數(shù)據(jù)的收集數(shù)據(jù)來源有那些各數(shù)據(jù)源數(shù)據(jù)描述:格式(g shi),含義數(shù)據(jù)質(zhì)量外來數(shù)據(jù)有那些對數(shù)據(jù)的含義一

28、定要有深刻的理解才有可能從中找出挖掘規(guī)律和知識。第五十頁,共八十二頁。51CRISP-DM3. 準(zhǔn)備數(shù)據(jù)Data Preparation數(shù)據(jù)選擇數(shù)據(jù)清理數(shù)據(jù)重構(gòu)數(shù)據(jù)整合規(guī)格化:定出范圍標(biāo)準(zhǔn)化:解決不一致(yzh)數(shù)據(jù)準(zhǔn)備會占用整個工程50%以上時間第五十一頁,共八十二頁。52CRISP-DM4. 建立模型(mxng)Modeling數(shù)據(jù)匯總概念描述關(guān)聯(lián)規(guī)那么相關(guān)分析分類與預(yù)測聚類第五十二頁,共八十二頁。53CRISP-DM5. 方案(fng n)評估Evaluation挖掘結(jié)果獲得知識的評估挖掘過程的評估來決定是否要反復(fù),KDD是迭代過程第五十三頁,共八十二頁。54迭代(di di)過程第五十

29、四頁,共八十二頁。55CRISP-DM6. 方案實(shí)施(Deployment)發(fā)布挖掘結(jié)果獲得知識(zh shi)的評估決定實(shí)施方案Crisp-DM 1.0CRISP-DM 2.0 SIG WORKSHOP ANNOUNCEDCHICAGO, SEPTEMBER 26, 20* 第五十五頁,共八十二頁。56CRISP-DM各階段占用(zhn yn)時間和重要性1%10%方案實(shí)施5%10-20%建立模型和模型評估 15%50%數(shù)據(jù)準(zhǔn)備5%10-20%數(shù)據(jù)理解70%10%問題理解占項目成功的重要性花費(fèi)時間第五十六頁,共八十二頁。57數(shù)據(jù)挖掘需要(xyo)的人員 業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)

30、務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計學(xué)有較熟練的掌握,有能力(nngl)把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇適宜的技術(shù)。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。 第五十七頁,共八十二頁。58數(shù)據(jù)挖掘軟件(run jin)第五十八頁,共八十二頁。59數(shù)據(jù)挖掘軟件(run jin)的現(xiàn)狀國外Data Mining / Analytic Software Tools 534 voters (May 20*) 第五十九頁,共八十二頁。60數(shù)據(jù)挖掘軟件(run jin)的現(xiàn)狀國內(nèi)第六十頁,共八十二

31、頁。61數(shù)據(jù)挖掘軟件(run jin)的開展代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代作為一個獨(dú)立的應(yīng)用支持一個或者多個算法 獨(dú)立的系統(tǒng)單個機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計算機(jī)群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)測模型系統(tǒng)集成 多個算法數(shù)據(jù)管理和預(yù)測模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算設(shè)備的數(shù)據(jù)聯(lián)合 多個算法數(shù)據(jù)管理、預(yù)測模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在的計算模型 Robert Grossman的

32、觀點(diǎn)(gundin) (National Center for Data Mining, University of Illinois at Chicago)第六十一頁,共八十二頁。62數(shù)據(jù)挖掘軟件(run jin)的開展第一代數(shù)據(jù)挖掘軟件(run jin)第六十二頁,共八十二頁。63第一代數(shù)據(jù)挖掘軟件 CBA新加坡國立大學(xué)基于(jy)關(guān)聯(lián)規(guī)那么的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)那么,使用關(guān)聯(lián)規(guī)那么進(jìn)行分類和預(yù)測第六十三頁,共八十二頁。64數(shù)據(jù)挖掘軟件(run jin)的開展第二代數(shù)據(jù)挖掘軟件(run jin)特點(diǎn)與數(shù)據(jù)庫管理系統(tǒng)DBMS集成 支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能

33、的接口,具有高的可擴(kuò)展性 能夠挖掘(wju)大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 通過支持?jǐn)?shù)據(jù)挖掘模式data mining schema和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進(jìn)行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)第六十四頁,共八十二頁。65數(shù)據(jù)挖掘軟件(run jin)的開展第二代數(shù)據(jù)挖掘軟件(run jin) DBMiner第六十五頁,共八十二頁。66數(shù)據(jù)挖掘軟件(run jin)的開展第二代軟件(run jin) SAS Enterprise Miner第六十六頁,共八十二頁。67數(shù)據(jù)挖掘軟件(run

34、 jin)的開展第三代數(shù)據(jù)挖掘軟件(run jin)特點(diǎn)和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時反映到預(yù)言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動地被操作(cozu)型系統(tǒng)吸收,從而與操作(cozu)型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡(luò)環(huán)境下Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成 缺陷不能支持移動環(huán)境第六十七頁,共八十二頁。68數(shù)據(jù)挖掘軟件(run jin)的開展第三代軟件(run jin) SPSS Clementine以PMML的格式(g shi)提供與預(yù)言模型系統(tǒng)的接口第六

35、十八頁,共八十二頁。69數(shù)據(jù)挖掘軟件(run jin)的開展第四代數(shù)據(jù)挖掘軟件(run jin)特點(diǎn)目前(mqin)移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結(jié)合是當(dāng)前的一個研究領(lǐng)域。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在ubiquitous計算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)剛剛起步,PKDD2022上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)University of Maryland Baltimore County正在研制的CAREER數(shù)據(jù)挖掘工程的負(fù)責(zé)人,該工程研究期限是2022年4月到20*

36、年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)Ubiquitous設(shè)備的第四代數(shù)據(jù)挖掘系統(tǒng)。 第六十九頁,共八十二頁。70數(shù)據(jù)挖掘軟件(run jin)的開展第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷(quxin) 第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)言模型的使用和在操作型環(huán)境的部署 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,局部第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比方 IBM Int

37、elligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)剛剛起步。第七十頁,共八十二頁。71數(shù)據(jù)挖掘軟件(run jin)的開展數(shù)據(jù)挖掘軟件開展(kizhn)的三個階段獨(dú)立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案Gregory Piatetsky-Shapiro的觀點(diǎn)(gundin)the President of KDnuggets 第七十一頁,共八十二頁。72數(shù)據(jù)挖掘軟件(run jin)的開展獨(dú)立的數(shù)據(jù)挖掘軟件(run jin)95年以前特點(diǎn)獨(dú)立的數(shù)據(jù)挖掘軟件對應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)開展(kizhn)早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,

38、就形成一個軟件。這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比方C4.5決策樹,平行坐標(biāo)可視化parallel-coordinate visualization。 第七十二頁,共八十二頁。73橫向(hn xin)的數(shù)據(jù)挖掘工具集95年開始開展原因隨著數(shù)據(jù)挖掘應(yīng)用的開展,人們逐漸認(rèn)識到數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結(jié)合:1數(shù)據(jù)庫和數(shù)據(jù)倉庫;2多種類型的數(shù)據(jù)挖掘算法;3數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理(gunl),所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結(jié)合是自然的開展。 現(xiàn)實(shí)領(lǐng)域的問題是多種多樣的,一種或

39、少數(shù)數(shù)據(jù)挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價值的模型 第七十三頁,共八十二頁。74橫向(hn xin)的數(shù)據(jù)挖掘工具集95年開始開展過程隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集的數(shù)據(jù)挖掘軟件特點(diǎn)此類工具集的特點(diǎn)是提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉(zhuǎn)換和可視化 由于(yuy)此類工具并非面向特定的應(yīng)用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具Horizontal Data Mining Tools 由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具典型的橫向工具有IBM I

40、ntelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 第七十四頁,共八十二頁。75橫向(hn xin)的數(shù)據(jù)挖掘工具集95年開始IBM Intelligent MinerSPSS的ClementineSAS的Enterprise MinerSGI的MineSetOracle Darwin第七十五頁,共八十二頁。76縱向(zn xin)的數(shù)據(jù)挖掘解決方案99年開始開展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能(cinng)熟練使用,如果對算法不了解,難以得出好的模型 從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案Vertical Solution,即針對特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案 對于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中第七十六頁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論